CN109918503B - 基于动态窗口自注意力机制提取语义特征的槽填充方法 - Google Patents
基于动态窗口自注意力机制提取语义特征的槽填充方法 Download PDFInfo
- Publication number
- CN109918503B CN109918503B CN201910084904.XA CN201910084904A CN109918503B CN 109918503 B CN109918503 B CN 109918503B CN 201910084904 A CN201910084904 A CN 201910084904A CN 109918503 B CN109918503 B CN 109918503B
- Authority
- CN
- China
- Prior art keywords
- word
- attention mechanism
- current
- self
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 4
- 230000000306 recurrent effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000010006 flight Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- XCWPUUGSGHNIDZ-UHFFFAOYSA-N Oxypertine Chemical compound C1=2C=C(OC)C(OC)=CC=2NC(C)=C1CCN(CC1)CCN1C1=CC=CC=C1 XCWPUUGSGHNIDZ-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于动态窗口自注意力机制提取语义特征的槽填充方法,用于口语对话系统中提取用户话语的语义槽,步骤如下:将文本数据中的句子切分为词;将切分句子得到的词用词嵌入向量表示;选定一个窗口大小,对每个词计算该词需选择当前窗口内的具体信息,进一步得到当前词的上下文特征;对每个词,用该词的上下文特征和词向量,根据自注意力机制计算当前词的融合特征;对于每个词,将当前词的融合特征和当前词向量输入双向循环神经网络中进行分类,输出结果。本发明提出的动态窗口的方法先计算出上下文特征中哪些是不需要的,筛选掉不需要的特征,然后再通过自注意力机制提取剩余更有价值的特征之间的关系,得到最终的输入特征表示。
Description
技术领域
本发明涉及口语对话系统中的自然语言理解技术领域,具体涉及一种基于动态窗口自注意力机制提取语义特征的槽填充方法。
背景技术
槽填充是口语对话系统中自然语言理解模块的重要组成部分,旨在提取用户话语中一些比较重要的“语义槽”信息。槽填充性能的好坏,不仅对影响着自然语言理解的准确与否,也影响着整个对话系统中的后续模块的性能。提升槽填充的性能,可以让系统提取到用户话语中更准确的信息,让系统更好的和用户交互,提升用户的服务体验。在如今越来越多口语系统的不断发展下,槽填充也有着重要的实践和应用价值。
在槽填充的输入的特征提取方面,国内外目前的方法都是将词向量特征或者字符向量特征输入到模型进行分类(具体参见:Bing Liu and Ian Lane.“Attention-BasedRecurrent Neural Network Models for Joint Intent Detection and Slot Filling”,In Proceedings of INTERSPEECH.pp.685-689,2016.),没有进一步提取更好的输入特征。词向量或者字符向量可以在一定程度上表示文本的语义信息,但是直接输入模型并不能提取到很好的特征表示。一些人使用卷积神经网络(CNN)提取输入的上下文特征(具体参见:Heike Adel,Benjamin Roth and Hinrich Schütze:“Comparing Convolutional NeuralNetworks to Traditional Models for Slot Filling”,In Proceedings of NAACL/HLT.pp.828–838,2016.),Li等人使用了自注意力机制提取输入特征(具体参见:Changliang Li,Liang Li,Ji Qi.“A Self-Attentive Model with Gate Mechanism forSpoken Language Understanding”,In Proceedings of the 2018Conference onEmpirical Methods in Natural Language Processing.pp.3824–3833,2018.)。卷积神经网络可以提取到输入的上下文特征,但是卷积网络中卷积核的大小是固定的,这样提取到的特征上下文范围也是固定的。尽管自注意力机制是一种很好的特征提取手段,但是它假设了当前上下文中的信息是同等重要的,计算时计算了上下文范围内的所有特征。卷积网络和目前的自注意力机制都计算了上下文范围内所有特征,但是存在一些冗余特征是不需要被计算到的,针对这个问题,目前国内外并没有相关的解决方法。考虑到这一点,目前亟待提出一种基于动态窗口自注意力机制提取语义特征的槽填充方法。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于动态窗口自注意力机制提取语义特征的槽填充方法,该方法首先通过一种动态窗口选择特征,然后采用自注意力机制进行特征融合,更好地提取输入特征之间的关系。
本发明的目的可以通过采取如下技术方案达到:
一种基于动态窗口自注意力机制提取语义特征的槽填充方法,所述的槽填充方法包括下列步骤:
S1、将文本数据中的每个句子切分为词;
进一步地,所述的步骤S3包括:
进一步地,所述的步骤S32中,在训练时实施过程如下:
定义温度超参数τ,定义变量它的每一个分量是一个近似0或者1的数,[rt-L/2,…,rt-1,rt+1,…,rt+L/2]即可表示为窗口内词是否加入当前词的语义表示中,由下式计算得到rt的第i个分量1≤i≤2:
其中,matmul(·)代表矩阵乘法。
进一步地,所述的步骤S32中,在预测时实施过程如下:
mask~Multinomial(log(P))。
进一步地,所述的步骤S4实施过程如下:
其中,matmul(·)代表矩阵乘法,indicator为和矩阵乘法结果张量同维的张量,矩阵乘法结果为0的元素,在indicator中对应位置元素为-∞,否则为0。
进一步地,所述的步骤S5包括:
进一步地,所述的文本数据包括中文数据和/或英文数据。
本发明相对于现有技术具有如下的优点及效果:
1.与卷积网络和目前的自注意力计算上下文范围内所有特征不同,存在一些冗余特征对构建最终的输入特征是没有必要的。本发明提出的动态窗口的方法先计算出上下文特征中哪些是不需要的,筛选掉不需要的特征。这里使用求得的动态窗口概率分布,选择合适的温度超参数,利用Gumbel分布和softmax函数求得近似离散的01数值,作为窗口内特征的“掩码”,1代表保留,0代表丢弃,由于该数值是由动态窗口概率分布决定的,对于某个特征,对应的动态窗口概率越大,该数值是1的概率就越大,就越可能保留下来,反之同理,从而保留了窗口内有用的特征,过滤了窗口内无用的特征。
2.经过特征的筛选后,再通过自注意力机制提取剩余更有价值的特征之间的关系。用当前词向量和筛选的特征计算得到最终的输入特征。本发明使用的自注意力机制包含当前词向量和上下文特征的交互,且它的形式相对简单,相比一般自注意力机制有更少的参数,计算速度更快,可以很好的建模句子上下文特征之间的关系。
附图说明
图1是本发明中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的流程图;
图2是本发明中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的工作模型概要图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1是公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的流程图,如图1所示,所述方法包括以下步骤:
S1、将文本数据中的每个句子切分为词。数据可以是中文数据也可以是英文数据,中文语句可以用jieba分词,但不限于此。在这里以英文数据为例。如图2所示将句子“findflights from charlotte to Newark.”切分为词,得到词的列表:[find,flights,from,charlotte,to,Newark]。
S3.1、如图2所示,从中可以看出每个时间步时计算特征的方式。将当前正在计算的词charlotte的词嵌入向量表示和窗口内的词flights,from,to,Newark的词嵌入向量表示输入到一个网络中,产生动态窗口概率分布P=[pt-2,pt-1,pt+1,pt+2],它含4个2分类概率分布,其中每个
S4.2、定义温度超参数为一个很小的值,如τ=0.001,定义变量rt,它的每一个分量是一个近似0或者1的数,[rt-2,rt-1,rt+1,rt+2]即可表示为窗口内词是否加入当前词的语义表示中。由下式计算得到rt的第i个分量其中,是pt的第i个分量(1≤i≤2),pt是P的第t个分量,是gt的第i个分量(1≤i≤2),exp(x)是指数函数。
mask=matmul([rt-2,rt-1,rt+1,rt+2],[[0],[1]])
mask~Multinomial(log(P))
S5、对于每一个词,这里以图2中正在计算的charlotte为例,利用上下文flights,from,to,Newark的特征表示和当前词charlotte的特征表示根据自注意力机制计算当前词的融合特征表示具体如下:
其中,matmul(·)代表矩阵乘法,上下文特征和当前词特征利用矩阵乘法计算出一个4×1的张量,对于它包含flights,from,to,Newark的特征表示,这里们求得flights和to的特征为全0的张量。为了便于后续处理,将indicator=[-∞,0,-∞,0]这个4×1的张量和计算结果相加。输入softmax函数得到一个4×1的表示概率的张量,如图2所示,得到的张量为[0,0.3,0,0.7]。矩阵乘法计算得出的张量元素越大,经过softmax函数计算得到的概率值就越大,indicator对应为-∞的位置计算后为0,即达到了将这些不重要的语义去掉的目的。结果和进行矩阵乘法,输入softmax函数,得到融合特征表示
S6、对于句子的每一个词,都进行上述步骤,这里以图2的charlotte为例,将charlotte的融合特征表示和charlotte词向量输入到双向循环神经网络(Bi-LSTM)中进行分类,输出结果,步骤如下:
综上所述,本实施例提出的动态窗口的方法先计算出上下文特征中哪些是不需要的,筛选掉不需要的特征,然后再通过自注意力机制提取剩余更有价值的特征之间的关系,得到最终的输入特征表示。通过这种提取特征的方式,再输入到分类器如双向循环神经网络(Bi-LSTM)中,可以达到很好的识别效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的槽填充方法包括下列步骤:
S1、将文本数据中的每个句子切分为词;
2.根据权利要求1所述的基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的步骤S32中,在训练时实施过程如下:
其中,matmul(·)代表矩阵乘法。
6.根据权利要求1至5任一所述的基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的文本数据包括中文数据和/或英文数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910084904.XA CN109918503B (zh) | 2019-01-29 | 2019-01-29 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910084904.XA CN109918503B (zh) | 2019-01-29 | 2019-01-29 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918503A CN109918503A (zh) | 2019-06-21 |
CN109918503B true CN109918503B (zh) | 2020-12-22 |
Family
ID=66960929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910084904.XA Active CN109918503B (zh) | 2019-01-29 | 2019-01-29 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918503B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528168B (zh) * | 2020-12-23 | 2022-03-29 | 华南理工大学 | 基于可形变自注意力机制的社交网络文本情感分析方法 |
CN115048538A (zh) * | 2022-08-04 | 2022-09-13 | 中国科学技术大学 | 基于关系增强负采样的多模态知识图谱补全方法与系统 |
CN116992870B (zh) * | 2023-09-26 | 2023-12-19 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN108090558A (zh) * | 2018-01-03 | 2018-05-29 | 华南理工大学 | 一种基于长短期记忆网络的时间序列缺失值自动填补方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108763390A (zh) * | 2018-05-18 | 2018-11-06 | 浙江新能量科技股份有限公司 | 基于滑动窗口技术的细粒度主题提取方法 |
CN109241295A (zh) * | 2018-08-31 | 2019-01-18 | 北京天广汇通科技有限公司 | 一种非结构化数据中的特定实体关系的提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070143296A1 (en) * | 2005-12-15 | 2007-06-21 | Kanoodle.Com, Inc. | Taxonomy-based method and system for targeted advertising |
-
2019
- 2019-01-29 CN CN201910084904.XA patent/CN109918503B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN108090558A (zh) * | 2018-01-03 | 2018-05-29 | 华南理工大学 | 一种基于长短期记忆网络的时间序列缺失值自动填补方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108763390A (zh) * | 2018-05-18 | 2018-11-06 | 浙江新能量科技股份有限公司 | 基于滑动窗口技术的细粒度主题提取方法 |
CN109241295A (zh) * | 2018-08-31 | 2019-01-18 | 北京天广汇通科技有限公司 | 一种非结构化数据中的特定实体关系的提取方法 |
Non-Patent Citations (2)
Title |
---|
A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding;Changliang Li等;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181104;第3824-3833页 * |
汉语词性标注的特征工程;于江德等;《山东大学学报(工学版)》;20111216;第41卷(第6期);第12-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109918503A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3964998A1 (en) | Text processing method and model training method and apparatus | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN107038221B (zh) | 一种基于语义信息引导的视频内容描述方法 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN109918503B (zh) | 基于动态窗口自注意力机制提取语义特征的槽填充方法 | |
CN110633467B (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110427616B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN111859987A (zh) | 文本处理方法、目标任务模型的训练方法和装置 | |
CN109710916A (zh) | 一种标签提取方法、装置、电子设备及存储介质 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN112818110B (zh) | 文本过滤方法、设备及计算机存储介质 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
Stewart et al. | Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、系统及存储介质 | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
CN114036938B (zh) | 一种融合主题信息和词向量提取文本特征的新闻分类方法 | |
CN114118058A (zh) | 基于句法特征和注意力机制相融合的情感分析系统及方法 | |
CN109858035A (zh) | 一种情感分类方法、装置、电子设备和可读存储介质 | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN111259159B (zh) | 数据挖掘方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |