CN111951803A - 基于Star-Transformer的口语理解方法、系统及设备 - Google Patents

基于Star-Transformer的口语理解方法、系统及设备 Download PDF

Info

Publication number
CN111951803A
CN111951803A CN202010804529.4A CN202010804529A CN111951803A CN 111951803 A CN111951803 A CN 111951803A CN 202010804529 A CN202010804529 A CN 202010804529A CN 111951803 A CN111951803 A CN 111951803A
Authority
CN
China
Prior art keywords
information
node
star
matrix
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010804529.4A
Other languages
English (en)
Other versions
CN111951803B (zh
Inventor
刘美玲
马凯欣
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202010804529.4A priority Critical patent/CN111951803B/zh
Publication of CN111951803A publication Critical patent/CN111951803A/zh
Application granted granted Critical
Publication of CN111951803B publication Critical patent/CN111951803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

基于Star‑Transformer的口语理解方法、系统及设备,属于语言处理技术领域。本发明是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题。本发明所述的方法首先利用Star‑Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star‑Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。主要用于口语的计算机理解。

Description

基于Star-Transformer的口语理解方法、系统及设备
技术领域
本发明涉及口语的理解方法和系统;属于语言处理技术领域。
背景技术
随着人工智能的发展,基于深度神经网络的模型对语言识别能力越来越高,智能语音助手也相应产生;比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等;语言识别技术在人工智能有着不可替代的作用;
随着深度学习技术的发展,利用神经网络对自然语言进行识别,已经能够取得较为不错的效果;但是由于自然语言具有一定的模糊性和歧义性,如何更准确的识别到人们想表达的意愿仍然是一个巨大的挑战;针对于自然语言的口语而言,口语表达相对简单且更加随意,有事甚至不符合常规的表达逻辑,而且可能具有更多的意思表达可能性,所以口语更加具有模糊性和歧义性,利用现有的神经网络对于口语的识别时,对应的准确度(准确的识别到人们想表达的意愿)和准确率较低,都有待于进一步提高。
发明内容
本发明是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题;现提供一种基于Star-Transformer的口语理解方法、系统及设备。
基于Star-Transformer的口语理解方法,首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。
进一步地,所述方法还包括采集口语语音信息并将口语语音转换为文本序列,获得文本序列的特征矩阵的步骤。
进一步地,所述利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的过程包括以下步骤:
口语语音信息对应文本序列的特征矩阵记为H=[h1,…,hn],其中hj表示第j个字的特征,n为文本长度;对于查询向量q∈R1×d,注意力公式如下:
Figure BDA0002631324630000011
其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,表示查询向量q的列数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,…,headh)Wo (2)
headi=Attention(qWi Q,HWi K,HWi v),i∈[1,h] (3)
其中,h为头的个数,Wi Q,Wi K,Wi v,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,…,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;
Figure BDA0002631324630000021
Figure BDA0002631324630000022
其中,
Figure BDA0002631324630000023
为临时矩阵;所有带上角标的参数均表示对应层的参数,
Figure BDA0002631324630000024
表示第t层的hi,st-1为第t-1层的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接:
st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
Star-Transformer模型处理结束后完成信息提取。
进一步地,所述使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合的过程包括以下步骤:
使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;
Figure BDA0002631324630000025
Figure BDA0002631324630000026
其中,
Figure BDA0002631324630000027
分别表示HT的正向迭代和反向迭代;
Figure BDA00026313246300000214
分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,
Figure BDA0002631324630000029
分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT
Figure BDA00026313246300000210
Figure BDA00026313246300000211
进行拼接作为意图整合信息结点,
Figure BDA00026313246300000212
Figure BDA00026313246300000213
进行拼接作为插槽整合信息结点;
Figure BDA0002631324630000031
Figure BDA0002631324630000032
其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。
基于Star-Transformer的口语理解系统,所述系统包括Star-Transformer信息提取单元和信息整合单元;
所述Star-Transformer信息提取单元利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;
所述信息整合单元使用双向门控循环单元对Star-Transformer提取的信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。
进一步地,所述系统还包括文本序列的特征矩阵获取单元,所述文本序列的特征矩阵获取单元首先采集口语语音信息,并将口语语音转换为文本序列;然后根据文本序列获得文本序列的特征矩阵。
一种口语理解设备,所述设备用于存储和/或运行基于Star-Transformer的口语理解系统。
有益效果:
本发明通过Star-Transformer对自然语言分别进行局部信息和全局信息的提取,利用双向门控循环单元(BiGRU)对局部信息和全局信息进行整合,进而提高插槽填充和意图检测的性能,从而解决了利用现有的神经网络对口语进行识别存在的准确度较低的问题。
附图说明
图1为基于Star-Transformer的口语理解方法的流程示意图。
具体实施方式
具体实施方式一:参照图1具体说明本实施方式,
本实施方式为基于Star-Transformer的口语理解方法,包括以下步骤:
s1、搭建Star-Transformer信息提取层,提取全局信息和局部信息:
口语语音信息对应文本序列的特征矩阵记为H=[h1,…,hn],其中hj表示第j个字(中文就是字,英文就是单词)的特征,n为文本长度(中文就是字数,英文就是单词数);对于查询向量q∈R1×d,注意力公式如下:
Figure BDA0002631324630000041
其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,表示查询向量q的列数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,…,headh)Wo (2)
headi=Attention(qWi Q,HWi K,HWi v),i∈[1,h](3)
其中,h为头的个数,Wi Q,Wi K,Wi v,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,…,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;可以将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;
Figure BDA0002631324630000042
Figure BDA0002631324630000043
Figure BDA0002631324630000044
其中,
Figure BDA0002631324630000045
为临时矩阵;所有带上角标的参数均表示对应层的参数,
Figure BDA0002631324630000046
表示第t层的hi,st-1为第t-1层(t层的前一层)的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;上面的公式(5)和公式(6)都用于表示
Figure BDA0002631324630000047
并不是重复限定,而是先按照公式(5)得到
Figure BDA0002631324630000048
然后再经过ReLU和LayerNorm函数,得到最终所要形式的
Figure BDA0002631324630000049
也就是实际上可以直接表示为
Figure BDA00026313246300000410
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接,其余操作与第一阶段相同;
st=MultiHead(st-1,[st-1;Ht]) (7)
st=LayerNorm(ReLU(st)) (8)
Star-Transformer模型处理结束后得到全局信息和局部信息;公式(8)和公式(7)也不是重复限定,而是先按照公式(7)得到
Figure BDA00026313246300000411
然后再经过ReLU和LayerNorm函数,得到最终所要形式的st,也可以直接表示为st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
s2、搭建信息整合层,进行特征的整合:
使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合;使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元(GRU)初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;
Figure BDA0002631324630000051
Figure BDA0002631324630000052
其中,
Figure BDA0002631324630000053
分别表示HT的正向迭代和反向迭代;
Figure BDA0002631324630000054
分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,
Figure BDA0002631324630000055
分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT
Figure BDA0002631324630000056
Figure BDA0002631324630000057
进行拼接作为意图整合信息结点,
Figure BDA0002631324630000058
Figure BDA0002631324630000059
进行拼接作为插槽整合信息结点;
Figure BDA00026313246300000510
Figure BDA00026313246300000511
其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。
具体实施方式二:
本实施方式为基于Star-Transformer的口语理解方法,它包括以下步骤:
首先采集口语语音信息,并将口语语音转换为文本序列;
然后根据文本序列获得文本序列的特征矩阵H=[h1,…,hn]。
具体实施方式三:
本实施方式为基于Star-Transformer的口语理解系统,包括Star-Transformer信息提取单元和信息整合单元:
所述Star-Transformer信息提取单元利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行全局信息和局部信息的提取,具体过程如下:
口语语音信息对应文本序列的特征矩阵记为H=[h1,…,hn],其中hj表示第j个字(中文就是字,英文就是单词)的特征,n为文本长度(中文就是字数,英文就是单词数);对于查询向量q∈R1×d,注意力公式如下:
Figure BDA00026313246300000512
其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,表示查询向量q的列数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,…,headh)Wo (2)
headi=Attention(qWi Q,HWi K,HWi v),i∈[1,h] (3)
其中,h为头的个数,Wi Q,Wi K,Wi v,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,…,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;那就可以将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;
Figure BDA0002631324630000061
Figure BDA0002631324630000062
Figure BDA0002631324630000063
其中,
Figure BDA0002631324630000064
为临时矩阵;所有带上角标的参数均表示对应层的参数,
Figure BDA0002631324630000065
表示第t层的hi,st-1为第t-1层(t层的前一层)的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;上面的公式(5)和公式(6)都用于表示
Figure BDA0002631324630000066
并不是重复限定,而是先按照公式(5)得到
Figure BDA0002631324630000067
然后再经过ReLU和LayerNorm函数,得到最终所要形式的
Figure BDA0002631324630000068
也就是实际上可以直接表示为
Figure BDA0002631324630000069
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接,其余操作与第一阶段相同;
st=MultiHead(st-1,[st-1;Ht]) (7)
st=LayerNorm(ReLU(st)) (8)
Star-Transformer模型处理结束后得到全局信息和局部信息;公式(8)和公式(7)也不是重复限定,而是先按照公式(7)得到
Figure BDA00026313246300000610
然后再经过ReLU和LayerNorm函数,得到最终所要形式的st,也可以直接表示为st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
所述的信息整合单元,对Star-Transformer提取的全局信息和局部信息进行整合,具体过程如下:
使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合;使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元(GRU)初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;
Figure BDA0002631324630000071
Figure BDA0002631324630000072
其中,
Figure BDA0002631324630000073
分别表示HT的正向迭代和反向迭代;
Figure BDA0002631324630000074
分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,
Figure BDA0002631324630000075
分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT
Figure BDA0002631324630000076
Figure BDA0002631324630000077
进行拼接作为意图整合信息结点,
Figure BDA0002631324630000078
Figure BDA0002631324630000079
进行拼接作为插槽整合信息结点;
Figure BDA00026313246300000710
Figure BDA00026313246300000711
其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。
具体实施方式四:
本实施方式为基于Star-Transformer的口语理解系统,所述系统还包括文本序列的特征矩阵获取单元,所述文本序列的特征矩阵获取单元首先采集口语语音信息,并将口语语音转换为文本序列;然后根据文本序列获得文本序列的特征矩阵H=[h1,…,hn]。
实施例
按照具体实施方式一进行实验。经过实验(在数据集上预测的结果),本发明提出的“基于Star-Transformer的口语理解方法”在SNIPS Natural Language Understandingbenchmark测评数据集上的插槽填充任务、意图检测任务和总体评估任务与现有的方法对比效果见下表
表1基于Star-Transformer的口语理解方法的评测结果
Figure BDA0002631324630000081
由上表能够看出,本发明在SNIPS Natural Language Understanding benchmark测评数据集上的插槽填充任务、意图检测任务和总体评估任务与之前最好的相比分别提升了1.2,1.1,4.4。对于本领域来说,在三项指标达到一定准确度的情况下,再进行提高是很难的,而且本发明还能够保证三项指标都得到很好的效果,可见本发明的相比现有技术有着很大的优势。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围;凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (9)

1.基于Star-Transformer的口语理解方法,其特征在于,所述方法首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。
2.根据权利要求1所述的基于Star-Transformer的口语理解方法,其特征在于,所述方法还包括采集口语语音信息并将口语语音转换为文本序列,获得文本序列的特征矩阵的步骤。
3.根据权利要求1或2所述的基于Star-Transformer的口语理解方法,其特征在于,所述利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的过程包括以下步骤:
口语语音信息对应文本序列的特征矩阵记为H=[h1,...,hn],其中hj表示第j个字的特征,n为文本长度;对于查询向量q∈R1×d,注意力公式如下:
Figure 1
其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,d表示查询向量q的列数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,...,headh)Wo (2)
headi=Attention(qWi Q,HWi K,HWi v),i∈[1,h] (3)
其中,h为头的个数,Wi Q,Wi K,Wi v,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,...,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;
Figure FDA0002631324620000012
Figure FDA0002631324620000013
其中,
Figure FDA0002631324620000021
为临时矩阵;所有带上角标的参数均表示对应层的参数,
Figure FDA0002631324620000022
表示第t层的hi,st-1为第t-1层的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接:
st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
Star-Transformer模型处理结束后完成信息提取。
4.根据权利要求3所述的基于Star-Transformer的口语理解方法,其特征在于,所述使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合的过程包括以下步骤:
使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;
Figure FDA0002631324620000023
Figure FDA0002631324620000024
其中,
Figure FDA0002631324620000025
分别表示HT的正向迭代和反向迭代;
Figure FDA0002631324620000026
分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,
Figure FDA0002631324620000027
分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT
Figure FDA0002631324620000028
Figure FDA0002631324620000029
进行拼接作为意图整合信息结点,
Figure FDA00026313246200000210
Figure FDA00026313246200000211
进行拼接作为插槽整合信息结点;
Figure FDA00026313246200000212
Figure FDA00026313246200000213
其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。
5.基于Star-Transformer的口语理解系统,其特征在于,所述系统包括Star-Transformer信息提取单元和信息整合单元;
所述Star-Transformer信息提取单元利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;
所述信息整合单元使用双向门控循环单元对Star-Transformer提取的信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。
6.根据权利要求5所述基于Star-Transformer的口语理解系统,其特征在于,所述系统还包括文本序列的特征矩阵获取单元,所述文本序列的特征矩阵获取单元首先采集口语语音信息,并将口语语音转换为文本序列;然后根据文本序列获得文本序列的特征矩阵。
7.根据权利要求5或6所述基于Star-Transformer的口语理解系统,其特征在于,所述Star-Transformer信息提取单元利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的具体过程如下:
口语语音信息对应文本序列的特征矩阵记为H=[h1,...,hn],其中hj表示第j个字的特征,n为文本长度;对于查询向量q∈R1×d,注意力公式如下:
Figure FDA0002631324620000031
其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,d表示查询向量q的列数;softmax(·)为softmax函数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,...,headh)Wo (2)
headi=Attention(qWi Q,HWi K,HWi v),i∈[1,h] (3)
其中,h为头的个数,Wi Q,Wi K,Wi v,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,...,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;
Figure FDA0002631324620000032
Figure FDA0002631324620000033
其中,
Figure FDA0002631324620000034
为临时矩阵;所有带上角标的参数均表示对应层的参数,
Figure FDA0002631324620000035
表示第t层的hi,st-1为第t-1层的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接:
st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
Star-Transformer模型处理结束后完成信息提取。
8.根据权利要求7所述基于Star-Transformer的口语理解系统,其特征在于,所述信息整合单元使用双向门控循环单元对Star-Transformer提取的信息进行整合,将插槽预测的概率最大的意图作为输出结果的具体过程如下:
使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;
Figure FDA0002631324620000041
Figure FDA0002631324620000042
其中,
Figure FDA0002631324620000043
分别表示HT的正向迭代和反向迭代;
Figure FDA0002631324620000044
分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,
Figure FDA0002631324620000045
分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT
Figure FDA0002631324620000046
Figure FDA0002631324620000047
进行拼接作为意图整合信息结点,
Figure FDA0002631324620000048
Figure FDA0002631324620000049
进行拼接作为插槽整合信息结点;
Figure FDA00026313246200000410
Figure FDA00026313246200000411
其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。
9.一种口语理解设备,其特征在于,所述设备用于存储和/或运行权利要求6至8之一所述的基于Star-Transformer的口语理解系统。
CN202010804529.4A 2020-08-13 2020-08-13 基于Star-Transformer的口语理解方法、系统及设备 Active CN111951803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804529.4A CN111951803B (zh) 2020-08-13 2020-08-13 基于Star-Transformer的口语理解方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804529.4A CN111951803B (zh) 2020-08-13 2020-08-13 基于Star-Transformer的口语理解方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111951803A true CN111951803A (zh) 2020-11-17
CN111951803B CN111951803B (zh) 2022-12-16

Family

ID=73332228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804529.4A Active CN111951803B (zh) 2020-08-13 2020-08-13 基于Star-Transformer的口语理解方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111951803B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008325A (zh) * 2019-03-29 2019-07-12 海南中智信信息技术有限公司 一种基于商用对话系统的口语语言理解及改写方法
CN110555097A (zh) * 2018-05-31 2019-12-10 罗伯特·博世有限公司 在口语语言理解中利用联合的指针和注意力的槽位填充
WO2020051192A1 (en) * 2018-09-06 2020-03-12 Google Llc Dialogue systems
CN111368079A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种文本分类的方法、模型训练的方法、装置及存储介质
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555097A (zh) * 2018-05-31 2019-12-10 罗伯特·博世有限公司 在口语语言理解中利用联合的指针和注意力的槽位填充
WO2020051192A1 (en) * 2018-09-06 2020-03-12 Google Llc Dialogue systems
CN110008325A (zh) * 2019-03-29 2019-07-12 海南中智信信息技术有限公司 一种基于商用对话系统的口语语言理解及改写方法
CN111368079A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种文本分类的方法、模型训练的方法、装置及存储介质
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JACOB DANOVITCH: "Linking Social Media Posts to News with Siamese Transformers", 《HTTPS://ARXIV.ORG/ABS/2001.03303》 *
QIPENG GUO,等: "Star-Transformer", 《HTTPS://ARXIV.ORG/ABS/1902.09113》 *
ZHANG X,等: "A joint model of intent determination and slot filling for spoken language understanding", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-16)》 *
周乾荣: "面向句子分类的深度表示学习技术研究", 《中国博士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法

Also Published As

Publication number Publication date
CN111951803B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110209836A (zh) 远程监督关系抽取方法及装置
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN109101235A (zh) 一种软件程序的智能解析方法
CN112733866B (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2022134833A1 (zh) 语音信号的处理方法、装置、设备及存储介质
CN112784051A (zh) 专利术语抽取方法
CN112487807A (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN110619121A (zh) 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN110210036A (zh) 一种意图识别方法及装置
Chung et al. Unsupervised discovery of linguistic structure including two-level acoustic patterns using three cascaded stages of iterative optimization
CN112749549A (zh) 一种基于增量学习和多模型融合的中文实体关系抽取方法
CN113761893A (zh) 一种基于模式预训练的关系抽取方法
CN111951803B (zh) 基于Star-Transformer的口语理解方法、系统及设备
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113642862A (zh) 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统
CN116363712B (zh) 一种基于模态信息度评估策略的掌纹掌静脉识别方法
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant