CN108292305A - 用于处理语句的方法 - Google Patents
用于处理语句的方法 Download PDFInfo
- Publication number
- CN108292305A CN108292305A CN201680069394.3A CN201680069394A CN108292305A CN 108292305 A CN108292305 A CN 108292305A CN 201680069394 A CN201680069394 A CN 201680069394A CN 108292305 A CN108292305 A CN 108292305A
- Authority
- CN
- China
- Prior art keywords
- sentence
- feature
- method described
- party concerned
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 claims 7
- 239000011229 interlayer Substances 0.000 claims 1
- 239000013598 vector Substances 0.000 description 23
- 239000003795 chemical substances by application Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,以提供针对语句的标引的概率。
Description
技术领域
本发明总体涉及对话处理,具体地涉及用于包括口头和文本语句的对话的自然语言理解(NLU)方法和系统。
背景技术
自然语言理解(NLU)的方法和系统在计算机化对话系统中用于估计语句的意图,其例如可以执行口语理解(SLU)。如这里广义定义的,“口头”语句可以为语音或文本的形式。如果语句是口头的,那么语句可以从例如自动语音识别(ASR)系统来获得。如果语句是文本,那么语句可以从例如文本处理系统或键盘输入来获得。
传统意图估计方法可以基于短语匹配或分类方法,诸如增强、支持向量机(SVM),以及将各语句的词袋(BoW)特征用作输入的逻辑回归(LR)。然而,BoW特征由于例如缺少序列中的词的顺序而不具有足够能力来指示由词序列表示的语义信息。
为了考虑在各语句中的词序列的历史,使用N选1编码而不是BoW特征可以将递归神经网络(RNN)应用于语句分类。另外,长的短期记忆(LSTM)RNN是被设计为改善长期语境学习的RNN的形式,并且对于依赖语境的问题可以是有效的。这些方案在不考虑语句之间的语境的情况下对语句分类。另外,重要的是考虑整个对话的语句的序列的较广的语境来准确理解意图。使用RNN和LSTM的现有技术模型中的一些使用了单个语句内的词序列语境,而且考虑了整个对话的语句的序列的较广的语境。
此外,各语句关于依赖当事方的特征的语境具有不同的表达,诸如像代理人和委托人的面向任务的角色、依赖业务的术语和表达、依赖性别的语言、对话参与者之间的关系。然而,传统方法没有考虑由于不同角色而引起的这种依赖当事方的特征。
发明内容
本发明的实施方式提供用于处理语句的方法和系统。从自动语音识别(ASR)系统或文本获取语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,其中,特征传过隐藏层。在递归神经网络(RNN)的情况下,隐藏层具有递归连接,并且长短期记忆(LSTM)可以应用于RNN的隐藏层。然后,在NN的输出层中确定标引(label)的后验概率。
附图说明
[图1A]图1A是在两个当事方之间共享整个对话的语境历史的依赖当事方的神经网络的示意图。
[图1B]图1B是传过单个神经网络的不同层的依赖当事方的表达的示意图。
[图1C]图1C是根据本发明的实施方式的为具有两个平行的隐藏长短期记忆(LSTM)层的递归神经网络形式的语境感测口语理解(SLU)方法和系统的示意图。
[图2]图2是根据本发明的实施方式的隐藏层中的LSTM单元(cell)组的示意图。
[图3]图3是根据本发明的实施方式的语境感测SLU的传播处理的示意图。
[图4]图4是根据本发明的实施方式的、两个平行LSTM层的细节的示意图。
[图5]图5是根据本发明的实施方式的依赖角色的SLU的时域处理的示意图。
具体实施方式
我们发明的实施方式提供用于语言理解(例如,口语理解(SLU))的方法和系统。方法可以估计对话中的语句的意图。如这里广义定义的,语句可以为语音或文本的形式。如果语句是口头的,那么语句可以从例如自动语音识别(ASR)系统来获得。如果语句是文本,那么语句可以从例如文本处理系统或键盘输入来获得。
使用NN进行的语境感测SLU
图1A分别对于左侧的角色A 101和右侧的角色B 102示出在两个当事方之间共享整个对话的语境历史的依赖当事方的神经网络100。本发明的该实施方式使用两个神经网络,其将具有或没有对话期间长期语境的依赖当事方的表达考虑在内。
图1B示出了传过单个神经网络100的不同层的依赖当事方的表达。以下详细描述用于附图中的变量。
图1C示意性示出了另选形式的RNN 100。这里,输入层110从ASR 105接收输入词向量111。词向量与从委托人101和代理人102获取的语句对应。通常,委托人和代理人在他们的相应角色A和B期间轮流说出语句。
方法和网络可以在连接到如本领域中已知的存储器和输入/输出接口的处理器中实施。
按照惯例,各网络被示出为具有位于底部的输入层110和位于顶部的输出层140。输入层110接收与多个当事方的语句对应的输入词向量111。语句具有关联的各当事方的标识。标识与由当事方扮演的角色有关。词变量与对于角色A 101(例如委托当事方)和角色B102(例如代理当事方)获取的语句对应。通常,当事方在对话期间轮流生成针对各角色的语句。
投影层120减小词向量的维度从而生成降维词向量。递归隐藏层130被构造为长的短期记忆(LSTM),其具有与可以保持和忘记语境信息的当事方门131的递归连接。LSTM层生成针对语句的启动向量。输出层140基于该启动向量来估计输出标引141的后验概率。
为了准确理解多个当事方的对话中的意图,重要的是考虑各语句中的依赖当事方的表达以及在对话轮番的序列的语境中各语句的功能。
为了考虑整个对话的语境和各语句的依赖当事方的表达这两者,我们提供了基于神经网络(NN)的高效的NLU方案,其借助图1A所示的在当事方之间共享语境历史的依赖当事方的神经网络或借助如图1B所示的用依赖当事方的不同层来促进的单个神经网络来对语境感测的依赖当事方的表达建模。
各词使用具有或没有另外属性的特征的词向量表示(诸如BoW或N中选1编码)依次输入到NN中,该另外属性诸如语义信息、语法信息、面向任务的信息。词序列的特征传过依赖当事方的隐藏层中的一个隐藏层,并且在各语句的末尾输出诸如概念标签这样的语义信息。概念标签仅表示符号。语义信息可以是符号和/或是诸如图形的结构化信息。
在RNN的情况下,为了借助对话传播语境信息,针对语句的RNN的启动向量为了考虑整个对话的语境而充当对针对下一语句的RNN的输入。实施方式训练语境感知模型的RNN层,从而在考虑依赖当事方的表达的情况下根据词序列来预测语义信息的序列。
语句料库中的语句关于诸如代理人或委托人这样的角色对于各当事方来表征。为了对依赖当事方的语句精确地建模,我们提供了多个依赖当事方的神经网络,其如图1A所示的当事方之间共享整个对话的语境历史。另外,我们提供由图1B所描绘的依赖当事方的不同层来促进的单个神经网路。
不同依赖当事方的特征通过在依赖当事方的隐藏层之间切换来建模。在这些模型中,各语句的词一次输入一个,并且在各语句的末尾输出语义信息。在RNN的情况下,依赖当事方的隐藏层共同表示各语句内的语境和对话内的语境这两者。在其他NN中,依赖当事方的隐藏层仅表示各当事方的语句的特性。
如图2所示,我们不是如在传统RNN中使用网络单元(unit),而是使用隐藏层130中的一组LSTM单元(cell)200。LSTM单元可以使用门来将值记住任意时长。LSTM单元包含输入门210、忘记门220以及输出门230,其分别确定输入何时重要至要记住、何时忘记输入以及输入何时有助于输出。
M个语句的序列是u1,...,uτ,...,uM。各语句um包括词序列wτ,1,...,wτ,t,...,和概念标签aτ·从ASR接收的输入词向量xτ,t111是
xτ,t=OneHot(wτ,t), (1)
其中,词汇V中的词wτ,t使用函数OneHot(w)由N中选1编码转换,即,xτ,t∈{0,1}|v|。
输入向量由投影层120投影到D维向量
xτ,t′=Wprxτ,t+bpr, (2)
该向量然后被提供给递归隐藏层130,其中,Wpr是投影矩阵,并且bpr是偏差向量。
在隐藏层130处,根据下式使用LSTM单元来确定启动向量hτ,t:
iτ,t=σ(Wxix′τ,t+Whihτ,t-1+Wcicτ,t-1+bi), (3)
fτ,t=σ(Wxfx′τ,t+Whfhτ,t-1+Wcfcτ,t-1+bf), (4)
cτ,t=fτ,tcτ,t-1+iτ,ttanh(Wxcx′τ,t+Whchτ,t-1+bc), (5)
oτ,t=σ(Wxox′τ,t+Whohτ,t-1+Wcocτ,t+bo),以及 (6)
hτ,t=oτ,ttanh(cτ,t), (7)
其中,σ()是按元素的s型函数,并且iτ,t、fτ,t、oτ,t以及cτ,t分别是用于第τ个语句中的第t个输入词的输入门210、忘记门220、输出门230以及单元启动向量。
由下标z∈{x,h,i,f,o,c}标识加权矩阵Wzz和偏差向量bz。例如,Whi是隐藏-输入门矩阵,并且Wxo是输入-输出门矩阵。
输出向量141在各语句的末尾被确定为:
其中,WHO是变换矩阵,并且bO是根据隐藏向量将输入向量分类成不同种类的偏差向量。Softmax()是将分类结果转换成标引概率(即,对于标引组L,)的按元素的softmax函数:
其中,yτ[a]指示针对标引a的yτ的分量,该分量与标引的概率对应。
为了从之前的语句继承语境信息,在各语句开始时的隐藏和单元启动向量为:
其中,如图2所示,τ>1,并且h1,0=c1,0=0。
图3示出了我们的语境感测SLU的传播处理。词wi,j被依次输入到LSTM层130,并且作为输出的标引141与位于语句的末尾的语句概念对应,其中,符号EOS表示“句子末尾”。
与现有技术对比,我们的模型考虑了从对话的开始到结束的整个语境。因此,可以使用句子级的意图和对话级语境来推断标引概率。相比之下,传统模型仅仅独立地考虑各语句。
依赖角色的LSTM层
LSTM层可以使用注释了概念标签的人与人对语句料库来训练,概念标签表示如以下的表1所示的例如酒店预订的委托人和代理人意图。列从左至右指示说话者(例如,代理人和委托人)、语句以及概念标签。语句由代理人和委托人的各角色来表征。
如图4所示,表示委托人(A)和代理人(B)语句的两个平行LSTM层310和320并入模型中。角色门311和321控制哪一个角色、委托人或代理人有效。
两个LSTM层依赖说话者角色而具有不同的参数。由此,用于委托人语句的输入向量111由层310来处理,并且层320处理代理人语句。用于给定语句的有效角色受角色变量R控制,该角色变量用于将输出选通到各LSTM层。
然后,所选通的输出从递归LSTM层传递到输出层140。由此,递归LSTM输入接收来自在之前帧处有效的依赖角色的层的输出,这允许角色之间的转变。
借助对应层向后传播训练阶段的误差信号。各说话者的角色在对话期间不变,并且已知各语句的说话者。然而,模型结构使动态推断角色的可能性为开放式的。因此,我们可以将输出层处的启动确定为:
其中,是由角色R的LSTM层给出的隐藏启动向量,并且是克罗内克(Kronecker)的德尔塔,即,如果作为第τ个语句的角色的Rτ等于角色R,则R为1,否则,R为0。在各语句开始时,依赖角色的层的隐藏和单元启动向量为
并且 (13)
图5示出了依赖角色的SLU的时域处理。对于给定角色中的各语句,仅针对该角色的LSTM层工作,并且在对话轮番期间隐藏启动和单元存储被传播。附图示出了委托人语句(角色A)和代理人语句(角色B)。凭借该架构,可以考虑各对话的长的语境来训练两个LSTM层,并且模型可以准确预测依赖角色的概念标引。
本发明的效果
本发明使用基于角色的LSTM层提供高效语境感测SLU。为了在整个对话期间确定长期特性,我们实施了使用各概念标签的结果词序列来表示意图的LSTM。我们已经评价输入用于SLU的整个对话的语境信息的性能和基于说话者角色的LSTM层的有效性。具有依赖角色层的语境感测LSTM优于基于语句的方法,并且将SLU基线提高了11.6%和8.0%(绝对值)。
Claims (13)
1.一种用于处理语句的方法,该方法包括以下步骤:
从多个当事方获取语句作为词序列,其中,各语句具有关联的各当事方的标识;
将所述词序列和标识转换成特征;
在神经网络NN的输入层中接收各特征;
在所述NN的投影层中减小各特征的维度从而生成降维特征;
处理所述降维特征,以将所述特征传过所述NN的隐藏层;
以及
在所述NN的输出层中确定所述语句的标引的后验概率,
其中,上述步骤在处理器中执行。
2.根据权利要求1所述的方法,其中,所述NN是递归NN RNN,或是在所述NN的隐藏层中具有递归连接且在所述隐藏层中具有长的短期记忆LSTM的RNN。
3.根据权利要求1所述的方法,其中,所述语句是口头的,并且方法还包括:
在自动语音识别系统ASR中将所述语句转换成所述词序列。
4.根据权利要求1所述的方法,其中,所述语句是形成所述词序列的文本。
5.根据权利要求1所述的方法,其中,所述NN是在所述多个当事方之间共享整个对话的语境历史的依赖当事方的神经网络。
6.根据权利要求1所述的方法,其中,在单个NN的不同层间使用依赖当事方的表达。
7.根据权利要求1所述的方法,其中,所述语句形成对话,并且所述对话的语境被考虑,并且使用句子级的意图和对话级的语境来推断所述标引的所述概率。
8.根据权利要求1所述的方法,其中,所述LSTM包括与保持和忘记语境信息的当事方门的递归连接。
9.根据权利要求7所述的方法,其中,所述LSTM包括使用所述当事方门将值记住任意时长的单元。
10.根据权利要求1所述的方法,其中,对所述词序列中的词和特征依次进行处理,并且所述特征包括语义属性、语法属性以及面向任务的属性。
11.根据权利要求1所述的方法,其中,所述特征传过依赖当事方的隐藏层,并且在各语句的末尾输出包括概念标签的语义信息,并且其中,所述概念标签仅表示符号,并且所述语义信息包括符号和结构化信息。
12.根据权利要求1所述的方法,其中,所述语句关于所述多个当事方的角色来表征。
13.根据权利要求7所述的方法,其中,所述当事方门控制所述多个当事方中的哪一方有效。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/959,132 US9842106B2 (en) | 2015-12-04 | 2015-12-04 | Method and system for role dependent context sensitive spoken and textual language understanding with neural networks |
US14/959,132 | 2015-12-04 | ||
PCT/JP2016/085995 WO2017094911A1 (en) | 2015-12-04 | 2016-11-29 | Method for processing utterances |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108292305A true CN108292305A (zh) | 2018-07-17 |
CN108292305B CN108292305B (zh) | 2021-10-26 |
Family
ID=57750527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680069394.3A Active CN108292305B (zh) | 2015-12-04 | 2016-11-29 | 用于处理语句的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9842106B2 (zh) |
JP (1) | JP6469309B2 (zh) |
CN (1) | CN108292305B (zh) |
DE (1) | DE112016005042B4 (zh) |
WO (1) | WO2017094911A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325103A (zh) * | 2018-10-19 | 2019-02-12 | 北京大学 | 一种序列学习的动态标识符表示方法、装置及系统 |
CN109446314A (zh) * | 2018-11-14 | 2019-03-08 | 沈文策 | 一种客服问题处理方法及装置 |
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081231B (zh) | 2016-03-23 | 2023-09-05 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10388274B1 (en) | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
WO2018217563A1 (en) | 2017-05-20 | 2018-11-29 | Google Llc | Projection neural networks |
CN107633842B (zh) | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108509411B (zh) * | 2017-10-10 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
US10431207B2 (en) * | 2018-02-06 | 2019-10-01 | Robert Bosch Gmbh | Methods and systems for intent detection and slot filling in spoken dialogue systems |
KR20190129580A (ko) * | 2018-05-11 | 2019-11-20 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
CN108763504B (zh) * | 2018-05-30 | 2020-07-24 | 浙江大学 | 一种基于强化双通道序列学习的对话回复生成方法及系统 |
CN108877775B (zh) * | 2018-06-04 | 2023-03-31 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
US10885277B2 (en) | 2018-08-02 | 2021-01-05 | Google Llc | On-device neural networks for natural language understanding |
US10978051B2 (en) * | 2018-09-28 | 2021-04-13 | Capital One Services, Llc | Adversarial learning framework for persona-based dialogue modeling |
US10957320B2 (en) * | 2019-01-25 | 2021-03-23 | International Business Machines Corporation | End-of-turn detection in spoken dialogues |
JP7028203B2 (ja) * | 2019-02-07 | 2022-03-02 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
JP7160170B2 (ja) * | 2019-02-07 | 2022-10-25 | 日本電信電話株式会社 | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム |
US11526680B2 (en) | 2019-02-14 | 2022-12-13 | Google Llc | Pre-trained projection networks for transferable natural language representations |
US11631399B2 (en) * | 2019-04-16 | 2023-04-18 | Microsoft Technology Licensing, Llc | Layer trajectory long short-term memory with future context |
CN110781302B (zh) * | 2019-10-23 | 2024-06-21 | 清华大学 | 文本中事件角色的处理方法、装置、设备及存储介质 |
CN111222320B (zh) * | 2019-12-17 | 2020-10-20 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111341309A (zh) | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN112530437B (zh) * | 2020-11-18 | 2023-10-20 | 北京百度网讯科技有限公司 | 语义识别方法、装置、设备以及存储介质 |
CN112560505A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
CN112287698B (zh) * | 2020-12-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
CN112861509B (zh) * | 2021-02-08 | 2023-05-12 | 青牛智胜(深圳)科技有限公司 | 基于多头注意力机制的角色分析方法及系统 |
US20240127796A1 (en) * | 2021-02-18 | 2024-04-18 | Nippon Telegraph And Telephone Corporation | Learning apparatus, estimation apparatus, methods and programs for the same |
US12013958B2 (en) | 2022-02-22 | 2024-06-18 | Bank Of America Corporation | System and method for validating a response based on context information |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178371A1 (en) * | 2013-12-23 | 2015-06-25 | 24/7 Customer, Inc. | Systems and methods for facilitating dialogue mining |
CN104951433A (zh) * | 2015-06-24 | 2015-09-30 | 北京京东尚科信息技术有限公司 | 基于上下文进行意图识别的方法和系统 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3014177B2 (ja) * | 1991-08-08 | 2000-02-28 | 富士通株式会社 | 話者適応音声認識装置 |
JP2996926B2 (ja) * | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
DE69820497T2 (de) * | 1998-09-01 | 2004-10-14 | Swisscom Ag | Neuronales netzwerk und seine anwendung für die spracherkennung |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US9665823B2 (en) * | 2013-12-06 | 2017-05-30 | International Business Machines Corporation | Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition |
US9721562B2 (en) * | 2013-12-17 | 2017-08-01 | Google Inc. | Generating representations of acoustic sequences |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
JP6612855B2 (ja) * | 2014-09-12 | 2019-11-27 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 出力分布による生徒dnnの学習 |
-
2015
- 2015-12-04 US US14/959,132 patent/US9842106B2/en active Active
-
2016
- 2016-11-29 WO PCT/JP2016/085995 patent/WO2017094911A1/en active Application Filing
- 2016-11-29 CN CN201680069394.3A patent/CN108292305B/zh active Active
- 2016-11-29 JP JP2018503606A patent/JP6469309B2/ja active Active
- 2016-11-29 DE DE112016005042.9T patent/DE112016005042B4/de active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178371A1 (en) * | 2013-12-23 | 2015-06-25 | 24/7 Customer, Inc. | Systems and methods for facilitating dialogue mining |
CN104951433A (zh) * | 2015-06-24 | 2015-09-30 | 北京京东尚科信息技术有限公司 | 基于上下文进行意图识别的方法和系统 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
Non-Patent Citations (3)
Title |
---|
HASIM SAK等: "Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling", 《15TH ANNUAL CONFERENCE OF THE INTERNATIONAL-SPEECH-COMMUNICATION-ASSOCIATION (INTERSPEECH 2014)》 * |
KAISHENG YAO: "SPOKEN LANGUAGE UNDERSTANDING USING LONG SHORT-TERM MEMORY", 《IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2014)》 * |
冯升: "聊天机器人系统的对话理解研究与开发", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325103A (zh) * | 2018-10-19 | 2019-02-12 | 北京大学 | 一种序列学习的动态标识符表示方法、装置及系统 |
CN109325103B (zh) * | 2018-10-19 | 2020-12-04 | 北京大学 | 一种序列学习的动态标识符表示方法、装置及系统 |
CN109446314A (zh) * | 2018-11-14 | 2019-03-08 | 沈文策 | 一种客服问题处理方法及装置 |
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
DE112016005042T5 (de) | 2018-08-02 |
US9842106B2 (en) | 2017-12-12 |
WO2017094911A1 (en) | 2017-06-08 |
DE112016005042B4 (de) | 2020-12-03 |
JP2018528458A (ja) | 2018-09-27 |
US20170161256A1 (en) | 2017-06-08 |
JP6469309B2 (ja) | 2019-02-13 |
CN108292305B (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108292305A (zh) | 用于处理语句的方法 | |
Gelly et al. | Optimization of RNN-based speech activity detection | |
Shi et al. | Sentiment adaptive end-to-end dialog systems | |
CN110347847B (zh) | 基于神经网络的知识图谱补全方法 | |
CN108595436B (zh) | 情感对话内容的生成方法和系统、存储介质 | |
CN111344779A (zh) | 训练和/或使用编码器模型确定自然语言输入的响应动作 | |
Mai et al. | Enhancing Rasa NLU model for Vietnamese chatbot | |
CN109062902B (zh) | 一种文本语义表达方法及装置 | |
WO2014073612A1 (ja) | 会話文生成装置、会話文生成方法及び会話文生成プログラム | |
CN113918813A (zh) | 基于聊天记录形式外部知识的人岗推荐方法及装置 | |
CN114091478A (zh) | 基于有监督对比学习与回复生成辅助的对话情感识别方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
WO2014073613A1 (ja) | 会話文生成装置、会話文生成方法及び会話文生成プログラム | |
WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
CN116108856A (zh) | 基于长短回路认知与显隐情感交互的情感识别方法及系统 | |
US20220270636A1 (en) | Dialogue emotion correction method based on graph neural network | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 | |
WO2020183979A1 (ja) | 学習装置、学習方法及び非一時的なコンピュータ可読媒体 | |
CN115017900A (zh) | 一种基于多模态多去偏见的对话情感识别方法 | |
Nishimoto et al. | Dialogue management with deep reinforcement learning: Balancing exploration and exploitation | |
Chen et al. | Multi-level curriculum learning for multi-turn dialogue generation | |
CN111523045A (zh) | 一种协同过滤推荐方法 | |
CN109885687A (zh) | 一种文本的情感分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |