CN107924680A - 口语理解系统 - Google Patents
口语理解系统 Download PDFInfo
- Publication number
- CN107924680A CN107924680A CN201680046793.8A CN201680046793A CN107924680A CN 107924680 A CN107924680 A CN 107924680A CN 201680046793 A CN201680046793 A CN 201680046793A CN 107924680 A CN107924680 A CN 107924680A
- Authority
- CN
- China
- Prior art keywords
- network
- word
- sequence
- sub
- msrnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007935 neutral effect Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 7
- 230000000977 initiatory effect Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 30
- 238000000034 method Methods 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种口语理解(SLU)系统,该口语理解系统接收与用户的一个或更多个口头话语相对应的一序列词语,使所述一序列词语通过口语理解模块以生成一序列意图。使所述序列词语通过多尺度递归神经网络(MSRNN)的第一子网络,并且使所述序列意图通过多尺度递归神经网络(MSRNN)的第二子网络。接着,组合第一子网络的输出与第二子网络的输出以预测用户的目标。
Description
技术领域
本发明总体上涉及语音处理,并且更具体地,涉及用于在用户与口语对话系统对话期间基于来自该用户的语音中表达的目标来确定要由该口语对话系统执行的下一动作。
背景技术
如图1所示,在用户101与常规口语对话系统140之间的对话期间,自动语音识别器(ASR)110处理用户语音102,以向口语理解(SLU:spoken language understanding)模块120提供输入111。针对SLU的输入可以采用本领域同样已知的各种形式。通常,输入是一序列词语。所述词语可以具有关联的概率。SLU从输入提取语义信息。语义信息表示用户在语音中表达的意图121。所述意图可以随着该序列词语被渐进地处理而改变。然而,当已处理了序列中的所有词语时,确定概括所述意图的目标。基于该目标,对话管理器(DM)130确定口语对话系统要执行的下一动作131。
口语对话中的两个关键任务是用户意图理解与用户目标估计。SLU模块提取用户语音的寓意(下文中称作“意图(intention)”)。DM基于该意图的结果(即,目标)来确定下一动作。
该对话通常包括来自用户的一序列语音以及系统的对应话语和动作。意图和目标估计在比词语理解长的时间尺度上发生。随着获取了更多信息并且意图被澄清,目标的估计可以在对话期间改变。目标估计性能非常重要,因为其可以易于用户更快地实现正确的操作。
目标121是对话管理器130的输入,目标121表示由SLU模块从用户语音中提取出的用户寓意。然后,口语对话系统基于意图理解的结果来确定接下来要采取哪个动作。目的是完成对话,其可以包括面向目标的口语对话系统中的多个用户和系统话语/动作。
意图理解被拟定为语义话语分类问题,而目标估计被拟定为整个对话的分类问题。常规的意图理解和目标估计可以在目标估计中使用词语包(bag of word(BoW))特征或意图包(bag of intention)特征作为分类方法的输入,诸如助推(boosting)、支持矢量机和/或逻辑回归。
然而,将BoW特征应用于SLU任务的问题之一是特征矢量趋于非常稀疏。每个话语通常只有相对少量的词语,而不像通常在文档分析期间可用的非常大量的词语。因此,BoW特征矢量有时缺乏足够的语义信息来准确地估计用户意图。
最成功的神经网络方法之一是基于深度信念网络(DBN),DBN可以被看作是简单的无监督网络(如限制Boltzmann机(RBM)的堆栈)的组成。针对RBM的参数被用作初始值以通过反向传播过程来估计神经网络参数。在DBN背景下,确定初始参数的第一步骤被称作预训练,而区分性网络训练的第二步骤被称作微调。
常规神经网络预测和训练系统分别如图6和图7所示。如图6所示,为了预测,词语序列610被输入至网络620,并且根据网络参数630加以处理以生成用户意图和目标621。
图7示出了利用预训练网络参数625和训练序列710对网络620的网络参数630的对应训练。
因为深度神经网络(DNN)和DBN训练在ASR和图像处理中的成功,所以其它神经网络架构已被应用至包括深凸网络(Deep Convex Network)、递归神经网络(RNN),以及长期短期记忆(LSTM)RNN的SLU。
然而,在将那些技术应用于SLU时,一个主要的困难是经常没有足够的训练数据用于任务,并且诠释训练数据可能是耗时的。在低资源条件下训练的神经网络的性能通常因过度训练而较差。
词语嵌入
许多自然语言处理(NLP)系统使用BoW或“独热(one-hot)词语”矢量作为输入,这导致特征矢量具有极大的维度。另选方案是词语嵌入,其将大的稀疏词语特征矢量投影到低维的、密集的矢量表述中。
存在用于学习词语矢量的多个模型族,包括矩阵因子分解法(诸如潜在语义分析(LSA)、低秩多视图学习(LR-MVL)、对数-双线性回归模型(GloVe))、基于神经网络语言模型(NNLM)的方法,这些方法对本地背景窗口建模(诸如连续词语包(CBOW)、Skip-gram)等。大多数词语矢量方法依赖于词语矢量对之间的距离或角度作为用于评估词语表述的内在质量的主要方法。
Mikolov等人使用基于词语类比的评估方案,所述方案有利于生成含义维度的模型,Mikolov等人的“Efficient estimation of word representations in vectorspace,”arXiv preprint arXiv:1301.3781,2013。“GloVe:Global Vectors for WordRepresentation”在词语类比任务中示出了CBOW和Skip-gram的竞争结果。
上述方法中,Glove、CBOW及Skip-gram是用于词语类比任务的当前现有技术。Glove对全局词-词共现计数进行训练,并有效利用全局统计数据。CBOW基于上下文来预测当前词语,而Skip-gram预测给定的当前词语周围的词语。实施Skip-gram和CBOW的Mikolov工具包“word2vec”可以非常有效地在大规模语料库上进行训练。
潜在话题模型
潜在话题模型可以从许多文档中发现语义信息。在信息检索中广泛使用的主题嵌入(Topic Embedding)将文档视为话题的混合,并使用矢量来表示话题分布。已被用于SLU的常规潜在话题模型包括概率潜在语义分析(PLSA)、潜在Dirichlet分配(LDA)、相关话题模型(CTM)以及Pachinko分配模型(PAM),这些话题模型全部都使用Bayesian推断来确定潜在话题的分布。大多数潜在变量模型是可以在无监督训练中使用的生成模型。
LDA在大规模语料库上表现良好,并且可以有效地进行训练。然而,因为利用迭代推断过程(例如,变化期望最小化(EM)或采样法)获取LDA嵌入,所以在神经网络框架内很难微调LDA嵌入。
发明内容
诸如根据用户语音的意图理解和目标评估的口语理解(SLU)任务是口语对话系统中的基本组件。神经网络可以被用于各种SLU任务。然而,SLU的一个主要难点在于对所收集的数据的诠释可能是耗时的。通常,这导致可用于任务的数据不足。在低资源条件下训练的神经网络的性能通常因过度训练而较差。
为改进性能,本发明的实施方式使用具有基于词语嵌入和潜在话题模型的大规模语料库的无监督训练方法来预训练SLU网络。
为了取得整个对话的长期特征,本发明的实施方式使用多尺度递归神经网络(MSRNN)来预测用户意图和目标。MSRNN预测系统使用第一子网络和第二子网络来使用不同时间尺度的口语对话进行建模,例如,由一序列词语和一序列意图表示的那些口语对话。用于针对词语的子网络的时间尺度比用于意图的时间尺度短且频繁。
MSRNN预测系统中的组合模块组合子网络输出矢量,并利用针对每个预测类别的分数来预测用户的目标。通过在训练期间使用针对每个子网络的预训练子网络参数来有效估计该MSRNN预测系统的多尺度网络参数。与常规的SLU系统相比,基于MSRNN的预测系统可将误差减少约18%。
预训练子网络使用词语嵌入网络,其将独热词矢量转换成连续矢量,对于词语级的子网络,可以有效地构建MSRNN。MSRNN中的参数可以随着时间的推移用常规反向传播过程来优化,其中,常规词语嵌入网络的参数可以被用作MSRNN的初始参数,或者在优化过程期间用作正则化参数。
附图说明
图1是常规的计算机化口语对话系统的流程图。
图2是本发明实施方式所使用的浅前馈神经网络的示意图。
图3是根据本发明实施方式的多尺度递归神经网络(MSRNN)的示意图。
图4是根据本发明实施方式的基于多尺度递归神经网络(MSRNN)的预测系统的流程图。
图5是根据本发明实施方式的基于多尺度递归神经网络(MSRNN)的训练系统的流程图。
图6是用于常规的递归神经网络的预测系统的流程图。
图7是用于常规的递归神经网络的训练系统的流程图。
具体实施方式
本发明的实施方式提供了一种用于基于对话期间来自用户的话语中表达的目标来确定要由口语对话系统执行的下一动作。
线性输入网络的微调
可以被用于口语理解任务的方法使用区分性方法来表示意图和目标估计模型。另外,可以经由特征工程化来结合各种信息。使用多变量逻辑回归将分类目标g和特征矢量X的后验概率P(g|X)确定为
P(g|X)=softmax([WX]g), (1)
其中,[Y]g意指矢量Y的第g个原始元素。该softmax函数为
其中,z是范围[0,1]中的矢量,并且m和k是索引。
在训练期间估计权重矩阵W,下面进行更详细描述。对于意图预测,X是词袋(BoW:bag-of-words)特征矢量,而g是意图类别。对于目标估计任务,X是包括对话历史中的每个预测意图的置信度分数的意图袋(bag-of-intentions)特征矢量,并且g是目标类别。
如图2所示,基线模型可以被表征为浅层神经网络,其中,一个输入层200和一个softmax输出层203预测目标204。
为了将word2vec嵌入导入系统,将词语嵌入Xw 201与基线特征Xb 202连结,即,
参见Mikolov等人的文献。(3)
通过对该轮次(turn)或句子中的每个词语的归一化的word2vec特征求和来获取词语序列Xw:
其中,T是句中或轮次中的词语数。Xw(i)是利用大型语料库预训练的输入序列中的第i个词语的word2vec特征。
将两个结构用于微调。一个是前馈结构,该结构用于微调从word2vec嵌入获取的仿射变换。这等同于向浅基线网络添加线性层。
另选的是,GloVe、LR-MVL及LSA也是有用的词语嵌入,它们使用不同的方法来建模全局词-词共现计数。LSA使用特征分解矩阵因子分解技术来将词-词共现矩阵投影到较低维度。LR-MVL通过执行数据的低秩近似的过去和未来视图之间的典型相关分析(CCA)来学习实值化的上下文特定词语嵌入。LR-MVL适用于双字母组或三字母组共现矩阵。LR-MVK使用比LAS长的词语序列信息来估计上下文特定嵌入。GloVe将词语嵌入的平方误差最小化为词-词共现计数。
另一种结构针对不同时间尺度使用多尺度递归神经网络(MSRNN:Multi-scaleRecurrent Neural Network)。将MSRNN应用于目标估计,其使用ASR结果和预测意图作为输入。在MSRNN训练期间,可以对来自word2vec嵌入的仿射变换进行微调。
前馈架构
如图2所示,前馈架构通过在BoW层200与输出层203之间添加线性隐藏层201和202来改变基线结构。
给定输入特征的意图的后验概率利用softmax来确定
其中,
Xw=φXBOW,并且(6)
XBOW是从话语获取的BoW矢量,其中,词汇大小的维度为V。φ是最初从维度为n×V的word2vec学习的词语嵌入矩阵,其中,n是词语嵌入的维数。方程6是仿射变换。W是隐藏层与输出层之间的权重矩阵。微调是通过将φ与W一起更新来实现的。XI是具有通过对N最佳意图置信度分数求和而获取的意图类别数量的维度的矢量。在基线方法中使用同一XI。
前馈架构使得可以灵活地调整到任务域,并且事实上得到比纯特征连结更好的结果。
多尺度递归神经网络(MSRNN)
如图3所示,意图理解和目标估计具有两个输入序列:词语序列310和意图序列340。这两个序列在不同的时间尺度上处理。用于词语的时间尺度比用于意图的时间尺度短且频繁。
基线架构将输入词语处理为词袋,这忽略了输入的上下文信息。两个输入序列词语(310)和意图(340)包含上下文信息,并且直观地,获取该信息的系统可以没有获取该信息的系统执行得更好。
因此,使用MSRNN来建模由词语和意图序列表示的不同时间尺度,图3中示出。
该图中的上半部分301将较短的第一时间标度RNN 320表示为整个序列,第一时间标度RNN 320接受针对每个话语中的每个词语的特征矢量310。RNN 320可以随着该序列中的每个新词语被接受而改变状态,如图3所示,作为每个输入步骤的RNN 320的新状态。该图的下半部分302表示较长的第二时间尺度RNN 330,第二时间尺度RNN 330接受针对每个话语的单个意图特征340矢量。RNN 330可以随着对话序列中的每个新话语被处理而改变状态,如图3所示,作为每个输入步骤的RNN330的新状态。
例如,针对话语中的每个词语,RNN 320比RNN 330更频繁地更新。利用在每个对话轮次被处理之后的RNN 320和330的状态,在该对话轮次结束时对目标进行预测。词语和意图RNN 320和330的最后层321和331被用于预测目标204。换句话说,层321和331分别在每个轮次结束时反映到RNN 320和330的状态。
上述架构公式化如下:
p(g|X,I)=softmax([W[hw(T)T,hI(M)T]T]g), (7)
其中,X={X(1),X(2),...,X(T)}310并且I={I(1),I(2),...,I(M)}340,T和M分别是词语序列和意图序列的长度。X(t)和I(m)分别是独热词语和意图矢量。hw(T)和hI(M)是T和M处的隐藏激活矢量,下面对它们加以描述。
词语序列和意图序列的递归模块可以被确定为:
hw(t)=sigmoid(X(t)φw+hw(t-1)Ww),和 (8)
hI(m)=sigmoid(I(m)φI+hI(m-1)WI)。 (9)
在隐藏层使用sigmoid函数,定义如下:
其中,φw和φI是输入节点与隐藏节点之间的针对词语和意图的权重矩阵。φw通过词语嵌入矩阵进行初始化,并且通过时间的反向传播(back propagation throughtime)被用于微调φw。Ww和WI是上下文节点与隐藏节点之间的权重矩阵。φI、Ww以及WI被随机初始化。
如图4所示,本发明的实施方式使用多尺度递归神经网络(MSRNN)来获取整个对话的长期特征以在预测系统中预测用户意图和目标。
对预测系统的输入是针对对应的第一和第二子网络320和330的词语序列310和意图序列340。子网络对口语对话的不同时间尺度建模,例如,由词语序列和意图序列表示的那些。
组合模块440组合子网络的输出矢量以预测用户的目标204。
如图5所示,在利用训练词语序列510和意图序列520进行训练期间,利用针对每个子网络420的预训练子网络参数521来估计该MSRNN预测系统的多尺度网络参数430。
该预训练的子网络使用词语嵌入网络,其将独热词矢量转换成连续矢量,对于词语级子网络,MSRNN可以被有效地构建。MSRNN中的参数可以随着时间的推移用常规反向传播过程来优化,其中,常规词语嵌入网络的参数可以被用作MSRNN的初始参数,或者用作优化过程期间的正则化参数。
本发明的效果
本发明的实施方式提供了用于低资源SLU任务的高效学习的架构。词语嵌入是无监督的,并针对特定SLU任务进行微调。为了获得整个对话的长期特征,实施MSRNN,其使用两个子网络来对由词语序列和意图序列表示的不同时间尺度进行建模。
Claims (6)
1.一种口语理解(SLU)系统,该口语理解系统包括以下步骤:
接收与用户的一个或更多个口头话语相对应的一序列词语;
使所述一序列词语通过口语理解模块,以生成一序列意图;
使所述一序列词语通过多尺度递归神经网络(MSRNN)的第一子网络;
使所述一序列意图通过所述多尺度递归神经网络(MSRNN)的第二子网络;
组合所述第一子网络的输出和所述第二子网络的输出,以预测所述用户的目标,其中,在处理器中执行上述步骤。
2.根据权利要求1所述的系统,其中,所述一序列词语是自动语音识别(ASR)系统的输出。
3.根据权利要求2所述的系统,其中,所述一序列词语是与所述用户的所述一个或更多个口头话语相对应的一组词语上的概率分布。
4.根据权利要求1所述的系统,其中,所述目标被输入至对话管理器以输出口语对话系统将要执行的动作。
5.根据权利要求1所述的系统,其中,所述一序列意图中的每个意图是与所述用户的所述一个或更多个口头话语相对应的一组意图上的概率分布。
6.根据权利要求1所述的系统,其中,联合地使用所述第一子网络和所述第二子网络的单独的预训练初始化参数来训练用于所述多尺度递归神经网络(MSRNN)的网络参数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/827,669 | 2015-08-17 | ||
US14/827,669 US9607616B2 (en) | 2015-08-17 | 2015-08-17 | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
PCT/JP2016/073019 WO2017030006A1 (en) | 2015-08-17 | 2016-07-29 | Spoken language understanding system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107924680A true CN107924680A (zh) | 2018-04-17 |
CN107924680B CN107924680B (zh) | 2021-08-31 |
Family
ID=56877090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680046793.8A Active CN107924680B (zh) | 2015-08-17 | 2016-07-29 | 口语理解系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9607616B2 (zh) |
EP (1) | EP3338280B1 (zh) |
JP (1) | JP6444530B2 (zh) |
CN (1) | CN107924680B (zh) |
WO (1) | WO2017030006A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962224A (zh) * | 2018-07-19 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 口语理解和语言模型联合建模方法、对话方法及系统 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN111597342A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多任务意图分类方法、装置、设备及存储介质 |
CN112005299A (zh) * | 2018-04-25 | 2020-11-27 | 三星电子株式会社 | 理解自然语言短语的多模型 |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10083169B1 (en) * | 2015-08-28 | 2018-09-25 | Google Llc | Topic-based sequence modeling neural networks |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US10931633B2 (en) * | 2015-12-10 | 2021-02-23 | Verisign, Inc. | Syntactically and/or semantically relevant alternative domain name generation |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US11263514B2 (en) * | 2016-01-13 | 2022-03-01 | Google Llc | Processing and generating sets using recurrent neural networks |
CN107220220A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于文本处理的电子设备和方法 |
US10431205B2 (en) * | 2016-04-27 | 2019-10-01 | Conduent Business Services, Llc | Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network |
WO2017210613A1 (en) * | 2016-06-03 | 2017-12-07 | Maluuba Inc. | Natural language generation in a spoken dialogue system |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
US11783173B2 (en) * | 2016-06-23 | 2023-10-10 | Microsoft Technology Licensing, Llc | Multi-domain joint semantic frame parsing |
US10268679B2 (en) * | 2016-12-02 | 2019-04-23 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network |
KR20180092582A (ko) * | 2017-02-10 | 2018-08-20 | 삼성전자주식회사 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
US10691886B2 (en) * | 2017-03-09 | 2020-06-23 | Samsung Electronics Co., Ltd. | Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof |
US11354565B2 (en) * | 2017-03-15 | 2022-06-07 | Salesforce.Com, Inc. | Probability-based guider |
US10755174B2 (en) * | 2017-04-11 | 2020-08-25 | Sap Se | Unsupervised neural attention model for aspect extraction |
US20180307753A1 (en) * | 2017-04-21 | 2018-10-25 | Qualcomm Incorporated | Acoustic event enabled geographic mapping |
US10642875B2 (en) * | 2017-04-28 | 2020-05-05 | International Business Machines Corporation | Accurate relationship extraction with word embeddings using minimal training data |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
US10853724B2 (en) | 2017-06-02 | 2020-12-01 | Xerox Corporation | Symbolic priors for recurrent neural network based semantic parsing |
CN107452374B (zh) * | 2017-07-11 | 2020-05-05 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
JP7112075B2 (ja) * | 2017-08-07 | 2022-08-03 | 国立研究開発法人情報通信研究機構 | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
CN107578092A (zh) * | 2017-09-01 | 2018-01-12 | 广州智慧城市发展研究院 | 一种基于情绪和意见挖掘的情感复合分析方法及系统 |
EP3488354B1 (en) | 2017-10-12 | 2022-04-20 | Google LLC | Determining state of automated assistant dialog |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
KR101932263B1 (ko) * | 2017-11-03 | 2018-12-26 | 주식회사 머니브레인 | 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
US10431207B2 (en) | 2018-02-06 | 2019-10-01 | Robert Bosch Gmbh | Methods and systems for intent detection and slot filling in spoken dialogue systems |
US10713441B2 (en) * | 2018-03-23 | 2020-07-14 | Servicenow, Inc. | Hybrid learning system for natural language intent extraction from a dialog utterance |
CN108682417B (zh) * | 2018-05-14 | 2020-05-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
US10956790B1 (en) * | 2018-05-29 | 2021-03-23 | Indico | Graphical user interface tool for dataset analysis |
EA201891077A1 (ru) * | 2018-05-31 | 2019-12-30 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале |
RU2720899C2 (ru) | 2018-09-14 | 2020-05-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации |
RU2720952C2 (ru) | 2018-09-14 | 2020-05-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для создания рекомендации цифрового содержимого |
RU2725659C2 (ru) | 2018-10-08 | 2020-07-03 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для оценивания данных о взаимодействиях пользователь-элемент |
US20220004545A1 (en) * | 2018-10-13 | 2022-01-06 | IPRally Technologies Oy | Method of searching patent documents |
US11037546B2 (en) * | 2018-11-15 | 2021-06-15 | Microsoft Technology Licensing, Llc | Nudging neural conversational model with domain knowledge |
CN109492759B (zh) * | 2018-12-17 | 2022-05-20 | 北京百度网讯科技有限公司 | 神经网络模型预测方法、装置和终端 |
US10957320B2 (en) * | 2019-01-25 | 2021-03-23 | International Business Machines Corporation | End-of-turn detection in spoken dialogues |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
JP7103264B2 (ja) * | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN111738010B (zh) * | 2019-03-20 | 2023-10-17 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
US10991365B2 (en) * | 2019-04-08 | 2021-04-27 | Microsoft Technology Licensing, Llc | Automated speech recognition confidence classifier |
US10860809B2 (en) | 2019-04-09 | 2020-12-08 | Sas Institute Inc. | Word embeddings and virtual terms |
CN110222848A (zh) * | 2019-05-05 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 计算机执行的集成模型的确定方法及装置 |
CN110309317B (zh) * | 2019-05-22 | 2021-07-23 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110211573A (zh) * | 2019-05-28 | 2019-09-06 | 重庆邮电大学 | 一种基于神经网络模型的任务驱动型对话决策方法 |
US11487945B2 (en) | 2019-07-02 | 2022-11-01 | Servicenow, Inc. | Predictive similarity scoring subsystem in a natural language understanding (NLU) framework |
US11599768B2 (en) | 2019-07-18 | 2023-03-07 | International Business Machines Corporation | Cooperative neural network for recommending next user action |
US11663814B2 (en) * | 2019-08-23 | 2023-05-30 | Arm Limited | Skip predictor for pre-trained recurrent neural networks |
RU2757406C1 (ru) | 2019-09-09 | 2021-10-15 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для обеспечения уровня сервиса при рекламе элемента контента |
KR20210062838A (ko) * | 2019-11-22 | 2021-06-01 | 엘지전자 주식회사 | 인공지능 기반의 음성처리 방법 |
CN111274789B (zh) * | 2020-02-06 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 文本预测模型的训练方法及装置 |
CN112347247B (zh) * | 2020-10-29 | 2023-10-13 | 南京大学 | 基于LDA和Bert的特定类别文本标题二分类方法 |
US20220199078A1 (en) * | 2020-12-22 | 2022-06-23 | Samsung Electronics Co., Ltd. | Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof |
CN113707131B (zh) * | 2021-08-30 | 2024-04-16 | 中国科学技术大学 | 语音识别方法、装置、设备及存储介质 |
US20230111052A1 (en) * | 2021-10-13 | 2023-04-13 | International Business Machines Corporation | Self-learning annotations to generate rules to be utilized by rule-based system |
WO2023062790A1 (ja) * | 2021-10-14 | 2023-04-20 | 日本電信電話株式会社 | ログデータ解析装置、ログデータ解析方法、およびプログラム |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020082833A1 (en) * | 2000-11-16 | 2002-06-27 | Krzysztof Marasek | Method for recognizing speech |
CN1755723A (zh) * | 2004-09-09 | 2006-04-05 | 美国电报电话公司 | 用于报告来自自动对话系统的信息的系统和方法 |
CN101645064A (zh) * | 2008-12-16 | 2010-02-10 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
CN101847405A (zh) * | 2009-03-23 | 2010-09-29 | 索尼公司 | 语音识别装置和方法、语言模型产生装置和方法及程序 |
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
CN103458056A (zh) * | 2013-09-24 | 2013-12-18 | 贵阳世纪恒通科技有限公司 | 自动外呼系统基于自动分类技术的语音意图判定方法 |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
CN104360897A (zh) * | 2014-10-29 | 2015-02-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
US20150221304A1 (en) * | 2005-09-27 | 2015-08-06 | At&T Intellectual Property Ii, L.P. | System and Method for Disambiguating Multiple Intents in a Natural Lanaguage Dialog System |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442828B2 (en) | 2005-12-02 | 2013-05-14 | Microsoft Corporation | Conditional model for natural language understanding |
DE112014005354T5 (de) * | 2013-11-25 | 2016-08-04 | Mitsubishi Electric Corporation | Dialog-management-system und dialog-management-verfahren |
US9239828B2 (en) * | 2013-12-05 | 2016-01-19 | Microsoft Technology Licensing, Llc | Recurrent conditional random fields |
-
2015
- 2015-08-17 US US14/827,669 patent/US9607616B2/en active Active
-
2016
- 2016-07-29 JP JP2017549836A patent/JP6444530B2/ja active Active
- 2016-07-29 CN CN201680046793.8A patent/CN107924680B/zh active Active
- 2016-07-29 EP EP16760808.2A patent/EP3338280B1/en active Active
- 2016-07-29 WO PCT/JP2016/073019 patent/WO2017030006A1/en active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020082833A1 (en) * | 2000-11-16 | 2002-06-27 | Krzysztof Marasek | Method for recognizing speech |
CN1755723A (zh) * | 2004-09-09 | 2006-04-05 | 美国电报电话公司 | 用于报告来自自动对话系统的信息的系统和方法 |
US20150221304A1 (en) * | 2005-09-27 | 2015-08-06 | At&T Intellectual Property Ii, L.P. | System and Method for Disambiguating Multiple Intents in a Natural Lanaguage Dialog System |
CN101645064A (zh) * | 2008-12-16 | 2010-02-10 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
CN101847405A (zh) * | 2009-03-23 | 2010-09-29 | 索尼公司 | 语音识别装置和方法、语言模型产生装置和方法及程序 |
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
US20150066496A1 (en) * | 2013-09-02 | 2015-03-05 | Microsoft Corporation | Assignment of semantic labels to a sequence of words using neural network architectures |
CN103458056A (zh) * | 2013-09-24 | 2013-12-18 | 贵阳世纪恒通科技有限公司 | 自动外呼系统基于自动分类技术的语音意图判定方法 |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
CN104360897A (zh) * | 2014-10-29 | 2015-02-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
Non-Patent Citations (3)
Title |
---|
TOMAS MIKOLOV 等: "CONTEXT DEPENDENT RECURRENT NEURAL NETWORK LANGUAGE MODEL", 《2012 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP》 * |
冯升: "聊天机器人系统的对话理解研究与开发", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
江铭虎 等: "语音识别与理解的研究进展", 《电路与系统学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112005299A (zh) * | 2018-04-25 | 2020-11-27 | 三星电子株式会社 | 理解自然语言短语的多模型 |
CN112005299B (zh) * | 2018-04-25 | 2023-12-22 | 三星电子株式会社 | 理解自然语言短语的多模型 |
CN108962224A (zh) * | 2018-07-19 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 口语理解和语言模型联合建模方法、对话方法及系统 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN111597342A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多任务意图分类方法、装置、设备及存储介质 |
CN111597342B (zh) * | 2020-05-22 | 2024-01-26 | 北京慧闻科技(集团)有限公司 | 一种多任务意图分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107924680B (zh) | 2021-08-31 |
WO2017030006A1 (en) | 2017-02-23 |
EP3338280B1 (en) | 2019-09-11 |
JP2018513405A (ja) | 2018-05-24 |
JP6444530B2 (ja) | 2018-12-26 |
US20170053646A1 (en) | 2017-02-23 |
US9607616B2 (en) | 2017-03-28 |
EP3338280A1 (en) | 2018-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107924680A (zh) | 口语理解系统 | |
Pandey et al. | Deep learning techniques for speech emotion recognition: A review | |
CN107358948B (zh) | 基于注意力模型的语言输入关联性检测方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
Chien et al. | Bayesian recurrent neural network for language modeling | |
Sainath et al. | Auto-encoder bottleneck features using deep belief networks | |
Kim et al. | Efficient large-scale neural domain classification with personalized attention | |
CN107644014A (zh) | 一种基于双向lstm和crf的命名实体识别方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
WO2017094911A1 (en) | Method for processing utterances | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN109086269B (zh) | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN109783794A (zh) | 文本分类方法及装置 | |
CN108647191A (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
Kim et al. | Exploring convolutional and recurrent neural networks in sequential labelling for dialogue topic tracking | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
Yang et al. | Recurrent neural network-based language models with variation in net topology, language, and granularity | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
Jansson | Single-word speech recognition with convolutional neural networks on raw waveforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |