CN108962224A - 口语理解和语言模型联合建模方法、对话方法及系统 - Google Patents

口语理解和语言模型联合建模方法、对话方法及系统 Download PDF

Info

Publication number
CN108962224A
CN108962224A CN201810797792.8A CN201810797792A CN108962224A CN 108962224 A CN108962224 A CN 108962224A CN 201810797792 A CN201810797792 A CN 201810797792A CN 108962224 A CN108962224 A CN 108962224A
Authority
CN
China
Prior art keywords
model
training
language
network
speech understanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810797792.8A
Other languages
English (en)
Other versions
CN108962224B (zh
Inventor
俞凯
张慧峰
朱苏
樊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201810797792.8A priority Critical patent/CN108962224B/zh
Publication of CN108962224A publication Critical patent/CN108962224A/zh
Application granted granted Critical
Publication of CN108962224B publication Critical patent/CN108962224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种口语理解和语言模型联合建模方法,包括:从样本库中取样文本序列并转化为相应的训练向量序列;将所述训练向量序列输入至双向长短期记忆网络;采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练;采用双向长短期记忆网络从训练向量序列中提取文本的特征信息用于口语理解模型和语言模型的联合训练,实现了口语理解模型与语言理解模型在语义和语法层面的特征信息的共享。

Description

口语理解和语言模型联合建模方法、对话方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种口语理解和语言模型联 合建模方法、对话方法及系统。
背景技术
传统的口语理解系统(Spoken Language Understanding System)和语 音识别系统(Automatic Speech Recognition System)相对独立,语意解析 基于语音识别系统中语言模型(Language Model)解出的1-best识别结果。
随着计算能力的增强和神经网络的发展,多任务联合建模能够更高效 的训练网络,亦能够通过设计网络,提升每个任务的性能。口语理解和语 言模型有着相同的模型输入(文本),联合建模为彼此共享了语意和语法 信息,提升了两个任务的性能。但在传统研究中,口语理解和语言模型任 务没有很好的结合,其中一个任务往往仅用作辅助训练,模型的两个输出 也相对独立。
作为语音识别输出的解码器,语言模型决定了语音识别的性能,应用 自适应技术能够得到更好的语音识别结果。传统基于神经网络的自适应技 术往往通过设计到目标领域的映射,完全共享源领域的信息,而这样做假 设了共享的信息全部有效,忽略了可能存在的不利于训练的信息。
发明内容
本发明实施例提供一种口语理解和语言模型联合建模方法、对话方法 及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种口语理解和语言模型联合建模方 法,包括:
从样本库中取样文本序列并转化为相应的训练向量序列;
将所述训练向量序列输入至双向长短期记忆网络;
采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言 模型的联合训练。
第二方面,本发明实施例提供一种对话方法,包括:
采用本发明的口语理解和语言模型联合建模方法训练得到的口语理 解和语言模型,所述方法包括:
语音识别系统根据用户输入确定n-best输出结果;
所述口语理解和语言模型对所述n-best输入结果进行重打分以确定 1-best输出结果;其中,所述1-best输出结果包括槽1-best输出结果和意 图1-best输出结果。
第三方面,本发明实施例提供一种口语理解和语言模型联合建模系 统,包括:
取样程序模块,用于从样本库中取样文本序列并转化为相应的训练向 量序列;
输入程序模块,用于将所述训练向量序列输入至双向长短期记忆网 络;
训练程序模块,用于采用所述双向长短期记忆网络的网络输出进行口 语理解模型和语言模型的联合训练。
第四方面,本发明实施例提供一种对话系统,包括:
语音识别系统,用于根据用户输入确定n-best输出结果;
采用本发明的口语理解和语言模型联合建模方法训练得到的口语理 解和语言模型,用于对所述n-best输入结果进行重打分以确定1-best输出 结果;其中,所述1-best输出结果包括槽1-best输出结果和意图1-best输 出结果。
第五方面,本发明实施例提供一种存储介质,所述存储介质中存储有 一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但 不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发 明上述任一项口语理解和语言模型联合建模方法和/或对话方法。
第六方面,提供一种电子设备,其包括:至少一个处理器,以及与所 述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述 至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使 所述至少一个处理器能够执行本发明上述任一项口语理解和语言模型联 合建模方法和/或对话方法。
本发明实施例的有益效果在于:采用双向长短期记忆网络从训练向量序 列中提取文本的特征信息用于口语理解模型和语言模型的联合训练,实现了 口语理解模型与语言理解模型在语义和语法层面的特征信息的共享。口语理 解和语言模型即从语音识别结果中提取出了结构化的语义信息,又为语音识 别系统生成了正确合理的文字并可以被用来对语义识别的n-best结果重打分 以得到更加正确的识别内容。同时,语义解析和语言模型具有同样的输入(纯 文本),因此将两个任务合并是有意义且高效的。我们提出的模型能够同时 对一段文字进行语义解析且完成语言模型的打分,其训练时能够将口语解析 任务所提取的语义信息和语言模型任务所提取的语法信息进行共享,且加入 了语言模型的无监督训练能够增强语义解析的鲁棒性,并且我们首次应用了 带对抗训练的共享私有模型(以求让模型选择性的共享信息,减少共享信息 的负面影响)进行领域自适应,以引入大量易获得的无特定领域的无标注文 本数据,加强语言模型的能力及进一步提升了语义解析的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的对话系统原理图;
图2为本发明的对话系统一实施例的原理图;
图3为本发明的口语理解和语言模型联合建模方法的一实施例的流程 图;
图4为本发明的口语理解和语言模型联合建模方法的另一实施例的流 程图;
图5为本发明的口语理解和语言模型联合建模方法的又一实施例的流 程图;
图6为BLSTM多任务模型(MTM)体系结构的示意图;
图7a-7d为本发明中的四种自适应多任务模型的架构图;
图8为本发明的对话方法的一实施例的流程图;
图9为本发明的口语理解和语言模型联合建模系统的一实施例的原理 框图;
图10为本发明的口语理解和语言模型联合建模系统中的训练程序模 块的一实施例的原理框图;
图11为本发明的口语理解和语言模型联合建模系统中的训练程序模 块的另一实施例的原理框图;
图12为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的 特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象 数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计 算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连 接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于 包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体, 如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如, 元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、 执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本 程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程 中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机 之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多 个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交 互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过 本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术 语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定 要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而 且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出 的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要 素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除 在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
口语理解(Spoken Language Understanding,SLU)旨在从语音识别文 本中提取结构化信息,这些结构化信息语言会遭受不准确的自动语音识别 (和语音识别系统(Automatic Speech Recognition,ASR)(特别是在特 定对话域中)的影响。语言建模模型(Language Model,LM)对于生成自 然语句的ASR很重要。为了改善特定领域的SLU性能,本发明目标通过 以下两点改善口语理解性能,1)通过训练自适应的语言模型对语音识别 n-best结果重打分改善语音识别系统输出;2)通过口语理解和语言模型的 联合建模提升语言模型能力和口语理解鲁棒性。
为了统一这两种方法,本发明提出联合执行两个SLU任务(时隙槽 填充和意图检测),特定领域LM和无限定领域LM的多任务模型(MTM, multi-task model)。在所提出的多任务体系结构中,利用共享专用网络自 动学习哪些部分的通用数据可以被特定领域共享。本发明试图进一步提高 特定领域中的SLU和ASR性能,其中,该特定领域中包含特定领域中少 数标记数据以及大量未标记数据。实验表明,与通用领域LM相比,所提 出的MTM可以在汽车导航域中获得4.06%的绝对WER(词错误率)减少。 对于语言理解,MTM胜过手动转录本ASR 1-best最佳输出的基线(特别 是槽填充任务)。通过利用领域自适应LM来重新设置ASR输出,我们 提出的模型在SLU(槽填充任务的绝对F1增加7.08%)方面实现了进一 步的改进。
传统改善口语理解的方法往往在于增加改善训练数据,扩大模型参数 量,应用半监督训练引入无标注数据等,近期亦有研究将语音识别系统错 误信息添加到了口语理解中以改善鲁棒性;为改善语音识别系统能力,自 适应技术应用于语言模型的解码,但始终口语理解和语音识别系统相对独 立。如图1所示,其中,ASR为语音识别系统,SLU为口语理解模型,tag 为对齐词意标注预测输出,intent为非对齐句意标注输出。
本专利通过结合口语理解和语言模型,主动改善语音识别结果,提升 口语理解性能及鲁棒性。具体步骤如图2所示,其中,ASR为语音识别系 统,SLU+LM为口语理解和语言模型联合建模的模型,tag为槽填充(对 齐词意标注预测输出),intent为意图检测(非对齐句意标注输出)。
如图3所示,为本发明的口语理解和语言模型联合建模方法的一实施例 的流程图,该方法包括,
S10、从样本库中取样文本序列并转化为相应的训练向量序列;
S20、将所述训练向量序列输入至双向长短期记忆网络;
S30、采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言 模型的联合训练。
本发明实施例的有益效果在于:采用双向长短期记忆网络从训练向量序 列中提取文本的特征信息用于口语理解模型和语言模型的联合训练,实现了 口语理解模型与语言理解模型在语义和语法层面的特征信息的共享。口语理 解和语言模型即从语音识别结果中提取出了结构化的语义信息,又为语音识 别系统生成了正确合理的文字并可以被用来对语义识别的n-best结果重打分 以得到更加正确的识别内容。同时,语义解析和语言模型具有同样的输入(纯 文本),因此将两个任务合并是有意义且高效的。我们提出的模型能够同时 对一段文字进行语义解析且完成语言模型的打分,其训练时能够将口语解析 任务所提取的语义信息和语言模型任务所提取的语法信息进行共享,且加入 了语言模型的无监督训练能够增强语义解析的鲁棒性,并且我们首次应用了 带对抗训练的共享私有模型(以求让模型选择性的共享信息,减少共享信息 的负面影响)进行领域自适应,以引入大量易获得的无特定领域的无标注文 本数据,加强语言模型的能力及进一步提升了语义解析的鲁棒性。
本发明采用具有长期短期记忆(LSTM)的递归神经网络作为槽填充,意 图检测和语言建模模型。
时间t时的输入表示为xt,并通过以下组合函数实现LSTM:
it=σ(Wxixt+Whiht-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+bf) (2)
gt=tanh(Wxgxt+Whght-1+bg) (3)
ot=σ(Wxoxt+Whoht-1+bo) (4)
ct=ft⊙ct-1+gt⊙it (5)
ht=ot⊙tanh(ct) (6)
其中,ht是时间步t的隐藏状态,ht-1是时间步t-1的隐藏状态或时间步0 的初始隐藏状态,ct是单元状态,it,ft,gt,ot分别是,它是输入门,遗忘门 忘记了,单元门格和输出门,Wxi,Wxf,Wxg,Wxo是权重矩阵,bi,bf,bg, bo是偏差。tanh和sigmoid函数σ是两个激活函数。
把公式1-6简写如下:
ht=LSTM(xt,ht-1;Θ) (7)
其中,Θ代表LSTM的所有参数。当应用双向LSTM(BLSTM)时,在 每个时间步t,两个LSTM分量:在输入中向前和向后移动,是历 史和未来的与上下文相关的表示。然后,将来自两个方向的隐藏表示连接在 一起作为每个输入xt的上下文特定表示,该输入xt以整个输入x为条件。该 表示可以写作如下:
如图4所示,本发明的口语理解和语言模型联合建模方法中,所述采用 所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训 练包括:
S31、槽填充训练步骤:
S311、将所述网络输出作为单词表示,并映射到槽标签空间;
S312、采用softmax对单词的所有可能槽标签做归一化处理作为预测分 布;
S313、对所述预测分布进行最小化交叉熵优化;
S32、意图检测训练步骤:
S321、将多个时间点的所述长短期记忆网络的多个网络输出求和后映射 到意向标签空间;
S322、采用softmax对单词的所有可能的意向标签做归一化处理作为标 准化分布;
S323、对所述标准化分布进行最小化交叉熵优化。
给定一个文本序列,我们首先将每个字词索引投影到一个嵌入向量空间 w=[w0,w1,...,wT]作为LSTM输入。
对于插槽填充,将LSTM输出ht作为单词表示输入到线性输出层,投影 到槽标签空间。我们将softmax应用于输出,并直接给出每个单词的所有可 能标签K上的归一化分布作为预测。
其中,Wtag是权重矩阵,btag是偏差。给定一个包含N个训练样本{(wi; yi)}的语料库,通过最小化交叉熵损失来优化该模型,这相当于将正确标记 标签的负对数概率最小化:
其中,Ti是第i个句子的长度,y是地面真实的标签标签。
对于意图检测,我们将LSTM在每个时间步的隐藏状态总结相加为hsum, 并将其馈送到并行线性输出层,该层将该组件投影到意向标签空间。与插槽 填充类似,我们在softmax之后实现所有可能的意向标签上的标准化分布。
并且,相应的交叉熵损失如下所示:
如图5所示,本发明的口语理解和语言模型联合建模方法中,所述采用 所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训 练还包括:
S331、预先设置与所述语言模型并行的并行线性输出层;
S332、将所述网络输出作为单词表示输入至所述并行线性输出层,以确 定所有单词的概率分布;
S333、对所述所有单词的概率分布进行最小化交叉熵优化。
除了语言理解之外,我们还提出了语言建模模型的次要目标。这个任务 传统上试图预测下一个单词,而我们的目标是评估整个句子中的单词存在的 合理性。因此,我们试图预测除目标词以外的整个句子的目标词概率。同时, 该任务要求模型学习更一般的语义和句法成分模式,这对语言理解有帮助。
基于LSTM输出ht作为词表示,我们增加一个语言建模并行线性输出来 预测词的存在概率。对于单向模型,每个单词的概率如下:
对于双向模型,由于预测只应以除目标词之外的整个句子为条件,因此 我们必须设计损失目标,以便仅对尚未观察目标词的模型部分进行优化以执 行预测。
最后,语言建模模型的目标损失描述如下:
图6展示了展开BLSTM多任务模型(MTM)体系结构的示意图,其中 句子长度为2的示例。在每个时间步骤t,模型被优化以预测当前时隙标签和 字概率,并且最后,模型预测句子意图。在这里,我们添加<s>和</s>来表示 句子的开始和结束,wt表示时间步t的输入词。
与特定域中的标记数据相比,实现大量未标记的通用域数据相当简单。 因此,传统的重新分类通常使用大量未标记的通用领域数据进行训练的大型 语言模型,而我们试图利用特定领域中的一些数据来适应语言建模。
模型自适应模型有很多种,如输出插值和线性投影。由于我们也希望所 有未标记的数据能够输入到模型中,并有助于提高语言理解的稳健性,所以 最好通过模型来调整语言建模。因此,应用共享方案来实现适应性,并且我 们使用三种模型:MTM,简单共享私有MTM和共享私有MTM。我们还引 入了共享私有模型的对抗性损失,该模型由提出,以限制共享模型部分来提 取独立于域的特征,并在几个任务中取得重大改进。
在这里,我们将Dg,Dd分别表示为具有Ng,Nd样本量的一般和特定 领域的数据。
训练自适应模型最直接的方法是将数据一般和特定的领域一起提供。在 这个模型中,两个数据领域完全共享他们的参数,并忽略从一般数据中学习 到的信息的负面影响。方程式20描述了联合训练的损失。
其中,g,d分别表示通用领域和特定领域,λlm,λtag,λintent是控制其 重要性的每个任务的损失权重。
如图7a-7d所示为四种自适应多任务模型的架构,其中图7a中,Dg,Dd 表示数据在一般和特定领域,tag,intent和w分别是槽填充,意图检测和语 言建模模型的输出,Dd|g表示数据源的预测,无论是Dd还是DG。
如图7b所示,该模型为特定领域数据提供私人私有部分,并将一般通用 数据用作特征提取器,为特定领域任务提供额外的词表示。我们可以计算连 接的特定域字是词表示如下:
同时,语言建模模型有两个输出依赖于领域。由于我们旨在实现自适应 特定域语言建模模型,因此应用特定域输出更合理,而通用输出有助于保留 常规数据信息。以下型号模型符合遵照相同的方案。
基于simple-SP-MTM,SP-MTM进一步为一般通用数据提供私人私有模型 部分,并使一般通用数据能够保留地共享其信息。共享模型部分分别为每个 要利用的任务提供特征,但仍保留从所有数据中学到的知识。SP-MTM如图 7c所示,一般通用和特定领域的数据的字表示在方程22-23中描述。
向共享私人私有模型添加对抗性损失的想法是,它试图学习一个纯粹的 和独立于域的共享模型部分。有一个区分网络D学习区分数据源域,而共享 区域作为生成网络学习生成区域独立词表示以供D区分。
对于图7d中的敌对对抗共享私有模型,共享部分对抗线性数据源鉴别 器,阻止其准确预测数据源是Dd还是Dg。这种对抗性培训鼓励共享部分更 加纯粹,并确保共享部分的单词呈现不被域依赖。
我们尝试了几种对抗训练方案,包括1)直接反向传播负交叉熵损失,2) 随机数据源标记或3)GAN(生成对抗网络)如训练方案,以及最后,方案1) 达到最佳性能。因此,我们应用的鉴别器的对抗性损失是负交叉熵损失,它 试图训练鉴别器不进行准确的预测,函数在公式24中描述。
因此,我们有了多任务模型的新损失,并增加了对抗训练。
其中,λadv是对抗性损失的权重。
如图8所示,本发明实施例还提供一种对话方法,采用前述任一实施例 中的口语理解和语言模型联合建模方法训练得到的口语理解和语言模型,该 对话方法包括:
S81、语音识别系统根据用户输入确定n-best输出结果;
S82、所述口语理解和语言模型对所述n-best输入结果进行重打分以确定 1-best输出结果;其中,所述1-best输出结果包括槽1-best输出结果和意图 1-best输出结果。
实验
我们准备了中文导航的特定领域语料库和中文短信的通用领域语料 库,用于从实际对话中收集的实验。
表1中的导航语料库包含带有标签和ASR n-best结果的相应识别文本 的手动抄本文本。我们提取一些带有标签的手动抄本文本作为训练集,并 提供一些具有公认最佳结果的手动抄本文本作为测试集。由于训练集的数 量由于人工标注的难度而受到限制,因此我们将训练集作为模式,并应用 包含从互联网和前语料库收集到的时隙值的时隙数据库来扩展训练集。由 于最终目标是直接解析手动抄本语义信息,所识别的文本应用手动抄本文 本的标签。表1中的SMS语料库包含大量未标记的日常对话数据,这些 数据提供了额外的语言知识。
表1.导航统计,SMS语料库作为特定和一般域数据。第1-3列表示培 训的数量,有效和测试组合。列4表示模式的数量,列5表示词汇的大小。
将每个领域的训练集进一步随机分为训练集和有效集,所有数据集的 详细数量列于表中。1.我们将谷歌字符串标记器与ASR和SLU阶段中涉 及的大型词汇应用于分词并从每个领域的训练集中提取词汇,出现时间过 滤器为2,其替换在训练集中出现少于两次的词与<UNK>。
由于BLSTM是语言理解和语言建模任务中使用最广泛的模型之一, 并且已经在几个语料库上获得了某些任务的最新结果,所以我们将它用作 具有线性多任务的基线。
超参数
该模型的参数随机用[-0.1,0.1]中的均匀分布值初始化。我们用16个小 批量方案训练模型。对于所有模型,我们将BLSTM的嵌入尺寸和隐藏尺 寸设置为100,应用0.5的丢失[27]以实现更好的训练性能,剪切所有梯度 按5.0的最大范数来避免梯度爆炸。Adam[28]被用作优化器,学习率被 设置为0.001。所有任务的损失权重直接设为1.0,对抗损失权重为0.4。
评估
对于语言理解,我们通过语义元组以[slot:value]的形式评估模型插槽 F1得分,这些语义元素是从预测插槽标记中提取的。我们还计算了意向 F1分数作为模型意图检测性能的度量。而对于语言建模来说,由于单向和 双向模型输出受限于不同的上下文信息,我们直接使用重新计算的WER 来评估语言建模能力。
表2.单向和双向模型的导航测试集的结果包括重新计算的字错误率 和槽,手动转录本上的意向F1分数,ASR 1最佳,重新计算1最佳文本。
我们首先通过由导航语料库训练的多任务模型(MTM)来评估双向 语言建模的性能,表2中的结果表明,与单向模型相比,双向模型提供了 更好的性能不仅在F1和F1意图上,而且还重新计算了WER(从15.34% 到15.06%)。因此,进一步实验中的模型都是双向的。
其次,我们评估表3中所示的多任务模型(MTM)的性能。由于ASR 1最好的和重新评分的1最好的文本包含来自ASR的错误,并且标签直接 来自手动抄本文本,这严格要求正确的槽位预测值,所以槽位F1得分明 显比手动转录本的性能差文本也揭示了SLU系统在实际应用中遇到的健 壮性问题。对于手动抄本文本的结果,STM(LU)和MTM(通过导航数 据训练)模型在槽F1(92.76%和92.97%)和意图F1(从99.35%到99.45 %)上的性能略高于语言建模(从15.34%到15.06%)。此外,从ASR 1 最好的结果和重新评估的1最佳文本的结果中,我们可以观察到时隙和意 图F1的显着增量,这证明次要语言建模目标有助于提高时隙填充和意图 检测的稳健性。在ASR 1最佳文本中,插槽F1从48.42%增加1.75%到50.17%,意图F1从97.80%增加0.70%到98.50%,而在重新分类1个最 佳文本时,插槽F1从58.63%提高1.99%到60.62%而意图F1从0.48%提 升至0.48%,98.11%至98.59%。
表3.在导航测试中的LM重新评估结果的WER,其中adv-SP-MTM 达到最佳性能。
表4.导航手册副本ASR 1最好的插槽,意图F1结果重新评估了1个 最佳测试集,其中adv-SP-MTM在所有测试集上获得最佳时隙F1,但不 幸的是,与MTM训练相比,意图F1的表现不佳通过导航数据。值得 注意的是,重新编码的1最好的文本是从表3中的对应模型重新生成的, 而STM(LU)重新编码的1最佳文本的性能是在STM(LM)重新编码 的最佳文本上评估的,
然后,我们将共享私人模型与少量导航数据和大量短信数据一起应 用,以实现域适应性词表示。如第3.2节所述,我们将特定的域语言建模 输出应用于重新分级,因为它将单词表示适配到特定域。每个模型的结果 如表3,4所示,这表明该领域适应性词语表达有效地提高了语言建模的性 能。在MTM和simple-SP-MTM的比较中,重新计算的1最佳文本和WER 上的槽F1的改进表示留下专用域数据的私有参数以适应语言建模的好处, 而手动转录本和ASR 1最佳文本揭示了充分共享可能带来负面影响的信 息的风险。在简单-SP-MTM和SP-MTM的比较中,结果表明了私人部分 对一般数据的有效性,模型自己学习应该共享哪些部分的信息,哪些不应 该。adv-SPMTM提供共享方案,增量强调限制共享参数的重要性。最后, adv-SP-MTM将WER 4.06%从17.12%降至13.06%。同时,短信数据有助 于模型学习更多的语言信息,并进一步提高语言理解性能的稳健性。在 ASR 1最佳文本中,插槽F1从手动抄本文本的92.76%增加1.14%到2.96 %,从48.42%增加到51.38%。随着WER的减少和ASR 1最佳文本上的 F1插槽的增加,对于重新分类的1最佳文本,插槽F1进一步优于从58.63 %到65.71%的7.08%。值得注意的是,对于意图F1,与由导航语料库训 练的非自适应MTM相比,几乎所有的共享-私人模型都略微退化(但不 知不觉地胜过STM),因为外部词表示可能会引入一些误导性信息最终积 累推动意图的错误预测。
我们还对表5中的adv-SP-MTM中的特定域和通用域的两个输出的插 值进行了补充实验,其中没有一个插值权重优于特定域输出重新计算的WER,这验证了3.2中的分析。
总之,通过多任务学习和领域自适应方案,该模型可以实现更准确的 重新分类文本和更强大的语言理解能力。最终,adv-SP-MTM的WER降 低了4.06%,F1组的最优文章增加了7.08%,而F1的差异增加了0.03%。
表5.adv-SP-MTM的导航测试集中的LM重新编码结果的WER包括 插入重新计算的字错误率。Delta分别表示来自特定(d),一般(g)域 语言建模输出的分数的插值权重。
结论
在本文中,我们提出了一个领域自适应多任务模型,以提高识别文本 的语言理解能力,可以共同执行插槽填充,意图检测和语言建模。实验 证明,多任务模型(MTM)通过不断建模输入词,填充槽时隙和检测句 子意图,优于单任务模型(STM),并通过应用领域自适应模型进一步改 进。Adv-SP-MTM实现了最佳性能,减少了WER的4.06%,并且时隙F1 增加了7.08%(在重新计算的1-best文本上)。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须 的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没 有详述的部分,可以参见其他实施例的相关描述。
如图9所示,本发明的实施例还提供一种口语理解和语言模型联合建模 系统900,其包括:
取样程序模块910,用于从样本库中取样文本序列并转化为相应的训练 向量序列;
输入程序模块920,用于将所述训练向量序列输入至双向长短期记忆网 络;
训练程序模块930,用于采用所述双向长短期记忆网络的网络输出进行 口语理解模型和语言模型的联合训练。
如图10所示,本发明的口语理解和语言模型联合建模系统900的一些实 施例中,所述训练程序模块930包括:
第一标签空间确定程序单元931,用于将所述网络输出作为单词表示, 并映射到槽标签空间;
第一归一化程序单元932,用于采用softmax对单词的所有可能槽标签做 归一化处理作为预测分布;
第一交叉熵程序单元933,用于对所述预测分布进行最小化交叉熵优化;
第二标签空间确定程序单元934,用于将多个时间点的所述长短期记忆 网络的多个网络输出求和后映射到意向标签空间;
第二归一化程序单元935,用于采用softmax对单词的所有可能的意向标 签做归一化处理作为标准化分布;
第二交叉熵程序单元936,用于对所述标准化分布进行最小化交叉熵优 化。
如图11所示,本发明的口语理解和语言模型联合建模系统900的一些实 施例中,所述训练程序模块930还包括:
设置程序单元937,用于预先设置与所述语言模型并行的并行线性输出 层;
概率分布确定程序单元938,用于将所述网络输出作为单词表示输入至 所述并行线性输出层,以确定所有单词的概率分布;
第三交叉熵程序单元939,用于对所述所有单词的概率分布进行最小化 交叉熵优化。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介 质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指 令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读 取并执行,以用于执行本发明上述任一项口语理解和语言模型联合建模方 法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计 算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序, 所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述 计算机执行上述任一项口语理解和语言模型联合建模方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少 一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述 存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少 一个处理器执行,以使所述至少一个处理器能够执行口语理解和语言模型 联合建模方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计 算机程序,其特征在于,该程序被处理器执行时口语理解和语言模型联合 建模方法。
上述本发明实施例的口语理解和语言模型联合建模系统可用于执行 本发明实施例的口语理解和语言模型联合建模方法,并相应的达到上述本 发明实施例的实现口语理解和语言模型联合建模方法所达到的技术效果, 这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor) 来实现相关功能模块。
图12是本申请另一实施例提供的执行口语理解和语言模型联合建模 方法的电子设备的硬件结构示意图,如图12所示,该设备包括:
一个或多个处理器1210以及存储器1220,图12中以一个处理器1210 为例。
执行口语理解和语言模型联合建模方法的设备还可以包括:输入装置1230和输出装置1240。
处理器1210、存储器1220、输入装置1230和输出装置1240可以通 过总线或者其他方式连接,图12中以通过总线连接为例。
存储器1220作为一种非易失性计算机可读存储介质,可用于存储非 易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例 中的口语理解和语言模型联合建模方法对应的程序指令/模块。处理器 1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块, 从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例口 语理解和语言模型联合建模方法。
存储器1220可以包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根 据口语理解和语言模型联合建模装置的使用所创建的数据等。此外,存储 器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例 如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在 一些实施例中,存储器1220可选包括相对于处理器1210远程设置的存储 器,这些远程存储器可以通过网络连接至口语理解和语言模型联合建模装 置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通 信网及其组合。
输入装置1230可接收输入的数字或字符信息,以及产生与口语理解 和语言模型联合建模装置的用户设置以及功能控制有关的信号。输出装置 1240可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器1220中,当被所述一个或 者多个处理器1210执行时,执行上述任意方法实施例中的口语理解和语 言模型联合建模方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功 能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请 实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供 话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒 体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算 和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备 包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具 和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、 内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供 高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、 可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说 明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以 是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多 个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现 本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各 实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬 件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的 部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算 机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使 得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行 各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对 其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修 改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种口语理解和语言模型联合建模方法,包括:
从样本库中取样文本序列并转化为相应的训练向量序列;
将所述训练向量序列输入至双向长短期记忆网络;
采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。
2.根据权利要求1所述的方法,其中,所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练包括:
槽填充训练步骤:
将所述网络输出作为单词表示,并映射到槽标签空间;
采用softmax对单词的所有可能槽标签做归一化处理作为预测分布;
对所述预测分布进行最小化交叉熵优化;
意图检测训练步骤:
将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间;
采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布;
对所述标准化分布进行最小化交叉熵优化。
3.根据权利要求1或2所述的方法,其中,所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练还包括:
预先设置与所述语言模型并行的并行线性输出层;
将所述网络输出作为单词表示输入至所述并行线性输出层,以确定所有单词的概率分布;
对所述所有单词的概率分布进行最小化交叉熵优化。
4.根据权利要求3所述的方法,其中,所述样本库中包括预定领域样本和通用领域样本。
5.一种对话方法,采用权利要求1-4中任一项所述的方法训练得到的口语理解和语言模型,包括:
语音识别系统根据用户输入确定n-best输出结果;
所述口语理解和语言模型对所述n-best输入结果进行重打分以确定1-best输出结果;其中,所述1-best输出结果包括槽1-best输出结果和意图1-best输出结果。
6.一种口语理解和语言模型联合建模系统,包括:
取样程序模块,用于从样本库中取样文本序列并转化为相应的训练向量序列;
输入程序模块,用于将所述训练向量序列输入至双向长短期记忆网络;
训练程序模块,用于采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。
7.根据权利要求6所述的系统,其中,所述训练程序模块包括:
第一标签空间确定程序单元,用于将所述网络输出作为单词表示,并映射到槽标签空间;
第一归一化程序单元,用于采用softmax对单词的所有可能槽标签做归一化处理作为预测分布;
第一交叉熵程序单元,用于对所述预测分布进行最小化交叉熵优化;
第二标签空间确定程序单元,用于将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间;
第二归一化程序单元,用于采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布;
第二交叉熵程序单元,用于对所述标准化分布进行最小化交叉熵优化。
8.根据权利要求6或7所述的系统,其中,所述训练程序模块还包括:
设置程序单元,用于预先设置与所述语言模型并行的并行线性输出层;
概率分布确定程序单元,用于将所述网络输出作为单词表示输入至所述并行线性输出层,以确定所有单词的概率分布;
第三交叉熵程序单元,用于对所述所有单词的概率分布进行最小化交叉熵优化。
9.根据权利要求8所述的系统,其中,所述样本库中包括预定领域样本和通用领域样本。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。
CN201810797792.8A 2018-07-19 2018-07-19 口语理解和语言模型联合建模方法、对话方法及系统 Active CN108962224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797792.8A CN108962224B (zh) 2018-07-19 2018-07-19 口语理解和语言模型联合建模方法、对话方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797792.8A CN108962224B (zh) 2018-07-19 2018-07-19 口语理解和语言模型联合建模方法、对话方法及系统

Publications (2)

Publication Number Publication Date
CN108962224A true CN108962224A (zh) 2018-12-07
CN108962224B CN108962224B (zh) 2020-06-26

Family

ID=64482055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797792.8A Active CN108962224B (zh) 2018-07-19 2018-07-19 口语理解和语言模型联合建模方法、对话方法及系统

Country Status (1)

Country Link
CN (1) CN108962224B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
CN110765270A (zh) * 2019-11-04 2020-02-07 苏州思必驰信息科技有限公司 用于口语交互的文本分类模型的训练方法及系统
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置
CN110909179A (zh) * 2019-11-29 2020-03-24 苏州思必驰信息科技有限公司 文本生成模型的优化方法及系统
CN111144565A (zh) * 2019-12-27 2020-05-12 中国人民解放军军事科学院国防科技创新研究院 基于一致性训练的自监督领域自适应深度学习方法
CN111339760A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 词法分析模型的训练方法、装置、电子设备、存储介质
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111462734A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 语义槽填充模型训练方法及系统
CN111581968A (zh) * 2020-05-07 2020-08-25 携程计算机技术(上海)有限公司 口语理解模型的训练方法、识别方法、系统、设备及介质
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN112182636A (zh) * 2019-07-03 2021-01-05 北京百度网讯科技有限公司 一种联合建模训练的实现方法、装置、设备和介质
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
CN113692595A (zh) * 2019-04-19 2021-11-23 三星电子株式会社 用于分类和意图确定的多模型结构
CN113836895A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种基于大规模问题自学习的无监督机器阅读理解方法
CN114365141A (zh) * 2019-09-11 2022-04-15 甲骨文国际公司 使用可生性对抗网络训练对话系统的语义解析器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551103A (zh) * 2003-05-01 2004-12-01 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN107924680A (zh) * 2015-08-17 2018-04-17 三菱电机株式会社 口语理解系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
CN1551103A (zh) * 2003-05-01 2004-12-01 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN107924680A (zh) * 2015-08-17 2018-04-17 三菱电机株式会社 口语理解系统
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339760A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 词法分析模型的训练方法、装置、电子设备、存储介质
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN113692595A (zh) * 2019-04-19 2021-11-23 三星电子株式会社 用于分类和意图确定的多模型结构
CN112182636A (zh) * 2019-07-03 2021-01-05 北京百度网讯科技有限公司 一种联合建模训练的实现方法、装置、设备和介质
CN112182636B (zh) * 2019-07-03 2023-08-15 北京百度网讯科技有限公司 一种联合建模训练的实现方法、装置、设备和介质
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
CN114365141A (zh) * 2019-09-11 2022-04-15 甲骨文国际公司 使用可生性对抗网络训练对话系统的语义解析器
CN110765270A (zh) * 2019-11-04 2020-02-07 苏州思必驰信息科技有限公司 用于口语交互的文本分类模型的训练方法及系统
CN110765270B (zh) * 2019-11-04 2022-07-01 思必驰科技股份有限公司 用于口语交互的文本分类模型的训练方法及系统
CN110909179A (zh) * 2019-11-29 2020-03-24 苏州思必驰信息科技有限公司 文本生成模型的优化方法及系统
CN110827805B (zh) * 2019-12-09 2022-11-29 思必驰科技股份有限公司 语音识别模型训练方法、语音识别方法和装置
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置
CN111144565B (zh) * 2019-12-27 2020-10-27 中国人民解放军军事科学院国防科技创新研究院 基于一致性训练的自监督领域自适应深度学习方法
CN111144565A (zh) * 2019-12-27 2020-05-12 中国人民解放军军事科学院国防科技创新研究院 基于一致性训练的自监督领域自适应深度学习方法
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111354345B (zh) * 2020-03-11 2021-08-31 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111462734A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 语义槽填充模型训练方法及系统
CN111462734B (zh) * 2020-03-31 2022-07-26 思必驰科技股份有限公司 语义槽填充模型训练方法及系统
CN111581968A (zh) * 2020-05-07 2020-08-25 携程计算机技术(上海)有限公司 口语理解模型的训练方法、识别方法、系统、设备及介质
CN113836895A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种基于大规模问题自学习的无监督机器阅读理解方法
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
US11651139B2 (en) 2021-06-15 2023-05-16 Nanjing Silicon Intelligence Technology Co., Ltd. Text output method and system, storage medium, and electronic device

Also Published As

Publication number Publication date
CN108962224B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN108962224A (zh) 口语理解和语言模型联合建模方法、对话方法及系统
Uc-Cetina et al. Survey on reinforcement learning for language processing
Evermann et al. Predicting process behaviour using deep learning
Qi et al. Object-and-action aware model for visual language navigation
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN108417210A (zh) 一种词嵌入语言模型训练方法、词语识别方法及系统
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN111078836A (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
Boyer et al. Dialogue act modeling in a complex task-oriented domain
CN107103363B (zh) 一种基于lda的软件故障专家系统的构建方法
CN111738016A (zh) 多意图识别方法及相关设备
US20210248425A1 (en) Reinforced text representation learning
CN108491380B (zh) 用于口语理解的对抗多任务训练方法
JP2022516227A (ja) 自然言語ソリューション
CN110084323A (zh) 端到端语义解析系统及训练方法
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN114153942A (zh) 一种基于动态注意力机制的事件时序关系抽取方法
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
Hakkani-Tür et al. A weakly-supervised approach for discovering new user intents from search query logs
Hou et al. A corpus-free state2seq user simulator for task-oriented dialogue
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN112183095A (zh) 一种事件抽取方法和装置
CN114444609B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN110287487A (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Joint modeling methods, dialogue methods, and systems for oral comprehension and language modeling

Effective date of registration: 20230726

Granted publication date: 20200626

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433