CN112395857A

CN112395857A - 基于对话系统的语音文本处理方法、装置、设备及介质

Info

Publication number: CN112395857A
Application number: CN202011271192.1A
Authority: CN
Inventors: 吴信朝; 周宸; 周宝; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-23
Anticipated expiration: 2040-11-13
Also published as: CN112395857B

Abstract

本发明涉及人工智能技术领域，提供一种基于对话系统的语音文本处理方法、装置、设备及介质，该方法通过接收包含目标语音句子的调整指令；根据预设的词向量字典对目标语音句子进行词向量转换，得到各目标词向量；获取与目标语音句子关联的所有上下文句子，根据预设的词向量字典对各上下文句子进行词向量转换，得到与所有上下文句子对应的上下文表示向量；根据上下文表示向量，确定各目标词向量对应的向量权重，并根据向量权重调整目标语音句子，得到新的目标语音句子；根据新的目标语音句子更新对话系统中的语音识别文本之后，提示调整完成。本发明通过调整目标语音句子中各目标字词的向量权重，提高了整个目标语音句子的语义特征的鲁棒性。

Description

基于对话系统的语音文本处理方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于对话系统的语音文本处理方法、装置、设备及介质。

背景技术

随着科学技术的发展，人工智能技术也得以应用在各个领域，例如自然语言处理领域、图像识别领域等。自然语言处理领域中的语音识别技术应用于各个场景中，例如对话系统、语音聊天系统等。

目前，对话系统往往通过一个闭环流程完成人与机器之间多轮对话交流，该闭环流程中包括语音识别、自然语言理解、对话状态追踪、对话策略、自然语言生成和语音合成等多个步骤。现有技术中，上述对话系统中的语音识别技术往往存在以下不足之处：中文字词中存在很多同音字词，因此，在进行语音识别时，很容易出现对同音字词识别错误的情况，而对话系统又是一个闭环流程，语音识别的错误会导致后续各个模块均会带着未被察觉的错误继续执行后续流程，最终导致语音合成得到结果出现偏差，从而，语音识别的准确率较低，降低了与对话系统进行对话的用户体验。

发明内容

本发明实施例提供一种基于对话系统的语音文本处理方法、装置、设备及介质，以解决现有技术中语音识别模块识别错误，导致对话系统输出结果准确率低的问题。

一种基于对话系统的语音文本处理方法，包括：

接收包含目标语音句子的调整指令；所述目标语音句子是指对话系统中的语音识别文本中被对话对象标识出的待调整句子；所述语音识别文本是指对所述对话对象和对话系统中的机器人之间的对话语音进行语音识别之后的文本；

根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量；

自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量；

根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子；

根据所述新的目标语音句子更新所述对话系统中的所述语音识别文本之后，提示调整完成。

一种基于对话系统的语音文本处理装置，包括：

调整指令接收模块，用于接收包含目标语音句子的调整指令；所述目标语音句子是指对话系统中的语音识别文本中被对话对象标识出的待调整句子；所述语音识别文本是指对所述对话对象和对话系统中的机器人之间的对话语音进行语音识别之后的文本；

第一词向量转换模块，用于根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量；

第二词向量转换模块，用于自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量；

向量权重确定模块，用于根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子；

信息提示模块，用于根据所述新的目标语音句子更新所述对话系统中的所述语音识别文本之后，提示调整完成。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于对话系统的语音文本处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于对话系统的语音文本处理方法。

上述基于对话系统的语音文本处理方法、装置、设备及介质，该方法通过接收包含目标语音句子的调整指令；所述目标语音句子是指对话系统中的语音识别文本中被对话对象标识出的待调整句子；所述语音识别文本是指对所述对话对象和对话系统中的机器人之间的对话语音进行语音识别之后的文本；根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量；自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量；根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子；根据所述新的目标语音句子更新所述对话系统中的所述语音识别文本之后，提示调整完成。

本发明，通过引入与目标语音句子对应的上下文句子的上下文表示向量，调整目标语音句子中各目标字词的向量权重，降低出现同音字识别错的字词对整个目标语音句子的影响程度，从而提高了整个目标语音句子的语义特征的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于对话系统的语音文本处理方法的一应用环境示意图；

图2是本发明一实施例中基于对话系统的语音文本处理方法的一流程图；

图3是本发明一实施例中基于对话系统的语音文本处理方法中步骤S20的一流程图；

图4是本发明一实施例中基于对话系统的语音文本处理方法中步骤S30的一流程图；

图5是本发明一实施例中基于对话系统的语音文本处理方法中步骤S40的一流程图；

图6是本发明一实施例中基于对话系统的语音文本处理装置的一原理框图；

图7是本发明一实施例中基于对话系统的语音文本处理装置中第一词向量转换模块的一原理框图；

图8是本发明一实施例中基于对话系统的语音文本处理装置中第二词向量转换模块的一原理框图；

图9是本发明一实施例中基于对话系统的语音文本处理装置中向量权重确定模块的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于对话系统的语音文本处理方法，该基于对话系统的语音文本处理方法可应用如图1所示的应用环境中。具体地，该基于对话系统的语音文本处理方法应用在基于对话系统的语音文本处理系统中，该基于对话系统的语音文本处理系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决现有技术中语音识别模块识别错误，导致对话系统输出结果准确率低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于对话系统的语音文本处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：接收包含目标语音句子的调整指令；所述目标语音句子是指对话系统中的语音识别文本中被对话对象标识出的待调整句子；所述语音识别文本是指对所述对话对象和对话系统中的机器人之间的对话语音进行语音识别之后的文本。

其中，调整指令用于指示语音识别文本中存在识别错误的句子。目标语音句子是指对话系统中的语音识别模块，在对对话语音进行语音识别过程中，可能由于中文字词之间的同音字(例如后退和后腿)，而导致语音识别模块识别发生错误的句子。

进一步地，对话系统中包含语音识别模块、自然语言理解模块、对话状态追踪模块、对话策略模块、自然语言生成模块以及语音合成模块。本实施是针对语音识别模块对上述对话语音进行识别之后得到的语音识别文本进行调整。对话对象可以为使用该对话系统的用户，亦或者测试对话系统的测试人员。

进一步地，由于对话系统中，每一轮对话对象与机器人之间的对话语音对应的语音文本，均可以呈现在如显示屏上供对话对象查看，该调整指令可以为对话对象在发现到语音识别文本出现错误时，通过如移动终端向对话系统发送的。

S20：根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量。

其中，预设词向量字典可以根据具体应用场景，选取该应用场景下各种不同文本进行训练得到。词向量转换指的是将字词转换为对应的词向量的过程。

具体地，如图3所示，步骤S20中包括：

S201：对所述目标语音句子进行分词处理，得到多个所述目标字词。

具体地，在接收包含目标语音句子的调整指令之后，对目标语音句子进行分词处理，得到多个目标字词；进一步地，在进行分词处理过程中，需要去掉目标语音句子中的停用词(如“的”、“是”、“把”等)，也即，目标字词中不存在上述停用词。其中，可以通过如下中文分词工具对目标语音句子进行分词处理：Jieba,SnowNLP,PkuSeg,THULAC,HanLP等工具。

S202：根据所述预设的词向量字典，确定与各所述目标字词对应的目标词向量。

可以理解地，在预设的词向量字典中存在多组字词以及与各字词关联的词向量。进而在对目标语音句子进行分词处理，得到多个目标字词之后，可以从预设的词向量字典中获取与各目标字词对应的目标词向量，可选地，本实施例中目标词向量的向量维度为300。

进一步地，若存在任一目标字词，在预设的词向量字典中不存在且不存在关联的词向量时(如集外词或者代词)，可以根据与该目标字词关联的前后文中其它目标字词的目标词向量，生成与该目标字词对应的词向量，如此也可以保证该目标字词对应的词向量符合上下文语义特征。具体地，可以对与该目标字词关联的前后文中其它目标字词的目标词向量，进行累加求和取平均的方法，也即累加所有与该目标字词关联的前后文中其它目标字词的目标词向量，得到词向量累加和，并将此向量累加和与其它目标字词总个数(也即与该目标字词关联的前后文中其它目标字词的总个数)之商记录为该目标字词对应的词向量。

S30：自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量。

其中，上下文句子指的是语音识别文本中，处于目标语音句子之前以及处于目标语音句子之后的句子。上下文表示向量为所有上下文句子对应的词向量叠加表示的向量。

具体地，如图4所示，步骤S30中，包括如下步骤：

S301：对所述上下文句子进行分词处理，得到所述上下文句子中的多个上下文字词。

具体地，在接收包含目标语音句子的调整指令之后，自语音识别文本中获取与目标语音句子关联的所有上下文句子；进而对各上下文句子进行分词处理，得到各上下文句子中的各上下文字词。进一步地，在进行分词处理过程中，需要去掉上下文句子中的停用词(如“的”、“是”、“把”等)，也即，上下文字词中不存在上述停用词。其中，可以通过如下中文分词工具对上下文句子进行分词处理：Jieba,SnowNLP,PkuSeg,THULAC,HanLP等工具。

S302：根据所述预设的词向量字典，确定与所述上下文句子中的各上下文字词对应的上下文词向量。

可以理解地，预设的词向量字典中存在多组字词以及与各字词关联的词向量。进而在对上下文句子进行分词处理，得到所述上下文句子中的多个上下文字词之后，可以从预设的词向量字典中获取与各上下文字词对应的上下文词向量，可选地，本实施例中上下文词向量的向量维度为300。

进一步地，若存在任一上下文字词，在预设的词向量字典中不存在且不存在关联的词向量时(如集外词或者代词)，可以根据与该上下文字词关联的前后文中其它上下文字词的上下文词向量，生成与该上下文字词对应的词向量，如此也可以保证该上下文字词对应的词向量符合上下文语义特征。具体地生成方法可以参照步骤S202中提出的累加求和取平均的方法，在此不再赘述。

S303：对与同一上下文句子对应的所有所述上下文词向量进行第一累加处理，得到与该上下文句子对应的句子向量。

可以理解地，在据所述预设的词向量字典，确定与所述上下文句子中的各上下文字词对应的上下文词向量之后，也即每一上下文句子中的各上下文字词对应的上下文词向量均已确认完毕；对与同一上下文句子对应的所有上下文词向量进行第一累加处理，也即对于一个上下文句子而言，需要将其对应的各个上下文字词的上下文词向量进行叠加(第一上下文词向量+第二上下文词向量+......+最后一个上下文词向量)，进而得到与该上下文句子对应的句子向量，也即每一上下文句子均存在对应的一个句子向量。

S304：对与各所述上下文句子对应的所有所述句子向量进行第二累加处理，得到所述上下文表示向量。

具体地，在对与同一上下文句子对应的所有所述上下文词向量进行第一累加处理，得到与该上下文句子对应的句子向量之后，对与各上下文句子对应的所有句子向量进行第二累加处理，也即如第一个上下文句子对应的句子向量，叠加第二个上下文句子对应的句子向量，一直叠加到最后一个上下文句子对应的句子向量，进而得到所有上下文句子综合表示的上下文标识向量。

S40：根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子。

其中，向量权重用于区分各目标字词对目标语音句子整体语义的影响程度。向量权重越小的目标词向量对应的目标字词对目标语音句子的语义影响程度越小；向量权重越大的目标词向量对应的目标字词对目标语音句子的语义影响程度越大。

具体地，如图5所示，步骤S40中，包括如下步骤：

S401：对所述上下文表示向量与各所述目标词向量进行点积处理，得到与各所述目标词向量对应的点积词向量，并根据各所述点积词向量构建词向量数组。

具体地，在自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量之后，对上下文表示向量与各目标词向量进行点积处理，得到与各目标词向量对应的点积词向量，并根据各点积词向量构建向量数组。

示例性地，假设各目标词向量为：V_o＝[V₁、V₂、……、V_n](其中，V_o指的是目标词向量集；V₁、V₂、……V_n为目标语音句子中第一个目标词向量至第n个目标词向量)；上下文表示向量为：V_c；因此各目标词向量对应的点积词向量为：V₁*V_c、V₂*V_c......、V_n*V_c，词向量数组([V_c,V_o])为：[V_c,V_o]＝[V₁*V_c、V₂*V_c……、V_n*V_c]。

S402：通过预设分类模型对所述词向量数组进行归一化处理，得到与所述词向量数组对应的向量权重数组。

其中，预设分类模型可以为包含分类函数层(如softmax函数)的模型。

具体地，在对所述上下文表示向量与各所述目标词向量进行点积处理，得到与各所述目标词向量对应的点积词向量，并根据各所述点积词向量构建词向量数组之后，通过预设分类模型对词向量数组进行归一化处理，得到与词向量数组对应的向量权重数组。

示例性地，可以根据如下表达式表示向量权重数组：

W＝[w₁、w₂、……w_n]＝softmax([V_c,V_o])

其中，W为向量权重数组，其表示形式即为[w₁、w₂、……w_n]；[V_c,V_o]为词向量数组；softmax()为预设分类模型中的分类函数。

S403：根据所述向量权重数组，获取与各所述目标词向量对应的向量权重；所述各目标词向量对应的向量权重的和为1。

可以理解地，在向量权重数组中，一个向量权重对应一个点积词向量，而一个点积词向量对应一个目标词向量，因此一个向量权重与一个点积词向量对应。示例性地，在上述步骤中指出：向量权重数组为：W＝[w₁、w₂、……w_n]＝softmax([V_c,V_o])；词向量数组为：[V_c,V_o]＝[V₁*V_c、V₂*V_c……、V_n*V_c]；目标词向量集为：V_o＝[V₁、V₂、……、V_n]；因此，根据上述对应关系可知：V₁目标词向量对应的向量权重为w₁；V₂目标词向量对应的向量权重为w₂；V_n目标词向量对应的向量权重为w_n。

进一步地，步骤S40中，所述根据向量权重调整目标语音句子，以得到新的目标语音句子，示例如下：

可以理解地，根据向量权重调整目标语音句子的实质是，调整目标语音句子中每个目标字词对整个目标语音句子语义贡献度的大小(也即影响目标语音句子语义的重要程度)。根据上述步骤中指出：V₁目标词向量对应的向量权重为w₁；V₂目标词向量对应的向量权重为w₂；V_n目标词向量对应的向量权重为w_n；因此新的目标语音句子对应的词向量集为：

V_onew＝[w₁*V₁、w₂*V₂、……、w_n*V_n](其中，V_onew为新的目标语音句子对应的词向量集)；进而对该词向量集中每一词向量进行解码识别，可以得到新的目标语音句子。

S50：根据所述新的目标语音句子更新所述对话系统中的所述语音识别文本之后，提示调整完成。

具体地，在根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子之后，将新的目标语音句子替代对话系统中的语音识别文本中原始目标语音句子，进而得到新的语音识别文本，并提升目标语音句子调整完成。其中，提示调整完成可以直接在显示界面上通过预设标识显示更新之后的语音识别文本。

进一步地，在步骤S40中，在根据向量权重调整所述目标语音句子之后，也可以不对调整后的新的目标语音句子对应的词向量集中的各词向量进行解码识别，可以将调整后的新的目标语音句子对应的词向量集输入至对话系统中的自然语言理解模块，进而使得对话系统中后续模块输出的结果，比之前未调整前的目标语音句子对应的输出结果准确率较高，消除了对话系统中语音识别模块对语音数据识别错误的情况。

在本实施例中，通过引入与目标语音句子对应的上下文句子的上下文表示向量，调整目标语音句子中各目标字词的向量权重，降低出现同音字识别错的字词对整个目标语音句子的影响程度，从而提高了整个目标语音句子的语义特征的鲁棒性；进而在对话系统的其它模块对语音识别文本进行处理时，可以避免由于语音识别模块的识别错误，从而提高对话系统输出结果的准确率。

在另一具体实施例中，为了保证上述实施例中的预设词向量字典以及目标语音句子的私密以及安全性，可以将预设词向量字典以及目标语音句子存储在区块链中。其中，区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

例如，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，从而基于哈希值实现区块中交易的防篡改和防伪造；新产生的交易被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长。

在一实施例中，步骤S20之前，也即所述根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量之前，还包括：

(1)获取训练样本集以及包含初始参数的预设语言模型；所述训练样本集中包括至少一个训练样本；所述预设语言模型中包含预设训练词典。

其中，训练样本可以根据不同应用场景进行选取，如推荐系统场景下的推荐信息等。预设语言模型可以为包含两层卷积网络的模型，也可以是如卷积神经网络模型、自然语言处理模型等其它模型。预设训练词典指的是预设语言模型应用的场景下初始词典，该预设训练词典中包含一定数量的词向量。

(2)将所述训练样本输入至所述预设语言模型中，根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到与所述训练样本中每一字符对应的预测词向量。

其中，词向量预测处理指的是对训练样本中各字词对应的词向量进行预测的过程。

具体地，步骤(2)中，也即将所述训练样本输入至所述预设语言模型中，根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到各训练样本中每一字符对应的预测词向量，包括：

A：从所述预设训练词典中，获取所述训练样本中第一字符对应的第一预测词向量；所述第一字符指的是所述训练样本中位于首位的字符。

可以理解地，对于每一个训练样本中的第一字符，在预设训练词典中均有对应的第一预测词向量，除了第一字符外，训练样本中的其他字符对应的词向量均通过词向量预测处理得到。

B：根据所述第一词向量，对所述训练样本中第二字符进行词向量预测处理，得到与所述第二字符对应的第二预测词向量；所述第二字符指的是所述训练样本中位于第二位的字符。

具体地，在从所述预设训练词典中，获取所述训练样本中第一字符对应的第一预测词向量之后，根据该第一预测词向量，并在第一预测词向量前面增加一个0向量(也即空向量)，进而根据该第一预测词向量与该增加的0向量对第二字符进行词向量预测处理，以得到与第二字符对应的第二预测词向量。

进一步地，在得到第二字符对应的第二预测词向量之后，根据第一预测词向量以及第二预测词向量对第三字符(也即训练样本中位于第三位的字符)进行词向量预测处理，进而得到第三字符对应的第三预测词向量；同理，根据第二预测词向量以及第三预测词向量对第四字符(也即训练样本中位于第四位的字符)进行词向量预测处理，进而得到第四字符对应的第三预测词向量。可以理解地，对训练样本中某一字符进行词向量预测处理时，均通过位置在前面的两个字符对其进行词向量预测处理，其它字符同理，在此不再赘述。

C：在对所述训练样本中所有字符进行词向量预测处理后，得到与所述训练样本中每一字符对应的预测词向量。

具体地，在对训练样本中所有字符进行词向量预测处理后，得到与各训练样本中每一字符对应的预测词向量。

(3)对各所述预测词向量进行解码处理，得到与各预测词向量对应的预测字词。

其中，解码处理指的是将预测词向量解码成字词的过程。

具体地，在根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到各训练样本中每一字符对应的预测词向量之后，对各预测词向量进行解码处理，得到与各预测词向量对应的预测字词。其中，该解码过程可以在预设语言模型中的解码模块中进行，解码模块可以为LSTM(Long Short-Term Memory，长短期记忆网络)模型，BILSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)模型等。

(4)将各预测字词按照与其对应的训练样本中各字符对应的顺序进行结合，得到预测句子。

(5)根据所述预测句子以及所述训练样本，确定所述预设语言模型的预测损失值。

具体地，在对各所述预测词向量进行解码处理，得到与各预测词向量对应的预测字词之后，将各预测字词按照与其对应的训练样本中各字符对应的顺序进行结合，得到预测句子；并根据预测句子以及训练样本，确定预设语言模型的预测损失值。

(6)在所述预测损失值未达到预设收敛条件时，迭代更新所述预设语言模型的初始参数，直至所述预测损失值达到所述预设收敛条件时，将收敛之后的所述预设语言模型记录为词向量语言模型。

可以理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件，也即预测损失值经过10000次计算后值很小且不会下降时，停止训练，并将收敛之后的所述预设语言模型记录为所述词向量语言模型。

进一步地，根据所述预测句子以及所述训练样本，确定所述预设语言模型的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整预设翻译模型的初始参数，并将该训练样本重新输入至调整初始参数后的预设语言模型中，以在该训练样本对应的预测损失值达到预设的收敛条件时，选取训练样本集中另一训练样本，并执行上述步骤(2)至(5)，得到与该训练样本对应的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整预设语言模型的初始参数，使得该训练样本对应的预测损失值也达到预设的收敛条件。

如此，在通过训练样本集中所有训练样本对预设语言模型进行训练之后，使得预设语言模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有训练样本对应的预测损失值均达到预设的收敛条件时，将收敛之后的所述预设语言模型记录为词向量语言模型。

(7)将所述训练样本输入至所述词向量语言模型中，得到与各训练样本中每个字词对应的样本词向量。

具体地，在将收敛之后的所述预设语言模型记录为词向量语言模型之后，将各训练样本输入至词向量语言模型中，进而得到与各训练样本中每个字词对应的样本词向量；可以理解地，在预设语言模型训练完成之后(也即得到词向量模型之后)，为了在步骤S20以及S30中可以使用预设词向量字典进行常规词向量获取，因此此时可以将训练样本输入至词向量语言模型中，得到与各训练样本中每个字词对应的样本词向量；也可以根据具体应用场景，选取对应的样本输入至词向量语言模型中。

(8)将各所述样本词向量存储至所述预设训练词典中，并将存储之后的预设训练词典记录为所述预设词向量字典。

具体地，在将所述训练样本输入至所述词向量语言模型中，得到与各训练样本中每个字词对应的样本词向量之后，将各样本词向量存储至预设训练词典中，并将存储之后的预设训练词典记录为预设词向量字典。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于对话系统的语音文本处理装置，该基于对话系统的语音文本处理装置与上述实施例中基于对话系统的语音文本处理方法一一对应。如图6所示，该基于对话系统的语音文本处理装置包括调整指令接收模块10、第一词向量转换模块20、第二词向量转换模块30、向量权重确定模块40和信息提示模块50。各功能模块详细说明如下：

调整指令接收模块10，用于接收包含目标语音句子的调整指令；所述目标语音句子是指对话系统中的语音识别文本中被对话对象标识出的待调整句子；所述语音识别文本是指对所述对话对象和对话系统中的机器人之间的对话语音进行语音识别之后的文本；

第一词向量转换模块20，用于根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量；

第二词向量转换模块30，用于自所述语音识别文本中获取与所述目标语音句子关联的所有上下文句子，根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量；

向量权重确定模块40，用于根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，并根据所述向量权重调整所述目标语音句子，以得到新的目标语音句子；

信息提示模块50，用于根据所述新的目标语音句子更新所述对话系统中的所述语音识别文本之后，提示调整完成。

优选地，如图7所示，第一词向量转换模块20包括如下单元：

第一分词单元201，用于对所述目标语音句子进行分词处理，得到多个所述目标字词；

第一词向量确定单元202，用于根据所述预设的词向量字典，确定与各所述目标字词对应的目标词向量。

优选地，如图8所示，第二词向量转换模块30包括如下单元：

第二分词单元301，用于对所述上下文句子进行分词处理，得到所述上下文句子中的多个上下文字词；

第二词向量确定单元302，用于根据所述预设的词向量字典，确定与所述上下文句子中的各上下文字词对应的上下文词向量；

第一累加处理单元303，用于对与同一上下文句子对应的所有所述上下文词向量进行第一累加处理，得到与该上下文句子对应的句子向量；

第二累加处理单元304，用于对与各所述上下文句子对应的所有所述句子向量进行第二累加处理，得到所述上下文表示向量。

优选地，如图9所示，向量权重确定模块40包括如下单元：

点积处理单元401，用于对所述上下文表示向量与各所述目标词向量进行点积处理，得到与各所述目标词向量对应的点积词向量，并根据各所述点积词向量构建词向量数组；

归一化处理单元402，用于通过预设分类模型对所述词向量数组进行归一化处理，得到与所述词向量数组对应的向量权重数组；

向量权重获取单元403，用于根据所述向量权重数组，获取与各所述目标词向量对应的向量权重；所述各目标词向量对应的向量权重的和为1。

优选地，基于对话系统的语音文本处理装置还包括：

数据获取模块，用于获取训练样本集以及包含初始参数的预设语言模型；所述训练样本集中包括至少一个训练样本；所述预设语言模型中包含预设训练词典；

预测处理模块，用于将所述训练样本输入至所述预设语言模型中，根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到各训练样本中每一字符对应的预测词向量；

向量解码模块，用于对各所述预测词向量进行解码处理，得到与各预测词向量对应的预测字词；

字词结合模块，用于将各预测字词按照与其对应的训练样本中各字符对应的顺序进行结合，得到预测句子；

损失值确定模块，用于根据所述预测句子以及所述训练样本，确定所述预设语言模型的预测损失值；

模型训练模块，用于在所述预测损失值未达到预设收敛条件时，迭代更新所述预设语言模型的初始参数，直至所述预测损失值达到所述预设收敛条件时，将收敛之后的所述预设语言模型记录为词向量语言模型。

优选地，基于对话系统的语音文本处理装置还包括：

词向量确定模块，用于将所述训练样本输入至所述词向量语言模型中，得到与各训练样本中每个字词对应的样本词向量；

向量存储模块，用于将各所述样本词向量存储至所述预设训练词典中，并将存储之后的预设训练词典记录为所述预设词向量字典。

优选地，预测处理模块包括如下单元：

预测词向量获取单元，用于从所述预设训练词典中，获取所述训练样本中第一字符对应的第一预测词向量；所述第一字符指的是所述训练样本中位于首位的字符；

向量预测单元，用于根据所述第一词向量，对所述训练样本中第二字符进行词向量预测处理，得到与所述第二字符对应的第二预测词向量；所述第二字符指的是所述训练样本中位于第二位的字符；

预测完成单元，用于在对所述训练样本中所有字符进行词向量预测处理后，得到与各训练样本中每一字符对应的预测词向量。

关于基于对话系统的语音文本处理装置的具体限定可以参见上文中对于基于对话系统的语音文本处理方法的限定，在此不再赘述。上述基于对话系统的语音文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用存储上述实施例中基于对话系统的语音文本处理方法中所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于对话系统的语音文本处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的基于对话系统的语音文本处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的基于对话系统的语音文本处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于对话系统的语音文本处理方法，其特征在于，包括：

2.如权利要求1所述的基于对话系统的语音文本处理方法，其特征在于，所述根据预设的词向量字典，对所述目标语音句子进行词向量转换，得到与所述目标语音句子中各目标字词分别对应的目标词向量，包括：

对所述目标语音句子进行分词处理，得到多个所述目标字词；

根据所述预设的词向量字典，确定与各所述目标字词对应的目标词向量。

3.如权利要求1所述的基于对话系统的语音文本处理方法，其特征在于，所述根据所述预设的词向量字典，对各所述上下文句子进行词向量转换，得到与所有所述上下文句子对应的上下文表示向量，包括：

对所述上下文句子进行分词处理，得到所述上下文句子中的多个上下文字词；

根据所述预设的词向量字典，确定与所述上下文句子中的各上下文字词对应的上下文词向量；

对与同一上下文句子对应的所有所述上下文词向量进行第一累加处理，得到与该上下文句子对应的句子向量；

对与各所述上下文句子对应的所有所述句子向量进行第二累加处理，得到所述上下文表示向量。

4.如权利要求1所述的基于对话系统的语音文本处理方法，其特征在于，所述根据所述上下文表示向量，确定各所述目标词向量对应的向量权重，包括：

对所述上下文表示向量与各所述目标词向量进行点积处理，得到与各所述目标词向量对应的点积词向量，并根据各所述点积词向量构建词向量数组；

通过预设分类模型对所述词向量数组进行归一化处理，得到与所述词向量数组对应的向量权重数组；

根据所述向量权重数组，获取与各所述目标词向量对应的向量权重；所述各目标词向量对应的向量权重的和为1。

5.如权利要求1所述的基于对话系统的语音文本处理方法，其特征在于，所述根据预设的词向量字典，对所述目标语音句子进行词向量转换之前，还包括：

获取训练样本集以及包含初始参数的预设语言模型；所述训练样本集中包括至少一个训练样本；所述预设语言模型中包含预设训练词典；

将所述训练样本输入至所述预设语言模型中，根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到各训练样本中每一字符对应的预测词向量；

对各所述预测词向量进行解码处理，得到与各预测词向量对应的预测字词；

将各预测字词按照与其对应的训练样本中各字符的排列顺序进行结合，得到预测句子；

根据所述预测句子以及所述训练样本，确定所述预设语言模型的预测损失值；

在所述预测损失值未达到预设收敛条件时，迭代更新所述预设语言模型的初始参数，直至所述预测损失值达到所述预设收敛条件时，将收敛之后的所述预设语言模型记录为词向量语言模型。

6.如权利要求1所述的基于对话系统的语音文本处理方法，其特征在于，所述将收敛之后的所述预设语言模型记录为词向量语言模型之后，还包括：

将所述训练样本输入至所述词向量语言模型中，得到与各训练样本中每个字词对应的样本词向量；

将各所述样本词向量存储至所述预设训练词典中，并将存储之后的预设训练词典记录为所述预设词向量字典。

7.如权利要求5所述的特殊字词替代方法，其特征在于，所述根据所述预设训练词典，对各所述训练样本进行词向量预测处理，得到与各训练样本中每一字符对应的预测词向量，包括：

从所述预设训练词典中，获取所述训练样本中第一字符对应的第一预测词向量；所述第一字符指的是所述训练样本中位于首位的字符；

根据所述第一词向量，对所述训练样本中第二字符进行词向量预测处理，得到与所述第二字符对应的第二预测词向量；所述第二字符指的是所述训练样本中位于第二位的字符；

在对所述训练样本中所有字符进行词向量预测处理后，得到与各训练样本中每一字符对应的预测词向量。

8.一种基于对话系统的语音文本处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于对话系统的语音文本处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于对话系统的语音文本处理方法。