CN111985213A

CN111985213A - 一种语音客服文本纠错的方法和装置

Info

Publication number: CN111985213A
Application number: CN202010929561.5A
Authority: CN
Inventors: 王永康; 杜倩云; 吴培浩
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-11-24
Anticipated expiration: 2040-09-07
Also published as: CN111985213B

Abstract

本申请公开了一种语音客服文本纠错的方法和相关装置，该方法包括：利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；基于第一语音识别文本中错误位置纠错获得第二语音识别文本。在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，利用文本错误识别模型确定第一语音识别文本中错误位置并纠错，解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

Description

一种语音客服文本纠错的方法和装置

技术领域

本申请涉及语音客服技术领域，尤其涉及一种语音客服文本纠错的方法和相关装置。

背景技术

随着科技的快速发展，语音识别技术广泛应用于客服领域。具体地，客服系统利用通用语音识别技术将用户输入语音转换为语音识别文本，对该语音识别文本进行语义理解以便实现用户意图识别。

但是，发明人经过研究发现，在语音客服领域场景下，通用语音识别技术缺乏针对性，导致用户输入语音转换为语音识别文本的转换效果不佳。而在语音客服领域场景下，单独训练具有针对性的语音识别模型，需要付出非常高的成本，且该针对性的语音识别模型不具有通用性；因此，在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低的问题急需解决。

发明内容

有鉴于此，本申请实施例提供一种语音客服文本纠错的方法和相关装置，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、用户输入语音转换为语音识别文本的转换效果不佳的问题。

第一方面，本申请实施例提供了一种语音客服文本纠错的方法，所述方法包括：

对用户输入语音进行通用语音识别，获得第一语音识别文本；

将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置；

基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本；

其中，所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的；所述训练标签为正确标签或错误标签。

可选的，所述第一语言模型包括第一输入层、第一语义表示层和第一输出层；对应地，所述文本错误识别模型的获得步骤包括：

将所述第一训练文本中各个字、各个词输入所述第一输入层，获得所述第一训练文本的向量矩阵；

将所述第一训练文本的向量矩阵输入所述第一语义表示层，获得所述第一训练文本的语义特征向量；

将所述第一训练文本的语义特征向量输入所述第一输出层，获得所述第一训练文本中每个位置的标签预测数据；

基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签，调整所述第一语言模型的网络参数，获得所述文本错误识别模型。

可选的，所述第一训练文本的获得步骤包括：

对所述通用领域语料中各个字进行随机替换，获得替换通用领域语料；

比较所述通用领域语料和所述替换通用领域语料，确定所述替换通用领域语料中替换位置和未替换位置；

将所述替换通用领域语料确定为所述第一训练文本；所述替换通用领域语料中替换位置的训练标签为错误标签，所述替换通用领域语料中未替换位置的训练标签为正确标签；

对所述语音客服领域语料进行纠错，获得纠错语音客服领域语料；

比较所述语音客服领域语料和所述纠错语音客服领域语料，确定所述语音客服领域语料中正确位置和错误位置；

将所述语音客服领域语料确定为所述第一训练文本；所述语音客服领域语料中正确位置的训练标签为正确标签，所述语音客服领域语料中错误位置的训练标签为错误标签。

可选的，所述将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置，包括：

将所述第一语音识别文本中各个字、各个词输入所述第一输入层，获得所述第一语音识别文本的向量矩阵；

将所述第一语音识别文本的向量矩阵输入所述第一语义表示层，获得所述第一语音识别文本的语义特征向量；

将所述第一语音识别文本的语义特征向量输入所述第一输出层，获得所述第一语音识别文本中每个位置的标签预测数据；

基于第一语音识别文本中每个位置的标签预测数据，确定所述第一语音识别文本中错误位置。

可选的，所述基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本，包括：

拼接所述第一语音识别文本和所述第一语音识别文本的上文，获得语音识别输入文本；所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置；

获得所述语音识别输入文本的拼音；从所述第一语音识别文本对应的候选纠错字词典中，获得所述语音识别输入文本中错误位置对应的各个候选纠错字；

将所述语音识别输入文本、所述语音识别输入文本的拼音，以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，获得所述第一语音识别文本对应的第二语音识别文本；

其中，所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的；所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。

可选的，所述第二语言模型包括第二输入层、第二语义表示层和第二输出层；对应地，所述文本纠错模型的训练步骤包括：

将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层，获得所述第二训练文本的向量矩阵；

将所述第二训练文本的向量矩阵输入所述第二语义表示层，获得所述第二训练文本的语义特征向量；

将所述第二训练文本的语义特征向量输入所述第二输出层，获得所述第二训练文本中错误位置对应的预测纠错字；

基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字，调整所述第二语言模型的网络参数，获得所述文本纠错模型。

可选的，所述将所述语音识别输入文本、所述语音识别输入文本的拼音，以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，获得所述第二语音识别文本，包括：

将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层，获得所述语音识别输入文本的向量矩阵；

将所述语音识别输入文本的向量矩阵输入所述第二语义表示层，获得所述语音识别输入文本的语义特征向量；

将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层，获得所述语音识别输入文本中错误位置对应的目前纠错字；

基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字，获得所述第一语音识别文本对应的第二语音识别文本。

可选的，所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种：

所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。

可选的，在所述获得第二语音识别文本之后，还包括：

基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错，获得第三语音识别文本。

可选的，所述基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错处理，获得第三语音识别文本，包括：

获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体；

基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱，获得相关实体关系对；

基于所述相关实体关系对纠错所述第二语音识别文本，获得所述第三语音识别文本。

第二方面，本申请实施例提供了一种语音客服文本纠错的装置，所述装置包括：

第一获得单元，用于对用户输入语音进行通用语音识别，获得第一语音识别文本；

第二获得单元，用于将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置；

第三获得单元，用于基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本；

第三方面，本申请实施例提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的语音客服文本纠错的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面，本申请实施例提供了任一项所述的语音客服文本纠错的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见，在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型，确定通用语音识别技术获得的第一语音识别文本中错误位置，对该错误位置进行纠错即可得到更准确的第二语音识别文本，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种语音客服文本纠错的方法的流程示意图；

图3为本申请实施例提供的另一种语音客服文本纠错的方法的流程示意图；

图4为本申请实施例提供的一种语音客服文本纠错的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，在语音客服领域场景下，一般是利用通用语音识别技术将用户输入语音转换为语音识别文本，但是，通用语音识别技术缺乏针对性，导致用户输入语音转换为语音识别文本的转换效果不佳。针对语音客服领域场景，单独训练语音识别模型需要付出非常高的成本且不具有通用性，因此，在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低的问题急需解决。

为了解决这一问题，在本申请实施例中，利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见，在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型，确定通用语音识别技术获得的第一语音识别文本中错误位置，对该错误位置进行纠错即可得到更准确的第二语音识别文本，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中。该场景包括终端设备101和客服系统102，用户通过终端设备101输入语音，终端设备101获得用户输入语音并发送至客服系统102；客服系统102执行本申请实施例所提供的实施方式，实现对通用语音识别技术获得的第一语音识别文本的纠错，获得更准确的第二语音识别文本，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

首先，在上述应用场景中，虽然将本申请实施例提供的实施方式的动作描述由客服系统102执行；但是，本申请实施例在执行主体方面不受限制，只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中语音客服文本纠错的方法和相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种语音客服文本纠错的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：对用户输入语音进行通用语音识别，获得第一语音识别文本。

在语音客服领域场景下，一般是利用通用语音识别技术将用户输入语音转换为语音识别文本，而通用语音识别技术缺乏针对性，导致用户输入语音转换为语音识别文本的转换效果不佳，即，通用语音识别技术得到的语音识别文本准确率较低。为了解决上述问题，若是针对语音客服领域场景单独训练语音识别模型，需要付出非常高的成本且不具有通用性，则该方式并不合适。因此，本申请实施例中，在语音客服领域场景下，仍然利用通用语音识别技术将用户输入语音转换为语音识别文本，该语音识别文本作为第一语音识别文本，后续需要考虑语音客服领域场景，对第一语音识别文本进行针对性的纠错，以解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

步骤202：将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置；所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的；所述训练标签为正确标签或错误标签。

在本申请实施例中，在步骤201获得第一语音识别文本后，考虑语音客服领域场景，对第一语音识别文本进行针对性的纠错过程中，首先需要考虑语音客服领域场景，获得第一语音识别文本中错误位置，后续才能对第一语音识别文本中错误位置进行纠错。

实际应用中，获得第一语音识别文本中错误位置的方式例如可以是：考虑语音客服领域场景，既采集通用领域语料，又采集客服领域语料，得到第一训练文本，该第一训练文本中每个位置标注正确标签或错误标签的训练标签；基于上述数据训练第一语言模型，得到用于识别语音客服领域场景下语音识别文本中错误位置的文本错误识别模型；将第一语音识别文本输入该文本错误识别模型，即可获得第一语音识别文本中错误位置。

在本申请实施例一种可选的实施方式中，由于通用领域语料和语音客服领域语料的特性不同，通用领域语料和语音客服领域语料获得第一训练文本的方式不同。具体地，针对通用领域语料，需要将通用领域语料所包括的各个字随机替换成其他字，得到替换通用领域语料；比较替换通用领域语料与通用领域语料，替换通用领域语料中替换字所处的位置作为替换通用领域语料中替换位置，替换通用领域语料中未被替换字所处的位置作为替换通用领域语料中未替换位置；将替换通用领域语料作为第一训练文本，替换通用领域语料中替换位置需要标注错误标签，替换通用领域语料中未替换位置需要标注正确标签。

针对语音客服领域语料，需要人工纠错语音客服领域语料中各个字，得到纠错语音客服领域语料；比较语音客服领域语料与纠错语音客服领域语料，语音客服领域语料中未被纠错字所处的位置作为语音客服领域语料中正确位置，语音客服领域语料中被纠错字所处的位置作为语音客服领域语料中错误位置；将语音客服领域语料作为第一训练文本，语音客服领域语料中正确位置需要标注正确标签，语音客服领域语料中错误位置需要标注错误标签。

基于上述说明，在本申请实施例一种可选的实施方式中，所述第一训练文本的获得步骤例如可以包括以下步骤：

步骤A：对所述通用领域语料中各个字进行随机替换，获得替换通用领域语料；

步骤B：比较所述通用领域语料和所述替换通用领域语料，确定所述替换通用领域语料中替换位置和未替换位置；

步骤C：将所述替换通用领域语料确定为所述第一训练文本；所述替换通用领域语料中替换位置的训练标签为错误标签，所述替换通用领域语料中未替换位置的训练标签为正确标签；

步骤D：对所述语音客服领域语料进行纠错，获得纠错语音客服领域语料；

步骤E：比较所述语音客服领域语料和所述纠错语音客服领域语料，确定所述语音客服领域语料中正确位置和错误位置；

步骤F：将所述语音客服领域语料确定为所述第一训练文本；所述语音客服领域语料中正确位置的训练标签为正确标签，所述语音客服领域语料中错误位置的训练标签为错误标签。

其中，本申请实施例并不限定步骤A-步骤C与步骤D-步骤F之间的执行顺序，既可以先执行步骤A-步骤C再执行步骤D-步骤F，也可以先执行步骤D-步骤F再执行步骤A-步骤C，还可以同时执行步骤A-步骤C和步骤D-步骤F。

在本申请实施例一种可选的实施方式中，第一语言模型的具体结构例如可以为第一输入层、第一语义表示层和第一输出层，则在训练第一语言模型获得文本错误识别模型的过程中：首先，向第一输入层输入第一训练文本中各个字、各个词，第一输入层以各个字的字向量和各个词的第一词向量为基础，将各个字的字向量经过卷积处理和加权处理得到对应各个词的第二词向量，将各个词的第一词向量和对应的第二词向量经过相加处理得到各个词的第三词向量，将各个词的第三词向量组成第一训练文本的向量矩阵并输出。第一语言模型的第一输入层不仅挖掘第一训练文本中字的信息，而且挖掘第一训练文本的中字对词的相对影响。

其次，第一输入层输出的第一训练文本的向量矩阵输入第一语义表示层，第一语义表示层对第一训练文本的向量矩阵进行语义特征提取，得到第一训练文本的语义特征向量并输出，该第一语义表示层例如可以为双向长短期记忆网络(英文：Long Short-TermMemory，缩写：LSTM)。

然后，第一语义表示层输出的第一训练文本的语义特征向量输入第一输出层，该第一输出层基于第一训练文本的语义特征向量对第一训练文本中每个位置进行二分类处理，用于判断第一训练文本中每个位置是正确位置还是错误位置，得到第一训练文本中每个位置的标签预测数据并输出。

最后，对于第一输出层输出的标签预测数据，结合第一训练文本中每个位置的训练标签，利用第一语言模型的网络损失函数，调整第一语言模型的网络参数以训练第一语言模型，直至第一语言模型收敛或者达到预设训练次数，将训练好的第一语言模型作为文本错误识别模型。

即，在本申请实施例一种可选的实施方式中，所述第一语言模型包括第一输入层、第一语义表示层和第一输出层；对应地，所述文本错误识别模型的获得步骤例如可以包括以下步骤：

步骤G：将所述第一训练文本中各个字、各个词输入所述第一输入层，获得所述第一训练文本的向量矩阵。

作为一种示例，假设第一训练文本中各个字的字向量的维度均为100、各个词的第一词向量的维度均为100；各个字的字向量先经过不同尺度的卷积核进行卷积，再经过加权处理得到对应各个词的第二词向量，第二词向量的维度为100；各个词的第一词向量和对应的第二词向量经过相加处理得到各个词的第三词向量，第三词向量的维度为100，若第一训练文本中各个词的数量为30，则组成一个(30，100)的二维矩阵作为第一训练文本的向量矩阵。

步骤H：将所述第一训练文本的向量矩阵输入所述第一语义表示层，获得所述第一训练文本的语义特征向量。

作为一种示例，在上述示例的基础上，假设第一语义表示层为双向LSTM，其步长为第一训练文本中各个词的数量30，其隐层的神经元节点数量为第三词向量的维度100；对于前向LSTM和后向LSTM每个隐层分别输出(1，100)维的特征，将前向LSTM和后向LSTM每个隐层输出的特征进行拼接，获得(30，200)维的第一训练文本的隐层特征；对于(30，200)维的第一训练文本的隐层特征进行加权处理，计算前向LSTM和后向LSTM每个隐层对于第一训练文本的影响权重，并进行全连接变换获得200维的第一训练文本的语义特征向量。

步骤I：将所述第一训练文本的语义特征向量输入所述第一输出层，获得所述第一训练文本中每个位置的标签预测数据。

步骤J：基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签，调整所述第一语言模型的网络参数，获得所述文本错误识别模型。

基于上述步骤G-步骤I可得，将第一语音识别文本输入文本错误识别模型，第一输入层可以输出第一语音识别文本的向量矩阵，第一语义表示层可以输出第一语音识别文本的语义特征向量，第一输出层可以输出第一语音识别文本中每个位置的标签预测数据，在此基础上即可确定第一语音识别文本中错误位置。因此，在本申请实施例一种可选的实施方式中，所述步骤202例如可以包括以下步骤：

步骤2021：将所述第一语音识别文本中各个字、各个词输入所述第一输入层，获得所述第一语音识别文本的向量矩阵。

步骤2022：将所述第一语音识别文本的向量矩阵输入所述第一语义表示层，获得所述第一语音识别文本的语义特征向量。

步骤2023：将所述第一语音识别文本的语义特征向量输入所述第一输出层，获得所述第一语音识别文本中每个位置的标签预测数据。

步骤2024：基于第一语音识别文本中每个位置的标签预测数据，确定所述第一语音识别文本中错误位置。

步骤203：基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本。

在本申请实施例中，在步骤202获得第一语音识别文本中错误位置之后，由于第一语音识别文本中错误位置的字被认为是错误字，即，第一语音识别文本中错误位置的字是需要被纠错的；因此，基于第一语音识别文本中错误位置，对第一语音识别文本进行纠错，可以获得相较于第一语音识别文本更为准确的语音识别文本，作为第二语音识别文本。

通过本实施例提供的各种实施方式，利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；基于第一语音识别文本中错误位置纠错获得第二语音识别文本。可见，在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型，确定通用语音识别技术获得第一语音识别文本中错误位置，对该错误位置进行纠错即可得到更准确的第二语音识别文本，以解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

实际应用中，在语音客服领域场景下，语音识别文本的纠错与语音识别文本的上文、语音识别文本的拼音均有较大的关联性；因此，步骤203基于第一语音识别文本中错误位置进行纠错，获得第二语音识别文本的方式例如可以是：考虑语音客服领域场景，在上述步骤D-步骤F的基础上，拼接语音客服领域语料和其上文得到第二训练文本；获得第二训练文本的拼音以及第二训练文本中错误位置对应的纠错字。基于上述数据训练第二语言模型，得到用于对第一语音识别文本中错误位置进行纠错的文本纠错模型；利用该文本纠错模型对第一语音识别文本进行纠错，即可获得相较于第一语音识别文本更为准确的语音识别文本，作为第二语音识别文本。

其中，由于该第二训练文本中错误位置为语音客服领域语料中错误位置，则第二训练文本中错误位置对应的纠错字为语音客服领域语料中错误位置对应的纠错字，语音客服领域语料中错误位置对应的纠错字是基于语音客服领域语料和纠错语音客服领域语料获得的。

具体地，在步骤201-步骤202之后，拼接第一语音识别文本和其上文得到语音识别输入文本，该语音识别输入文本中错误位置为第一语音识别文本中错误位置；获得语音识别输入文本的拼音以及语音识别输入文本中错误位置对应的各个候选纠错字，该语音识别输入文本中错误位置对应的各个候选纠错字是从第一语音识别文本对应的候选纠错字词典中筛选得到的；将上述数据输入文本纠错模型即可获得第一语音识别文本对应的第二语音识别文本。

基于上述说明，参见图3，示出了本申请实施例中另一种语音客服文本纠错的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤301：对用户输入语音进行通用语音识别，获得第一语音识别文本。

步骤302：将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置；所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的；所述训练标签为正确标签或错误标签。

其中，步骤301-步骤302和上述实施例中步骤201-步骤202相同，具体说明参见上述说明，在此不再赘述。

步骤303：拼接所述第一语音识别文本和所述第一语音识别文本的上文，获得语音识别输入文本；所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置。

步骤304：获得所述语音识别输入文本的拼音；从所述第一语音识别文本对应的候选纠错字词典中，获得所述语音识别输入文本中错误位置对应的各个候选纠错字。

在本申请实施例中，第一语音识别文本对应的候选纠错字词典是由第一语音识别文本中各个字对应的一些关联性较大的候选纠错字所组成的。因此，在本申请实施例一种可选的实施方式中，所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种：所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。其中，相似度例如可以通过计算编辑距离等等表示。

步骤305：将所述语音识别输入文本、所述语音识别输入文本的拼音，以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，获得所述第一语音识别文本对应的第二语音识别文本；所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的；所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。

在本申请实施例一种可选的实施方式中，第二语言模型的具体结构与第一语言模型的具体结构类似；即，第二语言模型的具体结构例如可以为第二输入层、第二语义表示层和第二输出层。训练第二语言模型获得文本纠错模型的过程与训练第一语言模型获得文本错误识别模型的过程类似。

对于第二输入层而言，其与第一输入层的原理相同，将第二训练文本代替第一训练文本，并增加第二训练文本的拼音中各个字拼音，直接在第二训练文本中各个字的字向量上增加各个字拼音的拼音向量即可，第二输入层输出第二训练文本的向量矩阵。

对于第二语义表示层而言，其与第一语义表示层的原理相同，将第二训练文本的向量矩阵代替第一训练文本的向量矩阵，第二语义表示层输出第二训练文本的语义特征向量。

但是，对于第二输出层而言，其与第一输出层的原理不同，第二输出层基于第二训练文本的语义特征向量对第二训练文本中错误位置进行多分类处理，用于预测第二训练文本中错误位置对应的纠错字，得到第二训练文本中错误位置对应的预测纠错字并输出。

同理可得，对于第二输出层输出的第二训练文本中错误位置对应的预测纠错字，结合第二训练文本中错误位置对应的纠错字，利用第二语言模型的网络损失函数，调整第二语言模型的网络参数以训练第二语言模型，直至第二语言模型收敛或者达到预设训练次数，将训练好的第二语言模型作为文本纠错模型。

即，在本申请实施例一种可选的实施方式中，所述第二语言模型包括第二输入层、第二语义表示层和第二输出层；对应地，所述文本纠错模型的训练步骤例如可以包括以下步骤：

步骤K：将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层，获得所述第二训练文本的向量矩阵；

步骤L：将所述第二训练文本的向量矩阵输入所述第二语义表示层，获得所述第二训练文本的语义特征向量；

步骤M：将所述第二训练文本的语义特征向量输入所述第二输出层，获得所述第二训练文本中错误位置对应的预测纠错字；

步骤N：基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字，调整所述第二语言模型的网络参数，获得所述文本纠错模型。

基于上述步骤K-步骤M可得，将语音识别输入文本和语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，第二输入层可以输出语音识别输入文本的向量矩阵，第二语义表示层可以输出语音识别输入文本的语义特征向量，第二输出层可以计算语音识别输入文本中错误位置对应的各个候选纠错字的候选概率，以确定语音识别输入文本中错误位置对应的目前纠错字；在此基础上，即可通过语音识别输入文本中错误位置对应的目前纠错字，对第一语音识别文本中错误位置进行纠错，获得第一语音识别文本对应的第二语音识别文本。因此，在本申请实施例一种可选的实施方式中，所述步骤305例如可以包括以下步骤：

步骤3051：将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层，获得所述语音识别输入文本的向量矩阵；

步骤3052：将所述语音识别输入文本的向量矩阵输入所述第二语义表示层，获得所述语音识别输入文本的语义特征向量；

步骤3053：将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层，获得所述语音识别输入文本中错误位置对应的目前纠错字；

步骤3054：基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字，获得所述第一语音识别文本对应的第二语音识别文本。

在本申请实施例中，在步骤203或者步骤305完成对第一语音识别文本的纠错后，得到的第二语音识别文本仍可能存在一部分实体错误，该错误不容易被文本错误识别模型识别，进而不容易被文本纠错模型纠错。此情况下，可以利用实体关系知识图谱对第二语音识别文本进行进一步纠错，以得到相较于第二语音识别文本更为准确的语音识别文本，作为第三语音识别文本。因此，在本申请实施例一种可选的实施方式中，在步骤203或者步骤305之后，例如还可以包括步骤O：基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错，获得第三语音识别文本。

具体地，首先，将第二语音识别文本中实体作为第三实体，利用第三实体的相同读音和模糊读音，在实体关系知识图谱中找到与第三实体读音相似的实体作为第三相似实体；然后，在第三实体和第三相似实体的基础上，利用实体关系知识图谱进行排列组合找到相关实体关系对；最后，利用相关实体关系对，对第二语音识别文本进行进一步纠错，得到第三语音识别文本。因此，在本申请实施例一种可选的实施方式中，所述步骤O例如可以包括以下步骤：

步骤O1：在所述实体关系知识图谱中，获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体；

步骤O2：基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱，获得相关实体关系对；

步骤O3：基于所述相关实体关系对纠错所述第二语音识别文本，获得所述第三语音识别文本。

作为一种示例，假设第二语音识别文本为“张三创建了a公司”，执行步骤O1-步骤O2，获得的相关实体关系对为(张山，创建，a公司)，基于相关实体关系对(张山，创建，a公司)纠错第二语音识别文本“张三创建了a公司”，获得第三语音识别文本为“张山创建了a公司”。

通过本实施例提供的各种实施方式，利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；先拼接第一语音识别文本和其上文获得语音识别输入文本，再获得语音识别输入文本的拼音和语音识别输入文本中错误位置对应的各个候选纠错字；利用文本纠错模型纠错第一语音识别文本获得第二语音识别文本，文本纠错模型是基于拼接语音客服领域语料其上文获得的第二训练文本、第二训练文本的拼音以及第二训练文本中错误位置对应的纠错字训练第二语言模型获得的。可见，在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，先利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型，确定通用语音识别技术获得第一语音识别文本中错误位置；再利用语音客服领域语料结合其上文和拼音预先训练的文本纠错模型，对第一语音识别文本中错误位置进行纠错，即可得到更准确的第二语音识别文本，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

示例性装置

参见图4，示出了本申请实施例中一种语音客服文本纠错的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一获得单元401，用于对用户输入语音进行通用语音识别，获得第一语音识别文本；

第二获得单元402，用于将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置；

第三获得单元403，用于基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本；

在本申请实施例一种可选的实施方式中，所述第一语言模型包括第一输入层、第一语义表示层和第一输出层；对应地，所述装置还包括文本错误识别模型获得单元，所述文本错误识别模型获得单元包括：

第一获得子单元，用于将所述第一训练文本中各个字、各个词输入所述第一输入层，获得所述第一训练文本的向量矩阵；

第二获得子单元，用于将所述第一训练文本的向量矩阵输入所述第一语义表示层，获得所述第一训练文本的语义特征向量；

第三获得子单元，用于将所述第一训练文本的语义特征向量输入所述第一输出层，获得所述第一训练文本中每个位置的标签预测数据；

第四获得子单元，用于基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签，调整所述第一语言模型的网络参数，获得所述文本错误识别模型。

在本申请实施例一种可选的实施方式中，所述装置还包括第一训练文本获得单元，所述第一训练文本获得单元包括：

第五获得子单元，用于对所述通用领域语料中各个字进行随机替换，获得替换通用领域语料；

第一确定子单元，用于比较所述通用领域语料和所述替换通用领域语料，确定所述替换通用领域语料中替换位置和未替换位置；

第二确定子单元，用于将所述替换通用领域语料确定为所述第一训练文本；所述替换通用领域语料中替换位置的训练标签为错误标签，所述替换通用领域语料中未替换位置的训练标签为正确标签；

第六获得子单元，用于对所述语音客服领域语料进行纠错，获得纠错语音客服领域语料；

第三确定子单元，用于比较所述语音客服领域语料和所述纠错语音客服领域语料，确定所述语音客服领域语料中正确位置和错误位置；

第四确定子单元，用于将所述语音客服领域语料确定为所述第一训练文本；所述语音客服领域语料中正确位置的训练标签为正确标签，所述语音客服领域语料中错误位置的训练标签为错误标签。

在本申请实施例一种可选的实施方式中，所述第二获得单元402包括：

第七获得子单元，用于将所述第一语音识别文本中各个字、各个词输入所述第一输入层，获得所述第一语音识别文本的向量矩阵；

第八获得子单元，用于将所述第一语音识别文本的向量矩阵输入所述第一语义表示层，获得所述第一语音识别文本的语义特征向量；

第九获得子单元，用于将所述第一语音识别文本的语义特征向量输入所述第一输出层，获得所述第一语音识别文本中每个位置的标签预测数据；

第五确定子单元，用于基于第一语音识别文本中每个位置的标签预测数据，确定所述第一语音识别文本中错误位置。

在本申请实施例一种可选的实施方式中，所述第三获得单元403包括：

第十获得子单元，用于拼接所述第一语音识别文本和所述第一语音识别文本的上文，获得语音识别输入文本；所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置；

第十一获得子单元，用于获得所述语音识别输入文本的拼音；从所述第一语音识别文本对应的候选纠错字词典中，获得所述语音识别输入文本中错误位置对应的各个候选纠错字；

第十二获得子单元，用于将所述语音识别输入文本、所述语音识别输入文本的拼音，以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，获得所述第一语音识别文本对应的第二语音识别文本；

在本申请实施例一种可选的实施方式中，所述第二语言模型包括第二输入层、第二语义表示层和第二输出层；对应地，所述装置还包括文本纠错模型获得单元，所述文本纠错模型获得单元包括：

第十三获得子单元，用于将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层，获得所述第二训练文本的向量矩阵；

第十四获得子单元，用于将所述第二训练文本的向量矩阵输入所述第二语义表示层，获得所述第二训练文本的语义特征向量；

第十五获得子单元，用于将所述第二训练文本的语义特征向量输入所述第二输出层，获得所述第二训练文本中错误位置对应的预测纠错字；

第十六获得子单元，用于基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字，调整所述第二语言模型的网络参数，获得所述文本纠错模型。

在本申请实施例一种可选的实施方式中，所述第十二获得子单元包括：

第一获得模块，用于将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层，获得所述语音识别输入文本的向量矩阵；

第二获得模块，用于将所述语音识别输入文本的向量矩阵输入所述第二语义表示层，获得所述语音识别输入文本的语义特征向量；

第三获得模块，用于将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层，获得所述语音识别输入文本中错误位置对应的目前纠错字；

第四获得模块，用于基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字，获得所述第一语音识别文本对应的第二语音识别文本。

在本申请实施例一种可选的实施方式中，所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种：

在本申请实施例一种可选的实施方式中，所述装置还包括第四获得单元，所述第四获得单元用于：

在本申请实施例一种可选的实施方式中，所述第四获得单元包括：

第十七获得子单元，用于获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体；

第十八获得子单元，用于基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱，获得相关实体关系对；

第十九获得子单元，用于基于所述相关实体关系对纠错所述第二语音识别文本，获得所述第三语音识别文本。

通过本实施例提供的各种实施方式，利用通用语音识别技术将用户输入语音转换为第一语音识别文本；通过文本错误识别模型获得第一语音识别文本中错误位置，文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本，以及第一训练文本中每个位置的训练标签训练第一语言模型获得的，训练标签为正确标签或错误标签；基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见，在语音客服领域场景下，不需要单独训练具有针对性的语音识别模型，利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型，确定通用语音识别技术获得的第一语音识别文本中错误位置，对该错误位置进行纠错即可得到更准确的第二语音识别文本，以解决在语音客服领域场景下，通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。

此外，本申请实施例还提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的语音客服文本纠错的方法。

本申请实施例一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方法实施例所述的语音客服文本纠错的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种语音客服文本纠错的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一语言模型包括第一输入层、第一语义表示层和第一输出层；对应地，所述文本错误识别模型的获得步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述第一训练文本的获得步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述第一语音识别文本输入文本错误识别模型，获得所述第一语音识别文本中错误位置，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音识别文本中错误位置进行纠错，获得第二语音识别文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述第二语言模型包括第二输入层、第二语义表示层和第二输出层；对应地，所述文本纠错模型的训练步骤包括：

7.根据权利要求5所述的方法，其特征在于，所述将所述语音识别输入文本、所述语音识别输入文本的拼音，以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型，获得所述第二语音识别文本，包括：

8.根据权利要求5-7任意一项所述的方法，其特征在于，所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种：

9.根据权利要求1所述的方法，其特征在于，在所述获得第二语音识别文本之后，还包括：

10.根据权利要求9所述的方法，其特征在于，所述基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错处理，获得第三语音识别文本，包括：

11.一种语音客服文本纠错的装置，其特征在于，包括：

12.一种终端设备，其特征在于，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的语音客服文本纠错的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-10任一项所述的语音客服文本纠错的方法。