CN114678029A

CN114678029A - 语音处理方法、系统、计算机可读存储介质及程序产品

Info

Publication number: CN114678029A
Application number: CN202210585168.8A
Authority: CN
Inventors: 李进峰; 高爱玲
Original assignee: Shenzhen Renma Interactive Technology Co Ltd
Current assignee: Shenzhen Renma Interactive Technology Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-06-28
Anticipated expiration: 2042-05-27
Also published as: CN114678029B

Abstract

本申请提供一种语音处理方法、系统、计算机可读存储介质及程序产品，该方法包括：获取输入音频；第一语音识别模型对输入音频进行识别生成第一识别文本；聊天机器人用于对识别文本进行语义理解，获取识别文本的语义信息，根据语义信息确定对输入音频的反馈；根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型；若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人调用第二语音识别模型对输入音频进行识别生成第二识别文本；聊天机器人根据第一识别文本和第二识别文本确定输入音频的语义信息，确定第二预设反馈，将第二预设反馈至用户。防止单一语音识别模型影响聊天机器人语义理解的准确率的问题且避免资源浪费。

Description

语音处理方法、系统、计算机可读存储介质及程序产品

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种语音处理方法、系统、计算机可读存储介质及程序产品。

背景技术

目前，语音识别模型各有优劣，例如：有的语音识别模型，短句子识别准确，而长句子识别能力较差、识别错误较多；有的语音识别模型长句子识别准确，但识别文本中有标点符号。因此，在不同情况下具体应用时，若语音识别模型单独使用，各有缺陷，部分情况语义识别存在错误或不能完美适配需求时，严重影响语音识别之后的语义理解正确率；而如果若干个语音识别模型同时使用，会存在负载较高、成本较高及无意义重复识别的资源浪费等问题。

发明内容

本申请提供了一种语音处理方法、系统、计算机可读存储介质及程序产品。

本申请提供了一种语音处理方法，用于对输入音频进行处理，包括：

获取输入音频；

第一语音识别模型对输入音频进行识别，生成第一识别文本；

聊天机器人用于对识别文本进行语义理解，获取识别文本的语义信息，根据语义信息确定对输入音频的反馈；及根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型；

若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人将调用第二语音识别模型对输入音频进行识别，生成第二识别文本；

聊天机器人根据第一识别文本和第二识别文本确定输入音频的语义信息，进而确定第二预设反馈，并将第二预设反馈反馈至用户。

其中，若聊天机器人调用第二语音识别模型，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，并将第一回复反馈至用户。

其中，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，还包括：

预设有若干第一回复，预设有若干语义类型，第一回复与语义类型有预设的关联关系；

聊天机器人在对第一识别文本进行语义理解的过程中，获取第一识别文本的语义信息，并对第一识别文本中的语义信息进行分类，以获取第一识别文本中语义信息的语义类型；

根据语义类型，获取语义类型与关联的第一回复。

其中，第一回复或第二预设反馈中还可以包括中继话术，以承接第一回复和第二预设反馈。

其中，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，包括：

聊天机器人判断第一识别文本是否满足预设形式条件，若第一识别文本不满足预设形式条件，聊天机器人将调用第二语音识别模型。

其中，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，还包括：

聊天机器人可根据第一识别文本中的语义信息获得输入意图，若聊天机器人根据第一识别文本中的语义信息未获取到输入意图，聊天机器人将调用第二语音识别模型。

聊天机器人可根据输入意图获取与输入意图相对应的第一预设反馈，若聊天机器人根据输入意图未能获取与输入意图相对应的第一预设反馈，聊天机器人将调用第二语音识别模型。

本申请还提供了一种语音处理系统，包括第一语音识别模型、第二语音识别模型及聊天机器人；第一语音识别模型与聊天机器人连接，第二语音识别模型与聊天机器人连接；

第一语音识别模型用于对输入的音频进行识别，生成第一识别文本，并将第一识别文本发送至聊天机器人；

第二语音识别模型用于对输入的音频进行识别，生成第二识别文本，并将第二识别文本发送至聊天机器人；

聊天机器人用于对识别文本进行语义理解，确定对输入音频的反馈；及根据对第一识别文本的理解程度，决定是否调用第二语音识别模型。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序，其特征在于，计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现一种语音处理方法。

本申请还提供了一种计算机程序产品，其特征在于，包括至少一条计算机程序，计算机程序由处理器加载并执行以实现一种语音处理方法。

本申请的有益效果是：在本申请一种语音处理方法中，若聊天机器人可以对第一识别文本正常理解、处理时，只使用了第一语音识别模型对输入音频进行识别；若聊天机器人未能对第一识别文本正常理解、处理时，调用第二语音识别模型对输入音频进行识别，以对第一语音识别模型的识别结果做补充及校验。通过该语音处理方法，具有如下好处：一是可防止出现单一语音识别模型因自身模型缺陷出现识别错误或问题而影响聊天机器人语义理解的准确率的问题。二是可避免一直同时使用两个语音识别模型时，会存在负载较高、成本较高及无意义重复识别的资源浪费的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的语音处理方法实施例的流程示意图；

图2是图1中步骤S20实施例的具体流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

一种语音处理系统，包括第一语音识别模型、第二语音识别模型及聊天机器人。第一语音识别模型与聊天机器人连接，第二语音识别模型与聊天机器人连接

聊天机器人用于对识别文本（包括第一识别文本和第二识别文本）进行语义理解，获取识别文本的语义信息，根据语义信息确定对输入音频的反馈；及根据对第一识别文本语义信息的语义理解程度，决定是否调用第二语音识别模型。

一种语音处理方法，用于对输入音频进行处理，包括如下步骤：

S10获取输入音频，第一语音识别模型对输入音频进行识别，生成第一识别文本，并将第一识别文本发送至聊天机器人。

S20聊天机器人对第一识别文本进行语义理解，并根据对第一识别文本的语义理解程度，决定是否进入步骤S30调用第二语音识别模型对输入音频进行识别。若聊天机器人对第一识别文本的语义理解程度未满足预设条件，将进入步骤S30调用第二语音识别模型对输入音频进行识别。若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人获取识别文本的语义信息，根据语义信息确定对输入音频的反馈。

可以理解，“根据对第一识别文本语义信息的语义理解程度”中“确定对第一识别文本语义信息的语义理解程度”的实现方法有多种，难以一一列举，因此，仅用部分实施例做示例性说明：可以是“语义理解包括若干个具体步骤，对第一识别文本进行语义理解时，还判断第一识别文本是否满足语义理解过程中执行具体语义理解步骤的预设前提条件，根据是否满足预设前提条件以确定语义理解程度”；也可以是“对第一识别文本在语义理解每个步骤产生的语义理解结果进行判断，根据语义理解结果是否需要进一步确认以确定语义理解程度”；还可以是“对第一识别文本经语义理解后的最终语义理解结果进行判断，根据语义理解结果是否需要进一步确认以确定语义理解程度”。

具体的，S20包括S21，聊天机器人可对第一识别文本是否满足预设形式条件进行判断；若第一识别文本不满足预设形式条件，则进入步骤S30；若第一识别文本满足预设形式条件，则进入步骤22。

预设形式条件可以包括：第一识别文本中存在文字、第一识别文本的文本长度未超过预设的文本长度阈值、第一识别文本中不存在乱码、第一识别文本中不存在标点符号及其他对第一识别文本的形式要求。预设形式条件可以为若干形式要求中任意一项或任意多项的组合。

可以理解，若第一识别文本不满足预设形式条件，会影响聊天机器人对第一识别文本的语义理解，如：第一识别文本中不存在文字、第一识别文本中存在乱码，会对聊天机器人的语义理解产生影响，因此，从该层面来说，聊天机器人判断第一识别文本是否满足预设形式条件，也是聊天机器人对第一识别文本进行语义理解的一部分。可以理解，纵使第一识别文本不满足预设形式条件，聊天机器人也可以在第一识别文本的基础上进行语义理解，获取第一识别文本中的语义信息，具有有一定的语义理解程度。特别的，在其他实施例中，在第一识别文本不满足预设形式条件时，还可认为聊天机器人不能理解第一识别文本，即语义理解程度为0。

通过对第一识别文本是否满足预设形式条件进行判断，可以从第一识别文本的形式上，判断输入音频是否超出了第一语音识别模型的正常有效识别范围。如：假设第一语音识别模型对短句子的识别准确率为90%，对长句子的识别准确率为50%，短句子为第一识别文本少于10个字，长句子为第一识别文本多于20个字，因此，当第一识别文本为25个字时，即可判断输入音频已超出了第一语音识别模型正常有效识别范围的识别范围，此时，第一识别模型生成的第一识别文本识别准确率不高，会严重影响后续的语义理解，从而调用第二语音识别模型进行补充识别，以对第一识别文本进行校正，如此，可有效避免后续语义理解流程在识别准确率不高的第一识别文本基础上进行意义不大的语义理解。

S22：聊天机器人获取第一识别文本中的语义信息，并可根据语义信息获取输入意图；在聊天机器人获取输入意图的过程中，若未获取到输入意图，则进入步骤S30；若获取到输入意图，则进入步骤S23；

进一步，聊天机器人根据第一识别文本中的语义信息和当前的语境信息，获取第一识别文本语义信息在当前语境下所要表达的输入意图。其中，当前的语境信息包括上文信息、场景信息等。

可以理解，未获取到输入意图包括未获取到第一识别文本中的语义信息、第一识别文本中的语义信息获取不完整、根据第一识别文本语义信息未获取到输入意图、根据第一识别文本语义信息获取的输入意图不完整、根据第一识别文本语义信息及当前语境未获取到输入意图、以及根据第一识别文本语义信息及当前语境获取的输入意图不完整等多种未能获取输入意图情况。

S23：聊天机器人可根据输入意图，获取与输入意图相对应的第一预设反馈；若未能获取与输入意图相对应的第一预设反馈，则进入S30；若可获取与输入意图相对应的第一预设反馈，则将第一预设反馈反馈至用户。

可以理解，未能获取与输入意图相对应的第一预设反馈可以有多种情况，难以一一列举，因此，仅用部分实施例做示例性说明：聊天机器人预设有若干预测意图，预测意图预设有对应的第一预设反馈，聊天机器人可将输入意图与预设的预测意图进行匹配，若输入意图与预设的预测意图未匹配成功，则根据输入意图未能获取与输入意图相对应的第一预设反馈。

第一预设反馈可包括预设回复、执行预设动作、及执行预设指令等反馈行为。

在步骤S20中，聊天机器人通过多次层次的语义理解程度判断，及在各阶段对对第二语音识别模型的调用，可有效排除因语音识别问题而导致的语义理解出错的情况。可以更准确的定位语义理解过程中，问题的出现阶段及问题类型，便于后续改进及优化聊天机器人。

S30聊天机器人调用第二语音识别模型对原输入音频进行识别，生成第二识别文本；并根据第一识别文本和第二识别文本得到确定的语义信息，再根据确定的语义信息确定第二预设反馈，将第二预设反馈反馈至用户。

具体的，关于“聊天机器人根据第一识别文本和第二识别文本确定语义信息”的实现方式有多种，难以一一列举，因此，仅用部分实施例做示例性说明：

实施例一，聊天机器人分别从第一识别文本和第二识别文本中提取语义信息，并将提取的语义信息做交集或并集，以得到确定的语义信息。

实施例二，聊天机器人将第一识别文本和第二识别文本进行比对，将比对结果拼凑作为最终识别文本。具体的，将第一识别文本和第二识别文本中的字或词在当前场景中的出现概率进行比对，将出现概率大的字或词确定为比对结果；或根据字或词的连接概率，将第一识别文本和第二识别文本中连接概率大的词确定为识别比对结果。

关于“并根据语义信息确定第二预设反馈”的实现方法有多种，难以一一列举，因此，仅用部分实施例做示例性说明：

根据第一识别文本和第二识别文本得到确定的语义信息，根据确定的语义信息和当前的语境信息，获取语义信息在当前语境下所要表达的输入意图，根据输入意图获取第二预设反馈。

可以理解，在根据语义信息确定第二预设反馈的过程中，也仍存在不能满足预设形式条件、未能获取输入意图等情况的可能性，但此时，聊天机器人仍会根据已获取到的语义信息，获取与语义信息相关的第二预设反馈以反馈至用户。可以理解，在一些其他实施例中，遇到上述情形时，还可能是聊天机器人会调用第三语音识别模型进行识别及对综合识别结果做处理。

进一步，根据第一识别文本和第二识别文本确定预设反馈的具体实现方法还可结合具体场景预设，并与具体场景对应。

在本申请一种语音处理方法中，若聊天机器人可以对第一识别文本正常理解、处理时，只使用了第一语音识别模型对输入音频进行识别；若聊天机器人未能对第一识别文本正常理解、处理时，调用第二语音识别模型对输入音频进行识别，以对第一语音识别模型的识别结果做补充及校验。通过该语音处理方法，具有如下好处：

一是可防止出现单一语音识别模型因自身模型缺陷出现识别错误或问题而影响聊天机器人语义理解的准确率的问题，即在第一语音识别模型因自身模型缺陷出错时，可调用第二语音识别模型以消除第一语音识别模型因自身特色缺陷而出现的识别错误问题。

二是可避免一直同时使用两个语音识别模型时，会存在负载较高、成本较高及无意义重复识别的资源浪费的问题。在大多数第一语音识别模型识别正常的情况下，不需要使用第二语音识别模型，就不会对识别正常的输入音频有无意义的重复识别，可节约资源，减少资源浪费，再有语音识别模型按识别量收费，无意义的重复识别也会导致使用成本更高；且相较而言，同时使用两个语音识别模型相对于使用一个语音识别模型，所需要的负载更大。

一种语音处理方法的若干改进方案，具体实施例如下：

改进实施例：在步骤S20中，若聊天机器人调用第二语音识别模型，聊天机器人还向用户反馈第一回复。

进一步的改进实施例：在步骤S20中，若聊天机器人调用第二语音识别模型，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，并将第一回复反馈至用户。

更进一步的改进实施例：在步骤S20中，若聊天机器人调用第二语音识别模型，聊天机器人获取第一识别文本中的语义信息后，聊天机器人还根据第一识别文本语义信息获取与第一识别文本语义信息相关联的第一回复，并将第一回复反馈至用户。

可以理解，“聊天机器人根据第一识别文本语义信息获取与第一识别文本语义信息相关联的第一回复”可以有多种实现方式，难以一一列举，因此，仅用部分实施例做示例性说明：聊天机器人可对第一识别文本中的语义信息进行分类，获取第一识别文本中语义信息的语义类型；聊天机器人预设有若干第一回复，预设有若干的语义类型，第一回复与语义类型具有预设的关联关系；聊天机器人根据第一识别文本语义信息获取对应的语义类型，根据语义类型，获取关联的第一回复。可以理解，“聊天机器人可以对第一识别文本中的语义信息进行分类”，根据分类的依据不同，分类的方式可以有多种，难以一一列举，因此，仅用部分实施例做示例性说明：根据语义信息可确定与语义信息关联的应用场景信息，可根据语义信息所关联的应用场景信息对语义信息进行分类。

具体的，在步骤S21中，若聊天机器人判断第一识别文本不满足预设形式条件，除执行进入步骤S30之外，还根据第一识别文本语义信息获取与第一识别文本语义信息相关联的第一回复，并将第一回复反馈至用户。

在步骤S22中，在聊天机器人获取输入意图的过程中，若未获取到输入意图，除执行进入步骤S30之外，还根据第一识别文本语义信息获取与第一识别文本语义信息相关联的第一回复，并将第一回复反馈至用户。

在步骤S23中，若不存在与输入意图相对应的预设反馈，除执行进入步骤S30之外，还根据第一识别文本语义信息获取与第一识别文本语义信息相关联的第一回复，并将第一回复反馈至用户。

第一回复用于对用户输入有快速反馈，以避免因步骤S30用时过长，导致用户长时间未收到回复，产生交流的停顿感；即通过第一回复，可使人机交流过程中，不会出现超预期停顿的现象，可使人机交互更为自然。

另，由上述步骤可以看出，第一回复只是聊天机器人对于用户输入的过渡性回复，在第一回复之后，还会有与输入相关的预设反馈再次反馈给用户，即在本方法的改进方案之中，对于用户的一次输入，有两次反馈。因此第一回复需要跟用户输入有相关性，以使第一回复和预设反馈保持一致性，从而使衔接更流畅，而不出现第一回复突兀、或第一回复和预设反馈衔接突兀的情况。进一步，第一回复或预设反馈中还可以包括中继话术，以承接第一回复和预设反馈，是第一回复和预设反馈的衔接不显得突兀。

一种计算机程序产品，可操作计算机执行上述系统实施例、和上述方法实施例中记载的任一方法的部分或全部步骤。如：用于使服务器根据计算机程序执行所述语音处理方法的各步骤及执行所提及的服务器相应功能。该计算机程序产品可以为一个软件安装包，通过程序来指令相关的硬件来完成，上述计算机包括服务器、手机等。

一种计算机存储介质，用于存储上述计算机程序。上述方法步骤如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例上述方法的全部或部分步骤。计算机存储介质包括：闪存盘、U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行，某些步骤是可选或者优选步骤，可选择省略。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，用于对输入音频进行处理，其特征在于，包括：

获取输入音频；

2.如权利要求1所述的一种语音处理方法，其特征在于，若聊天机器人调用第二语音识别模型，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，并将第一回复反馈至用户。

3.如权利要求2所述的一种语音处理方法，其特征在于，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，还包括：

根据语义类型，获取语义类型与关联的第一回复。

4.如权利要求2或3所述的一种语音处理方法，其特征在于，第一回复或第二预设反馈中还可以包括中继话术，以承接第一回复和第二预设反馈。

5.如权利要求1-3任一所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，包括：

6.如权利要求5所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，还包括：

7.如权利要求6所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，还包括：

8.一种语音处理系统，包括第一语音识别模型、第二语音识别模型及聊天机器人；第一语音识别模型与聊天机器人连接，第二语音识别模型与聊天机器人连接；

9.一种计算机可读存储介质，用于存储计算机程序，其特征在于，计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现一种语音处理方法。

10.一种计算机程序产品，其特征在于，包括至少一条计算机程序，计算机程序由处理器加载并执行以实现一种语音处理方法。