CN118072729A

CN118072729A - 一种用于语音交互的数据处理方法、系统及存储介质

Info

Publication number: CN118072729A
Application number: CN202410147584.9A
Authority: CN
Inventors: 张岸宏; 李业纯; 刘钰
Original assignee: Xinjing Zhili Health Technology Guangzhou Co ltd
Current assignee: Xinjing Zhili Health Technology Guangzhou Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-05-24

Abstract

本申请公开了一种用于语音交互的数据处理方法、系统及存储介质，涉及数据处理技术领域。该方法包括以下步骤：获取语音数据；对所述语音数据进行文本转换得到文本信息；基于所述文本信息进行意图分析后获取用户的交互意图；将所述文本信息导入交互响应模型后输出用于预测的导向意图；将所述交互意图与所述导向意图进行比对后获取交互内容；基于所述交互内容对所述语音数据进行交互响应。该系统及存储介质，均与该方法相对应。本申请，基于交互意图的分析，与通过交互响应模型输出的导向意图之间进行比对，获取到准确的交互内容，从而提高语音交互结果的准确性，并且，随着交互响应模型的不断优化，能够更快速、准确的实现人机之间的语音交互，提高使用价值。

Description

一种用于语音交互的数据处理方法、系统及存储介质

技术领域

本申请涉及数据处理技术领域，具体是一种用于语音交互的数据处理方法、系统及存储介质。

背景技术

随着人机交互技术的持续创新，人们的交互方式在不断改变，从鼠标、键盘、遥控器再到触屏，交互方式越来越简单。而人工智能技术的兴起，为更加自然的交互方式提供了可能——自然语言会话，使用者可通过自然语言的方式与机器交互、获取信息，并以对话式交互为核心，将语音技术、图像技术、人脸识别技术、增强显示技术相结合，使技术存在于无处不在的设备中。在一些现有的智能语音交互装置的实际应用中，基于用户的使用反馈，不难发现，装置无法准确响应用户的交互意图的问题暴露的十分明显，因此，亟需对语音交互装置的数据处理技术进行改进。

发明内容

本申请的目的在于提供一种用于语音交互的数据处理方法、系统及存储介质，以解决上述背景技术中提出的技术问题。

为实现上述目的，本申请公开了以下技术方案：

第一方面，本申请提供了一种用于语音交互的数据处理方法，该方法包括以下步骤：

获取语音数据；

对所述语音数据进行文本转换得到文本信息；

基于所述文本信息进行意图分析后获取用户的交互意图；

将所述文本信息导入交互响应模型后输出用于预测的导向意图；

将所述交互意图与所述导向意图进行比对后获取交互内容；

基于所述交互内容对所述语音数据进行交互响应。

作为优选，所述的对所述语音数据进行文本转换得到文本信息，包括：

按照同音提取规则对所述语音数据进行语音提取，得到表示同一个声源发出的若干段语音段；

按照时间节点将若干段所述语音内容进行拼接后得到由同一个声源发出的语音内容；

将所述语音内容转换为所述文本信息；

其中，所述同音提取规则包括：采用相同音色和/或声纹对语音数据进行识别分析后，对表示同一个声源发出的语音段进行提取。

作为优选，当所述语音数据对应的声源个数大于1时，对所述语音内容进行身份鉴别，明确声源对应的用户身份，并将表示被信任的用户身份对应的语音内容作为目标语音内容，此时，所述的将所述语音内容转换为所述文本信息为：将所述目标语音内容转换为所述文本信息。

作为优选，所述的基于所述文本信息进行意图分析后获取用户的交互意图，具体包括：

对所述文本信息进行语义识别，将预设的交互语义特征与语义识别结果进行比对，提取所述文本信息对应的交互意图特征；

以所述交互意图特征在所述文本信息中的排布顺序对所述交互意图特征进行排序后生成意图特征阶层图表；

对所述意图特征阶层图表中的交互意图特征进行同类识别，并计算属于相同意图类型的交互意图特征在所述意图特征阶层图表中的比重值P，其中，P_n为意图类型是n的交互意图特征对应的比重值，Count_n为意图类型是n的交互意图特征的个数，∑Count为意图特征阶层图表中交互意图特征的总数；

将比重值P最大的意图类型作为交互意图对应的意图类型；

对比重值P最大的意图类型对应的所有交互意图特征进行语义提取，获取该所有交互意图特征对应的意图内容；

将所述意图类型和所述意图内容组合为所述交互意图。

作为优选，所述交互响应模型通过以大数据获取的语音信息及其对应的交互信息、以用户使用的历史语音信息及其对应的交互信息、以用户预设的语音信息及交互信息中的一种或多种作为关键词进行深度学习后得到，所述交互响应模型存储有多组语音信息对应的文本信息及与该文本信息对应的导向意图。

作为优选，所述交互意图和所述导向意图均包括意图类型和意图内容；所述的将所述交互意图与所述导向意图进行比对后获取交互内容，具体包括：

将所述交互意图的意图类型和所述交互响应模型输出的导向意图的意图类型进行比对，确认所述交互意图的意图类型和所述导向意图的意图类型之间的类型关联度ASStype；

将所述交互意图的意图内容和所述导向意图的意图内容进行比对，确认所述交互意图的意图类型和所述导向意图的意图类型之间的内容关联度ASScontent；

当所述类型关联度ASStype大于预设的类型关联度阈值ASStype_min和/或所述内容关联度ASScontent大于预设的内容关联度阈值ASScontent_min时，将所述导向意图与所述交互意图中的意图内容融合后作为所述交互内容；否则，将所述导向意图作为所述交互内容。

作为优选，当所述交互响应模型输出的导向意图的数量大于1时，在计算所述类型关联度ASStype和所述内容关联度ASScontent之前，将满足所述类型关联度ASStype大于预设的类型关联度阈值ASStype_min和/或所述内容关联度ASScontent大于预设的内容关联度阈值ASScontent_min的导向意图均与所述交互意图中的意图内容融合后作为所述交互内容。

作为优选，该种用于语音交互的数据处理方法还包括：所述交互响应模型将所述交互内容与对应的语音数据作为关键词进行深度学习。

第二方面，本申请公开了一种用于语音交互的数据处理系统，适用于如上所述的用于语音交互的数据处理方法，该种用于语音交互的数据处理系统包括：

拾音模块，配置为：获取语音数据；

文本转换模块，配置为：对所述语音数据进行文本转换得到文本信息；

意图分析模块，配置为：基于所述文本信息进行意图分析后获取用户的交互意图；

交互响应模型，配置为：基于输入的文本信息输出用于预测的导向意图；

意图明确模块，配置为：将所述交互意图与所述导向意图进行比对后获取交互内容；

交互响应模块，配置为：基于所述交互内容对所述语音数据进行交互响应。

第三方面，本申请公开了一种计算机可读存储介质，其上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的用于语音交互的数据处理方法。

有益效果：本申请，基于交互意图的分析，与通过交互响应模型输出的导向意图之间进行比对，获取到准确的交互内容，从而提高语音交互结果的准确性，并且，随着交互响应模型的不断优化，能够更快速、准确的实现人机之间的语音交互，提高使用价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用于语音交互的数据处理方法的流程框图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本实施例在第一方面公开了一种如图1所示的用于语音交互的数据处理方法(以下简称本处理方法)，该方法包括以下步骤：

获取语音数据；

对所述语音数据进行文本转换得到文本信息；

基于所述文本信息进行意图分析后获取用户的交互意图；

将所述交互意图与所述导向意图进行比对后获取交互内容；

基于所述交互内容对所述语音数据进行交互响应。

借由上述，本实施例的用于语音交互的数据处理方法，基于交互意图的分析，与通过交互响应模型输出的导向意图之间进行比对，获取到准确的交互内容，从而提高语音交互结果的准确性，并且，随着交互响应模型的不断优化，能够更快速、准确的实现人机之间的语音交互，提高使用价值。

在本实施例中，所述的对所述语音数据进行文本转换得到文本信息，包括：

将所述语音内容转换为所述文本信息；

本处理方法，将语音数据进行语音内容的处理，能够提高后续数据处理过程中的基础数据准确性，同时，能够对于语音内容转化得到的文本信息的准确性进行提高。进一步地，本处理方法，通过将语音内容转换为文本信息，利于后续的内容识别，并且，能够采用现有技术中的任意一种纠错技术对文本信息实现错误检查，从而提高后续的意图分析以及导向意图输出的准确性，最终提高语音交互结果的准确性。

作为优选地，当所述语音数据对应的声源个数大于1时，对所述语音内容进行身份鉴别，明确声源对应的用户身份，并将表示被信任的用户身份对应的语音内容作为目标语音内容，此时，所述的将所述语音内容转换为所述文本信息为：将所述目标语音内容转换为所述文本信息。这样设计的好处是，通过识别指定身份的用户身份来进行语音内容的选择，能够提高文本信息获取的效率，进而提高后续意图分析以及导向意图输出的效率。

在本实施例中，所述的基于所述文本信息进行意图分析后获取用户的交互意图，具体包括：

将比重值P最大的意图类型作为交互意图对应的意图类型；

将所述意图类型和所述意图内容组合为所述交互意图。

本处理方法，通过上述方式，提高了交互意图获取的效率以及准确性，进而确保语音交互结果的准确率。

本实施例中，所述交互响应模型通过以大数据获取的语音信息及其对应的交互信息、以用户使用的历史语音信息及其对应的交互信息、以用户预设的语音信息及交互信息中的一种或多种作为关键词进行深度学习后得到，所述交互响应模型存储有多组语音信息对应的文本信息及与该文本信息对应的导向意图。

基于此，所述交互意图和所述导向意图均包括意图类型和意图内容；所述的将所述交互意图与所述导向意图进行比对后获取交互内容，具体包括：

本处理方法，通过上述交互意图和导向意图之间的比对，能够对交互意图进行查缺补漏，并且，还能够对交互意图进行纠错，进而以用户的既定交互习惯作为导向来实现语音交互，进而提高语音交互结果的准确性。

此外，当所述交互响应模型输出的导向意图的数量大于1时，在计算所述类型关联度ASStype和所述内容关联度ASScontent之前，将满足所述类型关联度ASStype大于预设的类型关联度阈值ASStype_min和/或所述内容关联度ASScontent大于预设的内容关联度阈值ASScontent_min的导向意图均与所述交互意图中的意图内容融合后作为所述交互内容。

可行的是，本处理方法还包括：所述交互响应模型将所述交互内容与对应的语音数据作为关键词进行深度学习。这样做的好处是，能够对交互响应模型进行逐步优化，从而使语音交互结果的准确性越来越高。辅以前述以用户的既定交互习惯作为导向来实现语音交互，能够大幅度的对交互响应模型导出的导向意图进行优化，进而提高语音交互结果的准确性，并且，随着数据量的增加，能够理论上实现相应的设备与各种交流方式、习惯、特点的人员进行准确的语音交互。

本实施例在第二方面还公开了一种用于语音交互的数据处理系统，适用于如上所述的本处理方法，该种用于语音交互的数据处理系统(以下简称本处理系统)包括：

拾音模块，配置为：获取语音数据；

需要说明的是，本处理系统与本处理方法相对应，因此，本处理系统中未作进一步具体公开的内容，可以参考本处理方法中的记载，同时，本处理系统对应技术效果，也可以参考本处理方法中的描述，本文本在此不做赘述。

本实施例在第三方面还公开了一种计算机可读存储介质，其上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的用于语音交互的数据处理方法。

同样的，本实施例的电子设备与本处理方法相对应，因此，本实施例的计算机可读存储介质对应技术效果，可以参考本处理方法中的描述，本文本在此不做赘述。

在本申请所提供的实施例中，应该理解到，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读存储介质中或作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读存储介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应说明的是：以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于语音交互的数据处理方法，其特征在于，该方法包括以下步骤：

获取语音数据；

对所述语音数据进行文本转换得到文本信息；

基于所述文本信息进行意图分析后获取用户的交互意图；

将所述交互意图与所述导向意图进行比对后获取交互内容；

基于所述交互内容对所述语音数据进行交互响应。

2.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述的对所述语音数据进行文本转换得到文本信息，包括：

将所述语音内容转换为所述文本信息；

3.根据权利要求2所述的用于语音交互的数据处理方法，其特征在于，当所述语音数据对应的声源个数大于1时，对所述语音内容进行身份鉴别，明确声源对应的用户身份，并将表示被信任的用户身份对应的语音内容作为目标语音内容，此时，所述的将所述语音内容转换为所述文本信息为：将所述目标语音内容转换为所述文本信息。

4.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述的基于所述文本信息进行意图分析后获取用户的交互意图，具体包括：

将比重值P最大的意图类型作为交互意图对应的意图类型；

将所述意图类型和所述意图内容组合为所述交互意图。

5.根据权利要求1所述的用于语音交互的数据处理方法，其特征在于，所述交互响应模型通过以大数据获取的语音信息及其对应的交互信息、以用户使用的历史语音信息及其对应的交互信息、以用户预设的语音信息及交互信息中的一种或多种作为关键词进行深度学习后得到，所述交互响应模型存储有多组语音信息对应的文本信息及与该文本信息对应的导向意图。

6.根据权利要求5所述的用于语音交互的数据处理方法，其特征在于，所述交互意图和所述导向意图均包括意图类型和意图内容；所述的将所述交互意图与所述导向意图进行比对后获取交互内容，具体包括：

7.根据权利要求6所述的用于语音交互的数据处理方法，其特征在于，当所述交互响应模型输出的导向意图的数量大于1时，在计算所述类型关联度ASStype和所述内容关联度ASScontent之前，将满足所述类型关联度ASStype大于预设的类型关联度阈值ASStype_min和/或所述内容关联度ASScontent大于预设的内容关联度阈值ASScontent_min的导向意图均与所述交互意图中的意图内容融合后作为所述交互内容。

8.根据权利要求6所述的用于语音交互的数据处理方法，其特征在于，该种用于语音交互的数据处理方法还包括：所述交互响应模型将所述交互内容与对应的语音数据作为关键词进行深度学习。

9.一种用于语音交互的数据处理系统，适用于如权利要求1-8任意一项所述的用于语音交互的数据处理方法，其特征在于，该种用于语音交互的数据处理系统包括：

拾音模块，配置为：获取语音数据；

10.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-8任意一项所述的用于语音交互的数据处理方法。