CN113192498A

CN113192498A - 音频数据处理方法、装置、处理器及非易失性存储介质

Info

Publication number: CN113192498A
Application number: CN202110580907.XA
Authority: CN
Inventors: 李健; 许浙波; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-07-30

Abstract

本发明公开了一种音频数据处理方法、装置、处理器及非易失性存储介质。其中，该方法包括：获取目标音频数据；确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；依据第一特征信息，获取回复音频数据；输出回复音频数据表征的回复音频。本发明解决了由于网页聊天的方式效率低造成的客户和客服之间沟通效率低的技术问题。

Description

音频数据处理方法、装置、处理器及非易失性存储介质

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种音频数据处理方法、装置、处理器及非易失性存储介质。

背景技术

由于中国是多民族国家，每个民族都有自己特有的语言和文字。目前传统的人工坐席是通过客服人员直接跟用户进行语音沟通，但当坐席人员和用户的语言不通时，就会存在沟通的障碍。针对此痛点，就需要建立一套系统实现双方的顺畅交流。

目前的解决方案是通过网页聊天的形式实现用户和客服之间的沟通，即用户和客服之间采用打字聊天，并且在聊天时，用户或客服每输入一段文字，均需要通过翻译软件将这段文字翻译成另一方可以理解的语言。

现有方案主要有如下缺点：

网页聊天的方式相对低效，不如语音交流的方式高效灵活；

有时文字并不能表达出说话者的真实情感，导致坐席人员(即客服)和用户交流之间会存在一些不必要的误解；

由于各个地区受教育水平参差不齐，仍然有许多人不会使用文字，导致无法通过网页聊天的方式与客服进行沟通。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频数据处理方法、装置、处理器及非易失性存储介质，以至少解决由于网页聊天的方式效率低造成的客户和客服之间沟通效率低的技术问题。

根据本发明实施例的一个方面，提供了一种音频数据处理方法，包括：获取目标音频数据；确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；依据第一特征信息，获取回复音频数据；输出回复音频数据表征的回复音频。

可选地，确定目标音频数据的第一特征信息，包括：将目标音频数据输入至语种判断模型中，确定目标音频数据的语种信息；依据目标音频数据的语种信息，确定与语种信息对应的语义识别模型和情感识别模型；将目标音频数据输入至语义识别模型进行分析，得到目标音频数据的语义信息，以及将目标音频数据输入至情感识别模型，得到目标音频数据的情感信息。

可选地，依据第一特征信息，获取回复音频数据，包括：依据目标音频数据的语种信息，确定回复音频数据的语种信息，其中，回复音频数据的语种信息与目标音频数据的语种信息相同；依据目标音频数据的情感信息，确定回复音频数据的情感信息；依据目标音频数据的语义信息，确定回复音频数据的语义信息。

可选地，依据目标音频数据的语义信息，确定回复音频数据的语义信息，包括：比较目标音频数据的语义信息和第一预设语义信息，确定语义信息和第一预设语义信息的相似度；比较相似度和阈值集合中的预设阈值，依据比较结果确定回复音频数据的语义信息。

可选地，预设阈值包括：第一阈值和第二阈值，其中，第一阈值大于第二阈值；依据比较结果确定回复音频数据的语义信息，包括：比较结果为相似度不小于第一阈值，则确定第二预设语义信息为回复音频数据的语义信息；比较结果为相似度不小于第二阈值，且小于第一阈值，则向目标对象发送预设问题，并获取目标对象基于预设问题的应答信息，以及依据应答信息确定回复音频数据的语义信息；比较结果为相似度小于第二阈值，则生成并向目标客服系统发送第一提示信息，获取目标客服系统基于第一提示信息的初步回复音频，并依据初步回复音频确定回复音频数据的语义信息，其中，第一提示信息至少用于向目标客服系统展示第一特征信息。

可选地，依据应答信息确定回复音频数据的语义信息，包括：依据应答信息，对目标音频数据的语义信息进行更正，得到更正语义信息；获取更正语义信息和第一预设语义信息的相似度，并比较相似度和第一阈值；在比较结果为相似度不小于第一阈值的情况下，确定第二预设语义信息为回复音频数据的语义信息；在比较结果为相似度小于第一阈值的情况下，则将目标音频数据的语义信息替换为更正语义信息；生成并向目标客服系统发送第二提示信息，获取目标客服系统基于第二提示信息的初步回复音频，并依据初步回复音频确定回复音频数据的语义信息，其中，第二提示信息至少用于向目标客服系统展示更正语义信息，目标音频数据的语种信息和目标音频数据的情感信息。

可选地，预设问题的数量为多个，且每发送一个预设问题，获取至少一个应答信息。

根据本发明实施例的另一方面，还提供了一种音频数据处理装置，包括：第一获取模块，获取目标音频数据；确定模块，确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；第二获取模块，依据第一特征信息，获取回复音频数据；输出模块，输出回复音频数据表征的回复音频。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，在程序运行时控制非易失性存储介质所在设备执行音频数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，程序运行时执行音频数据处理方法。

在本发明实施例中，采用获取目标音频数据；确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；依据第一特征信息，获取回复音频数据；输出回复音频数据表征的回复音频的方式，通过确定目标音频数据的语义信息和情感信息，达到了实现客户和客服之间通过语音沟通的目的，从而实现了提高客户和客服之间沟通效率的技术效果，进而解决了由于网页聊天的方式效率低造成的客户和客服之间沟通效率低技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音频数据处理方法的流程示意图；

图2是根据本发明实施例的一种音频数据处理装置的结构示意图。

具体实施方式

实施例1

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种音频数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的音频数据处理方法，如图1所示，该方法包括如下步骤：

步骤S102，获取目标音频数据；

具体地，所述目标音频数据可以包括但不限于：客户的语音信息。

在本申请的一些实施例中，为了便于进行后续步骤，所述目标音频数据中至少包含对目标音频进行预处理后得到的数据，以及未经过处理的音频本身。

步骤S104，确定目标音频数据的第一特征信息，第一特征信息至少包括所述目标音频数据的语种信息，语义信息和情感信息；

具体地，可以通过以下方式来确定目标音频数据的第一特征信息：将目标音频数据输入至语种判断模型中，确定目标音频数据的语种信息；依据目标音频数据的语种信息，确定与语种信息对应的语义识别模型和情感识别模型；将目标音频数据输入至语义识别模型进行分析，得到目标音频数据的语义信息，以及将目标音频数据输入至情感识别模型，得到目标音频数据的情感信息。

在本申请的一些实施例中，上述语种判断模型可以是通过对目标音频的语法信息或关键词进行分析来判断目标音频的语种信息的。具体地，由于客服与客户之间沟通的具体内容往往会集中在某个特定的领域中，从而导致客户在与客服沟通时，提出的问题通常有很大的相似性。因此可以通过统计常见的问题，并进一步汇总使用各个少数民族语言提出所述常见问题时特有的词以及特殊的语法结构，从而实现了通过对目标音频的语法信息或关键词进行分析来判断目标音频的语种信息。

可选地，所述语种判断模型包括数据输入层，特征提取层，数据分析层及结果输出层。所述数据输入层用于接收目标数据，特征提取层用于提取目标数据的特征，数据分析层用于基于目标数据的特征确定目标数据的语种，结果输出层用于输出目标音频数据的语种。由于客户与客服之间进行沟通时，大部分问题是会重复出现的，因此，在对所述语种判断模型进行训练之前，可以先对训练数据进行预处理，以提高训练效率。所述训练数据即为不同语种的客户与客服之间的沟通过程。

具体地，在对语种训练模型进行训练之前，可以采用聚类分析的方法对训练数据进行聚类，从而确定客户与客服之间沟通时会高频出现的问题。

在得到上述高频出现的问题后，可以将上述高频问题中的每个问题在不同语种下的音频信息输入至所述语种判断模型中，采用有监督的训练方式对所述语种训练模型进行判断。

在本申请的另一些实施例中，上述语种判断模型也可以是通过目标音频的MFCC特征来判断目标音频的语种。具体地，为了确定目标音频的语种，可以将目标音频转化为语谱图或MFCC(Mel-frequenc_y cepstral coefficients，梅尔频率倒谱系数)特征，从而通过对特征进行分析从而确定目标音频的语种。上述MFCC为梅尔频率倒谱系数，在声音处理领域中，梅尔频率倒谱是基于声音频率的非线性梅尔克度的对数能量频谱的线性变换。

可选地，所述通过目标音频的MFCC特征判断目标音频语种的语种判断模型也包括数据输入层，特征提取层，数据分析层及结果输出层。所述通过目标音频的MFCC特征判断目标音频语种的语种判断模型和上述基于目标音频的关键词或语法信息判断目标音频语种的语种判断模型的区别在于，两个模型提取的目标音频的特征不同，前者为MFCC特征，后者为关键词和语法信息。

在本申请的另一些实施例中，上述两种语种判断方法可以同时存在。具体地，可以先根据关键词或语法信息来快速判断目标音频的语种信息。如果判断失败，则通过目标音频的MFCC特征来确定目标音频的语种信息。

在本申请的一些实施例中，在确定了目标音频数据的语种信息后，将目标音频数据输入至对应语种的语义识别模型之前，需要先调用对应的语种的ASR(自动语音识别技术)实时语音转写功能将所述目标音频数据转为对应的文字信息，再将文字信息输入至对应的语义识别模型中。具体地，所述语义识别模型可以是由多个自然语言理解模块组成的自然语言理解模型，其中多个自然语言理解模块中的每个自然语言理解模块均可对多种语言中的一种语言进行处理。

在本申请的一些实施例中，上述自然语言理解模块在对基于目标音频转化的文字信息进行识别时，是对文字信息中的实体信息和事件信息进行识别。具体地，所述实体信息即为何人(即需要客服帮助的目标对象)、何时(即目标对象在什么时间遇到了需要客服协助解决的问题)、何地(即目标对象在什么时间遇到了需要客服协助解决的问题)等信息，而事件信息即为目标对象所遇到的具体的问题。具体地，事件信息可以通过检索文字信息中是否存在预先获取的事件信息特征词来确定。

可选地，上述预先获取的事件信息特征词具体获取方式如下：

首先确定常见的用户会提出的问题，并进一步确定所述问题在不同的描述方式下均会出现的一些词组，所述词组即为时间信息的特征词。例如，假设用户碰到的问题(即事件)为电子设备蓝屏，那么无论客户采用何种描述方式，在描述过程中，均会出现“蓝屏”、“屏幕变成蓝色”等特征词。

在本申请的一些实施例中，上述自然语言理解模块包括数据输入层，实体和事件提取层以及结果输出层。其中数据输入层用于接收上述文字信息，实体和事件提取层用于对所述文字信息中的实体和事件进行提取，结果输出层用于输出提取的实体和事件信息。

可选地，所述自然语言理解模块在训练时也可以采用有监督学习的方式进行训练。

在本申请的一些实施例中，上述情感信息所体现的情感至少包括兴奋、愤怒、喜欢、厌恶、悲伤、惊讶、恐惧、中性等情感。

具体地，上述情感信息也可以通过检索目标音频中的情感特征词或分析目标音频的MFCC特征来确定。

在本申请的一些实施例中，上述情感识别模型包括数据输入层，特征提取层，数据分析层和结果输出层。其中，所述数据输入层用于接收目标数据，所述特征提取层用于提取目标数据的情感特征词或MFCC特征或音调特征，所述数据分析层用于对提取的特征进行分析，确定目标数据的情感信息，所述结果输出层用于输出检测结果。

可选地，上述情感识别模型也可以采用有监督学习的方法进行训练。

步骤S106，依据所述第一特征信息，获取回复音频数据；

在本申请的一些实施例中，依据第一特征信息获取回复音频数据的过程，就是依据第一特征信息确定回复音频数据的语种信息，情感信息和语义信息的过程。具体地，依据目标音频数据的语种信息，确定回复音频数据的语种信息，其中，所述回复音频数据的语种信息与所述回复音频数据的语种信息相同；依据目标音频数据的所述情感信息，确定回复音频数据的情感信息；依据所述目标音频数据的所述语义信息，确定所述回复音频数据的语义信息。

在本申请的一些实施例中，依据目标音频数据的情感信息，确定回复音频数据的情感信息时，所述回复音频数据的情感信息为与所述目标音频数据的情感信息相对应的情感信息，例如，当目标音频数据的情感信息为悲伤时，所述回复音频数据的情感信息为安抚；当目标音频数据的情感信息为中性时，所述回复音频数据的情感信息也为中性。

在本申请的一些实施例中，依据目标音频数据的语义信息，确定回复音频数据的语义信息的步骤为：比较目标音频数据的语义信息和第一预设语义信息，确定目标音频数据的语义信息和第一预设语义信息的相似度；比较相似度和阈值集合中的第一阈值与第二阈值，依据比较结果确定回复音频数据的语义信息，其中，所述第一阈值大于所述第二阈值。

具体地，上述第一预设语义信息为知识库或知识图谱中的预设问题的语义信息。确定目标音频数据的语义信息和预设问题的语义信息的相似度，就是确定目标音频数据的语义信息中的实体以及实体间的关系，和预设问题的语义信息中的实体以及实体间的关系的匹配程度。

在本申请的一些实施例中，依据比较结果确定回复音频数据的语义信息，存在以下几种情况：

当比较结果为相似度不小于第一阈值时，则确定第二预设语义信息为回复音频数据的语义信息，所述第二预设语义信息即为知识库或知识图谱中与上述预设问题对应的预设应答信息的语义信息。

当比较结果为相似度不小于第二阈值，且小于第一阈值时，则向目标对象发送预设问题，并获取目标对象基于预设问题的应答信息，以及依据应答信息确定回复音频数据的语义信息；

比较结果为相似度小于第二阈值，则生成并向目标客服系统发送第一提示信息，获取目标客服系统基于第一提示信息的初步回复音频，并依据初步回复音频确定回复音频数据的语义信息，其中，第一提示信息至少用于向目标客服系统展示第一特征信息。所述初步回复音频即为目标客服系统基于第一提示信息的应答信息。

在本申请的一些实施例中，上述依据应答信息确定回复音频数据的语义信息的步骤包括：依据应答信息，对目标音频数据的语义信息进行更正，得到更正语义信息；获取更正语义信息和第一预设语义信息的相似度，并比较相似度和第一阈值；在比较结果为相似度不小于第一阈值的情况下，确定第二预设语义信息为回复音频数据的语义信息；在比较结果为相似度小于第一阈值的情况下，则将目标音频数据的语义信息替换为更正语义信息；生成并向目标客服系统发送第二提示信息，获取目标客服系统基于第二提示信息的初步回复音频，并依据初步回复音频确定回复音频数据的语义信息，其中，第二提示信息至少用于向目标客服系统展示更正语义信息，目标音频数据的语种信息和目标音频数据的情感信息。

具体地，假设客户遇到的问题为电子设备蓝屏，这样，当准确判断目标音频的语义信息与预设问题中的“电子设备蓝屏”之间的相似度不小于第一阈值时，则将数据库中预先存储的电子设备蓝屏的解决方法作为回复音频的语义信息。当仅能判断目标音频的语义信息为电子设备故障，即目标音频的语义信息与预设问题中的“电子设备蓝屏”、“电子设备无法开机”、“电子设备无法重启”、“电子设备卡顿严重”等多个问题中的每个问题的相似度均小于第一阈值，且与所述多个问题中的部分问题的相似度不小于第二阈值时，则需要进一步确定客户遇到的故障类型具体是“蓝屏”、“无法开机”、“无法重启”、“卡顿严重”等故障中的哪种。此时需要进一步向用户进行提问，从而确定孔雀的用于确定故障类型的词槽中应当填入的词组是“蓝屏”、“无法开机”、“无法重启”、“卡顿严重”等故障词组中的哪个。

可选地，此时向用户提出的问题可以是“您好，我们已经明白您的电子设备出现了故障，但是还不太明确具体出现了什么故障，能否请您再次描述所碰到的故障类型”。

在本申请的另一些实施例中，也可以在提问时直接向用户询问电子设备的故障类型是数据库中存储的哪种故障类型，即“您好，我们已经明白您的电子设备出现了故障，但是还不太明确具体出现了什么故障，能否请您确认您的电子设备所出现的故障为蓝屏、无法开机、无法重启、卡顿严重等故障中的哪种”。

需要说明的是，上述预设问题的数量至少为1个，且每发送一个预设问题，获取至少一个应答信息。

步骤S108，输出所述回复音频数据表征的回复音频。

可以理解地，最终输出的回复音频为与目标音频相同语种的音频，且情感信息相对应。

为了便于理解上述步骤，下面结合一个具体实例对上述步骤做进一步地解释说明：

用户在接通坐席后，首先是由机器人进行汉语开场白，例如：你好，有什么可以帮您？之后用户开始说话，通过拾音模块将用户的音频通过语种判断模型识别出所说的语种，拾音模块同时集成了NLP自然语言处理的情感分析功能，对此段语音进行情感识别(情感分为兴奋、愤怒、喜欢、厌恶、悲伤、惊讶、恐惧、中性)，之后根据得到的语种信息调用对应的语种的ASR实时语音转写功能转为对应的文字信息。之后自然语言理解模块根据拾音模块输出的语种信息，调用对应语种的自然语言理解模型对用户的输入进行理解，如果命中了单轮对话技能，即相似度不小于上述第一阈值，则根据问题和知识库或知识图谱当中的问题进行相似度匹配得到匹配度最高的标准问，并返回对应的答案；如果命中的是多轮对话技能，即相似度不小于上述第二阈值，且小于上述第一阈值，则通过填槽的方式根据用户的问题进行多轮对话，根据从拾音模块得到的情感结果，语音生成模块会选择对应的声音模型进行回复，例如如果用户语气悲伤，则会使用安抚语气的语音。如果自然语言理解模块无法理解用户的问题，通过语音生成模块，使用对应语种回复“您可以再说一遍吗？”。如果用户说出的问题还是无法理解，则播报“无法理解您的内容，我们将由人工坐席为您服务”，之后接通人工服务，在接通之前，自然语言理解模块集成NLP自然语言处理的文本摘要和关键词提取功能将用户与机器人对话中的关键词，关键词组以及生成一段主题摘要，可以让坐席人员快速知晓用户的意图。

坐席人员发起问候语，通过拾音模块得到坐席人员使用的语种，情感类别以及转写的文字信息，调用翻译模块中对应的互译模型进行文本转换，并通过语言生成模块指定对应情感的声音模型(例如坐席的情感是中性，则选择对应中性的声音)进行播报。

通过上述步骤，可以实现客服和客户之间的高效沟通。

实施例2

根据本发明实施例，提供了一种音频数据处理装置的装置实施例。图2是根据本发明实施例的音频数据处理装置，如图2所示，该装置包括如下结构：

第一获取模块20，获取目标音频数据；确定模块22，确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；第二获取模块24，依据第一特征信息，获取回复音频数据；输出模块26，输出回复音频数据表征的回复音频。

具体地，所述目标音频数据所对应的目标音频即为客户所说出的内容。

在本申请的一些实施例中，为了便于进行后续处理，所述目标音频数据中至少包含对目标音频进行预处理后得到的数据，以及未经过处理的音频本身。

在本申请的一些实施例中，确定模块22可以通过以下方式来确定目标音频数据的第一特征信息：

具体地，需要通过以下方式来确定目标音频数据的第一特征信息：将目标音频数据输入至语种判断模型中，确定目标音频数据的语种信息；依据目标音频数据的语种信息，确定与语种信息对应的语义识别模型和情感识别模型；将目标音频数据输入至语义识别模型进行分析，得到目标音频数据的语义信息，以及将目标音频数据输入至情感识别模型，得到目标音频数据的情感信息。

在本申请的另一些实施例中，上述语种判断模型也可以是通过目标音频的MFCC特征来判断目标音频的语种。具体地，为了确定目标音频的语种，可以将目标音频转化为语谱图或MFCC(Mel-frequenc_y cepstral coefficients)特征，从而通过对特征进行分析从而确定目标音频的语种。上述MFCC为梅尔频率倒谱系数，在声音处理领域中，梅尔频率倒谱是基于声音频率的非线性梅尔克度的对数能量频谱的线性变换。

在本申请的一些实施例中，在确定了目标音频数据模型后，将目标音频数据输入至对应语种的语义识别模型之前，需要先调用对应的语种的ASR(自动语音识别技术)实时语音转写功能将所述目标音频数据转为对应的文字信息，再将文字信息输入至对应的语义识别模型中。具体地，所述语义识别模型可以是由多个自然语言理解模块组成的自然语言理解模型，其中多个自然语言理解模块中的每个自然语言理解模块均可对一种特定的语言进行处理。

在本申请的一些实施例中，上述第二获取模块24可以通过以下方式实现依据第一特征信息获取回复音频数据：

比较结果为相似度小于第二阈值，则生成并向目标客服系统发送第一提示信息，获取目标客服系统基于第一提示信息的初步回复音频，并依据初步回复音频确定回复音频数据的语义信息，其中，第一提示信息至少用于向目标客服系统展示第一特征信息。

实施例3

根据本发明实施例，提供了一种非易失性存储介质的实施例，非易失性存储介质包括存储的程序，在程序运行时控制非易失性存储介质所在设备执行下述音频数据处理方法：获取目标音频数据；确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；依据第一特征信息，获取回复音频数据；输出回复音频数据表征的回复音频。

实施例4

根据本发明实施例，提供了一种处理器的实施例，处理器用于运行程序，程序运行时执行下述音频数据处理方法：获取目标音频数据；确定目标音频数据的第一特征信息，第一特征信息至少包括目标音频数据的语种信息，语义信息和情感信息；依据第一特征信息，获取回复音频数据；输出回复音频数据表征的回复音频。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Onl_y Memor_y)、随机存取存储器(RAM，Random Access Memor_y)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取目标音频数据；

确定所述目标音频数据的第一特征信息，所述第一特征信息至少包括所述目标音频数据的语种信息，语义信息和情感信息；

依据所述第一特征信息，获取回复音频数据；

输出所述回复音频数据表征的回复音频。

2.根据权利要求1所述的方法，其特征在于，确定所述目标音频数据的第一特征信息，包括：

将所述目标音频数据输入至语种判断模型中，确定所述目标音频数据的所述语种信息；

依据所述目标音频数据的所述语种信息，确定与所述语种信息对应的语义识别模型和情感识别模型；

将目标音频数据输入至语义识别模型进行分析，得到所述目标音频数据的所述语义信息，以及将所述目标音频数据输入至情感识别模型，得到所述目标音频数据的所述情感信息。

3.根据权利要求2所述的方法，其特征在于，依据所述第一特征信息，获取回复音频数据，包括：

依据所述目标音频数据的语种信息，确定所述回复音频数据的语种信息，其中，所述回复音频数据的语种信息与所述目标音频数据的语种信息相同；

依据所述目标音频数据的情感信息，确定所述回复音频数据的情感信息；

依据所述目标音频数据的语义信息，确定所述回复音频数据的语义信息。

4.根据权利要求3所述的方法，其特征在于，依据所述目标音频数据的所述语义信息，确定所述回复音频数据的语义信息，包括：

比较所述目标音频数据的语义信息和第一预设语义信息，确定所述语义信息和所述第一预设语义信息的相似度；

比较所述相似度和阈值集合中的预设阈值，依据比较结果确定所述回复音频数据的语义信息。

5.根据权利要求4所述的方法，其特征在于，所述预设阈值包括：第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；依据比较结果确定所述回复音频数据的语义信息，包括：

在所述比较结果为所述相似度不小于所述第一阈值的情况下，则确定第二预设语义信息为所述回复音频数据的语义信息；

在所述比较结果为所述相似度不小于所述第二阈值的情况下，且小于所述第一阈值，则向目标对象发送预设问题，并获取目标对象基于所述预设问题的应答信息，以及依据所述应答信息确定所述回复音频数据的语义信息；

在所述比较结果为所述相似度小于所述第二阈值的情况下，则生成并向目标客服系统发送第一提示信息，获取所述目标客服系统基于所述第一提示信息的初步回复音频，并依据所述初步回复音频确定所述回复音频数据的语义信息，其中，所述第一提示信息至少用于向所述目标客服系统展示所述第一特征信息。

6.根据权利要求5所述的方法，其特征在于，依据所述应答信息确定所述回复音频数据的语义信息，包括：

依据所述应答信息，对所述目标音频数据的所述语义信息进行更正，得到更正语义信息；

获取所述更正语义信息和所述第一预设语义信息的相似度，并比较所述相似度和第一阈值；

在比较结果为所述相似度不小于所述第一阈值的情况下，确定第二预设语义信息为所述回复音频数据的语义信息；

在比较结果为所述相似度小于所述第一阈值的情况下，则将所述目标音频数据的语义信息替换为所述更正语义信息；生成并向所述目标客服系统发送第二提示信息，获取所述目标客服系统基于所述第二提示信息的初步回复音频，并依据所述初步回复音频确定所述回复音频数据的语义信息，其中，所述第二提示信息至少用于向所述目标客服系统展示所述更正语义信息，所述目标音频数据的语种信息和所述目标音频数据的情感信息。

7.根据权利要求5所述的方法，其特征在于，所述预设问题的数量为多个，且每发送一个所述预设问题，获取至少一个所述应答信息。

8.一种音频数据处理装置，其特征在于，包括：

第一获取模块，获取目标音频数据；

确定模块，确定所述目标音频数据的第一特征信息，所述第一特征信息至少包括所述目标音频数据的语种信息，语义信息和情感信息；

第二获取模块，依据所述第一特征信息，获取回复音频数据；

输出模块，输出所述回复音频数据表征的回复音频。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述音频数据处理方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述音频数据处理方法。