CN110807093A

CN110807093A - 语音处理方法、装置及终端设备

Info

Publication number: CN110807093A
Application number: CN201911059814.1A
Authority: CN
Inventors: 马秀发; 叶剑; 董宁; 艾群童; 孟莉莉; 杨琦; 薛超粤; 段荷香; 张申; 孙文雅
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-18

Abstract

本发明实施例提供一种语音处理方法、装置及终端设备，该方法包括：在获取到用户输入的咨询语音时，对咨询语音进行语音内容识别，得到咨询问题文本，获取用户对应的目标声音特征信息，并查找咨询问题文本对应的回答信息，对回答信息进行语音合成，得到回答语音，并将回答语音播放输出，其中回答语音的声音特征信息为目标声音特征信息，需人工查找解决方案，提高问题解决效率，且在回答用户时，以与用户相似的声音进行回答，可以拉进与该用户之间的距离，提高服务质量。

Description

语音处理方法、装置及终端设备

技术领域

本发明实施例涉及语音分析技术领域，尤其涉及一种语音处理方法、装置及终端设备。

背景技术

用户在使用企业提供的服务的过程中，有可能会遇到自己无法解决的问题，当用户遇到问题时，可以向企业的客服人员进行电话沟通，以使客服人员帮助用户解决其所遇到的问题。

现有技术中，客服人员在与用户沟通的过程中，会根据用户所说的问题寻找相应的解决方案，然后把该解决方案告知给用户，以解决用户遇到的问题。

然而，发明人发现现有技术中至少存在如下问题：客服人员需要根据用户所叙述的问题手动去寻找解决方案，当找到解决方案后，才能把找到的解决方案告知给用户以解决用户的问题，问题解决效率低。

发明内容

本发明实施例提供一种语音处理方法、装置及终端设备，以解决现有技术中需要客服人员人工查找解决方案的问题。

第一方面，本发明实施例提供一种语音处理方法，包括：

在获取到用户输入的咨询语音时，对所述咨询语音进行语音内容识别，得到咨询问题文本；

获取所述用户对应的目标声音特征信息，并查找所述咨询问题文本对应的回答信息；

对所述回答信息进行语音合成，得到回答语音，并将所述回答语音播放输出，其中所述回答语音的声音特征信息为所述目标声音特征信息。

在一种可能的设计中，在所述获取所述用户对应的目标声音特征信息之前，还包括：

获取第一用户对应的历史音频数据，并从所述历史音频数据中提取所述第一用户对应的语音片段；

提取所述语音片段的声音特征信息，并作为所述第一用户对应的声音特征信息；

将所述第一用户对应的声音特征信息保存至预设存储位置。

在一种可能的设计中，所述获取所述用户对应的目标声音特征信息，包括：

判断预设存储位置是否存在所述目标声音特征信息；

若存在所述目标声音特征信息，则获取所述目标声音特征信息。

在一种可能的设计中，所述声音特征信息包括声纹特征信息。

在一种可能的设计中，所述对所述咨询语音进行语音内容识别包括：

根据预设声学模型和语言模型，对所述咨询语音进行语音内容识别。

在一种可能的设计中，在所述提取所述语音片段的声音特征信息之前，还包括：

对所述语音片段进行预处理，其中所述预处理包括端点检测处理和降噪处理。

第二方面，本发明实施例提供一种语音处理装置，包括：

问题文本获取模块，用于在获取到用户输入的咨询语音时，对所述咨询语音进行语音内容识别，得到咨询问题文本；

回答信息确定模块，用于获取所述用户对应的目标声音特征信息，并查找所述咨询问题文本对应的回答信息；

回答语音输出模块，用于对所述回答信息进行语音合成，得到回答语音，并将所述回答语音播放输出，其中所述回答语音的声音特征信息为所述目标声音特征信息。

在一种可能的设计中，回答信息确定模块还用于在所述获取所述用户对应的目标声音特征信息之前，获取第一用户对应的历史音频数据，并从所述历史音频数据中提取所述第一用户对应的语音片段；

将所述第一用户对应的声音特征信息保存至预设存储位置。

在一种可能的设计中，所述回答信息确定模块具体用于：

判断预设存储位置是否存在所述目标声音特征信息；

在一种可能的设计中，所述问题文本获取模块具体用于：

在一种可能的设计中，回答信息确定模块还用于在所述提取所述语音片段的声音特征信息之前，对所述语音片段进行预处理，其中所述预处理包括端点检测处理和降噪处理。

第三方面，本发明实施例提供一种终端设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的语音处理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的语音处理方法。

本发明实施例提供了一种语音处理方法、装置及终端设备，该方法通过对用户输入的咨询语音进行语音内容识别得到咨询问题文本，自动查找该咨询问题文本对应的回答信息，即自动得到解决方案，在得到用户所需的回答信息后，按照该用户对应的目标声音特征信息，即与用户相似的声音，将该回答信息转换为回答语音，并进行输出，以告知用户解决方案，无需人工查找解决方案，提高问题解决效率，且在回答用户时，以与用户相似的声音进行回答，可以拉进与该用户之间的距离，提高服务质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音处理系统的架构示意图；

图2为本发明实施例提供的语音处理方法的流程图一；

图3为本发明实施例提供的语音处理方法的流程图二；

图4为本发明实施例提供的语音处理装置的结构示意图；

图5为本发明实施例提供的终端设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的语音处理系统的架构示意图。如图1所示，该系统包括移动终端101和终端102。当用户存在需要咨询的问题时，可以通过移动终端101输入包括咨询问题的咨询语音至终端102，终端102对用户输入的咨询语音进行语音内容识别得到咨询问题文本，自动查找该咨询问题文本对应的回答信息，即自动得到解决方案，在得到用户所需的回答信息后，按照该用户对应的目标声音特征信息，即与用户相似的声音，将该回答信息转换为回答语音，并进行输出，以告知用户解决方案，无需人工查找解决方案，提高问题解决效率，且在回答用户时，以与用户相似的声音进行回答，可以拉进与该用户之间的距离，提高服务质量。

其中，用户通过移动终端101输入咨询语音时，可以通过移动终端拨打相应的服务电话，然后终端接通后，进行语音提示，以使用户可以按照语音提示描述其所要咨询的问题，得到相应的咨询语音。

可选的，用户也可以通过移动终端进入终端提供的咨询功能模块中，然后直接在该咨询功能模块中输入相应的咨询语音。

其中，该终端可以为客服系统中的终端，当终端接收到用户输入的咨询语音时，可以对该用户输入的咨询语音进行语音内容识别得到相应的咨询问题文本，也可以将咨询语音发送给相关服务器，由服务器进行语音内容识别得到咨询问题文本，并将该咨询问题文本返回至终端以减少终端的工作量。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的语音处理方法的流程图一，本实施例的执行主体可以为图1所示实施例中的终端，本实施例此处不做特别限制。如图2所示，本实施例的方法，可以包括：

S201、在获取到用户输入的咨询语音时，对咨询语音进行语音内容识别，得到咨询问题文本。

在本实施例中，当用户在遇到问题，可以拨打客服电话来输入相应的咨询语音，该咨询语音包括用户遇到的问题。终端在获取到用户输入的咨询语音后，对该咨询语音进行语音内容识别，得到咨询问题文本。

可选的，当用户在遇到问题，也可以在终端提供相关的服务功能模块中输入咨询语音。

其中，咨询问题文本为包括用户所咨询的问题的文本。

其中，语音内容识别是指将用户说话的语音信号转换为可被计算机程序所识别的信息，从而识别说话的用户的语音指令或文字内容。在对咨询语音进行语音内容识别的过程包括：根据预设声学模型和语言模型，对咨询语音进行语音内容识别。

在本实施例中，通过预先建立的声学模型和语言模型可以对咨询语言进行解码，得到相应的咨询问题文本。

其中，通过声学模型和语言模型可以对咨询语言进行解码的过程为现有过程，在此，不再对其进行赘述。

S202、获取用户对应的目标声音特征信息，并查找咨询问题文本对应的回答信息。

在本实施例中，获取该用户对应的目标声音特征信息，该目标声音特征信息为用户声音的声音特征信息。

在获取该用户对应的目标声音特征信息时，需要先确定是否存在该目标声音特征信息，在确定存在该目标声音特征信息后，才可以获取到该目标声音特征信息，其具体过程包括：判断预设存储位置是否存在目标声音特征信息。若存在目标声音特征信息，则获取目标声音特征信息。

若预设存储位置未存在目标声音特征信息，可以直接将预设的声音特征信息作为该用户对应的目标声音特征信息，在后续输出回答信息时，以默认的声音告知用户解决方案。

可选的，若预设存储位置未存在目标声音特征信息，也可以直接从咨询语音中提取该用户声音特征信息，得到目标声音特征信息，并将该用户的声音特征信息保存至预设存储位置，以便于后续在获取到用户输入的咨询语音时，可以直接获取该用户的声音特征信息。

其中，预设存储位置可以为数据库，也可以为终端上某个存储位置，还可以为服务器，当终端需要获取用户的声音特征信息时，可以从该存储位置中进行获取，在此，不对存储位置进行限制。

其中，声音特征信息包括声纹特征信息。声纹特征信息表示用户发音的方式以及特点。

在从预设存储位置中判断是否存储用户的目标声音特征信息时，可以根据用户的标识(例如，电话号码、账户)进行查找，即获取该用户的目标标识，判断预设存储位置中是否存在用户标识为目标标识的声音特征信息，若存在，则将该用户标识为目标标识的声音特征信息作为该用户的目标声音特征信息。

可选的，声音特征信息也可以包括其它可以表示出用户声音特点的特征信息，例如，语调特征信息，该语调特征信息表示用户发出声音的轻重缓急。

在得到咨询问题文本后，查找该咨询问题文本对应的回答信息，即查找用户咨询的问题所对应的解决方案。

其中，在查找该咨询问题文本对应的回答信息时，可以从预设的数据库中查找该咨询问题文本对应的回答信息，也可以将该咨询问题文本发送给相关服务器，由该服务器查找该咨询问题文本对应的回答信息，并将该回答信息返回给终端。

其中，在查找咨询问题文本对应的回答信息时，可以先判断该咨询问题文本中是否存在至少一个预设关键词集合所包括的关键词，若该咨询问题文本中存在至少一个关键词，则获取该咨询问题文本所包括的目标关键词，并查找该目标关键词所述对应的回答信息，从而得到该咨询问题文本对应的回答信息。

其中，预设关键词包括多个关键词，关键词与问题类型相对应。

在本实施例中，判断咨询问题文本中是否存在关键词，若存在关键词，在获取咨询问题文本所存在的全部关键词，并作为目标关键词，获取该目标关键词所对应的目标问题类型，即确定用户所咨询的问题所属的问题类型，然后可以直接查找该目标问题类型对应的回答信息，即解决方案。例如，确定咨询问题文本中存在关键词A和关键词B，将关键词A和关键词B均作为目标关键词，查找目标关键词对应的目标问题类型，然后获取该目标问题类型对应的回答信息。

在本实施例中，在获取咨询问题文本对应的回答信息，也可以通过其它方式获取咨询问题文本所对应的回答信息，在此，不再对其进行限制。

S203、对回答信息进行语音合成，得到回答语音，并将回答语音播放输出，其中回答语音的声音特征信息为目标声音特征信息。

在本实施例中，根据目标声音特征信息，对回答信息进行语音合成，即将回答信息转换为语音，得到回答语音，该回答语音的声音特征信息为目标声音特征信息，并将回答语音播放输出，即通过语音将问题解决方案输出给用户，无需人工查找问题解决方案以及人工将解决方案告知用户，避免当人工客服繁忙时，用户需要经历一个较长的等待时间才能拨通电话，从而才能解决问题的情况。

在本实施例中，由于回答语音的声音特征信息为目标声音特征信息，该目标声音特征信息为通过用户的声音提取出的声音特征信息，因此，输出的回答语音的声音特征信息与用户输入的咨询语音的声音特征信息相似，该回答语言的声音与用户的声音相似，从而在回答用户咨询的问题时，以与用户相似的声音进行回答，使用户感到亲切，可以拉进与用户的距离，提高服务质量。

从上述描述可知，通过对用户输入的咨询语音进行语音内容识别得到咨询问题文本，自动查找该咨询问题文本对应的回答信息，即自动得到解决方案，在得到用户所需的回答信息后，按照该用户对应的目标声音特征信息，即与用户相似的声音，将该回答信息转换为回答语音，并进行输出，以告知用户解决方案，无需人工查找解决方案，提高问题解决效率，且在回答用户时，以与用户相似的声音进行回答，可以拉进与该用户之间的距离，提高服务质量。

在获取用户对应的目标声音特征信息，需要先根据用户的历史音频数据生成其对应的声音特征信息，下面结合一个具体的实施例对根据用户的历史音频数据生成其对应的声音特征信息的过程进行详细描述。

图3为本发明实施例提供的语音处理方法的流程图二，如图3所示，在上述实施例的基础上，对根据用户历史音频数据生成该用户的声音特征信息的具体实现过程进行了详细描述，如图3所示，该方法包括：

S301、获取第一用户对应的历史音频数据，并从历史音频数据中提取第一用户对应的语音片段。

在本实施例中，获取第一用户对应的历史音频数据，从历史音频数据中提取该第一用户对应的语音片段，即提取第一用户的说话部分。

其中，第一用户为已使用过终端所提供的服务或功能的用户或咨询过客服问题的用户，该第一用户为历史用户。

其中，历史音频数据可以包括历史对话音频数据，该历史音频数据是第一用户与客服进行沟通时所产生的音频数据。该历史音频数据还可以包括第一用户在使用终端提供的服务或功能时，所产生的音频数据。例如，第一用户在使用某项服务时，需要说出设定信息，从而产生相应的音频数据。

为了提高声音特征信息提取的准确性以及效率，在提取第一用户对应的语音片段的声音特征信息之前，先对语音片段进行预处理，该预处理包括端点检测处理和降噪处理。

其中，在对语音片段进行端点检测处理和降噪处理时，可以利用现有端点检测方法和降噪方法进行相应端点检测处理和降噪处理，在此，不再对其进行赘述。

S302、提取语音片段的声音特征信息，并作为第一用户对应的声音特征信息。

在本实施例中，对第一用户对应的语音片段进行特征提取，得到该第一用户的声音特征信息。当后续获取到该第一用户输入的咨询语音时，可以直接获取到该第一用户对应的声音特征信息，按照该声音特征信息，输出解决方案给该第一用户，即以与第一用户相似的声音进行回答，拉进与该第一用户之间的距离。

S303、将第一用户对应的声音特征信息保存至预设存储位置。

在本实施例中，在得到第一用户对应的声音特征信息后，可以将该第一用户对应的声音特征信息保存至预设存储位置。

在将第一用户对应的声音特征信息保存至预设存储位置时，可以获取该第一用户的用户标识，然后将用户标识以及对应的声音特征信息保存至预设存储位置，以便于后续可以根据用户标识查找用户对应的声音特征信息。

在得到各第一用户对应的声音特征信息后，还可将各第一用户对应的声音特征信息发送给其它系统或终端，以使其它系统或终端可以以与用户相似的声音与用户进行沟通，实现数据的共享。

S304、在获取到用户输入的咨询语音时，对咨询语音进行语音内容识别，得到咨询问题文本。

S305、获取用户对应的目标声音特征信息，并查找咨询问题文本对应的回答信息。

S306、对回答信息进行语音合成，得到回答语音，并将回答语音播放输出，其中回答语音的声音特征信息为目标声音特征信息。

其中，S304-S306与图2实施例中的S201-S203类似，在此，不再进行赘述。

在本实施例中，获取第一用户对应的历史音频数据，从该历史音频数据中提取第一用户对应的语音片段，即第一用户的说话部分，提取该语音片段的声音特征信息，并作为该第一用户对应的声音特征信息，将该第一用户对应的声音特征信息保存至预设存储位置，以便于当后续再获取到该第一用户输入的咨询语音时，可以直接获取到该第一用户对应的声音特征信息，提高声音特征信息获取效率，从而可以提高回答速度。

图4为本发明实施例提供的语音处理装置的结构示意图，如图4所示，本实施例提供的语音处理装置400，可以包括：问题文本获取模块401、回答信息确定模块402和回答语音输出模块403。

其中，问题文本获取模块401，用于在获取到用户输入的咨询语音时，对咨询语音进行语音内容识别，得到咨询问题文本。

回答信息确定模块402，用于获取用户对应的目标声音特征信息，并查找咨询问题文本对应的回答信息。

回答语音输出模块403，用于对回答信息进行语音合成，得到回答语音，并将回答语音播放输出，其中回答语音的声音特征信息为目标声音特征信息。

在一种可能的设计中，回答信息确定模块还用于在获取用户对应的目标声音特征信息之前，获取第一用户对应的历史音频数据，并从历史音频数据中提取第一用户对应的语音片段。

提取语音片段的声音特征信息，并作为第一用户对应的声音特征信息。

将第一用户对应的声音特征信息保存至预设存储位置。

在一种可能的设计中，回答信息确定模块具体用于：

判断预设存储位置是否存在目标声音特征信息。

若存在目标声音特征信息，则获取目标声音特征信息。

在一种可能的设计中，声音特征信息包括声纹特征信息。

在一种可能的设计中，问题文本获取模块具体用于：

根据预设声学模型和语言模型，对咨询语音进行语音内容识别。

在一种可能的设计中，回答信息确定模块还用于在提取语音片段的声音特征信息之前，对语音片段进行预处理，其中预处理包括端点检测处理和降噪处理。

本发明实施例提供的语音处理装置，可以实现上述实施例的方法，其实现原理和技术效果类似，此处不再赘述。

图5为本发明实施例提供的终端设备的硬件结构示意图。如图5所示，本实施例提供的终端设备500包括：至少一个处理器501和存储器502。其中，处理器501、存储器502通过总线503连接。

在具体实现过程中，至少一个处理器501执行存储器502存储的计算机执行指令，使得至少一个处理器501执行上述方法实施例中的语音处理方法。

处理器501的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图5所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的语音处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取所述用户对应的目标声音特征信息之前，还包括：

将所述第一用户对应的声音特征信息保存至预设存储位置。

3.根据权利要求1所述的方法，其特征在于，所述获取所述用户对应的目标声音特征信息，包括：

判断预设存储位置是否存在所述目标声音特征信息；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述声音特征信息包括声纹特征信息。

5.根据权利要求1所述的方法，其特征在于，所述对所述咨询语音进行语音内容识别包括：

6.根据权利要求2所述的方法，其特征在于，在所述提取所述语音片段的声音特征信息之前，还包括：

7.一种语音处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，在所述获取所述用户对应的目标声音特征信息之前，还包括：

提取所述语音片段的声音特征信息，并作为所述第一用户对应的声音特征信息。

9.一种终端设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的语音处理方法。