CN108364655A

CN108364655A - 语音处理方法、介质、装置和计算设备

Info

Publication number: CN108364655A
Application number: CN201810098244.6A
Authority: CN
Inventors: 沙泓州; 臧阳光; 林月冠; 王波; 宋婷; 张锦锋
Original assignee: Netease Lede Technology Co Ltd
Current assignee: Netease Lede Technology Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-08-03
Anticipated expiration: 2038-01-31
Also published as: CN108364655B

Abstract

本发明的实施方式提供了一种语音处理方法、介质、装置和计算设备。该语音处理方法包括：获取指定人员的第一录音文件；从所述第一录音文件中提取所述指定人员的声纹特征；根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；对所述录音数据进行转换处理，得到语音与文本的对应关系；基于所述语音与文本的对应关系，进行语音合成。本发明实施例的技术方案可以在得到较为全面的语料数据的基础上，提高语料数据的获取效率，同时增强获取语料数据的可扩展性。

Description

语音处理方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及通信及计算机技术领域，更具体地，本发明的实施方式涉及语音处理方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在智能客服场景中，通常需要使用语音合成技术来将预先准备的文字内容转换成语音，以便提供良好的服务体验。

相关技术中提出的语音合成技术需要先录制客服至少20小时的语料，然后基于录制的语料建立声学特征模型，进而进行语音合成。

发明内容

但是，由于需要人工录制客服较长时间的语料，因此不仅费时而且效率很低；同时，建立的声学特征模型受到录制时长的限制，并且如果语音合成时需要使用的字和词没有出现在事先录制的语料中，则为了对相应的音素进行更新，需要人工重新录制，可扩展性较差。

为此，非常需要一种改进的语音处理方案，以在得到较为全面的语料数据的基础上，提高语料数据的获取效率，同时增强获取语料数据的可扩展性。

在本上下文中，本发明的实施方式期望提供一种语音处理方法、介质、装置和计算设备。

在本发明实施方式的第一方面中，提供了一种语音处理方法，包括：获取指定人员的第一录音文件；从所述第一录音文件中提取所述指定人员的声纹特征；根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；对所述录音数据进行转换处理，得到语音与文本的对应关系；基于所述语音与文本的对应关系，进行语音合成。

在本发明的一些实施方式中，基于前述方案，对所述录音数据进行转换处理，得到语音与文本的对应关系，包括：确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率；根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率，包括：将所述各段录音转换为音素；根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，将所述各段录音转换为音素，包括：构建语音与音素的转换模型；基于所述语音与音素的转换模型将所述各段录音转换为音素。

在本发明的一些实施方式中，基于前述方案，根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率，包括：构建音素与词组的转换模型；根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，包括：计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差；若任一段录音对应的所述两个候选词组的选择概率之差大于或等于预定值，则将所述两个候选词组中选择概率最大的候选词组作为所述任一段录音对应的文本。

在本发明的一些实施方式中，基于前述方案，所述的方法还包括：若所述任一段录音对应的所述两个候选词组的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

在本发明的一些实施方式中，基于前述方案，所述的方法还包括：对所述第一录音文件进行转换处理，得到所述语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据，包括：按照说话人员的不同对所述第二录音文件进行切分，得到切分后的录音数据；从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据。

在本发明的一些实施方式中，基于前述方案，按照说话人员的不同对所述第二录音文件进行切分，包括：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述第二录音文件进行检验，以确定所述第二录音文件的切割点；基于确定的切割点，对所述第二录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，确定所述第二录音文件的切割点，包括：若根据所述假设检验得分函数确定所述第二录音文件中任一段录音的得分大于第一预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据，包括：计算所述切分后的录音数据中各段录音数据的声纹信息与所述声纹特征的相似度；从所述各段录音数据中选取所述相似度大于第二预定阈值的录音数据作为查找到的录音数据。

在本发明的一些实施方式中，基于前述方案，基于所述语音与文本的对应关系，进行语音合成，包括：将所述语音转换为音素，并根据所述语音与文本的对应关系，确定语音、音素和文本的对应关系；基于所述语音、音素和文本的对应关系，建立音素的声学特征与发音时长的模型；基于所述声学特征与发音时长的模型对需要合成语音的文本内容进行语音合成。

在本发明实施方式的第二方面中，提供了一种介质，其上存储有程序，该程序被处理器执行时实现如上述实施方式中第一方面所述的方法。

在本发明实施方式的第三方面中，提供了一种语音处理装置，包括：获取单元，用于获取指定人员的第一录音文件；提取单元，用于从所述第一录音文件中提取所述指定人员的声纹特征；查找单元，用于根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；处理单元，用于对所述录音数据进行转换处理，得到语音与文本的对应关系；合成单元，用于基于所述语音与文本的对应关系，进行语音合成。

在本发明的一些实施方式中，基于前述方案，所述处理单元包括：第一确定单元，用于确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率；第二确定单元，用于根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元配置为：将所述各段录音转换为音素；根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元配置为：构建语音与音素的转换模型；基于所述语音与音素的转换模型将所述各段录音转换为音素。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元配置为：构建音素与词组的转换模型；根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，所述第二确定单元配置为：计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差；若任一段录音对应的所述两个候选词组的选择概率之差大于或等于预定值，则将所述两个候选词组中选择概率最大的候选词组作为所述任一段录音对应的文本。

在本发明的一些实施方式中，基于前述方案，所述第二确定单元还用于：若所述任一段录音对应的所述两个候选词组的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

在本发明的一些实施方式中，基于前述方案，所述处理单元还用于对所述第一录音文件进行转换处理，得到所述语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，所述查找单元包括：切分单元，用于按照说话人员的不同对所述第二录音文件进行切分，得到切分后的录音数据；执行单元，用于从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据。

在本发明的一些实施方式中，基于前述方案，所述切分单元配置为：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述第二录音文件进行检验，以确定所述第二录音文件的切割点；基于确定的切割点，对所述第二录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，所述切分单元配置为：若根据所述假设检验得分函数确定所述第二录音文件中任一段录音的得分大于第一预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，所述执行单元配置为：计算所述切分后的录音数据中各段录音数据的声纹信息与所述声纹特征的相似度；从所述各段录音数据中选取所述相似度大于第二预定阈值的录音数据作为查找到的录音数据。

在本发明的一些实施方式中，基于前述方案，所述合成单元配置为：将所述语音转换为音素，并根据所述语音与文本的对应关系，确定语音、音素和文本的对应关系；基于所述语音、音素和文本的对应关系，建立音素的声学特征与发音时长的模型；基于所述声学特征与发音时长的模型对需要合成语音的文本内容进行语音合成。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如上述实施方式中第一方面所述的方法。

根据本发明实施方式的语音处理方法、介质、装置和计算设备，通过从第一录音文件中提取指定人员的声纹特征，并从第二录音文件中查找与该声纹特征相匹配的录音数据，使得能够通过该指定人员的少量录音数据(即第一录音文件)来提取到该指定人员的声纹特征，进而能够基于该声纹特征查找到与该声纹特征相匹配的任意数量的录音数据，以便于得到较全面的语音与文本的对应关系，为语音合成提供数据基础。可见，本发明实施方式的技术方案能够通过录制指定人员少量的录音数据(即第一录音文件)来自动获取到该指定人员的任意数量的录音数据，既保证能够得到较为全面的语料数据，又提高了语料数据的获取效率，解决了相关技术中需要人工录制较长时间语料所存在的各种问题，同时当需要更换人员时本发明实施方式的技术方案也能够快速获取到该人员的语料数据，可扩展性较强。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明的一个实施例的语音处理方法的流程图；

图2示意性示出了图1中所示的步骤S130的一种处理过程的流程图；

图3示意性示出了图1中所示的步骤S140的一种处理过程的流程图；

图4示意性示出了根据本发明的实施例的语音合成方法的流程图；

图5示意性示出了图4中所示的步骤S402的一种处理过程的流程图；

图6示意性示出了图5中所示的步骤S505的一种处理过程的流程图；

图7示意性示出了根据本发明的实施例的语音处理装置的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音处理方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语“智能客服”指创新和使用客户知识，帮助企业提高优化客户关系的决策能力和整体运营能力的概念、方法、过程以及软件的集合。

术语“语音合成”是通过机械的、电子的方法产生人造语音的技术。语音合成又称文语转换(Text to Speech)技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。

术语“音素”是根据语音的自然属性划分出来的最小语音单位。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，相关技术中提出的语音合成技术需要人工录制客服较长时间的语料，因此不仅费时而且效率很低；同时，建立的声学特征模型受到录制时长的限制，并且如果语音合成时需要使用的字和词没有出现在事先录制的语料中，则为了对相应的音素进行更新，需要人工重新录制，可扩展性较差。

因此，本发明的实施方式提供了一种语音处理方法、介质、装置和计算设备，可以在得到较为全面的语料数据的基础上，提高语料数据的获取效率，同时增强获取语料数据的可扩展性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

在智能客服场景中，需要使用语音合成技术来将文本内容转换为语音内容，而转换的前提是需要获取到足量的语料数据，以基于语料数据建立声学特征模型。在获取语料数据时，本发明的实施方式可以录制少量的客服录音，然后从录制的少量客服录音中提取客服的声纹特征，然后基于提取出的声纹特征从客服日常的对话录音中查询到该客服足量的录音数据，以基于得到的足量的录音数据来进行语音合成处理，进而可以在得到较为全面的语料数据的基础上，提高语料数据的获取效率。

示例性方法

下面结合上述的应用场景，参考图1至图6来描述根据本发明示例性实施方式的语音处理方法。

图1示意性示出了根据本发明的一个实施例的语音处理方法的流程图。

参照图1所示，根据本发明的一个实施例的语音处理方法，包括如下步骤：

步骤S110，获取指定人员的第一录音文件；

步骤S120，从所述第一录音文件中提取所述指定人员的声纹特征；

步骤S130，根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；

步骤S140，对所述录音数据进行转换处理，得到语音与文本的对应关系；

步骤S150，基于所述语音与文本的对应关系，进行语音合成。

图1所示实施例的技术方案能够通过录制指定人员少量的录音数据(即第一录音文件)来自动获取到该指定人员的任意数量的录音数据，既保证能够得到较为全面的语料数据，又提高了语料数据的获取效率，解决了相关技术中需要人工录制较长时间语料所存在的各种问题，同时当需要更换人员时本发明实施方式的技术方案也能够快速获取到该人员的语料数据，可扩展性较强。

以下对图1中所示的各个步骤的实现细节进行详细阐述：

在步骤S110中，获取指定人员的第一录音文件。

在本发明的一个实施例中，指定人员的第一录音文件可以是针对该指定人员录制的专属语音，其中，录制的专属语音无需较长的时间，只要能够根据该专属语音提取出该指定人员的声纹特征即可。当然，在本发明的其它实施例中，指定人员的第一录音文件只要是包含该指定人员的声音数据的录音文件、且能够提取出该指定人员的声纹特征即可。

继续参照图1，在步骤S120中，从所述第一录音文件中提取所述指定人员的声纹特征。

在本发明的一个实施例中，可以通过该第一录音文件中的录音数据对通用背景模型进行训练，然后基于训练后的通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

继续参照图1，在步骤S130中，根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据。

在本发明的一个实施例中，参照图2所示，步骤S130包括：

步骤S210，按照说话人员的不同对所述第二录音文件进行切分，得到切分后的录音数据。

在本发明的一个实施例中，步骤S210包括：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述第二录音文件进行检验，以确定所述第二录音文件的切割点；基于确定的切割点，对所述第二录音文件进行切分。

在本发明的实施例中，若根据所述假设检验得分函数确定所述第二录音文件中任一段录音的得分大于第一预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

步骤S220，从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据。

在本发明的一个实施例中，步骤S220包括：计算所述切分后的录音数据中各段录音数据的声纹信息与所述声纹特征的相似度；从所述各段录音数据中选取所述相似度大于第二预定阈值的录音数据作为查找到的录音数据。

继续参照图1，在步骤S140中，对所述录音数据进行转换处理，得到语音与文本的对应关系。

在本发明的一个实施例中，参照图3所示，步骤S140包括：

步骤S310，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一个实施例中，步骤S310包括：将所述各段录音转换为音素；根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一个实施例中，步骤S310中将所述各段录音转换为音素，包括：构建语音与音素的转换模型；基于所述语音与音素的转换模型将所述各段录音转换为音素。

可选地，语音与音素的转换模型可以是深度学习模型，比如可以采用BLSTM-RNN(Bidirectional Long Short Term Memory-Recurrent Neural Network，双向长短时记忆-递归神经网络)模型。

在本发明的一个实施例中，根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率，包括：构建音素与词组的转换模型；根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在该实施例中，由于根据相同的音素可能会得到多个候选词组，比如一段声音对应的音素为“wo de yao shi ne”，那么其对应的候选词组可能是“沃德要使呢”、“我的钥匙呢”、“我得要是呢”、“我的要使呢”等，因此通过确定各段录音对应的至少一个候选词组的选择概率，可以方便地基于得到的选择概率来确定各段录音对应的文本。

可选地，音素与词组的转换模型可以是深度学习模型，比如可以采用BLSTM-RNN模型。

步骤S320，根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

在本发明的一个实施例中，步骤S320包括：计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差；若任一段录音对应的所述两个候选词组(这两个候选词组即为该段录音对应的至少一个候选词组中选择概率最大的两个候选词组)的选择概率之差大于或等于预定值，则将所述两个候选词组中选择概率最大的候选词组作为所述任一段录音对应的文本。

在本发明的一个实施例中，若所述任一段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

具体而言，继续以上述的示例进行说明，假设候选词组“沃德要使呢”、“我的钥匙呢”、“我得要是呢”、“我的要使呢”分别对应的选择概率为0.05、0.8、0.1、0.05，其中，候选词组“我的钥匙呢”和“我得要是呢”对应的选择概率最大，分别为0.8和0.1，并且选择概率之差较大，因此可以将候选词组“我的钥匙呢”作为确定的文本内容，进而可以保证后续语音合成时能够得到准确的结果。

假设候选词组“沃德要使呢”、“我的钥匙呢”、“我得要是呢”、“我的要使呢”分别对应的选择概率为0.05、0.5、0.4、0.05，那么由于候选词组“我的钥匙呢”和“我得要是呢”的选择概率之差较小，因此可以删除这些候选词组，避免了在候选词组之间的选择概率之差较小时也选择其中一个候选词组作为录音对应的文本内容而导致后续语音合成出现不准确的问题。

在本发明的一个实施例中，在得到语音与文本的对应关系时，除了步骤S140中对录音数据进行转换处理得到之外，也可以对上述的第一录音文件进行转换处理来得到语音与文本的对应关系。

继续参照图1，在步骤S150中，基于所述语音与文本的对应关系，进行语音合成。

在本发明的一个实施例中，步骤S150包括：将所述语音转换为音素，并根据所述语音与文本的对应关系，确定语音、音素和文本的对应关系；基于所述语音、音素和文本的对应关系，建立音素的声学特征与发音时长的模型；基于所述声学特征与发音时长的模型对需要合成语音的文本内容进行语音合成。

可选地，音素的声学特征与发音时长的模型可以是深度学习模型，比如可以采用BLSTM-RNN模型。

以下以对客服语音进行处理来合成语音的智能客服场景为例，对本发明的一个具体应用场景的技术方案进行详细说明，需要说明的是，本发明实施例的技术方案的应用场景并不仅限于智能客服的场景。

参照图4所示，根据本发明的实施例的语音合成方法，包括如下步骤：

步骤S401，客服语音录制。该步骤主要是通过录制少量的客服语音来提取客服的声纹特征，比如可以录制客服3～5分钟的录音，相比于相关技术中需要录制至少20小时以上录音的方案，本发明实施例的技术方案显然能够节省录制时间，提高了录制效率。

步骤S402，客服语音提取。该步骤主要是通过从步骤S401中录制的客服语音中提取出的声纹特征来从客服日常对话录音及录制的客服语音中自动提取客服的语音内容，并通过语音识别技术进行分析，形成“语音-文本”标注集。

步骤S403，语音切片。该步骤主要是将步骤S402中得到的“语音-文本”标注集内容切片成音素。

步骤S404，声学特征建模。该步骤主要是使用深度学习模型对音素的声学特征与时长建模，如使用BLSTM-RNN模型等。

步骤S405，语音合成。该步骤主要是利用建立的声学特征模型对新的文本内容进行语音合成，生成语音数据。

在以上步骤中，步骤S402的具体过程如图5所示，包括以下步骤：

步骤S501，说话人切分。

在本发明的一个实施例中，可以将客服日常对话录音切分为若干个时间窗口(比如每个时间窗口为25ms)，提取每段录音的13维度MFCC(Mel Frequency CepstrumCoefficient，Mel频率倒谱系数)特征，基于检验每段窗口中的录音包含一种声音还是两种声音，构造假设检验得分函数。如果得分大于某一阈值，则可以判断该段录音中包含两种声音，然后选择假设检验得分函数中的局部最大点作为声音切割点，对录音进行切分。切分完成后，客服日常对话录音分成若干段，其中的每一段只包含以下一种声音：客服录音、客户录音、重叠录音(客户客服共同说话的声音)或无声音。

步骤S502，客服语音识别。

在发明的实施例中，可以基于录制的客服语音，提取客服的声纹特征，然后基于该声纹特征对步骤S501中切分好的录音逐段计算切分录音和该客服声纹特征的相似性，如果相似度高于一定阈值，则该录音为客服录音，否则为重叠录音、客户录音或无声音，最后输出所有客服录音。

步骤S503，语音转音素。

在本发明的一个实施例中，可以基于提取出的客服录音，使用深度学习模型对声音和音素(对于中文而言，音素即为声韵母)进行建模，构建声音和音素的对应关系。可选地，深度学习模型可以采用BLSTM-RNN模型。

步骤S504，音素转词组，同时保留候选词组的选择概率。

在本发明的一个实施例中，可以训练语音模型，以建立音素和词组之间的对应关系，并计算出每段语音对应某候选词的概率，输出每段语音的“候选词-置信概率对”。例如，通过深度学习模型(如BLSTM-RNN模型)得到一段声音对应的音素为“wo de yao shi ne”，那么对应它的候选词可能是“沃德要使呢”、“我的钥匙呢”、“我得要是呢”、“我的要使呢”等，其对应的概率分别是0.05、0.8、0.1、0.03等，则“候选词-置信概率对”为[沃德要使呢：0.05；我的钥匙呢：0.8；我得要是呢：0.1；我的要使呢：0.03；……]。

步骤S505，标注结果筛选。

在本发明的一个实施例中，可以依据候选词的置信概率对候选语音内容进行筛选。具体参照图6所示，包括如下步骤：

步骤S601，对候选词依据候选词的置信概率的大小进行排序。

步骤S602，计算置信概率最大的两个词之间的置信概率差，记为delta。

步骤S603，将delta与阈值进行比较，判断delta是否小于阈值，若是，则执行步骤S604；否则，执行步骤S605。

步骤S604，删除这段语音内容。

步骤S605，保留该语音内容，并将置信概率最大的候选词作为该语音对应的文本。最后，将所有语音内容进行合并，以便形成客服的“语音-文本”标注集。

例如在步骤S504中的示例中，0.8明显大于剩下的概率值，所以可以保留该语音片段。假如“候选词-置信概率对”为[沃德要使呢：0.05；我的钥匙呢：0.5；我得要是呢：0.4；我的要使呢：0.03；……]，由于0.5和0.4之间相差太小，此时应该删除，以避免后续语音合成出现不准确的问题。

本发明上述实施例的技术方案减少了大量的人工录音(比如相比于相关技术中需要录制至少20小时减少到只需录制3-5分钟即可)，最大限度的减少了人为干预，提升了效率。同时当需要更新客服的音素或者添加一名新的客服时，本发明实施例的技术方案能够快速获取到该客服的语料数据，可扩展性较强。此外，由于本发明的实施例使用了客服的日常对话录音，因此声音自然、数据来源丰富，并且标注结果不受录制时长限制，可以提取任意多的仅包含该客服的录音，而收集到的录音结果越多，其语音库也随之扩大，确保能够得到较为全面的语料数据。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音处理方法中的步骤。

具体地，所述设备的处理器执行所述程序代码时用于实现如下步骤：获取指定人员的第一录音文件；从所述第一录音文件中提取所述指定人员的声纹特征；根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；对所述录音数据进行转换处理，得到语音与文本的对应关系；基于所述语音与文本的对应关系，进行语音合成。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率；根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：将所述各段录音转换为音素；根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：构建语音与音素的转换模型；基于所述语音与音素的转换模型将所述各段录音转换为音素。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：构建音素与词组的转换模型；根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差；若任一段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差大于或等于预定值，则将所述两个候选词组中选择概率最大的候选词组作为所述任一段录音对应的文本。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：若所述任一段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：对所述第一录音文件进行转换处理，得到所述语音与文本的对应关系。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：按照说话人员的不同对所述第二录音文件进行切分，得到切分后的录音数据；从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述第二录音文件进行检验，以确定所述第二录音文件的切割点；基于确定的切割点，对所述第二录音文件进行切分。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：若根据所述假设检验得分函数确定所述第二录音文件中任一段录音的得分大于第一预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：计算所述切分后的录音数据中各段录音数据的声纹信息与所述声纹特征的相似度；从所述各段录音数据中选取所述相似度大于第二预定阈值的录音数据作为查找到的录音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：将所述语音转换为音素，并根据所述语音与文本的对应关系，确定语音、音素和文本的对应关系；基于所述语音、音素和文本的对应关系，建立音素的声学特征与发音时长的模型；基于所述声学特征与发音时长的模型对需要合成语音的文本内容进行语音合成。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图7对本发明示例性实施方式的语音处理装置进行说明。

参照图7所示，根据本发明的实施例的语音处理装置700，包括：获取单元702、提取单元704、查找单元706、处理单元708和合成单元710。

其中，获取单元702用于获取指定人员的第一录音文件；提取单元704用于从所述第一录音文件中提取所述指定人员的声纹特征；查找单元706用于根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；处理单元708用于对所述录音数据进行转换处理，得到语音与文本的对应关系；合成单元710用于基于所述语音与文本的对应关系，进行语音合成。

在本发明的一些实施方式中，基于前述方案，所述处理单元708包括：第一确定单元7082，用于确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率；第二确定单元7084，用于根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元7082配置为：将所述各段录音转换为音素；根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元7082配置为：构建语音与音素的转换模型；基于所述语音与音素的转换模型将所述各段录音转换为音素。

在本发明的一些实施方式中，基于前述方案，所述第一确定单元7082配置为：构建音素与词组的转换模型；根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

在本发明的一些实施方式中，基于前述方案，所述第二确定单元7084配置为：计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词的选择概率之差；若任一段录音对应的至少一个候选词组中选择概率最大的两个候选词的选择概率之差大于或等于预定值，则将所述两个候选词中选择概率最大的候选词作为所述任一段录音对应的文本。

在本发明的一些实施方式中，基于前述方案，所述第二确定单元7084还用于：若所述任一段录音对应的至少一个候选词组中选择概率最大的两个候选词的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

在本发明的一些实施方式中，基于前述方案，所述处理单元708还用于对所述第一录音文件进行转换处理，得到所述语音与文本的对应关系。

在本发明的一些实施方式中，基于前述方案，所述查找单元706包括：切分单元7062，用于按照说话人员的不同对所述第二录音文件进行切分，得到切分后的录音数据；执行单元7064，用于从所述切分后的录音数据中查找与所述声纹特征相匹配的录音数据。

在本发明的一些实施方式中，基于前述方案，所述切分单元7062配置为：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述第二录音文件进行检验，以确定所述第二录音文件的切割点；基于确定的切割点，对所述第二录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，所述切分单元7062配置为：若根据所述假设检验得分函数确定所述第二录音文件中任一段录音的得分大于第一预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，所述执行单元7064配置为：计算所述切分后的录音数据中各段录音数据的声纹信息与所述声纹特征的相似度；从所述各段录音数据中选取所述相似度大于第二预定阈值的录音数据作为查找到的录音数据。

在本发明的一些实施方式中，基于前述方案，所述合成单元710配置为：将所述语音转换为音素，并根据所述语音与文本的对应关系，确定语音、音素和文本的对应关系；基于所述语音、音素和文本的对应关系，建立音素的声学特征与发音时长的模型；基于所述声学特征与发音时长的模型对需要合成语音的文本内容进行语音合成。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音处理方法中的步骤。例如，所述处理器可以执行如图1中所示的步骤S110，获取指定人员的第一录音文件；步骤S120，从所述第一录音文件中提取所述指定人员的声纹特征；步骤S130，根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；步骤S140，对所述录音数据进行转换处理，得到语音与文本的对应关系；步骤S150，基于所述语音与文本的对应关系，进行语音合成。

又如，所述处理器也可以执行如图2至图6中所示的步骤。

应当注意，尽管在上文详细描述中提及了语音处理装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音处理方法，包括：

获取指定人员的第一录音文件；

从所述第一录音文件中提取所述指定人员的声纹特征；

根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；

对所述录音数据进行转换处理，得到语音与文本的对应关系；

基于所述语音与文本的对应关系，进行语音合成。

2.根据权利要求1所述的方法，其中，对所述录音数据进行转换处理，得到语音与文本的对应关系，包括：

确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率；

根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，以得到语音与文本的对应关系。

3.根据权利要求2所述的方法，其中，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率，包括：

将所述各段录音转换为音素；

根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

4.根据权利要求3所述的方法，其中，将所述各段录音转换为音素，包括：

构建语音与音素的转换模型；

基于所述语音与音素的转换模型将所述各段录音转换为音素。

5.根据权利要求3所述的方法，其中，根据所述各段录音转换得到的音素，确定所述录音数据中各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率，包括：

构建音素与词组的转换模型；

根据所述音素与词组的转换模型及所述各段录音转换得到的音素，确定所述各段录音对应的至少一个候选词组，以及所述至少一个候选词组的选择概率。

6.根据权利要求2所述的方法，其中，根据所述至少一个候选词组的选择概率，确定所述各段录音对应的文本，包括：

计算所述各段录音对应的至少一个候选词组中选择概率最大的两个候选词组的选择概率之差；

若任一段录音对应的所述两个候选词组的选择概率之差大于或等于预定值，则将所述两个候选词组中选择概率最大的候选词组作为所述任一段录音对应的文本。

7.根据权利要求6所述的方法，还包括：

若所述任一段录音对应的所述两个候选词组的选择概率之差小于所述预定值，则删除所述任一段录音及所述任一段录音对应的至少一个候选词组。

8.一种介质，其上存储有程序，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

9.一种语音处理装置，包括：

获取单元，用于获取指定人员的第一录音文件；

提取单元，用于从所述第一录音文件中提取所述指定人员的声纹特征；

查找单元，用于根据所述声纹特征，从第二录音文件中查找与所述声纹特征相匹配的录音数据；

处理单元，用于对所述录音数据进行转换处理，得到语音与文本的对应关系；

合成单元，用于基于所述语音与文本的对应关系，进行语音合成。

10.一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。