CN108364654A

CN108364654A - 语音处理方法、介质、装置和计算设备

Info

Publication number: CN108364654A
Application number: CN201810087661.0A
Authority: CN
Inventors: 臧阳光; 沙泓州
Original assignee: Netease Lede Technology Co Ltd
Current assignee: Netease Lede Technology Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-03
Anticipated expiration: 2038-01-30
Also published as: CN108364654B

Abstract

本发明的实施方式提供了一种语音处理方法、介质、装置和计算设备。该语音处理方法包括：获取待处理的录音文件；从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；从所述目标录音数据中提取第二声纹特征；基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。本发明实施方式的技术方案可以在保证声纹特征准确率的前提下，提高声纹特征的提取效率，同时当需要更换人员时本发明实施方式的技术方案也能够快速提取到该人员的声纹特征，可扩展性较强。

Description

语音处理方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及通信及计算机技术领域，更具体地，本发明的实施方式涉及语音处理方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在智能客服场景中，通常需要使用对话语音转写技术来将客服与客户的语音对话转换成文字内容，以便后续的质量分析和质量监督。

其中，在从客服与客户的对话中提取客服的语音时，需要依赖于由客服语音库训练得到的客服声学模型，而客服语音库中的语音通常需要手动采集，目前主要有如下两种采集方法：

方法一：人工截取客服录音

该方法需要人工打开一段客服录音，然后从头开始听录音，并截取一段10秒钟左右的仅包含该客服声音的录音片段，直到30段为止；然后针对另一位客服，重复上述过程，直到采集完所有客服的录音。

方法二：录制客服的专属录音

该方法需要客服使用录音设备录制5分钟自己的声音。

发明内容

但是，上述方法一中由于是人工截取客服声音，因此不仅费时而且效率很低，同时截取客服录音的工作比较枯燥，容易出现错误，且事后难以排查。此外，当客服数量达到数百甚至更多时，人工截取的方法需要对每一个客服分别截取录音，可扩展性较差。

上述方法二中由于需要客服录制专属录音，因此对录制环境的要求较高，并且日常对话中客服声音可能由于客观原因发生变化，集中采集的录音并不能包含此类情况，进而会导致声纹识别出错。此外，这种方式导致声纹特征的更新比较麻烦，需要手工重新录制，可扩展性较差。

为此，非常需要一种改进的语音处理方案，以在保证声纹特征准确率的前提下，提高声纹特征的提取效率，同时增强声纹特征提取的可扩展性。

在本上下文中，本发明的实施方式期望提供一种语音处理方法、介质、装置和计算设备。

在本发明实施方式的第一方面中，提供了一种语音处理方法，包括：获取待处理的录音文件；从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；从所述目标录音数据中提取第二声纹特征；基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，从所述录音文件中提取指定人员的声纹特征，包括：截取所述录音文件中预定时间段的录音数据；从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，截取所述录音文件中预定时间段的录音数据，包括：删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

在本发明的一些实施方式中，基于前述方案，所述指定类型的录音数据包括静音数据和/或铃声数据。

在本发明的一些实施方式中，基于前述方案，从所述预定时间段的录音数据中提出所述指定人员的声纹特征，包括：通过所述预定时间段的录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据，包括：将所述录音库中的录音数据切分为多个预定长度的测试录音；计算所述测试录音的声纹特征与所述第一声纹特征的相似度；选取相似度大于第一预定阈值的预定数量个测试录音，并根据选取出的测试录音生成所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，根据选取出的测试录音生成所述目标录音数据，包括：对选取出的测试录音进行拼接处理，以得到所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，所述预定数量个测试录音的总时长大于或等于预定时长。

在本发明的一些实施方式中，基于前述方案，从所述目标录音数据中提取第二声纹特征，包括：通过所述目标录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述第二声纹特征。

在本发明的一些实施方式中，基于前述方案，基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据，包括：按照说话人员的不同对所述录音文件进行切分，得到切分后的录音数据；从所述切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，按照说话人员的不同对所述录音文件进行切分，包括：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验，以确定所述录音文件的切割点；基于确定的切割点，对所述录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，确定所述录音文件的切割点，包括：若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，从所述切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据，包括：计算所述切分后的录音数据中各段录音数据的声纹特征与所述第二声纹特征的相似度；将所述各段录音数据中相似度大于第三预定阈值的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述的方法还包括：将确定的所述指定人员的声音数据转换为文本数据。

在本发明实施方式的第二方面中，提供了一种介质，其上存储有程序，该程序被处理器执行时实现如上述实施方式中第一方面所述的方法。

在本发明实施方式的第三方面中，提供了一种语音处理装置，包括：获取单元，用于获取待处理的录音文件；第一提取单元，用于从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；第一查找单元，用于根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；第二提取单元，用于从所述目标录音数据中提取第二声纹特征；确定单元，用于基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述第一提取单元包括：截取单元，用于截取所述录音文件中预定时间段的录音数据；处理单元，用于从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，所述截取单元配置为：删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

在本发明的一些实施方式中，基于前述方案，所述处理单元配置为：通过所述预定时间段的录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，所述第一查找单元包括：第一切分单元，用于将所述录音库中的录音数据切分为多个预定长度的测试录音；计算单元，用于计算所述测试录音的声纹特征与所述第一声纹特征的相似度；选取单元，用于选取相似度大于第一预定阈值的预定数量个测试录音；生成单元，用于根据所述选取单元选取出的测试录音生成所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，所述生成单元配置为：对选取出的测试录音进行拼接处理，以得到所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，所述第二提取单元配置为：通过所述目标录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述第二声纹特征。

在本发明的一些实施方式中，基于前述方案，所述确定单元包括：第二切分单元，用于按照说话人员的不同对所述录音文件进行切分，得到切分后的录音数据；第二查找单元，用于从所述第二切分单元切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述第二切分单元配置为：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验，以确定所述录音文件的切割点；基于确定的切割点，对所述录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，所述第二切分单元配置为：若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，所述第二查找单元配置为：计算所述切分后的录音数据中各段录音数据的声纹特征与所述第二声纹特征的相似度；将所述各段录音数据中相似度大于第三预定阈值的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述的装置还包括：转换单元，用于将所述确定单元确定的所述指定人员的声音数据转换为文本数据。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如上述实施方式中第一方面所述的方法。

根据本发明实施方式的语音处理方法、介质、装置和计算设备，通过从待处理的录音文件中提取指定人员的声纹特征，得到第一声纹特征，并从录音库中查找与第一声纹特征相匹配的目标录音数据，使得能够通过录音文件中少量的录音数据来提取到第一声纹特征，并基于第一声纹特征从录音库中查找到任意数量的目标录音数据，进而能够基于该目标录音数据提取到该指定人员较为准确的第二声纹特征，以根据该第二声纹特征确定录音文件中包含的该指定人员的声音数据。可见，本发明实施方式的技术方案能够根据从待处理的录音文件中提取出的第一声纹特征自动获取任意数量的目标录音数据，以根据该目标录音数据准确提取指定人员的声纹特征，在保证声纹特征准确率的前提下，提高了声纹特征的提取效率，解决了现有技术中需要人工截取客服声音和录制客户专属录音所存在的各种问题，同时当需要更换人员时本发明实施方式的技术方案也能够快速提取到该人员的声纹特征，可扩展性较强。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明的一个实施例的语音处理方法的流程图；

图2示意性示出了图1中所示的步骤S120的一种处理过程的流程图；

图3示意性示出了图1中所示的步骤S130的一种处理过程的流程图；

图4示意性示出了图1中所示的步骤S150的一种处理过程的流程图；

图5示意性示出了根据本发明的另一个实施例的语音处理方法的流程图；

图6示意性示出了根据本发明的实施例的对客服与客户的对话录音进行处理的方法的流程图；

图7示意性示出了图6中所示的步骤S603的一种处理过程的流程图；

图8示意性示出了根据本发明的实施例的语音处理装置的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音处理方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语“智能客服”指创新和使用客户知识，帮助企业提高优化客户关系的决策能力和整体运营能力的概念、方法、过程以及软件的集合。

术语“通用背景模型”全称为Universal Background Model，简称UBM，实际上是一个表征大量非特定说话人语音特征分布的高斯混合模型，由于UBM的训练通常采用大量的与特定说话人无关、信道无关的语音数据，因此通常可以认为UBM是与特定说话人无关的模型，它只是拟合人的语音特征分布，而并不代表某个具体的说话人。

术语“语音识别”是指让机器通过识别和理解过程把语音信号转变为相应文本的技术。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，人工截取客服声音来提取声纹特征的方案不仅费时而且效率很低，同时截取客服录音的工作比较枯燥，容易出现错误，且事后难以排查。此外，当客服数量达到数百甚至更多时，人工截取的方法需要对每一个客服分别截取录音，可扩展性较差。

而录制客服专属录音的方案对录制环境的要求较高，并且日常对话中客服声音可能由于客观原因发生变化，集中采集的录音并不能包含此类情况，进而会导致声纹识别出错。此外，这种方式导致声纹特征的更新比较麻烦，需要手工重新录制，可扩展性较差。

因此，本发明的实施方式提供了一种语音处理方法、介质、装置和计算设备，可以在保证声纹特征准确率的前提下，提高声纹特征的提取效率，同时增强声纹特征提取的可扩展性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

在智能客服场景中，当需要从客服与客户的语音对话中提取客服的语音进行质量分析和质量监督时，可以先从该语音对话中获取少量的客服语音，然后从这少量的客服语音中提取该客服的声纹特征，由于提取出的声纹特征是基于少量的客服语音提取的，可能并不是非常准确，因此可以从语音库中查找与该声纹特征相匹配的较多数量的录音数据，进而从查找到的录音数据中提取到该客服较为准确的声纹特征，然后基于提取出的较为准确的声纹特征从客服与客户的语音对话中确定该客服的声音数据，并基于确定的声音数据进行质量分析和质量监督。

示例性方法

下面结合上述的应用场景，参考图1至图7来描述根据本发明示例性实施方式的语音处理方法。

图1示意性示出了根据本发明的一个实施例的语音处理方法的流程图。

参照图1所示，根据本发明的实施例的语音处理方法，包括：

步骤S110，获取待处理的录音文件；

步骤S120，从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；

步骤S130，根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；

步骤S140，从所述目标录音数据中提取第二声纹特征；

步骤S150，基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

图1所示实施例的技术方案能够根据从待处理的录音文件中提取出的第一声纹特征自动获取任意数量的目标录音数据，以根据该目标录音数据准确提取指定人员的声纹特征，在保证声纹特征准确率的前提下，提高了声纹特征的提取效率，解决了现有技术中需要人工截取客服声音和录制客户专属录音所存在的各种问题，同时当需要更换人员时本发明实施方式的技术方案也能够快速提取到该人员的声纹特征，可扩展性较强。

以下对图1中所示的各个步骤的实现细节进行详细阐述：

在步骤S110中，获取待处理的录音文件。

在本发明的一个实施例中，待处理的录音文件中包含有多个人的对话，比如待处理的录音文件可以是包含客服与客户对话的录音文件。

继续参照图1，在步骤S120中，从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征。

在本发明的一个实施例中，参照图2所示，步骤S120包括：

步骤S210，截取录音文件中预定时间段的录音数据。

在本发明的一个实施例中，步骤S210中截取所述录音文件中预定时间段的录音数据，包括：删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

在该实施例中，对于客服与客户沟通的场景，通常在拨打电话之后，会有一段时间是静音或铃声，因此可以删除录音文件中位于最前端的指定类型的录音数据，如静音数据和/或铃声数据。

步骤S220，从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

在本发明的一个实施例中，步骤S220包括：通过所述预定时间段的录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

继续参照图1，在步骤S130中，根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据。

在本发明的一个实施例中，参照图3所示，步骤S130包括：

步骤S310，将所述录音库中的录音数据切分为多个预定长度的测试录音。

在本发明的一个实施例中，预定长度可以选择较小的时间单位，以尽量保证一段测试录音中只包含一个人的声音，比如预定长度可以是1秒钟。

步骤S320，计算所述测试录音的声纹特征与所述第一声纹特征的相似度。

步骤S330，选取相似度大于第一预定阈值的预定数量个测试录音，并根据选取出的测试录音生成所述目标录音数据。

在本发明的一个实施例中，选取出的预定数量个测试录音的总时长大于或等于预定时长，预定时长的测试录音能够确保提取出准确的声纹特征。对于选取出的测试录音，可以通过拼接处理得到所述的目标录音数据。

继续参照图1，在步骤S140中，从所述目标录音数据中提取第二声纹特征。

在本发明的一些实施方式中，步骤S140包括：通过所述目标录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述第二声纹特征。

继续参照图1，在步骤S150中，基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

在本发明的一个实施例中，参照图4所示，步骤S150包括：

步骤S410，按照说话人员的不同对所述录音文件进行切分，得到切分后的录音数据。

在本发明的一个实施例中，步骤S410包括：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验，以确定所述录音文件的切割点；基于确定的切割点，对所述录音文件进行切分。

在本发明的实施例中，若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

步骤S420，从所述切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，步骤S420包括：计算所述切分后的录音数据中各段录音数据的声纹特征与所述第二声纹特征的相似度；将所述各段录音数据中相似度大于第三预定阈值的录音数据作为所述指定人员的声音数据。

在本发明的一个实施例中，参照图5所示，根据本发明的另一个实施例的语音处理方法，在图1的基础上，还包括：步骤S510，将确定的所述指定人员的声音数据转换为文本数据。

在该实施例中，当将确定的指定人员的声音数据转换为文本数据之后，可以基于该文本数据进行分析。比如从客服与客户的对话中识别出客服的声音数据，并转换为文本数据之后，可以基于该文本数据进行质量分析和质量监督。

以下以对客服与客户的对话录音进行处理为例，对本发明的一个具体应用场景的技术方案进行详细说明，需要说明的是，本发明实施例的技术方案的应用场景并不仅限于客服与客户的对话场景。

参照图6所示，根据本发明的实施例的对客服与客户的对话录音进行处理的方法，包括如下步骤：

步骤S601，录音预处理。

通常情况下，对于客服与客户的对话场景，当拨打电话之后，会有一段时间是静音或铃声，录音预处理是去掉录音开头的静音和铃声部分。

步骤S602，客服录音采集。

当经过步骤S601的预处理之后，得到的录音文件中开头一部分通常是客服的声音(因为客服通常会出于业务需要在对话开始前进行自我介绍)，因此可以截取预处理后录音的前n秒钟(如前15秒钟)，将截取的这部分录音作为客服录音。

步骤S603，客服录音清洗。

由于步骤S602中采集到的录音数据中依旧包含少量的客户声音，因此需要对这部分录音数据进行清洗，以得到客服的声音。

具体清洗过程为：使用步骤S602中采集到的录音数据训练通用背景模型UBM，用来表示与说话人无关的声纹特征分布，然后基于训练后的UBM模型参数通过自适应GMM模型(Gaussian Mixture Model，高斯混合模型)导出该客服的初始声纹特征。

在得到客服的初始声纹特征之后，将录音库中的录音切断成长度为1秒钟的测试录音，并计算这些测试录音和该客服的初始声纹特征的相似性，如果相似度低于一定阈值，则将该测试录音当作噪声，并予以删除；如果相似度高于该阈值，则保留该测试录音，最后拼接保留的测试录音，重复该过程直到保留10n秒钟的录音量。可选地，n可以大于30，并且n值越大，收集到的客服声纹信息越多。

在本发明的一个实施例中，步骤S603的具体处理过程如图7所示，包括如下步骤：

步骤S701，训练UBM模型。

步骤S702，训练自适应GMM模型，提取客服的声纹特征，该声纹特征记为初始声纹特征。

步骤S703，将录音切断成1秒钟的录音，计算各段录音与客服的初始声纹特征的相似度。

步骤S704，判断相似度是否大于预定阈值，若是，则保留这段录音；否则，删除这段录音。

步骤S705，拼接保留的录音片段。

继续参照图6所示，还包括如下步骤：

步骤S604，声纹特征提取。

该步骤中使用上述过程中拼接得到的录音数据训练通用背景模型UBM，再利用该UBM模型参数通过自适应GMM模型导出该客服的声纹特征。

步骤S605，说话人切分。

在本发明的一个实施例中，提取客服与客户的对话录音的13维度MFCC(MelFrequency Cepstrum Coefficient，Mel频率倒谱系数)特征，基于检验一小段窗宽的录音中包含一种声音还是两种声音，构造假设检验得分函数。如果得分大于某一阈值，则可以判断该段录音中包含两种声音，然后选择假设检验得分函数中的局部最大点作为声音切割点，对录音进行切分。

步骤S606，说话人识别。

基于步骤S604中提取得到的客服声纹特征，对切分好的录音进行说话人识别，即逐段计算切分录音和该客服声纹特征的相似性，如果相似度高于一定阈值，则该录音为客服声音，否则为客户声音。

步骤S607，语音转文本。

在本发明的一个实施例中，可以使用深度学习模型将语音转化成文本。可选地，深度学习模型可以采用BLSTM-RNN(Bidirectional Long Short Term Memory-RecurrentNeural Network，双向长短时记忆-递归神经网络)模型。

当将语音转换为文本内容之后，可以根据该文本内容进行后续的质量分析及质量监督。

本发明上述实施例的技术方案无需人工逐个听取录音来截取客服录音，同时也无需专门录制客服的录音，节省了大量时间。而自动从录音库中提取客服语音的方式使得能够获取任意多的仅包含该客服的录音，以保证基于获取到的大量录音来确保声纹识别具有较高的准确率。同时，本发明实施例的技术方案在需要更新客服的声纹特征或者添加一名新客服的声纹特征时，可以快速将新的声纹特征更新到语音数据库，可扩展性强。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音处理方法中的步骤。

具体地，所述设备的处理器执行所述程序代码时用于实现如下步骤：获取待处理的录音文件；从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；从所述目标录音数据中提取第二声纹特征；基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：截取所述录音文件中预定时间段的录音数据；从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：通过所述预定时间段的录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：将所述录音库中的录音数据切分为多个预定长度的测试录音；计算所述测试录音的声纹特征与所述第一声纹特征的相似度；选取相似度大于第一预定阈值的预定数量个测试录音，并根据选取出的测试录音生成所述目标录音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：对选取出的测试录音进行拼接处理，以得到所述目标录音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：通过所述目标录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述第二声纹特征。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：按照说话人员的不同对所述录音文件进行切分，得到切分后的录音数据；从所述切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验，以确定所述录音文件的切割点；基于确定的切割点，对所述录音文件进行切分。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如下步骤：计算所述切分后的录音数据中各段录音数据的声纹特征与所述第二声纹特征的相似度；将所述各段录音数据中相似度大于第三预定阈值的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：将确定的所述指定人员的声音数据转换为文本数据。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图8对本发明示例性实施方式的语音处理装置进行说明。

参照图8所示，根据本发明的实施例的语音处理装置800，包括：获取单元802、第一提取单元804、第一查找单元806、第二提取单元808和确定单元810。

其中，获取单元802用于获取待处理的录音文件；第一提取单元804用于从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；第一查找单元806用于根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；第二提取单元808用于从所述目标录音数据中提取第二声纹特征；确定单元810用于基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述第一提取单元804包括：截取单元8042，用于截取所述录音文件中预定时间段的录音数据；处理单元8044，用于从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，所述截取单元8041配置为：删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

在本发明的一些实施方式中，基于前述方案，所述处理单元8044配置为：通过所述预定时间段的录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

在本发明的一些实施方式中，基于前述方案，所述第一查找单元806包括：第一切分单元8062，用于将所述录音库中的录音数据切分为多个预定长度的测试录音；计算单元8064，用于计算所述测试录音的声纹特征与所述第一声纹特征的相似度；选取单元8066，用于选取相似度大于第一预定阈值的预定数量个测试录音；生成单元8068，用于根据所述选取单元选取出的测试录音生成所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，所述生成单元8068配置为：对选取出的测试录音进行拼接处理，以得到所述目标录音数据。

在本发明的一些实施方式中，基于前述方案，所述第二提取单元808配置为：通过所述目标录音数据对通用背景模型进行训练；基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述第二声纹特征。

在本发明的一些实施方式中，基于前述方案，所述确定单元810包括：第二切分单元8102，用于按照说话人员的不同对所述录音文件进行切分，得到切分后的录音数据；第二查找单元8104，用于从所述第二切分单元切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述第二切分单元8102配置为：基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据，构造假设检验得分函数；根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验，以确定所述录音文件的切割点；基于确定的切割点，对所述录音文件进行切分。

在本发明的一些实施方式中，基于前述方案，所述第二切分单元8102配置为：若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值，则根据所述假设检验得分函数确定所述任一段录音中的得分最大点，并将所述得分最大点作为所述切割点。

在本发明的一些实施方式中，基于前述方案，所述第二查找单元8104配置为：计算所述切分后的录音数据中各段录音数据的声纹特征与所述第二声纹特征的相似度；将所述各段录音数据中相似度大于第三预定阈值的录音数据作为所述指定人员的声音数据。

在本发明的一些实施方式中，基于前述方案，所述的装置800还包括：转换单元812，用于将所述确定单元确定的所述指定人员的声音数据转换为文本数据。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音处理方法中的步骤。例如，所述处理器可以执行如图1中所示的步骤S110，获取待处理的录音文件；步骤S120，从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；步骤S130，根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；步骤S140，从所述目标录音数据中提取第二声纹特征；步骤S150，基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

又如，所述处理器也可以执行如图2至图7中所示的步骤。

应当注意，尽管在上文详细描述中提及了语音处理装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音处理方法，包括：

获取待处理的录音文件；

从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；

根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；

从所述目标录音数据中提取第二声纹特征；

基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

2.根据权利要求1所述的方法，其中，从所述录音文件中提取指定人员的声纹特征，包括：

截取所述录音文件中预定时间段的录音数据；

从所述预定时间段的录音数据中提出所述指定人员的声纹特征。

3.根据权利要求2所述的方法，其中，截取所述录音文件中预定时间段的录音数据，包括：

删除所述录音文件中位于最前端的指定类型的录音数据，得到预处理后的录音文件；

在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。

4.根据权利要求3所述的方法，其中，所述指定类型的录音数据包括静音数据和/或铃声数据。

5.根据权利要求2所述的方法，其中，从所述预定时间段的录音数据中提出所述指定人员的声纹特征，包括：

通过所述预定时间段的录音数据对通用背景模型进行训练；

基于训练后的所述通用背景模型的参数，通过自适应高斯混合模型输出所述指定人员的声纹特征。

6.根据权利要求1所述的方法，其中，根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据，包括：

将所述录音库中的录音数据切分为多个预定长度的测试录音；

计算所述测试录音的声纹特征与所述第一声纹特征的相似度；

选取相似度大于第一预定阈值的预定数量个测试录音，并根据选取出的测试录音生成所述目标录音数据。

7.根据权利要求6所述的方法，其中，根据选取出的测试录音生成所述目标录音数据，包括：

对选取出的测试录音进行拼接处理，以得到所述目标录音数据。

8.一种介质，其上存储有程序，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

9.一种语音处理装置，包括：

获取单元，用于获取待处理的录音文件；

第一提取单元，用于从所述录音文件中提取指定人员的声纹特征，得到第一声纹特征；

第一查找单元，用于根据所述第一声纹特征，从录音库中查找与所述第一声纹特征相匹配的目标录音数据；

第二提取单元，用于从所述目标录音数据中提取第二声纹特征；

确定单元，用于基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。

10.一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。