CN110364178A

CN110364178A - 一种语音处理方法、装置、存储介质和电子设备

Info

Publication number: CN110364178A
Application number: CN201910663303.4A
Authority: CN
Inventors: 杨超
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-10-22
Anticipated expiration: 2039-07-22
Also published as: CN110364178B

Abstract

本发明实施例提出了一种语音处理方法、装置、存储介质和电子设备，通过根据接收到的第一音频信号检测问候语，响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征，响应于接收到第二音频信号，提取所述第二音频信号的语音特征，确定所述第二音频信号的语音特征与所述参考语音特征的相似度，响应于所述相似度小于第一阈值，过滤所述第二音频信号，实现了有效地区分客户的声音和其他人的声音，解决了当聆听到其他人的声音时，系统也会进行语音处理从而误处理的问题，降低了系统的误处理率，增强了系统的可用性。

Description

一种语音处理方法、装置、存储介质和电子设备

技术领域

本发明涉及信号处理领域，尤其涉及一种语音处理方法、装置、存储介质和电子设备。

背景技术

目前的自动电话客服系统虽然已经广泛使用了语音识别技术和噪音抑制技术对客户的语音进行识别，但是，如果用户所处环境比较嘈杂，存在多个人在说话，系统无法有效地区分出客户声音和其他人的声音，当聆听到其他人的声音时，系统也会进行语音处理从而误处理，这导致了系统误处理率高。

发明内容

有鉴于此，本发明实施例提出了一种语音处理方法和装置，以解决系统无法有效地区分出客户声音和其他人的声音，误处理率较高的问题。

第一方面，本发明实施例提出一种语音处理方法，所述方法包括：

根据接收到的第一音频信号检测问候语；

响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征；

响应于接收到第二音频信号，提取所述第二音频信号的语音特征；

确定所述第二音频信号的语音特征与所述参考语音特征的相似度；

响应于所述相似度小于第一阈值，过滤所述第二音频信号。

进一步地，所述方法还包括：响应与所述相似度大于第二阈值，保留所述第二音频信号；

以及根据保留的所述第二音频信号进行中断处理。

其中，所述根据保留的所述第二音频信号进行中断处理包括：

在保留的所述第二音频信号中检测中断语；

响应于检测到中断语，中断当前的语音播报。

进一步地，所述根据接收到的第一音频信号检测问候语包括：

对接收到的第一音频信号进行语音活动段检测；

响应于检测到语音活动段，对接收到的第一音频信号进行语音识别确定识别文本；

将识别文本与客户问候语列表内容进行字符串文本匹配；

响应于识别文本与所述客户问候语列表内容中的任一字符串匹配，确认检测到问候语。

进一步地，所述提取第一音频信号的语音特征作为参考特征具体为:

提取所述第一语音信号的发音声纹特征作为所述参考语音特征；

所述提取第二音频信号的语音特征具体为:

提取所述第二语音信号的发音声纹特征。

其中，所述发音声纹特征为通过基于深度神经网络的特征提取模型提取的I-Vector特征。

第二方面，本发明实施例提出了一种语音处理装置，其特征在于，所述装置包括：

检测单元，用于根据接收到的第一音频信号检测问候语；

第一语音特征提取单元，用于响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征；

第二语音特征提取单元，用于响应于接收到第二音频信号，提取所述第二音频信号的语音特征；

计算单元，用于确定所述第二音频信号的语音特征与所述参考语音特征的相似度；以及

处理单元，用于对音频信号进行处理。响应于所述相似度小于第一阈值，过滤所述第二音频信号。

第三方面，本发明实施例提出了一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面，本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现如第一方面所述的方法。

本发明实施例通过根据接收到的第一音频信号检测问候语，响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征，响应于接收到第二音频信号，提取所述第二音频信号的语音特征，确定所述第二音频信号的语音特征与所述参考语音特征的相似度，响应于所述相似度不满足大于阈值的条件下，过滤所述第二音频信号，实现了有效地区分客户的声音和其他人的声音，解决了当聆听到其他人的声音时，系统也会进行语音处理从而误处理的问题，降低了系统的误处理率，增强了系统的可用性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的语音处理方法的流程图；

图2是本发明实施例的检测问候语的流程图；

图3是本发明实施例的另一种语音处理方法的流程图；

图4是本发明实施例的语音处理装置的示意图；

图5是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测，是指在噪声环境中检测语音的存在与否,目的是从声音信号流里识别和消除长时间的静音期，静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。

语音识别技术，也被称为自动语音识别技术(Automatic Speech Recognition，ASR)，是一种将人的语音转换为文本的技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

深度神经网络(deep neural networks，DNN)目前是许多人工智能应用的基础。目前，包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络DNN。DNN在很多人工智能任务之中表现出了当前最佳的准确度。深度神经网络和深度学习算法因为在科研工作与工程任务中都取得了显著的效果从而大受欢迎。由于DNN在语音识别和图像识别上的突破性应用，使用DNN在图像和视频、语音和语言、医疗、游戏、机器人的应用量有了爆炸性的增长。DNN的工作原理是模仿人脑思考方式，能使用统计学习方法从原始感官数据中提取高层特征，在大量的数据中获得输入空间的有效表征，能够超越人类的准确率，从而在语音识别领域取得突破性进展，使语音识别速度更快，识别准确率也更高。

身份向量(Identity Vector,I-Vector)特征，是受联合因子分析理论的启发由Dehak提出的。具体为：联合因子分析认为，在通用背景模型(Universal BackgroundModel，UBM)和高斯模型(Gaussian Mixed Model,GMM)结合的GMM-UBM系统中的高斯模型均值超矢量，大体上可以分为跟说话人本身有关的矢量特征和跟信道以及其他变化有关的矢量特征的线性叠加。也就是，将说话人GMM均值超矢量所在的空间划分为本征空间，信道空间，最后还有一个残差空间。这样，如果我们能抽取出跟说话人本身相关的特征而去掉和信道相关的特征，就能很好地克服信道影响进行识别了。受联合因子分析理论的启发Dehak提出从GMM均值超矢量中提取一个更紧凑的矢量,称为I-Vector。这里的I是身份(Identity)的意思,出于自然的理解,I-Vector相当于说话人的身份标识。

图1是本发明实施例的一种语音处理方法的流程图。如图1所示，本发明实施例的语音处理方法包括如下步骤：

步骤S110、根据接收到的第一音频信号检测问候语。

其中，第一音频信号为客户拨入电话接通时或客户接听电话系统问候语播放完成时的音频信号，是交互式应答的首个音频信号，其中较大概率会包含问候语，例如，“喂，您好！”或“您好，请问是谁”等类似表达。这类问候语表达通常只会是接听电话的客户本人来发出，因此，问候语的发音声纹特征可以作为接听电话的用户特征。也就是说，如果接收到的音频信号中包含问候语，则可以基于问候语对应的语音信号来检测目标客户(也即，接听电话的客户)的发音声纹特征作为后续区分目标客户语音和其他人语音的基础。

为了实现对于问候语的检测，在本实施例的系统中，预先将可能会用的问候语制作成是一个可枚举的文本列表。通过根据第一音频信号检测得到的文本与上述文本列表进行对比，就可以从第一音频信号中比较快速、准确地检测是否包括问候语。

在一个可选的实现方式中，如图2所示，可以包括如下步骤：

步骤S210、对接收到的第一音频信号进行语音活动段检测。

语音端点检测(VAD)技术可以从输入的语音信号中对语音和非语音进行区分，去掉语音中的静音成分、获取输入语音中有效语音、去除噪声，对语音进行增强。

步骤S220、响应于检测到语音活动段，对接收到的第一音频信号进行语音识别确定识别文本。

将第一音频信号中的语音信号通过语音识别转换为识别文本。

步骤S230、将识别文本与客户问候语为文本列表进行字符串文本匹配。

将语音识别得到的识别文本与数据库中存在客户问候语文本列表进行字符串匹配。字符串匹配有许多算法,包括有矩阵的算法，编辑距离、海明距离等。

步骤S240、响应于识别文本与所述客户问候语列表内容中的任一字符串匹配，确认检测到问候语。

具体地，在步骤S210,若语音活动段检测不到语音信号，系统进行主动再次问候直到检测到语音信号。

步骤S120、响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征。

如上所述，问候语具有较大概率上是由客户本人发出的，因此，通过提取问候语的语音特征可以确定为客户本人的语音特征，由此，将问候语的语音特征作为参考语音特征，作为客户的语音识别的模板。在一个可选的实现方式中，在整个自动电话客服的场景下提取所述第一音频信号的语音特征作为参考语音特征只进行一次。

步骤S130、响应于接收到第二音频信号，提取所述第二音频信号的语音特征。

在本实施例中，第二音频信号为所述自动电话客服在一次通话中，检测到问候语以后接收到的其它的音频信号，其可能包括目标客户对于自动电话客服播报语音的应答，也可能并不是目标客户的应答，而是包括其它人的语音的环境噪声或者不包含任何语音的环境噪声。

在自动电话客服工作期间，系统会持续地监控所接收到的音频信号并进行处理。

在步骤S120和步骤S130中，所述提取第一音频信号的语音特征作为参考特征具体为：提取所述第一语音信号的发音声纹特征作为所述参考语音特征。

所述提取第二音频信号的语音特征具体为：提取所述第二语音信号的发音声纹特征。

声纹特征，指的是声音的特征，每一个说话的声音都有自己的特点，很熟悉的人之间，可以只听声音而相互辨别出来，就是因为每个人的声音都具有独特的特征，声纹就像指纹一样，很少会有两个人具有相同的声纹特征，通过声纹特征能将不同人的声音进行有效的区分。

其中，所述发音声纹特征为通过基于深度神经网络的特征提取模型提取的身份向量(Identity Vector,I-Vector)特征。具体地，所述基于深度神经网络的特征提取模型是经过预设样本数据训练的获得的深度神经网络模型。该特征提取模型的输入为原始音频信号或经过VAD的语音活动段，输出为对应的I-Vector特征。

在使用时，可以将经过VAD的语音活动段输入到深度神经网络以得到对应的发音声纹特征。

步骤S140、确定所述第二音频信号的语音特征与所述参考语音特征的相似度。

在本实施例中，所述相似度可以通过特征向量在特征空间中的距离来计算，例如，欧氏距离、平方和距离、绝对值距离和加权距离。

在本发明实施例中，可以选择其中任意一种方法计算所述相似度。

应理解，本领域技术人员也可以采用更加复杂的相似度量表征方式来表征所述第二语音信号的语音特征和所述参考语音特征的相似度量。

步骤S150、响应于所述相似度小于第一阈值，过滤所述第二音频信号。

在本实施例中，第一阈值用于表征所述相似度的预设的相似程度。如果相似度小于第一阈值，则认为第一音频信号中的语音特征(也即，目标客户的语音特征)和当前的第二语音中的发音者的语音特征具有足够大的区别，以至于足以判断所述第二音频信号不是客户本人发出的，因此，需要对所述第二音频信号进行过滤。

本发明实施例通过根据接收到的第一音频信号检测问候语，响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征，响应于接收到第二音频信号，提取所述第二音频信号的语音特征，确定所述第二音频信号的语音特征与所述参考语音特征的相似度，根据相似度来过滤不属于目标客户的语音信号，由此，可以实现了有效地区分目标客户的语音和其他人的语音，解决了当聆听到其他人的声音时，系统也会进行语音处理从而误处理的问题，降低了系统的误处理率，增强了系统的可用性。

图3是本发明实施例的另一种语音处理方法的流程图。如图3所示，其中，步骤S310-S340与图1中的步骤S110-S140类似，在此不再赘述。

步骤S350、判断所述相似度是否小于第一阈值，在所述相似度小于第一阈值时，执行步骤S360，否则执行步骤S370。

步骤S360、过滤所述第二音频信号。

步骤S370、判断所述相似度是否大于第二阈值，在所述相似度大于第二阈值时，执行步骤S380。

步骤S380、保留所述第二音频信号。

步骤S390、根据保留的所述第二音频信号进行中断处理。

本发明实施例以先判断相似度是否小于第一阈值再判断是否大于第二阈值为例进行说明，应理解，还可以先判断是否大于第二阈值再判断是否小于第一阈值，本发明实施例并不对此进行限制。

在本发明实施例中，第二阈值也用于表征两个音频信号中语音特征的预定的相似程度。第二阈值可以与所述第一阈值相同或不同。如果第二阈值与第一阈值不同，第二阈值应当大于第一阈值。在相似度阈值大于第二阈值时，说明当前的第二语音中的发音者的语音特征与第一语音中问候语的发音者的语音特征足够相似，以致足以判断所述第二音频信号是客户本人发出的，因此，需要对其进行保留，并进一步相应的处理。

更具体地，在本发明实施例中，系统会根据第二音频信号进行中断处理。也即，目标客户在接听语音客服语音播报的过程中，如果目标客户在电话中用语音表达“对不起，请稍等一下”或者“对比起，需要临时中断一下”等，则系统可以按照设定进行当前播报的中断，并等待一段时间后再恢复播报。为了实现该处理，需要能够识别第二音频信号中是否包含需要进行中断的语音表达。

该识别过程实际上与识别问候语的过程类似。具体地，步骤S390可以包括如下步骤：

步骤S391、在保留的所述第二音频信号中检测中断语。

步骤S392、响应于检测到中断语，中断当前的系统的语音播报。

由此，本发明实施例通过根据接收到的第一音频信号检测问候语，响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征，响应于接收到第二音频信号，提取所述第二音频信号的语音特征，确定所述第二音频信号的语音特征与所述参考语音特征的相似度，根据相似度来过滤不属于目标客户的语音信号，并在确认是目标客户的语音信号时，对第二音频信号进行保留，并根据保留的所述第二音频信号进行中断处理，从而不仅可以有效地区分目标客户的语音和其他人的语音，而且使得系统支持语音打断的功能，增强了系统的可用性。

图4是本发明实施例的语音处理装置的示意图。如图4所示，所述语音处理装置包括检测单元41、第一语音特征提取单元42、第二语音特征提取单元43、计算单元44和处理单元45。

其中，检测单元41用于根据接收到的第一音频信号检测问候语。第一语音特征提取单元42用于响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征。第二语音特征提取单元43用于响应于接收到第二音频信号，提取所述第二音频信号的语音特征。计算单元44用于确定所述第二音频信号的语音特征与所述参考语音特征的相似度。处理单元45用于响应于所述相似度小于第一阈值，过滤所述第二音频信号。

本发明实施例通过根据接收到的第一音频信号检测问候语，响应于检测到问候语，提取所述第一音频信号的语音特征作为参考语音特征，响应于接收到第二音频信号，提取所述第二音频信号的语音特征，确定所述第二音频信号的语音特征与所述参考语音特征的相似度，响应于所述相似度小于第一阈值，过滤所述第二音频信号，实现了有效地区分客户的声音和其他人的声音，解决了当聆听到其他人的声音时，系统也会进行语音处理从而误处理的问题，降低了系统的误处理率，增强了系统的可用性。

图5是本发明实施例的电子设备的示意图。图5所示的电子设备5为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置55以及输入/输出(I/O)装置56。输入/输出(I/O)装置56可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置56通过输入/输出(I/O)控制器57与系统相连。

其中，存储器52可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，该传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

根据接收到的第一音频信号检测问候语；

响应于所述相似度小于第一阈值，过滤所述第二音频信号。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述相似度大于第二阈值，保留所述第二音频信号；

以及根据保留的所述第二音频信号进行中断处理。

3.根据权利要求2所述的方法，其特征在于，所述根据保留的所述第二音频信号进行中断处理包括：

在保留的所述第二音频信号中检测中断语；

响应于检测到中断语，中断当前的语音播报。

4.根据权利要求1所述的方法，其特征在于，所述根据接收到的第一音频信号检测问候语包括：

对接收到的第一音频信号进行语音活动段检测；

将识别文本与客户问候语列表内容进行字符串文本匹配；

5.根据权利要求1所述的方法，其特征在于，所述提取第一音频信号的语音特征作为参考特征具体为：

所述提取第二音频信号的语音特征具体为：

提取所述第二语音信号的发音声纹特征。

6.根据权利要求5所述的方法，其特征在于，所述发音声纹特征为通过基于深度神经网络的特征提取模型提取的身份向量特征。

7.一种语音处理装置，其特征在于，所述装置包括：

检测单元，用于根据接收到的第一音频信号检测问候语；

处理单元，用于响应于所述相似度小于第一阈值，过滤所述第二音频信号。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现如权利要求1至6中任一项所述的方法。