CN110517697A

CN110517697A - 用于交互式语音应答的提示音智能打断装置

Info

Publication number: CN110517697A
Application number: CN201910770867.8A
Authority: CN
Inventors: 卢恒娜; 赖勇铨; 张靖友
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-29

Abstract

本发明公开了一种用于交互式语音应答的提示音智能打断装置，包括：声纹信息储存模块，其用来预先存储用户的声纹信息；声纹特征模型，其用来接收用户的语音流并实时提取出声纹特征；以及声纹特征匹配模块，其用来计算声纹特征模型提取出声纹特征与声纹信息储存模块中预先存储的用户的声纹信息的相似度，当该相似度小于阈值时提示音打断，否则提示音继续。该装置可以实现提示音精准快速打断。

Description

用于交互式语音应答的提示音智能打断装置

技术领域

本发明涉及计算机信息处理技术领域，特别是涉及一种用于交互式语音应答的提示音智能打断装置。

背景技术

交互式语音应答(IVR)系统通常涉及人机交互式对话。常用的一个场景是电话系统通过文本转语音(Text to speech,TTS)技术向用户发出提问，用户听到提问后用语音进行回答，从而实现语音的交互式问答。交互式问答常遇到的一个问题是，系统提示音未播报结束时，用户即开始回答问题，此时会产生提示音和用户声音混合的情况，严重影响用户体验。

如图1所示，现有技术中有一种解决方案是，IVR系统在提出问题时实时检测到用户说话的声音，当检测到用户开始说话时，中断提示音。这个过程称之为提示音打断。检测用户说话声音常采用(Voice activity detection,VAD)算法，对人声和非人声噪声进行建模，找到合适的分类模型实现人声和非人声的分类。

但是，上述采用VAD进行打断的缺点是，只要检测到人声系统就会进行打断。因此，如果背景声有其他人说话会打断，造成系统提示信息的丢失，影响用户体验。

发明内容

本发明的目的在于提供一种用于交互式语音应答的提示音智能打断装置，可以实现提示音精准快速打断。

为实现上述目的，本发明提供了一种用于交互式语音应答的提示音智能打断装置，包括：声纹信息储存模块，其用来预先存储用户的声纹信息；声纹特征模型，其用来接收用户的语音流并实时提取出声纹特征；以及声纹特征匹配模块，其用来计算声纹特征模型提取出声纹特征与声纹信息储存模块中预先存储的用户的声纹信息的相似度，当该相似度小于阈值时提示音打断，否则提示音继续。

可选的或优选的，声纹信息储存模块中预先存储的用户的声纹信息与该用户的身份ID关联。

可选的或优选的，身份ID为手机号码。

可选的或优选的，身份ID为身份证号码。

可选的或优选的，声纹信息储存模块预先存储的用户声纹信息通过该用户的历史通话中截通话声纹来获取。

可选的或优选的，声纹信息储存模块预先存储的用户声纹信息通过交互式语音应答开始时的通话记录获得。

可选的或优选的，声纹特征模型通过用户的若干声音样本训练深度网络得到。

可选的或优选的，声纹特征模型训练时，离线收集至少10万的不同的说话人的声音作为声纹数据集；通过度量学习的方式，对收集到的声音进行离线训练，得到一个用于计算声音相似度的深度网络；其中，离线训练时，在声纹数据集中以随机的方式加入预先收集的背景声音用于增强所述声纹特征模型的鲁棒性；在加入背景声音时直接在原始波形上进行加权求和，或者直接在声谱图上进行加权求和。

可选的或优选的，声纹特征模型包括特征提取算法块，声纹特征模型实时提取声纹特征时，特征提取算法块将实时传入的语音流进行分段并提取声谱图，声谱图输入到深度网络后输出声纹特征向量。

本发明提供的技术方案带来的有益效果是：通过声纹匹配手段，能有效避免用户电话端的背景声音打断IVR提示，同时在用户说话时能正确及时进行打断，为IVR系统提供了更好的用户体验。而且除了能解决IVR提示智能中断的问题，还能在用户来电时验证其身份，通过比对该手机号预存的声纹和来电时说话声纹的方式实现。

附图说明

图1是现有的一种人声打断流程图；

图2是本发明实施例提供的用于交互式语音应答的提示音智能打断装置利用声纹的智能打断流程图；

图3是本发明实施例提供的用于交互式语音应答的提示音智能打断装置中预提取声纹特征向量的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例实际上仅仅是说明性的或者示例性的，决不作为对本发明及其应用或使用的任何限制。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的全部细节均已了解的情况下实施。下面对实施例的描述仅仅是为了通过展示本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图2和图3所示，本实施例提供一种用于交互式语音应答的提示音智能打断装置，通过声纹匹配实现IVR提示音精准快速打断的功能。

本实施例的方案要求用户的声纹信息已经提前获得。通常有两种方式得到用户的声纹信息，一是在用户历史通话中截通话声纹并与其手机号或身份证号关联，二是在IVR通话开始时记录用户声音用于该通话后续的声纹再匹配。

如图2所示，当用户与IVR系统交互时，若能找到呼入手机对应的声纹信息，则启用声纹打断功能。当系统发出提示音时,实时监听用户的声音并提取其声纹特征进行比对，如果比对通过则打断系统提示音并持续监听用户说话内容直至说话结束；如果比对不通过则继续播放提示音。

本实施例提供的一种用于交互式语音应答的提示音智能打断装置，包括声纹信息储存模块、声纹特征模型以及声纹特征匹配模块，声纹信息储存模块用来预先存储用户的声纹信息，声纹特征模型用来接收用户的语音流并实时提取出声纹特征，声纹特征匹配模块用来计算所述声纹特征模型提取出声纹特征与所述声纹信息储存模块中预先存储的用户的声纹信息的相似度，当该相似度小于阈值时提示音打断，否则提示音继续。具体地：

针对声纹特征模型，本发明对所用的声纹特征模型不进行限定，一些常用的CNN模型如Resnet，VGG等均可以作为本发明的模型。本发明也不限定输入到CNN的数据预处理方式，一些常用的声谱图提取方式如计算spectrumgraph,或者MFCC均可以用于对原始波形数据进行处理。

特别需要说明的是，在声纹识别模型训练过程中，为了应用IVR场景中的背景声，需要加入背景杂音作为负样本，以便在识别过程中更好区分背景杂音中的人声。

训练的过程可以采用类似人脸识别或者其它基于metric learning的方式。

具体地，声纹特征模型训练方法如下：

1、离线收集大量(例如10万)的不同的说话人的声音作为声纹数据集；

2、通过度量学习(metric learning)的方式，对收集到的声音进行离线训练，得到一个用于计算声音相似度的深度网络，即所述声纹特征模型；

3、所述的离线训练包含数据增广的方式，即在声纹数据集中以随机的方式加入预先收集的背景声音(例如马路、商场等)用于增强所述声纹特征模型的鲁棒性；

4、所述加入背景声音的方式包括直接在原始波形上进行加权求和，或者直接在声谱图(spectrumgraph)上进行加权求和。

如下图3所示，关于提取实时声纹特征，训练完成后的模型用于提取用户语音。用户语音流实时传入到特征提取算法块，算法对语音流进行分段，提取声谱图并输入到深度网络中。

如图2所示，图2示出智能打断的流程。接收用户端发出的声音并提取声纹特征向量，若计算的距离小于设定的阈值则说明声音来自该用户，因此打断系统提示，否则不打断并持续监听用户说话内容。具体地，当系统发出提示音的同时，用户可能也同时在说话。系统实时监听用户端传来的声音信号流，并分段进行预处理后输入到训练好的声纹模型，提取用户端的语音的声纹特征向量。最后，该向量与该用户在数据库中预存的声纹特征向量进行相似度比较，计算出相似度。当相似度小于一定阈值时打断系统提示音，并持续监听其说话的内容，否则不进行打断并持续监听和播放提示音。

关于相似度计算

本发明提取的声纹特征为一个高维的向量。比较两个声纹是否匹配是通过计算这两个向量之间的距离实现。假设向量分别为X和Y，则距离可以采用欧式距离：

如果向量X和Y已经经过了则归一化，则还可以采用cosine距离，即：

当距离值D(X,Y)≤阈值t时，表示声纹X和Y匹配,否则不匹配。

需要说明的是，本实施例提供的装置的应用场景包括但不限于如下场景：

1、应用于IVR系统中，主要是一些需要与用户电话交互的场景，比如银行电话客服系统。

2、应用于手机app的智能语音交互中。

综上，本实施例提供的用于交互式语音应答的提示音智能打断装置，通过声纹匹配手段，能有效避免用户电话端的背景声音打断IVR提示，同时在用户说话时能正确及时进行打断，为IVR系统提供了更好的用户体验。而且除了能解决IVR提示智能中断的问题，还能在用户来电时验证其身份，通过比对该手机号预存的声纹和来电时说话声纹的方式实现。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利发明说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

以上所述仅为本发明的示例实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于交互式语音应答的提示音智能打断装置，其特征在于，包括：

声纹信息储存模块，其用来预先存储用户的声纹信息；

声纹特征模型，其用来接收用户的语音流并实时提取出声纹特征；以及

声纹特征匹配模块，其用来计算所述声纹特征模型提取出声纹特征与所述声纹信息储存模块中预先存储的用户的声纹信息的相似度，当该相似度小于阈值时提示音打断，否则提示音继续。

2.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹信息储存模块中预先存储的用户的声纹信息与该用户的身份ID关联。

3.根据权利要求2所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述身份ID为手机号码。

4.根据权利要求2所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述身份ID为身份证号码。

5.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹信息储存模块预先存储的用户声纹信息通过该用户的历史通话中截通话声纹来获取。

6.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹信息储存模块预先存储的用户声纹信息通过交互式语音应答开始时的通话记录获得。

7.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹特征模型通过用户的若干声音样本训练深度网络得到。

8.根据权利要求7所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹特征模型训练时，离线收集至少10万的不同的说话人的声音作为声纹数据集；通过度量学习的方式，对收集到的声音进行离线训练，得到一个用于计算声音相似度的深度网络；其中，离线训练时，在声纹数据集中以随机的方式加入预先收集的背景声音用于增强所述声纹特征模型的鲁棒性；在加入背景声音时直接在原始波形上进行加权求和，或者直接在声谱图上进行加权求和。

9.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置，其特征在于，所述声纹特征模型包括特征提取算法块，所述声纹特征模型实时提取声纹特征时，所述特征提取算法块将实时传入的所述语音流进行分段并提取声谱图，所述声谱图输入到深度网络后输出声纹特征向量。