CN111554302A

CN111554302A - 基于声纹识别的策略调整方法、装置、终端及存储介质

Info

Publication number: CN111554302A
Application number: CN202010243211.3A
Authority: CN
Inventors: 刘微微; 马坤; 赵之砚
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-18

Abstract

本发明提供一种基于声纹识别的策略调整方法，包括：接收到客户端的来电时，当来电号码为手机号码时，识别是否有与手机号码对应的注册声纹，当识别有与手机号码对应的注册声纹时，获取客户端的来电语音并计算来电语音的频率，对来电语音进行滤波处理后提取来电声纹，通过声纹识别模型识别来电声纹与注册声纹为同一个人的声纹时，采用与来电语音对应的策略服务于客户端。本发明还提供一种基于声纹识别的策略调整装置、终端及存储介质。本发明通过声纹识别模型识别手机号码的来电声纹和对应的注册声纹是否为同一个人的声纹，提高了客户端的识别率，并采用与来电语音对应的策略服务于客户端，提升了智能机器人客服与客户端的沟通效率。

Description

基于声纹识别的策略调整方法、装置、终端及存储介质

技术领域

本发明涉及智能机器人领域，具体涉及一种基于声纹识别的策略调整方法、装置、终端及存储介质。

背景技术

随着互联网技术的高速发展，特别是在服务方面，客户对服务质量的要求越来越高，促使服务不断的向自动化、智能化、人性化、多渠道的方向演进，智能机器人客服应运而生。

现有技术中智能机器人服务时存在着安全漏洞，无法正确识别说话人的真实身份，如果服务对象为欺诈份子并且欺诈份子掌握了智能服务中风险控制的相关流程，容易造成客户个人信息泄露、甚至账户资金风险。且在服务过程中针对所有客户采用同一种策略，因而服务质量较差。

因此，对现有的智能服务中的策略进行调整成为一种亟待解决的技术问题。

发明内容

鉴于以上内容，有必要提出一种基于声纹识别的策略调整方法、装置、终端及存储介质，通过声纹识别模型识别手机号码的来电声纹和对应的注册声纹是否为同一个人的声纹，提高了客户端的识别率，并采用与来电语音对应的服务于客户端，提升了智能机器人客服与客户端的沟通效率，优化了服务质量。

本发明的第一方面提供一种基于声纹识别的策略调整方法，所述方法包括：

接收到客户端的来电时，判断来电号码是否为手机号码；

当所述来电号码为手机号码时，识别是否有与所述手机号码对应的注册声纹；

当识别有与所述手机号码对应的注册声纹时，接通所述客户端的来电并获取所述客户端的来电语音；

计算所述来电语音的频率；

对所述频率采用带通滤波器进行滤波处理，得到滤波后的来电语音；

提取所述滤波后的来电语音的来电声纹；

通过声纹识别模型识别所述来电声纹与所述注册声纹是否为同一个人的声纹；

当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端。

优选的，预先训练所述声纹识别模型，其中训练所述声纹识别模型的过程包括：

获取多个正样本及多个负样本构建样本数据集，其中，所述正样本为由同一个人的来电声纹和注册声纹组成的样本对，所述负样本为由不同人的来电声纹和注册声纹组成的样本对；

将所述样本数据集随机分为第一数量的训练集和第二数量的测试集；

将所述数据集输入预设深度学习模型中进行训练，得到声纹识别模型；

将所述测试集输入至所述声纹识别模型中进行测试，得到测试通过率；

判断所述测试通过率是否大于预设通过率阈值；

当所述测试通过率大于或者等于所述预设通过率阈值时，结束声纹识别模型的训练；

当所述测试通过率小于所述预设通过率阈值时，增加所述训练集的数量并基于增加后的训练集重新训练声纹识别模型直至所述测试通过率大于或者等于所述预设通过率阈值。

优选的，所述识别是否有与所述手机号码对应的注册声纹包括：

将所述手机号码与预设声纹数据库中的手机号码进行匹配；

当在所述预设声纹数据库中匹配到与所述手机号码相同的手机号码时，确定有与所述手机号码对应的注册声纹；

当在所述预设声纹数据库中没有匹配到与所述手机号码相同的手机号码时，确定没有与所述手机号码对应的注册声纹。

在历史通话记录中查找是否有所述手机号码；

当确定所述历史通话记录中有所述手机号码时，确定有与所述手机号码对应的注册声纹；

当确定所述历史通话记录中没有所述手机号码时，确定没有与所述手机号码对应的注册声纹。

优选的，所述对所述频率采用带通滤波器对进行滤波，得到滤波后的来电语音包括：

将所述频率按照从低频到高频的顺序排列得到所述来电语音的频带；

在所述频带内按照临界带宽值对一组带通滤波器由密到疏进行排列；

采用排列后的带通滤波器对所述来电语音进行滤波；

获取滤波后的来电语音。

优选的，所述采用与所述来电语音对应的策略服务于所述客户端包括：

根据所述来电语音识别所述客户端的年龄特征和性别特征；

匹配与所述年龄特征和性别特征对应的目标策略；

采用所述目标策略服务于所述客户端。

优选的，当所述来电号码不为手机号码时，或者当确定所述来电声纹与所述注册声纹不为同一个人的声纹时，所述方法还包括：

发送多个问题至所述客户端；

获取所述客户端的回答语音；

根据所述回答语音进行身份验证；

当身份验证通过后，采用与所述来电语音对应的策略服务于所述客户端。

优选的，当所述来电号码为手机号码时，所述方法还包括：

在历史通话记录中查找是否有所述手机号码；

当确定所述历史通话记录中有所述手机号码时，识别是否有与所述手机号码对应的注册声纹。

本发明的第二方面提供一种策略基于声纹识别的策略调整装置，所述装置包括：

判断模块，用于接收到客户端的来电时，判断来电号码是否为手机号码；

第一识别模块，用于当所述来电号码为手机号码时，识别是否有与所述手机号码对应的注册声纹；

获取模块，用于当识别有与所述手机号码对应的注册声纹时，接通所述客户端的来电并获取所述客户端的来电语音；

计算模块，用于计算所述来电语音的频率；

处理模块，用于对所述频率采用带通滤波器进行滤波处理，得到滤波后的来电语音；

提取模块，用于提取所述滤波后的来电语音的来电声纹；

第二识别模块，还用于通过声纹识别模型识别所述来电声纹与所述注册声纹是否为同一个人的声纹；

服务模块，用于当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端。

本发明的第三方面提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述基于声纹识别的策略调整方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于声纹识别的策略调整方法。

综上所述，本发明所述的一种基于声纹识别的策略调整方法、装置、终端及存储介质，通过接收到客户端的来电时，当来电号码为手机号码时，识别是否有与手机号码对应的注册声纹，当识别有与手机号码对应的注册声纹时，获取客户端的来电语音并计算来电语音的频率，对来电语音进行滤波处理后提取来电声纹，通过声纹识别模型识别来电声纹与注册声纹为同一个人的声纹时，采用与来电语音对应的策略服务于客户端。本发明通过声纹识别模型识别所述手机号码的来电声纹和对应的注册声纹是否为同一个人的声纹，提高了客户端的识别率，优化了服务质量。通过当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端，提升了智能机器人客服与客户端的沟通效率，优化了服务质量。

此外，当确定所述来电声纹与所述注册声纹不为同一个人的声纹时，通过对客户端进行身份验证，提高了客户端识别的准确率，优化了服务质量。

附图说明

图1是本发明实施例一提供的基于声纹识别的策略调整方法的流程图。

图2是本发明实施例二提供的基于声纹识别的策略调整装置的结构图。

图3是本发明实施例三提供的终端的结构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述基于声纹识别的策略调整方法可以应用于终端中，对于需要进行基于声纹识别的策略调整的终端，可以直接在终端上集成本发明的方法所提供的基于声纹识别的策略调整的功能，或者以软件开发工具包(Software Development Kit，SKD)的形式运行在终端中。

如图1所示，所述基于声纹识别的策略调整方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11：接收到客户端的来电时，判断来电号码是否为手机号码。

本实施例中，客户有需求时，通过手机或者座机拨打客户服务热线，终端获取来电号码，对所述来电号码进行判断。在实际应用中，一般座机属于公共交换电话网络，可能会有多个人使用同一个座机，而手机一般属于私人物品，识别到使用手机号码拨打客户服务热线可以确认为客户本人拨打。

S12：当所述来电号码为手机号码时，识别是否有与所述手机号码对应的注册声纹。

本实施例中，客户在使用互联网上的各类应用软件时，通常需要事先完成注册再登录，而客户在注册声纹的过程中，通常会注册手机号码、性别、年龄等客户信息，将所述客户的注册声纹与所述客户信息进行关联后存储于预先建立的声纹数据库中，所述注册声纹是终端主动或者被动的从所述客户使用过的所有应用软件中的已经通过声纹验证的声纹信息中得到的，当接收到客户来电号码时，在所述声纹数据库中识别所述手机号码对应的注册声纹。

将所述手机号码与预设声纹数据库中的手机号码进行匹配；

本实施例中，注册声纹中携带有手机号码，将所述来电号码与所述预设声纹数据库中的手机号码进行字符匹配，只要在所述预设声纹数据库中匹配到所述来电号码，确定有与所述来电号码对应的注册声纹。

优选的，为了提高来电号码的识别效率，加快数据处理的速度，优化服务质量，当所述来电号码为手机号码时可以先在历史通话记录中查找是否有所述手机号码，来识别是否有与所述手机号码对应的注册声纹，由于所有历史通话记录中的手机号码都对应有注册声纹，并且所述注册声纹都存储在所述预设声纹数据库中，直接用手机号码匹配注册声纹，时间少，效率高。

S13：当识别有与所述手机号码对应的注册声纹时，接通所述客户端的来电并获取所述客户端的来电语音。

本实施例中，来电语音指的是需要进行身份确认的客户的语音信息，所述来电语音可以通过任何具有语音信号采集功能的设备进行采集，如本发明可以通过通话录音获取所述客户端的来电语音。

S14：计算所述来电语音的频率。

本实施例中，可以获取预设采样时间T的来电语音，每秒从所述来电语音的连续信号中提取并组成离散信号的预设采样个数R，用Hz表示，计算所述来电语音的频率等于预设采样个数R除以预设采样时间T，例如预设采样时间可以为1分钟或者2分钟，预设采样个数可以为100次或者1000次，采样频率的倒数是采样周期，即采样之间的时间间隔。一般来说，采样频率是指计算机每秒钟采集的多少声音样本，采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确，对于所述预设采样时间和所述预设采样个数可以根据来电语音情况进行确定，本发明在此不做限制。

S15：对所述频率采用带通滤波器进行滤波处理，得到滤波后的来电语音。

本实施例中，采用带通滤波器对接收到的来电语音进行滤波得到滤波后的来电语音。

优选的，所述对所述频率采用带通滤波器进行滤波处理，得到滤波后的来电语音包括：

采用排列后的带通滤波器对所述来电语音进行滤波；

获取滤波后的来电语音。

本实施例中，通过采用语音识别技术对所述来电语音进行分析，得到语谱图，从所述语谱图中获取从低频到高频的频带对应的来电语音的频带，其中，所述语音识别技术为现有技术，本发明在此不作详细阐述。

本实施例中，所述临界带宽指的是临界频带的带宽，由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难，在低频处的声音掩蔽的临界带宽较高频要小，当客户在进行来电通话时，所处的环境背景不同，特别是当客户在环境背景噪音较大的环境中通话时，将影响来电语音的识别率。因此为了抑制输入的来电语音的信号中频率超过f_s/2的所有分量，防止混叠，同时抑制50HZ的电源工频干扰，在所述频带内按照临界带宽值由密到疏排列一组带通滤波器进行来电语音的滤波。

所述带通滤波器进行滤波为现有技术，本发明在此不作详细阐述。

S16：提取所述滤波后的来电语音的来电声纹。

本实施例中，声纹是用电声学仪器显示的携带言语信息的声波频谱，通过声纹可以进行说话人识别，一般来说，影响说话人识别的因素有说话人的声学特征、词法特征、韵律特征、语种特征、方言特征和口音特征等声纹特征。

因此，在获取所述来电语音之后，提取出来电语音中的声学特征、词法特征、韵律特征、语种特征、方言特征和口音特征等声纹特征。

本实施例中，所述来电声纹的声纹特征数据的提取方式有很多种，例如线性预测分析(LinearPredictionCoefficients，LPC)、感知线性预测系数(PerceptualLinearPredictive，PLP)、Tandem特征和Bottleneck特征、基于滤波器组的Fbank特征(Filterbank)、线性预测倒谱系数(LinearPredictiveCepstralCoefficient，LPCC)及梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)，本发明所采用的是梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)进行来电声纹的声纹特征数据的提取，通过对所述来电语音进行预加重、分帧、加窗后，对分帧加窗后的各帧信号进行快速傅立叶变换得到各帧的频谱，将所述频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上，进行一个傅立叶变换变换的逆变换，得到倒谱系数，所述倒谱系数为所述来电语音的声纹特征数据。

所述梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)进行来电语音的来电声纹的声纹特征数据的提取为现有技术，本发明在此不做详细阐述。

S17：通过声纹识别模型识别所述来电声纹与所述注册声纹是否为同一个人的声纹。

本实施例中，所述声纹识别模型是预先训练好的，将来电声纹和注册声纹同时输入声纹识别模型中，根据所述声纹识别模型的识别结果判定所述来电声纹与所述注册声纹是否为同一个人的声纹，当所述声纹识别模型的识别结果为第一结果，例如，“是”，则确定所述来电声纹与所述注册声纹为同一个人的声纹；当所述声纹识别模型的识别结果为第二结果，例如，“否”，则确定所述来电声纹与所述注册声纹不为同一个人的声纹。

其中，所述声纹识别模型的训练过程包括：

(1)获取多个正样本及多个负样本构建样本数据集，其中，所述正样本为由同一个人的来电声纹和注册声纹组成的样本对，所述负样本为由不同人的来电声纹和注册声纹组成的样本对；

(2)将所述样本数据集随机分为第一数量的训练集和第二数量的测试集；

(3)将所述训练集输入预设神经网络中进行训练，得到声纹识别模型；

(4)将所述测试集输入至所述声纹识别模型中进行测试，得到测试通过率；

(5)判断所述测试通过率是否大于预设通过率阈值；

当所述测试通过率大于或者等于所述预设通过率阈值时，结束声纹识别模型的训练；否则，当所述测试通过率小于所述预设通过率阈值时，重新执行(2)-(5)的过程直至所述测试通过率大于或者等于所述预设通过率阈值。

本实施例中，所述预设神经网络可以是卷积神经网络(Convolutional NeuralNetworks，CNN)，残差神经网络等。在后续服务过程中，将客户的来电声纹及注册声纹作为新的样本，增加至所述样本数据集中，并基于新的样本数据集来重新训练声纹识别模型。即不断的更新声纹识别模型，从而不断的提高来电声纹和注册声纹是否为同一个人的声纹的识别率。

S18:当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端。

本实施例中，所述策略是预先设置好的，当关联出所述来电语音对应的策略时，机器人按照所述预先设置好的策略对所述客户端进行智能服务。

在一个可选的实施例中，所述采用与所述来电语音对应的策略服务于所述客户端包括：

根据所述来电语音识别所述客户端的年龄特征和性别特征；

匹配与所述年龄特征和性别特征对应的目标策略；

采用所述目标策略服务于所述客户端。

本实施例中，通过说话人属性识别技术对所述来电语音进行声音特征分析，得到所述客户端的年龄特征和性别特征，其中，所述说话人属性识别技术是指通过获得来电语音，提取所述来电语音的多个语音特征参数，所述语音特征参数用于表征男女声音特征的差异，依据所述多个语音特征参数识别所述来电语音中说话人的性别，选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段，将所述说话人的性别以及年龄段作为输出结果输出。

本实施例中，所述的说话人属性识别为现有技术，本发明在此不作详细阐述。

本实施例中，可以预先根据不同的年龄特征和性别特征设置不同的策略，将所述关联有年龄特征和性别特征的策略存储至关联数据库中，当识别到所述客户端的年龄特征和性别特征时，从所述关联数据库中获取对应有所述年龄特征和性别特征的策略，例如，识别到所述客户端的年龄特征为儿童，性别特征为女性，关联出的策略为：轻柔男声应答：“小朋友，成年人才可以购买理财产品哦，可以找爸爸妈妈接电话吗？”，针对不同客户端，智能客服采用不同的策略，提升了智能机器人客服与客户端的沟通效率，优化了服务质量。

在一个可选的实施例中，当所述来电号码不为手机号码时，或者当确定所述来电声纹与所述注册声纹不为同一个人的声纹时，所述方法还包括：

发送多个问题至所述客户端；

获取所述客户端的回答语音；

根据所述回答语音进行身份验证；

本实施例中，在确定所述来电声纹和所述注册声纹不为同一个人的声纹之后，通对客户端发送问题进行身份验证，如果所述客户端通过了身份验证，则说明客户端可能因为疾病或者声音改变等原因造成了所述来电声纹和所述注册声纹不一致，但实际上是同一个人的声纹，提高了客户端识别的准确率，优化了服务质量。

进一步的，当所述来电号码不为手机号码时，所述方法还包括：

提取所述来电语音的来电声纹；

将所述来电语音的来电声纹与声纹数据库中的注册声纹进行比对；

当在所述声纹数据库中比对到所述来电语音的来电声纹对应的注册声纹时，确定所述声纹数据库中存在所述来电语音的来电声纹；

当在所述声纹数据库中没有比对到所述来电语音的来电声纹对应的注册声纹时，确定所述声纹数据库中不存在所述来电语音的来电声纹。

在其他实施例中，当来电号码未注册声纹信息时，可进行1:N声纹辨认技术，当在声纹数据库中比对到所述来电语音对应的注册声纹时，根据所述注册声纹辨认该客户是否为VIP客户、黑名单客户等。根据声纹辨认的结果，针对不同类型的客户，进行业务分类分级处理，例如，VIP客户转至贵宾专线；识别到黑名单客户进线，可推送预警至呼叫平台，调整策略。

本实施例中，当所述来电号码未注册声纹时，在所述注册声纹数据库中比对所述来电声纹，避免了所述来电声纹已经进行了声纹注册但系统或其它原因导致没有根据所述来电号码识别到所述注册声纹的现象，当在所述声纹数据库中比对到所述来电语音的来电声纹对应的注册声纹时，根据所述来电声纹对应的注册声纹辨认所述客户的类型，可以快速的针对所述客户的类型进行策略的调整，优化了服务质量。

综上所述，本实施例所述的一种基于声纹识别的策略调整方法，通过通过接收到客户端的来电时，当来电号码为手机号码时，识别是否有与手机号码对应的注册声纹，当识别有与手机号码对应的注册声纹时，获取客户端的来电语音并计算来电语音的频率，对来电语音进行滤波处理后提取来电声纹，通过声纹识别模型识别来电声纹与注册声纹为同一个人的声纹时，采用与来电语音对应的策略服务于客户端。本发明通过声纹识别模型识别所述手机号码的来电声纹和对应的注册声纹是否为同一个人的声纹，提高了客户端的识别率，优化了服务质量。通过当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端，提升了智能机器人客服与客户端的沟通效率，优化了服务质量。

实施例二

在一些实施例中，所述基于声纹识别的策略调整装置20可以包括多个由程序代码段所组成的功能模块。所述基于声纹识别的策略调整装置20中的各个程序段的程序代码可以存储于终端的存储器中，并由所述至少一个处理器所执行，以执行(详见图1描述)基于声纹识别的策略调整。

本实施例中，所述基于声纹识别的策略调整装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：判断模块201、第一识别模块202、获取模块203、计算模块204、处理模块205、提取模块206、第二识别模块207及服务模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

判断模块201：用于接收到客户端的来电时，判断来电号码是否为手机号码。

本实施例中，客户有需求时，通过手机或者座机拨打客户服务热线，终端获取来电号码，对所述来电号码进行判断，在实际应用中，一般座机属于公共交换电话网络，可能会有多个人使用同一个座机，而手机一般属于私人物品，识别到使用手机号码拨打客户服务热线可以确认为客户本人拨打。

第一识别模块202：用于当所述来电号码为手机号码时，识别是否有与所述手机号码对应的注册声纹。

优选的，所述第一识别模块202识别是否有与所述手机号码对应的注册声纹包括：

将所述手机号码与预设声纹数据库中的手机号码进行匹配；

本实施例中，注册声纹中携带有手机号码，只要在所述预设声纹数据库中识别到所述来电号码，确定有与所述来电号码对应的注册声纹。

优选的，为了提高来电号码的识别效率，加快数据处理的速度，优化服务质量，当所述判断模块201判断所述来电号码为手机号码时，可以先在历史通话记录中查找是否有所述手机号码，来识别是否有与所述手机号码对应的注册声纹，由于所有历史通话记录中的手机号码都对应有注册声纹，并且所述注册声纹都存储在所述预设声纹数据库中，直接用手机号码匹配注册声纹，时间少，效率高。

获取模块203：用于当所述第一识别模块202识别有与所述手机号码对应的注册声纹时，接通所述客户端的来电并获取所述客户端的来电语音。

计算模块204：用于计算所述来电语音的频率。

本实施例中，可以获取预设采样时间T的来电语音，每秒从所述来电语音的连续信号中提取并组成离散信号的预设采样个数R，用Hz表示，计算所述来电语音的频率等于预设采样个数R除以预设采样时间T，例如预设采样时间可以为1分钟或者2分钟，预设采样个数可以为100次或者1000次。采样频率的倒数是采样周期，即采样之间的时间间隔。一般来说，采样频率是指计算机每秒钟采集的多少声音样本，采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确，对于所述预设采样时间和所述预设采样个数可以根据来电语音情况进行确定，本发明在此不做限制。

处理模块205：用于对所述频率采用带通滤波器进行滤波处理，得到滤波后的来电语音。

采用排列后的带通滤波器对所述来电语音进行滤波；

获取滤波后的来电语音。

本实施例中，所述临界带宽指的是临界频带的带宽，由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难，在低频处的声音掩蔽的临界带宽较高频要小。当客户在进行来电通话时，所处的环境背景不同，特别是当客户在环境背景噪音较大的环境中通话时，将影响来电语音的识别率。

因此为了抑制输入的来电语音的信号中频率超过f_s/2的所有分量，防止混叠，同时抑制50HZ的电源工频干扰，在所述频带内按照临界带宽值由密到疏排列一组带通滤波器进行来电语音语音语音的滤波。

提取模块206：用于提取所述来电语音的来电声纹。

本实施例中，声纹是用电声学仪器显示的携带言语信息的声波频谱，通过声纹可以进行说话人识别。一般来说，影响说话人识别的因素有说话人的声学特征、词法特征、韵律特征、语种特征、方言特征和口音特征等声纹特征。

本实施例中，所述来电声纹的声纹特征数据的提取方式有很多种，例如线性预测分析(LinearPredictionCoefficients，LPC)、感知线性预测系数(PerceptualLinearPredictive，PLP)、Tandem特征和Bottleneck特征、基于滤波器组的Fbank特征(Filterbank)、线性预测倒谱系数(LinearPredictiveCepstralCoefficient，LPCC)及梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)，本发明所采用的是梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)进行来电声纹的声纹特征数据的提取，通过对所述来电语音进行预加重、分帧、加窗后，对分帧加窗后的各帧信号进行快速傅立叶变换得到各帧的频谱，将所述频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上，进行一个傅立叶变换变换的逆变换，得到倒谱系数，所述倒谱系数为所述来电语音的声纹特征数据。所述梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)进行来电语音的来电声纹的声纹特征数据的提取为现有技术，本发明在此不做详细阐述。

第二识别模块207：还用于通过声纹识别模型识别所述来电声纹与所述注册声纹是否为同一个人的声纹。

其中，所述声纹识别模型的训练过程包括：

(5)判断所述测试通过率是否大于预设通过率阈值；

服务模块208:用于当所述第二识别模型205确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端。

在一个可选的实施例中，所述服务模块208采用与所述来电语音对应的策略服务于所述客户端包括：

根据所述来电语音识别所述客户端的年龄特征和性别特征；

匹配与所述年龄特征和性别特征对应的目标策略；

采用所述目标策略服务于所述客户端。

本实施例中，通过说话人属性识别技术对所述来电语音进行声音特征分析，得到所述客户端的年龄特征和性别特征。所述说话人属性识别技术是指通过获得来电语音，提取所述来电语音的多个语音特征参数，所述语音特征参数用于表征男女声音特征的差异，依据所述多个语音特征参数识别所述来电语音中说话人的性别，选择与所述性别对应的高斯混合模型进行年龄分类，得到所述说话人的年龄段，将所述说话人的性别以及年龄段作为输出结果输出。

在一个可选的实施例中，当所述来电号码不为手机号码时，或者当确定所述来电声纹与所述注册声纹不为同一个人的声纹时，发送多个问题至所述客户端。

所述获取模块203还用于获取所述客户端的回答语音，根据所述回答语音进行身份验证。

所述服务模块208：还用于当所述验证通过后，采用与所述来电语音对应的策略服务于所述客户端。

进一步的，当所述来电号码不为手机号码时，所述提取模块206：还用于提取所述来电号码的来电声纹，将所述来电号码的来电声纹与声纹数据库中的注册声纹进行比对，当在所述声纹数据库中比对到所述来电语音的来电声纹对应的注册声纹时，确定所述声纹数据库中存在所述来电语音的来电声纹；当在所述声纹数据库中没有比对到所述来电语音的来电声纹对应的注册声纹时，确定所述声纹数据库中不存在所述来电语音的来电声纹。

在其他实施例中，当来电号码未注册声纹信息时，可进行1:N声纹辨认技术，当在声纹数据库中比对到所述来电语音对应的注册声纹时，根据所述注册声纹辨认该客户是否为VIP客户、黑名单客户等，根据声纹辨认的结果，针对不同类型的客户，进行业务分类分级处理，例如，VIP客户转至贵宾专线；识别到黑名单客户进线，可推送预警至呼叫平台，调整策略。

综上所述，本实施例所述的一种基于声纹识别的策略调整装置，通过通过接收到客户端的来电时，当来电号码为手机号码时，识别是否有与手机号码对应的注册声纹，当识别有与手机号码对应的注册声纹时，获取客户端的来电语音并计算来电语音的频率，对来电语音进行滤波处理后提取来电声纹，通过声纹识别模型识别来电声纹与注册声纹为同一个人的声纹时，采用与来电语音对应的策略服务于客户端。本发明通过声纹识别模型识别所述手机号码的来电声纹和对应的注册声纹是否为同一个人的声纹，提高了客户端的识别率，优化了服务质量。通过当确定所述来电声纹与所述注册声纹为同一个人的声纹时，采用与所述来电语音对应的策略服务于所述客户端，提升了智能机器人客服与客户端的沟通效率，优化了服务质量。

实施例三

参阅图3所示，为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中，所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述终端3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述终端3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述终端3中的基于声纹识别的策略调整装置20，并在终端3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述终端3的控制核心(Control Unit)，利用各种接口和线路连接整个终端3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行终端3的各种功能和处理数据，例如执行策略的调整。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述终端3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2(装置模块)，所述至少一个处理器32可执行所述终端3的操作装置以及安装的各类应用程序(如所述的基于声纹识别的策略调整装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于声纹识别的策略调整的目的。

在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现基于声纹识别的策略调整的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于声纹识别的策略调整方法，其特征在于，所述基于声纹识别的策略调整方法包括：

接收到客户端的来电时，判断来电号码是否为手机号码；

计算所述来电语音的频率；

提取所述滤波后的来电语音的来电声纹；

2.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，所述基于声纹识别的策略调整方法还包括：

预先训练所述声纹识别模型，包括：

将所述训练集输入预设神经网络中进行训练，得到声纹识别模型；

判断所述测试通过率是否大于预设通过率阈值；

3.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，所述识别是否有与所述手机号码对应的注册声纹包括：

将所述手机号码与预设声纹数据库中的手机号码进行匹配；

4.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，所述识别是否有与所述手机号码对应的注册声纹包括：

在历史通话记录中查找是否有所述手机号码；

5.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，所述对所述频率采用带通滤波器对进行滤波，得到滤波后的来电语音包括：

采用排列后的带通滤波器对所述来电语音进行滤波；

获取滤波后的来电语音。

6.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，所述采用与所述来电语音对应的策略服务于所述客户端包括：

根据所述来电语音识别所述客户端的年龄特征和性别特征；

匹配与所述年龄特征和性别特征对应的目标策略；

采用所述目标策略服务于所述客户端。

7.如权利要求1所述的基于声纹识别的策略调整方法，其特征在于，当所述来电号码不为手机号码时，或者当确定所述来电声纹与所述注册声纹不为同一个人的声纹时，所述基于声纹识别的策略调整方法还包括：

发送多个问题至所述客户端；

获取所述客户端的回答语音；

根据所述回答语音进行身份验证；

8.一种基于声纹识别的策略调整装置，其特征在于，所述基于声纹识别的策略调整装置包括：

计算模块，用于计算所述来电语音的频率；

提取模块，用于提取所述滤波后的来电语音的来电声纹；

9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于声纹识别的策略调整方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于声纹识别的策略调整方法。