CN110491389B

CN110491389B - 一种话务系统的声纹识别方法

Info

Publication number: CN110491389B
Application number: CN201910766030.6A
Authority: CN
Inventors: 任超; 钟亚希; 陈志骏
Original assignee: Effective Software Technology Shanghai Co ltd
Current assignee: Effective Software Technology Shanghai Co ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-12-14
Anticipated expiration: 2039-08-19
Also published as: CN110491389A

Abstract

本发明公开了一种话务系统的声纹识别方法，包括以下步骤：A、电话接入；B、查询用户ID是否声纹注册；如果未注册：通话结束后提取的有效时长大于30秒则进行声纹注册，否则注册失败，如果已注册：则进入验证环节；C、设置切入时间节点；D、话务系统截取部分音频；E、推送声纹服务器；F、返回初步验证结果；G、循环截取部分音频组合推送；H、返回最终验证结果，本发明采用语音流分包推送验证，声纹验证的次数更加多，避免了固定时长单词推送语音质量差导致的误识和误拒；并且采用新的推包的方式，免去核身的等待时间；同时会反馈出一系列的验证得分，可形成直观的验证曲线图表，更具有辨识度、提高用户的使用体验和业务处理效率。

Description

一种话务系统的声纹识别方法

技术领域

本发明涉及声音识别技术领域，具体是一种话务系统的声纹识别方法。

背景技术

随着移动网络信息换的发展，人们越来越依赖于通过电话手机来远程办理各种业务和服务，政府和企业也需要通过呼叫中心来服务客户，改善行政效率和加速商业进程。现有的预留问题/答案的验证方式和输入账号/密码的方式虽然简单方便，但安全性不高，用户的账号和密码很容易被窃取。预留问题和答案也很容易遗忘，延误业务和服务办理。因此，运用简单可靠的远程身份认证手段是呼叫中心的迫切需求。

在呼叫中心的日常业务中，用户很自然的会使用声音来传达信息，而对声音的身份验证，很自然的成为呼叫中心引入新身份认证手段的首选。声纹识别也特别适合呼叫中心，这是因为

（1）声纹具有表示用户身份的唯一性；

（2）声纹的识别可以远程实现，呼叫中心不需要为此添加额外的采音设备；

（3）声纹的获取是在用户通话中不知不觉获取的，因而不会引起用户的不方便感；

（4）声纹加密手段不容易被破解。

现有的声纹话务系统都基于对语音时长的硬性要求，采用了固定时长推送返回结果的方式，为追求验证的准确性甚至需对语音进行预处理提取足够时长有效语音再推送，至使验证响应效率大幅减小，也失去了实时验证的意义。

发明内容

本发明的目的在于提供一种话务系统的声纹识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种话务系统的声纹识别方法，包括以下步骤：

A、电话接入；

B、查询用户ID是否声纹注册；如果未注册：通话结束后提取的有效时长大于30秒则进行声纹注册，否则注册失败，如果已注册：则进入验证环节；

C、设置切入时间节点；

D、话务系统截取部分音频；

E、推送声纹服务器；

F、返回初步验证结果；

G、循环截取部分音频组合推送；

H、返回最终验证结果。

作为本发明的进一步技术方案：所述步骤A具体步骤是：企业话务系统平台部署声纹服务，选择指定分机在客服接听客户通话后进入声纹识别系统。

作为本发明的进一步技术方案：所述步骤B中声纹注册的具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）该声纹模型和用户ID存入声纹库中。

作为本发明的进一步技术方案：所述步骤E具体是：根据所选截取时间，推送用户ID和语音流至声纹服务器进行声纹验证。

作为本发明的进一步技术方案：所述声纹验证具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）引擎通过用户ID查找注册声纹模型与之验证模型比对。

作为本发明的进一步技术方案：步骤F具体是：根据推送部分的语音流进行声纹验证比对后返回验证得分，如果通过阈值则返回核身通过提示；验证得分未通过阈值则持续推送，可通过实时曲线图直观反映当前验证得分，所述阈值根据各厂商要求或按国家行业标准规范的声纹误识率和误拒率设定。

作为本发明的进一步技术方案：所述步骤G具体是：根据程序设定的最大语音推送时长，持续合并语音流推送声纹服务器进行验证。

作为本发明的进一步技术方案：所述步骤H具体是：根据设定的最大验证时长，推送至最后节点仍未通过声纹阈值则判定核身认证失败；或根据通话结束信令，发送该通话整段语音流的声纹验证结果。

与现有技术相比，本发明具有以下有益效果：1、采用语音流分包推送验证，声纹验证的次数更加多，避免了固定时长单词推送语音质量差导致的误识和误拒；2、采用新的推包的方式，免去核身的等待时间；3、验证的响应时间比原先方式快2~3倍；4、分流分包效率更高；5、会反馈出一系列的验证得分，可形成直观的验证曲线图表，更具有辨识度、提高用户的使用体验和业务处理效率。

附图说明

图1为声纹引擎识别流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种话务系统的声纹识别方法，包括以下步骤：

A、电话接入；企业话务系统平台部署声纹服务，选择指定分机在客服接听客户通话后进入声纹识别系统；

C、设置切入时间节点；由于大部分企业客服电话包含IVR播报音，避免机器音对声纹处理造成干扰，可以延后声纹推送服务的切入时间；

D、话务系统截取部分音频；该环节可以根据企业实际应用场景和需求，选择不同的语音流时间，eg：通话2s、4s、6s、8s、10s......持续推送验证结果是否为本人/非本人；通话3s、6s、9s、12s、15s...... 持续推送验证结果是否为本人/非本人；

E、推送声纹服务器；根据所选截取时间，推送用户ID和语音流至声纹服务器进行声纹验证；

F、返回初步验证结果；根据推送部分的语音流进行声纹验证比对后返回验证得分（声纹引擎验证得分区间为-15至+15。）如果通过阈值（该阈值可根据各厂商要求或按国家行业标准规范的声纹误识率和误拒率调整，默认当验证得分越大，越接近本人发音）则返回核身通过提示；验证得分未通过阈值则持续推送，可通过实时曲线图直观反映当前验证得分；

G、循环截取部分音频组合推送；根据程序设定的最大语音推送时长（e.g.当通话时长大于3分钟后，将不再进行声纹验证），持续合并语音流（e.g. 通话5秒、10秒、15秒、……的语音）推送声纹服务器进行验证；

H、返回最终验证结果，根据设定的最大验证时长，推送至最后节点仍未通过声纹阈值则判定核身认证失败；或根据通话结束信令，发送该通话整段语音流的声纹验证结果。

实施例2，在实施例1的基础上，声纹注册的具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）该声纹模型和用户ID存入声纹库中。

实施例3，在实施例1的基础上，声纹验证具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）引擎通过用户ID查找注册声纹模型与之验证模型比对。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种话务系统的声纹识别方法，其特征在于，包括以下步骤：

电话接入：企业话务系统平台部署声纹服务，选择指定分机在客服接听客户通话后进入声纹识别系统；

查询用户ID是否声纹注册；如果未注册：通话结束后提取的有效时长大于30秒则进行声纹注册，否则注册失败，如果已注册：则进入验证环节，声纹注册的具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）该声纹模型和用户ID存入声纹库中；

设置切入时间节点；

话务系统截取部分音频；

推送声纹服务器，根据所选截取时间，推送用户ID和语音流至声纹服务器进行声纹验证，声纹验证具体步骤是：1）录音服务器将音频文件格式转换为Base64编码文件；2）将音频Base64文件和身份ID封装为引擎标准json格式数据；3）发送http协议的json数据至声纹引擎；4）声纹引擎通过声纹建模算法生成声纹模型；5）引擎通过用户ID查找注册声纹模型与之验证模型比对；

返回初步验证结果，根据推送部分的语音流进行声纹验证比对后返回验证得分，如果通过阈值则返回核身通过提示；验证得分未通过阈值则持续推送，可通过实时曲线图直观反映当前验证得分，所述阈值根据各厂商要求或按国家行业标准规范的声纹误识率和误拒率设定；

循环截取部分音频组合推送，根据程序设定的最大语音推送时长，持续合并语音流推送声纹服务器进行验证；

返回最终验证结果，根据设定的最大验证时长，推送至最后节点仍未通过声纹阈值则判定核身认证失败；或根据通话结束信令，发送该通话整段语音流的声纹验证结果。