CN113506577A

CN113506577A - 一种基于增量采集电话录音完善声纹库的方法

Info

Publication number: CN113506577A
Application number: CN202110712615.7A
Authority: CN
Inventors: 冯义; 戴雯菊; 黄宇; 高适; 苏畅; 吴俊杰; 林大智; 王瑶; 罗宇
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-15

Abstract

本发明公开了一种基于增量采集电话录音完善声纹库的方法，包括：采集调度通话录音，根据预建立的声纹库对通话录音进行声纹识别；若识别失败，则将调度通话录音转化为调度文本，采用自然语言处理技术，提取文本中操作员说出的名字并进行识别；若正确识别出操作员的名字，则根据通话电话号码及操作员名字查询数据库中操作员信息，并自动进行声纹注册；若无法正确识别出操作员名字，则保存调度录音，在后台管理中由管理员进行定期审核，若审核成功则将调度录音注册到声纹库，审核失败则删除该记录。本发明解决了声纹采集难，跨信道跨设备声纹识别不准确的问题，为声纹库的建设和丰富，以及声纹识别准确率的提高提供了良好的基础。

Description

一种基于增量采集电话录音完善声纹库的方法

技术领域

本发明涉及电网调度的技术领域，尤其涉及一种基于增量采集电话录音完善声纹库的方法。

背景技术

目前电网调度系统进行调度用语规范性验证主要是通过行政管理手段进行把关，例如，调度操作票填写的“五核实”、“三审签字”以及通话核实等，现在通话核实的过程中，值班调度员电话向操作员核实身份，并要求其逐条复述指令内容，确保操作员对指令的接受和理解精准无误。

然而现有的管理方式下，对人员身份的核实仍存在盲点，通话确认身份的方式往往缺乏可信度，存在无资质操作的隐患；因此调度辅助机器人引入了声纹识别的方案辅助值班调度员进行身份核实。但是目前采取的声纹库建设方式为主动收集，即需要统一协调用户以拨打电话的方式进行电话录音，然后收集声纹信息。但是在执行过程中发现供电局下属机构、场站较多，人员较为复杂且变动大，不易协调、声纹受设备信道影响等问题，为声纹库的建设带来了很大的困难。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：目前采取的声纹库建设方式为主动收集，即需要统一协调用户以拨打电话的方式进行电话录音，然后收集声纹信息，在执行过程中发现供电局下属机构、场站较多，人员较为复杂且变动大，不易协调、声纹受设备信道影响等问题，为声纹库的建设带来了很大的困难。。

为解决上述技术问题，本发明提供如下技术方案：采集调度通话录音，根据预建立的声纹库对所述通话录音进行声纹识别；若识别失败，则将所述调度通话录音转化为调度文本，采用自然语言处理技术，提取文本中操作员说出的名字并进行识别；若正确识别出操作员的名字，则根据通话电话号码及操作员名字查询数据库中操作员信息，并自动进行声纹注册；若无法正确识别出操作员名字，则保存调度录音，在后台管理中由管理员进行定期审核，若审核成功则将所述调度录音注册到声纹库，审核失败则删除该记录。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述声纹识别过程包括，对所述调度通话录音进行加权滤波处理；将加权滤波处理过调度通话录音数据转换到频域，在频域对调度通话录音数据进行频谱相减和相位合成，并将频谱相减和相位合成后的调度通话录音数据转换到时域；对频谱相减和相位合成后的调度通话录音数据进行逆感知加权滤波处理，得到去噪后的调度通话录音数据；将去噪后的调度通话录音数据生成声谱图，并将所述声谱图与所述声纹库里的数据进行识别比对。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：将所述调度通话录音转化为调度文本包括，利用Python语言进行可执行程序的编写，编写一个后台无感运行的托盘程序，基于所述程序将所述调度通话录音转化为调度文本。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述采用自然语言处理技术，提取文本中操作员说出的名字并进行识别包括，利用图像处理技术对所述调度文本进行文本图像的采集；基于目标检测算法提取出所采集的文本图像中的名字并进行识别。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述目标检测算法的损失函数包括，

方差损失函数：

距离损失函数：

L(I_k,J_z)＝min(W_dist×|y_k-y_z|-θ,0)

其中，M表示常数，y_k表示k特征的常规系数，I_k表示k特征的点差值，x_k表示k特征的损失系数，W_Scalek表示方差值，

表示聚类参数，J_z表示z特征的点差值，y_z表示z特征的损失系数，θ表示距离参数。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述识别成功的标准包括，

L(I_k,J_z)∈[0.01,0.1]

即z特征和k特征的点差值在0.01-0.1时，为正确识别出操作员的名字。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述声纹注册包括，当正确识别出操作员的名字，检测注册文本录音的语速以及截幅，将所述语速以及截幅定义为评分因素，通过所述评分因素确定所述注册文本录音的综合评分；当所述综合评分达到预设评分阈值时，将采集的通话电话号码及操作员名字查询数据库中的操作员信息存储至所述声纹库，对所述注册文本录音进行声纹注册。

作为本发明所述的基于增量采集电话录音完善声纹库的方法的一种优选方案，其中：所述在后台管理中由管理员进行定期审核的审核期限为3个工作日之内。

本发明的有益效果：本发明解决了声纹采集难，跨信道跨设备声纹识别不准确的问题，为声纹库的建设和丰富，以及声纹识别准确率的提高提供了良好的基础。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的基本流程示意图；

图2为本发明一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的声纹识别失败示意图；

图3为本发明一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的管理员审核声纹信息示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

在声纹识别系统中，声纹库的建设是重中之重，只有完善可靠的声纹库才能保证声纹识别的安全性和准确性，然而现实环境中声纹库的建设确面临着很多问题，如人员分散、人员变动大、设备信道差异，难以统一组织等。按照以往的声纹库建设方式，需要每个人主动录入声纹存在较大的困难。本发明在系统运行过程中通过增量完善声纹库的方式不断丰富声纹库，使得声纹库的建设难度大大降低。

参照图1～3，为本发明的一个实施例，提供了一种基于增量采集电话录音完善声纹库的方法，包括：

S1：采集调度通话录音，根据预建立的声纹库对通话录音进行声纹识别；需要说明的是，

声纹识别过程包括：

对调度通话录音进行加权滤波处理；

将加权滤波处理过调度通话录音数据转换到频域，在频域对调度通话录音数据进行频谱相减和相位合成，并将频谱相减和相位合成后的调度通话录音数据转换到时域；

对频谱相减和相位合成后的调度通话录音数据进行逆感知加权滤波处理，得到去噪后的调度通话录音数据；

将去噪后的调度通话录音数据生成声谱图，并将声谱图与声纹库里的数据进行识别比对。

S2：若识别失败，如图2所示，则将调度通话录音转化为调度文本，采用自然语言处理技术，提取文本中操作员说出的名字并进行识别；需要说明的是，

将调度通话录音转化为调度文本包括：

利用Python语言进行可执行程序的编写，编写一个后台无感运行的托盘程序，基于该托盘程序将调度通话录音转化为调度文本。

进一步的，采用自然语言处理技术，提取文本中操作员说出的名字并进行识别包括：

利用图像处理技术对调度文本进行文本图像的采集；

基于目标检测算法提取出所采集的文本图像中的名字并进行识别。

其中，目标检测算法的损失函数包括：

方差损失函数：

距离损失函数：

L(I_k,J_z)＝min(W_dist×|y_k-y_z|-θ,0)

识别成功的标准包括：

L(I_k,J_z)∈[0.01,0.1]

S3：若正确识别出操作员的名字，则根据通话电话号码及操作员名字查询数据库中操作员信息，并自动进行声纹注册；需要说明的是，

声纹注册包括：

当正确识别出操作员的名字，检测注册文本录音的语速以及截幅，将语速以及截幅定义为评分因素，通过评分因素确定注册文本录音的综合评分；

当综合评分达到预设评分阈值时，将采集的通话电话号码及操作员名字查询数据库中的操作员信息存储至声纹库，对注册文本录音进行声纹注册。

S4：若无法正确识别出操作员名字，则保存调度录音，在后台管理中由管理员进行定期审核，若审核成功则将调度录音注册到声纹库，审核失败则删除该记录，如图3所示；需要说明的是，

在后台管理中由管理员进行定期审核的审核期限为3个工作日之内。

本发明首先通过建立操作员声纹库，然后再调度通话过程中通过声纹识别的方式进行身份核实，在建立声纹库时，采用在线增量采集的方式进行声纹库建设，解决了声纹采集难，跨信道跨设备声纹识别不准确的问题，为声纹库的建设和丰富，以及声纹识别准确率的提高提供了良好的基础；即本发明在已有系统的基础上进行改进，结合语音识别，自然语言处理、声纹识别等手段，通过监听调度过程中的通话录音，然后进行声纹识别，对应识别失败的声纹，再使用语音识别、自然语言处理，提取通话文本中人员的身份，进行自动增量的声纹库建设，从而解决了现行声纹库建设的诸多问题且本发明可用于复杂情况下的声纹库建设及优化。

实施例2

本实施例为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种基于增量采集电话录音完善声纹库的方法的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

传统的技术方案：现有技术进行用户身份核实主要通过电话核实的方式，但是由于场站较多，人员较复杂，通过电话远程核实存在一些隐患，如操作员代接电话、谎报姓名等，通过电话难以核实，其声纹采集难，声纹识别不准确。为验证本方法相对传统方法具有较高识别准确率及采集效率。本实施例中将采用传统电话核实的方法和本方法分别对声纹采集的准确率及效率进行实时测量对比。

测试环境：在仿真平台模拟操作员的声音信息，采用不同操作员的声音为测试样本，分别利用传统方法的电话核实的方式进行声纹采集及识别测试并获得测试结果数据。采用本方法，则开启自动化测试设备并运用MATLB软件编程实现本方法的仿真测试，根据实验结果得到仿真数据。每种方法各测试30组数据，计算获得每组数据声纹采集的效率及准确度，与仿真模拟输入的实际声音信息进行对比计算误差，结果如下表所示。

表1：实验结果对比表。

从上表可以看出，本发明方法相较于传统方法采集效率高，识别准确率较高，体现了本发明方法的良好性能。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。