CN113127673B

CN113127673B - 一种声纹数据库的构建方法及其数据调用方法

Info

Publication number: CN113127673B
Application number: CN202110308256.9A
Authority: CN
Inventors: 刘建; 高星; 丁颖
Original assignee: Shanghai Zhangshu Technology Co ltd
Current assignee: Shanghai Zhangshu Technology Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-07-22
Anticipated expiration: 2041-03-23
Also published as: CN113127673A

Abstract

本发明公开了一种声纹数据库的构建方法及其数据调用方法，声纹数据库的构建方法，具体为：基于存量数据建立历史数据库；将收集到的新数据存入新数据库；提取新数据库与历史数据库中的数据后进行増强学习，将所得数据存入全数据库，构建得到的声纹数据库即包括全数据库和新数据库。其中数据调用优先级从大到小依次为：新数据库中的数据来源相同的子数据库、新数据库、全数据库。本发明将数据分库，进行数据调用时可按库调用，提高识别效率，加速数据处理速度，新数据量过少时可以利用存量数据，提高识别准确率，新数据量较大时以数据采集渠道为标签针对性调用数据进行识别，提高数据调用效率，声纹数据库还可持续迭代更新，极具应用前景。

Description

一种声纹数据库的构建方法及其数据调用方法

技术领域

本发明属于声纹技术领域，涉及一种声纹数据库的构建方法及其构建的声纹数据库的数据调用方法。

背景技术

近年来随着技术的不断进步，线上服务越来越成为了人们生活的日常，银行、证券、保险等行业的线上服务不断上线，由于安全的需要，近年来证券行业开始实施投资者适当性管理办法，办法要求在行业全面推行双录。双录主要是对客户办理业务的过程，特别是风险揭示过程进行留底，用这样的方式可以规范金融销售的行为，同时也为日后争议提供依据。远程双录具体是指投资者通过网络线上办理业务时，需要同步录音、录像，以规范业务办理、加强投资者保护。

声纹指语音波形中反映说话人生理和行为信息的声学参数特征，每个人的声纹具有唯一性、独特性，可用于进行身份识别。与指纹、人脸、虹膜等生物特征相比，声纹具有非接触获取、采集成本低、便于远程认证的优点。

声纹识别是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术，在基于网络、电话的远程身份认证中有着得天独厚的的优势。

经过证券公司几年对金融科技的持续投入，在互联网端、移动终端等多渠道布局，投资者也倾向于通过APP来开户或者预约开通业务权限，目前对个人客户的多数办理需求已经实现了线上化支持，但还有部分较高风险的业务因为技术成熟度未能准确核实客户的真实身份等原因必须到现场临柜处理，其主要原因是没有完备的技术来核实双录视频内容的真实性、客户及客户意图的有效性。随着技术的不断发展，越来越多的业务可以线上办理，但是随着新业务的开展往往需要对采集设备进行升级，采集设备升级后所采集的数据在精度上往往与原数据存在一定差别，现有技术往往是通过再次采集客户的个人语音样本与身份信息完成数据更新的，即重新更新声纹数据库以满足新业务的精度及安全性要求。虽然这能够满足使用需求，但一方面采用如上方式的更新速度较慢，操作过于繁琐，另一方面，在进行后续身份验证时只使用新声纹数据库，并未使用存量语音数据库，不仅造成了数据的浪费，而且需要较长的使用时间才能完全完成对声纹数据库的更新，过渡时期由于数据量过少可能存在误识别的情况。

因此，开发一种能够良好利用存量语音数据库进而实现声纹数据库更新迭代的方法极具现实意义。

发明内容

本发明的目的在于克服现有声纹数据库的更新速度较慢、操作过于繁琐、数据浪费且误识别率较高的缺陷，提供一种能够良好利用存量语音数据库进而实现声纹数据库更新迭代的方法。本发明的方法能够实现声纹数据库的持续迭代更新，进而大大减少由于用户的年龄或身体状况导致的声纹信息变化导致误识别的概率，此外，本发明提供一种该声纹数据库的数据调用方法，采用该调用方法能够实现数据调用速度及识别效率的良好兼顾，极具应用前景。

为实现上述目的，本发明提供如下技术方案：

一种声纹数据库的构建方法，应用于电子设备，其步骤如下：

(1)基于存量数据建立历史数据库；

(2)将收集到的新数据存入新数据库；

(3)提取新数据库与历史数据库中的数据后进行増强学习，将所得数据存入全数据库，构建得到的声纹数据库即包括全数据库和新数据库。上述増强学习是现有技术。

本发明的声纹数据库的构建方法，将存量数据与新数据分开存储处理(分库)，在进行数据调用时能够方便地进行分库调用，优选调用新数据库中的数据这能够大大提高识别效率，同时加速数据处理速度，同时在新数据量过少时可以利用存量数据进行识别比对，可大大提高识别准确率，此外，本发明的声纹数据库可以持续迭代更新，其不仅可根据数据采集设备或数据的类型精度等区分新旧数据，也可根据采集时间来区分新旧数据，这样能够大大减少由于用户的年龄或身体状况导致的声纹信息变化导致误识别的概率，极具应用前景。

作为优选的技术方案：

如上所述的一种声纹数据库的构建方法，步骤(2)中，所述新数据库由多个子数据库组成，同一子数据库中的数据来源于同一渠道且不同子数据库的数据来源不同。子数据库的数据来源渠道包括PC端、固话端和手机端等。

如上所述的一种声纹数据库的构建方法，所述收集到的新数据是由通过新采集设备(新系统或者改造后的旧系统)采集得到的，新数据的质量优于存量数据。当然本发明的保护范围并不仅限于此，此处给出的仅为一种可行的技术方案而已，新旧数据(即新数据与存量数据)也可根据采集时间的先后来划分，如采集时间在五天前的数据即为存量数据，将其有新数据库转存至历史数据库。

如上所述的一种声纹数据库的构建方法，步骤(1)中，所述历史数据库中的存量数据进行了质量检测及标签化处理，标签化处理是指以数据来源为标签对数据进行标记。

本发明还提供了采用如上所述的构建方法建立的声纹数据库的数据调用方法，其步骤如下：

(1)判断新数据库是否为空，如是则调用全数据库中的数据，反之则进入下一步；

(2)获取当前数据来源，判断新数据库中与当前数据来源匹配的子数据库是否为空，如是则调用新数据库中的数据，反之则调用与当前数据来源匹配的子数据库中的数据。本发明的具体调用方法并不仅限于此，如当与当前数据来源匹配的子数据库中的数据过少时可再调用新数据库中的数据，当新数据库中的数据过少时可再调用全数据库中的数据，也可根据需求设定阈值，如新数据库中的数据量少于阈值则调用全数据库中的数据。

本发明的声纹库架构设计遵循以下四个原则：

1、新旧数据分开采集、处理；

2、语音预处理能力前置化，提高准入门槛；

3、音频数据集中、标签化管理；

4、声纹模型分库建设及管理。

有益效果：

本发明将存量数据与新数据分开存储处理(分库)，在进行数据调用时能够方便地进行分库调用，优选调用新数据库中的数据这能够大大提高识别效率，同时加速数据处理速度，同时在新数据量过少时可以利用存量数据进行识别比对，可大大提高识别准确率，还有新数据量较大时以数据采集渠道为标签针对性调用数据进行识别，能够大大提高数据调用效率，此外，本发明的声纹数据库可以持续迭代更新，其不仅可根据数据采集设备或数据的类型精度等区分新旧数据，也可根据采集时间来区分新旧数据，这样能够大大减少由于用户的年龄或身体状况导致的声纹信息变化导致误识别的概率，极具应用前景。

附图说明

图1为声纹数据库构建运行各阶段的示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式做进一步阐述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

(1)基于存量数据建立历史数据库，历史数据库中的存量数据进行了质量检测及标签化处理，标签化处理是指以数据来源为标签对数据进行标记；

(2)将收集到的新数据(其是由通过新采集设备采集得到的)存入新数据库，新数据库由多个子数据库组成，同一子数据库中的数据来源于同一渠道且不同子数据库的数据来源不同；

(3)提取新数据库与历史数据库中的数据后进行融合增强训练，将所得数据存入全数据库，构建得到的声纹数据库即包括全数据库和新数据库。

以上声纹数据库的数据调用方法，其步骤如下：

(2)获取当前数据来源，判断新数据库中与当前数据来源匹配的子数据库是否为空，如是则调用新数据库中的数据，反之则调用与当前数据来源匹配的子数据库中的数据。

以上声纹数据库的构建及运行可以大致分为如图1所示的三个阶段：初始化阶段、新旧过渡阶段、全面运行阶段；

1、初始化阶段：

基于存量数据初始化建库，声纹引擎及声纹库就绪，低质量的存量数据通过文件传输方式进行集中管理，统一进行质量检测及标签化。

此阶段如需调用数据即调用历史数据库。

2、新旧过渡阶段：

通过新系统建设及旧系统采集渠道的逐步改造，开展高质量数据收集，将高质量数据训练出新数据库。同时将新旧两部份数据进行融合增强训练出一个全数据库。

此阶段即为新数据采集量较少，其调用顺序：新数据>全数据。

3、全面运行阶段：

将第二阶段积累的新数据，根据不同渠道来源分类训练声纹库，使用时分渠道调用。同时，新数据声纹库也会持续的迭代优化，弥补单个渠道数据不足的问题。

此阶段即为新数据采集量较多，调用顺序：单渠道>新数据。

通过以上循序渐进、迭代优化得到的声纹数据库，其鲁棒性及可靠性更加。

经验证，本发明将存量数据与新数据分开存储处理(分库)，在进行数据调用时能够方便地进行分库调用，优选调用新数据库中的数据这能够大大提高识别效率，同时加速数据处理速度，同时在新数据量过少时可以利用存量数据进行识别比对，可大大提高识别准确率，还有新数据量较大时以数据采集渠道为标签针对性调用数据进行识别，能够大大提高数据调用效率，此外，本发明的声纹数据库可以持续迭代更新，其不仅可根据数据采集设备或数据的类型精度等区分新旧数据，也可根据采集时间来区分新旧数据，这样能够大大减少由于用户的年龄或身体状况导致的声纹信息变化导致误识别的概率，极具应用前景。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应该理解，这些仅是举例说明，在不违背本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改。

Claims

1.一种声纹数据库的构建方法，应用于电子设备，其特征在于，其步骤如下：

(1)基于存量数据建立历史数据库；

(2)将收集到的新数据存入新数据库，所述新数据库由多个子数据库组成，同一子数据库中的数据来源于同一渠道且不同子数据库的数据来源不同；

(3)提取新数据库与历史数据库中的数据后进行増强学习，将所得数据存入全数据库，构建得到的声纹数据库包括全数据库和新数据库；

针对所述声纹数据库的数据调用方法，包括如下步骤：

(i)判断新数据库是否为空，如是则调用全数据库中的数据，反之则进入下一步；

(ii)获取当前数据来源，判断新数据库中与当前数据来源匹配的子数据库是否为空，如是则调用新数据库中的数据，反之则调用与当前数据来源匹配的子数据库中的数据。

2.根据权利要求1所述的一种声纹数据库的构建方法，其特征在于，所述收集到的新数据是由通过新采集设备采集得到的。

3.根据权利要求1所述的一种声纹数据库的构建方法，其特征在于，步骤(1)中，所述历史数据库中的存量数据进行了质量检测及标签化处理，标签化处理是指以数据来源为标签对数据进行标记。