CN112102808A

CN112102808A - 用于伪造语音的深度神经网络的构建方法及系统

Info

Publication number: CN112102808A
Application number: CN202010863825.1A
Authority: CN
Inventors: 尤文杰; 邬锡敏
Original assignee: Jiangsu Pseudo Extreme Computing Information Technology Co ltd; Shanghai Hongzhen Information Science & Technology Co ltd
Current assignee: Nanjing Red array Network Security Technology Research Institute Co.,Ltd.; Shanghai Hongzhen Information Science & Technology Co.,Ltd.
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-12-18

Abstract

本发明公开了用于伪造语音的深度神经网络的构建方法及系统，涉及生物特征识别技术领域，包括：语音库收集模块，用于将需要进行对比的语音进行收集，并将其发送给语音合成处理模块。本发明通过设置的通过对现场采集的语音及语音库的语音等有效数据的多维度分析校准,利用AI技术对数据进行处理,生成有效的声纹数据，再通过输入文本至语音合成处理系统中，利用高清语音仿生播放设备播放语音，与带有声音锁的智能终端设备进行应用对比验证，从而实现对智能终端设备的声纹解锁，本发明能够解决因采集设备、采集周围环境等问题、导致声纹语音部分特征无法被正确提取，从而使声纹建模错误的问题，提高声纹模型通过生物特征身份鉴别系统验证的成功率。

Description

用于伪造语音的深度神经网络的构建方法及系统

技术领域

本发明涉及生物特征识别技术领域，具体为用于伪造语音的深度神经网络的构建方法及系统。

背景技术

目前，主要的生物特征识别技术有虹膜识别、视网膜识别、人脸识别、签名识别、声音识别、指纹识别等等。其中声音识别主要是通过调用相关部门的语音库以及现场的声音采集等两种方式进行语音样本的采集收录,然后再使用智能设备对该语音样本进行识别，与提前录入设备的声纹进行比对进而达到解锁设备的目的。

一般采用声纹识别解锁系统的正常方式就是基于声纹语音识别技术的基础上，通过识别声纹与用户在设备中存储的声纹信息进行比对进而判断该用户是否能够进入系统的技术，用户通过电子设备的声纹采集模块采集自己的电子声纹语音，使设备预先记录下了本人的声纹信息，然后再通过智能设备的语音模块对采集的电子声纹进行比对进而解锁设备，如果登录用户的声纹与“预先设定的身份认证信息”比对结果成功，那么用户就可进入并使用设备，但声纹解锁依然存有漏洞，只需仿声软件制作出与当事人相同的声纹语音样本，也可通过部分生物特征身份鉴别系统的验证，当采集时因采集设备、采集周围环境等问题，也会导致制作出的声纹无法通过识别。因此需要一套完整的声纹采集与处理系统，搭配声纹仿生技术，制作出高精度的声纹语音模型。

发明内容

本发明的目的在于：为了解决声纹解锁依然存有漏洞，只需仿声软件制作出与当事人相同的声纹语音样本，也可通过部分生物特征身份鉴别系统的验证，当采集时因采集设备、采集周围环境等问题，也会导致制作出的声纹无法通过识别。因此需要一套完整的声纹采集与处理系统，搭配声纹仿生技术，制作出高精度的声纹语音模型的问题，提供用于伪造语音的深度神经网络的构建方法及系统。

为实现上述目的，本发明提供如下技术方案：用于伪造语音的深度神经网络的构建方法及系统，包括：

语音库收集模块，用于将需要进行对比的语音进行收集，并将其发送给语音合成处理模块；

语音合成处理模块，用于接收语音库收集模块到的语音数据并将其进行合成处理；

高清仿生语音播放设备模块，用于播放合成后的相关的语音文件；

手机应用对比验证模块，用于将语音文件进行对比验证，并判断是否对比成功。

优选地，所述语音库收集模块的输入端包括现场语音录入和相关部分语音库调用，且语音库收集模块的输出端电性连接有语音合成处理模块。

优选地，所述语音合成处理模块的输入端电性连接有文本模块，且语音合成处理模块的输出端电性连接有高清仿生语音播放设备模块。

优选地，所述高清仿生语音播放设备模块的输出端电性连接有手机应用对比验证模块，且手机应用对比验证模块的输入端电性连接有带声音所的手机或应用收集模块，所述手机应用对比验证模块的输出端电性连接有解锁成功模块和解锁失败模块。

优选地，所述语音合成处理模块包括：

语音业务模块，用于将语音数据进行接收，并集中进行语音处理；

语音预处理模块，用于利用语音样本处理软件对语音进行预处理；

特征参数提取模块，用于将预处理过程总产生的特征参数进行提取；

训练，建立声纹模型模块，用于通过对语音样本文件的多次反复训练，建立声纹模型；

基于声纹推理出文本对应的语音模块，用于基于模型，可推理出文本所对应的语音内容；

语音合成模块，用于基于以上数据和模型支撑合成语音。

优选地，所述语音业务模块的输出端电性连接有语音预处理模块，且语音预处理模块的输出端电性连接有特征参数提取模块，所述特征参数提取模块的输出端电性连接有训练，建立声纹模型模块，且训练，建立声纹模型模块的输出端电性连接有基于声纹推理出文本对应的语音模块，所述基于声纹推理出文本对应的语音模块的输出端电性连接有语音合成模块。

优选地，所述根据声纹采集的标准要求，筛选出符合标准的语音样本文件进行输入，利用语音样本处理软件对语音进行预处理，提取其特征参数，通过对语音样本文件的多次反复训练，建立声纹模型，基于模型，可推理出文本所对应的语音内容，从而进行语音合成处理，待处理完成后，可使用处理后的声纹模型进行应用验证，若未通过验证，可重复上述步骤，直至通过应用验证。

优选地，所述包括以下步骤：

步骤一：通过现场的语音录入以及调用相关部门的语音库，完成语音库样本的采集工作，再导入标准的语音文本文件至语音合成处理系统中；

步骤二：利用高清语音仿生播放设备进行相关语音文件的播放，将带有声音锁的智能设备及应用与播放中的语音文件进行设备解锁应用验证；

步骤三：此时如果登录用户的声纹与智能设备及应用比对结果成功，那么用户就可进入并使用设备，反之则比对验证失败，用户无法使用该设备。

与现有技术相比，本发明的有益效果是：

1、本发明通过设置的通过对现场采集的语音及语音库的语音等有效数据的多维度分析校准,利用AI技术对数据进行处理,生成有效的声纹数据，再通过输入文本至语音合成处理系统中，利用高清语音仿生播放设备播放语音，与带有声音锁的智能终端设备进行应用对比验证，从而实现对智能终端设备的声纹解锁，本发明能够解决因采集设备、采集周围环境等问题、导致声纹语音部分特征无法被正确提取，从而使声纹建模错误的问题，提高声纹模型通过生物特征身份鉴别系统验证的成功率。

附图说明

图1为本发明的系统流程图；

图2为本发明的语音合成处理系统工作流程图；

图3为本发明的运用方案流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。下面根据本发明的整体结构，对其实施例进行说明。

请参阅图1-3，用于伪造语音的深度神经网络的构建方法及系统，包括：

本发明通过设置的通过对现场采集的语音及语音库的语音等有效数据的多维度分析校准,利用AI技术对数据进行处理,生成有效的声纹数据，再通过输入文本至语音合成处理系统中，利用高清语音仿生播放设备播放语音，与带有声音锁的智能终端设备进行应用对比验证，从而实现对智能终端设备的声纹解锁，本发明能够解决因采集设备、采集周围环境等问题、导致声纹语音部分特征无法被正确提取，从而使声纹建模错误的问题，提高声纹模型通过生物特征身份鉴别系统验证的成功率。

请着重参阅图1，语音库收集模块的输入端包括现场语音录入和相关部分语音库调用，且语音库收集模块的输出端电性连接有语音合成处理模块。

本发明中，现场语音录入和相关部分语音库调用皆需要物联网大数据的支撑。

请着重参阅图1，语音合成处理模块的输入端电性连接有文本模块，且语音合成处理模块的输出端电性连接有高清仿生语音播放设备模块。

本发明中，语音合成中重要的时候声纹合成处理，声纹合成处理是为每个说话的人建立其声纹模型，将语音信号中能反映说话人身份特征的个性特征参数提取出来，并进行声纹合成处理后，训练出说话人的声纹模型，并按照一定规则模仿说话人的声纹，从而发出说话人声纹的语音的过程。

请着重参阅图3，高清仿生语音播放设备模块的输出端电性连接有手机应用对比验证模块，且手机应用对比验证模块的输入端电性连接有带声音所的手机或应用收集模块，手机应用对比验证模块的输出端电性连接有解锁成功模块和解锁失败模块。

本发明中，可以运用在任何一种智能设备上，智能设备包括手机、考勤系统、门禁系统等需验证身份的设备以及设备上需要验证身份的各类应用。

请着重参阅图2和图3，语音合成处理模块包括：

语音合成模块，用于基于以上数据和模型支撑合成语音。

本发明中，声音预处理：对采集到的语音信息进行一系列预处理，消除其他因素对语音信号质量的影响；特征参数提取：特征参数提取过程是对语音信号中能够体现说话人身份的声学特征进行选择和提取的过程；建立模型：为每一个说话人建立一个声纹模型，将提取出来的特征参数利用AI技术训练建立模型；相关AI处理技术：包括LPC、CEP、Mel、MFCC等相关技术；语音合成技术：将处理后符合标准的语音进行合成的技术。

请着重参阅图2和图3，语音业务模块的输出端电性连接有语音预处理模块，且语音预处理模块的输出端电性连接有特征参数提取模块，特征参数提取模块的输出端电性连接有训练，建立声纹模型模块，且训练，建立声纹模型模块的输出端电性连接有基于声纹推理出文本对应的语音模块，基于声纹推理出文本对应的语音模块的输出端电性连接有语音合成模块。

本发明中，应用方案1：前提条件：使用手机设备的声纹采集模块预先采集声纹语音样本，使设备预先记录下声纹语音信息，使用特种声纹采集设备对现场人物语音进行大量采集，按声纹标准要求，在批量声纹语音中筛选出符合标准的语音文件，利用声纹定向处理软件对语音样本文件进行语音预处理，优化重建模型方法，完成声纹重建，利用仿生软件对语音进行伪装，将伪装完成的语音在智能终端上进行解锁验证，此时如果登录用户的语音与“预先设定的身份认证信息”比对结果成功，那么用户就可进入并使用设备。

请着重参阅图1、图2和图3，包括以下步骤：

本发明能够解决因采集设备、采集周围环境等问题、导致声纹语音部分特征无法被正确提取，从而使声纹建模错误的问题，提高声纹模型通过生物特征身份鉴别系统验证的成功率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.用于伪造语音的深度神经网络的构建方法及系统，其特征在于，包括：

2.根据权利要求1所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于：所述语音库收集模块的输入端包括现场语音录入和相关部分语音库调用，且语音库收集模块的输出端电性连接有语音合成处理模块。

3.根据权利要求1所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于：所述语音合成处理模块的输入端电性连接有文本模块，且语音合成处理模块的输出端电性连接有高清仿生语音播放设备模块。

4.根据权利要求1所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于：所述高清仿生语音播放设备模块的输出端电性连接有手机应用对比验证模块，且手机应用对比验证模块的输入端电性连接有带声音所的手机或应用收集模块，所述手机应用对比验证模块的输出端电性连接有解锁成功模块和解锁失败模块。

5.根据权利要求1所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于，所述语音合成处理模块包括：

语音合成模块，用于基于以上数据和模型支撑合成语音。

6.根据权利要求5所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于：所述语音业务模块的输出端电性连接有语音预处理模块，且语音预处理模块的输出端电性连接有特征参数提取模块，所述特征参数提取模块的输出端电性连接有训练，建立声纹模型模块，且训练，建立声纹模型模块的输出端电性连接有基于声纹推理出文本对应的语音模块，所述基于声纹推理出文本对应的语音模块的输出端电性连接有语音合成模块。

7.根据权利要求5所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于：所述根据声纹采集的标准要求，筛选出符合标准的语音样本文件进行输入，利用语音样本处理软件对语音进行预处理，提取其特征参数，通过对语音样本文件的多次反复训练，建立声纹模型，基于模型，可推理出文本所对应的语音内容，从而进行语音合成处理，待处理完成后，可使用处理后的声纹模型进行应用验证，若未通过验证，可重复上述步骤，直至通过应用验证。

8.根据权利要求1所述的用于伪造语音的深度神经网络的构建方法及系统，其特征在于，包括以下步骤：