CN102456346A

CN102456346A - 拼接语音检测系统及方法

Info

Publication number: CN102456346A
Application number: CN2010105111708A
Authority: CN
Inventors: 张峰; 蔡洪斌; 黄伟
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2010-10-19
Filing date: 2010-10-19
Publication date: 2012-05-16

Abstract

本发明公开了一种拼接语音检测系统，包括发音信息采集模块、用户历史语音数据库、语音比较模块；发音信息采集模块，用于采集用户的语音的发音信息，并将所采集的用户的语音的发音信息存储到所述用户历史语音数据库；语音比较模块，用于将采集的用户的语音的发音信息同用户历史语音数据库所存储的用户的语音的发音信息进行比较，输出拼接语音识别信号。本发明还公开了一种拼接语音检测方法。本发明能准确地检测出拼接的语音。

Description

拼接语音检测系统及方法

技术领域

本发明涉及语音识别技术，特别涉及一种拼接语音检测系统及方法。

背景技术

声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性。

常见的声纹认证系统，通常是通过产生一些固定或随机的文本，让用户说出，以识别其声纹。但是，如果用户的系统被安装了一些黑客工具，记录了用户以前登陆时说的语音，就可以按照声纹认证系统生成的文本，将用户以前登陆时的语音进行切分并拼接，然后用这些拼接的语音冒充用户说话来登陆。如果用户每个字的发音变换很快，将这些语音分割后拼接，可以通过分析拼接后的语音的一些特征(例如能量的变化)，来检测语音是拼接的还是自然发声的，但结果不一定可靠；如果用户每个字的发音较慢，将这些语音分割后进行拼接，则现有的方法很难检测出来，此外，拼接后的语音还可能会加上某些变形，现有的方法更难检测出来。这样黑客能通过拼接的语音冒充用户说话成功登陆用户的系统，从而损害用户的利益，系统安全性差。

发明内容

本发明要解决的技术问题是能准确地检测出拼接的语音。

为解决上述技术问题，本发明提供了一种拼接语音检测系统，包括发音信息采集模块、用户历史语音数据库、语音比较模块；

所述发音信息采集模块，用于采集用户的语音的发音信息，并将所采集的用户的语音的发音信息存储到所述用户历史语音数据库；

所述用户历史语音数据库，用于存储用户的语音的发音信息；

所述语音比较模块，用于将所述发音信息采集模块当前采集到的用户的语音的发音信息同所述用户历史语音数据库存储的用户的历史语音的发音信息进行比较，输出拼接语音识别信号，如果两者的相似度大于等于一设定阀值，所述语音比较模块输出的拼接语音识别信号为是，如果两者的相似程度小于所述设定阀值，所述语音比较模块输出的拼接语音识别信号为否。

本发明的拼接语音检测系统还包括用户登录模块、声纹识别模块；

所述用户登录模块，用于接收用户登录请求信息，当接收到用户登录请求信息后，输出一段文本到所述声纹识别模块；

所述声纹识别模块，根据所述语音比较模块输出的拼接语音识别信号及用户登录模块传来的所述一段文本对用户发出的语音进行声纹识别，确定是否允许用户登陆进入计算机系统；当所述语音比较模块输出的拼接语音识别信号为是时，所述声纹识别模块拒绝用户登录进入计算机系统；当所述语音比较模块输出的拼接语音识别信号为否时，所述声纹识别模块根据所述一段文本对用户发出的语音进行声纹识别，识别通过则允许用户登陆进入计算机系统，否则拒绝用户登陆进入计算机系统。

所述发音信息可以为原始语音的语音强度和对应的时间信息或者从原始语音中提取的语音特征。

所述语音特征可以为音频指纹、频谱、基频、共振峰、倒谱系数中的一种或多种。

所述发音信息可以为音频指纹。

所述语音比较模块可以采用距离差方法、互相关算法或动态规划算法将所述发音信息采集模块当前采集到的用户的语音的发音信息同所述用户历史语音数据库存储的用户的历史语音的发音信息进行比较，输出拼接语音识别信号。

为解决上述技术问题，本发明还提供了一种拼接语音检测方法，包括以下步骤：

一.一用户登录模块接收到用户登录请求信息；

二.一发音信息采集模块采集用户的语音的发音信息，并将所采集的用户的语音的发音信息存储到一用户历史语音数据库；

三.一语音比较模块将所述发音信息采集模块当前采集到的用户的语音的发音信息同所述用户历史语音数据库存储的用户的历史语音的发音信息进行比较，输出拼接语音识别信号，如果两者的相似度大于等于一设定阀值，所述语音比较模块输出的拼接语音识别信号为是，如果两者的相似程度小于所述设定阀值，所述语音比较模块输出的拼接语音识别信号为否。

所述用户登录模块接收到用户登录请求信息后，可以输出一段文本给用户，并输出所述一段文本到一声纹识别模块；

当所述语音比较模块输出的拼接语音识别信号为是时，所述声纹识别模块拒绝用户登录进入计算机系统；当所述语音比较模块输出的拼接语音识别信号为否时，所述声纹识别模块根据所述一段文本对用户发出的语音进行声纹识别，识别通过则允许用户登陆进入计算机系统，否则拒绝用户登陆进入计算机系统。

所述发音信息可以为音频指纹。

本发明的拼接语音检测系统及方法，用户每次使用语音登陆时，无论是否成功，系统会记录下此次登陆的语音的发音信息到一用户历史语音数据库中，也就是说用户历史语音数据库中保存有用户的历史语音的发音信息。用户进行登陆时，语音比较模块会比较用户此次登陆的语音的发音信息和用户历史语音数据库中用户以前登陆的历史语音的发音信息，根据两者的相似度进行判断，如果认为用户此次登陆的语音的发音信息和用户历史语音数据库中用户以前登陆的某段历史语音的发音信息一致，则认为用户此次登陆的语音是用以前的语音拼接而成，从而来实现拼接语音的自动检测，并且准确性非常高，对经过变换的拼接语音也有很好的检测效果。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1是本发明的拼接语音检测系统一实施方式示意图；

图2是本发明的拼接语音检测方法一实施方式流程图。

具体实施方式

本发明的拼接语音检测系统一实施方式如图1所示，包括用户登录模块、发音信息采集模块、用户历史语音数据库、语音比较模块、声纹识别模块；

所述用户登录模块，用于接收用户登录请求信息，当接收到用户登录请求信息后，输出一段文本给用户，并输出所述一段文本到所述声纹识别模块；

所述发音信息采集模块，用于采集用户的语音的发音信息，并将所采集的用户的语音的发音信息存储到所述用户历史语音数据库；所述发音信息可以为原始语音的语音强度和对应的时间信息(原始语音表示为一个数字序列，序列中的每一个数字表示语音在某一时刻的强度)或者从原始语音中提取的语音特征(比如频谱、基频、共振峰、倒谱系数、音频指纹等等)；

所述语音比较模块，用于将所述发音信息采集模块在所述用户登录模块最近一次接收到用户登录请求信息之后所采集的用户的语音的发音信息(即当前采集到的用户的语音的发音信息)，同所述用户历史语音数据库在所述用户登录模块最近一次接收到用户登录请求信息之前所存储的用户的语音的发音信息(即用户的历史语音的发音信息)进行比较，输出拼接语音识别信号，如果两者的相似度大于等于一设定阀值，则认为本次登陆的语音包含有用户历史语音中的某个片段，是由用户历史语音拼接而成，所述语音比较模块输出的拼接语音识别信号为是，如果两者的相似程度小于所述设定阀值，则认为本次登陆的语音不包含用户历史语音中的片段，不是由用户历史语音拼接而成，所述语音比较模块输出的拼接语音识别信号为否。

所述语音比较模块可以通过从原始语音中提取的一种语音特征同所述用户历史语音数据库中存储的用户的语音的该种语音特征进行比较，根据两者的相似度输出拼接语音识别信号，也可以通过从原始语音中提取的某几种语音特征的组合同所述用户历史语音数据库中存储的用户的语音的该几种语音特征进行比较，根据两者的相似度输出拼接语音识别信号。

音频指纹是可以代表一段音频的重要声学特征的基于内容的紧致的数字串，同样的音频经过反复的录音、数字化，仍然能够抽取出相同的音频指纹，同时不同的音频抽取的指纹不同。

所述语音比较模块采用距离差方法、互相关算法或动态规划算法将所述发音信息采集模块在所述用户登录模块最近一次接收到用户登录请求信息之后所采集的用户的语音的发音信息同所述用户历史语音数据库在所述用户登录模块最近一次接收到用户登录请求信息之前所存储的用户的语音的发音信息进行比较，判断两者的相似度，输出拼接语音识别信号。

距离差方法是对原始语音数据的语音强度信息或者从原始语音中提取的语音特征来处理，取一个窗函数，计算本次登陆语音中某个时刻的窗函数中的数值与用户历史语音中某个时刻的窗函数中的数值的距离，如果某两个时刻计算出的距离小于某个阈值，则认为这两个时刻的发音是一样的。

互相关算法是对原始语音数据的语音强度信息或者从原始语音中提取的语音特征来处理，取一个窗函数，然后计算本次登陆语音中某个时刻的窗函数中的数值与用户历史语音中某一时刻的窗函数中的数值的乘积，如果该结果大于某个阈值，则认为这两个时刻的发音是一样的。

动态规划算法是对原始语音数据的语音强度信息或者从原始语音中提取的语音特征来处理，取一个窗函数，然后计算本次登陆语音中某个时刻的窗函数中的数值与用户历史语音中另一时刻的窗函数中的数值的动态规划距离。如果该结果小于某个阈值，则认为这两个时刻的发音是一样的。

以上所说是以某两个时刻的窗函数中的数值来举例，实际需要计算各个时刻的两个窗函数中的数值的距离。

利用本发明的拼接语音检测系统进行拼接语音检测时，如图2、图3所示，包括以下步骤：

一.用户登录模块接收到用户登录请求信息，输出一段文本给用户让用户朗读，并输出所述一段文本到一声纹识别模块；

二.一发音信息采集模块采集用户的语音的发音信息(一较佳实施例，为音频指纹)，并将所采集的用户的语音的发音信息(一较佳实施例，为音频指纹)存储到一用户历史语音数据库；

三.一语音比较模块将所述发音信息采集模块在所述用户登录模块最近一次接收到用户登录请求信息之后所采集的用户的语音的发音信息(一较佳实施例，为音频指纹)同所述用户历史语音数据库在所述用户登录模块最近一次接收到用户登录请求信息之前所存储的用户的语音的发音信息(一较佳实施例，为音频指纹)进行比较，输出拼接语音识别信号，如果两者的相似度大于等于一设定阀值，所述语音比较模块输出的拼接语音识别信号为是，如果两者的相似程度小于所述设定阀值，所述语音比较模块输出的拼接语音识别信号为否；

五.当所述语音比较模块输出的拼接语音识别信号为是时，所述声纹识别模块拒绝用户登录进入计算机系统；当所述语音比较模块输出的拼接语音识别信号为否时，所述声纹识别模块根据所述一段文本对用户发出的语音进行声纹识别，识别通过则允许用户登陆进入计算机系统，否则拒绝用户登陆进入计算机系统。

Claims

1.一种拼接语音检测系统，其特征在于，包括发音信息采集模块、用户历史语音数据库、语音比较模块；

2.根据权利要求1所述的拼接语音检测系统，其特征在于，还包括用户登录模块、声纹识别模块；

3.根据权利要求1所述的拼接语音检测系统，其特征在于，所述发音信息为原始语音的语音强度和对应的时间信息或者从原始语音中提取的语音特征。

4.根据权利要求3所述的拼接语音检测系统，其特征在于，所述语音特征为音频指纹、频谱、基频、共振峰、倒谱系数中的一种或多种。

5.根据权利要求1所述的拼接语音检测系统，其特征在于，所述发音信息为音频指纹。

6.根据权利要求3所述的拼接语音检测系统，其特征在于，所述语音比较模块采用距离差方法、互相关算法或动态规划算法将所述发音信息采集模块当前采集到的用户的语音的发音信息同所述用户历史语音数据库存储的用户的历史语音的发音信息进行比较，输出拼接语音识别信号。

7.一种拼接语音检测方法，其特征在于，包括以下步骤：

一.一用户登录模块接收到用户登录请求信息；

8.根据权利要求7所述的拼接语音检测方法，其特征在于，用户登录模块接收到用户登录请求信息后，输出一段文本给用户，并输出所述一段文本到一声纹识别模块；

9.根据权利要求7所述的拼接语音检测系统，其特征在于，所述发音信息为原始语音的语音强度和对应的时间信息或者从原始语音中提取的语音特征。

10.根据权利要求7所述的拼接语音检测方法，其特征在于，所述发音信息为音频指纹。