CN109273012B

CN109273012B - 一种基于说话人识别和数字语音识别的身份认证方法

Info

Publication number: CN109273012B
Application number: CN201811035366.7A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2023-01-31
Anticipated expiration: 2038-09-06
Also published as: CN109273012A

Abstract

本发明公开一种基于说话人识别和数字语音识别的身份认证方法，用十个汉语数字组成的数字系统进行说话人识别和语音识别，确定用户的身份。首先对测试者提出答案是数字序列的某个问题，并读取测试者回答的语音，用语音识别技术得到其文本序列；然后，用每个人的声学模型和已识别的文本序列对测试语音进行说话人识别，并结合文本信息进行身份认证，得到认证结果。本发明将语音识别的结果用于与文本相关的说话人识别，减小了说话人识别的发音长度要求；根据说话人识别的结果读取问题的答案，检查测试者回答的问题是否正确，提高了身份认证的可靠性。数字语音系统所占的资源少，运算量小，易于实现，可以在识别性能和运算复杂度之间取得较好地平衡。

Description

一种基于说话人识别和数字语音识别的身份认证方法

技术领域

本发明属于语音处理技术领域，具体涉及到对数字语音序列进行说话人识别和语音识别，确定说话人身份的身份认证方法。

背景技术

说话人识别也称为声纹识别，可以从说话人发出的声音中提取其个性特征，从而识别出当前说话人的身份。与其他生物识别技术相比，说话人识别具有一些特别的优点，比如声音获取的成本较低，用户心理上容易接受，算法负责度低，适合远程操作等。但是，人的发音容易受身体状况、情绪和外部环境的影响，因此每个人的声纹特征只具有相对稳定性，不是恒定不变的，这就给声纹识别带来不利影响。

传统的说话人识别一般是与文本无关(Text-Independent)的技术，它不限制说话人的发音内容，用户使用更加方便。但是它对发音的长度有较高的要求，通常发音长度需要达到30秒以上，才能取得令人满意的识别率，过长的发音要求降低了识别过程中用户的体验感。另一方面，在模型训练阶段，需要为每个说话人收集足够多的发音样本，用它们训练生成每个人的声学模型，这给系统管理员和用户都带来了巨大的工作量。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供了一种基于说话人识别和数字语音识别的身份认证方法。

技术方案：一种基于说话人识别和数字语音识别的身份认证方法，对十个汉语数字语音(0～9)组成的数字语音序列同时进行说话人识别和语音识别，以确定说话人的身份；用每个数字的声学模型对测试语音特征向量进行语音识别，得到文本序列；用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别，得到说话人信息，并结合文本信息进行身份认证，得到认证结果。

本发明的具体步骤如下：

(1)在训练阶段，首先为每个说话人配置每个数字发音的多个发音样本(每个说话人对每个数字发音30次)；

(2)然后，用每个人的训练语音(发音样本)训练生成用于说话人识别的高斯混合模型(GMM：Gaussian Mixture Model)，用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM：Hidden Markov Model)；

(3)最后，为身份认证配置若干个涉及数字的问题，如“你的出生年月日？”，“你的身份证号码？”，“你的工号”以及简单的数学运算题；

(4)在测试阶段，首先从预设的问题中随机挑选一个问题，向测试者提出问题；

(5)其次，读取测试者回答的问题，提取其测试语音特征向量，并用HMM对测试语音特征向量进行语音识别，得到文本序列；

(6)再次，用GMM和已识别的文本序列对测试语音特征向量进行与文本相关(Text-Dependent)的说话人识别，得到当前发音的说话人信息；

(7)然后，根据识别的说话人信息读取问题的答案，与文本序列进行匹配，核对当前说话人回答的问题是否正确；

(8)最后，根据文本匹配的结果和已识别的说话人信息，进行身份认证，只有在文本匹配通过的前提下，才能将当前说话人判定为系统中的某一用户。

本发明采用上述技术方案，具有以下有益效果：

本发明将语音识别的结果用于与文本相关的说话人识别，减小了说话人识别的发音长度要求；根据说话人识别的结果读取问题的答案，检查测试者回答的问题是否正确，提高了身份认证的可靠性。数字语音系统所占的资源少，运算量小，易于实现，可以在识别性能和运算复杂度之间取得较好地平衡。

附图说明

图1为本发明实施例的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于说话人识别和数字语音识别的身份认证方法，主要包括特征提取、模型训练、语音识别、说话人识别、文本匹配和身份认证部分。

1、特征提取

为每个说话人配置数字发音样本，每个说话人对每个数字发音30次，形成每个人和每个数字的训练语音；对加窗、分帧后的训练语音或测试语音进行快速傅里叶变换，得到每帧信号的幅度谱；然后，对每帧信号的幅度谱进行Mel滤波，取对数，离散余弦变换，得到倒谱特征向量，用于训练生成GMM和HMM。在进行GMM训练和说话人识别时，特征参数还包括基音周期。

2、模型训练

在训练阶段，用每个人的训练语音训练生成用于说话人识别的GMM，用每个数字的全部训练语音训练生成用于语音识别的HMM。

3、语音识别

首先将测试语音切分为字音序列；然后用HMM对每个字音进行语音识别，得到文本序列。由于测试者回答的语音中可能包含非数字发音，比如“年”和“月”，所以要对HMM的输出概率设置阈值。对输出概率的最大值低于阈值的字音，将其判断为非数字语音，输出的文本序列不包含其信息。此外，语音识别还对前后字音之间的连贯性进行检查，以防止用预先录制好的数字发音拼接生成答案。只要连贯性检查不通过，就直接将当前测试者判断为非系统用户。

4、说话人识别

首先根据语音识别部分输出的文本序列信息，将非数字发音从测试语音特征向量中删除；然后，用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别，得到当前发音的说话人信息。在说话人识别中，同样要设置阈值。若测试语音的输出概率的最大值低于阈值，则将当前测试者判断为非系统用户。

5、文本匹配

得到当前发音的说话人信息后，即可读取问题的正确答案，将其与语音识别模块输出的文本序列进行文本匹配，判断测试者回答的问题是否正确。

6、身份认证

身份认证的原则有三个：①若当前测试语音没有通过连贯性检查，则说明它是通过预先录制好的数字录音拼接而成的，将当前测试者判断为非法用户；②若当前测试语音的文本匹配未通过，即测试者回答的问题不正确，则将当前测试者判断为非法用户；③只有当前测试语音同时通过连贯性检查和文本匹配，才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。

Claims

1.一种基于说话人识别和数字语音识别的身份认证方法，其特征在于，用每个数字的声学模型对测试语音特征向量进行语音识别，得到文本序列；用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别，得到说话人信息，并结合文本信息进行身份认证，得到认证结果；

在训练阶段，首先为训练样本中每个说话人配置每个数字发音的多个的发音样本，形成每个人和每个数字的训练语音，所述数字指的是0-9十个数字，用每个人的训练语音训练生成用于说话人识别的高斯混合模型(GMM：Gaussian Mixture Model)，用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM：Hidden Markov Model)；

为身份认证配置若干个涉及数字的问题；在测试阶段，首先从预设的问题中随机挑选一个问题，向测试者提出问题；其次，读取测试者回答的问题，提取测试者的测试语音特征向量，并用HMM对测试语音特征向量进行语音识别，得到文本序列；

用GMM和已识别的文本序列对测试语音特征向量进行与文本相关的说话人识别，得到当前发音的说话人信息；然后，根据识别的说话人信息读取问题的答案，与文本序列进行匹配，核对当前说话人回答的问题是否正确；最后，根据文本匹配的结果和已识别的说话人信息，进行身份认证，只有在文本匹配通过的前提下，才能将当前说话人判定为系统中的某一用户；

对于测试者的测试语音特征向量，将其切分为字音序列；然后用HMM对每个字音进行语音识别，得到文本序列；根据文本序列将非数字发音从测试语音特征向量中删除；然后，用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别，得到当前发音的说话人信息；在说话人信息识别中，设置阈值；若测试语音的输出概率的最大值低于阈值，则将当前测试者判断为非系统用户；

得到当前发音的说话人信息后，即可读取问题的正确答案，将其与文本序列进行文本匹配，判断测试者回答的问题是否正确；

其中，身份认证的原则有三个：①若当前测试语音没有通过连贯性检查，将当前测试者判断为非法用户；②若当前测试语音的文本匹配未通过，则将当前测试者判断为非法用户；③只有当前测试语音同时通过连贯性检查和文本匹配，才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。