CN2763935Y

CN2763935Y - 结合语义和声纹信息的说话人身份确认系统

Info

Publication number: CN2763935Y
Application number: CNU2003201268753U
Authority: CN
Inventors: 迟惠生; 吴玺宏; 朱杰彬; 曲天书; 罗定生; 吴昊; 黄松芳
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2003-12-12
Filing date: 2003-12-12
Publication date: 2006-03-08
Anticipated expiration: 2013-12-12

Abstract

一种结合语义和声纹信息的说话人身份确认系统，其特征在于：该装置包括外部设备和内部子系统部分，外部设备包括电话语音卡和服务端口，内部子系统部分包括特征提取部分、声学模型建模部分、基于语义的说话人确认VIV(语义信息确认)部分、文本有关和文本无关的声纹确认部分，各个子系统部分相互连接共同实现对说话人身份的确认我们的目的在于用语义信息确认来替代基于声纹确认的训练过程，在基于声纹确认的准备工作还没有完成之前来进行识别工作。同时语义信息确认还可以帮助声纹确认搜集所需的训练语料，等基于声纹识别的准备工作完成之后，我们可以把二者结合起来，进一步增强系统的安全性。

Description

结合语义和声纹信息的说话人身份确认系统

所属技术领域

本实用新型涉及一种说话人识别装置，尤其是利用说话人声音的独特生物测定学特征来识别说话人身份的装置。

背景技术

信息时代的最重要的特征就是数字化，而且随着科技的发展人的身份也越来越数字化和隐性化。那么在高度信息化的时代如何准确鉴别个人身份，保证个人信息的安全呢？在各种诸如银行帐号、信用卡、网络登陆等领域都需要很多需要牢记的密码，而且这些密码一旦被盗将给用户造成巨大的损失。

近几年出现了一种生物认证技术，它利用说话人声音的独特生物测定学特征来识别说话人身份。这是非常自然和方便的一种生物测定手段，它具有比较低的用户侵犯性。同时，语音的采集设备比较简单，也比较便宜，而且语音能利用现有电话网络进行远程传输，这在很大程度上是其他生物测定手段不可替代的。它利用说话人之间发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异，交叉利用声学、语言学、心理学、人工智能、数字信号处理、信息理论、模式识别理论、最优化理论、计算机科学等多种学科，并且随着科技的迅速发展，语音识别系统也日趋成熟。

目前出现的语音识别技术主要分为基于声纹技术和基于语义技术，它们各有优劣。那么充分利用它们各自的优势来改善语音识别系统的性能是我们的发明目的之一。我们可以很自然地想到把两种方法串联起来使用，这样肯定可以增加系统的安全性，但是这种简单的串接，并没有使这两种方法各自的优势完全发挥出来，也没有弥补他们各自的缺点。为了更有效的利用各种技术的优势，我们必须仔细分析一下他们各自的优点和缺点。

表1 说话人确认技术比较

		优点	缺点
		优点	缺点	基于声纹的说话人识别	文本有关	安全性高，不需要记忆，准确度较高	需要较长的训练过程，训练和识别的语音内容要求相同
文本无关	安全性较高，不需要记忆，不易被攻击	需要冗长的训练过程			文本有关	安全性高，不需要记忆，准确度较高	需要较长的训练过程，训练和识别的语音内容要求相同
文本无关	安全性较高，不需要记忆，不易被攻击	需要冗长的训练过程	基于语义的说话人识别		语义信息确认	不需要训练过程，使用方便	需要记忆并对说话内容保密
连续语音识别	不需要训练过程，使用方便	需要记忆并对说话内容保密，速度较慢，准确度较低			语义信息确认	不需要训练过程，使用方便	需要记忆并对说话内容保密

表1说明了这两种技术的优劣。

基于声纹的说话人确认拥有生物测定身份识别技术的几乎所有优点。但是它也有前面所讲的语音信号不稳定等挑战和困难，而且对于实用系统来讲，它同时还有一些其他缺陷。

基于语义的说话人确认是通过对说话人私人信息的确认来区分不同说话人。所以严格的讲，语义信息确认不能算作一种生物测定手段，它也就没有生物测定技术所拥有的优势。

我们的目的在于用语义信息确认来替代基于声纹确认的训练过程，在基于声纹确认的准备工作还没有完成之前来进行识别工作。同时语义信息确认还可以帮助声纹确认搜集所需的训练语料，等基于声纹识别的准备工作完成之后，我们可以把二者结合起来，进一步增强系统的安全性。

并且本发明的结合语义和声纹信息的说话人身份确认系统具有很高的准确率，结构也比较简单，易于市场化。

发明内容

本发明为解决其技术问题所采取的技术方案是根据说话人的声纹特征通过GMM模型(高斯混合模型)建立声纹模型；通过电话等语音输入设备录入语音，对声音进行预处理；对处理后的声音根据一定的声纹模型进行声纹特征提取；同时进行文本判断；用声纹特征和文本判断来识别说话人身份。

本发明包括如下几个子系统：特征提取、声学模型建模、基于语义的说话人确认VIV(语义信息确认)系统、文本有关和文本无关的声纹确认系统。各子系统在特征、统计模型的选择、目标模型和背景模型的建模以及统计确认都有其各自的特点达到本发明的目的。

其中，特征提取子系统中，本发明采用的特征为美标度倒谱系数(MFCC：Mel-FrequencyCepstrum Coeffiecients)及其差分。其中，在基于声纹的说话人确认中，采用16阶MFCC，并使用半升正弦窗进行倒谱提升；在语义信息确认中，采用12阶MFCC，并使用升正弦窗进行倒谱提升。

声学模型建模系统中，本发明采用两种统计模型，一是隐马尔可夫模型，二是高斯混合模型。隐马尔可夫模型用于文本有关的声学模型中，高斯模型用于文本无关的声学模型中。

基于语义的说话人确认VIV(语义信息确认)系统中，语义信息确认不同于传统的声纹说话人确认，它确认的是语音的内容，需要用户对私人的信息保密，安全性不如声纹说话人确认系统。但由于语义信息确认所需要的正模型和反模型都是事先训练好的，所以在进行确认的时候不需要再进行训练，这是它优于声纹确认的最大优势，也是我们采用它作为本发明的一个子系统的原因。

基于声纹的说话人确认系统中，本发明分文本无关和文本有关两种情况建立了说话人确认系统，其中对于文本有关的声纹确认系统是基于HMM声学建模的，而对于文本无关的圣文确认是基于GMM声学建模的。

结合语义和声纹的说话人确认系统中，本发明融合了基于语义的说话人确认系统和基于声纹的说话人识别系统，在确认时又分为两个阶段，每一阶段同时提供了语义和声纹的确认。第一阶段结合文本无关的声纹确认和VIV进行联合确认。第二阶段结合文本有关的声纹确认和VIV进行联合确认。

这样，系统中就没有了单一的基于声纹的说话人确认系统所需要的冗长训练过程。我们可以达到用户负担最小而性能最佳的组合。

但是，在系统使用初期，我们如果仅仅使用语义信息确认进行身份认证，用户必须完全对私有信息文本的安全保密负责，系统没有任何防范措施，这时的系统是很脆弱的。为了增加初期系统的安全性，同时又不要给用户增加太多负担，我们提出，通过很少的语料训练一个文本无关的声纹确认系统，用它来辅助语义信息确认技术来进行初期的身份认证工作。

附图说明

图1是语义信息确认和声纹识别的结合的结构简图；

图2是结合语义和声纹的说话人确认系统：注册阶段；

图3是结合语义和声纹的说话人确认系统：确认阶段；

具体实施方式

结合附图对本发明作进一步描述。

本发明包括如下几个子系统：特征提取、声学模型建模、基于语义的说话人确认VIV(语义信息确认)系统、文本有关和文本无关的声纹确认系统。本发明的总系统在使用时包括以下几个阶段：

1.注册阶段：

每个用户在使用系统时，首先必须注册每个用户的私人信息，然后才能使用系统进行身份确认。与一般说话人识别系统一样，结合语义和声纹的说话人确认系统仍然分为注册和确认两部分，但两部分的结构和任务都有较大的不同。

注册阶段，系统需要完成的功能包括：收集并存储用户的私人信息，建立相应的目录结构；收集每个注册用户的语料，训练文本无关的声纹确认中的目标GMM模型(高斯混合模型)。

注册阶段的流程如图2所示。

系统登录时向用户提问的问题是根据用户注册时填写的个人信息产生的，因此必须考虑了收集信息项的针对性和区分度。在我们的系统中最后确定下面信息项：姓名、籍贯、出生年月日、一项个人爱好、一本喜欢的书。

因为在进行VIV(语义信息确认)和文本有关的声纹确认过程都需要根据私人信息来生成HMM复合模型(隐马尔可夫模型)，所以需要将用户私人信息根据汉语的词法和统计模型将汉字转化为带调拼音串。

对于文本无关的声纹确认，每个用户目标模型从UBM(全局背景模型)自适应训练得到。一般来说，从UBM自适应得到一个目标GMM需要1～2分钟的语料，但考虑到系统的使用方便性，并且文本无关的声纹确认的性能可以从与VIV的结合中得到补偿，所以我们选用的训练语料只有20～30秒。我们通过统计分析3年《人民日报》文本，得到一些覆盖所有声韵母(不考虑语调和协同发音)的文字。

2.确认阶段

结合语义和声纹的说话人确认系统在确认的时候又分为两个阶段，系统在每一个阶段都同时提供了语义和声纹的确认：

●第一阶段结合文本无关的声纹确认和VIV进行联合确认

●第二阶段结合文本有关的声纹确认和VIV进行联合确认

文本有关的声纹确认性能要高于文本无关的声纹确认，所以我们要尽可能快的切换到第二阶段。两个阶段的切换取决于该用户的目标HMM是否已经训练好(后台自动进行)。确认阶段的流程如图3所示。

为了进一步增加系统的安全性，确认语句是从对应用户私人信息的5个问题中随机抽取的，在实际使用时问题数目可以进一步增加。

第二阶段的文本有关的声纹确认一般需要多次训练语料来训练说话人的目标HMM模型，这是一个比较冗长的过程，而且在单一的系统中很难保证训练语料的准确性(比如：我回答错了问题，但系统也把这句话作为训练语料)，这会造成模型的准确性下降，直接影响了第二阶段的确认系统性能。

在我们的系统中，第一阶段的确认同时还担负着为第二阶段确认搜集训练语料的任务。我们把这个搜集语料的过程隐藏在第一阶段的确认中，既让用户感觉不到这个过程的存在，大大增加系统的用户友好性；同时只用通过了第一阶段的确认语句作为训练语料来训练说话人的目标HMM模型，保证了训练语料是属于该说话人的内容正确的语音，这就大大加强了第二阶段文本有关的声纹确认的准确性。

我们的系统搜集到用户5次以上的确认语料时开始训练说话人的目标HMM模型，并切换到第二阶段确认。随着用户登录次数的增加，训练语料也越来越多，目标HMM模型也越来越精确，根据前面的讨论，系统的性能也随之提高。

3.似然得分融合阶段

要同时对确认语音进行声纹和语音的确认，而且使得两个确认的结果能够结合起来，就必须使其结果在一个共同的标准下，所以我们还必须再次对似然得分进行归一化，使得基于声纹的得分和基于语音的得分在假设检验的层次上是可以比较的。

VIV的似然得分的分布在0～1之间，而且可以直接反映系统的性能，所以我们选VIV的得分作为基准，将基于声纹的说话人确认的得分归一化到0～1的范围中来。同时，也必须按照同样的尺度对门限进行归一化处理。最后，我们的比较判别准则为：

这里LLR_viv为VIV的得分，LLR_vp为归一化到0～1之间的声纹确认的得分，T_viv为VIV系统的门限T_vp为归一化到0～1之间的声纹确认系统的门限，w为权重。

我们采样分段线性函数对声纹确认的得分进行归一化。首先，找到声纹确认得分的最大值和最小值，然后用下式计算归一化的似然得分：

LL R_{vp} = \{\begin{matrix} \min ({LLR}_{vp}^{origin}), & if {LLR}_{vp}^{origin} \leq \min ({LLR}_{vp}^{origin}) \\ \frac{{LLR}_{vp}^{origin} - \min ({LLR}_{vp}^{origin})}{\max ({LLR}_{vp}^{origin}) - \min ({LLR}_{vp}^{origin})}, & if \min ({LLR}_{vp}^{origin}) < {LLR}_{vp}^{origin} < \max ({LLR}_{vp}^{origin}) \\ \max ({LLR}_{vp}^{origin}), & if {LLR}_{vp}^{origin} &GreaterEqual; \max ({LLR}_{vp}^{origin}) \end{matrix}

对于声纹确认系统的门限，可以通过下式计算得到：

T_{vp} = \frac{T_{vp}^{origin} - {LLR}_{vp}^{origin}}{\max ({LLR}_{vp}^{origin}) - \min ({LLR}_{vp}^{origin})}

通过上面的分段线性映射，我们将基于声纹的说话人确认的最后得分和门限也归一化到0～1之间，使其可以和VIV的得分直接相加进行融合。

4.系统分析阶段

第一阶段确认性能

在第一阶段的VIV和文本无关的声纹确认的结合中，我们用每个测试者最后一次的5遍录音中的5个问题(说话人相同，内容相同)测试系统的错误拒绝率，错误接收率的测试分三种情况：

●说话人不同，内容相同：用每个测试者最后一次的5遍录音中的最后一句话

●说话人不同，内容不同：交叉使用最后一次的5遍录音中的第一个问题去测试

●说话人相同，内容不同：对每个问题对应的文本进行改动，比如将所有说话人的名字文本改为“张三丰”

在第一阶段VIV保证了确认语句的内容，而声纹确认则保证了说话人的正确性，对于单个系统是不能同时完成这些任务的。我们可以针对系统的要求不同，以及用户对自己的私有信息的保密程度，对VIV和文本无关的声纹确认取不同的权重，平衡系统的性能。

第二阶段确认性能

在第二阶段的VIV和文本无有的声纹确认的结合中。我们用每个测试者的前两次的10遍录音训练每个人的目标HMM模型，用最后一次的5遍录音中的5个问题(说话人相同，内容相同)测试系统的错误拒绝率，用每个测试者最后一次的5遍录音中的最后一句话(说话人不同，内容相同)以及交叉使用最后一次的5遍录音中的第一个问题(说话人不同，内容不同)去测试系统的错误接收率。

第二阶段的系统性能要高于第一阶段，而且也要高于单一采用语义确认或者文本有关的声纹确认。对于宽带系统来说，当文本有关的声纹确认的权重取0.95时性能最好，而窄带系统则在权重为0.85的时候性能最佳。

我们分别实现了一个宽带和窄带的结合语义和声纹的说话人确认系统，可以看出，它有一些单一系统所不具备的优势，比如：对用户隐藏了训练过程，增加了系统的方便性；同时确认语句的声纹的内容，增加了系统的安全性。

我们利用本发明系统已经成功研制出可应用的产品。我们的产品中采用的是美国Dialogic公司的D41/ESC型号的电话语音卡，在用户拨入电话时自动接通并播放录音与用户交互，在用户取消服务或服务结束之后自动切断通话。系统开启四个服务端口，支持同时接入四路电话，第一个端口作为用户注册使用，在注册请求时自动开启，完成用户注册的功能；余下三个端口均可一直开启，随时接收用户电话拨入，接收用户电话按键输入，并语音提示用户完成预定操作，同时录制用户声音，利用结合了语义与声纹的说话人确认技术来确认用户身份，完成用户确认的功能。

Claims

1.一种结合语义和声纹信息的说话人身份确认系统，其特征在于：该系统包括外部设备和内部子系统部分，外部设备包括电话语音卡和服务端口，内部子系统部分包括特征提取部分、声学模型建模部分、基于语义的说话人确认VIV(语义信息确认)部分、文本有关和文本无关的声纹确认部分，各个子系统部分相互连接共同实现对说话人身份的确认。

2.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统，其特征在于：使用时，通过使用一个电话语音卡，在用户拨入电话时自动接通并播放录音与用户交互，使用中系统开启四个服务端口，支持同时接入四路电话，第一个端口作为用户注册使用，在注册请求时自动开启，完成用户注册的功能；余下三个端口均可一直开启，随时接收用户电话拨入，接收用户电话按键输入，并语音提示用户完成预定操作，同时录制用户声音，利用结合了语义与声纹的说话人确认技术来确认用户身份，完成用户确认的功能。

3.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统，其特征是：特征提取部分采用美标度倒谱系数(MFCC)及其差分，而且，在基于声纹的说话人确认部分中，采用16阶MFCC，并使用半升正弦窗进行倒谱提升；在语义信息确认部分中，采用12阶MFCC，并使用升正弦窗进行倒谱提升。

4.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统，其特征是：声学模型建模部分采用两种统计模型，一是隐马尔可夫模型，二是高斯混合模型，隐马尔可夫模型用于文本有关的声学模型中，高斯模型用于文本无关的声学模型中。

5.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统，其特征是：文本有关和文本无关的声纹确认部分建立了说话人确认系统，其中对于文本有关的声纹确认系统是基于HMM声学建模的，而对于文本无关的圣文确认是基于GMM声学建模的，结合语义和声纹的说话人确认部分并融合了基于语义的说话人确认系统和基于声纹的说话人识别系统。

6.根据权利要求5所述的结合语义和声纹信息的说话人身份确认系统，其特征是：文本有关和文本无关的声纹确认部分在确认说话人身份时又分为两个阶段，每一阶段同时提供了语义和声纹的确认：第一阶段结合文本无关的声纹确认和VIV进行联合确认，第二阶段结合文本有关的声纹确认和VIV进行联合确认。