CN1941080A

CN1941080A - 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法

Info

Publication number: CN1941080A
Application number: CNA2005100300134A
Authority: CN
Inventors: 吴田平
Original assignee: 吴田平
Current assignee: Youlang Information Science and Technology Co., Ltd., Shanghai
Priority date: 2005-09-26
Filing date: 2005-09-26
Publication date: 2007-04-04

Abstract

一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法，由键盘模块、语音采集模块、语音处理模块、两线开关状态输出模块、语音提示模块和RS232通讯接口模块构成，采用语意识别和声纹识别相结合的技术，利用人的语音生物特征，作为开锁的钥匙，完成对主人身份认证的过程，并进行开锁的控制，能增加锁具的安全性，识别的误识率小于1％。较之传统开锁方式更方便、更安全。

Description

一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法

技术领域

本发明涉及电子领域，尤其涉及数字信号处理领域，特别涉及语音识别技术，特别是一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法。

背景技术

现有技术中，楼宇对讲产品广泛应用。楼宇对讲设备中的门口机的开锁方式有钥匙开锁、密码开锁、卡开锁、生物识别开锁四种，其中，卡开锁的应用最为广泛。但是，传统的钥匙携带中易丢失，易被未经授权复制；密码容易被盗取；卡在携带中容易丢失；生物识别开锁方式中以指纹识别为主，指纹识别对使用者要求高，手指划伤、粘有灰尘、手指摆放不正等情况都容易造成拒识，而且指纹的与识别装置的接触使该方式不够卫生，且容易使人产生被侵犯的感觉。

发明内容

本发明的目的是提供一种楼宇对讲门口机声纹识别开锁模块，所述的这种楼宇对讲门口机声纹识别开锁模块要解决现有技术中生物识别开锁方式不理想的技术问题。

本发明的这种楼宇对讲门口机声纹识别开锁模块由设置在电路板上的键盘模块、语音采集模块、语音处理模块、两线开关状态输出模块、语音提示模块和RS232通讯接口模块构成，其中，所述的键盘模块和语音采集模块分别通过信号线与所述的语音处理模块连接，所述的语音采集模块连接有话筒，所述的两线开关状态输出模块、语音提示模块和RS232通讯接口模块分别通过信号线与所述的语音处理模块连接，所述的语音处理模块中设置有语音预处理模块、训练模块和识别模块，所述的语音预处理模块通过信号线分别与所述的训练模块和识别模块连接，所述的训练模块通过信号线与所述的识别模块连接。

本发明的目的还在于提供一种上述的所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其中，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音采集模块采集语音信号并将语音信号转换成语音数字信号后传送至所述的语音预处理模块，所述的语音预处理模块对语音数字信号进行语音分析处理，所述的语音预处理模块向训练模块或识别模块输出语音的微特征参数，所述的训练模块利用语音的微特征参数，对所述的键盘模块或RS232通讯接口模块提供的身份确认编号所对应的语音样本进行训练，形成主人独有的语音钥匙声纹编码，所述的训练模块包括动态时间归整(DTW)、离散余弦变换(DCT)训练和人工神经网络(ANN)训练两部分，所述的训练过程发生在用户初次训练或在使用楼宇对讲设备过程中一次识别后识别可信度偏低时的累加训练，所述的识别模块利用语音的微特征参数，先用离散余弦变换(DCT)方法预选身份确认编号，再用动态时间归整方法(DTW)从预选出的身份确认编号集中确定唯一一个已训练对象的身份确认编号，最后通过人工神经网络(ANN)声纹识别计算方法对当前已训练对象的身份确认编号的对象进行身份确认，所述的通讯接口模块与外部的楼宇对讲主控制板通讯，通讯的内容包括训练授权、键盘编码、识别结果及程序更新，所述的两线开关状态输出模块根据识别模块的识别结果提供开门控制信号，所述的键盘模块接收外接键盘输入信号，所述的语音提示模块向外部输出语音提示信号。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音分析处理的过程中包括语音压缩、语音口令实时自动检测、预加重、加窗、加帧、去噪、梅尔刻度式倒频谱参数特征提取的处理步骤。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音口令实时自动检测的处理步骤中，所述的语音预处理模块实时自动检测声音信号，当检测到符合语音口令的声音信号时启动语音识别步骤或训练步骤，否则将采集的声音信号直接丢弃。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音口令实时自动检测的处理步骤中，首先为程序分配一段存储6秒钟语音的内存，程序持续接收语音数据，并最多保存最近6秒时间内的语音数据，然后把这段内存里的语音数据以20ms为一个压缩点，压缩点是取20ms内最大的数据，从第一个压缩点开始用过零率算法判断这段新加的语音是否在设定的范围内，将超出这个范围内的压缩点的数据标记为无效值0，然后用压缩数据检测孤立点，所述的孤立点是指，语音在这个点突然加大，则标记为非语音，标记为0，然后在语音的末端检测到有一段语音低于设定的静音阈值并且具有设定长度时，认为静音信号出现，口令已经结束，否则，继续录音，或者，在检测到静音信号的前提下，系统判断大于静音阈值的长度和大于语音阈值的长度在符合对口令的要求长度范围内，则认为这段语音是用户的一个语音口令，保存这段语音进行语音识别或训练。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音预处理模块向训练模块或识别模块输出语音的微特征参数，微特征参数是所谓的语音峰位特征，它是对输入语音的幅度累加和特征、语音的MFCC的二阶特征，按照幅度权重、倒谱权重系数，进行相加或相减，得到4组波形划分特征数据，再把波形划分特征和语音的过零率特征输入到一个容器中，进行峰位划分与合并，然后按照峰位的最小间距信息去除分布过密的峰位，最后得到一组准确的峰位信息。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块接收所述的语音预处理模块输出的语音的微特征参数，对所述的键盘模块或RS232通讯接口模块提供的身份确认编号所对应的语音样本进行训练，所述的训练模块包括动态时间归整(DTW)、离散余弦变换(DCT)训练和人工神经网络(ANN)训练两部分，训练过程发生在用户初次训练或在使用楼宇对讲设备过程中一次识别后识别可信度偏低时的累加训练，所述的动态时间规整训练，利用动态时间归整算法将训练样本集规整成一个特征向量，形成动态时间归整模板，所述的离散余玄变换训练通过对动态时间归整模板进行一次离散余弦变换，形成离散余弦变换模板，所述的人工神经网络训练利用训练对象的语音样本和非训练对象的语音样本来分割一个多维的频谱空间，使得主人语音样本所占据的频谱空间被映射到主人的输出，非主人语音样本所占据的频谱空间被映射到非主人的输出，形成主人独有的语音钥匙声纹编码。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块具有一个训练样本集，每个语音口令数据经所述的语音预处理模块预处理，形成一个训练样本，组成训练样本集，训练样本集中的训练样本按照时间先后保存。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块对所述的训练样本进行动态时间规整模板训练，再对动态时间规整(DTW)模板做离散余玄变换形成离散余玄变换(DCT)模板，在DTW、DCT模板已存在的情况下进行DTW、DCT模板的累加训练，所述的累加训练发生使用楼宇对讲设备过程中一次识别后识别可信度偏低时，所述的累加训练包括：

(1)录制语音：录制读入的语音口令，

(2)语音信号预处理：由语音预处理模块对语音信号进行预处理，将语音口令语音数据形成一个新的训练样本，

(3)重构训练样本集：将新的训练样本添加至训练样本集中，并在当前的训练样本总数超过了最大训练样本数时，删除时间最早的训练样本，

(4)DTW模板训练，

(5)DCT模板训练。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的人工神经网络训练的步骤中，创建背景模型，背景模型中包含随机语音样本，用于在训练中建立非对象语音样本所占据的频谱空间向非对象的输出映射的关联。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的人工神经网络训练的步骤中，确定ANN人工神经网络识别动态阈值，就是在ANN人工神经网络模板创建之后，用该模板识别一个公共的口令集，得到一组可信度，把这组可信度排序，根据误识不超过1％的原则，反推出当前对象的识别阈值，而不使用相同的阈值作为所有对象的识别阈值。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的ANN人工神经网络训练的步骤中，利用对象的语音样本和非对象的语音样本来调整一个神经网络权值，将对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出，完成ANN人工神经网络模板的训练，在ANN人工神经网络模板已存在的情况下再进行ANN人工神经网络的累加训练，累加训练发生在使用楼宇对讲设备过程中一次识别后识别可信度偏低时，所述的累加训练的过程包括：

(1)录制累加训练口令，并预处理形成训练样本，

(2)重构训练样本集：将新的训练样本添加至训练样本集中，在当前的训练样本总数超过了最大训练样本数时，删除时间最早的训练样本，

(3)进行ANN人工神经网络模板训练。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的识别模块根据所述的微特征参数利用离散余弦变换算法形成当前被识别对象的离散余玄特征样本，将该特征样本和对所有已训练对象的离散余玄模板比对，从中预选出与当前被识别对象语音特征接近的身份确认编号，形成预选对象集，再利用动态时间归整算法在上述预选产生的已训练对象中进行比对，从中选出与当前被识别对象语音特征最接近的唯一一个已训练对象的身份确认编号，该已训练对象的身份确认编号被确定合法之后，识别模块再通过人工神经网络声纹识别算法对当前被识别对象进行确认，在所述的确认过程中，识别模块通过人工神经网络声纹识别算法利用多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出，在正确训练的情况下，只有语音钥匙的主人的输出被激励，而所有非主人的输出被抑制，当可信度输出值超过训练时产生的识别阈值时认为被识别对象就是语音钥匙的主人。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的两线开关状态输出模块连接有开锁驱动电路。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的语音提示模块连接有扬声器。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的通讯接口模块通过通讯电缆连接外部的楼宇对讲主控制板。

进一步的，所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的通讯接口模块是RS232串行通讯接口模块。

本发明与已有技术相对照，其效果是积极和明显的。本发明利用语意识别和声纹识别技术，通过对说话人声音进行精确辨别来实现开锁控制，能增加锁具的安全性，其识别的误识率小于1％。本发明利用语音作钥匙，较之传统方式更方便、安全。具体有以下优点：

1.使用方便：本发明应用于楼宇对讲产品，最大限度的解放了人们的双手，使出入变的非常自由和方便。利用人自身的声音作为开门的“钥匙”，只需说出口令就可轻松开门，无需携带钥匙，卡片，不会丢失，尤其在黑暗的环境下更能体现其方便性，自然的交流界面，即使是老人使用也感觉不到丝毫困难。

2.科学时尚：语音识别技术是至今还没有在民用市场广泛应用的前卫技术，一旦应用于人们的日常生活，会使接触它的人们感到时尚，这在很大程度上迎合了人们在高级场所的心理需求，提升小区的档次，另外，自然的交流界面是人与其他事物交流所追求的终极目标。

3.自学习性：可以自动适应用户语音，语调变化而不断调整，随着人们使用的越来越熟练，系统的指标也会得到优化。

4.误识率低：误识率可控制在1％以下，安全性好。

5.拒识率低：可控制在5％以下。

6.识别速度快：等待时间控制在0.5秒以内。

7.维护操作简便科学，提高物业管理水平：管理员只能训练用户和清除语音，简单实用，配有语音提示，操作简便，不能增加、更改或删除ID号码，只能分配和使用原有的ID号码，不支持追加训练功能，管理更科学，从而使物业可以轻而易举的实现统一管理，提高物业的管理水平。

8.安全性好：人的语音不会被窃取，在外来人员或本单元房屋租住人员离开时，只需清除其训练记录，就可将其拒之门外，安全性较好。

9.使用维护成本低：设备不易磨损，易保养，开门不需其他设备，自己的声音即可，使用维护成本低。

10.易于接受：非接触性，不但使它不依赖于周围的环境，而且更卫生，不会像指纹那样让人产生侵犯人权的感觉。

11.兼容性好，集成简便：无需二次开发，就可和原有楼宇对讲系统结合。在不适合使用语音的环境下，用户还可以选择密码或刷卡开门的方式，几种开门方式是并行的，用户可以自由选择，本发明只是增加了产品的方便性，并不带来任何麻烦。

本发明的目的、特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例的物理模块示意图。

图2是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例的功能模块示意图。

图3是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例中的语音预处理及特征提取过程示意图。

图4是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例中的训练原理示意图。

图5是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例中的识别原理示意图。

图6是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例中的动态时间归整算法合法搜索区域示意图。

图7是本发明一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法的一个优选实施例中的动态时间归整算法搜索路径示意图。

具体实施方式

如图1、图2、图3、图4、图5、图6和图7所示，本发明一种楼宇对讲门口机声纹识别开锁模块，由语音采集模块1、语音处理模块2和RS232通讯接口模块3构成，所述的语音处理模块2由语音预处理模块21、训练模块22和识别模块23构成，所述的语音预处理模块21连接有所述的训练模块22和所述的识别模块23，所述的训练模块22连接有所述的识别模块23，所述的所述语音预处理模块21的前端设置有所述的语音采集模块1，所述的所述语音预处理模块21的前端设置有键盘模块4，所述的语音处理模块2连接有语音提示模块6，所述的语音处理模块2连接有所述的RS232通讯接口模块3，所述的识别模块23连接有两线开关状态输出模块5。

进一步的，所述的两线开关状态输出模块5连接有开锁驱动电路7。

进一步的，所述的语音提示模块6连接有扬声器8。

进一步的，所述的RS232通讯接口模块3通过通讯电缆连接有外部的楼宇对讲主控制板9。

所述的语音采集模块1利用麦克风10采集语音，将语音信号转换成数字信号，并把语音数字信号传送至所述的语音预处理模块21，所述的语音预处理模块21对语音文件进行语音分析处理，并输出语音的微特征参数供训练模块22或识别模块23使用，所述的训练模块22接收语音预处理后的数据，对外部键盘输入或主机通过所述的通讯接口所提供的身份标识号码对应的语音样本进行训练，首先利用动态时间归整算法训练将训练样本集规整成一个特征向量，形成动态时间归整模板，再通过离散余弦变换训练对动态时间归整模板进行一次离散余弦变换，形成离散余弦变换模板，最后通过人工神经网络训练利用训练对象的语音样本和非训练对象的语音样本来分割一个多维的频谱空间，使得主人语音样本所占据的频谱空间被映射到主人的输出，而非主人语音样本所占据的频谱空间被映射到非主人的输出，形成主人独有的语音钥匙声纹编码，所述的识别模块23利用所述的训练模块22生成的语音钥匙声纹模板和语音预处理模块21得到的说话人语音微特征参数，所述的识别模块根据所述的微特征参数利用离散余弦变换算法形成当前被识别对象的离散余玄特征样本，将该特征样本和对所有已训练对象的离散余玄模板比对，从而得到与被识别人特征接近的已训练者身份标识号，形成预选对象集，再利用动态时间归整算法比对离散余弦变换算法预选的已训练对象，得到与被识别人特征最接近的唯一一个已训练对象身份标识，若为合法身份标识，进入人工神经网络声纹识别进行说话人确认，否则识别提前结束，人工神经网络声纹识别通过语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，从而识别出说话人，所述的RS232通讯接口模块3用于与外部的楼宇对讲主控制板进行通讯，通讯内容包括训练授权、键盘编码、识别结果及程序更新，所述的两线开关状态输出模块5根据识别模块23的识别结果决定是否提供开门控制信号，并由连接在一起的原有的外部开锁板来实现锁的开关，所述的键盘模块4连接外接键盘11，在训练过程中使用，所述的语音提示模块6用于提示使用者操作流程和操作状态反馈，作为人机交互界面的输出模块。

本发明具体的各模块的实现原理和工作过程如下所述：

一、键盘模块

在语音管理操作中，需要输入用户ID(身份标识)号及操作方式，如语音训练、语音模板删除等操作，本模块中保留此接口方便用户使用。

二、语音采集模块

在语音采集模块中利用楼宇对讲门口机声纹识别开锁模块的语音接收设备，如微型话筒等，接收到语音信号，并利用语音采集芯片将语音信号转换为数字信号，然后将语音数字信号传送给系统的语音预处理模块。

三、语音预处理模块

语音预处理模块接收到语音信号后，将对语音信号做分析处理，并提取语音微特征，为训练或开锁做准备。语音预处理及特征提取过程如图3所示。

具体语音预处理及特征提取过程包括以下内容：

1.语音压缩：在语音数据输入以后，为了减少运算数据量，首先要对数据进行压缩，压缩的方法就是每20ms的语音采样(按照8kHz采样率就是160个点)压缩成一个数据点，压缩方法是求这20ms内采样数据的最大值。这样压缩之后的数据代表了语音的包络波形。另外为了满足实时检测的需要，每60ms就有一帧新的语音被追加6秒的FIFO队列缓冲区，这就意味着算法每隔60ms就对最近6秒的语音数据检测一次是否存在一次完整的语音命令输入。

2.语音口令实时自动检测：本优选实施例可实时自动检测声音信号，当检测到符合语音口令的声音信号时才启动语音识别或训练，否则将采集的声音信号作为噪声直接丢弃，不做处理。

本优选实施例的语音口令实时自动检测具体过程是：首先为程序分配一段能存储6秒钟语音的内存，也就是说程序一直在录入语音，但最多保存最近6秒的语音。当程序每接收一次数据时，先把它加到这段内存里，如果已经存满，则从存储的语音的前端开始删除，确保新接收的数据能够加进来。然后把这段内存里的语音数据以20ms为一个压缩点，压缩点是取20ms内最大的数据。从第一个压缩点开始用过零率算法判断这段新加的语音是否在一定的范围内，如果不在这个范围内我们把这个压缩点的数据记为无效值0。然后用压缩数据检测孤立点，所谓孤立点是指，语音在这个点突然加大，则视为非语音，标记为0。本优选实施例中定义了两个参数，一个是静音阈值(低于此值为静音)，一个是语音阈值(高于此值为语音)。如果在语音的末端检测到有一段语音它低于静音阈值并且足够长的话，则认为静音信号出现，如果检测到这个信号，则意味着口令已经结束，否则，继续录音。在检测到静音信号的前提下，系统判断大于静音阈值的长度和大于语音阈值的长度在符合对口令的要求长度范围内，则认为这段语音是用户的一个语音口令，保存这段语音进行接下来的语音识别或训练。

3.放大及增益控制：将语音信号适当增大，以便于之后的其它信号处理。

4.预滤波：抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率)，以防止混叠干扰，同时抑制50Hz的电源工频干扰。

5.非语音信号过滤：扫描数字化后的语音口令数据，将非语音信号噪音等剪辑掉。

6.预加重：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析。

7.加帧：一般每秒的帧数约为33～100帧，视实际情况而定。

8.加窗：为了避免倒谱中的基音峰变得不清晰甚至消失，本优选实施例采用汉明窗。

经过上面介绍的过程，语音信号就被分割成一帧一帧的加过窗函数的短信号，在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，最后得到由每一帧组成参数组成的语音特征参数的时间序列。

9.语音特征参数提取：语音特征参数的选择是整个系统中的基础，对语音识别率有着极其重要的影响。

本发明的优选实施例采用多种语音特征提取技术，包括MFCC(梅尔刻度式倒频谱参数)及微分系数、基音相关特征、线性预测系数相关特征以及人耳听觉模型相关参数等。利用神经网络的自学习能力，可以克服声纹特征的动态性和复杂性，自组织地完成对个性声纹特征的提取。传统方法只提取少数语音特征参数，而采用本技术可以提取多种语音特征参数，从而有效提高识别的正识率。提取到个性声纹特征后，再将各连续的特征参数转化为输入神经元的激活或抑制信号。

四、训练模块

训练模块包括DTW(动态时间归整)、DCT(离散余弦变换)训练和ANN(ARTIFICIAL NEURAL NETWORK，人工神经网络)训练两部分。由于用来参与训练的语音包含的文字固定且时间较短，声纹识别和文本及语言就存在较强的相关性，即同一个人说不同的语言和词语会被认为是不同的人。主人可以利用这个特点随时更换口令，以提高楼宇对讲门口机声纹识别开锁模块的安全性。更换口令，需首先删除原有口令，再重新训练即可。

(一)DTW、DCT模板训练

1.DTW和DCT算法

(1)DTW算法

在对语音口令的识别中，最为简单有效的方法是采用动态时间归整算法DTW完成模板的匹配。该算法基于动态规划的思想，解决了发音长短不一的匹配问题。

DTW算法计算两个长度不同的模板之间的相似程度，或称失真距离。假设测试和参考模板分别用T和R表示，按时间顺序含有N帧和M帧的语音参数，每帧特征数据为K维，则T、R分别为N×K和M×K的矩阵。失真距离越小，表示T和R越接近。本优选实例为了使DTW的比对有意义，限定了测试和参考模板帧长度的比值必须介于1/2和2之间，这个区域即为“合法搜索区域”，该约束可以省掉不需要计算的部分，如图6所示。搜索路径采用如图7所示的路径模式，则对于点(i，j)的距离D(i，j)为：

D(i，j)＝|t(i)-r(j)|+min{D(i-2，j-1)，D(i-1，j-1)，D(i-1，j-2)}。

本优选实例采用两帧中各个对应特征数据之差的绝对值之和作为两帧的距离，即：

| t (i) - r (j) | = Σ_{k = 1}^{K} | {t (i)}_{k} - {r (j)}_{k} |,

其中K为每帧的特征维数。

(2)DCT算法

DCT算法，即对输入信号进行离散余弦变换。

2.DTW、DCT初始训练

(1)录制语音口令

录制同一语音口令若干遍的语音，本优选实例采用的是5遍。

(2)语音预处理，形成训练样本集

由“语音预处理模块”对语音信号进行预处理，每个语音口令语音数据形成一个训练样本，组成训练样本集，按照时间先后保存训练样本集中的各个训练样本。

(3)DTW模板训练

a.求训练样本集中各训练样本帧数的平均值。

b.将帧数与平均帧数值最近的训练样本作为“初始模板”。

c.利用DTW算法将其他训练样本规整为与“初始模板”同样长度的样本，舍弃与“初始模板”距离大于一个“最大距离阈值”的训练样本。

d.计算各训练样本每个对应帧的各个特征元素的平均值，最后形成的样本即为“DTW模板”，它是一个长度为L×K的特征向量，其中L为模板帧数，K为每帧的特征数据维数。

(4)DCT模板训练

对DTW模板做DCT变换形成DCT模板，它是一个长度为P×K的特征向量，其中P为DCT数，K为每帧的特征数据维数。本优选实例中DCT数参考值为4，即取0-3阶DCT系数。

3.DTW、DCT累加训练

在DTW、DCT模板已存在的情况下进行DTW、DCT的累加训练，以提高模板的时间适应性。累加训练发生在使用楼宇对讲设备过程中一次识别后识别可信度偏低时。通过累加训练过程可增强声纹模板的时间适应性，从而提高用户开门的正识率、降低误识率。具体训练过程如下：

(1)录制语音：录制读入的语音口令。

(2)语音信号预处理：由“语音预处理模块”对语音信号进行预处理，将语音口令语音数据形成一个新的训练样本。

(3)重构训练样本集：将新的训练样本添加至训练样本集中，如果当前的训练样本总数超过了最大训练样本数(本优选实例采用的参考值是10)，则删除时间最早的训练样本。

(4)DTW模板训练：同初始训练。

(5)DCT模板训练：同初始训练。

(二)ANN人工神经网络训练

所谓ANN人工神经网络训练，就是利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来分割一个多维的频谱空间，使得对象语音样本所占据的频谱空间被映射到对象的输出，而非对象语音样本所占据的频谱空间被映射到非对象的输出，也就是将对象和其语音在频谱空间的分布区域建立关联。从数学模型上说，就是利用这些语音训练样本来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出。训练原理的示意图如图4所示，某对象A的语音，经语音特征参数提取，根据特征参数值调整权值使对象A的输出受到激励，同时使非对象A的输出受到抑制，之后得到对象A的输出和非对象A的输出。

1.ANN人工神经网络初始训练

(1)录制语音口令，形成训练样本集：由主人通过楼宇对讲门口机声纹识别开锁模块录制若干遍开门口令，本优选实例采用的是5遍，即语音钥匙(语音钥匙一般为4-6个字)。

由“语音预处理模块”对语音口令进行预处理，每个语音口令语音数据形成一个训练样本，组成训练样本集，按照时间先后保存训练样本集中的各个训练样本。

(2)创建背景模型：背景模型中包含大量随机语音样本，主要用于在训练中建立非对象语音样本所占据的频谱空间向非对象的输出映射的关联。背景模型由本发明的优选实施例楼宇对讲门口机声纹识别开锁模块及识别开锁方法在出厂之前创建。

(3)开门口令训练：对预处理后的语音数据通过训练模块提取ANN人工神经网络特征进行训练，训练后形成主人独有的声纹编码。为了获得理想的识别效果，要求主人每次训练时以不同的语气输入相同的语音钥匙口令。

a.ANN人工神经网络特征提取：ANN人工神经网络训练和识别具有相同的特征提取方法，特征提取部分又分峰位查找、特征处理、特征定位三部分。

(a)峰位查找：根据输入的语音，输出语音的幅度累加和特征、语音的过零率特征、语音的MFCC的2阶特征，由“语音的幅度累加和特征”和“语音的1阶、2阶特征”按照幅度权重、倒谱权重系数，进行相加或相减，得到4组特征数据(波形划分特征)，依次把“波形划分特征”和“语音的过零率特征”输入到一个容器中，输入4组峰位划分信息，把这4组峰位划分信息进行合并，然后按照峰位的最小间距信息去除分布过密的峰位，最后得到一组准确的峰位信息。

(b)特征处理：根据输入的语音，输出对应的MFCC特征(1-12阶)。

(c)特征定位：根据峰位查找中得到的“峰位信息”和“MFCC特征”，输出每个峰位的对应大帧特征，本优选实例中每个大帧覆盖10个小帧的区域，在大帧的定位过程中使用了幅度累加和法，所谓的幅度累加和法就是：设当前位置为i，使用一个10个小帧大小的窗口从i-9到i滑动，求出这之间的窗口区域的最大幅度和，然后把这个窗口的起始位置作为大帧的起始位置，从大帧的起始位置开始的10个小帧特征，作为当前峰位的大帧特征，并且只使用其中的奇数小帧。

b.训练模板

利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出，完成ANN人工神经网络模板的训练。

c.确定ANN人工神经网络动态阈值

所谓的ANN人工神经网络动态阈值法，就是在ANN人工神经网络模板创建之后确定当前训练对象的识别阈值，由于每个对象特性存在差异，不可以使用相同的阈值作为所有对象的阈值，确定每个对象的阈值有2种方法，一种是通过识别对象自己的口令来确定一个阈值；另一种方法就是通过识别其它口令来确定阈值，本优选实例使用了后者，即通过识别一个公共的口令集，得到一组可信度，把这组可信度排序，根据误识不超过1％的原则，反推出当前对象的阈值，这种方法避免了训练时语音口令输入过多的缺点，同时由于这个公共的口令集量比较大，也会起到一个更准确地预估。

(4)保存训练结果：训练过程结束，声纹编码随即被保存在楼宇对讲门口机声纹识别开锁模块中，以备开门使用。

2.ANN人工神经网络累加训练

在ANN人工神经网络模板已存在的情况下进行ANN人工神经网络的累加训练，以提高模板的时间适应性。累加训练发生在使用楼宇对讲设备过程中一次识别后识别阈值偏低时。通过累加训练过程可增强声纹模板的时间适应性，从而提高用户开门的正识率、降低误识率。具体训练过程如下：

(1)录制累加训练口令，并预处理形成训练样本。

(2)重构训练样本集：将新的训练样本添加至训练样本集中，如果当前的训练样本总数超过了最大训练样本数(本优选实例采用的参考值是10)，则删除时间最早的训练样本。

(3)同ANN人工神经网络模板初始训练(2)-(4)。

五、识别模块

识别模块包括DCT、DTW识别和ANN人工神经网络识别两部分。通过DCT、DTW识别，系统将识别出读入语音口令对应的最接近的已训练对象的身份确认编号，而进一步通过ANN人工神经网络识别，确认当前说话人是否是该身份确认编号对应用户。

(一)DCT、DTW识别

1.录制语音口令：录制读入的语音口令。

2.形成DTW特征样本和DCT特征样本：由“语音预处理模块”对语音信号进行预处理，分别形成DTW特征样本和DCT特征样本。

3.DCT预选：将DCT特征样本和已存在的所有用户的DCT模板比对，即计算特征样本和各DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和)，筛选出距离最小的前N个用户。

4.DTW预选：将DTW特征样本和DCT比对中距离最小的前N个用户的DTW模板比对，即计算DTW特征样本和各DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和)，筛选出距离最小的用户。该用户即为进行ANN人工神经网络识别的用户。

(二)ANN人工神经网络识别

本发明的优选实施例利用建立在一种全新的神经网络算法基础上的多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。

当有语音波形输入时，首先由输入层神经网络得到预处理后的语音频谱特征，并将其转化为输入神经元的激活或抑制信号。使用这些神经元的激活或抑制信号去同步激励所有待识别对象的输出，采用能量反传网络完成已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。在正确训练的情况下，只有目标对象的输出被激励，而所有非目标对象的输出被抑制，从而可以快速地识别出目标对象。

多层神经网络框架，每一层和上一层是全连接。每个中间层网络神经元的个数大致与输入层神经元的个数相同。

本发明的优选实施例采用能量反馈和Hebb学习规则。具体的原理如下：

设每个神经元的能量计算为：

e＝b-y

其中，b是每个神经元的能量反馈值，对于输出层而言，就是强制指导状态；y是每个神经元的输出。

对于中间层(用m表示)第j个神经元，其反馈值来自于其下层网络(用n表示)，反馈值的计算为下式，其中ω为连接权值：

b_{j}^{m} = \underset{k}{Σ} γ \cdot ω_{jk} \cdot e_{k}^{n}

对于m层的第j个神经元，其输入值x来自于上层网络p，计算公式为：

x_{j}^{m} = \underset{k}{Σ} λ \cdot ω_{kj} \cdot y_{k}^{p}

每个神经元的输出和输入关系为：

y＝f(x¹，x^t-1)

其中，f是一种非线性函数，并且与当前输入和过去输入相关。因此，神经网络的输出不仅依赖当前帧的输入，同时也与过去的输入有关。这种输入记忆功能可以克服神经网络算法不能有效处理时序问题的缺陷。识别系统在根据语音特征映射到某个对象时，不是完全根据当前语音帧，而是根据当前帧和之前的许多帧，大致相当于几百毫秒的语音长度。这种特性与生物听觉特征类似之处。

权值改变算法如下：

Δω_jk＝α·y_j·y_k+β·y_j·e_k

其中，第一项为Hebb学习项，作用在于特征聚类，越接近最后输出层，此项作用越小。Hebb学习项可以使同时出现的特征之间的激励作用加强，从而使这些同时出现的特征之间形成一种有关联的激励群。有关联的激励群实际上是一种分布式联想记忆功能，可以起到抵抗噪声、恢复畸变的功能。

第二项为反馈能量学习项，是一种基于能量的反传学习算法。越接近最后输出层，此项作用越大。基于能量反馈的学习算法与BP网络有点类似。但比BP网络在算法上和训练上更方便，更容易理解，更容易实现。同时，权值改变只与能量相关，只与连接的前后两个神经元节点相关，因此，算法的实现更容易，速度更快。

本发明的优选实施例采用识别可信度的中标方法，当识别可信度超过训练过程中生成的动态阈值时，则认为说话人中标，即说话人是合法用户。

六、两线开关状态输出模块

利用识别结果输出两线开关状态，以控制楼宇对讲门禁锁具，如果说话人为已注册(即其语音样本已经训练过)的对象，那么开锁装置就驱动锁具打开，否则说话人声音对锁具将不起任何作用，即无相应动作。

七、语音提示模块

本发明采用了语音提示作为人机界面的输出方式，提高了产品的人性化程度。语音提示为提前录取的真人语音，操作过程中，语音提示遇到相关按键，会即时中断，以方便用户继续操作。

八、RS232通讯接口模块

为了方便各个楼宇对讲厂商集成并灵活使用本发明，本模块提供了标准RS232通讯接口，用于与楼宇对讲主控制板的通讯，开锁信号和键盘信号都可以通过该接口进行传输。

Claims

1.一种楼宇对讲门口机声纹识别开锁模块，由设置在电路板上的键盘模块、语音采集模块、语音处理模块、两线开关状态输出模块、语音提示模块和RS232通讯接口模块构成，其特征在于：所述的键盘模块和语音采集模块分别通过信号线与所述的语音处理模块连接，所述的语音采集模块连接有话筒，所述的两线开关状态输出模块、语音提示模块和RS232通讯接口模块分别通过信号线与所述的语音处理模块连接，所述的语音处理模块中设置有语音预处理模块、训练模块和识别模块，所述的语音预处理模块通过信号线分别与所述的训练模块和识别模块连接，所述的训练模块通过信号线与所述的识别模块连接。

2.一种权利要求1所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音采集模块采集语音信号并将语音信号转换成语音数字信号后传送至所述的语音预处理模块，所述的语音预处理模块对语音数字信号进行语音分析处理，所述的语音预处理模块向训练模块或识别模块输出语音的微特征参数，所述的训练模块利用语音的微特征参数，对所述的键盘模块或RS232通讯接口模块提供的身份确认编号所对应的语音样本进行训练，形成主人独有的语音钥匙声纹编码，所述的训练模块包括动态时间归整、离散余弦变换训练和人工神经网络训练两部分，所述的训练过程发生在用户初次训练或在使用楼宇对讲设备过程中一次识别后可信度偏低时的累加训练，所述的识别模块利用语音的微特征参数，先用离散余弦变换方法预选身份确认编号，再用动态时间归整方法从预选出的身份确认编号集中确定唯一一个已训练对象的身份确认编号，最后通过人工神经网络声纹识别计算方法对当前已训练对象的身份确认编号的对象进行身份确认，所述的通讯接口模块与外部的楼宇对讲主控制板通讯，通讯的内容包括训练授权、键盘编码、识别结果及程序更新，所述的两线开关状态输出模块根据识别模块的识别结果提供开门控制信号，所述的键盘模块接收外接键盘输入信号，所述的语音提示模块向外部输出语音提示信号。

3.如权利要求2所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音分析处理的过程中包括语音压缩、语音口令实时自动检测、预加重、加窗、加帧、去噪、梅尔刻度式倒频谱参数特征提取的处理步骤。

4.如权利要求3所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音口令实时自动检测的处理步骤中，所述的语音预处理模块实时自动检测声音信号，当检测到符合语音口令的声音信号时启动语音识别步骤或训练步骤，否则将采集的声音信号直接丢弃。

5.如权利要求4所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音口令实时自动检测的处理步骤中，首先为程序分配一段存储6秒钟语音的内存，程序持续接收语音数据，并最多保存最近6秒时间内的语音数据，然后把这段内存里的语音数据以20ms为一个压缩点，压缩点是取20ms内最大的数据，从第一个压缩点开始用过零率算法判断这段新加的语音是否在设定的范围内，将超出这个范围内的压缩点的数据标记为无效值0，然后用压缩数据检测孤立点，所述的孤立点是指，语音在这个点突然加大，则标记为非语音，标记为0，然后在语音的末端检测到有一段语音低于设定的静音阈值并且具有设定长度时，认为静音信号出现，口令已经结束，否则，继续录音，或者，在检测到静音信号的前提下，系统判断大于静音阈值的长度和大于语音阈值的长度在符合对口令的要求长度范围内，则认为这段语音是用户的一个语音口令，保存这段语音进行语音识别或训练。

6.如权利要求3所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的语音预处理模块向训练模块或识别模块输出语音的微特征参数，微特征参数是所谓的语音峰位特征，它是对输入语音的幅度累加和特征、语音的MFCC的二阶特征，按照幅度权重、倒谱权重系数，进行相加或相减，得到4组波形划分特征数据，再把波形划分特征和语音的过零率特征输入到一个容器中，进行峰位划分与合并，然后按照峰位的最小间距信息去除分布过密的峰位，最后得到一组准确的峰位信息。

7.如权利要求2所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块接收所述的语音预处理模块输出的语音的微特征参数，对所述的键盘模块或RS232通讯接口模块提供的身份确认编号所对应的语音样本进行训练，所述的训练模块包括动态时间归整、离散余弦变换训练和人工神经网络训练两部分，训练过程发生在用户初次训练或在使用楼宇对讲设备过程中一次识别后识别可信度偏低时的累加训练，所述的动态时间规整训练，利用动态时间归整算法将训练样本集规整成一个特征向量，形成动态时间归整模板，所述的离散余玄变换训练通过对动态时间归整模板进行一次离散余弦变换，形成离散余弦变换模板，所述的人工神经网络训练利用训练对象的语音样本和非训练对象的语音样本来分割一个多维的频谱空间，使得主人语音样本所占据的频谱空间被映射到主人的输出，非主人语音样本所占据的频谱空间被映射到非主人的输出，形成主人独有的语音钥匙声纹编码。

8.如权利要求7所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块具有一个训练样本集，每个语音口令数据经所述的语音预处理模块预处理，形成一个训练样本，组成训练样本集，训练样本集中的训练样本按照时间先后保存。

9.如权利要求7所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的训练模块对所述的训练样本进行动态时间规整模板训练，再对动态时间规整模板做离散余玄变换形成离散余玄变换模板，在动态时间规整模板、离散余玄变换模板已存在的情况下进行动态时间规整模板、离散余玄变换模板的累加训练，所述的累加训练发生使用楼宇对讲设备过程中一次识别后识别可信度偏低时，所述的累加训练包括：

(1)录制语音：录制读入的语音口令，

(4)动态时间规整模板训练，

(5)离散余玄变换模板训练。

10.如权利要求7所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的人工神经网络训练的步骤中，创建背景模型，背景模型中包含随机语音样本，用于在训练中建立非对象语音样本所占据的频谱空间向非对象的输出映射的关联。

11.如权利要求7所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的人工神经网络训练的步骤中，确定人工神经网络识别动态阈值，就是在人工神经网络模板创建之后，用该模板识别一个公共的口令集，得到一组可信度，把这组可信度排序，根据误识小于等于1％的原则，反推出当前对象的识别阈值。

12.如权利要求7所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：在所述的人工神经网络训练的步骤中，利用对象的语音样本和非对象的语音样本来调整一个神经网络权值，将对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出，完成人工神经网络模板的训练，在人工神经网络模板已存在的情况下再进行人工神经网络的累加训练，累加训练发生在使用楼宇对讲设备过程中一次识别后识别可信度偏低时，所述的累加训练的过程包括：

(1)录制累加训练口令，并预处理形成训练样本，

(3)进行人工神经网络模板训练。

13.如权利要求2所述的楼宇对讲门口机声纹识别开锁模块的识别开锁方法，其特征在于：所述的识别模块根据所述的微特征参数利用离散余弦变换算法形成当前被识别对象的离散余玄特征样本，将该特征样本和对所有已训练对象的离散余玄模板比对，从中预选出与当前被识别对象语音特征接近的身份确认编号，形成预选对象集，再利用动态时间归整算法在上述预选产生的已训练对象中进行比对，从中选出与当前被识别对象语音特征最接近的唯一一个已训练对象的身份确认编号，该已训练对象的身份确认编号被确定合法之后，识别模块再通过人工神经网络声纹识别算法对当前被识别对象进行确认，在所述的确认过程中，识别模块通过人工神经网络声纹识别算法利用多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出，在正确训练的情况下，只有语音钥匙的主人的输出被激励，而所有非主人的输出被抑制，当可信度输出值超过训练时产生的识别阈值时认为被识别对象就是语音钥匙的主人。

14.如权利要求1所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的两线开关状态输出模块连接有开锁驱动电路。

15.如权利要求1所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的语音提示模块连接有扬声器。

16.如权利要求1所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的通讯接口模块通过通讯电缆连接外部的楼宇对讲主控制板。

17.如权利要求1所述的楼宇对讲门口机声纹识别开锁模块，其特征在于：所述的通讯接口模块是RS232串行通讯接口模块。