CN1936967A

CN1936967A - 声纹考勤机

Info

Publication number: CN1936967A
Application number: CNA200510029805XA
Authority: CN
Inventors: 吴田平
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-09-20
Filing date: 2005-09-20
Publication date: 2007-03-28

Abstract

一种声纹考勤机，其语音采集模块采用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至语音处理模块；语音预处理模块对输入语音的数字信号进行语音分析处理，并输出处理得到的语音的微特征参数传送至训练模块；训练模块接收语音预处理的数据，对指定的语音样本进行训练，形成声纹考勤模板，存入存储系统模块中的员工档案中；考勤时，识别模块调用存储系统中的利用训练模块生成的现有声纹考勤模板和从语音预处理模块得到的说话人语音微特征参数，找出合法ID，进入声纹识别模块进行说话人确认，声纹识别模块识别出说话人，找出说话人所对应的ID号，在将这个ID号所对应的员工信息显示在液晶显示模块的显示屏上。

Description

声纹考勤机

技术领域

本发明涉及电子产品技术领域，尤其涉及生物特征识别领域的声纹比对类电子产品，特别是一种声纹考勤机。

背景技术

目前市场上的考勤产品，种类繁多，从使用方式可分为脱机考勤机和联机考勤机两种；从应用技术方式可分为打印类、刷卡类、生物识别类三种。刷卡类主要包括磁卡、条码卡、IC卡三类；生物识别类主要包括指纹考勤和虹膜考勤两类。

传统的机械打卡机虽然价格相对较低，但是统计烦琐，后续投入较大，每月都需要更换卡片，且机械故障率较高，特别插卡口易受破坏；而刷卡类考勤机使用的卡片成本和机械故障率也很高，比如磁卡考勤机因使用时间过久就会产生磁卡与磁头损坏的情况，条形码考勤机条形码脏了后灵敏度下降就会出现错码现象。另外这两类打卡机还具有一些通病，比如“代打卡问题”、“卡丢失问题”、“材料耗费问题”、“一卡多用问题”、“使用方便性问题”、“维护问题”。而新兴出现的生物识别类考勤机，成本较高，易磨损，对使用者要求高，比如说手指划伤，粘有灰尘，手指摆放不正等都易造成拒识，而且指纹的接触性使其也不够卫生，且易使人产生被侵犯的感觉。

在生物特征识别领域，目前出现了一种利用人类的语音执行声纹识别并对其(声纹识别)进行处理的技术，在这一技术中比较有代表的有，如本发明申请人作为发明人申请的公开号为CN1567431A公开的一种说话者身份识别方法和系统。该系统由语音接收设备，语音获取模块，语音编辑、预处理模块、说话者训练、识别模块和后台数据库构成，语音接收设备接收被识别人的声音信号，语音获取模块可以将接收到的语音形成语音文件并有秩序地存储起来，语音编辑、预处理模块对语音文件进行处理、语音分析处理，并输出语音的微特征参数，识别模块依靠训练生成的声纹模板、神经网络算法、以及语音预处理得到的说话人语音微特征参数识别出说话人。这种系统具有仿生性、增量式训练、可学习性、识别双向通话，强分辨能力和识别率、强鲁棒性、识别速度快、非语音信号过滤等特点。

发明内容

本发明所要解决的技术问题是提供一种通过说话人声纹来验证人员个体的唯一身份，并记录下每次验证的详细时间的声纹考勤机，以做考勤证明。只要说话人说出预先确定好的一句话，如员工号码，即可考勤，不必担心忘带卡，忘带密码、按指纹等烦恼，使用方便、误识率低、便于信息统计。

本发明解决技术问题是通过以下技术方案来实现的：

一种声纹考勤机是通过以下方法来实现的：

1、先用键盘模块通过输入法模块中的输入法来新建一个员工的档案，并存入存储系统模块中；

2、然后语音采集模块采集说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至语音处理模块；

3、语音预处理模块对输入语音的数字信号进行语音分析处理，包括语音口令检测、静音拼接、预加重、加窗、加帧、去噪、MFCC特征提取分析处理，并输出处理得到的语音的微特征参数传送至训练模块；

4、训练模块接收语音预处理的数据，对指定的用户ID号码对应的语音样本进行训练，形成已训练人独有的声纹考勤模板，存入存储系统模块中的员工档案中；

5、考勤时，语音采集模块采用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至所述的语音处理模块；语音预处理模块对输入语音的数字信号进行语音分析处理，包括语音口令检测、静音拼接、预加重、加窗、加帧、去噪、MFCC特征提取分析处理，并输出处理得到的语音的微特征参数传送至识别模块，识别模块调用存储系统中的利用训练模块生成的现有声纹考勤模板和从语音预处理模块得到的说话人语音微特征参数，找出合法ID，进入声纹识别模块进行说话人确认，声纹识别模块通过语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，识别出说话人，找出说话人所对应的ID号，在将这个ID号所对应的员工信息显示在液晶显示模块的显示屏上；

6、辨别结束后，将说话人说话声音的时间记录到存储系统模块所建立的考勤记录库中。

本发明语音采集模块是利用麦克风和AD转换芯片采集用户输入的语音口令的。

本发明训练模块包括DTW、DCT训练和ANN训练，其中DTW训练是将若干个训练样本通过动态时间弯折算法DTW规整成一个特征向量，称为DTW模板，DCT训练是对DTW模板进行一次DCT变换，将变换后的特征向量称为DCT模板，ANN训练是利用已训练人员的语音样本和非持有者的语音样本来分割一个多维的频谱空间，使得已训练人语音样本所占据的频谱空间被映射到已训练人的输出，而非已训练人语音样本所占据的频谱空间被映射到非已训练人的输出，形成已训练人独有的声纹考勤模板。

本发明的识别模块利用训练模块生成的声纹考勤模板和语音预处理模块得到的说话人语音微特征参数采用DCT算法对所有已训练人员进行预选，从而得到与被识别人特征最接近的若干已训练者ID号，再利用DTW算法比对DCT算法预选的若干已训练者，得到与被识别人特征最接近的一个已训练者ID，若为合法ID，进入声纹识别模块进行说话人确认。

本发明的存储系统模块还具有一存储量监测模块，用以监测存储系统模块的存储信息量，在液晶显示模块中设有一显示报警模块，存储量监测模块驱动显示报警模块并通过液晶显示模块中的液晶屏进行显示报警。

本发明的存储系统模块由大容量Flash存储系统模块和文件系统模块组成，其中大容量Flash存储系统模块用于提供信息存储介质，文件系统模块用于向开发者提供操作大容量Flash存储系统模块的方法。存储系统模块用以保存考勤信息和用户声纹考勤模板等信息，可以在断电状态下长期保存信息。

本发明的键盘模块与液晶显示模块共同组成一交互平台。

在本发明中，还包括一USB通讯接口模块。也可以包括一IP和网关的设置，用于PC机和考勤机通讯，以传递考勤记录，用户信息等数据，利于用户通过PC机管理和统计记录信息以及员工信息。

在本发明中，还包括一图形用户界面(GUI)模块用于提供一种快速稳定的图形界面开发方式，以利于程序员开发出所需要的图形界面，向用户提供友好的操作界面；

在本发明中，还包括一备用电源，使本发明在没有外接电源的情况下也能继续工作。

本发明的主要特点和效果为：可以直接在本发明上采用中文输入的方式输入员工的档案资料，直接利用人体声纹特征进行考勤，有效地防止代打卡现象；员工无须携带用具便可以进行考勤，方便了员工的上下班考勤，也不会出现考勤卡遗失的问题；使用后无须追加其它额外的如纸张或磁卡的投入费用；使用者简单易学，易操作。独特的宽大屏幕显示和窗口式操作，提高了考勤机操作的交互性。直接在机上浏览及统计打印考勤数据，可以通过多种方式进行数据交换，极大地方便了考勤管理人员进行统计。

附图说明

下面结合附图和具体的实施方式，对本发明声纹考勤机进行详细的说明：

图1为本发明声纹考勤机的结构示意图；

图2为本发明声纹考勤机的识别技术示意图；

图3为本发明声纹考勤机的DTW的扫描范围示意图；

图4为本发明声纹考勤机的DTW的路径示意图；

图5为本发明声纹考勤机的声纹识别原理示意图；

图6为本发明声纹考勤机的液晶显示驱动示意图；

图7为本发明声纹考勤机的用户图形接口示意图；

图8为本发明声纹考勤机的大容量Flash存储系统模块结构框图；

图9为本发明声纹考勤机的输入法操作方法示意图；

图10为本发明声纹考勤机的电路结构框示意图；

图11为本发明声纹考勤机的软件结构框示意图；

图12为本发明声纹考勤机的识别原理示意图。

具体实施方式

如图1所示的一种声纹考勤机，包括机壳1，USB通讯接口模块2，键盘模块3，存储系统模块4，语音采集模块5，语音处理模块6，液晶显示模块7，图形用户界面(GUI)模块8，备用电源9。其中语音采集模块5由麦克风51和AD转换芯片52构成；语音处理模块6包含语音预处理模块61、训练模块62和识别模块63；存储系统模块4由大容量Flash存储系统模块41和文件系统模块42组成。

存储系统模块4还具有一存储量监测模块43，用以监测存储系统模块4的存储信息量，在液晶显示模块7中设有一显示报警模块71，存储量监测模块43驱动显示报警模块71并通过液晶显示模块7中的液晶屏进行显示报警。

上述模块、装置之间采用电连接的方式连接，至于具体如何连接，由于是本技术领域技术人员来说，无需创造性劳动就能实现了。这里不再详述。

上述模块中备用电源模块9可以是干电池或UPS不间断电源等。备用电源模块9的选择可以有很多种方式，只要具备在外接电源断掉以后，能够继续为本发明整个电路提供工作电源即可。

为了更好理解本发明，下面重点阐述一下各个模块的特点和工作方式，但下面描述的内容不构成对本发明的限制。

一、语音采集模块

在语音采集模块5中利用微型麦克风等，接收到员工输入的语音ID号码口令语音信号，并利用AD转换芯片52将语音信号转换为数字信号，然后将输入语音的数字信号传送给系统的语音预处理模块61。

二、语音处理模块

(一)、语音预处理模块

语音预处理模块61接收到输入语音的数字信号后，将对其做分析处理，并提取出语音微特征，为训练及识别做准备。语音预处理及特征提取过程如图2所示。具体语音预处理及特征提取过程包括以下内容：

1、语音压缩：在语音数据输入以后，为了减少运算数据量，首先要对数据进行压缩，压缩的方法就是每20ms的语音采样数据(按照8kHz采样率就是160个点)压缩成一个数据点，压缩方法是求这20ms内采样数据的最大值。这样压缩之后的数据代表了语音的包络波形。另外为了满足实时检测的需要，每60ms就有一帧新的语音被追加到6秒的FIFO队列缓冲区，这就有意味着算法每隔60ms就对最近6秒的语音数据检测一次是否存在一次完整的语音口令输入。

2、语音口令自动检测：在触发本发明键盘模块3上特定按扭后，系统开始实时检测语音，当检测到符合语音口令的信号时才启动语音识别或训练，否则将采集的声音信号作为噪音直接丢弃，不做其它处理。无论考勤是否成功，如需进行下次考勤，必须再次触发键盘模块3上的考勤按扭。

3、放大及增益控制：将语音信号适当增大，以便于之后的其它信号处理。

4、预滤波：抑制输入信号各频域分量中频率超过fs/2的所有分量(fs为采样频率)，以防止混叠干扰，同时抑制50Hz的电源工频干扰。

5、非语音信号过滤：扫描数字化后的声音信号，将非语音信号噪音等剪辑掉。

6、预加重：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析。

7、加帧：一般每秒的帧数约为33-100帧，视实际情况而定。

8、加窗：为了避免倒谱中的基音峰变得不清晰甚至消失，本发明采用汉明窗。

经过上面过程，语音信号就被分割成一帧一帧的加过窗函数的短信号，在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，最后得到由每一帧组成参数组成的语音特征参数的时间序列。

9、语音特征参数提取：语音特征参数的选择是整个系统中的基础，对识别率有着极其重要的影响。

本发明采用多种语音特征提取技术，包括MFCC系数及微分系数、基音相关特征、线性预测系数相关特征以及人耳听觉模型相关参数等。利用神经网络的自学习能力，可以克服声纹特征的动态性和复杂性，自组织地完成对个性声纹特征的提取。传统方法只提取少数语音特征参数，而采用本技术可以提取多种语音特征参数，从而有效提高识别的正识率。提取到个性声纹特征后，再将各连续的特征参数转化为输入神经元的激活或抑制信号。

(二)、训练模块

训练模块62接收语音预处理的数据，采用互为反相样本的策略对指定的用户ID号码对应的语音样本进行训练，训练模块包括DTW、DCT训练和ANN训练。

互为反相样本的原理是在固定背景模型的基础上增加其它对象的正相特征，作为本对象的当前背景模型。它的执行过程如下：训练第一个对象(A对象)，使用录入的语音作为正相，固有的背景模型(BG)作为当前背景模型相进行训练，得到当前对象的识别模型，由于是第一个对象，不存在互为反相问题；训练第二个对象(B对象)，使用录入的语音作为正相，使用固定的背景模型加上A对象的正相样本作为当前对象的背景模型进行训练，得到当前对象的识别模型，同时改变A对象背景模型(即把B对象的正相样本增加到A对象的背景模型中)；训练其它对象(0对象)，使用录入的语音作为正相，使用固定的背景模型加上其它对象的正相作为当前背景模型进行训练，得到当前对象的识别模型，同时把当前的正相样本增加到其它对象的背景模型中。

1、DTW、DCT模板训练

1)DTW和DCT算法

①DTW算法

在对语音口令的识别中，最为简单有效的方法是采用动态时间弯折算法DTW完成模板的匹配。该算法基于动态规划的思想，解决了发音长短不一的匹配问题。

DTW算法计算两个长度不同的模板之间的相似程度，或称失真距离。假设测试和参考模板分别用T和R表示，按时间顺序含有N帧和M帧的语音参数，每帧特征数据为K维，则T、R分别为N×K和M×K的矩阵。失真距离越小，表示T、R越接近。本发明为了使DTW的比对有意义，限定了测试和参考模板帧长度的比值必须介于1/2和2之间(1/2和2可以看作是下图中直线的斜率)，这个区域即为“合法搜索区域”，该约束可以省掉不需要计算的部分。如图3所示。

搜索路径采用如图4所示的路径模式，则对于点(i，j)的距离D(i，j)为：

D(i，j)＝|t(i)-r(j)|+min{D(i-2，j-1)，D(i-1，j-1)，D(i-1，j-2)}。

本发明采用两帧中各个对应特征数据之差的绝对值之和作为两帧的距离，即：

| t (i) - r (j) | = Σ_{k = 1}^{K} | t {(i)}_{k} - {r (j)}_{k} |,

其中K为每帧的特征维数。

②DCT算法

DCT算法，即对输入信号进行离散余弦变换。

2)DTW、DCT初始训练

①录制口令

录制同一语音口令若干遍，本发明采用的是10遍。

②语音预处理，形成训练样本集

由语音预处理模块61对语音信号进行预处理，每个语音口令的语音数据形成一个训练样本，组成训练样本集，按照时间先后保存训练样本集中的各个训练样本。

③DTW模板训练

a.求训练样本集中各训练样本帧数的平均值。

b.将帧数与平均帧数值最近的训练样本作为“初始模板”。

c.利用DTW算法将其他训练样本规整为与“初始模板”同样长度的样本，舍弃与“初始模板”距离大于一个“最大距离阈值”的训练样本。

d.计算各训练样本每个对应帧的各个特征元素的平均值，最后形成的样本即为“DTW模板”，它是一个长度为L×K的特征向量，其中L为模板帧数，K为每帧的特征数据维数。

④DCT模板训练

对DTW模板做DCT变换形成DCT模板，它是一个长度为P×K的特征向量，其中P为DCT数，K为每帧的特征数据维数。本优选实例中DCT数参考值为4，即取0-3阶DCT系数。

3)DTW、DCT累加训练

在DTW、DCT模板已存在的情况下进行DTW、DCT的累加训练，以提高模板的时间适应性。在对某一对象进行训练后，本发明会自动生成对应对象的评定参数，以用来和进行实际的识别结果来对比，决定是否为对象。这一评定参数就是对应对象的识别阈值。累加训练发生在用户主动的累加训练或是使用本发明过程中一次识别后阈值偏低时。

具体训练过程如下：

①录制语音：录制读入的语音口令。

②语音信号预处理：由语音预处理模块61对语音信号进行预处理，将语音口令的语音数据形成一个新的训练样本。

③重构训练样本集：将新的训练样本添加至训练样本集中，如果当前的训练样本总数超过了最大训练样本数(本发明采用的参考值是10)，则删除时间最早的训练样本。

④DTW模板训练：同初始训练。

⑤DCT模板训练：同初始训练。

2、ANN训练

ANN训练，就是利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来分割一个多维的频谱空间，使得对象语音样本所占据的频谱空间被映射到对象的输出，而非对象语音样本所占据的频谱空间被映射到非对象的输出，也就是将对象和其语音在频谱空间的分布区域建立关联。从数学模型上说，就是利用这些语音训练样本来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出。训练原理的示意图如图5所示：某对象A的语音，经语音特征参数提取，根据特征参数值调整权值使对象A的输出受到激励，同时使非对象A的输出受到抑制，之后得到对象A的输出和非对象A的输出。

1)ANN初始训练

①录制口令：录制同一语音口令若干遍，即考勤口令(一般为4-6个字)，语音经预处理后保存起来。

②创建背景模型：背景模型中包含大量随机语音样本，主要用于在训练中建立非对象语音样本所占据的频谱空间向非对象输出映射的关联。背景模型由本发明在出厂之前创建。

③考勤口令训练：对预处理后的语音数据通过训练模块提取ANN特征进行训练，训练后形成用户独有的声纹模板。

A.ANN特征提取：ANN训练和识别具有相同的特征提取方法，特征提取部分又分峰位查找、特征处理、特定定位三部分。

a.峰位查找

根据输入的语音，输出语音的幅度累加和特征、语音的过零率特征、语音的MFCC的2阶特征，由“语音的幅度累加和特征”和“语音的1阶、2阶特征”按照幅度全重、倒谱权重系数，进行相加或相减，得到4组特征数据(波形划分特征)，依次把“波形划分特征”和“语音的过零率特征”输入到一个容器中，4组峰位划分信息，把这4组峰位划分信息进行合并，然后按照峰位的最小间距信息去除分布过密的峰位，最后得到一组准确的峰位信息。

b.特征处理

根据输入的语音，输出对应的MFCC特征(1-12阶)。

c.特征定位

根据峰位查找中找到的“峰位信息”和“MFCC特征”，输出每个峰位的对应大帧特征，本发明中每个大帧覆盖10个小帧的区域，在大帧的定位过程中使用了幅度累加和法，所谓的幅度累加和法就是：设当前位置为i，使用一个10个小帧大小的窗口从i-9到i滑动，求出这之间的窗口区域的最大幅度和，谈话不这个窗口的起始位置做为大帧的起始位置，从大帧的起始位置开始的10个小帧特征，作为当前峰位的大帧特征，并且只使用其中的奇数小帧。

B.训练模板

利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出，完成ANN模板的训练。

C.确定ANN动态阈值

所谓ANN动态阈值法，就是ANN模板创建之后确定当前训练对象的识别阈值，由于每个对象特征存在差异，不可以使用相同的阈值作为所有对象的阈值，确定每个对象的阈值有2种方法，一种是通过识别对象自己的口令来确定一个阈值；另一种方法就是通过识别其它口令来确定阈值，本优选实例使用了后者，即通过识别一个公共的口令集，得到一组可信度，把这组可信度排序，根据误识不超过1％的原则，反推出当前对象的阈值，这种方法避免了训练时语音口令输入过多的缺点，同时由于这个公共的口令集量比较大，也会起到一个更准确的预估。

④保存训练结果：训练过程结束，声纹模板随即被保存在考勤机中的存储系统模块4中的员工档案中，以备使用。

2)ANN累加训练

在ANN模板已存在的情况下进行ANN的累加训练，以提高模板的时间适应性。累加训练发生在用户主动的累加训练或是使考勤机考勤过程中一次识别后识别阈值偏低时。

①录制累加训练口令，并预处理形成训练样本。

②重构训练样本集：将新的训练样本添加至训练样本集中，如果当前的训练样本总数超过了最大训练样本数(本发明采用的参考值是10)，则删除时间最早的训练样本。

③同ANN模板初始训练。

(三)、识别模块

识别模块63同时包括DTW、DCT识别和ANN识别两部分。通过DCT、DTW识别，系统将识别出读入语音口令对应的用户ID，而进一步通过ANN识别，确定当前说话人是否的ID对应用户。

1、DTW、DCT识别

1)录制口令：录制读入的语音口令。

2)形成DTW特征向量和DCT特征向量：由语音预处理模块61对语音信号进行预处理，分别形成DTW特征向量和DCT特征向量，即DTW识别样本DCT识别样本。

3)DCT预选：将DCT识别样本和存在的所有用户的DCT模板相比，即计算识别样本和各识别样本和DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和)，筛选出距离最小的前N个用户。

4)DTW预选：将DTW识别样本和各DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和)，筛选出距离最小的用户。该用户即为进行ANN识别的用户。

2、ANN识别

本发明利用建立在一种神经网络算法基础上的多层聚类神经网络完成语音信号特征模糊动态集合的聚类，以及已聚类的激励群到说话人的转换，实现激励群映射到说话人输出。

当有语音波形输入时，首先由输入层神经网络得到预处理后的语音频谱特征，并将其转化为输入神经元的激活或抑制信号。使用这些神经元的激活或抑制信号去同步激励所有待识别对象的输出，采用能量反传网络完成己聚类的激励群到说话人的转换，实现激励群映射到说话人输出。在正确训练的情况下，只有目标对象的输出被激励，而所有非目标对象的输出被抑制，从而可以快速地识别出目标对象。

多层神经网络框架，每一层和上一层都是全连接。每个中间层网络神经元的个数大致与输入层神经元的个数相同。

本发明的优选实施例采用能量反馈和Hebb学习规则。具体的原理如下：

设每个神经元的能量计算为：

e＝b-y

其中，b是每个神经元的能量反馈值，对于输出层而言，就是强制指导状态；y是每个神经元的输出。

对于中间层(用m表示)第j个神经元，其反馈值来自于其下层网络(有n表示)，反馈值的计算为下式，其中ω为连接权值：

b_{j}^{m} = \underset{k}{Σ} γ . ω_{jk} . e_{k}^{n}

对于m层的第j个神经元，其输入值x来自上层网络p，计算公式为：

x_{j}^{m} = \underset{k}{Σ} λ . ω_{kj} . y_{k}^{p}

每个神经元的输出和输入关系为：

y＝f(x^t，x^t-1)

其中，f是一种非线性函数，并且与当前输入和过去输入相关。因此，神经网络的输出不仅依赖当前帧的输入，同时也与过去输入有关。这种输入记忆功能可以克服神经网络算法不能有效处理时序问题的缺陷。识别系统在根据语音特征映射到某个对象时，不是完全根据当前语音帧，而是根据当前帧和之前的许多帧，大致相当于几百毫秒的语音长度。这种特征与生物听觉特征有类似之处。

权值改变算法如下：

Δω_jk＝α·y_j·y_k+β·y_j·e_k

其中，第一项为Hebb学习项，作用于特征聚类，越接近最后输出层，此项作用越小。Hebb学习项可以使同时出现的特征之间的激励作用加强，从而使这些同时出现的特征之间形成一种关联的激励群。关联的激励群实际上是一种分布式联想记忆功能，可以起到抵抗噪声、恢复畸变的功能。

第二项为反馈能量学习项，是一种基于能量的反传学习算法。越接近最后输出层，此项作用越大。基于能量反馈的学习算法与BP网络有点类似。但比BP网络在算法上和训练上更方便，更容易、理解，更容易实现。同时，权值改变只与能量相关，只与连接的前后两个神经元节点相关，因此，算法的实现更容易，速度更快。

本发明采用识别可信度的中标方法，当识别可信度超过训练过程中生产的动态阈值时，则认为说话人中标，即说话人是合法用户。

三、USB通信接口模块

为了能够与PC机方便的通讯，从考勤机中取得的考勤记录等信息以及向考勤机发送用户信息等数据，在本发明中实现了USB1.1规范的USB接口模块2。主要性能如下：

接口规范：

符合USB1.1规范

协议总概

每次通信都是由PC机发起，PC机向考勤机发送命令和参数以及数据，本发明的考勤机会作出相应应答并发送数据。

通信协议如下：

操作	PC机发送	设备发送	PC机发送	设备发送
操作	PC机发送	设备发送	PC机发送	设备发送	获取Flash	命令字0x00000001	文件列表长度目录数据
文件列表					获取Flash	命令字0x00000001	文件列表长度目录数据
文件列表					删除Flash文件	命令字0x00000004文件ID	设备应答0x00000004	文件数据
读取	命令字	设备应答			删除Flash文件	命令字0x00000004文件ID	设备应答0x00000004	文件数据

Flash文件	0x00000005文件ID	0x00000005文件长度文件ID文件数据
Flash文件	0x00000005文件ID	0x00000005文件长度文件ID文件数据	上传语音数据	命令字0x00000006	语音数据
停止语音数据上传	命令字0x00000007		上传语音数据	命令字0x00000006	语音数据
停止语音数据上传	命令字0x00000007		下载语音数据	命令字0x00000008数据长度	设备应答0x00000008	语音数据
训练开始命令	命令字0x00000009训练次数训练ID	设备应答0x00000009动态阈值训练次数训练ID	下载语音数据	命令字0x00000008数据长度	设备应答0x00000008	语音数据
训练开始命令	命令字0x00000009训练次数训练ID	设备应答0x00000009动态阈值训练次数训练ID	识别命令	命令字0x0000000b	设备应答0x0000000bDTW阈值
		DTW距离ANN阈值ANN可信度ID	识别命令	命令字0x0000000b	设备应答0x0000000bDTW阈值

四、液晶显示模块

液晶显示模块7用于向用户提供显示界面。本发明采用了高分辨率的(320×240)液晶显示屏幕，可以提供十分友好的用户界面。

模块工作原理如图6所示，由于本发明使用的DSP可以通过PPI端口和LCD直接相连，以DMA方式传输数据，因此可以在不占用CPU时间的情况下自动恒定的刷新LCD。在需要改变LCD的图案的时候只要改变显示数据区相应位置的数据就可以了。为了避免反复更新数据而引起的屏幕闪烁现象，本发明在内存中提供了一块数据缓冲区。在需要改变屏幕上的信息的时候首先在缓冲区中组织好数据，再以一定的格式填入显示数据区，就可以通过DMA自动显示在屏幕上了。这种模式可以高效地利用处理器硬件功能，避免CPU开销。

在液晶显示模块7中设有一显示报警模块71。

五、键盘模块

本发明中使用键盘模块3向用户提供输入界面。用户可以通过键盘模块3和液晶显示模块7的交互，方便的设置信息。

六、图形用户界面(GUI)模块

图形用户界面模块8提供了开发图形界面程序的接口。在本发明中实现了一个轻量级的图形用户界面，用于把显示功能和硬件分离开来。GUI系统具有如下特点：模块化，轻量，灵活。

1、模块化

为了能够统一应用程序界面风格，大致统计了一下可能在本发明的应用程序中使用到的以及以后功能扩展时可能用到的一些交互界面，在这个基础上决定要开发哪些组件。把这些功能提取出来以后，在实现本发明的各个窗口的时候就利用这些已经实现的控件实现。

2、轻量

根据本发明是用于一个小型的嵌入式平台上的一个实时嵌入系统的特点，系统的响应速度是至关重要的，同时本发明的应用模块比较小，在本发明的GUI中只是给每个控件实现了重画消息的响应，其他的用户信息输入消息以及系统消息都尽可能由应用程序来响应。这样的好处是可以避免绘图的重复劳动，同时又使得系统实现的十分灵活。

3、灵活

出于安全性的以及存储器资源的考虑，目前所有的控件都没有使用动态存储器申请。然而很多情况是不能在设计时考虑的，比如ListBox会有多少数据需要显示。在Windows上的ListBox是通过动态申请内存的方法一次性拷贝入所有数据，然后再根据需要逐项显示。而本发明的存储空间相对来说较小，为了解决这个问题，本发明中利用回调函数机制让每个应用程序自己去灵活的根据显示需要提供数据，虽然这样减少了控件的内聚度，但是可以很好的达到本发明所需要的要求。

本发明中实现了窗体，输入框，列表框，按钮，弹出式菜单，对话框，日历等控件。

在数据结构方面，本发明采用的数据与目前主流GUI的数据结构基本类似，如图7所示。

本发明的GUI以树型结构支持以下信息的表达：

1、子窗口关系，父子窗口用来表达窗口的构成和嵌套关系。

2、Z-order关系，以nextsibling指针连接的同级窗口，从左到右，Z-order依次增高，并且子窗口的Z-order始终高于父窗口，但是低于父窗口的下一个sibling窗口。

为了避免在嵌入式环境中引入太多复杂性，本发明的系统中没有触摸设备，Widget空件窗口并不支持用户输入事件的处理。只有应用程序级别窗体可以接收键盘消息。所有的Widget控件的行为完全体现在他们的API函数上。

每个窗口的行为完全通过回调函数(即传统windows中的窗口回调函数)实现，包括绘制行为，响应用户按键行为等。Widget仅仅响应绘制消息，而其他方面的行为完全由APP窗口通过响应用户输入，调用Widget控件的API函数完成。当然Widget可以方便的扩展(响应其他消息)来支持触摸或指点设备的输入方式。

本发明中控件的消息派发分为三类：

1、绘制消息

如果指定窗口内容被更新需要重绘，则paint消息被系统派发到所有更高Z-order的窗体上以避免底层窗口内容重绘引起高层窗口内容被覆盖的现象。

2、用户输入信息

当前具备最高Z-order的APP级别窗口负责接收所有的用户输入消息，但是该窗口处理消息过程中可能向其他同级别窗体发送通知消息，因此需要借助一个消息队列完成所有连带产生消息的派发。

3、Timer消息

系统支持以100ms为单位的Timer，每100ms会有一次Timer消息的派发，所有应用程序级别的，申请了Timer的窗口的Timer计数都会被减1，如果某个窗口的计数达到0，则派发Timer到该窗口，并且其计数恢复初始值。

七、存储系统模块

为了能够存储大量的考勤记录以及语音模板数据，在本发明中加入了大容量Flash存储系统模块。可以长期保存考勤记录，同时保证断电后数据不会消失。由于本发明对Flash的操作十分频繁，且操作的逻辑十分复杂，为了便于操作大容量Flash存储系统模块4，在本发明中实现了文件系统模块，如图8所示。为了能够更好的管理大容量Flash存储系统模块4，更方便的实现数据的插入，删除，读取，修改，本发明加入了一个针对大容量Flash存储系统模块4的，基于Block的文件系统，把相关数据的集合作为一个文件进行读写。这样在读取数据的时候只需要以文件的方式进行读操作就可以了，在写入数据的时候以文件的方式进行写入就可以了。实现了文件系统以后，应用程序就不需要对硬件进行直接操作，实现了软件和硬件的分离，减少了出现错误的可能性，提高了系统的健壮性。存储系统模块4还具有一存储量监测模块43，用以监测存储系统模块4存储信息量，存储量监测模块43驱动显示报警模块71并通过液晶显示模块7中的液晶屏进行显示报警。

八、输入法模块

输入法模块的详细操作方法如图9所示，在本发明中除了可以输入数字和英文字符，还实现了汉字输入法。通过汉字输入法，用户可以方便地在操作中输入汉字。首先得到拼音—>汉字的映射表，通过该映射表可以得到某个拼音所对应的所有汉字。使用时通过键盘模块输入拼音字母，得到所需要的拼音组合，然后从拼音组合所映射的汉字中选择需要的汉字。由于本发明中按键有限，为了实现输入法必须对多个按键进行复用。本发明中对于输入界面分成三个层次，输入焦点选择层次，输入框选择层次，输入法输入层次。在进入界面后，需要按“上下键”选择需要输入的输入框，在选中所需要的输入框后，按“确定键”进入该输入框的输入框输入层次进行编辑，在输入框输入层次下，可以进行输入法选择，如果选择了英文和数字输入状态，可以进行字母和数字输入，如果选择了中文输入法，则按下有字母对应的数字键就可以进入中文输入状态，在中文输入状态下可以按有字母对应的数字键输入拼音，并用“上下键”选择备选汉字，选择完成后返回到输入框输入层次。此外，本发明根据产品的使用特点，将常用姓氏的候选级别提高，以提高输入速度，方便用户使用。

Claims

1、一种声纹考勤机是通过以下方法来实现的：

[1]、先用键盘模块通过输入法模块中的输入法来新建一个员工的档案，并存入存储系统模块中；

[2]、然后语音采集模块采用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至所述的语音处理模块；

[3]、语音预处理模块对输入语音的数字信号进行语音分析处理，包括语音口令检测、静音拼接、预加重、加窗、加帧、去噪、MFCC特征提取分析处理，并输出处理得到的语音的微特征参数传送至训练模块；

[4]、训练模块接收语音预处理的数据，对指定的用户ID号码对应的语音样本进行训练，形成已训练人独有的声纹考勤模板，存入存储系统模块中的员工档案中；

[5]、考勤时，语音采集模块采用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至所述的语音处理模块；语音预处理模块对输入语音的数字信号进行语音分析处理，包括语音口令检测、静音拼接、预加重、加窗、加帧、去噪、MFCC特征提取分析处理，并输出处理得到的语音的微特征参数传送至识别模块，识别模块调用存储系统中的利用训练模块生成的现有声纹考勤模板和从语音预处理模块得到的说话人语音微特征参数，找出合法ID，进入声纹识别模块进行说话人确认，声纹识别模块通过语音信号特征模糊动态集合的聚类，并利用单层感知机网络实现已聚类的激励群到说话人的转换，识别出说话人，找出说话人所对应的ID号，在将这个ID号所对应的员工信息显示在液晶显示模块的显示屏上；

[6]、辨别结束后，将说话人说话声音的时间记录到存储系统模块所建立的考勤记录库中。

2、根据权利要求1所述的一种声纹考勤机，其特征在于：所述的语音采集模块是利用麦克风和AD转换芯片采集用户输入的语音口令的。

3、根据权利要求1所述的一种声纹考勤机，其特征在于：所述的训练模块包括DTW、DCT训练和ANN训练，其中DTW训练是将若干个训练样本通过动态时间弯折算法DTW规整成一个特征向量，称为DTW模板，DCT训练是对DTW模板进行一次DCT变换，将变换后的特征向量称为DCT模板，ANN训练是利用已训练人员的语音样本和非持有者的语音样本来分割一个多维的频谱空间，使得已训练人语音样本所占据的频谱空间被映射到已训练人的输出，而非已训练人语音样本所占据的频谱空间被映射到非已训练人的输出，形成已训练人独有的声纹考勤模板。

4、根据权利要求1所述的一种声纹考勤机，其特征在于：所述的识别模块利用训练模块生成的声纹考勤模板和语音预处理模块得到的说话人语音微特征参数采用DCT算法对所有已训练人员进行预选，从而得到与被识别人特征最接近的若干已训练者ID号，再利用DTW算法比对DCT算法预选的若干已训练者，得到与被识别人特征最接近的一个已训练者ID，若为合法ID，进入声纹识别模块进行说话人确认。

5、根据权利要求1至4任一权利要求所述的一种声纹考勤机，其特征在于：所述的存储系统模块还具有一存储量监测模块，用以监测存储系统模块的存储信息量，在液晶显示模块中设有一显示报警模块，存储量监测模块驱动显示报警模块并通过液晶显示模块中的液晶屏进行显示报警。

6、根据权利要求5所述的一种声纹考勤机，其特征在于：所述的存储系统模块由大容量Flash存储系统模块和文件系统模块组成，其中大容量Flash存储系统模块用于提供信息存储介质，文件系统模块用于向开发者提供操作大容量Flash存储系统模块的方法。

7、根据权利要求1所述的一种声纹考勤机，其特征在于：还包括一USB通讯接口模块。也可以包括一IP和网关的设置，用于PC机和考勤机通讯。

8、根据权利要求1所述的一种声纹考勤机，其特征在于：还包括一图形用户界面(GUI)模块，用于提供一种快速稳定的图形界面开发方式。

9、根据权利要求1所述的一种声纹考勤机，其特征在于：还包括一备用电源。