CN106251874B

CN106251874B - 一种语音门禁和安静环境监控方法及系统

Info

Publication number: CN106251874B
Application number: CN201610602660.6A
Authority: CN
Inventors: 李明; 全小虎; 蔡泽鑫
Original assignee: Shenzhen Yingshuo Audio Technology Co Ltd
Current assignee: Shenzhen Yingshuo Intelligent Technology Co ltd
Priority date: 2016-07-27
Filing date: 2016-07-27
Publication date: 2017-08-18
Anticipated expiration: 2036-07-27
Also published as: CN106251874A; WO2018018906A1

Abstract

本发明公开了一种基于端点检测、说话人分段聚类和声纹识别的语音门禁和安静环境监控方法及系统。本发明基于语音识别的门禁代替了传统的门锁钥匙的形式，识别内容采取随机字符串的形式进一步增强了安全性，在此基础上，进而公开了一种全新的全自动安静环境监控方法及系统，可以方便安静环境比如学生宿舍的管理，可以替代了传统的老师亲自去宿舍查寝的费时费力的管理办法，方便而又可靠，对学生的休息质量提供了可靠的保障。

Description

一种语音门禁和安静环境监控方法及系统

技术领域

本发明涉及一种语音门禁和安静环境监控方法及系统，用于进入封闭环境的语音识别和在所述封闭环境的安静环境监控，特别是用于睡眠时段不可视情况下学生宿舍环境的监控方法及系统。

背景技术

近年来，随着学校住宿条件日益完善，越来越多的家长将住读视为一个减轻照看孩子的压力，方便孩子好好学习的选择。这使得在校的住读生的数量逐渐增加，而学校方面，同时管理这么多的住读学生，实在难以方方面面全部兼顾，宿舍管理无疑是各个学校面临的一个比较严峻的挑战。尤其是在晚上熄灯后的这段时间，如果学生没有按照规定好好休息，那么会严重影响学生的睡眠以及第二天的学习质量。

另一方面，随着语音技术飞速发展与逐步成熟，人们对于人机交互的便捷的追求，语音渐渐成为人与外界交互使用最自然，最方便，最有效的交流工具，同时语音又是人们日常生活的最主要的信息载体之一。随着移动互联网，智能设备的发展，人类社会正逐步全面的进入信息化时代，智能语音技术慢慢从众多的模式识别中崭露头角，扮演者越来越重要的角色。语音相关的技术渐渐融入到社交平台，电子商务，智能穿戴，智能家居甚至金融行业当中，并发挥着重要的作用。这使得采用语音技术减轻宿舍管理的压力成为可能。

CN102708867A(公开日2012年10月3日)公开了一种基于声纹和语音的防录音假冒身份识别方法及系统，可用于身份认证领域，该方法具体为生成带用户ID的固定文本，并与随机文本拼接为提示文本，采集用户读取提示文本的语音，建立用户的声纹模型和语音模型，并保存带用户ID的固定文本和声纹模型及语音模型。例如，带用户ID的固定文本为4-7个汉字。

CN204791241U(公开日2015年11月18日)公开了一种安装在门上的语音交互式门禁系统，包括门禁控制器和电子锁。门禁控制器包括麦克风、无线网络模块、摄像头等，运行Android或Windows操作系统。门禁控制器定时获取超声波传感器和门磁状态，传感器检测到门禁前有人逗留时，系统自动点亮触摸显示屏，并通过扬声器播放问候语音，麦克风等待接受用户说话语音，并将用户语音发送给声纹识别模块。

CN102760434A(公开日2012年10月31日)公开了一种声纹特征模型的更新方法和终端，获取包含至少一个说话者的原始音频流，根据预设的说话人分割与聚类算法，获取该原始音频流中该至少一个说话者中每一个说话者的分别的音频流，将该至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配，获取匹配成功的音频流。

CN104376619A(公开日2015年2月25日)公开了一种应用于第一设备的监控方法，该第一设备安装在门上或门外，具有第一采集单元。首先由第一设备采集门外的图像和声音信息，该第一采集单元可为图像或声音采集设备，当有访客进入距离防盗门的一定区域内，第一采集单元捕捉到访客的来访画面时进行录音和实时拍摄，并将上述图像和声音信息传送给安装在第一设备中的信息处理装置，由此判断访客的身份。

通过对现有技术的分析可以发现，现有技术中没有门禁和安静环境监控的一体化系统，现有技术的门禁系统只是门禁作用，声纹模型需要事先进行专门训练获得，对于安静环境中多人说话的语音分割、聚类和提取方式还有改进的余地，特别是对于用于已知固定人员的声纹识别，没有专门的方法和系统。

目前，指纹识别、虹膜识别、人脸识别等技术在门禁打卡等领域的应用，语音相对于这些识别技术，有以下优势：

1、语音作为自然产生的信号，而不是人身体的组成部分，通常而言对用户不会产生伤害或者额外的威胁。

2、随着智能设备，或者嵌入式系统的智能化，以及移动互联网的发展，信号采集的难易程度，往往决定着产品的成本，易用性和用户的直观体验。随着麦克风的普及，语音信号的采集和传输，决定了语音信号是相对最易获取采集的信号，采集过程也十分简单，在实际应用当中，声卡麦克风的成本也极其低廉。

另一方面，端点检测检测活动语音信号已得到广泛的应用；说话人分段聚类和说话人识别技术作为最为有效的语音分析技术，可以实现省人力，高可靠性的宿舍安静环境自动监控。

除了之外，对于任何需要进行身份识别进入的封闭区域，特别是在不可视环境下，也需要对于安静环境保持情况进行监控，比如，不可视环境下，住院病人的夜间监护，当其他手段不方便使用时，病人直接的呼叫最为有效，而通过声音的识别和监控，通过呼叫的声音就能确定病人，可以为医护人员提供快速的指引。

发明内容

本发明主要应用于学校住宿学生的宿舍安静环境(休息环境比如睡眠时段)的监控，但是本发明的应用场景不限于此，对于任何需要身份识别进入的封闭环境以及所述封闭环境需要安静环境监测的场景，本发明的方法和系统都适用。

本发明的方法和系统通过门禁系统同的语音识别过程中因为用户(学生)每次读不同的提示文本而采集用户的声纹信息并且逐渐建立每个用户的声纹模型而无需进行专门的声纹模型训练，提高了效率节约了人力成本。本发明还改进了分段聚类的方法，提高聚类的效率和准确率。本发明还对相关的其他方面进行了改进。本发明还通过对于固定空间人员信息的管理，提高了识别的效率和准确率。本发明的技术方案具体内容如下：

本发明提供了一种基于语音识别和声纹识别的学生宿舍智能语音门禁和安静环境监控方法，包括以下步骤：

—语音门禁识别步骤，用于在门禁前进行语音验证，对于采集到的待验证人的音频先后进行语音识别和声纹识别；

—安静环境监控步骤，用于在安静环境中进行语音监控，先后包括端点检测、说话人分段聚类和声纹识别；

—中央处理步骤，用于对于语音门禁识别步骤和安静环境监控步骤的数据进行处。

所述语音门禁识别步骤，进一步包括：

aa)待验证人触发声纹验证；

ab)弹出验证字符串；

ac)待验证人念读所述验证字符串；

ad)录取所述念读的音频，首先通过语音识别识别是否说的为正确的字符串，接着采用声纹验证是否为有效的验证人，由此判断是否打开门禁。

所述安静环境监控步骤，进一步包括：

ba)在规定时间段开启监控；

bb)启动端点检测，判断是否为安静环境；

bc)如果判断为非安静环境，通过端点检测这段音频；

bd)对于检测到的所述这段音频，进行说话人分段聚类分析，分析之后将分别区分并得到不同说话人各自的音频数据；

be)根据已经保存的声纹模型，通过声纹识别对于所述音频数据中的每个音频进行声纹识别，以得到音频发出者的身份信息；

bf)将所述身份信息及其发出的音频数据和发出时间等信息发送并显示给管理者。

在所述步骤bd)中，

所述说话人分段聚类分析包括说话人分割步骤、说话人聚类步骤和声纹识别步骤；

所述说话人分割步骤用于找到说话人切换的转折点，包括单一转折点的检测和多个转折点的检测；

所述单一转折点检测包括基于距离的顺序检测、交叉检测和转折点确认；

所述多个转折点检测用于找到整段语音中的多个说话人转折点，在所述单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗，长度为5-15秒，在窗内作单转折点检测；

步骤2)：若在上一步骤没找到说话人转折点，则将窗向右移动1-3秒，重复步骤1，直到找到说话人转折点，或者语音段结束；

步骤3)：若找到说话人转折点，则记录此转折点，并将窗口起始点设到此转折点上，重复步骤1)-步骤2)。

所述转折点的确认公式：

sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值；

其中，通过利用说话人的距离曲线起始到交叉点的这段区域，公式中的d(i)就是这一端区域内计算出来的距离，若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。

在所述语音门禁识别步骤中，弹出的验证字符串为随机生成的多位字符串，每次需要念读的信息都是不固定的。

所述端点检测通过360度环形麦克风阵列来实现，以保证音频采集的灵敏度和采集的音频的质量。

在所述步骤ad)录取所述念读的音频的基础上，所述语音门禁识别步骤还包括步骤ae)：

对于每个验证人，将每次所述念读的音频保存为验证人声纹模型训练音频，直到验证人声纹模型构建成功。

所述步骤be)的声纹模型是在所述步骤ae)保存的音频数据的基础上训练得到的。

待验证人在触发声纹验证时，同时启动面部图像采集，采集待验证人的面部图像，获得面部图像后，在中央处理步骤进行比对，获得待验证人的信息，并且将采集的语音信号与所述注册信息进行关联，形成关联数据库。

当待验证者进入封闭环境以后，激活待验证者的信息，对于那些已经注册但是没有进入宿舍的人员，系统不激活他们的信息，但是将他们的信息发送给管理者。

在所述步骤be)中，首先与激活的这些信息进行对比；

如果经过比对，没有在激活人员里找到匹配的人员信息，就扩大到所有注册人员进行比对，如果比对成功，产生提示非法进入或者未有效打卡的提示；

如果没有比对成功，就产生非法闯入的警示信息。

在封闭环境的每个单元中设置：

至少一个环形麦克风阵列；

环境亮度识别单元，用于检测宿舍环境的亮度，自动开启或关闭监控；和

与被监控环境中人员进行交流的声音播放装置。

所述中央处理步骤将所述身份信息及其发出的音频数据和发出时间信息发送并显示给管理者，传输到与系统后台或者中央处理步骤关联的监控装置，供监控者直观方便的进行相应的管理，便于采取相应的管理措施。

一种语音门禁和安静环境监控系统，包括语音门禁识别模块、安静环境监控模块和中央处理模块，

所述语音门禁识别模块，用于在门禁前进行语音验证，对于采集到的待验证人的音频先后进行语音识别和声纹识别；

所述安静环境监控模块，用于在安静环境中进行语音监控，依次包括端点检测、说话人分段聚类和声纹识别；

所述语音门禁识别模块和安静环境监控模块均与中央处理模块相连接。

所述安静环境监控模块进一步包括说话人分割模块、说话人聚类模块和声纹识别模块；

所述说话人分割模块用于找到说话人切换的转折点，包括单一转折点的检测和多个转折点的检测；

所述转折点的确认公式：

sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值；

所述语音门禁识别模块设置在封闭环境的门外，包括用于采集音频的麦克风、用于触发门禁识别的按钮、和用于显示字符串的显示装置。

所述语音门禁识别模块还包括与待验证者交互的语音播放装置；

使用红外检测单元替代所述按钮，使得当有待验证者接近时自动开启系统验证。

所述语音门禁识别模块进一步包括面部图像采集装置，用于采集待验证者的头像。

所述语音门禁识别模块进一步包括连接移动终端的接口，所述移动终端通过接口连接后，所述的麦克风、按钮、显示装置和面部图像采集装置的功能由移动终端的麦克风、屏幕虚拟按钮、显示屏、摄像头实现。

所述移动终端安装有实现语音门禁识别功能的APP或者PC软件客户端。

所述移动终端通过有线或无线方式与门禁开闭系统连接，以根据验证的结果决定开闭门禁系统。

待验证人在进门前，通过触发门禁识别的按钮，启动语音识别，面部图像采集装置同步开启，采集待验证人的面部图像，获得面部图像后，发送到中央处理模块，由中央处理模块进行比对，获得待验证人的注册信息，并且将采集的语音信号与所述注册信息进行关联，形成关联数据库。

当待验证者进入封闭环境以后，系统就激活待验证者的信息，对于那些已经注册但是没有进入宿舍的人员，系统不激活他们的信息，但是将他们的信息发送到系统管理者。

系统在进行对比时首先与激活的这些信息进行对比；

如果没有比对成功，就产生非法闯入的警示信息，管理员可以通过语音交互进行信息的确认。

所述安静环境监控模块设置在封闭环境的每个单元中，包括至少一个环形麦克风阵列。

与被监控环境中人员进行交流的声音播放装置。

所述中央处理模块单独设置在系统后台，可以与所述语音门禁识别模块一体设置；或者与所述安静环境监控模块一体设置，用于处理和显示所述安静环境监控模块获得的监控信息。

所述中央处理模块将所述身份信息及其发出的音频数据和发出时间信息发送并显示给管理者，传输到与系统后台或者中央处理模块连接的监控装置，供监控者直观方便的进行相应的管理，便于采取相应的管理措施。

本发明的宿舍智能门禁与安静环境自动监控系统凭着语音的先进技术，使得门禁和监控信息数据的采集变得安全方便且简单，使得监控的指标变得直观有效，并且帮助学校宿舍管理变得简单方便却又可靠有效。

附图说明

图1为根据本发明的系统架构示意图；

图2为根据本发明的语音门禁识别步骤示意图；

图3为根据本发明的安静环境监控步骤示意图；

图4为根据本发明的另一语音门禁识别步骤示意图；

图5为根据本发明的语音模型训练示意图；

图6为根据本发明的语音模型构建示意图；

图7为根据本发明的语音模型关联示意图；

图8为根据本发明的语音验证示意图；

图9为根据本发明的声纹模型训练步骤示意图；

图10为根据本发明的i-vector训练示意图；

图11为现有技术中传统的固定波束成形系统示意图；

图12为本发明波束成形方法中计算通道最佳时延的时间间隔取值示意图；

图13为根据本发明的说话人分段聚类流程示意图；

图14为根据本发明的单一转折点检测流程图；

图15为根据本发明的基于距离的顺序检测示意图；

图16为根据本发明的顺序检测距离曲线图；

图17为根据本发明的寻找第二说话人语音模板示意图；

图18为根据本发明的交叉检测说话人转折点示意图；

图19为根据本发明的错误的转折点检测示意图；

图20为根据本发明的转折点确认示意图；和

图21为根据本发明的IHC算法框图。

具体实施方式

以下将结合附图，对本发明的具体实施方式进行进一步详细描述。

如图1所示，本发明的语音门禁和安静环境监控系统，包括：语音门禁识别模块、安静环境监控模块和中央处理模块，所述语音门禁识别模块和安静环境监控模块均与中央处理模块相连接。所述中央处理模块可以对所述两个模块进行控制，他们之间可以通过有线方式或者无线方式进行连接，可以是有线网络或者无线网络方式。

所述语音门禁识别模块设置在封闭环境的门外，包括用于采集音频的麦克风、用于触发门禁识别的按钮、用于显示字符串的显示装置、和面部图像采集装置等。优选的，所述语音门禁识别模块还可以包括与待验证者交互的语音播放装置。

所述麦克风可以是单声道麦克风，通常设置在门外侧，以方便采集门禁语音数据，所述麦克风也可以是其他移动设备比如手机的麦克风。

所述按钮可以是触摸式按钮，也可以使用红外检测单元替代，使得当有待验证者接近时自动开启系统验证。

所述显示装置可以是各种常用的显示器或者显示屏，或者手机或者其他移动设备的显示屏，用于向用户显示字符串以及其他的各种提示信息。

所述面部图像采集装置可是摄像头或者照相机，摄像头可以是单独的设置的，也可以使用手机或其他移动设备的摄像头。

所述语音播放装置可以是单独设置的喇叭，也可以是手机或者其他移动设备的声音播放装置。

本发明优选的是，可以不用单独安装门禁系统有关的识别验证装置，通过一个联网的移动终端比如智能手机，即可实现门禁系统的控制。

优选的是，使用安装有语音门禁APP的移动设备比如智能手机作为识别和验证装置，可以调用智能手机的麦克风、摄像头、屏幕、按钮等，从而起到相应的作用，智能手机通过网络，比如无线网络，与所述中央处理模块连接。

所述移动终端比如手机通过有线或无线方式比如蓝牙与门禁开闭系统连接，以根据验证的结果决定开闭系统。

使用移动终端能够特别满足那些临时封闭的环境，比如临时宿舍或者门禁系统损坏后的紧急情况。

优选的，即使在正常的门禁系统之外也可以预留接口，用于连接移动终端，比如智能手机。

当待验证者进入封闭环境以后，比如宿舍以后，系统就激活待验证者的信息，对于那些已经注册但是没有进入宿舍的人员，系统不激活他们的信息，但是将他们的信息发送到系统管理者。

激活这些进入者的信息，是为了在监控阶段更方便的识别和比对语音信息。系统在进行对比时首先与激活的这些信息进行对比。

在上述整个验证识别过程中，喇叭可以向用户进行各种提示或者说明。

可选的，可以设置经常使用的各种身份卡证，比如常用的通行证，员工卡等，以此来进行身份的识别，可以替换或者辅助面部识别装置。

所述安静环境监控模块设置在封闭环境的每个单元中，比如在每个学生宿舍内，包括至少一个环形麦克风阵列。进一步的，还可以包括环境亮度识别单元，用于检测宿舍环境的亮度，自动开启或关闭监控。更进一步的，还可以包括与被监控环境中人员进行交流的声音播放装置。

所述环形麦克风阵列可以是360度环形麦克风阵列，可以设置在室内天花板中心位置或其他适合位置，方便灵敏准确的采集监控语音信号。

所述的安静环境为宿舍或者其他封闭环境，监控的开启主要是在不可视环境下或者光线较弱的环境下，当然也可以在固定的白天光线较好的时段使用。

所述中央处理模块可以单独设置在系统后台，可以与所述语音门禁识别模块一体设置，也可以与所述安静环境监控模块一体设置，可以处理和显示所述安静环境监控模块获得的监控信息。

根据采集的语音数据的来源，比如封闭区域的某个单元比如某个宿舍，中央处理模块获取这个宿舍注册的并且被激活的人员语音模型，进行快速比对，最大程度的提高识别速度和准确率。如果经过比对，没有在激活人员里找到匹配的人员信息，就扩大到所有注册人员进行比对，如果比对成功，产生提示非法进入或者未有效打卡的提示。如果没有比对成功，就产生非法闯入的警示信息，管理员可以通过语音交互进行信息的确认。

可选的是，系统中保存了异常声音模型，用于处理非正常说话声音，比如播放的足球比赛的声音、篮球比赛的声音、播放音乐的声音、或者呼叫声，比如救命声、呼喊声、火情等声音模型，以便于在紧急情况下也可能提供安全防护。

所述中央处理模块将所述身份信息及其发出的音频数据和发出时间等信息发送并显示给管理者，比如将这些喧闹时间段、喧闹程度、喧闹者身份等传输到与系统后台或者中央处理模块连接的监控装置，供监控者直观方便的进行相应的管理，便于采取相应的管理措施。

管理者可以通过APP客户端或者PC软件客户端接收这些信息，或者正在设置好的显示或监控屏幕上进行显示。

本发明的系统中所述语音门禁识别模块、安静环境监控模块、和中央处理模块在基于ARM架构的Linux嵌入式系统中集成。本发明的系统中所述语音门禁识别模块、安静环境监控模块、和中央处理模块集成在嵌入式系统中。

如图2-4所示，本发明的语音门禁和安静环境监控方法，包括以下步骤：

包括以下步骤：

—安静环境监控步骤，用于在安静环境中进行语音监控，先后包括端点检测、说话人分段聚类和声纹识别。

所述语音门禁识别步骤，进一步包括：

aa)待验证人触发声纹验证，比如通过按压用于触发门禁识别的按钮，或者通过红外自动感应，或者通过用户刷通行卡；

ab)弹出验证字符串，所述验证字符串为随机生成的多位字符串，每次验证的信息都不是固定的；

ac)待验证人念读所述验证字符串；

可选的是，可以事先训练注册人(验证人)的声纹模型，所述有效验证人即判断是否为事先已经注册的注册人之一。

但是，通常对于大量学生集中采集或者进行声纹注册费时费力，而且还存在不准确的可能，需要反复进行操作，效率极低。因此，本发明优选的是，通过收集和保存待验证人每次念读所述验证字符串的音频，逐步建立每个人的语音模型。对于每个验证人，将每次所述念读的音频保存为验证人声纹模型训练音频，直到验证人声纹模型构建成功

所述安静环境监控步骤，进一步包括：

ba)在规定时间段开启监控，比如对于学生宿舍，在晚上熄灯或者其他任何学生休息时间段内，安静环境监控模块自动启动，开启监控模式；

可选的，可以设置室内亮度检测单元，用于根据室内亮度情况，自动切换监控模块；

bb)启动端点检测，判断是否为安静环境，比如通过语音端点检测监控宿舍内是否有人说话喧闹；所述端点检测通过360度环形麦克风阵列来实现，以保证音频采集的灵敏度和采集的音频的质量；

bc)如果判断为非安静环境，通过端点检测这段音频；

所述声纹模型是在所述步骤ae)保存的音频数据的基础上训练得到的；

具体的，将所述身份信息及其发出的音频数据和发出时间等信息发送并显示给管理者，比如将这些喧闹时间段、喧闹程度、喧闹者身份等传输到与系统后台或者中央处理模块连接的监控装置，供监控者直观方便的进行相应的管理，便于采取相应的管理措施。

可选的是，本发明的监控方法和系统还可以用于其他相关服务，特别是不可视环境中的语音服务，比如学生宿舍紧急状态下的呼救，可以通过获取和分析呼救者的音频向系统管理者提供报警或警示服务等。

所述的监控装置可以以文本信息、语音信箱或图片信息的方式通过发射设备进行传输，比如以短信、彩信、微信等通信方式。

根据本发明的方法，在语音门禁识别的所述步骤ad)中，采用识别随机数字串的方式，相对于固定文本方式，可以用来防止伪冒人利用录音通过门禁验证。

如图4所示，对于采集的念读音频的语音识别过程。其中，所述训练模型所使用的数据是通过与语音门禁识别相同的麦克风采集的或者直接由所述麦克风采集的。采用相同的麦克风进行采集，可以减小信道差异对识别结果的影响。

根据本发明的方法，所述安静环境监控中的步骤be)使用的声纹识别技术与所述语音门禁识别中的步骤ad)采用的声纹技术一样，包括如下步骤：

(一)模型训练步骤；

(二)个人模型注册步骤；和

(三)验证步骤。

以下具体描述各个步骤的具体执行方式：

(一)模型训练步骤

如图5所示，模型训练步骤主要就是预先使用大量有标注的说话人数据训练出一个文本无关说话人确认系统相关的全局模型。此步骤在注册步骤和验证步骤之前离线完成。

所述说话人数据可以通过收集有效的每次念读音频获得。本发明中优选的是，通过收集有效的每次所述念读音频进行训练模型数据的采集，这样可以大大节约音频数据的采集时间，节约人力和物力，而且可以改进用户体验。

进一步的，通过这样的采集方式，使得系统逐渐和持续完善和改进训练模型，可以不断提高语音识别的准确率。

此外，从管理的角度，系统逐渐完善的过程也给了管理者和被管理者一个接受这种监控的缓存时间。

(二)个人模型注册步骤

如图6和图7所示，此步骤使用训练好的声纹模型，将新来的目标声纹注册人添加到模型数据库中。

(三)验证步骤

如图8所示，此步骤将待验证说话人的语音数据进行与注册步骤同样的处理后，与相应宿舍内学生的模型进行比对，判断是否为该宿舍的学生之一，然后决定是否验证通过。本发明中优选的是，对于通过验证的学生，激活其有关信息，以方便监控过程中使用，可以提高识别速度和准确性。

对于所述模型训练步骤(一)，本发明采用了i-vector/PLDA文本无关说话人确认方式。

如图9所示，所述声纹模型训练，包括：(1)MFCC特征提取、(2)GMM-UBM建模、(3)i-vector提取器训练、(4)PLDA训练。

图9中所示的参数，比如(θ)、(T)、(Φ,Σ)是第一训练步骤训练出来的，也就是所谓的声纹模型。

(1)MFCC特征向量提取

所有原始的语音数据需要采用数字信号处理技术提取出可代表原始语音数据相关特性，并可供计算机计算的特征向量，本发明采用语音特征参数MFCC特征向量(梅尔频率倒普系数)。

(2)GMM-UBM建模

UBM是由大量各种类型的说话人的语音特征参数(MFCC)训练而成的通用背景模型。本发明采用GMM-UBM(高斯混合模型-通用背景模型)进行建模。

如公式(1)所示，GMM-UBM可用m个D维的高斯密度函数的线性加权表示，其中，M【高斯个数】，D【MFCC维数】都是事先可以设定或者知道的：

xi表示特征中的第i个分量，j表示第j个高斯，i＝0,1,…,D；j＝1,…,M。

公式(1)中，pj为多维正态分布：

那么，GMM-UBM模型就是指求得最优的θ＝{αj，μj，Σj}参数，使用期望最大化算法(Expectation Maximum，EM)对最优θ进行估计。

所谓模型就是一些参数，这里的参数就是指αj，μj，Σj(j＝1到M)了，为了方便统一全部用θ来表示，那么建模就是求最优的θ，求的方法就是EM算法，求出来了，就完成建模了，这个θ就是模型。

(3)I-vector提取器训练：

在训练之前，将提取的语音的MFCC特征向量投影到GMM-UBM模型的每个高斯分量上，并在时域内求均值，从而得到对应的Baum-Welch统计量。具体计算方式如下：

对于训练得到的GMM-UBM的参数θ＝{αj，μj，Σj}和语音的MFCC特征序列{y1，y2，···，yL}(特征序列维数为D，同GMM-UBM训练步骤)，零阶统计量N＝[N1，N2，…，NC]可以通过公式(3)计算得到：

N的维度C等于高斯混合数m。一阶统计量F＝[F1TF2T…FCT]则通过公式(4)得到：

由于N的取值并非严格意义上服从一个概率密度函数，因此需要用零阶统计量对一阶统计量进行归一化处理，公式(5)如下：

表示的是一段语音特征序列与GMM-UBM某个高斯分量的均值在时域上的平均差异。最后得到均值中心化向量：

(和N接下来的公式会用到)。

接下来需要将投影到一个低秩的总体差异空间中：

这个T是一个矩阵，就是i-vector提取器需要训练出来的一个参数。

这个T的估计(训练)算法：

对于给定的第j句语音段，隐含变量的先验分布和条件分布服从公式(8)表示的多维高斯分布：

其中，Σ是一个维度为CD*CD的对角协方差矩阵；

使用EM算法(GMM-UBM也采用过类似的算法)对T进行估计，得到最优的T。

(4)PLDA训练

提取i-vector特征向量：

在进行PLDA训练前，需要先提取i-vector特征向量，使用i-vector来训练。提取方法如下：

根据公式(7)训练出来T之后就可以将投影到T上，得到隐含变量x了：

这个x就是需要提取的i-vector特征向量。

PLDA训练：

PLDA是概率形式线性鉴别分析方法的英文缩写。它利用说话人标注数据进行训练，并严格区分说话人类间差异和说话人类内差异。

对于训练数据中的第i个人的第j个i-vector现在用η_ij表示。PLDA方法认为i-vector数据可以由一个低维空间内的隐含变量产生，表示为：

η_ij＝Φβ_i+ε_ij……(10)

Φβ_i由说话人类间差异子空间描述，它的大小只依赖说话人身份，即同一个人是相同的。ε_ij是噪声项，它的大小除了跟说话人的身份有关，还依赖与其它能影响说话人类内差异的因素，因此每一句话都会有区别。

设第i个说话人有Mi个i-vector，可以计算出对应说话人的充分统计量：

对于第i个说话人，隐含变量β的先验概率和条件分布均服从多维高斯分布：

如图10所示，与i-vector训练方法类似，采用EM算法来估计参数，由此可以得到【φ，Σ】的最优值。在得到了这些参数后，就可以根据公式(10)求得β。

对于所述个人模型注册步骤(二)：

i-vector/PLDA文本无关说话人确认系统训练完毕之后，注册人的个人模型其实就是根据i-vector/PLDA文本无关说话人确认系统的流程，求得公式(10)中的βi。

步骤顺序：原始语音->MFCC->i-vector->β。

对于所述验证步骤(三)：

对于待验证人的语音数据，同样采取注册过程一样的步骤，得到待验证人的β，现在有待验证人的β和某个宿舍4个人的β1-4(假设一个宿舍4人)，那么用待测试者的β(下面用βj表示)和4个人的β都做比对打分，下面假设跟某一个人(用βi表示)打分的情况：

使用贝叶斯推理中的假设验证理论，计算两个i-vector由同一个隐含变量β产生的似然度最为最后的分数。具体计算过程如下：

H1为假设两个i-vector来自同一个说话人，即βj＝βi；H0为假设两个i-vector是不同说话人产生的，即βj≠βi；

根据公式(*)，使用对数似然比计算最后的得分：

最后将得分score与设定的阈值比较，来判断是否为为同一说话人。

本发明的系统中，采用360度麦克风阵列来精准灵敏的采集语音数据。往往在语音数据的采集过程当中，混响和背景噪声等等环境因素干扰影响较大，大多数采集的语音都为带噪语音。

本发明的系统中，对于语音的纯净程度，语音信号捕获的灵敏性等要求较高，采用多个麦克风组成的阵列，对来自不同方向的通道信号进行时间和空间上的处理，将提高信噪比，得到更为干净清晰的语音数据。

采用麦克风整列进行语音增强，提升信噪比的方法主要采用维纳滤波、波束成形。

维纳滤波可以针对每一个麦克风采集的数据，通过滤波去除噪声。本发明采用了维纳滤波算法对每一个麦克风采集的被平稳噪声污染的信号进行降噪。

波束成形就是将每个麦克风的信号延时叠加波束成形。如图11所示，为传统的固定波束成形系统示意图。所述传统的系统包括：延时补偿、以及加权求和两个部分，可以使用公式(15)进行描述：

在此，y(n)表示波束成形之后的信号，M为麦克风数，αi为第i个麦克风的权重，Δti表示声源到第i个麦克风阵元与到阵列参考阵元的时间差。

所述传统的固定波束形成方法：首先，对阵列中各个麦克风上接收到的信号给予时间补偿，使各通道的语音信号同步；然后，对各通道的信号进行加权以及平均，在此加权系数αi为一固定常数，通常可取1/M，这也是传统的方法叫做固定波束成形的由来。加入时间延迟补偿单元Δt_i只改变接收信号的相位，抵消不同位置的麦克风在接收方向声波的延迟，使各通道的语音信号同步，这样它们在求和输出中的贡献是相同的。

本发明在所述传统的固定波束成形方法的基础上，做了三方面优化：(1)参考通道的选择，(2)每个通道的N个最佳时延的计算，(3)采取动态通道权重计算方法，而不是固定的1/M。

根据本发明优化的波束成形方法，输出信号y[n]使用公式(16)进行描述：

其中，

W_m[n]是第m个麦克风在n时刻的相对权重，在n时刻所有权重和为1。

x_m[n]为第m个通道在n时刻接收到的信号。

TDOA^(m,ref)[n]为第m个通道相对于参考通道的时延，用于将信号在n时刻对齐。实际上，TDOA^(m,ref)[n]是每几帧都用互相关方法计算一次的，在此使用的互相关时延估计法是GCC-PHAT(Generalized Cross Correlation with Phase Transform)。

(1)参考通道的选择：

本发明使用的优化的波束形成算法能够自动地找到距离声源最中间的、质量最好的麦克风通道，并将此通道作为参考通道。

为了找到参考通道，本发明使用一个参数作为衡量标准，该参数是基于每个通道i与其他所有通道j＝1...M，j≠i的时间平均的互相关函数。如果输入的音频有s帧，那么本发明计算该参数的时候把s帧分成200段，即s/200，每次计算1s的长度，下次计算的时候向右移动s/200的帧距离。如公式(17)所示：

其中，M为麦克风阵列总的通道数，K＝200(将音频文件分成200段)，作为分母每次计算完再对K求平均。

xcorr[i,j；k]表示通道i与通道j在第k段时的互相关峰值。参考通道选取值最大的通道。

(2)每个通道的N个最佳时延的计算：

计算每个通道相对于参考通道的TDOA(Time Delay of Arrival)值的时候。如图11所示，每次取500ms数据，下次计算的时候偏移250ms再取500ms数据。这样的时间间隔使得当说话人改变的时候该算法可以快速地改变波束方向。在这里500ms的数据成为分析窗，250ms成为分析段，因此500ms的数据包括了当前的分析段与下一个分析段。

实际上分析窗和分析段的大小需要做一个平衡。一方面，大的分析窗或者分析段将降低TDOA的准确度。另一方面，使用小的分析窗将降低整个算法的鲁棒性。分析窗如果太小，将提高系统的计算复杂度同时却不能提高输出信号的质量。分析窗与分析段的大小往往由经验决定，在500ms分析窗以及250ms分析段的条件下，该算法表现良好。

假设有两个信号x_i(n)【第i个麦克风采集的信号】和x_ref(n)【参考麦克风采集的信号】，这两个信号的GCC-PHAT可以使用以下公式(18)计算：

其中，

X_i(f)和X_ref(f)为两个信号的傅里叶变换，F^-1表示反傅里叶变换，[]^*表示取复数共轭，|·|表示取模运算。

即信号i和信号ref的互相关函数，由于做了幅值标准化，该互相关函数的取值范围为0到1.

那么，两个麦克风信号i和ref的时延可以使用以下公式(19)表示：

其中，下标1表示第一个最佳时延，因为在该波束形成算法中会计算N个最佳时延，这样以作区别。只取1个最佳时延就是最大化(19)，N＝4就是选公式(19)中使前4大的d1到d4。

尽管两个信号在某个分析窗的最大值被计算出来了，这个值对应的时延并不总是指向正确的说话人。在这个波束形成系统中，每两个信号的每个分析窗都会算出N个相对最大的在在此N取4(也可以修改成其他值)，在做加权求和之前，会从这N个最佳时延里选出最合适的时延。

(3)动态通道权重计算方法：

因为实际上每个麦克风阵列的特性都不一样，导致录音的加性噪声功率谱密度分布不一样。而且，如果两个麦克风相距太远，由于录音房间的冲激响应，两个麦克风的噪声特性以及噪声的幅值也不一样。这个问题可以通过自适应通道权重来解决。第m个通道第c个分析窗的权重(分析窗概念参见前述优化)可以用下式(20)表示：

其中，α为自适应系数，经验性地设置为α＝0.05。

为通道m和其他已经过最佳时延处理的通道的平均互相关值。

至此，通过麦克风阵列的前段维纳滤波和波束成形可以得到一个干净清晰的语音音频，这也是后续处理得到精准结果的保障。

根据本发明的方法，所述步骤bc)的所述端点检测的目的是从采集到的音频信号中判断出有语音的部分和静音部分，本发明采用基于短时能量的端点检测方法。因为在封闭环境下，比如学生宿舍环境下，一般没有其他嘈杂的噪声，得到的信号信噪比较高，基于短时能量的端点检测方法在保证检测准确度的情况下，实现起来更加简单，对硬件需求更低。

短时能量：

一段音频的时域信号的采样点为s(l)，经过加窗处理后的到第n帧的第m个采样点位Sn(m)，现用E(n)表示第n帧的短时能量，则：

其中，n表示第几帧，N表示每帧中采样点的个数。

计算每帧的短时能量之后，通过与事先设定的阈值比较，判断其为静音帧或者有语音的帧。通常，一段信号静音的部分能量较低，有人说话的部分能量较高。

经过上述端点检测处理之后，只提取有语音的部分，去掉静音部分，对提取的有语音的部分进行说话人分段聚类和声纹识别处理。根据本发明的方法，所述步骤bd)中说话人的分段聚类包括步骤：(一)说话人分割和(二)说话人聚类。

如图13所示，说话人分段聚类流程示意图。

说话人分割的目的是找到说话人改变时的转折点，使得输入语音按说话人被分割成语音段：分段1，分段2，分段3…，分段N(举个例子，分段1，分段3可能是同一个人的语音，但是因为中间有另一个人的语音，所以按说话人转折点切开)，而每个语音段中仅包含单一说话人的语音数据；说话人聚类的目的是将相同说话人的语音段聚集，使得每一类只包含一个说话人的数据，并使每个人的数据尽可能的在一类数据中(上面的例子，分段1和分段上就可以合在一起)

本发明说话人聚类采用LSP特征来进行，即通过原始语音提取出LSP(LineSpectrum Pair)特征数据，进行后面的计算。

(一)说话人分割

说话人分割的重点就是找到说话人切换的转折点，其中包括单一转折点的检测和多个转折点的检测：

(1)单一转折点检测：

如图14所示，单一转折点检测包括以下步骤：语音特征段提取、基于距离的顺序检测、交叉检测、和转折点确认。所述的语音特征段提取与前述相应的方式相同，或者可以直接使用前述提取的语音特征，在此不再赘述。

1)基于距离的顺序检测：

如图15所示，为基于距离的单转折点顺序检测示意图。该检测方法假设：在语音段最初的一小段时间间隔内，不存在转折点。首先取语音最开始时的语音段(1-3秒)作为模板(Template)窗口，之后将此模板和每个滑动片段(长度和模板的相同)作距离计算，本发明采用“广义似然比”作为度量的距离，可获得距离曲线，其中d(t)表示t时刻的滑动窗口与说话人1的模板窗口之间的距离值。

如图16所示，顺序检测后的距离曲线。由图16中观察可发现，当滑动窗口在第一个说话人的范围内时，模板段和移动窗口均为第一个说话人的语音，所以距离值较小。当移动窗口到达第二个说话人的范围内时，滑动窗口变为第二个说话人的语音，因此距离值逐渐增大。因此可假设在距离值最大时，其附近有第二个说话人的语音的可能性最大。

2)交叉检测：

如图17所示，在顺序检测完成后，通过寻找距离曲线的最大值点来确定第二个说话人的模板窗口。

在找出第二个说话人的模板后，采用前述同样的方法即可得到第二条距离曲线。如图18所示，两条曲线交叉处即为说话人转折点。

3)转折点确认：

如图19所示，在交叉检测时，如果错误的将第一个说话人的语音作为第二个说话人的语音模板，则可能产生虚警错误。为了减少虚警错误，需要对每个转折点进行进一步的确认。转折点的确认如公式22所示：

上述公式中，sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值。

其中，通过利用说话人2的距离曲线起始到交叉点的这段区域(如图20中方框部分所示)，公式(22)中的d(i)就是这一端区域内计算出来的距离。若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。

(2)多个转折点检测：

找到整段语音中的多个说话人转折点，可在单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗(长度为5-15秒)，在窗内作单转折点检测。

步骤2)：若在上一步骤没找到说话人转折点，则将窗口向右移动(1-3秒)，重复步骤1，直到找到说话人转折点，或者语音段结束。

通过上述步骤，可以找到多个说话人的所有转折点，并据此分段为：分段1到分段N。

由此，通过上述单一转折点的检测和多个转折点的检测完成说话人的分割。

(二)说话人聚类

在完成说话人分割后，接下来，说话人聚类将这些分段聚类，相同说话人的分段合在一起：说话人聚类是聚类技术在语音信号处理方面的一个具体应用，其目的是通过对语音段进行分类，使得每一类只包含同一说话人数据，并且同一说话人的数据都被归并到同一类中。

对于所述的分段聚类，本发明提出一种改进的层次聚类方法(ImprovedHierarchical Clustering，IHC)，该方法通过最小化类内误差平方和进行合并和确定类别数目，具体步骤如图21所示：

考虑一个语音段的集合X＝{x₁,x₂,…,x_N}，其中x_n表示一个语音段对应的特征序列。XN表示那个集合的最后一个特征，而Xn泛指。“其中x_n表示一个语音段对应的特征序列。”意思就是集合里面的每一个x都是一个特征序列。说话人聚类意味着要找到集合X的一个划分C＝{c₁,c₂,…,c_K}，而c_k中只包含一个说话人的语音数据，并且来自同一个说话人的语音段仅被划分到c_k中。

(1)计算距离：

与确定说话人转折点的计算距离方法一样，采用“广义似然比”作为度量的距离。

(2)改进的误差平方和准则：

误差平方和准则即为类内误差平方和最小为准则。在说话人聚类应用中，同一说话人的数据间的距离比较小，而不同说话人数据间的距离比较大，因此误差平方和准则能取得较好的效果。

综上所述，IHC算法的第一步是以距离度量为相似度，以改进的误差平方和准则为准则函数，逐步地两两合并，最终形成一个聚类树。

(3)类别确定：

在说话人聚类中，一个重要的环节就是自动确定数据中客观存在的类别数目，即确定有多少个说话人。本发明采用了一种基于假设检验的类别确定方法，该方法利用假设检验的原理，对聚类树上的每一个合并操作进行检验，检查其合并的合理性，从而确定最终的类别数目。一旦发现有不合理的合并，就认为合并前的类别数目为最终的说话人类别数目。

对于(1)(2)采用了不同的距离计算方法和不同的聚类准则，可以提升聚类的正确性与效果；(3)采用基于假设检验方法，使得聚类的时候不需要认为指定类别个数，因为往往无法事先确定说话的有多少人，但是采用这种方法，就可以根据实际情况，聚成相应的几个类。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

Claims

1.一种语音门禁和安静环境监控方法，包括以下步骤：

—中央处理步骤，用于对于语音门禁识别步骤和安静环境监控步骤的数据进行处理；

所述语音门禁识别步骤进一步包括：

aa)待验证人触发声纹验证；

ab)弹出验证字符串；

ac)待验证人念读所述验证字符串；

ad)录取所述念读的音频，首先通过语音识别识别是否说的为正确的字符串，接着采用声纹验证是否为有效的验证人，由此判断是否打开门禁；

所述安静环境监控步骤进一步包括：

ba)在规定时间段，开启监控；

bb)启动端点检测，判断是否为安静环境；

bc)如果判断为非安静环境，通过端点检测这段音频；

bf)将所述身份信息及其发出的音频数据和发出时间信息发送并显示给管理者；其中，

待验证人在触发声纹验证时，同时启动面部图像采集，采集待验证人的面部图像，获得面部图像后，在中央处理步骤进行比对，获得待验证人的信息，并且将采集的语音信号与注册信息进行关联，形成关联数据库；

2.根据权利要求1所述的方法，其特征在于，在所述步骤bd)中，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

5.根据权利要求2所述的方法，其特征在于，在所述步骤ad)录取所述念读的音频的基础上，所述语音门禁识别步骤还包括步骤ae)，

即，对于每个验证人，将每次所述念读的音频保存为验证人声纹模型训练音频，直到验证人声纹模型构建成功。

6.根据权利要求5所述的方法，其特征在于，所述步骤be)的声纹模型是在所述步骤ae)保存的音频数据的基础上训练得到的。

7.根据权利要求6所述的方法，其特征在于，

在所述步骤be)中，首先与激活的这些信息进行对比；

如果没有比对成功，就产生非法闯入的警示信息。

8.根据权利要求2所述的方法，其特征在于，在封闭环境的每个单元中设置：

至少一个环形麦克风阵列；

与被监控环境中人员进行交流的声音播放装置。

9.根据权利要求2所述的方法，其特征在于，

10.一种语音门禁和安静环境监控系统，包括语音门禁识别模块、安静环境监控模块和中央处理模块，其特征在于：

所述语音门禁识别模块和安静环境监控模块均与中央处理模块相连接；

步骤3)：若找到说话人转折点，则记录此转折点，并将窗口起始点设到此转折点上，重复步骤1)-步骤2)；

待验证人在进门前，通过触发门禁识别的按钮，启动语音识别，面部图像采集装置同步开启，采集待验证人的面部图像，获得面部图像后，发送到中央处理模块，由中央处理模块进行比对，获得待验证人的注册信息，并且将采集的语音信号与所述注册信息进行关联，形成关联数据库；

11.根据权利要求10所述的系统，其特征在于：

12.根据权利要求11所述的系统，其特征在于：

13.根据权利要求11所述的系统，其特征在于：

14.根据权利要求13所述的系统，其特征在于：

15.根据权利要求14所述的系统，其特征在于：

16.根据权利要求15所述的系统，其特征在于：

17.根据权利要求16所述的系统，其特征在于：

系统在进行对比时首先与激活的这些信息进行对比；

18.根据权利要求16所述的系统，其特征在于：

19.根据权利要求10所述的系统，其特征在于还包括：

与被监控环境中人员进行交流的声音播放装置。

20.根据权利要求19所述的系统，其特征在于还包括：

21.根据权利要求20所述的系统，其特征在于还包括：