CN104361311A

CN104361311A - 多模态在线增量式来访识别系统及其识别方法

Info

Publication number: CN104361311A
Application number: CN201410500366.5A
Authority: CN
Inventors: 申富饶; 臧世博; 干强; 武慧凯; 宗延琦; 赵金熙
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-09-25
Filing date: 2014-09-25
Publication date: 2015-02-18
Anticipated expiration: 2034-09-25
Also published as: CN104361311B

Abstract

一种多模态在线增量式来访识别系统及其识别方法，包括电脑终端，所述的电脑终端同摄像头、声音传感器以及音响设备相连接，所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。并结合其识别方法可有效避免现有技术中的当人脸识别分类器识别错误时无法通过其他传感途径的交互来修正分类器、导致人脸识别效果无法在线增量式改进，严重影响用户体验以及汉字姓名没有任何语法内容导致传统的语音识别效果极差的缺陷。

Description

多模态在线增量式来访识别系统及其识别方法

技术领域

本发明属于电子地图的技术领域，具体涉及一种多模态在线增量式来访识别系统及其识别方法。

背景技术

目前需要重点开发多种新型传感器及先进条码自动识别、射频标签、基于多种传感信息的智能化信息处理技术，发展低成本的传感器网络和实时信息处理系统，提供更方便、功能更强大的信息服务平台和环境。”

随着传感器技术以及信息融合技术的发展，传统单传感器系统已经不能满足社会发展的需求，开发多传感器的实时信息融合系统成为科研技术人员的当务之急。

传统的人脸检测与识别系统在监控防盗、企业考勤、信息安全等多个方面发挥了重要的作用，但是由于摄像头单传感器交互的局限性，会产生如下问题：

当人脸识别分类器识别错误时，无法通过其他传感途径的交互来修正分类器，从而导致人脸识别效果无法在线增量式改进，严重影响用户体验。因此在传统的来访识别系统中，增加传感器进行信息融合是非常必要的。增加声音传感器(麦克风)，将人脸识别结果以语音的形式进行交互是最简单直接的做法，但是传统的语音识别存在如下问题：

语音识别需要语音输入包含足够多的语法信息，然而汉字姓名没有任何语法内容，导致传统的语音识别效果极差。

发明内容

本发明的目的提供一种多模态在线增量式来访识别系统及其识别方法，包括电脑终端，所述的电脑终端同摄像头、声音传感器以及音响设备相连接，所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。并结合其识别方法可有效避免现有技术中的当人脸识别分类器识别错误时无法通过其他传感途径的交互来修正分类器、导致人脸识别效果无法在线增量式改进，严重影响用户体验以及汉字姓名没有任何语法内容导致传统的语音识别效果极差的缺陷。

为了克服现有技术中的不足，本发明提供了一种多模态在线增量式来访识别系统及其识别方法的解决方案，具体如下：

一种多模态在线增量式来访识别系统，包括电脑终端1，所述的电脑终端1同摄像头2、声音传感器3以及音响设备9相连接，所述的电脑终端1中设置有多模态在线增量式来访识别模块4、OPENCV视觉库7、第一配置文档5、第二配置文档6、用来存放人脸识别模型数据的文件8和用于存放照片总数和照片的分类对象的属性的总数的文档。

所述的第一配置文档5包括照片的名字和照片的分类对象的属性。

所述的第二配置文档6包括人脸所对应的姓名和人脸的分类对象的属性。

所述的声音传感器3也能被话筒或麦克风替代。

所述的多模态在线增量式来访识别模块4包括用于训练的子模块、人脸检测子模块，人脸识别子模块、语音识别和合成子模块、姓名识别子模块以及人脸判断子模块。

所述的用于训练的子模块能够读取出第一配置文档5中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型；

所述的多模态在线增量式来访识别系统的识别方法，步骤如下：

步骤1：准备和初始化阶段，所述的准备和初始化阶段方法如下:

电脑终端1启动多模态在线增量式来访识别模块4来调用用于训练的子模块，用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型，并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中；

步骤2：进入初始化阶段，所述的初始化阶段包括启动人脸检测子模块，人脸识别子模块和姓名识别子模块分别进行人脸检测的初始化，人脸识别的初始化和姓名识别的初始化，具体如下：

首先启动人脸检测子模块载入OPENCV视觉库7中内置的Haar级联分类器，载入了Haar级联分类器后，然后在电脑终端1的内存中开辟一段内存空间来保存人脸图像，这样就完成了人脸检测的初始化；接着启动人脸识别子模块把照片总数和照片的分类对象的属性的总数从用于存放照片总数和照片的分类对象的属性的总数的文档中提取出来，然后从第二配置文档5中读取人脸所对应的姓名和人脸的分类对象的属性，人脸所对应的姓名和人脸的分类对象的属性也用分隔符分离，分隔符前为人脸所对应的姓名，分隔符后为人脸的分类对象的属性，人脸的分类对象的属性为自然数表示并作为该人脸的唯一标识，再接着向OPENCV视觉库7中的LBPH人脸识别器中载入用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据，这样就完成了人脸识别的初始化；最后启动姓名识别子模块来实现姓名识别的初始化，具体说来为按照<名称，类别>的key-value序列方式构造用户映射表，用户的名称为key，用户的类别为value，用户的名称和用户的类别之间是一对一或者多对一的映射关系，接着依次通过初始化COM库、创建语音识别引擎Recognizer对象、通过Recognizer对象来创建一个上下文对象、设置能将RecoContext对象与相关的消息处理函数联系起来的消息通知机制、设置语音选项、创建默认的音频输入设备对象、将音频输入对象作为识别引擎对象的音频输入源、根据规则中定义的词来最大限度的匹配从音频输入设备输入的命令来编写语法规则、载入语法规则、将语法规则对象设置成激活状态以及别的命令通过ISpVoice接口输出相应的语音信息的步骤来初始化语音识别和合成模块，对于用户名字的识别和存储，通过对以<汉字，拼音>key-value对为存储结构的表进行初始化，具体的内容是遍历原始码表Uni2Pinyin，分析原始码表Uni2Pinyin件中的信息，将其中的信息按照<汉字，拼音>的格式作为全局表存储起来，由此完成了姓名识别的初始化；

步骤3：运行多模态在线增量式来访识别系统来让摄像头2以及声音传感器3处于工作状态，首先等待被识别对象的语音输入，即用户需要通过声音传感器3传输“你好”这样的问候语句的语音信号数据来进入后续的识别阶段，所述的问候语句的语音信号数据被语音识别和合成子模块识别后，就依次执行设置激活听写状态、把识别后的问候语句的语音信号数据转化成对应的问候语句文字、把转化后的对应的问候语句文字存储在内存空间中；

步骤4：启动摄像头2不断采集环境的图片，把环境的图片送入电脑终端1中启动人脸判断子模块来调用OPENCV视觉库中的Haar级联分类器来判断是否存在人脸图像，如果存在人脸图像，保存并返回人脸部分的图像，把返回人脸部分的图像转换为灰度图像，并放缩到设定的大小以及进行归一化处理来满足后续操作的要求，最后返回归一化后的人脸部分的图像；

步骤5：人脸判断子模块继续利用保存在用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据进行人脸预测，如果预测成功，返回用户的类别所对应的用户的名称，如果预测失败，返回错误提示信息；

步骤6：如果预测的结果同用户的真实名称一致，就对用户进行成功预测的语音提示，如果预测的记过同用户的真实名称不一致，就对用户进行错误预测的语音提示，并且提示用户继续通过声音传感器输入用户的真实名称的语音数据信号，然后将该输入用户的真实名称的语音数据信号转化成文字信息，把该文字信息和用户的图像存入电脑终端，更新第一配置文档和第二配置文档，最后执行步骤1重新训练人脸识别模型；

步骤7：接着电脑终端1通过操纵音响设备9来对用户发出“你找谁”这样的询问语音，然后当用户通过声音传感器3回应的语音数据传输到电脑终端1中时，把语音数据转化成语音文本，并通过该语音文本形成确认查找该语音文本对应的用户名称的语音信号数据，并把该语音信号数据通过音响设备9播放，当用户确认要寻找该用户以后，电脑终端1通过音响设备9进行响应，而用户否认要寻找该用户以后，循环执行步骤7。

所述的用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型的具体步骤为创建一个指定位置的文件夹，在该指定位置的文件夹里添加预置的人脸图片，所述的人脸图片被用作训练人脸识别模型的初始数据，并在第一配置文档5中添加人脸图片的名字和人脸图片的分类对象的属性，所述的人脸图片的分类对象的属性为自然数表示的针对该人脸图片的唯一标识，并把每一张人脸图片的名字和该人脸图片的分类对象的属性按行存放成一条记录，每一条记录由两部分组成，两部分之间用分隔符分开，分隔符之前为人脸图片的名字，分隔符滞后为人脸图片的分类对象的属性，由此采用局部二值模式直方图的方法进行人脸识别，并将训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中。

由这些技术特征，本发明的识别方法在摄像头传感器的基础上加入声音传感器(麦克风)，将识别结果以语音形式进行输出，若识别错误或者查无此人，用户可以通过语音对话方式进行在线修正人脸分类器或者添加新的来访者数据；利用Uni2Pinyin码表进行汉字姓名识别，使得该系统可以识别并且以语音方式输出没有任何语法信息的汉字姓名。

附图说明

图l为本发明的一种多模态在线增量式来访识别系统的连接结构示意图。

具体实施方式

本发明的目的是研制自动化的高效的一种多模态在线增量式来访识别系统及其识别方法，通过附图和实施例来进行进一步的说明：

如图1所示，多模态在线增量式来访识别系统，包括电脑终端1，所述的电脑终端1同摄像头2、声音传感器3以及音响设备9相连接，所述的电脑终端1中设置有多模态在线增量式来访识别模块4、OPENCV视觉库7、第一配置文档5、第二配置文档6、用来存放人脸识别模型数据的文件8和用于存放照片总数和照片的分类对象的属性的总数的文档10。

所述的声音传感器3也能被话筒或麦克风替代。

在该多模态在线增量式来访识别系统在进行第一次识别应用之前，首先要对人脸识别模型进行训练，第一次识别应用之前的训练能够为接下来的人脸识别做初步准备，使得人脸识别模型获取初始数据以及根据分类方法确定相应的阈值，具体的为电脑终端1启动多模态在线增量式来访识别模块4来调用用于训练的子模块，用于训练的子模块首先读取出第一配置文档5中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库7中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型，并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中，其目的是为人脸识别系统添加初始的人脸库，训练初始人脸识别模型；

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种多模态在线增量式来访识别系统，其特征在于包括电脑终端，所述的电脑终端同摄像头、声音传感器以及音响设备相连接，所述的电脑终端中设置有多模态在线增量式来访识别模块、OPENCV视觉库、第一配置文档、第二配置文档、用来存放人脸识别模型数据的文件和用于存放照片总数和照片的分类对象的属性的总数的文档。

2.根据权利要求1所述的多模态在线增量式来访识别系统，其特征在于所述的第一配置文档包括照片的名字和照片的分类对象的属性。

3.根据权利要求2所述的多模态在线增量式来访识别系统，其特征在于所述的第二配置文档包括人脸所对应的姓名和人脸的分类对象的属性。

4.根据权利要求3所述的多模态在线增量式来访识别系统，其特征在于所述的声音传感器也能被话筒或麦克风替代。

5.根据权利要求4所述的多模态在线增量式来访识别系统，其特征在于所述的多模态在线增量式来访识别模块包括用于训练的子模块、人脸检测子模块，人脸识别子模块、语音识别和合成子模块、姓名识别子模块以及人脸判断子模块。

6.根据权利要求5所述的多模态在线增量式来访识别系统，其特征在于所述的用于训练的子模块能够读取出第一配置文档中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型。

7.根据权利要求6所述的多模态在线增量式来访识别系统的识别方法，其特征在于，步骤如下：

电脑终端启动多模态在线增量式来访识别模块来调用用于训练的子模块，用于训练的子模块首先读取出第一配置文档中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型，并把照片总数和照片的分类对象的属性的总数存储到用于存放照片总数和照片的分类对象的属性的总数的文档以及把训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中；

首先启动人脸检测子模块载入OPENCV视觉库中内置的Haar级联分类器，载入了Haar级联分类器后，然后在电脑终端1的内存中开辟一段内存空间来保存人脸图像，这样就完成了人脸检测的初始化；接着启动人脸识别子模块把照片总数和照片的分类对象的属性的总数从用于存放照片总数和照片的分类对象的属性的总数的文档中提取出来，然后从第二配置文档中读取人脸所对应的姓名和人脸的分类对象的属性，人脸所对应的姓名和人脸的分类对象的属性也用分隔符分离，分隔符前为人脸所对应的姓名，分隔符后为人脸的分类对象的属性，人脸的分类对象的属性为自然数表示并作为该人脸的唯一标识，再接着向OPENCV视觉库中的LBPH人脸识别器中载入用来存放人脸识别模型数据的文件中的训练好的人脸识别模型数据，这样就完成了人脸识别的初始化；最后启动姓名识别子模块来实现姓名识别的初始化，具体说来为按照<名称，类别>的key-value序列方式构造用户映射表，用户的名称为key，用户的类别为value，用户的名称和用户的类别之间是一对一或者多对一的映射关系，接着依次通过初始化COM库、创建语音识别引擎Recognizer对象、通过Recognizer对象来创建一个上下文对象、设置能将RecoContext对象与相关的消息处理函数联系起来的消息通知机制、设置语音选项、创建默认的音频输入设备对象、将音频输入对象作为识别引擎对象的音频输入源、根据规则中定义的词来最大限度的匹配从音频输入设备输入的命令来编写语法规则、载入语法规则、将语法规则对象设置成激活状态以及别的命令通过ISpVoice接口输出相应的语音信息的步骤来初始化语音识别和合成模块，对于用户名字的识别和存储，通过对以<汉字，拼音>key-value对为存储结构的表进行初始化，具体的内容是遍历原始码表Uni2Pinyin，分析原始码表Uni2Pinyin件中的信息，将其中的信息按照<汉字，拼音>的格式作为全局表存储起来，由此完成了姓名识别的初始化；

步骤3：运行多模态在线增量式来访识别系统来让摄像头以及声音传感器处于工作状态，首先等待被识别对象的语音输入，即用户需要通过声音传感器传输“你好”这样的问候语句的语音信号数据来进入后续的识别阶段，所述的问候语句的语音信号数据被语音识别和合成子模块识别后，就依次执行设置激活听写状态、把识别后的问候语句的语音信号数据转化成对应的问候语句文字、把转化后的对应的问候语句文字存储在内存空间中；

步骤4：启动摄像头不断采集环境的图片，把环境的图片送入电脑终端中启动人脸判断子模块来调用OPENCV视觉库中的Haar级联分类器来判断是否存在人脸图像，如果存在人脸图像，保存并返回人脸部分的图像，把返回人脸部分的图像转换为灰度图像，并放缩到设定的大小以及进行归一化处理来满足后续操作的要求，最后返回归一化后的人脸部分的图像；

步骤7：接着电脑终端通过操纵音响设备来对用户发出“你找谁”这样的询问语音，然后当用户通过声音传感器回应的语音数据传输到电脑终端中时，把语音数据转化成语音文本，并通过该语音文本形成确认查找该语音文本对应的用户名称的语音信号数据，并把该语音信号数据通过音响设备播放，当用户确认要寻找该用户以后，电脑终端通过音响设备进行响应，而用户否认要寻找该用户以后，循环执行步骤7。

8.根据权利要求7所述的多模态在线增量式来访识别系统的识别方法，其特征在于所述的用于训练的子模块首先读取出第一配置文档中的照片的名字和照片的分类对象的属性，根据照片的名字和照片的分类对象的属性在OPENCV视觉库中进行人脸识别模型的训练，得到符合当前应用场景的人脸识别模型的具体步骤为创建一个指定位置的文件夹，在该指定位置的文件夹里添加预置的人脸图片，所述的人脸图片被用作训练人脸识别模型的初始数据，并在第一配置文档中添加人脸图片的名字和人脸图片的分类对象的属性，所述的人脸图片的分类对象的属性为自然数表示的针对该人脸图片的唯一标识，并把每一张人脸图片的名字和该人脸图片的分类对象的属性按行存放成一条记录，每一条记录由两部分组成，两部分之间用分隔符分开，分隔符之前为人脸图片的名字，分隔符滞后为人脸图片的分类对象的属性，由此采用局部二值模式直方图的方法进行人脸识别，并将训练好的人脸识别模型数据保存在用来存放人脸识别模型数据的文件中。