CN109814718A

CN109814718A - 一种基于Kinect V2的多模态信息采集系统

Info

Publication number: CN109814718A
Application number: CN201910088831.1A
Authority: CN
Inventors: 罗韬; 张戈; 徐天一; 赵满坤; 刘志强; 王建荣; 于瑞国; 喻梅; 张星桐
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-05-28

Abstract

本发明公开了一种基于Kinect V2的多模态信息采集系统，所述系统包括：线性麦克风阵列和红外线投影机、彩色摄像头、深度或红外摄像头，所述系统基于彩色数据流、深度数据流、音频数据流、数据源、阅读器、数据帧6种数据源，采集人发音过程中面部运动的深度信息、彩色图像信息、面部帧信息及语音信息；利用Matlab导入音频数据实现波形图和频谱图的绘制，利用采集到的深度信息获得点云数据并与彩色图像对齐，获得多模态融合数据；将视频信息和音频信息同步，可视化呈现界面。本系统将说话人的视觉信息和声学语音信息多模态的融合到一起，共同完成语音识别，为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。

Description

一种基于Kinect V2的多模态信息采集系统

技术领域

本发明涉及人机交互，唇读和语音识别领域，涉及图像和语音信息捕捉技术，尤其涉及一种基于Kinect V2(本领域技术人员所公知)的多模态信息采集系统。

背景技术

目前在相关技术中，信息采集系统主要分为两类：一种是使用在windows平台下对数字视频进行编码的多媒体框架VFW进行音视频数据采集，VFW的使用极大地方便了音视频的数据采集，不仅可以对数据进行实时采集、编辑和播放的功能，还能开发其他复杂的应用。但如今VFW的使用已经远远不能满足人们的需求，尤其是在微软已经放弃了对VFW的后续开发之后，它在应用方面存在的不足也越来越明显。所以在现在的应用中，除非只有VFW这一个设备可以使用或是只是利用VFW就可以完成需要处理的工作之外，已经很少使用VFW了。

第二种是使用DirectShow(基于组件对象模型的流媒体处理开发包)进行音视频数据采集，在处理多媒体流的时候，Direct Show可以完成对多种格式的文件进行读取和压缩的工作，不仅支持老的VFW的捕捉设备，还可以供WDM(视窗驱动程序模块)模式的捕捉设备工作，无论有没有硬件加速设备，Direct Show都可以正常工作。但是采集到的音视频数据如果在传输过程中有特殊的要求，比如需要在IP网络上传输、对传输的时间有严格的控制等。并且音视频的信息量大、涉及范围广，再加上它自身的实用性很强的特点，导致在TCP(传输控制协议)网络中的通信状态不太好，常常会遇到信号不良的状况。

无论是哪种系统，都是基于视频采集卡、USB摄像头，麦克风等传统采集设备，其采集得到的信息单一，不能从多种角度呈现视频图像和音频。传统的USB摄像头采集到的是彩色视频图像，传统麦克风采集到语音背景噪音较大，生源方向无法定位。

发明内容

针对人机互动信息采集单一化问题，本方法设计了一种基于KinectV2多模态信息采集系统，该系统可以得到彩色图，红外图，深度图和过滤背景噪声后的音频等6种数据源，详见下文描述：

一种基于Kinect V2的多模态信息采集系统，所述系统包括：线性麦克风阵列和红外线投影机、彩色摄像头、深度或红外摄像头，所述系统基于彩色数据流、深度数据流、音频数据流、数据源、阅读器、数据帧6种数据源，

采集人发音过程中面部运动的深度信息、彩色图像信息、面部帧信息及语音信息；

利用Matlab导入音频数据实现波形图和频谱图的绘制，利用采集到的深度信息获得点云数据并与彩色图像对齐，获得多模态融合数据；

将视频信息和音频信息同步，可视化呈现界面。

所述多模态信息采集系统采集6种数据源，所述6种数据源用于自动双模态语音识别中，通过多种信息补偿声学信息，获得高的识别性能。

本发明提供的技术方案的有益效果是：

1、传统语音识别只利用单一声音研究，而本系统将说话人的视觉信息和声学语音信息多模态的融合到一起，共同完成语音识别，为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径；

2、本系统将视觉信息和声学信息互补结合，获得了更高的识别性能；

3、在噪声环境下，本系统较传统的单模态语音识别系统而言具有较好的识别性能，满足了实际应用中的多种需要，有一定的研究价值。

附图说明

图1系统软件架构图；

该图1包括：利用Kinect V2检测器获得脸部和语音数据之后交给多模态信息采集系统进行处理，获得深度信息、彩色信息、面部特征点信息以及语音信息等采集数据，二进制解压这些数据，实现深度点云与RGB图片对齐、绘制音频信息的波形图和频谱图、实现音频信息与视频信息同步。

图2为可视化界面实验效果图。

其中，该界面包括彩色图像数据，音频信息的波形图，高清面部特征点以及声源的方向图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于Kinect V2的多模态信息采集系统，参见图1，Kinect V2具有独特的线性麦克风阵列和红外线投影机、彩色摄像头、深度(红外)摄像头，并提供三大类的原始数据信息，包括：彩色数据流(ColorStream)、深度数据流(DepthStream)、音频数据流(AudioStream)和与其相对应的三个类：数据源，阅读器，数据帧。该系统包括：

一、利用Kinect V2设备进行开发，采集人发音过程中面部运动的深度信息、彩色图像信息、面部帧信息及语音信息；

其中，在采集之前，该系统还包括：对Kinect V2进行初始化，即首先选择一个Kinect V2连接，初始化KinectSensor对象；启动Kinect V2，并查看是否取得成功。

其中，该第一部分的采集具体为：首先进行声源判断，打开彩色图像流，深度图像流，面部帧图像流并创建音频对象，以此采集音频信号，最后采集图像数据，语音数据。

二、利用Matlab导入音频数据实现波形图和频谱图的绘制，利用采集到的深度信息获得点云数据并与彩色图像对齐，获得多模态融合数据；

其中，在第一、二部分之间，该系统还包括：需要将序列化文件写入本地，即首先创建使用流和格式化，利用C#语言中的System.Io.Path.Combine合并从Kinect采集的彩色图像，深度图像路径，然后调用格式化程序方法，序列化写入本地，最后调用格式化程序方法，进行反序列化。

其中，该第二部分具体为：首先将3D相机坐标空间中的坐标投影到2D的深度图中，或从深度图中反投影到相机坐标空间，然后找到深度图和彩色图中的对应的像素位置，实现三维空间和二维空间转化。

三、为了校验数据可靠性，将视频信息和音频信息同步，可视化呈现界面。

其中，该第三部分具体为：首先选择利用Kinect V2采集到的音频信息文件作为分析的对象，然后读取音频信号的数据，画出波形图和频谱图，接着更新面部帧，实现面部对齐并计算面部模型，将面部模型顶点映射到彩色空间，最后通过时间戳比较判断音视频同步。

其中，上述面部对齐并计算面部模型的步骤为本领域技术人员所公知，本发明实施例对此不做赘述。

实施例2

下面结合具体的实例、计算公式对实施例1中的系统进行进一步地介绍，详见下文描述：

一、为了从摄像头获取数据流，需要初始化KinectSensor对象，然后启动；

二、对声源方向进行判断；

即，首先获取Kinect设备，通过成员函数(计算机领域的专业术语，本发明实施例对此不做赘述)获取波束列表和音频流，根据波束序列和音频流获取波束，通过波束的不同成员函数分别获取声音的角度和对应的可信度。

三、通过成员函数获取Kinect设备音频源，获取音频帧读取器并注册临帧事件，最后获取音频数据；

四、获取彩色图像；

其中，该获取操作具体为：首先获取Kinect设备，通过成员函数获取彩色数据源，通过彩色数据源将ColorFrameReader(彩色数据帧阅读器)打开，通过阅读器读取数据帧中的彩色数据帧，最后操作该彩色数据帧。

五、获取深度图像和数据；

其中，该第五部分具体为：首先获取Kinect设备，通过另一成员函数获取深度数据源，通过数据源将深度数据帧阅读器打开，通过阅读器读取数据帧中的深度数据帧，最后操作该深度数据帧。

六、面部特征点获取；

其中，该第六部分具体为：首先确定高清面部帧的类，获取并读入身体帧数据、高清面部帧数据，然后获取面部顶点和面部模型，更新面部帧，并获取特征点，最后将面部帧呈现出来。

其中，该步骤为本领域技术人员所公知，本发明实施例对此不做赘述。

七、将3D相机坐标空间中的坐标投影到2D的深度图中，或从深度图中反投影到相机坐标空间，找到深度图和彩色图中的对应的像素位置，实现三维空间到二维空间转化；

八、序列化文件写入本地；

其中，利用合并函数合并从Kinect V2中采集到的彩色图像，深度图像等。例如：利用C#中BinaryFormatter函数使用二进制格式化程序进行序列化写入本地和反序列化解压。

九、绘制音频信息的波形图和频谱图；

其中，该部分先选择利用Kinect V2采集到的音频信息文件作为分析对象，然后读取音频信号的数据，画出波形图和频谱图。

十、高清面部帧和彩色信息融合；

其中，该部分具体为：先获取到高清面部帧，更新面部帧，实现面部对齐，最后计算面部模型，将面部模型顶点映射到彩色空间。

十一、音频信息和视频信息同步。

其中，该步骤具体为：从音频缓冲区获取要播放的音频时间戳，记为A；从视频缓冲区获取要播放的视频时间戳，记为V；计算S＝A-V绝对值；如果S<100ms，同步时钟，播放音视频；如果S>100ms，且A>V，视频慢了，丢弃视频包；如果S>100ms，且A<V，视频快了，重复显示同一帧，次数小于4，通过先比对S和100ms的大小，再比对A和V的大小，不同比对结果采取不同的同步方法，以此同步音频信息和视频信息。

综上所述，本发明针对人机互动信息采集单一化问题，构建了一种基于Kinect V2多模态信息采集系统，该系统在人机交互环境中，基于Kincet V2平台搭建相关实验环境，在已有Kincet V2以及采集音频图像信息所需要的静音室情况下，利用Kinect V2实时有效进行脸部跟踪，采集包含3D数据、音频信息和视频信息的多模态普通话数据库，并对采集到的数据分析，融合多模态信息，实现音视频同步，呈现可视化界面，以此检验KinectV2采集的数据即实验数据的可靠性，提高语音的识别效率，更好的为人机互动奠定基础。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

在图1中，利用Kinect V2检测器获得脸部和语音数据之后交给系统进行处理，获得深度信息、彩色信息、面部特征点信息以及语音信息等采集数据，二进制解压这些数据，实现深度点云与RGB图片对齐、绘制音频信息的波形图和频谱图、实现音频信息与视频信息同步，可视化呈现实验结果。

在图2中，该界面包括彩色图像数据，音频信息的波形图，高清面部特征点以及声源的方向图。对采集到的数据分析处理，融合多模态信息，实现音视频同步。

本发明设计的基于Kinect V2的多模态信息采集系统受益于Kinect独特的线性麦克风阵列和红外线投影机、彩色摄像头、深度(红外)摄像头，波束成形技术使得Kinect可以分辨生源具体方向，自动增益控制功能不论用户是远离还是接近Kinect设备，声音始终不会有太大误差，回声消除和噪声抑制有利于减噪，提高识别效率。

彩色摄像头用于拍摄视角范围内的彩色视频图像。深度(红外)摄像头通过分析红外光谱，创建可视范围内的人体、物体的深度图像。彩色摄像头和红外摄像头处于同步互补关系，深度影像和彩色影像互相对应，精确到像素，所有传感器信息，例如(深度影像、色彩影像和音频)以同一时序传输给主机，基于Kinect V2的多模态信息采集系统可以采集6种数据源。这有效解决人机交互领域信息采集单一化和语音识别准确率低等问题，具有容错性好、效率高、可扩展性好、鲁棒性强等优点，将6种数据源应用于自动双模态语音识别(AVSR)中，通过用多种信息补偿声学信息，获得了更高的识别性能。

噪声环境下基于6种数据源的多模态语音识别系统较传统的单模态语音识别系统而言具有较好的识别性能。目前视觉特征提取、多模态信息融合仍旧是计算机AVSR实现的瓶颈问题。基于Kinect V2的多模态信息采集系统很好的弥补了这一缺点。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Kinect V2的多模态信息采集系统，其特征在于，所述系统包括：线性麦克风阵列和红外线投影机、彩色摄像头、深度或红外摄像头，所述系统基于彩色数据流、深度数据流、音频数据流、数据源、阅读器、数据帧6种数据源，

将视频信息和音频信息同步，可视化呈现界面。

2.根据权利要求1所述的一种基于Kinect V2的多模态信息采集系统，其特征在于，所述多模态信息采集系统采集6种数据源，所述6种数据源用于自动双模态语音识别中，通过多种信息补偿声学信息，获得高的识别性能。