CN202329640U

CN202329640U - 口型辅助语音识别术在车载导航中应用的系统

Info

Publication number: CN202329640U
Application number: CN201120303813XU
Authority: CN
Inventors: 伍栋杨; 王冰
Original assignee: Guangdong Coagent Electronics S&T Co Ltd
Current assignee: Guangdong Coagent Electronics S&T Co Ltd
Priority date: 2011-08-19
Filing date: 2011-08-19
Publication date: 2012-07-11
Anticipated expiration: 2021-08-19

Abstract

本实用新型涉及一种口型辅助语音识别术在车载导航中应用的系统。方案是把摄像头和麦克风设置在合适位置，对用户口型图像和声音进行采集，通过图像/语音识别处理模块进行先语音识别判断、后口型识别确认的逻辑判断序列，形成统一的判别结果，将识别的准确信息和车载导航影音系统操控指令相对应，完成语音识别操控功能，有效地降低语音识别因噪声干扰产生识别错误的几率，使车辆在行驶和怠速情况下（关闭车窗）的语音识别率由原来的80%左右提高到90%以上，提高了语音识别技术在车载导航领域应用的识别率，使语音导航更具实用价值，驾驶员使用导航设备更方便，提高安全驾车系数。

Description

口型辅助语音识别术在车载导航中应用的系统

技术领域

本实用新型涉及车载语音导航领域，尤其涉及一种口型辅助语音识别术在车载影音导航中的应用方法及系统。

背景技术

语音识别技术随着计算机和相关软硬件技术的发展，已越来越多的应用在各个领域，其识别率也在不断的提高。在环境安静、发音标准等特定条件下，目前应用在语音识别输入文字系统的识别率已经达到95%以上。但如果在车上或噪声较大、发音不标准的情况下，其识别率将大打折扣，以至于无法达到真正实用目的。若能采用其它方法来辅助判断以提高其语音识别的准确率，那么语音识别的实用性将显著提高。

人类的语言认知过程是一个多通道的感知过程。在人与人日常交流的过程中，通过声音来感知他人讲话的内容，在喧闹的环境或对方发音模糊不清时，还需要眼睛观察其口型，表情等的变化，才能准确地理解对方所讲的内容。现行的语音识别系统忽略了语言感知的视觉特性这一面，仅仅利用了单一的听觉特性，使得现有的语音识别系统在噪声环境或多话者条件下，其识别率都显著下降，降低了语音识别的实用性，应用范围也受限制。

随着车载导航系统的普及应用，驾驶员在驾驶车辆时进行车载导航系统各项应用功能的操控，仅用按键和触摸操控显得不够方便，而且操控时由于分心驾驶，很容易引起行车事故。用语音识别方式进行操控来解决这个问题，但目前采用语音操控技术的导航系统使用在环境噪声比较严重的车上，其正确识别率低，影响精确操控，效果不够理想。

实用新型内容

本实用新型的目的在于：解决车载导航系统在车辆正常行驶或怠速时的噪声环境中的语音识别率低的问题。

为解决上述问题，本实用新型提出的方案是：

一种口型辅助语音识别术在车载导航中应用的系统，其特征是包含：车载导航影音系统及其上连接的图像/语音识别处理模块，连接于图像/语音识别处理模块输入端的麦克风、摄像头；麦克风和摄像头分别对声音信号和口型图像信号进行采集，并输入到图像/语音识别处理模块进行其它相应处理、识别，并把识别后的结果转换成相应的控制指令，输入到车载导航影音系统实现语音控制操作。

作为本实用新型的进一步说明，所述麦克风为具有定向音频传输功能的高保真/高灵敏度的驻极体电容式拾音器。

进一步地，所述摄像头为带夜视功能的、视频分辨率为640×480、25帧、32bit真彩CCD视频图像传感器。

所述麦克风安装位置是安装在驾驶员位正前方仪表盘上部位，且拾音器口要正对驾驶员面部。

所述摄像头安装位置是安装在驾驶员位正前方挡风玻璃的上边沿端，镜头正对驾驶员面部。

所述图像/语音识别处理模块所用处理器为高性能DSP处理器。

上述方案基于人类语言多通道感知特性，利用传感器模拟“听觉”和 “视觉”，采用口型识别技术辅助语音识别，提高车载导航系统在噪声环境中的语音识别率。实施过程是：通过传感器对声音和口型图像变化系列获取“听觉”和 “视觉”信息，经过去噪、A/D转换等一系列处理后，分别与预设在图像/语音识别处理模块中的模板库数据比对进行语音识别口型识别，用口型识别结果与语音识别结果进行对比，若两者结果相似性达到一定程度，即可以确认语音识别结果，从而克服噪音的影响，显著提高了语音识别率，再把结果转化成相关指令输出到车载导航系统进行导航或获取信息。

本实用新型方案实现方法参见图1所示的流程：系统首先分别对语音输入和口形图像输入进行预处理后，进行特征提取，“训练”“模板块”作识别匹配用。使用时再分别对语音输入和口形图像输入进行预处理后，进行特征提取，获取“测试”信号，结合经过训练的模板块进行“测量估计”，确认语音识别的有效信息，再与预置“专家知识”系统进行识别判断后，输出 “结果”，完成语音识别过程。

特别说明的是训练模板块时，通过录音和摄像进行模板训练，建立语音和口型识别的模板库，在录音的同时将口型视频图像做一一对应判断存储。

本实用新型的语音识别采用模板匹配的方法，该方法共四个步骤：特征提取、模板训练、模板分类、判决。

以声音识别为例：

第一步是特征提取，将采集的各种语音的模拟信号进行A/D转换，转换成数字信号后进行加工并存储。即将该信号数字进行数字去噪处理加工，去除伪数据，保留特征数据。采用的去噪处理方法是根据车内环境噪声的特点，分析出车在正常行驶或怠速时的常态噪声，如关闭或开启车窗时的发动机、空调及行车噪声特征数据，将采集的原始语音数据通过相关运算，去除这些噪声特征数据后形成接近真实的语音特征数据。

第二步是模板训练，根据车载设备操控常用语音命令和相关信息建立语音模板库，如“开始”、“导航”、“目的地”、“上海”等语音，找不同年龄、性别、口音的人来读，并做相应的处理，建立起车用操控语音模板数据库。

第三步是模板分类，根据应用特征分为控制命令类、地址信息类，信息范围按大小类分类，以缩小匹配判定范围，提高匹配效率和准确率。控制命令类具体有如导航命令类、语音控制类；地址信息大小类具体有如省级地名、市级地名或更小地名等。

第四步是判定，利用匹配算法进行语音特征与语音模板库模型匹配，将判定的结果与口型识别比对，进一步确认语音识别结果的准确性。

本实用新型的口型识别采用唇形和唇色相结合的判断方法，准确定位口唇位置。具体为采用一种基于色度滤波的唇动特征提取与识别方法，通过唇的色度滤波，得到增强的唇动图像，再利用可变模板描述口型轮廓并提取特征参数，并用隐马尔科夫（HMM）模型进行唇运动序列图像识别。该方法不受口型缩放、变形、旋转的影响,对不同唇型有很好的鲁棒性，对光照没有特别的要求，且非针对特定人，适用于自然条件下的口型描述，能满足可变模板对目标边缘有较高分辨率的要求。从而实现了口唇位置准确定位，并采用适当的唇形匹配算法进行识别。将识别结果与语音识别结果进行比对，形成统一的识别结果，最后将识别的准确信息与车载设备操控指令对应起来完成语音识别操控功能，对语音识别起辅助作用，提高语音识别率。

综上所述，本实用新型采用上述技术解决方案所能达到的有益效果是：将语音识别与口型识别通过特征提取、模板训练、模板分类、判决过程有机的结合起来，运用先语音识别判断、后口型识别确认的逻辑判断序列、有效的降低因噪声和外界声音干扰产生识别错误的几率，实验证明车辆在行驶和怠速情况下（关闭车窗）的语音识别率由原来的80%左右提高到90%以上。识别率的提高意味着克服了单一语音导航的弱点，让用户更方便使用语音导航设备，行车时使用导航设备更安全。

附图说明

下面结合附图和具体实施方式，对本实用新型及其有益技术效果进行进一步详细说明，其中：

图1为本实用新型口型信息与语音信息主要处理过程示意图。

图2为本实用新型口型辅助语音识别系统图。

附图标记说明：21、驾驶员面部 22、摄像头 23、麦克风 24、图像/语音识别处理模块 25、车载导航影音系统

具体实施方式

本实用新型的口型辅助语音识别系统结构如图2所示，车载导航影音系统25及其上连接的图像/语音识别处理模块24，连接于图像/语音识别处理模块24输入端的麦克风23、摄像头22；驾驶员面部21对着麦克风23和摄像头22发音时，麦克风23和摄像头22分别对声音信号和口型图像信号进行采集并输入到图像/语音识别处理模块24进行相应处理（如去噪、预处理、特征提取、判断和识别等过程），并把识别后的结果转换成相应的控制指令，输入到车载导航影音系统25，实现语音控制操作。

优选地，麦克风23采用具有定向音频传输功能的高保真/高灵敏度的驻极体电容式拾音器，并安装在驾驶员位正前方仪表盘上部位，且拾音器口要正对驾驶员面部21，确保采集到最佳的语音信号，尽可能的降低车内外环境噪声的影响。

优选地，摄像头22采用带夜视功能的、视频分辨率为640×480、25帧、32bit真彩CCD视频图像传感器，并安装在驾驶员正前方挡风玻璃的上边沿端，镜头正对驾驶员面部21，确保在光线较暗时也能获得清晰的口唇图像信息，系统对更准确对图像分析处理；

优选地，图像/语音识别处理模块24所用处理器采用高性能DSP处理器，确保系统具有较好的实时性。

在软件处理上，控制命令采用如“开启导航”，“定位目标”，“规划路线”，“打电话”，“接听”等固定命令格式，从而大大降低了模板匹配的数据运算量，同时也提高了识别效率。地图地址和语音信息采用关键字词模糊匹配识别方法，从而加大了识别范围，同时也提高信息识别率。采用上述方法对语音命令操控的正确性提供了有力的保障。

上述模板匹配过程是，通过录音和摄像进行模板训练，建立语音和口型识别的模板库，在录音的同时将口型视频图像做一一对应判断存储。

优选地，模板库的建立过程为：选16-70周岁年龄段的男女各20人，分别进行车载导航语音命令、地图信息语音、语音播放语音命令和语音节目名称语音、设备控制命令语音及其相应口型图像录制，经过语音/口型比对和特征化处理后建立起基本的模板库，语音识别模板库建立后，将其分类存储在相应的模板类库中备用。

在口型辅助语音识别过程中，通过麦克风23和摄像头22采集特征数据，在语音处理中，在图像/语音识别处理模块24中先将采集的原始声音进行去噪处理，然后进行特征数据提取，与此相对应的口型特征数据提取后，与预置的模板库数据进行一系列匹配判断识别，语音识别后的判断特征结果再与相应的口型识别特征结果进行比对，优选地，两者的识别结果相似性达到70%以上时即可确定语音内容，再将该语音内容转换成控制指令送入车载导航影音系统进行处理。

把口型辅助语音识别技术应用在车载导航影音系统中，因语音识别率提高，在车辆行驶时，车载语音导航设备在噪音的环境下也能实时识别、响应驾驶员语音操控并进行导航，尽可能避免驾驶员操作导航设备时发生安全事故。

根据上述说明书及具体实施例的揭示和教导，本实用新型所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本实用新型并不局限于上面揭示和描述的具体实施方式，对本实用新型的一些修改和变更也应当落入本实用新型的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语和概念，但这些术语和概念只是为了方便说明，并不对本实用新型构成任何限制。

Claims

1.一种口型辅助语音识别术在车载导航中应用的系统，其特征是包含：车载导航影音系统（25）及其上连接的图像/语音识别处理模块（24），连接于图像/语音识别处理模块（24）输入端的麦克风（23）、摄像头（22）；麦克风（23）和摄像头（22）分别对声音信号和口型图像信号进行采集，并输入到图像/语音识别处理模块（24）进行其它相应处理、识别，并把识别后的结果转换成相应的控制指令，输入到车载导航影音系统（25）实现语音控制操作。

2.根据权利要求1所述的口型辅助语音识别术在车载导航中应用的系统，其特征是：所述麦克风（23）为具有定向音频传输功能的高保真/高灵敏度的驻极体电容式拾音器。

3.根据权利要求1所述的口型辅助语音识别术在车载导航中应用的系统，其特征是：所述摄像头（22）为带夜视功能的、视频分辨率为640×480、25帧、32bit真彩CCD视频图像传感器。

4.根据权利要求1或2所述的口型辅助语音识别术在车载导航中应用的系统，其特征是：所述麦克风（23）安装位置是安装在驾驶员位正前方仪表盘上部位，且拾音器口要正对驾驶员面部（21）。

5.根据权利要求1或3所述的口型辅助语音识别术在车载导航中应用的系统，其特征是：所述摄像头（22）安装位置是安装在驾驶员位正前方挡风玻璃的上边沿端，镜头正对驾驶员面部（21）。

6.根据权利要求1所述的口型辅助语音识别术在车载导航中应用的系统，其特征是：图像/语音识别处理模块（24）所用处理器为高性能DSP处理器。