CN105501121A

CN105501121A - 一种智能唤醒方法及系统

Info

Publication number: CN105501121A
Application number: CN201610013109.8A
Authority: CN
Inventors: 王艳龙; 王建辉; 宋洪博; 倪卫; 苗顺平
Original assignee: Beijing Lejia Technology Co Ltd
Current assignee: Beijing Lejia Technology Co Ltd
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2016-04-20
Anticipated expiration: 2036-01-08
Also published as: CN105501121B

Abstract

本发明公开了一种智能唤醒方法及系统，方法包括，初始化图像、车内声音，对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，对驾驶者进行手势检测，根据所述手势识别出触发动作信息，对所述触发动作信息或者唤醒语音信息进行匹配，若任意信息匹配成功，则进行唤醒。本发明能够在车载场景下，减少手动操作，提高安全性。且车载智能终端支持自定义命名，使用方式个性化。本发明中的系统包括，手势监测识别模块，语音监听识别模块，按键监测模块，唤醒模块，本系统通过使用语音或手势激活的车载终端，实现了更安全的驾驶和更智能的驾驶体验。

Description

一种智能唤醒方法及系统

技术领域

本发明涉及车载语音激活，特别涉及智能唤醒方法及系统。

背景技术

抬头显示器HUD(HeadUpDisplay)，是普遍运用在航空器上的飞行辅助仪器。抬头的意思是指飞行员不需要低头就能够看到他需要的重要资讯。因为HUD的方便性以及能够提高飞行安全，民航机也纷纷跟进安装。HUD是利用光学反射的原理，将重要的飞行相关资讯投射在一片玻璃上面。这片玻璃位於座舱前端，高度大致与飞行员的眼睛成水平，投射的文字和影像调整在焦距无限远的距离上面，飞行员透过HUD往前方看的时候，不会妨碍到眼睛的运作，维持清晰的显示。

HUD的基本架构包含两个部分：资料处理单元与影像显示装置。资料处理单元是将飞机上各系统的资料整合处理之後，根据选择的模式转换成预先设定的符号，图形或者是以文字或者是数字的型态输出。有些产品将讯号处理与影像输出分成两个装置，不过大致上都是类似的工作方式。影像显示装置就是安装在座舱前方，位于飞行员与座舱罩之间的空间上。影像显示装置接收来自资料处理装置的资讯，投射在玻璃上面。显示装置并且附有控制面板，能够调解或者是改变输出的影像。

新一代的HUD在影像显示方面的改良包括采用全像摄影(Holographic)显示方式，扩大显示影像的范围，尤其是增加水平上的视野角度，减少支架的厚度对於视野的限制与影响，增强不同光度与外在环境下的显示调整，强化影像的清晰度，与其他光学影像输出的配合，譬如说能够将红外线影像摄影机产生的飞机前方影像直接投射到HUD上，与其他的资料融合显示，配合夜视镜的使用以及采用彩色影像显示资料。在资料处理单元上的改良包括提高处理的速率和效率,HUD是将影像投射在座舱前方的固定装置上，当飞行员转动头部的时候，这些影像就会暂时离开他的视野范围。新一代的HUD更适合广泛地运用在汽车上。

在人们的固有观念里，驾驶最应该注重的自然是安全，不过随着智能手机的普及，手机用户们无时无刻不依赖手机带来的便利和快捷。电话、短信、微信的实时沟通，多媒体的使用，地图导航工具等等这些，然而在“低头族”日益增多的今天，手机带给我们的便利却极大的影响了驾驶的安全性。多种形式的交通事故都是由于车主在驾驶过程中由于使用手机而造成的。汽车厂商们开始意识到中控屏幕的重要性，再加上车辆作为最大的终端设备，更让车上的这块“屏”成为了兵家必争之地。然而车载中控屏幕的存在确实让驾驶变得更为安全了，但在实际体验中，依然有车载中控屏幕上的各项弊端和不方便之处，依然会让驾驶员分心。

现有车载设备激活方式存在如下的缺陷：

1)按键激活，需要驾驶人员分心操作，不安全；

2)语音激活，激活指令单一，不能进行个性化定制。

发明内容

本发明要解决的技术问题是，通过使用语音或手势激活的车载终端，实现了更安全的驾驶和更智能的驾驶体验。

解决上述技术问题，本发明提供了一种智能唤醒方法，包括，

初始化图像、车内声音，

对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，

对驾驶者进行手势检测，根据所述手势识别出触发动作信息，

对所述触发动作信息或者唤醒语音信息进行匹配，

若任意信息匹配成功，则进行唤醒。

基于HUD的智能唤醒方法，还包括，对与所述HUD关联的按键进行监控，若监控到按键触发信息，则进行匹配。

所述按键触发包括物理按键触发信息、虚拟按键触发信息，与所述HUD关联的按键包括物理连接或蓝牙连接。

对驾驶者进行语音消息监听的方法为，

通过自定义消息建立语音激活库，所述自定义消息包括，单音节词或多音节词，

若监听到匹配的自定义消息，且满足设定的唤醒语音信息条件，则直接进行唤醒后等待。

所述监听到语音消息包括，自定义消息和语音命令，若监听到匹配的自定义消息和语音命令，则在唤醒后并行执行所述语音命令。

所述初始化图像和车内声音包括，

通过摄像头获取图像，所述图像包括手势数据视频流、人眼和人脸数据视频流，

通过麦克风获取车内声音，当车内声音满足设定的条件，则进行获取。

所述唤醒的设备包括：抬头显示器HUD、中控车机或者后视镜。

通过设定不同场景，将所述场景与唤醒方式进行多种方式或者一种方式的关联，在所述不同场景下，驾驶者可选择选择，语音消息、手势检测、物理按键、虚拟按键中方式关联后进行唤醒。

根据所述手势识别出触发动作信息的方法包括，

通过设定预定义的手势的静止状态，根据所述手势的静止状态通过二维手型进行识别，所述手势的静止状态包括：握拳、五指张开、大拇指、剪刀手、“OK”手势，根据识别结果进行置信度计算，得到触发动作信息。所述手势的静止状态的触发需要满足：手势静止特定时长，用于确认动作。

本发明中还提供了一种智能唤醒系统，包括，

手势监测识别模块，用以对驾驶者进行手势检测，根据所述手势识别出触发动作信息，

语音监听识别模块，用以对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，

按键监测模块，用以对关联的按键进行监控，若监控到按键触发信息，则进行匹配，

唤醒模块，用以对所述触发动作信息或者唤醒语音信息进行匹配，若任意信息匹配成功，则进行唤醒。

本发明的有益效果：

1)由于对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，在车载场景下，减少手动操作，提高安全性。且车载智能终端支持自定义命名，使用方式个性化。

2)由于对驾驶者进行手势检测，根据所述手势识别出触发动作信息，在车载场景下，可采用简单手势进行唤醒。

3)本发明中通过设定不同场景，将所述场景与唤醒方式进行多种方式或者一种方式的关联，在所述不同场景下，驾驶者可选择选择，语音消息、手势检测、物理按键、虚拟按键中方式关联后进行唤醒。

4)由于若任意信息匹配成功，则进行唤醒，使用方式更加自然快捷，且可采用语音激活和按键唤醒组合，唤醒之后，直接从用户语音中提取指令并处理，不需要用户再次下达指令，交互更加快捷。

附图说明

图1(a)是本发明智能唤醒方法一实施例中的操作流程示意图。

图1(b)是图1(a)的实施例中进一步操作的流程示意图。

图2是图1(a)中对驾驶者进行语音消息监听的方法流程示意图。

图3是图1(a)中初始化图像和车内声音的具体流程示意图。

图4是图1(a)中唤醒的设备的具体实施方式。

图5是图1(a)中进行唤醒的具体步骤流程示意图。

图6是图1(a)中的手势检测方式示意图。

图7是本发明基于HUD的智能唤醒系统的一实施例中的结构示意图。

图8是图7中对手势进行检测的方法流程示意图。

图9是本发明智能唤醒系统的另一实施例中的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。在本实施例中以车载抬头设备HUD为最优实施例，并不用于限于本发明的保护范围。

图1(a)是本发明的基于HUD的智能唤醒方法一实施例中的操作流程示意图。

步骤S101初始化图像、车内声音，能够对驾驶员的图像信息和声音信息进行采集并初始化，本领域技术人员能够明了，获取的方式包括但不限于通过感应器或者摄像头的获取方式。其中初始化图像包括但不限于：对驾驶者的人脸轮廓、眉毛、眼睛、鼻子、嘴唇等部位进行人脸特征提取，其中人脸特征可以包括：Hear特征、或者FisherFace特征、或者LBPH特征，本领域技术人员可以根据应用需要进行选择。通过分类器中预先训练获取的人脸特征检测所述目标人物的人脸区域。

步骤S102对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，比如可以设置语音频率，若采集到的语音信息的频率符合条件，则进行判断识别。又比如，可以按照人声的说话语音频率设置分类器，然后根据分类器对语音信号进行判断识别。又比如，可以采用模式匹配法，在训练阶段，驾驶者将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库；在驾驶者识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，并进行指令操作。

步骤S103对驾驶者进行手势检测，根据所述手势识别出触发动作信息，本领域技术人员能够明了，所述的手势检测可以基于静态手型识别或者静态手势识别以及动态手势识别。

步骤S104对所述触发动作信息或者唤醒语音信息进行匹配，匹配的方式可以基于学习模型的方式进行匹配，或者可以基于图像或者语音数据库中的匹配。

步骤S105若任意信息匹配成功，则进行唤醒，所述唤醒包括但不限于：

语音唤醒，是指通过含有特定唤醒词的语音输入来“触发”HUD中的语音识别系统以实现后续的语音交互。通过该技术，任何人在任何环境、任何时间，无论是近场还是远场，面向设备直接说出预设的唤醒词，就能激活产品的识别引擎，从而真正实现全程无触控的语音交互。

手势唤醒，是指通过含有特定唤醒手势的手势输入来“触发”HUD中的手势识别系统以实现后续的手势交互。通过在ROI感兴趣区域中得到的手势图像，可以有效地触发手势对应的操作的指令。

图1(b)是图1(a)的实施例中进一步操作的流程示意图。

步骤S107物理按键触发信息，所述物理按键包括但不限于设置在HUD上的唤醒按钮，当选择HUD进行休眠状态，按动唤醒按钮即可对HUD进行激活。或者，通过遥控器对HUD进行遥控，点击遥控器上的唤醒按键，即可对HUD实现唤醒。上述的按键操作类型可以包括：单击/双击，用户在执行按键操作时可以打断语音交互。

步骤S108虚拟按键触发信息，所述虚拟按键为通过外接的移动端智能设备进行控制的按键触发方式，驾驶者通过操作移动端智能设备对HUD进行呼叫唤醒。

步骤S106对与所述HUD关联的按键进行监控，若监控到按键触发信息，则进行匹配,与所述HUD关联的按键包括物理连接或蓝牙连接，按键触发信息包括但不限于，通过物理按键将按压力转化为触发信号，或者直接通过虚拟按键直接发送触发信号。

步骤S201对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，可以按照如下的方式进行操作：

步骤S202通过自定义消息建立语音激活库，所述自定义消息包括，单音节词或多音节词，

步骤S203若监听到匹配的自定义消息，且满足设定的唤醒语音信息条件，则直接进行唤醒后等待。

所述步骤S202-步骤S203的具体操作为：

在不向用户提出询问的情况下将语音输入传输给自动的语音识别系统中的语音激活库，用以生成语言文本(即语音的对应文字翻译)。获取语音输入可以根据车辆内部的检测装置，例如带有联接在下游的信号处理装置的收音麦克风，接收用户的语音输入。在所述语音激活库中包含有的“语言文本候选对象”是将语音输入转换为了字符串的文本。比如，如果发出的语音输入为“萝卜”，那么正确的语言文本候选对象是字符串“萝卜”。代替于纯文本“萝卜”，也可以以符号的形式表示为语言文本候选对象的语音识别结果或者表示为对可能的语言文本候选对象的列表的列表项的参考或者表示为列表项的唯一确定标识符。

通过将驾驶员发出的语音转换为第一数字信息后，将第一数字信息发送到预先存储有语音资料数据库的储存单元中，通过服务器中设置的语音资料数据库对得到的语音进行识别，将语音资料数据库设置在专门的中，所以语音资料数据库的存储容量不再受车载存储器的限制，而且储存单元的存储容量可以扩展，且避免了车载存储器中由于存储了多媒体数据和车载导航系统的导航地图对存储器存储空间的占用而导致存储语音资料数据库的存储空间进一步不足的缺陷，使得语音资料数据库中可以尽可能多的存储不同口音的驾驶员的语音资料，所以增加了对不同口音驾驶员发出语音的识别可能性，提高了车载语音识别交互系统的实用性。HUD中配置有ARM4核CPU，内存1GRAM，能够保证对上述语音资料识别的处理速度。另外，HUD配置的8GROM，并且能够支持MicroSD(TF)储存卡，最大支持32、64、128G，对语音资料数据库的储存提供保证。

或者，在步骤S201之前，进行步骤S204监听到语音消息包括，自定义消息和语音命令，若监听到匹配的自定义消息和语音命令，则在唤醒后并行执行所述语音命令。自定义消息和语音命令可按照下表进行设定：

图3是图1(a)中初始化图像和车内声音的具体流程示意图。

步骤S101初始化图像、车内声音，

步骤S301通过摄像头获取图像，所述图像包括手势数据视频流、人眼和人脸数据视频流，更进一步，包括从所述手势数据视频流中获取手势数据帧，所述手势数据帧将作为之后的静态手型或者静态手势识别的基础。所述人眼的数据视频流，更进一步，包括从所述人眼的数据视频流中获取虹膜图像数据帧，通过对虹膜图像的预处理—纹理特征提取—编码及匹配达到对虹膜所有者的身份进行验证的目的。其中所述的虹膜图像的预处理采用基于灰度差以及基于Hough变换的边界提取方法实现；然后用Gabor滤波器对虹膜图像进行纹理分析,提取图像的平均绝对偏差作为特征向量；最后用加权欧氏距离(WED)对虹膜图像进行身份验证。

步骤S302通过麦克风获取车内声音，当车内声音满足设定的条件，则进行获取。通过麦克风获取车内声音时，需要进行：抗噪音语音识别、回声对消、深度语音理解，使HUD即使在嘈杂的车载环境下也可以快速识别用户的语音指令，用户只需要说出自己口语化的指令，就可以进行识别。

在进行抗噪音语音识别时，语音信号输入后，首先进行前端处理，然后开始特征提取，在经过多次识别和自适应调整，建立起学习模型。其中车内的原始语音经前端处理后，从中提取出若干维的特征向量用于识别。识别时，声学模型和语言模型共同作用，得到使某一概率最大的字串作为识别结果。对前端处理是指在特征提取之前，先对原始语音进行处理，部分消除车内噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。本领域技术人员能够明了，在所述前端处理有端点检测和语音增强。端点检测是指在车内语音信号中将车内的语音和车内的非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。在所述特征提取阶段，是把获取得到的车内语音信号切分成几十毫秒的帧，对每一帧提取一个特征向量。再加上向量的一阶差分和二阶差分共同构成特征。所述的声学模型是识别系统的底层模型，其目标是通过模型度量，寻找该语音特征向量序列对应的发音。所述的声学模型是隐马尔可夫模型(HMM)。HMM模型可以看成一个双重随机过程，一个马尔可夫链的各个状态可以产生出各种输出，这种机制较合理地模仿了人类语言活动的过程，对孤立词和连续语音识别来说都是较理想的声学模型。所述的语言模型的作用是通过提供字或词之间的上下文信息和语义信息。对于大词汇量连续语音识别，语言模型是必不可少的关键模块之一。目前比较成熟的方法是统计语言模型，当前的主流方法是N元文法(N-gram)，根据已知前(N-1)个字或词，预测第N个字或词出现的概率。由于训练语料的限制，目前主要采用三元语法。比如，播放音乐，HUD能够根据“播放”两个字中由“播”预测，下一个子出现的概率。更进一步，采用不同的前端处理方法，对男女声和有无噪声的语音分类处理，以及同时采用多种声学特征和不同的搜索策略构造多个识别子系统，最后对各子系统的识别结果做一种类似投票的表决(ROVER技术)，得到最终识别结果。

其中所述回声对消，包括如下步骤：将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，所述参考信号为HUD发出的语言信号；将所述录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；当根据所述实时输出语音识别结果判定用户意图打断系统语音信号输出时，终止系统播放语音信号，进入用户状态，监听并识别用户语音信号；当检测到用户语音信号输出结束，根据最终语音识别结果向用户反馈，完成一轮用户的打断和回应过程。回声对消的过程被划分为以每一个录音信号数据块为基本单位，将其与相对齐的参考信号数据块进行对消的子过程，每个子过程可以采用传统回声对消技术处理即可，最终回声对消的输出结果是各个子过程输出结果的直接拼接。将所述录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；该VAD(VoiceActivityDetection，语音端点检测)模型是经过回声对消之后的语音训练的模型。

更进一步，可采用《基于语音识别和文本分词算法的指令交互系统的设计和实现》张文杰.张洪刚，进行实现优化。

更进一步，可采用《语音增强用于抗噪声语音识别》徐义芳.张金杰，进行实现优化。

图4是图1(a)中唤醒的设备的具体实施方式。

在本实施例中的唤醒的设备包括但不限于：抬头显示器HUD、中控车机或者后视镜，其中所述的抬头显示器HUD，通过手势或者语音进行唤醒，比如语音输入为“你好，萝卜”，则通过上述的匹配方式，对HUD进行唤醒，比如手势输入为“握拳且大拇指露出(表示“好的”手势)”的手势，通过对ROI感兴趣区域检测，得到手势对应的唤醒指令。

图5是图1(a)中进行唤醒的具体步骤流程示意图。

在本实施例中，步骤S105中具体的唤醒步骤为：通过设定不同场景，将所述场景与唤醒方式进行多种方式或者一种方式的关联，在所述不同场景下，驾驶者可选择选择，语音消息、手势检测、物理按键、虚拟按键中方式关联后进行唤醒。

手势检测中的手势静止状态对应的唤醒表

手势的静止状态	唤醒指令	音乐指令	微信指令
				五指手掌(张开)	×	×	○
一根食指	×	○	×
				握拳+大拇指露出	○	×	×
剪刀手	×	×	×
				五指手掌(合拢)	×	×	○
“OK”手势	○	×	×

语音消息对应的唤醒表

语音消息	唤醒指令	音乐指令	微信指令
				你好，萝卜	○	×	×
我要导航	×	×	×
				我要听音乐	×	○	×
我要发信息	×	×	○
				萝卜	○	×	×
请休眠唤醒	○	×	×

普通指令语句前面，增加“你好，萝卜”，比如“你好萝卜，我要导航”，表示先唤醒并直接下达指令。

所述物理按键包括但不限于，设置于HUD上的控制按键，或者，遥控器上的唤醒按键。

所述虚拟按键包括但不限于，通过蓝牙与智能移动设备连接后，进行虚拟按键控制。

图6是图1(a)中的手势检测方式示意图。

步骤S103对驾驶者进行手势检测，根据所述手势识别出触发动作信息，

步骤S401通过设定预定义的手势的静止状态，

步骤S402根据所述手势的静止状态通过二维手型进行识别，

步骤S403握拳、五指张开、大拇指、剪刀手、“OK”手势，根据识别结果进行置信度计算，得到触发动作信息。

步骤S404所述手势的静止状态的触发需要满足：手势静止特定时长，用于确认动作。

步骤S405根据识别结果进行置信度计算，得到触发动作信息。

其中在步骤S401的手势的静止状态中，包括了：握拳、五指张开、、大拇指、剪刀手、“OK”手势，可以采用Flutter公司的手势识别技术。在使用了上述技术后用户可以用几个手型来控制抬头显示器。比如，驾驶者将手掌举起来放到抬头显示器中的摄像头前，抬头显示器就开始播放音乐了，再把手掌放到摄像头前，音乐即又停止播放了。采用上述基于模式匹配技术，通过计算机视觉算法分析图像，和预设的图像模式进行比对，可以实现手势的静止状态识别。当驾驶员坐上驾驶座位，只需要凭空做个手势，抬头显示器就可以开始进行播放音乐，比使用手指按动来控制是方便了很多。

步骤S401还包括，将手势和手部运动结合在一起的手势运动，相比于二维手型识别，手势和手部运动结合在一起的手势运动属于二维手势识别的方式，将手势和手部运动可以包括，挥一挥手、转动拳头、摇动“1”字手势的手型。具体可采用以色列的PointGrab，EyeSight和ExtremeReality。所述二维手势识别拥有了动态的特征，可以追踪手势的运动，进而识别将手势和手部运动结合在一起的复杂动作不仅可以通过手势来控制抬头显示器播放/暂停，还可以实现前进/后退/向上翻页/向下滚动这些需求二维坐标变更信息的复杂操作了。可以采用单独的手势的静止状态或者单独的手势的运动状态，也可以是通过手势的运动状态+手势的静止状态组合模式进行手势识别。

本实施例中的基于HUD的智能唤醒系统，包括：

手势监测识别模块1001，用以对驾驶者进行手势检测，根据所述手势识别出触发动作信息，优选地，在本实施例中可以采用摄像头拍摄黑白或者彩色的静态手势图像流，并提取得到对应的手势视频帧。

语音监听识别模块1003，用以对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，优选地，在本实施例中可以采用麦克风获取得到语音信息，所述麦克风采用双麦克风降噪，楼氏高信噪比硅麦，通过将ADC(模数转换器)集成到麦克风中，使麦克风自身能够提供数字输出，以减小噪声干扰。

按键监测模块1002，用以对关联的按键进行监控，若监控到按键触发信息，则进行匹配，若是虚拟按键的触发信号，则可以直接输入HUD进行触发，若是物理按键触发，则需要将按动力转化为触发信号。

唤醒模块1004，用以对所述触发动作信息或者唤醒语音信息进行匹配，若任意信息匹配成功，则进行唤醒。

唤醒装置1005，用以与所述HUD100通过蓝牙连接，

HUD100，用以提供手势监测识别模块1001、语音监听识别模块1003、按键监测模块1002以及唤醒模块1004的装载媒介。

其中，所述手势监测识别模块1001与所述唤醒模块1004连接，所述语音监听识别模块1003与所述唤醒模块1004连接，所述按键监测模块1002通过蓝牙无线通信方式与所述唤醒装置1005保持连接。

图8是图7中对手势进行检测的方法流程示意图。

步骤S501摄像头采集的手势数据视频流，图像按照图像输入、预处理、特征提取、分类和匹配等图像采集。其中预处理还可以包括：图像分割、图像增强、二值化和细化等几个部分。解码器处理符合NTSC(NationalTelevisionStandardsCommittee，(美国)国家电视标准委员会标准)的录像信号并且分别提取包括在该录像信号中的多个信号分量(Y、Cb、Cr)并且进行A/D转换并生成可用于图像处理的数字图像信号。

步骤S502预设的手势模型，预设的手势模型中包括但不限于如：握拳、五指张开、剪刀手，一根食指、以及一挥手、转动拳头、摇动“1”字手势的手型。

步骤S503逐帧手势识别，通过获得的手势图像流按照逐帧对手势进行识别，

步骤S504识别结果置信度计算后输出结果。

具体地，所述步骤S504中，需要根据手势数据库中的样本手势特征获取与所述手势特征匹配的第一识别置信度，其中，所述第一识别置信度是与所述手势特征匹配的、所有识别置信度中的最大值。将获取的驾驶员的手势特征，与预先建立的手势数据库中的样本手势特征进行一一匹配，获取目标驾驶员的手势特征与每个样本手势特征匹配的识别置信度，进而从所得到的所有识别置信度中获取最大值即第一识别置信度。即就是手势数据库中的样本手势特征与目标驾驶员的手势特征匹配度最高的样本手势。

比如，将驾驶员的手势征与样本手势特征进行一一匹配后获取的所有识别置信度为：目标驾驶员的手势特征与样本手势A匹配的识别置信度为60％，与样本手势B匹配的识别置信度为90％，与样本手势C匹配的识别置信度为20％，其余均为0，那么与目标人物的手势特征匹配的第一识别置信度为90％。更进一步地，手势数据库可以是手势识别装置预先已经固化的、或者产品制造商在具有存储器的设备上已经固化的手势数据库。较为灵活的是，手势数据库除了包括之前已经固化的样本手势特征，还可以包括实时更新的样本手势特征。

图9是本发明基于HUD的智能唤醒系统的另一实施例中的结构示意图。

在本实施例中的基于HUD的智能唤醒系统，包括：

手势监测识别模块1001，用以对驾驶者进行手势检测，根据所述手势识别出触发动作信息，比如，在感兴趣区域内识别出“OK”手势，即可对HUD进行唤醒，进而完成后续的操作功能。所述手势监测识别模块1001，通过带有图像采集功能的设备对手势进行采样，并通过人物识别装置上的手势特征分析模型对新捕获的样本手势进行样本手势特征提取，再通过手势识别装置的APP应用软件或者相关的应用，设置与新提取的样本手势特征对应的用户名，从而将新的样本手势特征以及对应的用户名添加到手势数据库中，带有图像采集功能可以包括：相机、摄像机等。

语音监听识别模块1003，用以对驾驶者进行语音消息监听，根据所述语音消息识别出唤醒语音信息，比如，语音输入“你好，萝卜”，即可将语音输入转化为语音信号，并在预设的语音库中找到语音信号中对应的操作指令，完成唤醒。

在本实施例中，优选地，所述的语音监听识别模块1003基于训练统计模型，对于统计模型，要想使得它能够识别语音，必须对模型进行训练。所谓训练，是指对大量的训练语料进行统计和处理，计算和调整模型的参数，使模型对未训练过的数据也能达到理想的识别结果。语音识别系统的训练主要包括声学模型的训练和语言模型的训练。对于广泛采用的HMM声学模型，其训练主要是获取HMM中的状态转移概率、各状态的输出概率分布等参数。常用的方法是基于最大似然估计原理的迭代算法(如Baum-Welch算法)。对于基于三元文法的语言模型，其训练主要是从大量的文本中计算三元组的概率。当模型训练好以后，就可以进行识别了。语音识别算法的主要思路是在侯选的词串中搜索使声学模型和语言模型的概率乘积最大的词串。本领域技术人员能够明了，识别过程即为搜索(Search)或解码(Decoding)的过程。而常用的搜索算法是动态Viterbi算法。当前的语音识别系统大都是说话人无关(SpeakerIndependent)系统，即事先并不知道要识别的语音的说话人特征。但是，对于某个说话人(即车辆对应的驾驶者)，如果能够适当学习驾驶者他(她)的发音特点，调整模型参数，显然会使得识别效果更好。这就是说话人自适应的主要原理。所述的驾驶者的自适应，是指对大训练集上得到的模型参数进行调整，使之对当前说话人产生更好地识别效果。可以说，说话人自适应实际上是希望通过少量数据的增强训练(即所谓的自适应过程)，使非特定人系统接近特定人系统的性能。常用的说话人自适应方法主要有两种:最大后验概率(MAP)方法和最大似然线性回归(MLLR)方法。MPA算法采用基于最大后验概率准则，具有理论上的最优性，因此在小词表的语音识别任务中具有相当好的性能。其缺点是对大词汇量的任务自适应速度缓慢，无法满足应用的要求。因此，当前的大词汇量连续语音识别系统大多采用MLLR方法，或将MAP与MLLR结合。从评测结果来看，如果有充分的时间调整说话人自适应模型，连续语音识别中的字错误率可以下降1至4个百分点。

按键监测模块1002，用以对关联的按键进行监控，若监控到按键触发信息，则进行匹配，根据上述基于训练统计模型，进行匹配。

唤醒模块1004，用以对所述触发动作信息或者唤醒语音信息进行匹配，若任意信息匹配成功，则进行唤醒。当唤醒模块1004接收到按键监测模块1002发送的触发信息时，则进行机器唤醒。所述唤醒模块1004可以采用包括灵云语音唤醒、灵云远场语音识别、灵云智能语音、灵云智能语义、灵云内容平台在内的灵云智能终端解决方案，HUD首先需要由灵云语音唤醒来“叫醒”，才能进一步交互，没有被“叫醒”功能的终端将无法继续使用语音交互来控制。当设备被叫醒后，可执行包括但不限于：天气咨询、日历查询、列车查询、航班查询、餐馆位置查询、电话拨打、电话号码寻找、短信收发、音乐及视频播放控制、导航。

所属领域的普通技术人员应当理解：以上，所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能唤醒方法，其特征在于包括，

初始化图像、车内声音，

对所述触发动作信息或者唤醒语音信息进行匹配，

若任意信息匹配成功，则进行唤醒。

2.根据权利要求1所述的智能唤醒方法，其特征在于，还包括，对与所述HUD关联的按键进行监控，若监控到按键触发信息，则进行匹配。

3.根据权利要求2所述的智能唤醒方法，其特征在于，所述按键触发包括物理按键触发信息、虚拟按键触发信息，与所述HUD关联的按键包括物理连接或蓝牙连接。

4.根据权利要求1所述的智能唤醒方法，其特征在于，对驾驶者进行语音消息监听的方法为，

5.根据权利要求4所述的智能唤醒方法，其特征在于，所述监听到语音消息包括，自定义消息和语音命令，若监听到匹配的自定义消息和语音命令，则在唤醒后并行执行所述语音命令。

6.根据权利要求1～5任一项所述的智能唤醒方法，其特征在于，所述初始化图像和车内声音包括，

7.根据权利要求1～5任一项所述的智能唤醒方法，其特征在于，所述唤醒的设备包括：抬头显示器HUD、中控车机或者后视镜。

8.根据权利要求1～5任一项所述的智能唤醒方法，其特征在于，通过设定不同场景，将所述场景与唤醒方式进行多种方式或者一种方式的关联，在所述不同场景下，驾驶者可选择选择，语音消息、手势检测、物理按键、虚拟按键中方式关联后进行唤醒。

9.根据权利要求1～5任一项所述的智能唤醒方法，其特征在于，根据所述手势识别出触发动作信息的方法包括，

通过设定预定义的手势的静止状态，根据所述手势的静止状态通过二维手型进行识别，所述手势的静止状态包括：握拳、五指张开、剪刀手、单个食指、大拇指、“OK”手势，根据识别结果进行置信度计算，得到触发动作信息。

10.一种智能唤醒系统，其特征在于，包括，