CN102360187A - 语谱图互相关的驾驶员汉语语音控制系统及方法 - Google Patents
语谱图互相关的驾驶员汉语语音控制系统及方法 Download PDFInfo
- Publication number
- CN102360187A CN102360187A CN2011101363437A CN201110136343A CN102360187A CN 102360187 A CN102360187 A CN 102360187A CN 2011101363437 A CN2011101363437 A CN 2011101363437A CN 201110136343 A CN201110136343 A CN 201110136343A CN 102360187 A CN102360187 A CN 102360187A
- Authority
- CN
- China
- Prior art keywords
- driver
- model
- module
- chip
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明公开了一种语谱图互相关的驾驶员汉语语音控制系统及方法,该控制系统由专用汉语语音识别控制装置(1)、硅麦克风(2)、红外线CCD摄像头(3)和汽车车载电子设备(4)组成。专用汉语语音识别控制装置(1)和硅麦克风(2)、红外线CCD摄像头(3)与汽车车载电子设备(4)为电连接。所述专用汉语语音识别控制装置(1)由DSP芯片(11)、视频AD模块芯片(12)、同步FIFO芯片(13)、语音编解码芯片(14)、CPLD芯片(15)、1号继电器(16)及2号继电器(17)组成。所述汽车车载电子设备(4)包括空调(4a)和后备箱锁(4b)。本发明还提供了采用这种系统控制汽车车载电子设备(4)的方法。
Description
技术领域
本发明涉及一种应用于机动车辆上的驾驶员专用汉语语音识别控制装置和方法,更具体地说,本发明涉及一种语谱图互相关的车内驾驶员专用汉语语音识别控制系统及方法。
背景技术
随着汽车在我国的普及和汽车技术的不断进步,人们对于车辆的认识和要求不再局限于简单的交通工具,而是更多着眼于其舒适性、安全性和其多种多样的便捷的智能功能。车内语音识别与控制技术是智能汽车的重要核心技术之一,可被应用在汽车上实现智能操作,通过识别驾驶者的发音,由语音命令代替手动对一些汽车车载电子设备进行语音控制,将驾驶员的手部操作尽量降低,减少驾驶员注意力的分散,有利于提高行车的安全性和便捷性。
目前已有一些应用于车内环境下的语音识别控制系统可见报导,但分析可查询的汽车车载语音识别控制问题研究报道特别是国内可见文献存在以下问题:
1.所涉及的多为非汉语语音识别领域新方法、新技术向汽车环境的简单移植和使用,对于与英语等语言有着显著差异的汉语指令特点未给予足够的重视和应用;
2.多是非特定人识别控制系统,对指令发出人没有限制,实际工作中极易干扰驾驶员驾驶,不利于行车安全。
3.成员间语言交流中与语音识别控制系统指令库中指令重合发生概率较大,易引起系统误操作。
4.语音识别算法以单音素或单音节为单位,取10-20ms长的语音帧,逐帧处理,较大的运算量使处理速度的提高变得较为困难,且识别系统的泛化程度较难控制。
5.前人虽有唇语识别技术使用,但多是用唇语识别辅助语音识别,主要目的在于提高识别率,且由此引起运算量大、运算时间长等问题。
发明内容
本发明所要解决的技术问题是克服现有车内语音识别控制方法存在的未本土化、指令发出者无限制和指令误读误操的作问题,提供了一种语谱图互相关的车内驾驶员专用汉语语音识别控制系统和方法。
为解决上述技术问题,本发明是采用如下技术方案实现的:所述的语谱图互相关的驾驶员汉语语音控制系统由硬件和计算机程序的功能模块构架两部分所组成。所述的硬件部分是由专用汉语语音识别控制装置、硅麦克风、红外线CCD摄像头和汽车车载电子设备组成。
所述的专用汉语语音识别控制装置由型号为TMS320C6410的DSP芯片、型号为SAA7111H的视频AD模块芯片、型号为AL422B的同步FIFO芯片、型号为TLV320AIC23的语音编解码芯片、型号为XC9536XLVQ44的CPLD芯片、1号继电器及2号继电器组成。
硅麦克风的输出端与型号为TLV320AIC23的语音编解码芯片的DIN引脚电连接,型号为TLV320AIC23的语音编解码芯片的DOUT引脚与型号为TMS320C6410的DSP芯片的多通道缓冲串口及I2C总线电连接,红外线CCD摄像头的输出端与型号为SAA7111H的视频AD模块芯片的CVBS引脚电连接,型号为SAA7111H的视频AD模块芯片的VPO0-7输出引脚与型号为AL422B的同步FIFO芯片的DI0-7输入引脚电连接,型号为AL422B的同步FIFO芯片的DO0-7输出引脚与型号为TMS320C6410的DSP芯片的FIFO接口电连接,型号为XC9536XLVQ44的CPLD芯片和型号为SAA7111H的视频AD模块芯片、型号为AL422B的同步FIFO芯片与型号为TMS320C6410的DSP芯片的通用IO引脚电连接,型号为TMS320C6410的DSP芯片的GP0[0]引脚与1号继电器的输入端电连接,型号为TMS320C6410的DSP芯片的GP0[3]引脚与2号继电器的输入端电连接,1号继电器与2号继电器的输出端分别和汽车车载电子设备电线连接。
技术方案中所述的汽车车载电子设备包括空调和后备箱锁,空调的接线端与2号继电器的输出端电线连接,后备箱锁的接线端与1号继电器的输出端电线连接;所述的计算机程序的功能模块构架由专用汉语语音识别控制单元和驾驶员唇语开关单元组成。所述的专用汉语语音识别控制单元包括存储前一时间段的车内声音信号的音频缓存区、减少噪声影响的背景噪声抑制模块、生成语谱图的短时傅里叶模块、判别有无“打开”或“关闭”语音指令关键词发出的关键词判别模块、判别指令控制对象的汽车车载电子设备判别模块。各模块设置在型号为TMS320C6410的DSP芯片上,采用片上数据线连接。所述的驾驶员唇语开关单元包括实现视频AD转换的视频编解码模块、缓冲一帧视频数据的FIFO模块、描述唇部内外轮廓的唇动检测与跟踪模块和确定有无唇部动作的唇动定位模块。视频编解码模块设置在型号为SAA7111H的视频AD模块芯片上,FIFO模块设置在型号为AL422B的同步FIFO芯片上,唇动检测与跟踪模块和唇动定位模块均设置在型号为TMS320C6410的DSP芯片上。视频编解码模块通过所在的型号为SAA7111H的视频AD模块芯片的VPO0-7输出引脚与FIFO模块所在的型号为AL422B的同步FIFO芯片的DI0-7输入引脚电连接,FIFO模块通过所在的型号为AL422B的同步FIFO芯片的输出引脚和唇动检测与跟踪模块及唇动定位模块所在的型号为TMS320C6410的DSP芯片内的FIFO接口电连接。唇动检测与跟踪模块和唇动定位模块间采用片上数据线连接。
一种采用语谱图互相关的驾驶员汉语语音控制系统控制汽车车载电子设备的方法,该方法的步骤如下:
1.建立语谱图互相关的驾驶员汉语语音控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词,“空调”与“后备箱”为具体的汽车车载电子设备名称;
2.以驾驶员面前的硅麦克风采集若干帧车内声音信号,送入专用汉语语音识别控制装置中的音频缓存区;
3.以驾驶员面前的红外线CCD摄像头采集驾驶员唇部图像送入驾驶员唇语开关单元,经视频编解码、FIFO缓冲、唇动检测与跟踪及唇动定位环节,确定驾驶员口唇部是否有动作;
4.确定驾驶员口唇部有动作时,发出信号激活专用汉语语音识别控制单元,提取音频缓存区中存储的前一时间段的车内声音信号,送入背景噪声抑制模块;
5.对提取的车内声音信号,以数字带通滤波器和谱相减法为核心,抑制背景噪声的同时增强语音;
6.对经过背景噪声抑制处理后的声信号进行短时傅里叶分析,得到语谱图后,送入关键词判别环节,用驾驶员语音“打开”、“关闭”语谱图模板作为动词识别模板,利用图像互相关方法对照动词关键词语谱图模板,快速监测车内有无预设规定的“打开”或“关闭”语音指令关键词发出;
7.若有关键词发出则将声音信号作为疑似语音指令,送入汽车车载电子设备(4)判别环节,用驾驶员语音“后备箱锁”、“空调”、------语谱图模板作为名词识别模板,利用图像互相关方法对照汽车车载电子设备名称语谱图模板,快速监测疑似指令中有无指令库中预设规定的汽车车载电子设备名称及发出汽车车载电子设备名称内容的确定,识别指令中需要控制的汽车车载电子设备,鉴别指令控制对象以决定控制指向;
8.确定疑似语音指令中含有语音指令库中存储的汽车车载电子设备名称后,由专用汉语语音识别控制装置按照指令中的动词通过1号继电器及2号继电器的开合,实现对汽车车载电子设备中的空调或/和后备箱锁的操作。
技术方案中所述的语谱图互相关方法包括如下步骤:
设疑似语音语谱图为M×N灰度图像矩阵A,矩阵的行对应语谱图中的频率轴,矩阵的列对应语谱图中的时间轴,第i行、第j列元素值就是时刻j时第i个频率成分的幅频强度;
1.语谱图预处理:将语谱图零均值化,即将图像矩阵各元素值与图像灰度均值做差;
2.设驾驶员“打开”语音语谱图为M×N1灰度图像矩阵A1,且已经零均值化,其中N1<N。做A与A1的二维圆周互相关:
其中,m=0,1,2,Λ,M,n=0,1,2,Λ,N,若疑似语音中含有驾驶员的“打开”指令语音,那么,R(m,n)一定含有至少一个足够大的极值,设定一个阈值R0,当R(m0,n0)≥R0时,即认定疑似语音中含有驾驶员的“打开”命令;
3.由第2.步骤的结论,若已经确定疑似语音为驾驶员控制指令,按公式(1)中算法,将驾驶员的“后备箱锁”、“空调4a”、------已零均值化的语谱图模板分别与疑似语音语谱图做二维圆周互相关,确定控制对象;
其中:语音采样率取10kHz,语谱图取带宽为20Hz的512点窄带傅里叶语谱图,时间分析窗口51ms,时间窗口总长度由端点检测结果确定。
与现有技术相比本发明的有益效果是:
1.本发明提出了一种驾驶员专用的语谱图互相关车内汉语语音识别控制方法,并构建了车内驾驶员专用汉语语音识别控制系统,通过识别驾驶者的发音,由语音指令代替驾驶员手部动作控制汽车车载电子设备,降低驾驶员非驾驶性操作,减少其注意力分散,有利于提高行车的安全性和便捷性。
2.本发明采用CCD摄像头采集图像判断驾驶员口唇部有无动作,作为专用汉语语音识别控制装置的开关,实现系统的驾驶员专用性,有利于行车安全。保证系统一定识别率的同时,提高系统的识别速度。且采用可昼夜工作的红外线,帮助系统实现全天候功能。
3.本发明根据汉语语言特点,建立车内驾驶员专用汉语语音识别控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词。鉴于同一语音指令内容,同一指令发出者重复发出,其语谱图形状非常相似;不同指令发出者发出,相互语谱图形状差异较自身差异显著。提出语音指令的阶段识别,即第一阶段利用语音指令的语谱图,应用图像互相关方法对照关键词语谱图模板,监测车内有无语音指令关键词发出;第二阶段利用语音指令的语谱图,利用图像互相关方法识别指令中的执行器,提高识别速度和效率的同时,有利于识别率的提升。
4.本发明设计并使用了基于语谱图互相关技术的语音识别算法,无需端点检测环节,且以指令语句为单位对语谱图进行词汇分析,处理速度快。
5.本发明综合了声学、信号处理、自适应控制和车辆工程等多个领域的学科知识,是上述各学科领域知识的交叉应用。对车内噪声对语音识别的影响问题予以了充分考虑,能够在车辆行驶工况变化时自适应调整对噪声的抑制程度。整个噪声抑制过程是自适应完成的,无需手动的外加干预。
6.本发明以驾驶员本人特定发音词汇的语谱图为语音识别模板,属于特定人特定词汇语音识别,所以,系统兼具语音锁功能。
附图说明
下面结合附图对本发明作进一步的说明:
图1为表述本发明所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统的结构原理示意框图;
图2是采用本发明所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统布置在某车型上的一个实施实例的结构原理示意框图;
图3是采用本发明所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统控制车载电子设备方法的流程框图;
图4是采用本发明所述的驾驶员唇语开关单元的检测方法的流程框图;
图中:1.专用汉语语音识别控制装置,1a.专用汉语语音识别控制单元,1b.驾驶员唇语开关单元,2.硅麦克风,3.红外线CCD摄像头,4.汽车车载电子设备,4a.空调,4b.后备箱锁,11.DSP芯片,12.视频AD模块芯片,13.同步FIFO芯片,14.语音编解码芯片,15.CPLD芯片,16.1号继电器,17.2号继电器。
具体实施方式
下面结合附图对本发明作详细的描述:
本发明的宗旨是克服现有车内语音识别控制方法存在的未本土化、指令发出者无限制和指令误读误操作问题,提供一种基于语谱图互相关技术的车内驾驶员专用汉语语音识别控制系统。同时提供了采用这种系统控制汽车车载电子设备的方法。
一.语谱图互相关的车内驾驶员专用汉语语音识别控制系统的结构组成:
参阅图1至图3,本发明所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统是由硬件和计算机程序的功能模块构架两大部分所组成。硬件部分是由专用汉语语音识别控制装置1、硅麦克风(音频采集设备)2、红外线CCD摄像头(视频采集设备)3和汽车车载电子设备4组成。硅麦克风2、红外线CCD摄像头3与汽车车载电子设备4分别和专用汉语语音识别控制装置1电连接。
所述的专用汉语语音识别控制装置1主要由德州仪器公司生产的型号为TMS320C6410的DSP芯片11、飞利浦公司生产的型号为SAA7111H的视频AD模块芯片12、Averlogic公司生产的型号为AL422B的同步FIFO芯片13、德州仪器公司生产的型号为TLV320AIC23的语音编解码芯片14、XILINX公司生产的型号为XC9536XLVQ44的CPLD芯片15、1号继电器16及2号继电器17组成。
所述的型号为TLV320AIC23的语音编解码芯片14包括有耳机输出放大器、模/数转换(ADC)和数/模转换(DAC)部件;驾驶员面前的硅麦克风2的输出端与型号为TLV320AIC23的语音编解码芯片14的DIN引脚电连接;型号为TLV320AIC23的语音编解码芯片14的DOUT引脚与型号为TMS320C6410的DSP芯片11的多通道缓冲串口及I2C总线电连接;所述的驾驶员面前的红外线CCD摄像头3的输出端与型号为SAA7111H的视频AD模块芯片12的CVBS引脚电连接,传送CVBS信号;型号为SAA7111H的视频AD模块芯片12的VPO0-7输出引脚与型号为AL422B的同步FIFO芯片13的DI0-7输入引脚电连接;型号为AL422B的同步FIFO芯片13的DO0-7输出引脚与型号为TMS320C6410的DSP芯片11内的FIFO接口电连接;所述的型号为XC9536XLVQ44的CPLD芯片15和型号为SAA7111H的视频AD模块芯片12、型号为AL422B的同步FIFO芯片13与型号为TMS320C6410的DSP芯片11通过通用IO引脚电连接;型号为TMS320C6410的DSP芯片11的GP0[0]与GP0[3]引脚分别和1号继电器16与2号继电器17的输入端电连接,1号继电器16与2号继电器17的输出端分别和汽车车载电子设备4中的后备箱锁4b与空调4a电连接。
计算机程序部分可以描述为由一组实现计算机程序所记载的技术方案的功能模块所组成的功能模块构架。更具体地说,本发明所涉及的计算机程序的功能模块构架由专用汉语语音识别控制单元1a和驾驶员唇语开关单元1b组成。
参阅图2,所述的专用汉语语音识别控制单元1a包括存储前一时间段的车内声音信号的音频缓存区、减少噪声影响的背景噪声抑制模块、生成语谱图的短时傅里叶模块、判别有无“打开”或“关闭”语音指令关键词发出的关键词判别模块、判别指令控制对象的汽车车载电子设备判别模块。所述的音频缓存区、背景噪声抑制模块、短时傅里叶模块、关键词判别模块与汽车车载电子设备判别模块设置在型号为TMS320C6410的DSP芯片11上,采用片上数据线连接,综合作用实现关键词和指令控制对象的识别和确定。
所述的驾驶员唇语开关单元1b包括实现视频AD转换的视频编解码模块、缓冲一帧视频数据的FIFO模块、描述唇部内外轮廓的唇动检测与跟踪模块、确定有无唇部动作的唇动定位模块。
视频编解码模块设置在型号为SAA7111H的视频AD模块芯片12上,FIFO模块装置在型号为AL422B的同步FIFO芯片13上,唇动检测与跟踪模块和唇动定位模块均装置在型号为TMS320C6410的DSP芯片11上。视频编解码模块通过所在的型号为SAA7111H的视频AD模块芯片12的VPO0-7输出引脚与FIFO模块所在的型号为AL422B的同步FIFO芯片13的DI0-7输入引脚电连接;FIFO模块通过所在的型号为AL422B的同步FIFO芯片13的输出引脚和唇动检测与跟踪模块及唇动定位模块所在的型号为TMS320C6410的DSP芯片11内的FIFO接口电连接,唇动检测与跟踪模块和唇动定位模块间采用片上数据线连接。
语谱图互相关的驾驶员汉语语音控制系统设计为两个识别阶段并使用了基于图像互相关技术的语音识别算法,即采用了如上所述的计算机程序部分。
二.采用本发明所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统实现语音控制汽车车载电子设备的方法包括如下步骤(参阅图1至图4):
1.在汽车上合理布置语谱图互相关的车内驾驶员专用汉语语音识别控制系统,尤其是合理布置专用汉语语音识别控制装置1、硅麦克风2、红外线CCD摄像头3和汽车车载电子设备4。专用汉语语音识别控制装置1安装在车内仪表板上,红外线CCD摄像头3和硅麦克风2安装在仪表板正对驾驶员无其它设备处。
2.建立语谱图互相关的车内驾驶员专用汉语语音识别控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词,“空调”和“后备箱”等为具体的汽车车载电子设备4(即指令控制对象)的名称。
3.以驾驶员面前的硅麦克风2采集若干帧车内声音信号,送入专用汉语语音识别控制装置1中开辟的音频缓存区。
4.以驾驶员面前昼夜工作的红外线CCD摄像头3采集驾驶员唇部图像送入驾驶员唇语开关单元1b,经视频编解码、FIFO缓冲、唇动检测与跟踪及唇动定位等环节,确定驾驶员口唇部是否有动作。
5.确定驾驶员口唇部有动作时,发出信号激活专用汉语语音识别控制单元1a。提取音频缓存区中存储的前一时间段的车内声音信号,送入背景噪声抑制模块。
6.对提取的车内声音信号,以数字带通滤波器和谱相减法为核心,抑制背景噪声的同时增强语音。
7.对经过背景噪声抑制处理后的声信号,进行短时傅里叶分析。得到语谱图后,送入关键词判别环节,进行第一阶段语音识别,用驾驶员语音“打开”、“关闭”语谱图模板作为动词识别模板,利用图像互相关方法对照动词关键词语谱图模板,快速监测车内有无预设规定的“打开”或“关闭”语音指令关键词发出,决定控制开关(打开/关闭)状态。
8.若有关键词检出则将声音信号作为疑似语音指令,送入汽车车载电子设备4判别环节,进行第二阶段语音识别,用驾驶员语音“导航”、“后备箱锁4b”、“前左侧窗”、“收音机”、“空调4a”、------等语谱图模板作为名词识别模板,利用图像互相关方法对照汽车车载电子设备4名称语谱图模板,快速监测疑似指令中有无指令库中规定的汽车车载电子设备4名称及发出汽车车载电子设备4名称内容的确定,识别指令中需要控制的目标汽车车载电子设备4,鉴别指令控制对象(导航/后备箱锁4b/前左侧窗/收音机/空调4a、---)以决定控制指向。
以“打开”、“导航”为例,说明语谱图互相关的算法。设疑似语音语谱图为M×N灰度图像矩阵A,矩阵的行对应语谱图中的频率轴,矩阵的列对应语谱图中的时间轴,第i行、第j列元素值就是时刻j时第i个频率成分的幅频强度。
1)语谱图预处理:将语谱图零均值化,即将图像矩阵各元素值与图像灰度均值做差;
2)设驾驶员“打开”语音语谱图为M×N1灰度图像矩阵A1,且已经零均值化,其中N1<N。做A与A1的二维圆周互相关:
其中,m=0,1,2,Λ,M,n=0,1,2,Λ,N。若疑似语音中含有驾驶员的“打开”指令语音,那么,R(m,n)一定含有至少一个足够大的极值。设定一个阈值R0,当R(m0,n0)≥R0时,即可认定疑似语音中含有驾驶员的“打开”命令。
实际上m和n的取值范围不一定很大,当满足R(m0,n0)≥R0时,即可停止互相关运算。
3)由2)的结论,若已经确定疑似语音为驾驶员控制指令,按公式(1)中算法,将驾驶员的“导航”、“后备箱锁4b”、“前左侧窗”、“收音机”、“空调4a”、------等等语谱图模板(已零均值化)分别与疑似语音语谱图做二维圆周互相关,确定控制对象。
上述算法中,语音采样率取10kHz(系统加前置抗混滤波器),语谱图取带宽为20Hz的窄带傅里叶语谱图(512点FFT),时间分析窗口51ms,时间窗口总长度由端点检测结果确定。
本发明所述的图像处理手段不仅限于互相关分析,还可以采用诸如纹理分析、边缘检测、形状分析、小波语谱图、Mel语谱图等其他图像处理技术。且非单人使用时可采用多组模块逻辑或结构进一步扩展到特定人组。
9.确定疑似语音指令中含有语音指令库中存储的汽车车载电子设备4名称后,由专用汉语语音识别控制装置1按照指令中的动词通过控制继电器16与继电器17开合,以实现对汽车车载电子设备4中的空调4a或/和后备箱锁4b等目标汽车车载电子设备4的操作。
Claims (5)
1.一种语谱图互相关的驾驶员汉语语音控制系统,由硬件和计算机程序的功能模块构架两部分所组成,其特征在于,所述的硬件部分是由专用汉语语音识别控制装置(1)、硅麦克风(2)、红外线CCD摄像头(3)和汽车车载电子设备(4)组成;
所述的专用汉语语音识别控制装置(1)由型号为TMS320C6410的DSP芯片(11)、型号为SAA7111H的视频AD模块芯片(12)、型号为AL422B的同步FIFO芯片(13)、型号为TLV320AIC23的语音编解码芯片(14)、型号为XC9536XLVQ44的CPLD芯片(15)、1号继电器(16)及2号继电器(17)组成;
硅麦克风(2)的输出端与型号为TLV320AIC23的语音编解码芯片(14)的DIN引脚电连接,型号为TLV320AIC23的语音编解码芯片(14)的DOUT引脚与型号为TMS320C6410的DSP芯片(11)的多通道缓冲串口及I2C总线电连接,红外线CCD摄像头(3)的输出端与型号为SAA7111H的视频AD模块芯片(12)的CVBS引脚电连接,型号为SAA7111H的视频AD模块芯片(12)的VPO0-7输出引脚与型号为AL422B的同步FIFO芯片(13)的DI0-7输入引脚电连接,型号为AL422B的同步FIFO芯片(13)的DO0-7输出引脚与型号为TMS320C6410的DSP芯片(11)的FIFO接口电连接,型号为XC9536XLVQ44的CPLD芯片(15)和型号为SAA7111H的视频AD模块芯片(12)、型号为AL422B的同步FIFO芯片(13)与型号为TMS320C6410的DSP芯片(11)的通用IO引脚电连接,型号为TMS320C6410的DSP芯片(11)的GP0[0]引脚与1号继电器(16)的输入端电连接,型号为TMS320C6410的DSP芯片(11)的GP0[3]引脚与2号继电器(17)的输入端电连接,1号继电器(16)与2号继电器(17)的输出端分别和汽车车载电子设备(4)电线连接。
2.按照权利要求1所述的语谱图互相关的驾驶员汉语语音控制系统,其特征在于,所述的汽车车载电子设备(4)包括空调(4a)和后备箱锁(4b),空调(4a)的接线端与2号继电器(17)的输出端电线连接,后备箱锁(4b)的接线端与1号继电器(16)的输出端电线连接。
3.按照权利要求1所述的图像处理用于语谱图的驾驶员汉语语音控制系统,其特征在于,所述的计算机程序的功能模块构架由专用汉语语音识别控制单元(1a)和驾驶员唇语开关单元(1b)组成;
所述的专用汉语语音识别控制单元(1a)包括存储前一时间段的车内声音信号的音频缓存区、减少噪声影响的背景噪声抑制模块、生成语谱图的短时傅里叶模块、判别有无“打开”或“关闭”语音指令关键词发出的关键词判别模块、判别指令控制对象的汽车车载电子设备判别模块;
各模块设置在型号为TMS320C6410的DSP芯片(11)上,采用片上数据线连接;
所述的驾驶员唇语开关单元(1b)包括实现视频AD转换的视频编解码模块、缓冲一帧视频数据的FIFO模块、描述唇部内外轮廓的唇动检测与跟踪模块和确定有无唇部动作的唇动定位模块;
视频编解码模块设置在型号为SAA7111H的视频AD模块芯片(12)上,FIFO模块设置在型号为AL422B的同步FIFO芯片(13)上,唇动检测与跟踪模块和唇动定位模块均设置在型号为TMS320C6410的DSP芯片(11)上,视频编解码模块通过所在的型号为SAA7111H的视频AD模块芯片(12)的VPO0-7输出引脚与FIFO模块所在的型号为AL422B的同步FIFO芯片(13)的DI0-7输入引脚电连接,FIFO模块通过所在的型号为AL422B的同步FIFO芯片(13)的输出引脚和唇动检测与跟踪模块及唇动定位模块所在的型号为TMS320C6410的DSP芯片(11)内的FIFO接口电连接,唇动检测与跟踪模块和唇动定位模块间采用片上数据线连接。
4.一种采用权利要求1所述的语谱图互相关的驾驶员汉语语音控制系统控制汽车车载电子设备的方法,其特征是该方法包括如下步骤:
1)建立语谱图互相关的驾驶员汉语语音控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词,“空调”与“后备箱”为具体的汽车车载电子设备(4)名称;
2)以驾驶员面前的硅麦克风(2)采集若干帧车内声音信号,送入专用汉语语音识别控制装置(1a)中的音频缓存区;
3)以驾驶员面前的红外线CCD摄像头(3)采集驾驶员唇部图像送入驾驶员唇语开关单元(1b),经视频编解码、FIFO缓冲、唇动检测与跟踪及唇动定位环节,确定驾驶员口唇部是否有动作;
4)确定驾驶员口唇部有动作时,发出信号激活专用汉语语音识别控制单元(1a),提取音频缓存区中存储的前一时间段的车内声音信号,送入背景噪声抑制模块;
5)对提取的车内声音信号,以数字带通滤波器和谱相减法为核心,抑制背景噪声的同时增强语音;
6)对经过背景噪声抑制处理后的声信号进行短时傅里叶分析,得到语谱图后,送入关键词判别环节,用驾驶员语音“打开”、“关闭”语谱图模板作为动词识别模板,利用图像互相关方法对照动词关键词语谱图模板,快速监测车内有无预设规定的“打开”或“关闭”语音指令关键词发出;
7)若有关键词发出则将声音信号作为疑似语音指令,送入汽车车载电子设备(4)判别环节,用驾驶员语音“后备箱锁”、“空调”、------语谱图模板作为名词识别模板,利用图像互相关方法对照汽车车载电子设备(4)名称语谱图模板,快速监测疑似指令中有无指令库中预设规定的汽车车载电子设备(4)名称及发出汽车车载电子设备(4)名称内容的确定,识别指令中需要控制的汽车车载电子设备(4),鉴别指令控制对象以决定控制指向;
8)确定疑似语音指令中含有语音指令库中存储的汽车车载电子设备(4)名称后,由专用汉语语音识别控制装置(1)按照指令中的动词通过1号继电器(16)及2号继电器(17)的开合,实现对汽车车载电子设备(4)中的空调(4a)或/和后备箱锁(4b)的操作。
5.按照权利要求4所述的采用语谱图互相关的驾驶员汉语语音控制系统控制汽车车载电子设备的方法,其特征在于,所述的语谱图互相关方法包括如下步骤:
设疑似语音语谱图为M×N灰度图像矩阵A,矩阵的行对应语谱图中的频率轴,矩阵的列对应语谱图中的时间轴,第i行、第j列元素值就是时刻j时第i个频率成分的幅频强度;
1)语谱图预处理:将语谱图零均值化,即将图像矩阵各元素值与图像灰度均值做差;
2)设驾驶员“打开”语音语谱图为M×N1灰度图像矩阵A1,且已经零均值化,其中N1<N,做A与A1的二维圆周互相关:
其中,m=0,1,2,Λ,M,n=0,1,2,Λ,N,若疑似语音中含有驾驶员的“打开”指令语音,那么,R(m,n)一定含有至少一个足够大的极值,设定一个阈值R0,当R(m0,n0)≥R0时,即认定疑似语音中含有驾驶员的“打开”命令;
3)由第2)步骤的结论,若已经确定疑似语音为驾驶员控制指令,按公式(1)中算法,将驾驶员的“后备箱锁”、“空调4a”、------已零均值化的语谱图模板分别与疑似语音语谱图做二维圆周互相关,确定控制对象;
其中:语音采样率取10kHz,语谱图取带宽为20Hz的512点窄带傅里叶语谱图,时间分析窗口51ms,时间窗口总长度由端点检测结果确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101363437A CN102360187B (zh) | 2011-05-25 | 2011-05-25 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101363437A CN102360187B (zh) | 2011-05-25 | 2011-05-25 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102360187A true CN102360187A (zh) | 2012-02-22 |
CN102360187B CN102360187B (zh) | 2013-06-05 |
Family
ID=45585526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101363437A Expired - Fee Related CN102360187B (zh) | 2011-05-25 | 2011-05-25 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102360187B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104267618A (zh) * | 2014-07-31 | 2015-01-07 | 广东美的制冷设备有限公司 | 基于红外定位的语音控制方法和系统 |
CN104301500A (zh) * | 2013-07-16 | 2015-01-21 | 中兴通讯股份有限公司 | 一种终端控制方法、装置和终端 |
CN104361889A (zh) * | 2014-10-28 | 2015-02-18 | 百度在线网络技术(北京)有限公司 | 一种对音频文件进行处理的方法及装置 |
CN104428832A (zh) * | 2012-07-09 | 2015-03-18 | Lg电子株式会社 | 语音识别装置及其方法 |
CN105009202A (zh) * | 2013-01-04 | 2015-10-28 | 寇平公司 | 分为两部分的语音识别 |
CN105405442A (zh) * | 2015-10-28 | 2016-03-16 | 小米科技有限责任公司 | 语音的识别方法、装置和设备 |
WO2017031860A1 (zh) * | 2015-08-24 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN106537471A (zh) * | 2014-03-27 | 2017-03-22 | 飞利浦灯具控股公司 | 通过照明单元对压力波的检测和通知 |
CN107230478A (zh) * | 2017-05-03 | 2017-10-03 | 上海斐讯数据通信技术有限公司 | 一种语音信息处理方法及系统 |
CN107863101A (zh) * | 2017-12-01 | 2018-03-30 | 陕西专壹知识产权运营有限公司 | 一种智能家居设备的语音识别装置 |
CN110752973A (zh) * | 2018-07-24 | 2020-02-04 | Tcl集团股份有限公司 | 一种终端设备的控制方法、装置和终端设备 |
CN112164389A (zh) * | 2020-09-18 | 2021-01-01 | 国营芜湖机械厂 | 一种多模式语音识别送话装置及其控制方法 |
CN112771608A (zh) * | 2018-11-20 | 2021-05-07 | 深圳市欢太科技有限公司 | 语音信息的处理方法、装置、存储介质及电子设备 |
CN113709545A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频的处理方法、装置、计算机设备和存储介质 |
CN113733846A (zh) * | 2021-08-17 | 2021-12-03 | 一汽奔腾轿车有限公司 | 一种基于唇语指令的汽车空调系统 |
CN114264053A (zh) * | 2021-12-28 | 2022-04-01 | 珠海格力电器股份有限公司 | 空调控制方法以及非易失性存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054819B1 (en) * | 2000-02-11 | 2006-05-30 | Microsoft Corporation | Voice print access to computer resources |
CN2933947Y (zh) * | 2006-07-31 | 2007-08-15 | 比亚迪股份有限公司 | 一种语音控制的汽车车速限制装置 |
CN101323305A (zh) * | 2008-05-14 | 2008-12-17 | 奇瑞汽车股份有限公司 | 车载语音识别控制系统及其控制方法 |
CN201665188U (zh) * | 2010-01-25 | 2010-12-08 | 北京森博克智能科技有限公司 | 具备语音交互和行为监控的车载数字多媒体设备 |
CN202067537U (zh) * | 2011-05-25 | 2011-12-07 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统 |
-
2011
- 2011-05-25 CN CN2011101363437A patent/CN102360187B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054819B1 (en) * | 2000-02-11 | 2006-05-30 | Microsoft Corporation | Voice print access to computer resources |
CN2933947Y (zh) * | 2006-07-31 | 2007-08-15 | 比亚迪股份有限公司 | 一种语音控制的汽车车速限制装置 |
CN101323305A (zh) * | 2008-05-14 | 2008-12-17 | 奇瑞汽车股份有限公司 | 车载语音识别控制系统及其控制方法 |
CN201665188U (zh) * | 2010-01-25 | 2010-12-08 | 北京森博克智能科技有限公司 | 具备语音交互和行为监控的车载数字多媒体设备 |
CN202067537U (zh) * | 2011-05-25 | 2011-12-07 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104428832A (zh) * | 2012-07-09 | 2015-03-18 | Lg电子株式会社 | 语音识别装置及其方法 |
CN104428832B (zh) * | 2012-07-09 | 2018-06-26 | Lg电子株式会社 | 语音识别装置及其方法 |
CN105009202A (zh) * | 2013-01-04 | 2015-10-28 | 寇平公司 | 分为两部分的语音识别 |
CN104301500A (zh) * | 2013-07-16 | 2015-01-21 | 中兴通讯股份有限公司 | 一种终端控制方法、装置和终端 |
CN106537471A (zh) * | 2014-03-27 | 2017-03-22 | 飞利浦灯具控股公司 | 通过照明单元对压力波的检测和通知 |
CN104267618A (zh) * | 2014-07-31 | 2015-01-07 | 广东美的制冷设备有限公司 | 基于红外定位的语音控制方法和系统 |
CN104361889A (zh) * | 2014-10-28 | 2015-02-18 | 百度在线网络技术(北京)有限公司 | 一种对音频文件进行处理的方法及装置 |
CN104361889B (zh) * | 2014-10-28 | 2018-03-16 | 北京音之邦文化科技有限公司 | 一种对音频文件进行处理的方法及装置 |
WO2017031860A1 (zh) * | 2015-08-24 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN105405442B (zh) * | 2015-10-28 | 2019-12-13 | 小米科技有限责任公司 | 语音的识别方法、装置和设备 |
CN105405442A (zh) * | 2015-10-28 | 2016-03-16 | 小米科技有限责任公司 | 语音的识别方法、装置和设备 |
CN107230478A (zh) * | 2017-05-03 | 2017-10-03 | 上海斐讯数据通信技术有限公司 | 一种语音信息处理方法及系统 |
CN107863101A (zh) * | 2017-12-01 | 2018-03-30 | 陕西专壹知识产权运营有限公司 | 一种智能家居设备的语音识别装置 |
CN110752973A (zh) * | 2018-07-24 | 2020-02-04 | Tcl集团股份有限公司 | 一种终端设备的控制方法、装置和终端设备 |
CN110752973B (zh) * | 2018-07-24 | 2020-12-25 | Tcl科技集团股份有限公司 | 一种终端设备的控制方法、装置和终端设备 |
CN112771608A (zh) * | 2018-11-20 | 2021-05-07 | 深圳市欢太科技有限公司 | 语音信息的处理方法、装置、存储介质及电子设备 |
CN112164389A (zh) * | 2020-09-18 | 2021-01-01 | 国营芜湖机械厂 | 一种多模式语音识别送话装置及其控制方法 |
CN112164389B (zh) * | 2020-09-18 | 2023-06-02 | 国营芜湖机械厂 | 一种多模式语音识别送话装置及其控制方法 |
CN113709545A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频的处理方法、装置、计算机设备和存储介质 |
CN113733846A (zh) * | 2021-08-17 | 2021-12-03 | 一汽奔腾轿车有限公司 | 一种基于唇语指令的汽车空调系统 |
CN114264053A (zh) * | 2021-12-28 | 2022-04-01 | 珠海格力电器股份有限公司 | 空调控制方法以及非易失性存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102360187B (zh) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102360187B (zh) | 语谱图互相关的驾驶员汉语语音控制系统及方法 | |
KR102388992B1 (ko) | 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식 | |
CN104332159B (zh) | 一种车载语音操作系统人机互动方法及装置 | |
CN104570835B (zh) | 飞机驾驶舱语音指令控制系统及其操作方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN104200805B (zh) | 汽车驾驶员语音助手 | |
CN103204100B (zh) | 一种出租车顶灯语音控制系统 | |
CN1856820A (zh) | 语音识别方法和通信设备 | |
CN107554456A (zh) | 车载语音控制系统及其控制方法 | |
CN210489237U (zh) | 一种车载智能终端语音控制系统 | |
CN110182155B (zh) | 车载控制系统的语音控制方法、车载控制系统和车辆 | |
KR20170054794A (ko) | 자동차용 소음 제어장치 및 그 제어방법 | |
CN203607093U (zh) | 一种基于云加端的车载人机语音交互系统 | |
CN105761532B (zh) | 动态语音提示方法及车载系统 | |
CN202067537U (zh) | 语谱图互相关的驾驶员汉语语音控制系统 | |
Angkititrakul et al. | UTDrive: Driver behavior and speech interactive systems for in-vehicle environments | |
CN109211570A (zh) | 一种电驱动动力总成系统噪声源分离识别方法 | |
CN110001558A (zh) | 用于控制车辆的方法和装置 | |
CN101819770A (zh) | 音频事件检测系统及方法 | |
CN106022291A (zh) | 一种基于神经信号的紧急状态下驾驶员刹车意图检测方法 | |
CN107444317A (zh) | 汽车天窗控制方法及系统 | |
CN110415697A (zh) | 一种基于深度学习的车载语音控制方法及其系统 | |
CN111833870A (zh) | 车载语音系统的唤醒方法、装置、车辆和介质 | |
CN101645716A (zh) | 一种具有语音识别功能的车载通讯系统及其识别方法 | |
CN203419063U (zh) | 一种出租车顶灯语音控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130605 Termination date: 20140525 |