CN103204100B

CN103204100B - 一种出租车顶灯语音控制系统

Info

Publication number: CN103204100B
Application number: CN201310119915.XA
Authority: CN
Inventors: 洪海峰; 楼远志; 周艳会
Original assignee: ZHEJIANG HAILIAN ELECTRONIC CO Ltd
Current assignee: ZHEJIANG HAILIAN ELECTRONIC CO Ltd
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2015-08-05
Anticipated expiration: 2033-04-08
Also published as: CN103204100A

Abstract

本发明属于出租车智能顶灯及车载智能设备技术领域，公开了一种出租车顶灯语音控制系统，包括设置于车厢内的控制器和设置于车顶的LED顶灯，所述控制器包括：包括用采集司机语音的音频采集模块、用于编码音频信号的音频编码模块、用于识别音频信号的语音识别模块、用于为各模块提供电源的电源驱动电路、CPU、用于存储语音特征库及程序代码的存储器、及用于提供人机交互界面的触摸显示屏。本发明通过设计具有语音输入功能的出租车专用的LED顶灯控制器的方式构建出租车顶灯控制系统，有效解决了手动输入顶灯显示内容操作不便、浪费乘客时间、导致安全隐患等问题。

Description

一种出租车顶灯语音控制系统

技术领域

本发明属于出租车智能顶灯及车载智能设备技术领域，涉及语音控制出租车顶灯及车载显示设备的技术。

背景技术

出租车作为营运车辆，需要在行驶过程中向路边及车内乘客显示如空车、载客等状态信息，而随着城市交通的日益拥堵及有限的出租车资源越发不能满足日益增长的打车需求，在乘客同意的前提下，拼车成了节约资源，约解高峰打车难问题的有效方法。因此，在行驶过程中向路边乘客传达本车目标方向信息，成为实现拼车的一个关键需求。

早期出租车一般在驾驶室内对应前车窗处安装空车提示牌，乘客上车后，司机手动将提示牌翻倒，乘客下车后，司机再手动将提示牌翻起。显然，这种提示牌的提示信息非常单一，且操作麻烦。随着LED显示技术及单片机技术的发展，出现一种通过LED显示屏显示空车或载客字样的智能提示牌。相比翻上翻下的传统提示牌，这种提示牌不需要翻动，但仍需司机手动控制显示内容在“空车”和“载客”之间变换。

为了更醒目地区别于私家车辆，出租车一般会在车顶上设置顶灯，随着智能提示牌的出现，也出现了一种同样包括LED显示屏的智能顶灯，智能顶灯可以把“空车”和“载客”等营运状态信息更大更醒目地显示出来。此外，智能顶灯相对于智能提示牌，具有显示面积大的优势。除显示“空车”和“载客”等营运状态信息外，还使其具有了显示目标方向的可能。但是由于乘客的目的地具有随机性，无法一一预设在操作键盘上，只能由司机，在乘客上车后，手动输入以使其在顶灯上显示。文字输入过程即给司机带来操作上的麻烦，又浪费了乘客的时间。如司机在车轴起步后进行目标方向的输入，则会带来行车安全隐患。

发明内容

本发明的目的是，针对现有技术中存在的上述不足，提供一种可以免除司机手工控制提示牌或出租车顶灯的方案。该方案公开一种基于语音控制的出租车顶灯及车载显示设备控制系统。

为了实现上述目的，本发明所采用的技术方案是：一种出租车顶灯语音控制系统，包括设置于车厢内的控制器和设置于车顶的LED顶灯。

所述控制器包括：包括用采集司机语音的音频采集模块、用于编码音频信号的音频编码模块、用于识别音频信号的语音识别模块、用于为各模块提供电源的电源驱动电路、CPU、用于存储语音特征库及程序代码的存储器、及用于提供人机交互界面的触摸显示屏；

所述音频采集模块包括麦克风和A/D采样电路，A/D采样电路采样麦克风生成的模拟音频信号并输出；所述音频编码模块的音频信号输入接口与A/D采样电路的输出端连接；语音识别模块的数据输入接口连接音频编码模块的音频数据输出接口；

CPU通过数字接口与音频采集模块、音频编码模块、及语音识别模块的控制接口连接；

CPU通过触摸显示屏驱动电路在触摸显示屏上输出用于提示语音录入的按钮，提示语音录入的按钮被触发后，CPU控制音频采集模块、音频编码模块开始采集并编码音频信号，同时在触摸显示屏上输出用于提示停止语音录入的按钮，提示停止语音录入的按钮被触后或者检测无语音信号达到预设延时后，控制音频采集模块、音频编码模块停止，并控制语音识别模块开始语音识别；

语音识别模块读取音频编码模块缓冲区中音频数据，提取音频数据的特征，并搜索预存于存储器中的文字特征库，进行特征匹配，将特征匹配的文字信息输出，若无匹配文字时，则输出当前音频数据的特征数据；

CPU通过数字接口与语音识别模块的输出接口连接，通过RS232接口与LED顶灯连接，CPU通过RS232接口将语音识别模块输出的文字信息显示到LED顶灯，同时通过触摸显示屏驱动电路在触摸显示屏上输出用于提示语音录入的按钮；

CPU检测到语音识别模块输出为音频数据的特征数据后，在触摸显示屏上输出提示驾驶员手动输入文字的提示信息及用于文字输入的触摸键盘或手写框，CPU触摸显示屏输入的文字及对应的特征及语音识别模块输出的音频数据的特征数据存入文字特征库，更新特征模型，同时通过触摸显示屏驱动电路在触摸显示屏上输出用于提示语音录入的按钮。

本发明通过设计具有语音输入功能的出租车专用的LED顶灯控制器的方式构建出租车顶灯控制系统，有效解决了手动输入顶灯显示内容操作不便、浪费乘客时间、导致安全隐患等问题。

此外，鉴于出租车运行环境多处于嘈杂的环境之中，出租车大多行驶于大街小巷，人流密集的环境之下，加上出租车司机的口音差别极大，以及同一辆车会有多个司机轮流驾驶的情况，为了提高语音识别率，特别为控制器增加了特征学习功能。通过提示驾驶员手动输入当前音频数据对应的文字信息的方式，不断扩大文字特征库，进而提高控制器的语音识别能力。由于单辆出租车司机相对固定（一般一台出租车由一到两个司机驾驶）的特点，针对特定的出租车司机进行长期特征学习后，识别率将显著提高。

针对两个出租车司机驾驶同一辆出租车的情况，为了避免不同司机口音不同相互影响，妨碍语音识别率的提高，本发明还提出了一种基于多个文字特征库的改进方案，具体为：

一种出租车顶灯语音控制系统，包括设置于车厢内的控制器和设置于车顶的LED顶灯。

所述语音特征库包括分别对应不同ID号码的多个语音特征库；

CPU通过数字接口与音频采集模块、音频编码模块、及语音识别模块的控制连接；

CPU通过触摸显示屏驱动电路在触摸显示屏上输出驾驶员ID选择界面，并将被选的ID号码寄存在存储器内；

CPU通过触摸显示屏驱动电路在触摸显示屏上输出用于提示语音录入的按钮，提示语音录入的按钮被触发后，CPU控制音频采集模块、音频编码模块开始采集并编码音频信号，同时在触摸显示屏上输出用于提示停止语音录入的按钮，提示停止语音录入的按钮被触后或者检测到无语音信号达到预设延时后，CPU控制音频采集模块、音频编码模块停止，并控制语音识别模块开始语音识别；

语音识别模块读取音频编码模块缓冲区中音频数据，提取音频数据的特征，并搜索预存于存储器中的对应被选ID号码的文字特征库，进行特征匹配，将特征匹配的文字信息输出，若无匹配文字时，则输出当前音频数据的特征数据；

CPU检测到语音识别模块输出为音频数据的特征数据后，在触摸显示屏上输出提示驾驶员手动输入文字的提示信息及用于文字输入的触摸键盘或手写框，CPU触摸显示屏输入的文字及语音识别模块输出的音频数据的特征数据存入对应被选ID号码的文字特征库，更新特征模型，同时通过触摸显示屏驱动电路在触摸显示屏上输出用于提示语音录入的按钮。

此改进方案，可以针对不同驾驶员使用不同的文字特征库，有效地避免不同司机口音不同相互影响的问题，可大大提高控制器的语音识别能力。

附图说明

图1为本发明所述出租车顶灯控制系统的原理框图。

图2为出租车顶灯控制系统的控制器的一种具体硬件拓扑结构图。

图3为出租车顶灯控制系统的一种具体软件流程图。

图4为语音识别算法原理图。

图5为MFCC计算流程图。

图6为DWT算法搜索路径图。

具体实施方式

下面针对本发明上述方案，给出一个具体实例，以进一步说明本发明所述的出租车顶灯控制系统。

在本例中，所述控制器的语音识别采用Mel倒谱提取MFCC的改进算和动态时间规整(DTW)算法。该改进算法不直接对语音短时幅度谱进行提取,而是首先对幅度谱进行平滑,在谱包络的基础上计算MFCC参数,从而降低基音频率对其的影响。根据提取梅尔倒谱系数和动态时间弯折的模板匹配的优点，对输入语音信号进行端点检测，可以较好地对特定人的孤立词进行识别。同时算法给出了MFCC参数提取，对断点检测进行性能分析和评价。实验结果表明算法具有非常高准确的识别效果。

一、硬件设计

本例控制器硬件拓扑结构如图2所示，主要由音频解码模块、降噪合成模块、CPU核心处理模块、电源模块（电源驱动电路）、备有不间断电源I、/O接口、串口输入输出、3G通讯模块、A/D转换模块、音频采集器、等搭建而成，系统还增设了通讯模块，通讯模块备选，是设备的语音等各类信息通过通讯模块上传至后台，实现信息化管理，系统使用的核心处理器采用的是ARM高速处理芯片。语音信息通过音频信号采集、过滤、降噪后提供高保真的音频信息，经A/D转换模块将模拟信号转换成数字型号，处理器通过专用算法识别关键词语并动态编辑关键词列表，输出结果由I/O端口确认，输出正确的显示信息或控制指令通过总线传送至电子营运证执行和智能顶灯显示语音信息。本系统是通过嵌入式语音识别技术，在处理复杂的音频处理系统中能灵活地输入输出音频数据。固件、硬件设计上在保护模式下完全禁止访问FLASH存储器。编程后，可以从嵌入式存储器启动，从而充当一个完全定制语音识别设备。从而更有效的提高设备的语音识别率。

所述音频采集模块采用抗噪音麦克风，音频编码芯片选用vs1005,其主要功能是将语音信号采集到信号处理模块内,并通过语音识别算法提取出相应的语音特征数据。音频编码芯片vs1005能获得非常好的音效，并且比软件省电。VS1005是一片灵活的音频平台器件。它基于VS_DPS4构件，这是一个功能强大的DSP（数字信号处理器）核心。在独立应用中，数字接口提供了灵活的外部器件访问。在复杂的音频处理系统中能灵活地输入输出音频数据。模拟接口提供了高保真的音频输入和输出，例如控制ADC可以作为电阻式触摸屏接口。VS1005拥有8Mbit（1MByte）VLSI或定制方或第三方定制的嵌入式FLASH存储器。固件和硬件设计上在保护模式下完全禁止访问FLASH存储器。编程后，VS1005可以从嵌入式存储器启动，从而充当一个完全定制的独立音频处理器。

CPU选用ARM9高速处理器S3C2440芯片，S3C2440采用了ARM920t的内核，0.13um的CMOS标准宏单元和存储单元。其低功耗，简单，优雅，且全静态设计特别适合于对成本和功率敏感型的应用。

语音识别模块采用LD3320专用语音识别芯片。LD3320芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路，包括AD、DA转换器、麦克风接口、声音输出接口等。本芯片不需要外接任何的辅助芯片如Flash、RAM等，直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。并且，识别的关键词语列表是可以任意动态编辑的。

二、软件设计

本系统软件流程图如图3所示

2.1系统调度

本系统采用音频编解码芯片VS1005音频模块对语音信号进行采集,通过定时中断来控制系统运行。

主程序使能音频模块,从音频模块的缓冲区内读取音频数据到DDR SDRAM存储器中。当音频模块缓冲区全部为空时,主程序对DDR内的数据进行预处理、端点检测、MFCC参数提取。模式匹配算法采用动态时间规整(DTW)算法。

2.2算法原理

语音识别模块的基本结构如图4所示，MFCC计算流程如图5所示。

2.2.1分帧、预加重处理

预加重的目的是为了对语音的高频部分进行加重增加其高频分辨率,一般通过传递函数为H(z)=1-αZ^-1。α取0.98；语音信号具有短时平稳的特点,因此可以对语音信号进行分帧处理,从而减小因语音信号时变性强带来的负面效果。

预加重算法:

sign(n)=s(n)-a*s(n-1)

式中:α取0.9；s(n)为数字化的语音信号;sign(n)为加重后的语音信号。

分帧算法:

S_{w} (n) = Σ_{- \infty}^{\infty} s (m) * w (n - m)

式中：s(n)为原始信号;Sw(n)为分帧后信号。

分帧采用的窗函数(其中N为帧长,即一帧的采样点数):

2.2.2端点检测算法

端点检测的作用是找出一段语音信号中语音命令的起点和终点的位置。本系统采用短时平均幅度方法进行端点检测,精确地检测到语音的起点和终点,从而保证了系统的高识别率。

短时平均幅度的计算如式(3)所示:

E = Σ_{n = 0}^{N - 1} | s (n) |

2.2.3MFCC提取算法

语音信号是一种典型的时变信号,如果把观察时间缩短到几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。

语音信号经过预处理,它的每个样值均可由过去若干个样值的线性组合来逼近,同时可以采用使实际语音抽样与线性预测抽样之间均方差最小的方式,解出一组预测系数a。这就是MFCC所提取出信号的初始特征。

MFCC提取过程如下:

对语音信号进行预处理，加窗分帧将其变为短时信号。通过将短时时域信号转化为频域信号，并计算其短时能量，离散傅里叶变换。将时域信号x(n)后不若干0以形成长为N（一般取512）的序列，然后进过离散傅里叶变换后得到线性频谱X(k)。

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- 2 Pnk / n}, 0 < n, k < N - 1

求对数能量。为了使计算结果对噪声和谱估计噪声有更好的鲁棒性，一般将上述经过Mel滤波器组得到的Mel频谱取对数能量。

e (m) Σ_{k = 0}^{N - 1} {{| X (k) |}^{2} H}_{m} (k), 0 < m < M

S(m)=ln(e(m)),0<m<M

离散余弦变换。标准的倒谱参数只反映语音参数的静态特性，实际上由于发音的物理条件限制，不同帧之间语音一定是相关的，变化是连续的，所以在识别参数中还是用一阶差分倒谱参数。

c (n) = Σ_{m = 0}^{N - 1} S (m) \cos (\frac{Pn (m + 1 / 2)}{M}), 0 < m < M

2.2.4模式匹配

系统模式匹配部分采用动态时间规整(DTW)算法。

参考模板表示为:

R={R₁，R₂，R_m,…,R_M}

测试模板表示为：

T={T₁，T₂，…,T_n,…,T_N}

其中,Rm和Tn分别为第m帧参考语音和第n帧测试语音的特征参数,参考模板与测试模板一般采用相同类型的MFCC特征参数,二者都是L=16维的矢量。

如图6所示,将测试模板的各帧T₁,T₂,…,T_n,…,T_N。用直角坐标系的横轴表示,参考模板的各帧R₁,R₂,…,R_m,…,R_M用纵轴表示。

在图6中，网络中的每一个交叉点(n,m)表示测试模板中某一帧与参考模板中某一帧的交汇点。用DTW算法寻找一条通过此网络某些交叉点的最优路径,通过计算最优化的局部距离得到整体的最小累积距离。采用欧几里德公式计算局部距离,见式(7),d(n,m)表示Tn和Rm这两帧特征矢量之间的距离。

d (n, m) = Σ_{l = 1}^{L} {[T_{n} (l) - R_{m} (l)]}^{2}

数据点(Tn,Rm)的累积距离用D(n,m)表示:

D(n，m)=min{D[(n，m)]，D[(n，m-1)]}，D[(n，m-2)]

三、系统性能

语音识别算法全部采用C软件实现。利用该软件完成IP核的调用、编译、仿真、综合、验证、实现和C程序代码的产生、编辑、编译、链接、加载、调试。对本系统进行测试,选取了20个不同的人分别对系统进行训练,训练后分别对系统进行50个语音命令测试,每个命令5-8个字。测试过程中记录了每个人的平均识别准确率以及系统从采集语音到超级终端显示出识别结果的平均时间,结果如表1所示。

表1系统性能测试

测试人员	系统运行平均时间/s	准确率/％
			1	1.5	98
2	1.6	96
			3	1.5	98
4	1.9	92
			5	1.2	94
6	1.8	96
			7	1.9	98
8	1.7	92
			9	1.8	96
10	1.4	92
			11	1.7	95
12	1.5	94
			13	1.5	91
14	1.2	100
			15	1.3	94
16	1.9	89
			17	1.8	92
18	1.5	91
			19	1.3	90
20	2.1	97
			avg	1.605	94.25

由表1可知,对于单个人识别成功率为94.25%,系统平均运行时间为1.605s,所以此系统整体上可以满足嵌入式设备对语音识别的性能要求。

Claims

1.一种出租车顶灯语音控制系统，包括设置于车厢内的控制器和设置于车顶的LED顶灯；

2.一种出租车顶灯语音控制系统，包括设置于车厢内的控制器和设置于车顶的LED顶灯；