CN105654947A

CN105654947A - 一种获取交通广播语音中路况信息的方法及系统

Info

Publication number: CN105654947A
Application number: CN201511020718.8A
Authority: CN
Inventors: 刘文举; 谭应伟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-08
Anticipated expiration: 2035-12-30
Also published as: CN105654947B

Abstract

本发明公开了一种获取交通广播语音中路况信息的方法及系统，其目的是从大量的交通广播语音中提取有用信息，为无人车的行驶提供智能决策支持。本发明的方案包括下列步骤：从收音机中获取广播音频流，将数字化的语音信号进行预处理；运用语音端点检测技术从音频流中检测出语音片段；利用语音识别引擎对所述语音片段进行识别处理而得到识别结果；从互联网上采集路况信息，通过这些数据建立与交通路况信息相关的词典；构建交通路况领域相关的多模式文本抽取器，利用所述抽取器对识别结果进行抽取，得到最终的交通路况信息。

Description

一种获取交通广播语音中路况信息的方法及系统

技术领域

本发明涉及语音端点检测技术、广播语音识别技术、交通路况信息相关的词典的建立方法以及路况信息抽取技术。

背景技术

无人车是一种集感知、控制和智能决策等理论和技术于一体，能够自主驾驶的智能车辆。无人车研究的核心内容之一是智能行为决策。从20世纪70年代开始，美国、英国、德国等发达国家开始进行无人驾驶汽车的研究，在可行性和实用化方面都取得了突破性的进展。据报道，谷歌无人驾驶汽车一共记录的里程数据已经达到了70万英里，我国在无人驾驶汽车的开发方面比国外稍晚，而如今国防科技大学自主研制的无人驾驶汽车已完成了286公里的无人驾驶实验。本发明的目的是从大量的交通广播语音中提取有用信息，为无人车的行驶提供智能决策支持。例如，通过交通广播中的路况信息定位交通拥堵路段，从而在路径选择时避开相应的路段。目前，相关发明还没有兴起。

发明内容

为了能够从收音机发出的广播音频流中提取出交通路况信息，本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流，利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段，需要离线采集大量与交通领域相关的文本和声学数据，它们可以被用于声学模型训练、语言模型训练以及词典构建中。在语音转文本的过程中，利用训练好的大词汇量语音识别系统对语音片段进行解码识别，得到相应的文本识别结果。在路况信息抽取阶段，构建了多模式的文本抽取器，利用抽取器对交通路况信息进行了快速且准确的抽取。

根据本发明一方面，其提供了一种获取交通广播语音中路况信息的方法，其特征在于，包括下列步骤：

步骤1：接收来自于收音机的广播音频信号，对输入的广播音频信号进行预处理；

步骤2：通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧；

步骤3：利用语音识别系统对所述目标语音帧进行识别处理，得到相应的识别文本结果；

步骤4：利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取，得到最终的路况信息；其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器；所述路况词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。

其中，所述步骤2具体包括：

步骤201：计算输入的广播音频信号中音频帧的差分过零率DZCR；

步骤202：计算所述广播音频信号的段级信噪比MSSNR；

步骤203：计算所述广播音频信号的长时信噪比；

步骤204：计算背景信号的波动估计值；

步骤205：根据所述差分过零率和段级信噪比确定语音端点检测的决策规则；具体如下表示：

\{\begin{matrix} i f M S S N R > {thr}_{v a d} & v a d = 1 \\ i f M S S N R - λ \cdot D Z C R > {thr}_{a v d} & v a d = 1 \\ e l s e & v a d = 0 \end{matrix}

其中，thr_vad为端点检测阈值，根据长时信噪比和背景信号的波动估计值确定；vad＝1表示……，vad＝0表示……。

步骤202具体包括：

对于所述广播音频信号中的每个音频帧，划分成多个非等分的子带；

计算所划分的多个非等分子带的信噪比，具体如下表示：

s n r (i) = 10 l o g (E_{b} (i) / \overset{&OverBar;}{E_{n b} (i)})

E_{b} (i) = \frac{α}{h (i) - l (i) + 1} Σ_{k = 1 (i)}^{h (i)} S (k) + (1 - α) E_{b o} (i)

\overset{&OverBar;}{E_{n b} (i)} = Σ_{i = 1}^{M} \frac{E_{b} (i)}{M}

其中，snr(i)当前帧第i个子带的信噪比，E_b(i)当前帧的第i个子带的能量，E_bo(i)表示前一帧的第i个子带的能量，α是权重因子，是估计的背景噪声的平均能量谱，M为所划分的子带数目；

计算所划分的多个非等分子带的改进信噪比，具体如下表示：

m s n r (i) = \{\begin{matrix} M A X [M T N [\frac{{snr}^{3} (i)}{α}, s n r (i)], 0] & \begin{matrix} 1 < i \leq & δ \end{matrix} \\ M A X [M T N [\frac{{snr}^{3} (i)}{β}, s n r (i)], 0] & \begin{matrix} 0 \leq i \leq 1 & o r & i > δ \end{matrix} \end{matrix}

其中，msnr(i)为第i个子带的改进信噪比；α、β和δ为常量，取经验值。

计算所述广播音频信号的段级信噪比，具体如下表示：

M S S N R = Σ_{i = 0}^{M} m s n r (i) .

步骤203中所述广播音频信号的长时信噪比如下计算：

lsnr＝0.85·[20·log(rms_fgd/32767)-20·log(rms_bgd/32767)]

{rms}_{f g d}^{[m]} = β_{f} \cdot {rms}_{f g d}^{[m - 1]} + (1 - β_{f}) \cdot {rms}^{[m]}

{rms}_{b g d}^{[m]} = β_{b} \cdot {rms}_{b g d}^{[m - 1]} + (1 - β_{b}) \cdot {rms}^{[m]}

r m s = \sqrt{\frac{1}{N} Σ_{i = 0}^{N - 1} s^{2} (i)}

其中，lsnr表示所述广播音频信号的长时信噪比；和分别是第m帧和第m-1帧的前景信号的长时均方根，β_f是自适应因子；和分别是第m帧和第m-1帧的背景信号的长时均方根，β_b是自适应因子，s(i)是第i个采样点，N为采样点个数。

步骤3具体包括：

利用预先构建好的语音识别系统，对通过语音端点检测算法得到的目标语音帧进行识别处理，得到逐帧梅尔频率倒谱系数特征解码出的文本序列。

步骤4中所述路况词典包括位置词、方位词和交通状况描述词。

步骤4中所述多模式文本抽取器如下建立：

遍历所述路况词典，将路况词典中的词转换成路况音素序列，建立包含所有路况音素序列的集合以及含有不带音调的路况音素序列与词的匹配哈希表；

对于所建立的包含路况音素序列的集合，构造状态转移表、匹配失败跳转表和输出表，所述状态转移表为所述包含路况音素序列的集合中路况音素序列的所有转移模式构成的状态转移自动机；所述匹配失败跳转表为匹配时根据所述状态转移表转移失败后状态跳转的依据；所述输出表为根据所述状态转移表匹配成功任意一个模式所对应的路况音素序列。

步骤4中将所述语音识别系统输出的文本序列转换成音素序列，并将所述音素序列根据所述状态转移表进行匹配，若匹配成功，则从所述输出表中得到对应的路况音素序列，根据所述路况音素序列与词的匹配哈希表得到所述文本序列对应的路况信息。

根据本发明另一方面，其提供了一种获取交通广播语音中路况信息的系统，其特征在于，包括：

预处理模块，接收来自于收音机的广播音频信号，对输入的广播音频信号进行预处理；

目标语音帧检测模块，通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧；

文本识别模块，利用语音识别系统对所述目标语音帧进行识别处理，得到相应的识别文本结果；

路况信息识别模块，利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取，得到最终的路况信息；其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器；所述路况词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。

本发明的有益效果：本发明为了给无人车的智能行驶决策提供有效的帮助，提出了一种获取交通广播语音中路况信息的方法及系统，以从交通广播语音中提取出有用信息。音素级的多模式抽取方法更强调对音素序列进行模式搜索。这种方法能够利用实体词的发音相似性，在一定程度上达到了对语音识别结果的错误进行纠正的目的，最终降低抽取系统的实体词错误率。除此之外，语音端点检测算法利用了差分过零率、改良的段级信噪比估计、长时信噪比估计及背景波动估计等多个特征来构造决策规则，这样在一定程度上提高了语音端点检测的鲁棒性。

附图说明

本发明进一步的特色和优点将参考说明性的附图在下面描述。

图1是本发明中获取交通广播语音中路况信息的方法的流程图；

图2是本发明中语音端点检测算法的流程图；

图3是本发明中语音识别系统的流程图；

图4是本发明中构建与交通领域相关的词典的方法的流程图；

图5是本发明中音素级的多模式抽取算法的流程图。

具体实施方式

应当理解，不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例；被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。

本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流，利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段，需要离线采集大量与交通领域相关的文本和声学数据，它们可以被用于声学模型训练、语言模型训练以及词典构建中。在语音转文本的过程中，利用训练好的大词汇量语音识别系统对语音片段进行解码识别，得到相应的文本识别结果。在路况信息抽取阶段，构建了多模式的文本抽取器，利用抽取器对交通路况信息进行了快速且准确的抽取。

如图1所示，本发明提出了一种获取交通广播语音中路况信息的方法。该方法的具体步骤如下：

步骤1：接收来自于收音机的广播音频信号，对输入的广播音频信号进行分帧、加窗函数以及预加重等预处理；

步骤4：利用多模式文本抽取器和词典对识别结果进行抽取，得到最终的路况信息；其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器；所述词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。

下面对上述各个步骤做详细介绍。

图2示出了本发明中语音端点检测算法的流程图。如图2所示，步骤2中所述语音端点检测算法，用于检测出广播音频流中的语音片段，主要步骤包括：

步骤201，计算输入的广播音频流中音频帧的差分过零率DZCR，如式(1)所示：

D Z C R = Z C R - {\overset{&OverBar;}{Z C R}}_{n} - - - (1)

其中，ZCR是过零率，是估计的背景信号的运行时平均过零率。ZCR可以表示为：

Z C R = \frac{1}{2} Σ_{i = 0}^{N - 2} | sgn [s (i)] - sgn [s (i + 1)] | - - - (2)

其中，N表示每个音频帧的采样点的个数，s(i)是第i个采样点。可表示为：

{\overset{&OverBar;}{Z C R}}_{n} = Σ_{i = 1}^{N} \frac{Z C R (i)}{N} - - - (3)

其中，ZCR(i)表示第i帧的过零率。

步骤202，进行改良的段级信噪比计算。首先，输入音频帧的频谱被划分为M个(如16个)非等分的子带，当前帧的第i个子带的能量可表示为：

E_{b} (i) = \frac{α}{h (i) - l (i) + 1} Σ_{k = 1 (i)}^{h (i)} S (k) + (1 - α) E_{b o} (i) - - - (4)

其中，l(i)表示第i个子带的下边界，h(i)表示第i个子带的上边界，S(k)表示第i个子带中第k个频点的能量谱，E_bo(i)表示前一帧的第i个子带的能量，α是权重因子。然后，计算第i个子带的信噪比：

s n r (i) = 10 l o g (E_{b} (i) / \overset{&OverBar;}{E_{n b} (i)}) - - - (5)

其中，是估计的背景噪声的平均能量谱，可表示为：

\overset{&OverBar;}{E_{n b} (i)} = Σ_{i = 1}^{M} \frac{E_{b} (i)}{M} - - - (6)

改良的第i个子带的信噪比表示为：

m s n r (i) = \{\begin{matrix} M A X [M T N [\frac{{snr}^{3} (i)}{α}, s n r (i)], 0] & \begin{matrix} 1 < i \leq & δ \end{matrix} \\ M A X [M T N [\frac{{snr}^{3} (i)}{β}, s n r (i)], 0] & \begin{matrix} 0 \leq i \leq 1 & o r & i > δ \end{matrix} \end{matrix} - - - (7)

其中，α、β和δ为常量，根据经验得到，优选地分别取64、25和12；

最后，改良的段级信噪比可表示为：

M S S N R = Σ_{i = 0}^{M} m s n r (i) - - - (8)

步骤203，计算长时信噪比估计。首先，输入音频帧的均方根可表示为：

r m s = \sqrt{\frac{1}{N} Σ_{i = 0}^{N - 1} s^{2} (i)} - - - (9)

其中，rms表示均分根，N为采样点个数。然后，长时背景信号的均方根可表示为：

{rms}_{b g d}^{[m]} = β_{b} \cdot {rms}_{b g d}^{[m - 1]} + (1 - β_{b}) \cdot {rms}^{[m]} - - - (10)

其中，和分别是第m帧和第m-1帧的背景信号的长时均方根，β_b是自适应因子。长时前景信号的均方根可以表示为：

{rms}_{f g d}^{[m]} = β_{f} \cdot {rms}_{f g d}^{[m - 1]} + (1 - β_{f}) \cdot {rms}^{[m]} - - - (11)

其中，和分别是第m帧和第m-1帧的前景信号的长时均方根，β_f是自适应因子。最后，长时信噪比估计可表示为：

lsnr＝α·[β·log(rms_fgd/δ)-β·log(rms_bgd/δ)](12)

其中，α、β和δ为常量，根据经验得到，优选地分别取0.85、20和32767；

步骤204，计算背景波动的估计。即满足：

flux_bgd＝χ·flux_bgd+(1-χ)·MSSNR(13)

其中，flux_bgd表示背景信号的波动，χ表示控制因子，MSSNR表示被修正的段级信噪比；

步骤205，语音端点检测的决策规则是通过差分过零率和段级信噪比构造的，其阈值是自适应于长时信噪比和背景波动估计的，公式如下：

\{\begin{matrix} i f M S S N R > {thr}_{v a d} & v a d = 1 \\ i f M S S N R - λ \cdot D Z C R > {thr}_{a v d} & v a d = 1 \\ e l s e & v a d = 0 \end{matrix} - - - (14)

其中，λ为常数，可按照长时信噪比分成四类，如下：

λ = \{\begin{matrix} 0 & l s n r > 35 \\ 2.7778 & 35 &GreaterEqual; l s n r > 25 \\ 2.2222 & 25 &GreaterEqual; l s n r > 15 \\ 1.667 & l s n r \leq 15 \end{matrix} - - - (15)

其中，thr_vad为端点检测阈值，是根据长时信噪比lsnr和背景波动flux_bgd从背景噪声中估计得到。vad＝1表示语音，vad＝0表示非语音。

步骤206，经过后处理得到语音端点检测确定的语音段。

图3示出了语音识别系统对语音数据进行识别处理，得到识别文本结果的流程，包括以下步骤：

利用预先构建好的语音识别系统，对通过语音端点检测算法得到的语音片段进行识别处理，得到逐帧梅尔频率倒谱系数(MFCC)特征解码出的文本序列。

所述语音识别系统的构建包括：信号处理及特征提取模块、训练声学模型与语言模型、建立发音词典、实现解码器完成大词汇语音识别系统的构建。

信号处理及特征提取模块的主要任务是从输入信号中提取特征，供声学模型处理。它一般包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型采用基于一阶隐马尔科夫模型进行建模。发音词典包含系统所能处理的词汇集及其发音，它实际上提供了声学模型建模单元与语言模型建模单元间的映射。语言模型采用基于统计的三元文法。解码器的任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

图4示出了本发明中路况词典的预先建立流程，具体包括：

定时从互联网采集与交通路况相关的数据，对这些数据进行清洗、解析等处理，再将解析后的数据用来扩充与交通领域有关的路况词典。路况词典中包含位置词、方向词、及交通状况描述词。

图5示出了本发明中所述多模式文本抽取器的建立流程，具体步骤包括：其一，遍历与交通路况信息相关的路况词典，将路况词典中的词转换为音素序列，建立包含所有音素序列的集合以及含有不带调的音素序列与词的配对的哈希表。

其二，对于得到的音素序列集合，构造三张查找表：goto(状态转移)、failure(匹配失败跳转)、output(输出)表，用于将所述音素序列匹配到对应的词串。其中，goto表是由音素序列集合中的所有模式构成的状态转移自动机，它是由trie树来实现；failure表是在goto表中匹配失败后状态跳转的依据；output表示输出，即代表某个模式匹配成功后所对应的音素序列。该表的构造过程融合在goto表和failure表的构造过程中。

在构造好goto、failure和output表之后，利用所述多模式抽取器抽取文本的过程是将语音识别系统输出的文本序列转换成音素序列，并将所述音素序列依次输入到goto表中，然后在发生失配的时候查找failure表实现跳转，在输出状态查找output表输出结果(包括匹配的音素序列的集合和目标串中的位置)。依据音素序列与词配对的哈希表，找出相应的路况信息关键词。

根据本说明书，本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此，本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解，本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims

1.一种获取交通广播语音中路况信息的方法，其特征在于，包括下列步骤：

2.如权利要求1所述的方法，其中，所述步骤2具体包括：

步骤202：计算所述广播音频信号的段级信噪比MSSNR；

步骤203：计算所述广播音频信号的长时信噪比；

步骤204：计算背景信号的波动估计值；

\{\begin{matrix} i f M S S N R > {thr}_{v a d} & v a d = 1 \\ i f M S S N R - λ \cdot D Z C R > {thr}_{v a d} & v a d = 1 \\ e l s e & v a d = 0 \end{matrix}

其中，thr_vad为端点检测阈值，根据长时信噪比和背景信号的波动估计值确定；vad＝1表示语音，vad＝0表示非语音。

3.如权利要求2所述的方法，其中，步骤202具体包括：

计算所划分的多个非等分子带的信噪比，具体如下表示：

s n r (i) = 10 l o g (E_{b} (i) / \overset{&OverBar;}{E_{n b} (i)})

E_{b} (i) = \frac{α}{h (i) - l (i) + 1} Σ_{k = l (i)}^{h (i)} S (k) + (1 - α) E_{b o} (i)

\overset{&OverBar;}{E_{n b} (i)} = Σ_{i = 1}^{M} \frac{E_{b} (i)}{M}

m s n r (i) = \{\begin{matrix} M A X [M T N [\frac{{snr}^{3} (i)}{α}, s n r (i)], 0] & 1 < i \leq δ \\ M A X [M I N [\frac{{snr}^{3} (i)}{β}, s n r (i)], 0] & 0 \leq i \leq 1 o r i > δ \end{matrix}

计算所述广播音频信号的段级信噪比，具体如下表示：

4.如权利要求2所述的方法，其中，步骤203中所述广播音频信号的长时信噪比如下计算：

lsnr＝0.85·[20·log(rms_fgd/32767)-20·log(rms_bgd/32767)]

{rms}_{f g d}^{[m]} = β_{f} \cdot {rms}_{f g d}^{[m - 1]} + (1 - β_{f}) \cdot {rms}^{[m]}

{rms}_{b g d}^{[m]} = β_{b} \cdot {rms}_{b g d}^{[m - 1]} + (1 - β_{b}) \cdot {rms}^{[m]}

r m s = \sqrt{\frac{1}{N} Σ_{i = 0}^{N - 1} s^{2} (i)}

5.如权利要求1所述的方法，其中，步骤3具体包括：

6.如权利要求1所述的方法，其中，步骤4中所述路况词典包括位置词、方位词和交通状况描述词。

7.如权利要求1所述的方法，其中，步骤4中所述多模式文本抽取器如下建立：

8.如权利要求7所述的方法，其中，步骤4中将所述语音识别系统输出的文本序列转换成音素序列，并将所述音素序列根据所述状态转移表进行匹配，若匹配成功，则从所述输出表中得到对应的路况音素序列，根据所述路况音素序列与词的匹配哈希表得到所述文本序列对应的路况信息。

9.一种获取交通广播语音中路况信息的系统，其特征在于，包括：