CN105654947A - 一种获取交通广播语音中路况信息的方法及系统 - Google Patents

一种获取交通广播语音中路况信息的方法及系统 Download PDF

Info

Publication number
CN105654947A
CN105654947A CN201511020718.8A CN201511020718A CN105654947A CN 105654947 A CN105654947 A CN 105654947A CN 201511020718 A CN201511020718 A CN 201511020718A CN 105654947 A CN105654947 A CN 105654947A
Authority
CN
China
Prior art keywords
signal
road conditions
frame
traffic information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511020718.8A
Other languages
English (en)
Other versions
CN105654947B (zh
Inventor
刘文举
谭应伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201511020718.8A priority Critical patent/CN105654947B/zh
Publication of CN105654947A publication Critical patent/CN105654947A/zh
Application granted granted Critical
Publication of CN105654947B publication Critical patent/CN105654947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

本发明公开了一种获取交通广播语音中路况信息的方法及系统,其目的是从大量的交通广播语音中提取有用信息,为无人车的行驶提供智能决策支持。本发明的方案包括下列步骤:从收音机中获取广播音频流,将数字化的语音信号进行预处理;运用语音端点检测技术从音频流中检测出语音片段;利用语音识别引擎对所述语音片段进行识别处理而得到识别结果;从互联网上采集路况信息,通过这些数据建立与交通路况信息相关的词典;构建交通路况领域相关的多模式文本抽取器,利用所述抽取器对识别结果进行抽取,得到最终的交通路况信息。

Description

一种获取交通广播语音中路况信息的方法及系统
技术领域
本发明涉及语音端点检测技术、广播语音识别技术、交通路况信息相关的词典的建立方法以及路况信息抽取技术。
背景技术
无人车是一种集感知、控制和智能决策等理论和技术于一体,能够自主驾驶的智能车辆。无人车研究的核心内容之一是智能行为决策。从20世纪70年代开始,美国、英国、德国等发达国家开始进行无人驾驶汽车的研究,在可行性和实用化方面都取得了突破性的进展。据报道,谷歌无人驾驶汽车一共记录的里程数据已经达到了70万英里,我国在无人驾驶汽车的开发方面比国外稍晚,而如今国防科技大学自主研制的无人驾驶汽车已完成了286公里的无人驾驶实验。本发明的目的是从大量的交通广播语音中提取有用信息,为无人车的行驶提供智能决策支持。例如,通过交通广播中的路况信息定位交通拥堵路段,从而在路径选择时避开相应的路段。目前,相关发明还没有兴起。
发明内容
为了能够从收音机发出的广播音频流中提取出交通路况信息,本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流,利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段,需要离线采集大量与交通领域相关的文本和声学数据,它们可以被用于声学模型训练、语言模型训练以及词典构建中。在语音转文本的过程中,利用训练好的大词汇量语音识别系统对语音片段进行解码识别,得到相应的文本识别结果。在路况信息抽取阶段,构建了多模式的文本抽取器,利用抽取器对交通路况信息进行了快速且准确的抽取。
根据本发明一方面,其提供了一种获取交通广播语音中路况信息的方法,其特征在于,包括下列步骤:
步骤1:接收来自于收音机的广播音频信号,对输入的广播音频信号进行预处理;
步骤2:通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧;
步骤3:利用语音识别系统对所述目标语音帧进行识别处理,得到相应的识别文本结果;
步骤4:利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取,得到最终的路况信息;其中,所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本,预先建立的与交通路况信息相关的词典。
其中,所述步骤2具体包括:
步骤201:计算输入的广播音频信号中音频帧的差分过零率DZCR;
步骤202:计算所述广播音频信号的段级信噪比MSSNR;
步骤203:计算所述广播音频信号的长时信噪比;
步骤204:计算背景信号的波动估计值;
步骤205:根据所述差分过零率和段级信噪比确定语音端点检测的决策规则;具体如下表示:
i f M S S N R > thr v a d v a d = 1 i f M S S N R - λ · D Z C R > thr a v d v a d = 1 e l s e v a d = 0
其中,thrvad为端点检测阈值,根据长时信噪比和背景信号的波动估计值确定;vad=1表示……,vad=0表示……。
步骤202具体包括:
对于所述广播音频信号中的每个音频帧,划分成多个非等分的子带;
计算所划分的多个非等分子带的信噪比,具体如下表示:
s n r ( i ) = 10 l o g ( E b ( i ) / E n b ( i ) ‾ )
E b ( i ) = α h ( i ) - l ( i ) + 1 Σ k = 1 ( i ) h ( i ) S ( k ) + ( 1 - α ) E b o ( i )
E n b ( i ) ‾ = Σ i = 1 M E b ( i ) M
其中,snr(i)当前帧第i个子带的信噪比,Eb(i)当前帧的第i个子带的能量,Ebo(i)表示前一帧的第i个子带的能量,α是权重因子,是估计的背景噪声的平均能量谱,M为所划分的子带数目;
计算所划分的多个非等分子带的改进信噪比,具体如下表示:
m s n r ( i ) = M A X &lsqb; M T N &lsqb; snr 3 ( i ) &alpha; , s n r ( i ) &rsqb; , 0 &rsqb; 1 < i &le; &delta; M A X &lsqb; M T N &lsqb; snr 3 ( i ) &beta; , s n r ( i ) &rsqb; , 0 &rsqb; 0 &le; i &le; 1 o r i > &delta;
其中,msnr(i)为第i个子带的改进信噪比;α、β和δ为常量,取经验值。
计算所述广播音频信号的段级信噪比,具体如下表示:
M S S N R = &Sigma; i = 0 M m s n r ( i ) .
步骤203中所述广播音频信号的长时信噪比如下计算:
lsnr=0.85·[20·log(rmsfgd/32767)-20·log(rmsbgd/32767)]
rms f g d &lsqb; m &rsqb; = &beta; f &CenterDot; rms f g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; f ) &CenterDot; rms &lsqb; m &rsqb;
rms b g d &lsqb; m &rsqb; = &beta; b &CenterDot; rms b g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; b ) &CenterDot; rms &lsqb; m &rsqb;
r m s = 1 N &Sigma; i = 0 N - 1 s 2 ( i )
其中,lsnr表示所述广播音频信号的长时信噪比;分别是第m帧和第m-1帧的前景信号的长时均方根,βf是自适应因子;分别是第m帧和第m-1帧的背景信号的长时均方根,βb是自适应因子,s(i)是第i个采样点,N为采样点个数。
步骤3具体包括:
利用预先构建好的语音识别系统,对通过语音端点检测算法得到的目标语音帧进行识别处理,得到逐帧梅尔频率倒谱系数特征解码出的文本序列。
步骤4中所述路况词典包括位置词、方位词和交通状况描述词。
步骤4中所述多模式文本抽取器如下建立:
遍历所述路况词典,将路况词典中的词转换成路况音素序列,建立包含所有路况音素序列的集合以及含有不带音调的路况音素序列与词的匹配哈希表;
对于所建立的包含路况音素序列的集合,构造状态转移表、匹配失败跳转表和输出表,所述状态转移表为所述包含路况音素序列的集合中路况音素序列的所有转移模式构成的状态转移自动机;所述匹配失败跳转表为匹配时根据所述状态转移表转移失败后状态跳转的依据;所述输出表为根据所述状态转移表匹配成功任意一个模式所对应的路况音素序列。
步骤4中将所述语音识别系统输出的文本序列转换成音素序列,并将所述音素序列根据所述状态转移表进行匹配,若匹配成功,则从所述输出表中得到对应的路况音素序列,根据所述路况音素序列与词的匹配哈希表得到所述文本序列对应的路况信息。
根据本发明另一方面,其提供了一种获取交通广播语音中路况信息的系统,其特征在于,包括:
预处理模块,接收来自于收音机的广播音频信号,对输入的广播音频信号进行预处理;
目标语音帧检测模块,通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧;
文本识别模块,利用语音识别系统对所述目标语音帧进行识别处理,得到相应的识别文本结果;
路况信息识别模块,利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取,得到最终的路况信息;其中,所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本,预先建立的与交通路况信息相关的词典。
本发明的有益效果:本发明为了给无人车的智能行驶决策提供有效的帮助,提出了一种获取交通广播语音中路况信息的方法及系统,以从交通广播语音中提取出有用信息。音素级的多模式抽取方法更强调对音素序列进行模式搜索。这种方法能够利用实体词的发音相似性,在一定程度上达到了对语音识别结果的错误进行纠正的目的,最终降低抽取系统的实体词错误率。除此之外,语音端点检测算法利用了差分过零率、改良的段级信噪比估计、长时信噪比估计及背景波动估计等多个特征来构造决策规则,这样在一定程度上提高了语音端点检测的鲁棒性。
附图说明
本发明进一步的特色和优点将参考说明性的附图在下面描述。
图1是本发明中获取交通广播语音中路况信息的方法的流程图;
图2是本发明中语音端点检测算法的流程图;
图3是本发明中语音识别系统的流程图;
图4是本发明中构建与交通领域相关的词典的方法的流程图;
图5是本发明中音素级的多模式抽取算法的流程图。
具体实施方式
应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。
本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流,利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段,需要离线采集大量与交通领域相关的文本和声学数据,它们可以被用于声学模型训练、语言模型训练以及词典构建中。在语音转文本的过程中,利用训练好的大词汇量语音识别系统对语音片段进行解码识别,得到相应的文本识别结果。在路况信息抽取阶段,构建了多模式的文本抽取器,利用抽取器对交通路况信息进行了快速且准确的抽取。
如图1所示,本发明提出了一种获取交通广播语音中路况信息的方法。该方法的具体步骤如下:
步骤1:接收来自于收音机的广播音频信号,对输入的广播音频信号进行分帧、加窗函数以及预加重等预处理;
步骤2:通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧;
步骤3:利用语音识别系统对所述目标语音帧进行识别处理,得到相应的识别文本结果;
步骤4:利用多模式文本抽取器和词典对识别结果进行抽取,得到最终的路况信息;其中,所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述词典是通过采集到的路况信息样本,预先建立的与交通路况信息相关的词典。
下面对上述各个步骤做详细介绍。
图2示出了本发明中语音端点检测算法的流程图。如图2所示,步骤2中所述语音端点检测算法,用于检测出广播音频流中的语音片段,主要步骤包括:
步骤201,计算输入的广播音频流中音频帧的差分过零率DZCR,如式(1)所示:
D Z C R = Z C R - Z C R &OverBar; n - - - ( 1 )
其中,ZCR是过零率,是估计的背景信号的运行时平均过零率。ZCR可以表示为:
Z C R = 1 2 &Sigma; i = 0 N - 2 | sgn &lsqb; s ( i ) &rsqb; - sgn &lsqb; s ( i + 1 ) &rsqb; | - - - ( 2 )
其中,N表示每个音频帧的采样点的个数,s(i)是第i个采样点。可表示为:
Z C R &OverBar; n = &Sigma; i = 1 N Z C R ( i ) N - - - ( 3 )
其中,ZCR(i)表示第i帧的过零率。
步骤202,进行改良的段级信噪比计算。首先,输入音频帧的频谱被划分为M个(如16个)非等分的子带,当前帧的第i个子带的能量可表示为:
E b ( i ) = &alpha; h ( i ) - l ( i ) + 1 &Sigma; k = 1 ( i ) h ( i ) S ( k ) + ( 1 - &alpha; ) E b o ( i ) - - - ( 4 )
其中,l(i)表示第i个子带的下边界,h(i)表示第i个子带的上边界,S(k)表示第i个子带中第k个频点的能量谱,Ebo(i)表示前一帧的第i个子带的能量,α是权重因子。然后,计算第i个子带的信噪比:
s n r ( i ) = 10 l o g ( E b ( i ) / E n b ( i ) &OverBar; ) - - - ( 5 )
其中,是估计的背景噪声的平均能量谱,可表示为:
E n b ( i ) &OverBar; = &Sigma; i = 1 M E b ( i ) M - - - ( 6 )
改良的第i个子带的信噪比表示为:
m s n r ( i ) = M A X &lsqb; M T N &lsqb; snr 3 ( i ) &alpha; , s n r ( i ) &rsqb; , 0 &rsqb; 1 < i &le; &delta; M A X &lsqb; M T N &lsqb; snr 3 ( i ) &beta; , s n r ( i ) &rsqb; , 0 &rsqb; 0 &le; i &le; 1 o r i > &delta; - - - ( 7 )
其中,α、β和δ为常量,根据经验得到,优选地分别取64、25和12;
最后,改良的段级信噪比可表示为:
M S S N R = &Sigma; i = 0 M m s n r ( i ) - - - ( 8 )
步骤203,计算长时信噪比估计。首先,输入音频帧的均方根可表示为:
r m s = 1 N &Sigma; i = 0 N - 1 s 2 ( i ) - - - ( 9 )
其中,rms表示均分根,N为采样点个数。然后,长时背景信号的均方根可表示为:
rms b g d &lsqb; m &rsqb; = &beta; b &CenterDot; rms b g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; b ) &CenterDot; rms &lsqb; m &rsqb; - - - ( 10 )
其中,分别是第m帧和第m-1帧的背景信号的长时均方根,βb是自适应因子。长时前景信号的均方根可以表示为:
rms f g d &lsqb; m &rsqb; = &beta; f &CenterDot; rms f g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; f ) &CenterDot; rms &lsqb; m &rsqb; - - - ( 11 )
其中,分别是第m帧和第m-1帧的前景信号的长时均方根,βf是自适应因子。最后,长时信噪比估计可表示为:
lsnr=α·[β·log(rmsfgd/δ)-β·log(rmsbgd/δ)](12)
其中,α、β和δ为常量,根据经验得到,优选地分别取0.85、20和32767;
步骤204,计算背景波动的估计。即满足:
fluxbgd=χ·fluxbgd+(1-χ)·MSSNR(13)
其中,fluxbgd表示背景信号的波动,χ表示控制因子,MSSNR表示被修正的段级信噪比;
步骤205,语音端点检测的决策规则是通过差分过零率和段级信噪比构造的,其阈值是自适应于长时信噪比和背景波动估计的,公式如下:
i f M S S N R > thr v a d v a d = 1 i f M S S N R - &lambda; &CenterDot; D Z C R > thr a v d v a d = 1 e l s e v a d = 0 - - - ( 14 )
其中,λ为常数,可按照长时信噪比分成四类,如下:
&lambda; = 0 l s n r > 35 2.7778 35 &GreaterEqual; l s n r > 25 2.2222 25 &GreaterEqual; l s n r > 15 1.667 l s n r &le; 15 - - - ( 15 )
其中,thrvad为端点检测阈值,是根据长时信噪比lsnr和背景波动fluxbgd从背景噪声中估计得到。vad=1表示语音,vad=0表示非语音。
步骤206,经过后处理得到语音端点检测确定的语音段。
图3示出了语音识别系统对语音数据进行识别处理,得到识别文本结果的流程,包括以下步骤:
利用预先构建好的语音识别系统,对通过语音端点检测算法得到的语音片段进行识别处理,得到逐帧梅尔频率倒谱系数(MFCC)特征解码出的文本序列。
所述语音识别系统的构建包括:信号处理及特征提取模块、训练声学模型与语言模型、建立发音词典、实现解码器完成大词汇语音识别系统的构建。
信号处理及特征提取模块的主要任务是从输入信号中提取特征,供声学模型处理。它一般包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型采用基于一阶隐马尔科夫模型进行建模。发音词典包含系统所能处理的词汇集及其发音,它实际上提供了声学模型建模单元与语言模型建模单元间的映射。语言模型采用基于统计的三元文法。解码器的任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
图4示出了本发明中路况词典的预先建立流程,具体包括:
定时从互联网采集与交通路况相关的数据,对这些数据进行清洗、解析等处理,再将解析后的数据用来扩充与交通领域有关的路况词典。路况词典中包含位置词、方向词、及交通状况描述词。
图5示出了本发明中所述多模式文本抽取器的建立流程,具体步骤包括:其一,遍历与交通路况信息相关的路况词典,将路况词典中的词转换为音素序列,建立包含所有音素序列的集合以及含有不带调的音素序列与词的配对的哈希表。
其二,对于得到的音素序列集合,构造三张查找表:goto(状态转移)、failure(匹配失败跳转)、output(输出)表,用于将所述音素序列匹配到对应的词串。其中,goto表是由音素序列集合中的所有模式构成的状态转移自动机,它是由trie树来实现;failure表是在goto表中匹配失败后状态跳转的依据;output表示输出,即代表某个模式匹配成功后所对应的音素序列。该表的构造过程融合在goto表和failure表的构造过程中。
在构造好goto、failure和output表之后,利用所述多模式抽取器抽取文本的过程是将语音识别系统输出的文本序列转换成音素序列,并将所述音素序列依次输入到goto表中,然后在发生失配的时候查找failure表实现跳转,在输出状态查找output表输出结果(包括匹配的音素序列的集合和目标串中的位置)。依据音素序列与词配对的哈希表,找出相应的路况信息关键词。
根据本说明书,本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此,本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解,本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims (9)

1.一种获取交通广播语音中路况信息的方法,其特征在于,包括下列步骤:
步骤1:接收来自于收音机的广播音频信号,对输入的广播音频信号进行预处理;
步骤2:通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧;
步骤3:利用语音识别系统对所述目标语音帧进行识别处理,得到相应的识别文本结果;
步骤4:利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取,得到最终的路况信息;其中,所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本,预先建立的与交通路况信息相关的词典。
2.如权利要求1所述的方法,其中,所述步骤2具体包括:
步骤201:计算输入的广播音频信号中音频帧的差分过零率DZCR;
步骤202:计算所述广播音频信号的段级信噪比MSSNR;
步骤203:计算所述广播音频信号的长时信噪比;
步骤204:计算背景信号的波动估计值;
步骤205:根据所述差分过零率和段级信噪比确定语音端点检测的决策规则;具体如下表示:
i f M S S N R > thr v a d v a d = 1 i f M S S N R - &lambda; &CenterDot; D Z C R > thr v a d v a d = 1 e l s e v a d = 0
其中,thrvad为端点检测阈值,根据长时信噪比和背景信号的波动估计值确定;vad=1表示语音,vad=0表示非语音。
3.如权利要求2所述的方法,其中,步骤202具体包括:
对于所述广播音频信号中的每个音频帧,划分成多个非等分的子带;
计算所划分的多个非等分子带的信噪比,具体如下表示:
s n r ( i ) = 10 l o g ( E b ( i ) / E n b ( i ) &OverBar; )
E b ( i ) = &alpha; h ( i ) - l ( i ) + 1 &Sigma; k = l ( i ) h ( i ) S ( k ) + ( 1 - &alpha; ) E b o ( i )
E n b ( i ) &OverBar; = &Sigma; i = 1 M E b ( i ) M
其中,snr(i)当前帧第i个子带的信噪比,Eb(i)当前帧的第i个子带的能量,Ebo(i)表示前一帧的第i个子带的能量,α是权重因子,是估计的背景噪声的平均能量谱,M为所划分的子带数目;
计算所划分的多个非等分子带的改进信噪比,具体如下表示:
m s n r ( i ) = M A X &lsqb; M T N &lsqb; snr 3 ( i ) &alpha; , s n r ( i ) &rsqb; , 0 &rsqb; 1 < i &le; &delta; M A X &lsqb; M I N &lsqb; snr 3 ( i ) &beta; , s n r ( i ) &rsqb; , 0 &rsqb; 0 &le; i &le; 1 o r i > &delta;
其中,msnr(i)为第i个子带的改进信噪比;α、β和δ为常量,取经验值。
计算所述广播音频信号的段级信噪比,具体如下表示:
4.如权利要求2所述的方法,其中,步骤203中所述广播音频信号的长时信噪比如下计算:
lsnr=0.85·[20·log(rmsfgd/32767)-20·log(rmsbgd/32767)]
rms f g d &lsqb; m &rsqb; = &beta; f &CenterDot; rms f g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; f ) &CenterDot; rms &lsqb; m &rsqb;
rms b g d &lsqb; m &rsqb; = &beta; b &CenterDot; rms b g d &lsqb; m - 1 &rsqb; + ( 1 - &beta; b ) &CenterDot; rms &lsqb; m &rsqb;
r m s = 1 N &Sigma; i = 0 N - 1 s 2 ( i )
其中,lsnr表示所述广播音频信号的长时信噪比;分别是第m帧和第m-1帧的前景信号的长时均方根,βf是自适应因子;分别是第m帧和第m-1帧的背景信号的长时均方根,βb是自适应因子,s(i)是第i个采样点,N为采样点个数。
5.如权利要求1所述的方法,其中,步骤3具体包括:
利用预先构建好的语音识别系统,对通过语音端点检测算法得到的目标语音帧进行识别处理,得到逐帧梅尔频率倒谱系数特征解码出的文本序列。
6.如权利要求1所述的方法,其中,步骤4中所述路况词典包括位置词、方位词和交通状况描述词。
7.如权利要求1所述的方法,其中,步骤4中所述多模式文本抽取器如下建立:
遍历所述路况词典,将路况词典中的词转换成路况音素序列,建立包含所有路况音素序列的集合以及含有不带音调的路况音素序列与词的匹配哈希表;
对于所建立的包含路况音素序列的集合,构造状态转移表、匹配失败跳转表和输出表,所述状态转移表为所述包含路况音素序列的集合中路况音素序列的所有转移模式构成的状态转移自动机;所述匹配失败跳转表为匹配时根据所述状态转移表转移失败后状态跳转的依据;所述输出表为根据所述状态转移表匹配成功任意一个模式所对应的路况音素序列。
8.如权利要求7所述的方法,其中,步骤4中将所述语音识别系统输出的文本序列转换成音素序列,并将所述音素序列根据所述状态转移表进行匹配,若匹配成功,则从所述输出表中得到对应的路况音素序列,根据所述路况音素序列与词的匹配哈希表得到所述文本序列对应的路况信息。
9.一种获取交通广播语音中路况信息的系统,其特征在于,包括:
预处理模块,接收来自于收音机的广播音频信号,对输入的广播音频信号进行预处理;
目标语音帧检测模块,通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帧;
文本识别模块,利用语音识别系统对所述目标语音帧进行识别处理,得到相应的识别文本结果;
路况信息识别模块,利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取,得到最终的路况信息;其中,所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本,预先建立的与交通路况信息相关的词典。
CN201511020718.8A 2015-12-30 2015-12-30 一种获取交通广播语音中路况信息的方法及系统 Active CN105654947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511020718.8A CN105654947B (zh) 2015-12-30 2015-12-30 一种获取交通广播语音中路况信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511020718.8A CN105654947B (zh) 2015-12-30 2015-12-30 一种获取交通广播语音中路况信息的方法及系统

Publications (2)

Publication Number Publication Date
CN105654947A true CN105654947A (zh) 2016-06-08
CN105654947B CN105654947B (zh) 2019-12-31

Family

ID=56489927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511020718.8A Active CN105654947B (zh) 2015-12-30 2015-12-30 一种获取交通广播语音中路况信息的方法及系统

Country Status (1)

Country Link
CN (1) CN105654947B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504746A (zh) * 2016-10-28 2017-03-15 普强信息技术(北京)有限公司 一种从语音数据中提取结构化交通路况信息的方法
CN106504756A (zh) * 2016-12-02 2017-03-15 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN108168570A (zh) * 2017-12-13 2018-06-15 广东欧珀移动通信有限公司 定位模块的控制方法、装置、存储介质及移动终端
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071825A1 (en) * 2008-05-28 2011-03-24 Tadashi Emori Device, method and program for voice detection and recording medium
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法与装置、编码器
CN104183144A (zh) * 2013-05-20 2014-12-03 北京百度网讯科技有限公司 一种实时路况信息生成方法和系统
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071825A1 (en) * 2008-05-28 2011-03-24 Tadashi Emori Device, method and program for voice detection and recording medium
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法与装置、编码器
CN104183144A (zh) * 2013-05-20 2014-12-03 北京百度网讯科技有限公司 一种实时路况信息生成方法和系统
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504746A (zh) * 2016-10-28 2017-03-15 普强信息技术(北京)有限公司 一种从语音数据中提取结构化交通路况信息的方法
CN106504756A (zh) * 2016-12-02 2017-03-15 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN106504756B (zh) * 2016-12-02 2019-05-24 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN108168570A (zh) * 2017-12-13 2018-06-15 广东欧珀移动通信有限公司 定位模块的控制方法、装置、存储介质及移动终端
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105654947B (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN105654947A (zh) 一种获取交通广播语音中路况信息的方法及系统
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
CN104036774A (zh) 藏语方言识别方法及系统
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
CN103971678B (zh) 关键词检测方法和装置
CN103559879B (zh) 语种识别系统中声学特征提取方法及装置
CN1123863C (zh) 基于语音识别的信息校核方法
WO2020220439A9 (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN103035238B (zh) 音频数据的编码方法及解码方法
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及系统
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN110600054A (zh) 基于网络模型融合的声场景分类方法
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN106548775A (zh) 一种语音识别方法和系统
CN102810311A (zh) 说话人估计方法和说话人估计设备
CN111883176B (zh) 端到端的智能语音朗读评测方法
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant