CN103730115A - 一种语音中检测关键词的方法和装置 - Google Patents

一种语音中检测关键词的方法和装置 Download PDF

Info

Publication number
CN103730115A
CN103730115A CN201310740533.9A CN201310740533A CN103730115A CN 103730115 A CN103730115 A CN 103730115A CN 201310740533 A CN201310740533 A CN 201310740533A CN 103730115 A CN103730115 A CN 103730115A
Authority
CN
China
Prior art keywords
arc
candidate word
grid
phonetic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310740533.9A
Other languages
English (en)
Other versions
CN103730115B (zh
Inventor
李伟浩
苏鹏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING JETSEN TECHNOLOGY Co Ltd
Original Assignee
BEIJING JETSEN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING JETSEN TECHNOLOGY Co Ltd filed Critical BEIJING JETSEN TECHNOLOGY Co Ltd
Priority to CN201310740533.9A priority Critical patent/CN103730115B/zh
Publication of CN103730115A publication Critical patent/CN103730115A/zh
Application granted granted Critical
Publication of CN103730115B publication Critical patent/CN103730115B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音中检测关键词的方法和装置,属于音频处理领域。方法包括:将字网格中的弧进行优化,并聚类为混淆网络,并建立索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,通过将字网格转成混淆网络,使强迫竞争词在同一个组里,使网格中在同一时间间隔出现的词按时间自然排序,直接利用混淆网络中词的后验概率作为置信度得分,由于混淆网络比网格占用空间小,结构简单且易于索引,并混淆网络中将不同调的拼音看作相同拼音进行查找,从而有效降低了漏检率,提高了查找效率。

Description

一种语音中检测关键词的方法和装置
技术领域
本发明涉及音频处理领域,尤其涉及一种语音中检测关键词的方法和装置。
背景技术
现有的检测方法中,主要分为基于补白模型及语音识别的检测方法;其中第一种方法无法自由地增添删改关键词,而第二种方法则对于局外词无法检测。
基于补白模型的语音关键词检测方法在进行关键词识别前需要事先定义好关键词和补白模型的搜索网络,检测速度快,但却没有利用语言模型的知识,当关键词发生改变时需要重新定义关键词和补白模型的搜索网络重新进行识别。而在新闻广播舆情信息检索任务中,待查询的关键词经常发生变化,因此不适合进行新闻广播的舆情信息检索。
基于词网格关键词检索方法,是通过语音识别解码技术产生词网格,其中网格中保留着识别过程中的多个侯选结果,特别适合与任务无关的关键词检测。但由于网格的结构复杂,存在比较多的冗余连接弧不利于数据处理和存储;因此关键词的漏检率比较大。
发明内容
本发明的实施例提供了一种语音中检测关键词的方法和装置,基于语音识别的基础上,识别出候选拼音,进而对关键词进行检测,能够很好地解决局外词的问题。
为达到上述目的,采用如下技术方案:
一种语音中检测关键词的方法,包括如下步骤:
对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
将所述字网格中的弧进行优化,并聚类为混淆网络;
根据混淆网络的格式,对每个拼音建立逆向索引;
将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
进一步,所述根据声学编码对应的声学特征确定输入语音对应的候选词序列时,提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
进一步,所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为 W ^ = w ^ 1 , w ^ 2 , . . . , w ^ N :
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
进一步,所述网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
进一步,所述将所述字网格中的弧进行优化,并聚类为混淆网络具体为:
在字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
从字网格上提取一条从起始节点到终止节点的完整路径,作为网格对齐用的参考路径;
将所述字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
进一步,所述合并具有相同拼音的弧时,对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
本发明还公开了一种语音中检测关键词的装置,包括如下模块:
解码模块,用于对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
拆分模块,用于将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
转换模块,用于将所述候选字网格中的弧进行优化,并聚类为混淆网络;
索引模块,用于根据混淆网络的格式,对每个拼音建立逆向索引;
检索模块,用于将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
进一步,所述解码模块提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
进一步,所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为 W ^ = w ^ 1 , w ^ 2 , . . . , w ^ N :
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
进一步,所述候选词网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
进一步,所述转换模块包括:
删减单元,用于在候选字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
提取单元,用于从候选字网格上提取一条从起始节点到终止节点的完整路径,作为候选字网格对齐用的参考路径;
优化单元,用于将所述候选字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
进一步,所述优化单元具体用于对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
本发明一种语音中检测关键词的方法和装置,将字网格中的弧进行优化,并聚类为混淆网络,并建立索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,通过将字网格转成混淆网络,使强迫竞争词在同一个组里,使网格中在同一时间间隔出现的词按时间自然排序,直接利用混淆网络中词的后验概率作为置信度得分,由于混淆网络比网格占用空间小,结构简单且易于索引,并混淆网络中将不同调的拼音看作相同拼音进行查找,从而有效降低了漏检率,提高了查找效率。
附图说明
图1为本发明实施例一提供的一种语音中检测关键词的方法的流程图;
图2为本发明实施例一提供的一种语音中检测关键词的方法中候选词网格的示意图;
图3为本发明实施例一提供的一种语音中检测关键词的方法中候选字网格的示意图;
图4为本发明实施例一提供的一种语音中检测关键词的方法中混淆网络的示意图;
图5为本发明实施例一提供的一种语音中检测关键词的装置的模块结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为本发明一种多屏同步播放的方法示意图的流程,如图1所示,所述方法包括:
步骤101:对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
利用语音识别技术,对输入语音进行声学解码,生成具有多个候选的词网格。在语音识别中,输入的语音信号需要首先经过预处理和声学特征参数提取的过程。这里提取的是线性感知预测参数。通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算声学特征在每个模型中的概率得分,利用维特比解码,搜索最优路径,找到语音的识别词序列。假设给定一段语音序列的特征矢量Y=y1,y2,...,yN,找出这段语音所代表的最有可能的词序列
Figure BDA0000447850310000061
根据贝叶斯决策准则可以得到:
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
对于每个可能的词序列W,P(Y)是固定不变的,则上式可简化为:
W ^ = arg max w p ( W ) P ( Y | W )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示给定词序列W产生特征矢量序列Y的条件概率,由声学模型决定;P(Y)为所述特征矢量Y的先验概率。
词候选网格是在保留每个时刻其累计概率最大的N个候选词序列W,并同时记载回溯路径,及其在声学模型与语言模型上的概率得分,将识别过程中的多个候选信息以文本形式保留下来,形成词候选网格。本实施例中,待检测的关键词为“捷成世纪”,由于在语言模型中不存在“捷成世纪”这个词,通过声学解码后,最后生成的词候选网格如图2所示。
词候选网格(Lattice)对应的数据结构中包括了弧和节点;每条弧记载了解码信息,包括词、词的起始时间以及对应的声学、语言学概率得分;而节点代表时间离散的时刻点,记载前后连接弧的有关信息,是弧的汇合点。在图2中,其中图中START与END分别表示开始与结束,sil表示静音段,每一条线表示一条解码路径。网格代表了一个压缩的解码空间,表示了识别过程的解码信息,在时间上相交的路径都构成了竞争关系,任何从起点到终点的完整路径构成一个可能的识别句子。
步骤102:将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
根据中文语言自身的特殊性,中文在字与拼音之间存在多对多的关系,相同的发音可用不同的字来表示,如Fourier可以译为“傅立叶”、“傅里叶”。在词网格中,不同的候选词可能具有相同的发音,而对于要检测的目标关键词有可能在语言模型中不存在,这样在网格中不能检测出目标关键词;为了解决这个问题,结合中文语言的特性,需要把词候选网格分裂成候选字网格,并以拼音为单位进行表示,如图3所示,将图2中的“世纪”和“城市”对应的弧分别进行拆分,分别形成两段新弧和一个节点,并以拼音中的音节为单位对弧标记。
步骤103:将所述候选字网格中的弧进行优化,并聚类为混淆网络。
以拼音为基本单元的候选字网格(Lattice),虽然可以解决局外词(Out Of Vocabulary,OOV)问题,但由于网络的结构复杂、包含了较多的冗余信息,占用存储空间大,不利于建立索引来检索,因此需要把候选字网格转成混淆网络(Confusion Network)。混淆网络强迫竞争词在同一个组里,这就迫使网格中在同一时间间隔出现的词按时间自然排序,而且可以直接利用混淆网络中词的后验概率作为置信度得分。混淆网络比候选词网格占用空间小,结构简单且容易处理。
本实施例中,采用文献《语音关键词识别技术的研究》(孙成立,:[博士学位论文],北京:北京邮电大学,2008)中的方法将候选词网格转换成混淆网络,具体算法:
1)在候选词网格上利用前向-后向算法计算弧的后验概率。
2)概率剪枝,剪去后验概率小于阀值的弧。
3)从候选词网格上提取一条从起始节点到终止节点的完整路径,该路径通常为1-Best识别结果的路径,作为网格对齐用的参考路径。
4)遍历网格,将所有的网格转移弧与参考路径作比较,对于时间竞争的转移弧,合并具有相同拼音的弧,对不同拼音的弧进行聚类。
1:弧合并算法,对在时间上相交的具有相同拼音ID的转移弧,合并这两个弧,合并后的弧对应的后验概率等于原有弧对应的各后验概率相加之和。
SIM ( E 1 , E 2 ) = Σ e 1 ∈ E 1 , e 2 ∈ E 2 overlap ( e 1 , e 2 ) * ( p ( e 1 ) + p ( e 2 ) )
其中,E1和E2是相同拼音ID所在的弧集合,p(ei)是弧的后验概率,overlap(e1,e2)表示在的时间上的重叠率,合并后的弧对应的后验概率为SIM(E1,E2)。
2:弧聚类算法,对时间上相交的不同拼音ID的弧即有竞争关系,把不同拼音对应的弧归并为同一混淆集。
本实施例中,通过上述方法可以把图3中的拼音网格转换成拼音的混淆网络,如图4所示,其中,开始端的弧sil不对应拼音,则后验概率为1.0;jie2对应的后验概率为0.4,jie3对应的后验概率为0.2,jue2对应的后验概率为0.4,各弧对应的拼音各不相同,则将此三段弧进行聚类为混淆集;cheng在候选字网格中由于均为二声,各弧对应的拼音相同,将cheng对应的三段弧进行合并,则后验概率为1.0;shi在候选字网格中有两段弧对应四声,各弧对应的拼音相同,将shi4对应的上下两端弧进行合并,对应的后验概率为0.7,并与拼音si对应的弧聚类为混淆集;ji在候选字网格中由于均为四声,各弧对应的拼音相同,将ji对应的三段弧合并,则对应的后验概率为1.0;同理,最末端的弧sil不对应拼音,则后验概率同为1.0。
步骤104:根据混淆网络的格式,对每个拼音建立逆向索引。
本实施例中,混淆网络的保存的格式为:
align sliceID pinying1 posterior1 pinying2posterior2…
info sliceID pinying1 starttime duration ascore gscorephones phonedus
其中,sliceID:混淆集的编号;pinying:拼音标志;starttime:拼音的起始时间;duration:拼音持续时间;ascore:声学模型得分;gscore:语言模型和发音得分;phones:拼音包含的音素;phonedurs:音素的驻留时间。
根据混淆网络的格式,对关键词进行检索前,必须对每个拼音建立逆向索引。因为关键词的每个拼音在语音中是有时序,对于关键词检测,即使检测出来的拼音如果发生时间不一致也认为是错误的;另外受噪音等影响,语音声学解码结果的具有不确定性,必须对每个识别结果标注置信度,以衡量结果的可靠性。其中,在混淆网络中的posterior即为该拼音的置信度。建立反向索引,可表示为:
pinyingID posterior starttime endtime sliceID
步骤105:将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
建立好拼音索引后,把待检索的关键词转换成拼音,并通过逆向索引定位到关键词中的每个拼音发生的位置,判断每个拼音的时序关系及置信度来决定关键词是否发生。由于受到口音、背景噪音等影响,语音的声学解码不可能完全正确,有可能声调会发生错误,因此将不同调的拼音看作相同拼音,以减少漏检率。
本实施例中,待检索关键词为“捷成世纪”,其对应的拼音为:jie2cheng2shi4ji4。在如图2所示的生成的候选词网格中却没有“捷成世纪”这个词,但如图4所示经过变化为拼音的混淆网络后却是有“jie2cheng2shi4ji4”的拼音,因些能够很容易地确定出待检索关键词“捷成世纪”出现在语音中。
本发明还公开了一种语音中检测关键词的装置,如图5所示,包括如下模块:
解码模块501,用于对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
拆分模块502,用于将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
转换模块503,用于将所述候选字网格中的弧进行优化,并聚类为混淆网络;
索引模块504,用于根据混淆网络的格式,对每个拼音建立逆向索引;
检索模块505,用于将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
进一步,所述解码模块提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
进一步,所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为 W ^ = w ^ 1 , w ^ 2 , . . . , w ^ N :
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
进一步,所述候选词网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
进一步,所述转换模块包括:
删减单元,用于在候选字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
提取单元,用于从候选字网格上提取一条从起始节点到终止节点的完整路径,作为候选字网格对齐用的参考路径;
优化单元,用于将所述候选字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
进一步,所述优化单元具体用于对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
本发明一种语音中检测关键词的方法和装置,将字网格中的弧进行优化,并聚类为混淆网络,并建立索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,通过将字网格转成混淆网络,使强迫竞争词在同一个组里,使网格中在同一时间间隔出现的词按时间自然排序,直接利用混淆网络中词的后验概率作为置信度得分,由于混淆网络比网格占用空间小,结构简单且易于索引,并混淆网络中将不同调的拼音看作相同拼音进行查找,从而有效降低了漏检率,提高了查找效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种语音中检测关键词的方法,其特征在于,包括如下步骤:
对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
将所述候选字网格中的弧进行优化,并聚类为混淆网络;
根据混淆网络的格式,对每个拼音建立逆向索引;
将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
2.根据权利要求1所述的方法,其特征在于:所述根据声学编码对应的声学特征确定输入语音对应的候选词序列时,提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
3.根据权利要求2所述的方法,其特征在于:所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为
Figure FDA0000447850300000011
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
4.根据权利要求1所述的方法,其特征在于:所述候选词网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
5.根据权利要求1所述的方法,其特征在于:所述将所述候选字网格中的弧进行优化,并聚类为混淆网络具体为:
在候选字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
从候选字网格上提取一条从起始节点到终止节点的完整路径,作为网格对齐用的参考路径;
将所述候选字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
6.根据权利要求5所述的方法,其特征在于:所述合并具有相同拼音的弧时,对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
7.一种语音中检测关键词的装置,其特征在于,包括如下模块:
解码模块,用于对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
拆分模块,用于将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
转换模块,用于将所述候选字网格中的弧进行优化,并聚类为混淆网络;
索引模块,用于根据混淆网络的格式,对每个拼音建立逆向索引;
检索模块,用于将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
8.根据权利要求7所述的装置,其特征在于:所述解码模块提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
9.根据权利要求8所述的装置,其特征在于:所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为
Figure FDA0000447850300000031
W ^ = arg ma x w P ( W | Y ) = arg ma x w p ( W ) P ( Y | W ) P ( Y )
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
10.根据权利要求7所述的装置,其特征在于:所述候选词网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
11.根据权利要求7所述的装置,其特征在于:所述转换模块包括:
删减单元,用于在候选字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
提取单元,用于从候选字网格上提取一条从起始节点到终止节点的完整路径,作为候选字网格对齐用的参考路径;
优化单元,用于将所述候选字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
12.根据权利要求11所述的装置,其特征在于:所述优化单元具体用于对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
CN201310740533.9A 2013-12-27 2013-12-27 一种语音中检测关键词的方法和装置 Expired - Fee Related CN103730115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310740533.9A CN103730115B (zh) 2013-12-27 2013-12-27 一种语音中检测关键词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310740533.9A CN103730115B (zh) 2013-12-27 2013-12-27 一种语音中检测关键词的方法和装置

Publications (2)

Publication Number Publication Date
CN103730115A true CN103730115A (zh) 2014-04-16
CN103730115B CN103730115B (zh) 2016-09-07

Family

ID=50454163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310740533.9A Expired - Fee Related CN103730115B (zh) 2013-12-27 2013-12-27 一种语音中检测关键词的方法和装置

Country Status (1)

Country Link
CN (1) CN103730115B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106297776A (zh) * 2015-05-22 2017-01-04 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN107112009A (zh) * 2015-01-27 2017-08-29 微软技术许可有限责任公司 使用多标记结构的转录纠正
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108399914A (zh) * 2017-02-06 2018-08-14 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN108830603A (zh) * 2018-07-03 2018-11-16 成都四方伟业软件股份有限公司 交易识别方法及装置
CN109559744A (zh) * 2018-12-12 2019-04-02 泰康保险集团股份有限公司 语音数据的处理方法、装置及可读存储介质
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN110781270A (zh) * 2018-07-13 2020-02-11 北京搜狗科技发展有限公司 一种解码网络中非关键词模型的构建方法和装置
CN111276124A (zh) * 2020-01-22 2020-06-12 苏州科达科技股份有限公司 一种关键词识别方法、装置、设备及可读存储介质
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
CN111866289A (zh) * 2020-01-10 2020-10-30 马上消费金融股份有限公司 外呼号码状态检测方法及装置、智能外呼方法及系统
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
CN113506584A (zh) * 2021-07-06 2021-10-15 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法以及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010412A1 (en) * 2003-07-07 2005-01-13 Hagai Aronowitz Phoneme lattice construction and its application to speech recognition and keyword spotting
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010412A1 (en) * 2003-07-07 2005-01-13 Hagai Aronowitz Phoneme lattice construction and its application to speech recognition and keyword spotting
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107112009A (zh) * 2015-01-27 2017-08-29 微软技术许可有限责任公司 使用多标记结构的转录纠正
CN111508502A (zh) * 2015-01-27 2020-08-07 微软技术许可有限责任公司 使用多标记结构的转录纠正
CN111508502B (zh) * 2015-01-27 2023-11-28 微软技术许可有限责任公司 用于显示结果的备选的方法和系统
CN107112009B (zh) * 2015-01-27 2020-05-12 微软技术许可有限责任公司 用于生成混淆网络的方法、系统和计算机可读存储设备
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
CN106297776B (zh) * 2015-05-22 2019-07-09 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN106297776A (zh) * 2015-05-22 2017-01-04 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108074562B (zh) * 2016-11-11 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108399914A (zh) * 2017-02-06 2018-08-14 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN108399914B (zh) * 2017-02-06 2021-06-22 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN110070859B (zh) * 2018-01-23 2023-07-14 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US11810435B2 (en) 2018-02-28 2023-11-07 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
CN108830603A (zh) * 2018-07-03 2018-11-16 成都四方伟业软件股份有限公司 交易识别方法及装置
CN110781270A (zh) * 2018-07-13 2020-02-11 北京搜狗科技发展有限公司 一种解码网络中非关键词模型的构建方法和装置
CN109559744B (zh) * 2018-12-12 2022-07-08 泰康保险集团股份有限公司 语音数据的处理方法、装置及可读存储介质
CN109559744A (zh) * 2018-12-12 2019-04-02 泰康保险集团股份有限公司 语音数据的处理方法、装置及可读存储介质
CN111866289A (zh) * 2020-01-10 2020-10-30 马上消费金融股份有限公司 外呼号码状态检测方法及装置、智能外呼方法及系统
CN111276124A (zh) * 2020-01-22 2020-06-12 苏州科达科技股份有限公司 一种关键词识别方法、装置、设备及可读存储介质
CN113506584A (zh) * 2021-07-06 2021-10-15 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法以及设备
CN113506584B (zh) * 2021-07-06 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法以及设备

Also Published As

Publication number Publication date
CN103730115B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103730115A (zh) 一种语音中检测关键词的方法和装置
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
CN106980624B (zh) 一种文本数据的处理方法和装置
US10917758B1 (en) Voice-based messaging
Arisoy et al. Turkish broadcast news transcription and retrieval
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
Wang et al. An introduction to voice search
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP5296598B2 (ja) 音声情報抽出装置
US20120041947A1 (en) Search apparatus, search method, and program
CN106205613B (zh) 一种导航语音识别方法及系统
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN114141179A (zh) 基于智能语音交互的公园导览与景区介绍系统
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
WO2012004955A1 (ja) テキスト補正方法及び認識方法
Bigot et al. Person name recognition in ASR outputs using continuous context models
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
CN102970618A (zh) 基于音节识别的视频点播方法
CN102136001A (zh) 一种多媒体信息模糊检索方法
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for detecting keywords in voice

Effective date of registration: 20200119

Granted publication date: 20160907

Pledgee: Huaxia Bank Limited by Share Ltd. Zhongguancun Beijing branch

Pledgor: BEIJING JETSEN TECHNOLOGY Co.,Ltd.

Registration number: Y2020990000081

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20201116

Granted publication date: 20160907

Pledgee: Huaxia Bank Limited by Share Ltd. Zhongguancun Beijing branch

Pledgor: BEIJING JETSEN TECHNOLOGY Co.,Ltd.

Registration number: Y2020990000081

PC01 Cancellation of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20211227

CF01 Termination of patent right due to non-payment of annual fee