CN106297776A - 一种基于音频模板的语音关键词检索方法 - Google Patents

一种基于音频模板的语音关键词检索方法 Download PDF

Info

Publication number
CN106297776A
CN106297776A CN201510266553.6A CN201510266553A CN106297776A CN 106297776 A CN106297776 A CN 106297776A CN 201510266553 A CN201510266553 A CN 201510266553A CN 106297776 A CN106297776 A CN 106297776A
Authority
CN
China
Prior art keywords
voice
template
retrieved
score
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510266553.6A
Other languages
English (en)
Other versions
CN106297776B (zh
Inventor
徐及
张舸
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510266553.6A priority Critical patent/CN106297776B/zh
Publication of CN106297776A publication Critical patent/CN106297776A/zh
Application granted granted Critical
Publication of CN106297776B publication Critical patent/CN106297776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。

Description

一种基于音频模板的语音关键词检索方法
技术领域
本发明涉及语音检索领域,特别涉及一种基于音频模板的语音关键词检索方法。
背景技术
关键词检索任务是指快速地从大规模、多样性的语音数据中找到给定的关键词所在的位置。目前主流的关键词检索方法是通过大词汇量连续语音识别系统将待检索语音转换成文本。考虑到大词汇量连续语音识别系统的识别准确性,首选结果的错误率较高,因此通常采用包含多候选信息和时间信息的词图,再在词图上对待检索关键词的文本或发音进行搜索和置信度计算,得到关键词检索结果(邵健,面向大规模电话交谈语音的汉语语音检索,博士学位论文,2008)。这种方法可以获得良好的检索性能。
然而,这一方法要求一个性能良好的大词汇量连续语音识别系统,搭建这样一个系统需要大量的标注语料,这样就显著提高了在一种新语言上的应用成本。此外,如果关键词是以语音片段的形式给出,这种方法需要将孤立的语音片段首先识别成首选文本,而这一过程通常精度有限,从而进一步限制了关键词检索的准确性。因此,传统的关键词检索方法通常只适用于充分了解的语种,这对关键词检索的应用带来了限制。为了能够在非特定的语种上实现以语音片段形式给出的关键词的检索任务,需要一种不依赖于大词汇量连续语音识别系统的语音关键词检索方法。
发明内容
本发明的目的在于克服传统的关键词检索方法对大词汇量连续语音识别系统的依赖,提出一种基于模板匹配的语音关键词检索方法。
为了实现上述目的,本发明提供了一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。
上述技术方案中,该方法具体包括以下步骤:
步骤1)、分别对语音样例模板和待检索语音片段进行特征提取,将所提取的特征通过一个深层神经网络计算对一个给定的音素集上全部音素的声学后验概率;
步骤2)、以步骤1)得到的声学后验概率中属于静音的状态的强度为依据,在语音样例模板和待检索语音片段中,通过语音活动性检测去除属于静音的帧,仅保留属于语音的帧;
步骤3)、对属于每个特定关键词的一组语音样例模板分别进行动态时间规整和平均,得到属于每个关键词的单一平均语音样例模板;
步骤4)、对步骤3)所得到的平均语音样例模板和待检索语音片段进行动态时间规整,获得在每个待检索语音片段上的关键词候选以及相应的置信度得分;
步骤5)、对每一待检索语音片段,根据所有关键词候选的整体分布对置信度得分进行规整,并通过设定的阈值从关键词候选中得到最终检索出的关键词。
上述技术方案中,在步骤1)中,所述音素集为基于国际音标系统的通用音素集,或目标语言的特定音素集。
上述技术方案中,步骤1)进一步包括:
步骤1-1)、对语音样例模板与待检索语音片段进行分帧操作;
步骤1-2)、为语音样例模板和待检索语音片段中的语音帧提取语音识别特征;
步骤1-3)、将所提取的语音识别特征输入深层神经网络,生成语音帧在特定音素集状态中的后验概率;所述后验概率满足如下条件:
假设pi,s(t)为第t帧时音素i,1≤i≤M,状态s,1≤s≤S的后验概率,则音素后验概率pi(t)为该音素所有状态的概率和,即:
p i ( t ) = Σ ∀ s p i , s ( t )
并满足:
Σ ∀ i p i ( t ) = 1.
上述技术方案中,所述步骤2)进一步包括:
步骤2-1)、基于步骤1)得到的声学后验概率,对语音帧进行筛选,排除那些静音为所有音素中概率最高的语音帧;
步骤2-2)、对剩余的语音帧重新整理并记录原始位置。
上述技术方案中,所述步骤2-2)还包括:若剩余的语音帧少于给定的阈值,丢弃整个语音样例模板或待检索语音片段。
上述技术方案中,所述步骤3)进一步包括:
步骤3-1)、将属于同一个关键词的两个语音样例模板作为两个待匹配的序列;
步骤3-2)、为两个待匹配的序列寻找最优匹配路径,其中,假设待匹配的两个序列分别标记为X和Y,其长度分别为N和M,给出匹配路径p=(p1,…,pL),有pl=(nl,ml)∈[1:N]×[1:M],l∈[1:L],满足如下条件:
边界条件:p1=(1,1)且pL=(N,M);
单调性条件:n1≤n2≤…≤nL,m1≤m2≤…≤mL
步长条件:pl+1-pl∈{(0,1),(1,0),(1,1)};
记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分,d(xn,ym)为序列元素xn和ym之间的距离,则匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D ( 1 , m ) = Σ k = 1 m d ( x 1 , y k )
D ( n , m ) = d ( x n , y m ) + m i n D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
对最优匹配路径的选择方法是:当pl=(n,m),
据此,根据边界条件回溯得到最优匹配路径;
步骤3-3)、将不同长度的语音样例模板以最优匹配路径为依据被对齐到同一长度,从而得到每一帧的平均声学后验概率,并将这个平均值作为单一的平均语音样例模板。
上述技术方案中,所述步骤4)进一步包括:
步骤4-1)、将平均语音样例模板和待检索语音片段作为两个待匹配的序列;
步骤4-2)、为两个待匹配的序列寻找最优匹配路径;其中,假设待匹配的两个序列分别标记为X和Y,其长度分别为N和M,给出匹配路径p=(p1,…,pL),有pl=(nl,ml)∈[1:N]×[1:M],l∈[1:L],满足如下条件:
边界条件:p1=(1,a)且pL=(N,b),其中1≤a≤b≤M;
单调性条件:n1≤n2≤…≤nL,m1≤m2≤…≤mL
步长条件:pl+1-pl∈{(0,1),(1,0),(1,1)};
记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分,d(xn,ym)为序列元素xn和ym之间的距离,则匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D(1,m)=d(x1,yk)
D ( n , m ) = d ( x n , y m ) + m i n D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
其中,计算序列元素的距离时,采用巴氏距离(Bhattacharyya distance):
d ( x , y ) = - l o g ( Σ k = 1 K x k y k )
对最优匹配路径的选择方法是:当pl=(n,m),
据此,根据边界条件回溯得到最优匹配路径;
步骤4-3)、取D(N,m),1≤m≤M作为以m为匹配终点的累积匹配得分,并根据回溯得到的匹配路径获得最优匹配的起点;
步骤4-4)、根据设定的阈值选出最小的若干个累积匹配得分所在位置,以最优匹配的起止时间作为关键词候选的起止时间,以累积匹配得分的负数作为关键词候选的置信度得分。
上述技术方案中,所述步骤5)进一步包括:
对关键词候选进行直方图统计,获得计数最多的直方图分段,将该分段的中间值认为是得分的众数μq,并作为规整的对齐位置;统计得分高于众数的候选的得分标准差σqm,对置信度得分sq,t作规整:
s ^ q , t = s q , t - μ q σ q m
以规整后的得分作为依据,根据给定的阈值给出最终检索出的关键词。
本发明的优点在于:
1、采用本发明的方法实现检索的过程中,不依赖于语音到文本形式的转换,从而使检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。
2、本发明的方法采用语音样例模板平均,在保留模板信息的同时减少了匹配次数。
3、本发明的方法根据候选的整体分布进行置信度得分规整,消除了不同关键词模板在声学模型上产生的不平衡性,从而在混合语种或复杂场景的任务上保持性能的稳定。
附图说明
图1是本发明的语音关键词检索方法的流程图。
具体实施方式
下面对本发明作进一步描述。
本发明的语音关键词检索方法首先将语音样例模板和待检索语音通过声学模型前端转换成概率分布的序列,然后通过动态时间规整(Dynamic Time Warping)算法对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。在比较理想的情况下,其可以完全不利用特定语种的数据。参考图1,本发明方法的具体描述如下:
步骤1)、分别对语音样例模板和待检索语音片段进行特征提取,将所提取的特征通过一个深层神经网络(Deep Neural Network)计算对一个给定的音素集上全部音素的声学后验概率;其中,所述语音样例模板有多个,一般对于一个特定关键词会有数个到数十个语音样例模板;所述音素集既可以采用基于国际音标系统的通用音素集,也可以采用目标语言的特定音素集;所述深层神经网络预先基于若干种语言的数据训练产生。
步骤2)、以后验概率中属于静音的状态的强度为依据,在语音样例模板和待检索语音片段中,通过语音活动性检测(Speech Activity Detection)去除属于静音的帧,仅保留属于语音的帧;
步骤3)、对属于每个特定关键词的一组语音样例模板分别进行动态时间规整和平均,得到属于每个关键词的单一平均语音样例模板;
步骤4)、对步骤3)所得到的平均语音样例模板和待检索语音片段进行动态时间规整,获得在每个待检索语音片段上的关键词候选以及相应的置信度得分;
步骤5)、对每一待检索语音片段,根据所有关键词候选的整体分布对置信度得分进行规整,并通过设定的阈值从关键词候选中得到最终检索出的关键词。
下面对本发明方法中的步骤做进一步描述。
在步骤1)中,计算后验概率是将语音样例模板和待检索语音片段转化为帧级音素后验概率;因此在特征提取前,首先对语音样例模板与待检索语音片段进行分帧操作,所述分帧操作是在输入语音流上,以25毫秒为帧长、10毫秒为帧移,进行时域上的切分。所述特征提取中所涉及的特征为语音识别特征,如MFCC或PLP。随后,这些特征被送入深层神经网络并生成特定音素集状态的后验概率。该后验概率满足如下条件:
假设pi,s(t)为第t帧时音素i(1≤i≤M)、状态s(1≤s≤S)的后验概率,则音素后验概率pi(t)为该音素所有状态的概率和,即:
p i ( t ) = Σ ∀ s p i , s ( t )
并满足:
Σ ∀ i p i ( t ) = 1
对于所使用的神经网络,尽管其训练数据和目标音素集来自于某一特定语言或者几种语言的混合,但由于这些语言均可以与待测语音无关,因此后验概率生成步骤可以被认为是对语音信号的一种刻画,是语种无关的。
在步骤2)中,所述语音活动性检测的目的是基于步骤1)得到的声学后验概率。对语音帧进行筛选,排除那些静音为所有音素中概率最高的语音帧。通过语音活动性检测,可以排除语音片段中的静音部分对匹配过程产生的影响,即:认为所有的静音部分都是相同的,因此不应该参与到匹配计算。
经过语音活动性检测,剩余的帧将会被重新整理并记录原始位置,从而避免在还原时出现错位的情况。此外,如果在语音活动性检测后剩余的语音帧少于给定的阈值,整个语音样例模板或待检索语音片段将会被丢弃,以确保后续匹配过程的统计稳定性。
在步骤3)和步骤4)中,动态时间规整用于寻找两个序列的最优对齐,并获得序列匹配程度的度量。在步骤3)中,两个待匹配的序列均为属于同一个关键词的语音样例模板;在步骤4)中,两个待匹配的序列为平均语音样例模板和待检索语音片段。
首先描述对两个序列进行整体对齐的方法。假设待匹配的两个序列分别标记为X和Y,其长度分别为N和M,给出匹配路径p=(p1,…,pL),有pl=(nl,ml)∈[1:N]×[1:M],l∈[1:L],满足如下条件:
边界条件:p1=(1,1)且pL=(N,M);
单调性条件:n1≤n2≤…≤nL,m1≤m2≤…≤mL
步长条件:pl+1-pl∈{(0,1),(1,0),(1,1)};
记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分,d(xn,ym)为序列元素xn和ym之间的距离,则匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D ( 1 , m ) = Σ k = 1 m d ( x 1 , y k )
D ( n , m ) = d ( x n , y m ) + m i n D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
对最优匹配路径的选择方法是:当pl=(n,m),
据此,根据边界条件回溯可以得到最优匹配路径。
在匹配终点,累积匹配得分D(N,M)即是两个序列相似程度的度量。
对两个序列进行整体对齐的方法应用于步骤3)时,通过动态时间规整,不同长度的语音样例模板以最优匹配路径为依据被对齐到同一长度,从而得到每一帧的平均声学后验概率,并将这个平均值作为单一的平均语音样例模板,用于后续检索过程。
在步骤4)中,为了同时获得匹配得分和最优匹配位置,需要采用子序列动态时间规整方法,从而在一遍匹配过程中遍历所有可能匹配位置相对应的最优路径。该方法对经典方法的边界条件进行放宽,即:
p1=(1,a)且pL=(N,b),其中1≤a≤b≤M
此时,匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D(1,m)=d(x1,yk)
D ( n , m ) = d ( x n , y m ) + m i n D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
其中,计算序列元素的距离时,采用巴氏距离(Bhattacharyya distance):
d ( x , y ) = - l o g ( Σ k = 1 K x k y k )
实验表明这样的距离准则可以获得最优的性能。
在匹配完成之后,取D(N,m),1≤m≤M作为以m为匹配终点的累积匹配得分,并根据回溯得到的匹配路径获得最优匹配的起点。根据设定的阈值选出最小的若干个累积匹配得分所在位置,以最优匹配的起止时间作为关键词候选的起止时间,以累积匹配得分的负数作为关键词候选的置信度得分,这样就得到在一条待检索语音片段上的全部关键词候选。
在关键词检索时通常需要面对多变的语音模板样例的长度和发音模式。因此,步骤4)所做的动态时间规整给出的置信度得分在不同的关键词上可能具有相当不同的分布,从而无法直接采用统一的阈值获得最终候选。为此在步骤5)中需要对每个关键词对应的得分候选进行规整。
考虑到关键词得分的分布类似于长尾的正态分布,本步骤在进行规整时主要考虑更有价值的高置信度得分。首先对关键词候选进行直方图统计,获得计数最多的直方图分段,将该分段的中间值认为是得分的众数μq,并作为规整的对齐位置,统计得分高于众数的候选的得分标准差σqm,对置信度得分sq,t作规整:
s ^ q , t = s q , t - μ q σ q m
以规整后的得分作为依据,就可以根据给定的阈值给出最终候选。
本方法在测试中,在20小时混合语种数据上,对500个关键词进行检索时,可以达到单线程0.7倍实时率,F1分数24.96的实验结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。
2.根据权利要求1所述的基于音频模板的语音关键词检索方法,其特征在于,该方法具体包括以下步骤:
步骤1)、分别对语音样例模板和待检索语音片段进行特征提取,将所提取的特征通过一个深层神经网络计算对一个给定的音素集上全部音素的声学后验概率;
步骤2)、以步骤1)得到的声学后验概率中属于静音的状态的强度为依据,在语音样例模板和待检索语音片段中,通过语音活动性检测去除属于静音的帧,仅保留属于语音的帧;
步骤3)、对属于每个特定关键词的一组语音样例模板分别进行动态时间规整和平均,得到属于每个关键词的单一平均语音样例模板;
步骤4)、对步骤3)所得到的平均语音样例模板和待检索语音片段进行动态时间规整,获得在每个待检索语音片段上的关键词候选以及相应的置信度得分;
步骤5)、对每一待检索语音片段,根据所有关键词候选的整体分布对置信度得分进行规整,并通过设定的阈值从关键词候选中得到最终检索出的关键词。
3.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,在步骤1)中,所述音素集为基于国际音标系统的通用音素集,或目标语言的特定音素集。
4.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,步骤1)进一步包括:
步骤1-1)、对语音样例模板与待检索语音片段进行分帧操作;
步骤1-2)、为语音样例模板和待检索语音片段中的语音帧提取语音识别特征;
步骤1-3)、将所提取的语音识别特征输入深层神经网络,生成语音帧在特定音素集状态中的后验概率;所述后验概率满足如下条件:
假设pi,s(t)为第t帧时音素i,1≤i≤M,状态s,1≤s≤S的后验概率,则音素后验概率pi(t)为该音素所有状态的概率和,即:
p i ( t ) = Σ ∀ s p i , s ( t )
并满足:
Σ ∀ i p i ( t ) = 1 .
5.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,所述步骤2)进一步包括:
步骤2-1)、基于步骤1)得到的声学后验概率,对语音帧进行筛选,排除那些静音为所有音素中概率最高的语音帧;
步骤2-2)、对剩余的语音帧重新整理并记录原始位置。
6.根据权利要求5所述的基于音频模板的语音关键词检索方法,其特征在于,所述步骤2-2)还包括:若剩余的语音帧少于给定的阈值,丢弃整个语音样例模板或待检索语音片段。
7.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,所述步骤3)进一步包括:
步骤3-1)、将属于同一个关键词的两个语音样例模板作为两个待匹配的序列;
步骤3-2)、为两个待匹配的序列寻找最优匹配路径,其中,假设待匹配的两个序列分别标记为X和Y,其长度分别为N和M,给出匹配路径p=(p1,…,pL),有pl=(nl,ml)∈[1:N]×[1:M],l∈[1:L],满足如下条件:
边界条件:p1=(1,1)且pL=(N,M);
单调性条件:n1≤n2≤…≤nL,m1≤m2≤…≤mL
步长条件:pl+1-pl∈{(0,1),(1,0),(1,1)};
记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分,d(xn,ym)为序列元素xn和ym之间的距离,则匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D ( 1 , m ) = Σ k = 1 m d ( x 1 , y k )
D ( n , m ) = d ( x n , y m ) + min D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
对最优匹配路径的选择方法是:当pl=(n,m),
据此,根据边界条件回溯得到最优匹配路径;
步骤3-3)、将不同长度的语音样例模板以最优匹配路径为依据被对齐到同一长度,从而得到每一帧的平均声学后验概率,并将这个平均值作为单一的平均语音样例模板。
8.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,所述步骤4)进一步包括:
步骤4-1)、将平均语音样例模板和待检索语音片段作为两个待匹配的序列;
步骤4-2)、为两个待匹配的序列寻找最优匹配路径;其中,假设待匹配的两个序列分别标记为X和Y,其长度分别为N和M,给出匹配路径p=(p1,…,pL),有pl=(nl,ml)∈[1:N]×[1:M],l∈[1:L],满足如下条件:
边界条件:p1=(1,a)且pL=(N,b),其中1≤a≤b≤M;
单调性条件:n1≤n2≤…≤nL,m1≤m2≤…≤mL
步长条件:pl+1-pl∈{(0,1),(1,0),(1,1)};
记D(n,m)为从匹配起点到位置(n,m),1≤n≤N,1≤m≤M的累积匹配得分,d(xn,ym)为序列元素xn和ym之间的距离,则匹配路径的选择满足:
D ( n , 1 ) = Σ k = 1 n d ( x k , y 1 )
D(1,m)=d(x1,yk)
D ( n , m ) = d ( x n , y m ) + min D ( n - 1 , m ) D ( n - 1 , m - 1 ) D ( n , m - 1 )
其中,计算序列元素的距离时,采用巴氏距离(Bhattacharyya distance):
d ( x , y ) = - log ( Σ k = 1 K x k y k )
对最优匹配路径的选择方法是:当pl=(n,m),
据此,根据边界条件回溯得到最优匹配路径;
步骤4-3)、取D(N,m),1≤m≤M作为以m为匹配终点的累积匹配得分,并根据回溯得到的匹配路径获得最优匹配的起点;
步骤4-4)、根据设定的阈值选出最小的若干个累积匹配得分所在位置,以最优匹配的起止时间作为关键词候选的起止时间,以累积匹配得分的负数作为关键词候选的置信度得分。
9.根据权利要求2所述的基于音频模板的语音关键词检索方法,其特征在于,所述步骤5)进一步包括:
对关键词候选进行直方图统计,获得计数最多的直方图分段,将该分段的中间值认为是得分的众数μq,并作为规整的对齐位置;统计得分高于众数的候选的得分标准差σqm,对置信度得分sq,t作规整:
s ^ q , t = s q , t - μ q σ qm
以规整后的得分作为依据,根据给定的阈值给出最终检索出的关键词。
CN201510266553.6A 2015-05-22 2015-05-22 一种基于音频模板的语音关键词检索方法 Active CN106297776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510266553.6A CN106297776B (zh) 2015-05-22 2015-05-22 一种基于音频模板的语音关键词检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510266553.6A CN106297776B (zh) 2015-05-22 2015-05-22 一种基于音频模板的语音关键词检索方法

Publications (2)

Publication Number Publication Date
CN106297776A true CN106297776A (zh) 2017-01-04
CN106297776B CN106297776B (zh) 2019-07-09

Family

ID=57633585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510266553.6A Active CN106297776B (zh) 2015-05-22 2015-05-22 一种基于音频模板的语音关键词检索方法

Country Status (1)

Country Link
CN (1) CN106297776B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107665705A (zh) * 2017-09-20 2018-02-06 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN108335226A (zh) * 2018-02-08 2018-07-27 江苏省农业科学院 农业种质资源信息实时智能采集系统
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN108694940A (zh) * 2017-04-10 2018-10-23 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN108711336A (zh) * 2018-04-27 2018-10-26 山东英才学院 一种钢琴演奏评分系统及其方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
CN110334244A (zh) * 2019-07-11 2019-10-15 出门问问信息科技有限公司 一种数据处理的方法、装置及电子设备
CN110349572A (zh) * 2017-05-27 2019-10-18 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN110782886A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 语音处理的系统、方法、电视、设备和介质
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111078937A (zh) * 2019-12-27 2020-04-28 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质
CN111462777A (zh) * 2020-03-30 2020-07-28 厦门快商通科技股份有限公司 关键词检索方法、系统、移动终端及存储介质
CN111862959A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN112037774A (zh) * 2017-10-24 2020-12-04 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112259101A (zh) * 2020-10-19 2021-01-22 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
WO2021016925A1 (zh) * 2019-07-31 2021-02-04 深圳市大疆创新科技有限公司 音频处理方法及装置
CN114420101A (zh) * 2022-03-31 2022-04-29 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
WO2022226782A1 (en) * 2021-04-27 2022-11-03 Harman International Industries, Incorporated Keyword spotting method based on neural network
CN116453514A (zh) * 2023-06-08 2023-07-18 四川大学 一种基于多视角的语音关键词检测与定位方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130017542A (ko) * 2011-08-11 2013-02-20 주식회사 씨에스 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
KR20150026645A (ko) * 2013-09-03 2015-03-11 박예림 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130017542A (ko) * 2011-08-11 2013-02-20 주식회사 씨에스 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
KR20150026645A (ko) * 2013-09-03 2015-03-11 박예림 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램.
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李海洋 等: "语音关键词检测中置信测度方法研究综述", 《智能计算机与应用》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN108630200B (zh) * 2017-03-17 2022-01-07 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN108694940A (zh) * 2017-04-10 2018-10-23 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN110349572B (zh) * 2017-05-27 2021-10-22 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN110349572A (zh) * 2017-05-27 2019-10-18 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107402965B (zh) * 2017-06-22 2020-04-28 中国农业大学 一种音频检索方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
WO2019056482A1 (zh) * 2017-09-20 2019-03-28 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN107665705A (zh) * 2017-09-20 2018-02-06 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN112037774A (zh) * 2017-10-24 2020-12-04 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
CN108335226A (zh) * 2018-02-08 2018-07-27 江苏省农业科学院 农业种质资源信息实时智能采集系统
CN108711336A (zh) * 2018-04-27 2018-10-26 山东英才学院 一种钢琴演奏评分系统及其方法
CN108711336B (zh) * 2018-04-27 2020-05-12 山东英才学院 一种钢琴演奏评分方法、装置、计算机设备及存储介质
CN110782886A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 语音处理的系统、方法、电视、设备和介质
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
CN110334244A (zh) * 2019-07-11 2019-10-15 出门问问信息科技有限公司 一种数据处理的方法、装置及电子设备
CN110334244B (zh) * 2019-07-11 2020-06-09 出门问问信息科技有限公司 一种数据处理的方法、装置及电子设备
WO2021016925A1 (zh) * 2019-07-31 2021-02-04 深圳市大疆创新科技有限公司 音频处理方法及装置
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111078937A (zh) * 2019-12-27 2020-04-28 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质
CN111462777A (zh) * 2020-03-30 2020-07-28 厦门快商通科技股份有限公司 关键词检索方法、系统、移动终端及存储介质
CN111862959B (zh) * 2020-08-07 2024-04-19 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN111862959A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112259101A (zh) * 2020-10-19 2021-01-22 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
CN112259101B (zh) * 2020-10-19 2022-09-23 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
WO2022226782A1 (en) * 2021-04-27 2022-11-03 Harman International Industries, Incorporated Keyword spotting method based on neural network
CN114420101B (zh) * 2022-03-31 2022-05-27 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
CN114420101A (zh) * 2022-03-31 2022-04-29 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
CN116453514B (zh) * 2023-06-08 2023-08-25 四川大学 一种基于多视角的语音关键词检测与定位方法及装置
CN116453514A (zh) * 2023-06-08 2023-07-18 四川大学 一种基于多视角的语音关键词检测与定位方法及装置

Also Published As

Publication number Publication date
CN106297776B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
Shum et al. Unsupervised methods for speaker diarization: An integrated and iterative approach
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
CN107564543B (zh) 一种高情感区分度的语音特征提取方法
Qian et al. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training
CN107562760A (zh) 一种语音数据处理方法及装置
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
CN111128211B (zh) 一种语音分离方法及装置
CN108735200A (zh) 一种说话人自动标注方法
Kanda et al. Transcribe-to-diarize: Neural speaker diarization for unlimited number of speakers using end-to-end speaker-attributed ASR
CN107093422A (zh) 一种语音识别方法和语音识别系统
Shahin Gender-dependent emotion recognition based on HMMs and SPHMMs
Takamichi et al. JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Oh et al. Fast offline transformer‐based end‐to‐end automatic speech recognition for real‐world applications
WO2020062679A1 (zh) 一种基于深度学习的端到端说话人分割方法及系统
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
CN104240699A (zh) 一种简单有效的短语语音识别方法
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Grais et al. Audio-Visual speech recognition with background music using single-channel source separation
Shi et al. Casa-asr: Context-aware speaker-attributed asr
Łopatka et al. State sequence pooling training of acoustic models for keyword spotting
Van Hout et al. Tackling unseen acoustic conditions in query-by-example search using time and frequency convolution for multilingual deep bottleneck features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant