CN102426836B - 基于分位数自适应裁剪的快速关键词检出方法 - Google Patents
基于分位数自适应裁剪的快速关键词检出方法 Download PDFInfo
- Publication number
- CN102426836B CN102426836B CN2011102445311A CN201110244531A CN102426836B CN 102426836 B CN102426836 B CN 102426836B CN 2011102445311 A CN2011102445311 A CN 2011102445311A CN 201110244531 A CN201110244531 A CN 201110244531A CN 102426836 B CN102426836 B CN 102426836B
- Authority
- CN
- China
- Prior art keywords
- cutting
- keyword
- self
- fractile
- local path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于分位数自适应裁剪的快速关键词检出方法,涉及连续语音中关键词的快速检出方法。解决关键词检出系统解码过程中自适应裁剪方法不能最大程度裁剪局部路径,导致系统效率低下的问题。将检测语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再进行基于分位数的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,并基于后验概率确认关键词候选得到识别结果,否则重新解码。本发明能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效裁剪掉不可能的路径,最大程度上减小搜索空间规模,提高系统检出效率。
Description
技术领域
本发明涉及一种连续语音中关键词的快速检出方法,具体是在Viterbi解码过程中快速自适应裁剪局部路径的方法。
背景技术
语音识别是机器通过识别和理解过程将人类的语音信号转换为相应的文本或命令的技术,根本目的是研究出一种机器,使其具有听觉功能,即以人类的语音作为输入,理解并做出相应的反应。关键词检出是语音识别中一个重要的研究领域,是从连续语音中识别出一组给定词的过程。它是一种非受限的语音信号处理系统,允许用户采用自然的说话方式,而不必局限于特定的语法。相比于连续语音识别,关键词检出具有检出率高、实用性强、时间耗费少等优点,具有广阔的应用前景。虽然关键词检出技术有这些优点,且近年来取得了长足的进步,但是其检出效率仍不够高。一般的关键词检出系统,检出率通常能达到90%以上,但是系统效率始终是制约其进一步发展的瓶颈。当前,随着网络的普及,网络上传播的音视频信息迅速增加,人们可以方便快速的从中获取海量的音视频数据。但是如何有效地从大量的多媒体数据中挖掘特定的信息成为一个问题。当前基于垃圾模型的关键词检出系统,都是根据Viterbi解码算法在许多隐马尔科夫模型构成的大的模型上解码得到关键词和垃圾模型的序列。解码过程中,某一时刻可能存在大量的局部路径,及早删除不可能的路径,只在那些可能性高的路径上进行搜索,能大幅提高系统的检出效率。但是传统的自适应裁剪方法对局部路径的裁剪不够彻底,每帧裁剪后通常会有一多半的路径会保留下来,而这其中有很多不可能的路径,导致系统效率低下。因此,需要研究自适应的裁剪方法,进一步提高系统的检出速度,改善实时性。
发明内容
本发明的目的是为了解决关键词检出系统解码过程中,自适应裁剪方法不能有效最大程度裁剪局部路径,从而导致系统效率低下的问题,本发明提供了一种基于分位数自适应裁剪的快速关键词检出方法。
本发明的基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得每个局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
本发明步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本发明步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα)(1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
本发明步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs},其中,MFCC参数的提取过程如下:
(1)将待检测语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到待检测语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为:
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
本发明的有益效果:能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效的裁剪掉那些不可能的路径,最大程度上减小搜索空间的规模,提高系统的检出效率。
本发明的基于分位数自适应裁剪的快速关键词检出方法的系统性能曲线与传统基于均值自适应裁剪系统性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由64%(传统基于均值自适应裁剪系统的系统识别时间比)降低到了49%,系统效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下,提高了识别速度。
附图说明
图1是具体实施方式五的预先定义的识别网络的结构示意图;图2是关键词检出方法的系统性能识别曲线图,其中,曲线1是具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的统性能识别曲线,曲线2是具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线。
具体实施方式
本发明技术方案不局限于以下所列举具体实施方式,还包括各具体实施方式间的任意组合。
具体实施方式一:本实施方式为基于分位数自适应裁剪的快速关键词检出方法,其是通过以下步骤实现的:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
本实施方式步骤六为本领域技术人员的公知常识,结合现有技术,即可完成。
本实施方式步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本实施方式的有益效果:能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效的裁剪掉那些不可能的路径,最大程度上减小搜索空间的规模,提高系统的检出效率。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法的系统性能曲线与传统基于均值自适应裁剪系统性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由64%(传统基于均值自适应裁剪系统的系统识别时间比)降低到了49%,系统效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下,提高了识别速度。
具体实施方式二:本实施方式与具体实施方式一不同的是步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα) (1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
其它步骤及参数与具体实施方式一相同。
本实施方式在Viterbi解码过程中基于分位数,快速自适应的裁剪不可能的局部路径,在处理每帧特征矢量之后,从系统中所有局部路径的累积概率得分找到预先定义的上α分位数Sα,根据Sα和最大概率得分设置该时刻状态层的裁剪门限,并裁剪掉那些低于裁剪门限的局部路径。
具体实施方式三:本实施方式与具体实施方式一或二不同的是步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs}。其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式三不同的是MFCC参数的提取过程如下:
(1)将待检测语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到待检测语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
其它步骤及参数与具体实施方式三相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的。其它步骤及参数与具体实施方式一至四之一相同。
本实施方式中的预先定义的识别网络结构示意图,如图1所示。如图1所示,左右两处的节点把其他节点连接起来。箭头表示实际识别过程中,局部路径扩展的方向,对应于具体实施方式一的快速关键词检出方法中的步骤二。
本实施方式的系统中,用户首先根据自己的需要设定一组希望监听的词(即图1中关键词模型1至关键词模型N),那么就根据这组词和单音素(即图1中的垃圾模型1至垃圾模型N)构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是步骤四中的上α分位数Sα定义为:
设x1,x2,...xN为N个观测值,将它们由大到小记为x(1),x(2),...x(N),即x(1)≥x(2)≥...≥x(N),称它们为次序计量值,其中第i个次序统计量值是x(i),表示大于x(i)的值有100×αN%个,其余的小于等于x(i),
对于0≤α<1,数据x1,x2,...xn的上α分位数是
具体实施方式七:本实施方式为基于分位数自适应裁剪的快速关键词检出方法,其是通过以下步骤实现的:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
其中,步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα) (1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
本实施方式中,实验使用PC机,CPU为奔腾4双核,3.0GHz,1GB内存,步骤一中输入的待检测语音信号的语料时长为53min,其中包含710个测试文件,每个文件中的语音时长为3到6秒。
本实施方式的步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的,如图1所示。其中,用户首先根据自己的需要设定一组希望监听的词,那么就根据这组词和单音素构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
本实施方式步骤一中的S取值会依据待检测语音信号的具体时长,系统会自己运行。步骤四的步骤2中的N的取值,在每一时刻,系统中存在的局部路径的个数是不同的。实际有多少条局部路径,那么N就是多少。系统运行过程中会自动记录这个值。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法的系统识别性能曲线如图2中曲线1所示。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法对语料时长为53min的待检测语音信号的识别时间为26min37s,计算观察概率的时间为11min56s,识别时间比为49%。
具体实施方式八:本实施方式为对比实验,采用传统基于均值自适应裁剪的关键词检出方法,对与具体实施方式七中相同的语料时长为53min的待检测语音信号进行关键词检出。
本实施方式的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线如图2中曲线2所示。
本实施方式的传统基于均值自适应裁剪的关键词检出方法对语料时长为53min的待检测语音信号的识别时间为34min2s,计算观察概率的时间为17min35s,识别时间比为64%。
由图1可见,具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的系统识别性能曲线与具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线几乎完全重合。
具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由传统基于均值自适应裁剪的关键词检出方法的64%降低到了49%,系统效率有了较大的提高。
具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下,提高了识别速度。
Claims (2)
1.基于分位数自适应裁剪的快速关键词检出方法,其特征在于基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
2.如权利要求1所述的基于分位数自适应裁剪的快速关键词检出方法,其特征在于步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sa),其中1<λ<3;
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102445311A CN102426836B (zh) | 2011-08-25 | 2011-08-25 | 基于分位数自适应裁剪的快速关键词检出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102445311A CN102426836B (zh) | 2011-08-25 | 2011-08-25 | 基于分位数自适应裁剪的快速关键词检出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102426836A CN102426836A (zh) | 2012-04-25 |
CN102426836B true CN102426836B (zh) | 2013-03-20 |
Family
ID=45960810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102445311A Active CN102426836B (zh) | 2011-08-25 | 2011-08-25 | 基于分位数自适应裁剪的快速关键词检出方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102426836B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105190746A (zh) * | 2013-05-07 | 2015-12-23 | 高通股份有限公司 | 用于检测目标关键词的方法和设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021408B (zh) * | 2012-12-04 | 2014-10-22 | 中国科学院自动化研究所 | 一种发音稳定段辅助的语音识别优化解码方法及装置 |
CN105869622B (zh) * | 2015-01-21 | 2020-01-17 | 上海羽扇智信息科技有限公司 | 中文热词检测方法和装置 |
CN106875936B (zh) * | 2017-04-18 | 2021-06-22 | 广州视源电子科技股份有限公司 | 语音识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
JP2004037797A (ja) * | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN101398820A (zh) * | 2007-09-24 | 2009-04-01 | 北京启明星辰信息技术有限公司 | 一种大规模关键词匹配方法 |
-
2011
- 2011-08-25 CN CN2011102445311A patent/CN102426836B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
JP2004037797A (ja) * | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN101398820A (zh) * | 2007-09-24 | 2009-04-01 | 北京启明星辰信息技术有限公司 | 一种大规模关键词匹配方法 |
Non-Patent Citations (2)
Title |
---|
基于相似度的文本聚类算法研究及应用;马素琴;《中国优秀硕士学位论文全文数据库》;20100702;全文 * |
马素琴.基于相似度的文本聚类算法研究及应用.《中国优秀硕士学位论文全文数据库》.2010,全文. |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105190746A (zh) * | 2013-05-07 | 2015-12-23 | 高通股份有限公司 | 用于检测目标关键词的方法和设备 |
CN105190746B (zh) * | 2013-05-07 | 2019-03-15 | 高通股份有限公司 | 用于检测目标关键词的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102426836A (zh) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816218B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
Yang et al. | Characterizing speech adversarial examples using self-attention u-net enhancement | |
Yu et al. | Densely Connected Time Delay Neural Network for Speaker Verification. | |
CN102332262B (zh) | 基于音频特征的歌曲智能识别方法 | |
CN109065030A (zh) | 基于卷积神经网络的环境声音识别方法及系统 | |
CN111276125B (zh) | 一种面向边缘计算的轻量级语音关键词识别方法 | |
CN102402984A (zh) | 基于置信度的关键词检出系统裁剪方法 | |
CN107967922A (zh) | 一种基于特征的音乐版权识别方法 | |
CN102426836B (zh) | 基于分位数自适应裁剪的快速关键词检出方法 | |
US9799333B2 (en) | System and method for processing speech to identify keywords or other information | |
CN107293306B (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN101477798A (zh) | 一种分析和提取设定场景的音频数据的方法 | |
Rajaratnam et al. | Isolated and ensemble audio preprocessing methods for detecting adversarial examples against automatic speech recognition | |
CN112035696B (zh) | 一种基于音频指纹的语音检索方法及系统 | |
Meyer et al. | Efficient convolutional neural network for audio event detection | |
Xie et al. | Algorithm of abnormal audio recognition based on improved MFCC | |
CN107871499A (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
CN110796027A (zh) | 一种基于紧密卷积的神经网络模型的声音场景识别方法 | |
CN103514877A (zh) | 振动信号特征参数提取方法 | |
CN113505826B (zh) | 基于联合特征选择的网络流量异常检测方法 | |
JPS59121100A (ja) | 連続音声認識装置 | |
Kharamat et al. | Durian ripeness classification from the knocking sounds using convolutional neural network | |
Ziabary et al. | A countermeasure based on cqt spectrogram for deepfake speech detection | |
CN116825131A (zh) | 融合频带自向下注意力机制的电厂设备状态听觉监测方法 | |
CN115331678A (zh) | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |