CN101154379A - 定位语音中的关键词的方法和设备以及语音识别系统 - Google Patents
定位语音中的关键词的方法和设备以及语音识别系统 Download PDFInfo
- Publication number
- CN101154379A CN101154379A CNA2006101527582A CN200610152758A CN101154379A CN 101154379 A CN101154379 A CN 101154379A CN A2006101527582 A CNA2006101527582 A CN A2006101527582A CN 200610152758 A CN200610152758 A CN 200610152758A CN 101154379 A CN101154379 A CN 101154379A
- Authority
- CN
- China
- Prior art keywords
- keyword
- track
- vector
- voice
- parameter vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 210
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000003860 storage Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 17
- 230000008878 coupling Effects 0.000 claims description 13
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 34
- 238000009826 distribution Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 230000008676 import Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了一种定位语音中的关键词的方法和设备以及语音识别系统。所述方法包括步骤:提取构成待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。利用本发明,由于基于同一码本来描述关键词模板轨迹和待识别语音的特征空间轨迹,所以在具有相同音韵特征结构的音频帧进行线性移动匹配时不需要重新刻度,这提高了定位和识别的速度,并同时保证了识别的精度。
Description
技术领域
本发明涉及一种用于定位语音中的关键词的方法和设备,以及语音识别系统,具体地讲,涉及一种基于语音特征空间轨迹匹配来对语音中的关键词进行定位的方法和设备,以及利用该设备的语音识别系统,能够提高定位和识别的速度,并同时保证识别的精度。
背景技术
近年来,越来越多的信息终端装置,例如PC(个人计算机)、PDA(个人数字助理)、移动电话和遥控器等具备了语音输入功能,从而允许使用者通过发出语音来输入命令或者输入关键词。也就是说,需要这样的信息终端装置能够从用户输入的未知语音串中识别出用户想要输入的关键词。因此,如何准确和快速地确定关键词的位置是语音识别技术中一个重要的问题。
文献1(‘变帧速率技术在语音识别中的应用’,孙放,胡光锐,虞晓,上海交通大学学报,第32卷,第8期,1998年8月)提出了将变帧速率技术应用于语音识别,用来丢弃那些特征非常相似的音频帧,从而达到快速识别输入语音的目的。在文献1中通过使用数学求导方法并定义合适的阈值,来进行语音特征的归并,进而获得具有音韵特征结构的语音特征矢量序列。但是上述阈值的设定非常困难,并且会直接影响到识别的精度。此外,文献1所提出的方法使用非线性匹配,因此需要在关键词识别过程中进行大量的计算。
文献2(‘KEYWORD SPOTTING METHOD BASED ON SPEECHFEATURE SPACE TRACE MATCHING’,Ya-dong Wu,Bao-long Liu,Proceedings of the Second Conference on Machine Learning andCybernetics,2003年11月2-5日)提出通过计算特征矢量空间中矢量之间的距离并定义合适的阈值来进行语音特征归并,进而获得具有音韵特征结构的语音特征矢量序列。但是,由于这种归并是针对特定说话人语音的,因此表征同一音韵特征的代表特征点本身含有很多说话人的特征信息,变动较大。这样,在后续匹配过程中,不得不对语音轨迹进行重新刻度才能进行识别,由此增加了识别的复杂度。并且,文献2的技术没有很好地解决重新刻度的问题,因此识别的精度也很难保证。此外,计算矢量间距离所需的计算量非常大,为进行特征归并而设定合适的阈值也非常困难,且这个阈值的设定直接影响到具有音韵结构特征的语音轨迹估计是否准确。这些原因导致后续的基于此语音特征空间轨迹的匹配准确度不高。
另外,在关键词模板建立方面,文献2的技术也是采用这种归并方法进行关键词语音特征空间轨迹估计,其中关键词内容是针对特定识别任务域设计的。具体来说,该关键词语音轨迹不是通过多种应用领域的语料训练而产生的,很难直接应用到非特定人领域。当任务域改变时,必须重新制作关键词语音模板。因此,在文献2的技术中,关键词语音轨迹模板不具有通用性,在实际应用中有一定困难。
由于上述的问题,文献1和文献2所提出的方法无法实际应用到信息终端装置中。因此,需要一种能够快速定位输入的语音中的关键词并且能够减小计算量的技术。
发明内容
鉴于现有技术的上述问题,完成了本发明。本发明的目的是提供一种基于语音特征空间轨迹匹配的、定位输入语音中的关键词的方法和设备,以及采用该设备的语音识别系统,能够提高定位和识别的速度,并同时保证识别的精度。
在本发明的一个方面,提出了一种定位待识别语音中的关键词的方法,包括步骤:提取构成所述待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。
此外,根据本发明的实施例,所述规整化步骤包括:从所述特征参数矢量序列中提取代表性特征参数矢量,来表征所述特征轨迹。
此外,根据本发明的实施例,所述提取代表性特征参数矢量的步骤包括步骤:在所述码本中搜索与所述特征参数矢量最接近的码本矢量;用搜索的码本矢量的编号表示所述特征参数矢量;对连续用相同的码本矢量表示的特征参数矢量进行合并,以表示所述特征轨迹。
此外,根据本发明的实施例,所述匹配步骤包括:利用各个关键词模板轨迹,针对每一轨迹帧,依次计算表示所述关键词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离,所述轨迹帧是所述特征轨迹的时域表示;确定所述距离中的最小值;以及将与所述最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置。
此外,根据本发明的实施例,所述特征参数矢量包括下面参数中的至少一个:倒谱参数、倒谱参数的能量值、倒谱参数的一阶导数、倒谱参数的二阶导数、能量值的一阶导数以及能量值的二阶导数。
此外,根据本发明的实施例,所述距离是用码本矢量距离表示的,所述码本矢量距离是码本中任意两个码本矢量之间的距离。
此外,根据本发明的实施例,所述码本矢量距离是以矩阵的形式预先存储的。
此外,所述关键词模板轨迹是基于所述码本而生成的。
此外,根据本发明的实施例,通过下面的步骤获得关键词模板轨迹:通过音节和音素模型之间的对应关系获得关键词的各个音节的音素名;通过音素模型和状态之间的对应关系获得关键词的各个状态,形成状态矢量;用所述码本中与状态矢量对应的编号表示音素模型的码本矢量序列编号;对连续用相同码本矢量编号表示的音素模型的码本矢量序列编号进行合并;以及顺序连接合并后的各个码本矢量序列编号,来得到关键词模板轨迹。
此外,根据本发明的实施例,通过下面的步骤获得关键词模板轨迹:对输入的关键词的音频帧进行切分,提取各个音频帧的特征参数矢量,以形成该关键词的特征参数矢量序列;以及通过用所述码本对特征参数矢量序列进行规整化处理,来产生表示所述关键词模板轨迹的模板矢量序列。
此外,根据本发明的实施例,所述码本是通过下面的步骤获得的:从基于隐马尔可夫模型的声学模型中提取描述各个音素模型的状态的统计参数,形成各个状态的特征矢量;以及通过用编号表示各个状态的特征矢量,来生成所述码本中的各个码本矢量。
此外,根据本发明的实施例,所述音素模型是通过多个应用领域的语料训练而生成的。
在本发明的另一个方面,提出了一种定位待识别语音中的关键词的设备,包括:特征提取装置,用于提取构成所述待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;规整化装置,用于利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及匹配装置,用于匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。
此外,根据本发明的实施例,所述规整化装置从所述特征参数矢量序列中提取代表性特征参数矢量,来表征所述特征轨迹。
此外,根据本发明的实施例,所述规整化装置在所述码本中搜索与所述特征参数矢量最接近的码本矢量,用搜索到的码本矢量的编号表示所述特征参数矢量,对连续用相同的码本矢量表示的特征参数矢量进行合并,以表示所述特征轨迹。
此外,根据本发明的实施例,所述匹配装置利用各个关键词模板轨迹,针对每一轨迹帧,依次计算表示所述关键词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离,以及确定所述距离中的最小值,并将最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置,所述轨迹帧是所述特征轨迹的时域表示。
在本发明的又一方面,提出了一种语音识别系统,它包括如上所述的设备;以及语音识别装置,用于基于所述设备所确定的关键词的位置识别关键词的内容。
此外,根据本发明的实施例,所述语音识别装置是基于隐马尔可夫模型而进行识别的。
利用本发明的方法和设备,由于基于同一码本来描述关键词模板轨迹和待识别的语音的特征空间轨迹,在具有相同音韵特征结构的音频帧进行线性移动匹配时,不需要重新刻度,从而降低了计算量,且提高了定位和识别的精度。
另外,由于通过预先存储的码本矢量距离来描述待识别语音的特征空间轨迹和关键词模板轨迹之间的距离,使得在匹配过程中计算待识别语音和模板语音之间的距离时,可以通过查找的方式来获得匹配结果,进一步减小了匹配所需的计算量,提高了定位和识别的精度。
另外,由于形成码本所需的音素模型是通过多个应用领域的语料训练而生成的,使得本发明的方案具有通用性。也就是可以应用在不同的领域。
另外,将本发明的关键词定位方法和设备与现有的基于HMM(隐马尔可夫模型)的语音识别系统相结合,可以避免HMM识别方法中难以建立废料模型的缺点,从而进一步提高了识别精度。
附图说明
通过下面结合附图对发明进行的详细描述,将使本发明的上述特征和优点更加明显,其中:
图1示出了根据本发明实施例的语音识别系统的构成框图;
图2是说明根据本发明实施例的状态特征码本生成过程和码本矢量距离矩阵生成过程的示意图;其中图2(A)示出了说明码本生成过程和码本矢量距离矩阵生成过程的流程图;图2(B)示出了说明状态特征码本的一个实例;
图3是说明本发明实施例的语音特征空间轨迹规整化过程的示意图,其中图3(A)示出了如何获得输入语音的特征矢量的示意图;图3(B)是获得的特征矢量在矢量空间中的示意图;图3(C)示出了如何对获得的特征矢量进行规整化的示意图;图3(D)是规整化的特征矢量在矢量空间中的示意图;
图4是用来说明根据本发明实施例的语音特征空间轨迹的生成过程的示意图;其中图4(A)示出了输入语音的特征矢量序列在矢量空间中的示意图;图4(B)示出了规整化的特征矢量序列在矢量空间中的示意图;图4(C)示出了用来说明语音特征空间轨迹生成过程的流程图;以及
图5是说明根据本发明实施例的基于语音特征空间轨迹匹配来定位输入语音中的关键词的过程的原理示意图;其中图5(A)示出了包括非关键词语音和关键词语音的一段语音波形;图5(B)示出了关键词语音和非关键词语音的特征矢量在矢量空间中的轨迹;图5(C)是用来说明关键词模板的轨迹与输入语音的轨迹进行线性移动匹配的过程的示意图;
图6是说明根据本发明实施例的关键词模板的生成过程的示意图;其中图6(A)示出了说明关键词模板生成过程的流程图;图6(B)示出了关键词模板生成过程的一个实例;以及
图7是说明根据本发明实施例的线性移动匹配过程的示意图。
具体实施方式
下面,参考附图详细说明本发明的优选实施方式。在附图中,相同的参考标记在不同的附图中表示相同的或相似的组件。为了清楚和简明,包含在这里的已知功能和结构的详细描述将被省略,以避免它们使本发明的主题不清楚。
图1示出了根据本发明实施例的语音识别系统的构成框图。如图1所示,本发明的语音识别系统包括:诸如麦克风之类的输入单元10,用于输入待识别的语音;与输入单元连接的关键词定位设备100,用于确定待识别语音中的关键词的位置;语音识别引擎80,与关键词定位设备100连接、用于基于关键词定位设备100所确定的关键词的位置对关键词进行识别;以及输出单元90,用于输出语音识别引擎80的识别结果。
如图1所示,根据本发明实施例的关键词定位设备100包括:特征提取单元20,与输入单元10连接,用于提取切分的语音帧的特征参数;诸如磁存储器或者半导体存储器之类的码本存储单元40,用于存储矢量量化码本;诸如磁存储器或者半导体存储器之类的距离矩阵存储单元50,用于以矩阵的形式存储码本中的码本矢量之间的距离;规整化单元30,根据码本存储单元40中存储的码本对特征提取单元20提取的特征参数所形成的各个特征参数矢量进行规整化,以得到待识别的语音在矢量空间中的特征轨迹;关键词模板轨迹库60,用于存储用户感兴趣的关键词在矢量空间中的轨迹;以及匹配单元70,根据距离矩阵存储单元50中存储的码本矢量之间的距离和关键词模板轨迹库60中存储的关键词模板轨迹,通过匹配关键词模板轨迹和待识别语音的特征轨迹,来确定关键词的位置。
在本发明实施例的语音识别系统中,利用诸如麦克风之类的语音输入单元10输入待识别的语音或者模板语音。当然,也可以从存储设备中直接获得预先记录的语音数据或者直接调用语音文件来输入语音。
特征提取单元20按照预定的参数配置,例如格式、采样频率、编码位数、声道类型、帧长、帧移以及特征参数类型等等,对输入的语音数据的各帧进行特征提取,以得到输入语音的特征参数矢量序列{V1,V2,.....VN},其中每个矢量Vi都是预定维数K的特征矢量,i=1,……,N。在本实施例中,特征提取单元20将输入的语音切分成音频帧,然后针对各个音频帧提取相应的特征参数,形成特征参数矢量。所提取的特征参数包括:倒谱参数、倒谱参数的能量值、倒谱参数的一阶导数、倒谱参数的二阶导数、能量值的一阶导数和能量值的二阶导数。这里所述的倒谱参数,是例如12维的FFT(快速傅立叶变换)倒谱参数。在这种情况下,特征参数矢量的维数K是39,具体如下:
倒谱参数:C1,C2,……,C12;
能量值:E;
倒谱参数的一阶导数:dC1,dC2,……,dC12;
倒谱参数的二阶导数:DC1,DC2,……,DC12;
能量值的一阶导数:dE;
能量值的二阶导数:DE。
在本实施例中,特征提取单元20所提取的特征参数矢量序列{V1,V2,.....VN}被输入到关键词定位设备100中的规整化单元30中,以估计该输入语音在矢量空间中的轨迹,并且对该轨迹进行规整化处理,输出该输入语音的特征轨迹,用于后续的匹配处理。规整化单元30利用码本存储单元40中预先存储的“码本”对特征参数矢量序列中的各个特征参数矢量进行矢量量化后,输出以特征矢量量化序列表示的、该输入语音在矢量空间的特征轨迹。这里,码本存储单元40中存储的是用HMM方法生成的特征参数的标准矢量,用于对输入的待量化矢量进行量化。
另外,距离矩阵存储单元50中存储了码本存储单元40中所存储的多个标准矢量(即码本矢量)中的任意两个码本矢量之间的距离,该码本矢量距离将被用来描述,在矢量空间中,模板语音的特征参数矢量与待识别语音的特征矢量之间的相似程度。
关键词模板轨迹库60中预先存储了以特征矢量量化序列表示的、用户感兴趣的关键词(即模板关键词)在矢量空间中的特征轨迹,该特征轨迹用于与输入的待识别语音的特征轨迹进行匹配。
规整化单元30把输入语音的规整化的特征矢量序列提供给匹配单元70。匹配单元70从关键词模板轨迹库60中依次取出各个关键词的模板轨迹,并沿着由规整化的特征参数矢量序列所表示的点在矢量空间中形成的轨迹(它表示待识别的语音在矢量空间中的特征轨迹),移动所取出的模板轨迹,逐个轨迹帧进行匹配操作。这里轨迹帧是规整化的语音帧,也就是与构成规整化的轨迹的各个特征矢量相对应的音频帧。在移动过程中,每移动一个轨迹帧,匹配单元70基于距离矩阵存储单元50中存储的码本矢量距离,通过求和运算来计算该关键词模板轨迹与待识别的语音在矢量空间中的特征轨迹之间的距离。在整个轨迹匹配结束之后,获得利用该关键词模板轨迹匹配得到的最小距离。然后匹配单元70针对存储的各个关键词执行上述的过程,得到了各个关键词模板轨迹与待识别的语音在矢量空间中的特征轨迹之间的相应最小距离。
接下来,匹配单元70通过比较确定这些针对各个关键词模板轨迹的最小距离中的最小值,并将与该最小值相对应的那个模板轨迹的关键词识别为候选关键词。应该指出,在不需要较高识别精度的情况下,匹配单元70也可以直接将该候选关键词识别为最终的关键词。
然后,匹配单元70将该候选关键词在矢量空间轨迹上的位置映射回时域中的相应音频帧中,从而能够确定该关键词在待识别语音中的位置。
这样,语音识别引擎80可以直接利用特征提取单元20提取的、已经定位的候选关键词位置处的待识别语音的特征参数,进行进一步识别,以得到最终的识别结果,即关键词的内容。在最终确定关键词内容时可以参考候选关键词结果。
最后,输出单元90根据语音识别引擎80的识别结果,输出识别的关键词的内容,例如将识别的关键词显示在屏幕上。
下面结合附图2~7详细说明上述各个单元中的具体操作过程。
图2是用来说明根据本发明实施例的状态特征码本生成过程和码本矢量距离矩阵生成过程的示意图;其中图2(A)示出了用来说明码本生成过程和码本矢量距离矩阵生成过程的流程图;图2(B)是用来说明状态特征码本的示意图。
码本是由矢量量化所用的标准矢量构成的集合。在本实施例中,码本的物理意义是用来描述HMM声学模型的状态特征。
码本矢量矩阵是保存了码本中任意两个码本矢量之间距离的二维数组,该码本和码本矢量矩阵被预先存储在诸如ROM(只读存储器)或者HD(硬盘)之类的存储器中。可以将码本和码本矢量矩阵分别存储在一个单独的存储器中,例如码本存储单元40和距离矩阵存储单元50,或者将它们存储在单个存储器的不同存储区域中。
在本实施例中,码本是在HMM声学模型的基础上生成的,具体的产生过程如下所述:
1)HMM声学模型是用HMM模型定义文件(hmmdefs)来描述的,各个音素模型的hmmdefs是通过多种应用领域的语料训练而得到的,hmmdefs的结构如下:
~h″iz2″ //声学模型名
<BEGINHMM>
<NUMSTATES>5 //状态数,5个,但只有2,3,4三个有效状态
<STATE>2 //状态编号
<NUMMIXES>6 //混合高斯分布数
<MIXTURE>11.250000e-001 //高斯分布编号及权重
<MEAN>39 //高斯分布的均值参数,39维
7.702041e+0006.226375e+000……2.910257e-001-8.276044e-002
<VARIANCE>39 //高斯分布的协方差参数,39维
7.258195e+0015.090110e+001……3.907018e-0012.388687e-002
......
<MIXTURE>61.250000e-001 //高斯分布编号及权重
<MEAN>39 //高斯分布的均值参数,39维
8.864381e-0015.187749e-001……-2.090234e-001-2.064035e-001
<VARIANCE>39 //高斯分布的协方差参数,39维
7.258195e+0015.090110e+001……3.907018e-0012.388687e-002
<STATE>3 //状态编号
<NUMMIXES>6 //混合高斯分布数,各高斯分布也用均值和协方差两个
//参数来描述
......
<STATE>4 //状态编号
<NUMMIXES>6 //混合高斯分布数,各高斯分布也用均值和协方差两个
//参数来描述
......
<TRANSP>5 //状态转移概率矩阵
0.000000e+000 1.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
0.000000e+000 6.800905e-001 3.199094e-001 0.000000e+000 0.000000e+000
0.000000e+000 0.000000e+000 6.435547e-001 3.564453e-001 0.000000e+000
0.000000e+000 0.000000e+000 0.000000e+000 5.890240e-001 4.109760e-001
0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
<ENDHMM>。
2)特征状态提取(S110),也就是,按照具体应用来提取形成码本所需的特征参数。HMM模型定义文件中存储了描述音素模型各状态的统计参数,包括高斯分布均值(39维)、协方差(39维)、权重和状态转移矩阵(描述音素模型中各状态间转移的概率,每个音素用5个状态来描述,故为5×5的矩阵)。在本实施例中,抽取了描述每个状态的6个高斯分布的均值参数部分(12维CEP),并根据各高斯分布的权重求取它们的算术平均,利用计算得到的均值平均值(12维CEP)作为表征该状态的码本特征参数。
然后,对所有状态进行编号,每个状态都有惟一确定的ID编号,例如图2(B)所示的1,2,……,M-1,M,它代表该状态的特征矢量,并用于生成状态特征码本。所生成的状态特征码本被存储在码本存储单元40中。码本中所含码本矢量的个数(M)定义为码本的大小。
此外,在生成上述HMM声学模型的过程中,还可以得到音节-音索模型对应表和音素模型名-状态名对应表。这里,状态名由构成码本矢量的各个状态的编号来表示,如上所述。
3)计算码本中任意两个状态特征矢量间的距离,得到M*M的码本矢量的距离矩阵MATRIX(S120),然后将其存储在距离矩阵存储单元50中。
图3是用来说明本发明实施例的语音特征空间轨迹的规整化过程的示意图,其中图3(A)示出了如何获得输入语音波形的特征矢量的示意图;图3(B)是获得的特征矢量在矢量空间中的示意图;图3(C)示出了如何对获得的特征矢量进行规整化的示意图;图3(D)是规整化的特征矢量在矢量空间中的示意图。
根据文献2,对同一字(词)音的两个特征矢量的时间序列X(tx)和R(tr),按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量的时间序列X’(s)和R’(s)具有对时间轴伸缩的不变性。这就是基于特征空间轨迹对语音进行时间轴规整的基本原理。由于经时间规整化后的特征矢量序列可采用线性匹配方式,故可大幅度地减少识别时的计算量。
在本实施例中,语音特征空间轨迹是基于HMM声学模型生成的。首先提取输入语音文件的基本特征参数,如图3(A)所示。
假设表示符号序列S1,S2和S3的连续音频信号(波形)经过分帧处理成为7个音频帧。针对这7个音频帧提取相应的特征参数,得到7个特征矢量Vi(1≤i≤7),以构成特征矢量序列,其中Vi是一个指定维数(K维)的特征矢量。
需要指出的是,本领域的普通技术人员应该理解,虽然在各附图中以三维矢量空间来表示上述的K维矢量空间,但是这仅仅是出于清楚演示本发明的目的,而不意味着上述的K维就是3维。
如图3(B)所示,这些特征序列Vi可以视作在K维空间上分布的坐标点,下面将其称为特征点。如果把这些特征点按照时间顺序连接起来(V1→V2→V3……→V6→V7),就可以得到在K维空间上的一条轨迹。从图3(B)可以看出,特征点V1与其他的特征点分开比较远,特征点V2和V3相距比较近,而特征点V4~V7大致散落在一个比较集中的范围内。
对语音特征空间轨迹进行规整化的关键在于如何准确地估计得到语音的特征空间轨迹。因为在实际应用中,语音中的各特征矢量在时间上是离散的,而且它除了要受到音速变化的影响之外,还将受到其它多种变动因素的影响,从而导致即使是同一音韵特征空间区域,该区域内的各帧的谱特性也将发生某些变动,其反映在语音特征空间中即为一簇相邻的特征点,对发音长的音韵,其簇中的特征点较多(V4,V5,V6,V7);对发音短的音韵,其簇中特征点较少(V2,V3)。如图3(B)所示,称同一音韵的特征点散布区域为准平稳区(Semi-stabilityArea),而称不同音韵的特征点散布区域为非平稳区(Non-stabilityArea)。为此,可以提取该簇特征点(矢量)中具有代表性的特征点来表征该音韵的特征,并以这些代表性的特征矢量(Fj,j=1,2,3)来估计语音轨迹。这里,特征矢量F1表示第一簇特征点中的代表性特征点,特征矢量F2表示第二簇特征点中的代表性特征点,而特征矢量F3表示第三簇特征点中的代表性特征点,如图3(D)所示。
另外,如图3(C)所示,音频帧1的特征参数由经过规整化的特征点(矢量)F1来表示,音频帧2和3的特征参数由同一个特征点(矢量)F2来表示,而音频帧4~7的特征参数由另一个特征点(矢量)F3来表示。
另外,为了提高语音特征轨迹估计的准确性,应该考虑:(1)对语音信号按较小的帧移(frame shift)周期分帧,以提高非平稳区域内特征点的密度。例如现有技术的帧移周期是20ms,而本实施例采用10ms或者8ms的帧移周期;(2)对散布在准平稳区域内的特征点进行一定的修剪,即保留其具有代表性的特征点,删除其余不必要的特征点。一种可选的修剪方法是依次计算特征点间的导数,将导数小于设定阀值的那些特征点作为同一个准平稳区的点,然后这些特征点的平均作为该准平稳区域的代表性特征点。另一种可选的修剪方法是计算各特征点间的矢量距离,将矢量距离小于设定阀值的那些特征点作为同一个准平稳区的点,然后将准平稳区域内的特征点的平均作为该准平稳区域的代表性特征点。又一种方法是对连续用相同码本矢量表示的特征矢量(点)帧进行压缩合并。将在下面描述这种方法。
图4是用来说明根据本发明实施例的待识别语音特征空间轨迹(特征矢量序列)的生成过程的示意图;图4(A)示出了输入语音的特征矢量序列在矢量空间中的示意图;图4(B)示出了规整化的特征矢量序列在矢量空间中的示意图;图4(C)示出了待识别语音的特征空间轨迹生成过程的流程图;
下面参照图4描述在对特征矢量进行压缩的情况下的特征矢量序列生成过程。考虑到前面提到的语音轨迹规整化过程中应该注意的两点,提出了基于HMM声学模型的、采用矢量量化来规整化输入语音的方法。
如图4(A)所示,输入待识别的语音(S210)。这里,假设输入的语音表示为:
Xi(t)=(X1(t),X2(t)......X6(t),X7(t)(i:音频帧号)
然后,对输入的语音进行特征提取操作(S220),以得到相同数量的特征矢量:
Vi(t)=(V1(t),V2(t),......V6(t),V7(t))(i:音频帧号)
对照之前生成的状态特征码本,规整化单元30搜索特征矢量在码本中最为匹配的码本矢量,并用该码本矢量的ID编号表示该特征矢量,并对连续用相同码失表示的特征矢量帧进行压缩合并(S230),规整化单元30输出得到的语音特征空间的VQ矢量(S240)。图4(B)示出了特征矢量是k=3个的情况:
Vj(t)=(ID1(t),ID2(t),......IDk-1(t),IDk(t))
其中,j=1,2,……,k,IDj表示码本矢量编号,k表示待识语音状态特征矢量的总数,通常情况下k小于音频帧的数目。
图5是用来说明根据本发明实施例的基于语音特征空间轨迹匹配过程的示意图;其中图5(A)示出了包括非关键词语音和关键词语音的一段语音波形;图5(B)示出了关键词语音和非关键词语音在矢量空间中的轨迹;图5(C)是用来说明关键词模板的轨迹与输入的语音的轨迹进行线性移动匹配的过程的示意图。
如图5(A)所示,通常情况下关键词的波形位于输入的待识别语音波形中的某个位置处。如图5(B)所示,输入的语音在矢量空间中的轨迹是一条连续的曲线,该曲线上大致位于中间部分的那一段是关键词语音在矢量空间中的轨迹。
如上所述,在已经知道了输入语音的特征轨迹的情况下,通过将关键词模板轨迹沿着输入语音的特征轨迹移动,来对二者进行匹配。同时,每移动与特征轨迹对应的时域信号中的一个音频帧,即轨迹帧,就通过线性加和模板轨迹上的特征点和与其对应的待识别语音的特征点间的距离来计算两个轨迹之间的距离,该距离表示该模板在此位置与待识别语音的空间轨迹的相似度。在该关键词模板轨迹匹配结束之后,得到针对该关键词模板轨迹的最小距离。然后针对不同的关键词模板轨迹来匹配所得到的各个最小距离。最后,从这些最小距离中找到最小值,将与该最小值所对应的关键词识别为候选关键词,进而将该候选关键词与输入语音的轨迹之间距离最小的那个位置映射回时域,得到该候选关键词所在的音频帧的帧号。
图6是用来说明根据本发明实施例的关键词模板的生成过程的示意图;其中图6(A)示出了用来说明关键词模板生成过程的流程图;
图6(B)示出了关键词模板生成过程的一个实例。
模板的输入可以分为语音输入和文本输入两种方式。然而,本发明不限于此,也可通过其它方式输入。下面以文本输入和语音输入为例具体描述如下:
【文本输入】
如图6(A)所示,输入输入关键词文本(S310),例如‘上海’。然后,进行音节切分和拼音转换操作,例如将‘上海’切分成‘上/海’,并且得到‘上’和‘海’的字符串表达式,即拼音‘shang4’和‘hai3’(S320),如图6(B)所示。
接下来,通过音节-音素模型名对应表可以得到shang4和hai3的音素表达方式,即音素模型名,分别为“sh a4 ng4”和“haa3”(S330),如图6(B)所示。
在得到关键词的音素名后,利用该音素名,在音素模型名-状态名对应表中搜索与该音素模型名相对应的状态名,得到组成音素的各模型的码本矢量编号(S240)。如图6(B)中,关键词“上海”的码本矢量序列编号为:3,6,9,9,8,1,……。
接下来,将这些编号按照它们在关键词中的原始顺序连接起来,并将连续用相同码本矢量表示的特征矢量帧进行压缩合并,就得到了关键词模板的轨迹。如图6(B),表示关键词“上海”的模板轨迹的特征矢量序列的编号包括:3,6,9,8,1,……,其中相同的两个编号‘9’被压缩为同一个编号。最后,将该关键词模板轨迹与该关键词相对应地存储在关键词模板轨迹库60中。
【语音输入】
对于语音形式输入的关键词,即语音波形,首先将其按音频帧进行切分,提取各个音频帧的特征参数矢量,以获得描述该语音波形的特征参数矢量序列。在矢量空间中,利用上述矢量量化码本的各个特征参数矢量进行规整化,输出由各个特征点(矢量)表示的特征矢量序列。同样,该特征矢量序列中的各个特征矢量的元素是状态编号。
图7是用来说明根据本发明实施例的轨迹移动匹配过程的示意图。
如图7所示,规整化单元30根据基于HMM声学模型矢量量化的规整化算法,对待识语音进行规整化并得到各自的特征矢量序列T’={T’m}(m=0,1,...,L),其中L为待识语音的轨迹总长度(S410)。
如上所述,模板语音w(w=1,2,...,W)事先被进行了规整化。并且,将得到的规整化的特征矢量序列X’w={X’n,w}(n=0,1,...,Lw)存储在关键词模板轨迹库60中,其中W为模板总个数,Lw为规整化后模板w的轨迹的总长度。
然后,将模板语音轨迹X’w从待识语音特征矢量序列{T’m}的第0轨迹帧(m=0)开始,逐帧和待识语音轨迹段Sm,m+Lw={T’m,T’m+1’....,T’m+Lw}∈{T’m}(m=0,1,...,L-Lw))做线性移动匹配,利用码矢距离矩阵MATRIX中存储的码本矢量距离,通过加和,记录每移动一轨迹帧时的匹配距离: 直至待识别语音轨迹的匹配终点(m=L-Lw)。然后,记录此模板语音w的轨迹与待识语音的轨迹之间的最小匹配距离 (S420)。
如果w<W,则对其余的关键词模板重复S420步骤,否则,从各模板的最小匹配距离Dm*,w(w=1,2,...,W)中取出最小值所对应的关键词 即检测出的待识别语音中含有的候选关键词w*(S430),并将w*对应特征点位置m*转换成时域中的原始音频帧编号,结束检测(S440)。
此外,在上述的实施例中,以码本矢量距离的和来表示匹配距离,但是,这不应该被看作是对本发明范围的限定,因为本领域的普通技术人员也可以采用诸如码本矢量距离的平方和、方根和或者范数和来表示。
如上所述,在匹配单元70确定了关键词的位置之后,语音识别引擎80利用特征提取单元20提取的、已经定位的候选关键词位置处的待识别语音的特征参数进行进一步识别,以获得最终的识别结果,即识别内容。在最终确定关键词内容时可以参考候选关键词结果。
另外,输出单元90根据语音识别引擎80的识别结果,输出识别的关键词的内容,例如将识别的关键词显示在屏幕上。
上面的描述仅用于实现本发明的实施方式,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均应该属于本发明的权利要求来限定的范围,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (18)
1.一种定位待识别语音中的关键词的方法,包括步骤:
提取构成所述待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;
利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及
匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。
2.如权利要求1所述的方法,其中,所述规整化步骤包括:
从所述特征参数矢量序列中提取代表性特征参数矢量,来表征所述特征轨迹。
3.如权利要求2所述的方法,其中,所述提取代表性特征参数矢量的步骤包括步骤:
在所述码本中搜索与所述特征参数矢量最接近的码本矢量;
用搜索的码本矢量的编号表示所述特征参数矢量;以及
对连续用相同的码本矢量表示的特征参数矢量进行合并,以表示所述特征轨迹。
4.如权利要求1到3之一所述的方法,其中,所述匹配步骤包括;
利用各个关键词模板轨迹,针对每一轨迹帧,依次计算表示所述关键词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离,所述轨迹帧是所述特征轨迹的时域表示;
确定所述距离中的最小值;以及
将与所述最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置。
5.如权利要求4所述的方法,其中,所述特征参数矢量包括下面参数中的至少一个:
倒谱参数、倒谱参数的能量值、倒谱参数的一阶导数、倒谱参数的二阶导数、能量值的一阶导数以及能量值的二阶导数。
6.如权利要求4所述的方法,其中,所述距离是用码本矢量距离表示的,所述码本矢量距离是所述码本中任意两个码本矢量之间的距离。
7.如权利要求6所述的方法,其中,所述码本矢量距离是以矩阵的形式预先存储的。
8.如权利要求1所述的方法,其中,所述关键词模板轨迹是基于所述码本而生成的。
9.如权利要求8所述的方法,其中,通过下面的步骤获得关键词模板轨迹:
通过音节和音素模型之间的对应关系获得关键词的各个音节的音素名;
通过音素模型和状态之间的对应关系获得关键词的各个状态,形成状态矢量;
用所述码本中与状态矢量对应的编号表示音素模型的码本矢量序列编号;
对连续用相同码本矢量编号表示的音素模型的码本矢量序列编号进行合并;以及
顺序连接合并后的各个码本矢量序列编号,来得到关键词模板轨迹。
10.如权利要求8所述的方法,其中,通过下面的步骤获得关键词模板轨迹:
对输入的关键词的音频帧进行切分,提取各个音频帧的特征参数矢量,以形成该关键词的特征参数矢量序列;以及
通过用所述码本对特征参数矢量序列进行规整化处理,来产生表示所述关键词模板轨迹的模板矢量序列。
11.如权利要求1所述的方法,其中,所述码本是通过下面的步骤获得的:
从基于隐马尔可夫模型的声学模型中提取描述各个音素模型的状态的统计参数,形成各个状态的特征矢量;以及
通过用编号表示各个状态的特征矢量,来生成所述码本中的各个码本矢量。
12.如权利要求11所述的方法,其中,所述音素模型是通过多个应用领域的语料训练而生成的。
13.一种定位待识别语音中的关键词的设备,包括:
特征提取装置,用于提取构成所述待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;
规整化装置,用于利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及
匹配装置,用于匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。
14.如权利要求13所述的设备,其中,所述规整化装置从所述特征参数矢量序列中提取代表性特征参数矢量,来表征所述特征轨迹。
15.如权利要求14所述的设备,其中,所述规整化装置在所述码本中搜索与所述特征参数矢量最接近的码本矢量,用搜索到的码本矢量的编号表示所述特征参数矢量,以及对连续用相同的码本矢量表示的特征参数矢量进行合并,以表示所述特征轨迹。
16.如权利要求13到15之一所述的设备,其中,所述匹配装置利用各个关键词模板轨迹,针对每一轨迹帧,依次计算表示所述关键词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离,以及确定所述距离中的最小值,并将最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置,所述轨迹帧是所述特征轨迹的时域表示。
17.一种语音识别系统,包括:
如权利要求13所述的设备;以及
语音识别装置,用于基于所述设备所确定的关键词的位置识别关键词的内容。
18.如权利要求17所述的语音识别系统,其中,所述语音识别装置是基于隐马尔可夫模型而进行识别的。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101527582A CN101154379B (zh) | 2006-09-27 | 2006-09-27 | 定位语音中的关键词的方法和设备以及语音识别系统 |
US12/443,063 US8255215B2 (en) | 2006-09-27 | 2007-09-27 | Method and apparatus for locating speech keyword and speech recognition system |
PCT/JP2007/069409 WO2008044582A1 (en) | 2006-09-27 | 2007-09-27 | Method and apparatus for locating speech keyword and speech recognition system |
JP2009528942A JP5059115B2 (ja) | 2006-09-27 | 2007-09-27 | 音声キーワードの特定方法、装置及び音声識別システム |
EP07829148A EP2070079A4 (en) | 2006-09-27 | 2007-09-27 | METHOD AND APPARATUS FOR LOCATING SPEECH KEYWORDS AND VOICE RECOGNITION SYSTEM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101527582A CN101154379B (zh) | 2006-09-27 | 2006-09-27 | 定位语音中的关键词的方法和设备以及语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101154379A true CN101154379A (zh) | 2008-04-02 |
CN101154379B CN101154379B (zh) | 2011-11-23 |
Family
ID=39255997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101527582A Expired - Fee Related CN101154379B (zh) | 2006-09-27 | 2006-09-27 | 定位语音中的关键词的方法和设备以及语音识别系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8255215B2 (zh) |
EP (1) | EP2070079A4 (zh) |
JP (1) | JP5059115B2 (zh) |
CN (1) | CN101154379B (zh) |
WO (1) | WO2008044582A1 (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841932A (zh) * | 2012-08-06 | 2012-12-26 | 河海大学 | 一种基于内容的音频语义特征相似度比较方法 |
CN103714813A (zh) * | 2012-10-05 | 2014-04-09 | 阿瓦亚公司 | 短语辨认系统和方法 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN103971676A (zh) * | 2014-04-23 | 2014-08-06 | 上海师范大学 | 一种快速语音孤立词识别算法及其用途、语音识别系统 |
CN104751856A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 一种语音语句识别方法及装置 |
WO2015103836A1 (zh) * | 2014-01-07 | 2015-07-16 | 深圳市中兴微电子技术有限公司 | 一种语音控制方法及装置 |
WO2016119604A1 (zh) * | 2015-01-26 | 2016-08-04 | 阿里巴巴集团控股有限公司 | 一种语音信息搜索方法、装置及服务器 |
CN105869622A (zh) * | 2015-01-21 | 2016-08-17 | 上海羽扇智信息科技有限公司 | 中文热词检测方法和装置 |
CN106847259A (zh) * | 2015-12-03 | 2017-06-13 | 中国科学院声学研究所 | 一种音频关键词模板的筛选和优化方法 |
WO2017206133A1 (zh) * | 2016-06-02 | 2017-12-07 | 深圳市智物联网络有限公司 | 语音识别方法及装置 |
CN109101484A (zh) * | 2018-07-06 | 2018-12-28 | 平安科技(深圳)有限公司 | 录音文件处理方法、装置、计算机设备及存储介质 |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
CN109643555A (zh) * | 2016-07-04 | 2019-04-16 | 哈曼贝克自动系统股份有限公司 | 自动校正包含语音信号的音频信号中的响度级 |
CN109753659A (zh) * | 2018-12-28 | 2019-05-14 | 北京猎户星空科技有限公司 | 语义处理方法、装置、电子设备和存储介质 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN112837680A (zh) * | 2019-11-25 | 2021-05-25 | 马上消费金融股份有限公司 | 音频关键词检索方法、智能外呼方法及相关装置 |
CN115132205A (zh) * | 2022-06-27 | 2022-09-30 | 杭州网易智企科技有限公司 | 关键词检测方法、装置、设备及存储介质 |
CN117786098A (zh) * | 2024-02-26 | 2024-03-29 | 深圳波洛斯科技有限公司 | 基于多模态大语言模型的电话录音摘要提取方法、装置 |
CN109669970B (zh) * | 2018-12-17 | 2024-04-12 | 南京东大智能化系统有限公司 | 一种基于关键词的数据挖掘方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8743125B2 (en) * | 2008-03-11 | 2014-06-03 | Sony Computer Entertainment Inc. | Method and apparatus for providing natural facial animation |
GB2463908B (en) * | 2008-09-29 | 2011-02-16 | Toshiba Res Europ Ltd | Speech recognition apparatus and method |
GB2463909B (en) * | 2008-09-29 | 2010-08-11 | Toshiba Res Europ Ltd | Speech recognition apparatus and method |
JP5446834B2 (ja) * | 2009-12-18 | 2014-03-19 | ソニー株式会社 | 撮像装置および撮像方法 |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
TWI500023B (zh) * | 2013-04-11 | 2015-09-11 | Univ Nat Central | 透過視覺的聽覺輔助裝置 |
CN104143328B (zh) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
US9942187B2 (en) | 2014-03-10 | 2018-04-10 | Harry Leonard Perper | Alert for messages “stuck” in a message queue within a messaging application |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
GB2533326A (en) * | 2014-12-16 | 2016-06-22 | Ibm | Electronic message redacting |
US10262654B2 (en) * | 2015-09-24 | 2019-04-16 | Microsoft Technology Licensing, Llc | Detecting actionable items in a conversation among participants |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
CN105488025B (zh) | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
CN107566980B (zh) * | 2017-10-27 | 2020-10-23 | 深圳市鹏京科技有限公司 | 一种移动终端的定位方法和移动终端 |
CN111373473B (zh) * | 2018-03-05 | 2023-10-20 | 华为技术有限公司 | 一种电子设备进行语音识别方法及电子设备 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
CN111666962B (zh) * | 2019-03-07 | 2024-05-21 | 京东科技控股股份有限公司 | 序列数据的目标定位方法和装置 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
CN111798840B (zh) * | 2020-07-16 | 2023-08-08 | 中移在线服务有限公司 | 语音关键词识别方法和装置 |
CN113658609B (zh) * | 2021-10-20 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 关键字匹配信息的确定方法、装置、电子设备和介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU586167B2 (en) * | 1984-05-25 | 1989-07-06 | Sony Corporation | Speech recognition method and apparatus thereof |
CA2015410C (en) * | 1989-05-17 | 1996-04-02 | Chin H. Lee | Speech recognition employing key word modeling and non-key word modeling |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JPH04343398A (ja) | 1991-05-21 | 1992-11-30 | N T T Data Tsushin Kk | 音声認識装置 |
JPH0561496A (ja) * | 1991-08-30 | 1993-03-12 | Sony Corp | 音声認識装置 |
US5199077A (en) | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JPH05249990A (ja) * | 1992-03-04 | 1993-09-28 | Sony Corp | パターンマッチング方法およびパターン認識装置 |
JPH06324699A (ja) | 1993-05-11 | 1994-11-25 | N T T Data Tsushin Kk | 連続音声認識装置 |
US6061652A (en) * | 1994-06-13 | 2000-05-09 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
JP2690027B2 (ja) | 1994-10-05 | 1997-12-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | パターン認識方法及び装置 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5822729A (en) * | 1996-06-05 | 1998-10-13 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
JP3039623B2 (ja) | 1996-10-28 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
US6148284A (en) * | 1998-02-23 | 2000-11-14 | At&T Corporation | Method and apparatus for automatic speech recognition using Markov processes on curves |
EP1076896B1 (de) * | 1998-05-15 | 2002-10-09 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur erkennung mindestens eines schlüsselworts in gesprochener sprache durch einen rechner |
US20020143540A1 (en) | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20040006470A1 (en) | 2002-07-03 | 2004-01-08 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
JP4167014B2 (ja) | 2002-07-03 | 2008-10-15 | パイオニア株式会社 | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
CN1190773C (zh) * | 2002-09-30 | 2005-02-23 | 中国科学院声学研究所 | 语音识别系统及用于语音识别系统的特征矢量集的压缩方法 |
US7684987B2 (en) * | 2004-01-21 | 2010-03-23 | Microsoft Corporation | Segmental tonal modeling for tonal languages |
-
2006
- 2006-09-27 CN CN2006101527582A patent/CN101154379B/zh not_active Expired - Fee Related
-
2007
- 2007-09-27 EP EP07829148A patent/EP2070079A4/en not_active Withdrawn
- 2007-09-27 JP JP2009528942A patent/JP5059115B2/ja not_active Expired - Fee Related
- 2007-09-27 US US12/443,063 patent/US8255215B2/en not_active Expired - Fee Related
- 2007-09-27 WO PCT/JP2007/069409 patent/WO2008044582A1/en active Application Filing
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841932A (zh) * | 2012-08-06 | 2012-12-26 | 河海大学 | 一种基于内容的音频语义特征相似度比较方法 |
CN103714813B (zh) * | 2012-10-05 | 2017-09-19 | 阿瓦亚公司 | 短语辨认系统和方法 |
CN103714813A (zh) * | 2012-10-05 | 2014-04-09 | 阿瓦亚公司 | 短语辨认系统和方法 |
US10229676B2 (en) | 2012-10-05 | 2019-03-12 | Avaya Inc. | Phrase spotting systems and methods |
CN104751856B (zh) * | 2013-12-31 | 2017-12-22 | 中国移动通信集团公司 | 一种语音语句识别方法及装置 |
CN104751856A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 一种语音语句识别方法及装置 |
WO2015103836A1 (zh) * | 2014-01-07 | 2015-07-16 | 深圳市中兴微电子技术有限公司 | 一种语音控制方法及装置 |
CN103971676A (zh) * | 2014-04-23 | 2014-08-06 | 上海师范大学 | 一种快速语音孤立词识别算法及其用途、语音识别系统 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN105869622A (zh) * | 2015-01-21 | 2016-08-17 | 上海羽扇智信息科技有限公司 | 中文热词检测方法和装置 |
CN105869622B (zh) * | 2015-01-21 | 2020-01-17 | 上海羽扇智信息科技有限公司 | 中文热词检测方法和装置 |
WO2016119604A1 (zh) * | 2015-01-26 | 2016-08-04 | 阿里巴巴集团控股有限公司 | 一种语音信息搜索方法、装置及服务器 |
CN105893389A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 一种语音信息搜索方法、装置及服务器 |
CN106847259A (zh) * | 2015-12-03 | 2017-06-13 | 中国科学院声学研究所 | 一种音频关键词模板的筛选和优化方法 |
CN106847259B (zh) * | 2015-12-03 | 2020-04-03 | 中国科学院声学研究所 | 一种音频关键词模板的筛选和优化方法 |
WO2017206133A1 (zh) * | 2016-06-02 | 2017-12-07 | 深圳市智物联网络有限公司 | 语音识别方法及装置 |
CN109643555A (zh) * | 2016-07-04 | 2019-04-16 | 哈曼贝克自动系统股份有限公司 | 自动校正包含语音信号的音频信号中的响度级 |
CN109643555B (zh) * | 2016-07-04 | 2024-01-30 | 哈曼贝克自动系统股份有限公司 | 自动校正包含语音信号的音频信号中的响度级 |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN109101484A (zh) * | 2018-07-06 | 2018-12-28 | 平安科技(深圳)有限公司 | 录音文件处理方法、装置、计算机设备及存储介质 |
CN109101484B (zh) * | 2018-07-06 | 2023-04-18 | 平安科技(深圳)有限公司 | 录音文件处理方法、装置、计算机设备及存储介质 |
CN109669970B (zh) * | 2018-12-17 | 2024-04-12 | 南京东大智能化系统有限公司 | 一种基于关键词的数据挖掘方法 |
CN109753659B (zh) * | 2018-12-28 | 2023-08-04 | 北京猎户星空科技有限公司 | 语义处理方法、装置、电子设备和存储介质 |
CN109753659A (zh) * | 2018-12-28 | 2019-05-14 | 北京猎户星空科技有限公司 | 语义处理方法、装置、电子设备和存储介质 |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN112837680A (zh) * | 2019-11-25 | 2021-05-25 | 马上消费金融股份有限公司 | 音频关键词检索方法、智能外呼方法及相关装置 |
CN115132205A (zh) * | 2022-06-27 | 2022-09-30 | 杭州网易智企科技有限公司 | 关键词检测方法、装置、设备及存储介质 |
CN115132205B (zh) * | 2022-06-27 | 2024-08-27 | 杭州网易智企科技有限公司 | 关键词检测方法、装置、设备及存储介质 |
CN117786098A (zh) * | 2024-02-26 | 2024-03-29 | 深圳波洛斯科技有限公司 | 基于多模态大语言模型的电话录音摘要提取方法、装置 |
CN117786098B (zh) * | 2024-02-26 | 2024-05-07 | 深圳波洛斯科技有限公司 | 基于多模态大语言模型的电话录音摘要提取方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2008044582A1 (en) | 2008-04-17 |
US8255215B2 (en) | 2012-08-28 |
JP2010504553A (ja) | 2010-02-12 |
CN101154379B (zh) | 2011-11-23 |
US20100094626A1 (en) | 2010-04-15 |
EP2070079A4 (en) | 2012-03-21 |
JP5059115B2 (ja) | 2012-10-24 |
EP2070079A1 (en) | 2009-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101154379B (zh) | 定位语音中的关键词的方法和设备以及语音识别系统 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
Zhou et al. | Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion | |
CN1121681C (zh) | 语言处理 | |
Sivaraman et al. | Unsupervised speaker adaptation for speaker independent acoustic to articulatory speech inversion | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
CN112634935A (zh) | 语音分离方法、装置、电子设备和可读存储介质 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN111488486B (zh) | 一种基于多音源分离的电子音乐分类方法及系统 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
US8140334B2 (en) | Apparatus and method for recognizing voice | |
Euler et al. | Statistical segmentation and word modeling techniques in isolated word recognition | |
Akila et al. | Isolated Tamil word speech recognition system using HTK | |
Thalengala et al. | Study of sub-word acoustical models for Kannada isolated word recognition system | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition | |
Yu et al. | A Multi-Stage Ensembled-Learning Approach for Signal Classification Based on Deep CNN and LGBM Models. | |
Sidiq et al. | Design and implementation of voice command using MFCC and HMMs method | |
Koniaris et al. | Auditory-model based robust feature selection for speech recognition | |
Ananthakrishna et al. | Effect of time-domain windowing on isolated speech recognition system performance | |
Hagiwara et al. | ISPA: Inter-Species Phonetic Alphabet for Transcribing Animal Sounds | |
Wang et al. | Transfer learning based DNN-HMM hybrid system for rare sound event detection | |
Soumeya et al. | Weighting schemes based discriminative model combination technique for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111123 Termination date: 20160927 |
|
CF01 | Termination of patent right due to non-payment of annual fee |