CN101120397B - 语音识别系统、语音识别方法 - Google Patents
语音识别系统、语音识别方法 Download PDFInfo
- Publication number
- CN101120397B CN101120397B CN2006800024298A CN200680002429A CN101120397B CN 101120397 B CN101120397 B CN 101120397B CN 2006800024298 A CN2006800024298 A CN 2006800024298A CN 200680002429 A CN200680002429 A CN 200680002429A CN 101120397 B CN101120397 B CN 101120397B
- Authority
- CN
- China
- Prior art keywords
- buffer
- distance value
- unit
- predicted value
- contrast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 12
- 239000000872 buffer Substances 0.000 claims abstract description 258
- 238000004364 calculation method Methods 0.000 claims description 95
- 238000012545 processing Methods 0.000 abstract description 53
- 238000013500 data storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000345998 Calamus manan Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 235000012950 rattan cane Nutrition 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
通过对多路径语音识别的各路径进行并行处理,而能高速地进行语音识别。距离计算单元(111),将与语音特征量的时间序列数据相关的帧同步的所有声音模型和各帧的距离值写入到距离值缓存器(141)中。预测单元(121),从多个距离值缓存器(144~142)接收距离值,来计算各识别单位的优劣即预测值后,写入到预测值缓存器(142)中。单词串对照单元(131)从多个距离值缓存器(145)、预测值缓存器(153)~距离值缓存器(143)以及预测值缓存器(152)中接收信息,一边利用预测值适当选择取舍对照单词,一边帧同步地识别发声整体,生成识别结果。
Description
技术领域
本发明涉及适用于例如高精度且高速的大语量连续的语音识别(LargeVocabulary Continuous Speech Recognition:LVCSR)的语音识别系统、语音识别方法以及语音识别程序。
背景技术
如非专利文献1所述,近年来想要实现高精度且高速的LVCSR的试验越来越盛行。在该LVCSR中,由于搜索空间非常大,因此搜索算法的设计很重要。在该搜索算法中,广泛采用在搜索的过程中不仅考虑网格(trellis)上的节点的累计分数而且考虑该节点之后的累计分数(的推定值)的“预测”的方法。将该技术相关的语音识别系统作为第一现有例,在图5中表示。以下,基于该附图进行说明。
第一现有例的语音识别系统700由数据处理装置710以及数据存储装置720构成。数据存储装置720具备语音缓存器721和预测值缓存器722,其中语音缓存器721存储有多帧的语音,预测值缓存器722保存有对存储在语音缓存器721中的语音进行与语音相反的方向的处理后作成的语音的预测值。数据处理装置710具备距离计算/预测单元711和距离计算/单词串(word string)对照单元712,该距离计算/预测单元711作成上述预测值后,将其保存到预测值缓存器722中,距离计算/单词串对照单元712利用语音缓存器721以及预测值缓存器722的各值来进行通常的单词对照处理。
语音识别系统700按照以下那样工作。首先,距离计算/预测单元711如下那样工作。等待直到所输入的语音特征量的时间序列数据被存储到语音缓存器721为止,之后与时间逆序地对该语音进行处理,作成对各帧的预测值,将其存储到预测值缓存器722中。对语音缓存器721的处理结束 后,对距离计算/单词串对照单元712通知该情况。接下来,距离计算/单词串对照单元712如下那样工作。参照语音缓存器721以及预测值缓存器722来进行连续单词对照,并且语音缓存器721以及预测值缓冲器722内的处理结束后,向距离计算/预测单元711通知该情况。之后,距离计算/预测单元711再次等待直到语音缓存器721中存储数据为止,反复进行同样的处理。连续单词对照结果被保持在距离计算/单词串对照单元712内,在对所有的语音特征量进行了处理后的时刻输出结果。
接下来,在图6中表示专利文献1中所记载的语音识别系统作为第二现有例。以下,基于该附图进行说明。
第二现有例的语音识别系统800具有由分析部801、多个单词电平处理器821~823和多个句子电平处理器861、862所构成的三级处理部。通过语音识别系统800,各单词电平处理器821~823以及各句子电平处理器861、862与输入到分析部801的语音信号同步地进行输入输出,即进行并行处理,与所有处理由单一的处理器进行相比,能够使处理高速化。另外,804为数据传输部,807为传输指示部,808为优先顺序变更部,831、832、833、851、852为FIFO。
非专利文献1:“大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討(用于大语量连续语音识别的基于音素图的假设限制法的研究)”情報処理学会論文誌(信息处理学会论文集vol.40),No.41999年4月、堀贵明、冈直生、加藤正治、伊藤彰典、好田正纪。
专利文献1:特开平4-232998号公报“音声認識装置(语音识别装置)”。
但是,第一现有例的问题在于,以一个处理单元逐次地进行处理,因此面向嵌入式的低功率CPU的识别速度不足。如第二现有例那样用多个处理单元进行处理,则能够期待高速化,但在第二现有例中以帧同步地进行处理为前提。因此,在包括需要将多个帧储存在缓存器中后,与时间逆序地进行处理的这种预测处理的第一现有例中,不能直接组合第二现有例的技术。
发明内容
在此,本发明的目的在于,提供一种通过实现相当于第一现有例的语音识别系统的并行化从而可进行更高速的识别的语音识别系统等。
图7表示作为本发明的前提的语音识别系统。以下,基于图7进行说明。该语音识别系统900由数据处理装置910以及数据存储装置920构成。数据处理装置910具有距离计算单元911、只进行预测的预测单元912和只进行单词对照的单词对照单元913。数据存储装置920具有可容纳多个帧的距离值缓存器921以及预测值缓存器922各一个。距离计算单元911,计算对所有声音模型的距离值,在后级的预测单元912以及单词串对照单元913中不重新进行距离计算。但是,在这种语音识别系统900中,如图8的时间图所示,只能同时进行一个处理。
在此,本发明相关的语音识别系统的特征在于,具备:距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果。由此,由于三个单元能够并行地执行处理,因此可进行高速的语音识别。
例如,也可分别具备多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算单元所生成的距离值,所述预测值缓存器储存有由所述预测单元所生成的预测值,所述各距离值缓存器,由所述距离计算单元写入所述距离值,之后由所述预测单元读出所述距离值,之后由所述单词串对照单元读出所述距离值,所述各预测值缓存器由所述预测单元写入所述预测值,之后由所述单词串对照单元读出所述预测值,被所述距离计算单元写入有所述距离值的所述距离值缓存器、被所述预测单元读出所述距离值的所述距离值缓存器、以及被所述单词串对照单元读出所述距离值的所述距离值缓存器分别不同,并且被所述预测单元写入有所述预测值的所述预测值缓存器和被所述单词串对照单元读出所述预测值的所述预测值缓存器分别不同。
此外,所述距离计算单元还具备缓存器长度决定单元,其按照使所述 距离计算单元、所述预测单元以及所述单词对照单元的处理量均匀的方式,决定所述距离值缓存器或所述预测值缓存器的缓存器长度。此时,通过缓存器长度决定单元,决定相对于速度最优的缓存器长度,因此识别速度提高。
进一步,可以还具备缓存器管理单元,其对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作进行监视,在所述距离计算单元,不再向所述距离值缓存器中写入所述距离值时,且所述预测单元以及所述单词串对照单元从所述距离值缓存器读出了所有所述距离值时,并且所述预测单元不再向所述预测值缓存器中写入所述预测值时,且所述单词串对照单元从所述预测值缓存器读出了所有所述预测值时,将所述距离计算单元在写入时采用的所述距离值缓存器用于所述预测单元的下一次读出,将所述预测单元在读出时采用的所述距离值缓存器用于所述单词串对照单元的下一次读出,将所述单词串对照单元的读出时采用的所述距离值缓存器用于所述距离计算单元的下一次写入,将所述预测单元在写入时采用的所述预测值缓存器用于所述单词串对照单元的下一次读出,将所述单词串对照单元的读出时采用的所述预测值缓存器用于所述预测单元的下一次写入。此时,能以最小限的缓存器数目得到本发明的效果。
本发明相关的语音识别方法的特征在于,具备:距离计算步骤,生成依次输入的语音特征量和各声音模型之间的距离值;预测步骤,与该距离计算步骤中的所述距离值的生成并行,采用由该距离计算步骤已生成的距离值来生成预测值;和单词串对照步骤,其与所述距离计算步骤中的所述距离值的生成以及所述预测步骤中的所述预测值的生成并行,采用由所述距离计算步骤已生成的距离值以及由所述预测步骤已生成的预测值来进行单词对照,生成识别结果。
本发明相关的语音识别程序的特征在于,让构成语音识别系统的计算机执行下述功能:生成依次输入的语音特征量和各声音模型之间的距离值;在继续生成所述距离值时,采用已生成的距离值来生成预测值;在继续生成所述距离值时以及继续生成所述预测值时,采用已经生成的距离值以及已经生成的预测值进行单词对照,生成识别结果。
进一步,本发明的第一语音识别系统,在共享存储器上分别具有多个 能够容纳多帧的预测值缓存器以及距离值缓存器,此外具有进行距离计算、预测以及语音识别的各单元,在上述三个单元中,可进行以能够容纳多帧的缓存器为单位的成批处理(batch)的三个并行处理。此外,本发明的第二语音识别系统,除了第一语音识别系统之外,还具有缓存器长度决定单元。该缓存器长度决定单元,与距离计算、预测以及语音识别单元进行通信,决定距离计算、预测以及语音识别单元中所采用的缓存器的长度。
也可为以还具备距离计算单元、预测单元和单词串对照单元,上述三个单元并行动作为特征的语音识别系统。此外,也可为具有下述特征的下述语音识别系统,即具备多个距离值缓存器和预测值缓存器,在距离计算单元、预测单元以及单词串对照单元中采用不同的缓存器,将处理结束的缓存器从距离计算处理向预测处理转移,从预测处理向单词对照处理转移,从而进行并行处理。此外,也可为具有下述特征的语音识别系统,即具有缓存器长度决定单元,其与距离计算单元、预测单元以及单词对照单元进行通信,来决定缓存器长度。
发明效果
通过本发明,通过执行生成依次输入的语音特征量和各声音模型之间的距离值的处理、采用已生成的距离值来生成预测值的处理和采用已生成的距离值以及已生成的预测值来进行单词对照,生成识别结果的处理,能够并行地执行多个处理,因此能够提高语音的识别速度。
附图说明
图1为表示本发明相关的语音识别系统的第一实施方式的框图。
图2为表示图1的语音识别系统的动作的时序图。
图3为表示本发明相关的语音识别系统的第二实施方式的框图。
图4为表示本发明相关的语音识别系统的第三实施方式的框图。
图5为表示语音识别系统的第一现有例的框图。
图6为表示语音识别系统的第二现有例的框图。
图7为表示成为本发明的前提的语音识别系统的框图。
图8为表示图7的语音识别系统的动作的时序图。
图中:100、200、300-语音识别系统;110、120、130、210、310、 320、330、340-数据处理装置;140、350-数据存储装置;141、142、143、144、145-距离值缓存器;151、152、153-预测值缓存器;111、311-距离计算单元;121、321-预测单元;131、331-单词串对照单元;211-缓存器长度决定单元;341-缓存器管理单元。
具体实施方式
图1为表示本发明相关的语音识别系统的第一实施方式的框图。以下,基于附图进行说明。
本实施方式的语音识别系统100的特征在于具备距离计算单元111、预测单元121以及单词串对照单元131。距离计算单元111生成依次输入的语音特征量和各声音模型之间的距离值。预测单元121在距离计算单元111生成距离值时,采用由距离计算单元111已生成的距离值来生成预测值。单词串对照单元131在距离计算单元111生成距离值时以及预测单元121生成预测值时,采用距离计算单元111已生成的距离值以及预测单元121已生成的预测值进行单词对照而生成识别结果。由此,由于三个单元并行地执行处理,因此可进行高速的语音识别。
此外,语音识别系统100具备储存由距离计算单元111生成的距离值的多个距离值缓存器141~145和储存由预测单元121生成的预测值的多个预测值缓存器151~153。各距离值缓存器141~145由距离计算单元111写入距离值,之后由预测单元121读出距离值,之后由单词串对照单元131读出距离值。各预测值缓存器151~153由预测单元121写入预测值,之后由单词串对照单元131读出预测值。每次,距离计算单元111写入距离值的距离值缓存器141、预测单元121读出距离值的距离值缓存器142和单词串对照单元131读出距离值的距离值缓存器143分别不同。预测单元121写入预测值的预测值缓存器151和单词串对照单元131读出预测值的预测值缓存器152分别不同。
下面更详细地进行说明。本实施方式的语音识别系统100包括通过程序控制进行动作的数据处理装置110、120、130和存储有信息的数据存储装置140。数据处理装置110、120、130分别具有不同的处理器,因此可进行并行处理。另外,如果采用可进行并行处理的处理器,则也可将数据 处理装置合并为一个装置。
数据存储装置140具备距离值缓存器141、142、143、预测值缓存器151、152、0个以上的距离值缓存器144、0个以上的距离值缓存器145和0个以上的预测值缓存器153。距离值缓存器145的缓存数目和预测值缓存器153的缓存数目相同。距离值缓存器141~145为与某帧区间的语音对应的缓存器,保存有各声音模型相对在各帧输入的语音特征量的距离值。预测值缓存器151~153为与某帧区间的语音及其距离值对应的缓存器,保持有在各帧中相对从该帧以后的声音信息开始计算的各识别单位的优劣即预测值。
数据处理装置110具备距离计算单元111,数据处理装置120具备预测单元121,数据处理装置130具备单词串对照单元131。距离计算单元111对所输入的语音特征量的时间序列的各帧,计算其声音特征量和各语音模型之间的距离值后,写入距离值缓存器141中。预测单元121从距离值缓存器142读出距离值,对该距离值缓存器142内的各帧的各识别单位,计算其优劣信息即预测值后,写入到预测值缓存器151中。单词串对照单元13 1从距离值缓存器143以及预测值缓存器152读出同帧中的距离值以及预测值,一边采用各识别单位的预测值对对照单词进行适当取舍选择,一边帧同步地进行单词对照,生成对其发声整体的识别结果。
图2为表示语音识别系统100的动作的时序图。以下,基于图1以及图2对语音识别系统100的动作进行说明。
在处理开始时,距离计算单元111将距离值缓存器141确保在数据存储装置140内(图2中(1))。接下来,作为分析结束的语音即声音特征量的时间序列数据被供给到距离计算单元111。于是,距离计算单元111与所输入的声音时间序列同步地计算距离值后,将其写入距离值缓存器141。在距离值缓存器141存满时,将其加入多个距离值缓存器144的末尾,重新将距离值缓冲器141确保在数据存储装置140内后,继续处理。
在被提供有距离值缓存器142时,预测单元121从距离值缓存器142取出各帧的距离值,对各帧的各识别单位计算预测值后,将其写入预测值缓存器151中。在预测值缓存器151存满时,将距离值缓存器142追加到多个距离值缓存器145的末尾,并且将预测值缓存器151追加到多个预测 值缓存器153的末尾。在这种情况以及动作刚刚开始之后,不提供距离值缓存器142以及预测值缓存器151。因此,从多个距离值缓存器144取出开头的缓存器作为距离值缓存器142,重新将预测值缓存器15 1确保到数据存储装置140内后,继续处理。
由此,如图2的距离值缓存器(1)(2)(3)(4)所示,由距离值计算单元111处理的距离值缓存器,按照该顺序由预测单元121进行处理。在图2中,A、B、C、D分别为与距离值缓存器(1)(2)(3)(4)对应的预测值缓存器。
在距离值缓存器143以及预测值缓存器152被提供时,单词串对照单元131从距离值缓存器143以及预测值缓存器152取出各帧的距离值和各识别单位的预测值,一边采用预测值对对照单词进行适当取舍选择,一边与帧同步地进行单词对照,生成一次发声的识别结果。在对距离值缓存器143内以及预测值缓存器152内的所有的帧进行了处理后时,距离值缓存器143以及预测值缓存器152释放存储器。此时以及动作刚刚开始之后,由于没有被提供距离值缓存器143以及预测值缓存器152,因此从多个距离值缓存器145以及多个预测值缓存器153取出开头的缓存器(在图2中(1)和A、(2)和B、(3)和C、(4)和D)分别作为距离值缓存器143以及预测值缓存器152后,继续处理。此时,如果没有可取出的缓存器,则为发声终止,因此将到此为止的识别结果作为最终的语音识别结果输出。
通过本实施方式的语音识别系统100,三个处理单元即距离计算单元111、预测单元121以及单词串对照单元131能够独立地并行进行处理,因此与第一现有例的语音识别系统相比,语音识别速度提高。
此外,本实施方式的语音识别系统100,能够归纳如下。距离计算单元111接收语音特征量的时间序列数据,帧同步地计算所有声音模型和各帧之间的距离值后,写入到距离值缓存器141中。在距离值缓存器141存满时,将其追加到等待向预测单元121传送的多个距离值缓存器144的末尾。预测单元121从多个距离值缓存器144接收距离值缓存器142,在各帧中计算各识别单位的优劣即预测值后,写入到预测值缓存器151。在预测值缓存器151存满时,将其分别追加到等待向距离计算单元131传送的 多个距离值缓存器145以及预测值缓存器153的末尾。单词串对照单元131从多个距离值缓存器145以及预测值缓存器153接收距离值缓存器143以及预测值缓存器152,一边利用预测值对对照单词进行适当取舍选择,一边帧同步地识别发声整体,生成识别结果。由此,通过对多路径语音识别的各路径进行并行处理,能高速地进行语音识别。
图3为表示本发明相关的语音识别系统的第二实施方式的框图。以下,基于该附图进行说明。其中,与图1相同的部分付与相同的符号,并省略说明。
本实施方式的语音识别装置200的特征在于具备缓存器长度决定单元211。缓存器长度决定单元211按照距离计算单元111、预测单元121以及单词对照单元131的处理量均匀的方式决定距离值缓存器141~145或预测值缓存器151~153的缓存器长度。通过本实施方式,通过缓存器长度决定单元211来决定相对于速度来说最佳的缓存器长度,因此识别速度提高。
以下进行更详细的说明。语音识别装置200的不同点在于,数据处理装置210除了图1的数据处理装置110的结构之外,还具有缓存器长度决定单元211。缓存器长度决定单元211与距离计算单元111、预测单元121以及单词串对照单元131进行通信,来计算最佳缓存器长度。例如在预测单元121以及单词串对照单元131的任一个中的每一个缓存器的执行时间和距离计算单元131的每一个缓存器的执行时间之差为某值以上时,将缓存器长度拉长该延迟量。距离计算单元111从缓存器长度决定单元211接收缓存器长度,在不舍去已计算完成的距离值的范围内使所接收的时刻之后的距离值缓存器的长度接近上述缓存器长度。上述之外的动作与第一实施方式相同。
接下来,对本实施方式的效果进行说明。在有预测单元121的情况下,通过拉长一缓存器的长度,从而预测处理的速度也提高,预测精度也提高。因此,单词串对照单元131的速度也提高。在本实施方式中,在预测单元121以及单词串对照单元131中发生了处理延迟时,通过从最上游的距离计算单元111拉长缓存器长度,从而预测单元121以及单词串对照单元131也被高速化,因此能使三个处理单元的处理量更均匀化。
图4为表示本发明相关的语音识别系统的第三实施方式的框图。以下基于该附图进行说明。其中,对与图1相同的部分付与相同的符号,从而省略说明。
本实施方式的语音识别系统300的特征在于具备缓存器管理单元341。缓存器管理单元341对距离计算单元311、预测单元321以及单词串对照单元331的动作进行监视,当距离计算单元311不再向距离值缓存器141写入距离值时并且预测单元321以及单词串对照单元331从距离值缓存器142、143读出了全部距离值时,且预测单元321不再向预测值缓存器151写入预测值时并且单词串对照单元331从预测值缓存器152读出了全部预测值时,将距离值缓存器141用于预测单元321的下一次读出,将距离值缓存器142用于单词串对照单元331的下一次读出,将距离值缓存器143用于距离计算单元311的下一次写入,将预测值缓存器151用于单词串对照单元331的下一次读出,将预测值缓存器152用于预测单元321的下一次写入。通过本实施方式,能够以最小限度的缓存器数目得到本发明的效果。
以下进行更详细的说明。语音识别系统300包括通过程序控制而动作的数据处理装置310、320、330、340和存储有信息的数据存储装置350。
数据存储装置350具备距离值缓存器141、142、143和预测值缓存器151、152。距离值缓存器141、142、143为与某帧区间的语音对应的缓存器,保存有各声音模型相对在各帧输入的语音特征量的距离值。预测值缓存器151、152为与某帧区间的语音及其距离值对应的缓存器,在各帧中保持有相对根据该帧以后的声音信息所计算出的各识别单位的优劣即预测值。
数据处理装置310具备距离计算单元311,数据处理装置320具备预测单元321,数据处理装置330具备单词串对照单元331,数据处理装置340具备缓存器管理单元341。距离计算单元331对于所输入的语音特征量的时间序列的各帧,计算该语音特征量和各声音模型的距离值,并将其写入到距离值缓存器141中。预测单元321从距离值缓存器142读出距离值,对该缓存器内的各帧的各识别单位,计算其优劣信息即预测值,并将上述预测值写入到预测值缓存器151中。单词串对照单元331从距离值缓 存器143以及预测值缓存器152读出相同帧中的距离值以及预测值,一边采用各识别单位的预测值来适当取舍选择对照单词,一边帧同步地进行单词对照,生成对该发声全体的识别结果。
接下来,对语音识别系统300的动作进行说明。分析结束的语音即声音特征量的时间序列数据被供给到距离计算单元311。距离计算单元311与所输入的声音时间序列同步地计算距离值后,将其写入到距离值缓存器141中。在距离值缓存器141存满时,进入等待状态。在被提供距离值缓存器142时,预测单元321从距离值缓存器142取出各帧的距离值,对各帧的各识别单位计算预测值后,写入到预测值缓存器151。在预测值缓存器151存满时,进入等待状态。
在被提供距离值缓存器143以及预测值缓存器152时,单词串对照单元331从距离值缓存器143以及预测值缓存器152取出各帧的距离值和各识别单位的预测值,一边采用预测值对对照单词进行适当取舍选择,一边帧同步地进行单词对照,生成一次发声的识别结果。在处理过距离值缓存器143以及预测值缓存器152内的所有帧后时,进入等待状态。
缓存器管理单元341,对距离计算单元311、预测单元321以及单词串对照单元33 1的状态进行监视,在全部进入等待状态时,将距离值缓存器141移动到距离值缓存器142,将距离值缓存器142移动到距离值缓存器143,将距离值缓存器143移动到距离值缓存器141,将预测值缓存器151与预测值缓存器152互相替换,之后,解除距离计算单元331、预测单元321以及单词串对照单元331的等待状态。
如果所处理的数据在距离值缓存器143以及预测值缓存器152内不存在,则为发声终止,因此单词串对照单元331将到此为止的识别结果作为最终的语音识别结果输出。
通过本实施方式的语音识别系统300,能够以三个处理单元即距离计算单元311、预测单元321以及单词串对照单元331独立地并行进行处理,因此与第一现有例的语音识别系统相比,语音识别速度提高。
本发明通过参照所例举的实施方式进行了具体的说明,但本发明并不限于这些实施方式。本领域技术人员应该可以理解只要在不超出本发明的精神和通过权利要求所定义的范围内,本发明可作出各种形式和细节的变 更。
本申请基于2005年1月17日提出的日本专利申请No.2005-008542的优先申请而提出,本申请参考并合并了其所公开的所有内容。
Claims (6)
1.一种语音识别系统,具备:
距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;
预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和
单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果,
该语音识别系统分别具备多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算单元所生成的距离值,所述预测值缓存器储存有由所述预测单元所生成的预测值,
所述各距离值缓存器,进行写入来自所述距离计算单元的所述距离值、将所述距离值读出到所述预测单元以及将所述距离值读出到所述单词串对照单元的动作,
所述各预测值缓存器,进行写入来自所述预测单元的所述预测值以及将所述预测值读出到所述单词串对照单元的动作,
被写入来自所述距离计算单元的所述距离值的所述距离值缓存器、将所述距离值读出到所述预测单元的所述距离值缓存器和将所述距离值读出到所述单词串对照单元的所述距离值缓存器,在任何时刻均分别不同,
并且,被写入来自所述预测单元的所述预测值的所述预测值缓存器和将所述预测值读出到所述单词串对照单元的所述预测值缓存器分别不同。
2.根据权利要求1所述的语音识别系统,其特征在于,
还具备缓存器长度决定单元,其按照使得所述距离计算单元、所述预测单元以及所述单词对照单元的处理量均匀的方式,决定所述距离值缓存器或所述预测值缓存器的缓存器长度。
3.根据权利要求1所述的语音识别系统,其特征在于,
具备缓存器管理单元,
所述缓存器管理单元具有下述功能:
对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作进行监视;
以所述距离计算单元,不需要再向所述距离值缓存器中写入所述距离值,且所述预测单元以及所述单词串对照单元从所述距离值缓存器读出了所有所述距离值,并且所述预测单元不需要再向所述预测值缓存器中写入所述预测值,且所述单词串对照单元从所述预测值缓存器读出了所有所述预测值作为条件,按照下述那样动作:使所述距离计算单元在写入时采用的所述距离值缓存器用于所述预测单元的下一次读出,使所述预测单元在读出时采用的所述距离值缓存器用于所述单词串对照单元的下一次读出,使所述单词串对照单元的读出时采用的所述距离值缓存器用于所述距离计算单元的下一次写入,使所述预测单元在写入时采用的所述预测值缓存器用于所述单词串对照单元的下一次读出,使所述单词串对照单元的读出时采用的所述预测值缓存器用于所述预测单元的下一次写入。
4.一种语音识别方法,具备:
距离计算步骤,生成依次输入的语音特征量和各声音模型之间的距离值;
预测步骤,与该距离计算步骤中的所述距离值的生成并行,采用由该距离计算步骤已生成的距离值来生成预测值;和
单词串对照步骤,其与所述距离计算步骤中的所述距离值的生成以及所述预测步骤中的所述预测值的生成并行,采用由所述距离计算步骤已生成的距离值以及由所述预测步骤已生成的预测值来进行单词对照,生成识别结果,
该语音识别方法分别采用多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算步骤所生成的距离值,所述预测值缓存器储存有由所述预测步骤所生成的预测值,
对所述距离值缓存器,并行运行所述距离计算步骤中的所述距离值的写入、所述预测步骤中的所述距离值的读出和所述单词串对照步骤中的所述距离值的读出,
对所述预测值缓存器,并行运行所述预测步骤中的所述预测值的写入和所述单词串对照步骤中的所述预测值的读出,
使由所述距离计算步骤写入所述距离值的所述距离值缓存器、由所述预测步骤读出所述距离值的所述距离值缓存器和由所述单词串对照步骤读出所述距离值的所述距离值缓存器不同,并且,使由所述预测步骤写入所述预测值的所述预测值缓存器和由所述单词串对照步骤读出所述预测值的所述预测值缓存器,在任何时刻均分别不同。
5.根据权利要求4所述的语音识别方法,其特征在于,
按照使所述距离计算步骤、所述预测步骤以及所述单词对照步骤的处理量均匀的方式,来决定所述距离值缓存器或所述预测值缓存器的缓存器长度。
6.根据权利要求4所述的语音识别方法,其特征在于,
还具备缓存器管理步骤,对所述距离计算步骤、所述预测步骤以及所述单词串对照步骤的动作进行监视,
在所述缓存器管理步骤中,
以不需要再在所述距离计算步骤中向所述距离值缓存器中写入所述距离值,且在所述预测步骤以及所述单词串对照步骤中从所述距离值缓存器读出了所有所述距离值时,并且不需要再在所述预测步骤向所述预测值缓存器中写入所述预测值,且在所述单词串对照步骤中从所述预测值缓存器读出了全部所述预测值作为条件,
按照下述那样动作:使由所述距离计算步骤在写入时采用的所述距离值缓存器用于所述预测步骤中的下一次读出,使由所述预测步骤在读出时采用的所述距离值缓存器用于所述单词串对照步骤中的下一次读出,使由所述单词串对照步骤在读出时采用的所述距离值缓存器用于所述距离计算步骤中的下一次写入,使由所述预测步骤在写入时采用的所述预测值缓存器用于所述单词串对照步骤中的下一次读出,使由所述单词串对照步骤在读出时采用的所述预测值缓存器用于所述预测步骤中的下一次写入。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP008542/2005 | 2005-01-17 | ||
JP2005008542 | 2005-01-17 | ||
PCT/JP2006/300269 WO2006075648A1 (ja) | 2005-01-17 | 2006-01-12 | 音声認識システム、音声認識方法及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101120397A CN101120397A (zh) | 2008-02-06 |
CN101120397B true CN101120397B (zh) | 2011-08-17 |
Family
ID=36677673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800024298A Expired - Fee Related CN101120397B (zh) | 2005-01-17 | 2006-01-12 | 语音识别系统、语音识别方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7930180B2 (zh) |
EP (1) | EP1852847A4 (zh) |
JP (1) | JP5103907B2 (zh) |
CN (1) | CN101120397B (zh) |
WO (1) | WO2006075648A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4940057B2 (ja) * | 2007-08-17 | 2012-05-30 | 株式会社東芝 | 音声認識装置及びその方法 |
US9785613B2 (en) * | 2011-12-19 | 2017-10-10 | Cypress Semiconductor Corporation | Acoustic processing unit interface for determining senone scores using a greater clock frequency than that corresponding to received audio |
KR20140028174A (ko) * | 2012-07-13 | 2014-03-10 | 삼성전자주식회사 | 음성 인식 방법 및 이를 적용한 전자 장치 |
US9196250B2 (en) * | 2012-11-16 | 2015-11-24 | 2236008 Ontario Inc. | Application services interface to ASR |
CN110335621A (zh) * | 2019-05-28 | 2019-10-15 | 深圳追一科技有限公司 | 音频处理的方法、系统及相关设备 |
WO2021033889A1 (en) | 2019-08-20 | 2021-02-25 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device |
CN111933146B (zh) * | 2020-10-13 | 2021-02-02 | 苏州思必驰信息科技有限公司 | 语音识别系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6442520B1 (en) * | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
CN1503220A (zh) * | 2002-11-20 | 2004-06-09 | 中国科学院声学研究所 | 一种语音识别中的并行搜索方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2595495B2 (ja) * | 1982-09-03 | 1997-04-02 | 日本電気株式会社 | パタンマッチング装置 |
JPS59223499A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素認識装置 |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
JPS63208138A (ja) | 1987-02-25 | 1988-08-29 | Hitachi Ltd | デ−タベ−スのバツフア割当て管理方式 |
US4989249A (en) * | 1987-05-29 | 1991-01-29 | Sanyo Electric Co., Ltd. | Method of feature determination and extraction and recognition of voice and apparatus therefore |
JP2554747B2 (ja) | 1989-07-12 | 1996-11-13 | 松下電器産業株式会社 | 空調機器における室外ユニット |
JPH04232998A (ja) | 1990-12-27 | 1992-08-21 | Nec Corp | 音声認識装置 |
JPH06214595A (ja) | 1993-01-20 | 1994-08-05 | Asahi Chem Ind Co Ltd | 音声認識方法 |
JP3011001B2 (ja) | 1993-12-28 | 2000-02-21 | 日本電気株式会社 | バッファ制御システム |
JP3226716B2 (ja) | 1994-05-31 | 2001-11-05 | 日本電気株式会社 | 音声認識装置 |
US6249761B1 (en) | 1997-09-30 | 2001-06-19 | At&T Corp. | Assigning and processing states and arcs of a speech recognition model in parallel processors |
JP2000206984A (ja) | 1999-01-20 | 2000-07-28 | Mitsubishi Electric Corp | 音声認識装置 |
JP3893911B2 (ja) | 2001-07-12 | 2007-03-14 | 日本電気株式会社 | 音声認識システム |
CA2359544A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time speech recognition system using an oversampled filterbank |
GB2384901B (en) * | 2002-02-04 | 2004-04-21 | Zentian Ltd | Speech recognition circuit using parallel processors |
DE602004011545T2 (de) * | 2003-10-03 | 2009-01-08 | Asahi Kasei Kabushiki Kaisha | Datenverarbeitungseinrichtung und datenverarbeitungseinrichtungssteuerprogramm |
-
2006
- 2006-01-12 US US11/793,806 patent/US7930180B2/en not_active Expired - Fee Related
- 2006-01-12 JP JP2006552956A patent/JP5103907B2/ja active Active
- 2006-01-12 CN CN2006800024298A patent/CN101120397B/zh not_active Expired - Fee Related
- 2006-01-12 EP EP06711592A patent/EP1852847A4/en not_active Withdrawn
- 2006-01-12 WO PCT/JP2006/300269 patent/WO2006075648A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6442520B1 (en) * | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
CN1503220A (zh) * | 2002-11-20 | 2004-06-09 | 中国科学院声学研究所 | 一种语音识别中的并行搜索方法 |
Non-Patent Citations (4)
Title |
---|
JP特开2003-29781A 2003.01.31 |
JP特开平4-232998A 1992.08.21 |
JP特开平7-200372A 1995.08.04 |
s. Ortmanns et al,.Look-ahead techniques for fast beam search.《1997 International Conference on Acoustics Speech and Signal Processing》.1997,第3卷1783-1786. * |
Also Published As
Publication number | Publication date |
---|---|
CN101120397A (zh) | 2008-02-06 |
JP5103907B2 (ja) | 2012-12-19 |
EP1852847A1 (en) | 2007-11-07 |
US20080133237A1 (en) | 2008-06-05 |
JPWO2006075648A1 (ja) | 2008-08-07 |
EP1852847A4 (en) | 2008-05-21 |
WO2006075648A1 (ja) | 2006-07-20 |
US7930180B2 (en) | 2011-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101120397B (zh) | 语音识别系统、语音识别方法 | |
US20050159952A1 (en) | Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access | |
KR20040078595A (ko) | 블록 동기 디코딩 | |
US6735588B2 (en) | Information search method and apparatus using Inverse Hidden Markov Model | |
US7634457B2 (en) | Function-based index tuning for queries with expressions | |
US7908275B2 (en) | Method and apparatus for fast audio search | |
US5073939A (en) | Dynamic time warping (DTW) apparatus for use in speech recognition systems | |
JP6138148B2 (ja) | 演算論理ユニットアーキテクチャ | |
US8886535B2 (en) | Utilizing multiple processing units for rapid training of hidden markov models | |
Lin et al. | A 1000-word vocabulary, speaker-independent, continuous live-mode speech recognizer implemented in a single FPGA | |
Yazdani et al. | The dark side of DNN pruning | |
You et al. | Parallel scalability in speech recognition | |
EP3709229A1 (en) | Learning device and learning method | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
Dixon et al. | Harnessing graphics processors for the fast computation of acoustic likelihoods in speech recognition | |
Yu et al. | GPU-accelerated HMM for speech recognition | |
Lin et al. | A multi-FPGA 10x-real-time high-speed search engine for a 5000-word vocabulary speech recognizer | |
CN111552652B (zh) | 基于人工智能芯片的数据处理方法、装置和存储介质 | |
WO2019045945A1 (en) | METHOD AND APPARATUS FOR PREDICTING LOAD VALUES | |
Li et al. | An experimental study on deep learning based on different hardware configurations | |
CN116244072A (zh) | 一种针对栅栏同步的gpgpu微架构系统 | |
Buthpitiya et al. | A parallel implementation of viterbi training for acoustic models using graphics processing units | |
Choi et al. | FPGA-based implementation of a real-time 5000-word continuous speech recognizer | |
CN113986703A (zh) | 芯片流水线划分中定位流水线瓶颈的系统及应用 | |
Ling et al. | Fast modeling DRAM access latency based on the LLC memory stride distribution without detailed simulations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110817 Termination date: 20220112 |