CN101120397B - 语音识别系统、语音识别方法 - Google Patents

语音识别系统、语音识别方法 Download PDF

Info

Publication number
CN101120397B
CN101120397B CN2006800024298A CN200680002429A CN101120397B CN 101120397 B CN101120397 B CN 101120397B CN 2006800024298 A CN2006800024298 A CN 2006800024298A CN 200680002429 A CN200680002429 A CN 200680002429A CN 101120397 B CN101120397 B CN 101120397B
Authority
CN
China
Prior art keywords
buffer
distance value
unit
predicted value
contrast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800024298A
Other languages
English (en)
Other versions
CN101120397A (zh
Inventor
石川晋也
山端洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101120397A publication Critical patent/CN101120397A/zh
Application granted granted Critical
Publication of CN101120397B publication Critical patent/CN101120397B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

通过对多路径语音识别的各路径进行并行处理,而能高速地进行语音识别。距离计算单元(111),将与语音特征量的时间序列数据相关的帧同步的所有声音模型和各帧的距离值写入到距离值缓存器(141)中。预测单元(121),从多个距离值缓存器(144~142)接收距离值,来计算各识别单位的优劣即预测值后,写入到预测值缓存器(142)中。单词串对照单元(131)从多个距离值缓存器(145)、预测值缓存器(153)~距离值缓存器(143)以及预测值缓存器(152)中接收信息,一边利用预测值适当选择取舍对照单词,一边帧同步地识别发声整体,生成识别结果。

Description

语音识别系统、语音识别方法
技术领域
本发明涉及适用于例如高精度且高速的大语量连续的语音识别(LargeVocabulary Continuous Speech Recognition:LVCSR)的语音识别系统、语音识别方法以及语音识别程序。
背景技术
如非专利文献1所述,近年来想要实现高精度且高速的LVCSR的试验越来越盛行。在该LVCSR中,由于搜索空间非常大,因此搜索算法的设计很重要。在该搜索算法中,广泛采用在搜索的过程中不仅考虑网格(trellis)上的节点的累计分数而且考虑该节点之后的累计分数(的推定值)的“预测”的方法。将该技术相关的语音识别系统作为第一现有例,在图5中表示。以下,基于该附图进行说明。
第一现有例的语音识别系统700由数据处理装置710以及数据存储装置720构成。数据存储装置720具备语音缓存器721和预测值缓存器722,其中语音缓存器721存储有多帧的语音,预测值缓存器722保存有对存储在语音缓存器721中的语音进行与语音相反的方向的处理后作成的语音的预测值。数据处理装置710具备距离计算/预测单元711和距离计算/单词串(word string)对照单元712,该距离计算/预测单元711作成上述预测值后,将其保存到预测值缓存器722中,距离计算/单词串对照单元712利用语音缓存器721以及预测值缓存器722的各值来进行通常的单词对照处理。
语音识别系统700按照以下那样工作。首先,距离计算/预测单元711如下那样工作。等待直到所输入的语音特征量的时间序列数据被存储到语音缓存器721为止,之后与时间逆序地对该语音进行处理,作成对各帧的预测值,将其存储到预测值缓存器722中。对语音缓存器721的处理结束 后,对距离计算/单词串对照单元712通知该情况。接下来,距离计算/单词串对照单元712如下那样工作。参照语音缓存器721以及预测值缓存器722来进行连续单词对照,并且语音缓存器721以及预测值缓冲器722内的处理结束后,向距离计算/预测单元711通知该情况。之后,距离计算/预测单元711再次等待直到语音缓存器721中存储数据为止,反复进行同样的处理。连续单词对照结果被保持在距离计算/单词串对照单元712内,在对所有的语音特征量进行了处理后的时刻输出结果。
接下来,在图6中表示专利文献1中所记载的语音识别系统作为第二现有例。以下,基于该附图进行说明。
第二现有例的语音识别系统800具有由分析部801、多个单词电平处理器821~823和多个句子电平处理器861、862所构成的三级处理部。通过语音识别系统800,各单词电平处理器821~823以及各句子电平处理器861、862与输入到分析部801的语音信号同步地进行输入输出,即进行并行处理,与所有处理由单一的处理器进行相比,能够使处理高速化。另外,804为数据传输部,807为传输指示部,808为优先顺序变更部,831、832、833、851、852为FIFO。
非专利文献1:“大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討(用于大语量连续语音识别的基于音素图的假设限制法的研究)”情報処理学会論文誌(信息处理学会论文集vol.40),No.41999年4月、堀贵明、冈直生、加藤正治、伊藤彰典、好田正纪。
专利文献1:特开平4-232998号公报“音声認識装置(语音识别装置)”。
但是,第一现有例的问题在于,以一个处理单元逐次地进行处理,因此面向嵌入式的低功率CPU的识别速度不足。如第二现有例那样用多个处理单元进行处理,则能够期待高速化,但在第二现有例中以帧同步地进行处理为前提。因此,在包括需要将多个帧储存在缓存器中后,与时间逆序地进行处理的这种预测处理的第一现有例中,不能直接组合第二现有例的技术。
发明内容
在此,本发明的目的在于,提供一种通过实现相当于第一现有例的语音识别系统的并行化从而可进行更高速的识别的语音识别系统等。
图7表示作为本发明的前提的语音识别系统。以下,基于图7进行说明。该语音识别系统900由数据处理装置910以及数据存储装置920构成。数据处理装置910具有距离计算单元911、只进行预测的预测单元912和只进行单词对照的单词对照单元913。数据存储装置920具有可容纳多个帧的距离值缓存器921以及预测值缓存器922各一个。距离计算单元911,计算对所有声音模型的距离值,在后级的预测单元912以及单词串对照单元913中不重新进行距离计算。但是,在这种语音识别系统900中,如图8的时间图所示,只能同时进行一个处理。
在此,本发明相关的语音识别系统的特征在于,具备:距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果。由此,由于三个单元能够并行地执行处理,因此可进行高速的语音识别。
例如,也可分别具备多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算单元所生成的距离值,所述预测值缓存器储存有由所述预测单元所生成的预测值,所述各距离值缓存器,由所述距离计算单元写入所述距离值,之后由所述预测单元读出所述距离值,之后由所述单词串对照单元读出所述距离值,所述各预测值缓存器由所述预测单元写入所述预测值,之后由所述单词串对照单元读出所述预测值,被所述距离计算单元写入有所述距离值的所述距离值缓存器、被所述预测单元读出所述距离值的所述距离值缓存器、以及被所述单词串对照单元读出所述距离值的所述距离值缓存器分别不同,并且被所述预测单元写入有所述预测值的所述预测值缓存器和被所述单词串对照单元读出所述预测值的所述预测值缓存器分别不同。
此外,所述距离计算单元还具备缓存器长度决定单元,其按照使所述 距离计算单元、所述预测单元以及所述单词对照单元的处理量均匀的方式,决定所述距离值缓存器或所述预测值缓存器的缓存器长度。此时,通过缓存器长度决定单元,决定相对于速度最优的缓存器长度,因此识别速度提高。
进一步,可以还具备缓存器管理单元,其对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作进行监视,在所述距离计算单元,不再向所述距离值缓存器中写入所述距离值时,且所述预测单元以及所述单词串对照单元从所述距离值缓存器读出了所有所述距离值时,并且所述预测单元不再向所述预测值缓存器中写入所述预测值时,且所述单词串对照单元从所述预测值缓存器读出了所有所述预测值时,将所述距离计算单元在写入时采用的所述距离值缓存器用于所述预测单元的下一次读出,将所述预测单元在读出时采用的所述距离值缓存器用于所述单词串对照单元的下一次读出,将所述单词串对照单元的读出时采用的所述距离值缓存器用于所述距离计算单元的下一次写入,将所述预测单元在写入时采用的所述预测值缓存器用于所述单词串对照单元的下一次读出,将所述单词串对照单元的读出时采用的所述预测值缓存器用于所述预测单元的下一次写入。此时,能以最小限的缓存器数目得到本发明的效果。
本发明相关的语音识别方法的特征在于,具备:距离计算步骤,生成依次输入的语音特征量和各声音模型之间的距离值;预测步骤,与该距离计算步骤中的所述距离值的生成并行,采用由该距离计算步骤已生成的距离值来生成预测值;和单词串对照步骤,其与所述距离计算步骤中的所述距离值的生成以及所述预测步骤中的所述预测值的生成并行,采用由所述距离计算步骤已生成的距离值以及由所述预测步骤已生成的预测值来进行单词对照,生成识别结果。
本发明相关的语音识别程序的特征在于,让构成语音识别系统的计算机执行下述功能:生成依次输入的语音特征量和各声音模型之间的距离值;在继续生成所述距离值时,采用已生成的距离值来生成预测值;在继续生成所述距离值时以及继续生成所述预测值时,采用已经生成的距离值以及已经生成的预测值进行单词对照,生成识别结果。
进一步,本发明的第一语音识别系统,在共享存储器上分别具有多个 能够容纳多帧的预测值缓存器以及距离值缓存器,此外具有进行距离计算、预测以及语音识别的各单元,在上述三个单元中,可进行以能够容纳多帧的缓存器为单位的成批处理(batch)的三个并行处理。此外,本发明的第二语音识别系统,除了第一语音识别系统之外,还具有缓存器长度决定单元。该缓存器长度决定单元,与距离计算、预测以及语音识别单元进行通信,决定距离计算、预测以及语音识别单元中所采用的缓存器的长度。
也可为以还具备距离计算单元、预测单元和单词串对照单元,上述三个单元并行动作为特征的语音识别系统。此外,也可为具有下述特征的下述语音识别系统,即具备多个距离值缓存器和预测值缓存器,在距离计算单元、预测单元以及单词串对照单元中采用不同的缓存器,将处理结束的缓存器从距离计算处理向预测处理转移,从预测处理向单词对照处理转移,从而进行并行处理。此外,也可为具有下述特征的语音识别系统,即具有缓存器长度决定单元,其与距离计算单元、预测单元以及单词对照单元进行通信,来决定缓存器长度。
发明效果
通过本发明,通过执行生成依次输入的语音特征量和各声音模型之间的距离值的处理、采用已生成的距离值来生成预测值的处理和采用已生成的距离值以及已生成的预测值来进行单词对照,生成识别结果的处理,能够并行地执行多个处理,因此能够提高语音的识别速度。
附图说明
图1为表示本发明相关的语音识别系统的第一实施方式的框图。
图2为表示图1的语音识别系统的动作的时序图。
图3为表示本发明相关的语音识别系统的第二实施方式的框图。
图4为表示本发明相关的语音识别系统的第三实施方式的框图。
图5为表示语音识别系统的第一现有例的框图。
图6为表示语音识别系统的第二现有例的框图。
图7为表示成为本发明的前提的语音识别系统的框图。
图8为表示图7的语音识别系统的动作的时序图。
图中:100、200、300-语音识别系统;110、120、130、210、310、 320、330、340-数据处理装置;140、350-数据存储装置;141、142、143、144、145-距离值缓存器;151、152、153-预测值缓存器;111、311-距离计算单元;121、321-预测单元;131、331-单词串对照单元;211-缓存器长度决定单元;341-缓存器管理单元。
具体实施方式
图1为表示本发明相关的语音识别系统的第一实施方式的框图。以下,基于附图进行说明。
本实施方式的语音识别系统100的特征在于具备距离计算单元111、预测单元121以及单词串对照单元131。距离计算单元111生成依次输入的语音特征量和各声音模型之间的距离值。预测单元121在距离计算单元111生成距离值时,采用由距离计算单元111已生成的距离值来生成预测值。单词串对照单元131在距离计算单元111生成距离值时以及预测单元121生成预测值时,采用距离计算单元111已生成的距离值以及预测单元121已生成的预测值进行单词对照而生成识别结果。由此,由于三个单元并行地执行处理,因此可进行高速的语音识别。
此外,语音识别系统100具备储存由距离计算单元111生成的距离值的多个距离值缓存器141~145和储存由预测单元121生成的预测值的多个预测值缓存器151~153。各距离值缓存器141~145由距离计算单元111写入距离值,之后由预测单元121读出距离值,之后由单词串对照单元131读出距离值。各预测值缓存器151~153由预测单元121写入预测值,之后由单词串对照单元131读出预测值。每次,距离计算单元111写入距离值的距离值缓存器141、预测单元121读出距离值的距离值缓存器142和单词串对照单元131读出距离值的距离值缓存器143分别不同。预测单元121写入预测值的预测值缓存器151和单词串对照单元131读出预测值的预测值缓存器152分别不同。
下面更详细地进行说明。本实施方式的语音识别系统100包括通过程序控制进行动作的数据处理装置110、120、130和存储有信息的数据存储装置140。数据处理装置110、120、130分别具有不同的处理器,因此可进行并行处理。另外,如果采用可进行并行处理的处理器,则也可将数据 处理装置合并为一个装置。
数据存储装置140具备距离值缓存器141、142、143、预测值缓存器151、152、0个以上的距离值缓存器144、0个以上的距离值缓存器145和0个以上的预测值缓存器153。距离值缓存器145的缓存数目和预测值缓存器153的缓存数目相同。距离值缓存器141~145为与某帧区间的语音对应的缓存器,保存有各声音模型相对在各帧输入的语音特征量的距离值。预测值缓存器151~153为与某帧区间的语音及其距离值对应的缓存器,保持有在各帧中相对从该帧以后的声音信息开始计算的各识别单位的优劣即预测值。
数据处理装置110具备距离计算单元111,数据处理装置120具备预测单元121,数据处理装置130具备单词串对照单元131。距离计算单元111对所输入的语音特征量的时间序列的各帧,计算其声音特征量和各语音模型之间的距离值后,写入距离值缓存器141中。预测单元121从距离值缓存器142读出距离值,对该距离值缓存器142内的各帧的各识别单位,计算其优劣信息即预测值后,写入到预测值缓存器151中。单词串对照单元13 1从距离值缓存器143以及预测值缓存器152读出同帧中的距离值以及预测值,一边采用各识别单位的预测值对对照单词进行适当取舍选择,一边帧同步地进行单词对照,生成对其发声整体的识别结果。
图2为表示语音识别系统100的动作的时序图。以下,基于图1以及图2对语音识别系统100的动作进行说明。
在处理开始时,距离计算单元111将距离值缓存器141确保在数据存储装置140内(图2中(1))。接下来,作为分析结束的语音即声音特征量的时间序列数据被供给到距离计算单元111。于是,距离计算单元111与所输入的声音时间序列同步地计算距离值后,将其写入距离值缓存器141。在距离值缓存器141存满时,将其加入多个距离值缓存器144的末尾,重新将距离值缓冲器141确保在数据存储装置140内后,继续处理。
在被提供有距离值缓存器142时,预测单元121从距离值缓存器142取出各帧的距离值,对各帧的各识别单位计算预测值后,将其写入预测值缓存器151中。在预测值缓存器151存满时,将距离值缓存器142追加到多个距离值缓存器145的末尾,并且将预测值缓存器151追加到多个预测 值缓存器153的末尾。在这种情况以及动作刚刚开始之后,不提供距离值缓存器142以及预测值缓存器151。因此,从多个距离值缓存器144取出开头的缓存器作为距离值缓存器142,重新将预测值缓存器15 1确保到数据存储装置140内后,继续处理。
由此,如图2的距离值缓存器(1)(2)(3)(4)所示,由距离值计算单元111处理的距离值缓存器,按照该顺序由预测单元121进行处理。在图2中,A、B、C、D分别为与距离值缓存器(1)(2)(3)(4)对应的预测值缓存器。
在距离值缓存器143以及预测值缓存器152被提供时,单词串对照单元131从距离值缓存器143以及预测值缓存器152取出各帧的距离值和各识别单位的预测值,一边采用预测值对对照单词进行适当取舍选择,一边与帧同步地进行单词对照,生成一次发声的识别结果。在对距离值缓存器143内以及预测值缓存器152内的所有的帧进行了处理后时,距离值缓存器143以及预测值缓存器152释放存储器。此时以及动作刚刚开始之后,由于没有被提供距离值缓存器143以及预测值缓存器152,因此从多个距离值缓存器145以及多个预测值缓存器153取出开头的缓存器(在图2中(1)和A、(2)和B、(3)和C、(4)和D)分别作为距离值缓存器143以及预测值缓存器152后,继续处理。此时,如果没有可取出的缓存器,则为发声终止,因此将到此为止的识别结果作为最终的语音识别结果输出。
通过本实施方式的语音识别系统100,三个处理单元即距离计算单元111、预测单元121以及单词串对照单元131能够独立地并行进行处理,因此与第一现有例的语音识别系统相比,语音识别速度提高。
此外,本实施方式的语音识别系统100,能够归纳如下。距离计算单元111接收语音特征量的时间序列数据,帧同步地计算所有声音模型和各帧之间的距离值后,写入到距离值缓存器141中。在距离值缓存器141存满时,将其追加到等待向预测单元121传送的多个距离值缓存器144的末尾。预测单元121从多个距离值缓存器144接收距离值缓存器142,在各帧中计算各识别单位的优劣即预测值后,写入到预测值缓存器151。在预测值缓存器151存满时,将其分别追加到等待向距离计算单元131传送的 多个距离值缓存器145以及预测值缓存器153的末尾。单词串对照单元131从多个距离值缓存器145以及预测值缓存器153接收距离值缓存器143以及预测值缓存器152,一边利用预测值对对照单词进行适当取舍选择,一边帧同步地识别发声整体,生成识别结果。由此,通过对多路径语音识别的各路径进行并行处理,能高速地进行语音识别。
图3为表示本发明相关的语音识别系统的第二实施方式的框图。以下,基于该附图进行说明。其中,与图1相同的部分付与相同的符号,并省略说明。
本实施方式的语音识别装置200的特征在于具备缓存器长度决定单元211。缓存器长度决定单元211按照距离计算单元111、预测单元121以及单词对照单元131的处理量均匀的方式决定距离值缓存器141~145或预测值缓存器151~153的缓存器长度。通过本实施方式,通过缓存器长度决定单元211来决定相对于速度来说最佳的缓存器长度,因此识别速度提高。
以下进行更详细的说明。语音识别装置200的不同点在于,数据处理装置210除了图1的数据处理装置110的结构之外,还具有缓存器长度决定单元211。缓存器长度决定单元211与距离计算单元111、预测单元121以及单词串对照单元131进行通信,来计算最佳缓存器长度。例如在预测单元121以及单词串对照单元131的任一个中的每一个缓存器的执行时间和距离计算单元131的每一个缓存器的执行时间之差为某值以上时,将缓存器长度拉长该延迟量。距离计算单元111从缓存器长度决定单元211接收缓存器长度,在不舍去已计算完成的距离值的范围内使所接收的时刻之后的距离值缓存器的长度接近上述缓存器长度。上述之外的动作与第一实施方式相同。
接下来,对本实施方式的效果进行说明。在有预测单元121的情况下,通过拉长一缓存器的长度,从而预测处理的速度也提高,预测精度也提高。因此,单词串对照单元131的速度也提高。在本实施方式中,在预测单元121以及单词串对照单元131中发生了处理延迟时,通过从最上游的距离计算单元111拉长缓存器长度,从而预测单元121以及单词串对照单元131也被高速化,因此能使三个处理单元的处理量更均匀化。
图4为表示本发明相关的语音识别系统的第三实施方式的框图。以下基于该附图进行说明。其中,对与图1相同的部分付与相同的符号,从而省略说明。
本实施方式的语音识别系统300的特征在于具备缓存器管理单元341。缓存器管理单元341对距离计算单元311、预测单元321以及单词串对照单元331的动作进行监视,当距离计算单元311不再向距离值缓存器141写入距离值时并且预测单元321以及单词串对照单元331从距离值缓存器142、143读出了全部距离值时,且预测单元321不再向预测值缓存器151写入预测值时并且单词串对照单元331从预测值缓存器152读出了全部预测值时,将距离值缓存器141用于预测单元321的下一次读出,将距离值缓存器142用于单词串对照单元331的下一次读出,将距离值缓存器143用于距离计算单元311的下一次写入,将预测值缓存器151用于单词串对照单元331的下一次读出,将预测值缓存器152用于预测单元321的下一次写入。通过本实施方式,能够以最小限度的缓存器数目得到本发明的效果。
以下进行更详细的说明。语音识别系统300包括通过程序控制而动作的数据处理装置310、320、330、340和存储有信息的数据存储装置350。
数据存储装置350具备距离值缓存器141、142、143和预测值缓存器151、152。距离值缓存器141、142、143为与某帧区间的语音对应的缓存器,保存有各声音模型相对在各帧输入的语音特征量的距离值。预测值缓存器151、152为与某帧区间的语音及其距离值对应的缓存器,在各帧中保持有相对根据该帧以后的声音信息所计算出的各识别单位的优劣即预测值。
数据处理装置310具备距离计算单元311,数据处理装置320具备预测单元321,数据处理装置330具备单词串对照单元331,数据处理装置340具备缓存器管理单元341。距离计算单元331对于所输入的语音特征量的时间序列的各帧,计算该语音特征量和各声音模型的距离值,并将其写入到距离值缓存器141中。预测单元321从距离值缓存器142读出距离值,对该缓存器内的各帧的各识别单位,计算其优劣信息即预测值,并将上述预测值写入到预测值缓存器151中。单词串对照单元331从距离值缓 存器143以及预测值缓存器152读出相同帧中的距离值以及预测值,一边采用各识别单位的预测值来适当取舍选择对照单词,一边帧同步地进行单词对照,生成对该发声全体的识别结果。
接下来,对语音识别系统300的动作进行说明。分析结束的语音即声音特征量的时间序列数据被供给到距离计算单元311。距离计算单元311与所输入的声音时间序列同步地计算距离值后,将其写入到距离值缓存器141中。在距离值缓存器141存满时,进入等待状态。在被提供距离值缓存器142时,预测单元321从距离值缓存器142取出各帧的距离值,对各帧的各识别单位计算预测值后,写入到预测值缓存器151。在预测值缓存器151存满时,进入等待状态。
在被提供距离值缓存器143以及预测值缓存器152时,单词串对照单元331从距离值缓存器143以及预测值缓存器152取出各帧的距离值和各识别单位的预测值,一边采用预测值对对照单词进行适当取舍选择,一边帧同步地进行单词对照,生成一次发声的识别结果。在处理过距离值缓存器143以及预测值缓存器152内的所有帧后时,进入等待状态。
缓存器管理单元341,对距离计算单元311、预测单元321以及单词串对照单元33 1的状态进行监视,在全部进入等待状态时,将距离值缓存器141移动到距离值缓存器142,将距离值缓存器142移动到距离值缓存器143,将距离值缓存器143移动到距离值缓存器141,将预测值缓存器151与预测值缓存器152互相替换,之后,解除距离计算单元331、预测单元321以及单词串对照单元331的等待状态。
如果所处理的数据在距离值缓存器143以及预测值缓存器152内不存在,则为发声终止,因此单词串对照单元331将到此为止的识别结果作为最终的语音识别结果输出。
通过本实施方式的语音识别系统300,能够以三个处理单元即距离计算单元311、预测单元321以及单词串对照单元331独立地并行进行处理,因此与第一现有例的语音识别系统相比,语音识别速度提高。
本发明通过参照所例举的实施方式进行了具体的说明,但本发明并不限于这些实施方式。本领域技术人员应该可以理解只要在不超出本发明的精神和通过权利要求所定义的范围内,本发明可作出各种形式和细节的变 更。
本申请基于2005年1月17日提出的日本专利申请No.2005-008542的优先申请而提出,本申请参考并合并了其所公开的所有内容。 

Claims (6)

1.一种语音识别系统,具备:
距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;
预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和
单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果,
该语音识别系统分别具备多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算单元所生成的距离值,所述预测值缓存器储存有由所述预测单元所生成的预测值,
所述各距离值缓存器,进行写入来自所述距离计算单元的所述距离值、将所述距离值读出到所述预测单元以及将所述距离值读出到所述单词串对照单元的动作,
所述各预测值缓存器,进行写入来自所述预测单元的所述预测值以及将所述预测值读出到所述单词串对照单元的动作,
被写入来自所述距离计算单元的所述距离值的所述距离值缓存器、将所述距离值读出到所述预测单元的所述距离值缓存器和将所述距离值读出到所述单词串对照单元的所述距离值缓存器,在任何时刻均分别不同,
并且,被写入来自所述预测单元的所述预测值的所述预测值缓存器和将所述预测值读出到所述单词串对照单元的所述预测值缓存器分别不同。
2.根据权利要求1所述的语音识别系统,其特征在于,
还具备缓存器长度决定单元,其按照使得所述距离计算单元、所述预测单元以及所述单词对照单元的处理量均匀的方式,决定所述距离值缓存器或所述预测值缓存器的缓存器长度。
3.根据权利要求1所述的语音识别系统,其特征在于,
具备缓存器管理单元,
所述缓存器管理单元具有下述功能:
对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作进行监视;
以所述距离计算单元,不需要再向所述距离值缓存器中写入所述距离值,且所述预测单元以及所述单词串对照单元从所述距离值缓存器读出了所有所述距离值,并且所述预测单元不需要再向所述预测值缓存器中写入所述预测值,且所述单词串对照单元从所述预测值缓存器读出了所有所述预测值作为条件,按照下述那样动作:使所述距离计算单元在写入时采用的所述距离值缓存器用于所述预测单元的下一次读出,使所述预测单元在读出时采用的所述距离值缓存器用于所述单词串对照单元的下一次读出,使所述单词串对照单元的读出时采用的所述距离值缓存器用于所述距离计算单元的下一次写入,使所述预测单元在写入时采用的所述预测值缓存器用于所述单词串对照单元的下一次读出,使所述单词串对照单元的读出时采用的所述预测值缓存器用于所述预测单元的下一次写入。
4.一种语音识别方法,具备:
距离计算步骤,生成依次输入的语音特征量和各声音模型之间的距离值;
预测步骤,与该距离计算步骤中的所述距离值的生成并行,采用由该距离计算步骤已生成的距离值来生成预测值;和
单词串对照步骤,其与所述距离计算步骤中的所述距离值的生成以及所述预测步骤中的所述预测值的生成并行,采用由所述距离计算步骤已生成的距离值以及由所述预测步骤已生成的预测值来进行单词对照,生成识别结果,
该语音识别方法分别采用多个距离值缓存器和预测值缓存器,所述距离值缓存器储存有由所述距离计算步骤所生成的距离值,所述预测值缓存器储存有由所述预测步骤所生成的预测值,
对所述距离值缓存器,并行运行所述距离计算步骤中的所述距离值的写入、所述预测步骤中的所述距离值的读出和所述单词串对照步骤中的所述距离值的读出,
对所述预测值缓存器,并行运行所述预测步骤中的所述预测值的写入和所述单词串对照步骤中的所述预测值的读出,
使由所述距离计算步骤写入所述距离值的所述距离值缓存器、由所述预测步骤读出所述距离值的所述距离值缓存器和由所述单词串对照步骤读出所述距离值的所述距离值缓存器不同,并且,使由所述预测步骤写入所述预测值的所述预测值缓存器和由所述单词串对照步骤读出所述预测值的所述预测值缓存器,在任何时刻均分别不同。
5.根据权利要求4所述的语音识别方法,其特征在于,
按照使所述距离计算步骤、所述预测步骤以及所述单词对照步骤的处理量均匀的方式,来决定所述距离值缓存器或所述预测值缓存器的缓存器长度。
6.根据权利要求4所述的语音识别方法,其特征在于,
还具备缓存器管理步骤,对所述距离计算步骤、所述预测步骤以及所述单词串对照步骤的动作进行监视,
在所述缓存器管理步骤中,
以不需要再在所述距离计算步骤中向所述距离值缓存器中写入所述距离值,且在所述预测步骤以及所述单词串对照步骤中从所述距离值缓存器读出了所有所述距离值时,并且不需要再在所述预测步骤向所述预测值缓存器中写入所述预测值,且在所述单词串对照步骤中从所述预测值缓存器读出了全部所述预测值作为条件,
按照下述那样动作:使由所述距离计算步骤在写入时采用的所述距离值缓存器用于所述预测步骤中的下一次读出,使由所述预测步骤在读出时采用的所述距离值缓存器用于所述单词串对照步骤中的下一次读出,使由所述单词串对照步骤在读出时采用的所述距离值缓存器用于所述距离计算步骤中的下一次写入,使由所述预测步骤在写入时采用的所述预测值缓存器用于所述单词串对照步骤中的下一次读出,使由所述单词串对照步骤在读出时采用的所述预测值缓存器用于所述预测步骤中的下一次写入。
CN2006800024298A 2005-01-17 2006-01-12 语音识别系统、语音识别方法 Expired - Fee Related CN101120397B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP008542/2005 2005-01-17
JP2005008542 2005-01-17
PCT/JP2006/300269 WO2006075648A1 (ja) 2005-01-17 2006-01-12 音声認識システム、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
CN101120397A CN101120397A (zh) 2008-02-06
CN101120397B true CN101120397B (zh) 2011-08-17

Family

ID=36677673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800024298A Expired - Fee Related CN101120397B (zh) 2005-01-17 2006-01-12 语音识别系统、语音识别方法

Country Status (5)

Country Link
US (1) US7930180B2 (zh)
EP (1) EP1852847A4 (zh)
JP (1) JP5103907B2 (zh)
CN (1) CN101120397B (zh)
WO (1) WO2006075648A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940057B2 (ja) * 2007-08-17 2012-05-30 株式会社東芝 音声認識装置及びその方法
US9785613B2 (en) * 2011-12-19 2017-10-10 Cypress Semiconductor Corporation Acoustic processing unit interface for determining senone scores using a greater clock frequency than that corresponding to received audio
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
US9196250B2 (en) * 2012-11-16 2015-11-24 2236008 Ontario Inc. Application services interface to ASR
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、系统及相关设备
WO2021033889A1 (en) 2019-08-20 2021-02-25 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
CN111933146B (zh) * 2020-10-13 2021-02-02 苏州思必驰信息科技有限公司 语音识别系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442520B1 (en) * 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
CN1503220A (zh) * 2002-11-20 2004-06-09 中国科学院声学研究所 一种语音识别中的并行搜索方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2595495B2 (ja) * 1982-09-03 1997-04-02 日本電気株式会社 パタンマッチング装置
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
JPS63208138A (ja) 1987-02-25 1988-08-29 Hitachi Ltd デ−タベ−スのバツフア割当て管理方式
US4989249A (en) * 1987-05-29 1991-01-29 Sanyo Electric Co., Ltd. Method of feature determination and extraction and recognition of voice and apparatus therefore
JP2554747B2 (ja) 1989-07-12 1996-11-13 松下電器産業株式会社 空調機器における室外ユニット
JPH04232998A (ja) 1990-12-27 1992-08-21 Nec Corp 音声認識装置
JPH06214595A (ja) 1993-01-20 1994-08-05 Asahi Chem Ind Co Ltd 音声認識方法
JP3011001B2 (ja) 1993-12-28 2000-02-21 日本電気株式会社 バッファ制御システム
JP3226716B2 (ja) 1994-05-31 2001-11-05 日本電気株式会社 音声認識装置
US6249761B1 (en) 1997-09-30 2001-06-19 At&T Corp. Assigning and processing states and arcs of a speech recognition model in parallel processors
JP2000206984A (ja) 1999-01-20 2000-07-28 Mitsubishi Electric Corp 音声認識装置
JP3893911B2 (ja) 2001-07-12 2007-03-14 日本電気株式会社 音声認識システム
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
GB2384901B (en) * 2002-02-04 2004-04-21 Zentian Ltd Speech recognition circuit using parallel processors
DE602004011545T2 (de) * 2003-10-03 2009-01-08 Asahi Kasei Kabushiki Kaisha Datenverarbeitungseinrichtung und datenverarbeitungseinrichtungssteuerprogramm

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442520B1 (en) * 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
CN1503220A (zh) * 2002-11-20 2004-06-09 中国科学院声学研究所 一种语音识别中的并行搜索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JP特开2003-29781A 2003.01.31
JP特开平4-232998A 1992.08.21
JP特开平7-200372A 1995.08.04
s. Ortmanns et al,.Look-ahead techniques for fast beam search.《1997 International Conference on Acoustics Speech and Signal Processing》.1997,第3卷1783-1786. *

Also Published As

Publication number Publication date
CN101120397A (zh) 2008-02-06
JP5103907B2 (ja) 2012-12-19
EP1852847A1 (en) 2007-11-07
US20080133237A1 (en) 2008-06-05
JPWO2006075648A1 (ja) 2008-08-07
EP1852847A4 (en) 2008-05-21
WO2006075648A1 (ja) 2006-07-20
US7930180B2 (en) 2011-04-19

Similar Documents

Publication Publication Date Title
CN101120397B (zh) 语音识别系统、语音识别方法
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
KR20040078595A (ko) 블록 동기 디코딩
US6735588B2 (en) Information search method and apparatus using Inverse Hidden Markov Model
US7634457B2 (en) Function-based index tuning for queries with expressions
US7908275B2 (en) Method and apparatus for fast audio search
US5073939A (en) Dynamic time warping (DTW) apparatus for use in speech recognition systems
JP6138148B2 (ja) 演算論理ユニットアーキテクチャ
US8886535B2 (en) Utilizing multiple processing units for rapid training of hidden markov models
Lin et al. A 1000-word vocabulary, speaker-independent, continuous live-mode speech recognizer implemented in a single FPGA
Yazdani et al. The dark side of DNN pruning
You et al. Parallel scalability in speech recognition
EP3709229A1 (en) Learning device and learning method
CN112652306B (zh) 语音唤醒方法、装置、计算机设备和存储介质
Dixon et al. Harnessing graphics processors for the fast computation of acoustic likelihoods in speech recognition
Yu et al. GPU-accelerated HMM for speech recognition
Lin et al. A multi-FPGA 10x-real-time high-speed search engine for a 5000-word vocabulary speech recognizer
CN111552652B (zh) 基于人工智能芯片的数据处理方法、装置和存储介质
WO2019045945A1 (en) METHOD AND APPARATUS FOR PREDICTING LOAD VALUES
Li et al. An experimental study on deep learning based on different hardware configurations
CN116244072A (zh) 一种针对栅栏同步的gpgpu微架构系统
Buthpitiya et al. A parallel implementation of viterbi training for acoustic models using graphics processing units
Choi et al. FPGA-based implementation of a real-time 5000-word continuous speech recognizer
CN113986703A (zh) 芯片流水线划分中定位流水线瓶颈的系统及应用
Ling et al. Fast modeling DRAM access latency based on the LLC memory stride distribution without detailed simulations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110817

Termination date: 20220112