JP4940057B2 - 音声認識装置及びその方法 - Google Patents

音声認識装置及びその方法 Download PDF

Info

Publication number
JP4940057B2
JP4940057B2 JP2007212811A JP2007212811A JP4940057B2 JP 4940057 B2 JP4940057 B2 JP 4940057B2 JP 2007212811 A JP2007212811 A JP 2007212811A JP 2007212811 A JP2007212811 A JP 2007212811A JP 4940057 B2 JP4940057 B2 JP 4940057B2
Authority
JP
Japan
Prior art keywords
grammar
unit
storage unit
partial
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007212811A
Other languages
English (en)
Other versions
JP2009047838A (ja
Inventor
優 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007212811A priority Critical patent/JP4940057B2/ja
Priority to US12/047,776 priority patent/US8015007B2/en
Priority to CNA2008101686164A priority patent/CN101369425A/zh
Publication of JP2009047838A publication Critical patent/JP2009047838A/ja
Application granted granted Critical
Publication of JP4940057B2 publication Critical patent/JP4940057B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明は、文法に基づいて表現された認識対象の語句に対して音声認識処理を行う際に、文法に基づいて表現された語句を1つ以上の部分語句に分割した部分文法を使用する音声認識装置及びその方法に関するものである。
音声認識の分野では、入力音声の音声特徴と、文法に記述された認識対象の語句に対応する音声特徴のモデルとを照合することで、音声認識を行う音声認識装置が広く使用されている。
この認識語彙を記述する文法としては、語句ネットワークによる表現や、文脈自由文法(CFG:Context−Free Grammar)、有限状態文法(FSG:Finite State Grammar)などが用いられる。
これらの文法は、音声認識装置の内部にある所定の記憶装置に格納されており、音声認識処理の進展に応じて照合部から参照される。この参照は音声認識処理中に何度も行われる可能性がある。そのため、音声認識処理を高速に実行するためには、高速アクセスが可能な記憶装置に文法を格納しなければならない。また、認識語彙数が増えると、認識語彙を記述した文法のサイズもそれに応じて大きくなる。そのため、大語彙の音声認識処理を実行するためには、文法を格納するための大容量の記憶装置が必要となる。すなわち、音声認識装置では、大語彙の音声認識処理を高速に実行するために、高速アクセスが可能かつ大容量な記憶装置を備える必要がある。
しかし、高速アクセスが可能な記憶装置は、低速アクセスしかできない記憶装置に比べてコストが大きい。また、記憶装置のコストは容量に比例して大きくなるため、高速アクセスが可能かつ大容量な記憶装置のコストは非常に大きくなる。そのため、音声認識装置では、前述したコストの問題から、高速アクセスが可能かつ大容量の記憶装置を備えることが難しい場合がある。そのような場合には、低速アクセスしかできないが大容量な記憶装置で代替する方法がある。そのような記憶装置では、照合部からの文法の参照が低速になり、音声認識処理の速度が低下するという問題点がある。
この問題点に対処する方法として、特許文献1で開示されている技術(以下、従来技術という)が提案されている。この従来技術では、文法を、一群の文法規則をまとめてカプセル化した部分文法として分割し、全ての部分文法を低速アクセスしかできないが大容量な記憶装置(記憶装置1:例えばHDDなど)に格納する。また、認識処理中に照合部が参照する部分文法を、高速アクセスが可能だが小容量な記憶装置(記憶装置2:例えばRAMなど)に格納する。さらに、照合部の処理の進展に応じて、照合部が参照すべき部分文法のみを、前述の記憶装置1から記憶装置2に転送する。すなわち、照合部が新たに参照すべき部分文法が前述の記憶装置2に格納されていない場合には、照合部における処理を一旦中断し、該当する部分文法を前述の記憶装置1から記憶装置2へ転送する。転送が完了したら、照合部の処理を再開する。
従来技術によれば、記憶装置1には、照合部において参照が必要な部分文法のみを格納すれば良いため、記憶装置1の容量を小さくすることができる。
例えば、全国住所のように階層的な構造をもつ認識語彙に対して、各階層のグループ(県名・市町村名・町名)毎に部分文法を作成した場合を考える。このとき、照合部が参照すべき部分文法は、各階層における認識候補に関連する部分文法に限られる。すなわち、照合部の処理において、県名として「神奈川県」が認識候補に挙がった場合には、その後の処理において「神奈川県」に関連する市町村名を記述した部分文法のみを参照すれば良い。この結果、前述の記憶装置1に格納すべき部分文法の数を限定できるため、記憶装置1の容量をより小さくすることができる。また、照合部が参照する部分文法は高速アクセスが可能な記憶装置1に格納されるため、照合部からの部分文法の参照は高速のまま保つことができる。すなわち、従来技術により、記憶装置1の容量増大によるコストを抑えつつ、音声認識処理を高速に実行できる。
特許第3546633号公報(P14、図1参照)
しかし上記従来技術では、照合部が新たに参照すべき部分文法が前述の記憶装置2に格納されていない場合には、当該部分文法が前述の記憶装置1から記憶装置2へ転送されるまでの間は照合部の処理を一旦中断し、転送が完了してから照合部の処理を再開する。このとき、部分文法の転送に時間がかかる場合には、部分文法の転送待ち時間の分だけ、照合部の処理、すなわち音声認識処理の実行が遅延する。
一般に、ある記憶装置から別の記憶装置へのデータの転送には、記憶装置間の転送路の速度に応じた遅延時間がかかる。また、従来技術では、低速アクセスしかできない記憶装置1からの部分文法の転送を想定しているため、記憶装置1から部分文法を読み出すための遅延時間も発生する。従来技術では、これら全ての遅延時間の総量が音声認識処理の遅延時間となり、その分だけ音声認識処理の速度が低下する。
すなわち、従来技術では、部分文法を転送する際の転送待ち時間により音声認識処理の速度が低下するという問題点があり、大語彙の音声認識処理を高速に実行することができない。
そこで本発明は、上記問題点を解決するためになされたものであり、部分文法を転送する際の転送待ち時間による音声認識処理の速度低下を防ぎ、音声認識処理を高速に実行することができる音声認識装置及びその方法を提供することを目的とする。
本発明は、入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成部と、文法に基づいて表現された語句が複数あり、前記各語句のそれぞれを分割して得られた1つ以上の連続する部分語句があり、前記部分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、前記各語句にそれぞれ属する1つ以上の連続する部分語句に関するそれぞれの部分文法を格納する第1の文法記憶部と、前記第1の文法記憶部から転送された全部または一部の前記部分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成部で生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合部と、前記第1の照合部において尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記部分語句の後続となる後続部分語句に関する後続部分文法を転送する文法転送部と、前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成部で生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合部と、前記第2の文法記憶部に転送された前記後続部分文法と前記モデル記憶部に格納された前記後続部分文法における前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記後続部分文法における前記状態遷移モデルの各状態の前向き確率を、末尾状態まで求める第3の照合部と、(1)前記語句毎に行うものであり、(2)前記後続部分文法の転送開始までは前記第1の照合部を動作させ、(3)前記転送の開始から完了までの間は前記第2の照合部を前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合部を動作させ、(5)前記各語句に属する部分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御部と、前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識部と、を備える音声認識装置である。
本発明によれば、部分文法の転送と並列に照合動作をさせることにより、部分文法の転送待ち時間による音声認識処理の速度低下を防ぎ、音声認識処理を高速に実行することができる。
以下、本発明の一実施形態について図面に基づいて説明する。
(第1の実施形態)
以下、本発明の第1の実施形態の音声認識装置について図1〜図14に基づいて説明する。
(1)音声認識装置の構成
図1は、本実施形態の音声認識装置の構成例を表すブロック図である。
音声認識装置は、特徴抽出部101、第1の文法記憶部102、第2の文法記憶部103、文法転送部104、モデル記憶部105、認識制御部106、第1の照合部107、第2の照合部108を備える。
これら各部101〜108の各機能は、コンピュータに格納されたプログラムによっても実現可能である。
以下、各ブロックの説明に沿って、音声認識装置の詳細を説明する。
(2)特徴抽出部101
特徴抽出部101は、ある時間幅をもつフレーム毎に、入力音声信号から音声特徴列X(t)=(x(1),x(2),・・・,x(T))を生成する。ここでx(t)はt番目のフレームtにおける音声特徴である。但し、1=<t=<Tとし、t=1は認識処理を実施する入力音声の始端位置に、t=Tは入力音声の終端位置に対応する。
音声特徴としては、1次元以上の要素をもつベクトルを用いる。そのような音声特徴ベクトルとしてはMFCCが挙げられる。MFCCは、フレームtにおける音声スペクトルに対して、メルフィルタバンク出力の対数値をとり、さらにDCTを適用してその低次成分を抽出するケプストラム分析を行うことで、音声特徴ベクトルを生成する方法である。
なお、特徴抽出部101における音声特徴として、MFCCに限らず、任意の音声特徴を使用することができる。
(3)第1の文法記憶部102
第1の文法記憶部102は、認識対象の語句を記述した文法を記憶する。この文法は、1つ以上の部分語句毎に分割した部分文法の形で記憶されている。ここで、部分語句、文法及び部分文法の例を図2〜図4を用いて説明する。

(3−1)部分語句
図2は、認識対象の語句を表にまとめたものであり、それぞれ4つの部分語句からなる7文の認識語句の例である。なお、図2では、認識対象の語句を構成する部分語句をWn(n:単語番号)で示している。
(3−2)文法
図3は、図2で例示した認識語句を記述する文法の例である。
図3の文法は、ノードNn(n:ノード番号)と、ノード間を結ぶ有向アークから構成されている。ノードのうちST及びEDはそれぞれ文法の始端と終端を示している。各アークには部分語句Wnが付与されており、始端ノードSTから終端ノードEDに到るアークをたどることで、認識対象の語句を得ることができる。例えば、図3の文法において、始端ノードSTから単語W11、W21、W31、W41が付与されたアークをたどり終端ノードEDに到ることで、図2の文番号1で示されている認識対象の語句「W11−W21−W31−W41」を得ることができる。
(3−3)部分文法
図4は、図3の文法に基づいて表現された語句を1つ以上の部分語句に分割し、これら部分語句に関する部分文法の例である。
図4は、図3の文法を6つの部分文法A〜Fに分割した例である。図4の部分文法はそれぞれ、図3の文法及びアークの一部から構成されている。例えば、図4の部分文法Aは、図3の文法のうち、始端ノードSTとアークW11、W22及び当該アークにより到達可能なノードN11、N12から構成されている。
また、部分文法AのノードN11と部分文法BのノードN11は同じノードであり、部分文法Aと部分文法BがノードN11を介して接続可能であることを示している。すなわち、部分文法Bは部分文法Aの後続部分文法であり、部分文法AのノードSTからアークW11をたどってノードN11に到った場合に、さらに部分文法BのノードN11から派生するアークをたどることが可能である。この関係は他の部分文法でも同様に成り立ち、部分文法と他の部分文法へは同じノードを介して接続される。
このような接続関係により、図4の部分文法は、図3の文法と同じ認識対象の語彙を表現する。
(3−4)文法の分割方法
図4は図3の文法を6つの部分文法に分割した例であるが、この分割の方法は音声認識装置の使用者が任意に決めることができる。
例えば、図4の部分文法Cのように、部分文法の先頭から末尾まで複数のアークをたどるように分割してもよい。
また、部分文法Fのように、複数の先行部分文法をもつように分割してもよい。
また、図4で例示したように6つの部分文法へ分割するだけでなく、1つ以上の任意の数の部分文法に分割してもよい。
また、図4の部分文法Bと部分文法Eのように互いに接続関係にないノード及びアークの集合をまとめて1つの部分文法にしてもよいし、部分文法Bをさらに細分化して2つの部分文法に分割してもよい。
(3−5)記憶内容
第1の文法記憶部102は、図4で例示した1つ以上の部分文法を全て記憶する。すなわち、認識対象の語句を記述するために必要な部分文法を全て記憶する。
そのため、第1の文法記憶部102は、全ての部分文法を記憶するために十分な容量をもたなければならない。このとき必要な記憶容量は、文法の大きさ、すなわち、認識対象の語句の数に比例する。認識対象の語句が全国住所のように比較的大きな語句数となる場合には、第1の文法記憶部102もそれ相応に大容量である必要がある。
そのような大容量の記憶装置としてはHDD(ハードディスクドライブ)が使用できる。なお、HDDに限らず、任意の記憶装置を使用できる。
(4)第2の文法記憶部103
第2の文法記憶部103は、図4で例示した部分文法のうち、1つ以上の部分文法を記憶する。
後述する理由により、第2の文法記憶部103の容量は、第1の文法記憶部102に対して比較的小さい容量とすることができる。但し、後述する理由により、第2の文法記憶部103は高速アクセスが可能であることが望ましい。そして、第1の文法記憶部102においてデータを取得するための読み出し時間よりも、第2の文法記憶部102の読み出し時間が短い必要がある。
そのような高速アクセスが可能な記憶装置としてはRAM(ランダムアクセスメモリー)が使用できる。なお、RAMに限らず、任意の記憶装置を使用できる。
(5)文法転送部104
文法転送部104は、後述する第1の照合部107における照合処理で参照が必要となった部分文法を、第1の文法記憶部102から第2の文法記憶部103へ転送する。
ここで、文法の始端ノードを含む部分文法は、後述する第1の照合部107における照合処理が始まる以前の段階で、第1の文法記憶部102から第2の文法記憶部103へ予め転送しておく。
図4の例では、始端ノードSTを含む部分文法Aを、第2の文法記憶部103へ予め転送しておく。第1の照合部107は、第2の文法記憶部103に記憶された部分文法のうち、始端ノードを含む部分文法を参照して照合の処理を開始する。
(6)モデル記憶部105
モデル記憶部105は、認識対象の語句あるいは部分語句の音声特徴を表現する状態遷移モデルを記憶する。以下では、この状態遷移モデルを単に「音響モデル」と表記する。
音声認識に好適な音響モデルとして、HMM(Hidden Markov Model:隠れマルコフモデル)がある。HMMは、1つ以上の状態Siと、初期状態の集合SS及び最終状態の集合SFと、ある状態Sjからある状態Siへの遷移確率Ajiと、ある状態Sjからある状態Siへの遷移パスにおける音声特徴ベクトルxの出力確率Bji(x)と、状態Siの初期確率PSiで定義される。但し、1=<i=<NS及び1=<j=<NSであり、NSはHMMを構成する状態の総数である。
HMMの例を図5に示す。図5は、状態数NS=4のHMMの例であり、音声認識において典型的に用いられるLeft−to−Right型と呼ばれるトポロジー(構造)をもつHMMである。
HMMの特徴として、ある部分語句に対応する複数のHMMを接続することで、より長い語句のHMMを得ることができる。例えば、図6に示すように、部分語句W11及び部分語句W21に対応する2つのHMMを接続することで、語句「W11−W21」のHMMを得ることができる。以下では、音響モデルとして図5で例示したHMMを使用することを前提に説明を続ける。
ここで「状態遷移モデル(音響モデル)」とは、音声特徴の時系列変化を表現するもので、この状態遷移モデルの「各状態」は、その時系列変化のある時点における音声特徴を表現する。図5に示すように,これら状態が遷移(矢印)によって繋がることで、音響モデル全体として音声特徴の時系列変化を表現できる。具体的には,「各状態」は,ある時点における音声特徴の「出力確率」と呼ばれるものを出力し、「前向き確率」は、この出力確率を用いて,下記の式(1)〜(3)により計算される。
なお、音響モデルとして図5の例を含むあらゆるHMMを使用することができる。例えば、図7のHMMのように、多数の遷移パスをもつHMMを使用できる。また、HMMに限らず、時系列テンプレートモデルのように、状態遷移をもつ任意のモデルも使用できる。
(7)第1の照合部107
第1の照合部107は、音声特徴列と音響モデルとの照合を行う。
(7−1)照合方法
この照合方法について説明する。
(7−1−1)HMMからの出力確率の計算
音声特徴列Xに対して、ある認識対象の語句wに対応するHMMからの出力確率P(X|w)を計算する。ここで1=<w=<Wとし、Wは認識対象の語句の総数とする。また、P(X|w)をP(X)と簡略表記したとき、P(X)は式(1)、式(2)、式(3)で計算される。

P(X)=max i(α(i,T)) (但し、Si⊂SFである) ・・・(1)

α(i,0)=PSi (但し、Si⊂SSである) ・・・(2)

α(i,t)=max_i(Aji*Bji(x(t))*α(j,t−1)) ・・・(3)

ここで、α(i,t)は、HMMの初期状態から遷移し、t番目のフレームにおいてHMMの状態Siに到る前向き確率である。
HMMでは、初期状態からt番目のフレームにおいて状態Siに到る遷移パスが複数存在するため、前向き確率は複数の遷移パス毎の前向き確率の総和として計算するのが本来である。しかし、式(3)では、複数の遷移パスの中で最大の前向き確率を与える遷移パスを選択し、その前向き確率をt番目のフレームにおける状態Siの前向き確率とする。これをビタビ法と呼ぶ。ビタビ法は、音声認識の分野において、複数の遷移パスの前向き確率の総和をとる方法の良い近似になることが知られている。
第1の照合部107は、式(1)に示すように、フレーム番号TにおけるSi⊂SFである状態Siの前向き確率により、音声特徴列Xに対する認識対象の語句wの出力確率P(X|w)を計算する。
また、複数の認識対象の語句wに対して出力確率P(X|w)を計算し、そのうち最大の出力確率を与える認識対象の語句wを、照合結果として出力する。
(7−1−2)変数の参照方法
式(1)、式(2)、式(3)のうちHMMに依存する変数、すなわち、初期状態の集合SS、最終状態の集合SF、遷移確率Aji、出力確率Bji、初期確率PSiは、認識対象の語句wに対応するHMMから与えられる。
これらの変数は、第2の文法記憶部103に記憶された1つ以上の部分文法に記述された認識対象の語句及びその部分語句を参照し、また、モデル記憶部105に記憶された認識対象の語句及びその部分語句に対応するHMMを参照することで得られる。
そのため、第1の照合部107における処理を十分に高速に実行するためには、認識対象の語句及びその部分語句の参照を高速に行う必要がある。したがって、第2の文法記憶部103に記憶された1つ以上の部分文法を十分に高速に参照できる必要がある。すなわち、第2の文法記憶部103は、高速アクセス可能であることが望ましい。
式(3)に示したように、音声特徴列Xに対するHMMの状態Siの前向き確率α(i,t)は、フレーム番号tの増加に応じた漸化式で計算される。
そのため、第2の文法記憶部103に全ての部分文法が記憶されておらず、認識対象の語句の部分語句だけが参照可能な場合でも、式(3)に基づく前向き確率の計算を開始できる。
例えば、図4で例示した部分文法を使用する場合は、図4の部分文法のうち始端ノードSTを含む部分文法Aが第2の文法記憶部103に記憶されていれば、部分文法Aに記述されている部分語句W11及びW12に対応するHMMをモデル記憶部105から参照することで、式(3)に基づく前向き確率の計算を開始できる。
(7−2)転送方法
上記参照処理を可能とするために、文法転送部104は、第1の文法記憶部102から第2の文法記憶部103へ、始端ノードを含む部分文法を予め転送しておく。
その後、第1の照合部107における処理の進展に応じて、文法転送部104が、第1の文法記憶部102から第2の文法記憶部103へ後続部分文法を転送する。
この転送方法について図4に基づいて説明する。
まず、図4の部分文法Aに記述された部分語句W11に対応するHMMに対する式(3)の前向き確率の計算が進展する。
次に、進展すると部分語句W11に対応するHMMの末尾状態の前向き確率が計算される。
次に、第1の照合部107は前向き確率の計算をさらに進めるために部分語句W11の後続部分語句W21及びW22に対応するHMMを参照することが必要となるので、文法転送部104は部分文法Bを第2の文法記憶部103へ転送する。
次に、第1の照合部107は、転送された後続部分文法である部分文法Bに記述された後続部分語句W21及びW22を参照し、さらに、それらに対応するHMMをモデル記憶部104から参照することで、式(3)に基づく照合処理を継続できる。
このように、第1の照合部107における処理の進展に応じて、文法転送部104が必要となる部分文法を転送することで、第2の文法記憶部103で記憶する部分文法の数を効率的に限定することができる。例えば、図4で例示した部分文法を参照する場合に、認識対象の語句「W11−W21−W31−W41」の出力確率を計算するためには、第2の文法記憶部103には部分文法A、B、D、Fの4つの部分文法のみが記憶されていればよい。このとき、他より大きい前向き確率を与える部分語句を対象として、それらの部分語句に後続する部分語句を含む部分文法を優先して転送することで、転送する部分文法を効率的に選択することができる。この結果、第2の文法記憶部103の容量を、第1の文法記憶部102の容量に比べて小さくできる。
(7−2)問題点
しかし、従来技術と同様に第1の照合部107だけを用いると、文法転送部104による部分文法の転送時間だけ、処理の実行が遅延するという問題点がある。これを図8〜10を用いて説明する。
図8は、図4に例示した部分文法の集合で表現される文法及び認識対象の語句のうち、部分文法Aに記述された部分語句W11及び部分文法Bに記述された部分語句W21を接続した語句「W11−W21」に対する前向き確率の計算において、前向き確率を計算すべきHMM状態列を図示したものである。図8の縦軸は、部分語句W11に対応するHMM状態列S1〜S3、及び、部分語句W21に対応するHMM状態列S4〜S6を示している。図8の横軸は、フレーム毎の音声特徴列を示している。また、図8の縦軸と横軸の交点は、フレームtにおけるHMMの状態Siを示し、これらの交点に対して前向き確率α(i,t)を計算する必要がある。また、交点間のアークはHMMの状態間の遷移パスを示している。
第1の照合部107では、各交点の前向き確率を式(3)に基づいて計算することで照合処理を進めていく。初期状態では、第2の文法記憶部103に部分文法Aのみが記憶されているため、部分文法Aに記述された部分語句W11に対応するHMM状態列S1〜S3のみが参照可能となっている。この様子を図9に示す。
図9では、第2の文法記憶部103にまだ転送されていない部分文法Bに記述された部分語句W21に対応するHMM状態列を破線で示している。第1の照合部107はまず、部分語句W11に対応するHMM状態列の前向き確率を計算する。図9の例では、3番目のフレーム(t=3)の時点で、部分語句W11の末尾状態S3の前向き確率α(3,3)の計算までが完了している。図9では、前向き確率の計算結果を、斜線で塗り潰した点として図示している。前向き確率の計算をこれ以上進めるためには、部分文法Bに記述された部分語句W21に対応するHMM状態列を参照する必要がある。そのため、この時点で、文法転送部104が、部分文法Bを第1の文法記憶部102から第2の文法記憶部103へ転送する。
ここで、第1の照合部107だけを用いる場合には、部分文法の転送が完了した時点から、第1の照合部107における照合処理を再開することになる。すなわち、図10の枠線内に示すように、4番目のフレーム(t=4)以降のフレームの音声特徴列に対して、部分語句W11及び部分語句W21に対応するHMM状態列S1〜S6の前向き確率が計算される。このとき、文法転送部104が部分文法の転送を完了するまでの間、前向き確率の計算は一旦中断されることとなる。そのため、文法転送部104における部分文法の転送時間の分だけ、第1の照合部107における処理が遅延することになり、それがすなわち音声認識装置全体の処理遅延となってしまう。
今、t1番目からt2番目のフレーム(t1<t2)の間に、HMM状態列のうちi番目からj番目の状態(i<j)を対象とした照合処理すなわち前向き確率の計算を実行するために必要な時間をD(t1:t2,Si:Sj)とおくと、図8〜10で例示した照合処理において、6番目のフレーム(t=6)までにHMM状態列S1〜S6の前向き確率を計算するために必要とする時間D(1:6,S1:S6)は、以下の式(4)で与えられる。

D(1:6,S1:S6)=D1(1:3,S1:S3)+Dt(B)+D1(4:6,S1:S6) ・・・(4)

ここで、Dt(B)は、文法転送部104において部分文法Bを転送するために必要な転送待ち時間とする。また、D1()は、第1の照合部107が前向き確率を計算するために必要な時間とする。一般的に、異なる2つの記憶装置間でデータを転送する場合には、ある程度の転送待ち時間が発生する。
また、第1の文法記憶部102として、低速アクセスしかできないが大容量の記憶装置を用いた場合には、部分文法の転送開始時に第1の文法記憶部102から部分文法を読み出すための待ち時間も発生する。
これらの要因に応じて、任意の部分文法gを転送するための時間Dt(g)は大きくなる。この結果、高速アクセスが可能な第2の文法記憶部103により前向き確率の計算に必要な処理時間を高速化できても、部分文法の転送に必要な時間が大きくなってしまい、結果として前向き確率の計算に必要な時間D(t1:t2,Si:Sj)が大きくなるという問題点が発生する。
(7−3)解決手段
この問題点に鑑み、本実施形態では、後述する第2の照合部108及び認識制御部106を備え、部分文法の転送と並列に第2の照合部108を動作させることで、この問題点を解決する。以下では、この解決するための動作について説明する。
(8)第2の照合部108
第2の照合部108は、第1の照合部107と同じように、式(1)、式(2)、式(3)に基づき、音声特徴列と音響モデルとの照合を行う。但し、第2の照合部108は、文法転送部104が部分文法を転送している間に、部分文法の転送と並列に動作して照合処理を行う。この処理の様子を図11〜13を用いて説明する。図11〜13は、図8〜10と同様に、第1の照合部107及び第2の照合部108における前向き確率の計算の様子を示している。
(8−1)部分文法の転送中の処理
図11は、図9と同様に、3番目のフレーム(t=3)の時点で、部分語句W11の末尾状態S3の前向き確率α(3,3)までの計算が完了した様子を示している。なお、図11で図示した前向き確率の計算は、前述の通り第1の照合部107で実行される。
この時点から、文法転送部104は、第1の文法記憶部102から第2の文法記憶部103への部分文法Bの転送を開始する。
この部分文法の転送と並列に、第2の照合部108が、第2の文法記憶部103にすでに記憶されている部分文法Aに対する照合処理、すなわち、部分文法Aに記述された部分語句W11に対応するHMM状態列の前向き確率の計算を行う。この様子を図12に示す。
図12は、文法転送部104における部分文法の転送中に、第2の照合部108によって実行される前向き確率の計算の様子を図示したものである。第2の照合部108は、図12の枠線内に示したように、4番目のフレーム(t=4)から6番目のフレーム(t=6)までの音声特徴列に対して、部分文法Aに記述された部分語句W11に対応するHMM状態列S1〜S3の前向き確率を計算する。
第2の照合部108における前向き確率の計算は、文法転送部104における部分文法の転送が完了するまで継続する。ここでは、図12で図示するように、第2の照合部108において6番目のフレーム(t=6)の音声特徴に対する前向き確率が完了した時点で、文法転送部104における部分文法の転送が完了するものとする。
(8−2)部分文法の転送後の処理
部分文法の転送が完了した時点で、第2の照合部108の処理を終了し、第1の照合部107における照合処理を再開する。
このとき、第1の照合部107において前向き確率を計算する範囲は、図13の枠線内で示した範囲となる。すなわち、4番目のフレーム(t=4)から6番目のフレーム(t=6)までの音声特徴列に対して、新たに転送された部分文法Bに記述された部分語句W21に対応するHMM状態列S4〜S6の前向き確率を計算する。図13の枠線内で示した範囲は、第2の照合部108を使用せず第1の照合部107のみで前向き確率を計算した場合を示した図10と比べて、前向き確率を計算する範囲が限定されている。
これにより、6番目のフレーム(t=6)までにHMM状態列S1〜S6の前向き確率を計算するために必要な時間D(1:6、S1:S6)を、式(4)の場合に比べて小さくすることができる。具体的には、第2の照合部108を使用した場合の、前向き確率を計算するために必要な時間D(1:6、S1:S6)は、以下の式(5)で与えられる。

D(1:6,S1:S6)=D1(1:3,S1:S3)+Dt(B)+D1(4:6,S4:S6) ・・・(5)

ここで、部分文法Bの転送に必要な時間Dt(B)は、第2の照合部108において、4番目のフレーム(t=4)から6番目のフレーム(t=6)までの音声特徴列に対してHMM状態列S1〜S3の前向き確率を計算するために必要な時間に等しい。すなわちDt(B)=D2(4:6,S1:S3)である。従って、式(5)は式(6)に変形できる。

D(1:6,S1:S6)=D1(1:3,S1:S3)+D2(4:6,S1:S3)+D1(4:6,S4:S6) ・・・(6)

また、第1の照合部107と第2の照合部108では、前向き確率を計算するための時間に差はない。すなわちD2(4:6,S1:S3)=D1(4:6,S1:S3)である。これにより、式(6)はさらに式(7)に変形できる。

D(1:6,S1:S6)=D1(1:3,S1:S3)+D1(4:6,S1:S3)+D1(4:6,S4:S6)=D1(1:3,S1:S3)+D1(4:6,S1:S3) ・・・(7)

(8−3)並列処理の効果
式(4)と式(7)を比較すると、式(7)は、式(4)において部分文法の転送に必要な時間Dt(B)=0となった場合に等しく、その左辺は式(4)に比べて小さくなる。
すなわち、部分文法の転送と並列に第2の照合部108の処理を実行することで、前向き確率を計算するために必要な時間Dから、部分文法Bの転送に必要な時間の影響を排除できる。
この結果、第2の文法記憶部103の容量を小さくすることでコストの増大を抑えつつ、文法転送部104における第1の文法記憶部102から第2の文法記憶部103への部分文法の転送に必要な時間に影響されず、高速な照合処理を実行できる。
(9)認識制御部106
認識制御部106は、文法転送部104における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107及び第2の照合部108を切り替える。
すなわち、第1の照合部107における照合部の進展に応じて文法転送部102が部分文法の転送を開始すると、認識制御部106は第1の照合部107を第2の照合部108へ切り替えて、部分文法の転送と並列に第2の照合部108による照合処理を実行する。
また、認識制御部106は、文法転送部102における部分文法の転送が完了したら、第2の照合部108を第1の照合部107へ切り替えて、第1の照合部107による処理を再開する。
(10)動作
次に、図14を用いて、本実施形態の動作を説明する。図14は、第1の実施形態の動作の一例を示すフローチャートである。
なお、特徴抽出部101の動作フローは当業者には自明であるため、このフローチャートでは記述を省略した。以下では、図14のフローチャートに基づく動作を、動作ステップS1〜S7毎に説明する。
(S1):文法転送部104において、第1の照合部107の照合処理の進展に基づき、部分文法の転送が必要かどうかを判断する。部分文法の転送が必要な場合はステップS4へ進む。そうでない場合にはステップS2へ進む。
(S2):第1の照合部107において、第2の文法記憶部103に記憶された部分文法を参照し、照合処理を実行する。
(S3):第1の照合部107あるいは第2の照合部108が、入力音声の終端に相当する音声特徴に対して照合処理を完了した場合にはステップS7へ進む。そうでない場合にはステップS1へ進み照合処理を継続する。
(S4):文法転送部104において、第1の照合部107で必要とされた部分文法を、第1の文法記憶部102から第2の文法記憶部103へ転送する。
(S5):第2の照合部108において、第2の文法記憶部103に記憶された部分文法を参照し、文法転送部104における部分文法の転送と並列に照合処理を実行する。
(S6):認識制御部106において、文法転送部104における部分文法の転送状況を監視し、部分文法の転送が完了していればステップS3へ進む。部分文法の転送が完了していない場合には、ステップS5へ進んで、第2の照合部108の処理を継続する。
(S7):第1の照合部107あるいは第2の照合部108において、最も大きい前向き確率を与える認識対象の語句を認識結果として出力する。
(11)効果
このように、本実施形態では、第2の文法記憶部103の容量を小さくすることで音声認識装置のコストの増大を抑えつつ、文法転送部104における第1の文法記憶部102から第2の文法記憶部103への部分文法の転送待ち時間に影響されず、高速な照合処理を実行することができる。
(12)変更例
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
例えば、上記実施形態では、照合部として、第1の照合部107及び第2の照合部108の2つを備え、これらの照合部を認識制御部106により切り替えて動作させるという構成をとっている。
しかし、第1の照合部107及び第2の照合部108を同一の照合部とし、認識制御部106からの指示に応じて、照合部の動作が第1の照合部107あるいは第2の照合部108の動作と等価となるように、照合部がその内部処理を切り替えるという構成もとることができる。
(第2の実施形態)
次に、第2の実施形態の音声認識装置について図11,図12、図15〜図18に基づいて説明する。
(1)第2の実施形態の特徴
第1の実施形態の第1の照合部107と第2の照合部108における前向き確率計算の式(3)によれば、t番目のフレームにおける前向き確率の計算は、一つ前のフレームt−1における前向き確率及びフレームtにおける音声特徴x(t)にのみ依存している。そのため、照合処理において、t番目のフレームにおける前向き確率α(i,t)を計算する際には、t−1番目のフレームにおける前向き確率α(i,t−1)(1=<i=<NS)のみを記憶しておき、t番目のフレームにおける音声特徴x(t)に対して前向き確率を計算すれば良い。
このように、t番目のフレームにおける前向き確率の計算において、t−1番目のフレームにおける前向き確率α(i,t−1)のみを記憶することとし、他の計算済みの前向き確率を忘却することで、任意の前向き確率を記憶するために必要なメモリ量を大幅に削減することができる。
また、t番目のフレームにおける音声特徴x(t)のみを参照し、t番目のフレームより過去のフレームの音声特徴列を忘却することで、任意の音声特徴を記憶するために必要なメモリ量を大幅に削減できる。
以下で説明する本実施形態は、照合部の前向き確率の計算の過程において、前向き確率及び音声特徴列を記憶するために必要なメモリ量を大幅に削減する効果を与えるものである。
(2)音声認識装置の構成
図15は、本実施形態の音声認識装置の構成例を表すブロック図である。
音声認識装置は、図1で示した第1の実施形態のブロック図とほぼ同じ構成をとり、特徴抽出部101、第1の文法記憶部102、第2の文法記憶部103、文法転送部104、モデル記憶部105、認識制御部106、第1の照合部107、第2の照合部108を備える。さらに、本実施形態は、第3の照合部109、音声特徴記憶部110、確率記憶部111を備える。
以下では、第1の実施形態との差分についてのみ説明する。
(3)音声特徴記憶部110
音声特徴記憶部110は、文法転送部104が部分文法の転送する間に、第2の照合部108の照合処理において参照された音声特徴列を、フレーム番号と関連付けて記憶する。この動作を図12及び図16を用いて説明する。
図12の枠線内は、第2の照合部108における前向き確率の計算の様子を示している。図12の例では、4番目のフレーム(t=4)から6番目のフレーム(t=6)までの間、部分文法Aに記述された部分語句W11に対応するHMM状態列S1〜S3の前向き確率が計算されている。このとき、音声特徴記憶部110は、図16の枠線内(音声特徴列)で例示したように、第2の照合部108の照合処理において参照された音声特徴列x(4)、x(5)、x(6)をフレーム番号と関連付けて記憶する。
(4)確率記憶部111
確率記憶部111は、第1の照合部107及び第2の照合部108において、後続部分語句をもつ部分語句に対応するHMM状態列の末尾状態まで前向き確率の計算が行われた場合に、当該末尾状態の状態番号とその前向き確率をフレーム番号と関連付けて記憶する。
この動作を図11、図12及び図16を用いて説明する。
図11は、第1の照合部107における、部分文法Aに記述された部分語句W11に対応するHMM状態列の前向き確率の計算の様子を示している。図11では、3番目のフレーム(t=3)において、部分語句W11に対応するHMM状態列の末尾状態S3の前向き確率が計算されている。
図12の枠線内は、第2の照合部108における、部分文法Aに記述された部分語句W11に対応するHMM状態列の前向き確率の計算の様子を示している。この前向き確率の計算は、文法転送部104における部分文法Bの転送と並列に実行される。
図16は、図11、図12をまとめた図となっており、これまで説明した第1の照合部107及び第2の照合部108による前向き確率の計算の様子をまとめて示している。図16の枠線内は、第1の照合部107及び第2の照合部108によって計算された、HMM状態列の末尾状態S3の前向き確率である。
図17の例では、3番目のフレーム(t=3)から6番目のフレーム(t=6)までの間で、末尾状態S3の前向き確率が計算されている。このとき、確率記憶部111は、図17の枠線内で示したHMM状態列の末尾状態S3の状態番号及び前向き確率α(3,3)、α(3,4)、α(3、5)、α(3,6)を、フレーム番号と関連付けて記憶する。
(5)第3の照合部109
第3の照合部109は、文法転送部104における部分文法の転送が完了した時点から、音声特徴記憶部110に記憶された音声特徴列に対して、文法転送部104が転送した後続部分文法に記述された認識対象の語彙及びその部分語句に対応するHMM状態列の前向き確率を計算する。この前向き確率の計算において、確率記憶部111に記憶された先行部分語句に対応するHMM状態列の末尾状態の前向き確率を参照する。この動作を図17の例で説明する。
図17の破線枠で囲まれているのは、図16の例において音声特徴記憶部110に記憶された音声特徴列x(4)、x(5)、x(6)及び確率記憶部111に記憶された前向き確率α(3,3)、α(3,4)、α(3,5)、α(3,6)を示している。図17の枠線内は、第3の照合部109における、音声特徴記憶部110に記憶された音声特徴列に対するHMM状態列の前向き確率の計算の様子を示している。このとき、図17の枠線内のHMM状態列の前向き確率を計算するためには、図17の破線枠に囲まれた音声特徴列x(4)、x(5)、x(6)及び前向き確率α(3,3)、α(3,4)、α(3,5)、α(3,6)を参照する必要がある。これらは前述の通り音声特徴記憶部110及び確率記憶部111に記憶されている。
第3の照合部109においてt番目のフレームの前向き確率を計算するためには、音声特徴記憶部110に記憶されている音声特徴列、及び、確率記憶部111に記憶されている末尾状態の前向き確率の他に、t−1番目のフレームにおける前向き確率α(i,t−1)のみ記憶すればよい。図17の例では、5番目のフレーム(t=5)の前向き確率α(i,5)(4=<i=<5)を計算するためには、4番目のフレーム(t=4)で計算した前向き確率α(i,4)(i=4)のみ記憶しておけば良い。さらに、6番目のフレーム(t=6)の前向き確率を計算するためには、5番目のフレーム(t=5)で計算した前向き確率のみ記憶すれば良く、4番目のフレーム(t=4)で計算した前向き確率を記憶する必要はない。このように、第3の照合部109における前向き確率の計算では、計算の過程で記憶すべき前向き確率α(i,t)の個数を大幅に削減できる。
また、第1の照合部107及び第2の照合部108の前向き確率の計算においても、t番目のフレームにおける前向き確率を計算するためには、t−1番目のフレームにおける前向き確率のみを記憶すれば良く、これにより計算の過程で記憶すべき前向き確率の個数を大幅に削減できる。
また、第1の照合部107、第2の照合部108では、t番目のフレームにおける音声特徴x(t)のみ参照すればよく、それ以外の音声特徴列を記憶する必要はない。
(6)認識制御部106
認識制御部106は、文法転送部102における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107、第2の照合部108及び第3の照合部を切り替える。
まず、第1の照合部107における照合部の進展に応じて文法転送部104が部分文法の転送を開始すると、認識制御部106は第1の照合部107を第2の照合部108へ切り替えて、部分文法の転送と並列に第2の照合部108による照合処理を実行する。
次に、認識制御部106は、文法転送部104における部分文法の転送が完了したら、第2の照合部108を第3の照合部109へ切り替えて、第3の照合部109による照合処理を開始する。
次に、認識制御部106は、第3の照合部109が音声特徴記憶部110に記憶された音声特徴列に対する照合処理を終えた時点で、第3の照合部109を第1の照合部107へ切り替えて、第1の照合部107による照合処理を再開する。
(7)動作
次に、図18を用いて、本実施形態の動作を説明する。図18は、第2の実施形態の動作の一例を示すフローチャートである。
なお、特徴抽出部101の動作フローは当業者には自明であるため、このフローチャートでは記述を省略した。以下では、図18のフローチャートに基づく動作を、動作ステップS1〜S15毎に説明する。
(S1):文法転送部104において、第1の照合部107の照合処理の進展に基づき、部分文法の転送が必要かどうかを判断する。部分文法の転送が必要な場合はステップS4へ進む。そうでない場合にはステップS2へ進む。
(S2):第1の照合部107において、第2の文法記憶部103に記憶された部分文法を参照し、照合処理を実行する。
(S3):確率記憶部111において、第1の照合部107が計算した前向き確率のうち、後続語句をもつ部分語句に対応するHMM状態列の末尾状態の前向き確率を、フレーム番号と関連付けて記憶する。
(S4):第1の照合部107あるいは第2の照合部108が、入力音声の終端に相当する音声特徴に対して照合処理を完了した場合にはステップS7へ進む。そうでない場合にはステップS1へ進み照合処理を継続する。
(S5):文法転送部104において、第1の照合部107で必要とされた部分文法を、第1の文法記憶部102から第2の文法記憶部103へ転送する。
(S6):第2の照合部108において、第2の文法記憶部103に記憶された部分文法を参照し、文法転送部104における部分文法の転送と並列に照合処理を実行する。
(S7):音声特徴記憶部110において、第2の照合部108の前向き確率の計算で参照された音声特徴列を、フレーム番号に関連付けて記憶する。
(S8):確率記憶部111において、第2の照合部108が計算した前向き確率のうち、後続語句をもつ部分語句に対応するHMM状態列の末尾状態の前向き確率を、フレーム番号と関連付けて記憶する。
(S9):認識制御部106において、文法転送部104における部分文法の転送状況を監視し、部分文法の転送が完了していればステップS10へ進む。部分文法の転送が完了していない場合には、ステップS6へ進んで、第2の照合部108の処理を継続する。
(S10):第3の照合部109において、音声特徴記憶部110に記憶された音声特徴列に対して、確率記憶部111に記憶されたHMM状態列の末尾状態の前向き確率を参照し、照合処理を実行する。
(S11):認識制御部106において、第3の照合部109を監視し、第3の照合部109の処理が完了していればステップS11へ進む。完了していなければステップS10へ進み第3の照合部109の処理を継続する。
(S12):第1の照合部107、第2の照合部108、第3の照合部109において、最も大きい前向き確率を与える認識対象の語句を認識結果として出力する。
(8)効果
このように本実施形態では、第1の照合部107、第2の照合部108、第3の照合部109の前向き確率の計算の過程において、前向き確率及び音声特徴列を記憶しておくためのメモリ量を大幅に削減できる。
(9)変更例
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
例えば、本実施形態では、照合部として、第1の照合部107、第2の照合部108、第3の照合部109の3つを備え、これらの照合部を認識制御部106により切り替えて動作させるという構成をとっている。
しかし、第1の照合部107、第2の照合部108、第3の照合部109を同一の照合部とし、認識制御部106からの指示に応じて、照合部の動作が第1の照合部107、第2の照合部108、第3の照合部109の動作と等価となるように、照合部がその内部処理を切り替えるという構成もとることができる。
(第3の実施形態)
次に、第3の実施形態の音声認識装置について図1に基づいて説明する。
本実施形態の音声認識装置の構成例は、第1の実施形態の音声認識装置の構成例を表す図1と同様である。第3の実施形態では、文法転送部104及び認識制御部106の動作の一部が第1の実施形態と異なる。そこで、以下では、第3の実施形態における認識制御部106の動作についてのみ説明する。
(1)第3の実施形態の特徴
本実施形態では、文法転送部104における部分文法の転送において、予め定めた時間を経過しても部分文法の転送が完了しない場合には、部分文法の転送を中止する。但し、この時間は、第2の照合部108の処理において参照されたフレーム数を単位として定めても良い。
すなわち、部分文法の転送を開始してから100msecというように定めても良い。また、部分文法の転送を開始してから第2の照合部108において5フレーム分の音声特徴列に対する前向き確率の計算を完了した時点というように定めても良い。この時間は、任意の値を設定できる。
(2)認識制御部106
認識制御部106は、文法転送部104における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107及び第2の照合部108を切り替える。
このとき、文法転送部104において、部分文法の転送が中止された場合には、部分文法の転送と並列に動作している第2の照合部108の処理を停止し、第2の照合部108を第1の照合部107へ切り替えて、第1の照合部107による処理を再開する。あるいは、第2の照合部108の処理を停止すると共に、音声認識装置の全ての処理を停止し、文法転送部104において部分文法の転送が中止されたことを音声認識装置の使用者に通知する。
(3)効果
本実施形態では、文法転送部104における部分文法の転送において、予め定めた時間を経過しても部分文法の転送が完了しなかった場合に、文法転送部104が部分文法の転送を中止し、認識制御部106が第2の照合部107を第1の照合部106へ切り替えることで、照合処理を継続する。
一般に、ある記憶装置から別の記憶装置へのデータ転送では、記憶装置あるいはデータ転送路における予期できない不具合により、データ転送の速度が極端に低下する、あるいは、失敗する場合がある。文法転送部104における部分文法の転送において、そのような部分文法の転送速度の極端な低下あるいは転送の失敗が発生すると、文法転送部104における部分文法の転送を完了できず、音声認識装置の動作状態が停留してしまう。
そこで本実施形態では、そのような部分文法の転送速度の極端な低下あるいは転送の失敗を、文法転送部104において検出し、それに応じて文法転送部104及び認識制御部106を動作させることで、音声認識装置の動作状態の停留を防ぐことができる。
本発明の第1の実施形態に関わる音声認識装置の構成例を示すブロック図である。 認識対象の語句の例である。 認識対象の語句を記述する文法の例である。 認識対象の語句を記述する文法を1つ以上の部分文法に分割した例である。 HMMの例である。 部分語句に対応する複数のHMMを接続したHMMの例である。 多数の遷移をもつHMMの例である。 複数の部分語句に対応するHMM状態列に対する照合を解説する図である。 第1の実施形態における第1の照合部の照合処理を解説する図1である。 従来技術による照合処理を実行した場合の図である。 第1の照合部の照合処理を解説する図である。 第2の照合部の照合処理を解説する図である。 第1の照合部の照合処理を解説する図3である。 第1の実施形態のフローチャートである。 第2の実施形態に関わる音声認識装置の構成例を示すブロック図である。 第1照合部と第2の照合部の照合処理を解説する図である。 第3の照合部の照合処理を解説する図である。 第2の実施形態のフローチャートである。
符号の説明
101 特徴抽出部
102 第1の文法記憶部
103 第2の文法記憶部
104 文法転送部
105 モデル記憶部
106 認識制御部
107 第1の照合部
108 第2の照合部

Claims (15)

  1. 入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成部と、
    文法に基づいて表現された語句が複数あり、前記各語句を分割して得られた1つ以上の連続する部分語句があり、前記部分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
    前記各語句に属する1つ以上の連続する部分語句に関する部分文法を格納する第1の文法記憶部と、
    前記第1の文法記憶部から転送された少なくとも一部の前記部分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
    前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成部で生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合部と、
    前記第1の照合部において尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記部分語句の後続となる後続部分語句に関する後続部分文法を転送する文法転送部と、
    前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成部で生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合部と、
    前記第2の文法記憶部に転送された前記後続部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第3の照合部と、
    (1)前記語句毎に行うものであり、(2)前記後続部分文法の転送開始までは前記第1の照合部を動作させ、(3)前記転送の開始から完了までの間は前記第2の照合部を前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合部を動作させ、(5)前記各語句に属する部分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御部と、
    前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識部と、
    を備える音声認識装置。
  2. 前記第1の照合部と前記第3の照合部とが同一の照合部であり、前記認識制御部からの指示に応じて、当該照合部の動作が前記第1の照合部と前記第3の照合部の動作と等価となるように、当該照合部がその内部処理を切り替える、
    請求項1記載の音声認識装置。
  3. 前記第1の照合部と前記第2の照合部のそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
    前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
    を備え、
    前記第3の照合部は、
    前記転送された前記後続部分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
    請求項1記載の音声認識装置。
  4. 前記文法転送部は、前記転送が一定時間を経過しても完了しない場合には、前記後続部分文法の転送を中止する、
    請求項1記載の音声認識装置。
  5. 前記認識制御部は、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合部を動作させる、
    請求項4記載の音声認識装置。
  6. 文法に基づいて表現された語句が複数あり、前記各語句のそれぞれを分割して得られた1つ以上の連続する部分語句があり、前記部分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
    前記各語句にそれぞれ属する1つ以上の連続する部分語句に関するそれぞれの部分文法を格納する第1の文法記憶部と、
    前記第1の文法記憶部から転送された全ステップまたは一ステップの前記部分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
    を備えた音声認識装置における音声認識方法であって、
    入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成ステップと、
    前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成ステップで生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合ステップと、
    前記第1の照合ステップにおいて尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記部分語句の後続となる後続部分語句に関する後続部分文法を転送する文法転送ステップと、
    前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成ステップで生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合ステップと、
    前記第2の文法記憶部に転送された前記後続部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を、末尾状態まで求める第3の照合ステップと、
    (1)前記語句毎に行うものであり、(2)前記後続部分文法の転送開始までは前記第1の照合ステップを動作させ、(3)前記転送の開始から完了までの間は前記第2の照合ステップを前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合ステップを動作させ、(5)前記各語句に属する部分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御ステップと、
    前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識ステップと、
    を備える音声認識方法。
  7. 前記第1の照合ステップと前記第3の照合ステップとが同一の照合ステップであり、前記認識制御ステップからの指示に応じて、当該照合ステップの動作が前記第1の照合ステップと前記第3の照合ステップの動作と等価となるように、当該照合ステップがその内部処理を切り替える、
    請求項6記載の音声認識方法。
  8. 前記第1の照合ステップと前記第2の照合ステップのそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
    前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
    を備え、
    前記第3の照合ステップは、
    前記転送された前記後続部分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
    請求項6記載の音声認識方法。
  9. 前記文法転送ステップは、前記転送が一定時間を経過しても完了しない場合には、前記後続部分文法の転送を中止する、
    請求項8記載の音声認識方法。
  10. 前記認識制御ステップは、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合ステップを動作させる、
    請求項9記載の音声認識方法。
  11. 文法に基づいて表現された語句が複数あり、前記各語句のそれぞれを分割して得られた1つ以上の連続する機能分語句があり、前記機能分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
    前記各語句にそれぞれ属する1つ以上の連続する機能分語句に関するそれぞれの機能分文法を格納する第1の文法記憶部と、
    前記第1の文法記憶部から転送された全機能または一機能の前記機能分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
    を備えたコンピュータにおける音声認識プログラムであって、
    入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成機能と、
    前記第2の文法記憶部に格納された前記機能分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成機能で生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合機能と、
    前記第1の照合機能において尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記機能分語句の後続となる後続機能分語句に関する後続機能分文法を転送する文法転送機能と、
    前記第2の文法記憶部に格納された前記機能分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成機能で生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合機能と、
    前記第2の文法記憶部に転送された前記後続機能分文法と前記モデル記憶部に格納された前記後続機能分文法における前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第3の照合機能と、
    (1)前記語句毎に行うものであり、(2)前記後続機能分文法の転送開始までは前記第1の照合機能を動作させ、(3)前記転送の開始から完了までの間は前記第2の照合機能を前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合機能を動作させ、(5)前記各語句に属する機能分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御機能と、
    前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識機能と、
    を実現する音声認識プログラム。
  12. 前記第1の照合機能と前記第3の照合機能とが同一の照合機能であり、前記認識制御機能からの指示に応じて、当該照合機能の動作が前記第1の照合機能と前記第3の照合機能の動作と等価となるように、当該照合機能がその内部処理を切り替える、
    請求項11記載の音声認識プログラム。
  13. 前記第1の照合機能と前記第2の照合機能のそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
    前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
    を備え、
    前記第3の照合機能は、
    前記転送された前記後続機能分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
    請求項11記載の音声認識プログラム。
  14. 前記文法転送機能は、前記転送が一定時間を経過しても完了しない場合には、前記後続機能分文法の転送を中止する、
    請求項11記載の音声認識プログラム。
  15. 前記認識制御機能は、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合機能を動作させる、
    請求項14記載の音声認識プログラム。
JP2007212811A 2007-08-17 2007-08-17 音声認識装置及びその方法 Expired - Fee Related JP4940057B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007212811A JP4940057B2 (ja) 2007-08-17 2007-08-17 音声認識装置及びその方法
US12/047,776 US8015007B2 (en) 2007-08-17 2008-03-13 Speech recognition apparatus and method thereof
CNA2008101686164A CN101369425A (zh) 2007-08-17 2008-08-15 语音识别装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007212811A JP4940057B2 (ja) 2007-08-17 2007-08-17 音声認識装置及びその方法

Publications (2)

Publication Number Publication Date
JP2009047838A JP2009047838A (ja) 2009-03-05
JP4940057B2 true JP4940057B2 (ja) 2012-05-30

Family

ID=40363646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212811A Expired - Fee Related JP4940057B2 (ja) 2007-08-17 2007-08-17 音声認識装置及びその方法

Country Status (3)

Country Link
US (1) US8015007B2 (ja)
JP (1) JP4940057B2 (ja)
CN (1) CN101369425A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US9449598B1 (en) * 2013-09-26 2016-09-20 Amazon Technologies, Inc. Speech recognition with combined grammar and statistical language models
KR102246900B1 (ko) * 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
CN112071310B (zh) * 2019-06-11 2024-05-07 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6350895A (ja) * 1986-08-21 1988-03-03 日本電信電話株式会社 音声照合並列プロセツサ方式
JP3226716B2 (ja) * 1994-05-31 2001-11-05 日本電気株式会社 音声認識装置
JP3546633B2 (ja) 1997-03-12 2004-07-28 三菱電機株式会社 音声認識装置
JP3969079B2 (ja) * 2001-12-12 2007-08-29 ソニー株式会社 音声認識装置および方法、記録媒体、並びにプログラム
JP5103907B2 (ja) * 2005-01-17 2012-12-19 日本電気株式会社 音声認識システム、音声認識方法及び音声認識プログラム
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring

Also Published As

Publication number Publication date
US20090048839A1 (en) 2009-02-19
JP2009047838A (ja) 2009-03-05
US8015007B2 (en) 2011-09-06
CN101369425A (zh) 2009-02-18

Similar Documents

Publication Publication Date Title
US11423883B2 (en) Contextual biasing for speech recognition
US10741170B2 (en) Speech recognition method and apparatus
US9697827B1 (en) Error reduction in speech processing
JP4316494B2 (ja) 音声認識装置
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
US20160260428A1 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
JP4940057B2 (ja) 音声認識装置及びその方法
WO2015021844A1 (en) Keyword detection for speech recognition
Hori et al. Real-time one-pass decoding with recurrent neural network language model for speech recognition
JP2001242884A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US20130138441A1 (en) Method and system for generating search network for voice recognition
JP7351018B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
JP2002082689A (ja) 語彙ツリーを用いた認識システム
JP5103907B2 (ja) 音声認識システム、音声認識方法及び音声認識プログラム
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JP2003208195A5 (ja)
Dixon et al. A comparison of dynamic WFST decoding approaches
Rybach et al. On lattice generation for large vocabulary speech recognition
Liu et al. Efficient dynamic wfst decoding for personalized language models
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2003140685A (ja) 連続音声認識装置およびそのプログラム
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4940057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees