JP2015087555A - 音声認識装置とその方法とプログラムとその記録媒体 - Google Patents

音声認識装置とその方法とプログラムとその記録媒体 Download PDF

Info

Publication number
JP2015087555A
JP2015087555A JP2013226120A JP2013226120A JP2015087555A JP 2015087555 A JP2015087555 A JP 2015087555A JP 2013226120 A JP2013226120 A JP 2013226120A JP 2013226120 A JP2013226120 A JP 2013226120A JP 2015087555 A JP2015087555 A JP 2015087555A
Authority
JP
Japan
Prior art keywords
wfst
stage
speech recognition
acoustic model
wfsts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013226120A
Other languages
English (en)
Other versions
JP5875569B2 (ja
Inventor
山口 義和
Yoshikazu Yamaguchi
義和 山口
浩和 政瀧
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013226120A priority Critical patent/JP5875569B2/ja
Publication of JP2015087555A publication Critical patent/JP2015087555A/ja
Application granted granted Critical
Publication of JP5875569B2 publication Critical patent/JP5875569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】メモリサイズの増加を少なくできると共に複数の音声に対応できる音声認識装置を提供する。
【解決手段】第1段WFSTと、第2段WFSTと、音声認識部とを具備する音声認識装置であって、音声認識部は、利用音響モデル情報記憶部と、結合WFST作成部と、探索部と、を備える。第1段WFSTは、N個の音響モデルのWFSTとトライフォンWFSTと辞書WFSTとユニグラムWFSTを合成したN個のWFSTである。第2段WFSTは、第1段WFSTに含まれないM個のWFSTである。結合WFST作成部は、利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第1段WFSTに接続するための結合WFSTを作成する。探索部は、結合WFSTと第1段WFSTと第2段WFSTとを用いて多段on-the-fly合成によるWFST音声認識を行う。
【選択図】図1

Description

この発明は、複数種類の音響モデルを用いた重み付有限状態トランスデューサ(以下、WFSTと称する)を探索することで音声認識処理を実行する音声認識装置とその方法と、プログラムとその記録媒体に関する。
WFSTを探索することで音声認識処理を実行する音声認識装置において、複数の音響モデルを利用する場合は、音響モデルの数にほぼ比例してWFSTのメモリサイズが増大する。メモリサイズの増大を抑制する目的で、異なる音響モデルの状態構造の共通性に着目して音響モデルWFSTを併合する考えが、例えば特許文献1に開示されている。
特許第5175325号公報
最近の音声認識装置は、CPUパワーの拡大に伴い1台の装置で複数の入力音声を同時に音声認識処理するものも存在する。そのような複数の音声認識サービスに対応しようとした場合、従来の音響モデルWFSTを併合してメモリサイズを縮小する考えでは対応が難しくなって来ている。つまり、複数の音声認識サービスに対応するためには、サービスごとに音響モデルを含むWFSTを個別に構成する必要がある。従来の方法で個々の音響モデルWFSTのサイズを小さくしても音響モデルWFSTの数が増えてしまう。その結果、メモリサイズが増大してしまう課題がある。
この発明は、このような課題に鑑みてなされたものであり、メモリサイズの増加を少なくできると共に複数の音声に対応できるようにした音声認識装置とその方法とプログラムとその記録媒体を提供することを目的とする。
この発明の音声認識装置は、第1段WFSTと、第2段WFST乃至第M段WFSTと、音声認識部とを具備する音声認識装置であって、その音声認識部は、利用音響モデル情報記憶部と、結合WFST作成部と、探索部と、を備える。第1段WFSTは、N個(N≧2)の音響モデルのWFSTとトライフォンWFSTと辞書WFSTとユニグラムWFSTを合成したN個のWFSTである。第2段WFST乃至第M段WFSTは、第1段WFSTに含まれない1個以上のWFSTである。利用音響モデル情報記憶部は、上記N個の音響モデルを特定する音響モデル情報を記憶する。結合WFST作成部は、利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第1段WFSTに接続するための結合WFSTを作成する。探索部は、結合WFSTと第1段WFSTと第2段WFST乃至第M段WFSTの何れかとを用いて多段on-the-fly合成によるWFST音声認識を行う。
本発明の音声認識装置によれば、N個の音響モデルに対応する第1段WFSTを、結合WFSTで組み合わせ、その組み合わせた既存の第1段WFSTと、既存の第2段WFST〜第M段WFSTの何れかとを用いて音声認識を行う。したがって、音声認識サービスに対応させて新たに音響モデルWFSTを用意する必要が無いので、メモリサイズを増大させることなく複数の音声認識サービスに対応可能な音声認識装置を実現することができる。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 結合WFSTと第1段WFSTの接続例を示す図。 この発明の音声認識装置200の機能構成例を示す図。 実施例2の結合WFSTの例を示す図。 第2段WFSTに付加する状態遷移の例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、N個の第1段WFST10,10,…,10と、第1段WFSTに含まれない1個以上のWFSTの第2段WFST30乃至第M段WFST30と、複数の音声認識部20,…,20と、を具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
第1段WFST10は、音響モデルn(1≦n≦N)のWFSTと、トライフォンWFSTと、辞書WFSTと、ユニグラムWFSTを予め合成し、最適化演算したWFSTである。例えば、音響モデル1は男性の声、音響モデル2は女性の声、の音響モデルのWFSTである。WFSTの合成・最適化方法は、例えば参考文献1(堀貴明,塚田元,「重み付き有限状態トランスデューサによる音声認識」情報処理,2004年10月15日,第45巻10号)に記載された公知の方法を用いる。
複数(L個)ある音声認識部の1つの音声認識部20は、利用音響モデル情報記憶部21と、結合WFST作成部22と、探索部24と、を備える。音声認識装置100は、この音声認識部20をL個備える。音声認識部20と音声認識部20とは、添え字を変えてそれぞれが独立したものであることを表すが、その構成は全く同じである。
利用音響モデル情報記憶部21は、サービスごとに振り分けられるN個の音響モデルを特定する音響モデル情報を記憶している。例えば、音声認識部20が音響モデル1と3と5を用いてAサービス用の音声認識をすると仮定した場合、利用音響モデル情報記憶部21は、例えば「1,3,5」の音響モデルを識別する情報を記憶している。例えば、音響モデル1は「男性の声」、音響モデル3は「壮年の声」、音響モデル5は「女性の声」、でそれぞれ学習した音響モデルと仮定する。
結合WFST作成部22は、利用音響モデル情報記憶部21に記憶された音響モデル情報に対応する第1段WFST10に接続するための結合WFSTを作成する(ステップS22)。図3に、結合WFSTと第1段WFST10の接続例を示して結合WFSTを説明する。
結合WFST作成部22は、利用音響モデル情報記憶部21の記憶している音響モデルに対応する第1段WFST10の初期状態及び終了状態に接続する結合WFSTを作成する(ステップS22)。利用音響モデル情報記憶部21に、「1,3,5」を記憶している場合を例に説明する。先ず、結合WFST作成部22は、状態s1(初期状態)と状態s2を作成する。次に入力シンボルと出力シンボルが共にε(空)で、状態s1から音響モデル1を含む第1段WFST10の初期状態へ接続する遷移を作成する。同様に音響モデル3と5に対応する第1段WFST10と10についても状態s1からの遷移を作成する。次に入力シンボルと出力シンボルが共にεで、第1段WFST10,10,10のそれぞれの終了状態から状態s2へ接続する遷移を作成する。
作成した結合WFSTは、状態s1から各第1段WFST10の初期状態に接続する遷移と、各第1段WFST10の終了状態から状態s2へ接続する遷移の、比較的に少ない情報量である。よって、その情報を結合WFST作成部22の内部に保持するようにしても良い。又は、図1に結合WFST記憶部23(1≦*≦L)を破線で示すように、作成した結合WFSTを記憶する手段を設けても良い。
探索部24は、結合WFSTと第1段WFST10と第2段WFST30〜第M段WFST30を用いて多段on-the-fly合成によるWFST音声認識を行う(ステップS24)。ここでの第1段WFST10は、例えば上記した第1段WFST10,10,10の3個のWFSTである。また、第2段WFST30〜第M段WFST30は、第1段WFST10に含まれないWFSTであり、M個用意されている。なお、第M段のWFSTの添え字を分かり易くする目的で2(30)から記載している関係で、第2段WFST30〜第M段WFST30の数は正しくは(M−1)個である。
第2段WFST30は、入出力シンボルが第1段WFST10と同じで且つ重みを持つWFSTである。式(1)に第1段WFST10と第2段WFST30との関係を示す。
Figure 2015087555
ここで、HはHMMの状態から文脈依存音素へのWFST、Cは文脈依存音素から文脈非依存音素へのWFST、Lは文脈非依存音素から単語へのWFST、Gは単語からユニグラム単語へのWFSTである。(・)のWFSTは事前に合成される。G3/1は、第2段WFST30を表し、この式(1)では単語トライグラム確率を単語ユニグラム確率で割った値を持つWFSTである。○は、WFSTの合成演算を表す記号である。このWFSTの合成演算については、参考文献2(Takaaki Hori,Atsushi Nakamura “Generalized Fast On-the-fly Composition Algorithm fot WFST-Based Speech Recognition”,Proc. Of INTERSPEECH 2005.)に記載されているように周知である。
式(1)は、第2段WFST30がG3/1の1個の場合を示すが、第2段WFST30〜第M段WFST30の数は任意の複数個を接続することが可能である。例えば次式に示すようにクラス言語モデルを利用する場合は複数のWFSTを縦続に接続しても良い。
Figure 2015087555
ここでTは、ユニグラム単語を単語クラスに変換するWFSTである。式(2)に示す例では、第2段WFST30がT、第3段WFST30がG 3/1となる。
このように単語言語モデルを利用する場合はM=2であり、第2段WFST30は単語トライグラムWFSTである。また、クラス言語モデルを利用する場合はM=3であり、第2段WFST30は単語からクラスへの変換WFST、第3段WFST30はクラストライグラムWFSTである。このようにM段は、WFSTの段数を表す数値である。
式(1)の例では、第2段WFST30は音声認識部20が変わっても固定である。また、式(2)の例では第1段WFST10が音響モデルに対応して変わっても、第2段WFST30と第3段WFST30の2つのWFSTが用いられる点で変化がない。WFSTの探索は、各音声認識部20の探索部24が行う。このように合成可能なWFSTを、第2段WFST30の後に複数個接続するようにしても良い。
なお、第2段WFST30〜第M段WFST30の構成は、各音声認識部20のそれぞれに対応させて変えても良い。図4に、各音声認識部20において、第2段WFST30〜第M段WFST30の構成を任意に変えられるようにした音声認識装置200の機能構成例を示す。
音声認識装置200は、音声認識装置100に対して各音声認識部20′が第2段WFST組合せ部211を備える点でのみ異なる。第2段WFST組合せ部211は、例えば探索部24に対して探索する第2段WFST30がG3/1のWFSTの1個であることを指示する情報を保持している。探索部24は、第2段WFST組合せ部211を参照して、式(1)で合成されたWFSTを用いて音声認識を行う。
第2段WFST組合せ部211は、例えば、第2段WFST30のTと第3段WFST30のG3/1の2個のWFSTの縦続接続であることを指示する情報を保持している。探索部24は、第2段WFST組み合わせ部211を参照して、式(2)で合成されるWFSTを用いて音声認識を行う。このように、各音声認識部20′毎に第2段WFST以降の構成を変化させるようにしても良い。
音声認識部20′は、それぞれ異なる入力音声を音声認識する。入力音声1を音声認識する音声認識部20′の探索部24には、入力音声1が入力される。入力音声Lを音声認識する音声認識部20′の探索部24には、入力音声Lが入力される。例えば、入力音声1は男性の声、入力音声Lは女性の声のように異なる。入力音声の音声認識部20′への振り分けは、音声認識装置100,200を構成する例えばコンピュータの入力ポートの番号に一対一に対応付けることで行っても良い。又は、音声信号分配部50を設け、入力音声の特徴に応じて入力音声を接続する音声認識部20′を自動的に選択するようにしても良い。
音声認識部20′の音声認識処理は、入力音声信号が一定時間以上の間入力されない場合、又は、図示しない動作停止信号が制御部40に入力されるまで繰り返される(ステップS40のNo)。このステップS22とステップS24の時系列動作の制御と動作終了の制御は制御部40が行う。この制御部40の機能は、この実施例の特別な技術的特徴では無く一般的なものである。
以上説明した音声認識装置100,200によれば、異なるサービスや利用環境などにより、音声認識部20(20′)で利用する音響モデルが異なる場合でも、増加するWFSTは結合WFSTの分だけである。つまり、状態s1,s2が2×L個、遷移数が最大でも2×N×L個であり、メモリ増加を抑制することができる。
実施例1では、結合WFSTの入力シンボルと出力シンボルを共にε(空)で説明した。出力シンボルをεとすると、音声認識結果で用いられた音響モデル情報を知ることができないが、分かると便利である。
そこで、音声認識結果に用いた音響モデルの情報を付加する方法について説明する。図5に、音声認識結果に音響モデルの情報を付加する場合の結合WFSTの例を示す。図5に示す結合WFSTは、状態s1から各第1段WFST10の初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す数値が付加されている点で、上記した結合WFST(図3)と異なる。
図5は、状態s1から第1段WFST10への遷移の出力シンボルは音響モデル情報を表す数値1、同じく第1段WFST10への遷移の出力シンボルには数値3、第1段WFST10への遷移の出力シンボルには数値5、がそれぞれ付加された例を示す。そして更に、第1段WFST10に縦続接続される第2段WFST30〜第M段WFST30の初期状態の前に状態s3を追加し、状態s3とその初期状態との間の遷移の入出力シンボルに音響モデル情報を示す数値を付加する。付加された状態s3と入出力シンボルは、第2段WFST30〜第M段WFST30のそれぞれと一体となって記憶される。
図6に、第2段WFSTに付加する状態遷移の例を示す。第1段WFST10に縦続に接続される第2段WFST30〜第M段WFST30は、単独の場合と2個以上の複数個が接続される場合があるが、状態s3と入出力シンボルの追加は縦続接続される全てのWFSTにそれぞれ付加する。
以上の工夫により、結合WFSTが出力した音響モデル情報が第2段〜第M段WFSTへの入力となり、音声認識結果として出力されることとなる。例えば「1 お電話ありがとうございます」、「3 東京から大阪まで行きたい」というように、音声認識結果の冒頭に音響モデル情報を付与して出力することが可能になる。音響モデル情報を知ることができれば、音声認識結果に加えて認識対象の入力音声の種別等を知ることが可能になる。実施例2の考えは、音声認識装置100,200に適応が可能である。なお、状態遷移に音響モデル情報を示す数値を付加する例で説明を行ったが、音響モデルが識別可能であれば数値以外の記号を付加するようにしても良い。
以上説明したように音声認識装置100,200は、利用する音響モデルごとにそれを含む第1段WFST10を作成しておき、各音声認識部20で利用する1つあるいは複数の第1段WFST10を選択し、それらを結合させる結合WFSTを作成する。結合WFSTは第1段WFST10の記憶領域を参照するので、新たに第1段WFST10を作成する必要が無い。そして、複数の音響モデルに対応した複数の第1段WFST10と、更には合成可能な第2段WFST30乃至第M段WFST30を多段on-the-fly合成をすることにより、複数の音響モデルに対応させた音声認識処理を実現する。第1段WFST10と第2段WFST30〜第M段WFST30は、既存のものを組み合わせて用いるので、メモリサイズを増大させることなく複数の音声認識サービスに対応可能な音声認識装置を実現することができる。音声認識装置100,200は、1台の装置で複数の音声認識サービスを共有するサーバ型音声認識に好適である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. N個(N≧2)の音響モデルのWFSTとトライフォンWFSTと辞書WFSTとユニグラムWFSTを合成したN個の第1段WFSTと、
    上記第1段WFSTに含まれない1個以上のWFSTの第2段WFST乃至第M段WFSTと、
    上記第1段WFSTと上記第2段WFST乃至第M段WFSTを用いて複数の入力音声を音声認識する複数の音声認識部と、
    を具備する音声認識装置であって、
    上記音声認識部は、
    上記N個の音響モデルを特定する音響モデル情報を記憶した利用音響モデル情報記憶部と、
    上記利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第1段WFSTに接続するための結合WFSTを作成する結合WFST作成部と、
    上記結合WFSTと上記第1段WFSTと、上記第2段WFST乃至第M段WFSTの何れかとを用いて多段on-the-fly合成によるWFST音声認識を行う探索部と、
    を備えることを特徴とする音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記第2段WFSTは、入出力シンボルが上記第1段WFSTと同じで且つ重みを持つWFSTであることを特徴とする音声認識装置。
  3. 請求項1又は2に記載した音声認識装置において、
    上記結合WFSTの初期状態から各第1段WFSTの初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す記号が付加されると共に、第1段WFSTに縦続接続される第2段WFST乃至第M段WFSTの何れかの初期状態の前に新たな状態を追加し、当該新たな状態と上記初期状態との間の遷移の入出力シンボルに音響モデル情報を示す記号を付加したことを特徴とする音声認識装置。
  4. N個(N≧2)の音響モデルのWFSTとトライフォンWFSTと辞書WFSTとユニグラムWFSTを合成したN個の第1段WFSTと、当該第1段WFSTに含まれない1個以上のWFSTの第2段WFST乃至第M段WFSTとを用いて複数の入力音声を音声認識する複数の音声認識過程を、備える音声認識方法であって、
    上記音声認識過程は、
    利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第1段WFSTに接続するための結合WFSTを作成する結合WFST作成ステップと、
    上記結合WFSTと上記第1段WFSTと、上記第2段WFST乃至第M段WFSTの何れかとを用いて多段on-the-fly合成によるWFST音声認識を行う探索過程と、
    を含むことを特徴とする音声認識方法。
  5. 請求項4に記載した音声認識方法において、
    上記第2段WFSTは、入出力シンボルが上記第1段WFSTと同じで且つ重みを持つWFSTであることを特徴とする音声認識方法。
  6. 請求項4又は5に記載した音声認識方法において、
    上記結合WFSTの初期状態から各第1段WFSTの初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す記号が付加されると共に、第1段WFSTに縦続接続される第2段WFST乃至第M段WFSTの何れかの初期状態の前に新たな状態を追加し、当該新たな状態と上記初期状態との間の遷移の入出力シンボルに音響モデル情報を示す記号を付加したことを特徴とする音声認識方法。
  7. 請求項1乃至3の何れかに記載した音声認識装置の各部の機能を、コンピュータに実行させるためのプログラム。
  8. 請求項7記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2013226120A 2013-10-31 2013-10-31 音声認識装置とその方法とプログラムとその記録媒体 Active JP5875569B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013226120A JP5875569B2 (ja) 2013-10-31 2013-10-31 音声認識装置とその方法とプログラムとその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013226120A JP5875569B2 (ja) 2013-10-31 2013-10-31 音声認識装置とその方法とプログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2015087555A true JP2015087555A (ja) 2015-05-07
JP5875569B2 JP5875569B2 (ja) 2016-03-02

Family

ID=53050409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013226120A Active JP5875569B2 (ja) 2013-10-31 2013-10-31 音声認識装置とその方法とプログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP5875569B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
US10714080B2 (en) 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5719997A (en) * 1994-01-21 1998-02-17 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
JP2000010587A (ja) * 1998-06-23 2000-01-14 Hitachi Ltd 仮名入力電話音声認識装置
US20040034519A1 (en) * 2000-05-23 2004-02-19 Huitouze Serge Le Dynamic language models for speech recognition
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP5175325B2 (ja) * 2010-11-24 2013-04-03 日本電信電話株式会社 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5719997A (en) * 1994-01-21 1998-02-17 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
JP2000010587A (ja) * 1998-06-23 2000-01-14 Hitachi Ltd 仮名入力電話音声認識装置
US20040034519A1 (en) * 2000-05-23 2004-02-19 Huitouze Serge Le Dynamic language models for speech recognition
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP5175325B2 (ja) * 2010-11-24 2013-04-03 日本電信電話株式会社 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015034236; 大西 翼 Tasuku OONISHI: 'WFST音声認識デコーダにおけるon-the-fly合成の最適化処理 Optimization of On-the-Fly Com' 電子情報通信学会論文誌 (J92-D) 第7号 THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS (J 第J92-D巻、No.7, 20090701, p.1026-1035, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
US11664020B2 (en) 2015-11-06 2023-05-30 Alibaba Group Holding Limited Speech recognition method and apparatus
US10714080B2 (en) 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data

Also Published As

Publication number Publication date
JP5875569B2 (ja) 2016-03-02

Similar Documents

Publication Publication Date Title
EP3373293B1 (en) Speech recognition method and apparatus
CN106688034B (zh) 具有情感内容的文字至语音转换
JP5554304B2 (ja) オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP6614639B2 (ja) 音声認識装置及びコンピュータプログラム
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP2015127758A (ja) 応答制御装置、制御プログラム
KR20210138776A (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US20130138441A1 (en) Method and system for generating search network for voice recognition
CN116670757A (zh) 用于简化的流式和非流式语音识别的级联编码器
TWI420510B (zh) 可調整記憶體使用空間之語音辨識系統與方法
JP2015014774A (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
JP2020154076A (ja) 推論器、学習方法および学習プログラム
JP2011164336A (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
WO2014020588A1 (en) Method and apparatus for speech recognition
CN117063228A (zh) 用于灵活流式和非流式自动语音识别的混合模型注意力
JP5875569B2 (ja) 音声認識装置とその方法とプログラムとその記録媒体
JP6193726B2 (ja) 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
US20040006469A1 (en) Apparatus and method for updating lexicon
JPWO2018173943A1 (ja) データ構造化装置、データ構造化方法およびプログラム
JP2007033671A (ja) 音声認識システム、音声認識方法、および音声認識プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160119

R150 Certificate of patent or registration of utility model

Ref document number: 5875569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150