JP2013171214A - 情報処理装置、およびプログラム - Google Patents

情報処理装置、およびプログラム Download PDF

Info

Publication number
JP2013171214A
JP2013171214A JP2012035867A JP2012035867A JP2013171214A JP 2013171214 A JP2013171214 A JP 2013171214A JP 2012035867 A JP2012035867 A JP 2012035867A JP 2012035867 A JP2012035867 A JP 2012035867A JP 2013171214 A JP2013171214 A JP 2013171214A
Authority
JP
Japan
Prior art keywords
class
information
transition
state
element information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012035867A
Other languages
English (en)
Other versions
JP5881157B2 (ja
Inventor
Paul Richard Dixon
ディクソン・ポール・リチャード
Tomoori Hori
智織 堀
Hisashi Kawai
恒 河井
Hidenori Kashioka
秀紀 柏岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012035867A priority Critical patent/JP5881157B2/ja
Publication of JP2013171214A publication Critical patent/JP2013171214A/ja
Application granted granted Critical
Publication of JP5881157B2 publication Critical patent/JP5881157B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用する。
【解決手段】3以上の状態情報と2以上の遷移情報とを有する第一WFSTを格納する第一WFST格納部11と、クラス識別子と1以上の要素情報とを有する2以上のクラス情報を格納しており、受け付けた状態識別子の状態からの遷移のクラスの2以上のクラス識別子に対応する2以上の要素情報を取得する要素情報取得部14と、2以上の要素情報をソートするソート部と、ソートした2以上の各要素情報に対応する遷移確率を取得する遷移確率取得部16と、2以上の各要素情報と遷移確率とを有する2以上の遷移情報を取得し、第二WFSTを取得する第二WFST構成部17と、第二WFSTを用いて処理を行う処理部18とを具備する。
【選択図】図1

Description

本発明は、クラスN−gramモデルに対応する重みつき有限状態トランスデューサを処理する情報処理装置等に関するものである。
音声認識や機械翻訳等の音声言語処理システムにおいて、重み付き有限状態トランスデューサ(Weighted Finite-State Transducer:WFST)に基づく効率的なデコーディングを行う技術が存在する(非特許文献1参照)。
また、一般に、音声言語処理システムでは、言語の尤もらしさを評価する言語モデルが用いられる。この言語モデルとして、予め大量のテキストコーパスから推定された単語連鎖確率によって表されるN−gramモデルなどがある。特に、クラスN−gramモデルは、一つ以上の単語をグループ化したクラスの集合を定義して、そのクラスの連鎖確率によって言語をモデル化する(非特許文献2参照)。クラスN−gramモデルは、同じような文脈で出現する単語をクラス化することにより、テキストコーパスには現れなかった単語列に対しても適切な確率を付与できるメリットがある。また、クラスN−gramモデルは、システムに新規単語を追加する際も、適当なクラスに追加すればよく、コーパスを用いて新たに連鎖確率を推定し直す必要がないというメリットがある。
一方、音声やテキスト等のシステムへの入力に対して、種々のモデルに基づいて、最も尤もらしい解(音声認識結果や翻訳結果)を求めるデコーディングにおいては、重みつき有限状態トランスデューサ(以下、適宜「WFST」と言う。)に基づく手法が用いられる。WFSTは、種々のモデルを統一的な形式で表現し、それらを合成することにより全探索空間を構成し、当該全探索空間を最適化することにより非常に効率的な解探索処理が可能となるデータ構造である。
また、従来、音声認識中に必要な状態や状態遷移のみをオンデマンドで合成するon−the−fly合成という技術があった(非特許文献3参照)。
また、WFSTを用いた音声認識技術があった(特許文献1参照)。さらに、WFSTを用いた機械翻訳術があった(特許文献2参照)。
特開2006−84942号公報 特開2006−39804号公報
Mehryar Mohri, Fernando C. N. Pereira, and Michael Riley. Weighted Finite-State Transducers in Speech Recognition. Computer Speech and Language, 16(1):69-88, 2002. C. Allauzen, M. Mohri, B. Roark, "Generalized algorithms for constructing statistical language models", in Proc. ACL2003, pp. 40-47, 2003. 大西 翼,ディクソン・ポール,岩野 公司*,古井 貞煕,"WFST音声認識デコーダにおけるon-the-fly合成の最適化処理",電子情報通信学会論文誌, D Vol.J92-D, No.7 pp.1026-1035 (2009)
しかしながら、クラスN−gramモデルをWFSTで表現すると非常に多くの状態遷移が必要となり、デコーディング時のメモリ使用量が著しく増加してしまう、という課題があった。また、メモリ使用量を削減するために、on−the−fly合成を利用する場合には、クラスの連鎖確率を表すWFSTとクラスから単語に展開するWFSTとをオンデマンドで合成し、さらに別のWFSTと合成するために、状態遷移を単語IDでソートする必要がある。このオーバヘッドはデコーディングの計算量を著しく増加させる、という課題があった。
本第一の発明の情報処理装置は、状態を識別する状態識別子を含む3以上の状態情報と、状態から状態への遷移を示し、遷移のクラスを識別するクラス識別子と遷移する確率を示すクラス連鎖確率とを有する2以上の遷移情報とを有する第一の重みつき有限状態トランスデューサ(第一WFST)を格納している第一WFST格納部と、クラス識別子とクラス識別子で識別されるクラスに属する1以上の要素情報とを有する2以上のクラス情報を格納しているクラス情報格納部と、状態識別子を受け付ける受付部と、受付部が受け付けた状態識別子で識別される状態からの遷移のクラスを識別する2以上のクラス識別子を第一WFST格納部から取得し、2以上の各クラス識別子に対応する2以上の要素情報をクラス情報格納部から取得する要素情報取得部と、要素情報取得部が取得した2以上の要素情報をソートするソート部と、ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率を用いて、2以上の各要素情報の遷移確率を取得する遷移確率取得部と、受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、ソート部がソートした2以上の各要素情報と、各要素情報の遷移確率とを有する2以上の遷移情報を取得し、第二の重みつき有限状態トランスデューサ(第二WFST)を取得する第二WFST構成部と、第二WFST構成部が取得した第二WFSTを用いて、予め決められた処理を行う処理部とを具備する情報処理装置である。
かかる構成により、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる。
また、本第二の発明の情報処理装置は、第一の発明に対して、受付部は、2以上の各状態識別子を、順次、受け付け、要素情報取得部は、受付部が状態識別子を受け付けた場合に、状態識別子で識別されるアクティブな状態からの遷移のクラスを識別する2以上のクラス識別子を第一WFST格納部から直ちに取得し、2以上の各クラス識別子に対応する2以上の要素情報をクラス情報格納部から取得し、第二WFST構成部は、受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、ソート部がソートした2以上の各要素情報と、各要素情報の遷移確率とを有する2以上の各遷移情報を、順次、動的に取得する情報処理装置である。
かかる構成により、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる。
また、本第三の発明の情報処理装置は、第一または第二の発明に対して、クラス情報は、クラス識別子と、1以上の要素情報と、1以上の各要素情報の重みとを有し、遷移確率取得部は、ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率と2以上の各要素情報に対応する重みとを用いて、2以上の各要素情報の遷移確率を取得する情報処理装置である。
かかる構成により、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる。
また、本第四の発明の情報処理装置は、第一から第三いずれかの発明に対して、ソート部は、要素情報取得部が取得した2以上の要素情報をヒープソートのアルゴリズムによりソートする情報処理装置である。
かかる構成により、クラスN−gramモデルを表現したWFSTをさらに少ない計算量で使用することができる。
また、本第五の発明の情報処理装置は、第一から第四いずれかの発明に対して、受付部は、音声情報を受け付け、音声情報を1以上の状態識別子に分割し、処理部は、受付部が受け付けた音声情報に対して、音声認識処理を行い、音声認識処理の結果を取得し、出力する情報処理装置である。
かかる構成により、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用して、音声認識処理を行うことができる。
本発明による情報処理装置によれば、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる。
実施の形態1における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同第一WFSTを示す図 同クラス情報管理表を示す図 同ソートされた要素識別子の集合を示す図 同ヒープソートを説明する図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、クラスN−gramモデルに対応するWFSTを処理し、音声認識処理、または機械翻訳処理等の予め決められた処理を行う情報処理装置について説明する。
図1は、本実施の形態における情報処理装置1のブロック図である。情報処理装置1は、第一WFST格納部11、クラス情報格納部12、受付部13、要素情報取得部14、ソート部15、遷移確率取得部16、第二WFST構成部17、および処理部18を具備する。
第一WFST格納部11は、第一の重みつき有限状態トランスデューサ(第一WFST)を格納している。第一WFSTとは、クラスN−gramのモデルを実現したWFSTである。また、第一WFSTは、3以上の状態情報と、2以上の遷移情報とを有する。状態情報は、状態を識別する状態識別子を含む。状態識別子は、例えば、状態のID、入力クラスと出力クラスの組などである。また、遷移情報は、状態から状態への遷移(アーク)を示し、遷移のクラスを識別するクラス識別子と遷移する確率を示すクラス連鎖確率とを有する。クラス識別子は、例えば、クラスのID、クラス名などである。また、クラス連鎖確率とは、入力クラスから出力クラスに遷移する確率を示す情報である。なお、クラス連鎖確率は、確率を示す情報であれば良い。つまり、クラス連鎖確率は、確率自体でなくとも良く、入力クラスから遷移可能性のある1以上の出力クラスへの遷移情報(アーク)の総和は「1」であるとは限らない。
クラス情報格納部12は、2以上のクラス情報を格納している。クラス情報は、クラスに関する情報であり、クラス識別子と1以上の要素情報とを有する。要素情報は、クラス識別子で識別されるクラスに属する情報である。また、要素情報とは、例えば、単語、音素、単語の読みを示す情報、単語列等である。また、クラス情報は、クラス識別子と、1以上の要素情報と、1以上の各要素情報の重みとを有することは好適である。要素情報の重みとは、要素情報がクラスに属する重みである。重みは、例えば、クラスの中から要素情報が選択される場合の、選択され易さまたは選択され難さを示す情報であり、例えば、選択される確率を示す情報である。また、クラス情報は、一つの要素情報のみである場合もあり得る。かかる場合、クラス識別子と要素情報とが同一である場合もあり得る。そして、この場合、クラス情報は要素情報のみであるが、クラス識別子と要素情報とを有することと同一視するものとする。
受付部13は、状態識別子を受け付ける。また、受付部13は、2以上の各状態識別子を、順次、受け付けても良い。また、受付部13は、例えば、音声情報を受け付け、音声情報を1以上の状態識別子(例えば、音素)に分割しても良い。また、受付部13は、例えば、1以上の単語からなる文を受け付け、文を1以上の状態識別子(例えば、単語や形態素)に分割しても良い。受付部13が音声情報や文等を受け付けた場合も、当該音声情報や文等を分割して得られた1以上の状態識別子を、受付部13は受け付けたものとする。
ここで、受け付けとは、キーボードやマウス、マイク、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。なお、状態識別子や状態識別子の元になる音声情報や文などの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。
要素情報取得部14は、受付部13が受け付けた状態識別子で識別される状態からの遷移のクラスを識別する1以上のクラス識別子を第一WFST格納部11から取得する。そして、要素情報取得部14は、取得した1以上の各クラス識別子に対応する2以上の要素情報をクラス情報格納部12から取得する。
また、要素情報取得部14は、受付部13が状態識別子を受け付けた場合に、状態識別子で識別されるアクティブな状態からの遷移のクラスを識別する2以上のクラス識別子を第一WFST格納部11から直ちに取得し、2以上の各クラス識別子に対応する2以上の要素情報をクラス情報格納部12から取得しても良い。
ソート部15は、要素情報取得部14が取得した2以上の要素情報をソートする。なお、要素情報取得部14が一つのクラス識別子に対応する要素情報のみを取得した場合、ソート部15の処理は不要である。また、ソート部15は、要素情報取得部14が取得した2以上の要素情報をヒープソートのアルゴリズムによりソートすることは好適である。ここでのソートとは、要素情報をキーとしてソートすることである。また、ソートアルゴリズムは、ヒープソートが好適であるが、マージソート、クイックソート等、他のソートアルゴリズムでも良い。
遷移確率取得部16は、ソート部15がソートした2以上の各要素情報に対応するクラス連鎖確率を用いて、2以上の各要素情報の遷移確率を取得する。なお、要素情報に対応するクラス連鎖確率とは、要素情報が属するクラスに対応するクラス連鎖確率である。クラスに対応するクラス連鎖確率とは、クラスを識別するクラス識別子と対になるクラス連鎖確率である。かかるクラス連鎖確率は、第一WFSTが有する。また、遷移確率は連鎖確率と言っても良い。
また、遷移確率取得部16は、ソート部15がソートした2以上の各要素情報に対応するクラス連鎖確率と2以上の各要素情報に対応する重みとを用いて、2以上の各要素情報の遷移確率を取得することは好適である。ここで、遷移確率は、クラス連鎖確率と要素情報の重みとをパラメータとする増加関数により算出される。遷移確率取得部16は、例えば、クラス連鎖確率と重みとの積や和により算出する。
第二WFST構成部17は、受付部13が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報(アーク)として、ソート部15がソートした2以上の各要素情報と、各要素情報の遷移確率とを有する2以上の遷移情報(アーク)を生成し、第二の重みつき有限状態トランスデューサ(第二WFST)を取得する。ここで、第二WFSTとは、アクティブな状態と、その状態からの遷移の部分は、少なくともN−gramモデルに対応するWFSTである。なお、第二WFSTの一部(例えば、アクティブな状態とその状態からの遷移の部分以外の部分)は、クラスN−gramモデルであっても良い。
また、第二WFST構成部17は、受付部13が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、ソート部15がソートした2以上の各要素情報と、各要素情報の遷移確率とを有する2以上の各遷移情報を、順次、動的に生成することは好適である。
処理部18は、第二WFST構成部17が取得した第二WFSTを用いて、予め決められた処理を行う。ここで予め決められた処理とは、例えば、音声認識処理や機械翻訳処理等である。ただし、予め決められた処理は、第二WFSTを記録媒体に蓄積するだけの処理でも良い。
例えば、処理部18は、受付部13が受け付けた音声情報に対して、音声認識処理を行い、音声認識処理の結果を取得し、出力する。また、例えば、処理部18は、受付部13が受け付けた原言語の文に対して、目的言語への機械翻訳を行い、機械翻訳の結果を取得し、出力する。なお、WFSTを用いて、音声認識処理や機械翻訳処理を行うことは公知技術であるので、詳細な説明を省略する。なお、ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
第一WFST格納部11、およびクラス情報格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一WFST格納部11等に第一WFST等が記憶される過程は問わない。例えば、記録媒体を介して第一WFST等が第一WFST格納部11等で記憶されるようになってもよく、通信回線等を介して送信された第一WFST等が第一WFST格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第一WFST等が第一WFST格納部11等で記憶されるようになってもよい。
要素情報取得部14、ソート部15、遷移確率取得部16、第二WFST構成部17、および処理部18は、通常、MPUやメモリ等から実現され得る。要素情報取得部14等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置1の動作について図2のフローチャートを用いて説明する。なお、図2のフローチャートの前処理として、受け付けた情報から1以上の状態識別子を取得し、当該1以上の状態識別子を順次、ステップS201で受付部13に渡すようにしても良い。なお、受け付けた情報から1以上の状態識別子を取得する処理は、例えば、受け付けた文を1以上の単語に分割し、状態識別子である単語を、1以上取得する処理である。
(ステップS201)受付部13は、状態識別子を受け付けたか否かを判断する。状態識別子を受け付ければステップS202に行き、状態識別子を受け付けなければステップS201に戻る。
(ステップS202)要素情報取得部14は、ステップS201で受け付けられた状態識別子を用いて、アクティブな状態を決定する。要素情報取得部14は、例えば、受け付けられた状態識別子と一致する状態識別子を第一WFST格納部11から検索する。
(ステップS203)要素情報取得部14は、ステップS202で検索した状態識別子で識別される状態(アクティブな状態)からのすべての遷移のクラスを識別する2以上のクラス識別子を第一WFST格納部11から取得する。
(ステップS204)要素情報取得部14は、カウンタiに1を代入する。
(ステップS205)要素情報取得部14は、ステップS203で取得したクラス識別子の中で、i番目のクラス識別子が存在するか否かを判断する。i番目のクラス識別子が存在すればステップS206に行き、存在しなければステップS208に行く。
(ステップS206)要素情報取得部14は、i番目のクラス識別子と対になる1以上の要素情報をクラス情報格納部12から取得し、図示しないバッファに一時蓄積する。なお、要素情報取得部14は、i番目のクラス識別子がクラス情報格納部12に存在しない場合、i番目のクラス識別子を要素情報として、図示しないバッファに一時蓄積することは好適である。
(ステップS207)要素情報取得部14は、カウンタiを1、インクリメントし、ステップS205に戻る。
(ステップS208)ソート部15は、図示しないバッファ内のすべての要素情報をソートする。なお、ソートは、ヒープソートのアルゴリズムで行われることは好適である。
(ステップS209)遷移確率取得部16は、カウンタjに1を代入する。
(ステップS210)遷移確率取得部16は、ソートされた要素情報の中で、j番目の要素情報が存在するか否かを判断する。j番目の要素情報が存在すれば、ステップS211に行き、存在しなければステップS214に行く。
(ステップS211)遷移確率取得部16は、j番目の要素情報が属するクラスに対応するクラス連鎖確率を、第一WFSTから取得する。また、遷移確率取得部16は、j番目の要素情報に対応する重みをクラス情報格納部12から取得する。そして、遷移確率取得部16は、演算式「遷移確率=f(クラス連鎖確率,重み)」を実行し、遷移確率を取得する。なお、演算式fは、例えば、「クラス連鎖確率×重み」または「クラス連鎖確率+重み」等である。
(ステップS212)第二WFST構成部17は、アクティブな状態からの遷移を示す遷移情報(アーク)として、j番目の要素情報と、ステップS211で取得された遷移確率とを有する遷移情報(アーク)を生成する。
(ステップS213)遷移確率取得部16は、カウンタjを1、インクリメントし、ステップS210に戻る。
(ステップS214)処理部18は、第二WFST構成部17が取得した第二WFSTを用いて、予め決められた処理を行う。
(ステップS215)処理部18は、処理を終了するか否かを判断する。処理を終了するとの判断の場合は処理を終了し、処理を終了しないとの判断の場合はステップS201に戻る。なお、例えば、処理部18は、受付部13が受け付けた情報から得られた1以上の状態識別子に対する処理がすべて終了したか否かを判断し、すべて終了した場合に、処理を終了するか否かを判断する。
以下、本実施の形態における情報処理装置1の具体的な動作について説明する。ここでは、情報処理装置1は音声認識処理を行う装置である、とする。
今、第一WFST格納部11は、図3に示す第一WFSTを格納している。なお、第一WFSTは、クラスN−gramのモデルを実現したWFSTの一部である。図3に示す第一WFSTの状態情報は、入力のクラスのクラス識別子と、出力のクラスのクラス識別子とを有する。図3の31は、状態の例である。図3の31の[地名]は入力のクラスのクラス識別子であり、図3の31の[から]は出力のクラスのクラス識別子である。なお、ここでの[から]は、要素識別子(一つの要素識別子のみを有するクラス識別子)である。また、図3の32は遷移(アーク)の例である。そして、図3の32の[交通手段]は遷移情報を構成する情報であり、遷移のクラスを識別するクラス識別子である。また、図3の32のp1は、遷移情報を構成するクラス連鎖確率である。なお、要素識別子は、要素情報と同じでも良いし、要素情報を識別する情報でも良い。
また、クラス情報格納部12は、図4に示すクラス情報管理表を保持している。クラス情報管理表は、2以上のクラス情報を有する。クラス情報は、クラス識別子、要素識別子、および重みを有する。なお、クラス情報は、重みを有さなくても良い。かかる場合、例えば、要素情報の重みは、クラス情報に含まれる要素情報において、均等であると考えられる。つまり、クラス情報が重みを有さず、かつ、当該クラスに属する要素情報が3つの場合、例えば、各要素情報の重みは1/3である。また、クラス情報管理表において、クラス情報内の要素情報は、予めソートされている、とする。
かかる状況において、ユーザは「東京から新幹線で行くには」と発声した、とする。
次に、受付部13は、音声情報「東京から新幹線で行くには」を受け付ける。そして、受付部13は、受け付けた音声情報を、「東京/から/新幹線/で/行く/に/は」と分割した、とする。
そして、情報処理装置1は、「東京から」までの音声認識処理を行い、現在の状態を「[地名],[から]」であると決定した、とする。なお、ここまでの処理の詳細は、後述する処理と同様である。
そして、情報処理装置1の受付部13は、状態識別子「[地名],[から]」を受け付けた、とする。
次に、要素情報取得部14は、受け付けられた状態識別子「[地名],[から]」を用いて、第一WFST(図3)を検索し、アクティブな状態を、図3の31の状態である、と決定する。
次に、要素情報取得部14は、アクティブな状態からの遷移先のクラスを識別する2つのクラス識別子([交通手段]、[地名])を図3の第一WFSTから取得する。
次に、要素情報取得部14は、クラス識別子[交通手段]に属する要素識別子(「新幹線」「バス」「マイカー」・・・)を、図4のクラス情報管理表から取得し、バッファに一時蓄積する。また、要素情報取得部14は、クラス識別子[地名]に属する要素識別子(「大阪」「東京」「横浜」・・・)を、図4のクラス情報管理表から取得しバッファに追記する。
次に、ソート部15は、バッファ内のすべての要素情報をキーとしてヒープソートする。そして、要素情報取得部14は、バッファに、図5に示すソートされた要素情報の集合を得る。要素情報の集合では、交通手段と地名とが混在している。
なお、ヒープソートについて、図6を用いて説明する。クラスC1、C2、・・・、Ckの各要素情報「e11,e12,・・・」、「e21,e22,・・・」、・・・、「ek1,ek2,・・・」が存在する、とする。かかる場合、第一に、各クラスのリストの最初の要素情報をヒープにプッシュする。第二に、ヒープから要素情報eijをポップしてマージリストへ挿入する。第三に、i番目のリストのj+1番目の要素情報があればヒープにプッシュし、無ければ第二の処理に戻る。そして、ヒープとリストの両方が空になったら終了する。なお、ヒープとは、最小(または最大)の要素が常に木の根に配置される2分木のデータ構造である。
上記の第二の処理における繰り返しは、ソートする全要素数がn回であり、ヒープへのプッシュ、および、ヒープからのポップはヒープの要素数(最大でk)の、底を2とする対数(log2)に比例する。従って、全体でO(nlogk)の計算量となる。なお、従来は、クイックソートを用いてもO(nlogn)の計算量が必要であった。つまり、一般に、k<<nなので本発明の計算量削減の効果は非常に大きいと言える。
次に、遷移確率取得部16は、各要素情報が属するクラスに対応するクラス連鎖確率(p1またはp2)を取得する。また、遷移確率取得部16は、各要素情報の重み(w11,w12,・・・,w21等)を図4のクラス情報管理表から取得する。そして、遷移確率取得部16は、演算式「遷移確率=f(クラス連鎖確率,重み)」を実行し、各要素情報の遷移確率を取得する。
次に、第二WFST構成部17は、アクティブな状態からの遷移を示す遷移情報(アーク)として、要素情報と遷移確率とを有する2以上の遷移情報(アーク)を生成する。かかる処理により、第二WFSTが生成される。
次に、処理部18は、第二WFSTを用いて、音声認識処理を行う。なお、WFSTを用いた音声認識技術は公知技術であるので詳細な説明を省略する。
以上、本実施の形態によれば、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる。
また、本実施の形態において、2以上の要素情報をヒープソートのアルゴリズムによりソートすることにより、クラスN−gramモデルを表現したWFSTをさらに少ない計算量で使用することができる。
なお、本実施の形態において生成した第二WFSTは、音声認識処理、機械翻訳処理に限らず、いかなる処理に利用しても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、状態を識別する状態識別子を含む3以上の状態情報と、状態から状態への遷移を示し、遷移のクラスを識別するクラス識別子と遷移する確率を示すクラス連鎖確率とを有する2以上の遷移情報とを有する第一の重みつき有限状態トランスデューサ(第一WFST)と、クラス識別子と当該クラス識別子で識別されるクラスに属する1以上の要素情報とを有する2以上のクラス情報を格納しており、コンピュータを、状態識別子を受け付ける受付部と、前記受付部が受け付けた状態識別子で識別される状態からの遷移のクラスを識別する2以上のクラス識別子を前記記録媒体から取得し、当該2以上の各クラス識別子に対応する2以上の要素情報を前記記録媒体から取得する要素情報取得部と、前記要素情報取得部が取得した2以上の要素情報をソートするソート部と、前記ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率を用いて、前記2以上の各要素情報の遷移確率を取得する遷移確率取得部と、前記受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、前記ソート部がソートした2以上の各要素情報と、当該各要素情報の遷移確率とを有する2以上の遷移情報を取得し、第二の重みつき有限状態トランスデューサ(第二WFST)を取得する第二WFST構成部と、前記第二WFST構成部が取得した第二WFSTを用いて、予め決められた処理を行う処理部として機能させるためのプログラム、である。
また、上記プログラムにおいて、前記受付部は、2以上の各状態識別子を、順次、受け付け、前記要素情報取得部は、前記受付部が状態識別子を受け付けた場合に、当該状態識別子で識別されるアクティブな状態からの遷移のクラスを識別する2以上のクラス識別子を前記第一WFST格納部から直ちに取得し、当該2以上の各クラス識別子に対応する2以上の要素情報を前記クラス情報格納部から取得し、前記第二WFST構成部は、前記受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、前記ソート部がソートした2以上の各要素情報と、当該各要素情報の遷移確率とを有する2以上の各遷移情報を、順次、動的に取得するものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記クラス情報は、クラス識別子と、1以上の要素情報と、当該1以上の各要素情報の重みとを有し、前記遷移確率取得部は、前記ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率と前記2以上の各要素情報に対応する重みとを用いて、前記2以上の各要素情報の遷移確率を取得するものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記ソート部は、前記要素情報取得部が取得した2以上の要素情報をヒープソートのアルゴリズムによりソートするものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記受付部は、音声情報を受け付け、当該音声情報を1以上の状態識別子に分割し、前記処理部は、前記受付部が受け付けた音声情報に対して、音声認識処理を行い、音声認識処理の結果を取得し、出力するものとして、コンピュータを機能させるプログラムであることは好適である。なお、上記プログラムにおいて、前記処理部は、音声翻訳を行っても良い。
また、図7は、本明細書で述べたプログラムを実行して、上述した実施の形態の情報処理装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図7は、このコンピュータシステム300の概観図であり、図8は、コンピュータシステム300のブロック図である。
図7において、コンピュータシステム300は、DVD−RAMドライブ、CD−ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304、マイク305とを含む。
図8において、コンピュータ301は、DVD−RAMドライブ3011、CD−ROMドライブ3012に加えて、MPU3013と、CD−ROMドライブ3012及びDVD−RAMドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の情報処理装置等の機能を実行させるプログラムは、CD−ROM3101、またはDVD−RAM3102に記憶されて、CD−ROMドライブ3012またはDVD−RAMドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、DVD−RAM3102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置は、クラスN−gramモデルを表現したWFSTを少ないメモリ使用量で、かつ少ない計算量で使用することができる、という効果を有し、音声認識装置等として有用である。
1 情報処理装置
11 第一WFST格納部
12 クラス情報格納部
13 受付部
14 要素情報取得部
15 ソート部
16 遷移確率取得部
17 第二WFST構成部
18 処理部

Claims (6)

  1. 状態を識別する状態識別子を含む3以上の状態情報と、状態から状態への遷移を示し、遷移のクラスを識別するクラス識別子と遷移する確率を示すクラス連鎖確率とを有する2以上の遷移情報とを有する第一の重みつき有限状態トランスデューサ(第一WFST)を格納している第一WFST格納部と、
    クラス識別子と当該クラス識別子で識別されるクラスに属する1以上の要素情報とを有する2以上のクラス情報を格納しているクラス情報格納部と、
    状態識別子を受け付ける受付部と、
    前記受付部が受け付けた状態識別子で識別される状態からの遷移のクラスを識別する2以上のクラス識別子を前記第一WFST格納部から取得し、当該2以上の各クラス識別子に対応する2以上の要素情報を前記クラス情報格納部から取得する要素情報取得部と、
    前記要素情報取得部が取得した2以上の要素情報をソートするソート部と、
    前記ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率を用いて、前記2以上の各要素情報の遷移確率を取得する遷移確率取得部と、
    前記受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、前記ソート部がソートした2以上の各要素情報と、当該各要素情報の遷移確率とを有する2以上の遷移情報を取得し、第二の重みつき有限状態トランスデューサ(第二WFST)を取得する第二WFST構成部と、
    前記第二WFST構成部が取得した第二WFSTを用いて、予め決められた処理を行う処理部とを具備する情報処理装置。
  2. 前記受付部は、
    2以上の各状態識別子を、順次、受け付け、
    前記要素情報取得部は、
    前記受付部が状態識別子を受け付けた場合に、当該状態識別子で識別されるアクティブな状態からの遷移のクラスを識別する2以上のクラス識別子を前記第一WFST格納部から直ちに取得し、当該2以上の各クラス識別子に対応する2以上の要素情報を前記クラス情報格納部から取得し、
    前記第二WFST構成部は、
    前記受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、前記ソート部がソートした2以上の各要素情報と、当該各要素情報の遷移確率とを有する2以上の各遷移情報を、順次、動的に取得する請求項1記載の情報処理装置。
  3. 前記クラス情報は、
    クラス識別子と、1以上の要素情報と、当該1以上の各要素情報の重みとを有し、
    前記遷移確率取得部は、
    前記ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率と前記2以上の各要素情報に対応する重みとを用いて、前記2以上の各要素情報の遷移確率を取得する請求項1または請求項2記載の情報処理装置。
  4. 前記ソート部は、
    前記要素情報取得部が取得した2以上の要素情報をヒープソートのアルゴリズムによりソートする請求項1から請求項3いずれか記載の情報処理装置。
  5. 前記受付部は、
    音声情報を受け付け、当該音声情報を1以上の状態識別子に分割し、
    前記処理部は、
    前記受付部が受け付けた音声情報に対して、音声認識処理を行い、音声認識処理の結果を取得し、出力する請求項1から請求項4いずれか記載の情報処理装置。
  6. 記録媒体に、
    状態を識別する状態識別子を含む3以上の状態情報と、状態から状態への遷移を示し、遷移のクラスを識別するクラス識別子と遷移する確率を示すクラス連鎖確率とを有する2以上の遷移情報とを有する第一の重みつき有限状態トランスデューサ(第一WFST)と、
    クラス識別子と当該クラス識別子で識別されるクラスに属する1以上の要素情報とを有する2以上のクラス情報を格納しており、
    コンピュータを、
    状態識別子を受け付ける受付部と、
    前記受付部が受け付けた状態識別子で識別される状態からの遷移のクラスを識別する2以上のクラス識別子を前記記録媒体から取得し、当該2以上の各クラス識別子に対応する2以上の要素情報を前記記録媒体から取得する要素情報取得部と、
    前記要素情報取得部が取得した2以上の要素情報をソートするソート部と、
    前記ソート部がソートした2以上の各要素情報に対応するクラス連鎖確率を用いて、前記2以上の各要素情報の遷移確率 を取得する遷移確率取得部と、
    前記受付部が受け付けた状態識別子で識別される状態からの遷移を示す遷移情報として、前記ソート部がソートした2以上の各要素情報と、当該各要素情報の遷移確率とを有する2以上の遷移情報を取得し、第二の重みつき有限状態トランスデューサ(第二WFST)を取得する第二WFST構成部と、
    前記第二WFST構成部が取得した第二WFSTを用いて、予め決められた処理を行う処理部として機能させるためのプログラム。
JP2012035867A 2012-02-22 2012-02-22 情報処理装置、およびプログラム Active JP5881157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012035867A JP5881157B2 (ja) 2012-02-22 2012-02-22 情報処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012035867A JP5881157B2 (ja) 2012-02-22 2012-02-22 情報処理装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013171214A true JP2013171214A (ja) 2013-09-02
JP5881157B2 JP5881157B2 (ja) 2016-03-09

Family

ID=49265155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012035867A Active JP5881157B2 (ja) 2012-02-22 2012-02-22 情報処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5881157B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108417222A (zh) * 2017-02-10 2018-08-17 三星电子株式会社 加权有限状态变换器解码系统以及语音识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257910A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法及びその記号列変換方法を用いた音声認識方法、並びに記号列変換装置及びその記号列変換装置を用いた音声認識装置
JP2006084942A (ja) * 2004-09-17 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム
US20070192104A1 (en) * 2006-02-16 2007-08-16 At&T Corp. A system and method for providing large vocabulary speech processing based on fixed-point arithmetic
JP2011113043A (ja) * 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257910A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法及びその記号列変換方法を用いた音声認識方法、並びに記号列変換装置及びその記号列変換装置を用いた音声認識装置
JP2006084942A (ja) * 2004-09-17 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム
US20070192104A1 (en) * 2006-02-16 2007-08-16 At&T Corp. A system and method for providing large vocabulary speech processing based on fixed-point arithmetic
JP2011113043A (ja) * 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7015003590; I. L. Hetherington: 'A multi-pass, dynamic-vocabulary approach to real-time, large-vocabulary speech recognition' Proc. Interspeech , 20050904, pp. 545-548 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
US10741170B2 (en) 2015-11-06 2020-08-11 Alibaba Group Holding Limited Speech recognition method and apparatus
US11664020B2 (en) 2015-11-06 2023-05-30 Alibaba Group Holding Limited Speech recognition method and apparatus
CN108417222A (zh) * 2017-02-10 2018-08-17 三星电子株式会社 加权有限状态变换器解码系统以及语音识别系统
US10714080B2 (en) 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data
CN108417222B (zh) * 2017-02-10 2024-01-02 三星电子株式会社 加权有限状态变换器解码系统以及语音识别系统

Also Published As

Publication number Publication date
JP5881157B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
JP6960006B2 (ja) 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
JP6058807B2 (ja) 検索クエリ情報を使用する音声認識処理のための方法およびシステム
JP5459214B2 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8849665B2 (en) System and method of providing machine translation from a source language to a target language
JP4901155B2 (ja) 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム
US9594744B2 (en) Speech transcription including written text
JP6019604B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US9972314B2 (en) No loss-optimization for weighted transducer
KR20210138776A (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
CN108564944B (zh) 智能控制方法、系统、设备及存储介质
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP2011164336A (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2012177815A (ja) 音響モデル学習装置、および音響モデル学習方法
JP5881157B2 (ja) 情報処理装置、およびプログラム
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
JP6193726B2 (ja) 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP7348447B2 (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP5875569B2 (ja) 音声認識装置とその方法とプログラムとその記録媒体
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
US20220319494A1 (en) End to end spoken language understanding model
US20240161729A1 (en) Speech synthesis utilizing audio waveform difference signal(s)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160128

R150 Certificate of patent or registration of utility model

Ref document number: 5881157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250