JP5199985B2

JP5199985B2 - 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Info

Publication number: JP5199985B2
Application number: JP2009271854A
Authority: JP
Inventors: 義和山口; 貴明堀; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-11-30
Filing date: 2009-11-30
Publication date: 2013-05-15
Anticipated expiration: 2029-11-30
Also published as: JP2011113043A

Description

本発明は、音声認識に使用される重み付き有限状態トランスデューサを作成する装置、作成方法及びそのプログラムに関する。

近年、重み付き有限状態トランスデューサ（以下、WFSTと呼ぶ）を使用した音声認識が検討されている。WFSTを用いた音声認識においては、音響モデル、単語辞書、言語モデル、などの音声認識に必要な情報をそれぞれWFSTで表現し、それら音響モデルWFST、発音辞書WFST，単語辞書WFST、言語モデルWFSTなどを合成、最適化して１つ又は複数の認識用WFSTを形成している（非特許文献１）。

音声認識においては、入力の音声認識対象音声を状態遷移の探索空間である認識用WFSTを使って累積重みが最大となる記号列（文字列）を検索し、認識結果の単語又は文章として出力する。

このようにして作成された認識用WFSTを使った音声認識による入力音声のテキスト化は、辞書に登録された単語のみ可能であるが、利用期間が長くなるにつれ、製品名、人名、造語、外来語など、当初に作成した辞書には含まれない単語を認識対象として含める要求が出てくる。そのような場合、従来のシステムでは、追加したい単語をWFST形式の元の単語辞書（単語辞書WFST）に追加し、具体的には追加する単語をWFST形式の状態遷移で表し、それを元の単語辞書WFSTに追加し、あるいは、元の単語辞書に追加した後に単語辞書WFSTに変換し、その単語辞書WFSTを含む、音声認識で使用される全てのWFSTを合成し、最適化して新たに認識用WFSTを作成している。

Hori, Nakamura, Proc. of INTERSPEECH 2005, "Generalized Fast On-the-fly Composition Algorithm for WFST-Based Speech Recognition"

しかしながら、従来の技術では認識用WFSTを初めから作り直しているので、単語を追加してから認識用WFSTを形成するまでの時間がかかる問題があった。

この発明の目的は、単語の追加が容易であり、単語が追加された認識用WFSTが従来より短時間で形成可能な重み付き有限状態トンランスデューサ作成装置、作成方法及びそのプログラムを提供することである。

上記の課題を解決するため、本発明では、音声認識に使用される重み付き有限状態トランスデューサ(認識用WFST)の作成において、複数種類のWFSTを状態遷移を追加するWFSTと追加しないWFSTとに分け、追加しないWFSTを予め合成及び又は最適化して基本WFSTとし、追加するWFSTはそのまま基本WFSTとし、それぞれ記憶しておき、状態遷移を追加する場合は、それぞれの基本WFSTの内の対応する基本WFSTに状態遷移を追加し、その後、追加したWFST及び追加しないWFSTに対し合成・最適化演算を行い、最終的な認識用WFSTを得る。

本発明は事前に基本WFSTを作成しておくことにより、新しい遷移状態を追加する場合にその処理時間を削減でき、認識用WFSTを作成するまでの時間を短縮できる。

WFSTの例を示す図。この発明による重み付き有限状態トランスデューサ作成装置の原理的構成を示すブロック図。基本WFST演算情報の例を示す図。追加状態遷移情報の例を示す図。Ａは基本WFST作成処理のフロー図、Ｂは認識用WFST作成処理のフロー図。この発明の実施例１の機能構成を示すブロック図。基本WFST演算情報の例を示す図。追加状態遷移情報の例を示す図。Ａは単語辞書WFSTへの状態遷移の追加の例を示す図、ＢはユニグラムWFSTへの状態遷移の追加の例を示す図、ＣはクラスWFSTへの状態遷移の追加の例を示す図。この発明の実施例２の機能構成を示すブロック図。基本WFST演算情報の例を示す図。追加状態遷移情報の例を示す図。Ａは音響モデルWFSTへの状態遷移の追加の例を示す図、ＢはトライフォンWFSTへの状態遷移の追加の例を示す図。この発明の効果を表で示す図。

以下、本発明の実施の形態について、図を参照に詳細に説明する。

図１に簡単なWFSTの例を示す。WFSTは状態と、状態遷移の集合で表され、各状態間を遷移する際に、入力記号列を受け入れ、重みを付与して出力記号列を出力する。各丸内の番号０、…、４は状態番号を表す。例えば２つの状態間の記号ａ：ｘ／0.3は状態番号０における入力記号ａに対し記号ｘが出力されて状態番号１に移り、その状態遷移の重み（スコア）が0.3であることを示している。例えば入力記号列“ｂｄｆ”に対し、記号列“ｙｖ”を出力する状態遷移は、状態番号０で記号ｂが入力され、それに対しｙが出力され状態番号３となり、状態番号３で記号ｄが入力され、それに対しｖが出力され状態番号２となり、状態番号２で記号ｆが入力され、それに対し何も出力されず状態番号４となる。εは出力無しを表している。この場合の入力記号列“ｂｄｆ”から出力記号列“ｙｖ”への状態遷移の累積重みは0.7+0.8+1=2.5となる。

これを音声認識に適用する場合は、音響モデルや単語辞書、言語モデルなどを個別にWFSTに変換する。また、入力音声と音響モデルとの照合スコアや、言語モデルによる言語スコアは重み、として累積され、最終的に最も重みの高い出力記号列が音声認識結果となる。

図２に本発明による重み付き有限状態トランスデューサ作成装置の原理的構成を示す。本発明によるトランスデューサ作成装置は、事前に基本WFSTを作成しておく基本WFST作成部100と、状態遷移を追加して認識用WFSTを作成する認識用WFST作成部200との２段階の処理部に分かれる。更に入力部300と制御部400が設けられている。基本WFST作成部100はＮ（Ｎは３以上の整数）種類のWFST（WFST1〜WFSTNとする）を記憶するWFST記憶部１１１〜１１Ｎと、入力された基本WFST演算情報を記憶する基本WFST演算情報記憶部１２と、基本WFST演算情報に基づいてWFSTに対し演算を実行する基本WFST演算部１３と、基本WFST演算により得られたＭ（Ｍは１以上Ｎ以下の整数）個の基本WFST（基本WFST1〜基本WFSTM）を記憶する基本WFST記憶部１４１〜１４Ｍとを有している。

認識用WFST作成部２００は、入力された追加状態遷移情報を記憶する追加状態遷移情報記憶部２１と、追加状態遷移情報に基づいてＭ個の基本WFSTの指定されたものに状態遷移を追加し、追加WFSTを作成するＭ個の状態遷移追加部２１１〜２１Ｍと、作成された追加WFSTを記憶するためのＭ個の追加WFST記憶部２３１〜２３Ｍと、追加WFST記憶部２３１〜２３Ｍからの追加WFSTを合成化及び／又は最適化して認識用WFSTを作成する認識用WFST演算部２４と、作成された認識用WFSTを記憶する認識用WFST記憶部２５とから構成されている。制御部４００は各記憶部１１１〜１１Ｎ、１４１〜１４Ｍ、２３１〜２３Ｍ、１２，２１，２５の書き込み、読み出し、各演算部１３，２４による演算の実行、各状態遷移追加部２２１〜２２Ｍの処理の実行を制御する。

まず、基本WFST作成部100の動作を説明する。

WFSTを用いた音声認識の場合は、音響モデルや辞書、言語モデルなどを個別にWFSTに変換しておく。個別のWFSTの数は利用形態によって異なるため、ここではN 個のWFSTに個別に変換され、それぞれWFST記憶部１１１〜１１Ｎに記憶されているものとする。例えば単語Ｎグラムによる音声認識の場合は4個のWFST、クラスＮグラムの場合は5個のWFSTが使用され、さらに音声認識結果に対し要約を施す場合はさらに1個のWFSTが追加される。例えば、WFST1が音響モデルを変換したWFSTであり、WFST2がトライフォンと音素の割当を変換したWFST、WFST3が辞書を変換したWFST、といったものに対応する。

基本WFST演算情報記憶部１２には入力部300から基本WFST演算情報が入力され、記憶される。基本WFST演算情報には、どのWFSTを合成するかを指定する情報と、どのWFSTを最適化するかを指定する情報の、2種類の情報が含まれている。ここで最適化とは決定化、最小化（状態数が少なく及び／又は状態遷移数が少なくなるように編集すること）といったWFSTの最適化演算の総称である。基本WFST演算部１３はこの基本WFST演算情報に基づいてWFSTの合成化演算及び／又は最適化演算を行う。

図３は基本WFST演算情報の一例である。行番号で示す各行には(compose, optimize)の形式で合成対象WFSTの番号と、最適化を施すか否か（1は施す、0は施さない）を指定している。合成対象WFSTの番号がa+bの形式で表されていれば番号ａのWFST，即ちWFSTaと、番号ｂのWFST，即ちWFSTbを合成することを指定している。合成対象WFST番号が単独番号の場合は、合成を行わない。例えば、１行目の(1+2,1)はWFST1とWFST2を合成し、その合成結果に最適化を施すことを意味する。２行目の(3,0)はWFST3に対して合成化も最適化も行わないことを指定している。３行目の(4,1)はWFST4に対して合成はしないが最適化はすることを指定している。追加単語に対応する状態遷移を追加する対象のWFSTは合成化の対象とせず、それ以外のWFSTは合成化の対象となり得る。少なくとも２つのWFSTは合成化されるとすると、ＭはＮより小さく、１以上の整数である。

このようにして作成したWFSTを基本WFSTとして、基本WFST記憶部１４１〜１４Ｍに記憶する。このとき、基本WFST演算部１３において実質的に演算処理が行われなかったWFSTは、元のWFSTから変更がないため、元のWFST記憶部のWFSTをそのまま基本WFSTとして使用する。

図５Ａは制御部400の制御に従った基本WFST作成部100による処理の流れを示す。

ステップＳ１１で整数ＪをJ=1に初期設定し、ステップＳ１２で基本WFST演算情報記憶部１２に記憶されている基本WFST演算情報のＪ行目を読み込む（図３も参照）。ステップＳ１３でＪ行目の指示に合成対象のWFSTが指定されているか判定し、指定されていればステップＳ１４で合成対象のWFSTをWFST記憶部１１１〜１１Ｎの指定されたものから読み込み、合成演算を実行し、ステップＳ１５に移る。ステップＳ１３で合成対象が指定されていない場合は、そのままステップＳ１５に移る。

ステップＳ１５で合成結果のWFST又はＪ行目の合成対象でないと指定されたWFSTが最適化対象であるか否か判定し、最適化対象であれば、ステップＳ１６で対象が合成結果の場合は合成結果のWFSTに対し、そうでない場合は指定されたWFST記憶部から読み込んだWFSTに対し、最適化演算を実行しステップＳ１７に移る。ステップＳ１５で最適化対象が指定されてない場合はそのままステップＳ１７に移る。

ステップＳ１７でＪ行目に指定された演算処理結果の各WFSTを基本WFSTとして基本WFST記憶部１４１〜１４Ｍの対応する１つに記憶する。ステップＳ１８でＪ行目は基本WFST演算情報の最後の行であるか判定し、最後の行でなければステップＳ１９でＪを１だけ歩進してステップＳ１２に戻り、ステップＳ１２〜Ｓ１８を繰り返す。ステップＳ１８でＪ行目が最後の行と判定されると、基本WFST作成処理を終了する。

次に、認識用WFST作成部200の動作を説明する。

追加状態遷移情報記憶部２１には入力部300から追加状態遷移情報が入力され、記憶される。追加状態遷移情報は、WFSTの状態遷移として、図４のように追加対象のWFST番号(wfst)、遷移元状態番号(initstate)、遷移先状態番号(targetstate)、入力記号列(input)、出力記号列(output)、そして必要に応じて重み(weight)とを行番号で示す各行に含む。

例えば１行目には基本WFST1に対し遷移元状態番号０、遷移先状態番号１、入力記号列ａ、出力記号列Ａ，状態遷移の重み1.0、で規定される状態遷移を追加することが指定されている。２行目には、基本WFSTに対し遷移元状態番号０、遷移先状態番号１、入力記号列Ｆ，出力記号列エフ、状態遷移重み0.5で規定される状態遷移を追加することが指定されている。追加する状態遷移としては、音声認識の場合、例えば新しい雑音モデルや単語などの状態遷移である。

状態遷移追加部２２１〜２２Ｍは、追加状態遷移情報記憶部２１の追加状態遷移情報から、対応する基本WFST記憶部１４１〜１４Ｍからの基本WFSTに対して指定された状態遷移を追加して追加WFSTを作成し、追加WFST記憶部２３１〜２３Ｍに記憶する。なお、状態遷移追加部２２１〜２２Ｍは全体で状態遷移追加手段を構成している。認識用WFST演算部２４はこれら追加WFST記憶部２３１〜２３Ｍに記憶されている複数の追加WFSTから少なくとも１つの認識用WFSTを合成化・最適化演算により作成し、認識用WFST記憶部２５に記憶する。

図５Ｂは制御部400の制御に従った認識用WFST作成部200による処理の流れを示す。ステップＳ２１で整数ＫをK=1に初期設定し、ステップＳ２２で追加状態遷移情報記憶部２１に記憶されている追加状態遷移情報のＫ行目を読み込む（図４も参照）。ステップＳ２３でＫ行目に指定された基本WFST記憶部１４１〜１４Ｍの１つから読み出した基本WFSTに対し、状態遷移追加部２２１〜２２Ｍの対応する１つでＫ行目に指定されている遷移元状態番号と、遷移先状態番号と、遷移元状態での入力記号列と、遷移先状態での出力記号列と、状態遷移の重みとによって規定された状態遷移を追加し、得られた追加WFSTを対応する追加WFST記憶部２３１〜２３Ｍの１つに記憶する。

ステップＳ２４でＫ行目は追加状態遷移情報の最後の行であるか判定し、最後でなければステップＳ２５でＫを１だけ歩進し、ステップＳ２２に戻り、ステップＳ２２〜Ｓ２４を繰り返す。ステップＳ２４でＫ行目が最後の行と判定された場合は、ステップＳ２６で認識用WFST演算部２４により追加WFST記憶部２３１〜２３Ｍの追加WFSTに対し合成・最適化処理を行って認識用WFSTを得て、認識用WFST記憶部２５に記憶する。

このように本発明によれば、新規単語などに対応する新しい状態遷移を追加する際に、予め新しい状態遷移を追加するWFSTと、追加しないWFSTを分けて基本WFSTを作成しておけば、その基本WFSTに状態遷移を追加し、認識用WFSTを作成できることから、認識用WFST作成時間を最初から作成するよりも削減できる。

以上により、追加する単語に対応する状態遷移が追加された認識用WFSTを使うことにより、追加された単語に対する認識も可能になる。更に新たな単語の追加が必要となった場合は、
前回単語の追加したときに追加状態遷移情報記憶部２１に記憶した追加状態遷移情報に対し、入力部300から新たに追加する単語の状態遷移を追加し、
それによって更新された追加状態遷移情報を使って基本WFST記憶部１４１〜１４Ｍに保持されている基本WFSTに対し図５Ｂで説明したと同様に状態遷移の追加処理を行って追加WFSTを生成して追加WFST記憶部２３１〜２３Ｍに記憶し、
追加WFST記憶部２３１〜２３Ｍの追加WFSTに対し認識用WFST演算部２４により合成化及び／又は最適化を行って認識用WFSTを作成し認識用WFST記憶部２５に記憶すればよい。

あるいは、追加状態遷移情報記憶部２１の前回の情報を、新たな追加単語に対応する追加状態遷移を規定する追加状態遷移情報で書き換え、
図２中に破線で示すように、追加WFST記憶部２３１〜２３Ｍに保持されている前回の追加WFSTに対して状態遷移追加部２２１〜２２Ｍにより追加すべき状態遷移を追加し、
以下、図５ＢのステップＳ２６を実行すればよい。

次に、図６を参照し、認識対象単語として新しい単語を追加する例としてのトランスデューサ作成装置の実施例を説明する。この実施例は図２に示した重み付き有限状態トランスデューサ作成装置の原理的構成において、WFST記憶部１１１〜１１Ｎとして使用する具体的なWFSTの種類を決めた場合の例を示す。ここでは図２におけるＮとＭはN=6, M=5である。

まず、基本WFST作成部100により事前に単語追加用の基本WFSTを作成する動作を説明する。この実施例では、個別のWFSTとして、音響モデルをWFSTに変換した音響モデルWFST、トライフォンと音素の割当を変換したトライフォンWFST、単語辞書を変換した単語辞書WFST、言語モデルから変換したユニグラムWFST、辞書とクラスの割当を変換したクラスWFST、言語モデルから変換したトライグラムWFSTの計６個のWFSTを使用し、それぞれのWFST記憶部１１１〜１１６に格納しておく。また、上記の順番でそれぞれのWFSTに番号が1より順に付与されているものとする。

単語追加をする際には辞書WFST、ユニグラムWFST、クラスWFSTに追加単語の情報を状態遷移として追加する必要があるため、この３個のWFSTは状態遷移が追加可能なように合成・最適化演算を実施せず、残るWFSTについては合成・最適化演算を実施するように基本WFST演算情報を作成し、入力部300から基本WFST演算情報記憶部１２に記憶する。

図７は単語追加用の基本WFSTを作成するための基本WFST演算情報の例を示す。演算情報の表現形式は図３と同様であり、カンマで区切られた表現(compose, optimize)の前者は合成化対象のWFSTの番号を表し、後者は"1"又は"0"により最適化するか否かを表している。従って、図７の場合、１行目の(1+2,1)はWFST1（即ち音響モデルWFST）とWFST2（即ちトライフォンWFST）を合成化の対象とし、その合成結果を最適化することを指定している。２〜４行目はそれぞれ単独のWFST3, WFST4, WFST5（即ち、辞書WFST、ユニグラムWFST、クラスWFST）を指定しているので合成は行わず、また、optimizeは"0"なので最適化も行わないことを指定している。５行目はWFST6（即ち、トライグラムWFST）に対し、合成は行わないが、最適化を行うことを指定している。

基本WFST演算部１３はこの基本WFST演算情報に基づいて、それぞれ基本WFST1〜WFST5を作成し、それぞれ基本WFST記憶部１４１〜１４５に記憶する。従って、基本WFST1は音響モデルWFSTとトライフォンWFSTを合成・最適化したWFSTであり、基本WFST2は辞書WFSTと同じであり、基本WFST3はユニグラムWFSTと同じであり、基本WFST4はクラスWFSTと同じであり、基本WFST5はトライグラムWFSTを最適化したWFSTである。

次に、認識用WFST作成部200による単語追加用の基本WFSTに単語を追加する動作を説明する。追加する単語の例として、図８の左側に追加単語情報を示す。追加単語情報は、単語名「青」、発音「a o」、クラス「色」、ユニグラムの遷移重み「0.3」から構成されている。これに対応する追加状態遷移情報を図８の右側に示す。図４と同様に、追加状態遷移情報の各行には対象WFST(wfst)、遷移元状態番号(initstate)、遷移先状態番号(targetstate)、入力記号列(input)、出力記号列(output)。重み(weight)がそれぞれカンマで区切られて指定されている。１〜２行目が基本WFST2、つまり単語辞書WFSTに追加する状態遷移、３行目が基本WFST3、つまりユニグラムWFSTに追加する状態遷移、４行目が基本WFST4、つまりクラスWFSTに追加する状態遷移を示している。

状態遷移追加部２２１〜２２５は、この追加状態遷移情報に基づいて、対応する基本WFSTに対して状態遷移を追加し、それぞれの追加WFST記憶部２３１〜２３５に記憶する。図９Ａ、Ｂ，Ｃはそれぞれ基本WFST2、基本WFST3、基本WFST4に状態遷移が追加された結果を示す。太線が状態遷移追加部２２２，２２３，２２４で追加された状態遷移である。

即ち、基本WFST記憶部１４２の基本WFST2は記憶部１１３の辞書WFSTと同じであり、その一部の例として図９Ａ中に示すように、記号列"a"が入力され記号列"赤"を出力する状態番号０から１への遷移と、記号列ｋが入力され記号列"ε"（出力なし）を出力する状態番号１から２への遷移と、記号列"a"が入力され記号列"愛"が出力される状態番号０から３への遷移と、記号列"ｉ"が入力され記号列"ε"が出力される状態番号３から４への遷移とを含んでいる。

基本WFST記憶部１４３の基本WFST3はユニグラムWFST記憶部１１４のユニグラムWFSTと同じであり、その一部の例として図９Ｂ中に示すように、記号列<s>（文頭を表す）が入力され記号列<s>を出力する状態番号０から１への重み１の遷移と、記号列"藍"が入力され記号列"藍"を出力する状態番号１から１への重みが0.2の遷移と、記号列"赤"が入力され記号列"赤"を出力する状態番号１から１への重みが0.5の遷移と、記号列</s>が入力され記号列</s>を出力する状態番号１から２への重みが１の遷移とを含んでいる。

基本WFST記憶部１４４の基本WFST4はクラスWFST記憶部１１５のクラスWFSTと同じであり、その一部の例として図９Ｃに示すように、記号列"愛"が入力されて記号列"感情"を出力する状態番号０から０への遷移と、記号列"赤"が入力され記号列"色"を出力する状態番号０から０への遷移とを含んでいる。

図８の右側に示す追加状態遷移情報の１行目の指定により、図９Ａの基本WFST2（単語辞書WFST）には遷移元状態番号０から遷移先状態番号５への太線で示す遷移と、その遷移の入力記号列"ａ"と出力記号列"青"とが状態遷移追加部２２２により追加され、更に、次の２行目の指定により、図９Ａの基本WFST2には更に遷移元状態番号５から遷移先状態番号４への太線で示す遷移と、その遷移の入力記号列"ｏ"と出力記号列"ε"（出力なし）とが状態遷移追加部２２２により追加される。

次の３行目の指定により、図９Ｂの基本WFST3（ユニグラムWFST）には、遷移元状態番号１から遷移先状態番号１への太線で示す遷移と、その遷移の入力記号列"青"と出力記号列"青"と、その遷移の重み0.3とが状態遷移追加部２２３により追加される。

４行目の指定により、図９Ｃの基本WFST4（クラスWFST）には、遷移元状態番号０から遷移先状態番号０への太線で示す遷移と、その遷移の入力記号列"青"と出力記号列"色"が状態遷移追加部２２４により追加される。

基本WFST1、基本WFST5については追加状態遷移がないため、それらに対応する状態遷移追加部２２１，２２５は実質的に追加処理を行わず、そのまま追加WFST1、追加WFST5として追加WFST記憶部２３１，２３５にそれぞれ記憶する。

認識用WFST演算部２４はこれら追加WFST記憶部２３１〜２３５に記憶されている追加WFSTから認識用WFSTを合成・最適化演算により作成し、認識用WFST記憶部２５に記憶する。これにより新しい単語が追加された認識用WFSTが作成され、音声認識に利用することが可能となる。

更に単語の追加が必要となった場合は、図２の場合と同様に、追加状態遷移情報記憶部２１に保持されている前回の追加状態遷移情報に更に追加すべき単語に対応する状態遷移情報を追加して認識用WFST作成部200の処理を実行すればよい。

あるいは、追加状態遷移情報記憶部２１には新たに追加する追加状態遷移情報のみを書き込んで、図６中に破線で示すように追加WFST記憶部２３１〜２３５に保持されている前回得られた追加WFST1〜追加WFST5に対し、状態遷移追加部２２１〜２２５により状態遷移の追加処理を行って、得られた追加WFST1〜追加WFST5により追加WFST記憶部２３１〜２３５を更新し、認識用WFSTを作成すればよい。

次に実施例２として、ある特定の雑音を認識する音響モデルを追加する場合の重み付き有限状態トランスデューサ作成装置の実施例を図１０に示す。

音響モデルは、無声区間を含む例えば100時間以上の音声データ（学習データ）を利用して学習される統計モデルである。しかし、音声認識をする際に、学習データには含まれない雑音が認識対象音声に混入すると、音声認識率の低下を招く。これを防ぐために、新しい雑音のデータを用いて学習した雑音モデルを作成し、従来の音響モデルに追加することで、新たな雑音も適切に認識し、音声認識率の低下を防ぐことができる。

図１０に示す重み付き有限状態トランスデューサ作成装置は、このように雑音モデルを追加したい際に、予め作成しておいた雑音モデル追加用の基本WFSTに対して雑音モデルを追加し、認識用WFSTを作成することで作成時間の短縮を実現する。以下に具体例を説明する。この実施例の重み付き有限状態トランスデューサ作成装置は図２においてN=4, M=3とした構成と同じである。

まず、事前に雑音モデル追加用の基本WFST作成の処理例を説明する。個別のWFSTとして、音響モデルをWFSTに変換した音響モデルWFST、トライフォンを変換したトライフォンWFST、単語辞書を変換した単語辞書WFST、言語モデルから変換した言語モデルWFSTの計４個のWFSTをそれぞれのWFST記憶部１１１〜１１４に格納しておく。また、上記の順番でWFST番号が１より順に付与されているものとする。雑音モデルを追加する際には音響モデルWFST、トライフォンWFSTに音響モデルの情報を追加する必要があるため、これら２個のWFSTは状態遷移が追加可能なように合成・最適化演算を実施せずに、残るWFSTについては合成・最適化演算を実施するように基本WFST演算情報を作成し、記憶する。

図１１は雑音モデル単語追加用の基本WFSTを作成するための基本WFST演算情報であり、入力部300から基本WFST演算情報記憶部１２に書き込まれる。この基本WFST演算情報の表現形式は図３に示したものと同じである。１〜２行目は、それぞれ音響モデルWFST、トライフォンWFSTに対して合成も最適化もしないよう指定し、４行目は単語辞書WFSTと言語モデルWFSTを合成し、その後に最適化を施すよう指定している。基本WFST演算部１３はこの基本WFST演算情報に基づいて、基本WFST1〜WFST3を作成し、基本WFST記憶部１４１〜１４３に記憶する。基本WFST1は音響モデルWFST、基本WFST2はトライフォンWFST、基本WFST3は単語辞書WFSTと言語モデルWFSTを合成・最適化したWFSTである。

次に、雑音モデル追加用の基本WFSTに雑音モデルを追加する処理例を説明する。追加する雑音モデルの例として、呼び鈴などの音で学習させた「bellモデル」を追加し、bellモデルが認識されればpauseが認識されたと同じ扱いにすることとする。図１２の左側にはbellモデルを模式的に示している。これに対応する追加状態遷移情報を図１２の右側に示す。追加状態遷移情報の表現形式も図４と同じである。１〜３行目が基本WFST1、つまり音響モデルWFSTに追加する状態遷移、４行目が基本WFST2、つまりトライフォンWFSTに追加する状態遷移である。

状態遷移追加部２２１〜２２３は、この追加状態遷移の情報に基づいて、対応する基本WFST記憶部１４１〜１４３の基本WFSTに対して状態遷移を追加し、それぞれの追加WFST記憶部２３１〜２３３に記憶する。図１３が基本WFSTに状態遷移が追加された様子である。太線が状態遷移追加部で追加された状態遷移である。この音響モデルWFSTの例では各状態遷移の入力記号列s1〜s9は例えば音響モデルとして使用するＨＭＭ（隠れマルコフモデル）の状態番号を表している。また、例えば出力記号列a-k+aは[先行音素]-[中心音素]+[後続音素]のトライフォンを表している。

図１２の追加状態遷移情報の１〜４行目の指定に従って入力記号列がs9で出力記号列がbellの状態番号０から９への太線で示す遷移と、入力記号列がs9で出力記号列がεの状態番号９から９への太線で示す遷移と、入力記号列がεで出力記号列がεの状態番号９から８への太線で示す遷移が追加されている。それ以外の状態番号１〜８と遷移は追加前の基本WFST1（音響モデルWFST）の一部の例を示している。基本WFST3については追加状態遷移情報がないためそれに対応する状態遷移追加部２２３は追加処理を行わず、基本WFST3をそのまま追加WFST3として出力し、追加WFST記憶部２３３に記憶する。

図１３は基本WFST2（トライフォンWFST）への追加状態遷移の例を太線で示している。この例では入力記号列bellに対し出力記号列pauseを生じる状態番号０から１への状態遷移が追加されている。

認識用WFST演算部２４はこれら追加WFST記憶部２３１〜２３３に記憶されている追加WFSTから認識用WFSTを合成・最適化演算により作成し、認識用WFST記憶部２５に記憶する。これにより雑音モデルが追加された認識用WFSTが作成され、音声認識に利用することが可能となる。新たな雑音モデルの追加を行う場合も実施例１で説明したと同様の処理で追加することができる。

［コンピュータによる実施例］
前述の図２、図６及び図１０による重み付き有限状態トランスデューサ作成装置は、例えば図５Ａ，Ｂのフローを実施するプログラムに従って動作するコンピュータにより実施してもよい。その場合、WFST記憶部１１１〜１１Ｎ，基本WFST記憶部１４１〜１４Ｍ、追加WFST記憶部２３１〜２３Ｍ、認識用WFST記憶部２５等はコンピュータの例えばハードディスクのような不揮発性メモリ内のそれぞれの記憶領域として実現することができる。基本WFST演算情報記憶部１２及び追加状態遷移情報記憶部２１は、それらに記憶する情報がWFST作成後に不要となる場合は任意の一時メモリにより実現し、それらの情報が次回の新たな状態遷移の追加に必要な場合は、ハートディスク内の任意の領域に実現すればよい。基本WFST演算部１３、状態遷移追加部２１１〜２２Ｍ、認識用WFST演算部２５の処理は、プログラムに従って制御部400として機能するプロセサにより実行される。プログラムはコンピュータで読み取り可能な任意の記録媒体、例えばハードディスクや他の外部メモリに保持してもよい。

以下に本発明の効果を示す。
図１４に示す表1は単語を追加する際の実施例１において、従来の辞書に単語を追加してからWFSTを作成する時間と、本発明の基本WFSTに単語を追加してWFSTを作成する時間の比較の表である。本発明は事前に可能な処理を実施して基本WFSTとして記憶、それを元に単語を追加し、認識用WFSTを作成するため、単語追加から認識用WFSTを作成する時間が１１４秒と従来の２８９秒よりも大幅に削減できる。

本発明は音声認識に利用することができる。

Claims

異なる種類のＮ個の重み付き有限状態トランスデューサ（以下、WFSTと呼ぶ）を記憶するＮ個のWFST記憶部と、Ｎは３以上の整数であり、
少なくとも１つのWFSTを状態遷移を追加するWFSTと指定し、他の少なくとも１つのWFSTを追加しないWFSTと指定するよう上記Ｎ個のWFSTのそれぞれに対し状態遷移を追加するWFSTか追加しないWFSTかを指定し、全ての上記追加しないWFSTに対してそれらを合成化するか又は最適化するか又は合成化及び最適化するかをそれぞれ指定する基本WFST演算情報が入力され、上記基本WFST演算情報に従って、上記Ｎ個のWFST記憶部に保持されている全ての上記追加しないWFSTを合成化及び／又は最適化して基本WFSTとし、全ての上記追加するWFSTをそのまま基本WFSTとすることによりＭ個の基本WFSTを作成する基本WFST演算部と、Ｍは２以上Ｎ以下の整数であり、
Ｍ個の上記基本WFSTをそれぞれ記憶するＭ個の基本WFST記憶部と、
追加する状態遷移とその状態遷移を追加する対象の基本WFSTを指定する追加状態遷移情報が入力され、上記追加状態遷移情報に従って、Ｍ個の上記基本WFST記憶部の全ての上記追加するWFSTに対応する基本WFSTに状態遷移を追加して追加WFSTとし、それ以外の全ての基本WFSTはそのまま追加WFSTとすることによりＭ個の追加WFSTを生成する状態遷移追加手段と、
Ｍ個の上記追加WFSTをそれぞれ記憶するＭ個の追加WFST記憶部と、
上記追加WFSTに記憶されているＭ個の追加WFSTを合成化及び／又は最適化して少なくとも１つの認識用WFSTを作成する認識用WFST演算部と、
上記認識用WFSTを記憶する認識用WFST記憶部と、
を含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
請求項１記載の重み付き有限状態トランスデューサ作成装置において、上記追加する状態遷移は単語の状態遷移であり、上記Ｎ個のWFSTは、音響モデルWFSTと、トライフォンWFSTと、単語辞書WFSTと、ユニグラムWFSTと、クラスWFSTと、トライグラムWFSTとを含み、上記状態遷移を追加するWFSTは上記単語辞書WFSTと、ユニグラムWFSTと、クラスWFSTとを含み、上記状態遷移を追加しないWFSTは上記音響モデルWFSTと、上記トライフォンWFSTと、上記トライグラムWFSTとを含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
請求項１記載の重み付き有限状態トランスデューサ作成装置において、上記追加する状態遷移は雑音モデルの状態遷移であり、上記Ｎ個のWFSTは、音響モデルWFSTと、トライフォンWFSTと、単語辞書WFSTと、言語モデルWFSTとを含み、上記状態遷移を追加するWFSTは上記音響モデルWFSTと上記トライフォンWFSTとを含み、上記状態遷移を追加しないWFSTは上記単語辞書WFSTと上記言語モデルWFSTとを含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
請求項１乃至３のいずれか記載の重み付き有限状態トランスデューサ作成装置において、上記追加状態遷移情報を記憶する追加状態遷移情報記憶部が更に設けられており、新たな状態遷移の追加をするときに、新たな追加状態遷移情報を上記追加状態遷移情報記憶部に追加して記憶し、上記状態遷移追加手段は上記Ｍ個の基本WFST記憶部の基本WFSTに対し上記追加状態遷移記憶部内の全ての追加状態遷移情報について状態遷移の追加処理を実行するように構成されていることを特徴とする重み付き有限状態トランスデューサ作成装置。
請求項１乃至３のいずれか記載の重み付き有限状態トランスデューサ作成装置において、上記追加状態遷移情報を記憶する追加状態遷移情報記憶部が更に設けられており、上記追加状態遷移情報記憶部が新たな追加状態遷移情報により更新されると、上記状態遷移追加手段は上記追加状態遷移情報記憶部内の上記新たな追加状態遷移情報に従って上記Ｍ個の追加WFST記憶部に記憶されている追加WFSTに対し状態遷移の追加処理を行い、その処理結果により上記Ｍ個の追加WFST記憶部を更新するように構成されていることを特徴とする重み付き有限状態トランスデューサ作成装置。
重み付き有限状態トランスデューサを作成する方法であり、
異なる種類のＮ個の重み付き有限状態トランスデューサ（以下、WFSTと呼ぶ）に対し入力された基本WFST演算情報に従って、状態遷移を追加するWFSTと追加しないWFSTにそれぞれ分け、全ての上記追加しないWFSTを予め合成化及び／又は最適化して基本WFSTとし、全ての上記追加するWFSTはそのまま基本WFSTとすることによりＭ個の基本WFSTを作成する基本WFST作成工程と、Ｎは３以上の整数であり、Ｍは２以上Ｎ以下の整数であり、
追加する状態遷移とその状態遷移を追加する対象の基本WFSTを指定する追加状態遷移情報が入力され、Ｍ個の上記基本WFSTの、全ての上記追加するWFSTに対応する指定された基本WFSTに対し状態遷移を追加して追加WFSTとし、それ以外の全ての基本WFSTはそのまま追加WFSTとすることによりＭ個の追加WFSTを生成し、それらＭ個の追加WFSTを合成化及び／又は最適化して少なくとも１つの認識用WFSTを作成する認識用WFST作成工程と、
を含むことを特徴とする重み付き有限状態トランスデューサ作成方法。
請求項６記載の重み付き有限状態トランスデューサ作成方法をコンピュータで実行可能なプログラム。