JP5199985B2 - 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム - Google Patents

重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム Download PDF

Info

Publication number
JP5199985B2
JP5199985B2 JP2009271854A JP2009271854A JP5199985B2 JP 5199985 B2 JP5199985 B2 JP 5199985B2 JP 2009271854 A JP2009271854 A JP 2009271854A JP 2009271854 A JP2009271854 A JP 2009271854A JP 5199985 B2 JP5199985 B2 JP 5199985B2
Authority
JP
Japan
Prior art keywords
wfst
state transition
basic
additional
wfsts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009271854A
Other languages
English (en)
Other versions
JP2011113043A (ja
Inventor
義和 山口
貴明 堀
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009271854A priority Critical patent/JP5199985B2/ja
Publication of JP2011113043A publication Critical patent/JP2011113043A/ja
Application granted granted Critical
Publication of JP5199985B2 publication Critical patent/JP5199985B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識に使用される重み付き有限状態トランスデューサを作成する装置、作成方法及びそのプログラムに関する。
近年、重み付き有限状態トランスデューサ(以下、WFSTと呼ぶ)を使用した音声認識が検討されている。WFSTを用いた音声認識においては、音響モデル、単語辞書、言語モデル、などの音声認識に必要な情報をそれぞれWFSTで表現し、それら音響モデルWFST、発音辞書WFST,単語辞書WFST、言語モデルWFSTなどを合成、最適化して1つ又は複数の認識用WFSTを形成している(非特許文献1)。
音声認識においては、入力の音声認識対象音声を状態遷移の探索空間である認識用WFSTを使って累積重みが最大となる記号列(文字列)を検索し、認識結果の単語又は文章として出力する。
このようにして作成された認識用WFSTを使った音声認識による入力音声のテキスト化は、辞書に登録された単語のみ可能であるが、利用期間が長くなるにつれ、製品名、人名、造語、外来語など、当初に作成した辞書には含まれない単語を認識対象として含める要求が出てくる。そのような場合、従来のシステムでは、追加したい単語をWFST形式の元の単語辞書(単語辞書WFST)に追加し、具体的には追加する単語をWFST形式の状態遷移で表し、それを元の単語辞書WFSTに追加し、あるいは、元の単語辞書に追加した後に単語辞書WFSTに変換し、その単語辞書WFSTを含む、音声認識で使用される全てのWFSTを合成し、最適化して新たに認識用WFSTを作成している。
しかしながら、従来の技術では認識用WFSTを初めから作り直しているので、単語を追加してから認識用WFSTを形成するまでの時間がかかる問題があった。
この発明の目的は、単語の追加が容易であり、単語が追加された認識用WFSTが従来より短時間で形成可能な重み付き有限状態トンランスデューサ作成装置、作成方法及びそのプログラムを提供することである。
上記の課題を解決するため、本発明では、音声認識に使用される重み付き有限状態トランスデューサ(認識用WFST)の作成において、複数種類のWFSTを状態遷移を追加するWFSTと追加しないWFSTとに分け、追加しないWFSTを予め合成及び又は最適化して基本WFSTとし、追加するWFSTはそのまま基本WFSTとし、それぞれ記憶しておき、状態遷移を追加する場合は、それぞれの基本WFSTの内の対応する基本WFSTに状態遷移を追加し、その後、追加したWFST及び追加しないWFSTに対し合成・最適化演算を行い、最終的な認識用WFSTを得る。
本発明は事前に基本WFSTを作成しておくことにより、新しい遷移状態を追加する場合にその処理時間を削減でき、認識用WFSTを作成するまでの時間を短縮できる。
WFSTの例を示す図。 この発明による重み付き有限状態トランスデューサ作成装置の原理的構成を示すブロック図。 基本WFST演算情報の例を示す図。 追加状態遷移情報の例を示す図。 Aは基本WFST作成処理のフロー図、Bは認識用WFST作成処理のフロー図。 この発明の実施例1の機能構成を示すブロック図。 基本WFST演算情報の例を示す図。 追加状態遷移情報の例を示す図。 Aは単語辞書WFSTへの状態遷移の追加の例を示す図、BはユニグラムWFSTへの状態遷移の追加の例を示す図、CはクラスWFSTへの状態遷移の追加の例を示す図。 この発明の実施例2の機能構成を示すブロック図。 基本WFST演算情報の例を示す図。 追加状態遷移情報の例を示す図。 Aは音響モデルWFSTへの状態遷移の追加の例を示す図、BはトライフォンWFSTへの状態遷移の追加の例を示す図。 この発明の効果を表で示す図。
以下、本発明の実施の形態について、図を参照に詳細に説明する。
図1に簡単なWFSTの例を示す。WFSTは状態と、状態遷移の集合で表され、各状態間を遷移する際に、入力記号列を受け入れ、重みを付与して出力記号列を出力する。各丸内の番号0、…、4は状態番号を表す。例えば2つの状態間の記号a:x/0.3は状態番号0における入力記号aに対し記号xが出力されて状態番号1に移り、その状態遷移の重み(スコア)が0.3であることを示している。例えば入力記号列“bdf”に対し、記号列“yv”を出力する状態遷移は、状態番号0で記号bが入力され、それに対しyが出力され状態番号3となり、状態番号3で記号dが入力され、それに対しvが出力され状態番号2となり、状態番号2で記号fが入力され、それに対し何も出力されず状態番号4となる。εは出力無しを表している。この場合の入力記号列“bdf”から出力記号列“yv”への状態遷移の累積重みは0.7+0.8+1=2.5となる。
これを音声認識に適用する場合は、音響モデルや単語辞書、言語モデルなどを個別にWFSTに変換する。また、入力音声と音響モデルとの照合スコアや、言語モデルによる言語スコアは重み、として累積され、最終的に最も重みの高い出力記号列が音声認識結果となる。
図2に本発明による重み付き有限状態トランスデューサ作成装置の原理的構成を示す。本発明によるトランスデューサ作成装置は、事前に基本WFSTを作成しておく基本WFST作成部100と、状態遷移を追加して認識用WFSTを作成する認識用WFST作成部200との2段階の処理部に分かれる。更に入力部300と制御部400が設けられている。基本WFST作成部100はN(Nは3以上の整数)種類のWFST(WFST1〜WFSTNとする)を記憶するWFST記憶部111〜11Nと、入力された基本WFST演算情報を記憶する基本WFST演算情報記憶部12と、基本WFST演算情報に基づいてWFSTに対し演算を実行する基本WFST演算部13と、基本WFST演算により得られたM(Mは1以上N以下の整数)個の基本WFST(基本WFST1〜基本WFSTM)を記憶する基本WFST記憶部141〜14Mとを有している。
認識用WFST作成部200は、入力された追加状態遷移情報を記憶する追加状態遷移情報記憶部21と、追加状態遷移情報に基づいてM個の基本WFSTの指定されたものに状態遷移を追加し、追加WFSTを作成するM個の状態遷移追加部211〜21Mと、作成された追加WFSTを記憶するためのM個の追加WFST記憶部231〜23Mと、追加WFST記憶部231〜23Mからの追加WFSTを合成化及び/又は最適化して認識用WFSTを作成する認識用WFST演算部24と、作成された認識用WFSTを記憶する認識用WFST記憶部25とから構成されている。制御部400は各記憶部111〜11N、141〜14M、231〜23M、12,21,25の書き込み、読み出し、各演算部13,24による演算の実行、各状態遷移追加部221〜22Mの処理の実行を制御する。
まず、基本WFST作成部100の動作を説明する。
WFSTを用いた音声認識の場合は、音響モデルや辞書、言語モデルなどを個別にWFSTに変換しておく。個別のWFSTの数は利用形態によって異なるため、ここではN 個のWFSTに個別に変換され、それぞれWFST記憶部111〜11Nに記憶されているものとする。例えば単語Nグラムによる音声認識の場合は4個のWFST、クラスNグラムの場合は5個のWFSTが使用され、さらに音声認識結果に対し要約を施す場合はさらに1個のWFSTが追加される。例えば、WFST1が音響モデルを変換したWFSTであり、WFST2がトライフォンと音素の割当を変換したWFST、WFST3が辞書を変換したWFST、といったものに対応する。
基本WFST演算情報記憶部12には入力部300から基本WFST演算情報が入力され、記憶される。基本WFST演算情報には、どのWFSTを合成するかを指定する情報と、どのWFSTを最適化するかを指定する情報の、2種類の情報が含まれている。ここで最適化とは決定化、最小化(状態数が少なく及び/又は状態遷移数が少なくなるように編集すること)といったWFSTの最適化演算の総称である。基本WFST演算部13はこの基本WFST演算情報に基づいてWFSTの合成化演算及び/又は最適化演算を行う。
図3は基本WFST演算情報の一例である。行番号で示す各行には(compose, optimize)の形式で合成対象WFSTの番号と、最適化を施すか否か(1は施す、0は施さない)を指定している。合成対象WFSTの番号がa+bの形式で表されていれば番号aのWFST,即ちWFSTaと、番号bのWFST,即ちWFSTbを合成することを指定している。合成対象WFST番号が単独番号の場合は、合成を行わない。例えば、1行目の(1+2,1)はWFST1とWFST2を合成し、その合成結果に最適化を施すことを意味する。2行目の(3,0)はWFST3に対して合成化も最適化も行わないことを指定している。3行目の(4,1)はWFST4に対して合成はしないが最適化はすることを指定している。追加単語に対応する状態遷移を追加する対象のWFSTは合成化の対象とせず、それ以外のWFSTは合成化の対象となり得る。少なくとも2つのWFSTは合成化されるとすると、MはNより小さく、1以上の整数である。
このようにして作成したWFSTを基本WFSTとして、基本WFST記憶部141〜14Mに記憶する。このとき、基本WFST演算部13において実質的に演算処理が行われなかったWFSTは、元のWFSTから変更がないため、元のWFST記憶部のWFSTをそのまま基本WFSTとして使用する。
図5Aは制御部400の制御に従った基本WFST作成部100による処理の流れを示す。
ステップS11で整数JをJ=1に初期設定し、ステップS12で基本WFST演算情報記憶部12に記憶されている基本WFST演算情報のJ行目を読み込む(図3も参照)。ステップS13でJ行目の指示に合成対象のWFSTが指定されているか判定し、指定されていればステップS14で合成対象のWFSTをWFST記憶部111〜11Nの指定されたものから読み込み、合成演算を実行し、ステップS15に移る。ステップS13で合成対象が指定されていない場合は、そのままステップS15に移る。
ステップS15で合成結果のWFST又はJ行目の合成対象でないと指定されたWFSTが最適化対象であるか否か判定し、最適化対象であれば、ステップS16で対象が合成結果の場合は合成結果のWFSTに対し、そうでない場合は指定されたWFST記憶部から読み込んだWFSTに対し、最適化演算を実行しステップS17に移る。ステップS15で最適化対象が指定されてない場合はそのままステップS17に移る。
ステップS17でJ行目に指定された演算処理結果の各WFSTを基本WFSTとして基本WFST記憶部141〜14Mの対応する1つに記憶する。ステップS18でJ行目は基本WFST演算情報の最後の行であるか判定し、最後の行でなければステップS19でJを1だけ歩進してステップS12に戻り、ステップS12〜S18を繰り返す。ステップS18でJ行目が最後の行と判定されると、基本WFST作成処理を終了する。
次に、認識用WFST作成部200の動作を説明する。
追加状態遷移情報記憶部21には入力部300から追加状態遷移情報が入力され、記憶される。追加状態遷移情報は、WFSTの状態遷移として、図4のように追加対象のWFST番号(wfst)、遷移元状態番号(initstate)、遷移先状態番号(targetstate)、入力記号列(input)、出力記号列(output)、そして必要に応じて重み(weight)とを行番号で示す各行に含む。
例えば1行目には基本WFST1に対し遷移元状態番号0、遷移先状態番号1、入力記号列a、出力記号列A,状態遷移の重み1.0、で規定される状態遷移を追加することが指定されている。2行目には、基本WFSTに対し遷移元状態番号0、遷移先状態番号1、入力記号列F,出力記号列エフ、状態遷移重み0.5で規定される状態遷移を追加することが指定されている。追加する状態遷移としては、音声認識の場合、例えば新しい雑音モデルや単語などの状態遷移である。
状態遷移追加部221〜22Mは、追加状態遷移情報記憶部21の追加状態遷移情報から、対応する基本WFST記憶部141〜14Mからの基本WFSTに対して指定された状態遷移を追加して追加WFSTを作成し、追加WFST記憶部231〜23Mに記憶する。なお、状態遷移追加部221〜22Mは全体で状態遷移追加手段を構成している。認識用WFST演算部24はこれら追加WFST記憶部231〜23Mに記憶されている複数の追加WFSTから少なくとも1つの認識用WFSTを合成化・最適化演算により作成し、認識用WFST記憶部25に記憶する。
図5Bは制御部400の制御に従った認識用WFST作成部200による処理の流れを示す。ステップS21で整数KをK=1に初期設定し、ステップS22で追加状態遷移情報記憶部21に記憶されている追加状態遷移情報のK行目を読み込む(図4も参照)。ステップS23でK行目に指定された基本WFST記憶部141〜14Mの1つから読み出した基本WFSTに対し、状態遷移追加部221〜22Mの対応する1つでK行目に指定されている遷移元状態番号と、遷移先状態番号と、遷移元状態での入力記号列と、遷移先状態での出力記号列と、状態遷移の重みとによって規定された状態遷移を追加し、得られた追加WFSTを対応する追加WFST記憶部231〜23Mの1つに記憶する。
ステップS24でK行目は追加状態遷移情報の最後の行であるか判定し、最後でなければステップS25でKを1だけ歩進し、ステップS22に戻り、ステップS22〜S24を繰り返す。ステップS24でK行目が最後の行と判定された場合は、ステップS26で認識用WFST演算部24により追加WFST記憶部231〜23Mの追加WFSTに対し合成・最適化処理を行って認識用WFSTを得て、認識用WFST記憶部25に記憶する。
このように本発明によれば、新規単語などに対応する新しい状態遷移を追加する際に、予め新しい状態遷移を追加するWFSTと、追加しないWFSTを分けて基本WFSTを作成しておけば、その基本WFSTに状態遷移を追加し、認識用WFSTを作成できることから、認識用WFST作成時間を最初から作成するよりも削減できる。
以上により、追加する単語に対応する状態遷移が追加された認識用WFSTを使うことにより、追加された単語に対する認識も可能になる。更に新たな単語の追加が必要となった場合は、
前回単語の追加したときに追加状態遷移情報記憶部21に記憶した追加状態遷移情報に対し、入力部300から新たに追加する単語の状態遷移を追加し、
それによって更新された追加状態遷移情報を使って基本WFST記憶部141〜14Mに保持されている基本WFSTに対し図5Bで説明したと同様に状態遷移の追加処理を行って追加WFSTを生成して追加WFST記憶部231〜23Mに記憶し、
追加WFST記憶部231〜23Mの追加WFSTに対し認識用WFST演算部24により合成化及び/又は最適化を行って認識用WFSTを作成し認識用WFST記憶部25に記憶すればよい。
あるいは、追加状態遷移情報記憶部21の前回の情報を、新たな追加単語に対応する追加状態遷移を規定する追加状態遷移情報で書き換え、
図2中に破線で示すように、追加WFST記憶部231〜23Mに保持されている前回の追加WFSTに対して状態遷移追加部221〜22Mにより追加すべき状態遷移を追加し、
以下、図5BのステップS26を実行すればよい。
次に、図6を参照し、認識対象単語として新しい単語を追加する例としてのトランスデューサ作成装置の実施例を説明する。この実施例は図2に示した重み付き有限状態トランスデューサ作成装置の原理的構成において、WFST記憶部111〜11Nとして使用する具体的なWFSTの種類を決めた場合の例を示す。ここでは図2におけるNとMはN=6, M=5である。
まず、基本WFST作成部100により事前に単語追加用の基本WFSTを作成する動作を説明する。この実施例では、個別のWFSTとして、音響モデルをWFSTに変換した音響モデルWFST、トライフォンと音素の割当を変換したトライフォンWFST、単語辞書を変換した単語辞書WFST、言語モデルから変換したユニグラムWFST、辞書とクラスの割当を変換したクラスWFST、言語モデルから変換したトライグラムWFSTの計6個のWFSTを使用し、それぞれのWFST記憶部111〜116に格納しておく。また、上記の順番でそれぞれのWFSTに番号が1より順に付与されているものとする。
単語追加をする際には辞書WFST、ユニグラムWFST、クラスWFSTに追加単語の情報を状態遷移として追加する必要があるため、この3個のWFSTは状態遷移が追加可能なように合成・最適化演算を実施せず、残るWFSTについては合成・最適化演算を実施するように基本WFST演算情報を作成し、入力部300から基本WFST演算情報記憶部12に記憶する。
図7は単語追加用の基本WFSTを作成するための基本WFST演算情報の例を示す。演算情報の表現形式は図3と同様であり、カンマで区切られた表現(compose, optimize)の前者は合成化対象のWFSTの番号を表し、後者は"1"又は"0"により最適化するか否かを表している。従って、図7の場合、1行目の(1+2,1)はWFST1(即ち音響モデルWFST)とWFST2(即ちトライフォンWFST)を合成化の対象とし、その合成結果を最適化することを指定している。2〜4行目はそれぞれ単独のWFST3, WFST4, WFST5(即ち、辞書WFST、ユニグラムWFST、クラスWFST)を指定しているので合成は行わず、また、optimizeは"0"なので最適化も行わないことを指定している。5行目はWFST6(即ち、トライグラムWFST)に対し、合成は行わないが、最適化を行うことを指定している。
基本WFST演算部13はこの基本WFST演算情報に基づいて、それぞれ基本WFST1〜WFST5を作成し、それぞれ基本WFST記憶部141〜145に記憶する。従って、基本WFST1は音響モデルWFSTとトライフォンWFSTを合成・最適化したWFSTであり、基本WFST2は辞書WFSTと同じであり、基本WFST3はユニグラムWFSTと同じであり、基本WFST4はクラスWFSTと同じであり、基本WFST5はトライグラムWFSTを最適化したWFSTである。
次に、認識用WFST作成部200による単語追加用の基本WFSTに単語を追加する動作を説明する。追加する単語の例として、図8の左側に追加単語情報を示す。追加単語情報は、単語名「青」、発音「a o」、クラス「色」、ユニグラムの遷移重み「0.3」から構成されている。これに対応する追加状態遷移情報を図8の右側に示す。図4と同様に、追加状態遷移情報の各行には対象WFST(wfst)、遷移元状態番号(initstate)、遷移先状態番号(targetstate)、入力記号列(input)、出力記号列(output)。重み(weight)がそれぞれカンマで区切られて指定されている。1〜2行目が基本WFST2、つまり単語辞書WFSTに追加する状態遷移、3行目が基本WFST3、つまりユニグラムWFSTに追加する状態遷移、4行目が基本WFST4、つまりクラスWFSTに追加する状態遷移を示している。
状態遷移追加部221〜225は、この追加状態遷移情報に基づいて、対応する基本WFSTに対して状態遷移を追加し、それぞれの追加WFST記憶部231〜235に記憶する。図9A、B,Cはそれぞれ基本WFST2、基本WFST3、基本WFST4に状態遷移が追加された結果を示す。太線が状態遷移追加部222,223,224で追加された状態遷移である。
即ち、基本WFST記憶部142の基本WFST2は記憶部113の辞書WFSTと同じであり、その一部の例として図9A中に示すように、記号列"a"が入力され記号列"赤"を出力する状態番号0から1への遷移と、記号列kが入力され記号列"ε"(出力なし)を出力する状態番号1から2への遷移と、記号列"a"が入力され記号列"愛"が出力される状態番号0から3への遷移と、記号列"i"が入力され記号列"ε"が出力される状態番号3から4への遷移とを含んでいる。
基本WFST記憶部143の基本WFST3はユニグラムWFST記憶部114のユニグラムWFSTと同じであり、その一部の例として図9B中に示すように、記号列<s>(文頭を表す)が入力され記号列<s>を出力する状態番号0から1への重み1の遷移と、記号列"藍"が入力され記号列"藍"を出力する状態番号1から1への重みが0.2の遷移と、記号列"赤"が入力され記号列"赤"を出力する状態番号1から1への重みが0.5の遷移と、記号列</s>が入力され記号列</s>を出力する状態番号1から2への重みが1の遷移とを含んでいる。
基本WFST記憶部144の基本WFST4はクラスWFST記憶部115のクラスWFSTと同じであり、その一部の例として図9Cに示すように、記号列"愛"が入力されて記号列"感情"を出力する状態番号0から0への遷移と、記号列"赤"が入力され記号列"色"を出力する状態番号0から0への遷移とを含んでいる。
図8の右側に示す追加状態遷移情報の1行目の指定により、図9Aの基本WFST2(単語辞書WFST)には遷移元状態番号0から遷移先状態番号5への太線で示す遷移と、その遷移の入力記号列"a"と出力記号列"青"とが状態遷移追加部222により追加され、更に、次の2行目の指定により、図9Aの基本WFST2には更に遷移元状態番号5から遷移先状態番号4への太線で示す遷移と、その遷移の入力記号列"o"と出力記号列"ε"(出力なし)とが状態遷移追加部222により追加される。
次の3行目の指定により、図9Bの基本WFST3(ユニグラムWFST)には、遷移元状態番号1から遷移先状態番号1への太線で示す遷移と、その遷移の入力記号列"青"と出力記号列"青"と、その遷移の重み0.3とが状態遷移追加部223により追加される。
4行目の指定により、図9Cの基本WFST4(クラスWFST)には、遷移元状態番号0から遷移先状態番号0への太線で示す遷移と、その遷移の入力記号列"青"と出力記号列"色"が状態遷移追加部224により追加される。
基本WFST1、基本WFST5については追加状態遷移がないため、それらに対応する状態遷移追加部221,225は実質的に追加処理を行わず、そのまま追加WFST1、追加WFST5として追加WFST記憶部231,235にそれぞれ記憶する。
認識用WFST演算部24はこれら追加WFST記憶部231〜235に記憶されている追加WFSTから認識用WFSTを合成・最適化演算により作成し、認識用WFST記憶部25に記憶する。これにより新しい単語が追加された認識用WFSTが作成され、音声認識に利用することが可能となる。
更に単語の追加が必要となった場合は、図2の場合と同様に、追加状態遷移情報記憶部21に保持されている前回の追加状態遷移情報に更に追加すべき単語に対応する状態遷移情報を追加して認識用WFST作成部200の処理を実行すればよい。
あるいは、追加状態遷移情報記憶部21には新たに追加する追加状態遷移情報のみを書き込んで、図6中に破線で示すように追加WFST記憶部231〜235に保持されている前回得られた追加WFST1〜追加WFST5に対し、状態遷移追加部221〜225により状態遷移の追加処理を行って、得られた追加WFST1〜追加WFST5により追加WFST記憶部231〜235を更新し、認識用WFSTを作成すればよい。
次に実施例2として、ある特定の雑音を認識する音響モデルを追加する場合の重み付き有限状態トランスデューサ作成装置の実施例を図10に示す。
音響モデルは、無声区間を含む例えば100時間以上の音声データ(学習データ)を利用して学習される統計モデルである。しかし、音声認識をする際に、学習データには含まれない雑音が認識対象音声に混入すると、音声認識率の低下を招く。これを防ぐために、新しい雑音のデータを用いて学習した雑音モデルを作成し、従来の音響モデルに追加することで、新たな雑音も適切に認識し、音声認識率の低下を防ぐことができる。
図10に示す重み付き有限状態トランスデューサ作成装置は、このように雑音モデルを追加したい際に、予め作成しておいた雑音モデル追加用の基本WFSTに対して雑音モデルを追加し、認識用WFSTを作成することで作成時間の短縮を実現する。以下に具体例を説明する。この実施例の重み付き有限状態トランスデューサ作成装置は図2においてN=4, M=3とした構成と同じである。
まず、事前に雑音モデル追加用の基本WFST作成の処理例を説明する。個別のWFSTとして、音響モデルをWFSTに変換した音響モデルWFST、トライフォンを変換したトライフォンWFST、単語辞書を変換した単語辞書WFST、言語モデルから変換した言語モデルWFSTの計4個のWFSTをそれぞれのWFST記憶部111〜114に格納しておく。また、上記の順番でWFST番号が1より順に付与されているものとする。雑音モデルを追加する際には音響モデルWFST、トライフォンWFSTに音響モデルの情報を追加する必要があるため、これら2個のWFSTは状態遷移が追加可能なように合成・最適化演算を実施せずに、残るWFSTについては合成・最適化演算を実施するように基本WFST演算情報を作成し、記憶する。
図11は雑音モデル単語追加用の基本WFSTを作成するための基本WFST演算情報であり、入力部300から基本WFST演算情報記憶部12に書き込まれる。この基本WFST演算情報の表現形式は図3に示したものと同じである。1〜2行目は、それぞれ音響モデルWFST、トライフォンWFSTに対して合成も最適化もしないよう指定し、4行目は単語辞書WFSTと言語モデルWFSTを合成し、その後に最適化を施すよう指定している。基本WFST演算部13はこの基本WFST演算情報に基づいて、基本WFST1〜WFST3を作成し、基本WFST記憶部141〜143に記憶する。基本WFST1は音響モデルWFST、基本WFST2はトライフォンWFST、基本WFST3は単語辞書WFSTと言語モデルWFSTを合成・最適化したWFSTである。
次に、雑音モデル追加用の基本WFSTに雑音モデルを追加する処理例を説明する。追加する雑音モデルの例として、呼び鈴などの音で学習させた「bellモデル」を追加し、bellモデルが認識されればpauseが認識されたと同じ扱いにすることとする。図12の左側にはbellモデルを模式的に示している。これに対応する追加状態遷移情報を図12の右側に示す。追加状態遷移情報の表現形式も図4と同じである。1〜3行目が基本WFST1、つまり音響モデルWFSTに追加する状態遷移、4行目が基本WFST2、つまりトライフォンWFSTに追加する状態遷移である。
状態遷移追加部221〜223は、この追加状態遷移の情報に基づいて、対応する基本WFST記憶部141〜143の基本WFSTに対して状態遷移を追加し、それぞれの追加WFST記憶部231〜233に記憶する。図13が基本WFSTに状態遷移が追加された様子である。太線が状態遷移追加部で追加された状態遷移である。この音響モデルWFSTの例では各状態遷移の入力記号列s1〜s9は例えば音響モデルとして使用するHMM(隠れマルコフモデル)の状態番号を表している。また、例えば出力記号列a-k+aは[先行音素]-[中心音素]+[後続音素]のトライフォンを表している。
図12の追加状態遷移情報の1〜4行目の指定に従って入力記号列がs9で出力記号列がbellの状態番号0から9への太線で示す遷移と、入力記号列がs9で出力記号列がεの状態番号9から9への太線で示す遷移と、入力記号列がεで出力記号列がεの状態番号9から8への太線で示す遷移が追加されている。それ以外の状態番号1〜8と遷移は追加前の基本WFST1(音響モデルWFST)の一部の例を示している。基本WFST3については追加状態遷移情報がないためそれに対応する状態遷移追加部223は追加処理を行わず、基本WFST3をそのまま追加WFST3として出力し、追加WFST記憶部233に記憶する。
図13は基本WFST2(トライフォンWFST)への追加状態遷移の例を太線で示している。この例では入力記号列bellに対し出力記号列pauseを生じる状態番号0から1への状態遷移が追加されている。
認識用WFST演算部24はこれら追加WFST記憶部231〜233に記憶されている追加WFSTから認識用WFSTを合成・最適化演算により作成し、認識用WFST記憶部25に記憶する。これにより雑音モデルが追加された認識用WFSTが作成され、音声認識に利用することが可能となる。新たな雑音モデルの追加を行う場合も実施例1で説明したと同様の処理で追加することができる。
[コンピュータによる実施例]
前述の図2、図6及び図10による重み付き有限状態トランスデューサ作成装置は、例えば図5A,Bのフローを実施するプログラムに従って動作するコンピュータにより実施してもよい。その場合、WFST記憶部111〜11N,基本WFST記憶部141〜14M、追加WFST記憶部231〜23M、認識用WFST記憶部25等はコンピュータの例えばハードディスクのような不揮発性メモリ内のそれぞれの記憶領域として実現することができる。基本WFST演算情報記憶部12及び追加状態遷移情報記憶部21は、それらに記憶する情報がWFST作成後に不要となる場合は任意の一時メモリにより実現し、それらの情報が次回の新たな状態遷移の追加に必要な場合は、ハートディスク内の任意の領域に実現すればよい。基本WFST演算部13、状態遷移追加部211〜22M、認識用WFST演算部25の処理は、プログラムに従って制御部400として機能するプロセサにより実行される。プログラムはコンピュータで読み取り可能な任意の記録媒体、例えばハードディスクや他の外部メモリに保持してもよい。
以下に本発明の効果を示す。
図14に示す表1は単語を追加する際の実施例1において、従来の辞書に単語を追加してからWFSTを作成する時間と、本発明の基本WFSTに単語を追加してWFSTを作成する時間の比較の表である。 本発明は事前に可能な処理を実施して基本WFSTとして記憶、それを元に単語を追加し、認識用WFSTを作成するため、単語追加から認識用WFSTを作成する時間が114秒と従来の289秒よりも大幅に削減できる。
本発明は音声認識に利用することができる。

Claims (7)

  1. 異なる種類のN個の重み付き有限状態トランスデューサ(以下、WFSTと呼ぶ)を記憶するN個のWFST記憶部と、Nは3以上の整数であり、
    少なくとも1つのWFSTを状態遷移を追加するWFSTと指定し、他の少なくとも1つのWFSTを追加しないWFSTと指定するよう上記N個のWFSTのそれぞれに対し状態遷移を追加するWFST追加しないWFSTを指定し、全ての上記追加しないWFSTに対してそれらを合成化するか又は最適化するか又は合成化び最適化するかをそれぞれ指定する基本WFST演算情報が入力され、上記基本WFST演算情報に従って、上記N個のWFST記憶部に保持されている全ての上記追加しないWFSTを合成化及び/又は最適化して基本WFSTとし、全ての上記追加するWFSTをそのまま基本WFSTとすることによりM個の基本WFSTを作成する基本WFST演算部と、Mは2以上N以下の整数であり、
    M個の上記基本WFSTをそれぞれ記憶するM個の基本WFST記憶部と、
    追加する状態遷移とその状態遷移を追加する対象の基本WFSTを指定する追加状態遷移情報が入力され、上記追加状態遷移情報に従って、M個の上記基本WFST記憶部の全ての上記追加するWFSTに対応する基本WFSTに状態遷移を追加して追加WFSTとし、それ以外の全ての基本WFSTはそのまま追加WFSTとすることによりM個の追加WFSTを生成する状態遷移追加手段と、
    M個の上記追加WFSTをそれぞれ記憶するM個の追加WFST記憶部と、
    上記追加WFSTに記憶されているM個の追加WFSTを合成化及び/又は最適化して少なくとも1つの認識用WFSTを作成する認識用WFST演算部と、
    上記認識用WFSTを記憶する認識用WFST記憶部と、
    を含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
  2. 請求項1記載の重み付き有限状態トランスデューサ作成装置において、上記追加する状態遷移は単語の状態遷移であり、上記N個のWFSTは、音響モデルWFSTと、トライフォンWFSTと、単語辞書WFSTと、ユニグラムWFSTと、クラスWFSTと、トライグラムWFSTとを含み、上記状態遷移を追加するWFSTは上記単語辞書WFSTと、ユニグラムWFSTと、クラスWFSTとを含み、上記状態遷移を追加しないWFSTは上記音響モデルWFSTと、上記トライフォンWFSTと、上記トライグラムWFSTとを含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
  3. 請求項1記載の重み付き有限状態トランスデューサ作成装置において、上記追加する状態遷移は雑音モデルの状態遷移であり、上記N個のWFSTは、音響モデルWFSTと、トライフォンWFSTと、単語辞書WFSTと、言語モデルWFSTとを含み、上記状態遷移を追加するWFSTは上記音響モデルWFSTと上記トライフォンWFSTとを含み、上記状態遷移を追加しないWFSTは上記単語辞書WFSTと上記言語モデルWFSTとを含むことを特徴とする重み付き有限状態トランスデューサ作成装置。
  4. 請求項1乃至3のいずれか記載の重み付き有限状態トランスデューサ作成装置において、上記追加状態遷移情報を記憶する追加状態遷移情報記憶部が更に設けられており、新たな状態遷移の追加をするときに、新たな追加状態遷移情報を上記追加状態遷移情報記憶部に追加して記憶し、上記状態遷移追加手段は上記M個の基本WFST記憶部の基本WFSTに対し上記追加状態遷移記憶部内の全ての追加状態遷移情報について状態遷移の追加処理を実行するように構成されていることを特徴とする重み付き有限状態トランスデューサ作成装置。
  5. 請求項1乃至3のいずれか記載の重み付き有限状態トランスデューサ作成装置において、上記追加状態遷移情報を記憶する追加状態遷移情報記憶部が更に設けられており、上記追加状態遷移情報記憶部が新たな追加状態遷移情報により更新されると、上記状態遷移追加手段は上記追加状態遷移情報記憶部内の上記新たな追加状態遷移情報に従って上記M個の追加WFST記憶部に記憶されている追加WFSTに対し状態遷移の追加処理を行い、その処理結果により上記M個の追加WFST記憶部を更新するように構成されていることを特徴とする重み付き有限状態トランスデューサ作成装置。
  6. 重み付き有限状態トランスデューサを作成する方法であり、
    異なる種類のN個の重み付き有限状態トランスデューサ(以下、WFSTと呼ぶ)に対し入力された基本WFST演算情報に従って、状態遷移を追加するWFSTと追加しないWFSTにそれぞれ分け、全ての上記追加しないWFSTを予め合成化及び/又は最適化して基本WFSTとし、全ての上記追加するWFSTはそのまま基本WFSTとすることによりM個の基本WFSTを作成する基本WFST作成工程と、Nは3以上の整数であり、Mは以上N以下の整数であり、
    追加する状態遷移とその状態遷移を追加する対象の基本WFSTを指定する追加状態遷移情報が入力され、M個の上記基本WFSTの、全ての上記追加するWFSTに対応する指定された基本WFSTに対し状態遷移を追加して追加WFSTとし、それ以外の全ての基本WFSTはそのまま追加WFSTとすることによりM個の追加WFSTを生成し、それらM個の追加WFSTを合成化及び/又は最適化して少なくとも1つの認識用WFSTを作成する認識用WFST作成工程と、
    を含むことを特徴とする重み付き有限状態トランスデューサ作成方法。
  7. 請求項6記載の重み付き有限状態トランスデューサ作成方法をコンピュータで実行可能なプログラム。
JP2009271854A 2009-11-30 2009-11-30 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム Expired - Fee Related JP5199985B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009271854A JP5199985B2 (ja) 2009-11-30 2009-11-30 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009271854A JP5199985B2 (ja) 2009-11-30 2009-11-30 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011113043A JP2011113043A (ja) 2011-06-09
JP5199985B2 true JP5199985B2 (ja) 2013-05-15

Family

ID=44235386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009271854A Expired - Fee Related JP5199985B2 (ja) 2009-11-30 2009-11-30 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5199985B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5881157B2 (ja) * 2012-02-22 2016-03-09 国立研究開発法人情報通信研究機構 情報処理装置、およびプログラム
KR101394253B1 (ko) 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
JP6179884B2 (ja) * 2012-11-26 2017-08-16 国立研究開発法人情報通信研究機構 Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
JP6095588B2 (ja) * 2013-06-03 2017-03-15 日本電信電話株式会社 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
JP5701348B2 (ja) * 2013-08-23 2015-04-15 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248980A (ja) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product

Also Published As

Publication number Publication date
JP2011113043A (ja) 2011-06-09

Similar Documents

Publication Publication Date Title
KR102057927B1 (ko) 음성 합성 장치 및 그 방법
JP5199985B2 (ja) 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
Zen et al. Statistical parametric speech synthesis using deep neural networks
US9305547B2 (en) System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
CN101828218B (zh) 通过多形式段的生成和连接进行的合成
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
McGraw et al. Learning lexicons from speech using a pronunciation mixture model
US11763797B2 (en) Text-to-speech (TTS) processing
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
JP2001215985A (ja) 視覚的音声のトランスリンガル合成
JP2004109464A (ja) 音声認識装置及び音声認識方法
JP2006084715A (ja) 素片セット作成方法および装置
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US8626510B2 (en) Speech synthesizing device, computer program product, and method
Kayte et al. Hidden Markov model based speech synthesis: A review
JP2018146803A (ja) 音声合成装置及びプログラム
King A beginners’ guide to statistical parametric speech synthesis
JP2015014774A (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
KR20150001191A (ko) 연속어 음성 인식 장치 및 방법
JP2012058343A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP2014142465A (ja) 音響モデル生成装置及び方法、並びに音声認識装置及び方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110722

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5199985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees