JP4243777B2 - トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体 - Google Patents

トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体 Download PDF

Info

Publication number
JP4243777B2
JP4243777B2 JP2004209218A JP2004209218A JP4243777B2 JP 4243777 B2 JP4243777 B2 JP 4243777B2 JP 2004209218 A JP2004209218 A JP 2004209218A JP 2004209218 A JP2004209218 A JP 2004209218A JP 4243777 B2 JP4243777 B2 JP 4243777B2
Authority
JP
Japan
Prior art keywords
wfst
symbol string
semi
input
transducer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004209218A
Other languages
English (en)
Other versions
JP2006031403A (ja
Inventor
元 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004209218A priority Critical patent/JP4243777B2/ja
Publication of JP2006031403A publication Critical patent/JP2006031403A/ja
Application granted granted Critical
Publication of JP4243777B2 publication Critical patent/JP4243777B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体に関する。
有限状態オートマトンは、有限個の状態とその状態間の有限個の遷移とで表現される抽象的なモデルである。このオートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したものが、WFST(Weighted Finite-State Transducer)として知られている(非特許文献1など)。
このWFSTをシンボル列の変換処理(デコーディングとも呼ばれる)に活用する際には、WFSTの各状態から入力シンボルで遷移できる状態数が多くなるほど、コンピュータへの負担(計算量およびメモリ消費量)が増えてしまう。そのため、同じWFSTの機能を保ちつつ、各状態から入力シンボルで遷移できる状態が一意に決まるような、WFSTの変換処理(ある種の最適化処理)が、決定化演算として提案されている(非特許文献1参照)。
Mehryar Mohri著、"Finite-State Transducers in Language and Speech Processing"、Computational Linguistics Volume 23, No.2,1997.
しかしながら、従来の決定化演算では、全てのWFSTが決定化できるわけではなく、決定化できないWFSTも、図17(a)のように、多く存在していた。そのため、決定化演算ができないWFSTは、そのまま使用すると、計算機資源が、浪費されてしまうこととなる。
よって、従来の決定化が適用できないようなWFSTに対しても、入力シンボル列に対する遷移数、遷移先状態数を減らし、シンボル列の変換処理の過程で必要となる計算量、メモリ消費量を小さくすることが、求められている。
つまり、決定化できないWFSTに対しても適用可能な準決定化手法を提案することが求められている。ここで、準決定化とは、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすWFSTに対する演算をいう。
そこで、本発明は、前記した問題を解決し、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化手法を提案することを主な目的とする。
前記課題を解決するため、本発明は、状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化するトランスデューサ処理装置であって、準決定化の対象となるWFSTの入力を受け付けるトランスデューサ入力部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明は、前記シンボル列変換部が、前記準決定化したWFSTを、シンボル列の変換処理に使用することを特徴とする。これにより、準決定化したWFSTは、任意の入力シンボルに対する状態数および状態遷移数が少なくなるので、シンボル列の変換処理時の計算量を大幅に削減する効果がある。
本発明は、前記トランスデューサ処理装置が、前記準決定化の対象となるWFSTが複数ある場合に、1つのWFSTに合成するトランスデューサ合成部をさらに含めて構成されることを特徴とする。これにより、シンボル列変換処理時の計算量の削減を実現できる。
本発明は、状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化する機械翻訳モデル作成装置であって、機械翻訳の対象となるコーパスをもとに準決定化の対象となるWFSTを作成する機械翻訳データ処理部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明は、状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化する音声認識モデル作成装置であって、入力された音声に関するデータをもとに準決定化の対象となるWFSTを作成する音声データ処理部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明は、状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTをコンピュータが準決定化するトランスデューサ処理方法であって、前記コンピュータが、準決定化の対象となるWFSTの入力を受け付ける手順と、入力シンボル列に対して、記憶手段に格納された所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換手順と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する手順と、を実行し、前記所定の条件は、前記シンボル列変換手順が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明は、前記シンボル列変換手順が、前記準決定化したWFSTを、シンボル列の変換処理に使用することを特徴とする。これにより、準決定化したWFSTは、任意の入力シンボルに対する状態数および状態遷移数が少なくなるので、シンボル列の変換処理時の計算量を大幅に削減する効果がある。
本発明は、前記トランスデューサ処理方法が、前記準決定化の対象となるWFSTが複数ある場合に、1つのWFSTに合成する手順をさらに含めて実行することを特徴とする。これにより、シンボル列変換処理時の計算量の削減を実現できる。
本発明は、前記トランスデューサ処理方法をコンピュータに実行させるためのトランスデューサ処理プログラムである。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明は、前記トランスデューサ処理プログラムを記録したコンピュータ読み取り可能な記録媒体である。これにより、決定化演算が出来ないWFSTに対して、任意の入力シンボルに対する遷移の数および遷移先状態の数を減らすような準決定化が実現できる。
本発明のWFSTの準決定化手法は、決定化できないWFSTに対しても適用可能であり、機械翻訳、音声認識をはじめとする様々なシンボル列変換に応用できる。そして、これらの実用的なシステムにおいて、シンボル列の変換処理時の計算量を大幅に削減する効果がある。
従来の決定化では、決定化可能である場合でも、その演算処理過程でWFSTの状態数が膨大になり、計算量、メモリ消費量の両面から、現実問題として計算できないことが多かったが、本発明の準決定化手法を実施したWFSTは、準決定化前のWFSTと比べて、遷移数や状態数が増えない特徴がある。このため、計算量やメモリ消費量の問題によって決定化できないようなWFSTに対しても、本発明の準決定化手法は、計算できる可能性が高い。
以下に、本発明が適用されるトランスデューサ処理装置の一実施形態について、図面を参照して詳細に説明する。まず、本実施形態のトランスデューサ処理装置の構成について、図1を参照して説明する。
図1は、本発明の一実施形態に関するトランスデューサ処理装置1の構成図である。トランスデューサ処理装置1は、入力されたトランスデューサを準決定化する機能を有する。このため、トランスデューサ処理装置1は、準決定化の対象となるトランスデューサの入力を受け付けるトランスデューサ入力部10と、複数のトランスデューサを1つのトランスデューサに合成するトランスデューサ合成部20と、トランスデューサの準決定化演算を行う準決定化演算部30と、を含めて構成される。
そして、準決定化演算部30は、入力シンボル列に対して、累積重みが所定のもの(例えば、最小の値、最大の値、所定の範囲など)となるような最適または準最適な出力シンボル列を求めるシンボル列変換部31と、シンボル列変換部31がシンボル列を変換するときに仮説候補集合に現れる状態の統計をとる統計処理部31aと、入カシンボル列とそれに対応した正解の出力シンボル列の組を格納する正解データ記憶部31bと、複数の状態を所定の条件により結合する状態結合部32と、を含めて構成される。そして、トランスデューサ処理装置1は、準決定化演算部30により準決定化したトランスデューサ(WFST)を出力する手段を有する。出力する手段とは、例えば、記憶手段への書き出し、ネットワークを介したデータ配信、紙面への印刷などである。なお、トランスデューサ処理装置1の各構成要素(シンボル列変換部31など)は、トランスデューサ処理装置1という1つの筐体に納める形態だけでなく、一部の構成要素だけをトランスデューサ処理装置1とは別の装置に構成し、互いにネットワークで接続するようなシステム構成とすることもできる。以下、各構成要素について、後記する処理の説明において、詳細に説明する。
なお、トランスデューサ処理装置1は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。
以上、トランスデューサ処理装置1の構成について、説明した。次に、本実施形態のトランスデューサ処理装置1の動作について、図1を参照しつつ、図2ないし図7に沿って説明する。
図2は、WFSTの準決定化処理の概要を説明するフローチャートである。まず、トランスデューサ入力部10は、準決定化の対象となるWFSTの入力を受け付ける(S1)。なお、重み付き有限状態トランスデューサ(WFST)の定義は以下のとおりである。
A=(Σ,Δ,Q,K,E,I,F):WFSTの定義
Σ:入力シンボル
Δ:出力シンボル
Q:状態の有限集合
K:重みの半環
E:Q×(Σ∪{ε})×(Δ∪{ε})×K×Q:遷移の有限集合
λ:I→K:初期状態重み関数
ρ:F→K:最終状態重み関数
I:初期状態の集合
F:最終状態の集合
図8に、WFSTの例を示す。数字でラベルの付された丸が状態を表し、状態間を結ぶ矢印が遷移を表す。以下、状態の番号と、図面の符号とを区別するために、状態の番号を、「」(カギ括弧)で括ることにする。始点のない矢印で指された状態(図8では状態「0」)が初期状態、太線で囲まれた状態(図8では状態「5」)が最終状態を表す。コロン「:」の左が入カシンボル、右が出力シンボルを表す。εは特別で、空のシンボルを表す。スラッシュ(/)の右の数字は重みを表す。
説明の簡略化のため、本明細書では「初期状態重み関数」や「最終状態重み関数は」重みの単位元を返すものと仮定して説明する。また、重みもtropical半環(値は実数値、和はmin、積は+、零元は+∞、単位元は0)を仮定する。
次に、トランスデューサ合成部20は、複数のWFSTを1つのWFSTに合成する(S3)。なお、この合成処理は、省略してもよいため、合成を実行することが指定されている場合(S2、Y)のみ、実行される。
ここで、WFSTの合成演算とは、例えば、文献(著者「Fernando C.N.Pereira,Michael Riley」、タイトル「Speech Recognition by Composition of Weighted Finite Automata」、出典「In Emmanuel Roche and Yves Schabes,editors,Finite-State Devices for Natural Language Processing,chapter 15,pp.431-453.MIT Press,Cambridge,Massachusetts,1997.」)などに書かれているような合成演算(つまり、composition演算)であり、2つのWFSTから1つのWFSTに変換する演算である。図9に2つのWFST(T1、T2)の合成結果を示す。合成されたWFSTの状態は、合成前のWFSTの状態の組に対応する。以下、本明細書では、WFSTの合成演算を、記号「○」で示す。例えば、2つのWFST(T1と、T2)の合成結果は、T1○T2で示される。
なお、合成演算の入力となるWFSTは、例えば、文献(著者「Fernando C.N.Pereira,Michael Riley」、タイトル「Speech Recognition by Composition of Weighted Finite Automata」、出典「In Emmanuel Roche and Yves Schabes,editors,Finite-State Devices for Natural Language Processing,chapter 15,pp.431-453.MIT Press,Cambridge,Massachusetts,1997.」)に記載されている無駄なパスを生成しないようなεのための処理が行われたWFSTであることが、望ましい。
そして、準決定化演算部30は、入力されたWFSTに対して、準決定化演算を行う。ここでの準決定化とは、WFSTの所定の状態において、同じ入カシンボルに対する遷移や遷移先の状態の数を減らす(換言すると、入力に対する状態遷移先の曖昧性を削減する)ために、WFSTを変換する演算である。しかし、従来技術におけるWFSTの決定化演算とは異なり、ある入力シンボルに対して遷移する状態の数は、複数でもよい。
従来、決定化ができなかったWFSTを、決定化しようとすると、無限ループに陥ってしまっていた。しかし、準決定化処理は、決定化ができなかったWFSTに対しても、準決定化を実行できる点で、従来技術とは異なる。よって、準決定化したWFSTを用いたシンボル列変換処理は、決定化できないWFSTを用いた処理に比べて、必要となる計算量、メモリ消費量を小さくすることができる。また、状態のペアの数は高々状態数の2乗オーダーであり、アルゴリズム上、組み合わせ爆発が起こるデータ構造をもたないため、計算量、メモリ消費量も従来技術の決定化より抑えることができる。
以下、準決定化演算の詳細を説明する。まず、シンボル列変換部31は、入力シンボル列に対して、累積重みが最小となるような最適または準最適な出力シンボル列を求める(S4)。このシンボル列の変換処理は、デコーディングと呼ばれることもある。シンボル列の変換のアルゴリズムは、図3に示す通りである。つまり、シンボル列の変換は、前向きサーチの仮説候補集合の初期化(S10、図4参照)、前向きサーチ(S30、図5参照)、後向きA*サーチの初期化(S50、図6参照)、後向きA*サーチ(S70、図7参照)、を順に実行することである。これにより、準最適なN個の変換候補を出力する。ここで、図4〜図7で使用される変数の定義は、次の通りである。
I:入力文字列を重みつき有限状態アクセプタに書き換えたもの
C:1の状態の順序集合
M:入力のεがないように遷移を書き換えたWFST
図4は、前向きサーチ(前向きビームサーチ)の初期化を説明するフローチャートである。シンボル列変換部31は、各入力の初期状態をs0として、以下の処理を順番に実行する(S11)。シンボル列変換部31は、各Mの初期状態をs1として、以下の処理を順番に実行する(S12)。シンボル列変換部31は、s0の仮説候補集合に、仮説候補を加える(S13)。なお、仮説候補は、モデル状態が「s1」、累積重みが「0.0」、バックポインタが「空集合」である。シンボル列変換部31は、s1のループを終了し(S14)、s0のループを終了する(S15)。
図5は、前向きサーチを説明するフローチャートである。シンボル列変換部31は、各Cの要素を小さい順にs2として、以下の処理を順番に実行する(S31)。シンボル列変換部31は、s2を始点とする各遷移をt0として、以下の処理を順番に実行する(S32)。シンボル列変換部31は、s2の候補集合の各要素をh0として、以下の処理を順番に実行する(S33)。シンボル列変換部31は、h0のモデルの各状態を始点とする遷移のうちt0のシンボルを入力として遷移可能なものをt1とする(S34)。シンボル列変換部31は、t0の終点状態の仮説候補集合に、仮説候補を加える(S35)。なお、仮説候補は、入力状態が「s2」、累積重みが「h0の累積重み+t0の遷移重み+t1の遷移重み」、バックポインタが「t1の入力シンボル、t1の出力シンボル、t0の遷移重み+t1の遷移重み、h0のID」である。但し、すでにs2の入力状態の候補がある場合は、累積重みとしては小さい方を採用し、バックポインタは両者の集合のユニオンとする。また、「累積重み>t0の終点状態の仮説候補集合の中で一番小さな累積重み+あらかじめ設定されたビーム幅」である場合、t0の終点状態の仮説候補集合は修正しない。シンボル列変換部31は、t1のループを終了し(S36)、h0のループを終了し(S37)、t0のループを終了し(S38)、s2のループを終了する(S39)。
図6は、後向きA*サーチの初期化を説明するフローチャートである。シンボル列変換部31は、優先順位付きキュー(q)を空にする(S51)。ここで、優先順位付きキューは、推定重みの小さいものが優先してポップされるようなキューである。シンボル列変換部31は、Iの最終状態の前向きサーチ仮説候補集合の各要素をh1として、以下の処理を順番に実行する(S52)。シンボル列変換部31は、キューに仮説候補をプッシュする(S53)。なお、仮説候補は、推定重みが「h1の累積重み」、累積重みが「0.0」、バックポインタが「NIL」、前向きサーチ仮説候補IDが「h1」である。シンボル列変換部31は、h1のループを終了する(S54)。
図7は、後向きA*サーチを説明するフローチャートである。シンボル列変換部31は、Nに0を代入する(S71)。シンボル列変換部31は、qが空でない間、以下の処理を繰り返し実行する(S72)。シンボル列変換部31は、h2にキューから要素をポップする(S73)。シンボル列変換部31は、所定の条件を満たしている場合に、後向きサーチ仮説候補のバックポインタをたどり、出力シンボル列を出力する(S74)とともに、Nに1を追加する。なお、所定の条件は、h2の前向きサーチ仮説候補IDがIとMの両者の初期状態に対応するという条件である。また、もし、Nがあらかじめ与えられた出力候補数と同数なら、図7の処理を終了する。
シンボル列変換部31は、h3にh2の前向きサーチ仮説候補を代入する(S75)。シンボル列変換部31は、h3のバックポインタ集合の各要素をbpとして、以下の処理を順に実行する(S76)。シンボル列変換部31は、h4にbpの仮説候補IDを代入する(S77)。シンボル列変換部31は、キューに仮説候補をプッシュする(S78)。なお、仮説候補は、累積重みが「h2の累積重み+bpの遷移重み」、推定重みが「h2の累積重み+bpの遷移重み+h4の累積重み」、バックポインタが「(bp入力シンボル、bp出力シンボル、h2)」、前向きサーチ仮説候補IDが「h4」である。シンボル列変換部31は、bpのループを終了し(S79)、qのループを終了する(S80)。
なお、図4〜図7では、Iの状態S1から状態S2に遷移があるとき、S1<S2で順序を定義する。前向きサーチの仮説候補集合の要素は固有のID(仮説候補ID)をもった3つ組からなる。
仮説候補ID:(モデル状態,累積重み,バックポインタ集合)
前向きサーチ仮説候補における「バックポインタ集合」の要素は以下のとおり。
[入カシンボル,出力シンボル,遷移重み,仮説候補ID]
後向きサーチの仮説候補は以下のとおり。
仮説候補ID:(推定重み,累積重み,バックポインタ,前向きサーチ仮説候補ID)
後向きサーチの「バックポインタ」はNIL(何も各々の正解指さない場合)もしくは、以下の形式をとる。
(入力シンボル,出力シンボル,後向きサーチ仮説候補ID)
"acd"を入力シンボル列,図8をシンボル列変換に用いるWFSTとしたとき、図10に前向きサーチの実行例を、図11に後向きサーチの優先順位付キューの推移の様子を示す。個々では単一のWFSTを用いたシンボル列の変換手法を詳説したが、ここのWFSTは複数の合成であってもまったく同じように扱うことができる。この場合、遷移を求める過程で合成演算を動的に適用し、「モデル状態」は複数のWFSTの状態の組となる。
なお、後記する状態の結合(S6)により、同一の遷移(遷移元の状態、入力シンボル、出力シンボル、遷移先状態、の4つ組)が複数現れる場合は、1つの遷移のみを残す。また、後記する状態の結合(S6)により、始端と終端が同じ状態でεを入力とする遷移(εループと呼ぶ)が、新たに生成される可能性がある。よって、その重みが負の場合はシンボル列の変換の過程で無限ループに陥る可能性があるので0.0に丸める。また出力もεであるようなεループは取り除く。
図2に戻って、説明を続ける。統計処理部31aは、シンボル列変換部31がシンボル列を変換するときに仮説候補集合に現れる状態の統計をとる(S5)。ただし、この共起の統計量を計る際には,正解シンボル列(Oi)に変換されることを前提とした制約を加える。
つまり、各入力シンボル列iに対応した正解出力シンボル列WFSTをOi、シンボル列変換モデルをT0○T1○…○Tn-1○Tnとする。正解シンボル列(例えば“ac”)は、図12のようなWFSTに変換される。そして、T0○T1○…○Tn-1○Tn○Oiを用いてiをシンボル列変換し、そのとき同時に仮説候補集合に現れる状態をモデル毎(Tiごと)にカウントすることで、統計処理が行われる。
この統計処理を行うために、正解データ記憶部31bは、入カシンボル列とそれに対応した正解の出力シンボル列を大量に記憶する。そして、トランスデューサ処理装置1は、それらのシンボル列の組を、正解出力シンボル列のWFST(Oi)に変換する。
さらに、状態結合部32は、複数の状態を所定の条件により結合する(S6)。なお、「実際にWFSTを使ったシンボル列の変換過程(つまり、前向きサーチ(S30)の過程)で、候補管理集合(仮説候補集合)の中に頻繁に共起する(一緒に現れる)WFSTの状態たちは、区別の必要が少ない」とみなすことができる。よって、すべてのWFSTの状態のペアに対して、WFSTの状態の共起スコア(共起する状態の頻度から算出される統計量)がある値(所定の閾値)より大きいことを前記所定の条件とし、その所定の条件を満たす状態同士を結合する。
そして、状態の結合の基準としては、統計処理(S5)で説明したシンボル列の変換過程で統計処理部31aが算出する統計量φ2値を用いる。
φ2=(ad−bc)2/{(a+b)(a+c)(b+d)(c+d)}
a=freq(q1,q2
b=freq(q1)−a
c=freq(q2)−a
d=N−a−b−c
ここで、Nは仮説候補集合の数、freq(q)は、状態qが現れた仮説候補集合の数、freq(q1,q2)はq1とq2が同時に現れた仮説候補集合の数を表す。各Ti毎に、このφ2値が所定の閾値以上となる状態同士を結合する。
以上、準決定化演算について、一通り説明した。次に、本明細書が開示する準決定化演算と、従来技術の決定化演算との差異を明確にする説明を行う。図8に、演算対象となるWFSTを示す。
まず、本明細書が開示する準決定化演算で、図8のWFSTを準決定化した結果を図13に示す。ここでは、状態「1」と状態「3」が結合されている。準決定化演算は、所定の状態について、同一の入力シンボルによって遷移する先の状態の数および遷移数を減らすことを特徴としている。しかし、遷移する先の状態の数は、必ずしも1つになるとは限らない。例えば、図13では、状態「0」から入力シンボル「a」によって遷移する先の状態の数は、2つである。
一方、従来技術の決定化演算について、例えば、文献(著者「Mehryar Mohri」、タイトル「Finite-State Transducers in Language and Speech Processing」、出典「Computational Linguistics Volume 23, No.2,1997.」)で提案されている手法で、図8のWFSTを決定化した結果を図14に示す。決定化されたWFSTの状態は「もとのWFSTの状態」、「未出力シンボル列」、「未出力重み」の3つ組の集合で表される。決定化されたWFSTは,任意の入カシンボルに対して、遷移先が一意に決まるため,非常に効率のよいシンボル列変換が可能になる。
このように、本明細書が開示する準決定化演算と、従来技術の決定化演算とは、入力に対する状態遷移先の曖昧性を削減するという目的は共通しているが、演算結果が異なる。
ただし,必ずしもすべてのWFSTが決定化できるわけでない。WFSTの種類によっては決定化の過程で生成されるこの3つ組の個数が有限個で抑えられない場合があり、決定化が不可能になることがある。また、決定化したWFSTの状態はもとのWFSTの状態の集合に対応するため、決定化が可能な場合であってもこの3つ組は膨大な数になりがちであるため、計算量、メモリ消費料も膨大になるから、現実問題として計算できないことが多い。
例えば、図17(a)のWFSTは、決定化演算では無限ループが発生してしまうので、決定化が不可能なWFSTの一例である。このようなWFSTに対しても、状態遷移先の曖昧性を削減することは、従来技術の決定化演算では、うまくいかなかった。
しかし、本明細書が開示する準決定化演算は、この図17(a)のWFSTを、図17(b)のように、準決定化することができる。具体的には、“aa”という入力シンボル系列の変換結果の正解として、“ab”が学習データの中に数多く与えられると、本発明の準決定化手法では、状態「1」と状態「2」とが結合され、図17(b)のような結果が得られる。その結果、準決定化演算は、決定化演算よりも、処理できるWFSTが多い(つまり、適用範囲の広い)手法であるといえる。
以上説明した本発明は、以下のようにその趣旨を逸脱しない範囲で広く変形実施することができる。
例えば、本実施形態のトランスデューサ処理装置1(図1参照)を、入力されたコーパスから生成されるトランスデューサを準決定化する機械翻訳モデル作成装置1aとして活用してもよい。つまり、機械翻訳モデル作成装置1aは、機械翻訳に使用するための準決定化したWFSTを作成および出力する。そして、機械翻訳の処理は、準決定化したWFSTに対してシンボル列変換をすることによって、実現される。さらに、機械翻訳モデル作成装置1aは、準決定化したWFSTに対してシンボル列変換をする手段を、有する構成としてもよい。または、機械翻訳モデル作成装置1aとは別の装置が、シンボル列変換をする手段を有する構成としてもよい。図15に、機械翻訳モデル作成システムの全体構成図を示す。
まず、機械翻訳データ処理部11は、例えば、文献(著者「塚田元,永田昌明」、タイトル「WFST全展開モデルに基づく統計的機械翻訳 」、出典「言語処理学会 第10回年次大会,pp.41-44,March 2004.」)に書かれているような方法を用いて、文毎にアライメントのとれた大量の2ヵ国語コーパスおよび辞書から、複数の統計翻訳用のサブモデルを学習し、WFSTの形で表現する(S1)。次に、トランスデューサ合成部20は、このサブモデルとして表現された複数のWFSTを、合成演算によって1つのWFSTに合成する(S3)。なお、この合成処理は、必須ではない。さらに、準決定化演算部30は、この合成されたWFSTを準決定化する。ここで、シンボル列変換部31は、入力文(単語列もしくは複合語列)を出力文(単語列もしくは複合語列)に変換する(S4)。
以上、機械翻訳モデル作成装置1aは、複数のサブモデルを予め合成しておくことと、準決定化処理との相乗効果で、従来の構成と比べて格段に効率的な翻訳処理が可能になる。なお、我々の日英翻訳実験では約20倍の速度向上が達成できた。
また、本実施形態のトランスデューサ処理装置1(図1参照)を、入力された音声に関するデータから生成されるトランスデューサを準決定化する音声認識モデル作成装置1bとして活用してもよい。つまり、音声認識モデル作成装置1bは、音声認識に使用するための準決定化したWFSTを作成および出力する。そして、音声認識の処理は、準決定化したWFSTに対してシンボル列変換をすることによって、実現される。さらに、音声認識モデル作成装置1bは、準決定化したWFSTに対してシンボル列変換をする手段を、有する構成としてもよい。または、音声認識モデル作成装置1bとは別の装置が、シンボル列変換をする手段を有する構成としてもよい。図16に、音声認識モデル作成システムの全体構成図を示す。
まず、音声データ処理部12は、例えば文献(著者「Mehryar Mohri,Fernando C.N.Pereira,Michael Riley」、タイトル「Weighted finite-state transducers in speech recognition」、出典「Computer Speech & Language January 2002, vol. 16, no. 1,pp. 69-88(20)」)などに書かれているような方法を用いて、書き起こし音声データ、発音辞書、テキストデータなどからサブモデルを学習し、WFSTの形で表現する(S1)。トランスデューサ合成部20は、このサブモデルとして表現された複数のWFSTを、合成演算によって1つのWFSTに合成する(S3)。なお、この合成処理は、必須ではない。さらに、準決定化演算部30は、この合成されたWFSTを準決定化する。つまり、シンボル列変換部31は、HMM(Hidden Markov Model)の確率分布ID列を出力単語列(または複合語列)に変換する(S4)。
本発明の一実施形態に関するトランスデューサ処理装置の構成図である。 本発明の一実施形態に関するWFSTの準決定化処理の概要を説明するフローチャートである。 本発明の一実施形態に関するシンボル列の変換のアルゴリズムを示す図である。 本発明の一実施形態に関する前向きサーチの仮説候補集合の初期化を説明するフローチャートである。 本発明の一実施形態に関する前向きサーチを説明するフローチャートである。 本発明の一実施形態に関する後向きA*サーチの初期化を説明するフローチャートである。 本発明の一実施形態に関する後向きA*サーチを説明するフローチャートである。 本発明の一実施形態に関するWFSTの例を示す図である。 本発明の一実施形態に関する2つのWFSTの合成結果を示す図である。 本発明の一実施形態に関する前向きサーチの実行例を示す図である。 本発明の一実施形態に関する後向きサーチの優先順位付キューの推移の様子を示す図である。 本発明の一実施形態に関する正解シンボル列を示す図である。 本発明の一実施形態に関するWFSTを準決定化した結果を示す図である。 従来の技術に関するWFSTを決定化した結果を示す図である。 本発明の一実施形態に関する機械翻訳モデル作成システムの全体構成図である。 本発明の一実施形態に関する音声認識モデル作成システムの全体構成図である。 本発明の一実施形態に関する決定化できないWFSTを準決定化した図である。
符号の説明
1 トランスデューサ処理装置
1a 機械翻訳モデル作成装置
1b 音声認識モデル作成装置
10 トランスデューサ入力部
11 機械翻訳データ処理部
12 音声データ処理部
20 トランスデューサ合成部
30 準決定化演算部
31 シンボル列変換部
32 状態結合部

Claims (10)

  1. 状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化するトランスデューサ処理装置であって、
    準決定化の対象となるWFSTの入力を受け付けるトランスデューサ入力部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、
    前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とするトランスデューサ処理装置。
  2. 前記シンボル列変換部は、前記準決定化したWFSTを、シンボル列の変換処理に使用することを特徴とする請求項1に記載のトランスデューサ処理装置。
  3. 前記トランスデューサ処理装置は、前記準決定化の対象となるWFSTが複数ある場合に、1つのWFSTに合成するトランスデューサ合成部をさらに含めて構成されることを特徴とする請求項1または請求項2に記載のトランスデューサ処理装置。
  4. 状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化する機械翻訳モデル作成装置であって、
    機械翻訳の対象となるコーパスをもとに準決定化の対象となるWFSTを作成する機械翻訳データ処理部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、
    前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする機械翻訳モデル作成装置。
  5. 状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTを準決定化する音声認識モデル作成装置であって、
    入力された音声に関するデータをもとに準決定化の対象となるWFSTを作成する音声データ処理部と、入力シンボル列に対して、所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換部と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する状態結合部と、を含めて構成され、
    前記所定の条件は、前記シンボル列変換部が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とする音声認識モデル作成装置。
  6. 状態とその状態間の遷移とで表現される有限状態オートマトンを拡張し、入力シンボル、出力シンボル、および、重みを定義したWFSTをコンピュータが準決定化するトランスデューサ処理方法であって、
    前記コンピュータが、準決定化の対象となるWFSTの入力を受け付ける手順と、入力シンボル列に対して、記憶手段に格納された所定のWFSTによって、累積重みが所定のものとなるような出力シンボル列を求めるシンボル列変換手順と、前記準決定化の対象となるWFSTの状態を所定の条件により結合して、準決定化したWFSTを作成する手順と、を実行し、
    前記所定の条件は、前記シンボル列変換手順が、前記入力シンボル列および前記入力シンボル列に対応した正解シンボル列をもとに変換される前記所定のWFSTにより、前記入力シンボル列を変換する際に、候補管理集合の中に共起する状態の頻度から算出される統計量が、所定の閾値を上回る条件とすることを特徴とするトランスデューサ処理方法。
  7. 前記シンボル列変換手順は、前記準決定化したWFSTを、シンボル列の変換処理に使用することを特徴とする請求項6に記載のトランスデューサ処理方法。
  8. 前記トランスデューサ処理方法は、前記準決定化の対象となるWFSTが複数ある場合に、1つのWFSTに合成する手順をさらに含めて実行することを特徴とする請求項6または請求項7に記載のトランスデューサ処理方法。
  9. 請求項6ないし請求項8のいずれか1項に記載されたトランスデューサ処理方法をコンピュータに実行させるためのトランスデューサ処理プログラム。
  10. 請求項9に記載されたトランスデューサ処理プログラムを記録したコンピュータ読み取り可能な記録媒体。

JP2004209218A 2004-07-15 2004-07-15 トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体 Expired - Fee Related JP4243777B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004209218A JP4243777B2 (ja) 2004-07-15 2004-07-15 トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004209218A JP4243777B2 (ja) 2004-07-15 2004-07-15 トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP2006031403A JP2006031403A (ja) 2006-02-02
JP4243777B2 true JP4243777B2 (ja) 2009-03-25

Family

ID=35897662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004209218A Expired - Fee Related JP4243777B2 (ja) 2004-07-15 2004-07-15 トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP4243777B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5121650B2 (ja) * 2008-09-26 2013-01-16 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP4977163B2 (ja) * 2009-03-30 2012-07-18 株式会社東芝 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法
JP5385810B2 (ja) * 2010-02-04 2014-01-08 日本電信電話株式会社 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム
JP5888729B2 (ja) * 2012-01-10 2016-03-22 国立研究開発法人情報通信研究機構 言語モデル結合装置、言語処理装置、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product

Also Published As

Publication number Publication date
JP2006031403A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
JP5377889B2 (ja) 言語処理装置およびプログラム
US5652898A (en) Dictionary memory for text processing using word frequency and word recency occurrence information
JP4977163B2 (ja) 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法
JP5554304B2 (ja) オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP4769031B2 (ja) 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP4956334B2 (ja) オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム
JP2005258439A (ja) 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
JPH0320800A (ja) 音声認識方法および装置
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
JP2005182795A (ja) 語彙と文法を有する言語の上のストリングの内部構造の各レベルにインデックス付けを行うためのシステム及び方法
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
CN113655893A (zh) 一种词句生成方法、模型训练方法及相关设备
JP4243777B2 (ja) トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体
US6735560B1 (en) Method of identifying members of classes in a natural language understanding system
JP6301794B2 (ja) オートマトン変形装置、オートマトン変形方法およびプログラム
JP4004376B2 (ja) 音声合成装置、音声合成プログラム
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
JP2005092682A (ja) 翻字装置、及び翻字プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP4430964B2 (ja) 記号列変換方法及びその記号列変換方法を用いた音声認識方法、並びに記号列変換装置及びその記号列変換装置を用いた音声認識装置
US7617089B2 (en) Method and apparatus for compiling two-level morphology rules
JP2007233823A (ja) 自動要約装置及びコンピュータプログラム
JP2001249921A (ja) 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20081219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081219

R150 Certificate of patent or registration of utility model

Ref document number: 4243777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees