JP2004110673A

JP2004110673A - 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体

Info

Publication number: JP2004110673A
Application number: JP2002275174A
Authority: JP
Inventors: Takaaki Hori; 堀　貴明; Daniel Villette; ヴィレット　ダニエル; Yasuhiro Minami; 南　泰浩
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-09-20
Filing date: 2002-09-20
Publication date: 2004-04-08

Abstract

【課題】多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現する。
【解決手段】入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト入力または音声入力された文章に対してその文章のスタイルを変換する文章スタイル変換方法、文章スタイル変換装置、文章変換プログラム、文章変換プログラムを格納した記録媒体に関するものである。
【０００２】
【従来の技術】
従来より、難しい語句や表現を含む読み難い文章をコンピュータによって同じ意味内容の人が読み易い文章に変換する検討が行われている。また、人が自由に話した音声をコンピュータにより認識し、その発話内容をそのまま文字列にしても、人が話す言葉に含まれる、間投詞、言い直し、言い誤り等によって読み難い文章となってしまうので、このような話し言葉の文章をコンピュータにより書き言葉の文章に変換することが検討されている。話し言葉を書き言葉に変換する方法は、例えば、非特許文献１に開示されている。
【０００３】
本件明細書では、あるスタイル（例えば、話し言葉、文語調、関西弁）で書かれた文章を同じ意味の異なるスタイル（例えば、書き言葉、現代語、東京弁）の文章に変換する処理のことを、以後、文章スタイル変換と呼ぶ。
従来、文章スタイル変換は、入力された文章または音声認識結果に対して、ある単語列を別の単語列に置換する複数の規則を順に適用する方法、更に、同じ単語列に対して複数の置換結果が得られる場合は、規則が適用される確率と、置換した結果とその前後の単語列を含めた単語列の単語連鎖確率（言語モデル）とを利用して、それら確率の累積値が最も高くなる置換結果を選択する方法がある。
【０００４】
単語列の置換規則は、例えば、スタイルの異なる同じ意味の文章の対を変換元と変換先の文章として、これら文章を比較して単語列の異なる部分から
お話，します→述べる
や
なん，です→で，ある
のような単語列置換規則を抽出する。ここで、“→”の左側が変換元の単語列、“→”の右側が変換先の単語列、“，”は単語の区切りを表す記号とする。この発明における単語とは、文章等を表すテキストデータを任意の方法で区分化することによって得られる個々の記号を表すものとする。
【０００５】
一方、単語列Ｗを単語列Ｖに置換する規則Ｗ→Ｖの適用確率は、
Ｐ（Ｗ→Ｖ）＝Ｎ（Ｗ→Ｖ）／Ｎ（Ｗ）　　　　　　　　　　　（１）
のように計算できる。ここで、Ｎ（Ｗ→Ｖ）は、変換元の文章から変換先の文章への変換が規則Ｗ→Ｖによって行える回数、Ｎ（Ｗ）は変換元の文章における単語列Ｗの出現回数を表す。
単語列置換規則及びそれらの適用確率と言語モデルを用いれば、任意の入力文章に対して、例えば、累積確率最大の文章スタイル変換結果を求めることができる。以下、従来の文章スタイル変換を行う方法の一例を示す。
【０００６】
まず、入力単語列をＷ＝ｗ_１，ｗ_２，…，ｗ_Ｌとし、ｉ番目に読み込んだ単語をｗ_ｉとする。文章スタイル変換処理の途中結果の候補の集合をＨとし、単語ｗ_ｉまで処理した時点でＨに含まれる単語列変換結果の候補をｈ_ｊ（ｖ_１，ｖ_２，…，ｖ_ｋ）（但し、ｊ＜ｉ）のように表す。これは、ｗ_１，ｗ_２，…，ｗ_ｊまでの単語列が、ｖ_１，ｖ_２，…，ｖ_ｋの単語列に変換されたことを表す。また、Ｈに含まれる各候補の尤もらしさを、その候補が得られるまでに適用された単語列置換規則の適用確率の累積値と、変換結果の単語列に対する単語連鎖確率との積によって求める。以後、これら確率の積を、変換スコアと呼ぶ。
【０００７】
変換結果の単語列に対する単語連鎖確率は
Ｐ（ｖ_１，ｖ_２，…，ｖ_ｋ）＝Ｐ（ｖ_１）×Ｐ（ｖ_２｜ｖ_１）×Ｐ（ｖ_３｜ｖ_１，ｖ_２）×Ｐ（ｖ_４｜ｖ_２，ｖ_３）×…×Ｐ（ｖ_ｋ｜ｖ_ｋ−２，ｖ_ｋ−１）　　　　　（２）
のように計算する。ここで、Ｐ（ｘ），Ｐ（ｙ｜ｘ），Ｐ（ｚ｜ｘ，ｙ）は、言語モデルによって与えられるユニグラム、バイグラム、トライグラムの確率を表す。これらの確率は、一般には、大量の文章テキストデータを用いて、次式のように求めることができる。
【０００８】
Ｐ（ｘ）＝Ｎ（ｘ）／Ｎ　　　　　　　　　　　　　　　　　（３）
Ｐ（ｙ｜ｘ）＝Ｎ（ｘ，ｙ）／Ｎ（ｘ）　　　　　　　　　　（４）
Ｐ（ｚ｜ｘ，ｙ）＝Ｎ（ｘ，ｙ，ｚ）／Ｎ（ｘ，ｙ）　　　　（５）
但し、Ｎ，Ｎ（ｘ），Ｎ（ｘ，ｙ），Ｎ（ｘ，ｙ，ｚ）は、それぞれ、文章テキストデータ中の単語の総数、単語ｘの出現回数、単語列ｘ，ｙの出現回数、単語列ｘ，ｙ，ｚの出現回数を表す。
以上に定義した式を用いると、文章スタイル変換の処理過程は次の手順によって行うことができる。
【０００９】
ステップ１　ｉ＝１、Ｈ＝φ（空）とする。
ステップ２　ｉ＝１ならば、単語ｗ_１を変換元とする単語列置換規則を用いて、変換先の単語列の候補ｈ_１（ｖ_１，…，ｖ_ｋ）を求めＨに追加する。単語ｗ_１を変換元とする単語列置換規則が存在しない場合は、ｖ_１＝ｗ_１として、ｈ_１（ｖ_１）をＨに追加する。
ｉ＞１ならば、Ｈに含まれる候補ｈ_ｊ（ｖ_１，…，ｖ_ｋ）を順に取り出して、ｗ_ｊ＋１，…，ｗ_ｉの単語列を変換元とする単語列置換規則ｗ_ｊ＋１，…，ｗ_ｉ→ｖ_ｋ＋１，…，ｖ_ｍがあれば、新たな候補ｈ_ｉ（ｖ_ｌ，…，ｖ_ｍ）（但し、ｋ＞ｍ）を生成し、Ｈに追加する。Ｈ内の候補ｈ_ｊ（ｖ_ｌ，…，ｖ_ｋ）において、ｊ＝ｉ−１かつｗ_ｉを変換元とする単語列置換規則が存在しない場合は、ｖ_ｋ＋１＝ｗ_ｉとしてｈ_ｉ（ｖ_ｌ，…，ｖ_ｋ＋１）を生成し、Ｈに追加する。
【００１０】
ステップ３　Ｈに含まれる候補ｈ_ｊ（ｖ_ｌ，…，ｖ_ｋ）の中で、ｊが同一、かつ、ｖ_ｋ−１，ｖ_ｋが同一の候補、つまり、変換元の同じ単語までの変換を終え、かつ、変換結果の末尾２単語が同一の候補に関しては、変換スコア最大の候補のみを残し、他の候補をＨから削除する。（トライグラムの値は過去２単語よりも前の単語に依存しないため、末尾２単語が同一の候補の各々から派生する変換候補のスコアの大小関係は変らないので、この時点でスコア最大の候補だけを残せば良い）
ステップ４　ｉ＜Ｌならば、ｉを１増やし、ステップ２へ戻る。ｉ＝Ｌならば、ステップ５に移る。
【００１１】
ステップ５　Ｈの中から変換スコア最大の候補を選択し、文章スタイル変換結果とする。
【００１２】
【非特許文献１】
「講演の書き起こしに対する統計的手法を用いた文体の整形」下岡和也、河原達也、奥乃博著、音声言語情報処理研究報告、ＮＯ．０４１−００３（２００２−５）
【００１３】
【発明が解決しようとする課題】
上述の従来の方法では、規則数が増えるとその数に応じて計算量が増加してしまうという問題がある。
また、音声を入力として文章スタイル変換を行う際は、始めに音声認識処理を行って認識結果が求まった後でなければ、文章スタイル変換の処理を開始することができないため、ユーザー（発話者）が話し終えてから文章スタイル変換結果が求まるまでの時間が長く、多くの規則からなる文章スタイル変換をリアルタイム性が求められるシステム（例えばオンライン字幕生成システム等）に適用することが難しいという問題がある。
【００１４】
本発明の目的は、上記のような事情を鑑みてなされたものであり、多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現するための文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム及びこの文章スタイル変換プログラムを格納した記録媒体を提供することを目的としている。
【００１５】
【課題を解決するための手段】
この発明では入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換方法を提案する。
【００１６】
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップと、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化ステップとを有し、重み付き有限状態変換器最適化ステップによって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換方法を提案する。
【００１７】
この発明では更に音声を認識するための重み付き有限状態変換器と、前記記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成ステップを有し、重み付き有限状態変換器合成ステップによって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換する文章スタイル変換方法を提案する。
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段を有し、重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換装置を提案する。
【００１８】
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段と、重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化手段とを有し、重み付き有限状態変換器最適化手段によって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換装置を提案する。
【００１９】
この発明では更に音声を認識するための重み付き有限状態変換器と、前記記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成手段を有し、重み付き有限状態変換器合成手段によって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換装置を提案する。
この発明では更にコンピュータが読み取り可能な符号によって記述され、コンピュータに上記文章スタイル変換方法の何れかを実行させる文章スタイル変換プログラムを提案する。
【００２０】
この発明では更に前記文章スタイル変換プログラムの少なくとも一つをコンピュータが読み取り可能な記録媒体に記録した文章スタイル変換プログラムを格納した記録媒体を提案する。
作用
本発明の特徴とする点は請求項にも明記しているように、単語列置換規則と、その適用確率及び単語連鎖確率（言語モデル）を一つの重み付き有限状態変換器として構成する点である。重み付き有限状態変換器としては例えばＥ．Ｒｏｃｈｅ　ａｎｄ　Ｙ．Ｓｃｈａｂｅｓ著、「Ｆｉｎｉｔｅ−ｓｔａｔｅ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ」ＭＩＴ　Ｐｒｅｓｓ．１９９７．に開示されているが、現実に単語列置換規則とその適用確率及び単語連鎖確率を用いて一つの重み付き有限状態変換器を構成した例は見られない。
【００２１】
重み付き有限状態変換器（以下単に有限状態変換器と称す）は、＜現状態、次状態、入力記号、出力記号、コスト＞の列からなり、現在の状態において、ある入力記号が与えられたときに出力する出力記号と次に遷移する状態を指定した行の並びである。初期状態から、入力記号に従って出力記号を出力しながら状態遷移を繰り返し、終了状態に達すると終了する。また、ある入力記号列に対して複数の状態遷移の可能性がある場合（これを非決定性という）には、状態遷移過程におけるコストの総和が最小になる状態遷移過程を選択し、そのコスト最小の状態遷移過程に対する出力記号列を出力する。形式的には、重み付き有限状態変換器は次の７つの組（Ｑ，Σ，Δ，ｑ_０，Ｆ，Ｅ，Ｃ）によって定義される。
【００２２】
１．Ｑは有限の状態の集合。
２．Σは入力記号の有限の集合。
３．Δは出力記号の有限の集合。
４．ｑ_０∈Ｑは初期状態。
５．Ｆ⊂Ｑは終了状態の集合。
６．Ｅ⊂Ｑ×Σ×Δ×Ｑは、現状態から入力記号により、出力記号を出力して次状態に遷移する状態遷移の集合。
７．Ｃ（ｅ），ｅ∈Ｅは、各々の状態遷移に対するコストの集合。
【００２３】
文章スタイル変換の単語列置換の処理過程を一つの有限状態変換器として表すことにより、有限状態変換器に対する基本操作である“決定化（ｄｅｔｅｒｍｉｎｉｚａｔｉｏｎ）”や“最小化（ｍｉｎｉｍｉｚａｔｉｏｎ）”を用いて有限状態変換器を最適化することができ、この最適化された有限状態変換器を用いることで、効率的な文章スタイル変換処理を実現できる。ここで、有限状態変換器の入力記号列と出力記号列はそれぞれ文章スタイル変換における変換元と変換先の単語列に対応する。
決定化とは、有限状態変換器の非決定性を取り去る、つまり、ある有限状態変換器を、一つの入力記号列に対する状態遷移過程が一つに定まるような、等価な有限状態変換器に変換する操作である。非決定性をもつ有限状態変換器は、ある状態においてある入力記号が与えられた際に遷移先の状態が複数存在することがある。非決定性を持つ有限状態変換器Ｍを決定化操作によりＭ’に変換するには、Ｍにおける複数の遷移先状態の集合に対して一つの状態を持つようなＭ’を作れば良い。例えば次のような手順を用いる。
【００２４】
ステップ１　Ｍの初期状態だけからなる状態集合ｑ_０に対応するＭ’の初期状態［ｑ_０］を作る。
ステップ２　Ｍ’の状態［ｐ_１，ｐ_２，…，ｐ_ｉ］から入力記号ａによる状態遷移先を、状態［ｐ_１，ｐ_２，…，ｐ_ｉ］に対応するＭの状態集合ｐ_１，ｐ_２，…，ｐ_ｉの各々における入力記号ａによる遷移先状態の集合の和集合に対応する状態［ｐ’_１，ｐ’_２，…，ｐ’_ｊ］を作り、［ｐ_１，ｐ_２，…，ｐ_ｉ］と［ｐ’_１，ｐ’_２，…，ｐ’_ｊ］の間にａを入力とする状態遷移を作ることを、全ての状態［ｐ_１，ｐ_２，…，ｐ_ｉ］∈Ｑ_Ｍ’、入力記号ａ∈Σ_Ｍについて繰り返す。但し、Ｑ_Ｍ’は、Ｍ’の既に作られた状態の集合を表す。
【００２５】
ステップ３　新たに状態が作られなくなるまでステップ２を繰り返す。
ステップ４　Ｍ’の状態［ｐ_１，ｐ_２，…，ｐ_ｉ］に対応するＭの状態集合の中にＭの終了状態が含まれていれば、［ｐ_１，ｐ_２，…，ｐ_ｉ］もＭ’の終了状態とする。
決定化操作により、有限状態変換器による入力記号列から出力記号列への変換処理の効率が向上する。
一方、最小化とは、有限状態変換器の状態数を削減し、等価でよりコンパクトな有限状態変換器に変換する操作である。これは、有限状態変換器の中で同値と見なせる状態集合を探し出し、見つかった同値状態集合を一つの状態とする新しい有限状態変換器を作る操作である。二つの状態ｐ，ｑが「同値ではない」ことは、ｐが終了状態でｑが終了状態ではない、または、ｐが終了状態ではなくｑが終了状態である場合に明らかであることから、この性質を利用した次のようなアルゴリズムが知られている。
【００２６】
ステップ１　有限状態変換器Ｍの異なる２状態ｐ，ｑが「同値ではない」ならば、（ｐ，ｑ）のペアに対して「同値にならないことが判明したこと」を示すマークを付ける。
ステップ２　「同値ではない」条件に当てはまらない全ての状態ペアの各々（ｐ，ｑ）についてステップ３を繰り返す。
ステップ３　ある入力記号ａによって、状態ｐから状態ｒへ、状態ｑから状態ｓへ遷移する場合、状態ペア（ｒ，ｓ）が既にマークされていれば、再帰的に、「（ｐ，ｑ）および新たにマークされたペアに割り当てられたリスト中のすべてのペアにマークすること」を繰り返す。
【００２７】
どの入力記号に対しても遷移先の状態ペア（ｒ，ｓ）がマークされていなければ、（ｐ，ｑ）を各入力記号における遷移先の状態ペア（ｒ，ｓ）のリストに追加する。
決定化操作と同様、最小化操作により有限状態変換器による入力記号列から出力記号列への変換処理の効率が向上する。
有限状態変換器の決定化と最小化のアルゴリズムは、例えば、Ｊ．ホップクロフト、Ｊ．ウルマン共著、野崎昭弘、高橋正子、町田元、山崎秀記　共訳、“オートマトン言語理論計算論Ｉ”サイエンス社、１９８４、に開示されている。
【００２８】
更に、有限状態変換器の基本操作の一つである“合成（ｃｏｍｐｏｓｉｔｉｏｎ）”を用いることで、音声認識のための有限状態変換器と、文章スタイル変換のための有限状態変換器とを合成し、音声認識と同時に文章スタイル変換を行う有限状態変換器を生成し、この合成された有限状態変換器を用いて、入力された音声の認識と文章スタイル変換を行えば、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現できる。
有限状態変換器の合成は、複数の有限状態変換器を、任意の入力記号列をそれら有限状態変換器を順に使用して変換するのと等価な一つの有限状態変換器に合成する操作である。
【００２９】
二つの有限状態変換器ＭとＴの合成ＭｏＴは、例えば次のような手順で行うことができる。但し、‘ｏ’は合成を表す演算子を表す。
ステップ１　ＭとＴから状態を一つずつ選んでペアとする全組合せに対して一つの状態を生成する。これらの状態は、Ｍのｍ番目の状態をｑ_ｍ ^Ｍ、Ｔのｎ番目の状態をｑ_ｎ ^Ｔとして、（ｑ_ｍ ^Ｍ，ｑ_ｎ ^Ｔ）のように表す。
ステップ２　ステップ１で用意した状態の間の遷移は、例えば（ｑ_ｍ ^Ｍ，ｑ_ｎ ^Ｔ）と（ｑ_ｊ ^Ｍ，ｑ_ｋ ^Ｔ）の場合、Ｍにおけるｑ_ｍ ^Ｍからｑ_ｋ ^Ｍへの遷移（これをＥ（ｑ_ｍ ^Ｍ，ｑ_ｋ ^Ｍ）とする）とＴにおけるｑ_ｎ ^Ｔからｑ_ｋ ^Ｔへの遷移（これをＥ（ｑ_ｎ ^Ｔ，ｑ_ｋ ^Ｔ）とする）が存在し、かつ、Ｅ（ｑ_ｍ ^Ｍ，ｑ_ｋ ^Ｍ）における出力記号とＥ（ｑ_ｎ ^Ｔ，ｑ_ｋ ^Ｔ）における入力記号とが一致すれば、状態（ｑ_ｍ ^Ｍ，ｑ_ｎ ^Ｔ）から（ｑ_ｊ ^Ｍ，ｑ_ｋ ^Ｔ）への状態遷移を作り、Ｅ（ｑ_ｍ ^Ｍ，ｑ_ｊ ^Ｍ）の入力記号とＥ（ｑ_ｎ ^Ｔ，ｑ_ｋ ^Ｔ）の出力記号を割り当てる。ここで、作られた状態遷移に対するコストは、Ｅ（ｑ_ｍ ^Ｍ，ｑ_ｊ ^Ｍ）とＥ（ｑ_ｎ ^Ｔ，ｑ_ｋ ^Ｔ）の状態遷移コストの和を与える。
ステップ３　ステップ２において、状態遷移の遷移元にも遷移先にもならなかった状態は削除する。
【００３０】
【発明の実施の形態】
次に、本発明の一実施の形態について図面を用いて説明する。図１は、本発明の一実施の形態に係わる文章スタイル変換方法を表す図である。本発明の特徴は有限状態変換器生成手段１３０によって、単語列置換規則データベース１１０から単語列置換規則を、言語モデルデータベース１２０から単語列の連鎖確率を読み出して、文章スタイル変換を行う有限状態変換器を生成する点である。更に生成された有限状態変換器を、有限状態変換器最適化手段１４０へと送る。有限状態変換器最適化手段１４０では、有限状態変換器生成手段１３０によって生成された有限状態変換器を受け取り、前述の有限状態変換器の決定化と最小化の処理を行って、よりコンパクトな有限状態変換器に変換し、文章スタイル変換用有限状態変換器データベース１５０に格納する。文章スタイル変換手段１６０では、文章スタイル変換用有限状態変換器データベース１５０から有限状態変換器を読み出し、この有限状態変換器に従って、入力された単語列を入力記号列として対応する出力記号列に変換し、その出力記号列を変換結果の単語列として出力する。
【００３１】
次に、単語列置換規則データベース１１０に記録された単語列置換規則と、言語モデルデータベース１２０に記録された単語連鎖確率から有限状態変換器を生成する手順の一例を示す。
説明を簡潔にするために、次の単語列置換規則
ｗ，ｘ→Ａ
ｙ→Ｂ
ｚ→ε
を仮定する。ここで、ｗ，ｘ，ｙ，ｚは変換元の単語、Ａ，Ｂは変換先の単語を表す。これら規則による単語列の変換を行う有限状態変換器は例えば図２のように表せる。図２において、○で表されているのが状態（◎は終了状態）、状態と状態を結ぶ“→”が状態遷移を表し、各状態遷移の側に記された記号は、それぞれ、“入力記号：出力記号／コスト”を表す。εは、何も出力しないことを表す記号である。コストのｃ（・）は、単語列変換規則が適用される確率Ｐ（・）を
ｃ（・）＝−ｌｏｇＰ（・）　　　　　　　　　　　　　　　（６）
のようにコストに直した値である。この有限状態変換器は、状態０を開始状態として、例えば、単語列ｙ，ｚ，ｗ，ｘ，ｙを単語列Ｂ，Ａ，Ｂに変換する。この図２の有限状態変換器は、図３に示すような状態遷移の表によって書き表すこともできる。
【００３２】
一方、変換結果の単語列に対する単語連鎖確率（言語モデル）は変換結果が単語Ａ，Ｂのみから成る場合、図４に示すような有限状態変換器として表すことができる。ここで、コストのｃ（・）は、ユニグラム、バイグラム、トライグラムの確率をコストに直した値を表す。また、この図４の有限状態変換器は、図５に示す状態遷移の表によって書き表すこともできる。
図２及び図３に示す有限状態変換器と、図４及び図５に示す有限状態変換器とを一つの有限状態変換器に合成することにより、文章スタイル変換用有限状態変換器を生成できる。この合成操作の結果、図６の文章スタイル変換用有限状態変換器が得られる。但し、表の一番左の列にあるＳ１〜Ｓ２４の記号は、以降の説明のために付加した状態遷移に対するラベルを表すものであり、有限状態変換器の定義とは無関係である。
【００３３】
以下に、図１の文章スタイル変換手段１６０によって、図６に示す文章スタイル変換用有限状態変換器を用いて、入力単語列ｙ，ｚ，ｗ，ｘ，ｙの文章スタイルを変換する過程を示す。
・初期状態（０，０）からスタートする。総合コストＣ＝０とする。
・入力記号ｙが入力され、Ｓ１１の遷移により状態（０，Ｂ）に移る。このとき、出力記号Ｂを出力し、コストｃ（ｙ→Ｂ）＋ｃ（Ｂ）をＣに加算する。
・次に入力記号ｚが入力され、Ｓ２０の遷移により状態（０，Ｂ）に移る。このとき、何も出力しない。
・次に入力記号ｗが入力され、Ｓ３の遷移により状態（１，ＢＡ）に移る。このとき、出力記号Ａを出力し、コストｃ（ｗ→Ａ）＋ｃ（Ａ｜Ｂ）をＣに加算する。
・次に入力記号ｘが入力され、Ｓ１０の遷移により状態（０，ＢＡ）に移る。このとき、何も出力しない。
・次に入力記号ｙが入力され、Ｓ１６の遷移により状態（０，ＡＢ）に移る。このとき、出力記号Ｂを出力し、コストｃ（ｙ→Ｂ）＋ｃ（Ｂ｜ＢＡ）をＣに加算する。
【００３４】
以上の状態遷移過程により、入力記号列ｙ，ｚ，ｗ，ｘ，ｙは出力記号列Ｂ，Ａ，Ｂに変換される。
一方、本発明を、音声認識と組合せ、音声認識と同時に文章スタイル変換を行うこともできる。図７は、本発明の一実施の形態である。音声を入力として音声認識と同時に文章のスタイルを変換する文章スタイル変換方法を表す図である。文章スタイル変換用有限状態変換器を生成し、文章スタイル変換用有限状態変換器データベース１５０に格納するまでの手順は図１と同様である。
続いて、音声認識用有限状態変換器生成手段２００において、音響モデルデータベース１７０から音声固定単位（例えば音素）の標準的特徴を音声信号をある短い時間（例えば１０ミリ秒）ごとに分析して得られる音響パターンの系列の集合により与える音響モデルを、単語発音辞書データベース１８０からは種々の単語の発音を前記音声固定単位の系列によって与える単語発音辞書を、音声認識用言語モデルデータベース１９０からは発話される単語の連接のしやすさを与える単語連鎖確率（言語モデル）を読み出し、音響パターン系列を入力記号列として、その音響パターン系列に最も適合する単語列を出力する音声認識用有限状態変換器を生成して、音声認識用有限状態変換器データベース２１０に格納する。
【００３５】
有限状態変換器合成手段２２０では、文章スタイル変換用有限状態変換器データベース１５０から文章スタイル変換用有限状態変換器を、音声認識用有限状態変換器データベース２１０から音声認識用有限状態変換器を読み出し、これら２つの有限状態変換器を合成することにより、音声認識・文章スタイル変換用有限状態変換器を生成し、有限状態変換器最適化手段２３０に送る。
有限状態変換器最適化手段２３０では、有限状態変換器合成手段２２０において生成された音声認識・文章スタイル変換用有限状態変換器を受け取り、決定化と最小化による最適化を施して、音声認識・文章スタイル変換用有限状態変換器データベース２４０に格納する。
【００３６】
文章スタイル変換手段１６０では、音声認識・文章スタイル変換用有限状態変換器データベース２４０から音声認識・文章スタイル変換用有限状態変換器を読み出して、この有限状態変換器に従って入力音声の短時間音響パターンの時系列を入力記号列として、コスト最小の出力記号列を求め、その出力記号列を文章スタイル変換結果の単語列として出力する。
音声認識・文章スタイル変換用有限状態変換器による記号列の変換は、入力記号列である音響パターン系列から出力記号列である文章スタイル変換結果の単語列に直接変換する処理であるので、音声認識処理との同時並行的な文章スタイル変換が実現される。
【００３７】
音声認識用の有限状態変換器を音響モデル、単語発音辞書、言語モデルを用いて生成する方法、及び、その有限状態変換器を用いた音声認識方法は、例えば、国際会議ＡＳＲ２０００における、Ｍ．Ｍｏｈｒｉ，Ｆ．Ｐｅｒｅｉｒａ，ａｎｄ　Ｍ．Ｒｉｌｅｙ著“Ｗｅｉｇｈｔｅｄ　ｆｉｎｉｔｅ−ｓｔａｔｅ　ｔｒａｎｓｄｕｃｅｒｓ　ｉｎ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ，”Ｐｒｏｃｅｅｄｉｎｇ　ｏｆ　ＡＳＲ２０００，　ｐｐ．　９７−１０６，２０００に開示されている。音声認識用の有限状態変換器は、音響パターン系列から音素列へ変換する有限状態変換器、音素列から単語列に変換する有限状態変換器、単語列に単語連鎖確率をコストとして与える有限状態変換器を合成することにより生成できる。
【００３８】
種々の音声固定単位（例えば音素）の標準的な音響パターン系列の集合を表す音響モデルとしては、例えば、それら音響パターン系列の集合を確率・統計理論に基づいてモデル化する隠れマルコフモデル法（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ、以後ＨＭＭ法と呼ぶ）が主流である。このＨＭＭ法の詳細は、例えば、社団法人電子情報通信学会編、中川聖一著「確率モデルによる音声認識」に開示されている。
音声認識に用いる音響パターンは、短い時間（例えば１０ミリ秒）ごとに音声信号を分析することにより得られるメルケプストラム（ｍｅｌ−ｆｒｅｑｕｅｎｃｙ　ｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣと呼ばれる）、デルタＭＦＣＣ、ＬＰＣケプストラム、対数パワーなどがある。
【００３９】
図８は、ＨＭＭ法に基づいて構成された、音響パターン系列から音素列へ変換する有限状態変換器の一例である。但し、入力である音響パターンは実数値を要素とするベクトル値であり、有限個の記号の一つにはならないため、各状態遷移は任意のベクトル値ｘを入力として受理し、その入力ｘによる状態遷移に対してコストを計算するコスト関数−ｌｏｇＰ（ｘ｜Ｓ）を持つ。
ここで、各状態Ｓに依存した確率密度関数Ｐ（ｘ｜Ｓ）には一般にガウス分布やガウス分布の線形和である混合ガウス分布が用いられ、これら確率密度関数は状態に対応する音素の特徴を持った音響パターンが入力されたときに大きな値をとるように事前にパラメータ（例えば、ガウス分布の平均ベクトルや共分散行列）を設定しておく。
【００４０】
図８の例では、初期状態０から終了状態１に至るまで横に一列に並んだ３つの状態が一つの音素に対応しており、音響パターン系列を上から順にａ，ｉ，…，ｏに変換する。図８の有限状態変換器では、ある入力音響パターン系列に対して複数の状態遷移の可能性があり、コスト最小の状態遷移過程に対応する出力音素列を音声認識（音素認識）の結果とする。
図９は、音素列から単語列へ変換する有限状態変換器の一例であり、初期状態０から最終状態７に至るまでに音素列が一つの単語に変換され、状態７から０に戻ることによって単語列にも変換される。
【００４１】
図１０は、単語列のコストを与える単語連鎖確率（言語モデル）有限状態変換器の一例であり、各単語の接続する確率をコストで表している。図１０では、例えば単語「いや」の次に単語「いいよ」が出力される遷移（状態１→２）のコストは０であり連鎖しやすいことを、単語「はい」の次に単語「いや」が出力される遷移（状態３→１）のコストは８０であり連接しにくいことを表している。
図８から図１０の有限状態変換器を合成した音声認識用有限状態変換器を用いると、入力音声（音響パターン系列）に対してコスト最小の出力単語列（例えば、“いや，いいよ”や“はい，はい，いいよ”）に変換することができる。
【００４２】
更に図１１の単語列を置換する有限状態変換器と、図１２の文章スタイル変換結果に対する単語連鎖確率（言語モデル）を表す有限状態変換器を合成した文章スタイル変換用有限状態変換器を、図８乃至図１０から得られる音声認識用有限状態変換器と合成することにより、音声認識・文章スタイル変換用有限状態変換器を生成することができる。この音声認識・文章スタイル変換用有限状態変換器を用いると、例えば、ユーザ（発話者）が“いやいやいいよ”と発声した場合、その音声信号の入力音響パターン系列は“いいえ，いいえ，いいです”という単語列に変換され出力される。
【００４３】
以上説明したこの発明による文章スタイル変換方法は、コンピュータが読み取り可能な符号によって記述された文章スタイル変換プログラムがコンピュータにインストールされ、そのプログラムをＣＰＵが解読して実行される。
更に、この発明による文章スタイル変換プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はＣＤ−ＲＯＭのような記録媒体に格納されてコンピュータにインストールされる。又は通信回線を通じてコンピュータにインストールされて文章スタイル変換方法が実行される。
【００４４】
【発明の効果】
以上説明したように、本発明によれば、多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換が可能となる。
【図面の簡単な説明】
【図１】本発明の文章スタイル変換方法及び文章スタイル変換装置の一実施例を説明するためのブロック図。
【図２】図１に示した有限状態変換器生成手段で生成した有限状態変換器の一例を説明するための流れ図。
【図３】図２に示した有限状態変換器を表形式で示した図。
【図４】単語列の単語連鎖確率を計算する有限状態変換器の一例を示す流れ図。
【図５】図４に示した有限状態変換器を表形式で示した図。
【図６】文章スタイル変換用有限状態変換器の一例を表形式で示した図。
【図７】本発明の音声入力による文章スタイル変換方法及び文章スタイル変換装置の一実施例を説明するためのブロック図。
【図８】図７に示した実施例に用いた音響パターン系列から音素列へ変換する有限状態変換器の一例を説明するための流れ図。
【図９】図７に示した実施例に用いることができる音素列から単語列へ変換する有限状態変換器の一例を説明するための流れ図。
【図１０】単語列のコストを与える単語連鎖確率（言語モデル）有限状態変換器の一例を説明するための流れ図。
【図１１】単語列を置換する有限状態変換器の一例を示す流れ図。
【図１２】単語列の単語連鎖確率（言語モデル）を計算する有限状態変換器の一例を示す流れ図。
【符号の説明】
１１０　　単語列置換規則データベース
１２０　　言語モデルデータベース
１３０　　有限状態変換器生成手段
１４０　　有限状態変換器最適化手段
１５０　　文章スタイル変換用有限状態変換器データベース
１６０　　文章スタイル変換手段
１７０　　音響モデルデータベース
１８０　　単語発音辞書データベース
１９０　　音声認識用言語モデルデータベース
２００　　音声認識用有限状態変換器生成手段
２１０　　音声認識用有限状態変換器データベース
２２０　　有限状態変換器合成手段
２３０　　有限状態変換器最適化手段
２４０　　音声認識・文章スタイル変換用有限状態変換器データベース
２５０　　文章スタイル変換手段

Claims

入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、
前記重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換方法。
入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップと、
前記重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化ステップとを有し、前記重み付き有限状態変換器最適化ステップによって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換方法。
音声を認識するための重み付き有限状態変換器と、請求項１及び２記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成ステップを有し、
前記重み付き有限状態変換器合成ステップによって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換方法。
入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段を有し、
前記重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換装置。
入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段と、
前記重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化手段とを有し、
前記重み付き有限状態変換器最適化手段によって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換装置。
音声を認識するための重み付き有限状態変換器と、請求項１及び２記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成手段を有し、
前記重み付き有限状態変換器合成手段によって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換装置。
コンピュータが読み取り可能な符号によって記述され、コンピュータに請求項１乃至３の何れかに記載の文章スタイル変換方法の何れかを実行させる文章スタイル変換プログラム。
請求項７記載の文章スタイル変換プログラムの少なくとも一つをコンピュータが読み取り可能な記録媒体に記録した文章スタイル変換プログラムを格納した記録媒体。