JP2004110673A - 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 - Google Patents

文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 Download PDF

Info

Publication number
JP2004110673A
JP2004110673A JP2002275174A JP2002275174A JP2004110673A JP 2004110673 A JP2004110673 A JP 2004110673A JP 2002275174 A JP2002275174 A JP 2002275174A JP 2002275174 A JP2002275174 A JP 2002275174A JP 2004110673 A JP2004110673 A JP 2004110673A
Authority
JP
Japan
Prior art keywords
finite state
state converter
weighted finite
word string
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002275174A
Other languages
English (en)
Inventor
Takaaki Hori
堀 貴明
Daniel Villette
ヴィレット ダニエル
Yasuhiro Minami
南 泰浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002275174A priority Critical patent/JP2004110673A/ja
Publication of JP2004110673A publication Critical patent/JP2004110673A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現する。
【解決手段】入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト入力または音声入力された文章に対してその文章のスタイルを変換する文章スタイル変換方法、文章スタイル変換装置、文章変換プログラム、文章変換プログラムを格納した記録媒体に関するものである。
【0002】
【従来の技術】
従来より、難しい語句や表現を含む読み難い文章をコンピュータによって同じ意味内容の人が読み易い文章に変換する検討が行われている。また、人が自由に話した音声をコンピュータにより認識し、その発話内容をそのまま文字列にしても、人が話す言葉に含まれる、間投詞、言い直し、言い誤り等によって読み難い文章となってしまうので、このような話し言葉の文章をコンピュータにより書き言葉の文章に変換することが検討されている。話し言葉を書き言葉に変換する方法は、例えば、非特許文献1に開示されている。
【0003】
本件明細書では、あるスタイル(例えば、話し言葉、文語調、関西弁)で書かれた文章を同じ意味の異なるスタイル(例えば、書き言葉、現代語、東京弁)の文章に変換する処理のことを、以後、文章スタイル変換と呼ぶ。
従来、文章スタイル変換は、入力された文章または音声認識結果に対して、ある単語列を別の単語列に置換する複数の規則を順に適用する方法、更に、同じ単語列に対して複数の置換結果が得られる場合は、規則が適用される確率と、置換した結果とその前後の単語列を含めた単語列の単語連鎖確率(言語モデル)とを利用して、それら確率の累積値が最も高くなる置換結果を選択する方法がある。
【0004】
単語列の置換規則は、例えば、スタイルの異なる同じ意味の文章の対を変換元と変換先の文章として、これら文章を比較して単語列の異なる部分から
お話,します→述べる

なん,です→で,ある
のような単語列置換規則を抽出する。ここで、“→”の左側が変換元の単語列、“→”の右側が変換先の単語列、“,”は単語の区切りを表す記号とする。この発明における単語とは、文章等を表すテキストデータを任意の方法で区分化することによって得られる個々の記号を表すものとする。
【0005】
一方、単語列Wを単語列Vに置換する規則W→Vの適用確率は、
P(W→V)=N(W→V)/N(W)           (1)
のように計算できる。ここで、N(W→V)は、変換元の文章から変換先の文章への変換が規則W→Vによって行える回数、N(W)は変換元の文章における単語列Wの出現回数を表す。
単語列置換規則及びそれらの適用確率と言語モデルを用いれば、任意の入力文章に対して、例えば、累積確率最大の文章スタイル変換結果を求めることができる。以下、従来の文章スタイル変換を行う方法の一例を示す。
【0006】
まず、入力単語列をW=w1 ,w2 ,…,wL とし、i番目に読み込んだ単語をwi とする。文章スタイル変換処理の途中結果の候補の集合をHとし、単語wi まで処理した時点でHに含まれる単語列変換結果の候補をh(v1 ,v2 ,…,v)(但し、ji)のように表す。これは、w1 ,w2 ,…,wj までの単語列が、v1 ,v2 ,…,vk の単語列に変換されたことを表す。また、Hに含まれる各候補の尤もらしさを、その候補が得られるまでに適用された単語列置換規則の適用確率の累積値と、変換結果の単語列に対する単語連鎖確率との積によって求める。以後、これら確率の積を、変換スコアと呼ぶ。
【0007】
変換結果の単語列に対する単語連鎖確率は
P(v1 ,v2 ,…,v)=P(v)×P(v2 |v)×P(v3 |v1 ,v)×P(v4 |v2 ,v)×…×P(vk |vk−2 ,vk−1)     (2)
のように計算する。ここで、P(x),P(y|x),P(z|x,y)は、言語モデルによって与えられるユニグラム、バイグラム、トライグラムの確率を表す。これらの確率は、一般には、大量の文章テキストデータを用いて、次式のように求めることができる。
【0008】
P(x)=N(x)/N                 (3)
P(y|x)=N(x,y)/N(x)          (4)
P(z|x,y)=N(x,y,z)/N(x,y)    (5)
但し、N,N(x),N(x,y),N(x,y,z)は、それぞれ、文章テキストデータ中の単語の総数、単語xの出現回数、単語列x,yの出現回数、単語列x,y,zの出現回数を表す。
以上に定義した式を用いると、文章スタイル変換の処理過程は次の手順によって行うことができる。
【0009】
ステップ1 i=1、H=φ(空)とする。
ステップ2 i=1ならば、単語w1 を変換元とする単語列置換規則を用いて、変換先の単語列の候補h(v1 ,…,v)を求めHに追加する。単語w1 を変換元とする単語列置換規則が存在しない場合は、v1 =w1 として、h(v)をHに追加する。
i>1ならば、Hに含まれる候補h(v1 ,…,v)を順に取り出して、wj+1 ,…,wi の単語列を変換元とする単語列置換規則wj+1 ,…,wi →vk+1 ,…,vm があれば、新たな候補h(vl ,…,v)(但し、km)を生成し、Hに追加する。H内の候補h(vl ,…,v)において、j=i−1かつwi を変換元とする単語列置換規則が存在しない場合は、vk+1 =wi としてh(vl ,…,vk+1)を生成し、Hに追加する。
【0010】
ステップ3 Hに含まれる候補h(vl ,…,v)の中で、jが同一、かつ、vk−1 ,vk が同一の候補、つまり、変換元の同じ単語までの変換を終え、かつ、変換結果の末尾2単語が同一の候補に関しては、変換スコア最大の候補のみを残し、他の候補をHから削除する。(トライグラムの値は過去2単語よりも前の単語に依存しないため、末尾2単語が同一の候補の各々から派生する変換候補のスコアの大小関係は変らないので、この時点でスコア最大の候補だけを残せば良い)
ステップ4 i<Lならば、iを1増やし、ステップ2へ戻る。i=Lならば、ステップ5に移る。
【0011】
ステップ5 Hの中から変換スコア最大の候補を選択し、文章スタイル変換結果とする。
【0012】
【非特許文献1】
「講演の書き起こしに対する統計的手法を用いた文体の整形」下岡和也、河原達也、奥乃博著、音声言語情報処理研究報告、NO.041−003(2002−5)
【0013】
【発明が解決しようとする課題】
上述の従来の方法では、規則数が増えるとその数に応じて計算量が増加してしまうという問題がある。
また、音声を入力として文章スタイル変換を行う際は、始めに音声認識処理を行って認識結果が求まった後でなければ、文章スタイル変換の処理を開始することができないため、ユーザー(発話者)が話し終えてから文章スタイル変換結果が求まるまでの時間が長く、多くの規則からなる文章スタイル変換をリアルタイム性が求められるシステム(例えばオンライン字幕生成システム等)に適用することが難しいという問題がある。
【0014】
本発明の目的は、上記のような事情を鑑みてなされたものであり、多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現するための文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム及びこの文章スタイル変換プログラムを格納した記録媒体を提供することを目的としている。
【0015】
【課題を解決するための手段】
この発明では入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換方法を提案する。
【0016】
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップと、重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化ステップとを有し、重み付き有限状態変換器最適化ステップによって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換方法を提案する。
【0017】
この発明では更に音声を認識するための重み付き有限状態変換器と、前記記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成ステップを有し、重み付き有限状態変換器合成ステップによって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換する文章スタイル変換方法を提案する。
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段を有し、重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換装置を提案する。
【0018】
この発明では更に入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段と、重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化手段とを有し、重み付き有限状態変換器最適化手段によって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換する文章スタイル変換装置を提案する。
【0019】
この発明では更に音声を認識するための重み付き有限状態変換器と、前記記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成手段を有し、重み付き有限状態変換器合成手段によって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換装置を提案する。
この発明では更にコンピュータが読み取り可能な符号によって記述され、コンピュータに上記文章スタイル変換方法の何れかを実行させる文章スタイル変換プログラムを提案する。
【0020】
この発明では更に前記文章スタイル変換プログラムの少なくとも一つをコンピュータが読み取り可能な記録媒体に記録した文章スタイル変換プログラムを格納した記録媒体を提案する。
作用
本発明の特徴とする点は請求項にも明記しているように、単語列置換規則と、その適用確率及び単語連鎖確率(言語モデル)を一つの重み付き有限状態変換器として構成する点である。重み付き有限状態変換器としては例えばE.Roche and Y.Schabes著、「Finite−state Language Processing」MIT Press.1997.に開示されているが、現実に単語列置換規則とその適用確率及び単語連鎖確率を用いて一つの重み付き有限状態変換器を構成した例は見られない。
【0021】
重み付き有限状態変換器(以下単に有限状態変換器と称す)は、<現状態、次状態、入力記号、出力記号、コスト>の列からなり、現在の状態において、ある入力記号が与えられたときに出力する出力記号と次に遷移する状態を指定した行の並びである。初期状態から、入力記号に従って出力記号を出力しながら状態遷移を繰り返し、終了状態に達すると終了する。また、ある入力記号列に対して複数の状態遷移の可能性がある場合(これを非決定性という)には、状態遷移過程におけるコストの総和が最小になる状態遷移過程を選択し、そのコスト最小の状態遷移過程に対する出力記号列を出力する。形式的には、重み付き有限状態変換器は次の7つの組(Q,Σ,Δ,q0 ,F,E,C)によって定義される。
【0022】
1.Qは有限の状態の集合。
2.Σは入力記号の有限の集合。
3.Δは出力記号の有限の集合。
4.q0 ∈Qは初期状態。
5.F⊂Qは終了状態の集合。
6.E⊂Q×Σ×Δ×Qは、現状態から入力記号により、出力記号を出力して次状態に遷移する状態遷移の集合。
7.C(e),e∈Eは、各々の状態遷移に対するコストの集合。
【0023】
文章スタイル変換の単語列置換の処理過程を一つの有限状態変換器として表すことにより、有限状態変換器に対する基本操作である“決定化(determinization)”や“最小化(minimization)”を用いて有限状態変換器を最適化することができ、この最適化された有限状態変換器を用いることで、効率的な文章スタイル変換処理を実現できる。ここで、有限状態変換器の入力記号列と出力記号列はそれぞれ文章スタイル変換における変換元と変換先の単語列に対応する。
決定化とは、有限状態変換器の非決定性を取り去る、つまり、ある有限状態変換器を、一つの入力記号列に対する状態遷移過程が一つに定まるような、等価な有限状態変換器に変換する操作である。非決定性をもつ有限状態変換器は、ある状態においてある入力記号が与えられた際に遷移先の状態が複数存在することがある。非決定性を持つ有限状態変換器Mを決定化操作によりM’に変換するには、Mにおける複数の遷移先状態の集合に対して一つの状態を持つようなM’を作れば良い。例えば次のような手順を用いる。
【0024】
ステップ1 Mの初期状態だけからなる状態集合q0 に対応するM’の初期状態[q0 ]を作る。
ステップ2 M’の状態[p1 ,p2 ,…,pi ]から入力記号aによる状態遷移先を、状態[p1 ,p2 ,…,pi ]に対応するMの状態集合p1 ,p2 ,…,pi の各々における入力記号aによる遷移先状態の集合の和集合に対応する状態[p’1 ,p’2 ,…,p’j ]を作り、[p1 ,p2 ,…,pi ]と[p’1 ,p’2 ,…,p’j ]の間にaを入力とする状態遷移を作ることを、全ての状態[p1 ,p2 ,…,pi ]∈QM’、入力記号a∈ΣM について繰り返す。但し、QM’は、M’の既に作られた状態の集合を表す。
【0025】
ステップ3 新たに状態が作られなくなるまでステップ2を繰り返す。
ステップ4 M’の状態[p1 ,p2 ,…,pi ]に対応するMの状態集合の中にMの終了状態が含まれていれば、[p1 ,p2 ,…,pi ]もM’の終了状態とする。
決定化操作により、有限状態変換器による入力記号列から出力記号列への変換処理の効率が向上する。
一方、最小化とは、有限状態変換器の状態数を削減し、等価でよりコンパクトな有限状態変換器に変換する操作である。これは、有限状態変換器の中で同値と見なせる状態集合を探し出し、見つかった同値状態集合を一つの状態とする新しい有限状態変換器を作る操作である。二つの状態p,qが「同値ではない」ことは、pが終了状態でqが終了状態ではない、または、pが終了状態ではなくqが終了状態である場合に明らかであることから、この性質を利用した次のようなアルゴリズムが知られている。
【0026】
ステップ1 有限状態変換器Mの異なる2状態p,qが「同値ではない」ならば、(p,q)のペアに対して「同値にならないことが判明したこと」を示すマークを付ける。
ステップ2 「同値ではない」条件に当てはまらない全ての状態ペアの各々(p,q)についてステップ3を繰り返す。
ステップ3 ある入力記号aによって、状態pから状態rへ、状態qから状態sへ遷移する場合、状態ペア(r,s)が既にマークされていれば、再帰的に、「(p,q)および新たにマークされたペアに割り当てられたリスト中のすべてのペアにマークすること」を繰り返す。
【0027】
どの入力記号に対しても遷移先の状態ペア(r,s)がマークされていなければ、(p,q)を各入力記号における遷移先の状態ペア(r,s)のリストに追加する。
決定化操作と同様、最小化操作により有限状態変換器による入力記号列から出力記号列への変換処理の効率が向上する。
有限状態変換器の決定化と最小化のアルゴリズムは、例えば、J.ホップクロフト、J.ウルマン共著、野崎昭弘、高橋正子、町田元、山崎秀記 共訳、“オートマトン言語理論計算論I”サイエンス社、1984、に開示されている。
【0028】
更に、有限状態変換器の基本操作の一つである“合成(composition)”を用いることで、音声認識のための有限状態変換器と、文章スタイル変換のための有限状態変換器とを合成し、音声認識と同時に文章スタイル変換を行う有限状態変換器を生成し、この合成された有限状態変換器を用いて、入力された音声の認識と文章スタイル変換を行えば、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換を実現できる。
有限状態変換器の合成は、複数の有限状態変換器を、任意の入力記号列をそれら有限状態変換器を順に使用して変換するのと等価な一つの有限状態変換器に合成する操作である。
【0029】
二つの有限状態変換器MとTの合成MoTは、例えば次のような手順で行うことができる。但し、‘o’は合成を表す演算子を表す。
ステップ1 MとTから状態を一つずつ選んでペアとする全組合せに対して一つの状態を生成する。これらの状態は、Mのm番目の状態をq 、Tのn番目の状態をq として、(q ,q )のように表す。
ステップ2 ステップ1で用意した状態の間の遷移は、例えば(q ,q )と(q ,q )の場合、Mにおけるq からq への遷移(これをE(q ,q )とする)とTにおけるq からq への遷移(これをE(q ,q )とする)が存在し、かつ、E(q ,q )における出力記号とE(q ,q )における入力記号とが一致すれば、状態(q ,q )から(q ,q )への状態遷移を作り、E(q ,q )の入力記号とE(q ,q )の出力記号を割り当てる。ここで、作られた状態遷移に対するコストは、E(q ,q )とE(q ,q )の状態遷移コストの和を与える。
ステップ3 ステップ2において、状態遷移の遷移元にも遷移先にもならなかった状態は削除する。
【0030】
【発明の実施の形態】
次に、本発明の一実施の形態について図面を用いて説明する。図1は、本発明の一実施の形態に係わる文章スタイル変換方法を表す図である。本発明の特徴は有限状態変換器生成手段130によって、単語列置換規則データベース110から単語列置換規則を、言語モデルデータベース120から単語列の連鎖確率を読み出して、文章スタイル変換を行う有限状態変換器を生成する点である。更に生成された有限状態変換器を、有限状態変換器最適化手段140へと送る。有限状態変換器最適化手段140では、有限状態変換器生成手段130によって生成された有限状態変換器を受け取り、前述の有限状態変換器の決定化と最小化の処理を行って、よりコンパクトな有限状態変換器に変換し、文章スタイル変換用有限状態変換器データベース150に格納する。文章スタイル変換手段160では、文章スタイル変換用有限状態変換器データベース150から有限状態変換器を読み出し、この有限状態変換器に従って、入力された単語列を入力記号列として対応する出力記号列に変換し、その出力記号列を変換結果の単語列として出力する。
【0031】
次に、単語列置換規則データベース110に記録された単語列置換規則と、言語モデルデータベース120に記録された単語連鎖確率から有限状態変換器を生成する手順の一例を示す。
説明を簡潔にするために、次の単語列置換規則
w,x→A
y→B
z→ε
を仮定する。ここで、w,x,y,zは変換元の単語、A,Bは変換先の単語を表す。これら規則による単語列の変換を行う有限状態変換器は例えば図2のように表せる。図2において、○で表されているのが状態(◎は終了状態)、状態と状態を結ぶ“→”が状態遷移を表し、各状態遷移の側に記された記号は、それぞれ、“入力記号:出力記号/コスト”を表す。εは、何も出力しないことを表す記号である。コストのc(・)は、単語列変換規則が適用される確率P(・)を
c(・)=−logP(・)               (6)
のようにコストに直した値である。この有限状態変換器は、状態0を開始状態として、例えば、単語列y,z,w,x,yを単語列B,A,Bに変換する。この図2の有限状態変換器は、図3に示すような状態遷移の表によって書き表すこともできる。
【0032】
一方、変換結果の単語列に対する単語連鎖確率(言語モデル)は変換結果が単語A,Bのみから成る場合、図4に示すような有限状態変換器として表すことができる。ここで、コストのc(・)は、ユニグラム、バイグラム、トライグラムの確率をコストに直した値を表す。また、この図4の有限状態変換器は、図5に示す状態遷移の表によって書き表すこともできる。
図2及び図3に示す有限状態変換器と、図4及び図5に示す有限状態変換器とを一つの有限状態変換器に合成することにより、文章スタイル変換用有限状態変換器を生成できる。この合成操作の結果、図6の文章スタイル変換用有限状態変換器が得られる。但し、表の一番左の列にあるS1〜S24の記号は、以降の説明のために付加した状態遷移に対するラベルを表すものであり、有限状態変換器の定義とは無関係である。
【0033】
以下に、図1の文章スタイル変換手段160によって、図6に示す文章スタイル変換用有限状態変換器を用いて、入力単語列y,z,w,x,yの文章スタイルを変換する過程を示す。
・初期状態(0,0)からスタートする。総合コストC=0とする。
・入力記号yが入力され、S11の遷移により状態(0,B)に移る。このとき、出力記号Bを出力し、コストc(y→B)+c(B)をCに加算する。
・次に入力記号zが入力され、S20の遷移により状態(0,B)に移る。このとき、何も出力しない。
・次に入力記号wが入力され、S3の遷移により状態(1,BA)に移る。このとき、出力記号Aを出力し、コストc(w→A)+c(A|B)をCに加算する。
・次に入力記号xが入力され、S10の遷移により状態(0,BA)に移る。このとき、何も出力しない。
・次に入力記号yが入力され、S16の遷移により状態(0,AB)に移る。このとき、出力記号Bを出力し、コストc(y→B)+c(B|BA)をCに加算する。
【0034】
以上の状態遷移過程により、入力記号列y,z,w,x,yは出力記号列B,A,Bに変換される。
一方、本発明を、音声認識と組合せ、音声認識と同時に文章スタイル変換を行うこともできる。図7は、本発明の一実施の形態である。音声を入力として音声認識と同時に文章のスタイルを変換する文章スタイル変換方法を表す図である。文章スタイル変換用有限状態変換器を生成し、文章スタイル変換用有限状態変換器データベース150に格納するまでの手順は図1と同様である。
続いて、音声認識用有限状態変換器生成手段200において、音響モデルデータベース170から音声固定単位(例えば音素)の標準的特徴を音声信号をある短い時間(例えば10ミリ秒)ごとに分析して得られる音響パターンの系列の集合により与える音響モデルを、単語発音辞書データベース180からは種々の単語の発音を前記音声固定単位の系列によって与える単語発音辞書を、音声認識用言語モデルデータベース190からは発話される単語の連接のしやすさを与える単語連鎖確率(言語モデル)を読み出し、音響パターン系列を入力記号列として、その音響パターン系列に最も適合する単語列を出力する音声認識用有限状態変換器を生成して、音声認識用有限状態変換器データベース210に格納する。
【0035】
有限状態変換器合成手段220では、文章スタイル変換用有限状態変換器データベース150から文章スタイル変換用有限状態変換器を、音声認識用有限状態変換器データベース210から音声認識用有限状態変換器を読み出し、これら2つの有限状態変換器を合成することにより、音声認識・文章スタイル変換用有限状態変換器を生成し、有限状態変換器最適化手段230に送る。
有限状態変換器最適化手段230では、有限状態変換器合成手段220において生成された音声認識・文章スタイル変換用有限状態変換器を受け取り、決定化と最小化による最適化を施して、音声認識・文章スタイル変換用有限状態変換器データベース240に格納する。
【0036】
文章スタイル変換手段160では、音声認識・文章スタイル変換用有限状態変換器データベース240から音声認識・文章スタイル変換用有限状態変換器を読み出して、この有限状態変換器に従って入力音声の短時間音響パターンの時系列を入力記号列として、コスト最小の出力記号列を求め、その出力記号列を文章スタイル変換結果の単語列として出力する。
音声認識・文章スタイル変換用有限状態変換器による記号列の変換は、入力記号列である音響パターン系列から出力記号列である文章スタイル変換結果の単語列に直接変換する処理であるので、音声認識処理との同時並行的な文章スタイル変換が実現される。
【0037】
音声認識用の有限状態変換器を音響モデル、単語発音辞書、言語モデルを用いて生成する方法、及び、その有限状態変換器を用いた音声認識方法は、例えば、国際会議ASR2000における、M.Mohri,F.Pereira,and M.Riley著“Weighted finite−state transducers in speech recognition,”Proceeding of ASR2000, pp. 97−106,2000に開示されている。音声認識用の有限状態変換器は、音響パターン系列から音素列へ変換する有限状態変換器、音素列から単語列に変換する有限状態変換器、単語列に単語連鎖確率をコストとして与える有限状態変換器を合成することにより生成できる。
【0038】
種々の音声固定単位(例えば音素)の標準的な音響パターン系列の集合を表す音響モデルとしては、例えば、それら音響パターン系列の集合を確率・統計理論に基づいてモデル化する隠れマルコフモデル法(Hidden Markov Model、以後HMM法と呼ぶ)が主流である。このHMM法の詳細は、例えば、社団法人電子情報通信学会編、中川聖一著「確率モデルによる音声認識」に開示されている。
音声認識に用いる音響パターンは、短い時間(例えば10ミリ秒)ごとに音声信号を分析することにより得られるメルケプストラム(mel−frequency cepstralcoefficients、MFCCと呼ばれる)、デルタMFCC、LPCケプストラム、対数パワーなどがある。
【0039】
図8は、HMM法に基づいて構成された、音響パターン系列から音素列へ変換する有限状態変換器の一例である。但し、入力である音響パターンは実数値を要素とするベクトル値であり、有限個の記号の一つにはならないため、各状態遷移は任意のベクトル値xを入力として受理し、その入力xによる状態遷移に対してコストを計算するコスト関数−logP(x|S)を持つ。
ここで、各状態Sに依存した確率密度関数P(x|S)には一般にガウス分布やガウス分布の線形和である混合ガウス分布が用いられ、これら確率密度関数は状態に対応する音素の特徴を持った音響パターンが入力されたときに大きな値をとるように事前にパラメータ(例えば、ガウス分布の平均ベクトルや共分散行列)を設定しておく。
【0040】
図8の例では、初期状態0から終了状態1に至るまで横に一列に並んだ3つの状態が一つの音素に対応しており、音響パターン系列を上から順にa,i,…,oに変換する。図8の有限状態変換器では、ある入力音響パターン系列に対して複数の状態遷移の可能性があり、コスト最小の状態遷移過程に対応する出力音素列を音声認識(音素認識)の結果とする。
図9は、音素列から単語列へ変換する有限状態変換器の一例であり、初期状態0から最終状態7に至るまでに音素列が一つの単語に変換され、状態7から0に戻ることによって単語列にも変換される。
【0041】
図10は、単語列のコストを与える単語連鎖確率(言語モデル)有限状態変換器の一例であり、各単語の接続する確率をコストで表している。図10では、例えば単語「いや」の次に単語「いいよ」が出力される遷移(状態1→2)のコストは0であり連鎖しやすいことを、単語「はい」の次に単語「いや」が出力される遷移(状態3→1)のコストは80であり連接しにくいことを表している。
図8から図10の有限状態変換器を合成した音声認識用有限状態変換器を用いると、入力音声(音響パターン系列)に対してコスト最小の出力単語列(例えば、“いや,いいよ”や“はい,はい,いいよ”)に変換することができる。
【0042】
更に図11の単語列を置換する有限状態変換器と、図12の文章スタイル変換結果に対する単語連鎖確率(言語モデル)を表す有限状態変換器を合成した文章スタイル変換用有限状態変換器を、図8乃至図10から得られる音声認識用有限状態変換器と合成することにより、音声認識・文章スタイル変換用有限状態変換器を生成することができる。この音声認識・文章スタイル変換用有限状態変換器を用いると、例えば、ユーザ(発話者)が“いやいやいいよ”と発声した場合、その音声信号の入力音響パターン系列は“いいえ,いいえ,いいです”という単語列に変換され出力される。
【0043】
以上説明したこの発明による文章スタイル変換方法は、コンピュータが読み取り可能な符号によって記述された文章スタイル変換プログラムがコンピュータにインストールされ、そのプログラムをCPUが解読して実行される。
更に、この発明による文章スタイル変換プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に格納されてコンピュータにインストールされる。又は通信回線を通じてコンピュータにインストールされて文章スタイル変換方法が実行される。
【0044】
【発明の効果】
以上説明したように、本発明によれば、多くの単語列置換規則による文章スタイル変換を高速に行い、かつ、音声認識の終了を待つことなく音声認識処理との同時並行的な文章スタイル変換が可能となる。
【図面の簡単な説明】
【図1】本発明の文章スタイル変換方法及び文章スタイル変換装置の一実施例を説明するためのブロック図。
【図2】図1に示した有限状態変換器生成手段で生成した有限状態変換器の一例を説明するための流れ図。
【図3】図2に示した有限状態変換器を表形式で示した図。
【図4】単語列の単語連鎖確率を計算する有限状態変換器の一例を示す流れ図。
【図5】図4に示した有限状態変換器を表形式で示した図。
【図6】文章スタイル変換用有限状態変換器の一例を表形式で示した図。
【図7】本発明の音声入力による文章スタイル変換方法及び文章スタイル変換装置の一実施例を説明するためのブロック図。
【図8】図7に示した実施例に用いた音響パターン系列から音素列へ変換する有限状態変換器の一例を説明するための流れ図。
【図9】図7に示した実施例に用いることができる音素列から単語列へ変換する有限状態変換器の一例を説明するための流れ図。
【図10】単語列のコストを与える単語連鎖確率(言語モデル)有限状態変換器の一例を説明するための流れ図。
【図11】単語列を置換する有限状態変換器の一例を示す流れ図。
【図12】単語列の単語連鎖確率(言語モデル)を計算する有限状態変換器の一例を示す流れ図。
【符号の説明】
110  単語列置換規則データベース
120  言語モデルデータベース
130  有限状態変換器生成手段
140  有限状態変換器最適化手段
150  文章スタイル変換用有限状態変換器データベース
160  文章スタイル変換手段
170  音響モデルデータベース
180  単語発音辞書データベース
190  音声認識用言語モデルデータベース
200  音声認識用有限状態変換器生成手段
210  音声認識用有限状態変換器データベース
220  有限状態変換器合成手段
230  有限状態変換器最適化手段
240  音声認識・文章スタイル変換用有限状態変換器データベース
250  文章スタイル変換手段

Claims (8)

  1. 入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップを有し、
    前記重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換方法。
  2. 入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成ステップと、
    前記重み付き有限状態変換器生成ステップによって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化ステップとを有し、前記重み付き有限状態変換器最適化ステップによって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換方法。
  3. 音声を認識するための重み付き有限状態変換器と、請求項1及び2記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成ステップを有し、
    前記重み付き有限状態変換器合成ステップによって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換方法。
  4. 入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段を有し、
    前記重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換装置。
  5. 入力単語列の文章スタイルを変換するための単語列置換規則の集合と、入力単語列の文章スタイルを前記単語列置換規則の集合を用いて変換する際に得られる複数の変換候補の各々の適正を評価する言語モデルとを用いて、入力記号列の文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器生成手段と、
    前記重み付き有限状態変換器生成手段によって生成された重み付き有限状態変換器の状態数を削減する重み付き有限状態変換器最適化手段とを有し、
    前記重み付き有限状態変換器最適化手段によって最適化された重み付き有限状態変換器を用いて入力単語列の文章スタイルを変換することを特徴とする文章スタイル変換装置。
  6. 音声を認識するための重み付き有限状態変換器と、請求項1及び2記載の文章スタイルを変換するための重み付き有限状態変換器とを合成して、音声認識と同時に文章スタイルを変換する重み付き有限状態変換器を生成する重み付き有限状態変換器合成手段を有し、
    前記重み付き有限状態変換器合成手段によって生成された重み付き有限状態変換器を用いて、入力された音声の文章スタイルを変換することを特徴とする文章スタイル変換装置。
  7. コンピュータが読み取り可能な符号によって記述され、コンピュータに請求項1乃至3の何れかに記載の文章スタイル変換方法の何れかを実行させる文章スタイル変換プログラム。
  8. 請求項7記載の文章スタイル変換プログラムの少なくとも一つをコンピュータが読み取り可能な記録媒体に記録した文章スタイル変換プログラムを格納した記録媒体。
JP2002275174A 2002-09-20 2002-09-20 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 Pending JP2004110673A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002275174A JP2004110673A (ja) 2002-09-20 2002-09-20 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002275174A JP2004110673A (ja) 2002-09-20 2002-09-20 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体

Publications (1)

Publication Number Publication Date
JP2004110673A true JP2004110673A (ja) 2004-04-08

Family

ID=32271442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002275174A Pending JP2004110673A (ja) 2002-09-20 2002-09-20 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP2004110673A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503934A (ja) * 2006-09-15 2010-02-04 マイクロソフト コーポレーション モジュラ有限状態トランスデューサの変換
JP2012203584A (ja) * 2011-03-24 2012-10-22 Nippon Telegr & Teleph Corp <Ntt> 述部正規化装置、方法、及びプログラム
WO2016002879A1 (ja) * 2014-07-02 2016-01-07 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503934A (ja) * 2006-09-15 2010-02-04 マイクロソフト コーポレーション モジュラ有限状態トランスデューサの変換
JP2012203584A (ja) * 2011-03-24 2012-10-22 Nippon Telegr & Teleph Corp <Ntt> 述部正規化装置、方法、及びプログラム
WO2016002879A1 (ja) * 2014-07-02 2016-01-07 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding

Similar Documents

Publication Publication Date Title
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
CN108899009B (zh) 一种基于音素的中文语音合成系统
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP5968774B2 (ja) 単語識別方法、単語識別装置、及びコンピュータ可読コード
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Anumanchipalli et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP2005208652A (ja) 声調言語用分節声調モデリング
JP2005024797A (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP6876543B2 (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2005266349A (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP4581549B2 (ja) 音声処理装置および方法、記録媒体、並びにプログラム
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2004110673A (ja) 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP3378547B2 (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060310

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060425