JP2006018354A

JP2006018354A - テキスト分割装置及び自然言語処理装置

Info

Publication number: JP2006018354A
Application number: JP2004192575A
Authority: JP
Inventors: Yoshio Doi; 誉生土居; Eiichiro Sumida; 英一郎隅田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-06-30
Filing date: 2004-06-30
Publication date: 2006-01-19

Abstract

【課題】高い信頼性で長い文の分割位置を定めることを可能にする。
【解決手段】文分割処理装置４０は、入力文３８を分割可能個所で分割して得られる分割文のうち、言語モデル３４に基づいて算出される尤度Ｐｒｏｂが所定の条件を充足する複数個の分割文候補を生成する分割文候補生成部６０と、分割文候補生成部６０より生成された分割文候補の各々に対し、コーパス３０との間で算出される類似度Ｓｉｍと、分割文候補生成部６０により算出された尤度Ｐｒｏｂとにより定義されるスコアが最も高い分割文候補を選択して入力文３８を分割するための分割文候補選択部６４とを含む。
【選択図】図１

Description

この発明は自然言語処理装置に関し、特に、音声会話文の翻訳等の自然言語処理をより正確に行なうための前処理等に適用可能な、長い文の分割処理技術に関する。

機械翻訳システムによる翻訳では、入力に対する正確な結果が得られない場合がある。特に入力文が長い場合に翻訳誤りが生じやすい。そうした場合には、入力文を短く分割し、分割後の各部に対して翻訳を行なうとよりよい結果が得られる。したがって、音声翻訳のためのコーパスベースの機械翻訳の訳質を高めるために、前もって入力文をより短い文に分割した後、それら分割後の文を翻訳する技術が有望である。

ところで、音声翻訳の対象となる会話文では、文中に文が入れ子で入っていたりするような複雑な構造をもつことは少なく、長文を分割して互いに独立な複数の文に分割することができることが多い。したがって、もしも分割が正しく行なわれ、分割後の文に対する翻訳がある程度正しく行なわれれば、結果として翻訳文によって入力文の意味が正確に表される可能性が高くなる。

例えば入力文として「This is a medium size jacket I think it's a good size for you try it on please」という文が与えられた場合を考える。この文は、「This is a medium size jacket」、「I think it's a good size for you」及び「try it on please」という３つの部分に分割できる。これら３つの文を個別に翻訳し、翻訳結果をそのまま順番に並べれば、入力文の正確な翻訳文を得ることができる。

従来、このような文の分割については、Ｎグラムのような局所的な単語順序に関する特徴に基づいて行なうことが一般的であった。例えば非特許文献１を参照されたい。こうした研究の中には、正確な分割位置に対して再現率及び適合率に関し高い性能を示すものがあった。しかし、そうした高い性能を示すものであっても、翻訳のための文分割処理という点では常に好ましい結果が得られるとは限らない。

同様の文分割処理が適用可能な分野として、「スラッシュリーディング」のための文分割処理がある。スラッシュリーディングとは、母国語と言語構造の異なる外国語を習得するために有効とされている言語学習法である。例えば英語は日本語と構造が大きく異なっている。日本人は英文を理解する際、英語の構文構造から日本語の構造を頭の中で再構築しがちである。この構造変換は英文理解過程の遅延を引起し、リーディングやリスニングに支障をきたす場合がある。

この問題は、英文を元の語順のまま理解する能力を身に付けることができれば解決される。スラッシュリーディングはこの能力を獲得するための訓練法である。スラッシュリーディングでは、学習者は「／」（スラッシュ）によってチャンク（句や節等の意味的なかたまり）に区切られた英文を滞りなく読み進むように努める。その際、チャンクの順序を入れ替えて理解しようとしてはいけない。

この学習法は、スラッシュの入った特殊なリーディング教材を必要とする。しかし予めスラッシュの入った教材は少ない。そのため、こうした学習法が広く利用されるにはいたっていない。

スラッシュリーディング用の教材を作成する手法の一つとして、非特許文献２に記載されたスラッシュリーディングのためのスラッシュの自動挿入法に関するものがある。この手法は英文の依存構造に基づいたものであって、文読解プロセスに関する心理学的モデルに基づいている。

このプロセスでは、文を構成する表現のチャンクが短期メモリ内に記憶される。文頭から１語ずつ読解処理を進めて行くにつれて、メモリ内のチャンクの個数は増減する。チャンクの個数が減るのは複数のチャンクが一つにまとめられる場合である。この手法では、依存構造解析にしたがってチャンクをまとめていく。ある単語まで処理を進めたとき、チャンクの個数が増えなければその単語の直後をスラッシュ挿入個所の候補とする。得られた候補の中から、チャンク長の制約、依存関係によるまとめやすさ、記憶の負荷を考慮してスラッシュ挿入個所を決定する。

中島秀治他１名、「音声認識過程での発話分割のための統計的言語モデル」、情報処理学会トランザクション４２（１１）：２６８１−２６８８、２００１田中省作他一名、「スラッシュ・リーディング支援システムの構築」、言語処理学会第１０回年次大会ワークショップ、「ｅ−ラーニングにおける自然言語処理」、ｐｐ．３７−４０、２００４Ｌ．クラニアス他２名、「翻訳メモリからの用例検索」、自然言語エンジニアリング、３（４）：ｐｐ．２５５−２７７、１９９７（L. Cranias et al.，"Example retrieval from a translation memory"，Natural Language Engineering，3(4):255-277，1997）土居誉生他２名、「編集距離を使った用例翻訳の高速検索方式と翻訳性能評価」、情報処理学会論文誌、４５（６）、２００４Ｋ．イマムラ、「パターンベースＭＴのための階層的句アライメントにより獲得された翻訳知識の応用」、ＴＭＩ−２００２予稿集、ｐｐ．７４−８４、２００２（K. Imamura，"Application of translation knowledge acquired by hierarchical phrase alignment for pattern-based mt."，Proc. of TMI-2002，pp. 74-84，2002) Ｅ．スミタ、「単語シーケンス間のｄｐマッチングを用いた用例ベースの機械翻訳」、第３９回ＤＤＭＴに関するＡＣＬワークショップ予稿集、ｐｐ．１−８、２００１（E. Sumita，"Example-based machine translation using dp-matching between word sequences"，Proc. of 39th ACT Workshop on DDMT，pp. 1-8，2001）Ｔ．タケザワ他１名、「コーパスベース翻訳のための機械翻訳により補助されたバイリンガル会話の収集」、ＥＵＲＯＳＰＥＥＣＨ予稿集、ｐｐ．２７５７−２７６０、２００３（T. Takezawa et al，"Collecting machine-translation-aided bilingual dialogues for corpus-based speech translation"，Proc. of EUROSPEECH，pp. 2757-2760，2003）

上記したように、予め長い入力文を短く分割することができれば、既存の機械翻訳装置等の自然言語処理装置を用いた処理の品質を高めることができる可能性がある。また、スラッシュリーディングのための教材を少ない労力で作成するために、そのような自動的なテキスト分割処理を信頼性高く行なう必要がある。しかし、そのように高い信頼性で文を分割することが可能なテキスト分割装置はこれまでのところ見出されていない。

非特許文献１に記載の手法では、翻訳の前処理として文分割を行なった場合に常に高い性能が得られるとは限らない。また、非特許文献２に記載の手法では依存構造解析及び構文解析を用いている。このように文の構造を解析するアプローチでは、文が長くなるにしたがって加速度的に処理が困難になり、信頼性も下がるという問題がある。

したがって本発明の目的は、高い信頼性で長い文の分割位置を定めることが可能なテキスト分割装置及び自然言語処理装置を提供することである。

本発明の他の目的は、高い信頼性で、長い文を妥当な分割位置で分割できるテキスト分割装置及び自然言語処理装置を提供することである。

本発明のさらに他の目的は、高い信頼性で、長い文を高い信頼性をもって妥当な分割位置で分割できるテキスト分割装置及び自然言語処理装置を提供することである。

本発明の第１の局面に係るテキスト分割装置は、所定言語の入力テキストを複数個の部分テキストに分割するためのテキスト分割装置であって、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が所定の条件を充足する複数個の分割文候補を生成するための分割文候補生成手段と、分割文候補生成手段により生成された複数個の分割文候補の各々に対し、所定言語のコーパスとの間で所定の類似度算出式に従い算出される類似度と、分割文候補生成手段により算出された尤度とにより定義されるスコアが所定の条件を充足する分割文候補を選択し、当該選択された分割文候補にしたがって入力テキストを１又は複数の部分テキストに分割するための分割文候補選択手段とを含む。

分割文候補生成手段が入力テキストを分割して得られる分割文のうち、尤度が所定の条件を充足するものを分割文候補として生成する。これらに対し、分割文候補選択手段がコーパスとの間でさらに類似度を算出する。そして、尤度と類似度とにより定義されるスコアが所定の条件を充足する分割文候補にしたがって、入力テキストを１又は複数の部分テキストに分割する。テキストの分割にあたって、分割テキストの尤度だけでなく、コーパスとの間で定義される類似度をも加味して文の分割を行なうので、文の局部的な情報だけでなく、全体として文としての妥当性をも考慮した形で文の分割を行なうことが可能になる。

好ましくは、分割文候補生成手段は、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が入力テキストの尤度以上である複数個の分割文候補を生成するための手段を含む。

尤度が入力テキストの尤度以上である分割文候補を生成することにより、入力テキストと少なくとも同じ程度の「正しさ」を持つと考えられる分割文を生成できる。文分割により正しい分割を行なうことができる可能性が高くなる。

さらに好ましくは、生成するための手段は、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が入力テキストの尤度以上であって、かつ尤度が上位の予め定められた複数個の分割文候補を生成するための手段を含む。

尤度が上位の予め定められた複数個の分割文候補を生成し、これらの中から分割文を選択することにより、処理量を削減でき、入力テキストの分割を高速で行なえる。

より好ましくは、所定の尤度算出式は、

ただしＰｒｏｂ（Ｓ）は分割文候補Ｓの尤度、ｓは分割文Ｓを構成する部分テキスト、ＮはＮグラム言語モデルのＮ、Ｌ_ｓは部分テキストに含まれる単語数（文長）、ｐ（ｓ）はＮグラム言語モデルにしたがって算出される部分テキストｓの尤度、である。

部分テキストの尤度の積を、各部分テキストに含まれるＮグラムの個数で正規化した値で分割文Ｓの尤度を算出する。部分テキストの長さの変動に対しても分割文Ｓの尤度を正確に求めることができる。

分割文候補選択手段は、分割文候補Ｓの各々に対し、コーパスとの間の類似度Ｓｉｍを所定の類似度算出式に従い算出するための手段と、類似度Ｓｉｍと尤度Ｐｒｏｂとを用い、以下の式

により算出されるスコアＳｃｏｒｅを算出するための手段と、スコアＳｃｏｒｅが最も大きな分割文候補を選択するための手段とを含んでもよい。

尤度に対する類似度の重みλの値を調整することにより、文分割の際の尤度と類似度との影響を調整できる。特にλの値が大きくなると、分割後の文を特定の機械翻訳装置に与えた場合に主観的評価が改善することが分かった。

分割文候補Ｓの類似度Ｓｉｍは、以下の式により定義され、

で定義される文ｓ₁と文ｓ₂との間の正規化された類似度、Ｉ及びＤは文ｓ₁を文ｓ₂に修正するために必要な単語の挿入数及び削除数、Ｓｅｍは文ｓ₁を文ｓ₂に修正するために必要な単語の置換における、置換される語の間の意味的距離、をそれぞれ表す。

本発明の第２の局面に係る自然言語処理装置は、上記したいずれかのテキスト分割装置と、テキスト分割装置により得られた１又は複数の部分テキストの各々に対し、予め定める自然言語処理を行なうための自然言語処理手段とを含む。

自然言語処理に先立って上記したテキスト分割装置によって入力テキストを分割することにより、自然言語処理への入力テキストは短くなる。一般的に自然言語処理では入力文の長さが短いほうが性能は高くなる。テキスト分割装置による分割精度が高くなることが期待できるので、この自然言語処理装置によれば好ましい自然言語処理を実現できる可能性が高い。

好ましくは、自然言語処理手段は、テキスト分割装置により得られた１又は複数の部分テキストの各々に対して機械翻訳を行なうための機械翻訳手段を含む。

機械翻訳においては、一般的に入力テキストが短いと訳質が向上する。特に音声認識と結合した会話文の機械翻訳装置等における性能の向上が期待できる。

より好ましくは、機械翻訳手段は、テキスト分割装置により得られた１又は複数の部分テキストの各々に対して、コーパスベースの機械翻訳を行なうための手段を含む。

自然言語処理手段は、テキスト分割装置により得られた１又は複数の部分テキストの境界に予め定められた符号を挿入するための符号挿入手段を含んでもよい。

この自然言語処理装置によれば、例えばスラッシュリーディング用のテキストを、人手を介さずに高い精度でかつ自動的に生成することが可能になる。

−第１の実施の形態−
以下に述べる実施の形態では、依存構造解析、構文解析等を用いずに、統計的な観点から文の分割位置を定める。そのために本実施の形態では、所定のコーパスから作成された統計的言語モデルにより算出された文の尤度と、コーパスを基準としたテキスト類似度と呼ぶ尺度とを用いて、所定の目標関数を最適化するような分割位置を決定する。分割のための知識はコーパスから自動的に獲得することが可能であり、人手によって文分割位置決定のためのルールを作成する必要はない。

図１は、本実施の形態に係る文分割処理装置を採用した機械翻訳システム２０のブロック図である。図１を参照して、機械翻訳システム２０は、予め準備された、機械翻訳の原言語と目的言語、例えば英語と日本語との対訳を多数含むパラレルコーパス３０と、パラレルコーパス３０の原言語文に基づいて、Ｎグラム言語モデルを作成するための言語モデル作成部３２と、言語モデル作成部３２により作成されたＮグラム言語モデルを格納するための言語モデル記憶装置３４とを含む。

機械翻訳システム２０はさらに、文分割の際に分割後の文に対してパラレルコーパス３０に記憶された文との類似度を算出する際に使用されるシソーラス３６と、パラレルコーパス３０に基づいて翻訳モデル等の翻訳知識を作成するための翻訳知識作成部４２と、翻訳知識作成部４２により作成された翻訳知識を格納するための翻訳知識記憶装置４４とを含む。

機械翻訳システム２０はさらに、入力文３８を分割可能個所で分割して得られる部分文のうち、言語モデル記憶装置３４に記憶されたＮグラム言語モデル、シソーラス３６、及びパラレルコーパス３０を参照して、文分割の可能性を示す所定のスコア算出方法にしたがって算出されるスコアが最も高くなるものを生成するための文分割処理装置４０と、文分割処理装置４０の出力する分割後の文を、翻訳知識記憶装置４４に格納された翻訳知識を用いて翻訳文４８に翻訳するためのコーパスベースの機械翻訳装置４６とを含む。

文分割処理装置４０は、言語モデル記憶装置３４に記憶されたＮグラム言語モデルに基づいて、入力文３８に対して想定される分割方法のうちで、文分割後の尤度が所定の条件を充足するもののみを分割文候補として出力するため分割文候補生成部６０と、分割文候補生成部６０により出力される分割文候補を記憶するための分割文候補記憶装置６２と、分割文候補記憶装置６２に記憶された分割文候補の中で、分割文の尤度と、パラレルコーパス３０に含まれる文及び分割後の文の間の類似度とによって定義されるスコアが最も高いものを選択し、選択された分割文候補にしたがって入力文３８を分割し機械翻訳装置４６に対して与えるための分割文候補選択部６４とを含む。

分割文候補生成部６０は、言語モデル記憶装置３４に記憶されたＮグラム言語モデルを用いて、入力文３８に対する分割文候補を生成し分割文候補記憶装置６２に書込む機能を持つ。なお本明細書では「文分割」とは、入力文を分割することによって順序付の文の集合（もとの文そのものも含む。）を生成することをいう。文分割によって得られる順序付の文の集合のことを「分割文」と呼ぶ。ここでは分割によって得られる文が実際に文法的な文を構成しているか否かは問わない。文分割によって得られる順序付の文の集合の各文に対して言語モデルに基づいて尤度を計算することができる。分割文に含まれる文の尤度を互いに乗算したものを「分割文の尤度」と呼ぶ。

文の尤度は、図１に示すパラレルコーパス３０から言語モデル作成部３２により得られるＮグラム言語モデル（言語モデル記憶装置３４に記憶される。）により算出できる。文Ｓの分割文の尤度をＰｒｏｂ（Ｓ）とすると、Ｐｒｏｂ（Ｓ）は文Ｓを分割して得られる部分文ｓの尤度の積として、以下の尤度算出式により算出される。

ただしＰ（ｓ）は部分文ｓに対しＮグラム言語モデルによって算出される尤度、ＮはＮグラムのＮ、Ｌ_ｓは文ｓの単語数（文長）を表す。すなわちＰｒｏｂ（Ｓ）は、分割文Ｓの要素である文ｓの尤度Ｐ（ｓ）の積をＮグラムの個数で正規化した値である。なお、本実施の形態で用いるＮグラムは、文頭及び文末にそれぞれ擬似的な語を付加して算出したものである。

例えば、文「This is a medium size jacket」に対するトライグラム言語モデルに基づく尤度は次のように算出される。ｐ（ｚ｜ｘｙ）により語ｘ、ｙというシーケンスの後に語ｚが生起する確率を表すものとし、ＳＯＳ（Start-Of-Sentence）及びＥＯＳ（End-Of-Sentence）によって文頭及び文末に付加される擬似語をそれぞれ表すものとすると、この文の尤度Ｐ（this is a medium size jacket）は次のようにして算出される。

このようにして尤度を算出するため、一般的に文分割後の尤度は、分割前の尤度より小さくなる。そうした分割文を「分割文候補」と呼ぶ。

図２に、入力文８０を例として、分割文候補生成部６０が行なう文分割の方法を説明する。基本的に、分割文候補生成部６０は文を２文に分割する処理を繰返すことにより、文分割を行なう。図２において、入力文８０を構成する各語を長方形で示してある。図２に示す入力文８０は、９個の語を含む。したがって、入力文８０を２文に分割可能な位置は８個である。図２においては、分割可能な位置を三角形で示し、文先頭からの位置を数字で示してある。

図２に示すように、１番目の分割位置で入力文８０を分割すると文１００及び文１０２が得られる。同様に２番目の分割位置で分割すると文１１０及び文１１２が、３番目の分割位置で分割すると文１２０及び文１２２が、４番目の分割位置で分割すると文１３０及び文１３２が、５番目の分割位置で分割すると文１４０及び文１４２が、６番目の分割位置で分割すると文１５０及び文１５２が、７番目の分割位置で分割すると文１６０及び文１６２が、８番目の分割位置で分割すると文１７０及び文１７２が、それぞれ得られる。

これら分割文の各々に対して分割文の尤度を算出できる。尤度が分割前の文の尤度以上である分割文が分割文候補となる。

分割文候補生成部６０は、このようにして得られた分割文候補に対してさらに文分割を繰返す。例えば図２において、第５番目の分割文に対し算出された尤度が、元の入力文８０の尤度以上であれば、分割により得られた文１４０及び文１４２の各々に対し、再び文分割を行なう。すなわち文１４０の持つ第１〜第４の分割位置で文１４０を分割することにより、文１９０及び１９２、文１９４及び１９６、文１９８及び２００、並びに文２０２及び２０４という分割文を得る。同様に、文１４２を分割することにより、文２１０及び２１２、文２１４及び２１６、並びに文２１８及び２２０という分割文を得る。これらに対しても尤度が算出できる。ある分割文の尤度が元の文１４０又は１４２の尤度以上であれば、さらに当該分割文の第１文及び第２文の各々を分割する。

このようにして、分割文候補生成部６０は、分割が不可能になるまで、又は分割によって尤度が必ず低下するようになるまで入力文３８に対する文分割を繰返す。本実施の形態では、そのようにして得られる分割文を後の選択の対象とする。したがって、得られる分割文に含まれる文の個数は、１から入力文３８に含まれる単語数までのどの値もとり得る。分割文候補記憶装置６２は、分割文候補生成部６０がこのようにして生成した分割文を格納する機能を有する。

分割文候補選択部６４は、分割文候補記憶装置６２に格納された分割文候補のうち、所定の条件を充足する分割文を選択し、その分割文に含まれる部分文をそれぞれ機械翻訳装置４６に与える機能を持つ。分割文候補選択部６４は、分割文候補の選択には、シソーラス３６及びパラレルコーパス３０中の文との類似度を用いる。

Ｎグラム言語モデルは、分割位置近傍のいくつかの語からなる局所的な手がかりに基づいて、文の分割位置を示唆する。より広い観点から分割位置の妥当性を検討するために、文の類似度という尺度を用いる。二つの文の類似度は、本実施の形態では二つの文の語シーケンスの間の編集距離を用いて定義される。また、本実施の形態では、編集距離を０と１との間で正規化し、１から編集距離を引いたものを類似度とする。類似度の定義を式（２）に示す。

式（２）においてＬは各文の単語数を表す。Ｉ及びＤはそれぞれ一方の文を他方の文に変換するために必要な挿入及び削除の数を表す。置換は同じ品詞の内容語の間でのみ認めることにする。置換については、置換された単語の意味的な距離２Ｓｅｍを編集距離とする。距離Ｓｅｍは置換された２単語がシソーラス３６上で共有する最も下の抽象レベルを表す値Ｋを、シソーラスの階層の高さＮで除した値であり、上の式（３）で定義される。この距離Ｓｅｍもまた０と１との間で正規化された値である。

本実施の形態では、Ｓｉｍ₀を用いて、パラレルコーパス３０に対するある分割文の類似度を、式（４）により表される値Ｓｉｍにより定義する。

式（４）において、Ｓは分割文、Ｃは用いられるコーパス（パラレルコーパス３０）を、それぞれ表す。Ｓｉｍは各部分文のコーパスに対する類似度を各部分文の長さで重み付けして計算した平均類似度である。式（４）から分かるように、コーパスに対するある部分文の類似度は、その文とコーパス内の各文との類似度の内の最大値である。

上記したように分割文候補選択部６４が行なう分割文選択処理は、パラレルコーパス３０から部分文に最も類似した文を探し出す作業に良く似ている。この処理は、クラスタリング（非特許文献３）または単語グラフに対するＡ＊サーチアルゴリズム（非特許文献４）を用いて実現できる。しかし、コーパス３０が大きい場合、Ｓｉｍの算出はＰｒｏｂの算出と比較すると計算コストが大きい。そこで、分割文候補生成部６０によりＰｒｏｂのみを用いて、元の文以上の尤度を持つもののみ限定して分割文候補を生成し、分割文候補選択部６４によりそれら分割文に対しＰｒｏｂとＳｉｍとの双方を用いて分割文の選択を行なう。

具体的には、分割文候補選択部６４は、式（５）により示されるスコアＳｃｏｒｅが最も大きな値となる分割文候補を採用する。

式（５）においてλはＳｉｍの重みを表す。λが０に近くなれば選択においてはＰｒｏｂの値が主に使用され、λ＝１であればＳｉｍのみが使用される。

図３は、分割文候補生成部６０による分割文候補生成処理をコンピュータプログラムで実現する際の関数Ｆの概略フローチャートである。この関数Ｆは分割の対象となる文を引数として再帰的に呼び出され、与えられた文の分割文の集合を戻り値とする。

図３を参照して、まずステップ２５０において、分割文の集合Ｔに、引数として与えられた文ｓ₀からなる集合を設定する。続いてステップ２５２で分割位置を定める変数ｉに０を代入する。ステップ２５４で変数ｉを１インクリメントする。ステップ２５６で変数ｉが引数として与えられた文ｓ₀に含まれる単語の数Ｎ_s0以上か否かを判定する。判定結果がＹＥＳであれば集合Ｔを戻り値としてリターンする。判定結果がＮＯであればステップ２５８に進む。

ステップ２５８では、文ｓ₀に対してｉ番目の分割位置で文ｓ₀を分割することにより得られる分割文ｓ_iの二つの部分文のうち、１番目の文s_i,1及び２番目の文ｓ_i,2の双方に対して尤度Ｐｒｏｂ（ｓ_i,1）及びＰｒｏｂ（ｓ_i,2）をそれぞれ算出し、互いに乗算することにより、ｉ番目の分割位置で文ｓ₀を分割して得られる分割文の尤度Ｐｒｏｂ（ｓ_i）を算出する。

ステップ２６０で、上のようにして得られた尤度Ｐｒｏｂ（ｓ_i）が、文Ｓ₀に対して得られた尤度Ｐｒｏｂ（ｓ₀）以上か否かを判定する。判定結果がＮＯであればステップ２５４に戻る。判定結果がＹＥＳであればステップ２６２に進む。

ステップ２６２では、分割文の集合Ｔの要素に、分割文ｓ_iの１番目の文ｓ_i,1を引数として自分自身（関数Ｆ）を再帰的に呼出し、戻り値である分割文の集合の要素の各々と分割文ｓ_iの２番目の文ｓ_i,2とを組にして得られる分割文、及び２番目の文ｓ_i,2を引数として関数Ｆを呼出し、戻り値である分割文の集合の要素の各々と、分割文ｓ_iの１番目の文とを組にして得られる分割文とを全て分割文の集合Ｔに追加する。

最初に文分割の対象となる文を引数としてこの関数Ｆを呼ぶことにより、再帰的な処理によって分割文の集合が得られる。

−動作−
上に述べた第１の実施の形態に係る機械翻訳システム２０は以下のように動作する。まず、翻訳に先立って準備が必要である。図１を参照して、予めパラレルコーパス３０を用意する。さらに言語モデル作成部３２を用いてパラレルコーパス３０に対するＮグラム（例えば３−グラム）言語モデルを作成し、言語モデル記憶装置３４に格納する。また、翻訳知識作成部４２によって機械翻訳装置４６で必要とされる翻訳知識をパラレルコーパス３０から作成し、翻訳知識記憶装置４４に格納する。

翻訳フェーズでは、機械翻訳システム２０は以下のように動作する。入力文３８が与えられると、分割文候補生成部６０は入力文３８を分割し、分割文候補を生成する。生成された分割文候補は分割文候補記憶装置６２に格納される。より具体的には、分割文候補生成部６０は、前述したように、言語モデル記憶装置３４に記憶されたＮグラム言語モデルを使用し、分割した結果、分割文の尤度（分割後の部分文の尤度の積）が入力文３８の尤度以上となるような分割文候補を生成し、その分割文の尤度と共に分割文候補記憶装置６２に格納させる。

分割文候補選択部６４は、分割文候補記憶装置６２に記憶された分割文候補の各々に対し、シソーラス３６を用い、パラレルコーパス３０に含まれる同じ言語の各文との類似度を式（２）（３）を用いて算出する。さらに分割文候補選択部６４は、分割文候補の各々に対し、パラレルコーパス３０に対する類似度を式（４）にしたがって算出した後、その類似度と分割文候補生成部６０により算出された分割文候補の尤度Ｐｒｏｂとを用い、式（５）に従って分割文候補のスコアを算出する。最後に、分割文候補選択部６４は、このようにして算出されたスコアが最も大きな分割文候補を選択し、分割文に含まれる各部分文を機械翻訳装置４６に与える。

機械翻訳装置４６は、与えられた部分文ごとに翻訳知識記憶装置４４を用いて翻訳し、翻訳文４８として出力する。

＜例＞
上述の実施の形態の機械翻訳システム２０の文分割処理装置４０による文分割についてシミュレーションした結果を以下に示す。入力文３８として「This is a medium size jacket I think it's a good size for you try it on please」が与えられたものとする。この入力文に対する分割方法は多数存在する。図４に、それらのうちで入力文３８の尤度以上の尤度を持つ分割文候補として、図４に示す５つが分割文候補生成部６０により生成される。

図４において、「｜」は分割位置を示す。各分割文候補の左に記載した番号は、Ｐｒｏｂに基づく順位である。第５位の分割文候補は入力文３８それ自身である。

各分割文候補に対しさらに分割文候補選択部６４によりＳｉｍを算出した後、式（５）にしたがってスコアを算出する。その結果、５つの候補のうちで最もスコアの高い２番目の候補が入力文３８に対する分割文として選択される。

＜実験＞
［機械翻訳装置］
上記した文分割処理装置４０を採用した機械翻訳システム２０の性能を評価するために、以下のような実験を行なった。機械翻訳装置４６として英日翻訳装置を用いた。実験には、二つの用例ベースの機械翻訳装置を用いた。一方は、句単位で翻訳を行なう階層的句アライメントベースの翻訳機（ＨＰＡＴ）（非特許文献５）である。ＨＰＡＴは句を組合わせることにより入力文を翻訳する。他方は文単位で翻訳を行なうＤＰマッチ型トランスデューサ（Ｄ³）（非特許文献６）である。いずれの機械翻訳装置に対しても、翻訳知識は予めパラレルコーパスから自動的に獲得したものを用いた。

［言語資源］
実験では、日本語−英語パラレルコーパスを用いた。すなわち、トレーニング用にはＢＴＥＣ（Basic Travel Expression Corpus）と、ＳＬＤＢ（Spoken Language Data Base）とを用い、テスト用としてＭＡＤ（Machine-Translation-Aided bilingual Dialogues）を用いた（非特許文献７参照）。ＢＴＥＣは外国旅行者のための会話集に記載された日本語文とその英語訳とを集めたものである。ＳＬＤＢの内容は、日本人と英語話者との間で通訳を介して行なわれた会話を書き起こしたものである。これらコーパスの日本語部分と英語部分とは、互いに文対文の関係で対応付けされている。一方、ＭＡＤに含まれる会話は、日本人と英語話者との間で、人間のタイピストと試作ＭＴシステムとを介して行なわれたものである。

ＭＡＤタイプのタスクを処理するためには、ＢＴＥＣとＳＬＤＢとの双方が必要であることが知られている。そこで、以下の実験では、ＭＡＤに含まれる文を翻訳するため、前もってＢＴＥＣの文（１５２、１７０文）とＳＬＤＢの文（７２、３６５文）とをマージしてＨＰＡＴ及びＤ³のためのトレーニング用コーパスを作成した。また、トレーニング用コーパスの英語部分は、Ｎグラム言語モデルを作成する際に使用され、さらに分割文との類似度を算出するためのコーパスとしても使用された。トレーニング用コーパスの統計的情報については表１に示す。表１中のパープレキシティは単語トライグラムパープレキシティである。

本実験でのテストセットは、人間が発声したＭＡＤ中の５０５の英語文であり、ＭＴシステムにより生成された文は含まない。平均文長は９．５２語である。トレーニングコーパスに対するテストセットの単語トライグラムパープレキシティは６３．６６である。

［実施条件］
本例での文分割に使用するＮグラム言語モデルはトライグラムモデルである。分割文の数（一つの入力文を分割する際の最大分割数）は４に限定した。Ｓｉｍの重みλには、０、１／２、２／３、３／４、及び１のうちのいずれか一つを割当てて実験した。

［評価］
文分割を行なった場合の翻訳結果と、行なわなかった場合の翻訳結果との間で、訳質を比較した。訳質の評価には、客観的な尺度と主観的な尺度とを用いた。それらについて以下説明する。

客観的な尺度として用いたものは、ＢＬＥＵスコア、ＮＩＳＴスコア、及び複数参照単語誤り率（ｍＷＥＲ）とである。これらはテストセットを用いて算出した。ＢＬＥＵ及びＮＩＳＴでは、システムの出力する翻訳結果と、同じソース文に対する複数の参照訳とを比較し、参照訳にシステムの翻訳結果と一致する単語シーケンスがあるか否かを基にして算出する。したがってこれら尺度で高いスコアが得られれば、システムの翻訳結果としてより好ましいと考える。一方、ｍＷＥＲの場合には、システム出力と参照訳との間の編集距離に基づいて誤り率を算出する。したがってｍＷＥＲの場合には、低いスコアの方がより好ましい翻訳ということになる。参照訳の数はこれら３つの尺度のいずれにおいても１５個とした。

主観的評価においては、互いに異なる二つの条件下で翻訳されたテストセットの翻訳結果を互いに比較した。一文ごとに、日本語のネイティブスピーカでかつ英語についても十分な能力を備えた評価者が、翻訳結果または訳質の評価を行なった。主観的尺度は、ベースラインとの比較で算出した。この尺度は文ごとの利得を表す。ただしここでいう「利得」とは、式（６）により示されるように、評価者によって勝ちと判断された翻訳結果の数から負けと判断された翻訳結果の数を減じ、テストセットの文数で正規化した値である。

［効果］
表２に、この実験により二つのＭＴ（ＨＰＡＴ及びＤ³）を用いて、６種類の条件下で得られた翻訳結果の評価を示す。

表２において「分割なし」は入力文そのものが分割文となっている場合（すなわち、分割なしの場合）である。他の条件では、Ｐｒｏｂを用いて文分割を行なうことにより、テストセットの文から分割文を生成し、入力文ごとに上記したスコアを用いて一つの分割文を選択した。式（５）に示すスコアの定義中のＰｒｏｂとＳｉｍの重みは、Ｐｒｏｂのみを用いるものからＳｉｍのみを用いるものまで変化させた。主観的評価のベースラインは分割なしに対する評価である。

入力文の数は２３７であり、それに対しＰｒｏｂを用いて分割文候補が複数個生成される。分割文数の平均と最大はそれぞれ５．０７及び６４である。２３７文の平均文長は１２．７９語である。２３７文の、トレーニングコーパスに対する単語トライグラムパープレキシティは７８．３７である。

表２により、ある種の傾向を読み取ることができる。分割なしに対する評価と分割ありに対する評価との間の相違は、いずれの機械翻訳システムにおいてもかなりのものであったが、特にＤ³において著しい。分割ありの場合、条件による評価の相違はそれほど大きくないが、主観的評価はＰｒｏｂのみを用いる場合と比較して、Ｓｉｍに対しより大きな重みを与えるようになるにつれ上昇する。この上昇値は、ＨＰＡＴでは３．２％、Ｄ³では２．４％であった。客観的尺度の中では、ＮＩＳＴが主観的評価とよく合致した。

［類似度を用いる選択の効果］
表３に、類似度を用いた場合の選択の効果を、そうした選択を行なわなかった場合と比較して示す。表３において、変化の数はＰｒｏｂのみを用いて得られた分割文候補とは別の候補が選択された文の数を表す。表３にはさらに、Ｐｒｏｂのみを用いた場合にはベストではなかったが、Ｓｉｍと併せたスコアによりベストとなった分割文候補の、Ｐｒｏｂのみによる評価の平均順位及び最大順位を示す。

「理想」と記載した列は、全ての候補の中でｍＷＥＲをベストな値とする候補を選択する条件を表す。理想条件では、選択される候補は機械翻訳システムによって異なる。変化の数として示した二つの値は、それぞれＨＰＡＴ及びＤ³に対するものである。主観的評価のベースラインはＰｒｏｂのみを用いた条件での評価値である。

表３からもある種の傾向を読み取ることができる。すなわち、ＰｒｏｂとＳｉｍとの双方を用いた場合、得られる分割文の数の変動は少ない。このような場合、上記した文分割方法によれば、Ｐｒｏｂで判定した場合に第１位又は第２位となる分割文候補を結果として選択している。ＰｒｏｂとＳｉｍとの重みを等しく（λ＝１／２）した場合の評価の変動は分割なしの場合と比較して少ないが、主観的評価に関してはいずれの場合にも評価は改善しており、最悪でも分割なしの場合と同等である。Ｓｉｍの重みλを大きくすると、主観的評価は向上する。ＮＩＳＴに関しても、特にＤ³について、Ｓｉｍの重みλが大きくなると同様に改善している。予測されたとおり、理想条件はほとんどの条件よりよい結果を出すが、例外的にＤ³の主観的評価及びＮＩＳＴスコアについてはＳｉｍのみを使用する場合より悪い。Ｄ³については、Ｓｉｍを用いた分割文選択は理想的な選択とほぼ同等である。

以上の結果からは、主観的評価とＮＩＳＴスコアとは互いによく合致しているが、主観的評価とＢＬＥＵ、又は主観的評価とｍＷＥＲとの間ではあまり合致しないことが分かった。ＮＩＳＴスコアの算出では、ＭＴシステムの翻訳結果を参照訳と比較するときに、情報の重みを使用している。人間の評価者により他より優れていると判定された分割文の翻訳は、他の翻訳よりもより多くの情報を含んでいるものと考えられる。

［シソーラスの効果］
さらに、Ｓｉｍ算出においてシソーラスを用いない実験を行なって、シソーラスを用いることの効果について検討した。この実験では、シソーラスを用いてＳｉｍの定義におけるＳｅｍを算定する変わりに、全てのＳｅｍの意味的距離の大きさが０．５に等しいと仮定した。表４に２３７文に対するこの実験により得られた翻訳結果の評価を示す。

表４を参照して、表３と比較してＳｉｍの重みλの値が小さいと主観的評価の値が悪化していること、及びＳｉｍの重みを大きくすると主観的評価の値が改善していることが分かる。しかし、シソーラスを使用した場合と使用しなかった場合とで特に顕著な相違は見られない。したがって、意味的距離Ｓｅｍが何らかの定数（例えば０．５）であってもよい。

以上のとおり、本実施の形態にかかる機械翻訳システム２０によれば、コーパスベースの機械翻訳システムにおいて、機械翻訳処理に先立って文分割処理を行なうことにより翻訳結果の改善が得られる可能性が高い。本実施の形態では、従来技術で使用されていたＮグラムによる手がかりだけでなく、編集距離に基づくコーパスとの類似度も用いて入力文の分割文を選択する。これにより、局所的な手がかりだけでなく文全体の妥当性も考慮して入力文を翻訳に適した形に分割できる。そしてその結果、少なくとも二つの種類（句単位の翻訳を行なうものと文単位の翻訳を行なうもの）の用例ベースの機械翻訳システムにおいて翻訳結果の改善を得ることができた。

上記した実施の形態では、英日翻訳についてのみ説明した。しかし、上記説明から明らかなとおり、本実施の形態により説明した文分割処理は言語の組合せを問わず、適用することができる。また、分割文候補の生成においては、上記したように分割の結果尤度が分割前の尤度以上となるものがなくなるまで繰返す方法だけでなく、それに替えて、又はそれに加えて所定回数の分割を行なった時点でそれ以上の分割を中止する方法を採用してもよい。

−第２の実施の形態−
第１の実施の形態では、機械翻訳の前処理として、入力文を分割する。しかし本発明はそのような機械翻訳の前処理のみに適用可能なわけではない。例えば、従来技術の項で説明したスラッシュリーディングのためのテキスト分割にも応用できる。以下で説明する第２の実施の形態は、スラッシュリーディングのためにテキストを分割し、分割個所にスラッシュ等の記号を挿入するテキスト処理システムに関する。

図５を参照して、本実施の形態に係るテキスト処理システム３５０は、テキスト処理の対象となる言語（本実施の形態では英語）の文からなるコーパス３６０と、コーパス３６０から言語モデルを作成するための言語モデル作成部３６２と、言語モデル作成部３６２が作成した言語モデルを格納するための言語モデル記憶装置３６４と、コンピュータ読取可能な英語のシソーラス３６６と、入力文３６８に対し、第１の実施の形態における文分割処理装置４０と同様の文分割処理を言語モデル記憶装置３６４に格納された言語モデル及びシソーラス３６６とを用いて行ない、各分割位置にスラッシュを挿入してスラッシュリーディング用の出力文３７２を出力するためのスラッシュリーディング用文分割処理装置３７０とを含む。

コーパス３６０は第１の実施の形態で用いられたパラレルコーパス３０と異なり英語に関するものである。この点を除き、図５に示すコーパス３６０、言語モデル作成部３６２、言語モデル記憶装置３６４、及びシソーラス３６６はそれぞれ図１に示すパラレルコーパス３０、言語モデル作成部３２、言語モデル記憶装置３４、及びシソーラス３６と同様の機能を持つ。

スラッシュリーディング用文分割処理装置３７０は、言語モデル記憶装置３６４とシソーラス３６６とを用いて、入力文３６８に対する分割文候補を決定し出力するための文分割処理部３８０と、文分割処理部３８０から出力される分割文候補の文分割位置にスラッシュを挿入して出力文３７２を出力するためのスラッシュ挿入部３８２とを含む。

文分割処理部３８０は、言語モデル記憶装置３６４に記憶された言語モデルに基づいて入力文３６８の分割文候補を生成し出力するための分割文候補生成部３９０と、分割文候補生成部３９０が生成した分割文を記憶するための分割文候補記憶装置３９２と、分割文候補記憶装置３９２に記憶された分割文のうち、言語モデル記憶装置３６４に記憶された言語モデルを用いて式（１）に従って算出された分割文の尤度Ｐｒｏｂと、入力文３６８とコーパス３６０との間で、シソーラス３６６を用いて式（２）〜式（４）に従って算出された類似度Ｓｉｍとから式（５）に従ってスコアを計算し、最も高いスコアを持つ分割文候補を選択するための分割文候補選択部３９４とを含む。

図５に示す分割文候補生成部３９０、分割文候補記憶装置３９２、及び分割文候補選択部３９４はそれぞれ図１に示す分割文候補生成部６０、分割文候補記憶装置６２、及び分割文候補選択部６４に相当する。したがってそれらについての詳細な説明は繰返さない。

また、このテキスト処理システム３５０の動作は自明と思われるのでここでは省略する。

なお、スラッシュリーディングにおける文分割は、機械翻訳における文分割と比較してより小さな単位であることが好ましい。文分割においてはコーパス３６０を用いるため、スラッシュリーディングにおける文分割の効果はコーパス３６０の性質に依存する。コーパス３６０が、完全な文ではなくチャンクから構成されていれば、文分割処理部３８０によるテキスト分割の結果、スラッシュリーディングに適した結果を得ることが期待できる。

しかし、そのようなコーパスを新たに用意するには、チャンクを大量に集める必要がある。そのためには人手コストをかけたり、テキスト及び文からチャンクを正しく抜き出す手法を準備したりすることが必要となる。そのようなコーパスを準備できない場合には、短い文を多く含み、その中に句又は従属節のみからなる文も含むようなコーパスを代替的に利用してもよい。

図６に、テキスト処理システム３５０によって作成されたスラッシュリーディング用テキストの例を示す。図６を参照して、入力テキスト４００に対し５つの分割文候補４０２が生成されている。各分割文候補の左側の数字は尤度Ｐｒｏｂによる各分割文の順位を示す。この例ではＰｒｏｂ基準で２位の分割文候補がスコア基準では１位となり、スラッシュリーディングのための解として選択される。

＜実験＞
本実施の形態に係るテキスト処理システム３５０の評価を行なうために、スラッシュ挿入個所の再現率、適合率、及びＦ値を計算した。比較のため、従来手法（非特許文献２）についても実験を行なった。

−テストセット及び評価尺度−
実験では、スラッシュリーディング用にあらかじめスラッシュ記号が入れられた教材をテストセットとして利用した。この教材は高校生向けの英文解釈の学習参考書である。内容は外国人によって書かれた日本文化についての１５話のエッセイからなる。テストセットは４８５文からなり、その平均文長は１４．５４（語／文）である。スラッシュの総数は８３４である。

評価尺度としては、本実施の形態によるスラッシュ挿入箇所が参考書と一致する程度、つまり、再現率（recall）、適合率（precision）、及びＦ値（F-measure）を使った。ここで、Ｆ値は以下の式(7)で定義する。

［従来手法の実装］
従来手法の実装がウェブサイト"http://lengua.cc.kyushu-u.ac.jp/english/sr/"で実行可能な形で公開されている。同ウェブサイトにおいては、「統語範疇の境界を考慮しない版」と「考慮する版」の２つが用意されている。それぞれの版について、２つのパラメータの値を決める必要がある。１つのパラメータは、スラッシュで区切られたチャンクの単語数の上限を示し、５から９までを値の範囲とする。もう１つのパラメータは語彙チャンクとして使う辞書セットを４種類の中から指定するものである。この手法中では語彙チャンクは１語として扱われている。実験では、２種類の版それぞれについて、２つのパラメータの全ての値の組合せでスラッシュ挿入処理を実行し結果を評価した。

［本実施の形態のテキスト処理システム３５０の実装］
学習コーパス実験では出願人において作成した旅行会話基本表現集とバイリンガル旅行対話データベースとを使った(非特許文献７)。どちらも話し言葉で表現された文からなる対訳コーパスである。両者の英語部分を合わせて学習コーパスとして使用した。この学習コーパスからＮグラム言語モデルを作成するとともに、このコーパスに対する分割文の類似度を計算した。このコーパスの統計情報を表５に示す。

ここでパープレキシティは単語トライグラム・パープレキシティである。コーパス中の文の長さは平均７（語／文）と短い。また、話し言葉コーパスであるため、句や従属節のみからなるような不完全な文も含まれている。したがって、このコーパスは、スラッシュリーディング用の分割処理のために適当な性質を備えた学習コーパスだと考えられる。

［その他の設定］
尤度Ｐｒｏｂの計算に用いたＮグラム言語モデルは単語トライグラムモデルであり、スムージングにはグッド・チューリング推定法を使った。テストセットの１文に対し生成される分割文候補数は３０以内とした。また分割文の要素数、つまりスラッシュによって区切られたチャンク数、にも上限を設けた。指定された整数で文長を割った値以上の最小整数値を、その文のチャンク数の上限とした。ここで指定する整数は４から８までとした。式（５）のλは０または２／３とした。以後、λが０の条件を「尤度Ｐｒｏｂのみを使った場合」、λが２／３の条件を「スコアを使った場合」と呼ぶ。

シソーラスは角川類語新辞典（大野・浜西、１９８４）のシソーラス構造に準拠したものを使った。その英語見出し語数は８０，２５０である。

［結果］
表６は従来手法の「統語範疇の境界を考慮しない版」について、パラメータ値の全組合せのうちで、再現率、適合率、Ｆ値のいずれかが１番良かった結果を示している。表７は従来手法の「統語範疇の境界を考慮する版」についての同様の結果を示している。統語範疇の境界を考慮することで、より良い結果が得られている。

表８にこの第２の実施の形態に係る装置において尤度Ｐｒｏｂのみを使った場合の結果を、表９にスコアを使った場合の結果を示す。これらの表でｘはチャンク数の制約を示す。チャンク数の上限は、文長をｘで割った値以上でかつ最小の整数となる。スコアを使った場合は尤度Ｐｒｏｂのみを使った場合よりも良い結果が得られている。いずれの場合も本実施の形態で採用した手法の結果は従来手法を上回っている。

［類似度利用の効果］
４５８のテスト文中４４２文で複数の分割文候補が生成された。候補数を３０に制限した実験条件下で、４８５のテスト文について、分割文候補の平均個数は２３．７であった。Ｆ値の最良となる条件（表９でｘ＝６の場合）では、１７９文において、スコアによる入れ替えが発生した。すなわち、尤度Ｐｒｏｂによる順位では２位以下であった候補が、スコアによる選択で選ばれるという状況が発生した。この場合スコア基準で１位の候補の最も悪いＰｒｏｂ順位は２８である。つまり、Ｐｒｏｂ基準の順位で２８位だったにもかかわらず、スコアの値としては最も高い値を示した候補もあるということである。

表１０には、尤度ＰｒｏｂによるＮベストのＮ、つまり候補数上限を変更したときの、スコアによる入れ替えが起る場合の数と評価指標の値を示している。この表から、入れ替えが起るとしてもＰｒｏｂ基準の順位が上位の候補が選ばれる場合が多いことが分かる。Ｎが小さくてもスコア利用による効果が評価値に現れ、Ｎ＝１０で最大値に達している。候補数が小さくても効果があり、効果を得るための処理コストを抑えることが可能である。

以上のように本実施の形態に係るテキスト処理システム３５０は、学習参考書をテストデータとした実験で、再現率、適合率、Ｆ値に関して、従来手法である依存構造解析に基づく手法を上回ることが示された。この評価指標は絶対的なものではないが、スラッシュ挿入箇所についての模範解答例との一致の度合いを示し、結果の良否を判定する判断材料となり得る。特に、両手法において性能向上のために有効であると考えられる方策、統語範疇の境界の考慮、文の類似度の利用のいずれもが評価指標値の向上につながっている点も、当指標と結果の良否との相関を支持する。したがって、本実施の形態に係るテキスト処理システム３５０が生成したスラッシュリーディング用テキストの方が、従来手法により得られたものよりも妥当なものであることが、表６〜表９に示す評価指標の値からも示唆される。

［学習コーパス］
実験では、短い文からなる話し言葉コーパスを学習コーパスとして用いることにより、スラッシュ挿入のために適当な文分割を実現することができた。またスラッシュリーディング用の既存の教材は限られているとしても、少量のスラッシュ付きテキストを学習コーパスとして利用することも考えられる。これらのテキストは類似度Ｓｉｍの計算に利用できる。尤度Ｐｒｏｂの計算については、スラッシュ付きテキストから作られるＮグラム言語モデルと、他のコーパスから作られるＮグラム言語モデルとを、線形補間等により混合して使う方法が精度向上に有望である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る機械翻訳システム２０のブロック図である。機械翻訳システム２０の文分割処理装置４０における文分割処理を模式的に示す図である。文分割処理装置４０において行なわれる、分割文候補を生成するための処理の手順を示すフローチャートである。文分割処理装置４０により生成された分割文候補を示す図である。本発明の第２の実施の形態に係るテキスト処理システム３５０のブロック図である。テキスト処理システム３５０の文分割処理部３８０によるテキスト分割処理の結果得られた分割文候補を示す図である。

符号の説明

２０機械翻訳システム、３０パラレルコーパス、３２，３６２言語モデル作成部、３４，３６４言語モデル記憶装置、３６，３６６シソーラス、３８入力文、４０文分割処理装置、４２翻訳知識作成部、４４翻訳知識記憶装置、４６機械翻訳装置、４８翻訳文、６０分割文候補生成部、６２分割文候補記憶装置、６４分割文候補選択部、３５０テキスト処理システム、３６０コーパス、３７０スラッシュリーディング用文分割処理装置、３７２出力文、３８０文分割処理部、３８２スラッシュ挿入部、３９０分割文候補生成部、３９２分割文候補記憶装置、３９４分割文候補選択部

Claims

所定言語の入力テキストを複数個の部分テキストに分割するためのテキスト分割装置であって、
前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が所定の条件を充足する複数個の分割文候補を生成するための分割文候補生成手段と、
前記分割文候補生成手段により生成された前記複数個の分割文候補の各々に対し、前記所定言語のコーパスとの間で所定の類似度算出式に従い算出される類似度と、前記分割文候補生成手段により算出された前記尤度とにより定義されるスコアが所定の条件を充足する分割文候補を選択し、当該選択された分割文候補にしたがって前記入力テキストを１又は複数の部分テキストに分割するための分割文候補選択手段とを含む、テキスト分割装置。
前記分割文候補生成手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上である複数個の分割文候補を生成するための手段を含む、請求項１に記載のテキスト分割装置。
前記生成するための手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて前記所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上であって、かつ尤度が上位の予め定められた複数個の分割文候補を生成するための手段を含む、請求項２に記載のテキスト分割装置。
前記所定の尤度算出式は、

ただしＰｒｏｂ（Ｓ）は分割文候補Ｓの尤度、ｓは分割文Ｓを構成する部分テキスト、ＮはＮグラム言語モデルのＮ、Ｌ_ｓは部分テキストに含まれる単語数、ｐ（ｓ）は前記Ｎグラム言語モデルにしたがって算出される部分テキストｓの尤度、である、請求項２又は請求項３に記載のテキスト分割装置。
前記分割文候補選択手段は、
分割文候補Ｓの各々に対し、前記コーパスとの間の前記類似度Ｓｉｍを所定の類似度算出式に従い算出するための手段と、
前記類似度Ｓｉｍと前記尤度Ｐｒｏｂとを用い、以下の式

により算出されるスコアＳｃｏｒｅを算出するための手段と、
前記スコアＳｃｏｒｅが最も大きな分割文候補を選択するための手段とを含む、請求項１〜請求項４のいずれかに記載のテキスト分割装置。
分割文候補Ｓの前記類似度Ｓｉｍは、以下の式により定義され、

で定義される文ｓ₁と文ｓ₂との間の正規化された類似度、Ｉ及びＤは文ｓ₁を文ｓ₂に修正するために必要な単語の挿入数及び削除数、Ｓｅｍは文ｓ₁を文ｓ₂に修正するために必要な単語の置換における、置換される語の間の意味的距離、をそれぞれ表す、請求項５に記載のテキスト分割装置。
請求項１〜請求項６のいずれかに記載のテキスト分割装置と、
前記テキスト分割装置により得られた前記１又は複数の部分テキストの各々に対し、予め定める自然言語処理を行なうための自然言語処理手段を含む自然言語処理装置。
前記自然言語処理手段は、前記テキスト分割装置により得られた前記１又は複数の部分テキストの各々に対して機械翻訳を行なうための機械翻訳手段を含む、請求項７に記載の自然言語処理装置。
前記機械翻訳手段は、前記テキスト分割装置により得られた前記１又は複数の部分テキストの各々に対して、コーパスベースの機械翻訳を行なうための手段を含む、請求項８に記載の自然言語処理装置。
前記自然言語処理手段は、前記テキスト分割装置により得られた前記１又は複数の部分テキストの境界に予め定められた符号を挿入するための符号挿入手段を含む、請求項７に記載の自然言語処理装置。