JP2006018354A - テキスト分割装置及び自然言語処理装置 - Google Patents

テキスト分割装置及び自然言語処理装置 Download PDF

Info

Publication number
JP2006018354A
JP2006018354A JP2004192575A JP2004192575A JP2006018354A JP 2006018354 A JP2006018354 A JP 2006018354A JP 2004192575 A JP2004192575 A JP 2004192575A JP 2004192575 A JP2004192575 A JP 2004192575A JP 2006018354 A JP2006018354 A JP 2006018354A
Authority
JP
Japan
Prior art keywords
sentence
text
divided
likelihood
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004192575A
Other languages
English (en)
Other versions
JP2006018354A5 (ja
Inventor
Yoshio Doi
誉生 土居
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004192575A priority Critical patent/JP2006018354A/ja
Publication of JP2006018354A publication Critical patent/JP2006018354A/ja
Publication of JP2006018354A5 publication Critical patent/JP2006018354A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】高い信頼性で長い文の分割位置を定めることを可能にする。
【解決手段】文分割処理装置40は、入力文38を分割可能個所で分割して得られる分割文のうち、言語モデル34に基づいて算出される尤度Probが所定の条件を充足する複数個の分割文候補を生成する分割文候補生成部60と、分割文候補生成部60より生成された分割文候補の各々に対し、コーパス30との間で算出される類似度Simと、分割文候補生成部60により算出された尤度Probとにより定義されるスコアが最も高い分割文候補を選択して入力文38を分割するための分割文候補選択部64とを含む。
【選択図】 図1

Description

この発明は自然言語処理装置に関し、特に、音声会話文の翻訳等の自然言語処理をより正確に行なうための前処理等に適用可能な、長い文の分割処理技術に関する。
機械翻訳システムによる翻訳では、入力に対する正確な結果が得られない場合がある。特に入力文が長い場合に翻訳誤りが生じやすい。そうした場合には、入力文を短く分割し、分割後の各部に対して翻訳を行なうとよりよい結果が得られる。したがって、音声翻訳のためのコーパスベースの機械翻訳の訳質を高めるために、前もって入力文をより短い文に分割した後、それら分割後の文を翻訳する技術が有望である。
ところで、音声翻訳の対象となる会話文では、文中に文が入れ子で入っていたりするような複雑な構造をもつことは少なく、長文を分割して互いに独立な複数の文に分割することができることが多い。したがって、もしも分割が正しく行なわれ、分割後の文に対する翻訳がある程度正しく行なわれれば、結果として翻訳文によって入力文の意味が正確に表される可能性が高くなる。
例えば入力文として「This is a medium size jacket I think it's a good size for you try it on please」という文が与えられた場合を考える。この文は、「This is a medium size jacket」、「I think it's a good size for you」及び「try it on please」という3つの部分に分割できる。これら3つの文を個別に翻訳し、翻訳結果をそのまま順番に並べれば、入力文の正確な翻訳文を得ることができる。
従来、このような文の分割については、Nグラムのような局所的な単語順序に関する特徴に基づいて行なうことが一般的であった。例えば非特許文献1を参照されたい。こうした研究の中には、正確な分割位置に対して再現率及び適合率に関し高い性能を示すものがあった。しかし、そうした高い性能を示すものであっても、翻訳のための文分割処理という点では常に好ましい結果が得られるとは限らない。
同様の文分割処理が適用可能な分野として、「スラッシュリーディング」のための文分割処理がある。スラッシュリーディングとは、母国語と言語構造の異なる外国語を習得するために有効とされている言語学習法である。例えば英語は日本語と構造が大きく異なっている。日本人は英文を理解する際、英語の構文構造から日本語の構造を頭の中で再構築しがちである。この構造変換は英文理解過程の遅延を引起し、リーディングやリスニングに支障をきたす場合がある。
この問題は、英文を元の語順のまま理解する能力を身に付けることができれば解決される。スラッシュリーディングはこの能力を獲得するための訓練法である。スラッシュリーディングでは、学習者は「/」(スラッシュ)によってチャンク(句や節等の意味的なかたまり)に区切られた英文を滞りなく読み進むように努める。その際、チャンクの順序を入れ替えて理解しようとしてはいけない。
この学習法は、スラッシュの入った特殊なリーディング教材を必要とする。しかし予めスラッシュの入った教材は少ない。そのため、こうした学習法が広く利用されるにはいたっていない。
スラッシュリーディング用の教材を作成する手法の一つとして、非特許文献2に記載されたスラッシュリーディングのためのスラッシュの自動挿入法に関するものがある。この手法は英文の依存構造に基づいたものであって、文読解プロセスに関する心理学的モデルに基づいている。
このプロセスでは、文を構成する表現のチャンクが短期メモリ内に記憶される。文頭から1語ずつ読解処理を進めて行くにつれて、メモリ内のチャンクの個数は増減する。チャンクの個数が減るのは複数のチャンクが一つにまとめられる場合である。この手法では、依存構造解析にしたがってチャンクをまとめていく。ある単語まで処理を進めたとき、チャンクの個数が増えなければその単語の直後をスラッシュ挿入個所の候補とする。得られた候補の中から、チャンク長の制約、依存関係によるまとめやすさ、記憶の負荷を考慮してスラッシュ挿入個所を決定する。
中島秀治他1名、「音声認識過程での発話分割のための統計的言語モデル」、情報処理学会トランザクション42(11):2681−2688、2001 田中省作他一名、「スラッシュ・リーディング支援システムの構築」、言語処理学会第10回年次大会ワークショップ、「e−ラーニングにおける自然言語処理」、pp.37−40、2004 L.クラニアス他2名、「翻訳メモリからの用例検索」、自然言語エンジニアリング、3(4):pp.255−277、1997(L. Cranias et al.,"Example retrieval from a translation memory",Natural Language Engineering,3(4):255-277,1997) 土居誉生他2名、「編集距離を使った用例翻訳の高速検索方式と翻訳性能評価」、情報処理学会論文誌、45(6)、2004 K.イマムラ、「パターンベースMTのための階層的句アライメントにより獲得された翻訳知識の応用」、TMI−2002予稿集、pp.74−84、2002(K. Imamura,"Application of translation knowledge acquired by hierarchical phrase alignment for pattern-based mt.",Proc. of TMI-2002,pp. 74-84,2002) E.スミタ、「単語シーケンス間のdpマッチングを用いた用例ベースの機械翻訳」、第39回DDMTに関するACLワークショップ予稿集、pp.1−8、2001(E. Sumita,"Example-based machine translation using dp-matching between word sequences",Proc. of 39th ACT Workshop on DDMT,pp. 1-8,2001) T.タケザワ他1名、「コーパスベース翻訳のための機械翻訳により補助されたバイリンガル会話の収集」、EUROSPEECH予稿集、pp.2757−2760、2003(T. Takezawa et al,"Collecting machine-translation-aided bilingual dialogues for corpus-based speech translation",Proc. of EUROSPEECH,pp. 2757-2760,2003)
上記したように、予め長い入力文を短く分割することができれば、既存の機械翻訳装置等の自然言語処理装置を用いた処理の品質を高めることができる可能性がある。また、スラッシュリーディングのための教材を少ない労力で作成するために、そのような自動的なテキスト分割処理を信頼性高く行なう必要がある。しかし、そのように高い信頼性で文を分割することが可能なテキスト分割装置はこれまでのところ見出されていない。
非特許文献1に記載の手法では、翻訳の前処理として文分割を行なった場合に常に高い性能が得られるとは限らない。また、非特許文献2に記載の手法では依存構造解析及び構文解析を用いている。このように文の構造を解析するアプローチでは、文が長くなるにしたがって加速度的に処理が困難になり、信頼性も下がるという問題がある。
したがって本発明の目的は、高い信頼性で長い文の分割位置を定めることが可能なテキスト分割装置及び自然言語処理装置を提供することである。
本発明の他の目的は、高い信頼性で、長い文を妥当な分割位置で分割できるテキスト分割装置及び自然言語処理装置を提供することである。
本発明のさらに他の目的は、高い信頼性で、長い文を高い信頼性をもって妥当な分割位置で分割できるテキスト分割装置及び自然言語処理装置を提供することである。
本発明の第1の局面に係るテキスト分割装置は、所定言語の入力テキストを複数個の部分テキストに分割するためのテキスト分割装置であって、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が所定の条件を充足する複数個の分割文候補を生成するための分割文候補生成手段と、分割文候補生成手段により生成された複数個の分割文候補の各々に対し、所定言語のコーパスとの間で所定の類似度算出式に従い算出される類似度と、分割文候補生成手段により算出された尤度とにより定義されるスコアが所定の条件を充足する分割文候補を選択し、当該選択された分割文候補にしたがって入力テキストを1又は複数の部分テキストに分割するための分割文候補選択手段とを含む。
分割文候補生成手段が入力テキストを分割して得られる分割文のうち、尤度が所定の条件を充足するものを分割文候補として生成する。これらに対し、分割文候補選択手段がコーパスとの間でさらに類似度を算出する。そして、尤度と類似度とにより定義されるスコアが所定の条件を充足する分割文候補にしたがって、入力テキストを1又は複数の部分テキストに分割する。テキストの分割にあたって、分割テキストの尤度だけでなく、コーパスとの間で定義される類似度をも加味して文の分割を行なうので、文の局部的な情報だけでなく、全体として文としての妥当性をも考慮した形で文の分割を行なうことが可能になる。
好ましくは、分割文候補生成手段は、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が入力テキストの尤度以上である複数個の分割文候補を生成するための手段を含む。
尤度が入力テキストの尤度以上である分割文候補を生成することにより、入力テキストと少なくとも同じ程度の「正しさ」を持つと考えられる分割文を生成できる。文分割により正しい分割を行なうことができる可能性が高くなる。
さらに好ましくは、生成するための手段は、入力テキストを分割可能個所で分割して得られる分割文のうち、所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が入力テキストの尤度以上であって、かつ尤度が上位の予め定められた複数個の分割文候補を生成するための手段を含む。
尤度が上位の予め定められた複数個の分割文候補を生成し、これらの中から分割文を選択することにより、処理量を削減でき、入力テキストの分割を高速で行なえる。
より好ましくは、所定の尤度算出式は、
Figure 2006018354
ただしProb(S)は分割文候補Sの尤度、sは分割文Sを構成する部分テキスト、NはNグラム言語モデルのN、Lは部分テキストに含まれる単語数(文長)、p(s)はNグラム言語モデルにしたがって算出される部分テキストsの尤度、である。
部分テキストの尤度の積を、各部分テキストに含まれるNグラムの個数で正規化した値で分割文Sの尤度を算出する。部分テキストの長さの変動に対しても分割文Sの尤度を正確に求めることができる。
分割文候補選択手段は、分割文候補Sの各々に対し、コーパスとの間の類似度Simを所定の類似度算出式に従い算出するための手段と、類似度Simと尤度Probとを用い、以下の式
Figure 2006018354
により算出されるスコアScoreを算出するための手段と、スコアScoreが最も大きな分割文候補を選択するための手段とを含んでもよい。
尤度に対する類似度の重みλの値を調整することにより、文分割の際の尤度と類似度との影響を調整できる。特にλの値が大きくなると、分割後の文を特定の機械翻訳装置に与えた場合に主観的評価が改善することが分かった。
分割文候補Sの類似度Simは、以下の式により定義され、
Figure 2006018354
で定義される文s1と文s2との間の正規化された類似度、I及びDは文s1を文s2に修正するために必要な単語の挿入数及び削除数、Semは文s1を文s2に修正するために必要な単語の置換における、置換される語の間の意味的距離、をそれぞれ表す。
本発明の第2の局面に係る自然言語処理装置は、上記したいずれかのテキスト分割装置と、テキスト分割装置により得られた1又は複数の部分テキストの各々に対し、予め定める自然言語処理を行なうための自然言語処理手段とを含む。
自然言語処理に先立って上記したテキスト分割装置によって入力テキストを分割することにより、自然言語処理への入力テキストは短くなる。一般的に自然言語処理では入力文の長さが短いほうが性能は高くなる。テキスト分割装置による分割精度が高くなることが期待できるので、この自然言語処理装置によれば好ましい自然言語処理を実現できる可能性が高い。
好ましくは、自然言語処理手段は、テキスト分割装置により得られた1又は複数の部分テキストの各々に対して機械翻訳を行なうための機械翻訳手段を含む。
機械翻訳においては、一般的に入力テキストが短いと訳質が向上する。特に音声認識と結合した会話文の機械翻訳装置等における性能の向上が期待できる。
より好ましくは、機械翻訳手段は、テキスト分割装置により得られた1又は複数の部分テキストの各々に対して、コーパスベースの機械翻訳を行なうための手段を含む。
自然言語処理手段は、テキスト分割装置により得られた1又は複数の部分テキストの境界に予め定められた符号を挿入するための符号挿入手段を含んでもよい。
この自然言語処理装置によれば、例えばスラッシュリーディング用のテキストを、人手を介さずに高い精度でかつ自動的に生成することが可能になる。
−第1の実施の形態−
以下に述べる実施の形態では、依存構造解析、構文解析等を用いずに、統計的な観点から文の分割位置を定める。そのために本実施の形態では、所定のコーパスから作成された統計的言語モデルにより算出された文の尤度と、コーパスを基準としたテキスト類似度と呼ぶ尺度とを用いて、所定の目標関数を最適化するような分割位置を決定する。分割のための知識はコーパスから自動的に獲得することが可能であり、人手によって文分割位置決定のためのルールを作成する必要はない。
図1は、本実施の形態に係る文分割処理装置を採用した機械翻訳システム20のブロック図である。図1を参照して、機械翻訳システム20は、予め準備された、機械翻訳の原言語と目的言語、例えば英語と日本語との対訳を多数含むパラレルコーパス30と、パラレルコーパス30の原言語文に基づいて、Nグラム言語モデルを作成するための言語モデル作成部32と、言語モデル作成部32により作成されたNグラム言語モデルを格納するための言語モデル記憶装置34とを含む。
機械翻訳システム20はさらに、文分割の際に分割後の文に対してパラレルコーパス30に記憶された文との類似度を算出する際に使用されるシソーラス36と、パラレルコーパス30に基づいて翻訳モデル等の翻訳知識を作成するための翻訳知識作成部42と、翻訳知識作成部42により作成された翻訳知識を格納するための翻訳知識記憶装置44とを含む。
機械翻訳システム20はさらに、入力文38を分割可能個所で分割して得られる部分文のうち、言語モデル記憶装置34に記憶されたNグラム言語モデル、シソーラス36、及びパラレルコーパス30を参照して、文分割の可能性を示す所定のスコア算出方法にしたがって算出されるスコアが最も高くなるものを生成するための文分割処理装置40と、文分割処理装置40の出力する分割後の文を、翻訳知識記憶装置44に格納された翻訳知識を用いて翻訳文48に翻訳するためのコーパスベースの機械翻訳装置46とを含む。
文分割処理装置40は、言語モデル記憶装置34に記憶されたNグラム言語モデルに基づいて、入力文38に対して想定される分割方法のうちで、文分割後の尤度が所定の条件を充足するもののみを分割文候補として出力するため分割文候補生成部60と、分割文候補生成部60により出力される分割文候補を記憶するための分割文候補記憶装置62と、分割文候補記憶装置62に記憶された分割文候補の中で、分割文の尤度と、パラレルコーパス30に含まれる文及び分割後の文の間の類似度とによって定義されるスコアが最も高いものを選択し、選択された分割文候補にしたがって入力文38を分割し機械翻訳装置46に対して与えるための分割文候補選択部64とを含む。
分割文候補生成部60は、言語モデル記憶装置34に記憶されたNグラム言語モデルを用いて、入力文38に対する分割文候補を生成し分割文候補記憶装置62に書込む機能を持つ。なお本明細書では「文分割」とは、入力文を分割することによって順序付の文の集合(もとの文そのものも含む。)を生成することをいう。文分割によって得られる順序付の文の集合のことを「分割文」と呼ぶ。ここでは分割によって得られる文が実際に文法的な文を構成しているか否かは問わない。文分割によって得られる順序付の文の集合の各文に対して言語モデルに基づいて尤度を計算することができる。分割文に含まれる文の尤度を互いに乗算したものを「分割文の尤度」と呼ぶ。
文の尤度は、図1に示すパラレルコーパス30から言語モデル作成部32により得られるNグラム言語モデル(言語モデル記憶装置34に記憶される。)により算出できる。文Sの分割文の尤度をProb(S)とすると、Prob(S)は文Sを分割して得られる部分文sの尤度の積として、以下の尤度算出式により算出される。
Figure 2006018354
ただしP(s)は部分文sに対しNグラム言語モデルによって算出される尤度、NはNグラムのN、Lは文sの単語数(文長)を表す。すなわちProb(S)は、分割文Sの要素である文sの尤度P(s)の積をNグラムの個数で正規化した値である。なお、本実施の形態で用いるNグラムは、文頭及び文末にそれぞれ擬似的な語を付加して算出したものである。
例えば、文「This is a medium size jacket」に対するトライグラム言語モデルに基づく尤度は次のように算出される。p(z|xy)により語x、yというシーケンスの後に語zが生起する確率を表すものとし、SOS(Start-Of-Sentence)及びEOS(End-Of-Sentence)によって文頭及び文末に付加される擬似語をそれぞれ表すものとすると、この文の尤度P(this is a medium size jacket)は次のようにして算出される。
Figure 2006018354
このようにして尤度を算出するため、一般的に文分割後の尤度は、分割前の尤度より小さくなる。そうした分割文を「分割文候補」と呼ぶ。
図2に、入力文80を例として、分割文候補生成部60が行なう文分割の方法を説明する。基本的に、分割文候補生成部60は文を2文に分割する処理を繰返すことにより、文分割を行なう。図2において、入力文80を構成する各語を長方形で示してある。図2に示す入力文80は、9個の語を含む。したがって、入力文80を2文に分割可能な位置は8個である。図2においては、分割可能な位置を三角形で示し、文先頭からの位置を数字で示してある。
図2に示すように、1番目の分割位置で入力文80を分割すると文100及び文102が得られる。同様に2番目の分割位置で分割すると文110及び文112が、3番目の分割位置で分割すると文120及び文122が、4番目の分割位置で分割すると文130及び文132が、5番目の分割位置で分割すると文140及び文142が、6番目の分割位置で分割すると文150及び文152が、7番目の分割位置で分割すると文160及び文162が、8番目の分割位置で分割すると文170及び文172が、それぞれ得られる。
これら分割文の各々に対して分割文の尤度を算出できる。尤度が分割前の文の尤度以上である分割文が分割文候補となる。
分割文候補生成部60は、このようにして得られた分割文候補に対してさらに文分割を繰返す。例えば図2において、第5番目の分割文に対し算出された尤度が、元の入力文80の尤度以上であれば、分割により得られた文140及び文142の各々に対し、再び文分割を行なう。すなわち文140の持つ第1〜第4の分割位置で文140を分割することにより、文190及び192、文194及び196、文198及び200、並びに文202及び204という分割文を得る。同様に、文142を分割することにより、文210及び212、文214及び216、並びに文218及び220という分割文を得る。これらに対しても尤度が算出できる。ある分割文の尤度が元の文140又は142の尤度以上であれば、さらに当該分割文の第1文及び第2文の各々を分割する。
このようにして、分割文候補生成部60は、分割が不可能になるまで、又は分割によって尤度が必ず低下するようになるまで入力文38に対する文分割を繰返す。本実施の形態では、そのようにして得られる分割文を後の選択の対象とする。したがって、得られる分割文に含まれる文の個数は、1から入力文38に含まれる単語数までのどの値もとり得る。分割文候補記憶装置62は、分割文候補生成部60がこのようにして生成した分割文を格納する機能を有する。
分割文候補選択部64は、分割文候補記憶装置62に格納された分割文候補のうち、所定の条件を充足する分割文を選択し、その分割文に含まれる部分文をそれぞれ機械翻訳装置46に与える機能を持つ。分割文候補選択部64は、分割文候補の選択には、シソーラス36及びパラレルコーパス30中の文との類似度を用いる。
Nグラム言語モデルは、分割位置近傍のいくつかの語からなる局所的な手がかりに基づいて、文の分割位置を示唆する。より広い観点から分割位置の妥当性を検討するために、文の類似度という尺度を用いる。二つの文の類似度は、本実施の形態では二つの文の語シーケンスの間の編集距離を用いて定義される。また、本実施の形態では、編集距離を0と1との間で正規化し、1から編集距離を引いたものを類似度とする。類似度の定義を式(2)に示す。
Figure 2006018354
式(2)においてLは各文の単語数を表す。I及びDはそれぞれ一方の文を他方の文に変換するために必要な挿入及び削除の数を表す。置換は同じ品詞の内容語の間でのみ認めることにする。置換については、置換された単語の意味的な距離2Semを編集距離とする。距離Semは置換された2単語がシソーラス36上で共有する最も下の抽象レベルを表す値Kを、シソーラスの階層の高さNで除した値であり、上の式(3)で定義される。この距離Semもまた0と1との間で正規化された値である。
本実施の形態では、Sim0を用いて、パラレルコーパス30に対するある分割文の類似度を、式(4)により表される値Simにより定義する。
Figure 2006018354
式(4)において、Sは分割文、Cは用いられるコーパス(パラレルコーパス30)を、それぞれ表す。Simは各部分文のコーパスに対する類似度を各部分文の長さで重み付けして計算した平均類似度である。式(4)から分かるように、コーパスに対するある部分文の類似度は、その文とコーパス内の各文との類似度の内の最大値である。
上記したように分割文候補選択部64が行なう分割文選択処理は、パラレルコーパス30から部分文に最も類似した文を探し出す作業に良く似ている。この処理は、クラスタリング(非特許文献3)または単語グラフに対するA*サーチアルゴリズム(非特許文献4)を用いて実現できる。しかし、コーパス30が大きい場合、Simの算出はProbの算出と比較すると計算コストが大きい。そこで、分割文候補生成部60によりProbのみを用いて、元の文以上の尤度を持つもののみ限定して分割文候補を生成し、分割文候補選択部64によりそれら分割文に対しProbとSimとの双方を用いて分割文の選択を行なう。
具体的には、分割文候補選択部64は、式(5)により示されるスコアScoreが最も大きな値となる分割文候補を採用する。
Figure 2006018354
式(5)においてλはSimの重みを表す。λが0に近くなれば選択においてはProbの値が主に使用され、λ=1であればSimのみが使用される。
図3は、分割文候補生成部60による分割文候補生成処理をコンピュータプログラムで実現する際の関数Fの概略フローチャートである。この関数Fは分割の対象となる文を引数として再帰的に呼び出され、与えられた文の分割文の集合を戻り値とする。
図3を参照して、まずステップ250において、分割文の集合Tに、引数として与えられた文s0からなる集合を設定する。続いてステップ252で分割位置を定める変数iに0を代入する。ステップ254で変数iを1インクリメントする。ステップ256で変数iが引数として与えられた文s0に含まれる単語の数Ns0以上か否かを判定する。判定結果がYESであれば集合Tを戻り値としてリターンする。判定結果がNOであればステップ258に進む。
ステップ258では、文s0に対してi番目の分割位置で文s0を分割することにより得られる分割文siの二つの部分文のうち、1番目の文si,1及び2番目の文si,2の双方に対して尤度Prob(si,1)及びProb(si,2)をそれぞれ算出し、互いに乗算することにより、i番目の分割位置で文s0を分割して得られる分割文の尤度Prob(si)を算出する。
ステップ260で、上のようにして得られた尤度Prob(si)が、文S0に対して得られた尤度Prob(s0)以上か否かを判定する。判定結果がNOであればステップ254に戻る。判定結果がYESであればステップ262に進む。
ステップ262では、分割文の集合Tの要素に、分割文siの1番目の文si,1を引数として自分自身(関数F)を再帰的に呼出し、戻り値である分割文の集合の要素の各々と分割文siの2番目の文si,2とを組にして得られる分割文、及び2番目の文si,2を引数として関数Fを呼出し、戻り値である分割文の集合の要素の各々と、分割文siの1番目の文とを組にして得られる分割文とを全て分割文の集合Tに追加する。
最初に文分割の対象となる文を引数としてこの関数Fを呼ぶことにより、再帰的な処理によって分割文の集合が得られる。
−動作−
上に述べた第1の実施の形態に係る機械翻訳システム20は以下のように動作する。まず、翻訳に先立って準備が必要である。図1を参照して、予めパラレルコーパス30を用意する。さらに言語モデル作成部32を用いてパラレルコーパス30に対するNグラム(例えば3−グラム)言語モデルを作成し、言語モデル記憶装置34に格納する。また、翻訳知識作成部42によって機械翻訳装置46で必要とされる翻訳知識をパラレルコーパス30から作成し、翻訳知識記憶装置44に格納する。
翻訳フェーズでは、機械翻訳システム20は以下のように動作する。入力文38が与えられると、分割文候補生成部60は入力文38を分割し、分割文候補を生成する。生成された分割文候補は分割文候補記憶装置62に格納される。より具体的には、分割文候補生成部60は、前述したように、言語モデル記憶装置34に記憶されたNグラム言語モデルを使用し、分割した結果、分割文の尤度(分割後の部分文の尤度の積)が入力文38の尤度以上となるような分割文候補を生成し、その分割文の尤度と共に分割文候補記憶装置62に格納させる。
分割文候補選択部64は、分割文候補記憶装置62に記憶された分割文候補の各々に対し、シソーラス36を用い、パラレルコーパス30に含まれる同じ言語の各文との類似度を式(2)(3)を用いて算出する。さらに分割文候補選択部64は、分割文候補の各々に対し、パラレルコーパス30に対する類似度を式(4)にしたがって算出した後、その類似度と分割文候補生成部60により算出された分割文候補の尤度Probとを用い、式(5)に従って分割文候補のスコアを算出する。最後に、分割文候補選択部64は、このようにして算出されたスコアが最も大きな分割文候補を選択し、分割文に含まれる各部分文を機械翻訳装置46に与える。
機械翻訳装置46は、与えられた部分文ごとに翻訳知識記憶装置44を用いて翻訳し、翻訳文48として出力する。
<例>
上述の実施の形態の機械翻訳システム20の文分割処理装置40による文分割についてシミュレーションした結果を以下に示す。入力文38として「This is a medium size jacket I think it's a good size for you try it on please」が与えられたものとする。この入力文に対する分割方法は多数存在する。図4に、それらのうちで入力文38の尤度以上の尤度を持つ分割文候補として、図4に示す5つが分割文候補生成部60により生成される。
図4において、「|」は分割位置を示す。各分割文候補の左に記載した番号は、Probに基づく順位である。第5位の分割文候補は入力文38それ自身である。
各分割文候補に対しさらに分割文候補選択部64によりSimを算出した後、式(5)にしたがってスコアを算出する。その結果、5つの候補のうちで最もスコアの高い2番目の候補が入力文38に対する分割文として選択される。
<実験>
[機械翻訳装置]
上記した文分割処理装置40を採用した機械翻訳システム20の性能を評価するために、以下のような実験を行なった。機械翻訳装置46として英日翻訳装置を用いた。実験には、二つの用例ベースの機械翻訳装置を用いた。一方は、句単位で翻訳を行なう階層的句アライメントベースの翻訳機(HPAT)(非特許文献5)である。HPATは句を組合わせることにより入力文を翻訳する。他方は文単位で翻訳を行なうDPマッチ型トランスデューサ(D3)(非特許文献6)である。いずれの機械翻訳装置に対しても、翻訳知識は予めパラレルコーパスから自動的に獲得したものを用いた。
[言語資源]
実験では、日本語−英語パラレルコーパスを用いた。すなわち、トレーニング用にはBTEC(Basic Travel Expression Corpus)と、SLDB(Spoken Language Data Base)とを用い、テスト用としてMAD(Machine-Translation-Aided bilingual Dialogues)を用いた(非特許文献7参照)。BTECは外国旅行者のための会話集に記載された日本語文とその英語訳とを集めたものである。SLDBの内容は、日本人と英語話者との間で通訳を介して行なわれた会話を書き起こしたものである。これらコーパスの日本語部分と英語部分とは、互いに文対文の関係で対応付けされている。一方、MADに含まれる会話は、日本人と英語話者との間で、人間のタイピストと試作MTシステムとを介して行なわれたものである。
MADタイプのタスクを処理するためには、BTECとSLDBとの双方が必要であることが知られている。そこで、以下の実験では、MADに含まれる文を翻訳するため、前もってBTECの文(152、170文)とSLDBの文(72、365文)とをマージしてHPAT及びD3のためのトレーニング用コーパスを作成した。また、トレーニング用コーパスの英語部分は、Nグラム言語モデルを作成する際に使用され、さらに分割文との類似度を算出するためのコーパスとしても使用された。トレーニング用コーパスの統計的情報については表1に示す。表1中のパープレキシティは単語トライグラムパープレキシティである。
Figure 2006018354
本実験でのテストセットは、人間が発声したMAD中の505の英語文であり、MTシステムにより生成された文は含まない。平均文長は9.52語である。トレーニングコーパスに対するテストセットの単語トライグラムパープレキシティは63.66である。
[実施条件]
本例での文分割に使用するNグラム言語モデルはトライグラムモデルである。分割文の数(一つの入力文を分割する際の最大分割数)は4に限定した。Simの重みλには、0、1/2、2/3、3/4、及び1のうちのいずれか一つを割当てて実験した。
[評価]
文分割を行なった場合の翻訳結果と、行なわなかった場合の翻訳結果との間で、訳質を比較した。訳質の評価には、客観的な尺度と主観的な尺度とを用いた。それらについて以下説明する。
客観的な尺度として用いたものは、BLEUスコア、NISTスコア、及び複数参照単語誤り率(mWER)とである。これらはテストセットを用いて算出した。BLEU及びNISTでは、システムの出力する翻訳結果と、同じソース文に対する複数の参照訳とを比較し、参照訳にシステムの翻訳結果と一致する単語シーケンスがあるか否かを基にして算出する。したがってこれら尺度で高いスコアが得られれば、システムの翻訳結果としてより好ましいと考える。一方、mWERの場合には、システム出力と参照訳との間の編集距離に基づいて誤り率を算出する。したがってmWERの場合には、低いスコアの方がより好ましい翻訳ということになる。参照訳の数はこれら3つの尺度のいずれにおいても15個とした。
主観的評価においては、互いに異なる二つの条件下で翻訳されたテストセットの翻訳結果を互いに比較した。一文ごとに、日本語のネイティブスピーカでかつ英語についても十分な能力を備えた評価者が、翻訳結果または訳質の評価を行なった。主観的尺度は、ベースラインとの比較で算出した。この尺度は文ごとの利得を表す。ただしここでいう「利得」とは、式(6)により示されるように、評価者によって勝ちと判断された翻訳結果の数から負けと判断された翻訳結果の数を減じ、テストセットの文数で正規化した値である。
Figure 2006018354
[効果]
表2に、この実験により二つのMT(HPAT及びD3)を用いて、6種類の条件下で得られた翻訳結果の評価を示す。
Figure 2006018354
表2において「分割なし」は入力文そのものが分割文となっている場合(すなわち、分割なしの場合)である。他の条件では、Probを用いて文分割を行なうことにより、テストセットの文から分割文を生成し、入力文ごとに上記したスコアを用いて一つの分割文を選択した。式(5)に示すスコアの定義中のProbとSimの重みは、Probのみを用いるものからSimのみを用いるものまで変化させた。主観的評価のベースラインは分割なしに対する評価である。
入力文の数は237であり、それに対しProbを用いて分割文候補が複数個生成される。分割文数の平均と最大はそれぞれ5.07及び64である。237文の平均文長は12.79語である。237文の、トレーニングコーパスに対する単語トライグラムパープレキシティは78.37である。
表2により、ある種の傾向を読み取ることができる。分割なしに対する評価と分割ありに対する評価との間の相違は、いずれの機械翻訳システムにおいてもかなりのものであったが、特にD3において著しい。分割ありの場合、条件による評価の相違はそれほど大きくないが、主観的評価はProbのみを用いる場合と比較して、Simに対しより大きな重みを与えるようになるにつれ上昇する。この上昇値は、HPATでは3.2%、D3では2.4%であった。客観的尺度の中では、NISTが主観的評価とよく合致した。
[類似度を用いる選択の効果]
表3に、類似度を用いた場合の選択の効果を、そうした選択を行なわなかった場合と比較して示す。表3において、変化の数はProbのみを用いて得られた分割文候補とは別の候補が選択された文の数を表す。表3にはさらに、Probのみを用いた場合にはベストではなかったが、Simと併せたスコアによりベストとなった分割文候補の、Probのみによる評価の平均順位及び最大順位を示す。
Figure 2006018354
「理想」と記載した列は、全ての候補の中でmWERをベストな値とする候補を選択する条件を表す。理想条件では、選択される候補は機械翻訳システムによって異なる。変化の数として示した二つの値は、それぞれHPAT及びD3に対するものである。主観的評価のベースラインはProbのみを用いた条件での評価値である。
表3からもある種の傾向を読み取ることができる。すなわち、ProbとSimとの双方を用いた場合、得られる分割文の数の変動は少ない。このような場合、上記した文分割方法によれば、Probで判定した場合に第1位又は第2位となる分割文候補を結果として選択している。ProbとSimとの重みを等しく(λ=1/2)した場合の評価の変動は分割なしの場合と比較して少ないが、主観的評価に関してはいずれの場合にも評価は改善しており、最悪でも分割なしの場合と同等である。Simの重みλを大きくすると、主観的評価は向上する。NISTに関しても、特にD3について、Simの重みλが大きくなると同様に改善している。予測されたとおり、理想条件はほとんどの条件よりよい結果を出すが、例外的にD3の主観的評価及びNISTスコアについてはSimのみを使用する場合より悪い。D3については、Simを用いた分割文選択は理想的な選択とほぼ同等である。
以上の結果からは、主観的評価とNISTスコアとは互いによく合致しているが、主観的評価とBLEU、又は主観的評価とmWERとの間ではあまり合致しないことが分かった。NISTスコアの算出では、MTシステムの翻訳結果を参照訳と比較するときに、情報の重みを使用している。人間の評価者により他より優れていると判定された分割文の翻訳は、他の翻訳よりもより多くの情報を含んでいるものと考えられる。
[シソーラスの効果]
さらに、Sim算出においてシソーラスを用いない実験を行なって、シソーラスを用いることの効果について検討した。この実験では、シソーラスを用いてSimの定義におけるSemを算定する変わりに、全てのSemの意味的距離の大きさが0.5に等しいと仮定した。表4に237文に対するこの実験により得られた翻訳結果の評価を示す。
Figure 2006018354
表4を参照して、表3と比較してSimの重みλの値が小さいと主観的評価の値が悪化していること、及びSimの重みを大きくすると主観的評価の値が改善していることが分かる。しかし、シソーラスを使用した場合と使用しなかった場合とで特に顕著な相違は見られない。したがって、意味的距離Semが何らかの定数(例えば0.5)であってもよい。
以上のとおり、本実施の形態にかかる機械翻訳システム20によれば、コーパスベースの機械翻訳システムにおいて、機械翻訳処理に先立って文分割処理を行なうことにより翻訳結果の改善が得られる可能性が高い。本実施の形態では、従来技術で使用されていたNグラムによる手がかりだけでなく、編集距離に基づくコーパスとの類似度も用いて入力文の分割文を選択する。これにより、局所的な手がかりだけでなく文全体の妥当性も考慮して入力文を翻訳に適した形に分割できる。そしてその結果、少なくとも二つの種類(句単位の翻訳を行なうものと文単位の翻訳を行なうもの)の用例ベースの機械翻訳システムにおいて翻訳結果の改善を得ることができた。
上記した実施の形態では、英日翻訳についてのみ説明した。しかし、上記説明から明らかなとおり、本実施の形態により説明した文分割処理は言語の組合せを問わず、適用することができる。また、分割文候補の生成においては、上記したように分割の結果尤度が分割前の尤度以上となるものがなくなるまで繰返す方法だけでなく、それに替えて、又はそれに加えて所定回数の分割を行なった時点でそれ以上の分割を中止する方法を採用してもよい。
−第2の実施の形態−
第1の実施の形態では、機械翻訳の前処理として、入力文を分割する。しかし本発明はそのような機械翻訳の前処理のみに適用可能なわけではない。例えば、従来技術の項で説明したスラッシュリーディングのためのテキスト分割にも応用できる。以下で説明する第2の実施の形態は、スラッシュリーディングのためにテキストを分割し、分割個所にスラッシュ等の記号を挿入するテキスト処理システムに関する。
図5を参照して、本実施の形態に係るテキスト処理システム350は、テキスト処理の対象となる言語(本実施の形態では英語)の文からなるコーパス360と、コーパス360から言語モデルを作成するための言語モデル作成部362と、言語モデル作成部362が作成した言語モデルを格納するための言語モデル記憶装置364と、コンピュータ読取可能な英語のシソーラス366と、入力文368に対し、第1の実施の形態における文分割処理装置40と同様の文分割処理を言語モデル記憶装置364に格納された言語モデル及びシソーラス366とを用いて行ない、各分割位置にスラッシュを挿入してスラッシュリーディング用の出力文372を出力するためのスラッシュリーディング用文分割処理装置370とを含む。
コーパス360は第1の実施の形態で用いられたパラレルコーパス30と異なり英語に関するものである。この点を除き、図5に示すコーパス360、言語モデル作成部362、言語モデル記憶装置364、及びシソーラス366はそれぞれ図1に示すパラレルコーパス30、言語モデル作成部32、言語モデル記憶装置34、及びシソーラス36と同様の機能を持つ。
スラッシュリーディング用文分割処理装置370は、言語モデル記憶装置364とシソーラス366とを用いて、入力文368に対する分割文候補を決定し出力するための文分割処理部380と、文分割処理部380から出力される分割文候補の文分割位置にスラッシュを挿入して出力文372を出力するためのスラッシュ挿入部382とを含む。
文分割処理部380は、言語モデル記憶装置364に記憶された言語モデルに基づいて入力文368の分割文候補を生成し出力するための分割文候補生成部390と、分割文候補生成部390が生成した分割文を記憶するための分割文候補記憶装置392と、分割文候補記憶装置392に記憶された分割文のうち、言語モデル記憶装置364に記憶された言語モデルを用いて式(1)に従って算出された分割文の尤度Probと、入力文368とコーパス360との間で、シソーラス366を用いて式(2)〜式(4)に従って算出された類似度Simとから式(5)に従ってスコアを計算し、最も高いスコアを持つ分割文候補を選択するための分割文候補選択部394とを含む。
図5に示す分割文候補生成部390、分割文候補記憶装置392、及び分割文候補選択部394はそれぞれ図1に示す分割文候補生成部60、分割文候補記憶装置62、及び分割文候補選択部64に相当する。したがってそれらについての詳細な説明は繰返さない。
また、このテキスト処理システム350の動作は自明と思われるのでここでは省略する。
なお、スラッシュリーディングにおける文分割は、機械翻訳における文分割と比較してより小さな単位であることが好ましい。文分割においてはコーパス360を用いるため、スラッシュリーディングにおける文分割の効果はコーパス360の性質に依存する。コーパス360が、完全な文ではなくチャンクから構成されていれば、文分割処理部380によるテキスト分割の結果、スラッシュリーディングに適した結果を得ることが期待できる。
しかし、そのようなコーパスを新たに用意するには、チャンクを大量に集める必要がある。そのためには人手コストをかけたり、テキスト及び文からチャンクを正しく抜き出す手法を準備したりすることが必要となる。そのようなコーパスを準備できない場合には、短い文を多く含み、その中に句又は従属節のみからなる文も含むようなコーパスを代替的に利用してもよい。
図6に、テキスト処理システム350によって作成されたスラッシュリーディング用テキストの例を示す。図6を参照して、入力テキスト400に対し5つの分割文候補402が生成されている。各分割文候補の左側の数字は尤度Probによる各分割文の順位を示す。この例ではProb基準で2位の分割文候補がスコア基準では1位となり、スラッシュリーディングのための解として選択される。
<実験>
本実施の形態に係るテキスト処理システム350の評価を行なうために、スラッシュ挿入個所の再現率、適合率、及びF値を計算した。比較のため、従来手法(非特許文献2)についても実験を行なった。
−テストセット及び評価尺度−
実験では、スラッシュリーディング用にあらかじめスラッシュ記号が入れられた教材をテストセットとして利用した。この教材は高校生向けの英文解釈の学習参考書である。内容は外国人によって書かれた日本文化についての15話のエッセイからなる。テストセットは485文からなり、その平均文長は14.54(語/文)である。スラッシュの総数は834である。
評価尺度としては、本実施の形態によるスラッシュ挿入箇所が参考書と一致する程度、つまり、再現率(recall)、適合率(precision)、及びF値(F-measure)を使った。ここで、F値は以下の式(7)で定義する。
Figure 2006018354
[従来手法の実装]
従来手法の実装がウェブサイト"http://lengua.cc.kyushu-u.ac.jp/english/sr/"で実行可能な形で公開されている。同ウェブサイトにおいては、「統語範疇の境界を考慮しない版」と「考慮する版」の2つが用意されている。それぞれの版について、2つのパラメータの値を決める必要がある。1つのパラメータは、スラッシュで区切られたチャンクの単語数の上限を示し、5から9までを値の範囲とする。もう1つのパラメータは語彙チャンクとして使う辞書セットを4種類の中から指定するものである。この手法中では語彙チャンクは1語として扱われている。実験では、2種類の版それぞれについて、2つのパラメータの全ての値の組合せでスラッシュ挿入処理を実行し結果を評価した。
[本実施の形態のテキスト処理システム350の実装]
学習コーパス実験では出願人において作成した旅行会話基本表現集とバイリンガル旅行対話データベースとを使った(非特許文献7)。どちらも話し言葉で表現された文からなる対訳コーパスである。両者の英語部分を合わせて学習コーパスとして使用した。この学習コーパスからNグラム言語モデルを作成するとともに、このコーパスに対する分割文の類似度を計算した。このコーパスの統計情報を表5に示す。
Figure 2006018354
ここでパープレキシティは単語トライグラム・パープレキシティである。コーパス中の文の長さは平均7(語/文)と短い。また、話し言葉コーパスであるため、句や従属節のみからなるような不完全な文も含まれている。したがって、このコーパスは、スラッシュリーディング用の分割処理のために適当な性質を備えた学習コーパスだと考えられる。
[その他の設定]
尤度Probの計算に用いたNグラム言語モデルは単語トライグラムモデルであり、スムージングにはグッド・チューリング推定法を使った。テストセットの1文に対し生成される分割文候補数は30以内とした。また分割文の要素数、つまりスラッシュによって区切られたチャンク数、にも上限を設けた。指定された整数で文長を割った値以上の最小整数値を、その文のチャンク数の上限とした。ここで指定する整数は4から8までとした。式(5)のλは0または2/3とした。以後、λが0の条件を「尤度Probのみを使った場合」、λが2/3の条件を「スコアを使った場合」と呼ぶ。
シソーラスは角川類語新辞典(大野・浜西、1984)のシソーラス構造に準拠したものを使った。その英語見出し語数は80,250である。
[結果]
表6は従来手法の「統語範疇の境界を考慮しない版」について、パラメータ値の全組合せのうちで、再現率、適合率、F値のいずれかが1番良かった結果を示している。表7は従来手法の「統語範疇の境界を考慮する版」についての同様の結果を示している。統語範疇の境界を考慮することで、より良い結果が得られている。
Figure 2006018354
Figure 2006018354
表8にこの第2の実施の形態に係る装置において尤度Probのみを使った場合の結果を、表9にスコアを使った場合の結果を示す。これらの表でxはチャンク数の制約を示す。チャンク数の上限は、文長をxで割った値以上でかつ最小の整数となる。スコアを使った場合は尤度Probのみを使った場合よりも良い結果が得られている。いずれの場合も本実施の形態で採用した手法の結果は従来手法を上回っている。
Figure 2006018354
Figure 2006018354
[類似度利用の効果]
458のテスト文中442文で複数の分割文候補が生成された。候補数を30に制限した実験条件下で、485のテスト文について、分割文候補の平均個数は23.7であった。F値の最良となる条件(表9でx=6の場合)では、179文において、スコアによる入れ替えが発生した。すなわち、尤度Probによる順位では2位以下であった候補が、スコアによる選択で選ばれるという状況が発生した。この場合スコア基準で1位の候補の最も悪いProb順位は28である。つまり、Prob基準の順位で28位だったにもかかわらず、スコアの値としては最も高い値を示した候補もあるということである。
表10には、尤度ProbによるNベストのN、つまり候補数上限を変更したときの、スコアによる入れ替えが起る場合の数と評価指標の値を示している。この表から、入れ替えが起るとしてもProb基準の順位が上位の候補が選ばれる場合が多いことが分かる。Nが小さくてもスコア利用による効果が評価値に現れ、N=10で最大値に達している。候補数が小さくても効果があり、効果を得るための処理コストを抑えることが可能である。
Figure 2006018354
以上のように本実施の形態に係るテキスト処理システム350は、学習参考書をテストデータとした実験で、再現率、適合率、F値に関して、従来手法である依存構造解析に基づく手法を上回ることが示された。この評価指標は絶対的なものではないが、スラッシュ挿入箇所についての模範解答例との一致の度合いを示し、結果の良否を判定する判断材料となり得る。特に、両手法において性能向上のために有効であると考えられる方策、統語範疇の境界の考慮、文の類似度の利用のいずれもが評価指標値の向上につながっている点も、当指標と結果の良否との相関を支持する。したがって、本実施の形態に係るテキスト処理システム350が生成したスラッシュリーディング用テキストの方が、従来手法により得られたものよりも妥当なものであることが、表6〜表9に示す評価指標の値からも示唆される。
[学習コーパス]
実験では、短い文からなる話し言葉コーパスを学習コーパスとして用いることにより、スラッシュ挿入のために適当な文分割を実現することができた。またスラッシュリーディング用の既存の教材は限られているとしても、少量のスラッシュ付きテキストを学習コーパスとして利用することも考えられる。これらのテキストは類似度Simの計算に利用できる。尤度Probの計算については、スラッシュ付きテキストから作られるNグラム言語モデルと、他のコーパスから作られるNグラム言語モデルとを、線形補間等により混合して使う方法が精度向上に有望である。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る機械翻訳システム20のブロック図である。 機械翻訳システム20の文分割処理装置40における文分割処理を模式的に示す図である。 文分割処理装置40において行なわれる、分割文候補を生成するための処理の手順を示すフローチャートである。 文分割処理装置40により生成された分割文候補を示す図である。 本発明の第2の実施の形態に係るテキスト処理システム350のブロック図である。 テキスト処理システム350の文分割処理部380によるテキスト分割処理の結果得られた分割文候補を示す図である。
符号の説明
20 機械翻訳システム、30 パラレルコーパス、32,362 言語モデル作成部、34,364 言語モデル記憶装置、36,366 シソーラス、38 入力文、40 文分割処理装置、42 翻訳知識作成部、44 翻訳知識記憶装置、46 機械翻訳装置、48 翻訳文、60 分割文候補生成部、62 分割文候補記憶装置、64 分割文候補選択部、350 テキスト処理システム、360 コーパス、370 スラッシュリーディング用文分割処理装置、372 出力文、380 文分割処理部、382スラッシュ挿入部、390 分割文候補生成部、392 分割文候補記憶装置、394 分割文候補選択部

Claims (10)

  1. 所定言語の入力テキストを複数個の部分テキストに分割するためのテキスト分割装置であって、
    前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が所定の条件を充足する複数個の分割文候補を生成するための分割文候補生成手段と、
    前記分割文候補生成手段により生成された前記複数個の分割文候補の各々に対し、前記所定言語のコーパスとの間で所定の類似度算出式に従い算出される類似度と、前記分割文候補生成手段により算出された前記尤度とにより定義されるスコアが所定の条件を充足する分割文候補を選択し、当該選択された分割文候補にしたがって前記入力テキストを1又は複数の部分テキストに分割するための分割文候補選択手段とを含む、テキスト分割装置。
  2. 前記分割文候補生成手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上である複数個の分割文候補を生成するための手段を含む、請求項1に記載のテキスト分割装置。
  3. 前記生成するための手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて前記所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上であって、かつ尤度が上位の予め定められた複数個の分割文候補を生成するための手段を含む、請求項2に記載のテキスト分割装置。
  4. 前記所定の尤度算出式は、
    Figure 2006018354
    ただしProb(S)は分割文候補Sの尤度、sは分割文Sを構成する部分テキスト、NはNグラム言語モデルのN、Lは部分テキストに含まれる単語数、p(s)は前記Nグラム言語モデルにしたがって算出される部分テキストsの尤度、である、請求項2又は請求項3に記載のテキスト分割装置。
  5. 前記分割文候補選択手段は、
    分割文候補Sの各々に対し、前記コーパスとの間の前記類似度Simを所定の類似度算出式に従い算出するための手段と、
    前記類似度Simと前記尤度Probとを用い、以下の式
    Figure 2006018354
    により算出されるスコアScoreを算出するための手段と、
    前記スコアScoreが最も大きな分割文候補を選択するための手段とを含む、請求項1〜請求項4のいずれかに記載のテキスト分割装置。
  6. 分割文候補Sの前記類似度Simは、以下の式により定義され、
    Figure 2006018354
    で定義される文s1と文s2との間の正規化された類似度、I及びDは文s1を文s2に修正するために必要な単語の挿入数及び削除数、Semは文s1を文s2に修正するために必要な単語の置換における、置換される語の間の意味的距離、をそれぞれ表す、請求項5に記載のテキスト分割装置。
  7. 請求項1〜請求項6のいずれかに記載のテキスト分割装置と、
    前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対し、予め定める自然言語処理を行なうための自然言語処理手段を含む自然言語処理装置。
  8. 前記自然言語処理手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対して機械翻訳を行なうための機械翻訳手段を含む、請求項7に記載の自然言語処理装置。
  9. 前記機械翻訳手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対して、コーパスベースの機械翻訳を行なうための手段を含む、請求項8に記載の自然言語処理装置。
  10. 前記自然言語処理手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの境界に予め定められた符号を挿入するための符号挿入手段を含む、請求項7に記載の自然言語処理装置。
JP2004192575A 2004-06-30 2004-06-30 テキスト分割装置及び自然言語処理装置 Pending JP2006018354A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004192575A JP2006018354A (ja) 2004-06-30 2004-06-30 テキスト分割装置及び自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004192575A JP2006018354A (ja) 2004-06-30 2004-06-30 テキスト分割装置及び自然言語処理装置

Publications (2)

Publication Number Publication Date
JP2006018354A true JP2006018354A (ja) 2006-01-19
JP2006018354A5 JP2006018354A5 (ja) 2007-07-26

Family

ID=35792608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004192575A Pending JP2006018354A (ja) 2004-06-30 2004-06-30 テキスト分割装置及び自然言語処理装置

Country Status (1)

Country Link
JP (1) JP2006018354A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118814A (ja) * 2009-12-07 2011-06-16 Fuji Xerox Co Ltd 自然言語処理プログラム及び自然言語処理装置
JP2012068857A (ja) * 2010-09-22 2012-04-05 Fujitsu Ltd 情報処理装置、電子メールの返信文抽出方法、及びそのプログラム
KR20190111009A (ko) 2017-02-07 2019-10-01 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN110945514A (zh) * 2017-07-31 2020-03-31 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN117034327A (zh) * 2023-10-09 2023-11-10 广东源恒软件科技有限公司 一种电子书内容加密防护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200400277014, 中嶋秀治 他, "音声認識過程での発話分割のための統計的言語モデル", 情報処理学会論文誌, 20011115, 第42巻第11号, 2681−2688頁, JP, 社団法人情報処理学会 *
CSNJ200710030091, 土居誉生 他, "用例ベース翻訳D3のための文分割", FIT2002 情報科学技術フォーラム 一般講演論文集 第2分冊, 20020913, 181−182頁, JP, 電子情報通信学会 *
JPN6009066358, 中嶋秀治 他, "音声認識過程での発話分割のための統計的言語モデル", 情報処理学会論文誌, 20011115, 第42巻第11号, 2681−2688頁, JP, 社団法人情報処理学会 *
JPN6009066362, 土居誉生 他, "用例ベース翻訳D3のための文分割", FIT2002 情報科学技術フォーラム 一般講演論文集 第2分冊, 20020913, 181−182頁, JP, 電子情報通信学会 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118814A (ja) * 2009-12-07 2011-06-16 Fuji Xerox Co Ltd 自然言語処理プログラム及び自然言語処理装置
JP2012068857A (ja) * 2010-09-22 2012-04-05 Fujitsu Ltd 情報処理装置、電子メールの返信文抽出方法、及びそのプログラム
US11048886B2 (en) 2017-02-07 2021-06-29 Panasonic Intellectual Property Management Co., Ltd. Language translation by dividing character strings by fixed phases with maximum similarity
KR20190111009A (ko) 2017-02-07 2019-10-01 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN110945514A (zh) * 2017-07-31 2020-03-31 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法
CN110945514B (zh) * 2017-07-31 2023-08-25 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112527992B (zh) * 2020-12-17 2023-01-17 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN116795972B (zh) * 2023-08-11 2024-01-09 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN117034327A (zh) * 2023-10-09 2023-11-10 广东源恒软件科技有限公司 一种电子书内容加密防护方法
CN117034327B (zh) * 2023-10-09 2024-03-19 广东源恒软件科技有限公司 一种电子书内容加密防护方法

Similar Documents

Publication Publication Date Title
Nießen et al. Statistical machine translation with scarce resources using morpho-syntactic information
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
Broda et al. Measuring Readability of Polish Texts: Baseline Experiments.
WO2012039686A1 (en) Methods and systems for automated text correction
Callison-Burch et al. A program for automatically selecting the best output from multiple machine translation engines
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Oh et al. A comparison of different machine transliteration models
Zhao et al. Automatic interlinear glossing for under-resourced languages leveraging translations
Kunilovskaya et al. Translationese features as indicators of quality in English-Russian human translation
Ulčar et al. Evaluation of contextual embeddings on less-resourced languages
JP2006018354A (ja) テキスト分割装置及び自然言語処理装置
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
Reyes et al. A baseline readability model for Cebuano
Mara English-Wolaytta Machine Translation using Statistical Approach
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
Pereira et al. A language modelling tool for statistical NLP
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Doi et al. Splitting input sentence for machine translation using language model with sentence similarity
Wołk et al. Big data language model of contemporary polish
Lugli et al. Embeddings Models for Buddhist Sanskrit
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
Park et al. Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages
Hlaing et al. NECTEC’s Participation in WAT-2021

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070530

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101019