JP2003108550A

JP2003108550A - 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム

Info

Publication number: JP2003108550A
Application number: JP2001284488A
Authority: JP
Inventors: Tomohiro Miyahira; 知博宮平; Toshiro Kamiyama; 淑朗神山
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-09-19
Filing date: 2001-09-19
Publication date: 2003-04-11
Anticipated expiration: 2021-09-19
Also published as: US7136806B2; JP3557605B2; US20030055626A1

Abstract

(57)【要約】【課題】自然言語処理における文切り処理において、
処理対象である文中の単語の品詞を推定することによ
り、精度の高い文切り処理を実現する。【解決手段】処理対象である文章に対し、辞書情報を
用いて文切り処理を行い、この辞書情報を用いた文切り
処理では文を切るべきかどうか判断できない場合に、こ
の文章を構成する単語の品詞推定を行い、その推定結果
に基づいてさらに文切り処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械翻訳などで行
われる自然言語の解析処理に関し、特に文章を１文ごと
に切り出す文切り処理に関する。

【０００２】

【従来の技術】機械翻訳などで行われる自然言語処理で
最初に行うべき処理として、文切り処理がある。これ
は、自然言語で記述された処理対象である文章を１文ご
とに切り出す処理である。この文切り処理で切り出され
た個々の文を処理単位として、実際の翻訳処理などが実
行されることとなる。したがって、この文切り処理で文
を切る場所を誤ると、翻訳などの目的の処理を正確に行
うことができなくなる。また、機械翻訳では翻訳対象の
文が長くなると処理量が爆発的に増大する。このため、
文切り処理を誤り、２文に切り出すべき文を長い１文と
して繋げてしまうと、解析処理に時間がかかり、さらに
解析を失敗する原因となる。

【０００３】正確な文切り処理を行うためには、翻訳処
理などの目的の処理を行いながら、文の意味を掴んだ上
で文切りの修正を行うことが好ましいが、現状の自然言
語処理の技術レベルでは、そのような修正はできない。
そのため、最初の段階で精度の高い文切り処理を行うこ
とが要求される。

【０００４】処理対象が英文である場合、文末にはピリ
オドがあるので、原則として、このピリオドの有無に基
づいて文の切り出しを行うことができる。しかし、ピリ
オドには単独で用いられて文末を示す他に短縮語などを
示す用法があり、「U.S.」などのようにピリオドを含む
語（以下、ピリオド語と呼ぶ）が存在する。このため、
ピリオドで文が切れるかどうかの判断は必ずしも容易で
はない。

【０００５】英文に対する従来のこの種の文切り処理の
手順を説明する。まず、ピリオド語を含まない単純な英
文の場合には、単独のピリオドの次に位置する単語が大
文字で始まるかどうかで単純に文切りを行うことができ
る。例えば、I have a pen. You have a book.の場合に
は、「pen.」というようなピリオド語は存在しないの
で、penの後のピリオドは文末を示す単独のピリオドだ
と認識でき、その次の語「You」が大文字で始まってい
るので、このピリオドで文切りを行う。

【０００６】ところで、ピリオド語の中には、「Mr.」
のように文末に現れることがない単語と、「U.S.」のよ
うに、文末にも文の途中にも現れ得るために、そこで文
が切れるかどうかを判断できない単語とが存在する。そ
こで、「Mr.」のような文末に現れることがない単語を
辞書中にデータとして格納しておき、文切り処理の際に
当該辞書を参照して、そのような単語の後では文を切ら
ないという処理を行う。一方、「U.S.」のような文が切
れるかどうか判断できない単語の場合には、「Mr.」の
場合のように単語そのものを登録するのではなく、その
単語を含む語、例えば、「U.S. President」という単語
列を辞書に登録する。そして、文中に用いられている
「U.S.」を含む単語列が登録されていない単語列の場合
は文を切り、登録されている単語列の場合には文を切ら
ないという処理を行うことができる。

【０００７】

【発明が解決しようとする課題】上述したように、自然
言語の解析処理においては、初期的に行われる文切り処
理を高い精度で行うことが要求される。すなわち、２文
に切るべき文は確実に切ること、及び１文とすべき文を
２文に切ってしまうことをできるだけ避けることが重要
である。

【０００８】処理対象が英文である場合、ピリオドの扱
いが文切り処理を行う上で重要であり、従来は、文末に
現れないピリオド語を辞書に登録しておき、文中のピリ
オドが辞書に登録されているピリオド語のものである場
合は、当該ピリオドでは文を切らないという処理を行っ
ていた。しかしながら、処理対象が文末にも文の途中に
も現れ得るピリオド語の場合、上記従来の手法では他に
何も判断材料がないために、機械的に文を切ってしまう
こととなる。そのため、文切り処理の精度の向上には限
界があった。

【０００９】また、「U.S.」のようにピリオドで文が切
れるかどうか判断できない単語の場合、その単語を含む
単語列を辞書に登録し、処理対象である文中の当該単語
を含む単語列が辞書に登録されているか否かにより、文
を切るか否かを判断していた。しかしながら、同じ単語
列であっても文によって切るべき場合と繋げて扱うべき
場合とがあり、一律に判断すると文切り処理を誤る場合
があった。例えば、上述した「U.S. President」の場
合、一般的には「U.S.」で文が切れることは少ないが、
次のような文では「U.S.」で文を切らなければ正しい解
析ができない。Japanese Prime Minister Junichiro Ko
izumi went to U.S. President Bush welcomed him.し
たがって、この場合、「U.S. President」という単語列
を辞書に登録した場合も、登録しない場合も、正確な文
切り処理をできない場合が出てきてしまうこととなる。

【００１０】そこで、本発明は、処理対象である文中の
単語の品詞を推定することにより、精度の高い文切り処
理を実現することを目的とする。

【００１１】

【課題を解決するための手段】上記の目的を達成する本
発明は、コンピュータを用いて自然言語で記述された文
章を文切りする方法において、処理対象である文章を入
力し、予め辞書記憶部に格納された辞書情報を用いて通
常の文切り処理を行い、文切りされた文章をメモリに格
納するステップと、この文章を構成する単語の品詞推定
を行い、その推定結果に基づいてさらに文切り処理を行
うステップとを含むことを特徴とする。

【００１２】ここで、詳細には、この品詞推定の結果に
基づいて文切り処理を行うステップは、品詞推定の結果
に基づき、処理対象である文章中のピリオドを含む単語
と主動詞（主節の動詞）との位置関係に応じてこのピリ
オドで文を切るかどうかを判断するステップを含むこと
とする。さらに詳細には、この主動詞を検出するため、
処理対象である文章中の従属接続詞または関係代名詞と
動詞との位置関係に基づいてこの動詞を主動詞として扱
うかどうかを判断するステップをさらに含むこととす
る。同様に、ピリオドを含む単語の後方に位置する、
「and」の直後の動詞は主動詞ではないと判断するステ
ップを含むこととする。また、主動詞の位置に関わら
ず、処理対象である文章中のピリオドを含む単語の直後
に冠詞または代名詞がある場合はこのピリオドで文を切
ると判断するステップを含むこととする。

【００１３】また、上記の目的を達成する他の本発明
は、コンピュータを用いて自然言語で記述された文章を
文切りする方法において、処理対象である文章を入力
し、この文章を構成する単語の品詞推定を行って当該品
詞推定の結果をメモリに格納し、この推定結果に基づい
て所定の文中におけるピリオドを含む単語の前後にそれ
ぞれ動詞が存在すると判断される場合に、このピリオド
で文を切ることを特徴とする。さらに詳細には、この品
詞推定を、単語に対する品詞情報が付加されたコーパス
に基づく確率的手法を用いて行うこととする。また、処
理対象である文章を入力してレイアウトを解析し、得ら
れたレイアウト情報をメモリに格納し、このレイアウト
情報に基づいて、通常のパラグラフを構成する文章を処
理対象として品詞推定及びその推定結果に基づく文切り
処理を行うこととする。ここで、通常のパラグラフと
は、表題やリスト項目のような特別のレイアウトで用い
られる文ではない、文書の内容（本文）を記述する一般
的なパラグラフを意味する。

【００１４】さらにまた、本発明は、自然言語処理に伴
う自然言語で記述された文章を１文ごとに切る文切り処
理を行う文切り処理装置において、予め辞書情報を格納
した辞書記憶部と、処理対象として入力された文章に対
し、辞書記憶部の辞書情報に基づいて文章を１文ごとに
文切りする第１の文切り処理部と、この第１の文切り処
理部によっては文を切るべきかどうかを判断できない場
合に、この文章を構成する単語の品詞推定を行い、推定
結果に基づいて文切りを行う第２の文切り処理部とを備
えることを特徴とする。ここで、第２の文切り処理部
は、文章中のピリオドを含む単語と主動詞との位置関係
に応じて当該ピリオドで文を切るかどうかを判断するこ
とができる。さらに、この文切り処理装置は、処理対象
として入力された文章のレイアウトを解析するレイアウ
ト解析部を備え、第２の文切り処理部は、このレイアウ
ト解析部による解析結果に基づいて、通常のパラグラフ
を構成すると判断される文章を処理対象として文切り処
理を行う構成とすることができる。

【００１５】また、本発明は文切り処理として上述した
品詞推定を用いた文切り処理を含む処理を実行する機械
翻訳装置として実現することができる。すなわち、この
機械翻訳装置は、処理対象である文章の入力を受け付け
る入力部と、入力された文章を文切りする文切り処理部
と、文切りされた文章を用いて、１文ごとに翻訳を行う
翻訳処理部と、翻訳結果を出力する出力部とを備え、こ
の文切り処理部は、処理対象である文章を構成する単語
の品詞推定を行い、その推定結果に基づいて文切りを行
うことを特徴とする。

【００１６】さらにまた、本発明は、上述したコンピュ
ータにて文切り方法を実行し、あるいはコンピュータを
上述した文切り処理装置や機械翻訳装置として動作させ
るプログラムとして実現することができる。このプログ
ラムは、磁気ディスクや光ディスク、半導体メモリ、そ
の他の記録媒体に記録して配布したり、ネットワークを
介して配信したりすることにより提供することができ
る。

【００１７】

【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて、この発明を詳細に説明する。今日、機械翻
訳などで行われる自然言語処理では、計算機の能力や記
憶容量の飛躍的な向上を背景として、膨大な言語データ
（コーパス）から言語モデルを構築して応用する、確率
・統計的なアプローチが盛んになってきている。本発明
は、この確率・統計的なアプローチにより文を構成する
単語の品詞を推定する確率的品詞推定を文切り処理に応
用する。なお、本発明は、機械翻訳の他、要約の作成な
ど、自然言語解析を要する種々の処理に対して適用でき
るものであるが、本実施の形態では、機械翻訳の初期に
行われる文切り処理を例として説明する。

【００１８】図１は、本実施の形態の機械翻訳システム
を実現するのに好適なコンピュータ装置のハードウェア
構成の例を模式的に示した図である。図１に示すコンピ
ュータ装置は、ＣＰＵ（中央処理装置）１０１と、Ｍ／
Ｂ（マザーボード）チップセット１０２及びＣＰＵバス
を介してＣＰＵ１０１に接続されたメインメモリ１０３
と、同じくＭ／Ｂチップセット１０２及びＡＧＰ（Acce
lerated Graphics Port）を介してＣＰＵ１０１に接続
されたビデオカード１０４と、ＰＣＩ（Peripheral Com
ponent Interconnect）バスなどの高速なバスを介して
Ｍ／Ｂチップセット１０２に接続されたハードディスク
１０５及びネットワークインターフェイス１０６と、さ
らにこの高速なバスからブリッジ回路１０７及びＩＳＡ
（Industry Standard Architecture）バスなどの低速な
バスを介してＭ／Ｂチップセット１０２に接続されたフ
ロッピーディスクドライブ１０８及びキーボード／マウ
ス１０９とを備える。なお、図１は本実施の形態を実現
するコンピュータ装置の構成を例示するに過ぎず、本実
施の形態を適用可能であれば、他の種々のシステム構成
を取ることができる。例えば、ビデオカード１０４を設
ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ１０
１にてイメージデータを処理する構成としても良いし、
音声による入出力を行うためのサウンド機構を設けた
り、ＡＴＡ（AT Attachment）などのインターフェイス
を介してＣＤ−ＲＯＭ（Compact Disc Read Only Memor
y）やＤＶＤ−ＲＯＭ（Digital Versatile Disc Read O
nly Memory）のドライブを設けたりしても良い。

【００１９】図２は、図１に示したコンピュータ装置に
て実現される本実施の形態による機械翻訳システムの構
成を示す図である。図２を参照すると、本実施の形態の
機械翻訳システムは、処理対象である自然言語で記述さ
れた文章を入力する入力部１０と、入力された文章を文
切り処理する文切り処理部２０と、文切りされた文章を
翻訳する翻訳処理部３０と、翻訳結果を出力する出力部
４０と、文切り処理部２０及び翻訳処理部３０の処理に
おいて利用される辞書記憶部５０とを備える。上記構成
のうち、入力部１０、文切り処理部２０、翻訳処理部３
０及び出力部４０は、図１に示したメインメモリ１０３
に展開されたプログラムにより制御されたＣＰＵ１０１
にて実現される仮想的なソフトウェアブロックである。
ＣＰＵ１０１を制御してこれらの機能を実現させる当該
プログラムは、磁気ディスクや光ディスク、半導体メモ
リ、その他の記録媒体に格納して配布したり、ネットワ
ークを介して配信したりすることにより提供することが
できる。本実施の形態では、図１に示したネットワーク
インターフェイス１０６やフロッピーディスクドライブ
１０８、図示しないＣＤ−ＲＯＭドライブなどを介して
当該プログラムを入力し、ハードディスク１０５に格納
する。そして、ハードディスク１０５に格納されたプロ
グラムをメインメモリ１０３に読み込んで展開し、ＣＰ
Ｕ１０１にて実行することにより、上記各項生要素の機
能を実現する。また、辞書記憶部５０は、図１に示した
ハードディスク１０５やメインメモリ１０３にて実現さ
れ、文切り処理部２０及び翻訳処理部３０の処理におい
て参照される辞書を格納する。図示の例では、ユーザ辞
書５１、システム基本辞書５２、分野別辞書５３が格納
されている。

【００２０】本実施の形態の機械翻訳システムを構成す
る入力部１０は、処理対象である文章を入力する。本実
施の形態では、処理対象は英語で記述された文章とす
る。処理対象である文章の入力は、図１に示したハード
ディスク１０５等の記憶装置に予め格納されていた文章
を読み出したり、ネットワークインターフェイス１０６
を介してインターネット等のネットワークから取得した
り、キーボード／マウス１０９等の入力デバイスを用い
たりすることにより実行される。入力された文章（以
下、入力文章と称す）は、図１に示すＣＰＵ１０１のキ
ャッシュメモリやメインメモリ１０３に格納される。

【００２１】文切り処理部２０は、ＣＰＵ１０１のキャ
ッシュメモリやメインメモリ１０３に格納されている入
力文章を読み出して１文ごとに切る。文の切り出しに
は、辞書記憶部５０に格納されている辞書５１、５２、
５３が適宜参照される。また、本実施の形態では、文の
切り出しに確率的品詞推定を用いる。この確率的品詞推
定を用いた文の切り出し処理の詳細については後述す
る。１文ごとに切り出された入力文章は、図１に示すＣ
ＰＵ１０１のキャッシュメモリやメインメモリ１０３に
格納される。

【００２２】翻訳処理部３０は、ＣＰＵ１０１のキャッ
シュメモリやメインメモリ１０３に格納されている文切
りされた入力文章を読み出して、１文ずつ翻訳する。翻
訳には、辞書記憶部５０に格納されている辞書５１、５
２、５３が適宜参照される。また、本実施の形態では、
翻訳処理部３０による翻訳処理の手法としては、従来の
機械翻訳システムで用いられている種々の手法を適用す
ることができる。

【００２３】出力部４０は、翻訳処理部３０による翻訳
結果を出力する。翻訳結果の出力は、一般的には、図１
に示したビデオカード１０４を介してディスプレイ装置
に表示することにより行うが、プリンタにてプリントア
ウトしても良いし、ネットワークインターフェイス１０
６を介して他のコンピュータシステムに送信しても良
い。また、ハードディスク１０５などのファイルに保存
しても良い。

【００２４】次に、文切り処理部２０による本実施の形
態の文切り処理について詳細に説明する。図３は、文切
り処理部２０の機能構成を示す図である。図３を参照す
ると、文切り処理部２０は、入力文章のレイアウトを解
析するレイアウト解析部２１と、通常の文切り処理を行
う通常処理部２２と、確率的品詞推定を用いた文切り処
理を行う品詞推定文切り処理部２３とを備える。

【００２５】レイアウト解析部２１は、入力文章のレイ
アウトを解析し、パラグラフの種類などを示すレイアウ
ト情報を抽出する。レイアウト解析は、例えば、入力文
章がＨＴＭＬなどのマークアップ言語であれば、マーク
（タグ）を解析することにより行うことができる。ま
た、入力文章が独自のレイアウト情報を持つアプリケー
ションソフトウェアの文書データであれば、当該アプリ
ケーションソフトウェア独自のレイアウト情報を解析す
ることにより行うことができる。さらに、入力文章が特
別なレイアウト情報を持たないプレーンテキストである
場合、改行や空白、タブなどの有無によりレイアウトを
推定し、レイアウト情報を抽出することができる。

【００２６】通常処理部２２は、入力文章に対して従来
から行われている通常の文切り処理を行う。すなわち、
辞書情報を参照して文中のピリオドがピリオド語による
ものか単独で用いられているものかを判断し、単独で用
いられているピリオドに関して、当該ピリオドで文を切
る。また、「Mr.」のような文末に現れることがないピ
リオド語では文を切らない。

【００２７】品詞推定文切り処理部２３は、通常処理部
２２において処理できない場合、すなわち、文末にも文
の途中にも現れ得るピリオド語について、確率的品詞推
定を用いた文切り処理を実行する。以下、確率的品詞推
定を用いた文切り処理を説明する。

【００２８】まず、本実施の形態で用いる確率的品詞推
定について説明する。品詞推定（品詞タグ付け）は、形
態素解析等において文中の各単語の品詞を推定し、当該
単語に情報を付する（タグを付ける）処理である。この
品詞を推定するための尺度としては、次の２つがある。
・単語が取り得る複数の品詞のうち、どれが一番もっと
もらしい品詞であるか。例えば、「breakfast」は多く
の場合名詞として使われ、動詞の読みは非常に少ない。
・品詞の並びに対する優先度。例えば、「the」の後に
動詞とも名詞とも解釈できる単語がある場合、名詞の解
釈が優先される。

【００２９】ここで、この品詞の推定を、確率的手法を
用いて行うことができる。すなわち、文中の各単語につ
いて、品詞情報の付加されたコーパスを参照し、用法の
出現率にしたがって上記の判断を行い、最も確率の高い
品詞列を求める手法である。図５は、この確率的品詞推
定の例を示す図である。図５に示す例では、「Time fli
es like an arrow」という文における単語の品詞を推定
しており、「Time」を名詞、「flies」を動詞、「lik
e」を前置詞、「an」を冠詞、「arrow」を名詞と解釈す
る推定結果（図の太線及び太字で示した品詞列）を示し
ている。なお、品詞を推定するための手法としては、ル
ールベースを用いた手法や、決定木を利用した手法、隠
れマルコフモデルなど、既存のさまざまな言語モデルや
手法を用いることができる。

【００３０】次に、上記確率的品詞推定の文切り処理へ
の応用について説明する。一般の文では、名詞句がその
まま１文になっている場合もあり、文の構造はさまざま
である。しかし、名詞句がそのまま１文になるのは表題
やリスト項目である場合が多く、普通のパラグラフ中の
文では極めて少ない。特に、ピリオド語で文切りするか
どうかの判断に迷う場合、その一方が名詞句の１文であ
ることはほとんど考えられない。そのため、２文に分割
すべき場合は、ピリオドの前後の文はそれぞれ主動詞を
持っていると考えることができる。したがって、２文に
分割するかどうかの判断は、その位置の前方と後方に主
動詞となるべきものがあるかどうかに基づいて決定でき
ることになる。すなわち、ピリオド語の前後の一方にし
か主動詞がない場合は当該ピリオド語で文を切らず、ピ
リオド語の前後両方に主動詞がある場合は当該ピリオド
語で文を切る。例えば、上述したJapanese Prime Minis
ter Junichiro Koizumi went to U.S. President Bush
welcomed him.という文では、「U.S.」の前に動詞「wen
t」があり、後ろに動詞「welcomed」があるので、「U.
S.」で文を切るべきであることがわかる。一般に、英単
語は多品詞語が多いが、品詞推定処理によって各単語の
品詞が推定できれば、これを利用することで原則的には
主動詞を推定することができる。

【００３１】しかしながら、従属接続詞や関係代名詞に
よって複文が構成される場合、１つの文中に主動詞の他
に従属節における動詞が存在するので、単に動詞を捜す
だけではそれが主動詞であるかどうかは不明である。例
えば、…… it would be much better if the U.S. Tra
ffic Office was allowed to……のような文において、
「U.S. Traffic Office」は、if以下の従属節中にあ
る。しかし、単純にピリオドの前後で動詞を捜しただけ
では、前方にはbeがあり、後方にはwasがあるため、こ
れらを主動詞であると誤って判断し、「U.S.」のピリオ
ドで文切りしてしまうことになる。

【００３２】このような誤処理を回避するため、本実施
の形態では、さらに次のような個別のアルゴリズムを適
用する。１．ピリオド語の直後が冠詞または代名詞の場合は、前
後の動詞に関わらず文切りする。例えば、「…… from
L.A. We want ……」の場合、「L.A.」の直後に代名詞
「We」があるので、「L.A.」の直後で文を切る。２．ピリオド語の前方に従属接続詞か関係代名詞がある
場合には、そこまでで動詞の探索を打ち切る。例えば、
「…… it would be much better if the U.S. Traffic
Office was ……」の場合、「U.S.」の前方を見ると、
従属接続詞「if」があるので、そこで動詞の探索を打ち
切る。したがって、動詞「be」は検出されないため、
「U.S.」では文を切らない。３．ピリオド語の後方に従属接続詞か関係代名詞がある
場合には、文の入れ子構造におけるネストレベルを＋１
し、動詞が出てきたらネストレベルを−１する。そし
て、ネストレベルが０の時の動詞を主動詞とみなす。例
えば、「…… meetDemocratic U.S. Senate candidates
who are young.」の場合、「U.S.」の後方に関係代名
詞「who」があるので、ネストレベルを＋１する。そし
て、その後の動詞「are」でネストレベルを−１し、０
に戻す。したがって、動詞「are」自体はネストレベル
が＋１の時の動詞であるので主動詞とはみなさず、この
ため「U.S.」では文を切らない。４．ピリオド語の後方において、「and」の直後の動詞
は主動詞とみなさない。例えば、「It is the job of
U.S. Traffic Office to gather traffic information
and provide ……」の場合、「U.S.」の後方において
「and」の直後に動詞「provide」があるが、これは主動
詞とみなさない（なお、「gather」は直前に「to」があ
り、to不定詞であることが明瞭なので、これも主動詞で
はない）。したがって、「U.S.」の前方の動詞「is」の
みが主動詞と判定されるため、「U.S.」では文を切らな
い。

【００３３】これらのアルゴリズムを用いると、上述し
た…… it would be much better if the U.S. Traffic
Office was allowed to……という文では、「U.S.」の
前方に従属接続詞「if」があるので、上記第２のアルゴ
リズムが適用され、「U.S.」で文を切らないこととな
る。以上の４つのアルゴリズムは、各々独立であり、適
用する順番は任意である。また、必ずしも４つ全てを適
用しなくても良い。ただし、上記のようなアルゴリズム
を補足的に用いることにより、文を切るかどうかの判定
の精度を向上させることができる。なお、現在進行、現
在完了、受動態などの場合は、「be」や「have」を主動
詞として扱うこととし、動詞のing／ed形は主動詞とし
ないものとする。

【００３４】図４は、文切り処理部２０による文切り処
理の手順を説明するフローチャートである。なお、図４
に示す動作例では、入力文章をＨＴＭＬまたはプレーン
テキスト（図では単にテキストと表記）とするが、上述
したように、所定のアプリケーションソフトウェアの文
書データなど、種々のテキストデータに対して適用可能
であることは言うまでもない。文切り処理部２０は、Ｃ
ＰＵ１０１のキャッシュメモリやメインメモリ１０３に
格納されている入力文章を読み出し（ステップ４０
１）、まず、レイアウト解析部２１により、入力文章の
レイアウトを解析する。すなわち、入力文章がプレーン
テキストであれば、改行などの有無に基づいてレイアウ
トを解析し（ステップ４０２、４０３）、入力文章がＨ
ＴＭＬであれば、タグの解析により入力文章のレイアウ
トを解析する（ステップ４０２、４０４）。レイアウト
解析により得られたレイアウト情報は、ＣＰＵ１０１の
キャッシュメモリやメインメモリ１０３に格納される。

【００３５】次に、レイアウト解析された入力文章を対
象として通常処理部２２及び品詞推定文切り処理部２３
により文切り処理が行われる。文切り処理は、入力文章
の先頭からパラグラフごとに順次行われるものとする。
通常処理部２２は、まず、ＣＰＵ１０１のキャッシュメ
モリやメインメモリ１０３からレイアウト解析により得
られたレイアウト情報を読み出し、当該レイアウト情報
に基づいて、着目中のパラグラフが通常のパラグラフか
否かを判断する（ステップ４０５）。そして、通常のパ
ラグラフである場合、単独で用いられているピリオド及
び文末に現れないピリオド語を識別して通常の文切り処
理を行う（ステップ４０６）。文切りされた入力文章は
ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３
に格納される。次に、品詞推定文切り処理部２３が、通
常処理部２２にて文切りされた入力文章を、ＣＰＵ１０
１のキャッシュメモリやメインメモリ１０３から読み出
し、文末及び文の途中のいずれにも現れ得るピリオド語
に関し、上述した確率的品詞推定を用いて当該ピリオド
語が文末にあるか否かを判定する。このとき、上述した
ように、４つの個別のアルゴリズムを用いた判定を行う
こともできる。そして、判定結果に応じて文切り処理を
行い（ステップ４０７）、処理結果である文切りされた
入力文章を出力する（ステップ４０９）。

【００３６】また、ステップ４０５において通常のパラ
グラフでないと判定された場合、通常処理部２２による
通常の文切り処理を行った後（ステップ４０８）、品詞
推定文切り処理部２３による処理を行わずに処理結果で
ある文切りされた入力文章を出力する（ステップ４０
９）。

【００３７】次に、本実施の形態による文切り処理の実
行例を示す。この実行例では、品詞推定（品詞タグ付
け）のための確率モデルとして、隠れマルコフモデル
（hidden Markov model）に基づく品詞推定を実装し
た。隠れマルコフモデルは、確率的な状態遷移と確率的
な記号出力を備えたオートマトンであり、そのモデルの
パラメータはタグ付きコーパス(品詞情報の付与された
コーパス)から計算して求めることができる。モデルの
パラメータが求まれば、ビタビ・アルゴリズム（Viterb
i algorithm）で任意の入力単語列に対して最も確率の
高い品詞列を求めることができる。なお、隠れマルコフ
モデルについては、例えば、下記文献に詳細に記載され
ている。文献：Cutting, D., Kupiec, J., Pedersen, J., and S
ibun, P., A PracticalPart-of-Speech Tagger. In Pro
ceedings of the Third Conference on AppliedNatural
Language Processing, Trento, Italy (April 1992)

【００３８】文を切るべき場合及び切るべきでない場合
の両方があり得るピリオド語を含む例文１７９例（２文
に切るべき例：３０、１文に繋げるべき例：１４９）に
対し、本実施の形態を適用した。図６は、処理結果を示
す図表である。同図において、処理１は、確率的品詞推
定を用い、さらに上述した４つのアルゴリズムを適用し
た場合の実行結果を示し、処理２は、確率的品詞推定の
みを適用した場合の実行結果を示す。また、比較対照と
して記載した従来手法は、文末にも文の途中にも現れ得
るピリオド語で常に文切りする処理である。

【００３９】図６を参照すると、処理１では、２文に切
るべき例文を全て正解し、１文とするべき例文を１４９
文中１３６文で正解している。また、処理２では、２文
に切るべき例文を３０文中２７文で正解し、１文とする
べき例文を１４９文中１２７文で正解している。従来手
法では、文末にも文の途中にも現れ得るピリオド語で常
に文切りするので、２文に切るべき例文では全て正解し
ているが、１文とするべき例文では全て処理を誤ってい
る。これらの処理結果を比較すると、確率的品詞推定を
用いる本実施の形態は、従来手法に比べて大幅に精度が
向上していることがわかる。また、処理１、２を比較す
れば、上記４つのアルゴリズムを適用する方がさらに精
度を向上させ得ることがわかる。

【００４０】以上、機械翻訳の初期的な処理として実行
される文切り処理を例として本実施の形態を説明した
が、上記のように、本実施の形態は文切り処理のみに関
するものであるため、機械翻訳以外にも要約の作成など
種々の自然言語処理に対してそのまま適用することが可
能である。また、通常の自然言語処理において、処理全
体に要する時間に対する形態素解析に要する時間の割合
が非常に小さいことから、初期段階の文切り処理におい
て品詞推定を行っても顕著な処理の遅延をもたらすこと
はなく、十分に現実的であると言える。

【００４１】また、上記の例では入力文章が英語で記述
されており、文中のピリオドで文を切るべきかどうかを
判定するために品詞推定を行う例について述べたが、ド
イツ語やフランス語など英語以外の言語においても、文
中のピリオドで文を切るべきかどうかを判定するために
本実施の形態の手法を用いることができることは言うま
でもない。さらに、一般的に種々の自然言語による文章
に対して文切り処理を行う場合であって、単なる辞書と
の照合のみでは文を切るべきか否か判断できない場合
に、上述した品詞推定の結果を判断材料に加えて文切り
処理を行うことで、精度の向上を期待することができ
る。

【００４２】

【発明の効果】以上説明したように、本発明によれば、
処理対象である文中の単語の品詞を推定することによ
り、精度の高い文切り処理を実現することができる。

【図面の簡単な説明】

【図１】本実施の形態の機械翻訳システムを実現する
のに好適なコンピュータ装置のハードウェア構成の例を
模式的に示した図である。

【図２】図１に示したコンピュータ装置にて実現され
る本実施の形態による機械翻訳システムの構成を示す図
である。

【図３】本実施の形態における文切り処理部の機能構
成を示す図である。

【図４】本実施の形態の文切り処理部による文切り処
理の手順を説明するフローチャートである。

【図５】確率的品詞推定の例を示す図である。

【図６】本実施の形態による所定の例文に対する実行
例の処理結果を示す図表である。

【符号の説明】

１０…入力部、２０…文切り処理部、２１…レイアウト
解析部、２２…通常処理部、２３…品詞推定文切り処理
部、３０…翻訳処理部、４０…出力部、５０…辞書記憶
部、５１…ユーザ辞書、５２…システム基本辞書、５３
…分野別辞書、１０１…ＣＰＵ（中央処理装置）、１０
２…Ｍ／Ｂ（マザーボード）チップセット、１０３…メ
インメモリ、１０４…ビデオカード、１０５…ハードデ
ィスク、１０６…ネットワークインターフェイス、１０
８…フロッピーディスクドライブ、１０９…キーボード
／マウス

───────────────────────────────────────────────────── フロントページの続き (72)発明者宮平知博神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内 (72)発明者神山淑朗神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内Ｆターム(参考） 5B091 AA15 CA01 CA02 CC02

Claims

【特許請求の範囲】

【請求項１】コンピュータを用いて自然言語で記述さ
れた文章を文切りする方法において、処理対象である文章を入力し、予め辞書記憶部に格納さ
れた辞書情報を用いて文切り処理を行い、文切りされた
文章をメモリに格納するステップと、前記メモリから処理対象である前記文章を読み出し、当
該文章を構成する単語の品詞推定を行い、当該品詞推定
の結果に基づいてさらに文切り処理を行うステップとを
含むことを特徴とする文切り方法。
【請求項２】前記品詞推定の結果に基づいて文切り処
理を行うステップは、前記品詞推定の結果に基づき、前
記文章中のピリオドを含む単語と主動詞との位置関係に
応じて当該ピリオドで文を切るかどうかを判断するステ
ップを含むことを特徴とする請求項１に記載の文切り方
法。
【請求項３】前記品詞推定の結果に基づいて文切り処
理を行うステップは、前記文章中の従属接続詞または関係代名詞と動詞との位
置関係に基づいて当該動詞を主動詞として扱うかどうか
を判断するステップをさらに含むことを特徴とする請求
項２に記載の文切り方法。
【請求項４】前記品詞推定の結果に基づいて文切り処
理を行うステップは、前記ピリオドを含む単語の後方に位置する、「and」の
直後の動詞は主動詞ではないと判断するステップを含む
ことを特徴とする請求項２に記載の文切り方法。
【請求項５】前記品詞推定の結果に基づいて文切り処
理を行うステップは、前記品詞推定の結果に基づき、前
記文章中のピリオドを含む単語の直後に冠詞または代名
詞がある場合は当該ピリオドで文を切ると判断するステ
ップを含むことを特徴とする請求項１に記載の文切り方
法。
【請求項６】コンピュータを用いて自然言語で記述さ
れた文章を文切りする方法において、処理対象である文章を入力し、当該文章を構成する単語
の品詞推定を行って当該品詞推定の結果をメモリに格納
し、前記メモリに格納された前記品詞推定の結果に基づいて
所定の文中におけるピリオドを含む単語の前後にそれぞ
れ動詞が存在すると判断される場合に、当該ピリオドで
文を切ることを特徴とする文切り方法。
【請求項７】単語に対する品詞情報が付加されたコー
パスに基づく確率的手法を用いて前記処理対象である文
章の単語の品詞推定を行うことを特徴とする請求項６に
記載の文切り方法。
【請求項８】処理対象である文章を入力して当該文章
のレイアウトを解析し、得られたレイアウト情報をメモ
リに格納し、前記メモリに格納された前記レイアウト情報に基づい
て、通常のパラグラフを構成する文章を処理対象として
品詞推定及び当該品詞推定の結果に基づく文切り処理を
行うことを特徴とする請求項６に記載の文切り方法。
【請求項９】自然言語処理に伴う自然言語で記述され
た文章を１文ごとに切る文切り処理を行う文切り処理装
置において、予め辞書情報を格納した辞書記憶部と、処理対象として入力された文章に対し、前記辞書情報に
基づいて当該文章を１文ごとに文切りする第１の文切り
処理部と、前記第１の文切り処理部によっては文を切るべきかどう
かを判断できない場合に、前記文章を構成する単語の品
詞推定を行い、当該品詞推定の結果に基づいて文切りを
行う第２の文切り処理部とを備えることを特徴とする文
切り処理装置。
【請求項１０】前記第２の文切り処理部は、前記文章
中のピリオドを含む単語と主動詞との位置関係に応じて
当該ピリオドで文を切るかどうかを判断することを特徴
とする請求項９に記載の文切り処理装置。
【請求項１１】処理対象として入力された文章のレイ
アウトを解析するレイアウト解析部をさらに備え、前記第２の文切り処理部は、前記レイアウト解析部によ
る解析結果に基づいて、通常のパラグラフを構成すると
判断される文章を処理対象として文切り処理を行うこと
を特徴とする請求項９に記載の文切り処理装置。
【請求項１２】所定の自然言語で記述された文章を翻
訳する機械翻訳装置において、処理対象である文章の入力を受け付ける入力部と、前記入力部にて入力された文章を文切りする文切り処理
部と、前記文切り処理部にて文切りされた文章を用いて、１文
ごとに翻訳を行う翻訳処理部と、前記翻訳処理部による翻訳結果を出力する出力部とを備
え、前記文切り処理部は、前記文章を構成する単語の品詞推
定を行い、当該品詞推定の結果に基づいて文切りを行う
ことを特徴とする機械翻訳装置。
【請求項１３】コンピュータを制御して、自然言語で
記述された文章を文切りするプログラムであって、処理対象である文章を入力し、予め辞書記憶部に格納さ
れた辞書情報を用いて文切り処理を行い、文切りされた
文章をメモリに格納する処理と、前記メモリから処理対象である前記文章を読み出し、当
該文章を構成する単語の品詞推定を行い、当該品詞推定
の結果に基づいてさらに文切り処理を行う処理とを前記
コンピュータに実行させることを特徴とするプログラ
ム。
【請求項１４】コンピュータを制御して、自然言語で
記述された文章を文切りするプログラムであって、処理対象である文章を入力し、当該文章を構成する単語
の品詞推定を行って当該品詞推定の結果をメモリに格納
する処理と、前記メモリに格納された前記品詞推定の結果に基づいて
所定の文中におけるピリオドを含む単語の前後にそれぞ
れ動詞が存在すると判断される場合に、当該ピリオドで
文を切る処理とを前記コンピュータに実行させることを
特徴とするプログラム。
【請求項１５】コンピュータを制御して、自然言語で
記述された文章を翻訳するプログラムであって、処理対象である文章を入力し、当該文章を構成する単語
の品詞推定を行い、当該品詞推定の結果に基づいて文切
り処理を行い、当該文切りされた文章をメモリに格納す
る文切り処理手段と、前記メモリに格納された前記文切りされた文章を１文ず
つ翻訳する翻訳処理手段として前記コンピュータを機能
させることを特徴とするプログラム。
【請求項１６】請求項１３乃至請求項１５のいずれか
に記載されたプログラムを、コンピュータにて読み取り
可能に記録した記録媒体。