JPH06290209A

JPH06290209A - 文切り装置

Info

Publication number: JPH06290209A
Application number: JP5096694A
Authority: JP
Inventors: Akihiro Furukawa; 章浩古川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-03-31
Filing date: 1993-03-31
Publication date: 1994-10-18
Anticipated expiration: 2010-11-13
Also published as: JPH07104865B2

Abstract

(57)【要約】【目的】文書を一文ずつに文切りする文切り装置に於
いて、表部分及びグラフ部分に記述された文書の文切り
を精度良く行なう。【構成】原文テキストは入力手段１０によって記憶手
段２０に格納される。レイアウト解析手段３０は記憶手
段２０に記憶された原文テキスト中の表部分，グラフ部
分を抽出する。テキスト抽出手段４０は表部分，グラフ
部分に存在するテキストを、１文とみなせる単位毎に抽
出する。解析手段５０はテキスト抽出手段４０が抽出し
た１文とみなせる単位毎に、形態素解析，構文解析を行
ない、１文とみなせる単位の各行間の接続コスト及び修
飾の有無を求める。判定手段６０は各行間の接続コスト
及び修飾の有無に基づいて１文とみなせる単位の各行が
連続するか否かを判定する。文分割／結合手段７０は判
定手段６０の判定結果に基づいて上記１文とみなせる単
位の文切りを行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自然言語で記述された文
書の文切りを行なう文切り装置に関し、特に、表やグラ
フ内に記述された文書の文切りを行なう文切り装置に関
する。

【０００２】

【従来の技術】自然言語で記述された文書を機械翻訳す
る場合等、文書を文単位に分割すること、即ち文切りす
ることが必要になる。

【０００３】従来はこのような場合、日本語文に於いて
は句点「。」に基づいて文切りを行ない、英語文に於い
てはピリオド「．」に基づいて文切りを行なっていた
（例えば、特開昭６４−６１８６３号公報）。

【０００４】文書中に句点やピリオドがあれば、上記し
た従来の技術に基づいて容易に文切りを行なうことがで
きる。

【０００５】しかし、表中の文書やグラフ中の文書は一
般に句点やピリオドを用いないため、表，グラフ中に複
数行の文が存在している場合、上述した従来技術ではそ
れが連続した１文が折り返されたものなのか、複数の文
が並記されたものなのかを判別することができない。

【０００６】そこで、隣接する形態素（単語）が接続可
であるか否かを隣接する形態素の品詞に基づいて判定す
るという技術（例えば、特開昭６１−１６３６７号公
報）を用いて表中の文書やグラフ中の文書を文切りする
ということが考えられる。即ち、第ｉ行目の最後の形態
素の品詞と第（ｉ＋１）行目の最初の形態素の品詞とに
基づいて両者が接続可であるか否かを判定し、接続可で
あれば、第ｉ行と第（ｉ＋１）行は連続した文と判定
し、接続不可であれば、第ｉ行と第（ｉ＋１）行は異な
る文と判定するものである。

【０００７】

【発明が解決しようとする課題】しかし、上記した技術
は隣接する形態素の品詞に基づいて連続した文か否かを
判定しているだけであるので、判定誤りが生じやすいと
いう問題があった。例えば、名詞＋動詞の並びは一般的
には接続しにくいが、「私行く」のように接続する場合
もあるので、隣接する形態素の品詞に基づいて連続した
文か否かを判定するだけでは判定誤りが生じやすい。

【０００８】本発明の目的は表，グラフ中の文書を文切
りする際、判定誤りの生じにくい文切り装置を提供する
ことにある。

【０００９】

【課題を解決するための手段】本発明は上記目的を達成
するため、原文テキスト中の表部分及びグラフ部分を抽
出するレイアウト解析手段と、該レイアウト解析手段が
抽出した表部分及びグラフ部分に存在するテキストを、
１文とみなせる単位毎に抽出するテキスト抽出手段と、
該テキスト抽出手段が抽出した１文とみなせる単位毎に
形態素解析及び構文解析を行ない、前記１文とみなせる
単位の各行間の接続コスト及び修飾の有無を求める解析
手段と、該解析手段が求めた各行間の接続コスト及び修
飾の有無に基づいて前記１文とみなせる単位の各行が連
続するか否かを判定する判定手段と、該判定手段の判定
結果に基づいて前記１文とみなせる単位を文切りする文
分割／結合手段とを設けたものである。

【００１０】

【作用】原文テキスト中の表部分及びグラフ部分がレイ
アウト解析手段によって抽出され、表部分及びグラフ部
分に存在するテキストが１文とみなせる単位毎にテキス
ト抽出手段によって抽出される。

【００１１】解析手段はテキスト抽出手段が抽出した１
文とみなせる単位毎に形態素解析及び構文解析を行な
い、１文とみなせる単位の各行間の接続コスト及び修飾
の有無を求める。

【００１２】判定手段は解析手段が求めた各行間の接続
コスト及び修飾の有無に基づいてテキスト抽出手段が抽
出した単位の各行が連続するか否かを判定する。

【００１３】文分割／結合手段は判定手段の判定結果に
従って抽出手段が抽出した１文とみなせる単位を文切り
する。

【００１４】

【実施例】次に本発明の実施例について図面を参照して
詳細に説明する。

【００１５】図１は本発明の実施例のブロック図であ
り、入力手段１０と、記憶手段２０と、レイアウト解析
手段３０と、テキスト抽出手段４０と、解析手段５０
と、判定手段６０と、文分割／結合手段７０と、出力手
段８０とから構成されている。

【００１６】入力手段１０は自然言語で記述された原文
テキストを入力するものであり、フロッピーディスク装
置，磁気テープ装置，光学読み取り装置（ＯＣＲ），キ
ーボード等によって構成される。

【００１７】記憶手段２０は入力手段１０が入力した原
文テキストを記憶するものであり、メモリ装置や磁気デ
ィスク装置等のコンピュータ内の記憶装置によって構成
される。

【００１８】レイアウト解析手段３０は記憶手段２０に
記憶された原文テキストを、表部分と、グラフ部分と、
テキスト部分（文字列部分）とに分割し、表部分及びグ
ラフ部分をテキスト抽出手段４０に渡す。記憶手段２０
に記憶されている原文テキストが２次元のレイアウト情
報と属性を表現する種々の文書交換標準形式（例えば、
ＳＧＭＬ，Ｐｏｓｔｓｃｒｉｐｔ等）により記述された
ものである場合は、これら文書交換標準形式に対する解
析プログラムをレイアウト解析手段３０とすることがで
きる。

【００１９】テキスト抽出手段４０はレイアウト解析手
段３０から渡された表部分，グラフ部分に存在するテキ
ストを、１文とみなせる単位毎に抽出し、解析手段５０
及び文分割／結合手段７０に渡す機能を有する。

【００２０】解析手段５０はテキスト抽出手段４０から
渡されたテキストに対して形態素解析及び構文解析を行
なう機能と、解析結果に基づいて行間の接続コストを求
める機能と、解析結果に基づいて第２行目以降の先頭の
形態素を修飾する形態素がそれよりも前に存在するか否
かを調べて存在の有無を示す修飾有無情報を作成する機
能と、接続コスト及び修飾有無情報を判定手段６０に出
力する機能とを有する。尚、接続コストは接続しやすさ
を示す情報であり、本実施例では「低」，「中」，
「高」の３段階で接続のしやすさを表すものとする。ま
た、接続コストが低い程、接続しやすいものとする。

【００２１】判定手段６０は解析手段５０からの接続コ
スト及び修飾有無情報に基づいて或る行と次の行とが連
続するか否かを判定する機能を有する。

【００２２】文分割／結合手段７０は判定手段６０の判
定結果に従ってテキスト抽出手段４０から渡されたテキ
ストを分割した形或いは結合した形で出力する機能を有
する。

【００２３】出力手段８０は外部との入出力を図る手段
であり、フロッピーディスク装置，磁気テープ装置，プ
リンタ，ディスプレイ装置等により構成される。

【００２４】図２はテキスト抽出手段４０の処理例を示
す流れ図、図３は解析手段５０の処理例を示す流れ図、
図４は判定手段６０の判定基準の一例を示した図であ
り、以下各図を参照して本実施例の動作を説明する。

【００２５】入力手段１０は自然言語で記述された原文
テキストを入力し、記憶手段２０に格納する。

【００２６】記憶手段２０に原文テキストが格納される
と、レイアウト解析手段３０は原文テキストを表部分
と、グラフ部分と、テキスト部分とに分割し、表部分と
グラフ部分とをテキスト抽出手段４０に渡す。今、例え
ば、記憶手段２０に格納された原文テキストが図５に示
すものであるとすると、原文テキストをテキスト部分５
１と、グラフ部分５２と、表部分５３とに分割し、グラ
フ部分５２及び表部分５３をテキスト抽出手段４０に渡
すことになる。

【００２７】テキスト抽出手段４０はレイアウト解析手
段３０から表部分或いはグラフ部分が渡されると、図２
の流れ図に示す処理を開始する。

【００２８】表部分が渡された場合（ステップＳ１がＹ
ＥＳ）は、テキスト抽出手段４０は、先ず、表の先頭の
カラムを処理対象とし (ステップＳ２）、先頭のカラム
内のテキストを連続する１文とみなして解析手段５０に
渡す (ステップＳ３）。

【００２９】その後、テキスト抽出手段４０は表部分に
未処理のカラムがあるか否かを判断し (ステップＳ
４）、未処理のカラムがあると判断した場合は処理対象
を次のカラムにした後 (ステップＳ５）、ステップＳ３
の処理に戻る。また、ステップＳ４で未処理のカラムが
ないと判断した場合は、テキスト抽出手段４０はその処
理を終了する。

【００３０】レイアウト解析手段３０からグラフ部分が
渡された場合 (ステップＳ１がＮＯ）は、テキスト抽出
手段４０は渡されたグラフ部分を上から下に向かってサ
ーチする (ステップＳ６）。

【００３１】そして、文字を検出すると (ステップＳ７
がＹＥＳ）、テキスト抽出手段４０は検出した文字が未
処理の文字か否かを判断する (ステップＳ８）。

【００３２】未処理の文字であると判断した場合 (ステ
ップＳ８がＹＥＳ）は、テキスト抽出手段４０はステッ
プＳ７で検出した文字を先頭にして空白列が現れるまで
行方向に文字を読み込む (ステップＳ９）。

【００３３】その後、テキスト抽出手段４０は次の行を
見にいき、ステップＳ９で文字列を読み込んだ列と同じ
列に文字が存在するか否かを判断する (ステップＳ１
０）。

【００３４】そして、存在すると判断した場合はステッ
プＳ９に戻り、上記した次の行に於いて空白列が現れる
まで文字を行方向に読み込む。

【００３５】ステップＳ１０の判断結果がＮＯとなるま
で、ステップＳ９，Ｓ１０の処理が繰り返し行なわれ、
ステップＳ１０の判断結果がＹＥＳとなると、テキスト
抽出手段４０はステップＳ９で読み込んだテキストの
内、未出力のテキストを連続する１文とみなして解析手
段５０及び文分割／結合手段７０に渡した後 (ステップ
Ｓ１１）、ステップＳ６の処理に戻る。即ち、テキスト
抽出手段４０はグラフ部分のテキストについては空白で
囲まれているテキストを連続する１文とみなして解析手
段５０及び文分割／結合手段７０に出力することにな
る。

【００３６】また、テキスト抽出手段４０はグラフ部分
の最後までサーチを行なった場合 (ステップＳ１２がＹ
ＥＳ）は、その処理を終了する。

【００３７】解析手段５０はテキスト抽出手段４０から
表内或いはグラフ内のテキストが渡されると、図３の流
れ図に示す処理を開始する。

【００３８】先ず、解析手段５０はテキスト抽出手段４
０から渡されたテキストが複数行か否かを判断する (ス
テップＳ２１）。

【００３９】複数行であると判断した場合は、解析手段
５０はテキストに対して形態素解析を行ない、形態素の
品詞に基づいて各形態素間の接続コストを求める (ステ
ップＳ２２）。更に、解析手段５０は構文解析を行な
い、各形態素の修飾関係等を調べる (ステップＳ２
３）。

【００４０】その後、解析手段５０はステップＳ２２で
求めた各形態素間の接続コストに基づいて各行間の接続
コストを求める (ステップＳ２４）。即ち、第ｉ行の最
後の形態素と第（ｉ＋１）行の先頭の形態素との接続コ
ストを第ｉ行と第（ｉ＋１）行との間の接続コストとす
る。但し、１つの形態素が第ｉ行と第（ｉ＋１）行の２
行にわたる場合は、第ｉ行と第（ｉ＋１）行との間の接
続コストを最も接続しやすいことを示すもの、即ち
「低」にする。

【００４１】各行間の接続コストを求めると、解析手段
５０は構文解析結果に基づいて、ステップＳ２５で第２
行目以降の各行の先頭に存在する形態素それぞれについ
て、それを修飾する形態素がそれよりも前にあるか否か
を示す修飾有無情報を生成する。

【００４２】即ち、第ｉ行の先頭の形態素を修飾する形
態素が第（ｉ−１）行を含めてそれよりも前にある場合
は第（ｉ−１）行と第ｉ行との間の修飾有無情報を修飾
有りを示す「有」にし、ない場合は第（ｉ−１）行と第
ｉ行との間の修飾有無情報を修飾無しを示す「無」にす
る。但し、１つの形態素が第（ｉ−１）行と第ｉ行の２
行にわたる場合は、第（ｉ−１）行と第ｉ行との間の修
飾有無情報を、修飾の有無にかかわらず修飾有りを示す
「有」にする。

【００４３】ステップＳ２４，Ｓ２５で各行間の接続コ
スト及び修飾有無情報を求めると、解析手段５０は各行
間の接続コスト及び修飾有無情報を判定手段６０に渡す
(ステップＳ２６）。

【００４４】判定手段６０は解析手段５０から各行間の
接続コスト及び修飾有無情報が送られてくると、図４に
示す判定基準に従って各行間が連続するか否かを判定
し、判定結果を文分割／結合手段７０に渡す。

【００４５】即ち、解析手段５０から渡された第ｉ行と
第（ｉ＋１）行との間の接続コストが「低」であり、接
続コストが第ｉ行と第（ｉ＋１）行とが接続しやすいこ
とを示している場合は、判定手段６０は修飾有無情報の
「有」，「無」にかかわらず、第ｉ行と第（ｉ＋１）行
とが連続すると判定する。また、解析手段５０から渡さ
れた第ｉ行と第（ｉ＋１）行との間の接続コストが
「中」，「高」である場合は、判定手段６０は修飾有無
情報が「無」の場合は連続しないと判定し、「有」の場
合は連続すると判定する。

【００４６】文分割／結合手段７０は判定手段６０から
判定結果が渡されると、その判定結果に従ってテキスト
抽出手段４０から渡されているテキストを分割または結
合し、出力手段８０に出力する。また、文分割／結合手
段７０で分割または結合したテキストを他の文書処理プ
ログラムの入力とすることもできる。

【００４７】

【発明の効果】以上説明したように、本発明は各行間の
接続コスト及び修飾の有無に基づいて表部分及びグラフ
部分のテキストの文切りを行なっているので、信頼性の
高い文切りを行なうことが可能になる効果がある。

【図面の簡単な説明】

【図１】本発明の実施例のブロック図である。

【図２】テキスト抽出手段４０の処理例を示す流れ図で
ある。

【図３】解析手段５０の処理例を示す流れ図である。

【図４】判定手段６０の判定基準の一例を示す図であ
る。

【図５】原文テキストの一例を示す図である。

【符号の説明】

１０…入力手段２０…記憶手段３０…レイアウト解析手段４０…テキスト抽出手段５０…解析手段６０…判定手段７０…文分割／結合手段８０…出力手段

Claims

【特許請求の範囲】

【請求項１】原文テキスト中の表部分及びグラフ部分
を抽出するレイアウト解析手段と、該レイアウト解析手段が抽出した表部分及びグラフ部分
に存在するテキストを、１文とみなせる単位毎に抽出す
るテキスト抽出手段と、該テキスト抽出手段が抽出した１文とみなせる単位毎に
形態素解析及び構文解析を行ない、前記１文とみなせる
単位の各行間の接続コスト及び修飾の有無を求める解析
手段と、該解析手段が求めた各行間の接続コスト及び修飾の有無
に基づいて前記１文とみなせる単位の各行が連続するか
否かを判定する判定手段と、該判定手段の判定結果に基づいて前記１文とみなせる単
位を文切りする文分割／結合手段とを備えたことを特徴
とする文切り装置。
【請求項２】前記テキスト抽出手段は、表部分のテキ
ストについては各カラム内に存在するテキストをそれぞ
れ１文とみなせる単位とし、グラフ部分のテキストにつ
いては空白で囲まれているテキストをそれぞれ１文とみ
なせる単位とすることを特徴とする請求項１記載の文切
り装置。