JPH06290209A - 文切り装置 - Google Patents

文切り装置

Info

Publication number
JPH06290209A
JPH06290209A JP5096694A JP9669493A JPH06290209A JP H06290209 A JPH06290209 A JP H06290209A JP 5096694 A JP5096694 A JP 5096694A JP 9669493 A JP9669493 A JP 9669493A JP H06290209 A JPH06290209 A JP H06290209A
Authority
JP
Japan
Prior art keywords
sentence
text
unit
regarded
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5096694A
Other languages
English (en)
Other versions
JPH07104865B2 (ja
Inventor
Akihiro Furukawa
章浩 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5096694A priority Critical patent/JPH07104865B2/ja
Publication of JPH06290209A publication Critical patent/JPH06290209A/ja
Publication of JPH07104865B2 publication Critical patent/JPH07104865B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 文書を一文ずつに文切りする文切り装置に於
いて、表部分及びグラフ部分に記述された文書の文切り
を精度良く行なう。 【構成】 原文テキストは入力手段10によって記憶手
段20に格納される。レイアウト解析手段30は記憶手
段20に記憶された原文テキスト中の表部分,グラフ部
分を抽出する。テキスト抽出手段40は表部分,グラフ
部分に存在するテキストを、1文とみなせる単位毎に抽
出する。解析手段50はテキスト抽出手段40が抽出し
た1文とみなせる単位毎に、形態素解析,構文解析を行
ない、1文とみなせる単位の各行間の接続コスト及び修
飾の有無を求める。判定手段60は各行間の接続コスト
及び修飾の有無に基づいて1文とみなせる単位の各行が
連続するか否かを判定する。文分割/結合手段70は判
定手段60の判定結果に基づいて上記1文とみなせる単
位の文切りを行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語で記述された文
書の文切りを行なう文切り装置に関し、特に、表やグラ
フ内に記述された文書の文切りを行なう文切り装置に関
する。
【0002】
【従来の技術】自然言語で記述された文書を機械翻訳す
る場合等、文書を文単位に分割すること、即ち文切りす
ることが必要になる。
【0003】従来はこのような場合、日本語文に於いて
は句点「。」に基づいて文切りを行ない、英語文に於い
てはピリオド「.」に基づいて文切りを行なっていた
(例えば、特開昭64−61863号公報)。
【0004】文書中に句点やピリオドがあれば、上記し
た従来の技術に基づいて容易に文切りを行なうことがで
きる。
【0005】しかし、表中の文書やグラフ中の文書は一
般に句点やピリオドを用いないため、表,グラフ中に複
数行の文が存在している場合、上述した従来技術ではそ
れが連続した1文が折り返されたものなのか、複数の文
が並記されたものなのかを判別することができない。
【0006】そこで、隣接する形態素(単語)が接続可
であるか否かを隣接する形態素の品詞に基づいて判定す
るという技術(例えば、特開昭61−16367号公
報)を用いて表中の文書やグラフ中の文書を文切りする
ということが考えられる。即ち、第i行目の最後の形態
素の品詞と第(i+1)行目の最初の形態素の品詞とに
基づいて両者が接続可であるか否かを判定し、接続可で
あれば、第i行と第(i+1)行は連続した文と判定
し、接続不可であれば、第i行と第(i+1)行は異な
る文と判定するものである。
【0007】
【発明が解決しようとする課題】しかし、上記した技術
は隣接する形態素の品詞に基づいて連続した文か否かを
判定しているだけであるので、判定誤りが生じやすいと
いう問題があった。例えば、名詞+動詞の並びは一般的
には接続しにくいが、「私行く」のように接続する場合
もあるので、隣接する形態素の品詞に基づいて連続した
文か否かを判定するだけでは判定誤りが生じやすい。
【0008】本発明の目的は表,グラフ中の文書を文切
りする際、判定誤りの生じにくい文切り装置を提供する
ことにある。
【0009】
【課題を解決するための手段】本発明は上記目的を達成
するため、原文テキスト中の表部分及びグラフ部分を抽
出するレイアウト解析手段と、該レイアウト解析手段が
抽出した表部分及びグラフ部分に存在するテキストを、
1文とみなせる単位毎に抽出するテキスト抽出手段と、
該テキスト抽出手段が抽出した1文とみなせる単位毎に
形態素解析及び構文解析を行ない、前記1文とみなせる
単位の各行間の接続コスト及び修飾の有無を求める解析
手段と、該解析手段が求めた各行間の接続コスト及び修
飾の有無に基づいて前記1文とみなせる単位の各行が連
続するか否かを判定する判定手段と、該判定手段の判定
結果に基づいて前記1文とみなせる単位を文切りする文
分割/結合手段とを設けたものである。
【0010】
【作用】原文テキスト中の表部分及びグラフ部分がレイ
アウト解析手段によって抽出され、表部分及びグラフ部
分に存在するテキストが1文とみなせる単位毎にテキス
ト抽出手段によって抽出される。
【0011】解析手段はテキスト抽出手段が抽出した1
文とみなせる単位毎に形態素解析及び構文解析を行な
い、1文とみなせる単位の各行間の接続コスト及び修飾
の有無を求める。
【0012】判定手段は解析手段が求めた各行間の接続
コスト及び修飾の有無に基づいてテキスト抽出手段が抽
出した単位の各行が連続するか否かを判定する。
【0013】文分割/結合手段は判定手段の判定結果に
従って抽出手段が抽出した1文とみなせる単位を文切り
する。
【0014】
【実施例】次に本発明の実施例について図面を参照して
詳細に説明する。
【0015】図1は本発明の実施例のブロック図であ
り、入力手段10と、記憶手段20と、レイアウト解析
手段30と、テキスト抽出手段40と、解析手段50
と、判定手段60と、文分割/結合手段70と、出力手
段80とから構成されている。
【0016】入力手段10は自然言語で記述された原文
テキストを入力するものであり、フロッピーディスク装
置,磁気テープ装置,光学読み取り装置(OCR),キ
ーボード等によって構成される。
【0017】記憶手段20は入力手段10が入力した原
文テキストを記憶するものであり、メモリ装置や磁気デ
ィスク装置等のコンピュータ内の記憶装置によって構成
される。
【0018】レイアウト解析手段30は記憶手段20に
記憶された原文テキストを、表部分と、グラフ部分と、
テキスト部分(文字列部分)とに分割し、表部分及びグ
ラフ部分をテキスト抽出手段40に渡す。記憶手段20
に記憶されている原文テキストが2次元のレイアウト情
報と属性を表現する種々の文書交換標準形式(例えば、
SGML,Postscript等)により記述された
ものである場合は、これら文書交換標準形式に対する解
析プログラムをレイアウト解析手段30とすることがで
きる。
【0019】テキスト抽出手段40はレイアウト解析手
段30から渡された表部分,グラフ部分に存在するテキ
ストを、1文とみなせる単位毎に抽出し、解析手段50
及び文分割/結合手段70に渡す機能を有する。
【0020】解析手段50はテキスト抽出手段40から
渡されたテキストに対して形態素解析及び構文解析を行
なう機能と、解析結果に基づいて行間の接続コストを求
める機能と、解析結果に基づいて第2行目以降の先頭の
形態素を修飾する形態素がそれよりも前に存在するか否
かを調べて存在の有無を示す修飾有無情報を作成する機
能と、接続コスト及び修飾有無情報を判定手段60に出
力する機能とを有する。尚、接続コストは接続しやすさ
を示す情報であり、本実施例では「低」,「中」,
「高」の3段階で接続のしやすさを表すものとする。ま
た、接続コストが低い程、接続しやすいものとする。
【0021】判定手段60は解析手段50からの接続コ
スト及び修飾有無情報に基づいて或る行と次の行とが連
続するか否かを判定する機能を有する。
【0022】文分割/結合手段70は判定手段60の判
定結果に従ってテキスト抽出手段40から渡されたテキ
ストを分割した形或いは結合した形で出力する機能を有
する。
【0023】出力手段80は外部との入出力を図る手段
であり、フロッピーディスク装置,磁気テープ装置,プ
リンタ,ディスプレイ装置等により構成される。
【0024】図2はテキスト抽出手段40の処理例を示
す流れ図、図3は解析手段50の処理例を示す流れ図、
図4は判定手段60の判定基準の一例を示した図であ
り、以下各図を参照して本実施例の動作を説明する。
【0025】入力手段10は自然言語で記述された原文
テキストを入力し、記憶手段20に格納する。
【0026】記憶手段20に原文テキストが格納される
と、レイアウト解析手段30は原文テキストを表部分
と、グラフ部分と、テキスト部分とに分割し、表部分と
グラフ部分とをテキスト抽出手段40に渡す。今、例え
ば、記憶手段20に格納された原文テキストが図5に示
すものであるとすると、原文テキストをテキスト部分5
1と、グラフ部分52と、表部分53とに分割し、グラ
フ部分52及び表部分53をテキスト抽出手段40に渡
すことになる。
【0027】テキスト抽出手段40はレイアウト解析手
段30から表部分或いはグラフ部分が渡されると、図2
の流れ図に示す処理を開始する。
【0028】表部分が渡された場合(ステップS1がY
ES)は、テキスト抽出手段40は、先ず、表の先頭の
カラムを処理対象とし (ステップS2)、先頭のカラム
内のテキストを連続する1文とみなして解析手段50に
渡す (ステップS3)。
【0029】その後、テキスト抽出手段40は表部分に
未処理のカラムがあるか否かを判断し (ステップS
4)、未処理のカラムがあると判断した場合は処理対象
を次のカラムにした後 (ステップS5)、ステップS3
の処理に戻る。また、ステップS4で未処理のカラムが
ないと判断した場合は、テキスト抽出手段40はその処
理を終了する。
【0030】レイアウト解析手段30からグラフ部分が
渡された場合 (ステップS1がNO)は、テキスト抽出
手段40は渡されたグラフ部分を上から下に向かってサ
ーチする (ステップS6)。
【0031】そして、文字を検出すると (ステップS7
がYES)、テキスト抽出手段40は検出した文字が未
処理の文字か否かを判断する (ステップS8)。
【0032】未処理の文字であると判断した場合 (ステ
ップS8がYES)は、テキスト抽出手段40はステッ
プS7で検出した文字を先頭にして空白列が現れるまで
行方向に文字を読み込む (ステップS9)。
【0033】その後、テキスト抽出手段40は次の行を
見にいき、ステップS9で文字列を読み込んだ列と同じ
列に文字が存在するか否かを判断する (ステップS1
0)。
【0034】そして、存在すると判断した場合はステッ
プS9に戻り、上記した次の行に於いて空白列が現れる
まで文字を行方向に読み込む。
【0035】ステップS10の判断結果がNOとなるま
で、ステップS9,S10の処理が繰り返し行なわれ、
ステップS10の判断結果がYESとなると、テキスト
抽出手段40はステップS9で読み込んだテキストの
内、未出力のテキストを連続する1文とみなして解析手
段50及び文分割/結合手段70に渡した後 (ステップ
S11)、ステップS6の処理に戻る。即ち、テキスト
抽出手段40はグラフ部分のテキストについては空白で
囲まれているテキストを連続する1文とみなして解析手
段50及び文分割/結合手段70に出力することにな
る。
【0036】また、テキスト抽出手段40はグラフ部分
の最後までサーチを行なった場合 (ステップS12がY
ES)は、その処理を終了する。
【0037】解析手段50はテキスト抽出手段40から
表内或いはグラフ内のテキストが渡されると、図3の流
れ図に示す処理を開始する。
【0038】先ず、解析手段50はテキスト抽出手段4
0から渡されたテキストが複数行か否かを判断する (ス
テップS21)。
【0039】複数行であると判断した場合は、解析手段
50はテキストに対して形態素解析を行ない、形態素の
品詞に基づいて各形態素間の接続コストを求める (ステ
ップS22)。更に、解析手段50は構文解析を行な
い、各形態素の修飾関係等を調べる (ステップS2
3)。
【0040】その後、解析手段50はステップS22で
求めた各形態素間の接続コストに基づいて各行間の接続
コストを求める (ステップS24)。即ち、第i行の最
後の形態素と第(i+1)行の先頭の形態素との接続コ
ストを第i行と第(i+1)行との間の接続コストとす
る。但し、1つの形態素が第i行と第(i+1)行の2
行にわたる場合は、第i行と第(i+1)行との間の接
続コストを最も接続しやすいことを示すもの、即ち
「低」にする。
【0041】各行間の接続コストを求めると、解析手段
50は構文解析結果に基づいて、ステップS25で第2
行目以降の各行の先頭に存在する形態素それぞれについ
て、それを修飾する形態素がそれよりも前にあるか否か
を示す修飾有無情報を生成する。
【0042】即ち、第i行の先頭の形態素を修飾する形
態素が第(i−1)行を含めてそれよりも前にある場合
は第(i−1)行と第i行との間の修飾有無情報を修飾
有りを示す「有」にし、ない場合は第(i−1)行と第
i行との間の修飾有無情報を修飾無しを示す「無」にす
る。但し、1つの形態素が第(i−1)行と第i行の2
行にわたる場合は、第(i−1)行と第i行との間の修
飾有無情報を、修飾の有無にかかわらず修飾有りを示す
「有」にする。
【0043】ステップS24,S25で各行間の接続コ
スト及び修飾有無情報を求めると、解析手段50は各行
間の接続コスト及び修飾有無情報を判定手段60に渡す
(ステップS26)。
【0044】判定手段60は解析手段50から各行間の
接続コスト及び修飾有無情報が送られてくると、図4に
示す判定基準に従って各行間が連続するか否かを判定
し、判定結果を文分割/結合手段70に渡す。
【0045】即ち、解析手段50から渡された第i行と
第(i+1)行との間の接続コストが「低」であり、接
続コストが第i行と第(i+1)行とが接続しやすいこ
とを示している場合は、判定手段60は修飾有無情報の
「有」,「無」にかかわらず、第i行と第(i+1)行
とが連続すると判定する。また、解析手段50から渡さ
れた第i行と第(i+1)行との間の接続コストが
「中」,「高」である場合は、判定手段60は修飾有無
情報が「無」の場合は連続しないと判定し、「有」の場
合は連続すると判定する。
【0046】文分割/結合手段70は判定手段60から
判定結果が渡されると、その判定結果に従ってテキスト
抽出手段40から渡されているテキストを分割または結
合し、出力手段80に出力する。また、文分割/結合手
段70で分割または結合したテキストを他の文書処理プ
ログラムの入力とすることもできる。
【0047】
【発明の効果】以上説明したように、本発明は各行間の
接続コスト及び修飾の有無に基づいて表部分及びグラフ
部分のテキストの文切りを行なっているので、信頼性の
高い文切りを行なうことが可能になる効果がある。
【図面の簡単な説明】
【図1】本発明の実施例のブロック図である。
【図2】テキスト抽出手段40の処理例を示す流れ図で
ある。
【図3】解析手段50の処理例を示す流れ図である。
【図4】判定手段60の判定基準の一例を示す図であ
る。
【図5】原文テキストの一例を示す図である。
【符号の説明】
10…入力手段 20…記憶手段 30…レイアウト解析手段 40…テキスト抽出手段 50…解析手段 60…判定手段 70…文分割/結合手段 80…出力手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 原文テキスト中の表部分及びグラフ部分
    を抽出するレイアウト解析手段と、 該レイアウト解析手段が抽出した表部分及びグラフ部分
    に存在するテキストを、1文とみなせる単位毎に抽出す
    るテキスト抽出手段と、 該テキスト抽出手段が抽出した1文とみなせる単位毎に
    形態素解析及び構文解析を行ない、前記1文とみなせる
    単位の各行間の接続コスト及び修飾の有無を求める解析
    手段と、 該解析手段が求めた各行間の接続コスト及び修飾の有無
    に基づいて前記1文とみなせる単位の各行が連続するか
    否かを判定する判定手段と、 該判定手段の判定結果に基づいて前記1文とみなせる単
    位を文切りする文分割/結合手段とを備えたことを特徴
    とする文切り装置。
  2. 【請求項2】 前記テキスト抽出手段は、表部分のテキ
    ストについては各カラム内に存在するテキストをそれぞ
    れ1文とみなせる単位とし、グラフ部分のテキストにつ
    いては空白で囲まれているテキストをそれぞれ1文とみ
    なせる単位とすることを特徴とする請求項1記載の文切
    り装置。
JP5096694A 1993-03-31 1993-03-31 文切り装置 Expired - Fee Related JPH07104865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5096694A JPH07104865B2 (ja) 1993-03-31 1993-03-31 文切り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5096694A JPH07104865B2 (ja) 1993-03-31 1993-03-31 文切り装置

Publications (2)

Publication Number Publication Date
JPH06290209A true JPH06290209A (ja) 1994-10-18
JPH07104865B2 JPH07104865B2 (ja) 1995-11-13

Family

ID=14171889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5096694A Expired - Fee Related JPH07104865B2 (ja) 1993-03-31 1993-03-31 文切り装置

Country Status (1)

Country Link
JP (1) JPH07104865B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212293A (ja) * 1995-01-31 1996-08-20 Toshiba Corp Sgmlタグ付与処理システム
JP2010067112A (ja) * 2008-09-12 2010-03-25 Toshiba Corp 機械翻訳システム及び機械翻訳プログラム
JP2011081516A (ja) * 2009-10-05 2011-04-21 Ns Solutions Corp 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009078183A1 (ja) * 2007-12-19 2009-06-25 Nec Corporation 文書分割システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212293A (ja) * 1995-01-31 1996-08-20 Toshiba Corp Sgmlタグ付与処理システム
JP2010067112A (ja) * 2008-09-12 2010-03-25 Toshiba Corp 機械翻訳システム及び機械翻訳プログラム
JP2011081516A (ja) * 2009-10-05 2011-04-21 Ns Solutions Corp 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPH07104865B2 (ja) 1995-11-13

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
KR100912502B1 (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
EP0952533B1 (en) Text summarization using part-of-speech
US7756871B2 (en) Article extraction
JP3356536B2 (ja) 機械翻訳装置
US4962452A (en) Language translator which automatically recognizes, analyzes, translates and reinserts comments in a sentence
JP4256891B2 (ja) 機械翻訳の精度を向上させる技術
JP2765665B2 (ja) タイポグラフィカル情報付き文書の翻訳装置
JPH077410B2 (ja) 文書レイアウト方法
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
JPH06290209A (ja) 文切り装置
JPH0412505B2 (ja)
JPH0883280A (ja) 文書処理装置
US5640581A (en) CD-ROM information editing apparatus
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP3353873B2 (ja) 機械翻訳装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JP3244286B2 (ja) 翻訳処理装置
JP2000029882A (ja) 要約文作成装置
JPH08235180A (ja) 機械翻訳装置
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP2608384B2 (ja) 機械翻訳装置及びその方法
JPH08190570A (ja) 文書データの比較検証システム
JPH0756924A (ja) 対訳装置
JPH11224250A (ja) 辞書装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071113

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081113

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081113

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091113

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees