JPH1040248A - 文書処理装置及び文書管理方法 - Google Patents

文書処理装置及び文書管理方法

Info

Publication number
JPH1040248A
JPH1040248A JP8197853A JP19785396A JPH1040248A JP H1040248 A JPH1040248 A JP H1040248A JP 8197853 A JP8197853 A JP 8197853A JP 19785396 A JP19785396 A JP 19785396A JP H1040248 A JPH1040248 A JP H1040248A
Authority
JP
Japan
Prior art keywords
paragraph
connection
paragraphs
character string
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8197853A
Other languages
English (en)
Inventor
Toshihiro Aiyoshi
敏弘 相吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8197853A priority Critical patent/JPH1040248A/ja
Publication of JPH1040248A publication Critical patent/JPH1040248A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】複雑な段組みを持つ文書に対しても正しく段落
を接続することができるようにする。 【解決手段】文書データから連続する文字列の固まりか
ら構成される段落を抽出する段落抽出部14と、抽出さ
れた段落の位置と、各段落に含まれる文字列に対する文
書処理の順番を表す段落の接続順を示すデータを記憶す
るための段落情報データ記憶部16と、抽出された複数
の段落からある段落に対して次に接続されるべき段落の
候補を選択する段落接続先検索部24と、選択された段
落の先頭の文字列とある段落の段落末の文字列とを接続
して連続する文字列を生成し、接続の妥当性を判別する
ための解析を行なう解析部18と、解析結果に基づいて
段落の接続順を判定して、段落情報データ記憶部に各段
落の接続順を示すデータを記憶させる段落接続判定部2
6とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の段落を渡っ
て連続する文字列について文書処理を実行する文書処理
装置及び文書管理方法に関する。
【0002】
【従来の技術】一般に、文書処理装置においては、光学
式文字読取り装置(OCR)のように紙上の段組み表現
を保持できる入力装置を用いて、新聞や雑誌などの紙面
を読み取らせ、その読み取り結果に対して機械翻訳や校
正支援などの文書処理を行なうことができる。
【0003】この時、読みとり対象に図表が含まれてい
たり、大きな見出しがあったりした場合、文書部分はそ
れらを境にして、いくつかの固まりに分けられ、それを
一まとまり(「段落」と呼ぶことにする)として文書処
理が行われる。
【0004】例えば、新聞紙面から読み取られたデータ
については、図13(a)中に矩形で示すような段落に
文書を分割し、それぞれの段落単位、あるいはそれぞれ
の段落の文書を接続することで一続きの文書として、そ
の後の文書処理(機械翻訳、校正支援)を行っている。
【0005】文書処理装置は、複数の段落の文書を接続
して一続きの文書とする場合には、例えば日本語の場合
なら「上から下へ」、「横書きなら、左から右へ」、
「縦書きなら、右から左へ」というように言語の固有の
縦・横の記述方向の位置関係から複数の段落の接続関係
を判定している。
【0006】
【発明が解決しようとする課題】このように従来の文書
処理装置では、複数の段落に分割される文書については
段落内の文書を接続した上で文書処理を行なっていた。
しかしながら、文書処理装置においては、例えば日本語
の場合なら「上から下へ」、「横書きなら、左から右
へ」、「縦書きなら、右から左へ」というように言語の
固有の縦・横の記述方向に単純に従って文書処理を行っ
ているため、見出し語の位置や余白の取り方などの段組
みの関係で記述方向が前述したような単純な位置関係の
みでは決められない場合がある。
【0007】こうした場合には、本来、文書の内容がつ
ながらない段落同士をつなげてしまい、正しい文書処理
(機械翻訳、校正支援)を行なうことができないという
問題があった。
【0008】例えば、図13(b)に示すような、段組
みを持った日本語縦書き文書の場合、段落A内の文書処
理を行った後、次に段落Bと段落Cの何れの文書を処理
対象とするかは、段落の位置関係からでは明確に何れか
一方を選択することができず正しく文書処理を行なうこ
とができない場合があった。
【0009】本発明は前記のような事情を考慮してなさ
れたもので、複雑な段組みを持つ文書に対しても正しく
段落を接続できる文書処理装置及び文書管理方法を提供
することを目的とする。
【0010】
【課題を解決するための手段】本発明は、連続する文字
列について文書処理を実行する文書処理装置において、
文書処理の対象とする文字列の情報とその他の情報が混
在する文書データから連続する文字列の固まりから構成
される段落をレイアウト上の位置関係をもとに抽出する
段落抽出手段と、前記段落抽出手段によって抽出された
段落の位置と、各段落に含まれる文字列に対する文書処
理の順番を表す段落の接続順を示すデータを記憶するた
めの段落情報データ記憶手段と、前記段落抽出手段によ
って抽出された複数の段落から、ある段落に対して次に
接続されるべき段落の候補を選択する段落接続先検索手
段と、前記段落接続先検索手段によって選択された段落
の先頭の文字列と前記ある段落の段落末の文字列とを接
続して連続する文字列を生成し、接続の妥当性を判別す
るための解析を行なう解析処理手段と、前記解析処理手
段による解析結果に基づいて段落の接続順を判定して、
前記段落情報データ記憶手段に各段落の接続順を示すデ
ータを記憶させる段落接続判定手段とを具備し、前記段
落情報データ記憶手段に記憶された段落の接続順に連続
する文字列に対して文書処理を実行することを特徴とす
る。
【0011】また、前記解析処理手段は、形態素解析処
理による単語同士の接続の妥当性から文字列の接続の妥
当性を判定することを特徴とする。また、前記解析処理
手段は、形態素解析、構文解析、意味解析を選択的に実
行することにより、文字列の接続の妥当性を判定するこ
とを特徴とする。
【0012】こうして、段落間を渡る文字列に対して、
文字列の接続の妥当性を判別するための解析を行ない、
この解析結果から段落のつながりを判定する手段を新た
に付加したことにより、段落同士のつながりを精度よく
検出できるようになるから、複雑な段組みを持った文書
データに対しても、間違った段落をつなげて文書処理を
してしまうことがなくなる。
【0013】また、前記段落抽出手段によって抽出され
た段落中の文字列から段落間で文字列が接続されている
ことを示す段落接続記号を抽出して、この段落接続記号
をもとに、ある段落に対して接続先となる段落を選択す
る段落接続記号参照手段を具備し、前記段落接続先検索
手段は、前記段落接続記号参照手段によって選択された
段落を候補として選択することを特徴とする。
【0014】こうして、斜め矢印など段落間の文字列の
接続関係を示す段落接続記号を参照して段落のつながり
先を見つけだすことができる手段を新たに付加したこと
により、直接文書中の段落のつながりに関わる段落接続
記号の情報を有効に利用することができるようになるか
ら、正しい段落のつながりを見つけだす精度が向上す
る。また、最初に正しい接続先の段落が選択できるよう
になるため、処理速度が向上する。
【0015】また、前記段落接続判定手段によって判定
された段落の接続順を任意に変更する接続段落修正手段
を具備したことを特徴とする。これにより、複数の段落
中から接続先と判定された段落が誤りであった場合に、
判定結果を修正する接続段落修正手段を新たにつけ加え
たことにより、誤判定のまま文書処理が続けられること
がなくなり、文書処理効率が向上する。
【0016】また、前記段落抽出手段によって抽出され
た複数の段落に対して、任意の段落間の接続関係を指定
するための段落処理順番指定手段を具備し、前記段落接
続先検索手段は、前記段落処理順番指定手段によって指
定された接続関係を参照すると共に、指定されていない
他の段落を対象として段落の候補を選択することを特徴
とする。
【0017】こうして、機械翻訳や構成支援などの文書
処理前に段落の処理順番を指定できることにより、接続
判定処理にかかる時間を低減させることを優先するため
に処理順番を指定するか、あるいは処理順番を指定する
手間をかけても接続判定処理で失敗するリスクを低減す
ることを優先するかを選択することができる。
【0018】また、前記段落抽出手段によって抽出され
た各段落内で用いられている色を識別する色識別手段を
具備し、前記段落接続先検索手段は、前記色識別手段に
よって識別された色をもとに段落の候補を選択すること
を特徴とする。
【0019】これより、1ページ中の紙面の色の違いに
よって段落のつながりがわかるような入力原稿があった
ときに、カラースキャナなどの入力手段を用いることに
よって、紙面の色や文字の色の違いを文書データに反映
させることができるので、色識別手段を新たにつけ加え
ることにより、記事によって例えば文字の背景色が異な
る文書で、請求項1の方法より接続先の段落候補を絞る
ことができるようになるので、接続判定の精度が向上す
る。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。図1は本実施形態に係わる
文書処理装置の構成を示すブロック図である。本実施形
態における文書処理装置は、記録媒体(磁気ディスク、
光ディスク、半導体メモリ)に記録されたプログラムを
読み込み、このプログラムによって動作が制御されるコ
ンピュータによって実現される。
【0021】図1に示すように、本実施形態における文
書処理装置は、入力部10、データ記憶部12、段落抽
出部14、段落情報データ記憶部16、解析部18、解
析辞書20、段落接続制御部22、段落接続先検索部2
4、接続判定部26、接続段落修正部28、表示装置3
0によって構成されている。
【0022】入力部10は、文字や図・記号のデータ
(以下、文書データと称する。)、及び種々の指令を入
力するためのものである。文字や図・記号のデータ(文
書データ)は、光学式文字読取り装置(OCR)のよう
に紙上の段組み表現を保持できる形式で入力される。ま
た、段組み表現だけでなく、カラースキャナを用いるこ
とで文字や図・記号の色、その背景の色を示すデータの
入力も行なう。
【0023】データ記憶部12は、入力部10によって
入力された文書データ(段組表現を保持する形式、文字
や背景の色を示すデータを含む)を記憶するためのもの
である。文書データは、段組み表現されたものを含んで
いる。
【0024】段落抽出部14は、データ記憶部12に記
憶されている文書データについて、文字、図形・記号の
位置関係から、内容的な一まとまりである段落に分割す
るものである。
【0025】段落情報データ記憶部16は、段落抽出部
14によって分割された段落の位置、各段落に対して接
続判定部26によって判定された段落の接続順(文書処
理の処理順)を示すデータを記憶するものである。
【0026】解析部18は、データ記憶部12に記憶さ
れた文書データについて解析辞書20に登録された情報
を参照しながら、文字列の接続の妥当性を判定するため
の解析を行なうもので、形態素解析部18a、構文解析
部18b、意味解析部18cによって構成されている。
解析部18は、形態素解析部18a、構文解析部18
b、意味解析部18cを選択的に起動させる。
【0027】形態素解析部18aは、解析辞書20の形
態素解析辞書20aを参照しながら形態素解析を行な
う。構文解析部18bは、解析辞書20の構文解析辞書
20bを参照しながら、形態素解析部18aによる形態
素解析結果を利用して構文解析を行なう。意味解析部1
8cは、解析辞書20の意味解析辞書20cを参照しな
がら、構文解析部18bによる構文解析結果を利用して
意味解析を行なう。
【0028】解析辞書20は、解析部18による文解析
の際に参照されるもので、形態素解析辞書20a、構文
解析辞書20b、意味解析辞書20cを含んで構成され
ている。
【0029】段落接続制御部22は、段落接続先検索部
24が複数の段落の中から、ある段落に対する段落接続
先を検索する際の段落を特定するための制御を行なうも
ので、段落処理順番指定部22a、段落接続記号参照部
22b、背景色識別部22cを含んで構成されている。
段落接続制御部22は、段落処理順番指定部22a、段
落接続記号参照部22b、背景色識別部22cを選択的
に起動させる。
【0030】段落処理順番指定部22aは、段落情報デ
ータ記憶部16に記憶された複数の段落に対して、接続
判定部26による判定前に入力部10を介して処理順の
指定を入力し、段落接続先検索部24に通知する。段落
接続記号参照部22bは、データ記憶部12に記憶され
た文書データ中に含まれる段落の接続関係を示す段落接
続記号を参照して、段落の接続先を検出して段落接続先
検索部24に通知する。背景色識別部22cは、データ
記憶部12に記憶された文書データ中に含まれる文字の
背景色あるいは文字の色等を示すデータを参照して、段
落の接続先を検出して段落接続先検索部24に通知す
る。
【0031】段落接続先検索部24は、解析部18によ
る解析結果をもとにした接続判定部26による判定結
果、あるいは段落接続制御部22からの通知に基づい
て、段落情報データ記憶部16に記憶された複数の段落
から次に処理対象とすべき段落の候補を選択する。
【0032】接続判定部26は、解析部18による解析
結果をもとにして、段落接続先検索部24によって選択
された段落の候補について、段落の接続の正当性を判定
し、この判定結果に応じて段落情報データ記憶部16に
該当する段落に対して段落の接続順を示すデータを記憶
させる。
【0033】接続段落修正部28は、接続判定部26に
よりある段落に対して接続先として判定された段落を、
段落情報データ記憶部16に記憶された段落の接続順を
示すデータを修正することで変更する。
【0034】表示装置30は、データ記憶部12に記憶
された文書データを表示する。次に、本実施形態におけ
る文書処理装置の基本的な動作について、図2に示すフ
ローチャートを参照しながら説明する。
【0035】ここでは、文書処理として日本語による文
書を他国語の文書に変換する機械翻訳を行なう場合を例
にして説明する。文書処理装置は、入力した文書データ
について、段落組みによって分割されている文書を接続
することで一続きの文書としながら機械翻訳を行なう。
【0036】まず、入力部10は、OCR等を介して、
新聞・雑誌等から文書データを入力する(ステップA
1)。入力された文書データは、データ記憶部12に格
納され、表示装置3に表示される。図3には、データ記
憶部12に格納された文書データをもとに表示された文
書の一例を示している。
【0037】文書データには、紙上の段組み表現を保持
できる形式をもち、また文字が存在する領域の背景の色
(あるいは文字の色)を示すデータが付加されているも
のとする。
【0038】データ記憶部12に記憶された文書データ
に対して、段落抽出部14は、文書の表面的な文字配置
や文字サイズ、図表の位置などから文書部分を段落分け
して、段落分けの結果を表す段落情報データを生成して
段落情報データ記憶部16に記憶させる(ステップA
2)。段落情報データには、段落につけた名前(ラベ
ル)、段落の位置を示すデータを含み、各段落に対して
後段の処理において段落の接続順(処理順番)を示すデ
ータが付加される。
【0039】図3に示す文書データの例では、文書部分
が4つの段落に領域分けされ、それぞれの段落に段落
A,B,C,Dのラベルが付与されたものとする。図4
には段落情報データ記憶部16に記憶された段落情報デ
ータの内容の一例を示している。段落位置は、段落の領
域を示す矩形枠の対角の2点の座標によって定義されて
いる。
【0040】段落抽出部14によって文書データから段
落が抽出されると、段落接続先検索部24は、最初に処
理すべき段落を選択する(ステップA3)。ここでは、
段落抽出部14は、文書の基本規則、すなわち横書きの
日本語の場合なら「上から下へ」、「左から右へ」の順
で記述されることに基づいて段落を選択する。従って、
図3においては、左上に位置するラベルAの段落(以
下、段落A)が選択されたものとする。
【0041】なお、最初にどの段落から処理を開始する
かは、縦書きの日本語ならば最も右上に位置する段落を
自動的に選択し、また基本規則に従う選択方法に限ら
ず、入力部10から入力された指示に応じて任意の段落
を選択する方法であっても良い。
【0042】段落接続先検索部24によって段落が選択
されると、選択された段落中から1文単位で取得されて
文書処理(翻訳処理)が実行される(ステップA4)。
翻訳が成功した場合には(ステップA5)、ステップA
4に戻り、そのまま次の文へ翻訳処理を進める。
【0043】翻訳が失敗したときには(ステップA
5)、その文が段落末でなければ単なる翻訳処理失敗と
してエラー処理し、ステップA4へ戻って次の文へ処理
を進める(ステップA6)。
【0044】また、翻訳が失敗し、かつステップA4に
おいて取得した文が段落末にあった場合には、そこが例
えば句点によって区分された文書末であれば、その文が
単なる翻訳処理失敗だったとしてエラー処理し、文書処
理を終える。
【0045】一方、文書末でなければ、段落末で文が途
中で切れていたために翻訳処理に失敗したものと判別さ
れ、段落接続先検索部24は、段落Aにつながる段落
を、段落情報データ記憶部16に記憶された段落情報デ
ータを参照して未処理の段落の中から仮に一つ選択する
(ステップA8)。
【0046】ここで段落接続先検索部24は、例えば基
本規則に従って、段落接続先の候補の中から1つの段落
を選択するものとする。図3に示す例では、段落Aに対
する段落の接続は、図5に示すように、段落の位置関係
から右上の段落(以下、段落C)に対する(A)の接続
と、左下の段落(以下、段落B)に対する(B)の接続
が候補となる。
【0047】段落接続先検索部24は、最初に段落Aに
接続する段落の候補として、段落Cを選択したものとす
る(図5に示す接続(A))。解析部18は、先に処理
対象としていた段落Aで翻訳処理に失敗した段落末の1
文と、段落接続先検索部24によって選択された段落C
の先頭の1文とをつなげた文字列データを作り、その文
字列に対して文解析を行なう。
【0048】なお、必ずしも、文単位で段落末の文字列
と先頭の文字列を接続する必要はなく、段落の区切り部
分を含めば任意の単語単位で文字列を接続するようにし
ても良い。
【0049】ここでは、段落Aと段落Cの文字列を接続
して、図6(A)(a)に示すように、「注意深く見守
って」という文字列が生成され、解析処理が実行される
ものとする。まず、解析部18は、形態素解析部18a
を起動して、生成された文字列に対して形態素解析処理
を実行する(ステップA9)。
【0050】形態素解析処理の中では、文字列内の単語
に対応する品詞や活用形、それに品詞間の接続の妥当性
が記述された形態素解析辞書20aを検索して、文字列
を日本語として自然な単語の系列として構成できるかど
うかを調べる。
【0051】この結果、文字列「注意深く見守って」に
ついては、図6(A)(b)に示すような形態素解析結
果が得られ、自然な日本語として単語の系列に分解され
るので、接続可能という段落接続評価が得られる(ステ
ップA10)。解析部18は、この解析結果を接続判定
部26に通知する。
【0052】接続判定部26は、形態素解析部18aに
よる解析結果から段落Cが段落Aの接続先として適当で
あるかどうかを、図6(A)(a)の文字列の解析結果
から判定し、この結果、段落Cを接続可能とする(ステ
ップA10)。
【0053】次に、段落接続先検索部24は、段落Aの
接続先となる段落の候補が残っているかを調べ、この結
果、未判定の段落があるので再びステップA8に戻る
(ステップA11)。
【0054】段落接続先検索部24は、残っている接続
候補から段落Bを選択したものとする(図5に示す接続
(B))。解析部18は、先に処理対象としていた段落
Aで翻訳処理に失敗した段落末の1文と、段落接続先検
索部24によって選択された段落Bの先頭の1文とをつ
なげた文字列データを作り、前述と同様にして、その文
字列に対して文解析を行なう。
【0055】すなわち、段落Aと段落Bの文字列を接続
して、図6(B)(a)に示すように、「注意深には明
らかに」という文字列が生成され、解析部18の形態素
解析部18aによって形態素解析処理が施される(ステ
ップA9)。
【0056】この結果、文字列「注意深には明らかに」
については、図6(B)(b)に示すような形態素解析
結果が得られ、段落渡りの部分で解析に失敗し、自然な
日本語として単語系列に分解できないので、接続不可と
いう段落接続評価が得られる(ステップA10)。解析
部18は、この解析結果を接続判定部26に通知する。
【0057】接続判定部26は、形態素解析部18aに
よる解析結果から段落Cが段落Bの接続先として適当で
あるかどうかを、図6(B)(a)の文字列の解析結果
から判定し、段落Bを接続不可として段落接続先候補か
ら除外する(ステップA10)。
【0058】再び、段落接続先検索部24は、段落Aの
接続先となる段落の候補を検索するが、未判定の段落は
ないので、段落接続先検索の完了を接続判定部26に通
知する(ステップA11)。
【0059】接続判定部26は、接続候補の中から段落
Aと接続可能となった段落Cを選択して、段落情報デー
タ記憶部16に記憶された段落情報データに対して、段
落Cの処理順番が段落Aに次ぐことを示すように設定す
る(ステップA12)。
【0060】そして、ステップA4に戻って、段落Aの
段落末の文字列から段落Cの文字列に渡って機械翻訳処
理が再開され、処理が続けられる。以下、同様にして各
段落の段落末において、現在、処理対象としている段落
と接続の可能性があり、他の段落との接続が確定されて
いない段落を接続候補として文字列を生成して形態素解
析を行なうことで、解析結果から正しい接続先である段
落を判定することができる。
【0061】各段落について接続関係を確定すると、段
落情報データ記憶部16に記憶された段落情報データに
は、図7(a)に示すように、各段落に対して接続関係
(前の段落、後ろの段落)を示すデータが設定される。
【0062】なお、前述した説明においては、段落の接
続関係を判定するために、解析部18の形態素解析部1
8aによる形態素解析のみを用いているが、構文解析部
18bによる構文解析、意味解析部18cによる意味解
析をさらに実行することで接続判定をすることもでき
る。
【0063】すなわち、接続候補とする段落の先頭の文
字列によっては、複数の段落について形態素の関係から
接続可能と判定される場合があり、形態素解析の成功/
不成功の結果だけで接続判定ができない場合がある。
【0064】この場合、形態素解析の結果から接続可能
と判定された段落から生成される文字列について、構文
解析辞書20bを参照しながら構文解析部18bによっ
て構文解析を行ない、構文上、正しい構造を持つ文が得
られる段落接続先候補を正しい段落接続先として選択す
る。
【0065】さらに、構文解析によっても、接続先の段
落が特定できない場合、構文解析の結果から接続可能と
判定された段落から生成される文字列について、意味解
析辞書20cを参照しながら意味解析部18cによって
意味解析を行ない、意味的に異常な段落接続先候補を除
去するようにもできる。
【0066】例えば、「名詞」「助詞」「動詞」という
品詞の並びは日本語として妥当であるが、「テレビ(名
詞)が(助詞)走る(動詞)」の文字列は意味的に異常
である。従って、こうした文字列を構成する段落は、段
落接続先候補から除去され、接続先として正しい段落を
最終的に取得することができる。
【0067】また、接続先が特定できない場合にのみ、
次の段階の解析を行なうのではなく、段落接続先候補の
それぞれについて複数の解析(形態素解析、構文解析、
意味解析)を行ない、各解析結果をもとにして優先度を
設定して、最も優先度の高い段落を接続先の段落として
判定するようにしても良い。
【0068】また、前述した説明では、段落の接続関係
が1度決定されると変更されないものとして説明してい
るが、段落接続先が見つからなかったときに、処理済み
の段落をも再度対象として段落接続先を選び直すといっ
た、接続先の再選択を行なうことも可能である。この
際、最初に段落接続先が決定された時とは異なるレベル
の解析処理の結果をもとにして段落接続先の判定を行な
うようにすることもできる。すなわち、最初に形態素解
析の結果をもとにして段落接続先が決定されている場合
には、再度、段落接続先候補とする場合には、形態素解
析、構文解析、意味解析の結果をもとにして段落接続先
を決定する。
【0069】次に、図2を用いた説明においては文字列
に対する解析処理の結果のみをもとにして段落の接続関
係を判定していたのに対し、さらに正しい段落の接続関
係を検出する方法として、第1に段落接続記号を用いる
方法、第2に段落処理順番の指定を入力する方法、第3
に文書に使用されている色情報を利用する方法について
説明する。
【0070】まず、第1の段落接続記号を用いる方法
(第1の方法)について、図8に示すフローチャートを
参照しながら説明する。なお、第1の方法は、図2のフ
ローチャートに示す処理に加えて実行されるものであ
り、図2中に示すステップA1〜A7の処理と図8のB
1〜B7の処理が同じであり、ステップA8〜A12の
処理とB10〜B14の処理が同じであるので、同一部
分については説明を省略する。
【0071】ステップB4における文書処理の対象が段
落末まで到達し、文末が見つけられず翻訳失敗となった
とき(ステップB5〜B7)、段落接続記号参照部22
bは、データ記憶部12に記憶された文書データ中か
ら、斜め矢印などの段落のつながりを示すための記号が
あるかどうかを調べる(ステップB8)。
【0072】つまり、複数の段組が設けられている文書
においては、文書中に段落間の接続関係を明示するため
の段落接続記号が挿入されている場合がある。通常、段
落接続記号は、図9に示すように、段落中の文末の後ろ
と、接続先の段落の文字列の先頭に付与されていること
が多い。
【0073】図9には段落接続記号として斜め矢印記号
が用いられている縦書きの日本語の例を示している。図
9に示す例では右下側の段落の末尾に文書の接続先が左
上側の段落に接続されることを示す斜め矢印記号が挿入
され、左上側の段落の先頭に右下側の段落の文書が接続
されることを示す斜め矢印記号が挿入されている。
【0074】段落接続記号参照部22bは、該当する段
落接続記号が段落末尾から検出できたときには、その記
号に対応する記号を段落の先頭部分にもつ段落を探し、
その段落を接続先の段落として選択し(ステップB
9)、段落接続先検索部24に通知する。
【0075】段落接続先検索部24は、段落接続記号参
照部22bから通知された段落を選択し、その後、2つ
の段落間で文字列を生成して、前述と同様にして解析部
18により解析処理を行ない、段落接続評価を行なう
(ステップB11〜B14)。
【0076】なお、ステップB8において、段落接続記
号が検出できなかった場合には、図2を用いた説明と同
じ処理となる。第1の方法では、文書中に挿入されてい
る段落のつながりに関わる段落接続記号を有効に利用す
ることで正しい段落のつながりを判別する精度が向上さ
れ、また段落接続記号から接続先段落を確定したとき
に、そのステータスを保存しておくことにより、その他
の段落候補を検索する必要がなくなり高速化が図れる。
【0077】なお、段落接続記号は、図9に示すよう
な、斜め矢印記号に限るものではなく、文書本文とは無
関係な段落の接続関係のみを表わす記号であれば、どの
ような種類であっても勿論利用することができる。
【0078】ところで、接続判定部26によって接続す
べき段落を判定したものの(ステップB14)、その判
定が誤りであったり、複数の候補が同じくらい確からし
い接続先候補として残ることもあり得る(ステップB1
5)。
【0079】この場合、接続段落修正部28は、ステッ
プB14において段落接続判定を行った後、ステップB
4の文書処理に戻る前に、入力部10を介して接続判定
部26によって判定された段落処理順番を訂正する指示
を入力して、段落情報データ記憶部16に記憶された段
落情報データの段落処理順番を変更する(ステップB1
6)。
【0080】なお、接続段落修正部28は、段落情報デ
ータ記憶部16に記憶された段落情報データを参照し
て、例えば図3に示すような形態によって、接続判定部
26による判定結果(段落処理順番)を明示する表示を
させて、この表示画面中における訂正指示(訂正すべき
段落と段落処理順番の指定)に基づいて修正を行なうも
のとする。
【0081】こうして、接続判定部26によって判定さ
れた段落処理順番が変更できることにより、接続先と判
定された段落が誤りであった場合に、誤判定のまま文書
処理が続けられることがなくなり文書処理効率が向上さ
れる。
【0082】次に、第2の段落処理順番の指定を入力す
る方法(第2の方法)について、図10に示すフローチ
ャートを参照しながら説明する。なお、第2の方法は、
図2のフローチャートに示す処理に加えて実行されるも
のであり、図2中に示すステップA1〜A7の処理と図
10のC1,C2,C4〜C8の処理が同じであり、ス
テップA8〜A12の処理とC11〜C15の処理が同
じであるので、同一部分については説明を省略する。
【0083】第2の方法では、段落抽出部14によって
文書データから段落が抽出された後(ステップC2)、
文書処理(機械翻訳)を実行させる前に、段落処理順番
指定部22aによって段落情報データ記憶部16の段落
情報データに設定すべき段落処理順番を示すデータを直
接入力するものである。
【0084】段落処理順番指定部22aは、段落情報デ
ータ記憶部16に記憶された段落情報データを参照し
て、例えば図3に示すような形態によって、段落抽出部
14による段落抽出結果を表示をさせて、この表示画面
中における指示(任意に指定された段落に対する段落処
理順番)に基づいて、段落情報データ記憶部16に記憶
された各段落に対して段落処理順番を設定する。
【0085】例えば、段落抽出結果の表示画面中から段
落Aの後に接続すべき段落が、段落Cであると指定され
た場合、段落処理順番指定部22aは、段落情報データ
記憶部16の段落情報データについて、図7(b)に示
すように、該当する段落について接続関係を示すデータ
を設定する。
【0086】こうして、段落処理順番指定部22aによ
って設定された段落接続関係については、段落接続判定
をする必要がなく、かつ段落接続判定をしてはいけな
い。そこで、ステップC11で接続する段落候補を選択
する前に、段落接続先検索部24は、段落情報データの
処理順番の項目に現在処理中の段落の次の段落が指定さ
れていないかどうかをチェックし(ステップC9)、指
定されていればステップC11以降の段落接続判定の処
理に進まずに、指定された段落と接続し(ステップC1
0)、ステップC5の文書処理(機械翻訳処理)に戻
る。次の段落が指定されていなければ、前述と同様にし
てステップC11以降の処理に進み、文字列に対する解
析処理に基づいて、接続すべき段落を設定する。
【0087】第2の方法を用いることにより、段落処理
順番を指定する手間をかけても、文書処理を正確に実行
させたいといったこともでき、処理形態の選択の幅を広
げることが可能になり利便性が向上される。
【0088】次に、第3の文書に使用されている色情報
を利用する方法(第3の方法)について、図11に示す
フローチャートを参照しながら説明する。なお、第3の
方法は、図2のフローチャートに示す処理に加えて実行
されるものであり、図2中に示すステップA1〜A7の
処理と図11のD1〜D7の処理が同じであり、ステッ
プA8〜A12の処理とD10〜D14の処理が同じで
あるので、同一部分については説明を省略する。
【0089】一般に、雑誌などでは、記事ごとに文字の
背景色(紙面の色)が使い分けられている場合がある。
第3の方法では、この種の文書について、入力部10か
ら入力された文書データに文字の背景色を反映させてお
いたとき、背景色識別部22cによって接続先の候補の
段落の背景色を識別し、同じ背景色を持った段落のみを
接続候補として選択するように段落接続先検索部24を
制御するものである。
【0090】ステップD4における文書処理の対象が段
落末まで到達し、文末が見つけられず翻訳失敗となった
とき(ステップD5〜D7)、背景色識別部22cは、
データ記憶部12に記憶された文書データを参照して、
段落における背景色が複数存在するかどうかを調べる
(ステップD8)。
【0091】背景色識別部22cは、現在対象としてい
る段落の背景色と同じ背景色を持つ段落が存在すれば、
該当する段落のみが接続先段落候補となるように段落接
続先検索部24に通知する(ステップD9)。
【0092】例えば、入力部10から入力された文書デ
ータが図12に示すような形態を有しているものとす
る。図12に示す文書データからは段落A〜Fが抽出さ
れ、段落A,B,Dの背景色が黄色、段落C,Fの背景
色が赤色であるものとする。
【0093】この場合、段落Aに対する段落接続先候補
は、同じ背景色を持つ段落B,Dのみとすることができ
る(例えば日本語縦書きの文書とする)。同様にして、
段落Cについては、同じ背景色を持つ段落が段落Fのみ
であるので一意に選択することができる。
【0094】第3の方法を用いることにより、図2を用
いて説明した処理と比較して接続候補を絞ることができ
るので、段落接続先検索部24の他、解析部18、接続
判定部26で要する処理時間を減らすことができる。ま
た、接続先となる段落の選択肢が減るのであるから、接
続先の選択間違いの可能性が減少することが期待でき
る。
【0095】なお、段落全体の一様な色をもとにするの
ではなく、段落内において用いられる複数の色の割合を
もとに段落接続先候補とすべき段落を特定するようにも
できる。また、段落の背景色ではなく、各段落内の文字
そのものの色をもとにして、段落接続先候補とする段落
を判定しても良い。
【0096】また、前述した説明では、第1〜第3の方
法がそれぞれ独立して実行されるものとして説明してい
るが、複数の方法を選択的に並行して実行させるように
もできる。例えば、モード設定において、段落接続先の
決定に際して実行すべき方法を任意に設定できるように
し、例えば第1と第3の方法が選択された場合には、段
落接続記号を用いる方法と文書に使用されている色情報
を利用する方法とを併用して実行することもできる。
【0097】なお、前述した実施形態においては、OC
Rを介して入力された文書データを対象として説明して
いるが、その他の手段(例えば通信経路)を介して入力
された文書についても同様にして本発明を適用すること
ができる。
【0098】また、実施形態において記載した手法は、
コンピュータに実行させることのできるプログラムとし
て、磁気ディスク(フロッピーディスク、ハードディス
ク等)、光ディスク(CD−ROM、DVDなど)、半
導体メモリなどの記録媒体に格納して提供することがで
きる。コンピュータは、記録媒体に記録されたプログラ
ムを読み込み、このプログラムによって動作が制御され
ることにより、前述した処理を実行する。
【0099】
【発明の効果】以上詳述したように本発明によれば、複
数の段落を渡って連続する文字列について、段落間での
文字列の接続の妥当性を判別するので、複雑な段組みを
持つ文書に対しても正しく段落を接続して文書処理を実
行することができるものである。
【図面の簡単な説明】
【図1】本発明の実施形態に係わる文書処理装置の構成
を示すブロック図。
【図2】本実施形態における文書処理装置の基本的な動
作を説明するためのフローチャート。
【図3】本実施形態におけるデータ記憶部12に格納さ
れた文書データをもとに表示された文書の一例を示す
図。
【図4】本実施形態における段落情報データ記憶部16
に記憶された段落情報データの内容の一例を示す図。
【図5】本実施形態における段落接続先候補の選択につ
いて説明するための図。
【図6】本実施形態における2つの段落の接続の妥当性
を判定する処理を説明するための図。
【図7】本実施形態における段落情報データ記憶部16
に記憶された段落情報データの接続関係(前の段落、後
ろの段落)を示すデータの設定を説明するための図。
【図8】本実施形態における第1の段落接続記号を用い
る方法を説明するためのフローチャート。
【図9】段落接続記号が挿入された文書を説明するため
の図。
【図10】本実施形態における第2の段落処理順番の指
定を入力する方法を説明するためのフローチャート。
【図11】本実施形態における第3の文書に使用されて
いる色情報を利用する方法を説明するためのフローチャ
ート。
【図12】段落に複数の背景色が用いられた文書の形態
を説明するための図。
【図13】従来の文書処理装置における複数の段落が設
けられた文書の扱いを説明するためのフローチャート。
【符号の説明】
10…入力部 12…データ記憶部 14…段落抽出部 16…段落情報データ記憶部 18…解析部、 18a…形態素解析部 18b…構文解析部 18c…意味解析部 20…解析辞書 20a…形態素解析辞書 20b…構文解析辞書 20c…意味解析辞書 22…段落接続制御部 22a…段落処理順番指定部 22b…段落接続記号参照部 22c…背景色識別部 24…段落接続先検索部 26…接続判定部 28…接続段落修正部 30…表示装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 連続する文字列について文書処理を実行
    する文書処理装置において、 文書処理の対象とする文字列の情報とその他の情報が混
    在する文書データから連続する文字列の固まりから構成
    される段落をレイアウト上の位置関係をもとに抽出する
    段落抽出手段と、 前記段落抽出手段によって抽出された段落の位置と、各
    段落に含まれる文字列に対する文書処理の順番を表す段
    落の接続順を示すデータを記憶するための段落情報デー
    タ記憶手段と、 前記段落抽出手段によって抽出された複数の段落から、
    ある段落に対して次に接続されるべき段落の候補を選択
    する段落接続先検索手段と、 前記段落接続先検索手段によって選択された段落の先頭
    の文字列と前記ある段落の段落末の文字列とを接続して
    連続する文字列を生成し、接続の妥当性を判別するため
    の解析を行なう解析処理手段と、 前記解析処理手段による解析結果に基づいて段落の接続
    順を判定して、前記段落情報データ記憶手段に各段落の
    接続順を示すデータを記憶させる段落接続判定手段とを
    具備し、 前記段落情報データ記憶手段に記憶された段落の接続順
    に連続する文字列に対して文書処理を実行することを特
    徴とする文書処理装置。
  2. 【請求項2】 前記解析処理手段は、 形態素解析処理による単語同士の接続の妥当性から文字
    列の接続の妥当性を判定することを特徴とする請求項1
    記載の文書処理装置。
  3. 【請求項3】 前記解析処理手段は、 形態素解析、構文解析、意味解析を選択的に実行するこ
    とにより、文字列の接続の妥当性を判定することを特徴
    とする請求項1記載の文書処理装置。
  4. 【請求項4】 前記段落抽出手段によって抽出された段
    落中の文字列から段落間で文字列が接続されていること
    を示す段落接続記号を抽出して、この段落接続記号をも
    とに、ある段落に対して接続先となる段落を選択する段
    落接続記号参照手段を具備し、 前記段落接続先検索手段は、前記段落接続記号参照手段
    によって選択された段落を候補として選択することを特
    徴とする請求項1記載の文書処理装置。
  5. 【請求項5】 前記段落接続判定手段によって判定され
    た段落の接続順を任意に変更する接続段落修正手段を具
    備したことを特徴とする請求項1記載の文書処理装置。
  6. 【請求項6】 前記段落抽出手段によって抽出された複
    数の段落に対して、任意の段落間の接続関係を指定する
    ための段落処理順番指定手段を具備し、 前記段落接続先検索手段は、前記段落処理順番指定手段
    によって指定された接続関係を参照すると共に、指定さ
    れていない他の段落を対象として段落の候補を選択する
    ことを特徴とする請求項1記載の文書処理装置。
  7. 【請求項7】 前記段落抽出手段によって抽出された各
    段落内で用いられている色を識別する色識別手段を具備
    し、 前記段落接続先検索手段は、前記色識別手段によって識
    別された色をもとに段落の候補を選択することを特徴と
    する請求項1記載の文書処理装置。
  8. 【請求項8】 複数の段落を渡って連続する文字列につ
    いて文書処理を実行するための文書管理方法において、 文書処理の対象とする文字列の情報とその他の情報が混
    在する文書データから連続する文字列の固まりから構成
    される段落をレイアウト上の位置関係をもとに抽出し、 この抽出された複数の段落から、ある段落に対して次に
    接続されるべき段落の候補を選択し、 この選択された段落の先頭の文字列と前記ある段落の段
    落末の文字列とを接続して連続する文字列を生成し、接
    続の妥当性を判別するための解析を行ない、 この解析結果に基づいて段落の接続順を判定し、 この接続順に連続する文字列に対して文書処理を実行す
    ることを特徴とする文書管理方法。
  9. 【請求項9】 複数の段落を渡って連続する文字列につ
    いて文書処理を実行するためのプログラムであって、 文書処理の対象とする文字列の情報とその他の情報が混
    在する文書データから連続する文字列の固まりから構成
    される段落をレイアウト上の位置関係をもとに抽出し、 この抽出された複数の段落から、ある段落に対して次に
    接続されるべき段落の候補を選択し、 この選択された段落の先頭の文字列と前記ある段落の段
    落末の文字列とを接続して連続する文字列を生成し、接
    続の妥当性を判別するための解析を行ない、 この解析結果に基づいて段落の接続順を判定し、 この接続順に連続する文字列に対して文書処理を実行す
    るようにコンピュータを制御するためのプログラムを格
    納したコンピュータ読取り可能な記録媒体。
JP8197853A 1996-07-26 1996-07-26 文書処理装置及び文書管理方法 Pending JPH1040248A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8197853A JPH1040248A (ja) 1996-07-26 1996-07-26 文書処理装置及び文書管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8197853A JPH1040248A (ja) 1996-07-26 1996-07-26 文書処理装置及び文書管理方法

Publications (1)

Publication Number Publication Date
JPH1040248A true JPH1040248A (ja) 1998-02-13

Family

ID=16381433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8197853A Pending JPH1040248A (ja) 1996-07-26 1996-07-26 文書処理装置及び文書管理方法

Country Status (1)

Country Link
JP (1) JPH1040248A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011081516A (ja) * 2009-10-05 2011-04-21 Ns Solutions Corp 情報処理装置、情報処理方法、及びプログラム
JP2017156889A (ja) * 2016-02-29 2017-09-07 Jfeシステムズ株式会社 版下管理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011081516A (ja) * 2009-10-05 2011-04-21 Ns Solutions Corp 情報処理装置、情報処理方法、及びプログラム
JP2017156889A (ja) * 2016-02-29 2017-09-07 Jfeシステムズ株式会社 版下管理システム

Similar Documents

Publication Publication Date Title
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US7818173B2 (en) Information retrieval system, method, and program
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
CN1841364A (zh) 文件翻译方法和文件翻译装置
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
US20070011160A1 (en) Literacy automation software
JP2008165563A (ja) 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP2006065477A (ja) 文字認識装置
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
JPH1166196A (ja) 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1040248A (ja) 文書処理装置及び文書管理方法
JP2004272822A (ja) 文字認識装置および文字認識方法並びにコンピュータプログラム
JPH0785080A (ja) 全文書検索システム
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2005031813A (ja) 抄録作成支援システム、プログラム、抄録作成支援方法及び特許文献検索システム並びにその検索方法
JP2002014981A (ja) 文書ファイリング装置
JP3501240B2 (ja) 文書作成支援装置
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP4032894B2 (ja) 形態素処理方法および装置
JPH087046A (ja) 文書認識装置
JPH10116188A (ja) 命令文の作成支援方法及び装置
JPH1069494A (ja) 画像検索方法とその装置
JPH11203400A (ja) 文字入力装置および文字入力方法,並びに文字入力方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体