JPH0823864B2 - 見出し判定方法 - Google Patents

見出し判定方法

Info

Publication number
JPH0823864B2
JPH0823864B2 JP61072121A JP7212186A JPH0823864B2 JP H0823864 B2 JPH0823864 B2 JP H0823864B2 JP 61072121 A JP61072121 A JP 61072121A JP 7212186 A JP7212186 A JP 7212186A JP H0823864 B2 JPH0823864 B2 JP H0823864B2
Authority
JP
Japan
Prior art keywords
heading
sentence
headline
document
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61072121A
Other languages
English (en)
Other versions
JPS62229368A (ja
Inventor
美和子 土井
勇 岩井
利夫 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP61072121A priority Critical patent/JPH0823864B2/ja
Priority to US06/897,930 priority patent/US4813010A/en
Priority to DE8686306421T priority patent/DE3684469D1/de
Priority to EP86306421A priority patent/EP0250677B1/en
Publication of JPS62229368A publication Critical patent/JPS62229368A/ja
Publication of JPH0823864B2 publication Critical patent/JPH0823864B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、文書データの文書構造を解析する文書処理
装置に関わり、特に、前見出し記号の付されていない見
出しについても見出しの判定を行うことのできる見出し
判定方法に関する。
(従来の技術) 一般的に文章は、その全体を複数の範囲に分割し、そ
のまとまり毎に見出しを付して構成されることが多い。
また分割したまとまりを更に分割し、それらの小さなま
とまり毎に小見出しを付すことも行われる。
見出しや小見出しは、通常、『あらすじ』『概要』等
の短い文からなり、分割されたまとまりの冒頭に付され
る。更にその冒頭部に、例えば『第1章』『第3節』等
の見出し記号を付すことも行われる。
ところでこのような文書構造を持つ文書データを計算
機処理する場合、次のような不具合があった。即ち、計
算機では専ら装置構成上の都合から、そのディスプレイ
表示画面に一度に表示できる単位で、或いはプリント出
力時に1頁に印刷できる単位で上記文書データを取扱っ
ている。つまり上述した文書構造を全く配慮することな
く、装置構成上の都合だけに基いて文書データを取扱う
ものとなっている。これ故、例えば章の入替え等の文書
処理を行なうような場合、その作業が非常に煩わしく、
また誤りの発生原因となっていることも歪めない。
例えば章の入替えを行なう場合、移動処理の対象とな
る章の文書データの最初と最後とを指定することが必要
となる。この際、その章の文書データが長い場合には、
その最初の部分を指定した後、最後の部分を指定するま
でに何度も表示画面を更新しなければならない等の繁雑
さを伴う。しかもこのとき、その処理操作のミスが発生
し易い。
一方、文書作成時にあっては、その文書作成が進むに
つれて先に作成した文書部分を参照したいことが度々あ
る。例えば先に作成した文書部分の内容を確認したい場
合や、先に付けた見出し記号がどのようなものであった
かを確認したい場合がある。
しかし、従来にあっては上述したように文書構造とは
全く関係のない単位で文書データを取扱っているので、
その検索が非常に困難である等の不具合があった。
(発明が解決しようとする問題点) 本発明はこのような事情を考慮してなされたもので、
その目的とするところは、文書が持つ文書構造を積極的
に利用して文書処理を行なうことにより、上述した文書
処理の煩わしさを解消し、また誤りの発生を抑えて効果
的な文書処理を可能ならしめる文書処理装置を提供する
ために、特に、前見出し記号の付されていない見出しに
ついても見出しの判定を可能にすることにある。
[発明の構成] (問題点を解決するための手段) 本発明は、見出し本体として出現する可能性の高い所
定の語句を記憶しておき、入力された文書データをこの
文書データに含まれる区切りコードに従って1文毎に切
り出し、この切り出された文に記憶された前記語句が含
まれる場合に、この含まれる語句を見出し本体として、
切り出された該文が見出し本体のみから構成されている
かもしくは見出し本体及び所定の後見出し記号から構成
されていることを確認したならば、切り出された該文が
見出しであると判定することを特徴とする。
(作用) かくして本発明によれば、「見出し本体」として出現
する可能性の高い所定の語句を記憶しておき、文書デー
タ中の各文が「見出し本体」のみから構成されているか
もしくは「見出し本体」及び所定の後見出し記号から構
成されている場合に該文を見出しであると判定すること
により、前見出し記号の付されていない見出しについて
も見出しの判定を行うことが可能になる。
(実施例) 以下、図面を参照して本発明の実施例につき説明す
る。
第1図は実施例装置の概略構成図である。第1図にお
いて1は装置本体をなす文書管理部である。キーボード
等からなる入力部2を介してコード情報の系列として入
力される文書データは、例えば第2図に示すような文書
構造を持つものであり、上記文書管理部1の制御の下で
原文記憶部3に格納され、文書処理に供される。そして
文書管理部1にて文書処理された文書データは、表示制
御部4の制御の下で表示部5にて表示されるようになっ
ている。
文書管理部1は、基本的には上記原文記憶部3に格納
された文書データに対して、該文書データ中の区切りコ
ード、例えば改行コードを検出し、この区切りコードに
より区切られる1まとまりの文を順に抽出している。同
時にその1文の長さを計測している。そして抽出した1
文を単位として、以下に示す処理の実行を管理・制御し
ている。
見出し抽出部6は、文書管理部1にて抽出された1文
が見出しとしての可能性があるか否かを、上記の如く計
測された1文の長さの情報と、見出し語辞書7を参照し
て判定する。この見出し語辞書7は、見出しとして出現
頻度の高い語句や記号を、例えば第3図に示すようにそ
のカテゴリ毎に分類して予め登録したものである。具体
的には見出しとして出現頻度の高い、例えば「はじめ
に」「あらすじ」等の語句を『見出し予約語』なるカテ
ゴリにまとめて登録し、また見出しとして出現頻度の高
い数字・記号を、それぞれのカテゴリ毎にまとめて登録
している。
見出し抽出部6は、抽出された文の長さが所定の文字
数以内であるか否かを判定し、所定の文字数以内である
場合には見出しとしての可能性があると判定している。
そしてこの判定された文について、その文(コード情報
の系列で示される語句や数字・記号)が前記見出し語辞
書7に登録されているか否かを調べている。そして見出
し語辞書7に登録された語句である場合には、これを見
出し候補としている。
しかして見出し判定部8は、その見出し規則辞書8aに
格納された第4図(a)〜(d)に示す如き見出し規則
に基いて、前記見出し抽出部6で見出し候補として抽出
された文が見出しであるか否かを判定している。この見
出し判定部8によって前記文書管理部1で1文づつ抽出
された文が、見出し文であるか、或いはそれ以外の文で
あるかが判定され、決定される。
文書構造判定部9は、上記の如く見出し文、或いはそ
れ以外の文として決定された各文に対して、文書構造規
則辞書9aに格納された、例えば第5図(a)〜(d)に
示す如き文書構造規則に従い、その文が章見出しである
か、節見出しであるか、段落であるか等の文書論理構造
を判定している。この文書構造判定部9にて判定された
前記各文の論理構造が論理構造記憶部10に格納される。
前記表示制御部4は、この論理構造記憶部10に格納さ
れた文書の論理構造に従って前述した文書データの表示
部5による表示を制御することになる。
第6図はこのように構成された本装置における文書デ
ータの解析処理の流れを示すものであり、以下、この流
れに沿って本装置の詳細について説明する。
入力部2から文書データが入力されると(ステップ
a)、その文書データは原文記憶部3に順次格納される
と共に、文書管理部1にて区切り処理される。この区切
り処理は、入力コード情報が改行コードやスペース・コ
ードか、或いは「…」「;」「:」等の区切り記号であ
るかを判定し、これらの区切りコードによって入力コー
ド情報の系列を1文毎に切出すことによって行われる。
この際、上記区切りコードによって区切られるコード情
報の系列の長さを計数する等して、その文の長さ(文字
数)が計測される。この計数値が、予め定められた値
(例えば40文字)以内のとき、その文が見出しとしての
可能性があることが判定される。
見出し抽出部6は、上記の如く計測された文字数に従
ってその文が見出しとしての可能性があると判定された
場合、その文を構成している文字列(語句や記号)が見
出し語辞書7に登録されているか否かを判定する(ステ
ップb)。例えば前記第2図に示す入力文書データ中の
第3行目の文『1.はじめに』を切出した時、その文字情
報が前記見出し語辞書7の辞書項目に登録されているか
否かを調べている。この場合、『1』および『はじめ
に』がそれぞれ見出し語辞書7から見出されるので、こ
の文を見出し候補Aとする(ステップc)。
しかる後、前記見出し判定部8にて見出し規則辞書8a
を参照して上記見出し候補が見出しであるか否かを判定
する(ステップd)。そして見出し候補が、第4図
(a)〜(d)に示す見出し規則に適合した場合、これ
を見出しBとして決定する(ステップe)。この際、適
用された見出し規則に従ってその見出しの種別も求めら
れる。
尚、文書管理部1によって切出された文中に、見出し
語辞書7に登録された見出し語(辞書項目の内容)に該
当するものがない場合、また見出し候補として判定され
た文であっても、上記見出し規則に該当しない場合に
は、その文は見出し以外の文を構成していると判定され
る(ステップf)。
その後、見出しとして判定された文、および見出し以
外であると判定された文について、文書構造判定部9に
よりその文書構造の判定が行われる(ステップg)。こ
の文書構造の判定は、その文の構造が文書構造記憶部9a
に格納された第5図(a)〜(d)に例示する文書構造
規則のどれに該当するかを調べることによって行われ
る。そして該当する文書構造規則が見出された場合に
は、その規則に従って文書構造の情報を求め(ステップ
h)、これを論理構造記憶部10に順に登録する(ステッ
プi)。
尚、該当する文書構造規則が見出されない場合には、
その文の構造に誤りがあると判定される。この結果、そ
の文に対するエラー処理、例えば文書データの訂正処理
を促す等の処理が行われることになる(ステップj)。
ここで、まず、上記ステップdにて参照される見出し規
則辞書8aの内容について、第4図を用いて詳述する。
第4図(a)の見出し規則は、見出しが、原則として
前見出し記号101及び見出し本体102から構成されること
を示す。矢印103は、前見出し記号101がなく、見出し本
体102のみあるいは見出し本体102と後見出し記号が含ま
れる場合も見出しを形成することを示し、矢印104は、
見出し本体102がなく前見出し記号101のみが含まれる場
合も見出しを形成することを示す。105は、前見出し記
号の後あるいは見出しの先頭に空白(スペースコード)
が一つあるいは繰り返し出現する場合も見出しを形成す
ることを示し、106は、見出し本体の後に空白が一つあ
るいは繰り返し出現する場合も見出しを形成することを
示す。107は、見出しの後尾に後見出し記号(例えば
…)が一つあるいは繰り返し出現する場合も見出しを形
成することを示す。また、108〜113は、見出し本体の両
端あるいは後端に種々のカッコが存在するものが見出し
本体102と同等であることを示す。
第4図(b)の見出し規則は、第4図(a)における
前見出し記号101が、原則として記号部121(例えば§)
及び英数字部122から構成されることを示す。矢印123
は、記号部121がなく、英数字部122のみあるいは英数字
部122と後置部が含まれる場合も前見出し記号を形成す
ることを示し、矢印124は、英数字部122がなく記号部12
1のみが含まれる場合も前見出し記号を形成することを
示す。125は、記号部の後あるいは前見出し記号の先頭
に空白が一つあるいは繰り返し出現する場合も前見出し
記号を形成することを示し、126は、英数字部の後に後
置部(例えば・)が一つあるいは繰り返し出現する場合
も前見出し記号を形成することを示す。また、127〜134
は、英数字部の両端あるいは後端に種々のカッコあるい
は「第」「章」「節」等が存在するものが英数字部122
と同等であることを示す。そして135は、前述した後置
部の前に空白が一つあるいは繰り返し出現する場合も前
見出し記号を形成することを示し、136〜142は、前述し
た後置部の後に英数字部もしくは英数字部の両端あるい
は後端に種々のカッコが存在するものが出現する場合も
前見出し記号を形成することを示す。
第4図(c)の見出し規則は、第4図(a)における
見出し本体102が、原則として空白以外の任意の文字151
もしくは見出し予約語(例えば「はじめに」「あらす
じ」等)152から構成されることを示す。すなわち、第
3図に示される見出し語辞書における見出し予約語は、
見出し本体として出現頻度の高い語句を登録したもので
ある。また、153は、空白以外の任意の文字が繰り返し
出現する場合も見出し本体を形成することを示し、154
は、その後に見出し接尾予約語が出現する場合も見出し
本体を形成することを示す。
第4図(d)の見出し規則は、第4図(b)における
英数字部が、原則として数字部161から構成されること
を示す。162は、数字部161の前に予約語部が存在する場
合も英数字部を形成することを、163は、数字部がなく
予約語部のみが含まれる場合も英数字部を形成すること
を、164は、予約語部と数字部の間に空白が一つあるい
は繰り返し出現する場合も英数字部を形成することを示
す。また、165〜169は、数字部の代わりに英字部、50音
字部等が出現する場合も英数字部を形成することを示
す。170、171は、数字部/英字部の後に英字部/数字部
等が場合によっては空白をはさんで出現する場合も英数
字部を形成することを示す。
上記第4図(a)〜(d)の規則を適用すると、ステ
ップcまでで抽出された見出し候補が、見出しであるか
否かが決定でき、見出しである場合には、記号部、数字
部、英字部、後置部、見出し予約語、空白以外の任意の
文字、後見出し記号等がどのように並んでその見出しが
構成されているか(これを「カテゴリの並び」と称す
る)を求めることができる。
次に、上記ステップgにて参照される文書構造規則辞
書9aの内容について、第5図を用いて詳述する。
第5図(a)の文書構造規則は、ステップfまでで見
出しとして判定された文に適用され、この見出しのカテ
ゴリの並び及び以前に見出した文の文書構造の情報(章
見出し/節見出し/箇条書き等)に基づいて、該当する
条件を探すことにより、結果が得られるようになってい
る。まず、これから処理を行おうとする見出しのカテゴ
リの並びが予約語部を含まないか含むかにより、条件1
と条件2(図示せず)に分岐する。予約語部を含まない
場合、見出し本体を含むか否かにより、条件1,1と条件
1,2(図示せず)に分岐する。見出し本体を含む場合、
見出し予約語を含むか空白以外の任意の文字を含む(見
出し予約語を含まない)かにより、条件1,1,1と条件1,
1,2に分岐する。見出し予約語を含む場合、前方に章見
出しがないかあるかにより、条件1,1,1,1と条件1,1,1,2
(図示せず)に分岐する。条件1,1,1,1に該当した見出
しは、章見出しであると決定し、この見出しのカテゴリ
の並びを章見出しパターンとする。このように、分岐の
最終点となる条件に対応して、その見出し文の文書構造
の情報が決定されるように、規則が作られている。
また、見出し予約語を含まない場合(条件1,1,2)も
同様に、前方に章見出しがないかあるかにより、条件1,
1,2,1(図示せず)と条件1,1,2,2に分岐する。前方に章
見出しがある場合、この章見出しパターンとのマッチン
グに成功したか否かにより、条件1,1,2,2,1と条件1,1,
2,2,2に分岐する。条件1,1,2,2,1に該当した見出しは、
章見出しであると決定し、章見出しパターンのオーダを
1増す。
ここで、処理中の見出しが前方に存在する見出しパタ
ーンとのマッチングに成功したか否かを判断する際に、
第5図(b)に示す文書構造規則を用いる。まず、処理
中の見出しのカテゴリの並びが英数字部を含むか否かに
より、条件1,1と条件1,2に分岐する。英数字部を含む場
合、処理中の見出しと前方に存在する見出しパターンの
英数字部の字種が同じであるか否かにより、条件2,1と
条件2,2(図示せず)に分岐する。字種が同じである場
合、処理中の見出しの英数字部のオーダが前方に存在す
る見出しパターンのオーダの+1であるか+2/+0であ
るかにより、条件3,1と条件3,2に分岐する。+1である
場合、処理中の見出しの記号部、英数字部のオーダ以外
の部分、後置部、後見出し記号、見出し本体のカッコの
有無が、前方に存在する見出しパターンと同一である
か、誤り規則の範囲と同一であるならば(条件4,1また
は4,2)、マッチング成功と決定し、そうでなければ
(条件4,3)、マッチング失敗と決定する。このよう
に、分岐の最終点となる条件に対応して、処理中の見出
しがマッチングに成功したか否かが決定されるように、
規則が作られている。
第5図(c)の文書構造規則は、ステップfまでで見
出し以外であると判定された文に適用され、見出しを含
んでいない文の文書構造の情報は段落であると決定でき
るようになっている。ここで、段落と決定された文と見
出しとの接続関係を判定するためには、第5図(d)の
文書構造規則を適用すれば良い。
以上の処理を前記第2図に示す文書データが入力され
た場合について、具体的に説明する。
改行コードによって区切られた第1行目の文『文書理
解システム』、および第2行目の文『大川太郎』が与え
られると、これらの各文については該当する語句が見出
し語辞書7に登録されていないことから、見出し抽出部
6にてそれぞれ見出しでないと判定する。そして文書構
造判定部9では、第1行目の文については、例えば文書
の冒頭に出現する名詞句である等の規則に適合すること
から、その属性が標題であるとして判定する。また第2
行目の文については、固有名詞、特に人名を示す固有名
詞であり、標題の後に出現する文である等の規則に従っ
て著者名であると判定する。
この結果、第7図(a)に示すように第1および第2
行目の文に対する分析結果が論理構造記憶部10に格納さ
れる。
しかる後、第3行目の文『1.はじめに』が与えられる
と、この文を構成している『1』『.』『はじめに』な
る語句が前記見出し語辞書7からそれぞれ見出される。
この結果、この文は見出し候補A1として判定され、同時
にその見出し候補を構成しているカテゴリが『(数字
部)(後置部)(見出し予約語)』として求められる。
すると見出し判定部8は、この見出し候補A1として判
定された文の構造が見出し規則に適合しているか否かを
見出し規則辞書8aを参照して調べる。
即ち、先ず見出し候補A1を構成するカテゴリの並びを
解析し、その解析構造が前記第4図に示す条件を満して
いるか否かを判定する。この場合、上記カテゴリ『(数
字部)(後置部)(見出し予約語)』が、第4図(a)
〜(d)に示す規則に従って第8図(a)に示す如く解
析され、見出しパターンを構成していることが確認され
るから、見出しB1であると判定される。尚、この判定処
理によって上記カテゴリの並びが第4図に示す条件のい
ずれにも一致しないことが判定されたならば、上記見出
し候補は見出しでないと決定されることになる。
しかして上記見出しB1が求められると、次に前記文書
構造判定部9にてその文書構造が第5図(a)〜(d)
に例示する規則のどれに該当するかが判定される。この
場合には、今までに分析された文の論理構造が、前記論
理構造記憶部10に第7図(a)に示すように格納されお
り、今までは章見出しが出現していないことが示される
から、上記見出しB1、つまり文『1.はじめに』が第5図
(a)に示す規則の条件(1)(1,1)(1,1,1)(1,1,
1,1)に一致することが見出される。
この結果、該見出し『1.はじめに』が章見出しC1を構
成していることが一意に決定される。そしてその論理構
造の情報が、第7図(b)に示す如く論理構造記憶部10
に格納される。ここで、第7図について詳述すると、見
出し判定及び文書構造判定の行われた各文に対応して、
属性、レベル、及び見出しパターンが記憶される。属性
は、第5図の文書構造規則の適用により求められた文書
の論理構造(章見出し/節見出し/箇条書き/段落/標
題/著者名等)である。レベルは、見出しである文につ
いては、第5図(a)の文書構造規則の適用の際に、例
えば前方に章見出しがあり、その章見出しとのマッチン
グに失敗し、箇条書きと決定された場合に、前方の章見
出しとは異なるレベル(+1)とされるものであり、段
落である文については第5図(d)の文書構造規則を適
用して得られる接続関係を示すものである。見出しパタ
ーンは、第4図の見出し規則の適用により求められた見
出しのカテゴリの並びである。
しかる後、第4〜5行目に亙る文が入力されると、そ
の文字数が見出しとして可能性の或る文字数を越えるこ
とから、見出し以外の文であると判定される。そして第
5図(c)に示す文書構造規則に該当して、段落を構成
する文であると判定される。
そして次の第6行目の文が入力されると、先の例と同
様にした見出し候補A2として検出される。この場合に
は、その見出し候補のカテゴリの並びが第8図(b)に
示すように解析され、第4図(a)〜(d)に示す見出
し規則に適合することが判定される。そしてこの見出し
B2については、前記論理構造記憶部10の内容から既に章
見出しが検出されていることが示されるので、第5図に
示す文書構造規則の中の同図(b)に示す規則を参照
し、上記見出しB1のパターンがどの条件に該当するかを
調べる。
この場合、見出しB1のパターンが条件(1,1)(2,1)
(3,1)(4,1)に該当することから、先に求められた章
見出しC1と同じレベルの見出しである可能性があること
が判定される。そこで前記第5図(a)に示す規則に適
合するか否かを調べる。そして先の例と同様に上記見出
しB2、つまり文『2.システムの特徴』が第5図(a)に
示す規則の条件(1)(1,1)(1,1,2)(1,1,2,2,1)
に一致することが見出されることから、見出し『2.シス
テムの特徴』が章見出しC2を構成していることが判定さ
れる。そしてその論理構造の情報が、第7図(c)に示
す如く論理構造記憶部10に格納される。
その後、第7行目以降の文についても同様な処理が行
われ、その文書構造が第7図(d)(e)に示すように
順次論理構造記憶部10に格納される。
即ち、第7行目の文については、その見出し候補A3
が、第8図(c)に示すように解析され、第4図に示す
見出し規則に適合することから見出しB3であると判定さ
れる。そこで文書構造判定部9にて、第5図(b)に示
す規則(条件)との照合が行われるが、ここではそれ以
前に同様なパターンの見出しが検出されていないのでマ
ッチング不成功となる。この結果、先に求められた見出
しとはレベルの異なる見出しであることが判定される。
そこで第5図(a)に示す文書構造規則に対する照合
を行う。この場合には条件(1)(1,1)(1,1,2)(1,
1,2,2)(1,1,2,2,2)(1,1,2,2,2,1)に一致すること
が見出され、見出しB3は箇条書き見出しC3であると判定
される。
また第8行目の文については、第5図(b)に示す規
則(条件)との照合により、条件(1,1)(2,1)(3,
1)(4,1)に適合することが求められる。これによって
先に求められた箇条書き見出しと同じレベルの見出しで
ある可能性があることが判定される。その後、更に第5
図(a)に示す文書構造規則と照合することによって、
その条件(1)(1,1)(1,1,2)(1,1,2,2)(1,1,2,
2,2)(1,1,2,2,2,2)(1,1,2,2,2,2,1)に一致するこ
とが見出される。この結果、第8行目の文は箇条書き見
出しであると判定される。
尚、段落が検出された場合には、その段落がどのレベ
ルの見出しを受けたものかを決定しなければならない。
このようなときには、例えば第5図(d)に示す規則を
参照して、段落と見出しとの接続関係を判定し、そのレ
ベルを定めるようにすれば良い。従って第2図の第4行
目の文を入力した場合には、その段落の直前にあるのが
章見出しであり、第5図(d)の条件(1,1)(2,1)に
一致するので、そのレベルは第7図(c)に示すように
章見出しと同一レベル(レベル1)に設定される。
一方、第9行目の文を入力した場合には、その段落が
箇条書き見出しの次にあるので、第5図(d)の条件
(1,1)(2,1)に一致する。従ってそのレベルを第7図
(e)に示すように設定するようにすれば良い。
以上のように本装置によれば、入力された文書データ
を文毎に区切り、各文が見出しを構成するか否かを判定
すると共に、上記各文の文書構造をそれぞれ判定して、
その論理構造を求めるので、前記入力文書データをその
論理構造に従って効果的に文書処理することが可能とな
る。
つまり見出しとその見出しの文書中におけるレベル
(階層レベル)、および各見出しによってまとめられる
段落等の文書論理構造をその入力文書データから効果的
に求め、これを把握することができる。従ってその論理
構造に従って、例えば章や節単位で文書処理することが
可能となり、文書処理の大幅な効率化、簡易化を図るこ
とが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。例えば文書の論理構造を示すデータ形式や、その論
理構造を求める為の規則は、その仕様に応じて定めれば
良いものである。また字体(文字フォント)の変形を考
慮した見出しの抽出と、文書構造の判定処理を行なうよ
うにしても良い。またここでは日本語を例に説明した
が、他国語に対しても同様に適用可能なことは勿論のこ
とである。その他、本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。
[発明の効果] 以上説明したように本発明によれば、「見出し本体」
として出現する可能性の高い所定の語句を記憶してお
き、文書データ中の各文が「見出し本体」のみから構成
されているかもしくは「見出し本体」及び所定の後見出
し記号から構成されている場合に該文を見出しであると
判定することにより、「第1章」「1.1」等の前見出し
記号が付されていない見出しが存在する文書について
も、このような見出しを的確に判定できる。
また、記憶されている所定の語句は、「はじめに」の
ように文中に普通に出てくるような語句である可能性が
あるが、これが文中に普通に出てきたものではなく見出
しとして用いられていることを、区切りコードに従って
切り出された文が、該語句を見出し本体として、見出し
本体のみから構成されているかもしくは見出し本体及び
所定の後見出し記号から構成されていることを確認する
ことにより、的確に見分けることができる。そして、こ
の「はじめに」が見出しであると判定されれば、例えば
その部分から次の見出しまでの本文をひとまとまりとし
て編集操作や表示制御の対象とすること等ができるの
で、文書処理の使い勝手を飛躍的に改善することができ
る。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は実施例装
置の概略構成図、第2図は入力文書データの一例を示す
図、第3図は見出し語辞書の一例を示す図、第4図
(a)〜(d)は見出し抽出規則辞書の構成例を示す
図、第5図(a)〜(d)は文書構造規則辞書の構成例
を示す図、第6図は実施例装置の処理手続きの流れを示
す図、第7図(a)〜(e)は論理構造記憶部の構成と
その記憶データの遷移状態を示す図、第8図(a)〜
(c)はそれぞれ見出し文の解析構造を示す図である。 1……文書管理部、2……入力部、3……原文記憶部、
4……表示制御部、5……表示部、6……見出し抽出
部、7……見出し語辞書、8……見出し判定部、8a……
見出し規則辞書、9……文書構造判定部、9a……文書構
造規則部、10……論理構造記憶部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岡本 利夫 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝総合研究所内 (56)参考文献 特開 昭60−17522(JP,A) 特開 昭60−24622(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】見出し本体として出現する可能性の高い所
    定の語句を記憶しておき、 入力された文書データをこの文書データに含まれる区切
    りコードに従って1文毎に切り出し、 この切り出された文の中に記憶された前記語句が含まれ
    る場合に、この含まれる語句を見出し本体として、少な
    くとも切り出された該文が見出し本体のみから構成され
    ているかもしくは見出し本体及び所定の後見出し記号か
    ら構成されていることを確認したならば、切り出された
    該文が見出しであると判定することを特徴とする見出し
    判定方法。
JP61072121A 1986-03-29 1986-03-29 見出し判定方法 Expired - Lifetime JPH0823864B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP61072121A JPH0823864B2 (ja) 1986-03-29 1986-03-29 見出し判定方法
US06/897,930 US4813010A (en) 1986-03-29 1986-08-19 Document processing using heading rules storage and retrieval system for generating documents with hierarchical logical architectures
DE8686306421T DE3684469D1 (de) 1986-03-29 1986-08-19 Dokumentverarbeitungsanlage.
EP86306421A EP0250677B1 (en) 1986-03-29 1986-08-19 Document processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61072121A JPH0823864B2 (ja) 1986-03-29 1986-03-29 見出し判定方法

Publications (2)

Publication Number Publication Date
JPS62229368A JPS62229368A (ja) 1987-10-08
JPH0823864B2 true JPH0823864B2 (ja) 1996-03-06

Family

ID=13480194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61072121A Expired - Lifetime JPH0823864B2 (ja) 1986-03-29 1986-03-29 見出し判定方法

Country Status (4)

Country Link
US (1) US4813010A (ja)
EP (1) EP0250677B1 (ja)
JP (1) JPH0823864B2 (ja)
DE (1) DE3684469D1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731683B2 (ja) * 1986-04-10 1995-04-10 松下電器産業株式会社 文書処理装置
JPS6438866A (en) * 1987-08-05 1989-02-09 Hitachi Ltd Document editing device
US5179650A (en) * 1988-01-21 1993-01-12 Kabushiki Kaisha Toshiba Method and apparatus for editing documents
JPH01185762A (ja) * 1988-01-21 1989-07-25 Toshiba Corp 文書整形装置
JP2746592B2 (ja) * 1988-01-30 1998-05-06 キヤノン株式会社 文書処理装置および方法
JP2534360B2 (ja) * 1988-09-26 1996-09-11 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 接続方法、ノ―ド接続方法、デ―タ処理方法、及び木内にノ―ドを挿入する方法
US5063495A (en) * 1988-12-21 1991-11-05 International Business Machines Corporation Method of associating document processing states with an action market
JPH0362169A (ja) * 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JPH0769921B2 (ja) * 1990-11-09 1995-07-31 株式会社日立製作所 文書論理構造生成方法
JP2751681B2 (ja) * 1991-09-10 1998-05-18 松下電器産業株式会社 文書検索装置
JPH05101052A (ja) * 1991-10-04 1993-04-23 Fuji Xerox Co Ltd 文書作成支援装置
JPH05108641A (ja) * 1991-10-17 1993-04-30 Fuji Xerox Co Ltd 文書スタイル設計支援装置
US5345551A (en) * 1992-11-09 1994-09-06 Brigham Young University Method and system for synchronization of simultaneous displays of related data sources
JPH07141168A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 階層仕様情報作成方法
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
US7024622B1 (en) * 1997-11-26 2006-04-04 Adobe Systems Incorporated Keeping track of locations in electronic documents
IL127982A0 (en) * 1999-01-10 1999-11-30 Shonut Ltd Incoming facsimile routing using text and image analysis
EP1094402A1 (en) 1999-10-20 2001-04-25 Sun Microsystems, Inc. Automatic document formatting method
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
GB2368167A (en) * 2000-10-17 2002-04-24 Radka Radana Dvorak Knowledge management software system
US7249042B1 (en) 2000-11-01 2007-07-24 Microsoft Corporation Method and system for visually indicating project task durations are estimated using a character
US20020178190A1 (en) * 2001-05-22 2002-11-28 Allison Pope Systems and methods for integrating mainframe and client-server data into automatically generated business correspondence
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
JP3896341B2 (ja) * 2003-04-07 2007-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5412916B2 (ja) * 2009-03-27 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
WO2013110286A1 (en) * 2012-01-23 2013-08-01 Microsoft Corporation Paragraph property detection and style reconstruction engine
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
HRP20130700B1 (hr) * 2013-07-23 2016-03-11 Microblink D.O.O. Sustav za adaptivnu detekciju i ekstrakciju struktura iz strojno generiranih dokumenata
US11645448B2 (en) * 2019-03-29 2023-05-09 Nec Corporation Document analysis apparatus, document analysis method, and computer-readable recording medium

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4193119A (en) * 1977-03-25 1980-03-11 Xerox Corporation Apparatus for assisting in the transposition of foreign language text
GB2043311B (en) * 1979-03-02 1982-06-23 Ibm Text processing
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
BE891911A (fr) * 1982-01-27 1982-05-17 Europ Agence Spatiale Dispositif numerique pour commander la representation graphique de caracteres
US4503515A (en) * 1982-05-17 1985-03-05 International Business Machines Corporation Footnote assembly management
US4559598A (en) * 1983-02-22 1985-12-17 Eric Goldwasser Method of creating text using a computer
US4539653A (en) * 1983-04-11 1985-09-03 International Business Machines Corporation Formatting text/graphics using plural independent formatting mechanisms
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system

Also Published As

Publication number Publication date
US4813010A (en) 1989-03-14
EP0250677A1 (en) 1988-01-07
JPS62229368A (ja) 1987-10-08
EP0250677B1 (en) 1992-03-18
DE3684469D1 (de) 1992-04-23

Similar Documents

Publication Publication Date Title
JPH0823864B2 (ja) 見出し判定方法
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
US6035268A (en) Method and apparatus for breaking words in a stream of text
JP2693780B2 (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
EP0423683B1 (en) Apparatus for automatically generating index
CA1295746C (en) Method and apparatus for text analysis
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
US20050251381A1 (en) Tokenizer for a natural language processing system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH09190449A (ja) 索引自動生成方法とその利用方法
JPH077410B2 (ja) 文書レイアウト方法
JPH0211934B2 (ja)
JPS62249270A (ja) 文書処理装置
JP2002503849A (ja) 漢字文における単語区分方法
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPS62249269A (ja) 文書処理装置
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
JP3471381B2 (ja) 文字列処理方法
JPH0765008A (ja) 用語登録制御方法及び同装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JP2829264B2 (ja) 文書レイアウト方法
JP2575947B2 (ja) 文節切出し装置
JPH06342428A (ja) 文書レイアウト方法
JPH0612453A (ja) 未知語抽出登録装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term