JPH11203285A - 文書構造解析装置、方法、及び記録媒体 - Google Patents

文書構造解析装置、方法、及び記録媒体

Info

Publication number
JPH11203285A
JPH11203285A JP10018051A JP1805198A JPH11203285A JP H11203285 A JPH11203285 A JP H11203285A JP 10018051 A JP10018051 A JP 10018051A JP 1805198 A JP1805198 A JP 1805198A JP H11203285 A JPH11203285 A JP H11203285A
Authority
JP
Japan
Prior art keywords
line
document element
document
determined
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10018051A
Other languages
English (en)
Inventor
Yoshinao Hiranuma
義直 平沼
Yoshinori Hatayama
佳紀 畑山
Tetsuo Takeyama
哲夫 竹山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP10018051A priority Critical patent/JPH11203285A/ja
Publication of JPH11203285A publication Critical patent/JPH11203285A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 元文書の各文書要素を的確に意味付けし、見
出しのレベルを適正に決めることにより、元文書からレ
イアウトの整った文書を容易に作成する。 【解決手段】 文書要素の行内位置を示す行属性を所定
のルールに従って各行毎に決定するレイアウト情報抽出
部23と、文書要素の意味を解析する解析部241・2
42と、文書要素の意味と行属性に基づいて各行の意味
を決定するレイアウト解析部243と、文書要素の意味
と行属性に基づいて見出しレベルを決定するレベル解析
部244と、を有する文書構造解析装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を形態素に分
解して解析した結果に基づいて1以上の形態素から成る
文書要素の意味を決定する文書構造解析装置、文書構造
解析方法、及び記録媒体に関する。
【0002】
【従来の技術】文書構造の解析手法としては、文書を形
態素に分解し、形態素辞書を参照して各形態素の意味を
解析する手法がある。また、文書内の見出しのレベル
(字下げ量)を決める手法としては、同一パターンの見
出しの場合は従前の同一パターンの見出しと同じレベル
であるとし、異なるパターンの見出しの場合は先に出現
した見出しを高レベルであるとする手法がある。
【0003】
【発明が解決しようとする課題】元原稿から、レイアウ
トの整った適式の文書を容易に作成したいという要請が
ある。そのためには、元文書を解析して、各文書要素を
的確に意味付けすることが必要である。つまり、注目し
ている文書要素が、文書番号、宛先、差出人、タイト
ル、作成者、見出し、日付、本文等の何れであるかを、
的確に判定することが必要である。また、見出しのレベ
ルを適正に決めることが必要である。
【0004】文書を形態素(単語)に分解して、形態素
辞書を参照して各形態素の意味を解析する手法では、例
えば、元文書が図12(a)に示す文書の場合、「アト
ムクリエーション」に「株式会社」等の語句が付加され
ていないため、その意味が会社名であることや、「新商
品説明会」に「御案内」等の語句が付加されていないた
め、その意味がタイトルであることを正確に判定でき
ず、これらを本文であると誤判定してしまい、その結
果、作成文書のレイアウトに同図(b)に示すような不
具合が生ずるという問題がある。
【0005】同一パターンの見出しの場合は従前と同じ
レベルとし、異なるパターンの見出しの場合は先に出現
した見出しを高レベルとする手法では、元文書が図13
に示す文書の場合、「■お問い合わせ」が高レベルであ
るにもかかわらず後に出現しているため、従前の見出し
よりも低レベルであるとしてしまう結果、作成文書のレ
イアウトに図14に示すような不具合が生ずるという問
題がある。
【0006】本発明は、作成文書のレイアウトに、図1
2(b)に示すような不具合や、図14に示すような不
具合が生じないようにすることを目的とする。
【0007】
【課題を解決するための手段】請求項1の発明は、文書
を形態素に分解して解析した結果に基づいて1以上の形
態素から成る文書要素の意味を決定する文書構造解析装
置であって、文書要素の行内位置を示す行属性を各行毎
に決定する行属性決定手段と、文書要素を構成する各形
態素の意味と文書要素の所属行の行属性とに基づいて文
書要素の意味を各行毎に決定する解析手段と、を有する
ことを特徴とする文書構造解析装置である。請求項2の
発明は、請求項1に於いて、前記行属性決定手段が、行
の最大幅と各行の文書要素の行内開始位置及び行内終了
位置とを検出し、検出結果に基づいて各行の行属性を決
定する、ことを特徴とする文書構造解析装置である。
【0008】請求項3の発明は、請求項1又は請求項2
に於いて、さらに、文書要素を再配置する際の行内開始
位置を他行との関連に於いて相対的に示す相対レベル
を、前記行属性決定手段により決定された行属性と前記
解析手段により決定された意味とに基づいて各行毎に決
定するレベル決定手段、を有することを特徴とする文書
構造解析装置である。
【0009】請求項4の発明は、行の最大幅と各行の文
書要素の行内開始位置及び行内終了位置とを検出し、検
出結果に基づいて、文書要素の行内位置を示す行属性を
各行毎に決定する行属性決定手段と、文書要素を構成す
る各形態素の意味に基づいて文書要素の意味構造を各文
書要素毎に決定する意味構造解析手段と、文書要素の所
属行での意味構造と文書要素の所属行の行属性とに基づ
いて文書要素の意味を各行毎に決定する解析手段と、文
書要素を再配置する際の行内開始位置を他行との関連に
於いて相対的に示す相対レベルを、前記行属性決定手段
により決定された行属性と前記解析手段により決定され
た意味とに基づいて各行毎に決定するレベル決定手段
と、を有することを特徴とする文書構造解析装置であ
る。
【0010】請求項5の発明は、請求項1〜請求項4の
何れかに於いて、前記行属性が、文書要素が行内右寄り
の位置に在ることを示す右寄せ、行内中央位置付近に在
ることを示すセンタリング、及び行内左寄りの位置に在
ることを示す左寄せ、の何れかである、ことを特徴とす
る文書構造解析装置である。
【0011】請求項6の発明は、請求項5に於いて、前
記行属性決定手段が、文書要素の行内開始位置が行の中
央より終端寄りに在るか、又は、文書要素の幅が行の最
大幅の半分以下であり且つ文書要素の行内終了位置が行
の終端から所定幅内に在るか、又は、文書要素の行内開
始位置が行の始端から所定幅外に在り且つ文書要素の行
内終了位置が行の終端から所定幅内に在る場合に、前記
行属性が前記右寄せであると決定し、文書要素の中心が
行の中央から所定幅内に在り、且つ、文書要素の行内開
始位置が行の始端から所定幅外に在り、且つ、文書要素
の行内終了位置が行の終端から所定幅外に在る場合に、
前記行属性が前記センタリングであると決定し、前記右
寄せで無く、且つ、前記センタリングで無い場合に、前
記行属性が前記左寄せであると決定する、ことを特徴と
する文書構造解析装置である。
【0012】請求項7の発明は、請求項3、又は請求項
4に於いて、前記レベル決定手段が、注目行の文書要素
が見出し記号を有し、且つ、同一パターンの見出し記号
を有する行が従前に存在した場合は、該従前の行と同じ
レベルに決定し、注目行の文書要素が見出し記号を有
し、且つ、非同一パターンの見出し記号を有し行内開始
位置が同じである行が従前に存在した場合は、該従前の
行より1レベル下位に決定し、注目行の文書要素が見出
し記号を有し、且つ、非同一パターンの見出し記号を有
し行内開始位置が異なる行が従前に存在した場合は、注
目行の行内文字開始位置が先であれば従前より上位レベ
ルに決定し、注目行の行内文字開始位置が後であれば従
前より下位レベルに決定し、注目行の文書要素が見出し
記号を有せず、且つ、見出し記号を有する直前の行より
行内文字開始位置が後であれば、該直前の行より1レベ
ル下位に決定し、注目行の文書要素が見出し記号を有せ
ず、且つ、見出し記号を有する直前の行より行内文字開
始位置が先であれば、行内文字開始位置が注目行より先
である直前の行より1レベル下位に決定する、ことを特
徴とする文書構造解析装置である。
【0013】請求項8の発明は、文書を形態素に分解し
て解析した結果に基づいて1以上の形態素から成る文書
要素の意味を決定する文書構造解析方法であって、文書
要素の行内位置を示す行属性を各行毎に決定し、文書要
素を構成する各形態素の意味と文書要素の所属行の行属
性とに基づいて文書要素の意味を各行毎に決定する、こ
とを特徴とする文書構造解析方法である。請求項9の発
明は、請求項8に於いて、行の最大幅と各行の文書要素
の行内開始位置及び行内終了位置とを検出し、検出結果
に基づいて各行の行属性を決定する、ことを特徴とする
文書構造解析方法である。
【0014】請求項10の発明は、請求項8又は請求項
9に於いて、さらに、文書要素を再配置する際の行内開
始位置を他行との関連に於いて相対的に示す相対レベル
を、各行毎に決定した行属性と意味とに基づいて決定す
る、ことを特徴とする文書構造解析方法である。
【0015】請求項11の発明は、行の最大幅と各行の
文書要素の行内開始位置及び行内終了位置とを検出し、
検出結果に基づいて、文書要素の行内位置を示す行属性
を各行毎に決定し、文書要素を構成する各形態素の意味
に基づいて文書要素の意味構造を各文書要素毎に決定
し、文書要素の所属行での意味構造と文書要素の所属行
の行属性とに基づいて文書要素の意味を各行毎に決定
し、文書要素を再配置する際の行内開始位置を他行との
関連に於いて相対的に示す相対レベルを、各行毎に決定
した行属性と意味とに基づいて決定する、ことを特徴と
する文書構造解析方法である。
【0016】請求項12の発明は、請求項8〜請求項1
1の何れかに於いて、前記行属性が、文書要素が行内右
寄りの位置に在ることを示す右寄せ、行内中央位置付近
に在ることを示すセンタリング、及び行内左寄りの位置
に在ることを示す左寄せ、の何れかである、ことを特徴
とする文書構造解析方法である。
【0017】請求項13の発明は、請求項12に於い
て、文書要素の行内開始位置が行の中央より終端寄りに
在るか、又は、文書要素の幅が行の最大幅の半分以下で
あり且つ文書要素の行内終了位置が行の終端から所定幅
内に在るか、又は、文書要素の行内開始位置が行の始端
から所定幅外に在り且つ文書要素の行内終了位置が行の
終端から所定幅内に在る場合に、前記行属性が前記右寄
せであると決定し、文書要素の中心が行の中央から所定
幅内に在り、且つ、文書要素の行内開始位置が行の始端
から所定幅外に在り、且つ、文書要素の行内終了位置が
行の終端から所定幅外に在る場合に、前記行属性が前記
センタリングであると決定し、前記右寄せで無く、且
つ、前記センタリングで無い場合に、前記行属性が前記
左寄せであると決定する、ことを特徴とする文書構造解
析方法である。
【0018】請求項14の発明は、請求項10又は請求
項11に於いて、注目行の文書要素が見出し記号を有
し、且つ、同一パターンの見出し記号を有する行が従前
に存在した場合は、該従前の行と同じレベルに決定し、
注目行の文書要素が見出し記号を有し、且つ、非同一パ
ターンの見出し記号を有し行内開始位置が同じである行
が従前に存在した場合は、該従前の行より1レベル下位
に決定し、注目行の文書要素が見出し記号を有し、且
つ、非同一パターンの見出し記号を有し行内開始位置が
異なる行が従前に存在した場合は、注目行の行内文字開
始位置が先であれば従前より上位レベルに決定し、注目
行の行内文字開始位置が後であれば従前より下位レベル
に決定し、注目行の文書要素が見出し記号を有せず、且
つ、見出し記号を有する直前の行より行内文字開始位置
が後であれば、該直前の行より1レベル下位に決定し、
注目行の文書要素が見出し記号を有せず、且つ、見出し
記号を有する直前の行より行内文字開始位置が先であれ
ば、行内文字開始位置が注目行より先である直前の行よ
り1レベル下位に決定する、ことを特徴とする文書構造
解析方法である。
【0019】請求項15の発明は、コンピュータを請求
項1〜請求項7の何れかに記載の文書構造解析装置とし
て機能させるためのプログラムが記録されている、コン
ピュータ読み取り可能な記録媒体である。請求項16の
発明は、請求項15に於いて、さらに、機能の実現に必
要な辞書が併せて記録されている、コンピュータ読み取
り可能な記録媒体である。
【0020】
【発明の実施の形態】図1は実施の形態の文書構造解析
装置のブロック図である。制御部10は、入力部22か
ら入力される任意のテキスト文書に対して、図2以降に
示す手順に従って起動されるレイアウト情報抽出部23
及び文書構造解析部24(形態素解析部241、意味構
造解析部242、レイアウト解析部243、レベル解析
部244)の処理を施すことにより、レイアウトの整っ
た文書印字を可能とするデータを作成して、出力部25
から出力する。この処理を実行するために必要なプログ
ラム及び辞書は、公知の記録媒体(CD−ROMやFD
等)やネットを介して予め本装置にインストールされて
おり、そのプログラムに従って下記の処理を実行するこ
とにより、本装置の機能が実現される。
【0021】図2は図1の装置で実行される文書構造解
析手順のメインルーチンを示すフロ−チャ−ト、図3は
図2内のレイアウト情報抽出処理(S11)の手順を示
すフロ−チャ−ト、図4は図3内の最大カラム数演算・
各行の開始位置検出処理(S101)の手順を示すフロ
−チャ−ト、図5は図3内の行属性の決定処理(S10
3)の手順を示すフロ−チャ−ト、図6は図5内の条件
を示す説明図、図7は図2内の形態素解析処理(S2
2)と意味構造解析処理(S23,S31)の考え方を
示す説明図、図8は図2内のレイアウト解析処理(S2
5)の手順を示すフロ−チャ−ト、図9は図8のレイア
ウト解析処理の説明図、図10は図2内のレベル付け処
理(S33)の手順を示すフロ−チャ−ト、図11は図
10のレベル付け処理の説明図である。
【0022】1.メインルーチン. 図示のように、本装置では、まず、各行のレイアウト情
報(行属性)が、行属性ルール辞書23aを参照して決
定される(S11)。この詳細については後述する。次
に、文書要素の意味を決定する処理が、各行毎に順に実
行される(S21〜S27)。即ち、文書要素を構成す
る各形態素の意味が、形態素辞書241aを参照して、
例えば、図7(a)の上段のように各々決定される。次
に、各形態素の意味に基づいて、文書要素の意味構造
が、意味構造辞書242aを参照して、例えば、図7
(a)の〜の手順で決定される。つまり、同図
(b)に示すように、文書要素を構成する各形態素の意
味の並びに基づいて、当該文書要素としての意味構造
(新しい意味)が決定される。また、文書要素の意味構
造が決定されると、該決定された意味構造とステップS
11で検出した行属性とに基づいて、当該行の文書要素
の意味が、レイアウト情報が有効である(=レイアウト
情報無効フラグが0である)ことを条件として(S2
4:YES)、レイアウト解析処理(S25)により決
定される。この詳細については後述する。次に、次行に
ついて(S27:NO)、同様に処理が行われる。各行
について文書要素の意味を決定する処理が終了すると
(S27:YES)、前述の意味構造解析処理が、2行
以上について同様に実行される(S31)。この処理
は、例えば、会社名と部署等から成る宛先が2行以上に
渡って記述されている場合等を想定したものである。次
に、文書要素を再配置する際の行内開始位置を他行との
関連に於いて相対的に示す相対レベルを前記行属性と前
記意味とに基づいて各行毎に決定するレベル付け処理が
実行される(S33)。この詳細については後述する。
【0023】2.レイアウト情報抽出処理. レイアウト情報抽出処理(S11)では、まず、各行の
文書要素の行内開始位置及び行内終了位置が算出され
る。また、全ての行の文書要素についての行内終了位置
の最大値として、最大カラム数(最大桁数=最大行幅)
が演算される(S101)。最大カラム数は、具体的に
は、図4に示すように、最大カラム数に初期値0をセッ
トした後、各行の文書要素の行内終了位置と最大カラム
数を比較して、行内終了位置が最大カラム数より大きい
場合に該行内終了位置を最大カラム数に代入する処理を
文書終端まで繰り返すことによって求められる。
【0024】次に、行属性が各行毎に順に決定される
(S103)。行属性は、図6(a)の条件に適合する
場合は(S1032:YES)、「右寄せ」であり(S
1033)、図6(b)の条件に適合する場合は(S1
034:YES)、「センタリング」であり(S103
5)、図6(a)(b)の条件の何れにも適合しない場
合は(S1034:NO)、「左寄せ」である(S10
36)と決定される。即ち、文書要素の行内開始位置が
行の中央より終端寄りに在るか(図6(a))、又
は、文書要素の幅が行の最大幅の半分以下であり且つ文
書要素の行内終了位置が行の終端から20%の幅内に在
るか(図6(a))、又は、文書要素の行内開始位置
が行の始端から40%の幅外に在り且つ文書要素の行内
終了位置が行の終端から10%の幅内に在る(図6
(a))場合に、行属性が「右寄せ」であると決定さ
れる。一方、文書要素の中心が行の中央から5%の幅内
に在り(図6(b))、且つ、文書要素の行内開始位
置が行の始端から10%の幅外に在り(図6(b)
)、且つ、文書要素の行内終了位置が行の終端から1
0%の幅外に在る(図6(b))場合に、行属性がセ
ンタリングであると決定される。なお、パーセントは、
最大カラム数に対する割合を示す。
【0025】こうして各行の行属性が決定されると、入
力文書の行数が2行以上であり(S111:YES)、
且つ、何れかの行の行属性として「右寄せ」又は「セン
タリング」が決定されている(S113:YES)こと
を条件として、レイアウト情報無効フラグが0にされる
(S115)。なお、上記何れかの条件が満たされない
場合には、レイアウト情報無効フラグが1にされ、この
場合には、先述のレイアウト解析処理(S25)は実行
されない。
【0026】3.レイアウト解析処理. レイアウト解析処理(S25)では、ステップS11で
決定された行属性とステップS22〜S23で決定され
た文書要素の意味構造とに基づいて、当該行の文書要素
の意味が決定される。例えば、行属性が「センタリン
グ」であれば(S251:YES)、文書要素の意味構
造に応じて(S252)、図9の上段部分に示されてい
る対応関係に従って、当該行の文書要素の意味が決定さ
れる(S2531〜S253m)。また、行属性が「右
寄せ」であれば(S254:YES)、文書要素の意味
構造に応じて(S255)、図9の中段部分に示されて
いる対応関係に従って、当該行の文書要素の意味が決定
される(S2561〜S256n)。また、「左寄せ」
であれば(S254:NO)、文書要素の意味構造に応
じて(S258)、図9の下段部分に示されている対応
関係に従って、当該行の文書要素の意味が決定される
(S2591〜S259p)。
【0027】4.レベル付け処理. レベル付け処理(S33)では、文書要素を再配置する
際の行内開始位置を他行との関連に於いて相対的に示す
相対レベルを決定する処理が、図10に示す手順で、図
11に示すルールに従って各行毎に順に実行される。
【0028】即ち、文書要素の意味が、文書番号、日
時、宛先、差出人、作成者、又はタイトルの何れか(以
上、文書番号等)であれば(S332:YES)、当該
行にレベル1が設定される(S3321)。
【0029】また、注目行の文書要素が見出し記号を有
し(S333:YES)、且つ、同一パターンの見出し
記号を有する行が従前に存在した場合は(S334)、
該従前の行と同じレベルが設定される。同様に、注目行
の文書要素が見出し記号を有し(S333:YES)、
且つ、非同一パターンの見出し記号を有し行内開始位置
が同じである行が従前に存在した場合は(S334)、
該従前の行より1レベル下位が設定される。同様に、注
目行の文書要素が見出し記号を有し(S333:YE
S)、且つ、非同一パターンの見出し記号を有し行内開
始位置が異なる行が従前に存在した場合は(S33
4)、注目行の行内文字開始位置が先であれば従前より
上位レベルが設定され、注目行の行内文字開始位置が後
であれば従前より下位レベルが設定される。
【0030】一方、注目行の文書要素が見出し記号を有
せず(S333:NO)、且つ、見出し記号を有する直
前の行より行内文字開始位置が後であれば(S33
5)、該直前の行より1レベル下位が設定される。ま
た、注目行の文書要素が見出し記号を有せず(S33
3:NO)、且つ、見出し記号を有する直前の行より行
内文字開始位置が先であれば(S335)、行内文字開
始位置が注目行より先である直前の見出し記号を有する
行より1レベル下位が設定される。
【0031】以上述べたように、各行の文書要素の意味
が決定され、各行のレベルが決定される結果、図12
(a)の元文書は図12(c)の印字を可能とするデー
タに変換され、図13の元文書は図15の印字を可能と
するデータに変換される。
【0032】
【発明の効果】本発明では、文書要素の行内位置を示す
行属性を各行毎に決定し、文書要素を構成する各形態素
の意味と文書要素の所属行の行属性とに基づいて文書要
素の意味を各行毎に決定するため、元文書の各文書要素
を的確に意味付けすることができる。また、文書要素を
再配置する際の行内開始位置を他行との関連に於いて相
対的に示す相対レベルを行属性と意味とに基づいて各行
毎に決定するため、後に出現した高レベルの文書要素を
従前の見出しよりも低レベルであると誤判定することが
なく、レベルを適正に判定できる。したがって、本発明
を用いると、元文書からレイアウトの整った適式の文書
を容易に作成することが可能となる。
【図面の簡単な説明】
【図1】文書構造解析装置の構成を示すブロック図。
【図2】文書構造解析処理手順を示すフロ−チャ−ト。
【図3】図2内のレイアウト情報抽出処理の手順を示す
フロ−チャ−ト。
【図4】図3内の最大カラム数の演算・各行の開始位置
検出の手順を示すフロ−チャ−ト。
【図5】図3内の行属性の決定の手順を示すフロ−チャ
−ト。
【図6】図5内の条件を示す説明図。
【図7】図2内の形態素解析処理と意味構造解析処理の
考え方を示す説明図。
【図8】図2内のレイアウト解析処理の手順を示すフロ
−チャ−ト。
【図9】図8のレイアウト解析処理の説明図。
【図10】図2内のレベル付け処理の手順を示すフロ−
チャ−ト。
【図11】図10のレベル付け処理の説明図。
【図12】元文書(a)と、従来の手法の解析に基づい
て作成した文書(b)と、本発明の手法の解析に基づい
て作成した文書(c)の説明図。
【図13】元文書の説明図。
【図14】図13の元文書に従来の手法でレベル付けを
して作成した文書の説明図。
【図15】図13の元文書に本発明の手法でレベル付け
をして作成した文書の説明図。
【符号の説明】
23 レイアウト情報抽出部 24 文書構造解析部

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 文書を形態素に分解して解析した結果に
    基づいて1以上の形態素から成る文書要素の意味を決定
    する文書構造解析装置であって、 文書要素の行内位置を示す行属性を各行毎に決定する行
    属性決定手段と、 文書要素を構成する各形態素の意味と文書要素の所属行
    の行属性とに基づいて文書要素の意味を各行毎に決定す
    る解析手段と、 を有することを特徴とする文書構造解析装置。
  2. 【請求項2】 請求項1に於いて、 前記行属性決定手段は、行の最大幅と各行の文書要素の
    行内開始位置及び行内終了位置とを検出し、検出結果に
    基づいて各行の行属性を決定する、 ことを特徴とする文書構造解析装置。
  3. 【請求項3】 請求項1、又は請求項2に於いて、さら
    に、 文書要素を再配置する際の行内開始位置を他行との関連
    に於いて相対的に示す相対レベルを、前記行属性決定手
    段により決定された行属性と前記解析手段により決定さ
    れた意味とに基づいて各行毎に決定するレベル決定手
    段、 を有することを特徴とする文書構造解析装置。
  4. 【請求項4】 行の最大幅と各行の文書要素の行内開始
    位置及び行内終了位置とを検出し、検出結果に基づい
    て、文書要素の行内位置を示す行属性を各行毎に決定す
    る行属性決定手段と、 文書要素を構成する各形態素の意味に基づいて文書要素
    の意味構造を各文書要素毎に決定する意味構造解析手段
    と、 文書要素の所属行での意味構造と文書要素の所属行の行
    属性とに基づいて文書要素の意味を各行毎に決定する解
    析手段と、 文書要素を再配置する際の行内開始位置を他行との関連
    に於いて相対的に示す相対レベルを、前記行属性決定手
    段により決定された行属性と前記解析手段により決定さ
    れた意味とに基づいて各行毎に決定するレベル決定手段
    と、 を有することを特徴とする文書構造解析装置。
  5. 【請求項5】 請求項1〜請求項4の何れかに於いて、 前記行属性は、文書要素が行内右寄りの位置に在ること
    を示す右寄せ、行内中央位置付近に在ることを示すセン
    タリング、及び行内左寄りの位置に在ることを示す左寄
    せ、の何れかである、 ことを特徴とする文書構造解析装置。
  6. 【請求項6】 請求項5に於いて、 前記行属性決定手段は、 文書要素の行内開始位置が行の中央より終端寄りに在る
    か、又は、文書要素の幅が行の最大幅の半分以下であり
    且つ文書要素の行内終了位置が行の終端から所定幅内に
    在るか、又は、文書要素の行内開始位置が行の始端から
    所定幅外に在り且つ文書要素の行内終了位置が行の終端
    から所定幅内に在る場合に、前記行属性が前記右寄せで
    あると決定し、 文書要素の中心が行の中央から所定幅内に在り、且つ、
    文書要素の行内開始位置が行の始端から所定幅外に在
    り、且つ、文書要素の行内終了位置が行の終端から所定
    幅外に在る場合に、前記行属性が前記センタリングであ
    ると決定し、 前記右寄せで無く、且つ、前記センタリングで無い場合
    に、前記行属性が前記左寄せであると決定する、 ことを特徴とする文書構造解析装置。
  7. 【請求項7】 請求項3、又は請求項4に於いて、 前記レベル決定手段は、 注目行の文書要素が見出し記号を有し、且つ、同一パタ
    ーンの見出し記号を有する行が従前に存在した場合は、
    該従前の行と同じレベルに決定し、 注目行の文書要素が見出し記号を有し、且つ、非同一パ
    ターンの見出し記号を有し行内開始位置が同じである行
    が従前に存在した場合は、該従前の行より1レベル下位
    に決定し、 注目行の文書要素が見出し記号を有し、且つ、非同一パ
    ターンの見出し記号を有し行内開始位置が異なる行が従
    前に存在した場合は、注目行の行内文字開始位置が先で
    あれば従前より上位レベルに決定し、注目行の行内文字
    開始位置が後であれば従前より下位レベルに決定し、 注目行の文書要素が見出し記号を有せず、且つ、見出し
    記号を有する直前の行より行内文字開始位置が後であれ
    ば、該直前の行より1レベル下位に決定し、 注目行の文書要素が見出し記号を有せず、且つ、見出し
    記号を有する直前の行より行内文字開始位置が先であれ
    ば、行内文字開始位置が注目行より先である直前の行よ
    り1レベル下位に決定する、 ことを特徴とする文書構造解析装置。
  8. 【請求項8】 文書を形態素に分解して解析した結果に
    基づいて1以上の形態素から成る文書要素の意味を決定
    する文書構造解析方法であって、 文書要素の行内位置を示す行属性を各行毎に決定し、 文書要素を構成する各形態素の意味と文書要素の所属行
    の行属性とに基づいて文書要素の意味を各行毎に決定す
    る、 ことを特徴とする文書構造解析方法。
  9. 【請求項9】 請求項8に於いて、 行の最大幅と各行の文書要素の行内開始位置及び行内終
    了位置とを検出し、検出結果に基づいて各行の行属性を
    決定する、 ことを特徴とする文書構造解析方法。
  10. 【請求項10】 請求項8、又は請求項9に於いて、さ
    らに、 文書要素を再配置する際の行内開始位置を他行との関連
    に於いて相対的に示す相対レベルを、各行毎に決定した
    行属性と意味とに基づいて決定する、 ことを特徴とする文書構造解析方法。
  11. 【請求項11】 行の最大幅と各行の文書要素の行内開
    始位置及び行内終了位置とを検出し、検出結果に基づい
    て、文書要素の行内位置を示す行属性を各行毎に決定
    し、 文書要素を構成する各形態素の意味に基づいて文書要素
    の意味構造を各文書要素毎に決定し、 文書要素の所属行での意味構造と文書要素の所属行の行
    属性とに基づいて文書要素の意味を各行毎に決定し、 文書要素を再配置する際の行内開始位置を他行との関連
    に於いて相対的に示す相対レベルを、各行毎に決定した
    行属性と意味とに基づいて決定する、 ことを特徴とする文書構造解析方法。
  12. 【請求項12】 請求項8〜請求項11の何れかに於い
    て、 前記行属性は、文書要素が行内右寄りの位置に在ること
    を示す右寄せ、行内中央位置付近に在ることを示すセン
    タリング、及び行内左寄りの位置に在ることを示す左寄
    せ、の何れかである、 ことを特徴とする文書構造解析方法。
  13. 【請求項13】 請求項12に於いて、 文書要素の行内開始位置が行の中央より終端寄りに在る
    か、又は、文書要素の幅が行の最大幅の半分以下であり
    且つ文書要素の行内終了位置が行の終端から所定幅内に
    在るか、又は、文書要素の行内開始位置が行の始端から
    所定幅外に在り且つ文書要素の行内終了位置が行の終端
    から所定幅内に在る場合に、前記行属性が前記右寄せで
    あると決定し、 文書要素の中心が行の中央から所定幅内に在り、且つ、
    文書要素の行内開始位置が行の始端から所定幅外に在
    り、且つ、文書要素の行内終了位置が行の終端から所定
    幅外に在る場合に、前記行属性が前記センタリングであ
    ると決定し、 前記右寄せで無く、且つ、前記センタリングで無い場合
    に、前記行属性が前記左寄せであると決定する、 ことを特徴とする文書構造解析方法。
  14. 【請求項14】 請求項10、又は請求項11に於い
    て、 注目行の文書要素が見出し記号を有し、且つ、同一パタ
    ーンの見出し記号を有する行が従前に存在した場合は、
    該従前の行と同じレベルに決定し、 注目行の文書要素が見出し記号を有し、且つ、非同一パ
    ターンの見出し記号を有し行内開始位置が同じである行
    が従前に存在した場合は、該従前の行より1レベル下位
    に決定し、 注目行の文書要素が見出し記号を有し、且つ、非同一パ
    ターンの見出し記号を有し行内開始位置が異なる行が従
    前に存在した場合は、注目行の行内文字開始位置が先で
    あれば従前より上位レベルに決定し、注目行の行内文字
    開始位置が後であれば従前より下位レベルに決定し、 注目行の文書要素が見出し記号を有せず、且つ、見出し
    記号を有する直前の行より行内文字開始位置が後であれ
    ば、該直前の行より1レベル下位に決定し、 注目行の文書要素が見出し記号を有せず、且つ、見出し
    記号を有する直前の行より行内文字開始位置が先であれ
    ば、行内文字開始位置が注目行より先である直前の行よ
    り1レベル下位に決定する、 ことを特徴とする文書構造解析方法。
  15. 【請求項15】 コンピュータを請求項1〜請求項7の
    何れかに記載の文書構造解析装置として機能させるため
    のプログラムが記録されている、コンピュータ読み取り
    可能な記録媒体。
  16. 【請求項16】 請求項15に於いて、さらに、機能の
    実現に必要な辞書が併せて記録されている、コンピュー
    タ読み取り可能な記録媒体。
JP10018051A 1998-01-14 1998-01-14 文書構造解析装置、方法、及び記録媒体 Pending JPH11203285A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10018051A JPH11203285A (ja) 1998-01-14 1998-01-14 文書構造解析装置、方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10018051A JPH11203285A (ja) 1998-01-14 1998-01-14 文書構造解析装置、方法、及び記録媒体

Publications (1)

Publication Number Publication Date
JPH11203285A true JPH11203285A (ja) 1999-07-30

Family

ID=11960908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10018051A Pending JPH11203285A (ja) 1998-01-14 1998-01-14 文書構造解析装置、方法、及び記録媒体

Country Status (1)

Country Link
JP (1) JPH11203285A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319756B1 (ko) * 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법
KR100761912B1 (ko) 2006-04-05 2007-09-28 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319756B1 (ko) * 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법
US6728403B1 (en) 2000-01-21 2004-04-27 Electronics And Telecommunications Research Institute Method for analyzing structure of a treatise type of document image
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
KR100761912B1 (ko) 2006-04-05 2007-09-28 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템

Similar Documents

Publication Publication Date Title
JP2005018780A (ja) 構造化文書オーサリングのためのシステム及びその方法
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US10255047B2 (en) Source code analysis and adjustment system
US20090287994A1 (en) Document processing device and document processing method
CA2453722A1 (en) Relationship management for data modeling in an integrated development environment
JPH11203285A (ja) 文書構造解析装置、方法、及び記録媒体
JP2007072646A (ja) 検索装置、検索方法およびプログラム
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
JP7064871B2 (ja) テキストマイニング装置およびテキストマイニング方法
JP5123350B2 (ja) テストケース作成システム、方法およびプログラム
JPH0877196A (ja) 文書情報抽出装置
JP2000112611A (ja) ソフトウエア開発文書の表示方法および記憶媒体
WO2006001392A1 (ja) 文書処理方法および装置
JP2002140338A (ja) 辞書構築支援装置および辞書構築支援方法
JP4417384B2 (ja) 文書処理装置および文書処理方法
WO2006046665A1 (ja) 文書処理装置及び文書処理方法
JP2007286721A (ja) 類似性評価装置及びプログラム
JP2005301996A (ja) 文書統合装置、文書統合装置の文書統合方法及びプログラム及び記録媒体
JP3478614B2 (ja) 文書処理方法及びその装置
JP3419483B2 (ja) 自然言語処理装置及びその方法
JP2003173338A (ja) 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム
JP4040233B2 (ja) 重要文抽出装置および記憶媒体
CN116384346A (zh) 基于html格式的文字替换方法、装置、终端和介质
CN114154092A (zh) 用于对网页进行翻译的方法及其相关产品
CN118276858A (zh) 程序转换方法、装置、电子设备及计算机可读存储介质