JP2000029877A - 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 - Google Patents

文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Info

Publication number
JP2000029877A
JP2000029877A JP10200654A JP20065498A JP2000029877A JP 2000029877 A JP2000029877 A JP 2000029877A JP 10200654 A JP10200654 A JP 10200654A JP 20065498 A JP20065498 A JP 20065498A JP 2000029877 A JP2000029877 A JP 2000029877A
Authority
JP
Japan
Prior art keywords
label
itemized
document
line
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10200654A
Other languages
English (en)
Other versions
JP3767180B2 (ja
Inventor
Takaaki Hasegawa
隆明 長谷川
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP20065498A priority Critical patent/JP3767180B2/ja
Publication of JP2000029877A publication Critical patent/JP2000029877A/ja
Application granted granted Critical
Publication of JP3767180B2 publication Critical patent/JP3767180B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 箇条書きラベルを含んだり、特定の記号等が
なくても、文字列の長さや行頭の位置情報を使うことに
よって、ラベル付箇条書きと本文の単文化についての文
書構造を解析することが可能な文書構造解析方法及び装
置及び文書構造解析プログラムを格納した記憶媒体を提
供する。 【解決手段】 本発明は、解析対象の文書を入力し、文
書の行頭の引用符の有無を調べ、該引用符がある場合に
は削除し、文書中の日時、場所、期限を含む特定の箇条
書きラベルに使用される文字列を検出し、検出された箇
条書きラベルの特徴に基づいて、任意の箇条書きラベル
を検出し、箇条書きラベルが検出された行の行頭の位置
と、その次以降の箇条書きラベルが検出されない行頭の
位置を箇条書き範囲として特定し、箇条書き範囲と判定
されない行に対し、その次以降の行を接続し、文単位に
区切り、特定の箇条書き、任意の箇条書き及び文を示す
タグを文書に付与して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書構造解析方法
及び装置及び文書構造解析プログラムを格納した記憶媒
体に係り、特に、ネットワークを介して伝達された、あ
るいは、OCRで読み込んだ電子文書の文書構造中の箇
条書きを特定するするための文書構造解析方法及び装置
及び文書構造解析プログラムを格納した記憶媒体に関す
る。
【0002】
【従来の技術】従来の文書構造を解析する方法におい
て、箇条書きを特定する際に、予め決められたラベル付
箇条書きを表しうる単語や記号を用意して、文書に対し
て検索を行い、これに一致した文字列を箇条書きと判定
している。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の予め決められた箇条書きを表す単語や記号を用いて
文書を検索し、箇条書きを判定する方法では、予想しう
る単語や記号を多く用意しなければならないことと、特
定の記号がない場合や文字間に空白が含まれる場合には
箇条書きと判定することができないという問題がある。
【0004】本発明は、上記の点に鑑みなされたもの
で、箇条書きラベルを含んだり、特定の記号等がなくて
も、文字列の長さや行頭の位置情報を使うことによっ
て、ラベル付箇条書きと本文の単文化についての文書構
造を解析することが可能な文書構造解析方法及び装置及
び文書構造解析プログラムを格納した記憶媒体を提供す
ることを目的とする。
【0005】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、文書
構造を解析する文書構造解析方法において、解析対象の
文書を入力し(ステップ1)、文書の行頭の引用符の有
無を調べ、該引用符がある場合には削除し(ステップ
2)、文書中の日時、場所、期限を含む特定の箇条書き
ラベルに使用される文字列を検出し(ステップ3)、検
出された箇条書きラベルの特徴に基づいて、任意の箇条
書きラベルを検出し(ステップ4)、箇条書きラベルが
検出された行の行頭の位置と、その次以降の箇条書きラ
ベルが検出されない行頭の位置を箇条書き範囲として特
定し(ステップ5)、箇条書き範囲と判定されない行に
対し、その次以降の行を接続し、文単位に区切り(ステ
ップ5)、特定の箇条書き、任意の箇条書き及び文を示
すタグを文書に付与して出力する(ステップ6)。
【0006】本発明(請求項2)は、空白を含む文字列
を箇条書きラベルとして検出する。本発明(請求項3)
は、ラベル文字列のパターン、文字列の長さ、ラベル文
字列がある行の行頭の開始位置、文字列中の空白の有無
の各特徴を格納する。本発明(請求項4)は、ラベル文
字列の特徴を考慮して、任意の箇条書きラベルを検出す
る。
【0007】本発明(請求項5)は、箇条書きラベルを
含む行の行頭の位置よりも次以降の箇条書きラベルを含
まない行の行頭位置が右にインデントされている行を全
て1つの箇条書きの範囲と特定する。本発明(請求項
6)は、箇条書き範囲と判定されない行に対し、その次
以降の行を接続し、文単位に区切る際に、句点を用い
る。
【0008】図2は、本発明の原理構成図である。本発
明(請求項7)は、文書構造を解析する文書構造解析装
置であって、解析対象の文書を入力する文書入力手段1
と、文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出手段2と、文書中の日時、
場所、期限を含む特定の箇条書きラベルに使用される文
字列を検出する特定ラベル検出手段3と、検出された箇
条書きラベルの特徴に基づいて、任意の箇条書きラベル
を検出する箇条書きラベル検出手段5と、箇条書きラベ
ルが検出された行の行頭の位置と、その次以降の箇条書
きラベルが検出されない行頭の位置を箇条書き範囲とし
て特定する箇条書き範囲特定手段6と、箇条書き範囲と
判定されない行に対し、その次以降の行を接続し、文単
位に区切る文切り出し手段7と、特定の箇条書き、任意
の箇条書き及び文を示すタグを文書に付与して出力する
文書出力手段8とを有する。
【0009】本発明(請求項8)は、箇条書きラベル検
出手段5において、空白を含む文字列を箇条書きラベル
として検出する手段を含む。本発明(請求項9)は、ラ
ベル文字列のパターン、文字列の長さ、ラベル文字列が
ある行の行頭の開始位置、文字列中の空白の有無の各特
徴を格納するラベル特徴格納手段4を更に有する。
【0010】本発明(請求項10)は、箇条書きラベル
検出手段5において、ラベル文字列の特徴を考慮して、
任意の箇条書きラベルを検出する手段を含む。本発明
(請求項11)は、箇条書き範囲特定手段6において、
箇条書きラベルを含む行の行頭の位置よりも次以降の箇
条書きラベルを含まない行の行頭位置が右にインデント
されている行を全て1つの箇条書きの範囲と特定する手
段を含む。
【0011】本発明(請求項12)は、文切り出し手段
7において、箇条書き範囲と判定されない行に対し、そ
の次以降の行を接続し、文単位に区切る際に、句点を用
いる手段を含む。本発明(請求項13)は、文書構造を
解析する文書構造解析プログラムを格納した記憶媒体で
あって、解析対象の文書を入力させる文書入力プロセス
と、文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出プロセスと、文書中の日
時、場所、期限を含む特定の箇条書きラベルに使用され
る文字列を検出する特定ラベル検出プロセスと、検出さ
れた箇条書きラベルの特徴に基づいて、任意の箇条書き
ラベルを検出する箇条書きラベル検出プロセスと、箇条
書きラベルが検出された行の行頭の位置と、その次以降
の箇条書きラベルが検出されない行頭の位置を箇条書き
範囲として特定する箇条書き範囲特定プロセスと、箇条
書き範囲と判定されない行に対し、その次以降の行を接
続し、文単位に区切る文切り出しプロセスと、特定の箇
条書き、任意の箇条書き及び文を示すタグを文書に付与
して出力させる文書出力プロセスとを有する。
【0012】本発明(請求項14)は、箇条書きラベル
検出プロセスにおいて、空白を含む文字列を箇条書きラ
ベルとして検出するプロセスを含む。本発明(請求項1
5)は、ラベル文字列のパターン、文字列の長さ、ラベ
ル文字列がある行の行頭の開始位置、文字列中の空白の
有無の各特徴を記憶手段に格納するラベル特徴格納プロ
セスを更に有する。
【0013】本発明(請求項16)は、箇条書きラベル
検出プロセスにおいて、ラベル文字列の特徴を考慮し
て、任意の箇条書きラベルを検出するプロセスを含む。
本発明(請求項17)は、箇条書き範囲特定プロセスに
おいて、箇条書きラベルを含む行の行頭の位置よりも次
以降の箇条書きラベルを含まない行の行頭位置が右にイ
ンデントされている行を全て1つの箇条書きの範囲と特
定するプロセスを含む。
【0014】本発明(請求項18)は、文切り出しプロ
セスにおいて、箇条書き範囲と判定されない行に対し、
その次以降の行を接続し、文単位に区切る際に、句点を
用いるプロセスを含む。上記のように、本発明は、文書
内の特定の種類のラベル付箇条書きに着目し、そのラベ
ル付箇条書きとして記述されている特徴を用いることに
よって、その文書内の任意のラベル付箇条書きを特定
し、文書の構造を解析することが可能となる。
【0015】例えば、イベントの案内について通知する
電子メール文書の構造を解析する場合について述べる。
文書入力手段によって、受信した電子メールを入力し、
本文と引用文に分割するため、行頭の引用符を検出し、
これを除く。次に、日時、場所等を示す特定文字列をラ
ベルとする箇条書きを検出し、検出した当該特定文字列
の箇条書きラベルの文字列の長さや行頭の位置やパター
ンの特徴(ラベルの特徴)を格納する。格納されたラベ
ルの特徴を用いて、文書から任意の箇条書きラベルを検
出する。さらに、箇条書きラベルが検出された行とそれ
以降の箇条書きラベルが検出されない行に対して、行頭
の位置を比べることによって、箇条書きの範囲を特定
し、箇条書きの範囲でない行に対して、それ以降の行を
接続し、句点等を使って文単位に区切る。最後に箇条書
きや文を示すタグを文書に付けて出力する。
【0016】
【発明の実施の形態】図3は、本発明の文書構造解析装
置の構成を示す。同図に示す文書構造解析装置は、文書
入力部1、引用符検出部2、特定ラベル検出部3、ラベ
ル特徴格納部4、箇条書きラベル検出部5、箇条書き範
囲特定部6、文切り出し部7及び文書出力部8から構成
される。
【0017】文書入力部1は、構造解析を行う文書を入
力する。引用符検出部2は、本文と引用文の区別を示す
行頭の引用符を検出し、これを除去する。特定ラベル検
出部3は、文書から特定の箇条書きを示すラベルを検出
する。ラベル特徴格納部4は、特定ラベル検出部3で得
られた箇条書きラベルの特徴を格納する。
【0018】箇条書きラベル検出部5は、ラベル特徴格
納部4に格納された特徴を用いることによって、文書か
ら任意の箇条書きのラベルを検出する。箇条書き範囲特
定部6は、特定ラベル検出部3や箇条書きラベル検出部
5により検出された箇条書きの行とそれ以降の箇条書き
が検出されていない行に対して、行頭の位置を比べるこ
とにより、箇条書きの範囲を特定する。
【0019】切り出し部7は、箇条書き範囲特定部6で
箇条書きの範囲と特定されない行に対して、行を接続
し、句点等で文単位に切り出しを行う。文書出力部8
は、文書構造を文書にタグ付けして出力する。次に、上
記の構成における動作を説明する。図4は、本発明の文
書解析装置の動作を示すフローチャートである。
【0020】ステップ101) 文書入力部1より文書
構造を解析する対象の文書を入力する。 ステップ102) 引用符検出部2により、入力された
文書の行頭に引用符があるかどうかを調べ、ある場合に
はステップ103に移行し、ない場合にはステップ10
4に移行する。
【0021】ステップ103) 文書の行頭に引用符が
ある場合には、引用符検出部2は、当該引用符を削除す
る。 ステップ104) 特定ラベル検出部3が、日時、場所
等の特定の文字列があるかを調べ、ある場合にはステッ
プ105に移行し、ない場合にはステップ109に移行
する。
【0022】ステップ105) 特定ラベル検出部3に
より特定の文字列がある場合には、当該文字列を特定文
字列ラベルとして検出する。 ステップ106) 検出された特定文字列ラベルの文字
列の長さ、行頭の位置、空白の有無、パターンの特徴等
をラベル特徴格納部4に格納する。 ステップ107) 箇条書きラベル検出部5は、当該文
書中にラベル特徴格納部4に格納されている特徴に合致
する文字列があるかどうかを調べ、ある場合にはステッ
プ108に移行し、ない場合にはステップ109に移行
する。
【0023】ステップ108) 特徴に合致するラベル
がある場合には、当該文字列を箇条書きラベルとして抽
出する。 ステップ109) 箇条書き範囲特定部6は、箇条書き
ラベルが検出されたかを調べ、検出されている場合に
は、ステップ110に移行し、検出されていない場合に
はステップ111に移行する。
【0024】ステップ110) 箇条書き判定特定部6
は、特定ラベル検出部3及び箇条書きラベル検出部5に
より検出された箇条書きの行と、それ以降の箇条書きが
検出されない行に対して行頭の位置を調べることにより
箇条書きの範囲を特定する。 ステップ111) 文切り出し部7により箇条書き範囲
特定部6で箇条書きの範囲と特定されない行に対して、
行を接続し、句点等を用いて、文単位に切り出しを行
う。
【0025】ステップ112) 切り出された文の文書
構造にタグを付与して文書出力部8から出力する。次
に、上記の箇条書きラベル検出部5におけるステップ1
07及びステップ108の動作を詳細に説明する。図5
は、本発明の箇条書きラベル検出部の動作のフローチャ
ートである。
【0026】ステップ201) 得られているラベルの
パターンに特定の記号、数字、アルファベット等の特定
の記号があるかを判定し、ある場合にはステップ202
に移行し、ない場合にはステップ203に移行する。 ステップ202) 特定の記号等を含む行を候補とし、
ステップ205に移行する。
【0027】ステップ203) 特定の記号等を含む行
がなければ、各行に対し行頭の位置が一致している行が
あるかを調べ、一致する行があればステップ204に移
行し、なければ、処理を終了する。 ステップ204) 一致する行があれば、この行を箇条
書きラベルの候補とし、ステップ205に移行する。
【0028】ステップ205) 当該箇条書きラベルの
候補に空白を含むかを調べ、含む場合にはステップ20
6に移行し、ない場合にはステップ207に移行する。 ステップ206) 当該箇条書きラベルの候補に空白を
含む場合には、行頭の位置から文字列の長さだけ文字列
を抽出し、処理を終了する。 ステップ207) ラベルに空白を含まない場合には、
パターンにマッチする文字列を抽出する。
【0029】次に、箇条書き範囲特定部6のステップ1
10について説明する。図6は、本発明の箇条書き範囲
特定部の動作のフローチャートである。 ステップ301) 文書内に箇条書きラベルがある限り
以下の処理を繰り返す。 ステップ302) 次の行の処理に進む。
【0030】ステップ303) 箇条書きラベルがない
かを調べ、ない場合にはステップ304に移行し、ある
場合には、ステップ301に移行する。 ステップ304) 箇条書きラベルがない場合には、行
頭の位置が箇条書きの行よりも右側にあるかを調べ、あ
る場合にはステップ305に移行し、ない場合にはステ
ップ301に移行する。
【0031】ステップ305) 行全体を箇条書きの範
囲とする。
【0032】
【実施例】以下、図面と共に本発明の実施例を説明す
る。図7は、本発明の一実施例の入力されたサンプル文
書である。まず、図7に示す文書が文書入力部1より入
力されると、引用符検出部2により、入力された文書の
行頭に引用符があるかどうかを調べ、ある場合には当該
引用符を削除する。同図の場合には引用符はないものと
する。
【0033】次に、特定ラベル検出部3が、『日時』、
『場所』等の特定の文字列があるかを調べる。同図の例
では、「日時」、「場所」、「会費」、「交通手段」、
「経路」の特定文字列が存在するので、これらを特定文
字列ラベルとして検出し、特定文字列ラベルの文字列の
長さ、行頭の位置、空白の有無、パターンの特徴等をラ
ベル特徴格納部4に格納する。同図の例では、ラベルの
特徴は、 ・ラベルの文字列の先頭位置−5バイト目 ・ラベル文字列の長さ(空白を含む)−8バイト目 ・ラベル文字列中の空白の有無−有り ・ラベル文字列のパターン(数字、記号等の文字種を含
む正規表現)−[数字記号以外]([空白(0個以上の
繰り返し)][数字記号以外](0個以上の繰り返
し)) 同図の例では、これらの特徴に合致するラベルがあるの
で、箇条書き判定特定部6は、箇条書きラベルとして抽
出する。この例では、上記特徴に合致する 「会 費」、「交通手段」、「経 路」 が検出される。これらのラベルが検出された行は、ラベ
ル行としてタグが付けられる(タグは、ラベル名とその
内容のセットを含んでいるものとし、特にフォーマット
は規定しない)。
【0034】箇条書き範囲特定部6は、箇条書きラベル
が検出されたかを調べ、箇条書きの範囲を特定する。同
図の例では、「場所」ラベル行以外は、すべて1行のみ
なので、それがそのまま箇条書きの範囲である。「場
所」ラベルはその行以降の通常の先頭位置と比較し、1
7バイト、17バイト、25バイト、25バイトとなっ
ていて、場所「ラベル」の先頭位置の8バイトよりも大
きい、つまり、右にインデントされているので、「場
所」ラベルの箇条書きの範囲に含め、内容を接続する
(なお、その次の行の「会費」ラベル付はラベル行なの
で、先頭位置の比較対象とはならない)。
【0035】上記により、箇条書きの範囲が合計4行と
なり、文は3つに区切られる。このようにして 切り出
された文の文書構造にタグ(「日時」「場所」「会費」
「交通手段」「経路」)を付与して文書出力部8から出
力する。上記のように、文字列の長さや行頭の位置情報
を使うことによってラベル付箇条書き部と本文の単文化
についての文書構造を解析することが可能となる。
【0036】また、上記の実施例では、図3の構成要素
に基づいて説明しているが、この例に限定されることな
く、図3の構成要素をプログラムとして構築し、文書構
造解析装置として利用されるコンピュータに接続される
ディスク装置や、フロッピーディスクやCD−ROM等
の可搬記憶媒体に格納しておき、本発明を実施する際に
インストールすることにより容易に本発明を実現するこ
とができる。
【0037】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0038】
【発明の効果】上述のように、本発明によれば箇条書き
ラベルに空白を含んだり、特定の記号等がなくても、列
の長さや行頭の位置情報を使うことによって、ラベル付
箇条書きと本文の単文化について文書構造を解析するこ
とができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の文書構造解析装置の構成図である。
【図4】本発明の文書解析装置の動作を示すフローチャ
ートである。
【図5】本発明の箇条書きラベル検出部の動作のフロー
チャートである。
【図6】本発明の箇条書き範囲特定部の動作のフローチ
ャートである。
【図7】本発明の一実施例の入力されたサンプル文書で
ある。
【符号の説明】
1 文書入力手段、文書入力部 2 引用符検出手段、引用符検出部 3 特定ラベル検出手段、特定ラベル検出部 4 ラベル特徴格納手段、ラベル特徴格納部 5 箇条書きラベル検出手段、箇条書きラベル検出部 6 箇条書き範囲特定手段、箇条書き範囲特定部 7 文切り出し手段、文切り出し部 8 文書出力手段、文書出力部

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 文書構造を解析する文書構造解析方法に
    おいて、 解析対象の文書を入力し、 前記文書の行頭の引用符の有無を調べ、該引用符がある
    場合には削除し、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
    ベルに使用される文字列を検出し、 検出された前記箇条書きラベルの特徴に基づいて、任意
    の箇条書きラベルを検出し、 前記箇条書きラベルが検出された行の行頭の位置と、そ
    の次以降の箇条書きラベルが検出されない行頭の位置を
    箇条書き範囲として特定し、 箇条書き範囲と判定されない行に対し、その次以降の行
    を接続し、文単位に区切り、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
    書に付与して出力することを特徴とする文書構造解析方
    法。
  2. 【請求項2】 空白を含む文字列を箇条書きラベルとし
    て検出する請求項1記載の文書構造解析方法。
  3. 【請求項3】 ラベル文字列のパターン、文字列の長
    さ、ラベル文字列がある行の行頭の開始位置、文字列中
    の空白の有無の各特徴を格納する請求項1記載の文書構
    造解析方法。
  4. 【請求項4】 前記ラベル文字列の特徴を考慮して、任
    意の箇条書きラベルを検出する請求項1乃至3記載の文
    書構造解析方法。
  5. 【請求項5】 前記箇条書きラベルを含む行の行頭の位
    置よりも次以降の箇条書きラベルを含まない行の行頭位
    置が右にインデントされている行を全て1つの箇条書き
    の範囲と特定する請求項1記載の文書構造解析方法。
  6. 【請求項6】 箇条書き範囲と判定されない行に対し、
    その次以降の行を接続し、文単位に区切る際に、句点を
    用いる請求項1記載の文構造解析方法。
  7. 【請求項7】 文書構造を解析する文書構造解析装置で
    あって、 解析対象の文書を入力する文書入力手段と、 前記文書の行頭の引用符の有無を調べ、該引用符がある
    場合には削除する引用符検出手段と、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
    ベルに使用される文字列を検出する特定ラベル検出手段
    と、 検出された前記箇条書きラベルの特徴に基づいて、任意
    の箇条書きラベルを検出する箇条書きラベル検出手段
    と、 前記箇条書きラベルが検出された行の行頭の位置と、そ
    の次以降の箇条書きラベルが検出されない行頭の位置を
    箇条書き範囲として特定する箇条書き範囲特定手段と、 箇条書き範囲と判定されない行に対し、その次以降の行
    を接続し、文単位に区切る文切り出し手段と、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
    書に付与して出力する文書出力手段とを有することを特
    徴とする文書構造解析装置。
  8. 【請求項8】 前記箇条書きラベル検出手段は、 空白を含む文字列を箇条書きラベルとして検出する手段
    を含む請求項7記載の文書構造解析装置。
  9. 【請求項9】 ラベル文字列のパターン、文字列の長
    さ、ラベル文字列がある行の行頭の開始位置、文字列中
    の空白の有無の各特徴を格納するラベル特徴格納手段を
    更に有する請求項7記載の文書構造解析装置。
  10. 【請求項10】 前記箇条書きラベル検出手段は、 前記ラベル文字列の特徴を考慮して、任意の箇条書きラ
    ベルを検出する手段を含む請求項7乃至9記載の文書構
    造解析装置。
  11. 【請求項11】 前記箇条書き範囲特定手段は、 前記箇条書きラベルを含む行の行頭の位置よりも次以降
    の箇条書きラベルを含まない行の行頭位置が右にインデ
    ントされている行を全て1つの箇条書きの範囲と特定す
    る手段を含む請求項7記載の文書構造解析装置。
  12. 【請求項12】 前記文切り出し手段は、 箇条書き範囲と判定されない行に対し、その次以降の行
    を接続し、文単位に区切る際に、句点を用いる手段を含
    む請求項7記載の文構造解析装置。
  13. 【請求項13】 文書構造を解析する文書構造解析プロ
    グラムを格納した記憶媒体であって、 解析対象の文書を入力させる文書入力プロセスと、 前記文書の行頭の引用符の有無を調べ、該引用符がある
    場合には削除する引用符検出プロセスと、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
    ベルに使用される文字列を検出する特定ラベル検出プロ
    セスと、 検出された前記箇条書きラベルの特徴に基づいて、任意
    の箇条書きラベルを検出する箇条書きラベル検出プロセ
    スと、 前記箇条書きラベルが検出された行の行頭の位置と、そ
    の次以降の箇条書きラベルが検出されない行頭の位置を
    箇条書き範囲として特定する箇条書き範囲特定プロセス
    と、 箇条書き範囲と判定されない行に対し、その次以降の行
    を接続し、文単位に区切る文切り出しプロセスと、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
    書に付与して出力させる文書出力プロセスとを有するこ
    とを特徴とする文書構造解析プログラムを格納した記憶
    媒体。
  14. 【請求項14】 前記箇条書きラベル検出プロセスは、 空白を含む文字列を箇条書きラベルとして検出するプロ
    セスを含む請求項13記載の文書構造解析プログラムを
    格納した記憶媒体。
  15. 【請求項15】 ラベル文字列のパターン、文字列の長
    さ、ラベル文字列がある行の行頭の開始位置、文字列中
    の空白の有無の各特徴を記憶手段に格納するラベル特徴
    格納プロセスを更に有する請求項13記載の文書構造解
    析プログラムを格納した記憶媒体。
  16. 【請求項16】 前記箇条書きラベル検出プロセスは、 前記ラベル文字列の特徴を考慮して、任意の箇条書きラ
    ベルを検出するプロセスを含む請求項13乃至15記載
    の文書構造解析プログラムを格納した記憶媒体。
  17. 【請求項17】 前記箇条書き範囲特定プロセスは、 前記箇条書きラベルを含む行の行頭の位置よりも次以降
    の箇条書きラベルを含まない行の行頭位置が右にインデ
    ントされている行を全て1つの箇条書きの範囲と特定す
    るプロセスを含む請求項13記載の文書構造解析プログ
    ラムを格納した記憶媒体。
  18. 【請求項18】 前記文切り出しプロセスは、 箇条書き範囲と判定されない行に対し、その次以降の行
    を接続し、文単位に区切る際に、句点を用いるプロセス
    を含む請求項13記載の文構造解析装置。
JP20065498A 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 Expired - Fee Related JP3767180B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20065498A JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20065498A JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000029877A true JP2000029877A (ja) 2000-01-28
JP3767180B2 JP3767180B2 (ja) 2006-04-19

Family

ID=16428011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20065498A Expired - Fee Related JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3767180B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721451B1 (en) 2000-05-31 2004-04-13 Kabushiki Kaisha Toshiba Apparatus and method for reading a document image

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4793436B2 (ja) 2008-12-17 2011-10-12 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5862260B2 (ja) 2011-12-09 2016-02-16 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721451B1 (en) 2000-05-31 2004-04-13 Kabushiki Kaisha Toshiba Apparatus and method for reading a document image

Also Published As

Publication number Publication date
JP3767180B2 (ja) 2006-04-19

Similar Documents

Publication Publication Date Title
US5669007A (en) Method and system for analyzing the logical structure of a document
US6874002B1 (en) System and method for normalizing a resume
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US10579739B2 (en) Method and system for identifying places of interest in a natural language input
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
JPH08241332A (ja) 全文登録語検索装置および方法
CN113377916B (zh) 一种面向法律文本的多关系中主要关系的抽取方法
Powley et al. Evidence-Based Information Extraction for High Accuracy Citation and Author Name Identification.
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
Tateisi et al. Using stochastic syntactic analysis for extracting a logical structure from a document image
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
Dejean Extracting structured data from unstructured document with incomplete resources
CN114462383A (zh) 建筑图纸设计说明书获取方法、系统、存储介质及设备
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
Charoenpornsawat et al. Feature-based proper name identification in Thai
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP3477822B2 (ja) 文書登録検索システム
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기
KR102670389B1 (ko) 텍스트의 데이터 구조화 방법 및 장치
JP4769379B2 (ja) 文書検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060123

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees