JP2000029877A - 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 - Google Patents
文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体Info
- Publication number
- JP2000029877A JP2000029877A JP10200654A JP20065498A JP2000029877A JP 2000029877 A JP2000029877 A JP 2000029877A JP 10200654 A JP10200654 A JP 10200654A JP 20065498 A JP20065498 A JP 20065498A JP 2000029877 A JP2000029877 A JP 2000029877A
- Authority
- JP
- Japan
- Prior art keywords
- label
- itemized
- document
- line
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
なくても、文字列の長さや行頭の位置情報を使うことに
よって、ラベル付箇条書きと本文の単文化についての文
書構造を解析することが可能な文書構造解析方法及び装
置及び文書構造解析プログラムを格納した記憶媒体を提
供する。 【解決手段】 本発明は、解析対象の文書を入力し、文
書の行頭の引用符の有無を調べ、該引用符がある場合に
は削除し、文書中の日時、場所、期限を含む特定の箇条
書きラベルに使用される文字列を検出し、検出された箇
条書きラベルの特徴に基づいて、任意の箇条書きラベル
を検出し、箇条書きラベルが検出された行の行頭の位置
と、その次以降の箇条書きラベルが検出されない行頭の
位置を箇条書き範囲として特定し、箇条書き範囲と判定
されない行に対し、その次以降の行を接続し、文単位に
区切り、特定の箇条書き、任意の箇条書き及び文を示す
タグを文書に付与して出力する。
Description
及び装置及び文書構造解析プログラムを格納した記憶媒
体に係り、特に、ネットワークを介して伝達された、あ
るいは、OCRで読み込んだ電子文書の文書構造中の箇
条書きを特定するするための文書構造解析方法及び装置
及び文書構造解析プログラムを格納した記憶媒体に関す
る。
て、箇条書きを特定する際に、予め決められたラベル付
箇条書きを表しうる単語や記号を用意して、文書に対し
て検索を行い、これに一致した文字列を箇条書きと判定
している。
来の予め決められた箇条書きを表す単語や記号を用いて
文書を検索し、箇条書きを判定する方法では、予想しう
る単語や記号を多く用意しなければならないことと、特
定の記号がない場合や文字間に空白が含まれる場合には
箇条書きと判定することができないという問題がある。
で、箇条書きラベルを含んだり、特定の記号等がなくて
も、文字列の長さや行頭の位置情報を使うことによっ
て、ラベル付箇条書きと本文の単文化についての文書構
造を解析することが可能な文書構造解析方法及び装置及
び文書構造解析プログラムを格納した記憶媒体を提供す
ることを目的とする。
説明するための図である。本発明(請求項1)は、文書
構造を解析する文書構造解析方法において、解析対象の
文書を入力し(ステップ1)、文書の行頭の引用符の有
無を調べ、該引用符がある場合には削除し(ステップ
2)、文書中の日時、場所、期限を含む特定の箇条書き
ラベルに使用される文字列を検出し(ステップ3)、検
出された箇条書きラベルの特徴に基づいて、任意の箇条
書きラベルを検出し(ステップ4)、箇条書きラベルが
検出された行の行頭の位置と、その次以降の箇条書きラ
ベルが検出されない行頭の位置を箇条書き範囲として特
定し(ステップ5)、箇条書き範囲と判定されない行に
対し、その次以降の行を接続し、文単位に区切り(ステ
ップ5)、特定の箇条書き、任意の箇条書き及び文を示
すタグを文書に付与して出力する(ステップ6)。
を箇条書きラベルとして検出する。本発明(請求項3)
は、ラベル文字列のパターン、文字列の長さ、ラベル文
字列がある行の行頭の開始位置、文字列中の空白の有無
の各特徴を格納する。本発明(請求項4)は、ラベル文
字列の特徴を考慮して、任意の箇条書きラベルを検出す
る。
含む行の行頭の位置よりも次以降の箇条書きラベルを含
まない行の行頭位置が右にインデントされている行を全
て1つの箇条書きの範囲と特定する。本発明(請求項
6)は、箇条書き範囲と判定されない行に対し、その次
以降の行を接続し、文単位に区切る際に、句点を用い
る。
明(請求項7)は、文書構造を解析する文書構造解析装
置であって、解析対象の文書を入力する文書入力手段1
と、文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出手段2と、文書中の日時、
場所、期限を含む特定の箇条書きラベルに使用される文
字列を検出する特定ラベル検出手段3と、検出された箇
条書きラベルの特徴に基づいて、任意の箇条書きラベル
を検出する箇条書きラベル検出手段5と、箇条書きラベ
ルが検出された行の行頭の位置と、その次以降の箇条書
きラベルが検出されない行頭の位置を箇条書き範囲とし
て特定する箇条書き範囲特定手段6と、箇条書き範囲と
判定されない行に対し、その次以降の行を接続し、文単
位に区切る文切り出し手段7と、特定の箇条書き、任意
の箇条書き及び文を示すタグを文書に付与して出力する
文書出力手段8とを有する。
出手段5において、空白を含む文字列を箇条書きラベル
として検出する手段を含む。本発明(請求項9)は、ラ
ベル文字列のパターン、文字列の長さ、ラベル文字列が
ある行の行頭の開始位置、文字列中の空白の有無の各特
徴を格納するラベル特徴格納手段4を更に有する。
検出手段5において、ラベル文字列の特徴を考慮して、
任意の箇条書きラベルを検出する手段を含む。本発明
(請求項11)は、箇条書き範囲特定手段6において、
箇条書きラベルを含む行の行頭の位置よりも次以降の箇
条書きラベルを含まない行の行頭位置が右にインデント
されている行を全て1つの箇条書きの範囲と特定する手
段を含む。
7において、箇条書き範囲と判定されない行に対し、そ
の次以降の行を接続し、文単位に区切る際に、句点を用
いる手段を含む。本発明(請求項13)は、文書構造を
解析する文書構造解析プログラムを格納した記憶媒体で
あって、解析対象の文書を入力させる文書入力プロセス
と、文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出プロセスと、文書中の日
時、場所、期限を含む特定の箇条書きラベルに使用され
る文字列を検出する特定ラベル検出プロセスと、検出さ
れた箇条書きラベルの特徴に基づいて、任意の箇条書き
ラベルを検出する箇条書きラベル検出プロセスと、箇条
書きラベルが検出された行の行頭の位置と、その次以降
の箇条書きラベルが検出されない行頭の位置を箇条書き
範囲として特定する箇条書き範囲特定プロセスと、箇条
書き範囲と判定されない行に対し、その次以降の行を接
続し、文単位に区切る文切り出しプロセスと、特定の箇
条書き、任意の箇条書き及び文を示すタグを文書に付与
して出力させる文書出力プロセスとを有する。
検出プロセスにおいて、空白を含む文字列を箇条書きラ
ベルとして検出するプロセスを含む。本発明(請求項1
5)は、ラベル文字列のパターン、文字列の長さ、ラベ
ル文字列がある行の行頭の開始位置、文字列中の空白の
有無の各特徴を記憶手段に格納するラベル特徴格納プロ
セスを更に有する。
検出プロセスにおいて、ラベル文字列の特徴を考慮し
て、任意の箇条書きラベルを検出するプロセスを含む。
本発明(請求項17)は、箇条書き範囲特定プロセスに
おいて、箇条書きラベルを含む行の行頭の位置よりも次
以降の箇条書きラベルを含まない行の行頭位置が右にイ
ンデントされている行を全て1つの箇条書きの範囲と特
定するプロセスを含む。
セスにおいて、箇条書き範囲と判定されない行に対し、
その次以降の行を接続し、文単位に区切る際に、句点を
用いるプロセスを含む。上記のように、本発明は、文書
内の特定の種類のラベル付箇条書きに着目し、そのラベ
ル付箇条書きとして記述されている特徴を用いることに
よって、その文書内の任意のラベル付箇条書きを特定
し、文書の構造を解析することが可能となる。
電子メール文書の構造を解析する場合について述べる。
文書入力手段によって、受信した電子メールを入力し、
本文と引用文に分割するため、行頭の引用符を検出し、
これを除く。次に、日時、場所等を示す特定文字列をラ
ベルとする箇条書きを検出し、検出した当該特定文字列
の箇条書きラベルの文字列の長さや行頭の位置やパター
ンの特徴(ラベルの特徴)を格納する。格納されたラベ
ルの特徴を用いて、文書から任意の箇条書きラベルを検
出する。さらに、箇条書きラベルが検出された行とそれ
以降の箇条書きラベルが検出されない行に対して、行頭
の位置を比べることによって、箇条書きの範囲を特定
し、箇条書きの範囲でない行に対して、それ以降の行を
接続し、句点等を使って文単位に区切る。最後に箇条書
きや文を示すタグを文書に付けて出力する。
置の構成を示す。同図に示す文書構造解析装置は、文書
入力部1、引用符検出部2、特定ラベル検出部3、ラベ
ル特徴格納部4、箇条書きラベル検出部5、箇条書き範
囲特定部6、文切り出し部7及び文書出力部8から構成
される。
力する。引用符検出部2は、本文と引用文の区別を示す
行頭の引用符を検出し、これを除去する。特定ラベル検
出部3は、文書から特定の箇条書きを示すラベルを検出
する。ラベル特徴格納部4は、特定ラベル検出部3で得
られた箇条書きラベルの特徴を格納する。
納部4に格納された特徴を用いることによって、文書か
ら任意の箇条書きのラベルを検出する。箇条書き範囲特
定部6は、特定ラベル検出部3や箇条書きラベル検出部
5により検出された箇条書きの行とそれ以降の箇条書き
が検出されていない行に対して、行頭の位置を比べるこ
とにより、箇条書きの範囲を特定する。
箇条書きの範囲と特定されない行に対して、行を接続
し、句点等で文単位に切り出しを行う。文書出力部8
は、文書構造を文書にタグ付けして出力する。次に、上
記の構成における動作を説明する。図4は、本発明の文
書解析装置の動作を示すフローチャートである。
構造を解析する対象の文書を入力する。 ステップ102) 引用符検出部2により、入力された
文書の行頭に引用符があるかどうかを調べ、ある場合に
はステップ103に移行し、ない場合にはステップ10
4に移行する。
ある場合には、引用符検出部2は、当該引用符を削除す
る。 ステップ104) 特定ラベル検出部3が、日時、場所
等の特定の文字列があるかを調べ、ある場合にはステッ
プ105に移行し、ない場合にはステップ109に移行
する。
より特定の文字列がある場合には、当該文字列を特定文
字列ラベルとして検出する。 ステップ106) 検出された特定文字列ラベルの文字
列の長さ、行頭の位置、空白の有無、パターンの特徴等
をラベル特徴格納部4に格納する。 ステップ107) 箇条書きラベル検出部5は、当該文
書中にラベル特徴格納部4に格納されている特徴に合致
する文字列があるかどうかを調べ、ある場合にはステッ
プ108に移行し、ない場合にはステップ109に移行
する。
がある場合には、当該文字列を箇条書きラベルとして抽
出する。 ステップ109) 箇条書き範囲特定部6は、箇条書き
ラベルが検出されたかを調べ、検出されている場合に
は、ステップ110に移行し、検出されていない場合に
はステップ111に移行する。
は、特定ラベル検出部3及び箇条書きラベル検出部5に
より検出された箇条書きの行と、それ以降の箇条書きが
検出されない行に対して行頭の位置を調べることにより
箇条書きの範囲を特定する。 ステップ111) 文切り出し部7により箇条書き範囲
特定部6で箇条書きの範囲と特定されない行に対して、
行を接続し、句点等を用いて、文単位に切り出しを行
う。
構造にタグを付与して文書出力部8から出力する。次
に、上記の箇条書きラベル検出部5におけるステップ1
07及びステップ108の動作を詳細に説明する。図5
は、本発明の箇条書きラベル検出部の動作のフローチャ
ートである。
パターンに特定の記号、数字、アルファベット等の特定
の記号があるかを判定し、ある場合にはステップ202
に移行し、ない場合にはステップ203に移行する。 ステップ202) 特定の記号等を含む行を候補とし、
ステップ205に移行する。
がなければ、各行に対し行頭の位置が一致している行が
あるかを調べ、一致する行があればステップ204に移
行し、なければ、処理を終了する。 ステップ204) 一致する行があれば、この行を箇条
書きラベルの候補とし、ステップ205に移行する。
候補に空白を含むかを調べ、含む場合にはステップ20
6に移行し、ない場合にはステップ207に移行する。 ステップ206) 当該箇条書きラベルの候補に空白を
含む場合には、行頭の位置から文字列の長さだけ文字列
を抽出し、処理を終了する。 ステップ207) ラベルに空白を含まない場合には、
パターンにマッチする文字列を抽出する。
10について説明する。図6は、本発明の箇条書き範囲
特定部の動作のフローチャートである。 ステップ301) 文書内に箇条書きラベルがある限り
以下の処理を繰り返す。 ステップ302) 次の行の処理に進む。
かを調べ、ない場合にはステップ304に移行し、ある
場合には、ステップ301に移行する。 ステップ304) 箇条書きラベルがない場合には、行
頭の位置が箇条書きの行よりも右側にあるかを調べ、あ
る場合にはステップ305に移行し、ない場合にはステ
ップ301に移行する。
囲とする。
る。図7は、本発明の一実施例の入力されたサンプル文
書である。まず、図7に示す文書が文書入力部1より入
力されると、引用符検出部2により、入力された文書の
行頭に引用符があるかどうかを調べ、ある場合には当該
引用符を削除する。同図の場合には引用符はないものと
する。
『場所』等の特定の文字列があるかを調べる。同図の例
では、「日時」、「場所」、「会費」、「交通手段」、
「経路」の特定文字列が存在するので、これらを特定文
字列ラベルとして検出し、特定文字列ラベルの文字列の
長さ、行頭の位置、空白の有無、パターンの特徴等をラ
ベル特徴格納部4に格納する。同図の例では、ラベルの
特徴は、 ・ラベルの文字列の先頭位置−5バイト目 ・ラベル文字列の長さ(空白を含む)−8バイト目 ・ラベル文字列中の空白の有無−有り ・ラベル文字列のパターン(数字、記号等の文字種を含
む正規表現)−[数字記号以外]([空白(0個以上の
繰り返し)][数字記号以外](0個以上の繰り返
し)) 同図の例では、これらの特徴に合致するラベルがあるの
で、箇条書き判定特定部6は、箇条書きラベルとして抽
出する。この例では、上記特徴に合致する 「会 費」、「交通手段」、「経 路」 が検出される。これらのラベルが検出された行は、ラベ
ル行としてタグが付けられる(タグは、ラベル名とその
内容のセットを含んでいるものとし、特にフォーマット
は規定しない)。
が検出されたかを調べ、箇条書きの範囲を特定する。同
図の例では、「場所」ラベル行以外は、すべて1行のみ
なので、それがそのまま箇条書きの範囲である。「場
所」ラベルはその行以降の通常の先頭位置と比較し、1
7バイト、17バイト、25バイト、25バイトとなっ
ていて、場所「ラベル」の先頭位置の8バイトよりも大
きい、つまり、右にインデントされているので、「場
所」ラベルの箇条書きの範囲に含め、内容を接続する
(なお、その次の行の「会費」ラベル付はラベル行なの
で、先頭位置の比較対象とはならない)。
なり、文は3つに区切られる。このようにして 切り出
された文の文書構造にタグ(「日時」「場所」「会費」
「交通手段」「経路」)を付与して文書出力部8から出
力する。上記のように、文字列の長さや行頭の位置情報
を使うことによってラベル付箇条書き部と本文の単文化
についての文書構造を解析することが可能となる。
に基づいて説明しているが、この例に限定されることな
く、図3の構成要素をプログラムとして構築し、文書構
造解析装置として利用されるコンピュータに接続される
ディスク装置や、フロッピーディスクやCD−ROM等
の可搬記憶媒体に格納しておき、本発明を実施する際に
インストールすることにより容易に本発明を実現するこ
とができる。
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
ラベルに空白を含んだり、特定の記号等がなくても、列
の長さや行頭の位置情報を使うことによって、ラベル付
箇条書きと本文の単文化について文書構造を解析するこ
とができる。
ートである。
チャートである。
ャートである。
ある。
Claims (18)
- 【請求項1】 文書構造を解析する文書構造解析方法に
おいて、 解析対象の文書を入力し、 前記文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除し、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
ベルに使用される文字列を検出し、 検出された前記箇条書きラベルの特徴に基づいて、任意
の箇条書きラベルを検出し、 前記箇条書きラベルが検出された行の行頭の位置と、そ
の次以降の箇条書きラベルが検出されない行頭の位置を
箇条書き範囲として特定し、 箇条書き範囲と判定されない行に対し、その次以降の行
を接続し、文単位に区切り、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
書に付与して出力することを特徴とする文書構造解析方
法。 - 【請求項2】 空白を含む文字列を箇条書きラベルとし
て検出する請求項1記載の文書構造解析方法。 - 【請求項3】 ラベル文字列のパターン、文字列の長
さ、ラベル文字列がある行の行頭の開始位置、文字列中
の空白の有無の各特徴を格納する請求項1記載の文書構
造解析方法。 - 【請求項4】 前記ラベル文字列の特徴を考慮して、任
意の箇条書きラベルを検出する請求項1乃至3記載の文
書構造解析方法。 - 【請求項5】 前記箇条書きラベルを含む行の行頭の位
置よりも次以降の箇条書きラベルを含まない行の行頭位
置が右にインデントされている行を全て1つの箇条書き
の範囲と特定する請求項1記載の文書構造解析方法。 - 【請求項6】 箇条書き範囲と判定されない行に対し、
その次以降の行を接続し、文単位に区切る際に、句点を
用いる請求項1記載の文構造解析方法。 - 【請求項7】 文書構造を解析する文書構造解析装置で
あって、 解析対象の文書を入力する文書入力手段と、 前記文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出手段と、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
ベルに使用される文字列を検出する特定ラベル検出手段
と、 検出された前記箇条書きラベルの特徴に基づいて、任意
の箇条書きラベルを検出する箇条書きラベル検出手段
と、 前記箇条書きラベルが検出された行の行頭の位置と、そ
の次以降の箇条書きラベルが検出されない行頭の位置を
箇条書き範囲として特定する箇条書き範囲特定手段と、 箇条書き範囲と判定されない行に対し、その次以降の行
を接続し、文単位に区切る文切り出し手段と、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
書に付与して出力する文書出力手段とを有することを特
徴とする文書構造解析装置。 - 【請求項8】 前記箇条書きラベル検出手段は、 空白を含む文字列を箇条書きラベルとして検出する手段
を含む請求項7記載の文書構造解析装置。 - 【請求項9】 ラベル文字列のパターン、文字列の長
さ、ラベル文字列がある行の行頭の開始位置、文字列中
の空白の有無の各特徴を格納するラベル特徴格納手段を
更に有する請求項7記載の文書構造解析装置。 - 【請求項10】 前記箇条書きラベル検出手段は、 前記ラベル文字列の特徴を考慮して、任意の箇条書きラ
ベルを検出する手段を含む請求項7乃至9記載の文書構
造解析装置。 - 【請求項11】 前記箇条書き範囲特定手段は、 前記箇条書きラベルを含む行の行頭の位置よりも次以降
の箇条書きラベルを含まない行の行頭位置が右にインデ
ントされている行を全て1つの箇条書きの範囲と特定す
る手段を含む請求項7記載の文書構造解析装置。 - 【請求項12】 前記文切り出し手段は、 箇条書き範囲と判定されない行に対し、その次以降の行
を接続し、文単位に区切る際に、句点を用いる手段を含
む請求項7記載の文構造解析装置。 - 【請求項13】 文書構造を解析する文書構造解析プロ
グラムを格納した記憶媒体であって、 解析対象の文書を入力させる文書入力プロセスと、 前記文書の行頭の引用符の有無を調べ、該引用符がある
場合には削除する引用符検出プロセスと、 前記文書中の日時、場所、期限を含む特定の箇条書きラ
ベルに使用される文字列を検出する特定ラベル検出プロ
セスと、 検出された前記箇条書きラベルの特徴に基づいて、任意
の箇条書きラベルを検出する箇条書きラベル検出プロセ
スと、 前記箇条書きラベルが検出された行の行頭の位置と、そ
の次以降の箇条書きラベルが検出されない行頭の位置を
箇条書き範囲として特定する箇条書き範囲特定プロセス
と、 箇条書き範囲と判定されない行に対し、その次以降の行
を接続し、文単位に区切る文切り出しプロセスと、 特定の箇条書き、任意の箇条書き及び文を示すタグを文
書に付与して出力させる文書出力プロセスとを有するこ
とを特徴とする文書構造解析プログラムを格納した記憶
媒体。 - 【請求項14】 前記箇条書きラベル検出プロセスは、 空白を含む文字列を箇条書きラベルとして検出するプロ
セスを含む請求項13記載の文書構造解析プログラムを
格納した記憶媒体。 - 【請求項15】 ラベル文字列のパターン、文字列の長
さ、ラベル文字列がある行の行頭の開始位置、文字列中
の空白の有無の各特徴を記憶手段に格納するラベル特徴
格納プロセスを更に有する請求項13記載の文書構造解
析プログラムを格納した記憶媒体。 - 【請求項16】 前記箇条書きラベル検出プロセスは、 前記ラベル文字列の特徴を考慮して、任意の箇条書きラ
ベルを検出するプロセスを含む請求項13乃至15記載
の文書構造解析プログラムを格納した記憶媒体。 - 【請求項17】 前記箇条書き範囲特定プロセスは、 前記箇条書きラベルを含む行の行頭の位置よりも次以降
の箇条書きラベルを含まない行の行頭位置が右にインデ
ントされている行を全て1つの箇条書きの範囲と特定す
るプロセスを含む請求項13記載の文書構造解析プログ
ラムを格納した記憶媒体。 - 【請求項18】 前記文切り出しプロセスは、 箇条書き範囲と判定されない行に対し、その次以降の行
を接続し、文単位に区切る際に、句点を用いるプロセス
を含む請求項13記載の文構造解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20065498A JP3767180B2 (ja) | 1998-07-15 | 1998-07-15 | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20065498A JP3767180B2 (ja) | 1998-07-15 | 1998-07-15 | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000029877A true JP2000029877A (ja) | 2000-01-28 |
JP3767180B2 JP3767180B2 (ja) | 2006-04-19 |
Family
ID=16428011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20065498A Expired - Fee Related JP3767180B2 (ja) | 1998-07-15 | 1998-07-15 | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3767180B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721451B1 (en) | 2000-05-31 | 2004-04-13 | Kabushiki Kaisha Toshiba | Apparatus and method for reading a document image |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4793436B2 (ja) | 2008-12-17 | 2011-10-12 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP5862260B2 (ja) | 2011-12-09 | 2016-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
1998
- 1998-07-15 JP JP20065498A patent/JP3767180B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721451B1 (en) | 2000-05-31 | 2004-04-13 | Kabushiki Kaisha Toshiba | Apparatus and method for reading a document image |
Also Published As
Publication number | Publication date |
---|---|
JP3767180B2 (ja) | 2006-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5669007A (en) | Method and system for analyzing the logical structure of a document | |
US6874002B1 (en) | System and method for normalizing a resume | |
US7991709B2 (en) | Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers | |
US10579739B2 (en) | Method and system for identifying places of interest in a natural language input | |
US20090144277A1 (en) | Electronic table of contents entry classification and labeling scheme | |
US20100023318A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
CN113158653B (zh) | 预训练语言模型的训练方法、应用方法、装置及设备 | |
JPH08241332A (ja) | 全文登録語検索装置および方法 | |
CN113377916B (zh) | 一种面向法律文本的多关系中主要关系的抽取方法 | |
Powley et al. | Evidence-Based Information Extraction for High Accuracy Citation and Author Name Identification. | |
CN109635125B (zh) | 一种词汇图谱搭建方法及电子设备 | |
Tateisi et al. | Using stochastic syntactic analysis for extracting a logical structure from a document image | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
JP3767180B2 (ja) | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 | |
Dejean | Extracting structured data from unstructured document with incomplete resources | |
CN114462383A (zh) | 建筑图纸设计说明书获取方法、系统、存储介质及设备 | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
Charoenpornsawat et al. | Feature-based proper name identification in Thai | |
JPH10307837A (ja) | 検索装置並びに検索プログラムを記録した記録媒体 | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
JP3477822B2 (ja) | 文書登録検索システム | |
KR20000035325A (ko) | 문서 인식 장치 및 우편 구분기 | |
KR102670389B1 (ko) | 텍스트의 데이터 구조화 방법 및 장치 | |
JP4769379B2 (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041005 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060123 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090210 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100210 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110210 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |