JP3767180B2 - 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 - Google Patents

文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP3767180B2
JP3767180B2 JP20065498A JP20065498A JP3767180B2 JP 3767180 B2 JP3767180 B2 JP 3767180B2 JP 20065498 A JP20065498 A JP 20065498A JP 20065498 A JP20065498 A JP 20065498A JP 3767180 B2 JP3767180 B2 JP 3767180B2
Authority
JP
Japan
Prior art keywords
label
document
line
bulleted
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20065498A
Other languages
English (en)
Other versions
JP2000029877A (ja
Inventor
隆明 長谷川
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP20065498A priority Critical patent/JP3767180B2/ja
Publication of JP2000029877A publication Critical patent/JP2000029877A/ja
Application granted granted Critical
Publication of JP3767180B2 publication Critical patent/JP3767180B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体に係り、特に、ネットワークを介して伝達された、あるいは、OCRで読み込んだ電子文書の文書構造中の箇条書きを特定するするための文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来の文書構造を解析する方法において、箇条書きを特定する際に、予め決められたラベル付箇条書きを表しうる単語や記号を用意して、文書に対して検索を行い、これに一致した文字列を箇条書きと判定している。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来の予め決められた箇条書きを表す単語や記号を用いて文書を検索し、箇条書きを判定する方法では、予想しうる単語や記号を多く用意しなければならないことと、特定の記号がない場合や文字間に空白が含まれる場合には箇条書きと判定することができないという問題がある。
【0004】
本発明は、上記の点に鑑みなされたもので、箇条書きラベルを含んだり、特定の記号等がなくても、文字列の長さや行頭の位置情報を使うことによって、ラベル付箇条書きと本文の単文化についての文書構造を解析することが可能な文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
本発明は、文書構造を解析する文書構造解析装置における文書構造解析方法において、
文書入力手段が、解析対象の文書を入力する文書入力ステップと(ステップ1)、
引用符検出手段が、文書の行頭の引用符の有無を調べ、該文書の行頭に引用符がある場合には削除する引用符検出ステップと(ステップ2)、
特定ラベル検出手段が、文書中の日時、場所を含む特定の文字列を特定文字列ラベルとして検出し、特定ラベル検出手段が、前記文書中の日時、場所を含む特定の文字列を特定文字列ラベルとして検出し、該特定文字列ラベルの行頭の位置及び空白を含んだ長さ、該特定文字列ラベル中の空白の有無、該特定文字列の文字種を含む正規表現をラベル特徴格納手段に格納する特定ラベル検出ステップと(ステップ3)、
箇条書きラベル検出手段が、文書中に行頭の位置がラベル特徴格納手段に格納された行頭の位置と一致する行がある場合には、文書中の行頭の位置が一致した行を箇条書きラベルの候補とし、該箇条書きラベルの候補中に空白を含む場合は、該箇条書きラベルの候補の行頭の位置からラベル特徴格納手段に格納された文字列の長さだけ文字列を箇条書きラベルとして検出し、箇条書きラベルの候補中に空白を含まない場合は、箇条書きラベルの候補中の文字種を含む正規表現がラベル特徴格納手段に格納された文字列の文字種を含む正規表現と一致する文字列を箇条書きラベルとして検出する箇条書きラベル検出ステップと(ステップ4)、
箇条書き範囲特定手段が、箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置とを調べることにより箇条書き範囲を抽出する箇条書き範囲特定ステップと(ステップ5)、
文切り出し手段が、箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切る文切り出しステップと(ステップ5)、
文書出力手段が、抽出された箇条書き範囲及び文単位に区切られた文に、各文の文書構造を示すタグを付与して出力する文書出力ステップと(ステップ6)、を行う。
【0007】
本発明は、箇条書き範囲特定ステップにおいて、
箇条書き範囲特定手段が、
検出された箇条書きラベルそれぞれについて、
箇条書きラベルを含む行と、箇条書きラベルを含む行の行頭の位置よりも次以降の箇条書きラベルを含まない行の行頭位置が右にインデントされている行と、により構成される範囲をそれぞれ箇条書きの範囲として抽出する手段である。
【0008】
図2は、本発明の原理構成図である。
本発明は、文書構造を解析する文書構造解析装置であって、
解析対象の文書を入力する文書入力手段1と、
文書の行頭の引用符の有無を調べ、該文書の行頭に引用符がある場合には削除する引用符検出手段2と、
文書中の日時、場所を含む特定の文字列を特定文字列ラベルとして検出し、該特定文字列ラベルの行頭の位置及び空白を含んだ長さ、該特定文字列ラベル中の空白の有無、該特定文字列の文字種を含む正規表現をラベル特徴格納手段4に格納する特定ラベル検出手段3と、
文書中に行頭の位置がラベル特徴格納手段4に格納された行頭の位置と一致する行がある場合には、文書中の行頭の位置が一致した行を箇条書きラベルの候補とし、該箇条書きラベルの候補中に空白を含む場合は、該箇条書きラベルの候補の行頭の位置からラベル特徴格納手段4に格納された文字列の長さだけ文字列を箇条書きラベルとして検出し、箇条書きラベルの候補中に空白を含まない場合は、箇条書きラベルの候補中の文字種を含む正規表現がラベル特徴格納手段4に格納された文字列の文字種を含む正規表現と一致する文字列を箇条書きラベルとして検出する箇条書きラベル検出手段5と、
箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置とを調べることにより箇条書き範囲を抽出する箇条書き範囲特定手段6と、
箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切る文切り出し手段7と、
抽出された箇条書き範囲及び文単位に区切られた文に、各文の文書構造を示すタグを付与して出力する文書出力手段8と、を有する。
【0010】
本発明の箇条書き範囲特定手段6は、
検出された箇条書きラベルそれぞれについて、
箇条書きラベルを含む行と、箇条書きラベルを含む行の行頭の位置よりも次以降の箇条書きラベルを含まない行の行頭位置が右にインデントされている行と、により構成される範囲をそれぞれ箇条書きの範囲として抽出する手段である。
【0011】
本発明は、文書構造を解析する文書構造解析プログラムを格納した記憶媒体であって、
請求項1または、2記載の文書構造解析方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
【0014】
記のように、本発明は、文書内の特定の種類のラベル付箇条書きに着目し、そのラベル付箇条書きとして記述されている特徴を用いることによって、その文書内の任意のラベル付箇条書きを特定し、文書の構造を解析することが可能となる。
【0015】
例えば、イベントの案内について通知する電子メール文書の構造を解析する場合について述べる。文書入力手段によって、受信した電子メールを入力し、本文と引用文に分割するため、行頭の引用符を検出し、これを除く。次に、日時、場所等を示す特定文字列をラベルとする箇条書きを検出し、検出した当該特定文字列の箇条書きラベルの文字列の長さや行頭の位置やパターンの特徴(ラベルの特徴)を格納する。格納されたラベルの特徴を用いて、文書から任意の箇条書きラベルを検出する。さらに、箇条書きラベルが検出された行とそれ以降の箇条書きラベルが検出されない行に対して、行頭の位置を比べることによって、箇条書きの範囲を特定し、箇条書きの範囲でない行に対して、それ以降の行を接続し、句点等を使って文単位に区切る。最後に箇条書きや文を示すタグを文書に付けて出力する。
【0016】
【発明の実施の形態】
図3は、本発明の文書構造解析装置の構成を示す。
同図に示す文書構造解析装置は、文書入力部1、引用符検出部2、特定ラベル検出部3、ラベル特徴格納部4、箇条書きラベル検出部5、箇条書き範囲特定部6、文切り出し部7及び文書出力部8から構成される。
【0017】
文書入力部1は、構造解析を行う文書を入力する。
引用符検出部2は、本文と引用文の区別を示す行頭の引用符を検出し、これを除去する。
特定ラベル検出部3は、文書から特定の箇条書きを示すラベルを検出する。
ラベル特徴格納部4は、特定ラベル検出部3で得られた箇条書きラベルの特徴を格納する。
【0018】
箇条書きラベル検出部5は、ラベル特徴格納部4に格納された特徴を用いることによって、文書から任意の箇条書きのラベルを検出する。
箇条書き範囲特定部6は、特定ラベル検出部3や箇条書きラベル検出部5により検出された箇条書きの行とそれ以降の箇条書きが検出されていない行に対して、行頭の位置を比べることにより、箇条書きの範囲を特定する。
【0019】
切り出し部7は、箇条書き範囲特定部6で箇条書きの範囲と特定されない行に対して、行を接続し、句点等で文単位に切り出しを行う。
文書出力部8は、文書構造を文書にタグ付けして出力する。
次に、上記の構成における動作を説明する。
図4は、本発明の文書解析装置の動作を示すフローチャートである。
【0020】
ステップ101) 文書入力部1より文書構造を解析する対象の文書を入力する。
ステップ102) 引用符検出部2により、入力された文書の行頭に引用符があるかどうかを調べ、ある場合にはステップ103に移行し、ない場合にはステップ104に移行する。
【0021】
ステップ103) 文書の行頭に引用符がある場合には、引用符検出部2は、当該引用符を削除する。
ステップ104) 特定ラベル検出部3が、日時、場所等の特定の文字列があるかを調べ、ある場合にはステップ105に移行し、ない場合にはステップ109に移行する。
【0022】
ステップ105) 特定ラベル検出部3により特定の文字列がある場合には、当該文字列を特定文字列ラベルとして検出する。
ステップ106) 検出された特定文字列ラベルの文字列の長さ、行頭の位置、空白の有無、パターンの特徴等をラベル特徴格納部4に格納する。
ステップ107) 箇条書きラベル検出部5は、当該文書中にラベル特徴格納部4に格納されている特徴に合致する文字列があるかどうかを調べ、ある場合にはステップ108に移行し、ない場合にはステップ109に移行する。
【0023】
ステップ108) 特徴に合致するラベルがある場合には、当該文字列を箇条書きラベルとして抽出する。
ステップ109) 箇条書き範囲特定部6は、箇条書きラベルが検出されたかを調べ、検出されている場合には、ステップ110に移行し、検出されていない場合にはステップ111に移行する。
【0024】
ステップ110) 箇条書き判定特定部6は、特定ラベル検出部3及び箇条書きラベル検出部5により検出された箇条書きの行と、それ以降の箇条書きが検出されない行に対して行頭の位置を調べることにより箇条書きの範囲を特定する。
ステップ111) 文切り出し部7により箇条書き範囲特定部6で箇条書きの範囲と特定されない行に対して、行を接続し、句点等を用いて、文単位に切り出しを行う。
【0025】
ステップ112) 切り出された文の文書構造にタグを付与して文書出力部8から出力する。
次に、上記の箇条書きラベル検出部5におけるステップ107及びステップ108の動作を詳細に説明する。
図5は、本発明の箇条書きラベル検出部の動作のフローチャートである。
【0026】
ステップ201) 得られているラベルのパターンに特定の記号、数字、アルファベット等の特定の記号があるかを判定し、ある場合にはステップ202に移行し、ない場合にはステップ203に移行する。
ステップ202) 特定の記号等を含む行を候補とし、ステップ205に移行する。
【0027】
ステップ203) 特定の記号等を含む行がなければ、各行に対し行頭の位置が一致している行があるかを調べ、一致する行があればステップ204に移行し、なければ、処理を終了する。
ステップ204) 一致する行があれば、この行を箇条書きラベルの候補とし、ステップ205に移行する。
【0028】
ステップ205) 当該箇条書きラベルの候補に空白を含むかを調べ、含む場合にはステップ206に移行し、ない場合にはステップ207に移行する。
ステップ206) 当該箇条書きラベルの候補に空白を含む場合には、行頭の位置から文字列の長さだけ文字列を抽出し、処理を終了する。
ステップ207) ラベルに空白を含まない場合には、パターンにマッチする文字列を抽出する。
【0029】
次に、箇条書き範囲特定部6のステップ110について説明する。
図6は、本発明の箇条書き範囲特定部の動作のフローチャートである。
ステップ301) 文書内に箇条書きラベルがある限り以下の処理を繰り返す。
ステップ302) 次の行の処理に進む。
【0030】
ステップ303) 箇条書きラベルがないかを調べ、ない場合にはステップ304に移行し、ある場合には、ステップ301に移行する。
ステップ304) 箇条書きラベルがない場合には、行頭の位置が箇条書きの行よりも右側にあるかを調べ、ある場合にはステップ305に移行し、ない場合にはステップ301に移行する。
【0031】
ステップ305) 行全体を箇条書きの範囲とする。
【0032】
【実施例】
以下、図面と共に本発明の実施例を説明する。
図7は、本発明の一実施例の入力されたサンプル文書である。
まず、図7に示す文書が文書入力部1より入力されると、引用符検出部2により、入力された文書の行頭に引用符があるかどうかを調べ、ある場合には当該引用符を削除する。同図の場合には引用符はないものとする。
【0033】
次に、特定ラベル検出部3が、『日時』、『場所』等の特定の文字列があるかを調べる。同図の例では、「日時」、「場所」の特定文字列が存在するので、これらを特定文字列ラベルとして検出し、特定文字列ラベルの文字列の長さ、行頭の位置、空白の有無、パターンの特徴等をラベル特徴格納部4に格納する。同図の例では、ラベルの特徴は、
・ラベルの文字列の先頭位置―5バイト目
・ラベル文字列の長さ(空白を含む)−8バイト目
・ラベル文字列中の空白の有無―有り
・ラベル文字列のパターン(数字、記号等の文字種を含む正規表現)−[数字記号以外]([空白(0個以上の繰り返し)][数字記号以外](0個以上の繰り返し))
同図の例では、これらの特徴に合致するラベルがあるので、箇条書き判定特定部6は、箇条書きラベルとして抽出する。この例では、上記特徴に合致する
「会 費」、「交通手段」、「経 路」
が検出される。これらのラベルが検出された行は、ラベル行としてタグが付けられる(タグは、ラベル名とその内容のセットを含んでいるものとし、特にフォーマットは規定しない)。
【0034】
箇条書き範囲特定部6は、箇条書きラベルが検出されたかを調べ、箇条書きの範囲を特定する。同図の例では、「場所」ラベル行以外は、すべて1行のみなので、それがそのまま箇条書きの範囲である。「場所」ラベルはその行以降の通常の先頭位置と比較し、17バイト、17バイト、25バイト、25バイトとなっていて、場所「ラベル」の先頭位置の8バイトよりも大きい、つまり、右にインデントされているので、「場所」ラベルの箇条書きの範囲に含め、内容を接続する(なお、その次の行の「会費」ラベル付はラベル行なので、先頭位置の比較対象とはならない)。
【0035】
上記により、箇条書きの範囲が合計4行となり、文は3つに区切られる。
このようにして 切り出された文の文書構造にタグ(「日時」「場所」「会費」「交通手段」「経路」)を付与して文書出力部8から出力する。
上記のように、文字列の長さや行頭の位置情報を使うことによってラベル付箇条書き部と本文の単文化についての文書構造を解析することが可能となる。
【0036】
また、上記の実施例では、図3の構成要素に基づいて説明しているが、この例に限定されることなく、図3の構成要素をプログラムとして構築し、文書構造解析装置として利用されるコンピュータに接続されるディスク装置や、フロッピーディスクやCD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより容易に本発明を実現することができる。
【0037】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0038】
【発明の効果】
上述のように、本発明によれば箇条書きラベルに空白を含んだり、特定の記号等がなくても、列の長さや行頭の位置情報を使うことによって、ラベル付箇条書きと本文の単文化について文書構造を解析することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の文書構造解析装置の構成図である。
【図4】本発明の文書解析装置の動作を示すフローチャートである。
【図5】本発明の箇条書きラベル検出部の動作のフローチャートである。
【図6】本発明の箇条書き範囲特定部の動作のフローチャートである。
【図7】本発明の一実施例の入力されたサンプル文書である。
【符号の説明】
1 文書入力手段、文書入力部
2 引用符検出手段、引用符検出部
3 特定ラベル検出手段、特定ラベル検出部
4 ラベル特徴格納手段、ラベル特徴格納部
5 箇条書きラベル検出手段、箇条書きラベル検出部
6 箇条書き範囲特定手段、箇条書き範囲特定部
7 文切り出し手段、文切り出し部
8 文書出力手段、文書出力部

Claims (5)

  1. 文書構造を解析する文書構造解析装置における文書構造解析方法において、
    文書入力手段が、解析対象の文書を入力する文書入力ステップと、
    引用符検出手段が、前記文書の行頭の引用符の有無を調べ、該文書の行頭に引用符がある場合には削除する引用符検出ステップと、
    特定ラベル検出手段が、前記文書中の日時、場所を含む特定の文字列を特定文字列ラベルとして検出し、該特定文字列ラベルの行頭の位置及び空白を含んだ長さ、該特定文字列ラベル中の空白の有無、該特定文字列の文字種を含む正規表現をラベル特徴格納手段に格納する特定ラベル検出ステップと、
    箇条書きラベル検出手段が、前記文書中に行頭の位置が前記ラベル特徴格納手段に格納された行頭の位置と一致する行がある場合には、前記文書中の行頭の位置が一致した行を箇条書きラベルの候補とし、該箇条書きラベルの候補中に空白を含む場合は、該箇条書きラベルの候補の行頭の位置から前記ラベル特徴格納手段に格納された文字列の長さだけ文字列を箇条書きラベルとして検出し、前記箇条書きラベルの候補中に空白を含まない場合は、前記箇条書きラベルの候補中の文字種を含む正規表現が前記ラベル特徴格納手段に格納された文字列の文字種を含む正規表現と一致する文字列を箇条書きラベルとして検出する箇条書きラベル検出ステップと、
    箇条書き範囲特定手段が、前記箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置とを調べることにより箇条書き範囲を抽出する箇条書き範囲特定ステップと、
    文切り出し手段が、箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切る文切り出しステップと、
    文書出力手段が、前記抽出された箇条書き範囲及び前記文単位に区切られた文に、各文の文書構造を示すタグを付与して出力する文書出力ステップと、
    を行うことを特徴とする文書構造解析方法。
  2. 前記箇条書き範囲特定ステップにおいて、
    前記箇条書き範囲特定手段が、
    前記検出された箇条書きラベルそれぞれについて、
    前記箇条書きラベルを含む行と、前記箇条書きラベルを含む行の行頭の位置よりも次以降の箇条書きラベルを含まない行の行頭位置が右にインデントされている行と、により構成される範囲をそれぞれ箇条書きの範囲として抽出する手段であることを特徴とする請求項1記載の文書構造解析方法。
  3. 文書構造を解析する文書構造解析装置であって、
    解析対象の文書を入力する文書入力手段と、
    前記文書の行頭の引用符の有無を調べ、該文書の行頭に引用符がある場合には削除する引用符検出手段と、
    前記文書中の日時、場所を含む特定の文字列を特定文字列ラベルとして検出し、該特定文字列ラベルの行頭の位置及び空白を含んだ長さ、該特定文字列ラベル中の空白の有無、該特定文字列の文字種を含む正規表現をラベル特徴格納手段に格納する特定ラベル検出手段と、
    前記文書中に行頭の位置が前記ラベル特徴格納手段に格納された行頭の位置と一致する行がある場合には、前記文書中の行頭の位置が一致した行を箇条書きラベルの候補とし、該箇条書きラベルの候補中に空白を含む場合は、該箇条書きラベルの候補の行頭の位置から前記ラベル特徴格納手段に格納された文字列の長さだけ文字列を箇条書きラベルとして検出し、前記箇条書きラベルの候補中に空白を含まない場合は、前記箇条書きラベルの候補中の文字種を含む正規表現が前記ラベル特徴格納手段に格納された文字列の文字種を含む正規表現と一致する文字列を箇条書きラベルとして検出する箇条書きラベル検出手段と、
    前記箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置とを調べることにより箇条書き範囲を抽出する箇条書き範囲特定手段と、
    箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切る文切り出し手段と、
    前記抽出された箇条書き範囲及び前記文単位に区切られた文に、各文の文書構造を示すタグを付与して出力する文書出力手段と、
    を有することを特徴とする文書構造解析装置。
  4. 前記箇条書き範囲特定手段は、
    前記検出された箇条書きラベルそれぞれについて、
    前記箇条書きラベルを含む行と、前記箇条書きラベルを含む行の行頭の位置よりも次以降の箇条書きラベルを含まない行の行頭位置が右にインデントされている行と、により構成される範囲をそれぞれ箇条書きの範囲として抽出する手段であることを特徴とする請求項3記載の文書構造解析装置。
  5. 文書構造を解析する文書構造解析プログラムを格納した記憶媒体であって、
    前記請求項1または、2記載の文書構造解析方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする文書構造解析プログラムを格納した記憶媒体。
JP20065498A 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 Expired - Fee Related JP3767180B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20065498A JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20065498A JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000029877A JP2000029877A (ja) 2000-01-28
JP3767180B2 true JP3767180B2 (ja) 2006-04-19

Family

ID=16428011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20065498A Expired - Fee Related JP3767180B2 (ja) 1998-07-15 1998-07-15 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3767180B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8432555B2 (en) 2008-12-17 2013-04-30 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, computer-readable medium and computer data signal
US9275280B2 (en) 2011-12-09 2016-03-01 Fuji Xerox Co., Ltd. Information processing system and method for document management

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3425408B2 (ja) 2000-05-31 2003-07-14 株式会社東芝 文書読取装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8432555B2 (en) 2008-12-17 2013-04-30 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, computer-readable medium and computer data signal
US9275280B2 (en) 2011-12-09 2016-03-01 Fuji Xerox Co., Ltd. Information processing system and method for document management

Also Published As

Publication number Publication date
JP2000029877A (ja) 2000-01-28

Similar Documents

Publication Publication Date Title
US5669007A (en) Method and system for analyzing the logical structure of a document
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7756871B2 (en) Article extraction
JP3427692B2 (ja) 文字認識方法および文字認識装置
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
US20030023425A1 (en) Tokenizer for a natural language processing system
US20100161313A1 (en) Region-Matching Transducers for Natural Language Processing
US20100161639A1 (en) Complex Queries for Corpus Indexing and Search
JPH09134372A (ja) 文書検索方法及び装置
EP1331574B1 (en) Named entity interface for multiple client application programs
EP2653981A1 (en) Natural language processing device, method, and program
US7212963B2 (en) System for distinguishing names in Asian writing systems
Oo et al. An analysis of ambiguity detection techniques for software requirements specification (SRS)
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Tateisi et al. Using stochastic syntactic analysis for extracting a logical structure from a document image
Sen et al. Screener: a system for extracting education related information from resumes using text based information extraction system
JP2021114234A (ja) 情報処理装置、情報処理システム、および情報処理プログラム
Oudah et al. Person name recognition using the hybrid approach
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
Okada et al. Bibliographic component extraction using support vector machines and hidden Markov models
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
Charoenpornsawat et al. Feature-based proper name identification in Thai

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060123

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees