JP2001051988A - 文書認識方法、装置および記録媒体 - Google Patents

文書認識方法、装置および記録媒体

Info

Publication number
JP2001051988A
JP2001051988A JP11229438A JP22943899A JP2001051988A JP 2001051988 A JP2001051988 A JP 2001051988A JP 11229438 A JP11229438 A JP 11229438A JP 22943899 A JP22943899 A JP 22943899A JP 2001051988 A JP2001051988 A JP 2001051988A
Authority
JP
Japan
Prior art keywords
document
template
input
input document
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11229438A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11229438A priority Critical patent/JP2001051988A/ja
Publication of JP2001051988A publication Critical patent/JP2001051988A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 正確なレイアウトデータが得られる電子文書
の優位性を十分に活用した文書認識方法を提供する。 【解決手段】 中に表を持つ電子文書101の論理構造
を認識して、表中のセルに所定の属性を与えて、この情
報をテンプレートとしてテンプレートデータベース10
6に保管する。入力文書107が入力されると、テンプ
レート照合手段108により、テンプレートデータベー
ス106内のテンプレートから入力文書107と同じ型
のテンプレートを選択し、その文書107の内容を指定
要素抽出手段110により抽出・認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書認識方法、装
置および記録媒体に関し、より詳細には文書の原本性を
保証して文書の書誌事項を抽出する方法、装置および記
録媒体に関する。
【0002】
【従来の技術】近年、文書の電子化およびネットワーク
を介しての流通は浸透しつつある。異なる文書システム
間でのデータ交換や文書の再利用を支援するためにSG
ML(文書の論理構造を説明するための文法)がある。
ところが実際には、DTD(文書型定義)作成を含め一
からSGML文書を作成するのは難しいので、一般のユ
ーザはMS―Word等のワードプロセッサで電子文書
を作成することが多かった。この際、通常のワードプロ
セッサでは、文書の要素を単にレイアウトベースで配置
しているだけなので、文書の論理的な構造は表や章節構
造、箇条書きなどの一部しか保持されていない。しかし
ながら、一般に文書登録の際に最も必要とされているの
が文書のタイトルや作成年月日、著者、発信元などの書
誌的情報であるのだが、通常のワードプロセッサで作成
された文書ではこれらの情報を保持していない。
【0003】特開平10−63649号公報には、入力
された電子文書(ワープロ文書)の文字列情報およびレ
イアウト情報による特徴データを抽出して前記入力文書
の論理構造化を行い、この論理構造に対応するタグを付
加するタグ付加文書作成方法および装置が記載されてい
る。
【0004】特開平11−184894号公報には、文
書画像のみを対象とする論理要素抽出方法および記録媒
体が記載されている。この2つの発明の方法は電子文書
へも容易に応用できるのだが、正確なレイアウトデータ
が得られる電子文書の優位性を十分に活用することはで
きない。
【0005】
【発明が解決しようとする課題】本発明は、上述のごと
き実状に鑑みてなされたもので、通常のワードプロセッ
サで作成された電子文書から文書のレイアウト情報(本
発明では表構造のみ)を抽出して、これに所定の属性を
与えて文書テンプレートを作成し、2枚目以降の文書と
前記テンプレートを照合して、該文書が前記テンプレー
トと同じ型かどうかを判定して、加えて表の論理構造を
比較することによって厳密な原本性保証判定を行い、原
本性が保証された文書からは、さらに指定された書誌要
素を抽出することができる文書認識方法、装置および記
録媒体を提供することを目的とする。
【0006】画像の場合とは異なり、本発明では100
%正確なレイアウト特徴のみを利用するので文書認識の
精度は非常に高い。またオリジナル文書の表構造(内部
構造)を工夫することにより、第3者によるオリジナル
文書の改ざんや、レイアウトを真似た偽文書を精度良く
検出することができる。
【0007】
【課題を解決するための手段】請求項1の発明は、ワー
プロで作成された1つ以上の表を持つ文書の論理構造を
認識して、前記文書に表が1つ以上存在するとき表中の
セルに所定の属性を与えて、この情報をテンプレートと
して保管し、2枚目以降の文書が入力されたとき、予め
登録された複数のテンプレートの中から前記文書と同じ
型のテンプレートを選択し、該文書と前記選択されたテ
ンプレートと照合して該文書の内容を認識することを特
徴としたものである。
【0008】請求項2の発明は、請求項1の発明におい
て、前記文書とテンプレートとを照合する際、前記2つ
の文書のセル数が同じであった場合前記2つの文書は同
じ型であると判定することを特徴としたものである。
【0009】請求項3の発明は、請求項1の発明におい
て、前記文書とテンプレートとを照合する際、前記2つ
の文書のレイアウト(見た目)が全く同じであっても、
もし表の論理構造が異なれば、前記2つの文書は異なる
型であると判定し、オリジナル文書型の原本性を保証す
ることを特徴としたものである。
【0010】請求項4の発明は、請求項1の発明におい
て、前記セルに与える所定の属性は、セルの内容を表す
識別子(項目名)であり、前記文書とテンプレートとを
照合する際、前記セルの所定の属性で対応づけて該文書
から前記識別子(項目名)に対応するセルを抽出するこ
とを特徴としたものである。
【0011】請求項5の発明は、文書の論理構造を認識
して、前記文書に表が1つ以上存在するとき表中のセル
に所定の属性を与えて、この情報をテンプレートとして
保管する手段と、2枚目以降の文書が入力されたとき、
予め登録された複数のテンプレートの中から前記文書と
同じ型のテンプレートを選択する手段と、該文書と前記
選択されたテンプレートと照合して該文書の内容を認識
する手段とを備えたことを特徴としたものである。
【0012】請求項6の発明は、請求項5の発明におい
て、前記文書とテンプレートとを照合する際、前記2つ
の文書のセル数が同じであった場合前記2つの文書は同
じ型であると判定する手段を備えたことを特徴としたも
のである。
【0013】請求項7の発明は、請求項5の発明におい
て、前記文書とテンプレートとを照合する際、前記2つ
の文書のレイアウト(見た目)が全く同じであっても、
もし表の論理構造が異なれば、前記2つの文書は異なる
型であると判定し、オリジナル文書型の原本性を保証す
る手段を備えたことを特徴としたものである。
【0014】請求項8の発明は、請求項5の発明におい
て、前記セルに与える所定の属性は、セルの内容を表す
識別子(項目名)であり、前記文書とテンプレートとを
照合する際、前記セルの所定の属性で対応づけて該文書
から前記識別子(項目名)に対応するセルを抽出する手
段を備えたことを特徴としたものである。
【0015】請求項9の発明は、文書の論理構造を認識
して、前記文書に表が1つ以上存在するとき表中のセル
に所定の属性を与えて、この情報をテンプレートとして
保管する機能と、2枚目以降の文書が入力されたとき、
予め登録された複数のテンプレートの中から前記文書と
同じ型のテンプレートを選択する機能と、該文書と前記
選択されたテンプレートと照合して該文書の内容を認識
する機能を有することを特徴としたものである。
【0016】請求項10の発明は、請求項9の発明にお
いて、前記文書とテンプレートとを照合する際、前記2
つの文書のセル数が同じであった場合前記2つの文書は
同じ型であると判定する機能を有することを特徴とした
ものである。
【0017】請求項11の発明は、請求項9の発明にお
いて、前記文書とテンプレートとを照合する際、前記2
つの文書のレイアウト(見た目)が全く同じであって
も、もし表の論理構造が異なれば、前記2つの文書は異
なる型であると判定し、オリジナル文書型の原本性を保
証する機能を有することを特徴としたものである。
【0018】請求項12の発明は、請求項9の発明にお
いて、前記セルに与える所定の属性は、セルの内容を表
す識別子(項目名)であり、前記文書とテンプレートと
を照合する際、前記セルの所定の属性で対応づけて該文
書から前記識別子(項目名)に対応するセルを抽出する
機能を有することを特徴としたものである。
【0019】
【発明の実施の形態】以下、本発明の一実施形態を図面
を用いて具体的に説明する。図1は、本発明の実施形態
の構成を示す図で、図中、101はテンプレートを作成
するためのサンプル文書、102はサンプル文書および
認識対象となる入力文書107を入力するための文書入
力手段、103は入力された文書の構造を認識するため
の文書構造認識手段である。文書入力手段102と文書
構造認識手段103は、テンプレートを作成する段階と
文書を認識する段階との両方で利用される。また、10
4は認識された文書構造にユーザからの情報を付与して
テンプレートを作成するテンプレート作成手段、105
は作成されたテンプレートをテンプレートデータベース
106に書き出すためのテンプレート出力手段、108
は入力文書107とテンプレートデータベース106に
登録されたテンプレートとを順に照合して入力文書に適
合したテンプレートを選択するテンプレート照合手段、
109は入力文書が適合テンプレートの原本性を保証し
ているかを判定する原本性保証手段、110は入力文書
から適合テンプレートを用いて指定要素を抽出する指定
要素抽出手段、111は抽出結果を書誌事項データベー
ス112に出力する抽出結果出力手段である。
【0020】テンプレート作成のための文書101と認
識対象となる文書107は、どちらも通常のワープロで
作成された電子文書であり、HDやFDなどの記録媒体
やネットワークを介してファイルとして入力される。圧
縮されていても、暗号化されていてもそれを復元する手
段があれば構わない。
【0021】本実施形態では、処理対象文書のファイル
形式として、例えばマイクロソフト社が提唱する電子文
書の一つであるRich Text File仕様(以後RTF)を対
象とする。RTF仕様は一般に広く公開されており、本
発明で必要なレイアウト特徴はすべて含まれている(参
考文献;Microsoft Corp.著,アスキーテクノライト
訳,「RTFVer.1.3仕様書」,アスキー出版 199
5)。
【0022】本実施形態では、文書構造認識手段103
においては文書の表構造のみを認識することとする。
【0023】図2は、テンプレートのためのサンプル文
書の一例を示す図で、図中、201はサンプル文書10
1の構造を示している。表1(202)は、RTF仕様
においては例えば図3のコマンド301のような形式で
記述されている。表構造に関するRTFコマンドのみに
注目するとコマンド301は次のように書き直せる。 \trowd { 11\cell 12\cell }{\row }
【0024】このコマンドの意味は、はじめに表の行設
定をデフォルトに戻し(trowd)、第1セルに“11”
(11\cell),第2セルに“12”(12\cell)を記述し
て、行を折り返す(row)である。このように、RTF
仕様で書かれた任意の表は簡単にその構造を抽出するこ
とができる。ここで抽出した1行2列の表構造をT
(1,2)と記述する。表Tの2つのセルをそれぞれC
T(1,1),CT(1,2)と表す。
【0025】図4は、表の内部構造の一例を示す図であ
る。図2の表202は、T(1,1)型の2つの表を横
に並べることでも再現できる。すなわち、電子文書にお
ける表は、見た目が同じであっても内部構造が異なる場
合がある。本発明では、表のレイアウトではなく上述の
ような内部構造の違いに着目して文書内容の高度な認識
を目指すものである。表の各セルには、例えば文書の左
上から順に番号を付ける。文書の表構造認識結果は、メ
モリに保存したり、あるいはファイル(例えばタグ付コ
ードファイル)にネットワークを介して書き出してもよ
い。ここまでは、テンプレート作成と文書認識との両方
の流れにおいて共通である。
【0026】続いて、テンプレート作成に関して説明す
る。テンプレート作成手段104では、文書構造を認識
されたサンプル文書101に対して、ユーザが抽出した
いセルに書誌事項名を与える。テンプレートは、認識さ
れた表構造 T0(x0,y0),T1(x1,y1),……,Tn(xn,yn) と、各セルに与えられた書誌事項名(全く与えられてい
なくてもよい)を合わせて作成されて、テンプレートデ
ータベース106に出力される。
【0027】例えば図2のサンプル文書201からテン
プレートを作成する場合に、表202の左右のセルにそ
れぞれ、“L”,“M”なる書誌事項名を与えるとす
る。このときテンプレートが持つ情報は、 表数=1,セル数=2 表型:T0(1,2) 指定要素:CT0(1,1)=“L”,CT0(1,2)=
“M” のみである。このテンプレートは、複雑な文書構造、例
えば各要素間をグラフ化する構造などを必要としないの
で作成や保守が簡単である。
【0028】さらに、前述の特開平11−184894
号公報に記載の発明におけるテンプレート(モデル)と
比べても、レイアウト情報、例えばセルの座標値やフォ
ント情報などを必要としないので、フォントや文字サイ
ズ等が制作者ごとに異なる設定であっても、後の認識過
程にてこれらの影響を受けることはない。
【0029】次に、文書識別に関して説明する。ここで
は、必要なテンプレートは予め作成されているとする。
テンプレート作成の場合と同様に、認識対象となる文書
107が入力されたとき、文書構造認識手段103で表
構造が抽出されて、その結果がメモリ上に保存、あるい
はファイルに書き出される。続いて、テンプレート照合
手段108において、入力文書と予め登録されているテ
ンプレートと順に表構造を比較する。このとき、セルの
総数が同じならば入力文書と該当するテンプレートは同
じ文書種類であると判断する。
【0030】大量のテンプレートが蓄積(登録)されて
いる場合や、入力文書のセルの数が少ない場合には、誤
ったテンプレートが選択される可能性もある。実際には
登録テンプレートの数はさほど多くなく、かつ入力文書
のセル数が二桁以上ある場合が多いので、このような簡
単な条件でも十分に文書の種類を識別することは可能で
ある。
【0031】また同じような文書を続けて入力する場合
には、前回選択されたテンプレートを次回から照合のは
じめに持ってくることにより、テンプレート照合回数を
押さえることができる。
【0032】図5は、原本性の保証方法を説明するため
の図である。原本性保証とは、入力された文書107が
登録されたテンプレートのうちのどれか1つのテンプレ
ートから派生して作成されたことを保証するものであ
る。
【0033】ある者がオリジナルのテンプレート文書5
01を参照しながら全く同じレイアウトの文書を新規に
作成したとする。これは通常のワープロでは十分に可能
である。オリジナルの表502を真似て作成された表5
03の内部構造を、例えばT(1,1)+T(2,2)
とする。この時オリジナルの表502の内部構造504
がT(1,1)+T(1,2)+T(1,1)+T
(1,1)であったと仮定すると、表503とオリジナ
ル表504は全く異なる構造を持つことになる。このよ
うに、たとえ2つの文書のレイアウト(見た目)が全く
同じであっても、もし表の論理構造が異なれば2つの文
書は異なる型であると判定する。原本性保証は第3者に
よる不正な文書模写を防止する事などに応用できる。
【0034】図6は、構造(セル)マッチングでの指定
要素抽出方法を説明するための図である。原本性保証手
段109で入力文書107の原本性が保証されたら、最
後に入力文書からテンプレートに指定された要素を抽出
する。既に入力文書603に適合するテンプレート60
1が選択されているので、ここでは簡単に、テンプレー
ト601の表602に指定されたセルに一致するセルを
入力文書603の表604から抽出する(マッチングの
結果605を参照)。もしテンプレートに抽出すべき書
誌事項が指定されていない場合には、このステップは飛
ばしてよい。
【0035】
【発明の効果】請求項1,5,9の発明に対応する効
果:単純な方法で文書の論理構造を認識して、その論理
構造をテンプレートとして単純な形式で保管しているに
も関わらず、2枚目以降の入力文書の内容を極めて厳密
に認識することができる。
【0036】請求項2,6,10の発明に対応する効
果:請求項1,5,9の発明に対応する効果に加えて、
セル数のみで文書種類を判断しているので、文書のレイ
アウト的な変動からは全く影響を受けずに精度良く識別
することができる。
【0037】請求項3,7,11の発明に対応する効
果:請求項1,5,9の発明に対応する効果に加えて、
文書のレイアウト(見た目)が全く同じであっても、文
書の内部構造を比較することによって、厳密にオリジナ
ル文書の原本性を保証することができる。
【0038】請求項4,8,12の発明に対応する効
果:請求項1,5,9の発明に対応する効果に加えて、
単純な構造マッチングでも精度良く指定要素を抽出する
ことができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成を示す図である。
【図2】 テンプレート用のサンプル文書の一例を示す
図である。
【図3】 RTF仕様で記述されたサンプル文書の一例
を示す図である。
【図4】 表の内部構造の一例を示す図である。
【図5】 原本性の保証方法を説明するための図であ
る。
【図6】 構造(セル)マッチングでの指定要素抽出方
法を説明するための図である。
【符号の説明】
101,201…サンプル文書、102…文書入力手
段、103…文書構造認識手段、104…テンプレート
作成手段、105…テンプレート出力手段、106…テ
ンプレートデータベース、107,603…入力文書、
108…テンプレート照合手段、109…原本性保証手
段、110…指定要素抽出手段、111…抽出結果出力
手段、112…書誌事項データベース、202,50
2,602,604…表、503,504…表の内部構
造、301…コマンド、501…オリジナル文書、60
1…テンプレート、605…マッチングの結果。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書に対し、それぞれ、文書の論
    理構造を認識し、前記文書に表が存在するときに該表中
    のセルに所定の属性を与え、該属性情報を有するテンプ
    レートとして蓄積し、文書が入力されたとき、前記蓄積
    された複数のテンプレートの中から前記入力文書と同じ
    型のテンプレートを選択し、前記入力文書と前記選択さ
    れたテンプレートと照合して該入力文書の内容を認識す
    ることを特徴とする文書認識方法。
  2. 【請求項2】 請求項1に記載の文書認識方法におい
    て、前記入力文書と前記テンプレートとを照合する際、
    前記入力文書と前記テンプレートのセル数が同じであっ
    た場合該入力文書と該テンプレートは同じ型であると判
    定することを特徴とする文書認識方法。
  3. 【請求項3】 請求項1に記載の文書認識方法におい
    て、前記入力文書と前記テンプレートとを照合する際、
    前記入力文書と前記テンプレートのレイアウトが全く同
    じであっても、前記表の論理構造が異なれば、前記入力
    文書と前記テンプレートは異なる型であると判定し、オ
    リジナル文書型の原本性を保証することを特徴とする文
    書認識方法。
  4. 【請求項4】 請求項1記載の文書認識方法において、
    前記セルに与える所定の属性は、前記セルの内容を表す
    識別子であり、前記入力文書と前記テンプレートとを照
    合する際、前記セルの所定の属性で対応づけて前記入力
    文書から前記識別子に対応するセルを抽出することを特
    徴とする文書認識方法。
  5. 【請求項5】 複数の文書に対し、それぞれ、文書の論
    理構造を認識して、前記文書に表が存在するときに該表
    中のセルに所定の属性を与えて、該属性情報を有するテ
    ンプレートとして蓄積する手段と、文書が入力されたと
    き、前記蓄積された複数のテンプレートの中から前記入
    力文書と同じ型のテンプレートを選択する手段と、前記
    入力文書と前記選択されたテンプレートと照合して該入
    力文書の内容を認識する手段とを備えたことを特徴とす
    る文書認識装置。
  6. 【請求項6】 請求項5に記載の文書認識装置におい
    て、前記入力文書と前記テンプレートとを照合する際、
    前記入力文書と前記テンプレートのセル数が同じであっ
    た場合該入力文書と該テンプレートは同じ型であると判
    定する手段を備えたことを特徴とする文書認識装置。
  7. 【請求項7】 請求項5に記載の文書認識装置におい
    て、前記入力文書と前記テンプレートとを照合する際、
    前記入力文書と前記テンプレートのレイアウトが全く同
    じであっても、前記表の論理構造が異なれば、前記入力
    文書と前記テンプレートは異なる型であると判定し、オ
    リジナル文書型の原本性を保証する手段を備えたことを
    特徴とした文書認識装置。
  8. 【請求項8】 請求項5に記載の文書認識装置におい
    て、前記セルに与える所定の属性は、前記セルの内容を
    表す識別子であり、前記入力文書と前記テンプレートと
    を照合する際、前記セルの所定の属性で対応づけて前記
    入力文書から前記識別子に対応するセルを抽出する手段
    を備えたことを特徴とする文書認識装置。
  9. 【請求項9】 複数の文書に対し、それぞれ、文書の論
    理構造を認識して、前記文書に表が存在するときに該表
    中のセルに所定の属性を与えて、該属性情報を有するテ
    ンプレートとして蓄積する機能と、文書が入力されたと
    き、前記蓄積された複数のテンプレートの中から前記入
    力文書と同じ型のテンプレートを選択する機能と、前記
    入力文書と前記選択されたテンプレートと照合して該入
    力文書の内容を認識する機能をコンピュータに実現させ
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  10. 【請求項10】 請求項9に記載の記録媒体において、
    前記入力文書と前記テンプレートとを照合する際、前記
    入力文書と前記テンプレートのセル数が同じであった場
    合該入力文書と該テンプレートは同じ型であると判定す
    る機能をコンピュータに実現させるためのプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
  11. 【請求項11】 請求項9に記載の記録媒体において、
    前記入力文書と前記テンプレートとを照合する際、前記
    入力文書と前記テンプレートのレイアウトが全く同じで
    あっても、前記表の論理構造が異なれば、前記入力文書
    と前記テンプレートは異なる型であると判定し、オリジ
    ナル文書型の原本性を保証する機能をコンピュータに実
    現させるためのプログラムを記録したコンピュータ読み
    取り可能な記録媒体。
  12. 【請求項12】 請求項9記載の記録媒体において、前
    記セルに与える所定の属性は、前記セルの内容を表す識
    別子であり、前記入力文書と前記テンプレートとを照合
    する際、前記セルの所定の属性で対応づけて前記入力文
    書から前記識別子に対応するセルを抽出する機能をコン
    ピュータに実現させるためのプログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
JP11229438A 1999-08-13 1999-08-13 文書認識方法、装置および記録媒体 Pending JP2001051988A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11229438A JP2001051988A (ja) 1999-08-13 1999-08-13 文書認識方法、装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11229438A JP2001051988A (ja) 1999-08-13 1999-08-13 文書認識方法、装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2001051988A true JP2001051988A (ja) 2001-02-23

Family

ID=16892232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11229438A Pending JP2001051988A (ja) 1999-08-13 1999-08-13 文書認識方法、装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2001051988A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157400A (ja) * 2001-11-21 2003-05-30 Orient Corp クレジット情報処理方法及びシステム、クレジット情報処理用プログラム並びにクライアントシステムの制御方法
CN113051242A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 文档类型识别方法、装置、设备和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157400A (ja) * 2001-11-21 2003-05-30 Orient Corp クレジット情報処理方法及びシステム、クレジット情報処理用プログラム並びにクライアントシステムの制御方法
CN113051242A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 文档类型识别方法、装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US8233714B2 (en) Method and system for creating flexible structure descriptions
US8452132B2 (en) Automatic file name generation in OCR systems
US20030004991A1 (en) Correlating handwritten annotations to a document
US8260049B2 (en) Model-based method of document logical structure recognition in OCR systems
US8250469B2 (en) Document layout extraction
US9740692B2 (en) Creating flexible structure descriptions of documents with repetitive non-regular structures
JP3425408B2 (ja) 文書読取装置
JP4343213B2 (ja) 文書処理装置および文書処理方法
WO2020218512A1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
CN101178924B (zh) 用于把图像的说明插入到音频记录中的系统和方法
TW200416583A (en) Definition data generation method of account book voucher and processing device of account book voucher
US20020016796A1 (en) Document processing method, system and medium
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN114118053A (zh) 一种合同信息提取方法及装置
JPH11184894A (ja) 論理要素抽出方法および記録媒体
CN110795561B (zh) 一种电子卷宗材料类型自动识别系统及其自主学习方法
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
JP3598711B2 (ja) 文書ファイリング装置
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
JP2001051988A (ja) 文書認識方法、装置および記録媒体
KR102129705B1 (ko) 장애인 접근성 전자책 변환 방법 및 장치
JP2005190141A (ja) 情報区分装置、情報区分方法及び情報区分プログラム
CN114238654A (zh) 一种知识图谱的构建方法、装置和计算机可读存储介质
JP2002197097A (ja) 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219