JP2001167131A - 文書シグネチュアを使用する文書の自動分類方法 - Google Patents

文書シグネチュアを使用する文書の自動分類方法

Info

Publication number
JP2001167131A
JP2001167131A JP2000320721A JP2000320721A JP2001167131A JP 2001167131 A JP2001167131 A JP 2001167131A JP 2000320721 A JP2000320721 A JP 2000320721A JP 2000320721 A JP2000320721 A JP 2000320721A JP 2001167131 A JP2001167131 A JP 2001167131A
Authority
JP
Japan
Prior art keywords
document
type
signature
new
document type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000320721A
Other languages
English (en)
Inventor
Oded Shmueli
オデッド・シュミュエリ
Michael Elad
マイケル・エラド
Darryl Greig
ダリル・グレイグ
Carl Staelin
カール・スターリン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2001167131A publication Critical patent/JP2001167131A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】新しい文書を以前に見た文書と比較し、文書タ
イプを同定する方法を提供する。 【解決手段】個別の文書タイプのレイアウトの特徴を記
述し複数のデータ点を含む、複数の文書タイプ分布を最
初に提供する。各文書タイプ分布は、少なくとも1つの
基礎文書シグネチュアから導き出されたデータを含む。
次に新しい電子文書を提供し、新しい電子文書から新し
い文書シグネチュアを生成する。次に新しい文書シグネ
チュアと複数の文書タイプ分布のそれぞれとの間の距離
が、ガウシアン分布のためのベイジアン・フレームワー
クに基づくアルゴリズムを使用して計算される。次に複
数の文書タイプによって記述された文書タイプの中から
新しい電子文書のために候補文書タイプを選択する。候
補文書タイプの選択は、あらかじめ選ばれた固定数の文
書タイプの選択するか、あらかじめ選ばれたしきい距離
内にある文書タイプの選択を含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分類システム
(document classification system)一般に関連し、よ
り具体的には既知のタイプの多くの文書に対する比較に
よって、新しい文書を迅速かつ自動的に分類する方法に
関連する。
【0002】
【従来の技術】デジタル的に取り込まれ電子的フォーム
に分散した文書の数が増大しているので、デジタル的に
取り込まれた文書の目的(purpose)または意図(inten
t)を迅速に分類する技術の要求が増している。
【0003】かつて文書の分類は手作業でなされた。作
業者は、視覚的にスキャンし、文書を文書タイプによっ
て選別した。このプロセスは、退屈で、時間を浪費し、
コストがかかった。コンピュータが一般的になったの
で、オンライン出版物(on-line publication)を含む
新しい文書の量が大きく増大し、電子文書のデータベー
スの数が急速に増大した。デジタル的に取り込まれ電子
的フォームで分散した文書の数の増大により、古い手作
業の文書の分類方法は、実際のところ、もはや簡単では
ない。
【0004】莫大な量の文書の分類および分析の仕事
が、文書管理システムおよび文書識別の領域においてな
されてきた。特にページ分解(page decomposition)お
よび光学式文字認識(OCR;optical character reco
gnition)の領域は、当分野において非常に発達してい
る。ページ分解は、電子文書の構成の自動認識を伴う。
これは通常、電子文書の特異な部分のサイズ、場所、お
よび構成を判断することを含む。例えば電子文書の特定
のページは、テキスト、グラフィックス、スプレッドシ
ート・データのパラグラフ(paragraph)を含む様々な
種類のデータを含むことがある。ページ分解は、一般的
に(おそらく境界線(perimeter)を示すことによっ
て)それぞれの特定の部分のサイズおよび場所、並びに
各部分において判明したデータのタイプを自動的に判断
することができる。各部分において判明したデータのタ
イプを単に判断することに加えて、各部分の内部の書式
情報の判断を実行するページ分解ソフトウェアもある。
例えばフォント、フォントサイズ、および行揃えを、テ
キストを含むブロックに対して判断することができる。
【0005】OCRは、テキスト情報として処理可能な
形式に、テキスト情報をデジタルイメージに変換するこ
とを含む。電子的に取り込まれた文書は、しばしば紙文
書の光学的にスキャンされた単なるデジタルイメージで
あるので、デジタルイメージに関する情報を収集するた
めに、しばしばページ分解とOCRが一緒に使用され電
子文書を生成する。この電子文書は、一般に使用可能な
ワード・プロセッシングおよび文書パブリッシング・ソ
フトウェア(word processing and document publishin
g software)で編集し、取り扱うことが容易である。さ
らにOCRを通じてイメージから集められたテキスト情
報は、それらのテキストの内容に基づいて文書をサーチ
することを可能にするためにしばしば使用される。
【0006】複数の文書タイプからのデータの分類およ
び抽出を提案する多くのシステムが存在するが、それら
の多くは、文書自身に印刷された識別ストリングの何ら
かの選別を頼りにしている。フォーム上の行の構造に基
づいて、フォームのデータベースの中から特定のフォー
ムとして新しいフォームを自動的に認識することを利用
することができるシステムもある。しかしながら、これ
らのシステムは、含まれる文書の固定された構造および
大きさを頼りにしている。最後に、多様な電子文書から
データを分類し、抽出するための機械学習技術(machin
e learning technique)を使用して設計されたエキスパ
ート・システム(expert system)がある。そのような
エキスパート・システムの1つが米国特許出願番号第0
9/070,439号「Automatic Extraction of Meta
data Using a Neural Network」に開示される。機械学
習技術は、相当量の計算パワーを要求するトレーニング
段階を一般に必要とする。したがって、これらの分類シ
ステムは、新しい文書の文書タイプが既知であれば、文
書からデータを抽出するのが非常に効率的に動作するよ
う作られる。
【0007】
【発明が解決しようとする課題】前記のことから明らか
なように、新しい文書が既知のタイプに属するのか、ま
たは新しいタイプに属するのかを分類するために、以前
に見た既知のタイプの多くの文書に対して新しい文書を
迅速かつ自動的に比較する方法の要求が依然としてあ
る。
【0008】
【課題を解決するための手段】本発明は、以前に見た多
くの文書に新しい文書を迅速かつ自動的に比較し、文書
タイプを同定する方法を提供する。本発明の方法は、複
数の文書タイプ分布(document type distribution)を
提供することによって開始する。それぞれの文書タイプ
分布は、個別の文書タイプのレイアウトの特徴を記述
し、複数のデータ点を含むことができる。それぞれの文
書タイプ分布は、少なくとも1つの基礎文書シグネチュ
ア(basis document signature)から導かれたデータを
含むことができる。基礎文書シグネチュアは、複数のデ
ータ点を含み、この複数のデータ点は、個別の基礎文書
から演算されることができる。そのデータ点は、基礎文
書の低解像イメージ、基礎文書の文書区分の低解像表
現、またはその他の任意の同様な基礎文書の表現を表す
ことができる。少なくとも1つの基礎文書シグネチュア
から導かれるデータは、例えば少なくとも1つの文書シ
グネチュアのそれぞれにわたる各データ値の平均または
中央値などのような、複数の代表的な統計値を含むこと
ができる。
【0009】次のステップは、新しい電子文書を提供す
ることである。そのとき新しい文書シグネチュアは、新
しい電子文書から生成される。新しい文書シグネチュア
は、新しい電子文書のレイアウトの特徴を記述し、新し
い電子文書の低解像イメージのピクセル、新しい電子文
書の文書区分の低解像表現、またはその他の任意の同様
な新しい電子文書の表現、を規定するデータを含むこと
ができる。
【0010】次に新しい文書シグネチュアと複数の文書
タイプ分布のそれぞれとの間の距離が計算される。その
距離は、例えばユークリッド距離(Euclidean distanc
e)、マハラノビス距離(Mahalanobis distance)、ガウ
ス分布のためのベイジアン・フレームワーク(Bayesian
framework for a Gaussian distribution)に基づくア
ルゴリズム、またはその他の測定などのような、本分野
における既知の距離計測を使用して計算されることがで
きる。さらに距離計算は、様々な文書タイプ間の判別に
おけるそのデータ点の有用性、または特定の文書タイプ
の指定におけるその点の信頼性に基づいて、基礎文書シ
グネチュアまたは文書タイプ分布における複数のデータ
点のそれぞれに与えられた値に重み付けすることができ
る。例えば複数のデータ点のそれぞれの信頼性は、その
文書タイプの全基礎文書内のそのデータ点の広がりと、
複数の基礎文書すべてにわたるそのデータ点の広がりと
の比率に基づいて、計算されることができる。
【0011】計算された距離に基づいて、新しい電子文
書のための少なくとも1つの候補文書タイプは、複数の
文書タイプ分布により記述された個別の文書タイプの中
から選択される。少なくとも1つの候補文書タイプの選
択は、あらかじめ選ばれた固定数の個別の文書タイプを
選択することを含む。あらかじめ選ばれた固定数の個別
の文書タイプは、あらかじめ選ばれた固定数の最小距離
を持つように計算された、あらかじめ選ばれた固定数の
複数の文書タイプ分布によって記述されるものである。
もう1つの方法として、少なくとも1つの候補文書タイ
プの選択は、あらかじめ選ばれた計算距離の最小しきい
距離の範囲内にある計算距離を有する複数の文書タイプ
分布により記述される個別の文書タイプを選択すること
を含むことができる。さらに、少なくとも1つの文書タ
イプの選択アルゴリズムは、新しい電子文書が新しいタ
イプであることを申告することができる。
【0012】さらに本発明は、先に述べた方法ステップ
を行うコンピュータで実行可能なプログラム命令を具体
的に実行することができるコンピュータで読み取り可能
なプログラム記憶媒体を提供する。本発明の他の側面お
よび利点は、本発明の原理の例を通じて、以下の詳細な
説明、図面、および疑似コードリストから明らかにな
る。
【0013】
【発明の実施の形態】デジタル的に取り込まれ電子的フ
ォームに分散した文書の数が増えているので、取り込ま
れた文書の電子的イメージだけを使用して、デジタル的
に取り込まれた文書の目的または意図を迅速に分類する
技術における関心が増している。具体的には、新しい
(未知の)文書のイメージが与えられた場合に、以前に
見た既知のタイプの大量の文書を通じて迅速にふるい分
けを行い、新しい文書に既知のタイプを割り当てるか、
さもなければ、その文書が新しいタイプであることを申
告することができる方法に対する要求が存在する。
【0014】説明のための図面に示すように、本発明
は、既知の文書タイプの大量の文書に対して新しい電子
文書(electronic document)を迅速かつ自動的に比較
する方法を提供する。この比較は、新しい電子文書のタ
イプを分類するためか、または新しい電子文書が既知の
文書タイプのいずれにも属していないことを示すために
行われる。
【0015】本発明は、ある程度、文書イメージを正し
く分類するのに必要とされる分析のレベルが各クラスの
文書の構造で見られる分散(variance)に関連するとい
う発明者の知見に基づく。これは、それぞれのクラス
(class)の書式に通じていると思われる人間の読み手
の体験でもある。クラス内の個々の文書の構造間での低
い分散を有する高度に構造化されたクラスに対して、人
間のエキスパート(専門家)は、非常に低い解像度の
「サムネイル(thumbnail)」文書イメージを与えられ
た場合、正確に文書を分類することができる。クラス内
の個々の文書の構造における分散が増加するとき、(フ
リー書式文書の極端な場合において)テキストの内容を
読み取って分析することによってのみ分類をすることが
できるまで、人間の読み手によって、より高解像度のイ
メージが必要とされる。これはテキストのOCRおよび
意味解析(semantic analysis)を行うことに等しい。
【0016】本発明による方法は、自由なフォームの文
書を含むあまり構造化されていない文書を扱うのに役に
立つけれども、スペクトラムのよりよく構造化された端
における文書の分類を主に扱うことを意図する。例えば
適切に設計された文書分類システムは、よりコストのか
かるセマンティクス処理(semantics processing)に先
行する前処理ステップにおいて、既知の文書タイプを除
外することによって演算コストを低くする。
【0017】図1は、本発明にしたがう、文書からメタ
データ(metadata)を自動的に抽出する方法を説明する
フローチャートである。簡単に言うと、電子文書の分類
方法は、複数の文書タイプ分布(document type distri
bution)の提供によって始まる(ブロック10)。各文
書タイプ分布は、文書タイプ上の標本統計(sample sta
tic)を、引き出すことができるデータの集まりであ
る。必要な標本統計および一般的実施は下で詳しく説明
される。次に新しい電子文書が提供される(ブロック2
0)。それから新しい電子文書シグネチュア(electron
ic document signature)が新しい電子文書から生成さ
れる(ブロック30)。次に新しい文書シグネチュアと
複数の文書タイプ分布との間の距離が計算される(ブロ
ック40)。それから少なくとも1つの候補文書タイプ
が、計算された距離に基づき選択される(ブロック5
0)。次に選ばれた少なくとも1つの候補文書タイプが
出力される(ブロック60)。
【0018】より具体的には、第1のステップは、複数
の文書タイプ分布を提供することである(ブロック1
0)。この明細書では、文書タイプ分布は、文書タイプ
分布についての標本統計を引き出すことができる任意の
データの集まりである。このデータの集まりは、その文
書タイプの任意の基礎文書の基礎文書シグネチュアを構
成する複数のデータ点からなる多変量ランダム変数の平
均(mean)および共分散(covariance)のために、標本統
計を提供することができる。このデータの集まりは、一
般的には少なくとも1つからなり、しばしば、その文書
タイプの全ての基礎文書の母集団からランダムに引き出
された基礎文書からの多くの基礎文書シグネチュアから
なる。文書タイプ分布は、個別の文書タイプのレイアウ
トの特徴を記述する。
【0019】個別の基礎文書のそれぞれからの文書シグ
ネチュアは、一般的に個別の基礎文書のレイアウトの粗
い表現である。個別の文書タイプのそれぞれのために、
関連づけられた基礎文書シグネチュアは、その文書タイ
プの文書の組の代表的なサンプルであると想定され、そ
の文書タイプの分布のために標本統計を提供することが
できる。2つの異なる型の基礎文書シグネチュア(低解
像イメージ型および文書区分型)を下で詳細に説明する
けれども、その他の型の基礎文書シグネチュアを本発明
による方法に使用してもよい。
【0020】文書タイプ分布は、基礎文書シグネチュア
からの様々な情報を含むことができる。この情報は、
1)個別の文書タイプの基礎文書シグネチュアのそれぞ
れからの全データ、2)個別の文書タイプの基礎文書シ
グネチュアのサンプリングからの全データ、3)個別の
文書タイプの基礎文書シグネチュアのそれぞれからの特
定化されたデータ、4)例えば個別の文書タイプの基礎
文書シグネチュアのそれぞれにおけるデータから導かれ
た平均値、中央値、最頻値、および標準偏差などの複数
の代表的な統計、5)個別の文書タイプの基礎文書シグ
ネチュアのサンプリングのデータから導かれた統計的情
報、および6)前述したものの任意の組合せ、を含む
(しかしながら、これらに限定されない)。
【0021】使用することができる基礎文書シグネチュ
アの第1の型は、「サムネイル」イメージ型としても知
られる低解像イメージ型である。低解像イメージ型の基
礎文書シグネチュアの3つの例(101、102、10
3)を図2から図4にそれぞれ示す。基礎文書シグネチ
ュアの低解像イメージ型は、特定の文書タイプの基礎文
書シグネチュアのそれぞれのために、オリジナルの文書
イメージを縮小することによって実現される。オリジナ
ルの文書イメージは、1インチあたり300ドット(3
00dpi)の解像度を一般的に有する。各ドットは、
通常「ピクセル」と呼ばれる。8×11インチの文書の
場合、これは、2400×3300ピクセルに相当し、
文書あたり総計7920000ピクセルに相当する。イ
メージの解像度を3dpiから9dpiの間に減らすこ
とによって、24×33ピクセルから72×99ピクセ
ルの間の画像がそれぞれ生成される。これらは、1つの
文書あたり729ピクセルから7128ピクセルの間の
低解像文書に相当し、すなわち100から1000の間
の係数までのピクセル総数の減少に相当する。低解像イ
メージ型の基礎文書シグネチュアの例(101から10
3)は、9dpiの解像度であり、サンプルピクセル1
10から120が各文書シグネチュア上にそれぞれ示さ
れる。この明細書では、低解像文書イメージは、75d
piと同程度の大きさであるが、15dpi以下である
ことが好ましい。
【0022】文書イメージのサムネイル・イメージは、
商業的に利用可能な文書走査ソフトウェアによって、し
ばしば自動的に生成され、それによりユーザは、文書を
容易にプレビューし、選択することができる。したがっ
て文書シグネチュアを形成するサムネイル・イメージ
は、文書の大きな組を処理するときに特に重要である付
加的な演算コストを提供することがほとんどないか、ま
たは全く無くすことができる。計算およびメモリ要求を
さらに低減するために、1dpiまで下げた低解像イメ
ージか、またはそれ以下に下げた低解像イメージを使用
することも可能であるが、しかしながら3dpi以下の
解像度の低減は、下で述べる本発明による方法の精度を
実質的に低減することがある。
【0023】次に特定の文書タイプの各基礎文書からの
「サムネイル」イメージは、先に述べた任意の技術を使
用して、その文書タイプのために文書タイプ分布を生成
するのに使用される。例えば文書タイプを生成する1つ
のやり方は、低解像型基礎文書シグネチュアのそれぞれ
を、単一の「サムネイル」イメージに組み合わせること
であり、それが文書タイプを表す「平均イメージ(mean
image)」になる。この「平均イメージ」を生成するた
めの方法は、基礎文書からのサムネイル・イメージがバ
イナリ(2値)であるか、またはグレイスケール(gray
scale)であるかに依存する。バイナリ・ピクセルは、
ブラックかホワイトのどちらかであるが、グレイスケー
ル・ピクセルは、完全なブラックと完全なホワイトとの
間のスケールをたどる点として規定される。一般的にグ
レイスケール・ピクセルは、256刻みまたは段階のグ
レイの中に入る。
【0024】サムネイル画像がバイナリの場合、各ピク
セルは、その他の基礎文書のサムネイル・イメージ上の
対応するピクセルと比較される。ホワイト・ピクセルよ
りブラック・ピクセルが多ければ、対応するピクセル
は、文書タイプ分布においてブラックに設定される。同
様にして、各基礎文書の特定のピクセルの場所に関し
て、ブラック・ピクセルよりホワイト・ピクセルが多け
れば、文書タイプ分布において対応するピクセルは、ホ
ワイトに設定される。各基礎文書の特定のピクセルの場
所に対して、同じ数のブラック・ピクセルとホワイト・
ピクセルが存在していれば、文書タイプ分布において対
応するピクセルは、ホワイトかブラックにランダムに設
定される。
【0025】サムネイル・イメージがグレイスケールの
場合、各ピクセルは、その他の基礎文書のサムネイル・
イメージ上の対応するピクセルと比較され、グレイの平
均レベルが計算される。したがって、基礎文書のサムネ
イル・イメージが3つあり、それぞれの第1のピクセル
が、25、175、250のグレイレベルをそれぞれ有
する場合、文書タイプ分布において対応するピクセル1
10は、150=(25+175+250)/3のレベ
ルになる。
【0026】使用することができる文書シグネチュアの
第2の型は、文書区分型(documentsegmentation typ
e)である。文書区分型の文書シグネチュアの3つの例
(104、105、106)を図5から図7にそれぞれ
示す。文書シグネチュアの文書区分型は、その文書タイ
プの基礎文書のそれぞれからのページ分解アルゴリズム
の出力から作られる文書タイプの表現に定型化される。
ページ分解アルゴリズムは、本分野において知られてお
り、一般的に商業的に利用可能な文書走査ソフトウェア
に含まれる。伝統的にページ分解アルゴリズムの出力
は、ページ上の離散的なブロックを特徴付ける幾何学的
形状の集まりである。ページ分解アルゴリズムは、例え
ばテキスト・ブロックにおけるフォントサイズ、または
任意の典型的ピクセル濃度計測(pixel density measur
e)に応じて、バイナリ・ブロック・データか、または
重み付けされたブロック・データを提供することができ
る。いくつかの場合においては、文書を処理する光学式
文字認識(OCR)に先行して行われるページ分解の一
部として単に必要な数をファイルに吸い上げることによ
って、演算なしか、または低い演算コストで、各基礎文
書のためのページ分解アルゴリズムの出力を得ることが
できる。
【0027】各基礎文書からのページ分解アルゴリズム
の出力が使用されて、その基礎文書のために基礎文書シ
グネチュアの文書区分型を生成する。特定の文書タイプ
の個別の基礎文書のそれぞれのための基礎文書シグネチ
ュアは、先に記載した任意の技術を使用して、文書タイ
プ分布に組み合わされることができる。例えば文書タイ
プ分布は、文書区分シグネチュアのデータ値を平均化し
て「平均区分イメージ」を生成することによって作られ
る。平均化プロセスは、ページ分解アルゴリズムの出力
がバイナリか、または重み付けられたものかに依存す
る。バイナリ出力では、データが無いブロックは、0の
値によって規定されるが、データ(テキストまたはその
他)を含むブロックは、1の値で規定される。基礎文書
の場所のそれぞれは、その他の基礎文書において対応す
る場所と比較される。その場所は、一般的に低解像型文
書シグネチュアにおけるピクセルの場所に相当する。そ
の場所に関して0値より1値が多ければ、文書タイプ分
布において対応する場所は、1値を割り当てられる。同
様にして、その場所に関して1値より0値が多ければ、
文書タイプ分布において対応する場所は、0値を割り当
てられる。もし、その場所に関して0値と1値が同数で
あれば、文書タイプ分布において対応する場所は、1値
か0値をランダムに割り当てられる。このプロセスは、
文書区分型文書シグネチュアにおける平均サイズ、およ
び場所のブロックを生成する。
【0028】重み付け出力では、ブロックは、先に述べ
たようにそれらの内容またはピクセル濃度に応じて重み
付けられた値を与えられる。そのため各ブロックは、例
えば0から15の間の重み付けされた値を有することが
できる。基礎文書における各場所は、その他の基礎文書
において対応する場所に対して比較され、各基礎文書に
おいてその場所のために重み付けされた値が平均化され
る。そのため、例えば特定の場所のために重み付けされ
た値、2、10、12を有する3つの基礎文書があれ
ば、文書シグネチュアにおいて、その場所に割り当てら
れる平均値は、8=(2+10+12)/3になる。こ
こでもまた、一般的に、その場所が低解像イメージ型文
書シグネチュアにおけるピクセルの場所に相当する。こ
のプロセスは、文書タイプ分布における平均的なサイ
ズ、場所、重さのブロックを生成する。
【0029】次に新しい電子文書が提供される(ブロッ
ク20)。新しい電子文書は、通常、未知のタイプであ
り、文書シグネチュアにより表された既知の文書タイプ
の1つに属するか、または文書シグネチュアによりまだ
規定されていない新しいタイプのどちらかに分類される
必要がある。電子文書は、光学的にスキャンされた紙文
書であってもよいし、または本分野における既知の任意
のやり方で導かれた文書の電子的イメージであってもよ
い。
【0030】次に新しい電子文書のページ・レイアウト
を記述するデータを含む新しい文書シグネチュアが、新
しい電子文書から生成される(ブロック30)。新しい
文書シグネチュアは、様々なフォームを有するが、提供
される複数の文書タイプ分布(ブロック10)を形成す
るのに使用された基礎文書シグネチュアと同じ型にすべ
きである。したがって、複数の基礎文書シグネチュアが
バイナリ・ピクセルで9dpiの解像度の低解像イメー
ジ型であれば、新しい文書シグネチュアは、バイナリ・
ピクセルで同じ解像度の低解像イメージ型にすべきであ
る。新しい文書シグネチュアは、複数の文書シグネチュ
アに寄与する各基礎文書から情報を取り込むために、先
に述べたのと同じ方法で生成されることができる。した
がって、新しい文書シグネチュアの生成は、商業的に利
用可能な走査ソフトウェアからのサムネイル画像の取り
込み、または商業的に利用可能なページ分解ソフトウェ
アからのデータの取り込み、と同じくらいに簡単であ
る。
【0031】図8は、図5から図7に示すような区分型
文書シグネチュア、および図2から図4に示すような低
解像イメージ型文書シグネチュアの実験的に導かれた相
対的パフォーマンスを示すグラフである。実験では、1
8個の異なる文書タイプ分布が比較された。各文書タイ
プ分布は、20から200個の間の基礎文書シグネチュ
アからの情報を統合することによって用意された。グラ
フのx軸は、本発明による方法が適応候補選択(下で説
明する)で選ぶことが可能な候補文書タイプの数を示
す。グラフのy軸は、本発明による方法の精度をパーセ
ントで示す。低解像型の文書シグネチュアの平均パフォ
ーマンスを実線120で示し、区分型の文書シグネチュ
アの平均パフォーマンスを、破線121で示す。これら
の結果は、下で説明する選択の重み付けベイジアン法
(Weighted Bayesian method)と共に、5dpi解像度
を使用して実験的に明らかにされた。その結果は、6よ
り少ない数の候補が選ばれるとき、低解像イメージ型文
書シグネチュアが十分高い精度を提供することをはっき
りと示している。
【0032】図9は、本発明による方法における低解像
イメージ型文書シグネチュアの様々な解像度での、実験
的に導かれた相対的パフォーマンスを示すグラフであ
る。実験では、18個の異なる文書タイプ分布が提供さ
れた。各文書タイプ分布は、1から9dpiの間の様々
な解像度でテストされる、20から200個の間の低解
像型基礎文書シグネチュアから用意された。グラフのx
軸は、文書シグネチュアの解像度をdpiで示し、グラ
フのy軸は、本発明による方法の精度をパーセントで示
す。様々な解像度での低解像イメージ型文書シグネチュ
アの平均的パフォーマンスを実線122で示す。これら
の結果は、2つの出力候補の平均(下で説明する)およ
び選択の重み付けベイジアン法(下で説明する)と共
に、適応候補選択を使用して実験的に明らかにされた。
その結果は、低解像型文書シグネチュアの解像度が3d
pi以上に増えるとき、精度においてほんの僅かの増加
しか達せられないことをはっきりと示している。
【0033】次に新しい文書シグネチュアと、複数の文
書タイプ分布のそれぞれとの間の距離が計算される(ブ
ロック40)。したがって、本発明による方法は、新し
い電子文書の分類問題をマルチ・クラス・パターン認識
作業(multi-class patternrecognition task)に変え
る。ここで2つの追加的な想定をするが、これらは距離
計算に使用する技術の選択に影響を及ぼさない。第1
に、新しい文書が分類されうるクラスの数は、固定され
ないと想定する(すなわちユーザは、いつでも文書の新
しいクラスを追加することができる。)。第2に、新し
い文書が分類されうるクラスの数は、非常に大きいと想
定する。これらの想定は、すべての空間の知識を必要と
しない分離(separation)若しくはスコアリング方法
(scoring method)を促進するか、または新しいクラス
の追加についての簡単な更新スキーム(updating schem
e)を少なくとも提供する。例えば、クラスの100%
の分離を提案するけれども新しいクラスの追加に重い再
演算を必要とする方法は、不十分である。他方で、正し
いクラスを含むクラスの小さなサブセット(subset)
を、クラスの数におけるせいぜいlog(N)の数の推量にお
いて信頼性高く判断することができ、新しいクラスの追
加に大規模な再演算を必要としない方法がより好まし
い。これを実現する1つのやり方は、ガウス分布のため
のベイジアン・フレームワーク(Bayesian framework)
に基づくアルゴリズムを使用して距離を計算することに
よる。
【0034】本発明による文書の自動分類方法が、文書
からデータを抽出する任意の「重い」システムのための
前処理ステージになる場合、本発明による方法は、それ
に提案される候補クラスの間で選択することができ、必
要に応じてそれら全てを却下することができる。これを
実現する1つの効果的やり方は、ベイジアン判別則(Ba
yesian decision rule)から出てくる手法を利用するこ
とである。この明細書では、複数の文書シグネチュアを
によって表す。文書クラス(タイプ)番号は、k
=1,2,3,...Cで表され、ここでCは、複数の
文書タイプの総数を表す定数である。基礎文書番号は、
j=1,2,...Nで表し、ここでNは、k番目
の文書タイプ分布により表された基礎文書の総数であ
る。ここで数1が、ガウシアン多変量分布(Gaussian m
ultivariate distribution)G{M ,Σ}から引き
出されると想定し、Mが多変量平均(multivariate m
ean)であり、Σが共分散行列(covariance matrix)
である。したがって新しい文書シグネチュアzの分類
は、マハラノビス距離(Mahalanobis distance)の演算
(数2)によって行われる。
【0035】
【数1】
【数2】
【数3】 ここでTは、行列転置(matrix transpose)であり、最
短距離(数3)でのクラスkにzをマッピングする。
さらに距離計算は、各文書タイプ分布の共分散行列を見
積もるための発見的方法(heuristic method)を含むこ
とができる。明確にすると、先の数2における表記「Σ
−1」は、積算ではなくて共分散行列の逆数を表す。
【0036】次に計算された距離に基づいて、複数の文
書タイプ分布により記述された個別の文書タイプの中か
ら少なくとも1つの候補文書タイプが新しい電子文書の
ために選択される(ブロック50)。この明細書では、
少なくとも1つの候補文書タイプの選択は、複数の文書
タイプ分布により記述された文書タイプに良い候補が無
いことを示すことを含んでもよい。あらかじめ選ばれた
固定数の出力候補文書タイプが所望とされれば、複数の
文書タイプ分布を最小の距離と比較して、あらかじめ選
ばれた固定数の候補文書タイプを簡単に選択することが
できる。もう1つの選択肢としては、任意の固定の最短
距離の範囲内にある距離を持つ複数の文書タイプ分布に
一致する候補文書タイプ全てを選択することである。こ
の明細書では、この第2の技術を「適応候補選択(adap
tive candidate selection)」として参照する。適応候
補選択は、本発明の方法により提案される候補文書タイ
プを明らかに可変数とするが、しかしながらパーセンテ
ージしきい値を調整して、本発明による方法の繰り返し
使用で返される候補の平均的な数を指定することができ
る。提案される出力候補文書タイプの数における変化が
小さいことは、実験的に分かっている。したがって受け
入れられない大きな数の候補タイプを本発明による方法
が返す可能性は低く、この技術は、可変数の候補文書タ
イプを提案することを可能にする。
【0037】図10は、固定数の候補文書タイプの選択
および適応候補選択の、実験的に導かれた相対的パフォ
ーマンスを示すグラフである。実験では、18個の異な
る文書タイプ分布をテストした。各文書タイプ分布は、
5dpiの解像度の低解像型で、20から200個の間
の基礎文書シグネチュアから用意された。グラフのx軸
は、あらかじめ選ばれた固定数選択か、または適応候補
選択に関する平均数のどちらかとして本発明による方法
が選ぶことが可能な候補文書タイプの数を示す。グラフ
のy軸は、本発明による方法の精度をパーセントで示
す。適応候補選択の平均パフォーマンスを実線123で
示し、固定数選択の平均パフォーマンスを破線124で
示す。これらの結果は、選択の重み付けベイジアン法
(下で説明される)で明らかにされた。その結果は、6
個以下の候補が選ばれたときに固定数候補選択を越える
際だった精度における利点を適応候補選択が持つことを
はっきりと示している。
【0038】本分野における標準的な実行によれば、先
の数1における未知のモーメント(積率)MおよびΣ
を、それぞれ下記の式によって基礎文書データに基づ
いて概算することができる。
【0039】
【数4】
【数5】
【0040】先のΣの概算を使用して直面するかもし
れない問題の1つは、2、3百ピクセルしか含まない小
さな文書シグネチュアのためにですら、メモリおよびこ
れらの行列演算の要求事項が、今日のコンピューティン
グ・プラットホーム(computing platform)を上まわる
かもしれないという点にある。しかしながら第2のモー
メントを総合的に軽視することによって、この問題を克
服することができ、これは、数6のように計算されるユ
ークリッド距離(Euclidean distance)を使用する。
【0041】
【数6】
【0042】この明細書では、この新しい文書シグネチ
ュアと複数の文書シグネチュアとの間の距離を計算する
方法を、シンプル・ベイジアン法(Simple Bayesian me
thod)として参照する。
【0043】本発明による方法のメモリおよび演算の要
求事項を減らす、もう1つの選択肢は、行列Σのなん
らかの簡略化されたバージョンを使用することである。
これを行う1つのやり方は、対角行列Δを使用するこ
とであり、これは数5に示すようにユークリッド距離に
重さを効果的に導入する。
【0044】
【数7】 この明細書では、この新しい文書シグネチュアと複数の
文書シグネチュアとの間の距離を計算する方法を、重み
付けベイジアン法(Weighted Bayesian method)として
参照する。
【0045】重み付けベイジアン法は、先の数6のアル
ゴリズムの一般化であり、これは、恒等行列(すなわち
1で充てんされた対角を除いて、0で充てんされたC×
C行列)になるようΔを選ぶことにより分かる。した
がって、重み付けの手法は、適当な重さが使用されるな
らば、潜在的により良い。重さΔのための自然な選択
は、Δ=主対角{Σ}などのようなΣの主対角を
使用することである。しかしながらΔ=主対角
{Σ}の選択が低品位のパフォーマンスになることは
実験的に明らかにされた。
【0046】行列Σの主対角の値は、特定の文書タイ
プの全基礎文書に対する平均値を囲む各ピクセル値の標
準偏差(広がり)を実際に表している。その代わりに、
より効果的に働くように表された値は、a)特定の文書
タイプ内の全基礎文書に対する平均ピクセル値を囲む各
ピクセルの広がりと、b)同じ平均ピクセル値を囲む、
既知の全文書タイプにわたる全基礎文書に対する各ピク
セル値の広がり、との比の値である。例えば第1の文書
タイプにおける第1のピクセルが、その文書タイプの全
基礎文書に対して、50の平均ピクセルと、15の広が
りを有すると考える。そのとき、もし既知の全文書タイ
プの全基礎文書に対して、50を囲む広がりが15であ
ると演算されれば、これは、文書タイプ間での判別のた
めに、このピクセル値を使用することが信頼性が無いこ
とを意味しており、その結果このピクセルは、小さな重
みにすべきである。他方で既知の全文書タイプの全基礎
文書に対する50を囲む広がりが、その代わりに100
であると演算されれば、これは、このピクセル値が文書
タイプ間での判別において大きな意味があるかもしれな
いので信頼性があることを意味しており、大きな重みを
与えられるべきである。要約すると以下の行列Δが、
本発明による方法のパフォーマンスを著しく改善する。
【0047】
【数8】
【0048】図11は、シンプル・ベイジアン法および
重み付けベイジアン法を使用して実験的に導かれた相対
的パフォーマンスを示すグラフである。実験では、18
個の異なる文書タイプ分布がテストされた。各文書タイ
プ分布は、5dpiの解像度の低解像型で、20から2
00個の間の基礎文書シグネチュアから用意された。グ
ラフのx軸は、本発明による方法が適応候補選択を使用
して選ぶことが可能な候補文書タイプの数を示す。グラ
フのy軸は、本発明による方法の精度をパーセントで示
す。重み付けベイジアン法の平均パフォーマンスを実線
125で示し、シンプル・ベイジアン法の平均パフォー
マンスを破線126で示す。その結果は、4以下の候補
が選ばれたときに重み付けベイジアン法がシンプル・ベ
イジアン法を上まわって著しい精度における利点を有す
ることをはっきりと示している。
【0049】どのシグネチュアの型、解像度、候補選択
技術、または計算方法が選ばれるかに関係なく、本発明
による方法の結果は、直接ユーザに、または新しい電子
文書のさらなる処理用のエキスパート・システムに、出
力されることができる(ブロック60)。
【0050】先に説明した方法に加えて、もう1つの好
ましい本発明の実施形態は、先に述べた方法のステップ
を実行するための、コンピュータにより実行可能なプロ
グラム命令を具体的に実行する、コンピュータで読み取
り可能なプログラム記憶媒体である。この実施形態で
は、先に述べた様々なステップがコンピュータにより実
行される。この事実から鑑み、本発明による方法のより
詳細な説明を提供するために、コンピュータ上でその方
法を動作させる疑似コードリストを表1から表3に示
す。
【0051】
【表1】
【表2】
【表3】
【0052】本発明の具体的な実施形態を説明したけれ
ども、本発明は、図および説明のような具体的な形態ま
たは部分の構成に制限されることはない。本発明は、請
求項によってのみ制限される。
【0053】この発明は例として次の実施形態を含む。 (1) 文書シグネチュアを使用して電子文書を自動的
に分類する方法であって、(a)複数の文書タイプ分布
を提供するステップであって、該文書タイプ分布のそれ
ぞれが、個別の文書タイプのレイアウトの特徴を記述
し、該個別の文書タイプの個別の基礎文書からの少なく
とも1つの基礎文書シグネチュアから導かれたデータを
含む提供ステップ(10)と、(b)新しい電子文書を
提供するステップ(20)と、(c)前記新しい電子文
書のレイアウトの特徴を記述する新しい文書シグネチュ
アを生成するステップ(30)と、(d)前記新しい電
子文書シグネチュアと前記複数の文書タイプ分布のそれ
ぞれとの間の距離を計算するステップ(40)と、
(e)前記ステップ(d)において計算された距離に基
づいて、前記複数の文書タイプ分布により記述される個
別の文書タイプの中から、前記新しい電子文書のために
少なくとも1つの候補文書タイプを選択するステップと
(50)、を含む前記電子文書の自動分類方法。
【0054】(2) 前記ステップ(d)における距離
計算ステップが、ガウス分布のためのベイジアン・フレ
ームワークに基づくアルゴリズムを使用することを含む
(1)に記載の方法。
【0055】(3) 前記ステップ(a)における少な
くとも1つの基礎文書シグネチュア(101−105)
が個別の基礎文書の低解像イメージのピクセル(110
−103)を規定するデータを含み、前記ステップ
(c)における新しい文書シグネチュアが、前記新しい
電子文書の低解像イメージのピクセルを規定するデータ
を含む(1)に記載の方法。
【0056】(4) 前記ステップ(a)における少な
くとも1つの基礎文書シグネチュアから導かれたデータ
が、低解像イメージの各ピクセルの少なくとも1つの基
礎文書シグネチュアのそれぞれにわたる複数の代表的な
標本統計値を含む(3)に記載の方法。
【0057】(5) 前記個別の基礎文書の低解像イメ
ージが1インチあたり1から75ドットの間に分解さ
れ、前記新しい電子文書の低解像イメージが1インチあ
たり1から75ドットの間に分解される(3)に記載の
方法。
【0058】(6) 前記ステップ(a)における少な
くとも1つの基礎文書シグネチュアが、個別の文書タイ
プの個別の基礎文書から導かれた文書区分データ(11
3〜115)を含み、前記ステップ(c)における新し
い文書シグネチュアが、前記新しい電子文書から導かれ
た文書区分データを含む(1)に記載の方法。
【0059】(7) 前記ステップ(a)における少な
くとも1つの基礎文書シグネチュアから導かれたデータ
が、文書区分データの少なくとも1つの基礎文書シグネ
チュアのそれぞれにわたる複数の代表的な統計を含む
(6)に記載の方法。
【0060】(8) 前記ステップ(e)における少な
くとも1つの候補文書タイプの選択ステップ(50)
が、前記ステップ(d)(40)においてあらかじめ選
ばれた固定数の最小距離を持つように計算された、あら
かじめ選ばれた固定数の複数の文書タイプ分布により記
述されるあらかじめ選ばれた固定数の個別の文書タイプ
を選択するステップを含む(2)に記載の方法。
【0061】(9) 前記ステップ(e)における少な
くとも1つの候補文書タイプの選択ステップが、複数の
文書タイプ分布のうちの、ステップ(d)において計算
された最短距離のあらかじめ選ばれたしきい距離内にス
テップ(d)における計算距離を有するものにより記述
される個別の文書タイプを選択するステップを含む
(2)に記載の方法。
【0062】(10) 前記ステップ(d)において計
算される距離がユークリッド距離である(2)に記載の
方法。
【0063】(11) 前記ステップ(d)において計
算される距離がマハラノビス距離である(2)に記載の
方法。
【0064】(12) 前記ステップ(a)において提
供される複数の文書タイプ分布のそれぞれが、複数のデ
ータ点を含み、前記ステップ(d)における距離計算ス
テップが、前記複数のデータ点のそれぞれの計算された
信頼性に基づいて、該複数のデータ点のそれぞれに与え
られた値に重み付けするステップを含む(2)に記載の
方法。
【0065】(13) 前記複数のデータ点のそれぞれ
の計算された信頼性が、前記複数の文書タイプ分布のそ
れぞれ内の前記複数のデータ点のそれぞれの広がりと、
前記複数の文書タイプ分布のすべてにわたる前記複数の
データ点のそれぞれの広がりと、のそれぞれの比率を含
む(11)に記載の方法。
【0066】(14) 文書シグネチュアを使用して電
子文書を自動的に分類する方法ステップを行うためのコ
ンピュータで実行可能なプログラム命令を具体的に組み
込むコンピュータで読み取り可能なプログラム記憶媒体
であって、前記方法ステップが、(a)複数の文書タイ
プ分布を提供するステップであって、該文書タイプ分布
のそれぞれが、個別の文書タイプのレイアウトの特徴を
記述し、該個別の文書タイプの個別の基礎文書からの少
なくとも1つの基礎文書シグネチュアから導かれたデー
タを含む提供ステップと、(b)新しい電子文書を提供
するステップと、(c)前記新しい電子文書のレイアウ
トの特徴を記述する新しい文書シグネチュアを生成する
ステップと、(d)ガウス分布のためのベイジアン・フ
レームワークに基づくアルゴリズムを使用して、前記新
しい電子文書シグネチュアと前記複数の文書タイプ分布
のそれぞれとの間の距離を計算するステップと、(e)
前記ステップ(d)において計算された距離に基づい
て、前記複数の文書タイプ分布により記述される個別の
文書タイプの中から、前記新しい電子文書のために少な
くとも1つの候補文書タイプを選択するステップと(5
0)、を含む前記プログラム記憶媒体。
【0067】(15) 前記方法ステップ(a)におけ
る少なくとも1つの基礎文書シグネチュアが、個別の基
礎文書の低解像イメージ(101−103)のピクセル
(110−112)を規定するデータを含み、前記方法
ステップ(c)における新しい文書シグネチュアが、新
しい文書の低解像イメージのピクセルを規定するデータ
を含む(14)に記載のプログラム記憶媒体。
【0068】(16) 前記個別の基礎文書の低解像イ
メージ(101−103)が、1インチあたり1から7
5ドットの間に分解され、前記新しい電子文書の低解像
イメージが、1インチあたり1から75ドットの間に分
解される(15)に記載のプログラム記憶媒体。
【0069】(17) 前記方法ステップ(a)におけ
る少なくとも1つの基礎文書シグネチュアが、個別の基
礎文書シグネチュアから導かれた文書区分データ(11
3−115)を含み、前記方法ステップ(c)における
新しい文書シグネチュアが、前記新しい電子文書から導
かれた電子区分データを含む(14)に記載のプログラ
ム記憶媒体。
【0070】(18) 前記方法ステップ(e)におけ
る少なくとも1つの候補文書タイプの選択ステップが、
前記方法ステップ(d)においてあらかじめ選ばれた固
定数の最小距離を持つよう計算された、あらかじめ選ば
れた固定数の複数の文書タイプ分布により記述されるあ
らかじめ選ばれた固定数の個別の文書タイプを選択する
ことを含む(14)に記載のプログラム記憶媒体。
【0071】(19) 前記方法ステップ(e)におけ
る少なくとも1つの候補文書タイプの選択ステップが、
複数の文書タイプ分布のうちの、前記方法ステップ
(d)において計算された最短距離のあらかじめ選ばれ
たしきい距離内に該方法ステップ(d)における計算距
離を有するものにより記述される個別の文書タイプを選
択するステップを含む(14)に記載のプログラム記憶
媒体。
【0072】(20) 前記方法ステップ(d)におい
て計算された距離が、ユークリッド距離である(14)
に記載のプログラム記憶媒体。
【0073】(21) 前記方法ステップ(a)におい
て提供される複数の文書タイプ分布のそれぞれが、複数
のデータ点を含み、前記方法ステップ(d)における距
離演算ステップが、前記複数のデータ点のそれぞれの計
算された信頼性に基づいて、該複数のデータ点のそれぞ
れに与えられた値に重み付けすることを含む(14)に
記載のプログラム記憶媒体。
【0074】(22) 前記複数のデータ点のそれぞれ
の計算された信頼性が、複数の文書タイプ分布のそれぞ
れ内の複数のデータ点のそれぞれの広がりと、複数の文
書タイプ分布のすべてにわたる複数のデータ点のそれぞ
れの広がりと、のそれぞれの比率を含む(21)に記載
のプログラム記憶媒体。
【図面の簡単な説明】
【図1】 本発明の方法を示すフローチャートである。
【図2】 第1の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第1のサンプルである。
【図3】 第2の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第2のサンプルである。
【図4】 第3の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第3のサンプルである。
【図5】 図2で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第4のサンプルである。
【図6】 図3で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第5のサンプルである。
【図7】 図4で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第6のサンプルである。
【図8】 本発明による方法における文書区分型基礎文
書シグネチュアのパフォーマンスと、低解像イメージ型
基礎文書シグネチュアのパフォーマンスとを比較するグ
ラフである。
【図9】 本発明による方法における低解像イメージ型
基礎文書シグネチュアの様々な解像度のパフォーマンス
を比較するグラフである。
【図10】 固定数候補選択と、本発明による方法にお
ける適応数候補選択とのパフォーマンスを比較するグラ
フである。
【図11】 シンプル・ベイジアン法の距離計算と、重
み付けベイジアン法の距離計算とのパフォーマンスを比
較するグラフである。
【符号の説明】
101、102、103 低解像イメージ型の基礎
文書シグネチュア 110、111、112 サンプルピクセル 104、105、106 文書区分型の文書シグネ
チュア 113、114、106 文書区分データ
フロントページの続き (72)発明者 マイケル・エラド イスラエル34603ハイファ、アインシュタ イン・ストリート ナンバー45 (72)発明者 ダリル・グレイグ イスラエル34332ハイファ、シナイ・アヴ ェニュー 23 (72)発明者 カール・スターリン イスラエル、ハイファ、パルマチ 61、ア パートメント ナンバー8

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書シグネチュアを使用して電子文書を
    自動的に分類する方法であって、 (a)複数の文書タイプ分布を提供するステップであっ
    て、該文書タイプ分布のそれぞれが、個別の文書タイプ
    のレイアウトの特徴を記述し、該個別の文書タイプの個
    別の基礎文書からの少なくとも1つの基礎文書シグネチ
    ュアから導かれたデータを含む提供ステップと、 (b)新しい電子文書を提供するステップと、 (c)前記新しい電子文書のレイアウトの特徴を記述す
    る新しい文書シグネチュアを生成するステップと、 (d)前記新しい電子文書シグネチュアと前記複数の文
    書タイプ分布のそれぞれとの間の距離を計算するステッ
    プと、 (e)前記ステップ(d)において計算された距離に基
    づいて、前記複数の文書タイプ分布により記述される個
    別の文書タイプの中から、前記新しい電子文書のために
    少なくとも1つの候補文書タイプを選択するステップ
    と、を含む前記電子文書の自動分類方法。
JP2000320721A 1999-10-26 2000-10-20 文書シグネチュアを使用する文書の自動分類方法 Pending JP2001167131A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/428136 1999-10-26
US09/428,136 US6442555B1 (en) 1999-10-26 1999-10-26 Automatic categorization of documents using document signatures

Publications (1)

Publication Number Publication Date
JP2001167131A true JP2001167131A (ja) 2001-06-22

Family

ID=23697689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000320721A Pending JP2001167131A (ja) 1999-10-26 2000-10-20 文書シグネチュアを使用する文書の自動分類方法

Country Status (3)

Country Link
US (1) US6442555B1 (ja)
EP (1) EP1096391A3 (ja)
JP (1) JP2001167131A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7000007B1 (en) * 2000-01-13 2006-02-14 Valenti Mark E System and method for internet broadcast searching
CA2307404A1 (en) * 2000-05-02 2001-11-02 Provenance Systems Inc. Computer readable electronic records automated classification system
JP3499808B2 (ja) * 2000-06-29 2004-02-23 本田技研工業株式会社 電子文書分類システム
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US7684088B2 (en) * 2000-09-20 2010-03-23 Alpvision S.A. Method for preventing counterfeiting or alteration of a printed or engraved surface
TW542993B (en) * 2001-07-12 2003-07-21 Inst Information Industry Multi-dimension and multi-algorithm document classifying method and system
US20030204522A1 (en) * 2002-04-23 2003-10-30 International Business Machines Corporation Autofoldering process in content management
JP2005045421A (ja) * 2003-07-25 2005-02-17 Ricoh Co Ltd 情報処理装置、プログラム、記憶媒体及び画像データ検索方法
US7616333B2 (en) * 2003-08-21 2009-11-10 Microsoft Corporation Electronic ink processing and application programming interfaces
ATE530992T1 (de) * 2003-08-21 2011-11-15 Microsoft Corp Elektronische tintenverarbeitung
US7502812B2 (en) * 2003-08-21 2009-03-10 Microsoft Corporation Electronic ink processing
EP1665128A4 (en) * 2003-08-21 2007-10-17 Microsoft Corp ELECTRONIC INK PROCESSING
WO2005029393A1 (en) * 2003-08-21 2005-03-31 Microsoft Corporation Electronic ink processing
CA2470158C (en) * 2003-08-21 2011-01-04 Microsoft Corporation Electronic ink processing
US20050091415A1 (en) * 2003-09-30 2005-04-28 Robert Armitano Technique for identification of information based on protocol markers
US20050097120A1 (en) * 2003-10-31 2005-05-05 Fuji Xerox Co., Ltd. Systems and methods for organizing data
US7682012B2 (en) * 2003-12-29 2010-03-23 E. I. Du Pont De Nemours And Company Inkjet printing method and apparatus
US7447382B2 (en) * 2004-06-30 2008-11-04 Intel Corporation Computing a higher resolution image from multiple lower resolution images using model-based, robust Bayesian estimation
US7809155B2 (en) 2004-06-30 2010-10-05 Intel Corporation Computing a higher resolution image from multiple lower resolution images using model-base, robust Bayesian estimation
US7693683B2 (en) * 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US8214754B2 (en) 2005-04-15 2012-07-03 Microsoft Corporation Registration of applications and complimentary features for interactive user interfaces
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7747495B2 (en) * 2005-10-24 2010-06-29 Capsilon Corporation Business method using the automated processing of paper and unstructured electronic documents
JP4793000B2 (ja) * 2006-02-01 2011-10-12 ブラザー工業株式会社 印刷データ編集装置及び印刷データ編集プログラム
GB2441598A (en) * 2006-09-07 2008-03-12 Fujin Technology Plc Categorisation of Data using Structural Analysis
US8503797B2 (en) * 2007-09-05 2013-08-06 The Neat Company, Inc. Automatic document classification using lexical and physical features
PA8847601A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de clasificacion de informacion audiovisual
JP5326859B2 (ja) * 2009-06-24 2013-10-30 富士ゼロックス株式会社 画像処理装置
US8600173B2 (en) 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
US8831350B2 (en) 2011-08-29 2014-09-09 Dst Technologies, Inc. Generation of document fingerprints for identification of electronic document types
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9111140B2 (en) 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US9250773B2 (en) * 2013-04-30 2016-02-02 International Business Machines Corporation Accessible chart navigation using object neighborhood
US11336648B2 (en) 2013-11-11 2022-05-17 Amazon Technologies, Inc. Document management and collaboration system
US10599753B1 (en) 2013-11-11 2020-03-24 Amazon Technologies, Inc. Document version control in collaborative environment
US9542391B1 (en) 2013-11-11 2017-01-10 Amazon Technologies, Inc. Processing service requests for non-transactional databases
US10540404B1 (en) * 2014-02-07 2020-01-21 Amazon Technologies, Inc. Forming a document collection in a document management and collaboration system
US10691877B1 (en) 2014-02-07 2020-06-23 Amazon Technologies, Inc. Homogenous insertion of interactions into documents
US9807073B1 (en) 2014-09-29 2017-10-31 Amazon Technologies, Inc. Access to documents in a document management and collaboration system
US9411547B1 (en) 2015-07-28 2016-08-09 Dst Technologies, Inc. Compensation for print shift in standardized forms to facilitate extraction of data therefrom
US10489589B2 (en) * 2016-11-21 2019-11-26 Cylance Inc. Anomaly based malware detection
US10922537B2 (en) * 2018-05-01 2021-02-16 Scribe Fusion, LLC System and method for processing and identifying content in form documents
US10528807B2 (en) * 2018-05-01 2020-01-07 Scribe Fusion, LLC System and method for processing and identifying content in form documents
US11017221B2 (en) 2018-07-01 2021-05-25 International Business Machines Corporation Classifying digital documents in multi-document transactions based on embedded dates
US11003889B2 (en) 2018-10-22 2021-05-11 International Business Machines Corporation Classifying digital documents in multi-document transactions based on signatory role analysis
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11501551B2 (en) 2020-06-08 2022-11-15 Optum Services (Ireland) Limited Document processing optimization
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265242A (en) * 1985-08-23 1993-11-23 Hiromichi Fujisawa Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JP3053153B2 (ja) * 1993-09-20 2000-06-19 株式会社日立製作所 文書管理システムのアプリケーション起動方法
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
US5924090A (en) * 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム

Also Published As

Publication number Publication date
EP1096391A3 (en) 2004-05-26
US6442555B1 (en) 2002-08-27
EP1096391A2 (en) 2001-05-02

Similar Documents

Publication Publication Date Title
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
US9633257B2 (en) Method and system of pre-analysis and automated classification of documents
US7519226B2 (en) Form search apparatus and method
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US8005300B2 (en) Image search system, image search method, and storage medium
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
US8000538B2 (en) System and method for performing classification through generative models of features occurring in an image
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
JP3452774B2 (ja) 文字認識方法
US8755604B1 (en) Using shape similarity methods to improve OCR speed and accuracy
CN109583438A (zh) 电子图像的文字的识别方法及图像处理装置
CN112861865A (zh) 一种基于ocr技术的辅助审计方法
US6256408B1 (en) Speed and recognition enhancement for OCR using normalized height/width position
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
WO2007070010A1 (en) Improvements in electronic document analysis
JP4885112B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP7172343B2 (ja) 文書検索用プログラム
Solli et al. FyFont: find-your-font in large font databases
Kim et al. Keyword spotting on Korean document images by matching the keyword image
JP5046241B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2995818B2 (ja) 文字切り出し方法
Bainbridge et al. Musical image compression
Sari et al. Structural feature-based evaluation method of binarization techniques for word retrieval in the degraded Arabic document images
Rios et al. An OCR Free Method for Word Spotting in Printed Documents: the Evaluation of Different Feature Sets.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704