JP2001167131A

JP2001167131A - 文書シグネチュアを使用する文書の自動分類方法

Info

Publication number: JP2001167131A
Application number: JP2000320721A
Authority: JP
Inventors: Oded Shmueli; オデッド・シュミュエリ; Michael Elad; マイケル・エラド; Darryl Greig; ダリル・グレイグ; Carl Staelin; カール・スターリン
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1999-10-26
Filing date: 2000-10-20
Publication date: 2001-06-22
Also published as: EP1096391A3; US6442555B1; EP1096391A2

Abstract

(57)【要約】【課題】新しい文書を以前に見た文書と比較し、文書タ
イプを同定する方法を提供する。【解決手段】個別の文書タイプのレイアウトの特徴を記
述し複数のデータ点を含む、複数の文書タイプ分布を最
初に提供する。各文書タイプ分布は、少なくとも１つの
基礎文書シグネチュアから導き出されたデータを含む。
次に新しい電子文書を提供し、新しい電子文書から新し
い文書シグネチュアを生成する。次に新しい文書シグネ
チュアと複数の文書タイプ分布のそれぞれとの間の距離
が、ガウシアン分布のためのベイジアン・フレームワー
クに基づくアルゴリズムを使用して計算される。次に複
数の文書タイプによって記述された文書タイプの中から
新しい電子文書のために候補文書タイプを選択する。候
補文書タイプの選択は、あらかじめ選ばれた固定数の文
書タイプの選択するか、あらかじめ選ばれたしきい距離
内にある文書タイプの選択を含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書分類システム
（document classification system）一般に関連し、よ
り具体的には既知のタイプの多くの文書に対する比較に
よって、新しい文書を迅速かつ自動的に分類する方法に
関連する。

【０００２】

【従来の技術】デジタル的に取り込まれ電子的フォーム
に分散した文書の数が増大しているので、デジタル的に
取り込まれた文書の目的（purpose）または意図（inten
t）を迅速に分類する技術の要求が増している。

【０００３】かつて文書の分類は手作業でなされた。作
業者は、視覚的にスキャンし、文書を文書タイプによっ
て選別した。このプロセスは、退屈で、時間を浪費し、
コストがかかった。コンピュータが一般的になったの
で、オンライン出版物（on-line publication）を含む
新しい文書の量が大きく増大し、電子文書のデータベー
スの数が急速に増大した。デジタル的に取り込まれ電子
的フォームで分散した文書の数の増大により、古い手作
業の文書の分類方法は、実際のところ、もはや簡単では
ない。

【０００４】莫大な量の文書の分類および分析の仕事
が、文書管理システムおよび文書識別の領域においてな
されてきた。特にページ分解（page decomposition）お
よび光学式文字認識（ＯＣＲ；optical character reco
gnition）の領域は、当分野において非常に発達してい
る。ページ分解は、電子文書の構成の自動認識を伴う。
これは通常、電子文書の特異な部分のサイズ、場所、お
よび構成を判断することを含む。例えば電子文書の特定
のページは、テキスト、グラフィックス、スプレッドシ
ート・データのパラグラフ（paragraph）を含む様々な
種類のデータを含むことがある。ページ分解は、一般的
に（おそらく境界線（perimeter）を示すことによっ
て）それぞれの特定の部分のサイズおよび場所、並びに
各部分において判明したデータのタイプを自動的に判断
することができる。各部分において判明したデータのタ
イプを単に判断することに加えて、各部分の内部の書式
情報の判断を実行するページ分解ソフトウェアもある。
例えばフォント、フォントサイズ、および行揃えを、テ
キストを含むブロックに対して判断することができる。

【０００５】ＯＣＲは、テキスト情報として処理可能な
形式に、テキスト情報をデジタルイメージに変換するこ
とを含む。電子的に取り込まれた文書は、しばしば紙文
書の光学的にスキャンされた単なるデジタルイメージで
あるので、デジタルイメージに関する情報を収集するた
めに、しばしばページ分解とＯＣＲが一緒に使用され電
子文書を生成する。この電子文書は、一般に使用可能な
ワード・プロセッシングおよび文書パブリッシング・ソ
フトウェア（word processing and document publishin
g software）で編集し、取り扱うことが容易である。さ
らにＯＣＲを通じてイメージから集められたテキスト情
報は、それらのテキストの内容に基づいて文書をサーチ
することを可能にするためにしばしば使用される。

【０００６】複数の文書タイプからのデータの分類およ
び抽出を提案する多くのシステムが存在するが、それら
の多くは、文書自身に印刷された識別ストリングの何ら
かの選別を頼りにしている。フォーム上の行の構造に基
づいて、フォームのデータベースの中から特定のフォー
ムとして新しいフォームを自動的に認識することを利用
することができるシステムもある。しかしながら、これ
らのシステムは、含まれる文書の固定された構造および
大きさを頼りにしている。最後に、多様な電子文書から
データを分類し、抽出するための機械学習技術（machin
e learning technique）を使用して設計されたエキスパ
ート・システム（expert system）がある。そのような
エキスパート・システムの１つが米国特許出願番号第０
９／０７０，４３９号「Automatic Extraction of Meta
data Using a Neural Network」に開示される。機械学
習技術は、相当量の計算パワーを要求するトレーニング
段階を一般に必要とする。したがって、これらの分類シ
ステムは、新しい文書の文書タイプが既知であれば、文
書からデータを抽出するのが非常に効率的に動作するよ
う作られる。

【０００７】

【発明が解決しようとする課題】前記のことから明らか
なように、新しい文書が既知のタイプに属するのか、ま
たは新しいタイプに属するのかを分類するために、以前
に見た既知のタイプの多くの文書に対して新しい文書を
迅速かつ自動的に比較する方法の要求が依然としてあ
る。

【０００８】

【課題を解決するための手段】本発明は、以前に見た多
くの文書に新しい文書を迅速かつ自動的に比較し、文書
タイプを同定する方法を提供する。本発明の方法は、複
数の文書タイプ分布（document type distribution）を
提供することによって開始する。それぞれの文書タイプ
分布は、個別の文書タイプのレイアウトの特徴を記述
し、複数のデータ点を含むことができる。それぞれの文
書タイプ分布は、少なくとも１つの基礎文書シグネチュ
ア（basis document signature）から導かれたデータを
含むことができる。基礎文書シグネチュアは、複数のデ
ータ点を含み、この複数のデータ点は、個別の基礎文書
から演算されることができる。そのデータ点は、基礎文
書の低解像イメージ、基礎文書の文書区分の低解像表
現、またはその他の任意の同様な基礎文書の表現を表す
ことができる。少なくとも１つの基礎文書シグネチュア
から導かれるデータは、例えば少なくとも１つの文書シ
グネチュアのそれぞれにわたる各データ値の平均または
中央値などのような、複数の代表的な統計値を含むこと
ができる。

【０００９】次のステップは、新しい電子文書を提供す
ることである。そのとき新しい文書シグネチュアは、新
しい電子文書から生成される。新しい文書シグネチュア
は、新しい電子文書のレイアウトの特徴を記述し、新し
い電子文書の低解像イメージのピクセル、新しい電子文
書の文書区分の低解像表現、またはその他の任意の同様
な新しい電子文書の表現、を規定するデータを含むこと
ができる。

【００１０】次に新しい文書シグネチュアと複数の文書
タイプ分布のそれぞれとの間の距離が計算される。その
距離は、例えばユークリッド距離(Euclidean distanc
e)、マハラノビス距離（Mahalanobis distance）、ガウ
ス分布のためのベイジアン・フレームワーク（Bayesian
framework for a Gaussian distribution）に基づくア
ルゴリズム、またはその他の測定などのような、本分野
における既知の距離計測を使用して計算されることがで
きる。さらに距離計算は、様々な文書タイプ間の判別に
おけるそのデータ点の有用性、または特定の文書タイプ
の指定におけるその点の信頼性に基づいて、基礎文書シ
グネチュアまたは文書タイプ分布における複数のデータ
点のそれぞれに与えられた値に重み付けすることができ
る。例えば複数のデータ点のそれぞれの信頼性は、その
文書タイプの全基礎文書内のそのデータ点の広がりと、
複数の基礎文書すべてにわたるそのデータ点の広がりと
の比率に基づいて、計算されることができる。

【００１１】計算された距離に基づいて、新しい電子文
書のための少なくとも１つの候補文書タイプは、複数の
文書タイプ分布により記述された個別の文書タイプの中
から選択される。少なくとも１つの候補文書タイプの選
択は、あらかじめ選ばれた固定数の個別の文書タイプを
選択することを含む。あらかじめ選ばれた固定数の個別
の文書タイプは、あらかじめ選ばれた固定数の最小距離
を持つように計算された、あらかじめ選ばれた固定数の
複数の文書タイプ分布によって記述されるものである。
もう１つの方法として、少なくとも１つの候補文書タイ
プの選択は、あらかじめ選ばれた計算距離の最小しきい
距離の範囲内にある計算距離を有する複数の文書タイプ
分布により記述される個別の文書タイプを選択すること
を含むことができる。さらに、少なくとも１つの文書タ
イプの選択アルゴリズムは、新しい電子文書が新しいタ
イプであることを申告することができる。

【００１２】さらに本発明は、先に述べた方法ステップ
を行うコンピュータで実行可能なプログラム命令を具体
的に実行することができるコンピュータで読み取り可能
なプログラム記憶媒体を提供する。本発明の他の側面お
よび利点は、本発明の原理の例を通じて、以下の詳細な
説明、図面、および疑似コードリストから明らかにな
る。

【００１３】

【発明の実施の形態】デジタル的に取り込まれ電子的フ
ォームに分散した文書の数が増えているので、取り込ま
れた文書の電子的イメージだけを使用して、デジタル的
に取り込まれた文書の目的または意図を迅速に分類する
技術における関心が増している。具体的には、新しい
（未知の）文書のイメージが与えられた場合に、以前に
見た既知のタイプの大量の文書を通じて迅速にふるい分
けを行い、新しい文書に既知のタイプを割り当てるか、
さもなければ、その文書が新しいタイプであることを申
告することができる方法に対する要求が存在する。

【００１４】説明のための図面に示すように、本発明
は、既知の文書タイプの大量の文書に対して新しい電子
文書（electronic document）を迅速かつ自動的に比較
する方法を提供する。この比較は、新しい電子文書のタ
イプを分類するためか、または新しい電子文書が既知の
文書タイプのいずれにも属していないことを示すために
行われる。

【００１５】本発明は、ある程度、文書イメージを正し
く分類するのに必要とされる分析のレベルが各クラスの
文書の構造で見られる分散（variance）に関連するとい
う発明者の知見に基づく。これは、それぞれのクラス
（class）の書式に通じていると思われる人間の読み手
の体験でもある。クラス内の個々の文書の構造間での低
い分散を有する高度に構造化されたクラスに対して、人
間のエキスパート（専門家）は、非常に低い解像度の
「サムネイル（thumbnail）」文書イメージを与えられ
た場合、正確に文書を分類することができる。クラス内
の個々の文書の構造における分散が増加するとき、（フ
リー書式文書の極端な場合において）テキストの内容を
読み取って分析することによってのみ分類をすることが
できるまで、人間の読み手によって、より高解像度のイ
メージが必要とされる。これはテキストのＯＣＲおよび
意味解析（semantic analysis）を行うことに等しい。

【００１６】本発明による方法は、自由なフォームの文
書を含むあまり構造化されていない文書を扱うのに役に
立つけれども、スペクトラムのよりよく構造化された端
における文書の分類を主に扱うことを意図する。例えば
適切に設計された文書分類システムは、よりコストのか
かるセマンティクス処理（semantics processing）に先
行する前処理ステップにおいて、既知の文書タイプを除
外することによって演算コストを低くする。

【００１７】図１は、本発明にしたがう、文書からメタ
データ（metadata）を自動的に抽出する方法を説明する
フローチャートである。簡単に言うと、電子文書の分類
方法は、複数の文書タイプ分布（document type distri
bution）の提供によって始まる（ブロック１０）。各文
書タイプ分布は、文書タイプ上の標本統計（sample sta
tic）を、引き出すことができるデータの集まりであ
る。必要な標本統計および一般的実施は下で詳しく説明
される。次に新しい電子文書が提供される（ブロック２
０）。それから新しい電子文書シグネチュア（electron
ic document signature）が新しい電子文書から生成さ
れる（ブロック３０）。次に新しい文書シグネチュアと
複数の文書タイプ分布との間の距離が計算される（ブロ
ック４０）。それから少なくとも１つの候補文書タイプ
が、計算された距離に基づき選択される（ブロック５
０）。次に選ばれた少なくとも１つの候補文書タイプが
出力される（ブロック６０）。

【００１８】より具体的には、第１のステップは、複数
の文書タイプ分布を提供することである（ブロック１
０）。この明細書では、文書タイプ分布は、文書タイプ
分布についての標本統計を引き出すことができる任意の
データの集まりである。このデータの集まりは、その文
書タイプの任意の基礎文書の基礎文書シグネチュアを構
成する複数のデータ点からなる多変量ランダム変数の平
均（mean）および共分散(covariance)のために、標本統
計を提供することができる。このデータの集まりは、一
般的には少なくとも１つからなり、しばしば、その文書
タイプの全ての基礎文書の母集団からランダムに引き出
された基礎文書からの多くの基礎文書シグネチュアから
なる。文書タイプ分布は、個別の文書タイプのレイアウ
トの特徴を記述する。

【００１９】個別の基礎文書のそれぞれからの文書シグ
ネチュアは、一般的に個別の基礎文書のレイアウトの粗
い表現である。個別の文書タイプのそれぞれのために、
関連づけられた基礎文書シグネチュアは、その文書タイ
プの文書の組の代表的なサンプルであると想定され、そ
の文書タイプの分布のために標本統計を提供することが
できる。２つの異なる型の基礎文書シグネチュア（低解
像イメージ型および文書区分型）を下で詳細に説明する
けれども、その他の型の基礎文書シグネチュアを本発明
による方法に使用してもよい。

【００２０】文書タイプ分布は、基礎文書シグネチュア
からの様々な情報を含むことができる。この情報は、
１）個別の文書タイプの基礎文書シグネチュアのそれぞ
れからの全データ、２）個別の文書タイプの基礎文書シ
グネチュアのサンプリングからの全データ、３）個別の
文書タイプの基礎文書シグネチュアのそれぞれからの特
定化されたデータ、４）例えば個別の文書タイプの基礎
文書シグネチュアのそれぞれにおけるデータから導かれ
た平均値、中央値、最頻値、および標準偏差などの複数
の代表的な統計、５）個別の文書タイプの基礎文書シグ
ネチュアのサンプリングのデータから導かれた統計的情
報、および６）前述したものの任意の組合せ、を含む
（しかしながら、これらに限定されない）。

【００２１】使用することができる基礎文書シグネチュ
アの第１の型は、「サムネイル」イメージ型としても知
られる低解像イメージ型である。低解像イメージ型の基
礎文書シグネチュアの３つの例（１０１、１０２、１０
３）を図２から図４にそれぞれ示す。基礎文書シグネチ
ュアの低解像イメージ型は、特定の文書タイプの基礎文
書シグネチュアのそれぞれのために、オリジナルの文書
イメージを縮小することによって実現される。オリジナ
ルの文書イメージは、１インチあたり３００ドット（３
００ｄｐｉ）の解像度を一般的に有する。各ドットは、
通常「ピクセル」と呼ばれる。８×１１インチの文書の
場合、これは、２４００×３３００ピクセルに相当し、
文書あたり総計７９２００００ピクセルに相当する。イ
メージの解像度を３ｄｐｉから９ｄｐｉの間に減らすこ
とによって、２４×３３ピクセルから７２×９９ピクセ
ルの間の画像がそれぞれ生成される。これらは、１つの
文書あたり７２９ピクセルから７１２８ピクセルの間の
低解像文書に相当し、すなわち１００から１０００の間
の係数までのピクセル総数の減少に相当する。低解像イ
メージ型の基礎文書シグネチュアの例（１０１から１０
３）は、９ｄｐｉの解像度であり、サンプルピクセル１
１０から１２０が各文書シグネチュア上にそれぞれ示さ
れる。この明細書では、低解像文書イメージは、７５ｄ
ｐｉと同程度の大きさであるが、１５ｄｐｉ以下である
ことが好ましい。

【００２２】文書イメージのサムネイル・イメージは、
商業的に利用可能な文書走査ソフトウェアによって、し
ばしば自動的に生成され、それによりユーザは、文書を
容易にプレビューし、選択することができる。したがっ
て文書シグネチュアを形成するサムネイル・イメージ
は、文書の大きな組を処理するときに特に重要である付
加的な演算コストを提供することがほとんどないか、ま
たは全く無くすことができる。計算およびメモリ要求を
さらに低減するために、１ｄｐｉまで下げた低解像イメ
ージか、またはそれ以下に下げた低解像イメージを使用
することも可能であるが、しかしながら３ｄｐｉ以下の
解像度の低減は、下で述べる本発明による方法の精度を
実質的に低減することがある。

【００２３】次に特定の文書タイプの各基礎文書からの
「サムネイル」イメージは、先に述べた任意の技術を使
用して、その文書タイプのために文書タイプ分布を生成
するのに使用される。例えば文書タイプを生成する１つ
のやり方は、低解像型基礎文書シグネチュアのそれぞれ
を、単一の「サムネイル」イメージに組み合わせること
であり、それが文書タイプを表す「平均イメージ（mean
image）」になる。この「平均イメージ」を生成するた
めの方法は、基礎文書からのサムネイル・イメージがバ
イナリ（２値）であるか、またはグレイスケール（gray
scale）であるかに依存する。バイナリ・ピクセルは、
ブラックかホワイトのどちらかであるが、グレイスケー
ル・ピクセルは、完全なブラックと完全なホワイトとの
間のスケールをたどる点として規定される。一般的にグ
レイスケール・ピクセルは、２５６刻みまたは段階のグ
レイの中に入る。

【００２４】サムネイル画像がバイナリの場合、各ピク
セルは、その他の基礎文書のサムネイル・イメージ上の
対応するピクセルと比較される。ホワイト・ピクセルよ
りブラック・ピクセルが多ければ、対応するピクセル
は、文書タイプ分布においてブラックに設定される。同
様にして、各基礎文書の特定のピクセルの場所に関し
て、ブラック・ピクセルよりホワイト・ピクセルが多け
れば、文書タイプ分布において対応するピクセルは、ホ
ワイトに設定される。各基礎文書の特定のピクセルの場
所に対して、同じ数のブラック・ピクセルとホワイト・
ピクセルが存在していれば、文書タイプ分布において対
応するピクセルは、ホワイトかブラックにランダムに設
定される。

【００２５】サムネイル・イメージがグレイスケールの
場合、各ピクセルは、その他の基礎文書のサムネイル・
イメージ上の対応するピクセルと比較され、グレイの平
均レベルが計算される。したがって、基礎文書のサムネ
イル・イメージが３つあり、それぞれの第１のピクセル
が、２５、１７５、２５０のグレイレベルをそれぞれ有
する場合、文書タイプ分布において対応するピクセル１
１０は、１５０＝（２５＋１７５＋２５０）／３のレベ
ルになる。

【００２６】使用することができる文書シグネチュアの
第２の型は、文書区分型（documentsegmentation typ
e）である。文書区分型の文書シグネチュアの３つの例
（１０４、１０５、１０６）を図５から図７にそれぞれ
示す。文書シグネチュアの文書区分型は、その文書タイ
プの基礎文書のそれぞれからのページ分解アルゴリズム
の出力から作られる文書タイプの表現に定型化される。
ページ分解アルゴリズムは、本分野において知られてお
り、一般的に商業的に利用可能な文書走査ソフトウェア
に含まれる。伝統的にページ分解アルゴリズムの出力
は、ページ上の離散的なブロックを特徴付ける幾何学的
形状の集まりである。ページ分解アルゴリズムは、例え
ばテキスト・ブロックにおけるフォントサイズ、または
任意の典型的ピクセル濃度計測（pixel density measur
e）に応じて、バイナリ・ブロック・データか、または
重み付けされたブロック・データを提供することができ
る。いくつかの場合においては、文書を処理する光学式
文字認識（ＯＣＲ）に先行して行われるページ分解の一
部として単に必要な数をファイルに吸い上げることによ
って、演算なしか、または低い演算コストで、各基礎文
書のためのページ分解アルゴリズムの出力を得ることが
できる。

【００２７】各基礎文書からのページ分解アルゴリズム
の出力が使用されて、その基礎文書のために基礎文書シ
グネチュアの文書区分型を生成する。特定の文書タイプ
の個別の基礎文書のそれぞれのための基礎文書シグネチ
ュアは、先に記載した任意の技術を使用して、文書タイ
プ分布に組み合わされることができる。例えば文書タイ
プ分布は、文書区分シグネチュアのデータ値を平均化し
て「平均区分イメージ」を生成することによって作られ
る。平均化プロセスは、ページ分解アルゴリズムの出力
がバイナリか、または重み付けられたものかに依存す
る。バイナリ出力では、データが無いブロックは、０の
値によって規定されるが、データ（テキストまたはその
他）を含むブロックは、１の値で規定される。基礎文書
の場所のそれぞれは、その他の基礎文書において対応す
る場所と比較される。その場所は、一般的に低解像型文
書シグネチュアにおけるピクセルの場所に相当する。そ
の場所に関して０値より１値が多ければ、文書タイプ分
布において対応する場所は、１値を割り当てられる。同
様にして、その場所に関して１値より０値が多ければ、
文書タイプ分布において対応する場所は、０値を割り当
てられる。もし、その場所に関して０値と１値が同数で
あれば、文書タイプ分布において対応する場所は、１値
か０値をランダムに割り当てられる。このプロセスは、
文書区分型文書シグネチュアにおける平均サイズ、およ
び場所のブロックを生成する。

【００２８】重み付け出力では、ブロックは、先に述べ
たようにそれらの内容またはピクセル濃度に応じて重み
付けられた値を与えられる。そのため各ブロックは、例
えば０から１５の間の重み付けされた値を有することが
できる。基礎文書における各場所は、その他の基礎文書
において対応する場所に対して比較され、各基礎文書に
おいてその場所のために重み付けされた値が平均化され
る。そのため、例えば特定の場所のために重み付けされ
た値、２、１０、１２を有する３つの基礎文書があれ
ば、文書シグネチュアにおいて、その場所に割り当てら
れる平均値は、８＝（２＋１０＋１２）／３になる。こ
こでもまた、一般的に、その場所が低解像イメージ型文
書シグネチュアにおけるピクセルの場所に相当する。こ
のプロセスは、文書タイプ分布における平均的なサイ
ズ、場所、重さのブロックを生成する。

【００２９】次に新しい電子文書が提供される（ブロッ
ク２０）。新しい電子文書は、通常、未知のタイプであ
り、文書シグネチュアにより表された既知の文書タイプ
の１つに属するか、または文書シグネチュアによりまだ
規定されていない新しいタイプのどちらかに分類される
必要がある。電子文書は、光学的にスキャンされた紙文
書であってもよいし、または本分野における既知の任意
のやり方で導かれた文書の電子的イメージであってもよ
い。

【００３０】次に新しい電子文書のページ・レイアウト
を記述するデータを含む新しい文書シグネチュアが、新
しい電子文書から生成される（ブロック３０）。新しい
文書シグネチュアは、様々なフォームを有するが、提供
される複数の文書タイプ分布（ブロック１０）を形成す
るのに使用された基礎文書シグネチュアと同じ型にすべ
きである。したがって、複数の基礎文書シグネチュアが
バイナリ・ピクセルで９ｄｐｉの解像度の低解像イメー
ジ型であれば、新しい文書シグネチュアは、バイナリ・
ピクセルで同じ解像度の低解像イメージ型にすべきであ
る。新しい文書シグネチュアは、複数の文書シグネチュ
アに寄与する各基礎文書から情報を取り込むために、先
に述べたのと同じ方法で生成されることができる。した
がって、新しい文書シグネチュアの生成は、商業的に利
用可能な走査ソフトウェアからのサムネイル画像の取り
込み、または商業的に利用可能なページ分解ソフトウェ
アからのデータの取り込み、と同じくらいに簡単であ
る。

【００３１】図８は、図５から図７に示すような区分型
文書シグネチュア、および図２から図４に示すような低
解像イメージ型文書シグネチュアの実験的に導かれた相
対的パフォーマンスを示すグラフである。実験では、１
８個の異なる文書タイプ分布が比較された。各文書タイ
プ分布は、２０から２００個の間の基礎文書シグネチュ
アからの情報を統合することによって用意された。グラ
フのｘ軸は、本発明による方法が適応候補選択（下で説
明する）で選ぶことが可能な候補文書タイプの数を示
す。グラフのｙ軸は、本発明による方法の精度をパーセ
ントで示す。低解像型の文書シグネチュアの平均パフォ
ーマンスを実線１２０で示し、区分型の文書シグネチュ
アの平均パフォーマンスを、破線１２１で示す。これら
の結果は、下で説明する選択の重み付けベイジアン法
（Weighted Bayesian method）と共に、５ｄｐｉ解像度
を使用して実験的に明らかにされた。その結果は、６よ
り少ない数の候補が選ばれるとき、低解像イメージ型文
書シグネチュアが十分高い精度を提供することをはっき
りと示している。

【００３２】図９は、本発明による方法における低解像
イメージ型文書シグネチュアの様々な解像度での、実験
的に導かれた相対的パフォーマンスを示すグラフであ
る。実験では、１８個の異なる文書タイプ分布が提供さ
れた。各文書タイプ分布は、１から９ｄｐｉの間の様々
な解像度でテストされる、２０から２００個の間の低解
像型基礎文書シグネチュアから用意された。グラフのｘ
軸は、文書シグネチュアの解像度をｄｐｉで示し、グラ
フのｙ軸は、本発明による方法の精度をパーセントで示
す。様々な解像度での低解像イメージ型文書シグネチュ
アの平均的パフォーマンスを実線１２２で示す。これら
の結果は、２つの出力候補の平均（下で説明する）およ
び選択の重み付けベイジアン法（下で説明する）と共
に、適応候補選択を使用して実験的に明らかにされた。
その結果は、低解像型文書シグネチュアの解像度が３ｄ
ｐｉ以上に増えるとき、精度においてほんの僅かの増加
しか達せられないことをはっきりと示している。

【００３３】次に新しい文書シグネチュアと、複数の文
書タイプ分布のそれぞれとの間の距離が計算される（ブ
ロック４０）。したがって、本発明による方法は、新し
い電子文書の分類問題をマルチ・クラス・パターン認識
作業（multi-class patternrecognition task）に変え
る。ここで２つの追加的な想定をするが、これらは距離
計算に使用する技術の選択に影響を及ぼさない。第１
に、新しい文書が分類されうるクラスの数は、固定され
ないと想定する（すなわちユーザは、いつでも文書の新
しいクラスを追加することができる。）。第２に、新し
い文書が分類されうるクラスの数は、非常に大きいと想
定する。これらの想定は、すべての空間の知識を必要と
しない分離（separation）若しくはスコアリング方法
（scoring method）を促進するか、または新しいクラス
の追加についての簡単な更新スキーム（updating schem
e）を少なくとも提供する。例えば、クラスの１００％
の分離を提案するけれども新しいクラスの追加に重い再
演算を必要とする方法は、不十分である。他方で、正し
いクラスを含むクラスの小さなサブセット（subset）
を、クラスの数におけるせいぜいlog(N)の数の推量にお
いて信頼性高く判断することができ、新しいクラスの追
加に大規模な再演算を必要としない方法がより好まし
い。これを実現する１つのやり方は、ガウス分布のため
のベイジアン・フレームワーク（Bayesian framework）
に基づくアルゴリズムを使用して距離を計算することに
よる。

【００３４】本発明による文書の自動分類方法が、文書
からデータを抽出する任意の「重い」システムのための
前処理ステージになる場合、本発明による方法は、それ
に提案される候補クラスの間で選択することができ、必
要に応じてそれら全てを却下することができる。これを
実現する１つの効果的やり方は、ベイジアン判別則（Ba
yesian decision rule）から出てくる手法を利用するこ
とである。この明細書では、複数の文書シグネチュアを
Ｘ_ｋ ^ｊによって表す。文書クラス（タイプ）番号は、ｋ
＝１，２，３，．．．Ｃで表され、ここでＣは、複数の
文書タイプの総数を表す定数である。基礎文書番号は、
ｊ＝１，２，．．．Ｎ_ｋで表し、ここでＮ_ｋは、ｋ番目
の文書タイプ分布により表された基礎文書の総数であ
る。ここで数１が、ガウシアン多変量分布（Gaussian m
ultivariate distribution）Ｇ｛Ｍ _ｋ，Σ_ｋ｝から引き
出されると想定し、Ｍ_ｋが多変量平均（multivariate m
ean）であり、Σ_ｋが共分散行列（covariance matrix）
である。したがって新しい文書シグネチュアｚの分類
は、マハラノビス距離（Mahalanobis distance）の演算
（数２）によって行われる。

【００３５】

【数１】

【数２】

【数３】ここでＴは、行列転置（matrix transpose）であり、最
短距離（数３）でのクラスｋ_０にｚをマッピングする。
さらに距離計算は、各文書タイプ分布の共分散行列を見
積もるための発見的方法（heuristic method）を含むこ
とができる。明確にすると、先の数２における表記「Σ
_ｋ ^−１」は、積算ではなくて共分散行列の逆数を表す。

【００３６】次に計算された距離に基づいて、複数の文
書タイプ分布により記述された個別の文書タイプの中か
ら少なくとも１つの候補文書タイプが新しい電子文書の
ために選択される（ブロック５０）。この明細書では、
少なくとも１つの候補文書タイプの選択は、複数の文書
タイプ分布により記述された文書タイプに良い候補が無
いことを示すことを含んでもよい。あらかじめ選ばれた
固定数の出力候補文書タイプが所望とされれば、複数の
文書タイプ分布を最小の距離と比較して、あらかじめ選
ばれた固定数の候補文書タイプを簡単に選択することが
できる。もう１つの選択肢としては、任意の固定の最短
距離の範囲内にある距離を持つ複数の文書タイプ分布に
一致する候補文書タイプ全てを選択することである。こ
の明細書では、この第２の技術を「適応候補選択（adap
tive candidate selection）」として参照する。適応候
補選択は、本発明の方法により提案される候補文書タイ
プを明らかに可変数とするが、しかしながらパーセンテ
ージしきい値を調整して、本発明による方法の繰り返し
使用で返される候補の平均的な数を指定することができ
る。提案される出力候補文書タイプの数における変化が
小さいことは、実験的に分かっている。したがって受け
入れられない大きな数の候補タイプを本発明による方法
が返す可能性は低く、この技術は、可変数の候補文書タ
イプを提案することを可能にする。

【００３７】図１０は、固定数の候補文書タイプの選択
および適応候補選択の、実験的に導かれた相対的パフォ
ーマンスを示すグラフである。実験では、１８個の異な
る文書タイプ分布をテストした。各文書タイプ分布は、
５ｄｐｉの解像度の低解像型で、２０から２００個の間
の基礎文書シグネチュアから用意された。グラフのｘ軸
は、あらかじめ選ばれた固定数選択か、または適応候補
選択に関する平均数のどちらかとして本発明による方法
が選ぶことが可能な候補文書タイプの数を示す。グラフ
のｙ軸は、本発明による方法の精度をパーセントで示
す。適応候補選択の平均パフォーマンスを実線１２３で
示し、固定数選択の平均パフォーマンスを破線１２４で
示す。これらの結果は、選択の重み付けベイジアン法
（下で説明される）で明らかにされた。その結果は、６
個以下の候補が選ばれたときに固定数候補選択を越える
際だった精度における利点を適応候補選択が持つことを
はっきりと示している。

【００３８】本分野における標準的な実行によれば、先
の数１における未知のモーメント（積率）Ｍ_ｋおよびΣ
_ｋを、それぞれ下記の式によって基礎文書データに基づ
いて概算することができる。

【００３９】

【数４】

【数５】

【００４０】先のΣ_ｋの概算を使用して直面するかもし
れない問題の１つは、２、３百ピクセルしか含まない小
さな文書シグネチュアのためにですら、メモリおよびこ
れらの行列演算の要求事項が、今日のコンピューティン
グ・プラットホーム（computing platform）を上まわる
かもしれないという点にある。しかしながら第２のモー
メントを総合的に軽視することによって、この問題を克
服することができ、これは、数６のように計算されるユ
ークリッド距離（Euclidean distance）を使用する。

【００４１】

【数６】

【００４２】この明細書では、この新しい文書シグネチ
ュアと複数の文書シグネチュアとの間の距離を計算する
方法を、シンプル・ベイジアン法（Simple Bayesian me
thod）として参照する。

【００４３】本発明による方法のメモリおよび演算の要
求事項を減らす、もう１つの選択肢は、行列Σ_ｋのなん
らかの簡略化されたバージョンを使用することである。
これを行う１つのやり方は、対角行列Δ_ｋを使用するこ
とであり、これは数５に示すようにユークリッド距離に
重さを効果的に導入する。

【００４４】

【数７】この明細書では、この新しい文書シグネチュアと複数の
文書シグネチュアとの間の距離を計算する方法を、重み
付けベイジアン法（Weighted Bayesian method）として
参照する。

【００４５】重み付けベイジアン法は、先の数６のアル
ゴリズムの一般化であり、これは、恒等行列（すなわち
１で充てんされた対角を除いて、０で充てんされたＣ×
Ｃ行列）になるようΔ_ｋを選ぶことにより分かる。した
がって、重み付けの手法は、適当な重さが使用されるな
らば、潜在的により良い。重さΔ_ｋのための自然な選択
は、Δ_ｋ＝主対角｛Σ_ｋ｝などのようなΣ_ｋの主対角を
使用することである。しかしながらΔ_ｋ＝主対角
｛Σ_ｋ｝の選択が低品位のパフォーマンスになることは
実験的に明らかにされた。

【００４６】行列Σ_ｋの主対角の値は、特定の文書タイ
プの全基礎文書に対する平均値を囲む各ピクセル値の標
準偏差（広がり）を実際に表している。その代わりに、
より効果的に働くように表された値は、ａ）特定の文書
タイプ内の全基礎文書に対する平均ピクセル値を囲む各
ピクセルの広がりと、ｂ）同じ平均ピクセル値を囲む、
既知の全文書タイプにわたる全基礎文書に対する各ピク
セル値の広がり、との比の値である。例えば第１の文書
タイプにおける第１のピクセルが、その文書タイプの全
基礎文書に対して、５０の平均ピクセルと、１５の広が
りを有すると考える。そのとき、もし既知の全文書タイ
プの全基礎文書に対して、５０を囲む広がりが１５であ
ると演算されれば、これは、文書タイプ間での判別のた
めに、このピクセル値を使用することが信頼性が無いこ
とを意味しており、その結果このピクセルは、小さな重
みにすべきである。他方で既知の全文書タイプの全基礎
文書に対する５０を囲む広がりが、その代わりに１００
であると演算されれば、これは、このピクセル値が文書
タイプ間での判別において大きな意味があるかもしれな
いので信頼性があることを意味しており、大きな重みを
与えられるべきである。要約すると以下の行列Δ_ｋが、
本発明による方法のパフォーマンスを著しく改善する。

【００４７】

【数８】

【００４８】図１１は、シンプル・ベイジアン法および
重み付けベイジアン法を使用して実験的に導かれた相対
的パフォーマンスを示すグラフである。実験では、１８
個の異なる文書タイプ分布がテストされた。各文書タイ
プ分布は、５ｄｐｉの解像度の低解像型で、２０から２
００個の間の基礎文書シグネチュアから用意された。グ
ラフのｘ軸は、本発明による方法が適応候補選択を使用
して選ぶことが可能な候補文書タイプの数を示す。グラ
フのｙ軸は、本発明による方法の精度をパーセントで示
す。重み付けベイジアン法の平均パフォーマンスを実線
１２５で示し、シンプル・ベイジアン法の平均パフォー
マンスを破線１２６で示す。その結果は、４以下の候補
が選ばれたときに重み付けベイジアン法がシンプル・ベ
イジアン法を上まわって著しい精度における利点を有す
ることをはっきりと示している。

【００４９】どのシグネチュアの型、解像度、候補選択
技術、または計算方法が選ばれるかに関係なく、本発明
による方法の結果は、直接ユーザに、または新しい電子
文書のさらなる処理用のエキスパート・システムに、出
力されることができる（ブロック６０）。

【００５０】先に説明した方法に加えて、もう１つの好
ましい本発明の実施形態は、先に述べた方法のステップ
を実行するための、コンピュータにより実行可能なプロ
グラム命令を具体的に実行する、コンピュータで読み取
り可能なプログラム記憶媒体である。この実施形態で
は、先に述べた様々なステップがコンピュータにより実
行される。この事実から鑑み、本発明による方法のより
詳細な説明を提供するために、コンピュータ上でその方
法を動作させる疑似コードリストを表１から表３に示
す。

【００５１】

【表１】

【表２】

【表３】

【００５２】本発明の具体的な実施形態を説明したけれ
ども、本発明は、図および説明のような具体的な形態ま
たは部分の構成に制限されることはない。本発明は、請
求項によってのみ制限される。

【００５３】この発明は例として次の実施形態を含む。（１）文書シグネチュアを使用して電子文書を自動的
に分類する方法であって、（ａ）複数の文書タイプ分布
を提供するステップであって、該文書タイプ分布のそれ
ぞれが、個別の文書タイプのレイアウトの特徴を記述
し、該個別の文書タイプの個別の基礎文書からの少なく
とも１つの基礎文書シグネチュアから導かれたデータを
含む提供ステップ（１０）と、（ｂ）新しい電子文書を
提供するステップ（２０）と、（ｃ）前記新しい電子文
書のレイアウトの特徴を記述する新しい文書シグネチュ
アを生成するステップ（３０）と、（ｄ）前記新しい電
子文書シグネチュアと前記複数の文書タイプ分布のそれ
ぞれとの間の距離を計算するステップ（４０）と、
（ｅ）前記ステップ（ｄ）において計算された距離に基
づいて、前記複数の文書タイプ分布により記述される個
別の文書タイプの中から、前記新しい電子文書のために
少なくとも１つの候補文書タイプを選択するステップと
（５０）、を含む前記電子文書の自動分類方法。

【００５４】（２）前記ステップ（ｄ）における距離
計算ステップが、ガウス分布のためのベイジアン・フレ
ームワークに基づくアルゴリズムを使用することを含む
（１）に記載の方法。

【００５５】（３）前記ステップ（ａ）における少な
くとも１つの基礎文書シグネチュア（１０１−１０５）
が個別の基礎文書の低解像イメージのピクセル（１１０
−１０３）を規定するデータを含み、前記ステップ
（ｃ）における新しい文書シグネチュアが、前記新しい
電子文書の低解像イメージのピクセルを規定するデータ
を含む（１）に記載の方法。

【００５６】（４）前記ステップ（ａ）における少な
くとも１つの基礎文書シグネチュアから導かれたデータ
が、低解像イメージの各ピクセルの少なくとも１つの基
礎文書シグネチュアのそれぞれにわたる複数の代表的な
標本統計値を含む（３）に記載の方法。

【００５７】（５）前記個別の基礎文書の低解像イメ
ージが１インチあたり１から７５ドットの間に分解さ
れ、前記新しい電子文書の低解像イメージが１インチあ
たり１から７５ドットの間に分解される（３）に記載の
方法。

【００５８】（６）前記ステップ（ａ）における少な
くとも１つの基礎文書シグネチュアが、個別の文書タイ
プの個別の基礎文書から導かれた文書区分データ（１１
３〜１１５）を含み、前記ステップ（ｃ）における新し
い文書シグネチュアが、前記新しい電子文書から導かれ
た文書区分データを含む（１）に記載の方法。

【００５９】（７）前記ステップ（ａ）における少な
くとも１つの基礎文書シグネチュアから導かれたデータ
が、文書区分データの少なくとも１つの基礎文書シグネ
チュアのそれぞれにわたる複数の代表的な統計を含む
（６）に記載の方法。

【００６０】（８）前記ステップ（ｅ）における少な
くとも１つの候補文書タイプの選択ステップ（５０）
が、前記ステップ（ｄ）（４０）においてあらかじめ選
ばれた固定数の最小距離を持つように計算された、あら
かじめ選ばれた固定数の複数の文書タイプ分布により記
述されるあらかじめ選ばれた固定数の個別の文書タイプ
を選択するステップを含む（２）に記載の方法。

【００６１】（９）前記ステップ（ｅ）における少な
くとも１つの候補文書タイプの選択ステップが、複数の
文書タイプ分布のうちの、ステップ（ｄ）において計算
された最短距離のあらかじめ選ばれたしきい距離内にス
テップ（ｄ）における計算距離を有するものにより記述
される個別の文書タイプを選択するステップを含む
（２）に記載の方法。

【００６２】（１０）前記ステップ（ｄ）において計
算される距離がユークリッド距離である（２）に記載の
方法。

【００６３】（１１）前記ステップ（ｄ）において計
算される距離がマハラノビス距離である（２）に記載の
方法。

【００６４】（１２）前記ステップ（ａ）において提
供される複数の文書タイプ分布のそれぞれが、複数のデ
ータ点を含み、前記ステップ（ｄ）における距離計算ス
テップが、前記複数のデータ点のそれぞれの計算された
信頼性に基づいて、該複数のデータ点のそれぞれに与え
られた値に重み付けするステップを含む（２）に記載の
方法。

【００６５】（１３）前記複数のデータ点のそれぞれ
の計算された信頼性が、前記複数の文書タイプ分布のそ
れぞれ内の前記複数のデータ点のそれぞれの広がりと、
前記複数の文書タイプ分布のすべてにわたる前記複数の
データ点のそれぞれの広がりと、のそれぞれの比率を含
む（１１）に記載の方法。

【００６６】（１４）文書シグネチュアを使用して電
子文書を自動的に分類する方法ステップを行うためのコ
ンピュータで実行可能なプログラム命令を具体的に組み
込むコンピュータで読み取り可能なプログラム記憶媒体
であって、前記方法ステップが、（ａ）複数の文書タイ
プ分布を提供するステップであって、該文書タイプ分布
のそれぞれが、個別の文書タイプのレイアウトの特徴を
記述し、該個別の文書タイプの個別の基礎文書からの少
なくとも１つの基礎文書シグネチュアから導かれたデー
タを含む提供ステップと、（ｂ）新しい電子文書を提供
するステップと、（ｃ）前記新しい電子文書のレイアウ
トの特徴を記述する新しい文書シグネチュアを生成する
ステップと、（ｄ）ガウス分布のためのベイジアン・フ
レームワークに基づくアルゴリズムを使用して、前記新
しい電子文書シグネチュアと前記複数の文書タイプ分布
のそれぞれとの間の距離を計算するステップと、（ｅ）
前記ステップ（ｄ）において計算された距離に基づい
て、前記複数の文書タイプ分布により記述される個別の
文書タイプの中から、前記新しい電子文書のために少な
くとも１つの候補文書タイプを選択するステップと（５
０）、を含む前記プログラム記憶媒体。

【００６７】（１５）前記方法ステップ（ａ）におけ
る少なくとも１つの基礎文書シグネチュアが、個別の基
礎文書の低解像イメージ（１０１−１０３）のピクセル
（１１０−１１２）を規定するデータを含み、前記方法
ステップ（ｃ）における新しい文書シグネチュアが、新
しい文書の低解像イメージのピクセルを規定するデータ
を含む（１４）に記載のプログラム記憶媒体。

【００６８】（１６）前記個別の基礎文書の低解像イ
メージ（１０１−１０３）が、１インチあたり１から７
５ドットの間に分解され、前記新しい電子文書の低解像
イメージが、１インチあたり１から７５ドットの間に分
解される（１５）に記載のプログラム記憶媒体。

【００６９】（１７）前記方法ステップ（ａ）におけ
る少なくとも１つの基礎文書シグネチュアが、個別の基
礎文書シグネチュアから導かれた文書区分データ（１１
３−１１５）を含み、前記方法ステップ（ｃ）における
新しい文書シグネチュアが、前記新しい電子文書から導
かれた電子区分データを含む（１４）に記載のプログラ
ム記憶媒体。

【００７０】（１８）前記方法ステップ（ｅ）におけ
る少なくとも１つの候補文書タイプの選択ステップが、
前記方法ステップ（ｄ）においてあらかじめ選ばれた固
定数の最小距離を持つよう計算された、あらかじめ選ば
れた固定数の複数の文書タイプ分布により記述されるあ
らかじめ選ばれた固定数の個別の文書タイプを選択する
ことを含む（１４）に記載のプログラム記憶媒体。

【００７１】（１９）前記方法ステップ（ｅ）におけ
る少なくとも１つの候補文書タイプの選択ステップが、
複数の文書タイプ分布のうちの、前記方法ステップ
（ｄ）において計算された最短距離のあらかじめ選ばれ
たしきい距離内に該方法ステップ（ｄ）における計算距
離を有するものにより記述される個別の文書タイプを選
択するステップを含む（１４）に記載のプログラム記憶
媒体。

【００７２】（２０）前記方法ステップ（ｄ）におい
て計算された距離が、ユークリッド距離である（１４）
に記載のプログラム記憶媒体。

【００７３】（２１）前記方法ステップ（ａ）におい
て提供される複数の文書タイプ分布のそれぞれが、複数
のデータ点を含み、前記方法ステップ（ｄ）における距
離演算ステップが、前記複数のデータ点のそれぞれの計
算された信頼性に基づいて、該複数のデータ点のそれぞ
れに与えられた値に重み付けすることを含む（１４）に
記載のプログラム記憶媒体。

【００７４】（２２）前記複数のデータ点のそれぞれ
の計算された信頼性が、複数の文書タイプ分布のそれぞ
れ内の複数のデータ点のそれぞれの広がりと、複数の文
書タイプ分布のすべてにわたる複数のデータ点のそれぞ
れの広がりと、のそれぞれの比率を含む（２１）に記載
のプログラム記憶媒体。

【図面の簡単な説明】

【図１】本発明の方法を示すフローチャートである。

【図２】第１の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第１のサンプルである。

【図３】第２の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第２のサンプルである。

【図４】第３の文書タイプからの低解像イメージ型の
基礎文書シグネチュアの第３のサンプルである。

【図５】図２で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第４のサンプルである。

【図６】図３で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第５のサンプルである。

【図７】図４で示すのと同じ文書タイプからの文書区
分型の基礎文書シグネチュアの第６のサンプルである。

【図８】本発明による方法における文書区分型基礎文
書シグネチュアのパフォーマンスと、低解像イメージ型
基礎文書シグネチュアのパフォーマンスとを比較するグ
ラフである。

【図９】本発明による方法における低解像イメージ型
基礎文書シグネチュアの様々な解像度のパフォーマンス
を比較するグラフである。

【図１０】固定数候補選択と、本発明による方法にお
ける適応数候補選択とのパフォーマンスを比較するグラ
フである。

【図１１】シンプル・ベイジアン法の距離計算と、重
み付けベイジアン法の距離計算とのパフォーマンスを比
較するグラフである。

【符号の説明】

１０１、１０２、１０３低解像イメージ型の基礎
文書シグネチュア１１０、１１１、１１２サンプルピクセル１０４、１０５、１０６文書区分型の文書シグネ
チュア１１３、１１４、１０６文書区分データ

フロントページの続き (72)発明者マイケル・エラドイスラエル34603ハイファ、アインシュタイン・ストリートナンバー45 (72)発明者ダリル・グレイグイスラエル34332ハイファ、シナイ・アヴェニュー 23 (72)発明者カール・スターリンイスラエル、ハイファ、パルマチ 61、アパートメントナンバー８

Claims

【特許請求の範囲】

【請求項１】文書シグネチュアを使用して電子文書を
自動的に分類する方法であって、（ａ）複数の文書タイプ分布を提供するステップであっ
て、該文書タイプ分布のそれぞれが、個別の文書タイプ
のレイアウトの特徴を記述し、該個別の文書タイプの個
別の基礎文書からの少なくとも１つの基礎文書シグネチ
ュアから導かれたデータを含む提供ステップと、（ｂ）新しい電子文書を提供するステップと、（ｃ）前記新しい電子文書のレイアウトの特徴を記述す
る新しい文書シグネチュアを生成するステップと、（ｄ）前記新しい電子文書シグネチュアと前記複数の文
書タイプ分布のそれぞれとの間の距離を計算するステッ
プと、（ｅ）前記ステップ（ｄ）において計算された距離に基
づいて、前記複数の文書タイプ分布により記述される個
別の文書タイプの中から、前記新しい電子文書のために
少なくとも１つの候補文書タイプを選択するステップ
と、を含む前記電子文書の自動分類方法。