JP2011018316A - 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム - Google Patents
文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム Download PDFInfo
- Publication number
- JP2011018316A JP2011018316A JP2010100833A JP2010100833A JP2011018316A JP 2011018316 A JP2011018316 A JP 2011018316A JP 2010100833 A JP2010100833 A JP 2010100833A JP 2010100833 A JP2010100833 A JP 2010100833A JP 2011018316 A JP2011018316 A JP 2011018316A
- Authority
- JP
- Japan
- Prior art keywords
- document image
- document
- tiles
- features
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システムを提供する。
【解決手段】1つまたは複数の区分に関連する文書画像の集合中の各文書画像を複数のタイルに分割し(408)、その複数のタイルは文書ページの特徴が識別可能な大きさとし、文書画像及び複数のタイルの特徴を計算する(410)。少なくとも1つの区分分類器に訓練を行い(412)、文書画像集合中の文書画像の特徴と、文書画像集合中の複数のタイルの特徴と、文書画像集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像を関連する1つまたは複数の区分に分類する(424)。
【選択図】図4A
【解決手段】1つまたは複数の区分に関連する文書画像の集合中の各文書画像を複数のタイルに分割し(408)、その複数のタイルは文書ページの特徴が識別可能な大きさとし、文書画像及び複数のタイルの特徴を計算する(410)。少なくとも1つの区分分類器に訓練を行い(412)、文書画像集合中の文書画像の特徴と、文書画像集合中の複数のタイルの特徴と、文書画像集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像を関連する1つまたは複数の区分に分類する(424)。
【選択図】図4A
Description
本発明は一般的に文書の分類に関する。詳細には、文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システムに関する。
ビジネスにおける電子的処理が増えるに従って、文書はますます電子形式に変換されるようになってきている。例えば、文書が文書スキャナによって走査されて、文書のデジタル画像を含む電子文書が形成される。電子文書は、紙の文書に比べて物理的なスペースが小さくて済むので有利である。更に、電子文書は容易にバックアップを取ることができ、不慮の遺失を防ぐことができる。
しかし、電子文書の分量が増大すると、その文書の整理が次第に困難になってくる。手作業での文書の整理はわずらわしいし、効率も悪い。この問題に対する1つの解決策は、電子文書に光学的文字認識(OCR)処理を行って電子文書中のテキストを抽出することである。抽出されたテキストは次に解析されて、電子文書のコンテンツが判定および/または分類される。例えば、コンテンツが主題によって分類されてもよい。(例えば、電子文書がジョージ・ワシントンの生誕地に関する情報を含んでいるとすると、この文書が主題「ジョージ・ワシントン」に分類される。)残念なことに、OCR技術は計算機的には高価である。
ティー・ブルーエル(T.Breuel)「高性能文書レイアウト解析(High Performance Document Layout Analysis)」,文書画像理解技術シンポジウム予稿(Proc.Symposium on Document Image Understanding Technology),2003年
シー・エイチ・ランパルト(C.H.Lampert),ティー・ブラウン(T.Braun),エー・ウルゲス(A.Ulges),ディー・カイザース(D.Keysers),ティー・エム・ブルーエル(T.M.Breuel),「無意識での文書キャプチャとリアルタイム検索(Oblivious document capture and realtime retrieval)」,2005年,シービーデーエーアール(CBDAR)2005予稿,2005年,p.79−86
エヌ・ラシワシア(N.Rasiwasia).エヌ・ヴァスコンセロ(N.Vasconcelos),「低次元意味空間と弱い教師つき学習によるシーン分類(Scene classification with low−dimensional semantic spaces and weak supervision)」アイトリプルイー コンピュータヴィジョンとパターン認識会議 予稿(Proc IEEE Conference on Computer Vision and Pattern Recognition),アメリカ(Anchorage),2008年6月
ジェー・フアン(J.Huang),エス・アール・クマー(S.R.Kumar),エム・ミトラ(M.Mitra),ダブリュー・ジェー・ツー(W.J.Zhu),アール・ザビー(R.Zabih),「色コレログラムを用いた画像指標(Image indexing using color correlograms)」,アイトリプルイー コンピュータヴィジョンとパターン認識会議 予稿(Proc. of 16th IEEE Conf. on Computer Vision and Pattern Recognition),1997年,p.762−768
ケー・ワイ・ウォン(K.Y.Wong),アール・ジー・キャシー(R.G.Casey),エフ・エム・ワール(F.M.Wahl),「文書解析システム(Document Analysis System)」,アイビーエム(IBM),リサーチとデヴェロップメントジャーナル(Journal of Research and Development),1982
エイチ・ペン(H.Peng),エフ・ロン(F.Long),シー・ディング(C.Ding),「相互情報量に基づく特徴量の選択:最大依存性、最大関連性、及び、最小融通性の基準(Feature selection based on mutual information: criteria of max−dependency, max−relevance, and min−redundancy)」,アイトリプルイー パターン解析と人工知能の処理(IEEE Transactions on Pattern Analysis and Machine Intelligence),2005年,27巻,8号,p.1226−1238
ワイ・キム(Y.Kim),エス・ロス(S.Ross),「ファミリ類似性の検出:区分分類の自動化(Detecting family resemblance: Automated genre classification)」,データサイエンスジャーナル(Data Science Journal),2007年6月,p.S172−S183
ワイ・キム(Y.Kim),エス・ロス(S.Ross),「区分分類における顕著な特徴変化の検討(Examining variations of prominent features in genre classification)」システムサイエンス 第41回 ハワイ会議 予稿(Proc. of the 41st Annual Hawaii International Conference on System Sciences),2008年,p.132
上述のような問題なくして文書を分類することが大いに望まれている。
本発明の第1の態様によれば、文書の区分を識別するために用いる区分モデルを生成するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された1つまたは複数のプログラムを実行する1つまたは複数のプロセッサを有するコンピュータシステム上で、1つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、分割手段が、前記文書画像を、各々が前記文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、区分分類器訓練手段が、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記1つまたは複数の区分とに基づいて、文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練する、ことを含むコンピュータに実装された方法が提供される。
本発明の第2の態様によれば、第1の態様において、前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、前記文書画像の集合から、第1の区分に関連している文書画像の部分集合を識別し、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴と、前記第1の区分に関連すると識別された前記文書画像部分集合に対応する文書画像を示す情報とに基づいて前記第1の区分に対応する前記第1の区分分類器を訓練し、前記文書画像集合中の少なくとも1つの文書画像部分集合に対して、前記区分分類器の集合を、前記文書画像部分集合中の文書画像と、前記文書画像部分集合に関連する複数のタイルとに適用して、スコアの集合を形成し、前記文書画像部分集合中の文書画像に対する前記スコアの集合と、各文書画像に関連する1つまたは複数の区分と、各文書画像の複数のタイル内のタイルの位置とに基づいて、前記第1の区分に関連するものとして文書画像を分類するように、前記第1の区分に対応する第2の区分分類器を訓練する、ことを含んでもよい。
本発明の第3の態様によれば、第1の態様において、前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、前記文書画像集合中の前記文書画像に関連する区分のうちの少なくとも部分集合中の各区分に対して、前記文書画像集合から、区分に関連しているタイルの部分集合を選択し、前記タイルの特徴に基づいて前記タイル部分集合のタイルをクラスタリングし、各タイルの特徴が区分のクラスタの1要素である尤度を示す、区分の確率モデルを生成し、該確率モデルは確率モデルの集合の中に含まれ、該確率モデル各々が区分の集合のうちの1区分に対応しており、前記文書画像集合中の文書画像のうちの少なくとも部分集合に対して、前記文書画像部分集合と前記文書画像部分集合に関連する複数のタイルとに確率モデルを適用し、前記文書画像部分集合中の各文書画像が1つまたは複数の区分の要素である確率の集合を形成し、前記確率の集合と、前記文書画像部分集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、前記各文書画像を1つまたは複数の区分に関連しているものとして分類するように、前記第1の区分分類器を訓練する、ことを含んでもよい。
本発明の第4の態様によれば、第1の態様において、前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、前記文書画像集合の第1の部分集合の特徴と、前記文書画像集合の前記第1の部分集合に関連する複数のタイルの特徴とに基づいて、第1の区分に対応する第1の区分分類器を訓練し、前記文書画像集合の前記第1の部分集合と互いに排他的な文書画像の集合である前記文書画像集合の第2の部分集合を用いて前記第1の区分分類器のパラメータを調整し、前記文書画像集合の第2の部分集合の特徴と、前記文書画像集合の前記第2の部分集合に関連する複数のタイルの特徴とに基づいて、前記第1の区分に対応する第2の区分分類器を訓練し、前記文書画像集合の前記第1の部分集合を用いて前記第2の区分分類器のパラメータを調整する、ことを含んでもよい。
本発明の第5の態様によれば、第1の態様において、前記文書画像の部分集合は複数のページを含む文書に関連し、前記方法は前記文書の各ページに対して実行されてもよい。
本発明の第6の態様によれば、第1の態様において、前記特徴が、文書ページの特徴と、タイルの特徴と、を含んでもよい。
本発明の第7の態様によれば、第6の態様において、前記文書ページの特徴が、各ページの段数と、各ページの水平の行数と、各ページの垂直の行数と、各ページの水平行の長さのヒストグラムと、各ページの垂直行の長さのヒストグラムと、各ページのページ寸法と、文書中のページ数とのうちの少なくとも1つを含んでもよい。
本発明の第8の態様によれば、第6の態様において、前記タイルの特徴が、各タイルの密度と、各タイルのテキストの行数と、各タイルのテキストの平均フォントサイズと、各タイルのテキストの中央値フォントサイズと、各タイルの行幅のヒストグラムと、各タイルの色コレログラムからの値の部分集合と、文書画像中の各タイルの物理的な位置とのうちの少なくとも1つを含んでもよい。
本発明の第9の態様によれば、第1の態様において、前記複数のタイルは所定の順序で配置されていてもよい。
本発明の第10の態様によれば、第1の態様において、前記文書画像を複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択されてもよい。
本発明の第11の態様によれば、第10の態様において、前記特定のタイル数は25であってもよい。
本発明の第12の態様によれば、第1の態様において、前記区分分類器は、訓練されたサポートベクトルマシン(SVM)であってもよい。
本発明の第13の態様によれば、コンピュータに、1つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、前記文書画像を、各々が前記文書ページの特徴が識別可能な寸法とされた複数のタイルに分割し、前記文書画像及び前記複数のタイルの特徴を計算し、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記1つまたは複数の区分とに基づいて、文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練する、ことを含む文書の区分を識別するために用いる区分モデルを生成するための処理を実行させるためのプログラムが提供される。
本発明の第14の態様によれば、第1の態様において、文書の区分を識別するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された1つまたは複数のプログラムを実行する1つまたは複数のプロセッサを有する前記コンピュータシステム上で、受取手段が、文書の文書画像を受け取り、分割手段が、前記文書画像を、各々が文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、特徴抽出手段が、前記文書画像及び前記複数のタイルの特徴を計算し、区分分類手段が、前記文書画像の特徴と前記複数のタイルの特徴とに基づいて前記文書画像に関連する1つまたは複数の区分を識別する、ことを含むコンピュータに実装された方法が提供される。
本発明の第15の態様によれば、第14の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、区分分類器の第1の集合を、前記文書画像の特徴と、前記文書画像に関連する複数のタイルの特徴とに適用して、スコアの集合を形成し、区分分類器の第2の集合を、前記文書画像の前記スコアの集合と、前記文書画像の前記複数のタイル内のタイルの位置とに適用して、前記文書画像に関連する前記1つまたは複数の区分を識別する、ことを含んでもよい。
本発明の第16の態様によれば、第15の態様において、前記区分分類器の第1の集合及び第2の集合が、前記区分分類器の訓練の段階で生成されてもよい。
本発明の第17の態様によれば、第15の態様において、前記区分分類器の第1の集合及び第2の集合が、訓練されたサポートベクトルマシン(SVM)であってもよい。
本発明の第18の態様によれば、第14の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、各区分に対して、前記文書画像の特徴と前記文書画像の複数のタイルの特徴とが区分のクラスタの構成要素である尤度を、区分の確率モデルに基づいて計算し、区分分類器を前記計算された尤度に適用して、前記文書画像に関連する前記1つまたは複数の区分を識別する、ことを含んでもよい。
本発明の第19の態様によれば、第18の態様において、前記区分分類器及び確率モデルが、前記区分分類器の訓練の段階で生成されてもよい。
本発明の第20の態様によれば、第18の態様において、前記区分分類器は、訓練されたサポートベクトルマシン(SVM)であってもよい。
本発明の第21の態様によれば、第14の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、区分分類器の第1の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第1の集合を形成し、区分分類器第2の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第2の集合を形成し、前記スコアの第1の集合と前記スコアの第2の集合とを統合して、統合したスコア集合を形成し、前記統合したスコア集合に基づいて前記文書画像に関連する前記1つまたは複数の区分を識別する、ことを含んでもよい。
本発明の第22の態様によれば、第21の態様において、前記区分分類器の第1の集合及び第2の集合が、前記区分分類器の訓練の段階で生成されてもよい。
本発明の第23の態様によれば、第21の態様において、前記区分分類器の第1の集合及び第2の集合が、訓練されたサポートベクトルマシン(SVM)であってもよい。
本発明の第24の態様によれば、第14の態様において、前記文書画像を前記複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択されてもよい。
本発明の第25の態様によれば、第24の態様において、前記特定のタイル数は25であってもよい。
本発明の第26の態様によれば、第14の態様において、前記文書画像を受け取ることが、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちの1つの画像装置から前記文書画像を受け取ることを含んでもよい。
本発明の第27の態様によれば、第14の態様において、前記文書に関連する前記1つまたは複数の区分に関連するコンテンツを表示することを含んでもよい。
本発明の第28の態様によれば、コンピュータに、文書の文書画像を取得し、前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する1つまたは複数の区分を識別する、ことを含む文書の区分を識別するための処理を実行させるためのプログラムが提供される。
本発明の第29の態様によれば、画像処理システムであって、1つまたは複数のプロセッサと、メモリと、前記メモリに格納された1つまたは複数のプログラムと、を備え、前記1つまたは複数のプログラムが、前記1つまたは複数のプロセッサに、文書の文書画像を取得し、前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する1つまたは複数の区分を識別する、処理を行わせることを含む、画像処理システムが提供される。
本発明の第30の態様によれば、第29の態様において、前記文書から前記文書画像を形成するように設定された画像装置を含んでもよい。
本発明の第31の態様によれば、第30の態様において、前記画像装置が、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちから選択されてもよい。
本発明の第32の態様によれば、第29の態様において、前記文書に関連する前記1つまたは複数の区分に関連するコンテンツを表示するように設定された表示装置を含んでもよい。
既に述べたように、文書は主題によって分類されることが多い。しかし、文書の分類には他の手法もあって、スキャン(走査)された文書を基にして、コンテンツ(例えば、広告)の索引、体系化、検索、表示に利用可能な有益な情報(例えば、メタデータ)を提供することもできる。例えば、文書を分類するのに区分(ジャンル)が利用される。従って、ある実施形態では文書が区分で分類される。区分としては、広告、パンフレット、一般論文(例えばニュースレターや雑誌記事など)、ビラ、帳票、地図、公式論文(例えば、定期刊行物論文)、写真、領収証、規則および規定、報告書、履歴書、表等が含まれる。ある実施形態では、文書は主題及び区分の両方で索引が付けられる。例えば、文書が主題と区分の両方で索引が付けられているとすると、例えば、旅行者がイエローストーンの間欠泉についてのパンフレットを探し、その一方で理科系学生がイエローストーンの間欠泉についての論文を探す、ということができる。同じように、広告が表示されているパンフレットをスキャンしていることが認識され、かつそのパンフレットには「ハワイ」、「砂浜」、「島」というような単語があるとすると、ハワイの観光サービスあるいはハワイでの休暇を専門に扱う旅行代理店の広告を、そのパンフレットをスキャンしているユーザに提示することも可能である。
ある実施形態では、区分は「スタイル」、「形式」、「コンテンツ」によって特徴づけられる。「スタイル」は、句読点の使用、文章、及び語句などの、構造的コンテンツに対応する。例えば、論説は形式的な散文とはスタイルが異なり、また散文は詩歌とはスタイルが異なる。「形式」は、段の配置や段数、見出し、グラフ、フォントサイズ、等の文書の構造的レイアウトを含む。画像化された/スキャンされた文書に関しては、形式は通常、構造的レイアウト解析を用いて識別することができる。(例えば、非特許文献1を参照。)「コンテンツ」は、ある用語やオブジェクトが文書中にあるかどうかというような、意味あるいは意味論上の価値があるものを指している。
ある実施形態において、異なる様式(例えば、スタイル、形式、コンテンツなど)からの特徴に基づく区分識別が利用される。計算の時間および/または複雑さが問題にならない場合には、これらの実施形態が利用されてよい。しかし、計算の時間および/または複雑さが制約となる場合には、利用する様式を減らすことが望ましい。こうして、実施形態のあるものでは、画像化された文書に関連する区分は、「形式」に基づいて行われる。これらの実施形態では、比較的効率的かつ比較的確実に計算することが可能な、画像をベースとする特徴が利用される。また、レイアウト解析は行われない。画像化された文書は、文書スキャナ、カメラ、ビデオカメラ、ファクシミリ装置、複写機等のハードウェアにより取得される。カメラやビデオカメラの場合に、画像の背景に他の物体が含まれていれば、その画像を前処理して、文書ページの画像が含まれる画像部分を識別してもよい。(画像の前処理に関しては、例えば、非特許文献2参照。)ある実施形態では、ここで説明した分類システムに、「スタイル」及び「コンテンツ」タイプの特徴が含まれてもよい。これらの実施形態は、OCRの利用を必要とする。
ある実施形態では、文書に関連する区分の識別に画像の特徴が利用される。このような実施形態では、裏に隠れている、すなわち潜在的なページ領域の種類が識別される。これらの潜在的なページ領域の種類は、テキスト、写真、段、大きいフォント、罫線などの種類に直観的に対応する。ある実施形態では、ガウス混合モデルが、ある領域が与えられた潜在的種類となる確率に対応する領域ラベル確率を割り当てるために利用される(ガウス混合モデルの概要は、非特許文献3を参照。)そして、領域ラベル確率は、文書の区分を識別するように訓練された分類器への入力として用いられる。
区分識別は、本明細書で説明する区分識別システムによって実行される。ある実施形態では、区分識別システムが以下の1つまたは複数の課題に取り組む。
(1)1つの文書が2つ以上の区分に分類されることもある(例えば、掲示板に張り出される招待状は、招待状とビラの両方に分類される可能性がある)。
(2)各区分は異なるタイプを持ちうる(例えば、地図は、カラーまたは白黒であり、テキストの説明文および/または凡例を伴う場合もある)。
(3)文書は複数のページで構成されていることが多く、文書の各ページは異なるタイプの画像領域で構成され、ページが変わればタイプが変わる可能性がある(例えば、論文のいくつかのページにはグラフや画像が含まれ、他のページはテキストのみであったりする)。
(1)1つの文書が2つ以上の区分に分類されることもある(例えば、掲示板に張り出される招待状は、招待状とビラの両方に分類される可能性がある)。
(2)各区分は異なるタイプを持ちうる(例えば、地図は、カラーまたは白黒であり、テキストの説明文および/または凡例を伴う場合もある)。
(3)文書は複数のページで構成されていることが多く、文書の各ページは異なるタイプの画像領域で構成され、ページが変わればタイプが変わる可能性がある(例えば、論文のいくつかのページにはグラフや画像が含まれ、他のページはテキストのみであったりする)。
ある実施形態では、第1の課題に取り組むために、ここで説明する区分識別システムとして「1対多」の分類器を利用する。即ち、識別されるべき各区分に対して、別個の分類器が訓練され、その区分は他のすべての区分とは分け隔てるようになっている。ある実施形態では、第2の課題に取り組むために、区分識別システムが潜在空間という概念を利用する。これは文書領域のタイプ(例えば、本体テキスト、タイトルテキストなど)に対応する。ある実施形態では、第3の課題に取り組むために、文書の各ページに識別された区分を(例えば、マルチプルインスタンス学習あるいは投票を介して)統合する識別手段が利用される。異なるページ領域は潜在空間の利用によって処理される。
図1はある実施形態による画像システム104のブロック図100である。ある実施形態では、画像システム104が文書102を受取り、画像106を形成する。例えば、画像システム104が文書をスキャンし、デジタル画像を形成する。本明細書においては、「文書画像」という用語は、複数ページの文書における1ページの画像を指し、単一ページの文書に対してはその1ページの文書の画像を指すように使用される。文書102は1つまたは複数の区分108のコンテンツを含みうる。例えば、1つまたは複数の区分108には、広告、パンフレット、一般論文(例えばニュースレターや雑誌記事など)、ビラ、帳票、地図、公式論文(例えば、定期刊行物論文)、写真、領収証、規定/規則、報告書、履歴書、表等が含まれる。
ある実施形態では、分類システムが文書102に対応する画像106に関連する1つまたは複数の区分108を識別する。分類システムは、画像システム104に含まれていてもよいし、個別の装置(例えば、サーバなど)上にあってもよい。分類システムが個別装置上にある場合には、画像106はネットワーク(例えば、ネットワーク120)を介して、その個別装置に伝送されてもよい。あるいはその代わりに、画像106が物理的な媒体(例えば、CD ROM、DVD、フラッシュドライブ、フロッピディスク(登録商標)、ハードディスクなど)を用いて個別装置へ配送されてもよい。分類システムは、図3A〜3C、4A〜4C、5B、5D、5Fに関連してより詳細に説明される。
ある実施形態では、1つまたは複数の区分108を利用して、画像システム104のディスプレイ装置上にその区分に特有なコンテンツを表示する。例えば、画像106に関連する1つまたは複数の区分108として履歴書が含まれているとすると、区分に特有なコンテンツ110として、求人用のウェブサイトの広告や、採用担当者への連絡先情報などが含まれてもよい。
ある実施形態では、画像システム104がネットワーク120を介してサーバ130にアクセスし、1つまたは複数の区分108を用いてその区分に特有なコンテンツ110をサーバ130から取得するための照会を行う。ネットワーク120は一般的に任意のタイプの有線もしくは無線の通信チャネルを有し、計算機ノードを結合することができる。これには、ローカルエリアネットワーク、ワイドエリアネットワーク、あるいはその組合せのネットワークなどが含まれるが、それに限定されるものではない。ある実施形態では、ネットワーク120がインターネットを含む。
ある実施形態では、画像システム104が、複写機、スキャナ、ファクシミリ装置、デジタルカメラ、ビデオレコーダ、携帯電話などを含む。これらの実施形態においては、画像装置が文書のデジタル画像を形成する。
ある実施形態では、1つまたは複数の区分108が文書102に(例えばメタデータを利用して)タグ付けするのに利用される。そして、これらのタグは(例えば、タグに対するクエリを介して)文書のフィルタリングおよび/またはソーティングに利用することができる。更には、タグを利用して(文書102を特定のフォルダに入れるなどして)文書102の整理および/またはファイリングをすることもできる。
ある実施形態では、分類システムを使用する前に、分類システムの区分分類器は、訓練(トレーニング)フェーズの間に訓練システム上で訓練用文書集合を用いて訓練される。訓練用文書集合は、事前に1つまたは複数の区分でタグ付けされていてもよい。あるいは、訓練用文書集合はタグ付けされていなくてもよい。その場合には、その訓練用文書集合は訓練フェーズの間に手動で(例えば、ユーザによって)タグ付けされる。訓練システムは、図2A〜2C、4A〜4C、5A、5C、5Eに関連してより詳細に説明される。「区分識別システム」という用語は、本明細書においては、訓練システムと分類システムを含むシステムのことを指していることに留意されたい。
訓練及び分類技術を以下で説明する。第1の技術が、図2A、3A、4A、5A、及び5Bに関して説明される。第2の技術が、図2B、3B、4B、5C、及び5Dに関して説明される。第3の技術が、図2C、3C、4C、5E、及び5Fに関して説明される。
先ず第1の訓練及び分類技術について注目する。図2Aはある実施形態による訓練システム201を示すブロック図200である。これらの実施形態では、訓練システム201のクラスタリングモジュールが訓練用文書204及び関連する区分206を受け取る。訓練用文書204の中の各文書は、1つまたは複数の区分に関連している。その関連は、各文書のメタデータ中に特定されているか、訓練用文書のそれぞれを1つまたは複数の区分に関連付ける個別の文書(例えばXMLファイル、テキストファイル等)またはデータベースに特定されているかである。クラスタリングモジュール202は訓練用文書204及びそれに関連する区分206から抽出された特徴を利用し、確率モデル208を形成する。確率モデル208が確率209を生成し、それを用いて分類モジュール203が、訓練済みのサポートベクトルマシン(SVM)/区分分類器210の訓練を行う。この詳細は図4A、5Aに関連して詳述する。SVMは、データ分類に使用することのできる、一連の教師つき学習技術である。ある実施形態では、訓練システムは、訓練用文書204をスキャンして訓練用文書204の画像205を形成する画像装置を含んでいる。そして、訓練用文書204の画像205が訓練システム201によって利用される。ある実施形態では、訓練用文書204は既に文書の画像となっており、訓練システム201で直接利用される。
サポートベクトルマシン(SVM)という用語は本明細書においては区分分類器と同じ意味で使用されている場合があり、ここで説明されるように文書画像の区分を識別できる分類器を代表している場合があることに留意されたい。
図3Aはある実施形態による分類システム302を示すブロック図300である。これらの実施形態では、分類システム302が、文書304から特徴を受け取り、確率モデル306(例えば、図2Aにおける確率モデル208)を文書304に適用して確率307を生成する。確率307が訓練済みSVM/区分分類器308で使用され、文書304に関連する1つまたは複数の区分310を識別する。ある実施形態では、分類システム302が、文書304をスキャンして文書304の画像305を形成する画像装置を含んでいる。文書304の画像305から抽出された特徴を、その後分類システム302で利用して、文書304に関連する1つまたは複数の区分310が識別される。ある実施形態では、文書304は既に文書の画像となっていて、特徴が直接抽出される。それが分類システム302で利用されて、その文書304に関連する1つまたは複数の区分310が識別される。分類システム302は図4Aおよび5Aに関してより詳細に説明する。
ある実施形態では、分類システムと訓練システムが同一のシステム内に含まれている。例えば、分類システムと訓練システムが画像システム(例えば、図1の画像システム104)に含まれていてもよい。ある実施形態では、分類システムと訓練システムが別々のシステム内に含まれている。例えば、訓練システムは画像システム(例えば、画像システム104)の製造元の計算機システムの中に含まれており、分類システムはエンドユーザに売られた画像システム(例えば、画像システム104)に含まれていてもよい。
図4Aはある実施形態による文書区分を識別する方法400のフロー図である。方法400は訓練システム(例えば、図2Aの訓練システム201)によって実行される操作と、分類システム(例えば、図3Aの分類システム302)によって実行される操作とに対応している。具体的には、方法400は訓練ステージ401と分類ステージ402とを含む。一般的に、訓練ステージ401は訓練システム(例えば、図2Aの訓練システム201)上で実行され、分類ステージ402は分類システム(例えば、図3Aの分類システム302)上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。
訓練ステージ401の操作は、分類ステージ402の操作の前に実行される。
訓練システムが訓練用文書及びそれに関連する区分を受け取ると(404)、訓練ステージ401が始まる。前述したように、それぞれの訓練用文書は1つまたは複数の区分に関連している。訓練システムが訓練用文書をスキャンし(406)、文書画像の集合407を形成する。あるいは、訓練用文書が既にスキャンされている場合には、ステップ406は省略される。
画像をベースとして文書区分を識別する技術のあるものにおいては、異なるタイプの文書領域(例えば、テキスト、画像、罫線部、図形)の境界をラベル付けし識別するために、レイアウト解析が用いられる。そして、レイアウト解析に基づいて特徴が抽出される。しかし、レイアウト解析は計算機的に高価であり、エラーを発生しやすい。更に、これらのレイアウト解析技術は「小」タイル(例えば、8ピクセル×8ピクセルのタイル)を用いる。同じ様に画像をベースとして文書区分を識別する技術のあるものは、突出点を識別し、特徴の分布に基づいて分類を実行する。
これらの技術に対比して、ある実施形態によれば、文書の各ページをタイルに分割し、タイルの1つ1つから特徴を抽出する。ある実施形態では、タイルがページのすべての部分を覆う。更に、タイルは互いに重なってもよい(例えば、各タイルが、隣のタイルと、タイル半分だけオーバラップしてもよい)。ページの全体を覆う「ページ」タイルもまた形成されてよい。更に、これらの実施形態は「大」タイルを用いてもよい(例えば、各ページに対して25タイルであってもよい)。
こうして、文書画像の集合407の中の各文書画像に対し、訓練システムが文書画像を複数のタイル409に分割する(408)。ある実施形態では、文書ページの特徴(テキストの行数、フォントの大きさ等)が識別可能なように、訓練システムが文書画像を複数のタイル409に分割する。
次に、図6に注目すると、この図はある実施形態による文書画像を複数のタイルに分割するプロセスを示すブロック図600である。ある実施形態では、文書画像が先ず前処理される(例えば、寸法を縮める、曲がりを正す等)。図示したように、文書画像が特定の大きさの、特定の数のタイル602に分割される。ある実施形態では、タイルの特定の数は25である。特定の寸法は、タイルの特徴が顕示されるような寸法に選択される。ある実施形態では、タイルは均一なサイズとされる。例えば、300dpi(dots per inch)の解像度でスキャンされた、8.5インチ(21.6cm)×11インチ(27.9cm)のページを考えてみる。ピクセルでのページの寸法は、2550ピクセル×3300ピクセルである。従って、各タイルは510ピクセル×660ピクセルである。別の実施形態では、タイルは不均一なサイズである。その実施形態では、寸法は所定のパラメータ(例えば、余白の大きさ等)に基づいて決定される。複数のタイルからの情報は、所定の順番で配列されることに留意されたい。例えば、複数のタイルが、文書画像におけるタイルの物理的な位置に関する情報を保持する順番で配置されてもよい(例えば、タイルのx−y位置等)。
図4Aに戻ると、こうして、文書画像集合407の中の各文書画像に対し、訓練システムによって文書画像及び複数のタイル409の特徴が計算される(410)。ある実施形態では、その特徴には、文書ページの特徴及びタイルの特徴が含まれる。文書ページの特徴としては、個々のページの段数、個々のページの水平行の行数、個々のページの垂直行の行数、個々のページの水平行の長さのヒストグラム、個々のページの垂直行の長さのヒストグラム、個々のページのページサイズ、及び1つの文書中のページ数のうちの1つまたは複数が含まれてもよい。タイルの特徴としては、個々のタイルの密度、個々のタイルのテキストの段数(例えば、投影で)、個々のタイルのテキストのフォントサイズの平均値および/または中間値(例えば、投影で)、個々のタイルの段幅のヒストグラム、個々のタイルの色コレログラムの値の部分集合、文書画像中における個々のタイルの物理的位置のうちの1つまたは複数が含まれてよい。色コレログラムに関しては、非特許文献4で議論されている。ある実施形態では、個別のタイルの特徴ベクトルがページの特徴値(例えば、文書画像の特徴)を含んでいる。そうすることにより、1つの文書画像/ページのページ特徴値が各タイル中に複製される。これらの実施形態では、文書ページの特徴情報を利用しながら、タイルのクラスタリングが可能となる。
ページ画像を2値画像に変換し、各タイルの黒ピクセルの数を合計することによって、画像密度を計算することができる。
水平行は、白黒画像の黒ピクセルが水平方向に続く長さを計算することで算出される。この時水平方向あるいは垂直方向へのピクセルの僅かなジョグは許容される。(例えば、非特許文献5を参照。)各タイルの行数が記録され、行の長さが定量化されてヒストグラムにされる。ある実施形態では、「対数」定量化ビン(値域)が利用される。例えば、行長に対する定量化ビンは以下のようなビンに分けられてよい。ページ幅の1/2から全幅の間の行長を含む第1のビン、ページ幅の1/4から1/2の間の行長を含む第2のビン、...、ページ幅の1/32より小さい行長を含む第5のビンの計5つのビンである。垂直方向の行のヒストグラムも同様にして算出される。別の実施形態において、行長に対する別の定量化ビンを用いることもできる。
テキストの段数、平均および/または中間のフォントサイズなどのタイルの特徴を抽出する際に、ピクセルが水平方向に射影されてテキストの段数が識別され、統計的に特徴づけられる。この技術は「射影」と呼ばれる。
ある実施形態では、画像が、水平方向、垂直方向に最大1550ピクセルで比例拡大され、色コレログラムが計算される。特徴選択は、最小冗長性・最大関連性基準(mRMR)特徴選択を利用して次元数を圧縮するように実行される。(例えば、非特許文献6を参照。)特徴値はタイル位置に部分的に依存する(例えば、タイトルは通常ページの先頭に出てくる)ので、特徴選択技術にはタイル位置の情報が保持される。こうして、タイル特徴を連結して形成されるベクトル上で、特徴選択が実行される。タイルのクラスタリング時にこれらの特徴を利用するために、選択された特徴のタイル内での位置が利用されてもよく、従って、特徴はタイル内での位置の特徴の和集合となる。
図4Aに戻ると、文書画像及びタイルの特徴を計算した後、訓練システムが少なくとも1つの区分分類器を訓練して(412)、文書画像集合407の中の文書画像の特徴と、文書画像集合407の中の複数のタイルの特徴と、文書画像集合407の中の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像をある区分に関連するとして分類させる。
次に、図4Aのステップ412の操作を説明するフロー図である図5Aと、図5Aに関して説明される操作を示すブロック図700である図7に注目する。文書画像集合407の中の文書画像に関連する区分の少なくとも部分集合の各区分に対して、訓練システムが文書画像集合407からタイルの部分集合を選択する(502)。ここで、タイルの部分集合中の各タイル(例えば、タイル702−1、702−2、702−Nのそれぞれ)は、区分に関連している。ある実施形態では、訓練システムが、タイルの部分集合中のタイルをタイルの特徴に基づいてクラスタリングする(504)(例えば、それぞれ704−1、704−2、704−Nのクラスタにする)。そして、その区分に関する確率モデル(例えば、ガウス混合モデル706−1、706−2、706−Nのそれぞれ)を生成する(506)。ここで、その区分に対する確率モデルとは、個々のタイルの個々の特徴が、その区分に関連するクラスタの1構成要素となっている尤度を示すものであり、その確率モデルが確率モデル集合の中に含まれていて(例えば、図4Aの確率モデル413)、そのそれぞれが区分の部分集合中のある区分に対応する。
ある実施形態では、図4A〜4Cを参照して説明した任意の実施形態の算出された特徴上でクラスタリング操作(例えば、ステップ504)が実行される。次いで、個々のタイルの個々の特徴が区分に関連するクラスタの構成要素となっている確率が、クラスタリング操作に基づいて形成される。これらの確率、あるいはこれらの確率の統合(例えば、荷重和)が、算出された特徴の代わりに利用される。
グループが、画像、テキスト、図形、大型フォント、空白等の異なるタイプのタイルに大まかに対応するように、タイルのクラスタリングが行われることに留意されたい。このように、レイアウト解析を行うよりもむしろ、各タイルが画像のタイプで暗黙のうちに「ラベル付け」され、そのラベル付けも重み付けがなされてもよい。
文書画像集合407における文書画像の少なくとも部分集合に対して、訓練システムが、確率モデルを、文書画像部分集合と、その文書画像部分集合に関連する複数のタイルとに適用し(508)、文書画像部分集合における個々の文書画像が1つまたは複数の区分の要素となる確率の集合を形成する。
次いで、訓練システムが少なくとも1つの区分分類器(例えば、図4Aの訓練済みSVM/区分分類器414や図7の訓練済みSVM/区分分類器730)を訓練して、確率集合と、文書画像部分集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、個々の文書画像を1つまたは複数の区分に関連するとして分類させる。
これに代わる技術は、図8に示したような略式ラベルの確率を計算するものである。ここで図8は、確率モデルを利用して文書の確率ベクトルを生成するための方法を示すブロック図800である。各テーマtの確率、即ち略式ラベル確率Πtが、ガウス混合モデルパラメータを用いて計算される。ここで、μt jが平均、Фt jが共分散、βt jがテーマtのj番目の混合成分の混合荷重を表す。
この選択により表示の次元が圧縮され、それによってSVMの訓練及び検査が加速される。それぞれの場合において、タイルのx、y位置が特徴として付加され、タイル位置情報の利用が促進される。そして、分類器がラベル付けされた特徴データ上で訓練される。新しい文書ページの区分識別を行うために、そのページに関する特徴の集合が計算されて、各区分の確率が計算される。これらの確率はSVM分類器の訓練用の特徴を導出するのに利用される。
各分類器が1つの区分を識別するように訓練され、区分でラベル付けされた標本を正サンプルとして利用し、それ以外の標本は負サンプルとしてラベル付けする。他のタイプの区分分類法では、SVMや、あるいは動径基底関数(RBF)のような場合によっては非接領域も許容する核関数などのマージン最大化の分類器を暗黙のうちに利用して処理する。
図4Aに戻ると、少なくとも1つの分類器が訓練されると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが(例えば、ユーザからの)文書を受け取って(416)、分類ステージ402が始まる。一般に、この文書は訓練用文書の一部ではない。分類システムがその文書をスキャンして(418)、文書画像419を形成する。あるいは、文書が既にスキャンされている場合には、ステップ418は省略される。
分類システムが文書画像419を複数のタイル421に分割し(420)、文書画像419および複数のタイル421の特徴423を計算する(422)。ある実施形態では、文書ページの特徴(例えば、テキストの行数、フォントの大きさ等)が識別可能なように、分類システムが文書画像を複数のタイル421に分割する。次に分類システムは、文書画像419の特徴423及び複数のタイル421の特徴423に基づいて、文書画像419に関連する1つまたは複数の区分425を識別する(424)。
次に図5Bに注目すると、これは図4Aのステップ424の操作を説明するフロー図となっている。各区分に対して、文書画像419と文書画像419の複数のタイル421の特徴423とが区分のクラスタの構成要素である尤度を、分類システムが区分の確率モデルに基づいて計算する。そして分類システムが、訓練済みのSVM/区分分類器414を計算された尤度に適用して、文書画像419に関連する1つまたは複数の区分425を識別する。
図4Aに戻って、ある実施形態では1つまたは複数の区分425を識別した後、分類システムが区分に特有なコンテンツを取得し(426)、その区分に特有なコンテンツをディスプレイ装置(例えば、分類装置、サーバ、クライアントのコンピュータシステム等のディスプレイ装置)に表示する(428)。例えば、区分特有のコンテンツが、1つまたは複数の区分425に関連する製品および/またはサービスの広告を含んでいてもよい。ある実施形態では、1つまたは複数の区分425が戻される。これらの実施形態においては、1つまたは複数の区分425がユーザおよび/またはアプリケーションによって特定の操作を行うために使用される(例えば、1つまたは複数の区分425に基づいて検索を行う)。
ある実施形態では、分類システムが区分特有のコンテンツを取得した後、その区分特有のコンテンツを含む電子メッセージを1人または複数の特定のユーザに伝送する。例えば、電子メール、ショートメッセージサービス(SMS)、マルチメディアメッセージサービス(MMS)などのメッセージを介して、分類システムが特定のユーザに電子メッセージを伝送する。
ある実施形態では、文書画像の部分集合が、複数のページのある文書に関連する。このような実施形態においては、訓練ステージ401及び分類ステージ402は文書のそれぞれのページに対して実行されてもよい。
次に、第2の学習及び分類技術について注目する。上記の特徴、文書の分割に関する説明は、以下に説明する第2の技術にも当てはまることに留意されたい。図2Bはある実施形態による訓練システム251を示すブロック図250である。これらの実施形態では、訓練システム251のクラスタリングモジュール252が、訓練用文書204及び関連する区分206を受け取る。訓練用文書204の各文書は、1つまたは複数の区分に関連してもよい。その関連は、各文書のメタデータ中に特定されているか、各訓練用文書を1つまたは複数の区分に関連付ける個別の文書(例えばXMLファイル、テキストファイル、等)あるいはデータベース中に特定されている。クラスタリングモジュール252は訓練用文書204及び関連する区分206を利用して、訓練済みSVM/区分分類器の第1の集合254を形成する。分類モジュール253が、訓練済みSVM/区分分類器の第1の集合254によって形成されたスコア255を利用して訓練済みSVM/区分分類器の第2の集合256の訓練を行う。この詳細を図4Bおよび5Cに関して説明する。ある実施形態では、訓練システム215が、訓練用文書204をスキャンして訓練用文書204の画像205を形成する画像装置を含んでいる。そして、訓練用文書204の画像205が訓練システム251によって利用される。ある実施形態では、訓練用文書204は既に文書の画像となっており、訓練システム251で直接利用される。
図3Bはある実施形態による分類システム352を示すブロック図350である。これらの実施形態においては、分類システム352が文書354を受け取り、訓練済みSVM/区分分類器の第1の集合356を文書354に適用してスコア357を形成する。分類システム352は次いで訓練済みSVM/区分分類器の第2の集合358をスコア357に適用して、文書354に関連する1つまたは複数の区分360を識別する。ある実施形態では、分類システム352が、文書354をスキャンして文書354の画像355を形成する画像装置を含んでいる。文書354の画像355は、次いで分類システム352で利用されて、文書354に関連する1つまたは複数の区分360が識別される。ある実施形態では、文書354は既に文書の画像となっていて、分類システム352で直接利用され、その文書354に関連する1つまたは複数の区分360が識別される。分類システム352は図4Bおよび5Dに関連してより詳細に説明される。
図4Bはある実施形態による文書区分を識別する方法430のフロー図である。方法430は訓練システム(例えば、図2Bの訓練システム251)及び分類システム(例えば、図3Bの分類システム352)によって実行される操作に対応する。特に、方法430は訓練ステージ431と分類ステージ432とを含む。一般的に、訓練ステージ431は訓練システム(例えば、図2Bの訓練システム251)上で実行され、分類ステージ432は分類システム(例えば、図3Bの分類システム352)上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。
訓練ステージ431の操作は、分類ステージ432の操作の前に実行される。
訓練システムが訓練用文書及び関連する区分を受け取ると(434)、訓練ステージ431が始まる。前述したように、各訓練用文書は1つまたは複数の区分に関連している。訓練システムが訓練用文書をスキャンし(436)、文書画像437の集合を形成する。あるいは、訓練用文書が既にスキャンされている場合には、ステップ436は省略される。
文書画像437の集合における各画像に対して、訓練システムが文書画像を複数のタイル439に分割し(438)、文書画像及び複数のタイル439の特徴を計算する(440)。ある実施形態では、文書ページの特徴(例えば、テキストの行数、フォントの大きさ等)が識別可能なように、訓練システムが文書画像を複数のタイル439に分割する。
次いで、訓練システムが少なくとも1つの区分分類器を訓練して(442)、文書画像集合437の文書画像の特徴と、文書画像集合437の複数のタイルの特徴と、文書画像集合437の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像をある区分に関連するものとして分類する。
次に図5Cに注目すると、これは図4Bのステップ442の操作を説明するフロー図となっている。各区分に対して、訓練システムが文書画像集合437から文書画像の部分集合を選択する(532)。ここで、文書画像の部分集合中の各文書画像は、区分に関連している。次いで、訓練システムが、区分に対応する第1の区分分類器を、文書画像の特徴と、文書画像に関する複数のタイルの特徴と、第1の区分に関連するとして識別された文書画像部分集合に対応するかを示す情報とに基づいて訓練する(534)。こうして、各区分に対する第1の区分分類器を含む区分分類器の第1の集合が形成される(例えば、図4Bにおける、訓練済みSVM/区分分類器の第1の集合443)。
文書画像集合437の中の少なくとも文書画像部分集合に関して、訓練システムが区分分類器の第1の集合(例えば、図4Bにおける訓練済みSVM/区分分類器の第1の集合443)を、文書画像部分集合中の文書画像と文書画像部分集合に関連する複数のタイルとに対して適用し(536)、スコアの集合を形成する。
各区分に関し、文書画像部分集合中の各文書画像に対するスコア集合と、各画像に関連する1つまたは複数の区分と、各文書画像に対する複数のタイルにおけるタイルの位置とに基づいて、訓練システムが、その区分に対応する第2の区分分類器を訓練し(538)、文書画像をその区分に関連するものとして分類させる。こうして、各区分に対する第2の区分分類器を含む、区分分類器の第2の集合が形成される(例えば、図4Bにおける、訓練済みSVM/区分分類器の第2の集合444)。
図4Bに戻ると、少なくとも1つの分類器の訓練が行われると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが(例えば、ユーザからの)文書を受け取ると(446)、分類ステージ432が始まる。一般に、この文書は訓練用文書の一部ではない文書である。分類システムが文書をスキャンして(448)、文書画像449を形成する。あるいは、文書が既にスキャンされている場合には、ステップ448は省略される。
分類システムが文書画像449を複数のタイル451に分割し(450)、文書画像449および複数のタイル451の特徴453を計算する(452)。ある実施形態では、文書ページの特徴(テキストの行数、フォントの大きさ等)が識別可能なように、分類システムが文書画像を複数のタイル451に分割する。次に分類システムは、文書画像449の特徴453と複数のタイル451の特徴453とに基づいて、文書画像449に関連する1つまたは複数の区分455を識別する(454)。
次に図5Dに注目すると、これは図4Bのステップ454の操作を説明するフロー図となっている。分類システムが、区分分類器の第1の集合(例えば、図4Bにおける、訓練済みSVM/区分分類器の第1の集合443)を、文書画像449と文書画像449に関連する複数のタイル451との特徴に適用して(542)、スコアの集合を形成する。次いで、分類システムは、区分分類器の第2の集合(例えば、図4Bにおける、訓練済みSVM/区分分類器の第2の集合444)を、文書画像449のスコアの集合と、文書画像449の複数のタイル451におけるタイルの位置とに適用して(544)、文書画像449に関連する1つまたは複数の区分455を識別する。
あるいはこれに代わって、各タイルに対して区分分類器の第1の集合によって形成されたスコアを投票パラダイムにおいて使用して、ページ区分を識別してもよい。
図4Bに戻って、ある実施形態では1つまたは複数の区分455を識別した後、分類システムが区分に特有なコンテンツを取得し(456)、その区分に特有なコンテンツをディスプレイ装置(例えば、分類システム、サーバ、クライアントのコンピュータシステム等のディスプレイ装置)に表示する(458)。例えば、区分特有のコンテンツが1つまたは複数の区分455に関連する製品および/またはサービスの広告を含んでいてもよい。ある実施形態では、1つまたは複数の区分455が戻される。これらの実施形態においては、1つまたは複数の区分455がユーザおよび/またはアプリケーションによって特定の操作を行うために使用される(例えば、1つまたは複数の区分455に基づいて検索を行う)。
ある実施形態では、分類システムが区分特有のコンテンツを取得した後、その区分特有のコンテンツを含む電子メッセージを1人または複数の特定のユーザに伝送する。例えば、電子メール、ショートメッセージサービス(SMS)、マルチメディアメッセージサービス(MMS)などのメッセージを介して、分類システムが特定のユーザに電子メッセージを伝送する。
ある実施形態では、文書画像の部分集合が、複数のページを有する文書に関連する。このような実施形態においては、訓練ステージ431及び分類ステージ432は文書のそれぞれのページに対して実行されてもよい。
次に、第3の学習及び分類技術について注目する。上記の特徴、文書の分割に関する説明は、以下に説明する第3の技術にも当てはまることに留意されたい。図2Cはある実施形態による学習システム281を示すブロック図280である。これらの実施形態では、訓練システム281が分類モジュール282と283を含む。ある実施形態では、分類モジュール282と283は分離した別々のモジュールである。ある実施形態では、分類モジュール282と283は同一タイプの分類器であるが、パラメータ値が異なっている。訓練用文書204は、2つの互いに排他的な訓練用文書の部分集合284〜285に分割されており、関連する区分の部分集合286〜287を有している。ある実施形態では、区分の部分集合286〜287は同一区分を含んでいる。訓練システム281の分類モジュール282が、訓練用文書部分集合284及びそれに関連する区分部分集合286を受け取る。訓練用文書204の各文書は、1つまたは複数の区分に関連してもよいことに留意されたい。その関連は、各文書のメタデータ中に特定されているか、各訓練用文書を1つまたは複数の区分に関連付ける個別の文書(例えばXMLファイル、テキストファイル、等)あるいはデータベース中に特定されている。分類モジュール282は訓練用文書部分集合284及び関連する区分部分集合286を利用して、訓練済みSVM/区分分類器の第1の集合290を形成する。分類モジュール282は訓練用文書部分集合285及び関連する区分部分集合287を利用して、訓練済みSVM/区分分類器の第1の集合290用のパラメータを調整する。同じようにして、分類モジュール283は訓練用文書部分集合285及び関連する区分部分集合287を利用して、訓練済みSVM/区分分類器の第2の集合291を形成する。分類モジュール283は訓練用文書部分集合284及び関連する区分部分集合286を利用して、訓練済みSVM/区分分類器の第2の集合291用のパラメータを調整する。このプロセスは図4C及び5Eに関連して詳細を説明する。ある実施形態では、訓練システム281が、訓練用文書204をスキャンして訓練用文書部分集合284〜285の画像288〜289を形成する画像装置を含んでいる。そして、訓練用文書部分集合284〜285の画像288〜289が訓練システム281によって利用される。ある実施形態では、訓練用文書部分集合284〜285は既に文書の画像となっており、訓練システム281で直接利用される。
図3Cはある実施形態による分類システム382を示すブロック図380である。これらの実施形態において、分類システム382が文書384を受け取り、訓練済みSVM/区分分類器の第1の部分集合386を適用してスコア387を形成し、訓練済みSVM/区分分類器の第2の部分集合388を文書384に適用してスコア389を形成する。統合機能390がスコア387と389を統合して、文書384に関連する1つまたは複数の区分392を識別する。精度を改善する例示的な統合機能が、スコア387と389を閾値と比較する。スコアが、少なくとも1つの分類器に対する閾値より大きく、かつ、その他のすべての区分に関しては両方の分類器に対する閾値よりも低い場合に、そのページおよび/または文書は、その閾値よりも大きいスコアを形成した分類器に対応する区分に関連するものとして分類される。制約を緩めた別の方法では、すべての他の区分に対してスコアが両方の分類器の閾値よりも低くなければならないという条件を外して、その代わりに、その他のすべての区分に対して2つの分類器の内の少なくとも1つのスコアが閾値よりも低いことを要件とする。ある実施形態では、分類システム382が、文書384をスキャンして文書384の画像385を形成する画像装置を含んでいる。そして文書384の画像385は分類システム382で利用されて、文書384に関連する1つまたは複数の区分392が識別される。ある実施形態では、文書384は既に文書の画像となっていて、分類システム382に直接利用され、その文書384に関連する1つまたは複数の区分392が識別される。分類システム382については、図4Cおよび5Fに関連してより詳細を説明する。
図4Cはある実施形態による文書区分を識別する方法460のフロー図である。方法460は訓練システム(例えば、図2Cの訓練システム281)及び分類システム(例えば、図3Cの分類システム382)によって実行される操作に対応する。特に、方法460は訓練ステージ461と分類ステージ462とを含む。一般的に、訓練ステージ461は訓練システム(例えば、図2Cの訓練システム281)上で実行され、分類ステージ462は分類システム(例えば、図3Cの分類システム382)上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。
訓練ステージ461の操作は、分類ステージ462の操作の前に実行される。
訓練システムが訓練用文書及び関連する区分を受け取ると(464)、訓練ステージ461が始まる。前述したように、各訓練用文書は1つまたは複数の区分に関連している。訓練システムが訓練文書をスキャンし(466)、文書画像467の集合を形成する。あるいは、訓練文書が既にスキャンされている場合には、ステップ466は省略される。
文書画像集合467の各画像に対して、訓練システムが文書画像を複数のタイル469に分割し(468)、文書画像及び複数のタイル469の特徴を計算する(470)。ある実施形態では、文書ページの特徴(例えば、テキストの行数、フォントの大きさ等)が識別可能なように、訓練システムが文書画像を複数のタイル469に分割する。
次いで、訓練システムが少なくとも1つの区分分類器を訓練して(472)、文書画像集合467の文書画像の特徴と、文書画像集合467の複数のタイルの特徴と、文書画像集合467の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像を区分に関連するものとして分類する。
次に図5Eに注目すると、これは図4Cのステップ472の操作を説明するフロー図となっている。各区分に関し、文書画像集合467の第1の部分集合の特徴と、文書画像集合467の第1の部分集合に関連する複数のタイルの特徴とに基づいて、訓練システムが、第1の区分に対応する第1の区分分類器(例えば、図4Cにおける、訓練済みSVM/区分分類器の第1の集合473)を訓練する(552)。訓練システムが、文書画像集合467の第2の部分集合を用いて第1の区分分類器のパラメータを調整する(チューニングする)(554)。ここで、文書画像集合467の第1の部分集合と第2の部分集合とは互いに排他的な文書画像の集合である。このように、訓練システムが、特定のSVMパラメータ値の集合に基づいて第1の区分分類器を訓練し、文書画像集合467の第2の部分集合を用いて、第1の区分分類器のSVMパラメータを調整する。ある実施形態では、文書画像集合467の第2の部分集合で最適の結果をもたらすSVMパラメータ値が、第1の区分分類器に対するSVMパラメータ値として使用される。次に、文書画像集合467の第2の部分集合の特徴と、文書画像集合467の第2の部分集合に関連する複数のタイルの特徴とに基づいて、訓練システムが、第1の区分に対応する第2の区分分類器(例えば、図4Cにおける、訓練済みSVM/区分分類器の第2の集合474)を訓練する(556)。訓練システムが、文書画像集合467の第1の部分集合を用いて第2の区分分類器のパラメータを調整する(558)。このように、訓練システムが、特定のSVMパラメータ値の集合に基づいて第2の区分分類器を訓練し、文書画像集合467の第1の部分集合を用いて、第2の区分分類器のSVMパラメータを調整する。ある実施形態では、文書画像集合467の第1の部分集合で最適の結果をもたらすSVMパラメータ値が、第2の区分分類器に対するSVMパラメータ値として使用される。ある実施形態では、文書画像集合の第1の部分集合が、第1の区分及びその他の区分の両方に関連する文書画像を含む。ある実施形態では、文書画像集合の第1の部分集合が、第1の区分に関連する文書画像のみを含む。ある実施形態では、文書画像集合の第2の部分集合が、第2の区分及びその他の区分の両方に関連する文書画像を含む。ある実施形態では、文書画像集合の第2の部分集合が、第2の区分に関連する文書画像のみを含む。
図4Cに戻ると、少なくとも1つの分類器の訓練が行われると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが(例えば、ユーザからの)文書を受け取って(476)、分類ステージ462が始まる。一般に、この文書は訓練用文書の一部ではない文書である。分類システムが文書をスキャンして(478)、文書画像479を形成する。あるいは、訓練文書が既にスキャンされている場合には、ステップ478は省略される。
分類システムが文書画像479を複数のタイル481に分割し(480)、文書画像479および複数のタイル481の特徴483を計算する(482)。ある実施形態では、文書ページの特徴(例えば、テキストの行数、フォントの大きさ等)が識別可能なように、訓練システムが文書画像を複数のタイル481に分割する。ある実施形態では、特徴483が、図4A及び5A〜5Bに関して前に説明した確率、尤度が含まれる。次に分類システムは、文書画像479の特徴483及び複数のタイル481の特徴483に基づいて、文書画像479に関連する1つまたは複数の区分485を識別する(484)。
次に図5Fに注目すると、これは図4Cのステップ484の操作を説明するフロー図となっている。分類システムが、区分分類器の第1の集合(例えば、図4Cにおける、訓練済みSVM/区分分類器の第1の集合473)を、文書画像479の特徴483及び文書画像479に関連する複数のタイル481に適用して(562)、スコアの第1の集合を形成する。分類システムが、区分分類器の第2の集合(例えば、図4Cにおける、訓練済みSVM/区分分類器の第2の集合474)を、文書画像479の特徴483及び文書画像に関連する複数のタイル481に適用して(564)、スコアの第2の集合を形成する。次に分類システムが第1の集合のスコアと第2の集合のスコアを統合して(566)、統合スコアを形成し、その統合スコアに基づいて文書画像479に関連する1つまたは複数の区分を識別する(568)。ある実施形態では、第1の集合のスコアと第2の集合のスコアとのどちらかの集合のスコアが特定の閾値を越えているかどうかを判定して、分類システムが2つの集合のスコアを統合する。閾値を越えている場合には、その文書画像479はその閾値を越えたスコアに対応する1つまたは複数の区分に関連するものとして識別される。ある実施形態では、第1の集合のスコアと第2の集合のスコアが重み付きで統合され、文書画像479に関連する1つまたは複数の区分の識別に利用される。
図4Cに戻って、ある実施形態では1つまたは複数の区分485を識別した後、分類システムが区分に特有なコンテンツを取得し(486)、その区分に特有なコンテンツをディスプレイ装置(例えば、分類システム、サーバ、クライアントのコンピュータシステム等のディスプレイ装置)に表示する(488)。例えば、区分特有のコンテンツが、1つまたは複数の区分485に関連する製品および/またはサービスの広告を含んでいてもよい。ある実施形態では、1つまたは複数の区分485が戻される。これらの実施形態においては、1つまたは複数の区分485がユーザおよび/またはアプリケーションによって特定の操作を行うために使用される(例えば、1つまたは複数の区分485に基づいて検索を行う)。
ある実施形態では、分類システムが区分特有のコンテンツを取得した後、その区分特有のコンテンツを含む電子メッセージを1人または複数の特定のユーザに伝送する。例えば、電子メール、ショートメッセージサービス(SMS)、マルチメディアメッセージサービス(MMS)などのメッセージを介して、分類システムが特定のユーザに電子メッセージを伝送してもよい。
ある実施形態では、文書画像の部分集合が、複数のページを有する文書に関連する。このような実施形態においては、訓練ステージ461及び分類ステージ462は文書の各ページに対して実行されてもよい。
図4A〜4C及び5A〜5Fで説明された方法は、コンピュータ可読記憶媒体に格納され、訓練システムおよび/または分類システムの1つまたは複数のプロセッサにより実行される命令により支配されてもよい。図4A〜4C及び5A〜5Fに示された操作のそれぞれは、コンピュータのメモリあるいはコンピュータ可読記憶媒体中に格納された命令に対応してもよい。コンピュータ可読記憶媒体としては、磁気もしくは光のディスク記憶装置、フラッシュメモリのような固体記憶装置、もしくはその他の1つまたは複数の非揮発性メモリ装置が含まれてもよい。コンピュータ可読記憶媒体に格納されたコンピュータ可読命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、あるいは1つまたは複数のプロセッサによって解釈されるその他の命令フォーマットで書かれている。
図9は、ある実施形態による訓練システム900を示すブロック図である。訓練システム900は図2A、2B、2Cの各訓練システム201、251、281の内の任意のものであってよい。訓練システム900は一般に、1つまたは複数のプロセスユニット(CPU)902、1つまたは複数のネットワークないしはその他の通信インタフェース904、メモリ910、およびこれらの部品を相互接続するための1つまたは複数の通信バス909を含んでいる。オプションとしては、訓練システム900は文書を光学的にスキャンして文書画像(例えば、文書のデジタル画像)を形成できるように設定された、画像装置960を含んでもよい。通信バス909はシステム部品間を相互接続し通信を制御する回路(チップセットとも呼ばれる)を含んでもよい。訓練システム900はオプションとして、ディスプレイ装置906及び入力装置908(例えば、キーボード、マウス、タッチスクリーン、キーパッドなど)からなるユーザインタフェース905を含んでもよい。メモリ910は、DRAM、SRAM、DDR RAMやその他のランダムアクセス固体メモリ装置などの高速ランダムアクセスメモリを含み、1つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置やその他の不揮発性固体素子記憶装置などの不揮発性メモリを含んでもよい。メモリ910はオプションとして、CPU902からはリモートに位置する1つまたは複数の記憶装置を含んでもよい。メモリ910、あるいはそれに代わる、メモリ910中の不揮発メモリ装置は、コンピュータ可読記憶媒体から構成される。
メモリ910が下記のプログラム、モジュール、データ構造、あるいはそれらのサブセットを格納する。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム912。
1つまたは複数の(有線あるいは無線)通信インタフェース904、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して、訓練システム900を他のシステムへ接続するために使用される通信モジュール914。
入力装置908を介してユーザからの命令を受け取り、ディスプレイ装置906中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール916。
画像装置960からの画像(例えば、文書画像942)を取得するためのプロシージャを含むオプション画像モジュール918。
本明細書で説明したように文書画像をタイルに分割する分割モジュール922と、本明細書で説明したように文書画像および/またはタイルの特徴を抽出する特徴抽出モジュール924と、本明細書で説明したように特徴が区分の1つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール926と、及び本明細書で説明したように1つまたは複数のSVM/区分分類器に訓練を施すSVM/区分分類器モジュール928と、を含む訓練モジュール920。
SVM/区分分類器モジュール928によって形成される、訓練済みSVM/区分分類器940。
訓練モジュール920で使用される文書画像942(例えば、画像装置960から取得される画像)。
各文書画像に対する区分情報(例えば、個別の文書、データベース、ファイルなどの中に提供されている区分情報、文書のメタデータから抽出される区分情報など)を含む、文書画像に関連する区分944。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム912。
1つまたは複数の(有線あるいは無線)通信インタフェース904、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して、訓練システム900を他のシステムへ接続するために使用される通信モジュール914。
入力装置908を介してユーザからの命令を受け取り、ディスプレイ装置906中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール916。
画像装置960からの画像(例えば、文書画像942)を取得するためのプロシージャを含むオプション画像モジュール918。
本明細書で説明したように文書画像をタイルに分割する分割モジュール922と、本明細書で説明したように文書画像および/またはタイルの特徴を抽出する特徴抽出モジュール924と、本明細書で説明したように特徴が区分の1つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール926と、及び本明細書で説明したように1つまたは複数のSVM/区分分類器に訓練を施すSVM/区分分類器モジュール928と、を含む訓練モジュール920。
SVM/区分分類器モジュール928によって形成される、訓練済みSVM/区分分類器940。
訓練モジュール920で使用される文書画像942(例えば、画像装置960から取得される画像)。
各文書画像に対する区分情報(例えば、個別の文書、データベース、ファイルなどの中に提供されている区分情報、文書のメタデータから抽出される区分情報など)を含む、文書画像に関連する区分944。
上記の識別された要素のそれぞれは、前述の1つまたは複数のメモリ装置に格納され、上記の機能を遂行するための一連の命令に対応する。一連の命令は、1つまたは複数のプロセッサ(例えば、CPU902)で実行することができる。上記の識別されたモジュールやプログラム(即ち、命令セット)は、個別のソフトウェアプログラムやプロシージャ、モジュールとして実装される必要はなく、従ってこれらのモジュールのさまざまなサブセットがさまざまな実施形態において、統合されたり、他の形で再配置されたりしてもよい。ある実施形態では、メモリ910が上記に示されたモジュール及びデータ構造のサブセットを格納する。更に、メモリ910は、上では述べていない追加のモジュール及びデータ構造を格納してもよい。
なおこの実施形態において、分割モジュール922は分割手段に相当し、特徴抽出モジュール924は特徴計算手段に相当し、確率モデルモジュール926は確率モデル計算手段に相当し、SVM/区分分類器モジュール928は区分分類器訓練手段に相当する。
なおこの実施形態において、分割モジュール922は分割手段に相当し、特徴抽出モジュール924は特徴計算手段に相当し、確率モデルモジュール926は確率モデル計算手段に相当し、SVM/区分分類器モジュール928は区分分類器訓練手段に相当する。
図9は「訓練システム」を示すが、図9は、本明細書で説明する実施形態の概略構造としてだけでなく、訓練システムの中に存在するさまざまな特徴に関する機能的説明をすることが意図されている。実際に、また当業者には認識されるように、分離されて表示されたアイテムを統合することもできるし、アイテムのあるものは分離することも可能である。例えば、図9で分離して示されているアイテムを1つの訓練システム上に実装することもできるし、また単一のアイテムを1つまたは複数の訓練システムに実装することも可能である。更に、訓練システム900は分類システムに含まれてもよい。例えば、画像システム(例えば、図1の画像システム104)が、分類システムと訓練システム900の両方を含んでもよい。
図10は、ある実施形態による分類システム1000を示すブロック図である。分類システム1000は図3A、3B、3Cの各訓練システム302、352、382の内の任意のものであってよい。分類システム1000は一般に、1つまたは複数のプロセスユニット(CPU)1002、1つまたは複数のネットワークまたはその他の通信インタフェース1004、メモリ1010、およびこれらの部品を相互接続するための1つまたは複数の通信バス1009を含んでいる。オプションとしては、分類システム1000は文書を光学的にスキャンして文書画像(例えば、文書のデジタル画像)を形成できるように設定された、画像装置1060を含んでもよい。通信バス1009はシステム部品間を相互接続し通信を制御する回路(チップセットとも呼ばれる)を含んでもよい。分類システム1000はオプションとして、ディスプレイ装置1006及び入力装置1008(例えば、キーボード、マウス、タッチスクリーン、キーパッドなど)からなるユーザインタフェース1005を含んでもよい。メモリ1010は、DRAM、SRAM、DDR RAMやその他のランダムアクセス固体メモリ装置などの高速ランダムアクセスメモリを含み、1つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置やその他の不揮発性固体素子記憶装置などの不揮発性メモリを含んでもよい。メモリ1010はオプションとして、CPU1002からはリモートに位置する1つまたは複数の記憶装置を含んでもよい。メモリ1010、あるいはそれに代わるメモリ1010中の不揮発メモリ装置は、コンピュータ可読記憶媒体から構成される。
メモリ1010が下記のプログラム、モジュール、データ構造、あるいはそれらのサブセットを格納する。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム1012。
1つまたは複数の(有線あるいは無線)通信インタフェース1004、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して、分類システム1000を他のシステムへ接続するために使用される通信モジュール1014。
入力装置1008を介してユーザからの命令を受け取り、ディスプレイ装置1006中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール1016。
画像装置1060からの画像(例えば、文書画像1042)を取得するためのプロシージャを含むオプション画像モジュール1018。
本明細書で説明したように文書画像をタイルに分割する分割モジュール1022と、本明細書で説明したように文書画像および/またはタイルの特徴を抽出する特徴抽出モジュール1024と、本明細書で説明したように特徴が区分の1つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール1026と、本明細書で説明したように1つまたは複数の訓練済みSVM/区分分類器(例えば訓練済みSVM/区分分類器1040)に適用して文書画像(例えば、文書画像1042)に関連する1つまたは複数の区分(例えば、区分1030)を識別するSVM/区分分類器モジュール1028と、を含む分類モジュール1020。
訓練システム(例えば、図9の訓練システム900)によって形成される、訓練済みSVM/区分分類器1040。
分類モジュール1020で使用される文書画像1042(例えば、画像装置1060から取得される画像)。
分類モジュール1020によって識別される文書画像1044に関連する区分。
通信インタフェース1004を介して1つまたは複数のサーバから区分特有のコンテンツ1048を取得するオプションの区分特有コンテンツモジュール1046。ここで、本明細書で説明したように、区分特有のコンテンツ1048はディスプレイ装置1006上に表示されるか、あるいは通信インタフェース1004を介して特定のユーザへ電子的に伝送されてもよい。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム1012。
1つまたは複数の(有線あるいは無線)通信インタフェース1004、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して、分類システム1000を他のシステムへ接続するために使用される通信モジュール1014。
入力装置1008を介してユーザからの命令を受け取り、ディスプレイ装置1006中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール1016。
画像装置1060からの画像(例えば、文書画像1042)を取得するためのプロシージャを含むオプション画像モジュール1018。
本明細書で説明したように文書画像をタイルに分割する分割モジュール1022と、本明細書で説明したように文書画像および/またはタイルの特徴を抽出する特徴抽出モジュール1024と、本明細書で説明したように特徴が区分の1つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール1026と、本明細書で説明したように1つまたは複数の訓練済みSVM/区分分類器(例えば訓練済みSVM/区分分類器1040)に適用して文書画像(例えば、文書画像1042)に関連する1つまたは複数の区分(例えば、区分1030)を識別するSVM/区分分類器モジュール1028と、を含む分類モジュール1020。
訓練システム(例えば、図9の訓練システム900)によって形成される、訓練済みSVM/区分分類器1040。
分類モジュール1020で使用される文書画像1042(例えば、画像装置1060から取得される画像)。
分類モジュール1020によって識別される文書画像1044に関連する区分。
通信インタフェース1004を介して1つまたは複数のサーバから区分特有のコンテンツ1048を取得するオプションの区分特有コンテンツモジュール1046。ここで、本明細書で説明したように、区分特有のコンテンツ1048はディスプレイ装置1006上に表示されるか、あるいは通信インタフェース1004を介して特定のユーザへ電子的に伝送されてもよい。
上記の識別された各要素は、前述の1つまたは複数のメモリ装置に格納されてもよく、上記の機能を遂行するための一連の命令に対応する。一連の命令は、1つまたは複数のプロセッサ(例えば、CPU1002)で実行することができる。上記の識別されたモジュールやプログラム(即ち、命令セット)は、個別のソフトウェアプログラムやプロシージャ、モジュールとして実装される必要はなく、従ってこれらのモジュールのさまざまなサブセットがさまざまな実施形態において、統合されたり、他の形で再配置されたりしてもよい。ある実施形態では、メモリ1010が上記に示されたモジュール及びデータ構造のサブセットを格納する。更に、メモリ1010は、上では述べていない追加のモジュール及びデータ構造を格納してもよい。
なおこの実施形態において、通信モジュール1014及び画像モジュール1018は受取手段に相当し、分割モジュール1022は分割手段に相当し、特徴抽出モジュール1024は特徴計算手段に相当し、確率モデルモジュール1026は確率モデル計算手段に相当し、SVM/区分分類器モジュール1028は区分分類手段に相当する。
なおこの実施形態において、通信モジュール1014及び画像モジュール1018は受取手段に相当し、分割モジュール1022は分割手段に相当し、特徴抽出モジュール1024は特徴計算手段に相当し、確率モデルモジュール1026は確率モデル計算手段に相当し、SVM/区分分類器モジュール1028は区分分類手段に相当する。
図10は「分類システム」を示すが、図10は、本明細書で説明する実施形態の概略構造としてだけでなく、分類システムの中に存在してもよいさまざまな特徴に関する機能的説明をすることが意図されている。実際に、また当業者には認識されるように、分離されて表示されたアイテムを統合することもできるし、アイテムのあるものは分離することも可能である。例えば、図10で分離して示されているアイテムを1つの分類システム上に実装することもできるし、また単一のアイテムを1つまたは複数の分類システムに実装することも可能である。更に、分類システム1000が訓練システムを含んでもよい。例えば、画像システム(例えば、図1の画像システム104)が、訓練システム900と分類システム1000の両方を含んでもよい。
ある実施形態では、訓練システム900と分類システム1000は同一のシステム(例えば、複写機など)に配置される。ある実施形態では、訓練システム900と分類システム1000が別々のシステム上に配置される。例えば、訓練システム900は製造元のシステムに置かれ、その一方で分類システム1000はエンドユーザのシステムに配置されてもよい。
弱いラベル付けデータの扱い
ある実施形態では、訓練セットの各文書はいくつかの区分の中の1つに手動で分類される。例えば、これらの区分には、広告、パンフレット、一般論文、ビラ、帳票、地図、公式論文、写真、領収証、規定および規則、報告書、履歴書、表等が含まれる。しかし、文書は2つ以上の区分に関連する可能性がある。例えば、ビラ形式の1ページの招待状は、「パーティ」の区分と「招待状」の区分の両方に属してもよい。このようにある実施形態では、本明細書で説明した分類システムが文書の1つまたは複数の区分を識別する。
ある実施形態では、訓練セットの各文書はいくつかの区分の中の1つに手動で分類される。例えば、これらの区分には、広告、パンフレット、一般論文、ビラ、帳票、地図、公式論文、写真、領収証、規定および規則、報告書、履歴書、表等が含まれる。しかし、文書は2つ以上の区分に関連する可能性がある。例えば、ビラ形式の1ページの招待状は、「パーティ」の区分と「招待状」の区分の両方に属してもよい。このようにある実施形態では、本明細書で説明した分類システムが文書の1つまたは複数の区分を識別する。
1対多モデルを利用してSVMに訓練を施すことにより、ページが1区分以上に分類される可能性があり、これは用途によっては望ましいことである。最高の決定関数値を有するクラスへの分類を含む多クラスSVM用の任意の標準方法によって、単一クラスへの分類は実行可能である。
評価
本明細書で説明した分類システムを、計3469ページに及ぶ599の文書からのデータを用いて評価した。文書が20ページより長い場合には、文書の最初の20ページを取り込んだ。各文書は手動で適切な区分にラベル付けした。
本明細書で説明した分類システムを、計3469ページに及ぶ599の文書からのデータを用いて評価した。文書が20ページより長い場合には、文書の最初の20ページを取り込んだ。各文書は手動で適切な区分にラベル付けした。
データは、3つの部分(訓練、展開、検査)に分け、各部分に1つの区分からほぼ同数の文書を割り当てた。これまでに、訓練部分及び展開部分が本実験で用いられた。
第1の実験が行われ、平均及び共分散を特徴とする8成分のガウス混合モデルが各区分に対して計算された。展開データの各ページは、ページ内のタイルによる均一な投票の後、最大スコアのクラスに分類された。この結果を図11に示す。図11からわかるように、写真と領収証が比較的良好に識別されている。
潜在クラス及びSVMを用いて第2の実験を行った。潜在クラスは訓練部分で算出され、クラスモデルを用いて各検査ページのクラス確率を計算した。展開データにジャックナイフ法を用い、1つの文書からのものを除いて、すべてのページでモデルを訓練し、訓練済みのモデルは残されたページ上で評価された。そして、すべての文書に対する結果が統合された。これらの結果は、図12に示すように、確度(例えば、分類システムにより決定された区分が実際の区分に一致する度合い)、精度(例えば、特定の区分に属するとしてシステムにより正しく識別されたページ数を、その特定の区分に属するとしてシステムにより識別された総ページ数で割った数値)、および再現尺度(例えば、特定の区分に属するとしてシステムにより正しく識別されたページ数を、実際にその特定の区分に属するコーパス中の総ページ数で割った数値)を用いて要約される。図12に示されているように、1対多モデルの方がクラスのあるもの(例えば、ビラ、地図及び論文)に対して図11の投票方式よりも良好な再現をしている。これは、ビラや地図のあるものは他の区分にも入り(例えば、招待状はビラでもある)、文書は1つだけの区分にラベル付けされるからである。また、SVMを利用すると、パラメータの設定が精度よりも再現性に偏ってしまう。パラメータの設定は、再現性を犠牲にして、精度を向上させるように調整することができる。
本明細書で説明した技術を、キム(Kim)とロス(Ross)が提示した技術と比較する第3の実験を行った。(非特許文献7を参照。)キムとロスが解析した区分は科学記事を含んでおり、本明細書で記述している「論文」のカテゴリと類似している。キムとロスは、彼らの画像ベースの区分分類器に関して、精度と再現性でそれぞれ0.21と0.80を得ている。キムとロスはビジネス報告書についても解析し、精度0.56、再現性0.636を報告している。キムとロスは、画像特徴に基づく2つの異なるデータセットにおける精度と再現性を計算し、(非特許文献8を参照。)、彼らの第2のデータセットに対するSVMも含めた、3つの異なる分類器での最適結果を報告した。ビジネス報告書の区分に関しては、キムとロスは、彼らの第1のデータセットに対して、精度0.273と再現性0.2を報告している。キムとロスの第2のデータセットにおけるビジネス報告書に対しては、精度0.385と再現性0.05であった。
キムとロス(非特許文献7を参照)およびキムとロス(非特許文献8を参照)における説明に基づいて、62×62のグリッドを利用した画像分類器を実装し、少なくとも1ピクセルが245よりも小さい値を取るすべての領域に値「0」を割り当て、その他の領域に値「1」を割り当てた。キムとロス(非特許文献7を参照)に引用されているWekaナイーブベイズ分類器の2つのバージョンをデータセットに対して適用した。2つのバージョンは、(1)プレーンと(2)カーネル密度評価付きである。相対的評価のために、情報検索(IR)でしばしば使用される、精度と再現性の調和平均であるF1を計算した。
図13からわかるように、本明細書で説明した分類システム(例えば、図13で「GenIE」のラベルの付いたもの)が異なるカテゴリの全体に対してより優れていた。GenIEのF1が、我々の実装によるキムとロスシステムのいずれよりも、平均で0.19大きかった。
5つの区分について、0以上でラベル付けしたページの第2のコーパスを生成した。5つの区分は、パンフレット、地図、論文、写真、表の各区分である。3000ページ以上で約2000のラベルが使用された。コーパスを、各パーティションがほぼ同数の文書数を有する3つのパーティションに分けた。
図14はある実施形態による、分類システムの確度、精度、再現性を示す別のグラフである。図14に、各区分に均等な重み付けをした、5つの区分に対する単一SVM分類システムの性能、及び5つの区分全体の平均性能がプロットされている。性能は精度、再現性、およびF1で表されている。
図15はある実施形態による、分類システムの確度、精度、再現性を示す別のグラフである。図15には、第3の分類技術の性能がプロットされている。これは、図14で使用したのと同一のデータに対して、2つの独立に訓練したSVM(例えば、図2C、3C、4C、5E、5Fに関して説明したもの)からの結果を統合したものである。すべての区分に対して精度は90%を超えており、論文と写真の区分に対しては100%に近い。全体的な精度と再現性が、基本の単一SVM分類システムよりも増加している。
ある実施形態では、より高い精度を求めるために、複数のランダムなパーティションが生成され、各パーティション上で複数のペアになった分類器が訓練および調整され、異なるパーティションからの分類あるいは決定関数スコアが統合されて、1つまたは複数の区分が識別される。
本発明の実施形態の一つは、文書区分識別用の区分モデルを生成するためのシステム、命令を含むコンピュータ可読記憶媒体、及びコンピュータに実装された方法を提供する。1つまたは複数の区分に関連する文書画像集合における各文書画像に対して、その文書画像が複数のタイルに分割される。この複数のタイルは、文書ページの特徴(例えば、タイル中のテキストの行数など)が識別可能な大きさであり、文書画像及び複数のタイルの特徴が計算される。少なくとも1つの区分分類器を訓練して、文書画像集合中の文書画像の特徴と、文書画像集合中の複数のタイルの特徴と、文書画像集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、文書画像を1つまたは複数の区分に関連するものとして分類させる。
ある実施形態においては、以下のように文書画像を第1の区分に関連するものとして分類できるように、第1の少なくとも1つの区分分類器に対して訓練が行われる。文書画像の集合の中から、構成している各文書画像が第1の区分に関連している部分集合が識別される。文書画像の特徴と、文書画像に関連する複数のタイルの特徴と、どの文書画像が第1の区分に関連するとして識別された文書画像の部分集合に対応するかを示す情報と、に基づいて、第1の区分に対応する第1の区分分類器が訓練される。文書画像集合中の少なくとも文書画像部分集合に関して、各文書画像及び文書画像に関連する複数のタイルに区分分類器の集合が適用されて、スコアの集合が形成される。各区分に関して、各文書画像に対するスコアの集合と、各文書画像に関連する1つまたは複数の区分と、各文書画像の複数のタイルのタイル位置とに基づいて、文書画像を第1の区分に関連するものとして分類するように、第1の区分に対応する第2の区分分類器が訓練される。
ある実施形態において、文書画像集合における文書画像に関連する区分の少なくとも部分集合中の各区分に対して以下の操作を行なうことにより、第1の少なくとも1つの区分分類器が、個々の文書画像を1つまたは複数の区分に関連するものとして分類するように訓練される。(1)文書画像集合からタイルの部分集合が選択される。ここで、タイルの部分集合中の各タイルはその区分に関連している。(2)タイル部分集合中のタイルは、そのタイルの特徴によってクラスタリングされる。(3)区分に対する確率モデルが生成される。ここで区分に対する確率モデルとは、個々のタイルの個々の特徴がその区分のクラスタの1要素である尤度を示し、確率モデルが確率モデル集合に含まれ、そのそれぞれが区分部分集合における1区分に対応する。文書画像集合の少なくともその部分集合に関して、確率モデルが文書画像の部分集合及びその文書画像の部分集合に関連する複数のタイルに対して適用されて、文書画像の部分集合における個々の文書画像が1つまたは複数の区分の要素である確率の集合が形成される。この確率の集合と、文書画像の部分集合における各文書画像に関連する1つまたは複数の区分とに基づいて、個々の文書画像を1つまたは複数の区分に関連しているものとして分類するように第1の区分分類器が訓練される。
ある実施形態においては、第1の少なくとも1つの区分分類器が、以下のように文書画像を第1の区分に関連するとして分類できるように訓練される。第1の区分に対応する第1の区分分類器が、(1)文書画像集合の第1の部分集合の特徴(例えば、以下で説明するように文書ページの特徴やタイルの特徴など)、及び(2)文書画像集合の第1の部分集合に関連する複数のタイルの特徴に基づいて訓練される。文書画像集合の第2の部分集合を用いて第1の区分分類器のパラメータが調整される。ここで、文書画像集合の第1の部分集合と第2の部分集合とは互いに排他的な文書画像集合である。文書画像集合の第2の部分集合の特徴と、文書画像集合の第2の部分集合に関連する複数のタイルの特徴とに基づいて、第1の区分に対応する第2の区分分類器が訓練される。文書画像集合の第1の部分集合を用いて第2の区分分類器のパラメータが調整される。
本発明の実施形態のあるものが、文書の区分を識別するためのシステム、命令を含むコンピュータ可読記憶媒体、及びコンピュータに実装された方法を提供する。文書の文書画像が受け取られる。文書画像は文書画像の複数のタイルに分割される。ここで、複数のタイル中のタイルは文書の特徴(例えば、テキストの行数、フォントの高さ、など)が識別可能な寸法とされる。文書画像及び複数のタイルの特徴が計算される。文書画像の特徴及び複数のタイルの特徴に基づいて、文書画像に関連する1つまたは複数の区分が識別される。
ある実施形態において、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて、以下のように文書画像に関連する1つまたは複数の区分が識別される。第1の組の区分分類器を文書画像の特徴および文書画像に関連する複数のタイルに適用してスコアの集合が形成される。第2の区分分類器集合を、文書画像のスコア集合に適用して、その文書画像に関連する1つまたは複数の区分を識別する。
ある実施形態において以下のように、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて文書画像に関連する1つまたは複数の区分が識別される。各区分に対して、文書画像の特徴と文書画像の複数のタイルの特徴とが、区分クラスタの構成要素である尤度が、区分の確率モデルに基づいて計算される。計算された尤度に対して区分分類器を適用して、文書画像に関連する1つまたは複数の区分が識別される。
ある実施形態において以下のように、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて文書画像に関連する1つまたは複数の区分が識別される。第1の区分分類器集合を文書画像の特徴および文書画像に関連する複数のタイルに適用して第1のスコア集合を形成する。第2の区分分類器集合を文書画像および文書画像に関連する複数のタイルの特徴に適用して第2のスコア集合を形成する。第1のスコア集合と第2のスコア集合を統合して統合スコア集合を形成する。統合スコア集合に基づいて文書画像に関連する1つまたは複数の区分が識別される。
以上の説明においては、説明の目的で、特定の実施形態を参照して記述を行った。しかし、上記の実例による議論は網羅的であることは意図されておらず、また本発明を開示したそのものの形態に限定する意図もない。上記の教示に鑑みて、多くの修正及び変形が可能である。実施形態は本発明の原理および実際の適用を最もよく説明するように選ばれて記述された。これにより本発明及び考えられる特定の利用に対して好適なさまざまな修正を有する種々の実施形態を、当業者が最適に利用することを可能ならしめるものである。
Claims (32)
- 文書の区分を識別するために用いる区分モデルを生成するためのコンピュータに実装された方法であって、
コンピュータシステムのメモリに格納された1つまたは複数のプログラムを実行する1つまたは複数のプロセッサを有するコンピュータシステム上で、
1つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、
分割手段が、前記文書画像を、各々が前記文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、
特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、
区分分類器訓練手段が、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記1つまたは複数の区分とに基づいて、文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練する、
ことを含むコンピュータに実装された方法。 - 前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、
前記文書画像の集合から、第1の区分に関連している文書画像の部分集合を識別し、
前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴と、前記第1の区分に関連すると識別された前記文書画像部分集合に対応する文書画像を示す情報とに基づいて前記第1の区分に対応する前記第1の区分分類器を訓練し、
前記文書画像集合中の少なくとも1つの文書画像部分集合に対して、前記区分分類器の集合を、前記文書画像部分集合中の文書画像と、前記文書画像部分集合に関連する複数のタイルとに適用して、スコアの集合を形成し、
前記文書画像部分集合中の文書画像に対する前記スコアの集合と、各文書画像に関連する1つまたは複数の区分と、各文書画像の複数のタイル内のタイルの位置とに基づいて、前記第1の区分に関連するものとして文書画像を分類するように、前記第1の区分に対応する第2の区分分類器を訓練する、
ことを含む請求項1に記載のコンピュータに実装された方法。 - 前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、
前記文書画像集合中の前記文書画像に関連する区分のうちの少なくとも部分集合中の各区分に対して、
前記文書画像集合から、区分に関連しているタイルの部分集合を選択し、
前記タイルの特徴に基づいて前記タイル部分集合のタイルをクラスタリングし、
各タイルの特徴が区分のクラスタの1要素である尤度を示す、区分の確率モデルを生成し、該確率モデルは確率モデルの集合の中に含まれ、該確率モデル各々が区分の集合のうちの1区分に対応しており、
前記文書画像集合中の文書画像のうちの少なくとも部分集合に対して、前記文書画像部分集合と前記文書画像部分集合に関連する複数のタイルとに確率モデルを適用し、前記文書画像部分集合中の各文書画像が1つまたは複数の区分の要素である確率の集合を形成し、
前記確率の集合と、前記文書画像部分集合中の各文書画像に関連する1つまたは複数の区分とに基づいて、前記各文書画像を1つまたは複数の区分に関連しているものとして分類するように、前記第1の区分分類器を訓練する、
ことを含む請求項1に記載のコンピュータに実装された方法。 - 前記文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練することが、
前記文書画像集合の第1の部分集合の特徴と、前記文書画像集合の前記第1の部分集合に関連する複数のタイルの特徴とに基づいて、第1の区分に対応する第1の区分分類器を訓練し、
前記文書画像集合の前記第1の部分集合と互いに排他的な文書画像の集合である前記文書画像集合の第2の部分集合を用いて前記第1の区分分類器のパラメータを調整し、
前記文書画像集合の第2の部分集合の特徴と、前記文書画像集合の前記第2の部分集合に関連する複数のタイルの特徴とに基づいて、前記第1の区分に対応する第2の区分分類器を訓練し、
前記文書画像集合の前記第1の部分集合を用いて前記第2の区分分類器のパラメータを調整する、
ことを含む請求項1に記載のコンピュータに実装された方法。 - 前記文書画像の部分集合は複数のページを含む文書に関連し、
前記方法は前記文書の各ページに対して実行される
請求項1に記載のコンピュータに実装された方法。 - 前記特徴が、文書ページの特徴と、タイルの特徴と、を含む
請求項1に記載のコンピュータに実装された方法。 - 前記文書ページの特徴が、各ページの段数と、各ページの水平の行数と、各ページの垂直の行数と、各ページの水平行の長さのヒストグラムと、各ページの垂直行の長さのヒストグラムと、各ページのページ寸法と、文書中のページ数とのうちの少なくとも1つを含む
請求項6に記載のコンピュータに実装された方法。 - 前記タイルの特徴が、各タイルの密度と、各タイルのテキストの行数と、各タイルのテキストの平均フォントサイズと、各タイルのテキストの中央値フォントサイズと、各タイルの行幅のヒストグラムと、各タイルの色コレログラムからの値の部分集合と、文書画像中の各タイルの物理的な位置とのうちの少なくとも1つを含む
請求項6に記載のコンピュータに実装された方法。 - 前記複数のタイルは所定の順序で配置されている
請求項1に記載のコンピュータに実装された方法。 - 前記文書画像を複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択される
請求項1に記載のコンピュータに実装された方法。 - 前記特定のタイル数は25である
請求項10に記載のコンピュータに実装された方法。 - 前記区分分類器は、訓練されたサポートベクトルマシン(SVM)である
請求項1に記載のコンピュータに実装された方法。 - コンピュータに、
1つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、
前記文書画像を、各々が前記文書ページの特徴が識別可能な寸法とされた複数のタイルに分割し、
前記文書画像及び前記複数のタイルの特徴を計算し、
前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記1つまたは複数の区分とに基づいて、文書画像を1つまたは複数の区分に関連するものとして分類するように、少なくとも1つの区分分類器を訓練する、
ことを含む文書の区分を識別するために用いる区分モデルを生成するための処理を実行させるためのプログラム。 - 文書の区分を識別するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された1つまたは複数のプログラムを実行する1つまたは複数のプロセッサを有する前記コンピュータシステム上で、
受取手段が、文書の文書画像を受け取り、
分割手段が、前記文書画像を、各々が文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、
特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、
区分分類手段が、前記文書画像の特徴と前記複数のタイルの特徴とに基づいて前記文書画像に関連する1つまたは複数の区分を識別する、
ことを含むコンピュータに実装された方法。 - 前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、
区分分類器の第1の集合を、前記文書画像の特徴と、前記文書画像に関連する複数のタイルの特徴とに適用して、スコアの集合を形成し、
区分分類器の第2の集合を、前記文書画像の前記スコアの集合と、前記文書画像の前記複数のタイル内のタイルの位置とに適用して、前記文書画像に関連する前記1つまたは複数の区分を識別する、
ことを含む請求項14に記載のコンピュータに実装された方法。 - 前記区分分類器の第1の集合及び第2の集合が、前記区分分類器の訓練の段階で生成される
請求項15に記載のコンピュータに実装された方法。 - 前記区分分類器の第1の集合及び第2の集合が、訓練されたサポートベクトルマシン(SVM)である
請求項15に記載のコンピュータに実装された方法。 - 前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、
各区分に対して、前記文書画像の特徴と前記文書画像の複数のタイルの特徴とが区分のクラスタの構成要素である尤度を、区分の確率モデルに基づいて計算し、
区分分類器を前記計算された尤度に適用して、前記文書画像に関連する前記1つまたは複数の区分を識別する、
ことを含む請求項14に記載のコンピュータに実装された方法。 - 前記区分分類器及び確率モデルが、前記区分分類器の訓練の段階で生成される
請求項18に記載のコンピュータに実装された方法。 - 前記区分分類器は、訓練されたサポートベクトルマシン(SVM)である
請求項18に記載のコンピュータに実装された方法。 - 前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記1つまたは複数の区分を識別することが、
区分分類器の第1の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第1の集合を形成し、
区分分類器第2の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第2の集合を形成し、
前記スコアの第1の集合と前記スコアの第2の集合とを統合して、統合したスコア集合を形成し、
前記統合したスコア集合に基づいて前記文書画像に関連する前記1つまたは複数の区分を識別する、
ことを含む請求項14に記載のコンピュータに実装された方法。 - 前記区分分類器の第1の集合及び第2の集合が、前記区分分類器の訓練の段階で生成される
請求項21に記載のコンピュータに実装された方法。 - 前記区分分類器の第1の集合及び第2の集合が、訓練されたサポートベクトルマシン(SVM)である
請求項21に記載のコンピュータに実装された方法。 - 前記文書画像を前記複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択される
請求項14に記載のコンピュータに実装された方法。 - 前記特定のタイル数は25である
請求項24に記載のコンピュータに実装された方法。 - 前記文書画像を受け取ることが、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちの1つの画像装置から前記文書画像を受け取ることを含む
請求項14に記載のコンピュータに実装された方法。 - 前記文書に関連する前記1つまたは複数の区分に関連するコンテンツを表示することを含む
請求項14に記載のコンピュータに実装された方法。 - コンピュータに、
文書の文書画像を取得し、
前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、
前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、
前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する1つまたは複数の区分を識別する、
ことを含む文書の区分を識別するための処理を実行させるためのプログラム。 - 画像処理システムであって、
1つまたは複数のプロセッサと、
メモリと、
前記メモリに格納された1つまたは複数のプログラムと、
を備え、
前記1つまたは複数のプログラムが、前記1つまたは複数のプロセッサに、
文書の文書画像を取得し、
前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、
前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、
前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する1つまたは複数の区分を識別する、
処理を行わせることを含む、画像処理システム。 - 前記文書から前記文書画像を形成するように設定された画像装置を含む
請求項29に記載の画像処理システム。 - 前記画像装置が、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちから選択される
請求項30に記載の画像処理システム。 - 前記文書に関連する前記1つまたは複数の区分に関連するコンテンツを表示するように設定された表示装置を含む
請求項29に記載の画像処理システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/437,526 US8260062B2 (en) | 2009-05-07 | 2009-05-07 | System and method for identifying document genres |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011018316A true JP2011018316A (ja) | 2011-01-27 |
Family
ID=43062350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010100833A Pending JP2011018316A (ja) | 2009-05-07 | 2010-04-26 | 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8260062B2 (ja) |
JP (1) | JP2011018316A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011243199A (ja) * | 2010-05-14 | 2011-12-01 | Palo Alto Research Center Inc | 文書分類のための画像アンカテンプレートの学習方法 |
JP2014067154A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書分類支援装置、方法及びプログラム |
JP2020528604A (ja) * | 2017-07-14 | 2020-09-24 | フェイスブック,インク. | メッセージングプラットフォームのためのイベント追跡 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010015422A1 (en) * | 2008-08-06 | 2010-02-11 | Technische Universität Berlin | Video-genre-classification |
US8831361B2 (en) | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
US11126720B2 (en) * | 2012-09-26 | 2021-09-21 | Bluvector, Inc. | System and method for automated machine-learning, zero-day malware detection |
US9002102B2 (en) * | 2012-12-21 | 2015-04-07 | Hewlett-Packard Development Company, L.P. | Generating training documents |
GB2513431B (en) * | 2013-04-25 | 2018-12-05 | Testplant Europe Ltd | Method for creating a label |
CN104142961B (zh) * | 2013-05-10 | 2017-08-25 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
US10311374B2 (en) * | 2015-09-11 | 2019-06-04 | Adobe Inc. | Categorization of forms to aid in form search |
EP3196811A1 (en) * | 2016-01-20 | 2017-07-26 | Accenture Global Services Limited | Cognitive document reader |
US10482323B2 (en) * | 2017-08-22 | 2019-11-19 | Autonom8, Inc. | System and method for semantic textual information recognition |
KR20200063303A (ko) | 2018-11-19 | 2020-06-05 | 삼성전자주식회사 | 영상 처리 장치 및 그 제어방법 |
US20220147843A1 (en) * | 2020-11-12 | 2022-05-12 | Samsung Electronics Co., Ltd. | On-device knowledge extraction from visually rich documents |
CN113822272A (zh) * | 2020-11-12 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 数据处理方法和装置 |
CN113037942B (zh) * | 2021-03-01 | 2022-11-25 | 北京麦哲科技有限公司 | 一种用于固定摄像头的自动文档扫描的实现方法和装置 |
US11769239B1 (en) * | 2023-05-08 | 2023-09-26 | Intuit Inc. | Model based document image enhancement |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3647518B2 (ja) * | 1994-10-06 | 2005-05-11 | ゼロックス コーポレイション | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
US6185560B1 (en) * | 1998-04-15 | 2001-02-06 | Sungard Eprocess Intelligance Inc. | System for automatically organizing data in accordance with pattern hierarchies therein |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US6456738B1 (en) * | 1998-07-16 | 2002-09-24 | Ricoh Company, Ltd. | Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document |
US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US6542635B1 (en) * | 1999-09-08 | 2003-04-01 | Lucent Technologies Inc. | Method for document comparison and classification using document image layout |
US7194134B2 (en) * | 2001-01-02 | 2007-03-20 | Microsoft Corporation | Hierarchical, probabilistic, localized, semantic image classifier |
US20020138492A1 (en) * | 2001-03-07 | 2002-09-26 | David Kil | Data mining application with improved data mining algorithm selection |
US20040013302A1 (en) * | 2001-12-04 | 2004-01-22 | Yue Ma | Document classification and labeling using layout graph matching |
US7912246B1 (en) * | 2002-10-28 | 2011-03-22 | Videomining Corporation | Method and system for determining the age category of people based on facial images |
US7492921B2 (en) * | 2005-01-10 | 2009-02-17 | Fuji Xerox Co., Ltd. | System and method for detecting and ranking images in order of usefulness based on vignette score |
US20060210133A1 (en) * | 2005-03-03 | 2006-09-21 | Sriram Krishnan | Performance adjustments in medical decision support systems |
US7756341B2 (en) * | 2005-06-30 | 2010-07-13 | Xerox Corporation | Generic visual categorization method and system |
US7949186B2 (en) * | 2006-03-15 | 2011-05-24 | Massachusetts Institute Of Technology | Pyramid match kernel and related techniques |
US7680341B2 (en) * | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
US8000538B2 (en) * | 2006-12-22 | 2011-08-16 | Palo Alto Research Center Incorporated | System and method for performing classification through generative models of features occurring in an image |
US20080195577A1 (en) * | 2007-02-09 | 2008-08-14 | Wei Fan | Automatically and adaptively determining execution plans for queries with parameter markers |
US7941391B2 (en) * | 2007-05-04 | 2011-05-10 | Microsoft Corporation | Link spam detection using smooth classification function |
US8233704B2 (en) * | 2007-06-13 | 2012-07-31 | Sri International | Exemplar-based heterogeneous compositional method for object classification |
US8041120B2 (en) * | 2007-06-26 | 2011-10-18 | Microsoft Corporation | Unified digital ink recognition |
IL188726A (en) * | 2008-01-10 | 2013-05-30 | Deutsche Telekom Ag | A stacking scheme for tasks was classified |
US7797260B2 (en) * | 2008-02-11 | 2010-09-14 | Yahoo! Inc. | Automated document classifier tuning including training set adaptive to user browsing behavior |
US8311344B2 (en) * | 2008-02-15 | 2012-11-13 | Digitalsmiths, Inc. | Systems and methods for semantically classifying shots in video |
US20090263010A1 (en) * | 2008-04-18 | 2009-10-22 | Microsoft Corporation | Adapting a parameterized classifier to an environment |
-
2009
- 2009-05-07 US US12/437,526 patent/US8260062B2/en active Active
-
2010
- 2010-04-26 JP JP2010100833A patent/JP2011018316A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011243199A (ja) * | 2010-05-14 | 2011-12-01 | Palo Alto Research Center Inc | 文書分類のための画像アンカテンプレートの学習方法 |
JP2014067154A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書分類支援装置、方法及びプログラム |
JP2020528604A (ja) * | 2017-07-14 | 2020-09-24 | フェイスブック,インク. | メッセージングプラットフォームのためのイベント追跡 |
JP7007453B2 (ja) | 2017-07-14 | 2022-01-24 | メタ プラットフォームズ, インク. | メッセージングプラットフォームのためのイベント追跡 |
Also Published As
Publication number | Publication date |
---|---|
US20100284623A1 (en) | 2010-11-11 |
US8260062B2 (en) | 2012-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011018316A (ja) | 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム | |
US10621727B1 (en) | Label and field identification without optical character recognition (OCR) | |
Kleber et al. | Cvl-database: An off-line database for writer retrieval, writer identification and word spotting | |
JP5095535B2 (ja) | 画像処理方法、画像処理システム、画像処理装置及びプログラム | |
US20110137898A1 (en) | Unstructured document classification | |
US20040015775A1 (en) | Systems and methods for improved accuracy of extracted digital content | |
Rusinol et al. | Multimodal page classification in administrative document image streams | |
US20130054595A1 (en) | Automated File Name Generation | |
Ahmed et al. | A survey on handwritten documents word spotting | |
Joseph | Effect of supervised learning methodologies in offline handwritten Thai character recognition | |
Singh et al. | Benchmark databases of handwritten Bangla-Roman and Devanagari-Roman mixed-script document images | |
CN112733658B (zh) | 电子文档归档方法及其装置 | |
Nikolaidou et al. | A survey of historical document image datasets | |
Fornés et al. | A keyword spotting approach using blurred shape model-based descriptors | |
Vafaie et al. | Handwritten and printed text identification in historical archival documents | |
Pedersen et al. | Lessons learned developing and using a machine learning model to automatically transcribe 2.3 million handwritten occupation codes | |
Calvo-Zaragoza et al. | Document analysis for music scores via machine learning | |
Diem et al. | Semi-automated document image clustering and retrieval | |
Dulla | A dataset of warped historical arabic documents | |
Agin et al. | An approach to the segmentation of multi-page document flow using binary classification | |
Marinai | A survey of document image retrieval in digital libraries | |
Deselaers et al. | Overview of the ImageCLEF 2007 object retrieval task | |
Mehri | Historical document image analysis: a structural approach based on texture | |
Nagy | Document analysis systems that improve with use | |
Can et al. | Computerized counting of individuals in ottoman population registers with deep learning |