JP2011018316A

JP2011018316A - 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム

Info

Publication number: JP2011018316A
Application number: JP2010100833A
Authority: JP
Inventors: Francine Chen; チェンフランシーン; Yijuan Lu; ルーイージュアン; Matthew Cooper; クーパーマシュー
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-05-07
Filing date: 2010-04-26
Publication date: 2011-01-27
Also published as: US20100284623A1; US8260062B2

Abstract

【課題】文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システムを提供する。
【解決手段】１つまたは複数の区分に関連する文書画像の集合中の各文書画像を複数のタイルに分割し（４０８）、その複数のタイルは文書ページの特徴が識別可能な大きさとし、文書画像及び複数のタイルの特徴を計算する（４１０）。少なくとも１つの区分分類器に訓練を行い（４１２）、文書画像集合中の文書画像の特徴と、文書画像集合中の複数のタイルの特徴と、文書画像集合中の各文書画像に関連する１つまたは複数の区分とに基づいて、文書画像を関連する１つまたは複数の区分に分類する（４２４）。
【選択図】図４Ａ

Description

本発明は一般的に文書の分類に関する。詳細には、文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システムに関する。

ビジネスにおける電子的処理が増えるに従って、文書はますます電子形式に変換されるようになってきている。例えば、文書が文書スキャナによって走査されて、文書のデジタル画像を含む電子文書が形成される。電子文書は、紙の文書に比べて物理的なスペースが小さくて済むので有利である。更に、電子文書は容易にバックアップを取ることができ、不慮の遺失を防ぐことができる。

しかし、電子文書の分量が増大すると、その文書の整理が次第に困難になってくる。手作業での文書の整理はわずらわしいし、効率も悪い。この問題に対する１つの解決策は、電子文書に光学的文字認識（ＯＣＲ）処理を行って電子文書中のテキストを抽出することである。抽出されたテキストは次に解析されて、電子文書のコンテンツが判定および／または分類される。例えば、コンテンツが主題によって分類されてもよい。（例えば、電子文書がジョージ・ワシントンの生誕地に関する情報を含んでいるとすると、この文書が主題「ジョージ・ワシントン」に分類される。）残念なことに、ＯＣＲ技術は計算機的には高価である。

米国特許出願公開第２００８／０１５２２３８号明細書

ティー・ブルーエル（Ｔ．Ｂｒｅｕｅｌ）「高性能文書レイアウト解析（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＤｏｃｕｍｅｎｔＬａｙｏｕｔＡｎａｌｙｓｉｓ）」，文書画像理解技術シンポジウム予稿（Ｐｒｏｃ．ＳｙｍｐｏｓｉｕｍｏｎＤｏｃｕｍｅｎｔＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇＴｅｃｈｎｏｌｏｇｙ），２００３年シー・エイチ・ランパルト（Ｃ．Ｈ．Ｌａｍｐｅｒｔ），ティー・ブラウン（Ｔ．Ｂｒａｕｎ），エー・ウルゲス（Ａ．Ｕｌｇｅｓ），ディー・カイザース（Ｄ．Ｋｅｙｓｅｒｓ），ティー・エム・ブルーエル（Ｔ．Ｍ．Ｂｒｅｕｅｌ），「無意識での文書キャプチャとリアルタイム検索（Ｏｂｌｉｖｉｏｕｓｄｏｃｕｍｅｎｔｃａｐｔｕｒｅａｎｄｒｅａｌｔｉｍｅｒｅｔｒｉｅｖａｌ）」，２００５年，シービーデーエーアール（ＣＢＤＡＲ）２００５予稿，２００５年，ｐ．７９−８６エヌ・ラシワシア（Ｎ．Ｒａｓｉｗａｓｉａ）．エヌ・ヴァスコンセロ（Ｎ．Ｖａｓｃｏｎｃｅｌｏｓ），「低次元意味空間と弱い教師つき学習によるシーン分類（Ｓｃｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｌｏｗ−ｄｉｍｅｎｓｉｏｎａｌｓｅｍａｎｔｉｃｓｐａｃｅｓａｎｄｗｅａｋｓｕｐｅｒｖｉｓｉｏｎ）」アイトリプルイーコンピュータヴィジョンとパターン認識会議予稿（ＰｒｏｃＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ），アメリカ（Ａｎｃｈｏｒａｇｅ），２００８年６月ジェー・フアン（Ｊ．Ｈｕａｎｇ），エス・アール・クマー（Ｓ．Ｒ．Ｋｕｍａｒ），エム・ミトラ（Ｍ．Ｍｉｔｒａ），ダブリュー・ジェー・ツー（Ｗ．Ｊ．Ｚｈｕ），アール・ザビー（Ｒ．Ｚａｂｉｈ），「色コレログラムを用いた画像指標（Ｉｍａｇｅｉｎｄｅｘｉｎｇｕｓｉｎｇｃｏｌｏｒｃｏｒｒｅｌｏｇｒａｍｓ）」，アイトリプルイーコンピュータヴィジョンとパターン認識会議予稿（Ｐｒｏｃ．ｏｆ１６ｔｈＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ），１９９７年，ｐ．７６２−７６８ケー・ワイ・ウォン（Ｋ．Ｙ．Ｗｏｎｇ），アール・ジー・キャシー（Ｒ．Ｇ．Ｃａｓｅｙ），エフ・エム・ワール（Ｆ．Ｍ．Ｗａｈｌ），「文書解析システム（ＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓＳｙｓｔｅｍ）」，アイビーエム（ＩＢＭ），リサーチとデヴェロップメントジャーナル（ＪｏｕｒｎａｌｏｆＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ），１９８２エイチ・ペン（Ｈ．Ｐｅｎｇ），エフ・ロン（Ｆ．Ｌｏｎｇ），シー・ディング（Ｃ．Ｄｉｎｇ），「相互情報量に基づく特徴量の選択：最大依存性、最大関連性、及び、最小融通性の基準（Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ：ｃｒｉｔｅｒｉａｏｆｍａｘ−ｄｅｐｅｎｄｅｎｃｙ，ｍａｘ−ｒｅｌｅｖａｎｃｅ，ａｎｄｍｉｎ−ｒｅｄｕｎｄａｎｃｙ）」，アイトリプルイーパターン解析と人工知能の処理（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ），２００５年，２７巻，８号，ｐ．１２２６−１２３８ワイ・キム（Ｙ．Ｋｉｍ），エス・ロス（Ｓ．Ｒｏｓｓ），「ファミリ類似性の検出：区分分類の自動化（Ｄｅｔｅｃｔｉｎｇｆａｍｉｌｙｒｅｓｅｍｂｌａｎｃｅ：Ａｕｔｏｍａｔｅｄｇｅｎｒｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）」，データサイエンスジャーナル（ＤａｔａＳｃｉｅｎｃｅＪｏｕｒｎａｌ），２００７年６月，ｐ．Ｓ１７２−Ｓ１８３ワイ・キム（Ｙ．Ｋｉｍ），エス・ロス（Ｓ．Ｒｏｓｓ），「区分分類における顕著な特徴変化の検討（Ｅｘａｍｉｎｉｎｇｖａｒｉａｔｉｏｎｓｏｆｐｒｏｍｉｎｅｎｔｆｅａｔｕｒｅｓｉｎｇｅｎｒｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）」システムサイエンス第４１回ハワイ会議予稿（Ｐｒｏｃ．ｏｆｔｈｅ４１ｓｔＡｎｎｕａｌＨａｗａｉｉＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｙｓｔｅｍＳｃｉｅｎｃｅｓ），２００８年，ｐ．１３２

上述のような問題なくして文書を分類することが大いに望まれている。

本発明の第１の態様によれば、文書の区分を識別するために用いる区分モデルを生成するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された１つまたは複数のプログラムを実行する１つまたは複数のプロセッサを有するコンピュータシステム上で、１つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、分割手段が、前記文書画像を、各々が前記文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、区分分類器訓練手段が、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記１つまたは複数の区分とに基づいて、文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練する、ことを含むコンピュータに実装された方法が提供される。

本発明の第２の態様によれば、第１の態様において、前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、前記文書画像の集合から、第１の区分に関連している文書画像の部分集合を識別し、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴と、前記第１の区分に関連すると識別された前記文書画像部分集合に対応する文書画像を示す情報とに基づいて前記第１の区分に対応する前記第１の区分分類器を訓練し、前記文書画像集合中の少なくとも１つの文書画像部分集合に対して、前記区分分類器の集合を、前記文書画像部分集合中の文書画像と、前記文書画像部分集合に関連する複数のタイルとに適用して、スコアの集合を形成し、前記文書画像部分集合中の文書画像に対する前記スコアの集合と、各文書画像に関連する１つまたは複数の区分と、各文書画像の複数のタイル内のタイルの位置とに基づいて、前記第１の区分に関連するものとして文書画像を分類するように、前記第１の区分に対応する第２の区分分類器を訓練する、ことを含んでもよい。

本発明の第３の態様によれば、第１の態様において、前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、前記文書画像集合中の前記文書画像に関連する区分のうちの少なくとも部分集合中の各区分に対して、前記文書画像集合から、区分に関連しているタイルの部分集合を選択し、前記タイルの特徴に基づいて前記タイル部分集合のタイルをクラスタリングし、各タイルの特徴が区分のクラスタの１要素である尤度を示す、区分の確率モデルを生成し、該確率モデルは確率モデルの集合の中に含まれ、該確率モデル各々が区分の集合のうちの１区分に対応しており、前記文書画像集合中の文書画像のうちの少なくとも部分集合に対して、前記文書画像部分集合と前記文書画像部分集合に関連する複数のタイルとに確率モデルを適用し、前記文書画像部分集合中の各文書画像が１つまたは複数の区分の要素である確率の集合を形成し、前記確率の集合と、前記文書画像部分集合中の各文書画像に関連する１つまたは複数の区分とに基づいて、前記各文書画像を１つまたは複数の区分に関連しているものとして分類するように、前記第１の区分分類器を訓練する、ことを含んでもよい。

本発明の第４の態様によれば、第１の態様において、前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、前記文書画像集合の第１の部分集合の特徴と、前記文書画像集合の前記第１の部分集合に関連する複数のタイルの特徴とに基づいて、第１の区分に対応する第１の区分分類器を訓練し、前記文書画像集合の前記第１の部分集合と互いに排他的な文書画像の集合である前記文書画像集合の第２の部分集合を用いて前記第１の区分分類器のパラメータを調整し、前記文書画像集合の第２の部分集合の特徴と、前記文書画像集合の前記第２の部分集合に関連する複数のタイルの特徴とに基づいて、前記第１の区分に対応する第２の区分分類器を訓練し、前記文書画像集合の前記第１の部分集合を用いて前記第２の区分分類器のパラメータを調整する、ことを含んでもよい。

本発明の第５の態様によれば、第１の態様において、前記文書画像の部分集合は複数のページを含む文書に関連し、前記方法は前記文書の各ページに対して実行されてもよい。

本発明の第６の態様によれば、第１の態様において、前記特徴が、文書ページの特徴と、タイルの特徴と、を含んでもよい。

本発明の第７の態様によれば、第６の態様において、前記文書ページの特徴が、各ページの段数と、各ページの水平の行数と、各ページの垂直の行数と、各ページの水平行の長さのヒストグラムと、各ページの垂直行の長さのヒストグラムと、各ページのページ寸法と、文書中のページ数とのうちの少なくとも１つを含んでもよい。

本発明の第８の態様によれば、第６の態様において、前記タイルの特徴が、各タイルの密度と、各タイルのテキストの行数と、各タイルのテキストの平均フォントサイズと、各タイルのテキストの中央値フォントサイズと、各タイルの行幅のヒストグラムと、各タイルの色コレログラムからの値の部分集合と、文書画像中の各タイルの物理的な位置とのうちの少なくとも１つを含んでもよい。

本発明の第９の態様によれば、第１の態様において、前記複数のタイルは所定の順序で配置されていてもよい。

本発明の第１０の態様によれば、第１の態様において、前記文書画像を複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択されてもよい。

本発明の第１１の態様によれば、第１０の態様において、前記特定のタイル数は２５であってもよい。

本発明の第１２の態様によれば、第１の態様において、前記区分分類器は、訓練されたサポートベクトルマシン（ＳＶＭ）であってもよい。

本発明の第１３の態様によれば、コンピュータに、１つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、前記文書画像を、各々が前記文書ページの特徴が識別可能な寸法とされた複数のタイルに分割し、前記文書画像及び前記複数のタイルの特徴を計算し、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記１つまたは複数の区分とに基づいて、文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練する、ことを含む文書の区分を識別するために用いる区分モデルを生成するための処理を実行させるためのプログラムが提供される。

本発明の第１４の態様によれば、第１の態様において、文書の区分を識別するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された１つまたは複数のプログラムを実行する１つまたは複数のプロセッサを有する前記コンピュータシステム上で、受取手段が、文書の文書画像を受け取り、分割手段が、前記文書画像を、各々が文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、特徴抽出手段が、前記文書画像及び前記複数のタイルの特徴を計算し、区分分類手段が、前記文書画像の特徴と前記複数のタイルの特徴とに基づいて前記文書画像に関連する１つまたは複数の区分を識別する、ことを含むコンピュータに実装された方法が提供される。

本発明の第１５の態様によれば、第１４の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、区分分類器の第１の集合を、前記文書画像の特徴と、前記文書画像に関連する複数のタイルの特徴とに適用して、スコアの集合を形成し、区分分類器の第２の集合を、前記文書画像の前記スコアの集合と、前記文書画像の前記複数のタイル内のタイルの位置とに適用して、前記文書画像に関連する前記１つまたは複数の区分を識別する、ことを含んでもよい。

本発明の第１６の態様によれば、第１５の態様において、前記区分分類器の第１の集合及び第２の集合が、前記区分分類器の訓練の段階で生成されてもよい。

本発明の第１７の態様によれば、第１５の態様において、前記区分分類器の第１の集合及び第２の集合が、訓練されたサポートベクトルマシン（ＳＶＭ）であってもよい。

本発明の第１８の態様によれば、第１４の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、各区分に対して、前記文書画像の特徴と前記文書画像の複数のタイルの特徴とが区分のクラスタの構成要素である尤度を、区分の確率モデルに基づいて計算し、区分分類器を前記計算された尤度に適用して、前記文書画像に関連する前記１つまたは複数の区分を識別する、ことを含んでもよい。

本発明の第１９の態様によれば、第１８の態様において、前記区分分類器及び確率モデルが、前記区分分類器の訓練の段階で生成されてもよい。

本発明の第２０の態様によれば、第１８の態様において、前記区分分類器は、訓練されたサポートベクトルマシン（ＳＶＭ）であってもよい。

本発明の第２１の態様によれば、第１４の態様において、前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、区分分類器の第１の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第１の集合を形成し、区分分類器第２の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第２の集合を形成し、前記スコアの第１の集合と前記スコアの第２の集合とを統合して、統合したスコア集合を形成し、前記統合したスコア集合に基づいて前記文書画像に関連する前記１つまたは複数の区分を識別する、ことを含んでもよい。

本発明の第２２の態様によれば、第２１の態様において、前記区分分類器の第１の集合及び第２の集合が、前記区分分類器の訓練の段階で生成されてもよい。

本発明の第２３の態様によれば、第２１の態様において、前記区分分類器の第１の集合及び第２の集合が、訓練されたサポートベクトルマシン（ＳＶＭ）であってもよい。

本発明の第２４の態様によれば、第１４の態様において、前記文書画像を前記複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択されてもよい。

本発明の第２５の態様によれば、第２４の態様において、前記特定のタイル数は２５であってもよい。

本発明の第２６の態様によれば、第１４の態様において、前記文書画像を受け取ることが、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちの１つの画像装置から前記文書画像を受け取ることを含んでもよい。

本発明の第２７の態様によれば、第１４の態様において、前記文書に関連する前記１つまたは複数の区分に関連するコンテンツを表示することを含んでもよい。

本発明の第２８の態様によれば、コンピュータに、文書の文書画像を取得し、前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する１つまたは複数の区分を識別する、ことを含む文書の区分を識別するための処理を実行させるためのプログラムが提供される。

本発明の第２９の態様によれば、画像処理システムであって、１つまたは複数のプロセッサと、メモリと、前記メモリに格納された１つまたは複数のプログラムと、を備え、前記１つまたは複数のプログラムが、前記１つまたは複数のプロセッサに、文書の文書画像を取得し、前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する１つまたは複数の区分を識別する、処理を行わせることを含む、画像処理システムが提供される。

本発明の第３０の態様によれば、第２９の態様において、前記文書から前記文書画像を形成するように設定された画像装置を含んでもよい。

本発明の第３１の態様によれば、第３０の態様において、前記画像装置が、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちから選択されてもよい。

本発明の第３２の態様によれば、第２９の態様において、前記文書に関連する前記１つまたは複数の区分に関連するコンテンツを表示するように設定された表示装置を含んでもよい。

ある実施形態による画像システムのブロック図である。ある実施形態による訓練システムを示すブロック図である。ある実施形態による別の訓練システムを示すブロック図である。ある実施形態による別の訓練システムを示すブロック図である。ある実施形態による分類システムを示すブロック図である。ある実施形態による別の分類システムを示すブロック図である。ある実施形態による別の分類システムを示すブロック図である。ある実施形態による文書区分を識別する方法のフロー図である。ある実施形態による文書区分を識別する別の方法のフロー図である。ある実施形態による文書区分を識別する別の方法のフロー図である。ある実施形態による区分分類器の訓練方法のフロー図である。ある実施形態による文書の１つまたは複数の区分を識別する方法のフロー図である。ある実施形態による別の区分分類器の訓練方法のフロー図である。ある実施形態による文書の１つまたは複数の区分を識別する別の方法のフロー図である。ある実施形態による別の区分分類器の訓練方法のフロー図である。ある実施形態による文書の１つまたは複数の区分を識別する別の方法のフロー図である。ある実施形態による文書画像を複数のタイルに分割するプロセスを示すブロック図である。ある実施形態による、文書の区分識別に用いる確率モデルを生成する方法を示すブロック図である。ある実施形態による、文書の確率ベクタを生成するために確率モデルを用いる方法を示すブロック図である。ある実施形態による訓練システムを示すブロック図である。ある実施形態による分類システムを示すブロック図である。ある実施形態による、分類システムの確度、精度、再現率を示すグラフである。ある実施形態による、分類システムの確度、精度、再現率を示す別のグラフである。ある実施形態による、Ｆ１スコアで評価された分類システムのタイル性能を比較したグラフである。ある実施形態による、分類システムの確度、精度、再現率を示す別のグラフである。ある実施形態による、分類システムの確度、精度、再現率を示す別のグラフである。

既に述べたように、文書は主題によって分類されることが多い。しかし、文書の分類には他の手法もあって、スキャン（走査）された文書を基にして、コンテンツ（例えば、広告）の索引、体系化、検索、表示に利用可能な有益な情報（例えば、メタデータ）を提供することもできる。例えば、文書を分類するのに区分（ジャンル）が利用される。従って、ある実施形態では文書が区分で分類される。区分としては、広告、パンフレット、一般論文（例えばニュースレターや雑誌記事など）、ビラ、帳票、地図、公式論文（例えば、定期刊行物論文）、写真、領収証、規則および規定、報告書、履歴書、表等が含まれる。ある実施形態では、文書は主題及び区分の両方で索引が付けられる。例えば、文書が主題と区分の両方で索引が付けられているとすると、例えば、旅行者がイエローストーンの間欠泉についてのパンフレットを探し、その一方で理科系学生がイエローストーンの間欠泉についての論文を探す、ということができる。同じように、広告が表示されているパンフレットをスキャンしていることが認識され、かつそのパンフレットには「ハワイ」、「砂浜」、「島」というような単語があるとすると、ハワイの観光サービスあるいはハワイでの休暇を専門に扱う旅行代理店の広告を、そのパンフレットをスキャンしているユーザに提示することも可能である。

ある実施形態では、区分は「スタイル」、「形式」、「コンテンツ」によって特徴づけられる。「スタイル」は、句読点の使用、文章、及び語句などの、構造的コンテンツに対応する。例えば、論説は形式的な散文とはスタイルが異なり、また散文は詩歌とはスタイルが異なる。「形式」は、段の配置や段数、見出し、グラフ、フォントサイズ、等の文書の構造的レイアウトを含む。画像化された／スキャンされた文書に関しては、形式は通常、構造的レイアウト解析を用いて識別することができる。（例えば、非特許文献１を参照。）「コンテンツ」は、ある用語やオブジェクトが文書中にあるかどうかというような、意味あるいは意味論上の価値があるものを指している。

ある実施形態において、異なる様式（例えば、スタイル、形式、コンテンツなど）からの特徴に基づく区分識別が利用される。計算の時間および／または複雑さが問題にならない場合には、これらの実施形態が利用されてよい。しかし、計算の時間および／または複雑さが制約となる場合には、利用する様式を減らすことが望ましい。こうして、実施形態のあるものでは、画像化された文書に関連する区分は、「形式」に基づいて行われる。これらの実施形態では、比較的効率的かつ比較的確実に計算することが可能な、画像をベースとする特徴が利用される。また、レイアウト解析は行われない。画像化された文書は、文書スキャナ、カメラ、ビデオカメラ、ファクシミリ装置、複写機等のハードウェアにより取得される。カメラやビデオカメラの場合に、画像の背景に他の物体が含まれていれば、その画像を前処理して、文書ページの画像が含まれる画像部分を識別してもよい。（画像の前処理に関しては、例えば、非特許文献２参照。）ある実施形態では、ここで説明した分類システムに、「スタイル」及び「コンテンツ」タイプの特徴が含まれてもよい。これらの実施形態は、ＯＣＲの利用を必要とする。

ある実施形態では、文書に関連する区分の識別に画像の特徴が利用される。このような実施形態では、裏に隠れている、すなわち潜在的なページ領域の種類が識別される。これらの潜在的なページ領域の種類は、テキスト、写真、段、大きいフォント、罫線などの種類に直観的に対応する。ある実施形態では、ガウス混合モデルが、ある領域が与えられた潜在的種類となる確率に対応する領域ラベル確率を割り当てるために利用される（ガウス混合モデルの概要は、非特許文献３を参照。）そして、領域ラベル確率は、文書の区分を識別するように訓練された分類器への入力として用いられる。

区分識別は、本明細書で説明する区分識別システムによって実行される。ある実施形態では、区分識別システムが以下の１つまたは複数の課題に取り組む。
（１）１つの文書が２つ以上の区分に分類されることもある（例えば、掲示板に張り出される招待状は、招待状とビラの両方に分類される可能性がある）。
（２）各区分は異なるタイプを持ちうる（例えば、地図は、カラーまたは白黒であり、テキストの説明文および／または凡例を伴う場合もある）。
（３）文書は複数のページで構成されていることが多く、文書の各ページは異なるタイプの画像領域で構成され、ページが変わればタイプが変わる可能性がある（例えば、論文のいくつかのページにはグラフや画像が含まれ、他のページはテキストのみであったりする）。

ある実施形態では、第１の課題に取り組むために、ここで説明する区分識別システムとして「１対多」の分類器を利用する。即ち、識別されるべき各区分に対して、別個の分類器が訓練され、その区分は他のすべての区分とは分け隔てるようになっている。ある実施形態では、第２の課題に取り組むために、区分識別システムが潜在空間という概念を利用する。これは文書領域のタイプ（例えば、本体テキスト、タイトルテキストなど）に対応する。ある実施形態では、第３の課題に取り組むために、文書の各ページに識別された区分を（例えば、マルチプルインスタンス学習あるいは投票を介して）統合する識別手段が利用される。異なるページ領域は潜在空間の利用によって処理される。

図１はある実施形態による画像システム１０４のブロック図１００である。ある実施形態では、画像システム１０４が文書１０２を受取り、画像１０６を形成する。例えば、画像システム１０４が文書をスキャンし、デジタル画像を形成する。本明細書においては、「文書画像」という用語は、複数ページの文書における１ページの画像を指し、単一ページの文書に対してはその１ページの文書の画像を指すように使用される。文書１０２は１つまたは複数の区分１０８のコンテンツを含みうる。例えば、１つまたは複数の区分１０８には、広告、パンフレット、一般論文（例えばニュースレターや雑誌記事など）、ビラ、帳票、地図、公式論文（例えば、定期刊行物論文）、写真、領収証、規定／規則、報告書、履歴書、表等が含まれる。

ある実施形態では、分類システムが文書１０２に対応する画像１０６に関連する１つまたは複数の区分１０８を識別する。分類システムは、画像システム１０４に含まれていてもよいし、個別の装置（例えば、サーバなど）上にあってもよい。分類システムが個別装置上にある場合には、画像１０６はネットワーク（例えば、ネットワーク１２０）を介して、その個別装置に伝送されてもよい。あるいはその代わりに、画像１０６が物理的な媒体（例えば、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、フロッピディスク（登録商標）、ハードディスクなど）を用いて個別装置へ配送されてもよい。分類システムは、図３Ａ〜３Ｃ、４Ａ〜４Ｃ、５Ｂ、５Ｄ、５Ｆに関連してより詳細に説明される。

ある実施形態では、１つまたは複数の区分１０８を利用して、画像システム１０４のディスプレイ装置上にその区分に特有なコンテンツを表示する。例えば、画像１０６に関連する１つまたは複数の区分１０８として履歴書が含まれているとすると、区分に特有なコンテンツ１１０として、求人用のウェブサイトの広告や、採用担当者への連絡先情報などが含まれてもよい。

ある実施形態では、画像システム１０４がネットワーク１２０を介してサーバ１３０にアクセスし、１つまたは複数の区分１０８を用いてその区分に特有なコンテンツ１１０をサーバ１３０から取得するための照会を行う。ネットワーク１２０は一般的に任意のタイプの有線もしくは無線の通信チャネルを有し、計算機ノードを結合することができる。これには、ローカルエリアネットワーク、ワイドエリアネットワーク、あるいはその組合せのネットワークなどが含まれるが、それに限定されるものではない。ある実施形態では、ネットワーク１２０がインターネットを含む。

ある実施形態では、画像システム１０４が、複写機、スキャナ、ファクシミリ装置、デジタルカメラ、ビデオレコーダ、携帯電話などを含む。これらの実施形態においては、画像装置が文書のデジタル画像を形成する。

ある実施形態では、１つまたは複数の区分１０８が文書１０２に（例えばメタデータを利用して）タグ付けするのに利用される。そして、これらのタグは（例えば、タグに対するクエリを介して）文書のフィルタリングおよび／またはソーティングに利用することができる。更には、タグを利用して（文書１０２を特定のフォルダに入れるなどして）文書１０２の整理および／またはファイリングをすることもできる。

ある実施形態では、分類システムを使用する前に、分類システムの区分分類器は、訓練（トレーニング）フェーズの間に訓練システム上で訓練用文書集合を用いて訓練される。訓練用文書集合は、事前に１つまたは複数の区分でタグ付けされていてもよい。あるいは、訓練用文書集合はタグ付けされていなくてもよい。その場合には、その訓練用文書集合は訓練フェーズの間に手動で（例えば、ユーザによって）タグ付けされる。訓練システムは、図２Ａ〜２Ｃ、４Ａ〜４Ｃ、５Ａ、５Ｃ、５Ｅに関連してより詳細に説明される。「区分識別システム」という用語は、本明細書においては、訓練システムと分類システムを含むシステムのことを指していることに留意されたい。

訓練及び分類技術を以下で説明する。第１の技術が、図２Ａ、３Ａ、４Ａ、５Ａ、及び５Ｂに関して説明される。第２の技術が、図２Ｂ、３Ｂ、４Ｂ、５Ｃ、及び５Ｄに関して説明される。第３の技術が、図２Ｃ、３Ｃ、４Ｃ、５Ｅ、及び５Ｆに関して説明される。

先ず第１の訓練及び分類技術について注目する。図２Ａはある実施形態による訓練システム２０１を示すブロック図２００である。これらの実施形態では、訓練システム２０１のクラスタリングモジュールが訓練用文書２０４及び関連する区分２０６を受け取る。訓練用文書２０４の中の各文書は、１つまたは複数の区分に関連している。その関連は、各文書のメタデータ中に特定されているか、訓練用文書のそれぞれを１つまたは複数の区分に関連付ける個別の文書（例えばＸＭＬファイル、テキストファイル等）またはデータベースに特定されているかである。クラスタリングモジュール２０２は訓練用文書２０４及びそれに関連する区分２０６から抽出された特徴を利用し、確率モデル２０８を形成する。確率モデル２０８が確率２０９を生成し、それを用いて分類モジュール２０３が、訓練済みのサポートベクトルマシン（ＳＶＭ）／区分分類器２１０の訓練を行う。この詳細は図４Ａ、５Ａに関連して詳述する。ＳＶＭは、データ分類に使用することのできる、一連の教師つき学習技術である。ある実施形態では、訓練システムは、訓練用文書２０４をスキャンして訓練用文書２０４の画像２０５を形成する画像装置を含んでいる。そして、訓練用文書２０４の画像２０５が訓練システム２０１によって利用される。ある実施形態では、訓練用文書２０４は既に文書の画像となっており、訓練システム２０１で直接利用される。

サポートベクトルマシン（ＳＶＭ）という用語は本明細書においては区分分類器と同じ意味で使用されている場合があり、ここで説明されるように文書画像の区分を識別できる分類器を代表している場合があることに留意されたい。

図３Ａはある実施形態による分類システム３０２を示すブロック図３００である。これらの実施形態では、分類システム３０２が、文書３０４から特徴を受け取り、確率モデル３０６（例えば、図２Ａにおける確率モデル２０８）を文書３０４に適用して確率３０７を生成する。確率３０７が訓練済みＳＶＭ／区分分類器３０８で使用され、文書３０４に関連する１つまたは複数の区分３１０を識別する。ある実施形態では、分類システム３０２が、文書３０４をスキャンして文書３０４の画像３０５を形成する画像装置を含んでいる。文書３０４の画像３０５から抽出された特徴を、その後分類システム３０２で利用して、文書３０４に関連する１つまたは複数の区分３１０が識別される。ある実施形態では、文書３０４は既に文書の画像となっていて、特徴が直接抽出される。それが分類システム３０２で利用されて、その文書３０４に関連する１つまたは複数の区分３１０が識別される。分類システム３０２は図４Ａおよび５Ａに関してより詳細に説明する。

ある実施形態では、分類システムと訓練システムが同一のシステム内に含まれている。例えば、分類システムと訓練システムが画像システム（例えば、図１の画像システム１０４）に含まれていてもよい。ある実施形態では、分類システムと訓練システムが別々のシステム内に含まれている。例えば、訓練システムは画像システム（例えば、画像システム１０４）の製造元の計算機システムの中に含まれており、分類システムはエンドユーザに売られた画像システム（例えば、画像システム１０４）に含まれていてもよい。

図４Ａはある実施形態による文書区分を識別する方法４００のフロー図である。方法４００は訓練システム（例えば、図２Ａの訓練システム２０１）によって実行される操作と、分類システム（例えば、図３Ａの分類システム３０２）によって実行される操作とに対応している。具体的には、方法４００は訓練ステージ４０１と分類ステージ４０２とを含む。一般的に、訓練ステージ４０１は訓練システム（例えば、図２Ａの訓練システム２０１）上で実行され、分類ステージ４０２は分類システム（例えば、図３Ａの分類システム３０２）上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。

訓練ステージ４０１の操作は、分類ステージ４０２の操作の前に実行される。

訓練システムが訓練用文書及びそれに関連する区分を受け取ると（４０４）、訓練ステージ４０１が始まる。前述したように、それぞれの訓練用文書は１つまたは複数の区分に関連している。訓練システムが訓練用文書をスキャンし（４０６）、文書画像の集合４０７を形成する。あるいは、訓練用文書が既にスキャンされている場合には、ステップ４０６は省略される。

画像をベースとして文書区分を識別する技術のあるものにおいては、異なるタイプの文書領域（例えば、テキスト、画像、罫線部、図形）の境界をラベル付けし識別するために、レイアウト解析が用いられる。そして、レイアウト解析に基づいて特徴が抽出される。しかし、レイアウト解析は計算機的に高価であり、エラーを発生しやすい。更に、これらのレイアウト解析技術は「小」タイル（例えば、８ピクセル×８ピクセルのタイル）を用いる。同じ様に画像をベースとして文書区分を識別する技術のあるものは、突出点を識別し、特徴の分布に基づいて分類を実行する。

これらの技術に対比して、ある実施形態によれば、文書の各ページをタイルに分割し、タイルの１つ１つから特徴を抽出する。ある実施形態では、タイルがページのすべての部分を覆う。更に、タイルは互いに重なってもよい（例えば、各タイルが、隣のタイルと、タイル半分だけオーバラップしてもよい）。ページの全体を覆う「ページ」タイルもまた形成されてよい。更に、これらの実施形態は「大」タイルを用いてもよい（例えば、各ページに対して２５タイルであってもよい）。

こうして、文書画像の集合４０７の中の各文書画像に対し、訓練システムが文書画像を複数のタイル４０９に分割する（４０８）。ある実施形態では、文書ページの特徴（テキストの行数、フォントの大きさ等）が識別可能なように、訓練システムが文書画像を複数のタイル４０９に分割する。

次に、図６に注目すると、この図はある実施形態による文書画像を複数のタイルに分割するプロセスを示すブロック図６００である。ある実施形態では、文書画像が先ず前処理される（例えば、寸法を縮める、曲がりを正す等）。図示したように、文書画像が特定の大きさの、特定の数のタイル６０２に分割される。ある実施形態では、タイルの特定の数は２５である。特定の寸法は、タイルの特徴が顕示されるような寸法に選択される。ある実施形態では、タイルは均一なサイズとされる。例えば、３００ｄｐｉ（ｄｏｔｓｐｅｒｉｎｃｈ）の解像度でスキャンされた、８．５インチ（２１．６ｃｍ）×１１インチ（２７．９ｃｍ）のページを考えてみる。ピクセルでのページの寸法は、２５５０ピクセル×３３００ピクセルである。従って、各タイルは５１０ピクセル×６６０ピクセルである。別の実施形態では、タイルは不均一なサイズである。その実施形態では、寸法は所定のパラメータ（例えば、余白の大きさ等）に基づいて決定される。複数のタイルからの情報は、所定の順番で配列されることに留意されたい。例えば、複数のタイルが、文書画像におけるタイルの物理的な位置に関する情報を保持する順番で配置されてもよい（例えば、タイルのｘ−ｙ位置等）。

図４Ａに戻ると、こうして、文書画像集合４０７の中の各文書画像に対し、訓練システムによって文書画像及び複数のタイル４０９の特徴が計算される（４１０）。ある実施形態では、その特徴には、文書ページの特徴及びタイルの特徴が含まれる。文書ページの特徴としては、個々のページの段数、個々のページの水平行の行数、個々のページの垂直行の行数、個々のページの水平行の長さのヒストグラム、個々のページの垂直行の長さのヒストグラム、個々のページのページサイズ、及び１つの文書中のページ数のうちの１つまたは複数が含まれてもよい。タイルの特徴としては、個々のタイルの密度、個々のタイルのテキストの段数（例えば、投影で）、個々のタイルのテキストのフォントサイズの平均値および／または中間値（例えば、投影で）、個々のタイルの段幅のヒストグラム、個々のタイルの色コレログラムの値の部分集合、文書画像中における個々のタイルの物理的位置のうちの１つまたは複数が含まれてよい。色コレログラムに関しては、非特許文献４で議論されている。ある実施形態では、個別のタイルの特徴ベクトルがページの特徴値（例えば、文書画像の特徴）を含んでいる。そうすることにより、１つの文書画像／ページのページ特徴値が各タイル中に複製される。これらの実施形態では、文書ページの特徴情報を利用しながら、タイルのクラスタリングが可能となる。

ページ画像を２値画像に変換し、各タイルの黒ピクセルの数を合計することによって、画像密度を計算することができる。

水平行は、白黒画像の黒ピクセルが水平方向に続く長さを計算することで算出される。この時水平方向あるいは垂直方向へのピクセルの僅かなジョグは許容される。（例えば、非特許文献５を参照。）各タイルの行数が記録され、行の長さが定量化されてヒストグラムにされる。ある実施形態では、「対数」定量化ビン（値域）が利用される。例えば、行長に対する定量化ビンは以下のようなビンに分けられてよい。ページ幅の１／２から全幅の間の行長を含む第１のビン、ページ幅の１／４から１／２の間の行長を含む第２のビン、...、ページ幅の１／３２より小さい行長を含む第５のビンの計５つのビンである。垂直方向の行のヒストグラムも同様にして算出される。別の実施形態において、行長に対する別の定量化ビンを用いることもできる。

テキストの段数、平均および／または中間のフォントサイズなどのタイルの特徴を抽出する際に、ピクセルが水平方向に射影されてテキストの段数が識別され、統計的に特徴づけられる。この技術は「射影」と呼ばれる。

ある実施形態では、画像が、水平方向、垂直方向に最大１５５０ピクセルで比例拡大され、色コレログラムが計算される。特徴選択は、最小冗長性・最大関連性基準（ｍＲＭＲ）特徴選択を利用して次元数を圧縮するように実行される。（例えば、非特許文献６を参照。）特徴値はタイル位置に部分的に依存する（例えば、タイトルは通常ページの先頭に出てくる）ので、特徴選択技術にはタイル位置の情報が保持される。こうして、タイル特徴を連結して形成されるベクトル上で、特徴選択が実行される。タイルのクラスタリング時にこれらの特徴を利用するために、選択された特徴のタイル内での位置が利用されてもよく、従って、特徴はタイル内での位置の特徴の和集合となる。

図４Ａに戻ると、文書画像及びタイルの特徴を計算した後、訓練システムが少なくとも１つの区分分類器を訓練して（４１２）、文書画像集合４０７の中の文書画像の特徴と、文書画像集合４０７の中の複数のタイルの特徴と、文書画像集合４０７の中の各文書画像に関連する１つまたは複数の区分とに基づいて、文書画像をある区分に関連するとして分類させる。

次に、図４Ａのステップ４１２の操作を説明するフロー図である図５Ａと、図５Ａに関して説明される操作を示すブロック図７００である図７に注目する。文書画像集合４０７の中の文書画像に関連する区分の少なくとも部分集合の各区分に対して、訓練システムが文書画像集合４０７からタイルの部分集合を選択する（５０２）。ここで、タイルの部分集合中の各タイル（例えば、タイル７０２−１、７０２−２、７０２−Ｎのそれぞれ）は、区分に関連している。ある実施形態では、訓練システムが、タイルの部分集合中のタイルをタイルの特徴に基づいてクラスタリングする（５０４）（例えば、それぞれ７０４−１、７０４−２、７０４−Ｎのクラスタにする）。そして、その区分に関する確率モデル（例えば、ガウス混合モデル７０６−１、７０６−２、７０６−Ｎのそれぞれ）を生成する（５０６）。ここで、その区分に対する確率モデルとは、個々のタイルの個々の特徴が、その区分に関連するクラスタの１構成要素となっている尤度を示すものであり、その確率モデルが確率モデル集合の中に含まれていて（例えば、図４Ａの確率モデル４１３）、そのそれぞれが区分の部分集合中のある区分に対応する。

ある実施形態では、図４Ａ〜４Ｃを参照して説明した任意の実施形態の算出された特徴上でクラスタリング操作（例えば、ステップ５０４）が実行される。次いで、個々のタイルの個々の特徴が区分に関連するクラスタの構成要素となっている確率が、クラスタリング操作に基づいて形成される。これらの確率、あるいはこれらの確率の統合（例えば、荷重和）が、算出された特徴の代わりに利用される。

グループが、画像、テキスト、図形、大型フォント、空白等の異なるタイプのタイルに大まかに対応するように、タイルのクラスタリングが行われることに留意されたい。このように、レイアウト解析を行うよりもむしろ、各タイルが画像のタイプで暗黙のうちに「ラベル付け」され、そのラベル付けも重み付けがなされてもよい。

文書画像集合４０７における文書画像の少なくとも部分集合に対して、訓練システムが、確率モデルを、文書画像部分集合と、その文書画像部分集合に関連する複数のタイルとに適用し（５０８）、文書画像部分集合における個々の文書画像が１つまたは複数の区分の要素となる確率の集合を形成する。

次いで、訓練システムが少なくとも１つの区分分類器（例えば、図４Ａの訓練済みＳＶＭ／区分分類器４１４や図７の訓練済みＳＶＭ／区分分類器７３０）を訓練して、確率集合と、文書画像部分集合中の各文書画像に関連する１つまたは複数の区分とに基づいて、個々の文書画像を１つまたは複数の区分に関連するとして分類させる。

これに代わる技術は、図８に示したような略式ラベルの確率を計算するものである。ここで図８は、確率モデルを利用して文書の確率ベクトルを生成するための方法を示すブロック図８００である。各テーマｔの確率、即ち略式ラベル確率Π_tが、ガウス混合モデルパラメータを用いて計算される。ここで、μ_t ^jが平均、Ф_t ^jが共分散、β_t ^jがテーマｔのｊ番目の混合成分の混合荷重を表す。

ここで、

この選択により表示の次元が圧縮され、それによってＳＶＭの訓練及び検査が加速される。それぞれの場合において、タイルのｘ、ｙ位置が特徴として付加され、タイル位置情報の利用が促進される。そして、分類器がラベル付けされた特徴データ上で訓練される。新しい文書ページの区分識別を行うために、そのページに関する特徴の集合が計算されて、各区分の確率が計算される。これらの確率はＳＶＭ分類器の訓練用の特徴を導出するのに利用される。

各分類器が１つの区分を識別するように訓練され、区分でラベル付けされた標本を正サンプルとして利用し、それ以外の標本は負サンプルとしてラベル付けする。他のタイプの区分分類法では、ＳＶＭや、あるいは動径基底関数（ＲＢＦ）のような場合によっては非接領域も許容する核関数などのマージン最大化の分類器を暗黙のうちに利用して処理する。

図４Ａに戻ると、少なくとも１つの分類器が訓練されると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが（例えば、ユーザからの）文書を受け取って（４１６）、分類ステージ４０２が始まる。一般に、この文書は訓練用文書の一部ではない。分類システムがその文書をスキャンして（４１８）、文書画像４１９を形成する。あるいは、文書が既にスキャンされている場合には、ステップ４１８は省略される。

分類システムが文書画像４１９を複数のタイル４２１に分割し（４２０）、文書画像４１９および複数のタイル４２１の特徴４２３を計算する（４２２）。ある実施形態では、文書ページの特徴（例えば、テキストの行数、フォントの大きさ等）が識別可能なように、分類システムが文書画像を複数のタイル４２１に分割する。次に分類システムは、文書画像４１９の特徴４２３及び複数のタイル４２１の特徴４２３に基づいて、文書画像４１９に関連する１つまたは複数の区分４２５を識別する（４２４）。

次に図５Ｂに注目すると、これは図４Ａのステップ４２４の操作を説明するフロー図となっている。各区分に対して、文書画像４１９と文書画像４１９の複数のタイル４２１の特徴４２３とが区分のクラスタの構成要素である尤度を、分類システムが区分の確率モデルに基づいて計算する。そして分類システムが、訓練済みのＳＶＭ／区分分類器４１４を計算された尤度に適用して、文書画像４１９に関連する１つまたは複数の区分４２５を識別する。

図４Ａに戻って、ある実施形態では１つまたは複数の区分４２５を識別した後、分類システムが区分に特有なコンテンツを取得し（４２６）、その区分に特有なコンテンツをディスプレイ装置（例えば、分類装置、サーバ、クライアントのコンピュータシステム等のディスプレイ装置）に表示する（４２８）。例えば、区分特有のコンテンツが、１つまたは複数の区分４２５に関連する製品および／またはサービスの広告を含んでいてもよい。ある実施形態では、１つまたは複数の区分４２５が戻される。これらの実施形態においては、１つまたは複数の区分４２５がユーザおよび／またはアプリケーションによって特定の操作を行うために使用される（例えば、１つまたは複数の区分４２５に基づいて検索を行う）。

ある実施形態では、分類システムが区分特有のコンテンツを取得した後、その区分特有のコンテンツを含む電子メッセージを１人または複数の特定のユーザに伝送する。例えば、電子メール、ショートメッセージサービス（ＳＭＳ）、マルチメディアメッセージサービス（ＭＭＳ）などのメッセージを介して、分類システムが特定のユーザに電子メッセージを伝送する。

ある実施形態では、文書画像の部分集合が、複数のページのある文書に関連する。このような実施形態においては、訓練ステージ４０１及び分類ステージ４０２は文書のそれぞれのページに対して実行されてもよい。

次に、第２の学習及び分類技術について注目する。上記の特徴、文書の分割に関する説明は、以下に説明する第２の技術にも当てはまることに留意されたい。図２Ｂはある実施形態による訓練システム２５１を示すブロック図２５０である。これらの実施形態では、訓練システム２５１のクラスタリングモジュール２５２が、訓練用文書２０４及び関連する区分２０６を受け取る。訓練用文書２０４の各文書は、１つまたは複数の区分に関連してもよい。その関連は、各文書のメタデータ中に特定されているか、各訓練用文書を１つまたは複数の区分に関連付ける個別の文書（例えばＸＭＬファイル、テキストファイル、等）あるいはデータベース中に特定されている。クラスタリングモジュール２５２は訓練用文書２０４及び関連する区分２０６を利用して、訓練済みＳＶＭ／区分分類器の第１の集合２５４を形成する。分類モジュール２５３が、訓練済みＳＶＭ／区分分類器の第１の集合２５４によって形成されたスコア２５５を利用して訓練済みＳＶＭ／区分分類器の第２の集合２５６の訓練を行う。この詳細を図４Ｂおよび５Ｃに関して説明する。ある実施形態では、訓練システム２１５が、訓練用文書２０４をスキャンして訓練用文書２０４の画像２０５を形成する画像装置を含んでいる。そして、訓練用文書２０４の画像２０５が訓練システム２５１によって利用される。ある実施形態では、訓練用文書２０４は既に文書の画像となっており、訓練システム２５１で直接利用される。

図３Ｂはある実施形態による分類システム３５２を示すブロック図３５０である。これらの実施形態においては、分類システム３５２が文書３５４を受け取り、訓練済みＳＶＭ／区分分類器の第１の集合３５６を文書３５４に適用してスコア３５７を形成する。分類システム３５２は次いで訓練済みＳＶＭ／区分分類器の第２の集合３５８をスコア３５７に適用して、文書３５４に関連する１つまたは複数の区分３６０を識別する。ある実施形態では、分類システム３５２が、文書３５４をスキャンして文書３５４の画像３５５を形成する画像装置を含んでいる。文書３５４の画像３５５は、次いで分類システム３５２で利用されて、文書３５４に関連する１つまたは複数の区分３６０が識別される。ある実施形態では、文書３５４は既に文書の画像となっていて、分類システム３５２で直接利用され、その文書３５４に関連する１つまたは複数の区分３６０が識別される。分類システム３５２は図４Ｂおよび５Ｄに関連してより詳細に説明される。

図４Ｂはある実施形態による文書区分を識別する方法４３０のフロー図である。方法４３０は訓練システム（例えば、図２Ｂの訓練システム２５１）及び分類システム（例えば、図３Ｂの分類システム３５２）によって実行される操作に対応する。特に、方法４３０は訓練ステージ４３１と分類ステージ４３２とを含む。一般的に、訓練ステージ４３１は訓練システム（例えば、図２Ｂの訓練システム２５１）上で実行され、分類ステージ４３２は分類システム（例えば、図３Ｂの分類システム３５２）上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。

訓練ステージ４３１の操作は、分類ステージ４３２の操作の前に実行される。

訓練システムが訓練用文書及び関連する区分を受け取ると（４３４）、訓練ステージ４３１が始まる。前述したように、各訓練用文書は１つまたは複数の区分に関連している。訓練システムが訓練用文書をスキャンし（４３６）、文書画像４３７の集合を形成する。あるいは、訓練用文書が既にスキャンされている場合には、ステップ４３６は省略される。

文書画像４３７の集合における各画像に対して、訓練システムが文書画像を複数のタイル４３９に分割し（４３８）、文書画像及び複数のタイル４３９の特徴を計算する（４４０）。ある実施形態では、文書ページの特徴（例えば、テキストの行数、フォントの大きさ等）が識別可能なように、訓練システムが文書画像を複数のタイル４３９に分割する。

次いで、訓練システムが少なくとも１つの区分分類器を訓練して（４４２）、文書画像集合４３７の文書画像の特徴と、文書画像集合４３７の複数のタイルの特徴と、文書画像集合４３７の各文書画像に関連する１つまたは複数の区分とに基づいて、文書画像をある区分に関連するものとして分類する。

次に図５Ｃに注目すると、これは図４Ｂのステップ４４２の操作を説明するフロー図となっている。各区分に対して、訓練システムが文書画像集合４３７から文書画像の部分集合を選択する（５３２）。ここで、文書画像の部分集合中の各文書画像は、区分に関連している。次いで、訓練システムが、区分に対応する第１の区分分類器を、文書画像の特徴と、文書画像に関する複数のタイルの特徴と、第１の区分に関連するとして識別された文書画像部分集合に対応するかを示す情報とに基づいて訓練する（５３４）。こうして、各区分に対する第１の区分分類器を含む区分分類器の第１の集合が形成される（例えば、図４Ｂにおける、訓練済みＳＶＭ／区分分類器の第１の集合４４３）。

文書画像集合４３７の中の少なくとも文書画像部分集合に関して、訓練システムが区分分類器の第１の集合（例えば、図４Ｂにおける訓練済みＳＶＭ／区分分類器の第１の集合４４３）を、文書画像部分集合中の文書画像と文書画像部分集合に関連する複数のタイルとに対して適用し（５３６）、スコアの集合を形成する。

各区分に関し、文書画像部分集合中の各文書画像に対するスコア集合と、各画像に関連する１つまたは複数の区分と、各文書画像に対する複数のタイルにおけるタイルの位置とに基づいて、訓練システムが、その区分に対応する第２の区分分類器を訓練し（５３８）、文書画像をその区分に関連するものとして分類させる。こうして、各区分に対する第２の区分分類器を含む、区分分類器の第２の集合が形成される（例えば、図４Ｂにおける、訓練済みＳＶＭ／区分分類器の第２の集合４４４）。

図４Ｂに戻ると、少なくとも１つの分類器の訓練が行われると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが（例えば、ユーザからの）文書を受け取ると（４４６）、分類ステージ４３２が始まる。一般に、この文書は訓練用文書の一部ではない文書である。分類システムが文書をスキャンして（４４８）、文書画像４４９を形成する。あるいは、文書が既にスキャンされている場合には、ステップ４４８は省略される。

分類システムが文書画像４４９を複数のタイル４５１に分割し（４５０）、文書画像４４９および複数のタイル４５１の特徴４５３を計算する（４５２）。ある実施形態では、文書ページの特徴（テキストの行数、フォントの大きさ等）が識別可能なように、分類システムが文書画像を複数のタイル４５１に分割する。次に分類システムは、文書画像４４９の特徴４５３と複数のタイル４５１の特徴４５３とに基づいて、文書画像４４９に関連する１つまたは複数の区分４５５を識別する（４５４）。

次に図５Ｄに注目すると、これは図４Ｂのステップ４５４の操作を説明するフロー図となっている。分類システムが、区分分類器の第１の集合（例えば、図４Ｂにおける、訓練済みＳＶＭ／区分分類器の第１の集合４４３）を、文書画像４４９と文書画像４４９に関連する複数のタイル４５１との特徴に適用して（５４２）、スコアの集合を形成する。次いで、分類システムは、区分分類器の第２の集合（例えば、図４Ｂにおける、訓練済みＳＶＭ／区分分類器の第２の集合４４４）を、文書画像４４９のスコアの集合と、文書画像４４９の複数のタイル４５１におけるタイルの位置とに適用して（５４４）、文書画像４４９に関連する１つまたは複数の区分４５５を識別する。

あるいはこれに代わって、各タイルに対して区分分類器の第１の集合によって形成されたスコアを投票パラダイムにおいて使用して、ページ区分を識別してもよい。

図４Ｂに戻って、ある実施形態では１つまたは複数の区分４５５を識別した後、分類システムが区分に特有なコンテンツを取得し（４５６）、その区分に特有なコンテンツをディスプレイ装置（例えば、分類システム、サーバ、クライアントのコンピュータシステム等のディスプレイ装置）に表示する（４５８）。例えば、区分特有のコンテンツが１つまたは複数の区分４５５に関連する製品および／またはサービスの広告を含んでいてもよい。ある実施形態では、１つまたは複数の区分４５５が戻される。これらの実施形態においては、１つまたは複数の区分４５５がユーザおよび／またはアプリケーションによって特定の操作を行うために使用される（例えば、１つまたは複数の区分４５５に基づいて検索を行う）。

ある実施形態では、文書画像の部分集合が、複数のページを有する文書に関連する。このような実施形態においては、訓練ステージ４３１及び分類ステージ４３２は文書のそれぞれのページに対して実行されてもよい。

次に、第３の学習及び分類技術について注目する。上記の特徴、文書の分割に関する説明は、以下に説明する第３の技術にも当てはまることに留意されたい。図２Ｃはある実施形態による学習システム２８１を示すブロック図２８０である。これらの実施形態では、訓練システム２８１が分類モジュール２８２と２８３を含む。ある実施形態では、分類モジュール２８２と２８３は分離した別々のモジュールである。ある実施形態では、分類モジュール２８２と２８３は同一タイプの分類器であるが、パラメータ値が異なっている。訓練用文書２０４は、２つの互いに排他的な訓練用文書の部分集合２８４〜２８５に分割されており、関連する区分の部分集合２８６〜２８７を有している。ある実施形態では、区分の部分集合２８６〜２８７は同一区分を含んでいる。訓練システム２８１の分類モジュール２８２が、訓練用文書部分集合２８４及びそれに関連する区分部分集合２８６を受け取る。訓練用文書２０４の各文書は、１つまたは複数の区分に関連してもよいことに留意されたい。その関連は、各文書のメタデータ中に特定されているか、各訓練用文書を１つまたは複数の区分に関連付ける個別の文書（例えばＸＭＬファイル、テキストファイル、等）あるいはデータベース中に特定されている。分類モジュール２８２は訓練用文書部分集合２８４及び関連する区分部分集合２８６を利用して、訓練済みＳＶＭ／区分分類器の第１の集合２９０を形成する。分類モジュール２８２は訓練用文書部分集合２８５及び関連する区分部分集合２８７を利用して、訓練済みＳＶＭ／区分分類器の第１の集合２９０用のパラメータを調整する。同じようにして、分類モジュール２８３は訓練用文書部分集合２８５及び関連する区分部分集合２８７を利用して、訓練済みＳＶＭ／区分分類器の第２の集合２９１を形成する。分類モジュール２８３は訓練用文書部分集合２８４及び関連する区分部分集合２８６を利用して、訓練済みＳＶＭ／区分分類器の第２の集合２９１用のパラメータを調整する。このプロセスは図４Ｃ及び５Ｅに関連して詳細を説明する。ある実施形態では、訓練システム２８１が、訓練用文書２０４をスキャンして訓練用文書部分集合２８４〜２８５の画像２８８〜２８９を形成する画像装置を含んでいる。そして、訓練用文書部分集合２８４〜２８５の画像２８８〜２８９が訓練システム２８１によって利用される。ある実施形態では、訓練用文書部分集合２８４〜２８５は既に文書の画像となっており、訓練システム２８１で直接利用される。

図３Ｃはある実施形態による分類システム３８２を示すブロック図３８０である。これらの実施形態において、分類システム３８２が文書３８４を受け取り、訓練済みＳＶＭ／区分分類器の第１の部分集合３８６を適用してスコア３８７を形成し、訓練済みＳＶＭ／区分分類器の第２の部分集合３８８を文書３８４に適用してスコア３８９を形成する。統合機能３９０がスコア３８７と３８９を統合して、文書３８４に関連する１つまたは複数の区分３９２を識別する。精度を改善する例示的な統合機能が、スコア３８７と３８９を閾値と比較する。スコアが、少なくとも１つの分類器に対する閾値より大きく、かつ、その他のすべての区分に関しては両方の分類器に対する閾値よりも低い場合に、そのページおよび／または文書は、その閾値よりも大きいスコアを形成した分類器に対応する区分に関連するものとして分類される。制約を緩めた別の方法では、すべての他の区分に対してスコアが両方の分類器の閾値よりも低くなければならないという条件を外して、その代わりに、その他のすべての区分に対して２つの分類器の内の少なくとも１つのスコアが閾値よりも低いことを要件とする。ある実施形態では、分類システム３８２が、文書３８４をスキャンして文書３８４の画像３８５を形成する画像装置を含んでいる。そして文書３８４の画像３８５は分類システム３８２で利用されて、文書３８４に関連する１つまたは複数の区分３９２が識別される。ある実施形態では、文書３８４は既に文書の画像となっていて、分類システム３８２に直接利用され、その文書３８４に関連する１つまたは複数の区分３９２が識別される。分類システム３８２については、図４Ｃおよび５Ｆに関連してより詳細を説明する。

図４Ｃはある実施形態による文書区分を識別する方法４６０のフロー図である。方法４６０は訓練システム（例えば、図２Ｃの訓練システム２８１）及び分類システム（例えば、図３Ｃの分類システム３８２）によって実行される操作に対応する。特に、方法４６０は訓練ステージ４６１と分類ステージ４６２とを含む。一般的に、訓練ステージ４６１は訓練システム（例えば、図２Ｃの訓練システム２８１）上で実行され、分類ステージ４６２は分類システム（例えば、図３Ｃの分類システム３８２）上で実行される。これらのシステムは、物理的に別々のシステムであってもよいし、同一のシステムであってもよい。

訓練ステージ４６１の操作は、分類ステージ４６２の操作の前に実行される。

訓練システムが訓練用文書及び関連する区分を受け取ると（４６４）、訓練ステージ４６１が始まる。前述したように、各訓練用文書は１つまたは複数の区分に関連している。訓練システムが訓練文書をスキャンし（４６６）、文書画像４６７の集合を形成する。あるいは、訓練文書が既にスキャンされている場合には、ステップ４６６は省略される。

文書画像集合４６７の各画像に対して、訓練システムが文書画像を複数のタイル４６９に分割し（４６８）、文書画像及び複数のタイル４６９の特徴を計算する（４７０）。ある実施形態では、文書ページの特徴（例えば、テキストの行数、フォントの大きさ等）が識別可能なように、訓練システムが文書画像を複数のタイル４６９に分割する。

次いで、訓練システムが少なくとも１つの区分分類器を訓練して（４７２）、文書画像集合４６７の文書画像の特徴と、文書画像集合４６７の複数のタイルの特徴と、文書画像集合４６７の各文書画像に関連する１つまたは複数の区分とに基づいて、文書画像を区分に関連するものとして分類する。

次に図５Ｅに注目すると、これは図４Ｃのステップ４７２の操作を説明するフロー図となっている。各区分に関し、文書画像集合４６７の第１の部分集合の特徴と、文書画像集合４６７の第１の部分集合に関連する複数のタイルの特徴とに基づいて、訓練システムが、第１の区分に対応する第１の区分分類器（例えば、図４Ｃにおける、訓練済みＳＶＭ／区分分類器の第１の集合４７３）を訓練する（５５２）。訓練システムが、文書画像集合４６７の第２の部分集合を用いて第１の区分分類器のパラメータを調整する（チューニングする）（５５４）。ここで、文書画像集合４６７の第１の部分集合と第２の部分集合とは互いに排他的な文書画像の集合である。このように、訓練システムが、特定のＳＶＭパラメータ値の集合に基づいて第１の区分分類器を訓練し、文書画像集合４６７の第２の部分集合を用いて、第１の区分分類器のＳＶＭパラメータを調整する。ある実施形態では、文書画像集合４６７の第２の部分集合で最適の結果をもたらすＳＶＭパラメータ値が、第１の区分分類器に対するＳＶＭパラメータ値として使用される。次に、文書画像集合４６７の第２の部分集合の特徴と、文書画像集合４６７の第２の部分集合に関連する複数のタイルの特徴とに基づいて、訓練システムが、第１の区分に対応する第２の区分分類器（例えば、図４Ｃにおける、訓練済みＳＶＭ／区分分類器の第２の集合４７４）を訓練する（５５６）。訓練システムが、文書画像集合４６７の第１の部分集合を用いて第２の区分分類器のパラメータを調整する（５５８）。このように、訓練システムが、特定のＳＶＭパラメータ値の集合に基づいて第２の区分分類器を訓練し、文書画像集合４６７の第１の部分集合を用いて、第２の区分分類器のＳＶＭパラメータを調整する。ある実施形態では、文書画像集合４６７の第１の部分集合で最適の結果をもたらすＳＶＭパラメータ値が、第２の区分分類器に対するＳＶＭパラメータ値として使用される。ある実施形態では、文書画像集合の第１の部分集合が、第１の区分及びその他の区分の両方に関連する文書画像を含む。ある実施形態では、文書画像集合の第１の部分集合が、第１の区分に関連する文書画像のみを含む。ある実施形態では、文書画像集合の第２の部分集合が、第２の区分及びその他の区分の両方に関連する文書画像を含む。ある実施形態では、文書画像集合の第２の部分集合が、第２の区分に関連する文書画像のみを含む。

図４Ｃに戻ると、少なくとも１つの分類器の訓練が行われると、分類システムは訓練済みの区分分類器を用いて新しい文書の区分識別を行うことができる。分類システムが（例えば、ユーザからの）文書を受け取って（４７６）、分類ステージ４６２が始まる。一般に、この文書は訓練用文書の一部ではない文書である。分類システムが文書をスキャンして（４７８）、文書画像４７９を形成する。あるいは、訓練文書が既にスキャンされている場合には、ステップ４７８は省略される。

分類システムが文書画像４７９を複数のタイル４８１に分割し（４８０）、文書画像４７９および複数のタイル４８１の特徴４８３を計算する（４８２）。ある実施形態では、文書ページの特徴（例えば、テキストの行数、フォントの大きさ等）が識別可能なように、訓練システムが文書画像を複数のタイル４８１に分割する。ある実施形態では、特徴４８３が、図４Ａ及び５Ａ〜５Ｂに関して前に説明した確率、尤度が含まれる。次に分類システムは、文書画像４７９の特徴４８３及び複数のタイル４８１の特徴４８３に基づいて、文書画像４７９に関連する１つまたは複数の区分４８５を識別する（４８４）。

次に図５Ｆに注目すると、これは図４Ｃのステップ４８４の操作を説明するフロー図となっている。分類システムが、区分分類器の第１の集合（例えば、図４Ｃにおける、訓練済みＳＶＭ／区分分類器の第１の集合４７３）を、文書画像４７９の特徴４８３及び文書画像４７９に関連する複数のタイル４８１に適用して（５６２）、スコアの第１の集合を形成する。分類システムが、区分分類器の第２の集合（例えば、図４Ｃにおける、訓練済みＳＶＭ／区分分類器の第２の集合４７４）を、文書画像４７９の特徴４８３及び文書画像に関連する複数のタイル４８１に適用して（５６４）、スコアの第２の集合を形成する。次に分類システムが第１の集合のスコアと第２の集合のスコアを統合して（５６６）、統合スコアを形成し、その統合スコアに基づいて文書画像４７９に関連する１つまたは複数の区分を識別する（５６８）。ある実施形態では、第１の集合のスコアと第２の集合のスコアとのどちらかの集合のスコアが特定の閾値を越えているかどうかを判定して、分類システムが２つの集合のスコアを統合する。閾値を越えている場合には、その文書画像４７９はその閾値を越えたスコアに対応する１つまたは複数の区分に関連するものとして識別される。ある実施形態では、第１の集合のスコアと第２の集合のスコアが重み付きで統合され、文書画像４７９に関連する１つまたは複数の区分の識別に利用される。

図４Ｃに戻って、ある実施形態では１つまたは複数の区分４８５を識別した後、分類システムが区分に特有なコンテンツを取得し（４８６）、その区分に特有なコンテンツをディスプレイ装置（例えば、分類システム、サーバ、クライアントのコンピュータシステム等のディスプレイ装置）に表示する（４８８）。例えば、区分特有のコンテンツが、１つまたは複数の区分４８５に関連する製品および／またはサービスの広告を含んでいてもよい。ある実施形態では、１つまたは複数の区分４８５が戻される。これらの実施形態においては、１つまたは複数の区分４８５がユーザおよび／またはアプリケーションによって特定の操作を行うために使用される（例えば、１つまたは複数の区分４８５に基づいて検索を行う）。

ある実施形態では、分類システムが区分特有のコンテンツを取得した後、その区分特有のコンテンツを含む電子メッセージを１人または複数の特定のユーザに伝送する。例えば、電子メール、ショートメッセージサービス（ＳＭＳ）、マルチメディアメッセージサービス（ＭＭＳ）などのメッセージを介して、分類システムが特定のユーザに電子メッセージを伝送してもよい。

ある実施形態では、文書画像の部分集合が、複数のページを有する文書に関連する。このような実施形態においては、訓練ステージ４６１及び分類ステージ４６２は文書の各ページに対して実行されてもよい。

図４Ａ〜４Ｃ及び５Ａ〜５Ｆで説明された方法は、コンピュータ可読記憶媒体に格納され、訓練システムおよび／または分類システムの１つまたは複数のプロセッサにより実行される命令により支配されてもよい。図４Ａ〜４Ｃ及び５Ａ〜５Ｆに示された操作のそれぞれは、コンピュータのメモリあるいはコンピュータ可読記憶媒体中に格納された命令に対応してもよい。コンピュータ可読記憶媒体としては、磁気もしくは光のディスク記憶装置、フラッシュメモリのような固体記憶装置、もしくはその他の１つまたは複数の非揮発性メモリ装置が含まれてもよい。コンピュータ可読記憶媒体に格納されたコンピュータ可読命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、あるいは１つまたは複数のプロセッサによって解釈されるその他の命令フォーマットで書かれている。

図９は、ある実施形態による訓練システム９００を示すブロック図である。訓練システム９００は図２Ａ、２Ｂ、２Ｃの各訓練システム２０１、２５１、２８１の内の任意のものであってよい。訓練システム９００は一般に、１つまたは複数のプロセスユニット（ＣＰＵ）９０２、１つまたは複数のネットワークないしはその他の通信インタフェース９０４、メモリ９１０、およびこれらの部品を相互接続するための１つまたは複数の通信バス９０９を含んでいる。オプションとしては、訓練システム９００は文書を光学的にスキャンして文書画像（例えば、文書のデジタル画像）を形成できるように設定された、画像装置９６０を含んでもよい。通信バス９０９はシステム部品間を相互接続し通信を制御する回路（チップセットとも呼ばれる）を含んでもよい。訓練システム９００はオプションとして、ディスプレイ装置９０６及び入力装置９０８（例えば、キーボード、マウス、タッチスクリーン、キーパッドなど）からなるユーザインタフェース９０５を含んでもよい。メモリ９１０は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭやその他のランダムアクセス固体メモリ装置などの高速ランダムアクセスメモリを含み、１つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置やその他の不揮発性固体素子記憶装置などの不揮発性メモリを含んでもよい。メモリ９１０はオプションとして、ＣＰＵ９０２からはリモートに位置する１つまたは複数の記憶装置を含んでもよい。メモリ９１０、あるいはそれに代わる、メモリ９１０中の不揮発メモリ装置は、コンピュータ可読記憶媒体から構成される。

メモリ９１０が下記のプログラム、モジュール、データ構造、あるいはそれらのサブセットを格納する。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム９１２。
１つまたは複数の（有線あるいは無線）通信インタフェース９０４、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの１つまたは複数の通信ネットワークを介して、訓練システム９００を他のシステムへ接続するために使用される通信モジュール９１４。
入力装置９０８を介してユーザからの命令を受け取り、ディスプレイ装置９０６中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール９１６。
画像装置９６０からの画像（例えば、文書画像９４２）を取得するためのプロシージャを含むオプション画像モジュール９１８。
本明細書で説明したように文書画像をタイルに分割する分割モジュール９２２と、本明細書で説明したように文書画像および／またはタイルの特徴を抽出する特徴抽出モジュール９２４と、本明細書で説明したように特徴が区分の１つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール９２６と、及び本明細書で説明したように１つまたは複数のＳＶＭ／区分分類器に訓練を施すＳＶＭ／区分分類器モジュール９２８と、を含む訓練モジュール９２０。
ＳＶＭ／区分分類器モジュール９２８によって形成される、訓練済みＳＶＭ／区分分類器９４０。
訓練モジュール９２０で使用される文書画像９４２（例えば、画像装置９６０から取得される画像）。
各文書画像に対する区分情報（例えば、個別の文書、データベース、ファイルなどの中に提供されている区分情報、文書のメタデータから抽出される区分情報など）を含む、文書画像に関連する区分９４４。

上記の識別された要素のそれぞれは、前述の１つまたは複数のメモリ装置に格納され、上記の機能を遂行するための一連の命令に対応する。一連の命令は、１つまたは複数のプロセッサ（例えば、ＣＰＵ９０２）で実行することができる。上記の識別されたモジュールやプログラム（即ち、命令セット）は、個別のソフトウェアプログラムやプロシージャ、モジュールとして実装される必要はなく、従ってこれらのモジュールのさまざまなサブセットがさまざまな実施形態において、統合されたり、他の形で再配置されたりしてもよい。ある実施形態では、メモリ９１０が上記に示されたモジュール及びデータ構造のサブセットを格納する。更に、メモリ９１０は、上では述べていない追加のモジュール及びデータ構造を格納してもよい。
なおこの実施形態において、分割モジュール９２２は分割手段に相当し、特徴抽出モジュール９２４は特徴計算手段に相当し、確率モデルモジュール９２６は確率モデル計算手段に相当し、ＳＶＭ／区分分類器モジュール９２８は区分分類器訓練手段に相当する。

図９は「訓練システム」を示すが、図９は、本明細書で説明する実施形態の概略構造としてだけでなく、訓練システムの中に存在するさまざまな特徴に関する機能的説明をすることが意図されている。実際に、また当業者には認識されるように、分離されて表示されたアイテムを統合することもできるし、アイテムのあるものは分離することも可能である。例えば、図９で分離して示されているアイテムを１つの訓練システム上に実装することもできるし、また単一のアイテムを１つまたは複数の訓練システムに実装することも可能である。更に、訓練システム９００は分類システムに含まれてもよい。例えば、画像システム（例えば、図１の画像システム１０４）が、分類システムと訓練システム９００の両方を含んでもよい。

図１０は、ある実施形態による分類システム１０００を示すブロック図である。分類システム１０００は図３Ａ、３Ｂ、３Ｃの各訓練システム３０２、３５２、３８２の内の任意のものであってよい。分類システム１０００は一般に、１つまたは複数のプロセスユニット（ＣＰＵ）１００２、１つまたは複数のネットワークまたはその他の通信インタフェース１００４、メモリ１０１０、およびこれらの部品を相互接続するための１つまたは複数の通信バス１００９を含んでいる。オプションとしては、分類システム１０００は文書を光学的にスキャンして文書画像（例えば、文書のデジタル画像）を形成できるように設定された、画像装置１０６０を含んでもよい。通信バス１００９はシステム部品間を相互接続し通信を制御する回路（チップセットとも呼ばれる）を含んでもよい。分類システム１０００はオプションとして、ディスプレイ装置１００６及び入力装置１００８（例えば、キーボード、マウス、タッチスクリーン、キーパッドなど）からなるユーザインタフェース１００５を含んでもよい。メモリ１０１０は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭやその他のランダムアクセス固体メモリ装置などの高速ランダムアクセスメモリを含み、１つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置やその他の不揮発性固体素子記憶装置などの不揮発性メモリを含んでもよい。メモリ１０１０はオプションとして、ＣＰＵ１００２からはリモートに位置する１つまたは複数の記憶装置を含んでもよい。メモリ１０１０、あるいはそれに代わるメモリ１０１０中の不揮発メモリ装置は、コンピュータ可読記憶媒体から構成される。

メモリ１０１０が下記のプログラム、モジュール、データ構造、あるいはそれらのサブセットを格納する。
さまざまな基本システム業務を処理し、ハードウェアに依存するタスクを実行するためのプロシージャを含むオペレーティングシステム１０１２。
１つまたは複数の（有線あるいは無線）通信インタフェース１００４、および、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの１つまたは複数の通信ネットワークを介して、分類システム１０００を他のシステムへ接続するために使用される通信モジュール１０１４。
入力装置１００８を介してユーザからの命令を受け取り、ディスプレイ装置１００６中にユーザインタフェースオブジェクトを生成する、ユーザインタフェースモジュール１０１６。
画像装置１０６０からの画像（例えば、文書画像１０４２）を取得するためのプロシージャを含むオプション画像モジュール１０１８。
本明細書で説明したように文書画像をタイルに分割する分割モジュール１０２２と、本明細書で説明したように文書画像および／またはタイルの特徴を抽出する特徴抽出モジュール１０２４と、本明細書で説明したように特徴が区分の１つまたは複数のクラスタの構成要素である尤度を計算する、オプションの確率モデルモジュール１０２６と、本明細書で説明したように１つまたは複数の訓練済みＳＶＭ／区分分類器（例えば訓練済みＳＶＭ／区分分類器１０４０）に適用して文書画像（例えば、文書画像１０４２）に関連する１つまたは複数の区分（例えば、区分１０３０）を識別するＳＶＭ／区分分類器モジュール１０２８と、を含む分類モジュール１０２０。
訓練システム（例えば、図９の訓練システム９００）によって形成される、訓練済みＳＶＭ／区分分類器１０４０。
分類モジュール１０２０で使用される文書画像１０４２（例えば、画像装置１０６０から取得される画像）。
分類モジュール１０２０によって識別される文書画像１０４４に関連する区分。
通信インタフェース１００４を介して１つまたは複数のサーバから区分特有のコンテンツ１０４８を取得するオプションの区分特有コンテンツモジュール１０４６。ここで、本明細書で説明したように、区分特有のコンテンツ１０４８はディスプレイ装置１００６上に表示されるか、あるいは通信インタフェース１００４を介して特定のユーザへ電子的に伝送されてもよい。

上記の識別された各要素は、前述の１つまたは複数のメモリ装置に格納されてもよく、上記の機能を遂行するための一連の命令に対応する。一連の命令は、１つまたは複数のプロセッサ（例えば、ＣＰＵ１００２）で実行することができる。上記の識別されたモジュールやプログラム（即ち、命令セット）は、個別のソフトウェアプログラムやプロシージャ、モジュールとして実装される必要はなく、従ってこれらのモジュールのさまざまなサブセットがさまざまな実施形態において、統合されたり、他の形で再配置されたりしてもよい。ある実施形態では、メモリ１０１０が上記に示されたモジュール及びデータ構造のサブセットを格納する。更に、メモリ１０１０は、上では述べていない追加のモジュール及びデータ構造を格納してもよい。
なおこの実施形態において、通信モジュール１０１４及び画像モジュール１０１８は受取手段に相当し、分割モジュール１０２２は分割手段に相当し、特徴抽出モジュール１０２４は特徴計算手段に相当し、確率モデルモジュール１０２６は確率モデル計算手段に相当し、ＳＶＭ／区分分類器モジュール１０２８は区分分類手段に相当する。

図１０は「分類システム」を示すが、図１０は、本明細書で説明する実施形態の概略構造としてだけでなく、分類システムの中に存在してもよいさまざまな特徴に関する機能的説明をすることが意図されている。実際に、また当業者には認識されるように、分離されて表示されたアイテムを統合することもできるし、アイテムのあるものは分離することも可能である。例えば、図１０で分離して示されているアイテムを１つの分類システム上に実装することもできるし、また単一のアイテムを１つまたは複数の分類システムに実装することも可能である。更に、分類システム１０００が訓練システムを含んでもよい。例えば、画像システム（例えば、図１の画像システム１０４）が、訓練システム９００と分類システム１０００の両方を含んでもよい。

ある実施形態では、訓練システム９００と分類システム１０００は同一のシステム（例えば、複写機など）に配置される。ある実施形態では、訓練システム９００と分類システム１０００が別々のシステム上に配置される。例えば、訓練システム９００は製造元のシステムに置かれ、その一方で分類システム１０００はエンドユーザのシステムに配置されてもよい。

弱いラベル付けデータの扱い
ある実施形態では、訓練セットの各文書はいくつかの区分の中の１つに手動で分類される。例えば、これらの区分には、広告、パンフレット、一般論文、ビラ、帳票、地図、公式論文、写真、領収証、規定および規則、報告書、履歴書、表等が含まれる。しかし、文書は２つ以上の区分に関連する可能性がある。例えば、ビラ形式の１ページの招待状は、「パーティ」の区分と「招待状」の区分の両方に属してもよい。このようにある実施形態では、本明細書で説明した分類システムが文書の１つまたは複数の区分を識別する。

１対多モデルを利用してＳＶＭに訓練を施すことにより、ページが１区分以上に分類される可能性があり、これは用途によっては望ましいことである。最高の決定関数値を有するクラスへの分類を含む多クラスＳＶＭ用の任意の標準方法によって、単一クラスへの分類は実行可能である。

評価
本明細書で説明した分類システムを、計３４６９ページに及ぶ５９９の文書からのデータを用いて評価した。文書が２０ページより長い場合には、文書の最初の２０ページを取り込んだ。各文書は手動で適切な区分にラベル付けした。

データは、３つの部分（訓練、展開、検査）に分け、各部分に１つの区分からほぼ同数の文書を割り当てた。これまでに、訓練部分及び展開部分が本実験で用いられた。

第１の実験が行われ、平均及び共分散を特徴とする８成分のガウス混合モデルが各区分に対して計算された。展開データの各ページは、ページ内のタイルによる均一な投票の後、最大スコアのクラスに分類された。この結果を図１１に示す。図１１からわかるように、写真と領収証が比較的良好に識別されている。

潜在クラス及びＳＶＭを用いて第２の実験を行った。潜在クラスは訓練部分で算出され、クラスモデルを用いて各検査ページのクラス確率を計算した。展開データにジャックナイフ法を用い、１つの文書からのものを除いて、すべてのページでモデルを訓練し、訓練済みのモデルは残されたページ上で評価された。そして、すべての文書に対する結果が統合された。これらの結果は、図１２に示すように、確度（例えば、分類システムにより決定された区分が実際の区分に一致する度合い）、精度（例えば、特定の区分に属するとしてシステムにより正しく識別されたページ数を、その特定の区分に属するとしてシステムにより識別された総ページ数で割った数値）、および再現尺度（例えば、特定の区分に属するとしてシステムにより正しく識別されたページ数を、実際にその特定の区分に属するコーパス中の総ページ数で割った数値）を用いて要約される。図１２に示されているように、１対多モデルの方がクラスのあるもの（例えば、ビラ、地図及び論文）に対して図１１の投票方式よりも良好な再現をしている。これは、ビラや地図のあるものは他の区分にも入り（例えば、招待状はビラでもある）、文書は１つだけの区分にラベル付けされるからである。また、ＳＶＭを利用すると、パラメータの設定が精度よりも再現性に偏ってしまう。パラメータの設定は、再現性を犠牲にして、精度を向上させるように調整することができる。

本明細書で説明した技術を、キム（Ｋｉｍ）とロス（Ｒｏｓｓ）が提示した技術と比較する第３の実験を行った。（非特許文献７を参照。）キムとロスが解析した区分は科学記事を含んでおり、本明細書で記述している「論文」のカテゴリと類似している。キムとロスは、彼らの画像ベースの区分分類器に関して、精度と再現性でそれぞれ０．２１と０．８０を得ている。キムとロスはビジネス報告書についても解析し、精度０．５６、再現性０．６３６を報告している。キムとロスは、画像特徴に基づく２つの異なるデータセットにおける精度と再現性を計算し、（非特許文献８を参照。）、彼らの第２のデータセットに対するＳＶＭも含めた、３つの異なる分類器での最適結果を報告した。ビジネス報告書の区分に関しては、キムとロスは、彼らの第１のデータセットに対して、精度０．２７３と再現性０．２を報告している。キムとロスの第２のデータセットにおけるビジネス報告書に対しては、精度０．３８５と再現性０．０５であった。

キムとロス（非特許文献７を参照）およびキムとロス（非特許文献８を参照）における説明に基づいて、６２×６２のグリッドを利用した画像分類器を実装し、少なくとも１ピクセルが２４５よりも小さい値を取るすべての領域に値「０」を割り当て、その他の領域に値「１」を割り当てた。キムとロス（非特許文献７を参照）に引用されているＷｅｋａナイーブベイズ分類器の２つのバージョンをデータセットに対して適用した。２つのバージョンは、（１）プレーンと（２）カーネル密度評価付きである。相対的評価のために、情報検索（ＩＲ）でしばしば使用される、精度と再現性の調和平均であるＦ１を計算した。

図１３からわかるように、本明細書で説明した分類システム（例えば、図１３で「ＧｅｎＩＥ」のラベルの付いたもの）が異なるカテゴリの全体に対してより優れていた。ＧｅｎＩＥのＦ１が、我々の実装によるキムとロスシステムのいずれよりも、平均で０．１９大きかった。

５つの区分について、０以上でラベル付けしたページの第２のコーパスを生成した。５つの区分は、パンフレット、地図、論文、写真、表の各区分である。３０００ページ以上で約２０００のラベルが使用された。コーパスを、各パーティションがほぼ同数の文書数を有する３つのパーティションに分けた。

図１４はある実施形態による、分類システムの確度、精度、再現性を示す別のグラフである。図１４に、各区分に均等な重み付けをした、５つの区分に対する単一ＳＶＭ分類システムの性能、及び５つの区分全体の平均性能がプロットされている。性能は精度、再現性、およびＦ１で表されている。

図１５はある実施形態による、分類システムの確度、精度、再現性を示す別のグラフである。図１５には、第３の分類技術の性能がプロットされている。これは、図１４で使用したのと同一のデータに対して、２つの独立に訓練したＳＶＭ（例えば、図２Ｃ、３Ｃ、４Ｃ、５Ｅ、５Ｆに関して説明したもの）からの結果を統合したものである。すべての区分に対して精度は９０％を超えており、論文と写真の区分に対しては１００％に近い。全体的な精度と再現性が、基本の単一ＳＶＭ分類システムよりも増加している。

ある実施形態では、より高い精度を求めるために、複数のランダムなパーティションが生成され、各パーティション上で複数のペアになった分類器が訓練および調整され、異なるパーティションからの分類あるいは決定関数スコアが統合されて、１つまたは複数の区分が識別される。

本発明の実施形態の一つは、文書区分識別用の区分モデルを生成するためのシステム、命令を含むコンピュータ可読記憶媒体、及びコンピュータに実装された方法を提供する。１つまたは複数の区分に関連する文書画像集合における各文書画像に対して、その文書画像が複数のタイルに分割される。この複数のタイルは、文書ページの特徴（例えば、タイル中のテキストの行数など）が識別可能な大きさであり、文書画像及び複数のタイルの特徴が計算される。少なくとも１つの区分分類器を訓練して、文書画像集合中の文書画像の特徴と、文書画像集合中の複数のタイルの特徴と、文書画像集合中の各文書画像に関連する１つまたは複数の区分とに基づいて、文書画像を１つまたは複数の区分に関連するものとして分類させる。

ある実施形態においては、以下のように文書画像を第１の区分に関連するものとして分類できるように、第１の少なくとも１つの区分分類器に対して訓練が行われる。文書画像の集合の中から、構成している各文書画像が第１の区分に関連している部分集合が識別される。文書画像の特徴と、文書画像に関連する複数のタイルの特徴と、どの文書画像が第１の区分に関連するとして識別された文書画像の部分集合に対応するかを示す情報と、に基づいて、第１の区分に対応する第１の区分分類器が訓練される。文書画像集合中の少なくとも文書画像部分集合に関して、各文書画像及び文書画像に関連する複数のタイルに区分分類器の集合が適用されて、スコアの集合が形成される。各区分に関して、各文書画像に対するスコアの集合と、各文書画像に関連する１つまたは複数の区分と、各文書画像の複数のタイルのタイル位置とに基づいて、文書画像を第１の区分に関連するものとして分類するように、第１の区分に対応する第２の区分分類器が訓練される。

ある実施形態において、文書画像集合における文書画像に関連する区分の少なくとも部分集合中の各区分に対して以下の操作を行なうことにより、第１の少なくとも１つの区分分類器が、個々の文書画像を１つまたは複数の区分に関連するものとして分類するように訓練される。（１）文書画像集合からタイルの部分集合が選択される。ここで、タイルの部分集合中の各タイルはその区分に関連している。（２）タイル部分集合中のタイルは、そのタイルの特徴によってクラスタリングされる。（３）区分に対する確率モデルが生成される。ここで区分に対する確率モデルとは、個々のタイルの個々の特徴がその区分のクラスタの１要素である尤度を示し、確率モデルが確率モデル集合に含まれ、そのそれぞれが区分部分集合における１区分に対応する。文書画像集合の少なくともその部分集合に関して、確率モデルが文書画像の部分集合及びその文書画像の部分集合に関連する複数のタイルに対して適用されて、文書画像の部分集合における個々の文書画像が１つまたは複数の区分の要素である確率の集合が形成される。この確率の集合と、文書画像の部分集合における各文書画像に関連する１つまたは複数の区分とに基づいて、個々の文書画像を１つまたは複数の区分に関連しているものとして分類するように第１の区分分類器が訓練される。

ある実施形態においては、第１の少なくとも１つの区分分類器が、以下のように文書画像を第１の区分に関連するとして分類できるように訓練される。第１の区分に対応する第１の区分分類器が、（１）文書画像集合の第１の部分集合の特徴（例えば、以下で説明するように文書ページの特徴やタイルの特徴など）、及び（２）文書画像集合の第１の部分集合に関連する複数のタイルの特徴に基づいて訓練される。文書画像集合の第２の部分集合を用いて第１の区分分類器のパラメータが調整される。ここで、文書画像集合の第１の部分集合と第２の部分集合とは互いに排他的な文書画像集合である。文書画像集合の第２の部分集合の特徴と、文書画像集合の第２の部分集合に関連する複数のタイルの特徴とに基づいて、第１の区分に対応する第２の区分分類器が訓練される。文書画像集合の第１の部分集合を用いて第２の区分分類器のパラメータが調整される。

本発明の実施形態のあるものが、文書の区分を識別するためのシステム、命令を含むコンピュータ可読記憶媒体、及びコンピュータに実装された方法を提供する。文書の文書画像が受け取られる。文書画像は文書画像の複数のタイルに分割される。ここで、複数のタイル中のタイルは文書の特徴（例えば、テキストの行数、フォントの高さ、など）が識別可能な寸法とされる。文書画像及び複数のタイルの特徴が計算される。文書画像の特徴及び複数のタイルの特徴に基づいて、文書画像に関連する１つまたは複数の区分が識別される。

ある実施形態において、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて、以下のように文書画像に関連する１つまたは複数の区分が識別される。第１の組の区分分類器を文書画像の特徴および文書画像に関連する複数のタイルに適用してスコアの集合が形成される。第２の区分分類器集合を、文書画像のスコア集合に適用して、その文書画像に関連する１つまたは複数の区分を識別する。

ある実施形態において以下のように、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて文書画像に関連する１つまたは複数の区分が識別される。各区分に対して、文書画像の特徴と文書画像の複数のタイルの特徴とが、区分クラスタの構成要素である尤度が、区分の確率モデルに基づいて計算される。計算された尤度に対して区分分類器を適用して、文書画像に関連する１つまたは複数の区分が識別される。

ある実施形態において以下のように、文書画像の特徴及び文書画像の複数のタイルの特徴に基づいて文書画像に関連する１つまたは複数の区分が識別される。第１の区分分類器集合を文書画像の特徴および文書画像に関連する複数のタイルに適用して第１のスコア集合を形成する。第２の区分分類器集合を文書画像および文書画像に関連する複数のタイルの特徴に適用して第２のスコア集合を形成する。第１のスコア集合と第２のスコア集合を統合して統合スコア集合を形成する。統合スコア集合に基づいて文書画像に関連する１つまたは複数の区分が識別される。

以上の説明においては、説明の目的で、特定の実施形態を参照して記述を行った。しかし、上記の実例による議論は網羅的であることは意図されておらず、また本発明を開示したそのものの形態に限定する意図もない。上記の教示に鑑みて、多くの修正及び変形が可能である。実施形態は本発明の原理および実際の適用を最もよく説明するように選ばれて記述された。これにより本発明及び考えられる特定の利用に対して好適なさまざまな修正を有する種々の実施形態を、当業者が最適に利用することを可能ならしめるものである。

Claims

文書の区分を識別するために用いる区分モデルを生成するためのコンピュータに実装された方法であって、
コンピュータシステムのメモリに格納された１つまたは複数のプログラムを実行する１つまたは複数のプロセッサを有するコンピュータシステム上で、
１つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、
分割手段が、前記文書画像を、各々が前記文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、
特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、
区分分類器訓練手段が、前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記１つまたは複数の区分とに基づいて、文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練する、
ことを含むコンピュータに実装された方法。
前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、
前記文書画像の集合から、第１の区分に関連している文書画像の部分集合を識別し、
前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴と、前記第１の区分に関連すると識別された前記文書画像部分集合に対応する文書画像を示す情報とに基づいて前記第１の区分に対応する前記第１の区分分類器を訓練し、
前記文書画像集合中の少なくとも１つの文書画像部分集合に対して、前記区分分類器の集合を、前記文書画像部分集合中の文書画像と、前記文書画像部分集合に関連する複数のタイルとに適用して、スコアの集合を形成し、
前記文書画像部分集合中の文書画像に対する前記スコアの集合と、各文書画像に関連する１つまたは複数の区分と、各文書画像の複数のタイル内のタイルの位置とに基づいて、前記第１の区分に関連するものとして文書画像を分類するように、前記第１の区分に対応する第２の区分分類器を訓練する、
ことを含む請求項１に記載のコンピュータに実装された方法。
前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、
前記文書画像集合中の前記文書画像に関連する区分のうちの少なくとも部分集合中の各区分に対して、
前記文書画像集合から、区分に関連しているタイルの部分集合を選択し、
前記タイルの特徴に基づいて前記タイル部分集合のタイルをクラスタリングし、
各タイルの特徴が区分のクラスタの１要素である尤度を示す、区分の確率モデルを生成し、該確率モデルは確率モデルの集合の中に含まれ、該確率モデル各々が区分の集合のうちの１区分に対応しており、
前記文書画像集合中の文書画像のうちの少なくとも部分集合に対して、前記文書画像部分集合と前記文書画像部分集合に関連する複数のタイルとに確率モデルを適用し、前記文書画像部分集合中の各文書画像が１つまたは複数の区分の要素である確率の集合を形成し、
前記確率の集合と、前記文書画像部分集合中の各文書画像に関連する１つまたは複数の区分とに基づいて、前記各文書画像を１つまたは複数の区分に関連しているものとして分類するように、前記第１の区分分類器を訓練する、
ことを含む請求項１に記載のコンピュータに実装された方法。
前記文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練することが、
前記文書画像集合の第１の部分集合の特徴と、前記文書画像集合の前記第１の部分集合に関連する複数のタイルの特徴とに基づいて、第１の区分に対応する第１の区分分類器を訓練し、
前記文書画像集合の前記第１の部分集合と互いに排他的な文書画像の集合である前記文書画像集合の第２の部分集合を用いて前記第１の区分分類器のパラメータを調整し、
前記文書画像集合の第２の部分集合の特徴と、前記文書画像集合の前記第２の部分集合に関連する複数のタイルの特徴とに基づいて、前記第１の区分に対応する第２の区分分類器を訓練し、
前記文書画像集合の前記第１の部分集合を用いて前記第２の区分分類器のパラメータを調整する、
ことを含む請求項１に記載のコンピュータに実装された方法。
前記文書画像の部分集合は複数のページを含む文書に関連し、
前記方法は前記文書の各ページに対して実行される
請求項１に記載のコンピュータに実装された方法。
前記特徴が、文書ページの特徴と、タイルの特徴と、を含む
請求項１に記載のコンピュータに実装された方法。
前記文書ページの特徴が、各ページの段数と、各ページの水平の行数と、各ページの垂直の行数と、各ページの水平行の長さのヒストグラムと、各ページの垂直行の長さのヒストグラムと、各ページのページ寸法と、文書中のページ数とのうちの少なくとも１つを含む
請求項６に記載のコンピュータに実装された方法。
前記タイルの特徴が、各タイルの密度と、各タイルのテキストの行数と、各タイルのテキストの平均フォントサイズと、各タイルのテキストの中央値フォントサイズと、各タイルの行幅のヒストグラムと、各タイルの色コレログラムからの値の部分集合と、文書画像中の各タイルの物理的な位置とのうちの少なくとも１つを含む
請求項６に記載のコンピュータに実装された方法。
前記複数のタイルは所定の順序で配置されている
請求項１に記載のコンピュータに実装された方法。
前記文書画像を複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択される
請求項１に記載のコンピュータに実装された方法。
前記特定のタイル数は２５である
請求項１０に記載のコンピュータに実装された方法。
前記区分分類器は、訓練されたサポートベクトルマシン（ＳＶＭ）である
請求項１に記載のコンピュータに実装された方法。
コンピュータに、
１つまたは複数の区分に関連する文書画像の集合中の各文書画像に対して、
前記文書画像を、各々が前記文書ページの特徴が識別可能な寸法とされた複数のタイルに分割し、
前記文書画像及び前記複数のタイルの特徴を計算し、
前記文書画像集合中の前記文書画像の特徴と、前記文書画像集合の前記複数のタイルの特徴と、前記文書画像集合中の各文書画像に関連する前記１つまたは複数の区分とに基づいて、文書画像を１つまたは複数の区分に関連するものとして分類するように、少なくとも１つの区分分類器を訓練する、
ことを含む文書の区分を識別するために用いる区分モデルを生成するための処理を実行させるためのプログラム。
文書の区分を識別するためのコンピュータに実装された方法であって、コンピュータシステムのメモリに格納された１つまたは複数のプログラムを実行する１つまたは複数のプロセッサを有する前記コンピュータシステム上で、
受取手段が、文書の文書画像を受け取り、
分割手段が、前記文書画像を、各々が文書ページの特徴を識別可能な寸法とされた複数のタイルに分割し、
特徴計算手段が、前記文書画像及び前記複数のタイルの特徴を計算し、
区分分類手段が、前記文書画像の特徴と前記複数のタイルの特徴とに基づいて前記文書画像に関連する１つまたは複数の区分を識別する、
ことを含むコンピュータに実装された方法。
前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、
区分分類器の第１の集合を、前記文書画像の特徴と、前記文書画像に関連する複数のタイルの特徴とに適用して、スコアの集合を形成し、
区分分類器の第２の集合を、前記文書画像の前記スコアの集合と、前記文書画像の前記複数のタイル内のタイルの位置とに適用して、前記文書画像に関連する前記１つまたは複数の区分を識別する、
ことを含む請求項１４に記載のコンピュータに実装された方法。
前記区分分類器の第１の集合及び第２の集合が、前記区分分類器の訓練の段階で生成される
請求項１５に記載のコンピュータに実装された方法。
前記区分分類器の第１の集合及び第２の集合が、訓練されたサポートベクトルマシン（ＳＶＭ）である
請求項１５に記載のコンピュータに実装された方法。
前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、
各区分に対して、前記文書画像の特徴と前記文書画像の複数のタイルの特徴とが区分のクラスタの構成要素である尤度を、区分の確率モデルに基づいて計算し、
区分分類器を前記計算された尤度に適用して、前記文書画像に関連する前記１つまたは複数の区分を識別する、
ことを含む請求項１４に記載のコンピュータに実装された方法。
前記区分分類器及び確率モデルが、前記区分分類器の訓練の段階で生成される
請求項１８に記載のコンピュータに実装された方法。
前記区分分類器は、訓練されたサポートベクトルマシン（ＳＶＭ）である
請求項１８に記載のコンピュータに実装された方法。
前記文書画像の特徴と前記文書画像の前記複数のタイルの特徴とに基づいて前記文書画像に関連する前記１つまたは複数の区分を識別することが、
区分分類器の第１の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第１の集合を形成し、
区分分類器第２の集合を、前記文書画像の特徴と、前記文書画像に関連する前記複数のタイルの特徴とに適用して、スコアの第２の集合を形成し、
前記スコアの第１の集合と前記スコアの第２の集合とを統合して、統合したスコア集合を形成し、
前記統合したスコア集合に基づいて前記文書画像に関連する前記１つまたは複数の区分を識別する、
ことを含む請求項１４に記載のコンピュータに実装された方法。
前記区分分類器の第１の集合及び第２の集合が、前記区分分類器の訓練の段階で生成される
請求項２１に記載のコンピュータに実装された方法。
前記区分分類器の第１の集合及び第２の集合が、訓練されたサポートベクトルマシン（ＳＶＭ）である
請求項２１に記載のコンピュータに実装された方法。
前記文書画像を前記複数のタイルに分割することが、前記文書画像を特定の均一な寸法の特定な数のタイルに分割することを含み、前記特定の均一な寸法は、タイルの特徴が顕示されるように選択される
請求項１４に記載のコンピュータに実装された方法。
前記特定のタイル数は２５である
請求項２４に記載のコンピュータに実装された方法。
前記文書画像を受け取ることが、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちの１つの画像装置から前記文書画像を受け取ることを含む
請求項１４に記載のコンピュータに実装された方法。
前記文書に関連する前記１つまたは複数の区分に関連するコンテンツを表示することを含む
請求項１４に記載のコンピュータに実装された方法。
コンピュータに、
文書の文書画像を取得し、
前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、
前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、
前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する１つまたは複数の区分を識別する、
ことを含む文書の区分を識別するための処理を実行させるためのプログラム。
画像処理システムであって、
１つまたは複数のプロセッサと、
メモリと、
前記メモリに格納された１つまたは複数のプログラムと、
を備え、
前記１つまたは複数のプログラムが、前記１つまたは複数のプロセッサに、
文書の文書画像を取得し、
前記文書画像を、各々が文書ページの特徴が識別可能な寸法とされた前記文書画像の複数のタイルに分割し、
前記文書画像及び前記文書画像の前記複数のタイルの特徴を計算し、
前記文書画像の特徴及び前記文書画像の前記複数のタイルの特徴に基づいて前記文書画像に関連する１つまたは複数の区分を識別する、
処理を行わせることを含む、画像処理システム。
前記文書から前記文書画像を形成するように設定された画像装置を含む
請求項２９に記載の画像処理システム。
前記画像装置が、複写機と、スキャナと、ファクシミリ装置と、デジタルカメラと、ビデオカメラと、携帯電話とのうちから選択される
請求項３０に記載の画像処理システム。
前記文書に関連する前記１つまたは複数の区分に関連するコンテンツを表示するように設定された表示装置を含む
請求項２９に記載の画像処理システム。