JP5113653B2 - データ処理装置、プログラムおよびデータ処理方法 - Google Patents

データ処理装置、プログラムおよびデータ処理方法 Download PDF

Info

Publication number
JP5113653B2
JP5113653B2 JP2008181698A JP2008181698A JP5113653B2 JP 5113653 B2 JP5113653 B2 JP 5113653B2 JP 2008181698 A JP2008181698 A JP 2008181698A JP 2008181698 A JP2008181698 A JP 2008181698A JP 5113653 B2 JP5113653 B2 JP 5113653B2
Authority
JP
Japan
Prior art keywords
data
case
image
unit
predictor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008181698A
Other languages
English (en)
Other versions
JP2009095001A (ja
Inventor
広文 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008181698A priority Critical patent/JP5113653B2/ja
Priority to US12/211,442 priority patent/US8254669B2/en
Publication of JP2009095001A publication Critical patent/JP2009095001A/ja
Application granted granted Critical
Publication of JP5113653B2 publication Critical patent/JP5113653B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、データ処理装置、プログラムおよびデータ処理方法に関する。
近年、カラースキャナやデジタルカメラの普及により、印刷文書をスキャン入力するとともに、そのスキャン入力された文書画像データを蓄積・出力・再利用することが一般的に行われるようになっている。さらに、コード化された電子文書データと同様に、スキャン入力された文書画像データのネットワークを介しての遠隔地への送信も行われている。
すなわち、ネットワーク上においては、スキャンされた文書画像データあるいはコード化された電子文書データの形で、文書データが流通していることになる。これらの文書画像データあるいはコード化された電子文書データは、送信されたり、蓄積されたりして、ユーザのタスクや嗜好に応じて活用される。
ところで、後の再利用のためには、データ蓄積に際して、ユーザが決める基準に従ってデータの分類を行うことが望ましい。
そこで、電子文書データから抽出されたキーワード、あるいは、文書画像データにOCRを施してから抽出されたキーワードのような言語情報に基づき、データの分類を行うようにした文書分類システムが提案されている(特許文献1〜3参照)。
特許第3441500号公報 特許第3792411号公報 特許第3771047号公報
ところで、電子文書データや文書画像データ(以下、文書データという)を多様な利用目的に最適な形で活用できるようなシステムを構築するにあたっては、処理対象である文書データの種類も多様であり、さらに、ユーザの嗜好や利用目的も多様であることが問題になる。特に、最近の文書は、レイアウトや色使いなども多様になってきており、文書データの分類においては、キーワードのような言語情報だけでなく、画像の特性にも着目した分類が必要になる。
ここで、画像の特性に応じた分類を行う上で問題になるのは、キーワードの場合と異なり、画像の特性を「言語」や「記号」で表現するのは難しいため、ユーザが分類基準を指定することが難しいことである。
さらに、個々のユーザによって分類基準が異なることから、ユーザは大量の画像に対して1枚ごとに分類カテゴリを逐一指定しなければならないので、ユーザに負担がかかるとともに、作業効率が低下するという問題もある。
本発明は、上記に鑑みてなされたものであって、ユーザが大量の画像に対して1枚ごとに機能を指定する場合に、各ユーザに固有の分類の仕方を考慮しつつ、ユーザ操作に負担を掛けずに、作業効率の向上を図ることができるデータ処理装置、プログラムおよびデータ処理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明のデータ処理装置は、画像データの特性を示す画像特徴量を計算する特徴量計算手段と、ユーザにより選択された機能の入力を受け付ける入力受付手段と、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースと、前記事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築する予測器構築手段と、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測する最適機能予測手段と、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新する更新手段と、を備え、前記予測器構築手段は、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築する逐次構築手段を備えることを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記最適機能予測手段は、前記事例データベースに蓄積された前記事例集合のうち前記予測器で用いられるプロトタイプ点と前記画像データとの特徴量ベクトルの距離を計算する距離計算手段と、前記距離計算手段により計算された前記距離が最小となる前記プロトタイプ点に付随するクラス情報に対応する分類カテゴリを、前記最適な分類カテゴリとして出力する手段と、を備えることを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記予測器構築手段は、全ての作業が終了したと判断した場合に、前記事例データベースに蓄積されている全ての前記事例集合を用いて前記予測器を再構築するバッチ構築手段を備える、ことを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記最適機能予測手段は、前記事例データベースに蓄積された前記事例集合のうち前記予測器で用いられるプロトタイプデータと前記画像データとの特徴量ベクトルの距離を計算する距離計算手段と、前記距離計算手段により計算された前記距離が最小となる前記プロトタイプデータに付随するクラス情報に対応する機能を、前記最適な機能として出力する手段と、を備えることを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記更新手段は、前記事例データベースに蓄積されている前記事例集合の中で、特徴量ベクトルがほぼ同じ値を持ち、かつ、過去と現在での機能が異なる事例データの組を検出する手段と、検出された前記事例データの組について、古い前記事例データを前記事例集合から除外して、新しい前記事例データだけを前記事例集合に取り入れる手段と、を備えることを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記逐次構築手段は、新しい画像データが入力されるごとに、前記事例集合中の事例データのうち、新しい画像データから計算される画像特徴量に近い特徴量を持つ前記プロトタイプデータだけについて、距離関数のパラメータを更新するパラメータ更新手段を備える、ことを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記パラメータ更新手段は、前記事例集合中の事例データのうち、新しい画像データに近い画像特徴量を持つ前記プロトタイプデータだけから計算された予測誤差が最小になるように、前記事例データによって決まる重みを更新する、ことを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記バッチ構築手段は、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、前記事例集合をできるだけ小さくし、かつ、予測誤差が最小になるように前記プロトタイプデータの重みを最適化する、補完手段を備える、ことを特徴とする。
また、請求項にかかる発明は、請求項記載のデータ処理装置において、前記補完手段は、前記新たな事例データを前記事例集合に追加するとともに、現在の前記事例集合から、矛盾するような事例データを削除する手段と、前記新たな事例データの近傍データ群について、前記プロトタイプデータの重みを更新する手段と、を備える、ことを特徴とする。
また、請求項10にかかる発明は、請求項1記載のデータ処理装置において、前記事例データベースに蓄積された前記事例集合の各事例について重みを計算する重み計算手段と、前記各事例についての重みを用いて前記事例データベース中の前記事例の個数を縮減した事例セットを構築する事例セット構築手段と、を更に備え、前記最適機能予測手段は、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記事例セット構築手段で構築した前記事例セットと前記重み計算手段で求めた重みとを用いて、最適な機能を予測する、ことを特徴とする。
また、請求項11にかかる発明は、請求項10記載のデータ処理装置において、前記最適機能予測手段は、前記事例セットに蓄積された各事例について、前記画像データとの特徴量ベクトルの特徴量ベクトルの距離を重みをつけて計算する距離計算手段と、前記距離計算手段により計算された前記距離が最小となる前記事例セットに蓄積されている前記事例を、前記最適な機能として出力する手段と、を備えることを特徴とする。
また、請求項12にかかる発明は、請求項1記載のデータ処理装置において、前記画像データに対して少なくとも2つ以上の領域抽出方式による領域抽出を実行する領域抽出手段と、前記領域抽出手段による前記各領域抽出方式による領域分割結果に対して順位付けを行って評価する評価手段と、前記特徴量計算手段により計算された前記画像特徴量と、前記評価手段で評価した最良の前記領域抽出方式とを、教師付き特徴量データとして記録する特徴量データ記録手段と、前記教師付き特徴量データを用いることにより、前記画像特徴量から最良の前記領域抽出方式を選択する選択規則を学習する学習手段と、を備え、前記事例データベースを構築する、ことを特徴とする。
また、請求項13にかかる発明は、請求項12記載のデータ処理装置において、前記特徴量計算手段は、前記画像データを矩形ブロックに排他的に分割するブロック分割手段と、分割された前記各ブロックを、当該画像データを構成する所定の構成要素に分類するブロック分類手段と、前記ブロックの分類結果に基づいて前記画像データの画像特徴量を計算する計算手段と、を備えることを特徴とする。
また、請求項14にかかる発明は、請求項13記載のデータ処理装置において、前記ブロック分類手段は、前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、を備えることを特徴とする。
また、請求項15にかかる発明は、請求項14記載のデータ処理装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像を2値化する2値化手段と、2値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備えることを特徴とする。
また、請求項16にかかる発明は、請求項14記載のデータ処理装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備えることを特徴とする。
また、請求項17にかかる発明のプログラムは、コンピュータを、画像データの特性を示す画像特徴量を計算する特徴量計算手段と、ユーザにより選択された機能の入力を受け付ける入力受付手段と、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築する予測器構築手段と、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測する最適機能予測手段と、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新する更新手段と、して機能させ、前記予測器構築手段は、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築する逐次構築手段を備えることを特徴とする。
また、請求項18にかかる発明のデータ処理方法は、データ処理装置で実行されるデータ処理方法であって、前記データ処理装置は、制御部と記憶部を備え、前記制御部において実行される、特徴量計算手段が、画像データの特性を示す画像特徴量を計算するステップと、入力受付手段が、ユーザにより選択された機能の入力を受け付けるステップと、予測器構築手段が、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築するステップと、最適機能予測手段が、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測するステップと、更新手段が、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新するステップと、を含み、前記予測器構築手段が、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築するステップと、をさらに含む、ことを特徴とする。
本発明によれば、画像データに対して、これまでに処理した画像データの画像特徴量とユーザにより選択された画像データの機能とから成る事例集合に基づいて、新しい画像データについての最適な機能を予測してユーザに推奨することにより、各ユーザに固有の分類の仕方に適応が可能になるとともに、ユーザが少ない操作(メニューからの選択や設定)で所望の機能を得ることができるので、ユーザが大量の画像に対して1枚ごとに機能を指定する場合に、各ユーザに固有の分類の仕方を考慮しつつ、ユーザ操作に負担を掛けずに、作業効率の向上を図ることができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかるデータ処理装置、プログラムおよびデータ処理方法の最良な実施の形態を詳細に説明する。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図11に基づいて説明する。図1は、本発明の第1の実施の形態にかかるデータ処理装置1の電気的な接続を示すブロック図である。図1に示すように、データ処理装置1は、PC(Personal Computer)などのコンピュータであり、データ処理装置1の各部を集中的に制御するCPU(Central Processing Unit)2、情報を格納するROM(Read Only Memory)3及びRAM(Random Access Memory)4等の一次記憶装置5、データファイル(例えば、カラービットマップ画像データ)を記憶する記憶部であるHDD(Hard Disk Drive)6等の二次記憶装置7、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置8、ネットワーク9を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース10、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置11、並びに操作者がCPU2に命令や情報等を入力するためのキーボード12、マウス等のポインティングデバイス13等から構成されており、これらの各部間で送受信されるデータをバスコントローラ14が調停して動作する。
なお、本実施の形態においては、データ処理装置1として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、PDA(Personal Digital Assistants)と称される携帯用情報端末、palmTopPC、携帯電話、PHS(Personal Handyphone System)等であっても良い。
このようなデータ処理装置1では、ユーザが電源を投入するとCPU2がROM3内のローダーというプログラムを起動させ、HDD6よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM7に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
ここで、データ処理装置1は、アプリケーションプログラムとして、画像処理プログラムをHDD6に記憶している。この意味で、HDD6は、画像処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、データ処理装置1のHDD6等の二次記憶装置7にインストールされるアプリケーションプログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等の記憶媒体8aに記録され、この記憶媒体8aに記録されたアプリケーションプログラムがHDD6等の二次記憶装置7にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体8aも、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、例えばネットワークインターフェース10を介して外部からダウンロードさせることにより、HDD6等の二次記憶装置7にインストールするように構成しても良い。また、本実施の形態のデータ処理装置1で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
データ処理装置1は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、CPU2が各種の演算処理を実行して各部を集中的に制御する。データ処理装置1のCPU2が実行する各種の演算処理のうち、本実施の形態の特長的な処理である画像処理について以下に説明する。
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
ここで、データ処理装置1のCPU2が実行する画像処理について説明する。図2はデータ処理装置1のCPU2が実行する画像処理にかかる機能を示す機能ブロック図、図3はその流れを概略的に示すフローチャートである。図2に示すように、データ処理装置1は、画像データ入力部21と、各画像データについての画像特徴量を計算する特徴量計算手段として機能する画像特徴量計算部22と、画像特徴量計算部22の出力とユーザの選択とを組として記録したユーザごとの事例データベース23と、ユーザとの入出力のための入力受付手段として機能するユーザインタフェース部24と、予測器を構築する予測器構築手段として機能する予測器構築部26と、予測器の構築に用いたプロトタイプデータセットを更新する更新手段として機能するプロトタイプデータ更新部25と、最適機能予測手段として機能する最適機能予測部27と、を備えている。なお、予測器構築部26は、逐次構築手段として機能するオンライン学習部26aと、バッチ構築手段として機能するバッチ学習部26bとを備えている。この構成の利点として、オンライン学習部26aにより、ユーザの作業中でもシステムが賢くなっていく(予測精度が上がっていく)とともに、作業が終了した後の空き時間にバッチ学習部26bを起動することにより、高い予測精度を保つことも可能になる。
また、画像処理の流れは、概略的には、画像データ入力部21により未知の画像データが入力されると(ステップS101)、画像特徴量計算部22で画像データ入力部21から出力された画像データから画像特徴量を計算し(ステップS102)、予測器構築部26で構築された予測器を用いて最適機能予測部27が最適な機能の予測を行う(ステップS103)。その後、ユーザインタフェース部24は、最適機能予測部27から出力された最適な機能を推奨機能として表示装置11の画面などに表示することによって、ユーザに提示するとともに、ユーザからの機能の選択入力を受け付ける(ステップS104)。推奨機能とユーザが選択した機能とが一致する場合には(ステップS105のNo)、ステップS101に戻り、次の画像データの入力に待機する。一方、推奨機能とユーザが選択した機能とが異なる場合には(ステップS105のYes)、ユーザの目的が変化して予測が誤ったとして、プロトタイプデータ更新部25はプロトタイプデータセットを更新し(ステップS106)、予測器構築部26(オンライン学習部26a)は、事例データベース23を用いて予測器を再構築する(ステップS107)。そして、作業が終了したと判断した場合には(ステップS108のYes)、予測器構築部26(バッチ学習部26b)は、オンライン学習により得られたプロトタイプデータセットを用いて予測器を再構築する(ステップS109)。
以下において、各構成部の動作と作用を詳述する。
画像データ入力部21は、入力された画像データがスキャンされた文書画像データであれば、文書の傾きを補正する「スキュー補正」を文書画像データに施したりするなどの前処理を施す。
画像特徴量計算部22は、画像データ入力部21から出力された文書画像データを入力とし、コンテンツをあらわす画像特徴量を、事例データベース23と最適機能予測部27に出力するものである。
画像特徴量は、「Bag-Of-Words」、すなわち、文書中に出現する単語の頻度を並べたベクトルや、特許第3253356号公報、特許第3215163号公報などに開示されているような文書画像の特徴量を並べたベクトルを組み合わせて構成することができる。ここでは、一例として、文書のレイアウト特徴を表す連続特徴量ベクトルを計算する方法を示す。
図4は、画像特徴量計算部22における画像特徴量計算処理の流れを概略的に示すフローチャートである。図4に示すように、まず、入力した画像を同じ大きさの矩形ブロックに排他的に分割し(ステップS1)、各ブロックを、“絵”“文字”“他”の3種類のいずれかに分類する(ステップS2)。次に、すべてのブロックの分類結果をもとに画像全体の画像特徴量を計算する(ステップS3)。最後に、画像全体の画像特徴量を出力する(ステップS4)。以下において、各ステップの動作を説明する。
(1)ブロック分割(ステップS1)
入力画像を同じサイズのブロック、たとえば、1cm×1cm(解像度が200dpiであれば80画素×80画素、解像度が300dpiであれば120画素×高さ120画素)の矩形に分割する。
(2)ブロックの分類(ステップS2)
各ブロックを、“絵”“文字”“他”の3種類のいずれかに分類する。この処理のフローを図5に示し、以下において詳述する。
図5に示すように、まず、処理対象となるブロック画像を100dpi程度の低解像度に縮小した画像Iを生成するとともに(ステップS11)、解像度のレベル数Lを設定し(ステップS12)、解像度縮小レベルkを初期化(k←0)する(ステップS13)。このようなステップS11〜S13の処理を行うのは、図6に示すように、画像Iとともに、さらに低解像度化した画像からも特徴を抽出するためである。詳細は後述するが、例えば、解像度レベル数Lを2にした場合には、画像Iと、解像度が1/2の画像Iと、解像度が1/4の画像の画像Iとの計3つの画像から特徴を抽出する。
解像度縮小レベルkが解像度レベル数Lに達していない場合には(ステップS14のYes)、ステップS11で生成した画像Iから解像度を1/2に縮小した画像I(k=0,・・・,L)を生成し(ステップS15)、画像Iを2値化する(ステップS16:2値化手段)。ただし、2値画像において、黒画素は値1、白画素は値0をとるとする。
次いで、2値化した解像度が1/2の画像Iから、M次元の特徴量ベクトルfを計算した後(ステップS17)、解像度縮小レベルkを“1”だけインクリメント(k←k+1)する(ステップS18)。
ここで、画像I(k=0,・・・,L)を2値化した画像から特徴を抽出する方法を述べる。自己相関関数を高次(N次)へと拡張した「高次自己相関関数(N次自己相関関数)」は、画面内の対象画像をI(r)とすると、変位方向(S,S,…,S)に対して、
Figure 0005113653
で定義される。ただし、和Σは画像全体の画素rについての加算である。従って、高次自己相関関数は、次数や変位方向(S,S,…,S)の取り方により、無数に考えられる。ここでは、簡単のため高次自己相関係数の次数Nを“2”までとする。また、変位方向を参照画素rの周りの局所的な3×3画素の領域に限定する。平行移動により等価な特徴を除くと、2値画像に対して、図7に示すように特徴の数は全部で25個になる。各特徴の計算は、局所パターンの対応する画素の値の積を全画像に対して足し合わせればよい。例えば、「No.3」の局所パターンに対応する特徴は、参照画素rでの濃淡値とそのすぐ右隣の点での濃淡値との全画像に対する積和を取ることによって計算される。このようにして、解像度が1/2の画像から、M=25次元の特徴量ベクトルf=(g(k,1),・・・,g(k,25))が計算される。
上述したようなステップS15〜S18の処理は、ステップS18でインクリメントされた解像度縮小レベルkが解像度レベル数Lを超える迄(ステップS14のNo)、繰り返される。
ステップS18でインクリメントされた解像度縮小レベルkが解像度レベル数Lを超えた場合には(ステップS14のNo)、特徴量ベクトルf,・・・,fLをもとにして、ブロックを、“絵”“文字”“他”の3種類のいずれかに分類する(ステップS19:分類手段)。
ここで、ブロックの分類の方法について詳述する。まず、前述したM=25次元の特徴量ベクトルf=(g(k,1),・・・,g(k,25))(k=0,・・・,L)から(25×L)次元の特徴量ベクトルx=(g(0,1),・・・,g(0,25),・・・,g(L,1),・・・,g(L,25))を生成する。このようなブロックの特徴量ベクトルxを用いて分類を行うためには、前もって学習を行うことが必要である。そこで、本実施の形態においては、学習用データを文字だけ含むようなものと文字を含まないようなものの2種類に分けて特徴量ベクトルxを計算する。その後、それぞれの平均をとることによって、文字画素の特徴量ベクトルpと非文字画素の特徴量ベクトルpを前もって計算しておく。そして、分類しようとしているブロック画像から得られた特徴量ベクトルxを、既知の特徴量ベクトルpとpの線形結合に分解すれば、その結合係数a,aが文字画素と非文字画素の比率、あるいは、ブロックの「文字らしさ」と「非文字らしさ」を表すことになる。このような分解が可能であるのは、高次局所自己相関に基づく特徴が画面内の対象の位置に不変で、しかも、対象の数に関して加法性を持つことによる。特徴量ベクトルxの分解を、
x=a・p+a・p=Fa+e
とする。ここで、eは誤差ベクトル、F=[p0,p1、a=(a,aである。最小二乗法により、最適な結合係数ベクトルaは、
a=(FF−1・Fx
で与えられる。各ブロックについて、「非文字らしさ」を表すパラメータaについて閾値処理することにより、そのブロックを「絵」、「絵でない」、「未定」に分類する。各ブロックについて、「未定」または「絵でない」に分類されていて、文字らしさを表すパラメータaが閾値以上であれば「文字」に、そうでなければ「その他」に分類する。図8にブロック分類の例を示す。図8の例においては、黒部分は「文字」、グレイ部分は「絵」、白部分は「他」を表わしている。
(3)画像特徴量の計算(ステップS3)
ブロックの分類結果をもとにして、画像のタイプ分けのための画像特徴量を計算する。特に、
・文字、絵の割合
・密集率:レイアウトの混み方(狭いところに詰め込まれている度合い)
・文字、絵の散乱度:文字や写真が紙面全体に散らばって分布している度合い
を計算する。例えば、次の5つの画像特徴量を計算する。
・文字の割合Rt∈[0,1]:全ブロックの中で「文字」に分類されたブロックの割合
・非文字の割合Rp∈[0,1]:全ブロックの中で「絵」に分類されたブロックの割合
・レイアウト密度D∈[0,1]:「文字」と「絵」のブロック数の面積の和を、描画領域の面積で割ったもの
・文字散乱度St(>0):文字ブロックのx,y方向の空間的分布について、分散・共分散行列の行列式を、画像の面積で正規化したもの
・非文字散乱度Sp(>0):絵ブロックのx,y方向の空間的分布について、分散・共分散行列の行列式を、画像の面積で正規化したもの
なお、これらの他に、文字ブロックと絵ブロックのx,y方向の空間的分布についての高次モーメント、あるいは、画像全体で高次自己相関関数に基づいて計算した(25×L)次元特徴から得られる「文字らしさ」と「非文字らしさ」などの特徴を計算しても良い。
表1は、図8の例についての画像特徴量の計算結果を示すものである。
Figure 0005113653
なお、画像特徴量としては、上述したようなレイアウト統計(画像中の文字と絵が占める割合、文字と絵の散乱度、レイアウト密度)のほかに、色や輝度の分布から得られる統計量、あるいは、エッジ強度の分布から得られる統計量、さらに、「Bag-Of-Words」、すなわち、文書中に出現する単語の頻度を並べたベクトルなどを加えて用いることができる。
事例データベース23は、画像特徴量計算部22から出力された画像特徴量と、後述するユーザインタフェース部24から出力されたユーザの選択を入力とし、下記に示す学習用データである事例集合Hとして蓄積するデータベースである。
H={(x(1),α(i)),(x(2),α(2)),...}
x(k):k番目の画像から抽出された画像特徴量
α(k):その画像に適した機能(アルゴリズムや処理パラメータ)
予測器構築部26は、事例データベース23に蓄積された事例集合を用いて予測器を構築する。
ここで問題となるのは、画像コンテンツを表現する特徴量集合Fと機能(アルゴリズムやパラメータ)の集合Aと事例集合Hとが与えられているとき、ユーザ集合Uの要素u∈Uと与えられた未知の画像データとについて、観測された特徴量ベクトルxから、分類カテゴリα∈Aのふさわしさf(α,x,u)を表す関数fを事例集合Hから構築することである。
:A×R×U → R(Rは実数)
ただし、異なるアルゴリズム集合Aごとに異なる関数fを構築する。
なお、画像コンテンツを表現する特徴量集合Fの例としては、
・レイアウト統計:画像中の文字と絵が占める割合、文字と絵の散乱度、レイアウト密度
・文字や絵の空間分布
・地肌色
・色やエッジの分布
などが挙げられる。
また、アルゴリズムやパラメータの集合Aとしては、次のような種類が考えられる。
(1)地肌色補正処理
特開2004−320701号公報や特開2005−110184号公報に開示されているような地肌除去、あるいは、地肌クリーニングを適用するか、あるいは、何もしない。
A = {地肌除去、地肌クリーニング、何もしない}
(2)空間フィルタ処理
処理対象画像の全面に平滑化処理、あるいは、エッジ強調処理をかける、あるいは、特開2003−281526号公報に開示されているような、画素ごとに異なる処理(適応的フィルタリング)をかける、あるいは、何もしない。
A = {平滑化処理、エッジ強調処理、適応的フィルタリング、何もしない}
(3)解像度拡大処理
特開2005−063055号公報に開示されているような文字の解像度を拡大するような処理をかける、あるいは、通常の画像補間を行う、あるいは、何もしない。
A = {文字解像度拡大、画像補間、なにもしない}
すなわち、「地肌色補正処理」のアルゴリズム集合Aについての関数fと、「空間フィルタ処理」のアルゴリズム集合Aについての関数fとは、別個に構築されることになる。
ここに、つぎのような技術的課題がある。ベイズ識別の枠組みで考えると、ユーザu、画像特徴量x、分類カテゴリαについて、f(α,x,u)は、下記に示すような確率を求める問題として定式化できる。
p(α|u,x)=p(α|u)・p(x|α,u)/p(x|u)
=p(α|u)・p(x|α,u)/Σα p(α|u)・p(x|α,u)
ここで、p(x|u)は画像に関する正規化ファクタなので、複数の処理(α)の優先順位を求める際には無視してもよい。したがって、
(α,x,u)=p(α|u)・p(x|α,u)
とすれば良いことになる。p(α|u)は、履歴から容易に求めることができる。具体的には、処理αについて、ユーザごとにその処理を使った回数を記録すればよい。ユーザuが処理αを適用した画像についての特徴量の分布p(x|α,u)が「履歴・事例」である。
ところが、f(α,x,u)を表す関数fを事例集合Hから構築する際には、次のような状況を考慮する必要がある。
(1)事例集合Hは個々のユーザと目的の両方に依存する。したがって、実験室での学習は不可能であり、オンサイトでのオンライン学習が必要になる。
(2)学習に利用できる事例・履歴データは、比較的少ない(数十から百)ことを想定しなければならない。これは、オンサイトでは、ユーザの嗜好やタスクをできるだけ少ないデータから読み取り、即座に適応することが必要なことに起因する条件である。
(3)特徴空間Fは多次元(20程度)である。予測に適した特徴だけを選択し、撹乱要因を取り除くための「特徴選択」機構、あるいは、各特徴次元への重み付けが必要である。また、同じアルゴリズム集合Aでも、個々のアルゴリズムαによって、予測に適した特徴部分集合が違う。
(4)画像特徴量xが連続量であり、かつ、多次元、さらに、データの数が少ない場合に、確率分布p(x|α,u)を求めるのは現実的に難しい。「次元の呪い」の問題によって、ノンパラメトリックなParzen窓法や、混合ガウス分布を仮定したEM法などを使って確率分布p(x|α,u)を推定することは難しい。
そこで、上述した4つの課題を解消するのに適した、予測器の学習機構について述べる。まず、オンサイトでの学習に適しており、確率分布関数の形を仮定しない識別方法として、最近傍法がある。最近傍法は、現在処理しているものと最も似ている過去の事例を使った予測方式であり、類似データが増えるほど予測精度が向上する。また、ガウス分布などの確率分布の推定を必要としない識別方法である。さらに、学習データが少なく、特徴が多次元である問題については、最近傍法における距離尺度に対して各特徴次元の予測に対する貢献度に応じて重み付けしたり、あるいは、学習データ(事例集合H)ごとの重要度に応じて重み付けしたりすることによって、データ数と次元数の間のジレンマを解消する。
本実施の形態の予測器構築部26は、その具体的方法として、「重みつき距離の学習を取り入れた最近傍法」を用いて予測器を構築する。その詳細は、「R. Paredes & E. Vidal, "Learning weighted metrics to minimize nearest-neighbor classification error," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28, no. 7, pp. 1100-1110, July 2006」に記述されているが、ここではその概要を述べる。以下、学習データ(事例集合H)のうち、予測器の構築に用いたデータを「プロトタイプデータ」、あるいは、「プロトタイプ点」と呼ぶ。
基本的に最近傍法に基づく方法であるが、プロトタイプ点と予測対象点との距離計算の際に、単純なユークリッド距離ではなく、プロトタイプ点の重要度と各特徴次元の重要度とに応じて、重みを付けた距離を計算する。
=(xi1,・・・,xid)をi番目のプロトタイプ点、cをそのクラス、y=(y,・・・,y)を識別対象の任意の点としたとき、i番目のプロトタイプ点についての重みVとクラスcについて、j番目の特徴次元の重みWcjにより、xとyの距離の2乗(Δ)は、
Figure 0005113653
で定義される。パラメータの数は、特徴次元数d、データ数N、クラス数Cに対して、プロトタイプの重みでN個、それに、クラスごとに決める各次元の重みでCd個であり、合わせてN+Cdである。ここで、「クラス」とは、分類カテゴリ集合Aの要素、すなわち、適用するアルゴリズムや処理パラメータのインデックスのことを言い、各プロトタイプ点Xには、ユーザが適用したクラス情報が付随しているものとする。
重みVと重みWcjとは、データから自動的に学習される。学習の基準は、Leave-One-Outで評価した誤り率を最小にすることである。そうすると、重みは、以下に示すような基準で、最急降下法により学習される。
(1)そのプロトタイプ点と同じクラスの点がまばらに分布していて、その点がなくなることによって識別結果が変わるような場合には、その点が影響を及ぼす範囲がより広くなるように、重みVはより大きな値をとる(重要度が高いプロトタイプ点)。
(2)そのプロトタイプ点と同じクラスの点が密集していて、そのプロトタイプ点の存在が識別結果に影響を与える度合いが低い場合には、重みVはより小さな値をとるような学習を行う(重要度が低いプロトタイプ点)。
(3)クラスcについて、j番目の特徴次元が予測に及ぼす影響がより大きければ、重みWcjはより大きい値をとる。
(4)クラスcについて、j番目の特徴次元が予測を撹乱するような要因であれば、重みWcjは0に近い値になる。
なお、Leave-One-Outとは、つぎのような方法である。識別器の予測誤り率、あるいは、一般化性能を推定する方法の1つが「交差検証(Cross Validation)」である。一般に、「m重交差検証法」では、
(1)学習データをm個の部分集合に無作為に分割する。
(2)評価用に1個の部分集合を残し,他の(m−1)個の部分集合に含まれるデータをすべて使って、識別器を構築する。評価用の部分集合で誤り率を求める。
(3)評価用の部分集合の選び方はm通りあるので、これらの誤り率の平均により、未知データに対する誤り率を予測する。
ここで、mを学習データの個数と同じにした場合、すなわち、評価用の部分集合が1個のデータからなるような場合を、「1点除外法(Leave-One-Out)」を呼ぶ。
最適機能予測部27は、画像特徴量計算部22から出力された画像特徴量ベクトルを入力とし、予測器構築部26で計算された予測器を用いて、最適なアルゴリズムや処理パラメータを求める。すなわち、i番目のプロトタイプ点X(ただし、そのクラスラベルはC)と、現在処理している画像から計算された特徴量ベクトルYとの距離の2乗(Δ)を、予測器構築部で計算した重み、すなわち、i番目のプロトタイプ点についての重みVと,クラスcについて、j番目の特徴次元の重みWcjを用いて、式1のように計算する。距離を最小にするプロトタイプ点を見つけ、そのクラスラベルを、推奨アルゴリズム、あるいは、推奨パラメータとして、ユーザインタフェース部24に出力する。
また、ユーザインタフェース部24は、最適機能予測部27から出力された推奨アルゴリズム、あるいは、推奨パラメータを表示装置11などに表示することによって、ユーザに提示する。ユーザは、推奨が気に入ったか、あるいは、気に入らないかを、キーボード12やポインティングデバイス13などを使って入力することができる。もし、推奨が気に入らないときには、ユーザは、キーボード12やポインティングデバイス13などを使って、処理やパラメータを入力し直すことができる。ユーザの応答結果は、事例データベース23とプロトタイプデータ更新部25に出力される。
ところで、本実施の形態の目的は、動的に変わるユーザの利用目的に即座に適応して、ユーザが所望する処理を予測・推奨することにより、仕事の能率を向上させることである。その実現のためには、新しい事例が来るたびに、最新の状況に合わせて予測機構を更新する機構(オンライン学習)が必要である。既存の予測機構では、その更新(学習)にある程度の時間がかかるため、一連の作業終了後にであってシステムが空いている時間に、予測機構を更新(バッチ学習)するようにしていた。
そこで、本実施の形態の予測器構築部26においては、「状況に応じて動的に変わる利用目的への適応」を実現するためのコア技術として、オンライン学習部26aと、バッチ学習部26bとを備えている。下記の表2に示すように、「バッチ学習」と「オンライン学習」は、長所と短所が相補的である。通常の学習機構は「バッチ学習」であり、その欠点を補うために「オンライン学習」が必要である。
Figure 0005113653
ここで、オンライン学習のアルゴリズムについて説明する。オンライン学習は、入ってきた新しいデータ(1個)についての予測が誤る度に起動される。学習には、その新しく入ってきたデータと、その近傍のプロトタイプデータのみが用いられる。アルゴリズムの入出力は次の通りである。
・入力:現在の予測器の構築に用いたプロトタイプデータセットT(T=(x,y):xは特徴量ベクトル、yは選択事例)、現在の予測器で現在の予測器で使われている距離の重みP、新しく入ってきた事例データ(x,y
・出力:更新されたプロトタイプデータT、更新された距離の重みP
以下、距離の計算は、現在の予測器で使われている距離の重みPを用いて、上述した式1のように行う。
オンライン学習のアルゴリズムは、プロトタイプデータ更新部25によるプロトタイプデータセットの更新と、予測器構築部26のオンライン学習部26aによる予測器の構築および更新との2つのステップから構成されている。
まず、予測器で用いるプロトタイプデータセットTの更新について説明する。
プロトタイプデータ更新部25は、基本的に、新しく入ってきた事例データ(x,y)と、従来のプロトタイプデータセットTとの和集合をとって、予測器の構築に用いたプロトタイプデータセットTを更新する。ただし、新しいデータxとほぼ同じであるが、選択事例が違うような「異なる利用目的を表すデータ」がTにあれば、そのようなデータをTから除外する。その方法は次のようなものである。
(1)新しいデータxについて、Tの要素で、最も近いデータを(x’,y’)とする。ここでは、新しいデータxについての予測が誤っているので、y≠y’である。
Figure 0005113653
(2)x’について、T−{(x’,y’)}の要素で、最も近いデータ(x“,y”)を見つける。
Figure 0005113653
(3)もし、xとx’が互いに最近傍、すなわち、
Figure 0005113653
であれば、
← T ∪ {(x,y)}−{(x’,y’)}
と更新する。そうでなければ、
← T ∪ {(x,y)}
と更新する。
ここで、図9は古いプロトタイプデータx’が除去される場合、図10は古いプロトタイプデータx’が保持される場合を示している。図9および図10においては、古いプロトタイプデータx’を中心とし、xを通るような超楕円球面を考える。
図9に示すように、超楕円球内に他のデータが存在しなれば、データx’はプロトタイプデータから除外される。一方、図10に示すように、内部に他のデータが存在するならば、データx’はプロトタイプデータとして残る。
図9および図10で示したように、式1のような重みつき距離のため、一般には、あるデータから等距離にある点は特徴次元の重みにより超楕円球面を構成し、そのデータが属するクラスによって超楕円球面の形も異なる。また、プロトタイプ点によって、スケール因子も異なる。
次に、予測器構築部26のオンライン学習部26aによる予測器の構築および更新について説明する。具体的には、新しいデータ(x,y)の近傍データ群N(x)の抽出と、プロトタイプデータの重み更新について説明する。
まず、プロトタイプデータセットTのデータから、xの近いデータ群を抽出する。これには、近傍データ群の個数ne(たとえば、20)を決めて、プロトタイプデータセットTの各要素zについてΔ(x,z)を計算し、その昇順にne個を選べばよい。近傍データ群N(x)は、プロトタイプデータセットTから選ばれたne個と、新しいxから成る集合である。
データ群N(x)について、プロトタイプデータの重みVのみを更新する。特徴次元の重みWcjの計算には,そのクラスcに属するすべてのプロトタイプデータが必要であるので、現在の予測器で使われている重みWcjを変えることはしない。また、新しいデータxについて、重みの初期値は1に設定する。
なお、オンライン学習の間に、プロトタイプデータの重みが更新されるので、同じデータxでも、オンライン学習部26aによるステップで求められる近傍データ群N(x)がその度ごとに異なる可能性がある。したがって、プロトタイプデータ更新部25によるステップでも、その度ごとに異なるプロトタイプデータが削除される可能性があることに注意する。
学習方法は、上述したように、現在のプロトタイプデータの重みVの値を初期値として、Leave-one-outで評価した誤り率が極小値になるまで、最急降下法による反復計算を行う。しかし、学習に用いるデータが少なく、計算するパラメータもプロトタイプデータの重みだけであるので、計算時間ははるかに短く、たとえばneが20程度であれば、計算時間は、ユーザが気づかない、あるいは、作業の妨げにならない程度で済む。
続いて、オンライン学習部26aによるオンライン学習後に適用するバッチ学習部26bによるバッチ学習の構成について述べる。バッチ学習が必要になるのは、次の2つの理由による。
(1)特徴次元の重みの変化
オンライン学習中に、目的の変化に適応して、プロトタイプデータの追加・削除が行われると同時に、各クラス(c)について各特徴次元の予測に対する重要度が変わる。したがって、オンライン学習後に、プロトタイプデータ全体から、バッチ学習によって、特徴次元(j)に関する重みパラメータWcjを再計算する必要がある。オンライン学習では、新しいデータとその近傍の局所的処理であるので、各クラスについての特徴次元の重みは計算できない。ただし、プロトタイプの重みは、互いに影響を及ぼしあうような近傍内での局所的計算が可能である。
(2)局所的・一時的な処理により構成されるプロトタイプデータの不完全性
オンライン学習中に行われるプロトタイプデータの追加・削除は、局所的・一時的な判断基準によって行われる。したがって、プロトタイプデータの追加・削除によって、これまでは正しく予測できた事例を誤るようになるという副作用が生じる可能性がある。オンライン学習によって得られたプロトタイプデータセットを補完するために、プロトタイプデータに含まれていない事例を追加する、あるいは、含まれている事例を削除する必要がある。これには、最近の事例データ全体を用いて予測器に用いるプロトタイプデータを調整するという、バッチ処理が必要になる。
次に、バッチ学習の手順について説明する。バッチ学習は、上述した2つの課題に対応した処理から成る。図11にバッチ学習の手順を示す。
図11に示すように、まず、プロトタイプデータセットから、各プロトタイプと各特徴次元の重みを計算する(ステップS201)。
次いで、最近の事例データ全体から事例(x,y)を一つずつ選択し(ステップS202)、最新の予測器を用いて最適機能を予測する(ステップS203)。具体的には、「オンライン学習」で構成されたプロトタイプデータセットから、「最近傍法の重み付き距離」における特徴次元とプロトタイプの重みを学習し、予測器を構築する。上述したように、現在のV,Wcjの値を初期値として、Leave-one-outで評価した誤り率が極小値になるまで、最急降下法による反復計算を行う。なお、最急降下法による反復計算のため、学習係数の調整が難しく、初期値や学習係数の設定によっては異なる局所最適解に陥るため、以下に示すような方法で初期値と学習係数を決めている。
・プロトタイプ点の重みVは、すべて1に初期化する。
・クラスcのj番目の次元の重みWcjは次のように設定する。すべて1.0に設定した場合(通常のユークリッド距離)の誤り率と、Wcjをj番目の特徴量の分布の標準偏差の逆数に設定した場合(Mahalanobis距離)の誤り率を計算してみて、誤り率が小さい方に初期値を設定する。
・学習係数については、いくつかの値に設定した場合の誤り率について、反復回数を制限して計算した結果を比較してみる。その中でもっとも誤り率が小さいものを採用し、今度は重みVとWcjが収束するまで反復計算する。
続くステップS204では、ステップS203における最新の予測器を用いて予測した最適機能と、実際のユーザ選択とを比べる。
予測した最適機能と、実際のユーザ選択とが異ならない場合には(ステップS204のNo)、ステップS202に戻り、次の事例(x,y)を選択する。
一方、予測した最適機能と、実際のユーザ選択とが異なる場合には(ステップS204のYes)、以降の処理においてプロトタイプデータの補完処理を行なう。プロトタイプデータセットをできるだけ小さくし、かつ、予測精度が高くなるようにプロトタイプ重みを最適化する。これには、オンライン学習でも行ったような、プロトタイプデータの追加・除去と、プロトタイプ重みの更新を反復する。
まず、ステップS205では、プロトタイプデータのセットの更新処理を実行する。詳細には、その事例(x,y)をプロトタイプデータセットに追加するとともに、現在のプロトタイプデータセットから、矛盾するようなデータを削除する。方法は、前述したプロトタイプデータ更新部25によるプロトタイプデータセットの更新と同じである。
続くステップS206では、xの近傍データについて、プロトタイプ重みの更新処理を実行する。詳細には予測器構築部26のオンライン学習部26aと同様に、事例データ(x,y)の近傍データ群N(x)を抽出し、N(x)について、プロトタイプデータの重みを更新する。プロトタイプデータの重みが毎回更新されるので、式1で計算される距離において、各データのスケール因子がその度ごとに変化する。同じデータxでも、近傍データ群N(x)がその度ごとに異なる可能性がある。したがって、ステップS205でも、異なるプロトタイプデータが削除される可能性があることに注意する。
以上説明したようなステップS203〜S206の処理は、終了条件を満たすまで(ステップS204のYes)、繰り返される。
なお、ステップS202における事例の選択は、時系列順、あるいは、ランダムに行う。また、終了条件としては、事例データ全体を数回巡回するまで、あるいは、誤り率がある閾値以下になるまで、などとすれば良い。例えば、事象選択はランダムで、終了条件は3回巡回するまでとする。
このように本実施の形態によれば、個々のユーザの「目的」に依存する処理を画像に対して施す際に、これまでに処理した画像の画像特徴量とそのユーザが適用した機能(アルゴリズムや処理パラメータ)に基づいて、様々な画像に最適な機能を予測する関数を自動的に学習し、今処理している画像に最適な機能を予測してユーザに推奨することにより、ユーザが少ない操作(メニューからの選択やパラメータ設定)で所望の画像を得ることができるので、個々のユーザの「目的」に依存する処理を大量の画像に対して施す場合に、個々のユーザの「目的」を考慮しつつ、ユーザ操作に負担を掛けずに、作業効率の向上を図ることができる。また、事例集合が更新されるごとに、当該事例集合を用いて予測器を再構築することにより、ユーザの作業中に最新の状況を予測器に反映させるようにしたので、ユーザの目的の変化に応じて予測の仕方を自動的に更新することができる。
また、オンライン学習により、ユーザの作業中でもシステムが賢くなって行くとともに、作業が終了した後の空き時間にバッチ学習を起動することにより、高い予測精度を保つことができる。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図12ないし図15に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
図12は本発明の第2の実施の形態にかかるデータ処理装置1のCPU2が実行する画像処理にかかる機能を示す機能ブロック図、図13はその流れを概略的に示すフローチャートである。
図12に示すように、データ処理装置1は、画像データ入力部121と、各画像データについての画像特徴量を計算する特徴量計算手段として機能する画像特徴量122と、事例(アルゴリズムや処理パラメータ)を格納する事例データベース123と、事例データベース123に格納されている各事例の重みを計算する重み計算手段として機能する重み計算部124と、プロトタイプ集約(Prototype Condensing)を実行して、プロトタイプ事例セットを構築する事例セット構築手段として機能するプロトタイプ事例セット構築部125と、最適機能予測手段として機能する最適機能予測部126と、ユーザとの入出力のための入力受付手段として機能するユーザインタフェース部127と、を備えている。
また、画像処理の流れは、概略的には、画像データ入力部121により未知の画像データが入力されると(ステップS401)、画像特徴量計算部22で画像データ入力部121から出力された画像データから画像特徴量を計算し(ステップS402)、重み計算部124で計算された重みとプロトタイプ事例セット構築部125で構築されたプロトタイプ事例セットとを用いて最適機能予測部126が最適な機能の予測を行う(ステップS403)。
その後、ユーザインタフェース部127は、最適機能予測部126から出力された最適な機能を推奨機能として表示装置11の画面などに表示することによって、ユーザに提示するとともに、ユーザからの機能の選択入力を受け付ける(ステップS404)。
また、画像特徴量計算部122で計算された画像特徴量と、ユーザインタフェース部127で受け付けたユーザ選択結果とを、事例データベース123に追加する(ステップS405)。
上述したステップS401〜S405の処理は、処理する画像データが無くなったと判断されるまで(ステップS406のYes)、繰り返される。
処理する画像データが無くなったと判断された場合には(ステップS406のYes)、重み計算部124で各事例の重みを計算し(ステップS407)、プロトタイプ事例セット構築部125でプロトタイプ事例セットを構築し(ステップS408)、集約事例データと重みを出力する(ステップS409)。
以下において、各構成部の動作と作用を詳述する。
画像データ入力部121は、入力された画像データがスキャンされた文書画像データであれば、文書の傾きを補正する「スキュー補正」を文書画像データに施したりするなどの前処理を施す。
画像特徴量計算部122は、画像データ入力部121から出力された文書画像データを入力とし、文書コンテンツをあらわす特徴量を、事例データベース123と最適機能予測部126に出力するものである。
画像特徴量は、「Bag-Of-Words」、すなわち、文書中に出現する単語の頻度を並べたベクトルや、特許第3253356号公報、特許第3215163号公報などに開示されているような文書画像の特徴量を並べたベクトルを組み合わせて構成することができる。ここでは、一例として、文書のレイアウト特徴を表す連続特徴量ベクトルを計算する方法を示す。
画像特徴量計算部122における画像特徴量計算処理は、第1の実施の形態の画像特徴量計算部22における画像特徴量計算処理と同じであるので、その説明は省略する。
事例データベース123は、画像特徴量計算部122から出力された画像特徴量と、後述するユーザインタフェース部27から出力されたユーザの選択を入力とし、下記に示す学習データである事例集合Hとして蓄積するデータベースである。
H={(x(1),α(i)),(x(2),α(2)),...}
x(k):k番目の画像から抽出された画像特徴量
α(k):その画像に適したアルゴリズムや処理パラメータ
次に、重み計算部124について説明する。重みの計算方法としては、事例にもとづく識別に適しており、かつ、確率分布関数の形を仮定しない識別方法である最近傍法がある。最近傍法は、現在処理しているものと最も似ている過去の事例を使った予測方式であり、類似データが増えるほど、予測精度が向上する。また、ガウス分布などの確率分布の推定を必要としない識別方法である。さらに、学習データが少なく、特徴が多次元である問題については、最近傍法における距離尺度に、各特徴次元の予測に対する貢献度に応じて重み付けしたり、あるいは、学習データ(事例)ごとの重要度に応じて重み付けしたりすることによって、データ数と次元数の間のジレンマが解消できる。
本実施の形態においては、その具体的方法として、「重みつき距離の学習を取り入れた最近傍法」を用いる。その詳細は、「R. Paredes & E. Vidal, "Learning weighted metrics to minimize nearest-neighbor classification error," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28, no. 7, pp. 1100-1110, July 2006」に記述されているが、ここではその概要を以下において述べる。
基本的に最近傍法に基づく方法であるが、プロトタイプ点と予測対象点との距離計算の際に、単純なユークリッド距離ではなく、プロトタイプ点の重要度と各特徴次元の重要度とに応じて、重みを付けた距離を計算する。
=(xi1,・・・,xid)をi番目のプロトタイプ点、cをそのクラス、y=(y,・・・,y)を識別対象の任意の点としたとき、i番目のプロトタイプ点についての重みVとクラスcについて、j番目の特徴次元の重みWcjにより、xとyの距離の2乗(Δ)は、
Figure 0005113653
で定義される。パラメータの数は、特徴次元数d、データ数N、クラス数Cに対して、プロトタイプの重みでN個、それに、クラスごとに決める各次元の重みでCd個であり、合わせてN+Cdである。ここで、「クラス」とは、集合Aの要素、すなわち、適用するアルゴリズムや処理パラメータのインデックスのことを言い、各プロトタイプ点Xには、ユーザが適用したクラス情報が付随しているものとする。
重みVと重みWcjとは、データから自動的に学習される。学習の基準は、Leave-One-Outで評価した誤り率を最小にすることである。そうすると、重みは、以下に示すような基準で、最急降下法により学習される。
(1)その事例と同じクラスの点がまばらに分布していて、その点がなくなることによって識別結果が変わるような場合には、その点が影響を及ぼす範囲がより広くなるように、重みVはより大きな値をとる(重要度が高いプロトタイプ点)。
(2)その事例と同じクラスの点が密集していて、その事例の存在が識別結果に影響を与える度合いが低い場合には、重みVはより小さな値をとるような学習を行う(重要度が低い事例)。
(3)クラスcについて、j番目の特徴次元が予測に及ぼす影響がより大きければ、重みWcjはより大きい値をとる。
(4)クラスcについて、j番目の特徴次元が予測を撹乱するような要因であれば、重みWcjは0に近い値になる。
次に、プロトタイプ集約(Prototype Condensing)を実行するプロトタイプ事例セット構築部125について説明する。ここで、プロトタイプ集約(Prototype Condensing)とは、最近傍識別において、識別性能をほとんど劣化させることなく、事例の個数を縮減することである。プロトタイプ集約の基本アルゴリズムは、一般的には、図14に示すような単純なものである。図14に示すアルゴリズムは、もとの事例データベースPを入力し、事例データベースPから要素zを1個選び(ステップS201)、事例データベースPの各要素を、Gをプロトタイプデータとして最近傍識別するとともに、誤ったものの集合をEとする(ステップS202)。そして、Eが空でなければ(ステップS203のNo)、Eから要素zを1個選び(ステップS204)、ステップS202の処理を繰り返す。一方、Eが空であれば(ステップS203のYes)、Gを集約されたプロトタイプ事例セット(その一部の事例のみから構成されるプロトタイプ事例セットG)として出力して(ステップS205)、処理を終了する。このアルゴリズムによって得られる集約されたプロトタイプ事例セットGを用いて、もとの事例データベースPを最近傍識別すると、100%の精度で正しく識別される。このような集合Gを、Minimal Consistent Set(MCS)と呼ぶ。
ここで、プロトタイプ事例セットGに逐次的に加えていく「要素zの選び方」が問題となる。プロトタイプ集約においては、できるだけ小さいMCSを構成するように選ぶことが望ましいが、図14に示したアルゴリズムでは、事例の順序付けに依存することになる。
そこで、本実施の形態においては、重み計算部124で求められた「各事例の重み」を利用して要素zを選ぶようにしたものである。「事例の重み」には、上記したような意味で、その事例の重要度が反映されている。重みvが大きいような事例は、その勢力範囲が大きくなるため、重要度が高いと考えるのは自然である。事例の重みを用いたプロトタイプ集約のアルゴリズムを、図15に示す。図15に示すアルゴリズムは、もとの事例データベースPを入力し、事例データベースPから重みvが最も大きい要素zを1個選び(ステップS301)、事例データベースPの各要素を、Gをプロトタイプデータとして最近傍識別するとともに、誤ったものの集合をEとする(ステップS302)。そして、Eが空でなければ(ステップS303のNo)、Eから重みvが最も大きい要素zを1個選び(ステップS304)、ステップS302の処理を繰り返す。一方、Eが空であれば(ステップS303のYes)、Gを集約されたプロトタイプ事例セット(その一部の事例のみから構成されるプロトタイプ事例セットG)として出力して(ステップS305)、処理を終了する。
最適機能予測部126は、画像特徴量計算部122から出力された画像特徴量ベクトルを入力とし、プロトタイプ事例セット構築部125で構築したプロトタイプ事例セットと重み計算部124で求めた重みとを用いて、最適なアルゴリズムや処理パラメータを求める。プロトタイプ事例セット中でi番目のプロトタイプ事例X(ただし、そのクラスラベルはC)と、現在処理している画像から計算された特徴量ベクトルYとの距離の2乗(Δ)を、重み計算部124で計算した重み、すなわち、i番目のプロトタイプ点についての重みVと、クラスcについて、j番目の特徴次元の重みWcjを用いて、式1のように計算する。距離を最小にするプロトタイプ点を見つけ、そのクラスラベルを、推奨アルゴリズム、あるいは、推奨パラメータとして、ユーザインタフェース部127に出力する。
また、ユーザインタフェース部127は、最適機能予測部126から出力された推奨アルゴリズム、あるいは、推奨パラメータを表示装置11などに表示することによって、ユーザに提示する。ユーザは、推奨が気に入ったか、あるいは、気に入らないかを、キーボード12やポインティングデバイス13などを使って入力することができる。もし、推奨が気に入らないときには、ユーザは、キーボード12やポインティングデバイス13などを使って、処理やパラメータを入力し直すことができる。ユーザの応答結果は、事例データベース123とプロトタイプ事例セット構築部125に出力される。
このように本実施の形態によれば、個々のユーザの「嗜好」に依存する処理を画像に対して施す際に、これまでに処理した画像の画像特徴量とそのユーザが適用した事例(アルゴリズムや処理パラメータ)に基づいて、様々な画像に最適な事例を予測する関数を自動的に学習し、新しい画像データについての最適な事例を予測してユーザに推奨することにより、ユーザが少ない操作(メニューからの選択やパラメータ設定)で所望の画像を得ることができるので、個々のユーザの「嗜好」に依存する処理を大量の画像に対して施す場合に、個々のユーザの「嗜好」を考慮しつつ、ユーザ操作に負担を掛けずに、作業効率の向上を図ることができる。また、オンサイトでのシステムの長期的運用において、オンラインで予測に要する計算時間、プロトタイプ事例セットが保持する事例データ(プロトタイプデータ)の数、空き時間に行う学習に要する時間などを、略一定に保つことができるようになる。
なお、本実施の形態のプロトタイプ事例セット構築部125においては、初期プロトタイプ事例セットとして、事例データベース123中から最大の重要度を持つ1個の事例のみを要素として順に選ぶようにしたが、これに限るものではない。例えば、C個のクラスのそれぞれについて、重要度が最大の事例を選び出して、初期プロトタイプ事例セットをそれらC個の事例を要素から成るものとしてもよい。これにより、重要度の高い事例を優先的にプロトタイプ事例セットに加えていくことができるので、ランダムに加える場合に比べて、より小さなプロトタイプ事例セットを構築することができる。
また、本実施の形態においては、バッチ学習にて、重み計算部124で各事例の重みを計算し、プロトタイプ事例セット構築部125でプロトタイプ事例セットを構築し、集約事例データと重みを出力するようにしたが、オンライン学習でも同様の処理を行うようにしても良い。
[第3の実施の形態]
次に、本発明の第3の実施の形態を図16ないし図21に基づいて説明する。なお、前述した第1の実施の形態または第2の実施の形態と同じ部分は同じ符号で示し説明も省略する。本実施の形態は、事例データベースの構築の一例について示すものである。
図16は本発明の第3の実施の形態にかかるデータ処理装置1のCPU2が実行する画像処理にかかる機能を示す機能ブロック図、図17はその流れを概略的に示すフローチャートである。
図16に示すように、データ処理装置1は、画像入力処理部221と、学習用画像データ記録部222と、特徴量計算手段として機能する画像特徴量計算部223と、領域抽出手段として機能する領域抽出部224と、評価手段として機能する領域抽出結果の評価部225と、特徴量データ記録手段として機能する教師付き特徴量データ記録部226と、学習手段として機能する領域抽出方式選択規則の学習部227と、選択手段として機能する領域抽出方式の選択部228と、を備えている。以下において、各構成部の動作と作用を詳述する。
画像入力処理部221は入力された文書画像中の文書の傾きを補正する「スキュー補正」を文書画像に施したり、カラー入力の場合にモノクロのグレースケール画像に変換したりするなどの前処理を施して画像データを生成する(図17に示すステップS501)。
学習用画像データ記録部222は、画像入力処理部221で前処理を施した画像データを、後述する領域抽出方式選択規則の学習に用いるために、HDD6の所定領域に記録する(図17に示すステップS502)。
学習用画像データ記録部222に記録されたN個の画像データは、図17に示すように、1つずつ取り出され(ステップS503,S504,S505,S510)、以降の処理を施される。
画像特徴量計算部223における画像特徴量計算処理は、第1の実施の形態の画像特徴量計算部22における画像特徴量計算処理と同じであるので、その説明は省略する。
次に、領域抽出部224について説明する。本実施の形態においては、複数の異なる方式、あるいは、同じ方式でも複数のパラメータが設定されている2つ以上の領域抽出方式の領域抽出部224を、処理対象の画像データに作用させて領域抽出を行う(図17に示すステップS507)。すなわち、図16に示すように、本実施の形態においては、2つ以上のNs個の領域抽出部224を配置する。従来技術で述べたように、領域抽出には複数の方式があり、同一の画像に対して異なる結果が得られる。例えば、図18は図8の(b)についての領域抽出の結果を示すものである。図18に示す(a)は、特開2006−085665号公報に開示されているようなトップダウン型の領域抽出方式によるレイアウト解析方法による文字領域の領域抽出結果である。また、図18に示す(b)は、写真領域の抽出結果である。また、特開2000−067158号公報や特開2000−113103号公報に記載されている方法などを適用すると、図19の(a)に示すように、図18の(a)とは異なる結果が得られる。
領域抽出結果の評価部225では、複数の領域抽出方式の領域抽出部224による出力結果を、評価する(図17に示すステップS508)。より詳細には、複数の領域抽出方式の領域抽出部224による出力結果を、学習用画像データのそれぞれについて用意された抽出領域の正解と照合することによって、正解とそれぞれの出力と差異を計算し、作用させた領域識別方式に順位をつける。ここで、図20は図8の(b)についての正解の例である。図20に示す正解の例と、図18や図19に示した領域抽出方式の出力結果との差異を計算する。差異の計算はすでに知られた方法があり、例えば、文献「J. Liang, I.T. Phillipps, and R.M. Haralick, "Performance evaluation of document structure extraction algorithms," Computer Vision and Image Understanding, vol. 84, pp. 144-159, 2001」では、出力結果を正解に変換するのに必要とされる、領域の併合や分断の回数を基にした方法が述べられている。例えば、図19の領域抽出方式による領域抽出結果では、文字領域が細かく分断されているため、図18の領域抽出方式による領域抽出結果に比べて、順位が悪くなる。
教師付き特徴量データ記録部226では、ステップS506において画像特徴量計算部223で計算したそれぞれの学習用画像データの画像特徴量と、領域抽出結果の評価部225で評価した最良の領域抽出方式とを、教師付き特徴量データとして記録する(図17に示すステップS509)。図21は、教師付き特徴量データ記録部226に記録されている教師付き特徴量データの例を示す模式図である。図21に示す例では、最良の領域抽出方式(図21の例では、「A」,「B」,「C」,「D」と表記)を「教師データ」、すなわち、学習用画像データが属するクラスのラベルとみなす。
以上説明したようなステップS505〜S509の処理を、学習用画像データ記録部222に記録されたN個の画像データ全てに対して実行したと判断した場合には(図17に示すステップS504のNo)、ステップS511に進み、領域抽出方式選択規則の学習部27における領域抽出方式選択規則の学習処理が実行される。
領域抽出方式選択規則の学習部227は、画像特徴量と最適領域抽出処理との対応関係を学習する(図17に示すステップS511)。具体的には、教師付き特徴量データとパターン識別のアルゴリズムとを用いることにより、画像特徴量から最良の領域抽出方式の選択規則の学習を行う。学習方式としては、線形識別、ニューラルネットワーク、最近傍法、サポートベクトルマシンなど、任意の方式を用いることができる。
そして、領域抽出方式の選択部228は、未知の文書画像データが入力された際には、画像特徴量を計算し、領域抽出方式選択規則の学習部227における学習によって得られる領域抽出方式選択規則を用いてその画像データに最適な領域抽出方式を選択する。これにより、選択された1つの領域抽出部224による領域抽出方式を入力された文書画像データに作用させることによって、入力された文書画像データから各種領域が抽出される。
このように本実施の形態によれば、レイアウトの概略(文字や写真・絵の大体の空間的配置や分布など)に基づいて計算された文書画像データの画像特徴量と領域抽出方式の対応規則を自動的に学習することができるとともに、対応付けた情報に基づいてレイアウト解析における領域抽出方式が選択され、選択された領域抽出方式に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略(文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など)に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの特徴に適したレイアウト解析における領域抽出方式を選択することができるので、文書領域抽出の性能を向上させることができる。
なお、領域抽出結果の評価部225では、複数の領域抽出方式の出力結果を、学習用画像データのそれぞれについて用意された抽出領域の正解と照合することによって、正解とそれぞれの出力と差異を計算し、作用させた領域識別方式に順位をつけたが、これに限るものではなく、正解を用意せず、人間のオペレータが複数の領域抽出方式の出力結果を目視して順位付けするようにしても良い。
なお、本実施の形態においては、画像特徴量計算部223で画像データ全体の特徴量を計算した後(図17に示すステップS506)、複数の領域抽出部224で領域抽出を行い(図17に示すステップS507)、領域抽出結果の評価部225で複数の領域抽出方式の領域抽出部224による出力結果を評価する(図17に示すステップS508)ようにしたが、これに限るものではない。例えば、複数の領域抽出部224で領域抽出を行い、領域抽出結果の評価部225で複数の領域抽出方式の領域抽出部224による出力結果を評価した後、画像特徴量計算部223で画像データ全体の特徴量を計算するようにしても良い。
[第4の実施の形態]
次に、本発明の第4の実施の形態を図22に基づいて説明する。なお、前述した第1の実施の形態ないし第3の実施の形態と同じ部分は同じ符号で示し説明も省略する。
第1の実施の形態ないし第3の実施の形態においては、データ処理装置1としてPCなどのコンピュータを適用したが、本実施の形態は、データ処理装置1としてデジタル複合機などに備えられる情報処理装置を適用したものである。
図22は、本発明の第4の実施の形態にかかるデジタル複合機50を示す外観斜視図である。図22に示すように、画像読取手段であるスキャナ部51及び画像印刷装置であるプリンタ部52を備えた画像形成装置であるデジタル複合機50に備えられる情報処理装置にデータ処理装置1を適用し、デジタル複合機50のスキャナ部51で読み取ったスキャン画像に対して画像処理を施すようにしたものである。
[第5の実施の形態]
次に、本発明の第5の実施の形態を図23に基づいて説明する。なお、前述した第1の実施の形態ないし第3の実施の形態と同じ部分は同じ符号で示し説明も省略する。
第1の実施の形態ないし第3の実施の形態においては、データ処理装置1としてローカルなシステム(例えば、パーソナルコンピュータ単体)を適用したが、本実施の形態は、データ処理装置1としてサーバクライアントシステムを構成するサーバコンピュータを適用したものである。
図23は、本発明の第5の実施の形態にかかるサーバクライアントシステムを示す模式図である。図23に示すように、サーバコンピュータSにネットワークNを介してクライアントコンピュータCが複数台接続されたサーバクライアントシステムを適用しており、各クライアントコンピュータCからサーバコンピュータSに対して画像を送信し、サーバコンピュータS(データ処理装置1)において画像に対して画像処理を施すようにしたものである。また、ネットワークN上には、ネットワークスキャナNSが設けられている。
本発明の第1の実施の形態にかかるデータ処理装置の電気的な接続を示すブロック図である。 画像処理にかかる機能を示す機能ブロック図である。 画像処理の流れを概略的に示すフローチャートである。 画像特徴量計算処理の流れを概略的に示すフローチャートである。 ブロック分類処理の流れを概略的に示すフローチャートである。 多重解像度処理を示す模式図である。 高次自己相関関数計算のためのマスクパターンの一例を示す模式図である。 ブロック分類の一例を示す模式図である。 古いプロトタイプデータx’が除去される場合を示す模式図である。 古いプロトタイプデータx’が保持される場合を示す模式図である。 バッチ学習の手順を示すフローチャートである。 本発明の第2の実施の形態にかかるデータ処理装置の画像処理にかかる機能を示す機能ブロック図である。 画像処理の流れを概略的に示すフローチャートである。 プロトタイプ集約処理の流れを示すフローチャートである。 「各事例の重み」を利用したプロトタイプ集約処理の流れを示すフローチャートである。 本発明の第3の実施の形態にかかるデータ処理装置の画像処理にかかる機能を示す機能ブロック図である。 画像処理の流れを概略的に示すフローチャートである。 図8の(b)についての領域抽出の結果を示す模式図である。 図8の(b)についての領域抽出の結果を示す模式図である。 図8の(b)についての領域抽出の結果の正解を示す模式図である。 教師付き特徴量データの例を示す模式図である。 本発明の第4の実施の形態にかかるデジタル複合機を示す外観斜視図である。 本発明の第5の実施の形態にかかるサーバクライアントシステムを示す模式図である。
符号の説明
1 データ処理装置
22 特徴量計算手段
23 事例データベース
24 入力受付手段
25 更新手段
26 予測器構築手段
26a 逐次構築手段
26b バッチ構築手段
27 最適機能予測手段
122 特徴量計算手段
123 事例データベース
124 重み計算手段
125 事例セット構築手段
126 最適機能予測手段
127 入力受付手段
223 特徴量計算手段
224 領域抽出手段
225 評価手段
226 特徴量データ記録手段
227 学習手段
228 選択手段

Claims (18)

  1. 画像データの特性を示す画像特徴量を計算する特徴量計算手段と、
    ユーザにより選択された機能の入力を受け付ける入力受付手段と、
    前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースと、
    前記事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築する予測器構築手段と、
    前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測する最適機能予測手段と、
    前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新する更新手段と、を備え、
    前記予測器構築手段は、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築する逐次構築手段を備える、
    ことを特徴とするデータ処理装置。
  2. 前記最適機能予測手段は、
    前記事例データベースに蓄積された前記事例集合のうち前記予測器で用いられるプロトタイプ点と前記画像データとの特徴量ベクトルの距離を計算する距離計算手段と、
    前記距離計算手段により計算された前記距離が最小となる前記プロトタイプ点に付随するクラス情報に対応する分類カテゴリを、前記最適な分類カテゴリとして出力する手段と、
    を備えることを特徴とする請求項記載のデータ処理装置。
  3. 前記予測器構築手段は、全ての作業が終了したと判断した場合に、前記事例データベースに蓄積されている全ての前記事例集合を用いて前記予測器を再構築するバッチ構築手段を備える、
    ことを特徴とする請求項記載のデータ処理装置。
  4. 前記最適機能予測手段は、
    前記事例データベースに蓄積された前記事例集合のうち前記予測器で用いられるプロトタイプデータと前記画像データとの特徴量ベクトルの距離を計算する距離計算手段と、
    前記距離計算手段により計算された前記距離が最小となる前記プロトタイプデータに付随するクラス情報に対応する機能を、前記最適な機能として出力する手段と、
    を備えることを特徴とする請求項記載のデータ処理装置。
  5. 前記更新手段は、
    前記事例データベースに蓄積されている前記事例集合の中で、特徴量ベクトルがほぼ同じ値を持ち、かつ、過去と現在での機能が異なる事例データの組を検出する手段と、
    検出された前記事例データの組について、古い前記事例データを前記事例集合から除外して、新しい前記事例データだけを前記事例集合に取り入れる手段と、
    を備えることを特徴とする請求項記載のデータ処理装置。
  6. 前記逐次構築手段は、新しい画像データが入力されるごとに、前記事例集合中の事例データのうち、新しい画像データから計算される画像特徴量に近い特徴量を持つ前記プロトタイプデータだけについて、距離関数のパラメータを更新するパラメータ更新手段を備える、
    ことを特徴とする請求項記載のデータ処理装置。
  7. 前記パラメータ更新手段は、前記事例集合中の事例データのうち、新しい画像データに近い画像特徴量を持つ前記プロトタイプデータだけから計算された予測誤差が最小になるように、前記事例データによって決まる重みを更新する、
    ことを特徴とする請求項記載のデータ処理装置。
  8. 前記バッチ構築手段は、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、前記事例集合をできるだけ小さくし、かつ、予測誤差が最小になるように前記プロトタイプデータの重みを最適化する、補完手段を備える、
    ことを特徴とする請求項記載のデータ処理装置。
  9. 前記補完手段は、前記新たな事例データを前記事例集合に追加するとともに、現在の前記事例集合から、矛盾するような事例データを削除する手段と、前記新たな事例データの近傍データ群について、前記プロトタイプデータの重みを更新する手段と、を備える、
    ことを特徴とする請求項記載のデータ処理装置。
  10. 前記事例データベースに蓄積された前記事例集合の各事例について重みを計算する重み計算手段と、
    前記各事例についての重みを用いて前記事例データベース中の前記事例の個数を縮減した事例セットを構築する事例セット構築手段と、
    を更に備え、
    前記最適機能予測手段は、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記事例セット構築手段で構築した前記事例セットと前記重み計算手段で求めた重みとを用いて、最適な機能を予測する、
    ことを特徴とする請求項1記載のデータ処理装置。
  11. 前記最適機能予測手段は、
    前記事例セットに蓄積された各事例について、前記画像データとの特徴量ベクトルの特徴量ベクトルの距離を重みをつけて計算する距離計算手段と、
    前記距離計算手段により計算された前記距離が最小となる前記事例セットに蓄積されている前記事例を、前記最適な機能として出力する手段と、
    を備えることを特徴とする請求項10記載のデータ処理装置。
  12. 前記画像データに対して少なくとも2つ以上の領域抽出方式による領域抽出を実行する領域抽出手段と、
    前記領域抽出手段による前記各領域抽出方式による領域分割結果に対して順位付けを行って評価する評価手段と、
    前記特徴量計算手段により計算された前記画像特徴量と、前記評価手段で評価した最良の前記領域抽出方式とを、教師付き特徴量データとして記録する特徴量データ記録手段と、
    前記教師付き特徴量データを用いることにより、前記画像特徴量から最良の前記領域抽出方式を選択する選択規則を学習する学習手段と、
    を備え、
    前記事例データベースを構築する、
    ことを特徴とする請求項1記載のデータ処理装置。
  13. 前記特徴量計算手段は、
    前記画像データを矩形ブロックに排他的に分割するブロック分割手段と、
    分割された前記各ブロックを、当該画像データを構成する所定の構成要素に分類するブロック分類手段と、
    前記ブロックの分類結果に基づいて前記画像データの画像特徴量を計算する計算手段と、
    を備えることを特徴とする請求項12記載のデータ処理装置。
  14. 前記ブロック分類手段は、
    前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、
    前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、
    前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、
    を備えることを特徴とする請求項13記載のデータ処理装置。
  15. 前記特徴量ベクトル計算手段は、
    前記各解像度の画像を2値化する2値化手段と、
    2値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
    前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
    を備えることを特徴とする請求項14記載のデータ処理装置。
  16. 前記特徴量ベクトル計算手段は、
    前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
    前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
    を備えることを特徴とする請求項14記載のデータ処理装置。
  17. コンピュータを、
    画像データの特性を示す画像特徴量を計算する特徴量計算手段と、
    ユーザにより選択された機能の入力を受け付ける入力受付手段と、
    前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築する予測器構築手段と、
    前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測する最適機能予測手段と、
    前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新する更新手段と、して機能させ、
    前記予測器構築手段は、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築する逐次構築手段を備える、
    ことを特徴とするプログラム。
  18. データ処理装置で実行されるデータ処理方法であって、
    前記データ処理装置は、制御部と記憶部を備え、
    前記制御部において実行される、
    特徴量計算手段が、画像データの特性を示す画像特徴量を計算するステップと、
    入力受付手段が、ユーザにより選択された機能の入力を受け付けるステップと、
    予測器構築手段が、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースに蓄積された前記事例集合を用いて前記画像データに対する最適な機能を予測する予測器を構築するステップと、
    最適機能予測手段が、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記予測器構築手段で構築された前記予測器を用いて最適な機能を予測するステップと、
    更新手段が、前記最適機能予測手段により予測された前記最適な機能と、前記入力受付手段で受け付けたユーザにより選択された機能とが異なる場合には、ユーザの目的が変化した新たな事例と、前記予測器構築手段における前記予測器の構築に用いた前記事例集合との和集合をとって、前記事例集合を更新するステップと、を含み、
    前記予測器構築手段が、前記更新手段により前記事例集合が更新されるごとに、当該事例集合を用いて前記予測器を再構築するステップと、をさらに含む、
    ことを特徴とするデータ処理方法。
JP2008181698A 2007-09-19 2008-07-11 データ処理装置、プログラムおよびデータ処理方法 Expired - Fee Related JP5113653B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008181698A JP5113653B2 (ja) 2007-09-19 2008-07-11 データ処理装置、プログラムおよびデータ処理方法
US12/211,442 US8254669B2 (en) 2007-09-19 2008-09-16 Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2007242680 2007-09-19
JP2007242681 2007-09-19
JP2007242682 2007-09-19
JP2007242680 2007-09-19
JP2007242683 2007-09-19
JP2007242681 2007-09-19
JP2007242683 2007-09-19
JP2007242682 2007-09-19
JP2008181698A JP5113653B2 (ja) 2007-09-19 2008-07-11 データ処理装置、プログラムおよびデータ処理方法

Publications (2)

Publication Number Publication Date
JP2009095001A JP2009095001A (ja) 2009-04-30
JP5113653B2 true JP5113653B2 (ja) 2013-01-09

Family

ID=40666469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008181698A Expired - Fee Related JP5113653B2 (ja) 2007-09-19 2008-07-11 データ処理装置、プログラムおよびデータ処理方法

Country Status (1)

Country Link
JP (1) JP5113653B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5096194B2 (ja) 2008-03-17 2012-12-12 株式会社リコー データ処理装置、プログラムおよびデータ処理方法
JP6494435B2 (ja) * 2015-06-04 2019-04-03 キヤノン株式会社 情報処理装置、その制御方法及びコンピュータプログラム
KR102246110B1 (ko) * 2019-04-02 2021-04-29 삼성전자주식회사 영상 처리 장치 및 그 영상 처리 방법
US10909700B2 (en) 2019-04-02 2021-02-02 Samsung Electronics Co., Ltd. Display apparatus and image processing method thereof
WO2023145164A1 (ja) * 2022-01-28 2023-08-03 株式会社Jvcケンウッド 画像分類装置、画像分類方法、および画像分類プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001016470A (ja) * 1999-06-25 2001-01-19 Minolta Co Ltd 画像処理装置
JP4768451B2 (ja) * 2006-01-18 2011-09-07 株式会社リコー 画像処理装置、画像形成装置、プログラムおよび画像処理方法

Also Published As

Publication number Publication date
JP2009095001A (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP4768451B2 (ja) 画像処理装置、画像形成装置、プログラムおよび画像処理方法
US8254669B2 (en) Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit
KR100516289B1 (ko) 퍼지 적분을 이용하여 사용자 의견을 반영한 내용기반영상 검색 장치 및 그 방법
CN111444966B (zh) 媒体信息分类方法及装置
US8699789B2 (en) Document classification using multiple views
US8306940B2 (en) Interactive visualization for generating ensemble classifiers
US20060217925A1 (en) Methods for entity identification
US7715635B1 (en) Identifying similarly formed paragraphs in scanned images
JP5113653B2 (ja) データ処理装置、プログラムおよびデータ処理方法
US8321367B2 (en) Data processing apparatus, method, and computer program product for user objective prediction
Haneda et al. Text segmentation for MRC document compression
JP2008537198A (ja) 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート
EP4092555A1 (en) Control method, information processing device, and control program
US7836000B2 (en) System and method for training a multi-class support vector machine to select a common subset of features for classifying objects
US7024049B2 (en) Method and apparatus for improving image appearance
JP5022979B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5006263B2 (ja) 画像処理装置、プログラムおよび画像処理方法
Stoehr et al. Adaptive ABC model choice and geometric summary statistics for hidden Gibbs random fields
US8891884B2 (en) Regression tree fields
Ifada et al. How relevant is the irrelevant data: leveraging the tagging data for a learning-to-rank model
CN102375883B (zh) 字体匹配
Carrasco et al. Laconic image classification: Human vs. machine performance
US11307809B2 (en) Information processing device, learning device, and storage medium storing learnt model
Yue et al. User interfaces for high-dimensional design problems: from theories to implementations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees