JP2014229317A

JP2014229317A - １つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム

Info

Publication number: JP2014229317A
Application number: JP2014106720A
Authority: JP
Inventors: チャトパディヤエタヌシャム; Chattopadhyay Tanushyam; ヴェンパダレディラム; Vempada Reddy Ramu; ガラインウタパル; Garain Utpal
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2014-12-08
Also published as: US9275307B2; CN104182770B; JP2016184412A; EP2806374B1; EP2806374A1; JP6099793B2; CN104182770A; US20140348420A1

Abstract

【課題】処理用画像の仕様変化に合わせて適切なアルゴリズムを自動的に選択するシステムを提供する。
【解決手段】受信モジュール２１２は、トレーニング画像を受信し、画像処理モジュール２１４は、受信した画像を複数のセグメントに分割し、さらに事前に保存されている画像処理アルゴリズムを、画像セグメントのそれぞれに対して実行する。比較モジュール２１６は、画像処理アルゴリズム出力を所定のしきい画像処理出力スコアと比較し、記録モジュール２１８は、画像処理アルゴリズムを、対応する画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録する。マッチングモジュール２２０は、新たに送られてくる前処理済みテスト画像（ターゲットとされる画像）に対し、記録されている前記トレーニングペアから、１つ以上の潜在的にマッチングする画像処理アルゴリズムを選択する。
【選択図】図３

Description

本出願は、２０１３年５月２４日出願のインド国特許出願第１８４０／ＭＵＭ／２０１３号の優先権を主張する。

本明細書において説明される発明は、画像処理一般に関し、より具体的には、１つ以上の画像処理アルゴリズムの自動選択に関する。

画像処理は、写真またはビデオフレーム等の画像の処理を含み、処理の出力として、処理済み画像や画像に関連する特徴やパラメーターのセットを生成する。

画像の処理は、２値化、ページ分割、スキュー補正、文字認識、ページレイアウト分析のような様々なタスクを含む。これらタスクは、市場において利用可能な様々な従来既知のアルゴリズムによって達成される。しかしながら、大きな問題が、イントラ画像変化(intra image variation:１フレーム（画面）内での画像変化等)がある場合に生じている。その問題とは、単一のアルゴリズムでは、許容可能または所望の結果を生成できないことである。さらに、既知の単一のアルゴリズムは、全ての条件下において画像を良好に処理することができない。

さらに、従来のアプローチでは、所望の処理済み画像を取得するため、アルゴリズムや技術、およびそれらの対応するパラメーターがユーザーフィードバックに基づいて選択される。従来のアプローチの主たる制限は、そのアプローチが人手による介入を含むことにある。人手による介入は、システムを低速にさせ、最終的に取得される結果を人間の認識に対してセンシティブにしてしまう。機械学習を用いた画像処理に対し、適したアルゴリズムを提案する様々なアプローチが存在するが、それにも関わらず、それらアプローチは、イントラ画像変化における課題に対応していない。したがって、複数のアルゴリズムから、処理中に画像の仕様にマッチングする１つ以上のアルゴリズムを自動特定することに対するニーズが存在している。本発明の特定の実施形態は、以下に説明される説明および図から明確となるこれらニーズおよび他の目的を満たすことを目的としている。

本概要は、１つ以上の画像処理アルゴリズムの自動選択のためのシステムおよび方法に関する複数の様態を説明するために提供される。該様態は、以下の詳細な説明においてさらに説明される。本概要は、クレームされた発明の本質的特徴を特定する意図はなく、クレームされた発明の範囲を決定または限定するために用いられる意図もない。

実施形態の１つにおいて、画像処理用の１つ以上の事前に保存されている画像処理アルゴリズムの自動選択のための画像処理システムが開示される。画像処理システムは、プロセッサーと、前記プロセッサーに接続されたメモリーとを有する。前記プロセッサーは、前記メモリー内に存在する複数のモジュールを実行する。前記複数のモジュールは、受信モジュールと、画像処理モジュールと、比較モジュールと、記録モジュールと、マッチングモジュールとを含む。前記受信モジュールは、少なくとも１つの画像（トレーニング画像）を受信するよう構成されている。前記画像処理モジュールは、受信した前記画像を複数の画像セグメントに分割するよう構成されている。前記画像処理モジュールは、さらに、複数の画像処理アルゴリズム出力を取得するために、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを、前記画像セグメントのそれぞれに対して実行するよう構成されている。一方、前記比較モジュールは、前記画像処理アルゴリズム出力のそれぞれを、所定のしきい画像処理出力スコアと比較するよう構成されている。前記記録モジュールは、画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録するよう構成されている。前記マッチングモジュールは、送られてくる（incoming）前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、記録されている前記トレーニングペアから、１つ以上の潜在的にマッチングする画像処理アルゴリズムを選択するよう構成されている。

実施形態の１つにおいて、画像処理環境内において１つ以上のアルゴリズムを自動的に選択するためのコンピューター実施方法が開示される。この方法は、少なくとも１つの画像（トレーニング画像）を受信する工程を含む。前記受信された画像は、複数の画像セグメントに分割される。次の工程において、複数の画像処理アルゴリズム出力を取得するために、前記画像セグメントのそれぞれに対し、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムが実行される。さらに、前記画像処理アルゴリズム出力のそれぞれは、所定のしきい画像処理出力スコアと比較される。前記所定のしきい画像処理出力スコアを超える前記画像処理アルゴリズムのそれぞれ用に、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、前記画像処理アルゴリズムがトレーニングペアとして記録される。次の工程において、送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、記録されている前記トレーニングペアから、１つ以上の潜在的にマッチングする画像処理アルゴリズムが選択される。

添付の図を参照して、詳細な説明が記述される。図中に示された各参照番号の左端の数字は、その参照番号が最初に現れる図を表している。各図において、同様の特徴およびコンポーネントは、同じ番号を用いて参照される。

図１は、本発明の実施形態に係る画像処理システムのネットワーク実施を示す。

図２は、本発明の実施形態に係る画像処理システムを示す。

図３は、本発明の実施形態に係る画像処理システムのブロック図を示す。

図４は、本発明の実施形態に係る画像処理環境内において１つ以上のアルゴリズムを自動的に選択するための方法を示す。

図５は、本発明の実施形態に係る前処理済みテスト画像を取得するための方法を示す。

図６は、本発明の実施形態に係る画像処理のフローチャートを示す。

図７は、本発明の実施形態に係る例示的な画像処理システムおよびその動作を示す。

図８は、本発明の実施形態に係る画像処理システムの結果を示す。

画像処理環境内において１つ以上のアルゴリズムを自動的に選択するためのシステムおよび方法が開示される。

実施形態の１つにおいて、画像処理システムは、プロセッサーと、プロセッサーに接続されたメモリーとを含む。プロセッサーは、メモリー内に存在する複数のモジュールを実行する。複数のモジュールは、受信モジュールと、画像処理モジュールと、比較モジュールと、記録モジュールと、マッチングモジュールとを含む。受信モジュールは、少なくとも１つの画像（トレーニング画像）を受信するよう構成されている。画像処理モジュールは、画像を、複数の画像セグメントに分割するよう構成されている。画像処理モジュールは、さらに、複数の画像処理アルゴリズム出力を取得するため、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを用いて、画像セグメントのそれぞれに対し、画像処理を実行するよう構成されている。一方、比較モジュールは、画像処理アルゴリズム出力のそれぞれを、所定のしきい画像処理出力スコアと比較するよう構成されている。記録モジュールは、画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録するよう構成されている。マッチングモジュールは、送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、記録されているトレーニングペアから（記録されているトレーニングペアを参照して）、１つ以上の潜在的にマッチングする画像処理アルゴリズムをマッチングするよう構成されている。

実施形態の１つにおいて、画像（トレーニング画像）は、画像処理システムによって受信される。受信された画像は、分割用の既知のアルゴリズムを用いて、複数のセグメントに分割される。複数の事前に保存されているアルゴリズムは、この複数のセグメントに適用することができる。さらに、アルゴリズムを実行することによって得られた各結果は、所定のしきい画像処理出力スコアと比較される。次の工程において、所定のしきい画像処理出力スコアを超える画像処理アルゴリズムのそれぞれに対し、画像処理アルゴリズムは、対応する１つ以上の画像セグメントおよびそれらの関連する特徴ベクトルと併せて、トレーニングペアとして記録される。さらに、送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、トレーニングペアから、１つ以上の潜在的にマッチングする画像処理アルゴリズムが選択される。

実施形態の１つにおいて、前処理済みテスト画像は、複数の画像セグメント（テスト画像セグメント）にさらに分割されるテスト画像を受信することによって取得される。その後、複数の特徴（特徴ベクトル）は、前記複数の画像セグメントから抽出される。

説明された画像処理環境内において１つ以上のアルゴリズムを自動的に選択するためのシステムおよび方法の様態は、任意の数の異なる演算システム、環境および／または構成によって実施することができるが、実施形態は、以下の例示的なシステムの文脈において、説明される。

参照される図１には、本発明の実施形態に係る画像処理環境内において１つ以上のアルゴリズムを自動的に選択するための画像処理システム１０２のネットワーク実施１００が示されている。実施形態の１つにおいて、画像処理システム１０２は、画像（トレーニング画像）を受信するよう構成されている。受信された画像は、分割用の既知のアルゴリズムを用いて、複数のセグメントに分割される。複数の事前に保存されているアルゴリズムは、それら複数のセグメントに適用される。さらに、これらアルゴリズムを実行することによって得られた結果のそれぞれは、しきい画像処理出力スコアと比較される。次の工程において、所定のしきい画像処理出力スコアを超える画像処理アルゴリズムのそれぞれに対し、画像処理アルゴリズムは、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録される。さらに、送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、記録されているトレーニングペアから１つ以上の潜在的にマッチングする画像処理アルゴリズムが選択される。

画像処理システム１０２は、サーバー上に実施されているものとして、本発明は説明されるが、画像処理システム１０２は、ラップトップコンピューター、デスクトップコンピューター、ノートパソコン、ワークステーション、メインフレームコンピューター、サーバー、ネットワークサーバー等の様々な演算システムにおいて実施してもよいことを理解されたし。画像処理システム１０２は、以下集合的にユーザー１０４と称される１つ以上のユーザーデバイス１０４−１、１０４−２…１０４−Ｎを介したユーザー、またはユーザーデバイス１０４上に駐在するアプリケーションによってアクセスされてもよいことを理解されたし。これらに限定されるものではないが、ユーザーデバイス１０４の例として、ポータブルコンピューター、ＰＤＡ（Personal Digital Assistant）、ハンドヘルドデバイス、ワークステーションが挙げられる。ユーザーデバイス１０４は、ネットワーク１０６を介して、画像処理システム１０２に通信可能に接続されている。

実施形態の１つにおいて、ネットワーク１０６は、無線ネットワーク、有線ネットワークまたはこれらの組み合わせであってもよい。ネットワーク１０６は、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット等のような異なるタイプのネットワークのいずれか１つとして実施することができる。ネットワーク１０６は、専用ネットワークまたは共有ネットワークのいずれであってもよい。共有ネットワークは、異なるタイプのネットワークの接続を表す。異なるタイプのネットワークの接続は、例えば、ハイパーテキストトランスファープロトコル（ＨＴＴＰ）、トランスミッションコントロールプロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ワイヤレスアプリケーションプロトコル（ＷＡＰ）等の様々なプロトコルを使用し、互いに通信を行う。さらに、ネットワーク１０６は、ルーター、ブリッジ、サーバー、演算デバイス、ストレージデバイス等を含む様々なネットワークデバイスを含んでいてもよい。

参照される図２には、本発明の実施形態に係る画像処理システム１０２が示されている。実施形態の１つにおいて、画像処理システム１０２は、少なくとも１つのプロセッサー２０２と、入出力（Ｉ／Ｏ）インターフェース２０４と、メモリー２０６とを含む。少なくとも１つのプロセッサー２０２は、１つ以上のマイクロプロセッサー、マイクロコンピューター、マイクロコントローラー、デジタル信号プロセッサー、中央演算装置（ＣＰＵ）、状態機械（state machine）、論理回路および／または操作命令に基づいて信号を操作する任意のデバイスとして、実施することができる。他の機能として、少なくとも１つのプロセッサー２０２は、メモリー２０６内に保存されているコンピューター可読命令をフェッチ（fetch:メモリーから命令を持ってくること）および実行するよう構成されている。

Ｉ／Ｏインターフェース２０４は、例えば、ウェブインターフェース、グラフィカルユーザーインターフェース（ＧＵＩ）等の様々なソフトウェアおよびハードウェアインターフェースを含む。Ｉ／Ｏインターフェース２０４は、画像処理システム１０２が、ユーザーと直接に、または、クライアントデバイス１０４を介して相互通信することを可能とする。さらに、Ｉ／Ｏデバイス２０４は、画像処理システム１０２が、ウェブサーバーや外部データサーバー（図示せず）等の他の演算デバイスと通信することを可能とする。Ｉ／Ｏインターフェース２０４は、有線ネットワーク（例えば、ＬＡＮやケーブル等）や無線ネットワーク（ＷＬＡＮ、携帯電話、衛星等）を含む幅広い種類のネットワークおよびプロトコルタイプ内における多重通信を容易とすることができる。Ｉ／Ｏインターフェース２０４は、多数のデバイスを互いに、または他のサーバーに接続するための１つ以上のポートを含む。

メモリー２０６は、例えば、揮発性メモリー（静的ランダムアクセスメモリー（ＳＲＡＭ）や動的ランダムアクセスメモリー（ＤＲＡＭ）等）および／または不揮発性メモリー（リードオンリーメモリー（ＲＯＭ）、消去可能プログラム可能ＲＯＭ、フラッシュメモリー、ハードディスク、光ディスク、磁気テープ等）を含む本分野において既知の任意のコンピューター可読媒体を含む。メモリー２０６は、モジュール２０８と、データ２１０とを含む。

モジュール２０８は、特定のタスクを実行または特定の抽象データタイプ（abstract data type）をインプリメント（implement）するルーティーン（routine:ある限定されたタスクを実行するプログラム）、プログラム、オブジェクト、コンポーネント、データ構造等を含む。実施形態の１つにおいて、モジュール２０８は、受信モジュール２１２と、画像処理モジュール２１４と、比較モジュール２１６と、記録モジュール２１８と、マッチングモジュール２２０と、その他モジュール２２２とを含む。その他モジュール２２２は、画像処理システム１０２のアプリケーションおよびファンクションを補完するプラグラムまたはコード化された命令を含む。

特に、データ２１０は、その他要素の中でも、１つ以上のモジュール２０８によって、処理され、受信され、生成されたデータを保存するためのレポジトリ（repository:データ、情報、プログラム等を保存するシステム内のデータベース）として機能する。また、データ２１０は、受信データベース２２４と、画像処理データベース２２６と、比較データベース２２８と、記録データベース２３０と、マッチングデータベース２３２と、その他データベース２３４とを含む。その他データベース２３４は、その他モジュール２２２内の１つ以上のモジュールの実行結果として生成されるデータを含む。

実施形態の１つにおいて、ユーザーは、Ｉ／Ｏインターフェース２０４を介して画像処理システム１０２にアクセスするため、クライアントデバイス１０４を使用する。ユーザーは、画像処理システム１０２を使用するため、Ｉ／Ｏインターフェース２０４を用いて、自身を登録（本人登録）することができる。画像処理システム１０２の動作は、以下に説明される図３および図４において、詳細に説明される。画像処理システム１０２は、画像処理環境内において１つ以上のアルゴリズムを自動的に選択するために用いることができる。画像処理システム１０２の実際の動作は、以下のセクションにおいて説明される。

参照する図３には、本発明の実施形態に係る画像処理システム１０２の詳細な動作を説明するブロック図３００が示されている。

実施形態の１つにおいて、モジュール２０８は、特定のタスクを実行または特定の抽象データタイプをインプリメントするルーティーン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。実施形態の１つにおいて、モジュール２０８は、受信モジュール２１２と、画像処理モジュール２１４と、比較モジュール２１６と、記録モジュール２１８と、マッチングモジュール２２０と、その他モジュール２２２とを含む。その他モジュール２２２は、画像処理システム１０２のアプリケーションおよびファンクションを補完するプログラムまたはコード化された命令を含む。

受信モジュール２１２
実施形態の１つにおいて、受信モジュール２１２は、処理を施すための複数の画像（トレーニング画像）を受信するよう構成されている。受信モジュール２１２によって受信された画像は、画像処理システム１０２と相互通信する様々なデバイス１０４から取得される。

実施例の１つにおいて、受信された画像は、ＪＰＥＧ／ＪＦＩＦ画像、ＪＰＥＧ２０００画像、Ｅｘｉｆ画像、ＴＩＦＦ画像、ＲＡＷ画像等を含むがこれらに限定されないファイル形式である。

実施形態の１つにおいて、受信モジュール２１２は、デバイス１０４から、前処理済み画像（ターゲットとされる画像）を受信する。前処理済み画像は、画像（ターゲットとされる画像）から抽出された複数の特徴（特徴ベクトル）を含むがこれに限定されない。

実施例の１つにおいて、前処理済み画像は、テスト画像を受信し、受信したテスト画像を複数の画像セグメント（テスト画像セグメント）に分割することによって取得される。複数の画像セグメントは、複数の特徴（特徴ベクトル）を抽出するためにさらに利用される。

実施形態の１つにおいて、受信モジュール２１２に関連するデータは、受信データベース２２４内に保存される。実施例の１つにおいて、受信データベース２２４は、処理用に受信された複数の画像と、前処理済み画像と、複数の画像から抽出された複数の特徴を含むがこれに限定されない。

画像処理モジュール２１４
実施形態の１つにおいて、画像処理モジュール２１４は、受信した画像（トレーニング画像）を複数の画像セグメントに分割するよう構成されている。さらに、画像処理モジュール２１４は、複数の画像処理アルゴリズム出力を取得するために、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを、画像セグメントのそれぞれに対して実行するよう構成されている。

実施形態の１つにおいて、画像処理モジュール２１４は、画像処理システム１０２内に事前に保存されている既知の分割方法を用いて、受信した画像を複数の画像セグメントに分割する。実施例の１つにおいて、既知の分割方法は、しきい値処理方法（thresholding method）、クラスタリング方法（clustering method）、圧縮ベース方法（compression-based method）等を含むがこれに限定されない。

実施形態の１つにおいて、複数の画像セグメントは、重複セグメント（overlapping segments）、非重複セグメント(non-overlapping segments)またはこれらの組み合わせを含むがこれに限定されない。これら画像セグメントは、さらに、複数の画像処理アルゴリズム出力を取得するために、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを用いて、処理される。

実施例の１つにおいて、１つ以上の事前に保存されているアルゴリズムは、２値化アルゴリズム、ノイズ低減アルゴリズム、分割アルゴリズム（segmentation algorithms）、文字認識アルゴリズム、ページレイアウト検出、ページレイアウト分割および本分野において既知で既存の任意の画像処理アルゴリズムを含むがこれに限定されない。

実施例の１つにおいて、処理によって取得される複数の画像処理アルゴリズム出力は、各領域に対し予測されたアルゴリズムに従って、同じ画像の複数の異なる領域を含んでいてもよい。別の実施例において、複数の画像処理アルゴリズム出力は、画像や、画像に関連する特徴またはパラメーターのセットを含んでいてもよい。

実施形態の１つにおいて、画像処理モジュール２１４に関連するデータは、画像処理データベース２２６内に保存される。実施例の１つにおいて、画像処理データベース２２６は、複数の既知の分割方法、複数の画像処理アルゴリズム、複数の画像セグメント等を含むがこれに限定されない。

比較モジュール２１６
実施形態の１つにおいて、比較モジュール２１６は、画像処理アルゴリズム出力のそれぞれを、所定のしきい画像処理出力スコアと比較するよう構成されている。画像処理モジュール２１６から取得された出力は、所定のしきい画像処理出力スコアと比較される。

実施例の１つにおいて、画像処理モジュール２１６から取得された出力は、グランドトゥルース(GT (Ground Truth):航空写真のような平面画像に現れる識別対象物の実際のデータ)と比較される。ＧＴは、人手によって注釈を入れられたデータまたは本分野において既知の任意のＧＴ技術を含むがこれに限定されない技術を用いて算出される。

実施形態の１つにおいて、比較モジュール２１６は、所定のしきい画像処理出力スコアを、各トレーニングペア用の特徴であるグランドトゥルースとして決定する。さらに、比較モジュール２１６に関連するデータは、比較データベース２２８内に保存される。実施例の１つにおいて、比較データベース２２８は、画像処理アルゴリズム出力、所定のしきい画像処理出力スコア、グランドトゥルース（ＧＴ）等を含むがこれに限定されない。

記録モジュール２１８
実施形態の１つにおいて、記録モジュール２１８は、比較モジュール２１６の出力に基づいて、画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録するよう構成されている。

実施形態の１つにおいて、画像処理アルゴリズムは、対応する１つ以上の画像セグメントと共に、比較モジュール２１６から取得される。１つ以上の画像セグメントに関連する関連特徴ベクトルは、各セグメントに対し、画像モーメント特徴を抽出することにより取得される。画像モーメント特徴は、画像セグメントに対応する平均(mean)、分散およびスキュー（skew:画像歪み）を含む。さらに、特徴ベクトルは、各画像セグメント用の画像モーメント特徴に基づいて形成される。特徴ベクトルは、ＨＳＶ量子化や本分野において既知の任意の技術を用いて取得される。実施例の１つにおいて、長さの特徴ベクトル２６５は、受信された画像のそれぞれから抽出される。

実施形態の１つにおいて、トレーニングペアは、対応する１つ以上の画像セグメントと併せて、画像処理アルゴリズムを含むがこれに限定されない。

実施形態の１つにおいて、記録モジュール２１８に関連するデータは、記録データベース２３０内に保存される。実施形態の１つにおいて、記録データベース２３０は、画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録していて（含んでいて）もよく、または、各トレーニングペア用の特徴として決定されたグランドトゥルース（ＧＴ）等を記録していてもよいがこれに限定されない。

マッチングモジュール２２０
実施形態の１つにおいて、マッチングモジュール２２０は、送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、トレーニングペアから、１つ以上の潜在的にマッチングする画像処理アルゴリズムをマッチングするよう構成されている。前処理済みテスト画像は、テスト画像（ターゲットとされる画像）を受信し、受信したテスト画像を複数の画像セグメント（テスト画像セグメント）に分割することにより取得される。複数の画像セグメントは、複数の特徴（特徴ベクトル）を抽出するためにさらに利用される。

実施形態の１つにおいて、セグメントからの複数の特徴は、本分野における当業者によく知られている方法によって抽出される。しかしながら、開示される本発明は、本分野における当業者によく知られている他の画像分割方法を含んでいてもよいことを理解されたし。

実施例の１つにおいて、受信された画像は、ＪＰＥＧ／ＪＦＩＦ画像、ＪＰＥＧ２０００画像、Ｅｘｉｆ画像、ＴＩＦＦ画像、ＲＡＷ画像等を含むがこれに限定されないファイル形式である。

実施形態の１つにおいて、画像前処理は、画像処理システム１０２内またはデバイス１０４において実行される。

実施形態の１つにおいて、マッチングモジュール２２０に関連するデータは、マッチングデータベース２３２内に保存される。実施例の１つにおいて、マッチングデータベース２３２は、前処理済みテスト画像、画像処理アルゴリズム等を含むがこれに限定されない。

参照する図４には、本発明の実施形態に係る画像処理環境内において１つ以上のアルゴリズムを自動的に選択するための方法が示されている。

方法４００は、コンピューター実行可能命令の一般的コンテキストの形態で説明される。一般的に、コンピューター実行可能命令は、特定の機能を実行または特定の抽象データタイプをインプリメントするルーティーン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ（procedure）、モジュール、ファンクション等を含むことができる。また、方法４００は、配布された演算環境内において実行される。演算環境内において、機能は、通信ネットワークを介してリンクされたリモート処理デバイスによって実行される。配布された演算環境内において、コンピューター実行可能命令は、メモリーストレージデバイス等のローカルおよびリモートコンピューターストレージ媒体の双方内に位置することができる。

方法４００の説明での順番は、限定を構成する意図はなく、任意の数の説明される方法のブロックが任意の順番で組み合され、方法４００またはその他方法を実施することができる。さらに、各ブロックは、ここに説明される発明の原理および範囲から有意に離れることのない限り、方法４００から省略することができる。さらに加えて、本方法は、任意の適したハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせ内において実施することができる。しかしながら、説明の簡略化のため、以下に説明する本実施形態では、方法４００は、上述の画像処理システム１０２内で実施されているものとする。

ブロック４０２において、少なくとも１つの画像（トレーニング画像）が受信される。受信された画像は、画像処理システム１０２と相互通信している様々なデバイス１０４から取得される。

ブロック４０４において、受信した画像は、複数の画像セグメントに分割される。画像の分割は、本分野において既知で既存の任意の画像分割技術を用いて実行される。しかしながら、開示される本発明は、本分野における当業者によく知られている画像分割の他の方法を含んでもよいことを理解されたし。

ブロック４０６において、複数の画像処理アルゴリズム出力を取得するため、画像セグメントのそれぞれに対し、複数の画像処理アルゴリズムから少なくとも１つの事前に保存されているアルゴリズムが実行される。実施例の１つにおいて、画像処理アルゴリズムは、２値化アルゴリズム、ノイズ低減アルゴリズム、分割アルゴリズム、文字認識アルゴリズムを含むがこれに限定されない。

ブロック４０８において、画像処理アルゴリズム出力は、所定のしきい画像処理出力スコアと比較される。実施例の１つにおいて、所定のしきい画像処理出力スコアは、各トレーニングペア用の特徴であるグランドトゥルース（ＧＴ）である。

ブロック４１０において、画像処理アルゴリズムは、対応する画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録される。実施形態の１つにおいて、１つ以上の画像セグメントに関連する関連特徴ベクトルは、画像セグメントのそれぞれの画像モーメント特徴を抽出することにより取得される。画像モーメント特徴は、画像セグメントに対応する平均、分散およびスキューを含む。さらに、特徴ベクトルは、画像セグメントのそれぞれの画像モーメント特徴に基づいて、形成される。特徴ベクトルは、ＨＳＶ量子化を用いて取得される。

ブロック４１２において、さらなる処理のために送られてくる前処理済みテスト画像（ターゲットとされる画像）のそれぞれに対し、記録されているトレーニングペアからマッチングする画像処理アルゴリズムが選択される。実施形態の１つにおいて、前処理済みテスト画像は、テスト画像を受信し、受信したテスト画像を複数の画像セグメント（テスト画像セグメント）に分割することによって取得される。複数の画像セグメントは、複数の特徴（特徴ベクトル）を抽出するためにさらに利用される。前処理済みテスト画像のそれぞれに潜在的にマッチングする画像処理アルゴリズムの選択は、（前処理済み）テスト画像のテスト画像セグメントおよび該テスト画像セグメントから抽出された特徴ベクトルと、記録されているトレーニングペアの画像セグメントおよび関連特徴ベクトルとをマッチングすることによって実行される。

参照する図５には、本発明の実施形態に係る前処理済みテスト画像を取得するための方法５００が示されている。方法５００は、画像処理システム１０２内またはデバイス１０４内において実行される。

ステップ５０２において、テスト画像（ターゲットとされる画像）が受信される。実施例の１つにおいて、受信された画像は、ＪＰＥＧ／ＪＦＩＦ画像、ＪＰＥＧ２０００画像、Ｅｘｉｆ画像、ＴＩＦＦ画像、ＲＡＷ画像等を含むがこれに限定されないファイル形式である。

ステップ５０４において、受信されたテスト画像は、複数の画像セグメント（テスト画像セグメント）に分割される。実施例の１つにおいて、分割は、本分野において既知で既存の任意の画像分割技術によって実行される。しかしながら、開示される本発明は、本分野における当業者によく知られている他の画像分割方法を含んでいてもよいことを理解されたし。

ステップ５０６において、複数の画像セグメントは、複数の特徴（特徴ベクトル）を抽出するために、さらに利用される。実施例の１つにおいて、抽出は、本分野において既知で既存の任意の画像抽出技術によって実行される。しかしながら、開示される本発明は、本分野における当業者によく知られている他の画像抽出方法を含んでいても良いことは理解されたし。

参照される図６には、本発明の実施形態に係る画像処理のフローチャートが示されている。

実施形態の１つにおいて、画像（トレーニング画像）が、画像処理システムによって受信される。受信された画像は、既知の分割用アルゴリズムを用いて、複数のセグメントに分割される。複数の事前に保存されているアルゴリズムは、複数のセグメントにそれぞれ適用され、複数の画像処理アルゴリズム出力が取得される。さらに、複数の画像処理アルゴリズム出力のそれぞれ（すなわち、アルゴリズムの結果のそれぞれ）は、グランドトゥルース（ＧＴ）である所定のしきい画像処理出力スコアと比較される。次の工程において、所定のしきい画像処理出力スコアを超える画像処理出力を有する画像処理アルゴリズムのそれぞれが記録される。このとき、その画像処理アルゴリズムが、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録される。

さらに、少なくとも１つのテスト画像（ターゲットとされる画像）が、画像処理システムによって受信される。受信されたテスト画像は、既知の分割用アルゴリズムを用いて、複数のセグメント（テスト画像セグメント）に分割される。既知の抽出アルゴリズムを用いて、テスト画像のそれぞれの画像セグメントから、複数の特徴（特徴ベクトル）が抽出される。最後に、送られてくる前処理済み（特徴抽出された）テスト画像のテスト画像セグメントおよび該テスト画像セグメントに関連する特徴ベクトルと、記録されている１つ以上の画像セグメントおよび記録されている画像セグメントに関連する特徴ベクトルとをマッチングすることにより、送られてくる前処理済みテスト画像のそれぞれに対し、１つ以上の潜在的にマッチングする画像処理アルゴリズムが選択される。

このフローチャートの詳細な動作が図７に示されている。

参照される図７には、本発明の実施形態に係る例示的な画像処理システムと、その動作が示されている。

Ｔ＝｛ｔ_１，ｔ_２......ｔ_ｎ｝が、ｎ個のトレーニング画像のセットであるとする。各トレーニング画像ｔ_ｉ用に、光学式文字認識（ＯＣＲ’ｓ）出力が取得される。Ａは、ｍ個の２値化アルゴリズムのセットＡ＝｛ａ_１，ａ_２．．．．ａ_ｍ｝であり、これらは、画像処理システム内に事前に保存されている。各画像は、ｋ個の（重複したまたは非重複の）セグメント（ｓ_１，ｓ_２．．．．．ｓ_ｋ）に分割される。すなわち、以下の式が成立する。

さらに、ｍ個のアルゴリズムのそれぞれは、ｋ個のセグメントのそれぞれに対し適用される。ｒ_ｉｊを、アルゴリズムａ_ｊをセグメントｓ_ｉに対して適用した結果の２値化を示すものとする。画像全部の２値化は、以下の式によって取得される。

ここで、ｊは１からｍまで変動可能であるので、１つのトレーニング画像に対し、ｋ^ｍ個の異なる２値化結果が存在する。

実施例の１つにおいて、ＯＣＲは、これらｋ個のセグメントのｋ^ｍ個の画像（２値化結果）のそれぞれを認識し、複数のＯＣＲ出力（ｏ_１，ｏ_２．．．．．．ｏ_ｋ ^ｍ）を生成する。これらｏ_ｉのそれぞれは、その後、対応するグランドトゥルース（ＧＴ）ｇ_ｉと比較される。このとき、マッチングが見つけられたのであれば、それはすなわち、ｏ_ｉを生成する一連のアルゴリズムは、ｋ個のセグメントに対して適用されるｋ個の２値化アルゴリズム（ｋ個のアルゴリズム全てが必ずしも区別可能(distinct)である必要はない）の正しいセット（right set）である。Ｂ＝｛ｂ_１，ｂ_２．．．．．ｂ_ｋ｝を、ｋ個のセグメント（ｓ_１，ｓ_２．．．．．ｓ_ｋ）に適用されるこれらｋ個のアルゴリズムのセットとする。実施形態の１つにおいて、２値化アルゴリズムは、大津手法（Otsu’s method）、Ｓａｖｏｕｌａ手法（Savoula method）、Ｎｉｂｌａｃｋ手法（Niblack method）、Ｗｏｌｆ２値化技術（Wolf Binarization Technique）等を含むがこれに限定されない。

ここで、全てｂ_ｉ∈Ａであり、ｂ_ｉはｂ_ｊと等しくともよい（ここで、ｉ≠ｊ）。したがって、ｂ_ｉとｓ_ｉとの間には１対１対応が成立し、ｂ_ｉがｓ_ｉの２値化用の正しいアルゴリズムであると判断することができる。

上記構造は、トレーニングペア＜画像セグメント，２値化アルゴリズム＞、すなわち、＜ｓ_ｉ，ｂ_ｉ＞を生成するために用いられる。（ｂ_１，ｂ_２．．．．．．．ｂ_ｋ）のそれぞれは、出力を生成する経路としてみなすことができ、ｍ^ｋ個のそのような経路が存在する。このモデルは、そのＯＣＲ出力が適切である（correct）ことを判断するための複数の最終画像を生成する。したがって、単一のトレーニング画像から、適切なＯＣＲ結果を与える複数の経路を取得することができる。これら経路の全てが、トレーニングインスタンス（training instance）を生成するために参照される。この処理が、図７に説明されている。ＧＴは、グランドトゥルースを表し、チェックマークは、適切なＯＣＲ出力を生成する経路に対応しており、バツマークは、誤ったＯＣＲ出力を生成する経路を示している。誤ったＯＣＲ出力を生成する経路は、トレーニングデータを準備する際、無視される。

実施例の１つにおいて、機械学習アルゴリズム（例えばＳＶＭ）に従ってマシーン（機械）をトレーニングするため、次に、各ｓ_ｉ（画像セグメントを表す）は、対応する特徴ベクトルｆ_ｉとなる。そのため、最終的に＜ｆ_ｉ，ｂ_ｉ＞ペアがトレーニングのために用いられる。

実施例の１つにおいて、特徴ベクトルは、画像セグメントのそれぞれ用の画像モーメント特徴に基づいて取得される。画像モーメント特徴は、画像セグメント（ｓ_ｘｙ）に対応する平均（Ｅ_ｘ）と、分散（σ_ｘ）と、スキュー（Ｚ_ｘ）とを含む。これら特徴は、以下の式を用いて抽出される。

実施例の１つにおいて、特徴ベクトルは、ＨＳＶ量子化を用いて取得される。

さらに、トレーニングデータは、各セグメントに対し＜ｆ_ｉ，ｂ_ｉ＞ペアを生成することによって構築される。ここで、ｆ_ｉは、特徴ベクトルである。

処理用にアルゴリズムを自動的に選択するため、テスト画像（ターゲットとされる画像）が受信される。画像処理システムは、テスト画像をｋ個のセグメント（テスト画像セグメント）に分割し、ｋ個のセグメントのそれぞれ用の対応する２値化アルゴリズムを予測する。各画像セグメントから特徴（特徴ベクトル）が抽出され、ＳＶＭによって（各画像セグメントに対するアルゴリズムの）予測が実行される。ＳＶＭは、前もって準備されたトレーニングデータセットでトレーニングされている。次に、各画像セグメントが、予測されたアルゴリズムを用いて２値化される。テスト画像の最終２値バージョンは、それらのセグメントに対し２値化された画像の論理和（ORing）をシンプルに実行することにより取得される。

実施例の１つにおいて、このモデルの目標指向の評価（goal directed evaluation）は、テスト画像の２値バージョンを読むためのＯＣＲを用いて実行される。ＯＣＲ結果が、テスト画像に対応するグランドトゥルースとマッチングするのであれば、該テスト画像用の正しい２値化戦略の予測が成功したものとみなすことができる。

参照する図８には、本発明の実施形態に係る画像処理システムの結果が示されている。

図８は、３つの画像を示している。左側コラムには、適用時に適切なＯＣＲをもたらす２値化アルゴリズムがなかった場合の画像が示されている。右側コラムには、適切なＯＣＲ出力を実現するために、提案の発明である画像処理システムによって得られた出力が示されている。

上記発明の主たる利点は、複数の事前に保存されているアルゴリズムから、画像の仕様にマッチングする１つ以上のアルゴリズムを、処理中に自動的に特定できることにある。

本発明の別の利点は、イントラ画像変化が存在し、単一のアルゴリズムが許容可能な結果を生成できない場合であっても、効率的に動作できることにある。

本発明の別の利点は、システムを低速にさせ、最終的に取得される結果を人間の認識に対してセンシティブにしてしまう人手による介入を減らせるので、効率的かつ高速であることにある。

本発明の別の利点は、イントラ画像変化に対しても有効な、機械学習アプローチを用いた画像処理用に適したアルゴリズムを提供できることにある。

本発明の別の利点は、従来の画像処理システムにおける時間浪費が、上述の自動プロセスによって、劇的に減少することにある。

画像処理用の自動アルゴリズム選択のための方法およびシステムの実施は、構造的特徴および／または方法に特有の用語によって説明されたが、添付の請求項は、説明された特定の特徴または方法に必ずしも限定されないことは理解されたし。つまり、特定の特徴および方法は、画像処理用の自動アルゴリズム選択の実施の例として説明された。

Claims

画像処理環境内において１つ以上のアルゴリズムを自動的に選択するためのコンピューター実施される方法であって、
少なくとも１つの画像を受信する工程と、
受信された前記画像を複数の画像セグメントに分割する工程と、
複数の画像処理アルゴリズム出力を取得するために、前記画像セグメントのそれぞれに対し、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを実行する工程と、
前記画像処理アルゴリズム出力のそれぞれを、所定のしきい画像処理出力スコアと比較する工程と、
前記所定のしきい画像処理出力スコアを超えた前記画像処理アルゴリズムのそれぞれに対し、前記画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録する工程と、
送られてくる前処理済みテスト画像に対し、前記トレーニングペアから１つ以上の潜在的にマッチングする画像処理アルゴリズムを選択する工程と、を含むことを特徴とする方法。
前記前処理済みテスト画像は、
テスト画像を受信する工程と、
受信された前記テスト画像を複数の画像セグメントに分割する工程と、
前記複数の画像セグメントから複数の特徴を抽出する工程と、を経て取得される請求項１に記載のコンピューター実施される方法。
前記複数の画像セグメントは、重複セグメント、非重複セグメントまたはこれらの組み合わせを含む請求項１に記載のコンピューター実施される方法。
前記複数の画像処理アルゴリズムは、２値化アルゴリズム、ノイズ低減アルゴリズム、分割アルゴリズム、文字認識アルゴリズム、ページレイアウト検出、ページレイアウト分割またはこれらの組み合わせを含む請求項１に記載のコンピューター実施される方法。
前記特徴ベクトルは、
前記画像セグメントのそれぞれの画像モーメント特徴を抽出する工程と、
前記特徴ベクトルを形成する工程と、を経て取得され、
前記画像モーメント特徴は、前記画像セグメントに対応した平均、分散およびスキューを含み、
前記特徴ベクトルは、ＨＳＶ量子化等を用いて取得される請求項１に記載のコンピューター実施される方法。
前記所定のしきい画像処理出力スコアは、前記トレーニングペアのそれぞれの特徴として決定されたグランドトゥルースである請求項１に記載のコンピューター実施される方法。
画像処理環境内において１つ以上のアルゴリズムを自動的に選択するための画像処理システムであって、
プロセッサーと、
前記プロセッサーに接続されたメモリーと、を含み、
前記プロセッサーは、前記メモリー内に保存された複数のモジュールを実行可能であり、
前記複数のモジュールは、
少なくとも１つの画像を受信する受信モジュールと、
受信された前記画像を複数の画像セグメントに分割し、さらに、複数の画像処理アルゴリズム出力を取得するために、前記複数の画像セグメントのそれぞれに対し、複数の画像処理アルゴリズムから１つ以上の事前に保存されているアルゴリズムを実行するよう構成された画像処理モジュールと、
前記複数の画像処理アルゴリズム出力のそれぞれを、所定のしきい画像処理出力スコアと比較するよう構成された比較モジュールと、
前記画像処理アルゴリズムを、対応する１つ以上の画像セグメントおよび関連特徴ベクトルと併せて、トレーニングペアとして記録するよう構成された記録モジュールと、
送られてくる前処理済みテスト画像のそれぞれに対し、前記トレーニングペアから１つ以上の潜在的にマッチングする画像処理アルゴリズムを選択するよう構成されたマッチングモジュールと、を含むことを特徴とする画像処理システム。
前記画像処理モジュールは、２値化アルゴリズム、ノイズ低減アルゴリズム、分割アルゴリズム、文字認識アルゴリズム、ページレイアウト検出、ページレイアウト分割またはこれらの組み合わせから選択される１つ以上の画像処理アルゴリズムを実行することにより、受信された前記画像を処理するよう構成されている請求項７に記載の画像処理システム。
前記前処理済みテスト画像は、
テスト画像を受信する工程と、
受信された前記テスト画像を複数の画像セグメントに分割する工程と、
前記複数の画像セグメントから複数の特徴を抽出する工程と、を経て導出される請求項７に記載の画像処理システム。
前記記録モジュールは、さらに前記特徴ベクトルを取得するよう構成されており、
前記特徴ベクトルは、
前記画像セグメントのそれぞれに対し画像モーメント特徴を抽出する工程と、
前記特徴ベクトルを形成する工程と、を経て導出され、
前記画像モーメント特徴は、前記画像セグメントに対応した平均、分散およびスキューを含み、
前記特徴ベクトルは、ＨＳＶ量子化等を用いて取得される請求項７に記載の画像処理システム。
前記比較モジュールは、前記所定のしきい画像処理出力スコアを、前記トレーニングペアのそれぞれの特徴であるグランドトゥルースとして決定する請求項７に記載の画像処理システム。