JP2019215647A

JP2019215647A - 情報処理装置、その制御方法及びプログラム。

Info

Publication number: JP2019215647A
Application number: JP2018111575A
Authority: JP
Inventors: 駿人西澤; Hayato Nishizawa
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2019-12-19

Abstract

【課題】画像に含まれる対象物を適切に判別する。【解決手段】サーバ装置は、領域別プーリング特徴量を抽出する領域特徴プーリング部４０３と、全体プーリング特徴量を抽出する全体特徴プーリング部４０４と、領域特徴量プーリング部４０３により抽出された領域別プーリング特徴量と、全体特徴プーリング部４０４により抽出された全体プーリング特徴量とが結合された結合特徴量を取得する特徴量結合部４０５と、特徴量結合部４０５により取得された結合特徴量に基づき、画像に含まれる対象物を判別する属性判別部４０６と、を備える。【選択図】図４

Description

本発明は、情報処理装置、その制御方法及びプログラムに関する。

従来、取得した画像を解析して、画像に含まれる文字等の対象物を検出して認識する技術が知られている。たとえば、特許文献１には、画像に含まれる文字の前後関係（コンテキスト）を考慮して、文字等を認識するＯＣＲ（光学式文字認識）技術が開示されている。

特許第６１３８３０５号公報

たとえば数字の「０」と英字の「О」等のように、見た目が似ているが異なる意味を有する文字（対象物）がある。このような類似する対象物をより精度よく判別することが求められている。

本発明は、画像に含まれる対象物を適切に判別することができる情報処理装置、その制御方法及びプログラムを提供することを目的とする。

本発明に係る情報処理装置は、画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出手段と、画像における候補領域以外の領域の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出手段と、領域別特徴量抽出手段により抽出された領域別特徴量と、全体特徴量抽出手段により抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合手段と、特徴量結合手段により取得された結合特徴量に基づき、画像に含まれる対象物を判別する対象物判別手段と、を備える。

本発明に係る情報処理装置の制御方法は、画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出ステップと、画像における候補領域以外の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出ステップと、領域別特徴量抽出ステップにおいて抽出された領域別特徴量と、全体特徴量抽出ステップにおいて抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合ステップと、特徴量結合ステップにおいて取得された結合特徴量に基づき、画像に含まれる対象物を判別する対象物判別ステップと、を含む。

本発明に係るプログラムは、情報処理装置を、画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出手段と、画像における候補領域以外の領域の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出手段と、領域別特徴量抽出手段により抽出された領域別特徴量と、全体特徴量抽出手段により抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合手段と、特徴量結合手段により取得された結合特徴量に基づき、画像に含まれる対象物を判別する対象物判別手段として機能させるためのプログラムである。

本発明に係る情報処理装置、その制御方法及びプログラムでは、全体特徴量と領域別特徴量とが結合された結合特徴量に基づき、画像に含まれる対象物が判別される。よって、画像の全体の画像特徴量を考慮して対象物が判別されるので、領域別特徴量に基づき対象物が判別される場合に比して、より適切に対象物を判別することができる。

本発明によれば、画像に含まれる対象物を適切に判別することができる。

本発明の一実施形態に係る対象物推定システムのシステム構成を示す図である。図１の各装置のハードウェア構成を示す図である。図１のサーバ装置の機能構成を示すブロック図である。図３の出力部の詳細な機能構成を示すブロック図である。属性情報テーブルを示す図である。画像情報テーブルを示す図である。正解情報テーブルを示す図である。サーバ装置による学習フェーズでの処理の流れの一例を示すフローチャートである。サーバ装置による推定フェーズでの処理の流れの一例を示すフローチャートである。図８のステップＳ８０３及び図９のステップＳ９０２の各処理の詳細を示すフローチャートである。出力部に入力される画像例を示す図である。従来のニューラルネットワークの処理方法を説明するための概念図である。本実施形態におけるニューラルネットワークの処理方法を説明するための概念図である。従来の場合における、対象物の属性判別のための畳み込みニューラルネットワークに入力する特徴量を説明するための概念図である。本実施形態における、対象物の属性判別のための畳み込みニューラルネットワークに入力する特徴量を説明するための概念図である。

以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。

本実施形態に係る情報処理システムは、画像に含まれる文字等の対象物を判別し、対象物が何かを推定する対象物推定システムである。まず、図１を参照して、本実施形態に係る対象物推定システムの全体構成について説明する。図１は、本実施形態に係る対象物推定システムのシステム構成図である。

図１に示されるように、本実実施形態に係る対象物推定システム１００は、サーバ装置１０１（情報処理装置）と、データベースサーバ１０２と、を含む。サーバ装置１０１と、データベースサーバ１０２とは、有線又は無線のネットワーク１０３を介して、相互にデータ通信可能に接続されている。

サーバ装置１０１は、データベースサーバ１０２からデータを取得し、取得したデータに含まれる画像を解析し、画像に含まれる対象物を判別する処理をおこなう。

本実施形態では、対象物を手書き文字として説明するが、対象物は手書き文字に限られず、手書き以外の印刷文字、標識、図形、その他の物体等であってもよい。本実施形態において、対象物を判別するとは、対象物が何であるかを示す情報である属性を判別することをいう。対象物の属性は、たとえば、対象物が背景である場合には「背景」、対象物が文字である場合にはその文字（「あ」、「い」、「う」、「О」、「I」、「０」、「１」、「２」等）を示す。

データベースサーバ１０２は、図５〜図７に示されるようなデータテーブルを、読み出し及び書き出しするためのデータベースとして管理するサーバである。データベースサーバ１０２は、サーバ装置１０１からの要求に従って、当該データベースサーバ１０２が管理するデータをサーバ装置１０１に送信する。

なお、本実施形態において、サーバ装置１０１とデータベースサーバ１０２とが別々の装置であるとしたが、サーバ装置１０１とデータベースサーバ１０２とが一つの装置として構成されてもよい。

次に、図２を参照して、サーバ装置１０１及びデータベースサーバ１０２に適用可能な情報処理装置のハードウェア構成について説明する。図２は、図１の各装置のハードウェア構成を示す図である。

図２において、ＣＰＵ２０１で、システムバス２０４に接続される各種のデバイスや各種のコントローラを統括的に制御する。

ＲＯＭ２０２は、種々のプログラムを記憶する。種々のプログラムは、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）、オペレーティングシステムプログラム（以下、ＯＳ）、又は、各サーバ若しくは各ＰＣの実行する機能を実現するために必要な各種のプログラムなどである。なお、これらのプログラムは、外部メモリ２１１に記憶されている態様であってもよい。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ又はワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラムなどをＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードして、該ロードしたプログラムを実行することで各種動作を実現する。

システムバス２０４は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、及び通信Ｉ／Ｆコントローラ２０８を、相互に通信可能に接続する。

入力コントローラ２０５は、キーボード２０９等のポインティングデバイスからの入力を制御する。

ビデオコントローラ２０６は、ＣＲＴディスプレイ（ＣＲＴ）２１０等の表示器への表示を制御する。なお、表示器はＣＲＴディスプレイに限られるものでなく、液晶ディスプレイ等の他の表示器であってもよい。

メモリコントローラ２０７は、外部メモリ２１１へのアクセスを制御する。外部メモリ２１１は、ハードディスク（ＨＤ）、フレキシブルディスク（ＦＤ）、又は、コンパクトフラッシュ（登録商標）メモリ等である。外部メモリ２１１は、ブートプログラム、ブラウザソフトウェア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、又は各種データ等を記憶する。コンパクトフラッシュ（登録商標）メモリは、たとえば、ＰＣＭＣＩＡカードスロットにアダプタを介して接続される。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。たとえば、ＴＣＰ／ＩＰを用いたインターネット通信が可能である。

なお、ＣＰＵ２０１は、たとえばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ＣＲＴ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ＣＲＴ２１０上のマウスカーソル等でのユーザ指示を可能とする。

本発明を実現するための各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０３にロードされることによりＣＰＵ２０１によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブルなども、外部メモリ２１１に格納されている。前述したハードウェア構成要素がプログラム等により動作することによって、後述するサーバ装置１０１の各機能が発揮される。

次に、図３を参照して、サーバ装置１０１の機能構成について説明する。図３は、サーバ装置１０１の機能構成を示すブロック図である。

図３に示されるように、サーバ装置１０１は、機能的には、学習画像取得部３０１と、正解情報取得部３０２と、出力部３０３と、解析画像取得部３０４と、属性決定部３０５と、を備える。

本実施形態において、学習画像取得部３０１、正解情報取得部３０２、及び出力部３０３は、画像に含まれる対象物の属性を判別するためのモデルを学習させるための学習部３００Ａとして機能する。解析画像取得部３０４、出力部３０３、及び属性決定部３０５は、学習部３００Ａにより学習済みのモデルを用いて未知の画像に含まれる対象物の属性を推定する推定部３００Ｂとして機能する。すなわち、サーバ装置１０１は、学習フェーズの機能である学習部３００Ａと、推定フェーズの機能である推定部３００Ｂとを含む。

学習画像取得部３０１は、データベースサーバ１０２（図１参照）から、出力部３０３におけるモデル学習に用いるための画像情報を取得する。画像情報は、画像と、画像を識別する識別子である画像ＩＤとを含む。画像は、高さ、幅、及びＲＧＢ（３ｃｈ）を有する３次元のデータである。

学習画像取得部３０１は、データベースサーバ１０２から、たとえば図６に示される画像情報テーブルを読み込むことにより、画像情報を取得する。図６は、データベースサーバ１０２の外部メモリ２１１に記憶された画像情報テーブルの一例である。図６の画像情報テーブルには、画像ＩＤ６０１、及び画像データパス６０２が格納されている。学習画像取得部３０１は、図６の画像情報テーブルにおける画像データパス６０２に配置されている画像を読み込むことにより、画像を取得する。

学習画像取得部３０１は、取得した画像の画像ＩＤを正解情報取得部３０２に出力する。また、学習画像取得部３０１は、取得した画像を出力部３０３に出力する。

また、学習画像取得部３０１は、出力部３０３からの指示に応じて画像を再度取得して、出力部３０３に出力する。

正解情報取得部３０２は、学習画像取得部３０１から出力された画像ＩＤに基づき、データベースサーバ１０２で管理された正解情報を取得する。正解情報は、画像に含まれる対象物の位置と当該対象物の属性に関する正解情報であって、画像毎に設定されている。

正解情報は、正解矩形位置情報と、当該正解矩形位置情報に対応する属性ＩＤとを含む。正解矩形位置情報は、画像に含まれる対象物の正解の位置を示す。正解矩形位置情報は、たとえば、画像における対象物の正解領域として設定された矩形領域の位置情報（左上のピクセル座標（minx，miny)，右下のピクセル座標（maxx, maxy））である。属性ＩＤは、対象物の属性を識別する識別子である。

正解情報取得部３０２は、データベースサーバ１０２から、たとえば図７に示される正解情報テーブルを読み込むことにより、正解情報を取得する。図７は、データベースサーバ１０２の外部メモリ２１１に記憶された正解情報テーブルの一例である。図７の正解情報テーブルには、矩形ＩＤ７０１、画像ＩＤ７０２、正解矩形位置情報７０３〜７０６、及び属性ＩＤ７０７が格納されている。

正解情報取得部３０２は、図７の正解情報テーブルから、正解情報として、正解矩形位置情報７０３〜７０６及び属性ＩＤ７０７を取得し、出力部３０３に出力する。

出力部３０３は、入力された画像を、ニューラルネットワーク（以下、「ＮＮ」という）に入力し、前方伝搬をおこない、画像に含まれる対象物に関する出力情報を取得する。出力情報は、物体候補領域の位置を示す情報として出力される矩形位置情報と、画像に含まれる対象物の属性を識別する情報として出力される属性ＩＤと、を含む。物体候補領域とは、対象物（物体）らしき領域の候補となる領域（候補領域）である。物体候補領域は、画像に含まれる対象物の少なくとも一つを含む。

本実施形態において、出力部３０３は、画像の全体領域における画像特徴量（以下、「全体特徴量」ともいう）を考慮したＮＮを用いて出力情報する。全体特徴量を考慮したＮＮの詳細は、後述する。

全体特徴量は、画像の全体領域における画像特徴量を示す。画像の全体領域とは、画像における物体候補領域以外の領域（以下、「候補外領域」ともいう）の少なくとも一部を含む領域である。本実施形態において、全体領域とは、複数の物体候補領域の全てと、候補外領域の全体とを合わせた領域として説明するが、全体領域はこれに限られない。たとえば、全体領域は、複数の物体候補領域の全てを含まなくてもよく、一つの物体候補領域における全体又は一部を含んでいなくてもよく、候補外領域の全体を含んでいなくてもよい。

出力部３０３は、学習部３００Ａとして機能する学習フェーズと、推定部３００ｂとして機能する推定フェーズとを含んでいる。まず、出力部３０３の学習フェーズについて説明する。

学習フェーズにおいて、出力部３０３は、学習画像取得部３０１から出力された画像をＮＮに入力し、画像毎に出力情報を取得する。そして、出力部３０３は、正解情報取得部３０２から出力された正解情報と、出力情報との誤差を算出し、当該誤差に基づき逆伝搬をおこない、ＮＮのパラメータを補正する。ここで、ＮＮのパラメータを補正するとは、たとえば、ＮＮの畳み込み層のフィルターの重みを変更することをいう。

出力部３０３は、たとえば、算出した誤差が大きいほどＮＮのパラメータの補正値を大きくし、算出した誤差が小さいほどＮＮのパラメータの補正値を小さくしてもよい。出力部３０３は、誤差が０である場合には（誤差がない場合には）パラメータの補正をおこなわなくてよい。

また、学習フェーズにおいて、出力部３０３は、所定の条件を満たすか否かを判定し、この判定結果に基づき学習を繰り返すか否かを決定する。たとえば、出力部３０３は、算出した誤差が所定値以下であるか否かを判定する。

出力部３０３は、誤差が所定値以下でないと判定した場合には、誤差が所定値以下でないと判定された画像を再取得する指示を学習画像取得部３０１に出力する。出力部３０３は、学習画像取得部３０１で取得された全ての画像について、誤差が所定値以下であると判定した場合には、学習を終了する。

なお、出力部３０３が判定する所定の条件は、前述した誤差の条件に限らず、他の条件であってもよい。たとえば、出力部３０３は、学習の回数（画像をＮＮに入力して出力情報を出力してＮＮのパラメータを補正した回数）が所定の回数以上であるか否かを判定してもよい。この場合、出力部３０３は、学習回数が所定の回数以上でない場合には、画像を再取得する指示を学習画像取得部３０１に出力し、学習回数が所定の回数以上である場合には、学習を終了する。

続いて、出力部３０３の推定フェーズについて説明する。推定フェーズにおいて、出力部３０３は、解析対象となる画像、すなわち解析画像取得部３０４から出力された画像を、全体特徴量を考慮したＮＮに入力し、出力情報を取得する。出力部３０３は、取得した出力情報を属性決定部３０５に出力する。

解析画像取得部３０４は、たとえば、画像が記憶された内部又は外部の記憶装置から、解析対象となる画像を取得する。また、解析画像取得部３０４は、外部の撮影装置等によって撮影された画像を、ネットワーク等を介して受信することにより取得してもよい。解析画像取得部３０４は、取得した画像を出力部３０３に出力する。

属性決定部３０５は、出力部３０３から出力された出力情報に基づき、対象物の属性を決定する。属性決定部３０５は、データベースサーバ１０２から、たとえば図５に示される属性情報テーブルを読み込むことにより、対象物の属性を決定する。

図５の属性情報テーブルには、属性ＩＤ５０１、及び属性５０２が格納されている。属性決定部３０５は、出力情報に含まれる属性ＩＤに対応付けられた属性を、対象物の属性として決定する。

次に、図４を参照して、出力部３０３における、全体特徴量を考慮したＮＮの処理に関する詳細な機能構成について説明する。図４は、出力部３０３の詳細な機能構成を示すブロック図である。なお、図４に示される各機能は、全体特徴量を考慮したＮＮの処理に関する機能であって、出力部３０３は、図４に示される各機能部以外にも、その他の種々の機能部を備えていてもよい。

図４に示されるように、出力部３０３は、全体特徴量抽出部４０１と、物体候補領域抽出部４０２と、領域特徴プーリング部４０３と、全体特徴プーリング部４０４と、特徴量結合部４０５と、属性判別部４０６と、を備える。

本実施形態では、全体特徴プーリング部４０４が全体特徴量抽出手段として機能する。また、領域特徴プーリング部４０３が領域別特徴量抽出手段として機能する。また、特徴量結合部４０５が特徴量結合手段として機能する。また、属性判別部４０６が、対象物判別手段として機能する。

全体特徴量抽出部４０１は、学習画像取得部３０１又は解析画像取得部３０４から出力された画像に対して、全体特徴量を抽出する。

全体特徴量抽出部４０１は、たとえばＲｅｓｉｄｕａｌＮｅｔｗоｒｋ（ＲｅｓＮｅｔ）やＶＧＧのようなニューラルネットワークに画像を入力することにより出力される画像特徴量を、全体特徴量として抽出する。たとえば、３次元のデータである画像がＲｅｓＮｅｔに入力されると、高さ及び幅が固定長とされた、２５６次元の画像特徴量が出力される。

なお、全体特徴量の抽出に用いるニューラルネットワークは、ＦＰＮ構造を有するものでもよい。

全体特徴量抽出部４０１は、抽出した全体特徴量を、物体候補領域抽出部４０２、領域特徴プーリング部４０３、及び全体特徴プーリング部４０４に出力する。

物体候補領域抽出部４０２は、全体特徴量抽出部４０１により抽出された全体特徴量に対して、対象物らしき領域の候補を示す物体候補領域を抽出する。物体候補領域抽出部４０２は、物体候補領域を抽出する技術として、たとえばＲｅｇｉоｎＰｒоｐоｓａｌＮｅｔｗоｒｋｓのような技術を用いる。ＲｅｇｉоｎＰｒоｐоｓａｌＮｅｔｗоｒｋｓは、対象物の種類によらず、対象物らしき領域を抽出するネットワークである。物体候補領域抽出部４０２は、抽出した物体候補領域を示す情報を、領域特徴プーリング部４０３に出力する。

領域特徴プーリング部４０３は、全体特徴量抽出部４０１から出力された全体特徴量と、物体候補領域抽出部４０２から出力された物体候補領域を示す情報とに基づき、物体候補領域からのプーリングをおこなう。

プーリングとは、画像特徴量の中から学習に有用な特徴量を抜き出す処理である。すなわち、プーリングとは、画像特徴量のうち学習に有用な特徴量をまとめあげる処理ともいえる。

本実施形態では、領域特徴プーリング部４０３は、プーリングとして、たとえばＲＯＩＰｏｏｌｉｎｇやＲＯＩＡｌｉｎｇのような技術を用いる。たとえば、領域特徴プーリング部４０３は、２５６次元の全体特徴量に対して、物体候補領域からＲＯＩＰｏｏｌｉｎｇやＲＯＩＡｌｉｎｇの処理をおこなうことにより、高さ及び幅が固定長とされた、２５６次元の画像特徴量を取得する。

領域特徴プーリング部４０３によってプーリングがおこなわれた結果として取得される画像特徴量（以下、「領域別プーリング特徴量」ともいう）は、物体候補領域における画像特徴量（領域別特徴量）を示す。領域特徴プーリング部４０３は、取得した領域別プーリング特徴量を、特徴量結合部４０５に出力する。

全体特徴プーリング部４０４は、全体特徴量抽出部４０１から出力された全体特徴量に対し、全体からのプーリングをおこなう。全体特徴プーリング部４０４のプーリングも、領域特徴プーリング部４０３のプーリングと同様、たとえばＲＯＩＰｏｏｌｉｎｇやＲＯＩＡｌｉｎｇのような技術を用いることによって実現可能である。

たとえば、全体特徴プーリング部４０４は、２５６次元の全体特徴量に対して、全体からＲＯＩＰｏｏｌｉｎｇの処理をおこなうことにより、高さ及び幅がプーリング全体特徴量と同じ高さ及び幅とされた、２５６次元の画像特徴量を取得する。

全体特徴プーリング部４０４によってプーリングがおこなわれた結果として取得される画像特徴量（以下、「全体プーリング特徴量」ともいう）は、画像の全体の画像特徴量（全体特徴量）を示す。全体特徴プーリング部４０４は、取得した全体プーリング特徴量を、特徴量結合部４０５に出力する。

特徴量結合部４０５は、領域特徴プーリング部４０３から出力された領域別プーリング特徴量（領域別特徴量）と、全体特徴プーリング部４０４から出力された全体プーリング特徴量（全体特徴量）とを、結合する。結合とは、各特徴量を連結して、一つの特徴量に合成することを意味する。各特徴量を連結するとは、互いに混ざらない状態で特徴量同士を結びつけることをいう。

たとえば、特徴量結合部４０５は、２５６次元の領域別プーリング特徴量と、２５６次元の全体プーリング特徴量とを連結して、５１２次元の特徴量を生成する。以下、特徴量結合部４０５により生成された特徴量を、「結合特徴量」ともいう。特徴量結合部４０５は、結合特徴量を、属性判別部４０６に出力する。

属性判別部４０６は、特徴量結合部４０５から出力された結合特徴量に基づき、画像に含まれる対象物の属性を判別する。属性判別部４０６は、対象物の属性判別をおこなった結果として、出力情報（矩形位置情報及び属性ＩＤ）を取得する。

具体的には、属性判別部４０６は、結合特徴量に対して、畳み込みＮＮ（以下、「ＣＮＮ」ともいう。）を用いることにより、対象物の属性判別をおこなう。ＣＮＮは、たとえばＦａｓｔｅｒＲ−ＣＮＮにおいて用いられるようなＣＮＮを用いる。属性判別部４０６は、ＣＮＮに結合特徴量を入力することにより、属性判別をおこなうための特徴を算出し、この特徴に基づき出力情報を出力する。

なお、属性判別部４０６が用いるＣＮＮは、ＦａｓｔｅｒＲ−ＣＮＮにおいて用いられるようなＣＮＮに限られず、対象物の属性判別をおこなうための特徴量を出力するような構造を有するＣＮＮであれば何でもよい。

属性判別部４０６は、ＣＮＮにおいて、結合特徴量をフィルターに通すことによって、属性判別をおこなうための特徴を算出する。属性判別部４０６は、ＣＮＮにおいて、結合特徴量の全体に対してではなく、結合特徴量の次元毎に異なるフィルターを通す。

たとえば、属性判別部４０６は、５１２次元の結合特徴量に対し、対応する５１２個のフィルターを作成し、次元毎に対応するフィルターに通す。これにより、属性判別をおこなうための特徴が、異なる意味を有する全体特徴量と領域別特徴量とが混ざった状態で算出されないようになっている。

次に、図８のフローチャートを参照して、サーバ装置１０１による学習フェーズでの処理の流れの一例を説明する。

図８は、サーバ装置１０１による学習フェーズでの処理の流れの一例を示すフローチャートである。図８に示されるように、サーバ装置１０１による学習フェーズにおける処理が開始されると、まず、サーバ装置１０１の学習画像取得部３０１は、出力部３０３におけるモデル学習用の画像情報を取得する（ステップＳ８０１）。

具体的には、図６に示される画像情報テーブルを読み込み、画像ＩＤと、画像データパス６０２に配置された画像とを取得する。

続いて、サーバ装置１０１の正解情報取得部３０２は、正解情報を取得する（ステップＳ８０２）。

具体的には、ステップＳ８０１で取得した画像ＩＤに基づき、図７の正解情報テーブルを読み込むことにより、正解矩形位置情報７０３〜７０６及び属性ＩＤ７０７を取得する。

続いて、サーバ装置１０１の出力部３０３は、ステップＳ８０３で取得された画像を入力画像として、全体特徴量を考慮したＮＮを用いて、出力情報（矩形位置情報及び属性ＩＤ）を取得する（ステップＳ８０３）。ステップＳ８０３の処理の詳細は、図１０を参照して後述する。

続いて、サーバ装置１０１の出力部３０３は、ステップＳ８０２で取得した正解情報（正解矩形位置情報７０３〜７０６及び属性ＩＤ７０７）と、ステップＳ８０３で取得した出力情報（矩形位置情報及び属性ＩＤ）との誤差を算出し、当該誤差に基づき、ＮＮにおけるパラメータを補正する（ステップＳ８０４）。

続いて、サーバ装置１０１の出力部３０３は、所定の条件を満たすか否かを判定する（ステップＳ８０５）。たとえば、出力部３０３は、ステップＳ８０４で算出した誤差が所定値以下であるか否かを判定する。

誤差が所定値以下でないと判定された場合には（ステップＳ８０５；ＮＯ）、ステップＳ８０１に戻り、サーバ装置１０１の学習画像取得部３０１が、誤差が所定値以下でないと判定された画像情報を再度取得する。そして、ステップＳ８０２〜ステップＳ８０５の処理を繰り返す。

ステップＳ８０１で取得された画像の全てについて、誤差が所定値以下であると判定された場合には（ステップＳ８０５；ＹＥＳ）、処理を終了する。

次に、図９のフローチャートを参照して、サーバ装置１０１による推定フェーズでの処理の流れの一例を説明する。

図９は、サーバ装置１０１による推定フェーズでの処理の流れの一例を示すフローチャートである。図９に示されるように、サーバ装置１０１による学習フェーズにおける処理が開始すると、まず、サーバ装置１０１の解析画像取得部３０４は、出力部３０３による解析対象となる画像を取得する（ステップＳ９０１）。

続いて、サーバ装置１０１の出力部３０３は、ステップＳ９０１において取得した画像を、ステップＳ８０３において学習済みのＮＮに入力し、出力情報（矩形位置情報及び属性ＩＤ）を取得する（ステップＳ９０２）。ステップＳ９０２の処理の詳細は、図１０を参照して後述する。

続いて、サーバ装置１０１の属性決定部３０５は、ステップＳ９０２において取得された出力情報に含まれる属性ＩＤに基づき、図５の属性情報テーブルから、属性ＩＤ５０１に対応付けけられた属性５０２を、対象物の属性として決定する（ステップＳ９０３）。

次に、図１０を参照して、ステップＳ８０３及びステップＳ９０２における出力部３０３の処理（全体特徴量を考慮したＮＮの処理）の詳細について説明する。図１０は、図８のステップＳ８０３及び図９のステップＳ９０２の各処理の詳細を示すフローチャートである。

図９に示されるように、ステップＳ８０３又はステップＳ９０２の処理が開始すると、まず、全体特徴量抽出部４０１は、ステップＳ８０１又はステップＳ９０２において取得された画像をＲｅｓＮｅｔに入力することにより出力される画像特徴量を、全体特徴量として抽出する（ステップＳ１００１）。

続いて、物体候補領域抽出部４０２は、ステップＳ１００１において抽出された全体特徴量に対して、ＲｅｇｉоｎＰｒоｐоｓａｌＮｅｔｗоｒｋｓのような技術を用いることにより、物体候補領域を抽出する（ステップＳ１００２）。

続いて、領域特徴プーリング部４０３は、ステップＳ１００１において抽出された全体特徴量に対し、ＲＯＩＰｏｏｌｉｎｇの技術を用いて、ステップＳ１００２において抽出された物体候補領域からのプーリングをおこなう（ステップＳ１００３）。

たとえば、ステップＳ１００１において抽出された、高さｈ／１６[pixel]、幅ｗ／１６[pixel]、及び２５６次元の特徴量に対して、物体候補領域からＲＯＩＰｏｏｌｉｎｇの処理をおこなうことにより、高さ及び幅をそれぞれ７[pixel]とする２５６次元の領域別プーリング特徴量を取得する（図１５参照）。

続いて、全体特徴プーリング部４０４は、ステップＳ１００１において抽出された全体特徴量に対し、ＲＯＩＰｏｏｌｉｎｇの技術を用いて、全体からのプーリングをおこなう（ステップＳ１００４）。

たとえば、ステップ１００１において抽出された、高さｈ／１６[pixel]、幅ｗ／１６[pixel]、及び２５６次元の特徴量に対して、全体からＲＯＩＰｏｏｌｉｎｇの処理をおこなうことにより、高さ及び幅をそれぞれ７[pixel]とする２５６次元の全体プーリング特徴量を取得する（図１５参照）。

続いて、特徴量結合部４０５は、ステップＳ１００３においてプーリングがおこなわれた結果として取得される領域別プーリング特徴量と、ステップＳ１００４においてプーリングがおこなわれた結果として取得される全体プーリング特徴量とを、一つの結合特徴量に結合する（ステップＳ１００５）。

たとえば、ステップＳ１００３で取得された、２５６次元の領域別プーリング特徴量と、ステップＳ１００４で取得された、２５６次元の全体プーリング特徴量とを結合して、５１２次元の結合特徴量を生成する（図１５参照）。

続いて、属性判別部４０６は、ステップＳ１００４において結合された結合特徴量に対し、ＣＮＮを用いることによって、出力情報を出力する（ステップＳ１００６）。

前述した処理は、サーバ装置１０１のコンピュータを、上述した各機能部として機能させるためのプログラムとして実現されてもよい。

次に、図１１〜図１５を参照して、前述した出力部３０３によるステップＳ１００１〜Ｓ１００６の処理、すなわち全体特徴量を考慮したＮＮの処理方法の作用及び効果について、従来のＮＮの処理方法と対比させて説明する。

図１１は、出力部３０３に入力される画像例を示す図である。図１１の（ａ）は、対象物として「０７３−８４６−７９２３」という手書きの数字が含まれた画像を示す。図１１の（ｂ）は、対象物として「ＷＯＮＤＥＲ」という手書きの英字が含まれた画像を示す。

図１１の（ａ）及び（ｂ）に示されるように、図１１の（ａ）の画像に含まれる数字１１０１（数字「０」）と、図１１の（ｂ）の画像に含まれる英字１１０２（英字「О」）とは、意味が異なるのに見た目は略同じとなっている。ここで、見た目が略同じとは、外観が完全に一致する場合のみならず、通常の観察力を有する人間が対象物を観察した場合に、外観が類似していると判断し得る範囲まで含む。

図１２は、従来のＮＮの処理方法を説明するための概念図である。図１４は、従来のＮＮにおいて、対象物の属性判別のためのＣＮＮに入力する特徴量を説明するための概念図である。図１３は、本実施形態における全体特徴量を考慮したＮＮの処理方法を説明するための概念図である。図１５は、本実施形態のＮＮにおいて、対象物の属性判別のためのＣＮＮに入力する特徴量を説明するための概念図である。

図１２に示されるように、従来のＮＮの処理方法では、領域別プーリング特徴量（図１４参照）を、属性判別のためのＣＮＮに入力することによって、出力情報（矩形位置情報及びＩ属性Ｄ）を出力していた。

このような従来手法では、入力画像に含まれる対象物の属性を適切に判別できないことがあった。たとえば、対象物が手書き文字である場合等には、図１１のように見た目が略同じ数字「０」と英字「О」とを適切に判別することが難しかった。

これに対し、図１３に示されるように、本実施形態のＮＮの処理方法では、前述したように、領域別プーリング特徴量と全体プーリング特徴量とを結合した結合特徴量（図１５参照）を、属性判別のためのＣＮＮに入力することによって、出力情報を出力する。

本実施形態の手法によれば、このように全体特徴量を考慮してＮＮ処理をおこなうことにより、出力部３０３に入力された画像に含まれる対象物を、適切に判別することができる。たとえば、図１１のような手書き文字についても、個々の文字だけでなく文字列全体の文脈を考慮して判別することができるので、見た目が略同じ数字「０」と英字「О」とを適切に判別することができる。

さらに、本実施形態によれば、属性判別部４０６は、ＣＮＮにおいて、結合特徴量の全体に対してではなく、結合特徴量の次元毎に異なるフィルターを通す。これにより、対象物の属性判別をおこなうための特徴が、異なる意味を有する全体特徴量と領域別特徴量とが混ざらない状態で算出されるので、属性判別の精度が向上し、より適切に対象物を判別することができる。

以上、本実施形態の一実施形態について説明したが、本発明は上記実施形態に限られず、その要旨を逸脱しない範囲で様々な変更が可能である。

たとえば、上記実施形態において、属性判別部４０６は、ＣＮＮにおいて、結合特徴量の次元毎に異なるフィルターを通す例について説明したが、これに限られず、結合特徴量の全体に対してフィルターを通してもよい。

また、上記実施形態では、全体特徴量及び領域別特徴量を、プーリングをおこなって取得している例について説明したが、これに限られない。全体特徴量及び領域別特徴量は、プーリングをおこなわずに取得してもよい。

本発明は、たとえば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、１つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接、或いは遠隔から供給するものを含む。そして、そのシステム或いは装置のコンピュータが供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。

したがって、本発明の機能処理をコンピュータで実現（実行可能と）するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、又はＯＳに供給するスクリプトデータなどの形態であってもよい。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、又はＣＤ−ＲＷなどがある。また、磁気テープ、不揮発性のメモリカード、ＲＯＭ、又はＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスクなどの記録媒体にダウンロードすることによっても供給できる。

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭなどの記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

なお、前述した実施形態は、本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０１サーバ装置
３０３出力部
４０１全体特徴量抽出部
４０２物体候補領域抽出部
４０３領域特徴プーリング部
４０４全体特徴プーリング部
４０５特徴量結合部
４０６属性判別部

Claims

画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出手段と、
前記画像における前記候補領域以外の領域の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出手段と、
前記領域別特徴量抽出手段により抽出された領域別特徴量と、前記全体特徴量抽出手段により抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合手段と、
前記特徴量結合手段により取得された結合特徴量に基づき、前記画像に含まれる対象物を判別する対象物判別手段と、を備える、情報処理装置。
前記対象物判別手段は、前記結合特徴量を畳み込みニューラルネットワークに入力することにより、前記対象物を判別するための特徴を算出する、請求項１に記載の情報処理装置。
前記対象物判別手段は、前記結合特徴量を、前記結合特徴量の次元毎にフィルターに通すことにより、前記対象物を判別するための特徴を算出する、請求項２に記載の情報処理装置。
前記対象物は、文字である、請求項１〜３の何れか一項に記載の情報処理装置。
画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出ステップと、
前記画像における前記候補領域以外の領域の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出ステップと、
前記領域別特徴量抽出ステップにおいて抽出された領域別特徴量と、前記全体特徴量抽出ステップにおいて抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合ステップと、
前記特徴量結合ステップにおいて取得された結合特徴量に基づき、前記画像に含まれる対象物を判別する対象物判別ステップと、を含む、情報処理装置の制御方法。
情報処理装置を、
画像に含まれる少なくとも一つの対象物を含む領域である候補領域における画像特徴量を示す領域別特徴量を抽出する領域別特徴量抽出手段と、
前記画像における前記候補領域以外の領域の少なくとも一部を含む全体領域における画像特徴量を示す全体特徴量を抽出する全体特徴量抽出手段と、
前記領域別特徴量抽出手段により抽出された領域別特徴量と、前記全体特徴量抽出手段により抽出された全体特徴量とが結合された結合特徴量を取得する特徴量結合手段と、
前記特徴量結合手段により取得された結合特徴量に基づき、前記画像に含まれる対象物を判別する対象物判別手段として機能させるためのプログラム。