JP2012174222A - 画像認識プログラム、方法及び装置 - Google Patents

画像認識プログラム、方法及び装置 Download PDF

Info

Publication number
JP2012174222A
JP2012174222A JP2011038798A JP2011038798A JP2012174222A JP 2012174222 A JP2012174222 A JP 2012174222A JP 2011038798 A JP2011038798 A JP 2011038798A JP 2011038798 A JP2011038798 A JP 2011038798A JP 2012174222 A JP2012174222 A JP 2012174222A
Authority
JP
Japan
Prior art keywords
class
recognition result
recognition
user
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011038798A
Other languages
English (en)
Inventor
Hiroshi Matsuzaki
弘 松崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2011038798A priority Critical patent/JP2012174222A/ja
Publication of JP2012174222A publication Critical patent/JP2012174222A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ユーザにとって最適な画像認識を可能とする。
【解決手段】識別部102は、入力された画像データのクラス認識処理を行う。認識結果出力部103は、画像データと認識結果を表示装置105に表示させる。認識結果修正部104は、入力装置106から入力されるユーザによる認識結果の評価に基づき、入力画像データの認識結果を修正し、識別部102に転送する。識別部102は、転送された修正認識結果と入力画像データから学習データを設定し、追加学習を行う。
【選択図】図1

Description

本発明は、画像データに基づく学習結果を利用して認識対象画像データの認識を行う画像認識プログラム、方法及び装置に関し、特に追加学習に関する。
近年、機械学習による画像認識に関する技術は多数提案されており、予め大量の画像データに基づく学習により識別器を構成し、該識別器を備える認識器で入力画像データの画像認識処理を行う方法が盛んに研究されている。
また、新規画像データを用いて識別器の追加学習を行うことにより、認識性能を向上するための手法についても提案がなされている。
例えば、特許文献1には、画像中に存在する物体を検出して、環境認識を行う画像処理システムの例が提示されている。ここでは、入力画像データを事前学習した認識器(識別器)で処理し、入力画像データから特定の対象を抽出する認識処理部と、追加学習に用いる教師データを当該入力画像データから作成する教師データ作成部と、該教師データを用いた学習により認識器を適応的に更新する学習更新部と、を備えた画像処理システムが提案されている。
さらに先行技術として、Google社の提供するソフトウェアであるGoogle picasaが知られている。これは、登録された画像群に対し、顔検出を行い、検出結果をユーザに提示した上で、正解、不正解の評価をユーザから受け、その評価に基づき残りの画像群を再認識する機能を有する。
特開2008−204102号公報
しかしながら、上記特許文献1では、認識結果の正誤判断が行われることなく教師データが作成されて、追加学習に利用されている。そのため、誤った認識結果が追加学習に利用されることがあり、良好な学習結果が得られるとは限らないという課題がある。
これに対して、先行技術Google picasaでは、入力された画像データの顔認識結果に対する正誤の判断は行われる。しかし、顔認識結果が誤っていた場合、正しい顔認識結果を得ることができず、その画像データは追加学習に利用できないという課題がある。さらに、顔認識結果の正誤情報しか得ることができないため、認識結果をよりユーザの意図を反映したものに修正したうえで、追加学習に使用するといったことはできない。
本発明は、上記の点に鑑みてなされたもので、ユーザの意図を反映した追加学習を行えるようにすることにより、以降の画像認識においてユーザにとって最適な画像認識結果が得らえる画像認識プログラム、方法及び装置を提供することを目的とする。
本発明の画像認識プログラムの一態様は、予め学習した結果を用いて入力画像データのクラス認識を行うステップと、クラス認識結果を出力するステップと、クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定するステップと、修正認識結果と入力画像データを用いて追加学習を行うステップと、をコンピュータに発揮させることを特徴とする。
また本発明の画像認識方法の一態様は、予め学習した結果を用いて入力画像データのクラス認識を行うステップと、クラス認識結果を出力するステップと、クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定するステップと、修正認識結果と入力画像データを用いて追加学習を行うステップと、を有する。
また本発明の画像認識装置の一態様は、予め学習した結果を用いて入力画像データのクラス認識を行う認識部と、クラス認識結果を出力する認識結果出力部と、クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定する認識結果修正部とを有し、認識部は修正認識結果と入力画像データを用いて追加学習を行うことを特徴とする。
本発明によれば、追加する画像データの認識結果をユーザ評価に基づき修正した後に追加学習に利用するため、ユーザの意図を反映した追加学習を行うことができ、以降の画像認識においてユーザにとって最適な画像認識結果が得られるようになる。また、認識結果が誤っていた場合でも、正しい認識結果が得られるため、追加学習に用いる全ての画像データを、その正しい認識結果を有して追加学習に利用することができる。
本発明の実施形態に係る画像認識装置の構成図。 ユーザによる評価の仕方を示す図。 二次元グラフィカルユーザインターフェースを用いた評価結果入力法の例を示す図。 三次元グラフィカルユーザインターフェースを用いた評価結果入力法の例を示す図。 三次元グラフィカルユーザインターフェースを用いた評価結果入力法の別の例を示す図。 クラス間の類似度を示す図。 ユーザによるオブジェクト的、感性語的評価の仕方を示す図。 感性語的クラス間の類似度を示す図。 実施形態に係る画像処理プログラムの例を示すフローチャート。 実施形態に係る画像処理プログラムの別の例を示すフローチャート。 実施形態に係る画像処理プログラムのさらに別の例を示すフローチャート。
以下、本発明を実施するための形態を図面を参照して説明する。
図1に本発明の実施形態に係る画像認識装置101の構成図を示す。
画像認識装置101は、識別部102と、認識結果出力部103と、認識結果修正部104とを有する。識別部102は、認識結果出力部103と接続している。認識結果出力部103は、表示装置105と接続している。表示装置105の例としてCRT,LCDなどが挙げられる。入力装置106は、認識結果修正部104と接続している。入力装置106の例として、マウスやキーボードなどが挙げられる。認識結果修正部104は、識別部102と接続している。
識別部102には、認識対象の画像データが入力される。ここで、画像データは、図示しない撮像部により撮像された画像データでもよいし、画像データベースに登録されている画像データでもよい。識別部102は、予め大量の画像データに基づく学習がなされており、その学習結果を用いて、上記入力された画像データのクラス認識処理を行う識別器である。クラス認識処理後、識別部102は、認識結果と入力画像データを認識結果出力部103に転送する。認識結果出力部103は、入力画像データと認識結果を所定のフォーマットで表示装置105に表示させる。ユーザは、この表示装置105に表示された認識結果と画像データを見て、画像認識装置101の認識結果を評価することができる。
ユーザは、この評価した結果を入力装置106によって入力する。評価結果の詳細な入力法に関しては後述する。入力装置106は、ユーザにより入力されたユーザ評価結果を認識結果修正部104に転送する。認識結果修正部104は、入力装置106からのユーザ評価結果に基づき、画像データの修正認識結果を設定し、その設定した修正認識結果を識別部102に転送する。識別部102は、転送された修正認識結果と入力画像データから学習データを設定する。ここで、学習データとは、入力画像データと入力画像データの修正認識結果とを合わせたものをいう。識別部102は、この学習データを用いて追加学習を行う。詳細な学習法に関しては後述する。学習結果は、識別部102のデータベースに蓄積される。このように、学習データを利用し、追加学習を行うことで、識別部102の認識精度が向上する。
次に、ユーザによる評価結果の入力法と認識結果修正部104による修正認識結果の設定について説明する。
ここでは、例として「川」が映っている画像データが入力された場合を想定する。この「川」が映っている画像データを新たに追加する場合、画像データが識別部102に入力され、識別部102が該入力画像データをクラス認識する。識別部102は、認識結果(例えば「川」クラス)と入力画像データを認識結果出力部103に転送し、認識結果出力部103は、それら認識結果と入力画像データを表示装置105に表示させる。
なお、本実施形態では認識結果は「川」クラスのみであるが、識別部102は、一つの画像データに対し複数の認識結果を取得することも可能である。その場合は、表示装置105に複数の認識結果が表示される。
表示装置105に認識結果として「川」クラスが表示されれば、ユーザは、「○」、つまり認識結果は正しいという評価結果を入力装置106により入力する。ユーザによる評価は、認識結果修正部104に入力される。この場合、認識結果を修正する必要はないため、認識結果修正部104は、認識結果は正しいという評価を識別部102に転送する。識別部102は、当初の認識結果である「川」クラスと入力画像データを学習データとして設定する。識別部102は、この学習データを用いて追加学習を行う。
図2に入力画像データ201が「川」の画像データであるにも関わらず、識別部102が「海」クラスと認識した場合を示す。識別部102の認識結果は前述のとおり、表示装置105に表示される。表示された認識結果に対して、ユーザは評価を与える。
最も簡単には評価203のように「×」、つまり正しい認識が行われていないと評価する方法がある。この認識が正しく行われていないというユーザによる評価結果は、認識結果修正部104に入力される。この場合、入力画像データ201を用いた学習データは作成されない。
これに対して本実施形態では、ユーザ評価結果の入力法として、評価204のように、ユーザが「川」クラスと正しく識別されるべきクラス情報を与える。ユーザによるこのような評価は、認識結果修正部104に入力される。この場合、認識結果修正部104は、入力装置106から転送されたユーザ評価から、修正認識結果を「川」クラスと設定し、該修正認識結果を識別部102に転送する。識別部102は、転送された修正認識結果「川」クラスと入力画像データ201を学習データとして設定する。そして識別部102は、この学習データを用いて追加学習を行う。
このように、ユーザによる正しい認識結果を受け、認識結果を修正したうえで学習データを作成し、追加学習を行うため、識別部102が認識結果を誤った場合であっても、入力画像を追加学習に用いることができる。
さらに別のユーザの評価法として、ユーザが「川」クラスだけではなく「海」クラスという認識も許容することができる。この場合、単純にそれぞれを100%とするのではなく、評価205のように、「川」クラスと認識すべき割合として80%与え、「海」クラスとの認識に対しても20%という許容度を与える評価結果入力法を採ることも可能である。このユーザによる評価は、認識結果修正部104に入力される。
この場合、認識結果修正部104は、修正認識結果を「川」クラス80%、「海」クラス20%と設定する。認識結果修正部104は、このような修正認識結果を識別部102に転送する。識別部102は、転送されてきた修正認識結果と入力画像データ201を学習データとして設定し、この学習データを用いて追加学習を行う。
前述のとおり、「川」クラスと「海」クラスというように、複数のクラスの組み合わせ評価値をユーザが設定することも可能である。ここでは、全てのクラスの許容度が合計で100%になるように設定する場合を記載したが、実質的には、各クラスの割合を設定すればよいので、「川」クラス100%、「海」クラス400%のように、合計で100%を超えて設定することも可能である。
認識結果は、一つのクラスで表現できるとは限らず、複数のクラス認識結果の出力が適切な場合もある。このように一つの画像データに対して、複数のクラスの評価値を設定することで、一つの画像データの追加であっても複数の学習データの設定が可能となり、画像データ数が少ない場合でも十分な学習効果が得られる。例えば、今回の場合のように「川」80%、「海」20%とユーザ設定した場合、一つの画像データから「川」の学習データと「海」の学習データを設定できる。なお、複数のクラスをユーザが許容した場合の学習データの設定については後述する。
次に図3にて、認識結果出力部103が表示装置105にグラフィカルユーザインターフェース(以下GUI)として認識結果を表示する場合について説明する。この場合、入力装置106は認識結果出力部103にも接続されており、ユーザ操作を認識結果出力部103に伝えることで、認識結果出力部103は、ユーザ操作に基づいた表示装置105の表示更新を行う。
図3(A)に示すように、認識結果出力部103は、GUI301内に識別部102による入力画像データの認識結果を表示する。ここでは、縦軸303を識別部102が認識したクラスの度合いとする。識別部102が入力画像データを「海」クラスと認識した場合、海の度合いが最も大きく、他の認識の割合が0と考えて、縦軸上の位置302に川の画像(入力画像データ)を表示する。このGUIは2次元の平面状に表現されたものであり、横軸304に関して入力ボックス305が設けられ、ユーザはここに任意のクラスを設定できるようになっている。ここでは、例えばユーザは、図3(B)に示すように、横軸に「川」クラスを設定したとする。この時、横軸304は「川」クラスの認識度合いを示す座標軸となる。なお、位置302に表示される画像は、入力画像データそのままではなく、サムネイル等所定のサイズにリサイズされた画像とする。
次に、表示された画像をユーザが評価し、その評価結果を入力する方法について、図3(B)を用いて説明する。
識別部102による認識結果は、前述のように位置302に画像が表示されることで示されている。
ユーザが例えば、この画像に対して、「川」のみをクラスとして出力することを望む場合、入力装置106、例えばマウスのドラッグ操作等により、位置306に川の画像を移動する。また、「海」と「川」の双方のクラス出力を許容するならば、ユーザは、位置307のような、2次元平面上の適切な位置に川の画像を動かす。認識結果修正部104は、GUI的に移動された位置をユーザ評価として数値化することで修正認識結果を得る。
なお、ここでは便宜上2次元平面上で考えたが、特に2次元である必要はなく、3次元、あるいは多次元でもよい。多次元を2次元、3次元に投影して表現する方法も考えることができる。今回はクラスとして「海」「川」の2種類のクラスを考えたが、3種類以上のクラスを用いて評価するGUIを考えることも可能である。
また、識別部102は、一つの画像データに対して一つのクラスのみを認識結果として出力するとは限らず複数のクラスを認識結果として出力することも考えられる。そのため、認識結果を、予め2次元または多次元の適切な位置に配置したうえで、ユーザ評価を受け付けることも可能である。
このように、認識結果をGUIに表示することで、認識結果が可視化されるため、ユーザにわかりやすく表示される。評価に際してもマウス等の装置で感覚的にユーザが好ましいと思う位置に移動することができるため、ユーザの意図が反映された評価を得ることができる。
図4に3つのクラスの場合を示す。識別部102による画像データの認識結果として「海」、「川」、「山」クラスが出力された場合、その順序や、信頼度等から、「海」、「川」、「山」クラスを3つの軸とする3次元上の位置401を決定することができる。これをユーザが評価してGUI的に位置402に移動する。認識結果修正部104は、この操作結果をユーザ評価として数値化することにより修正認識結果を得る。さらに認識されたクラスに対する特徴的、または代表的な画像を各軸上に表示することにより、ユーザが感覚的に移動しやすくすることも可能である。図5では、海の度合いを示す軸に対応して海の典型的画像503を、川の度合いを示す軸に対応して川の典型的画像504を、山の度合いを示す軸に対応して山の典型的画像505を、それぞれの軸の近傍に表示している。
次に、一つの画像データに対して、複数のクラスをユーザが許容した場合の学習データの設定について説明する。ユーザの複数のクラスに対する評価値から複数のクラスに重みを設定することを本実施形態では考える。例えばユーザが数値的に、又はGUI的に、「海」クラスに2、「川」クラスに7、「山」クラスに3という評価値を入力した場合、又は、「海」クラス20%、「川」クラス70%、「山」クラス30%と評価値を入力した場合、対象としている入力画像データに対してそれぞれ「海」クラス2,「川」クラス7,「山」クラス3という重みを設定したうえで、学習データを設定する。ここでの重みは、例えば重みが5と設定された場合、今追加しようと考えている入力画像データを5つ同時に追加するという意味として用いる。
次に、学習データの設定において、認識されるクラス間の類似度を用いて算出できる値を重みとして設定することを考える。ここでクラス間の類似度とは、ユーザによる評価とは別に予め設定されたクラス間の類似度をいう。図6に示されるような表で考えることができる。この表は正規化されており、例えば「山」クラスと「山」クラスの類似度は1.0、「山」クラスと「川」クラスの類似度は0.2を意味している。
ユーザによる評価とクラス間の類似度を有効に利用するためには、双方の値を組み合わせて学習データを設定することも可能である。ある入力画像データに対して、「海」というクラスが認識結果として出力されたとし、「海」、「川」、「山」それぞれのクラスに対して、ユーザ評価により2:7:3の割合で評価がなされた場合を考える。「海」クラスに対する「海」、「川」、「山」、クラスの類似度はそれぞれ、1、0.8、0.1である。ここでは類似度の逆数を重みと考えることにより、「海」クラスに対しては、2/1の重み、「川」クラスに対しては7/0.8の重み、「山」クラスに対しては3/0.1の重みを設定するということになる。
なお。本実施例ではユーザ評価の割合と、クラス間の類似度とを「(ユーザの評価の割合)/(クラス間の類似度)」という関係式で定義したが、特にこの関係式である必要はなく、双方の値を用いた任意の関数式を定義して利用することができる。
このように各クラス間の意味の近さを基準として重みを設定し学習データを作成し、追加学習を行うことで、追加学習のための条件を数値として設定することが可能となり、より好ましい識別結果を得ることができる。
これまでは認識の対象として「海」、「山」、「川」等のオブジェクト的なものを想定したが、画像全体に対する感性語的なクラス、例えば「明るい」、「暗い」、「寒い」等のクラスを設定することも可能であり、さらにはその組み合わせ評価を行うことも可能である。ここでは、オブジェクト的なクラス、感性語的なクラスというような分類を「カテゴリ」と呼ぶ。カテゴリには、複数のクラスが含まれる。例えば、「オブジェクト」というカテゴリには、「海」、「川」、「山」などのクラスが含まれる。
クラス間の類似度を考える際にもオブジェクト間の類似度と同様、感性語間の類似度を定義することも可能であるし、オブジェクト的なクラスと感性語的なクラスとの間の類似度を設定することも可能である。また、オブジェクト的なクラスと、感性語的なクラスというようなタイプの異なるクラスに対して重みを設定することにより、オブジェクト的なクラスと感性語的なクラスのどちらを優先して認識させたいかという調整を行うこともできる。
具体的には、図7に示すように、オブジェクト的クラス、感性語的クラスそれぞれのカテゴリについて、含まれる複数のクラスについてユーザが評価の割合を設定する。例えば川の入力画像データ701に対して、識別部102の認識結果が「海」、「冷たい」というクラスであり、それが認識結果702として表示装置105に表示されたとする。これに対し、評価703のように、オブジェクト的クラスとしての評価を「川」クラス80%、「海」クラス20%とユーザ評価するとともに、評価704のように感性語的なクラスとしての評価を「冷たい」クラス70%、「明るい」クラス30%とユーザ評価して、入力装置106によって入力したとする。図6と同様、感性語的なクラスに対しても、クラス間の類似度を定義することが可能で、例えば図8のようなクラス間の類似度の表を作成しておくことができる。よってこの場合では、「川」クラスに対しては、8/0.8の重み、「海」クラスに対しては3/1の重み、「冷たい」クラスに対しては7/1の重み、「明るい」クラスに対しては3/0.4の重みを設定するということになる。
さらに、オブジェクト的なクラスと感性語的なクラスというカテゴリに対する優先度をオブジェクト的70%、感性語的30%と設定すると、この入力画像データに対してユーザによる評価と、クラス間の類似度の関係から、「川」クラスに対しては、0.7*8/0.8の重み、「海」クラスに対しては0.7*3/1の重み、「冷たい」クラスに対しては0.3*7/1の重み、「明るい」クラスに対しては0.3*3/0.4の重み、をそれぞれ設定するということになる。
認識対象は、例えばオブジェクト的なクラスと感性語的なクラスというように、異なるタイプの認識クラスとして認識されることが適切である場合もあり、そのような認識対象に対しても認識結果を出力できるような追加学習を行うことが可能となり、より好ましい認識結果を得ることができる。
次に、学習データを用いた追加学習について説明する。最も簡単には、学習に用いる学習データに対して、学習データに上述した重み係数を設定し、追加学習を行う方法が考えられる。これは設定された各クラスの重みに基づき、学習データに対して各クラスの重みから算出される値をかけ、各クラスへ学習データを追加したものと見なし、最初に学習したすべての学習データと合わせて追加学習する方法である。
また、予め学習データを用いて学習することで得られた認識条件に対して、追加された学習データとその認識条件との差分を考えて、認識条件を補正する方法も考えられる。例えば、「AI Goggles:追加学習機能を備えたウェアラブル画像アノテーション・リトリーバルシステム」電子情報通信学会論文誌Vol.J93−D,No6,p.857−869に用いられている方法を適用することが可能であり、以下の方法で追加学習を行うことができる。学習データの画像特徴量とクラス特徴量から正準相関分布を行うことにより、学習データから得られる分散共分散行列を
Figure 2012174222
としたとき、
Figure 2012174222
の固有方程式を解くことに帰着できるが、t個の学習データが得られているとして、学習データの平均、相関行列、分散共分散行列をそれぞれ、m、R、Cとしたとき、新たに画像データ{xt+1、ωt+1}が得られたとして、上記変数を
Figure 2012174222
により更新する。ここで
Figure 2012174222
αは追加された学習データに対する重みを表すものとする。ここで設定された重みを用いることにする。この(3)式を用いて(2)式の固有方程式を解くことにより、学習後の変換行列を求めることができる。この変換行列を用いて識別部102は認識処理を行う。
学習方法としては判別分析方法や、上述の正準相関分析による従来から用いられている線型的な方法の他、高次元空間に変換したうえでカーネルトリックを用いるような非線型的な手法、例えばカーネル判別分析や、カーネル正準相関分析法、SVM(サポート・ベクタ・マシン)、MKL(マルチプル・カーネル・ラーニング)等、任意の学習方法を用いることが可能である。学習においては通常、特徴空間をクラス数分に分割して、入力された特徴ベクトルが、空間内のどの領域に位置するかを決定するものであるが、線型的手法では、超平面によって分割され、境界付近の微妙な調整が困難であるため、カーネル法による学習方法が効果を奏すると考えられる。
なお、本画像認識装置101は、デジタルカメラ等の撮像装置に搭載したり、内視鏡に接続されたコントロールユニットに搭載することが可能である。この場合、撮像装置や内視鏡の撮像部は、撮像した画像データを識別部102に転送する。識別部102は、撮像画像データのクラス認識処理を行う。クラス認識処理後、識別部102は、認識結果と画像データを認識結果出力部103に転送する。認識結果出力部103は、撮像画像データと認識結果を表示装置105に表示させる。なお、表示装置105は、撮像装置に備えられたLCDや、内視鏡コントロールユニットに接続されたLCD、CRT等であり、ユーザの評価結果は、撮像装置に備えられたキーや内視鏡コントロールユニットに備えられたキーボード等の入力装置106によって入力される。入力装置106は、ユーザにより入力されたユーザ評価を認識結果修正部104に転送する。認識結果修正部104は、入力装置106からのユーザ評価に基づき撮像画像データの修正認識結果を設定し、修正認識結果を識別部102に転送する。識別部102は、転送された修正認識結果と撮像画像データから学習データを設定する。
また、上記実施形態の機能を実現する画像認識プログラムをユーザのパーソナルコンピュータや、サーバコンピュータに供給し、当該コンピュータがこの画像認識プログラムを実行することによって、上記機能を実現することも可能である。
図9は、この画像認識プログラムの例を示すフローチャートである。まず、液晶画面等の表示装置、マウス、キーボード等のユーザ評価を入力する装置を有するユーザのパーソナルコンピュータに本画像認識プログラムを適用した場合について説明する。コンピュータのCPUは、ユーザにより指定されたコンピュータ内の記録装置、あるいはメモリーカード、CD−ROM等の記録媒体に格納された画像データを、認識対象として読み出す(ステップS901)。そして、その読み出した画像データのクラス認識処理を行う(ステップS902)。ここで、該画像認識プログラムは、予め大量の画像データに基づく学習結果をデータベースとして有しており、該データベースを参照することにより識別器が認識処理を行う。このデータベースがコンピュータ内の記録装置に収納されているものとする。あるいは、インターネット等のネットワークを介して該コンピュータに接続されたデータベースを利用してクラス認識処理を行うものであってもよい。何れの場合も、ユーザ毎の追加の学習スペースが用意されて、そこに追加した学習結果を用いることが望ましい。すなわち、本実施形態による追加学習は、この追加学習スペースに対して行われる。
そして、CPUは、クラス認識結果を表示装置に表示させる(ステップS903)。表示装置には、画像データとクラス認識結果が表示される。そして、マウス等により入力されたユーザのクラス認識結果に対する評価が入力されると(ステップS904)、CPUは、その入力された評価から修正認識結果を設定する(ステップS905)。そして、その修正認識結果と上記読み出した画像データから学習データを作成し(ステップS906)、その作成した学習データを用いて追加学習を行う(ステップS907)。
また、ネットワーク上のサーバコンピュータに本画像認識プログラムを適用した場合について説明する。サーバコンピュータのCPUは、インターネット等のネットワークを介してユーザのパーソナルコンピュータ、PDA、スマートフォン等の情報機器から転送された画像データを、認識対象として読み出し(ステップS901)、その読み出した画像データのクラス認識処理を行う(ステップS902)。ここで、該画像認識プログラムは、予め大量の画像データに基づく学習結果をデータベースとして有しており、このデータベースがサーバコンピュータ内の記録装置に収納されているものとする。
そして、サーバコンピュータのCPUは、クラス認識結果をネットワークを介してユーザの情報機器に転送し、当該情報機器が備える表示装置に表示させる(ステップS903)。ユーザの情報機器が備える入力装置のユーザ操作により、ネットワークを介して転送されたユーザのクラス認識結果に対する評価が入力されると(ステップS904)、サーバコンピュータのCPUは、その入力された評価から修正認識結果を設定する(ステップS905)。そして、その修正認識結果と上記読み出した画像データから学習データを作成し(ステップS906)、その作成した学習データを用いて追加学習を行う(ステップS907)。
このように、全ユーザに共通のデータベースに対して追加学習を行うことで、全ユーザが利用するデータベースつまり識別器の性能を向上させることができる。
なお、サーバコンピュータの記録装置には、さらに、ユーザ毎の学習結果を記憶するデータベースを設け、クラス認識処理の際にはこのユーザ毎のデータベースも適応的に同時に、または、選択的に用い、また、追加学習も該ユーザ毎のデータベースに対して行うようにしても良い。こうすることで、各ユーザに特化したデータベースに基づく識別器が構成でき、各ユーザ所望のクラス認識がなされるようになる。
さらに、そのような全ユーザ共通のデータベースとユーザ毎のデータベースとを、ユーザ設定により適宜選択的に利用できるようにしても良い。
なお、本明細書においてコンピュータに各種の処理を行わせるためのプログラムに記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく並列的あるいは個別に実行される処理も含むものである。
次に、複数の画像データが追加される場合について説明する。この場合、画像データと修正識別結果から学習データを作成し逐次的に学習する。また、学習データを蓄積し、統合的に追加学習を行うことも可能である。
図10は、複数の画像データを逐次的に処理する場合のフローチャートである。ステップS1001乃至ステップS1007は、図9のステップS901乃至ステップS907に相当する処理である。ユーザのパーソナルコンピュータ又はサーバコンピュータのCPUは、ステップS1008で、ユーザにより新しい画像データが指定されているか、即ち、学習データを作成していない画像データがまだあるか判定する。新しい画像データがあると判定された場合、ステップS1001に戻り、ステップS1001乃至ステップS1008の処理が繰り返される。
このような処理方法では、1つのデータの追加では効果が現れない場合等、異なる種類、異なる評価のデータを逐次的に追加学習することにより識別器が参照するデータベースが次第に高性能化され、よりユーザの要求にマッチする画像認識を行うことができる。
また、図11のように、複数の画像データを追加する場合に、複数の評価結果を蓄積しておいた上で、蓄積結果を統合的に処理してから、追加学習処理を行うことも可能である。ステップS1101乃至ステップS1104は、図9のステップS901乃至ステップS906に相当する処理である。ステップS1107で、ユーザのパーソナルコンピュータ又はサーバコンピュータのCPUは、新しい画像データがまだあるか、即ち、学習データを作成していない画像データがまだあるか判定する。新しい画像データがあると判定された場合、ステップS1101に戻り、ステップS1101乃至ステップS1107の処理が繰り返される。そしてもはや新しい画像データがないと判定された場合、学習データを用いて追加学習を行う(ステップS1108)。
このような処理方法では追加したい画像データが複数ある場合有効で、各画像データに対する評価結果を統合して追加学習の条件として設定することで、処理の負荷の高い学習を1回で済ますことができるため、性能向上に加え、時間短縮の効果もある。
以上説明したような本実施形態によれば、ユーザにとって最適な画像認識を行うことができるようになる。また、認識結果が誤っていた場合でも、正しい認識結果が得られるため、追加する全ての画像データを、正しい認識結果を用いて追加学習に利用することができる。
また、修正認識結果は、ユーザの評価に基づきクラスとそのクラスの重みが設定され、追加学習は、クラスとそのクラスの重みを用いて行うことが可能である。これにより、ユーザ評価によりマッチするような追加学習を行うことができる。
また、修正認識結果は、ユーザの評価に基づき少なくとも2つのクラスが設定されることが可能である。認識対象や認識結果は、唯一のキーワードで表現されるとは限らず、複数の認識結果の出力が適切な場合がある。このような場合であっても、適切なクラス認識結果を追加学習に用いることが可能となる。また、一つの画像データの追加であっても、複数の学習データの設定が可能となり、画像データ数が少ない場合でも十分な学習効果が得られる。
また、修正認識結果は、クラス間の類似度に基づきクラスの重みが設定され、追加学習はクラスの重みを用いて行うことも可能である。このように各クラス間の意味の近さを基準として重みを設定し学習データを作成し、追加学習を行うことで、追加学習のための条件を数値として設定することが可能となり、より好ましい識別結果を得ることができる。
また、修正認識結果は、カテゴリ間の優先度に基づき重みが設定され、追加学習は、クラスの重みを用いて行うことが可能である。認識対象は、例えばオブジェクト的なクラスと感性語的なクラスというように、異なるタイプの認識クラスとして認識されることが適切である場合もあり、そのような認識対象に対しても認識結果を出力できるような追加学習を行うことが可能となり、より好ましい認識結果を得ることができる。
また、クラス認識の結果の出力をGUIに表示することも可能である。このように、認識結果をGUIに表示することで、認識結果が可視化されるためユーザにわかりやすく表示される。評価に際しても、マウス等の装置で感覚的にユーザが好ましいと思う位置に移動することができるため、ユーザの意図が反映された評価を得ることができる。
以上、実施形態に基づいて本発明を説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。また、上記実施形態には種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、効果が得られるのであればこの構成要件が削除された構成が発明として抽出され得る。
101…画像認識装置、 102…識別部、 103…認識結果出力部、 104…認識結果修正部、 105…表示装置、 106…入力装置。

Claims (21)

  1. 予め学習した結果を用いて入力画像データのクラス認識を行うステップと、
    前記クラス認識結果を出力するステップと、
    前記クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定するステップと、
    前記修正認識結果と前記入力画像データを用いて追加学習を行うステップと、
    をコンピュータに発揮させることを特徴とする画像認識プログラム。
  2. 前記修正認識結果は、ユーザの評価に基づきクラスとそのクラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項1に記載の画像認識プログラム。
  3. 前記修正認識結果は、ユーザの評価に基づき少なくとも2つのクラスが設定されることを特徴とする請求項1に記載の画像認識プログラム。
  4. 前記修正認識結果は、ユーザの評価に基づき各クラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項3に記載の画像認識プログラム。
  5. 前記各クラスの重みは、さらに、クラス間の類似度に基づいて設定されることを特徴とする請求項4に記載の画像認識プログラム。
  6. 前記少なくとも2つのクラスは、カテゴリの異なるクラスを含み、
    前記各クラスの重みは、さらに、カテゴリ間の優先度に基づいて設定されることを特徴とする請求項4に記載の画像認識プログラム。
  7. 前記クラス認識結果を出力するステップは、前記クラス認識結果をグラフィカルユーザインターフェースに表示し、
    前記修正認識結果を設定するステップは、前記グラフィカルユーザインターフェース内でのユーザ操作により得られたユーザ評価を受けて、それに基づき前記修正認識結果を設定することを特徴とする請求項1に記載の画像認識プログラム。
  8. 予め学習した結果を用いて入力画像データのクラス認識を行うステップと、
    前記クラス認識結果を出力するステップと、
    前記クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定するステップと、
    前記修正認識結果と前記入力画像データを用いて追加学習を行うステップと、
    を有することを特徴とする画像認識方法。
  9. 前記修正認識結果は、ユーザの評価に基づきクラスとそのクラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項8に記載の画像認識方法。
  10. 前記修正認識結果は、ユーザの評価に基づき少なくとも2つのクラスが設定されることを特徴とする請求項8に記載の画像認識方法。
  11. 前記修正認識結果は、ユーザの評価に基づき各クラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項10に記載の画像認識方法。
  12. 前記各クラスの重みは、さらに、クラス間の類似度に基づいて設定されることを特徴とする請求項11に記載の画像認識方法。
  13. 前記少なくとも2つのクラスは、カテゴリの異なるクラスを含み、
    前記各クラスの重みは、さらに、カテゴリ間の優先度に基づいて設定されることを特徴とする請求項11に記載の画像認識方法。
  14. 前記クラス認識結果を出力するステップは、前記クラス認識結果をグラフィカルユーザインターフェースに表示し、
    前記修正認識結果を設定するステップは、前記グラフィカルユーザインターフェース内でのユーザ操作により得られたユーザ評価を受けて、それに基づき前記修正認識結果を設定することを特徴とする請求項8に記載の画像認識方法。
  15. 予め学習した結果を用いて入力画像データのクラス認識を行う識別部と、
    前記クラス認識結果を出力する認識結果出力部と、
    前記クラス認識結果の出力に対するユーザの評価を受け前記評価から修正認識結果を設定する認識結果修正部と、
    を有し、
    前記識別部は、前記修正認識結果と前記入力画像データを用いて追加学習を行うことを特徴とする画像認識装置。
  16. 前記修正認識結果は、ユーザの評価に基づきクラスとそのクラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項15に記載の画像認識装置。
  17. 前記修正認識結果は、ユーザの評価に基づき少なくとも2つのクラスが設定されることを特徴とする請求項15に記載の画像認識装置。
  18. 前記修正認識結果は、ユーザの評価に基づき各クラスの重みが設定され、
    前記追加学習は、前記クラスとそのクラスの重みを用いて行うことを特徴とする請求項17に記載の画像認識装置。
  19. 前記各クラスの重みは、さらに、クラス間の類似度に基づいて設定されることを特徴とする請求項18に記載の画像認識装置。
  20. 前記少なくとも2つのクラスは、カテゴリの異なるクラスを含み、
    前記各クラスの重みは、さらに、カテゴリ間の優先度に基づいて設定されることを特徴とする請求項18に記載の画像認識装置。
  21. 前記認識結果出力部は、前記クラス認識結果をグラフィカルユーザインターフェースに出力し、
    前記認識結果修正部は、前記グラフィカルユーザインターフェース内でのユーザ操作により得られたユーザ評価を受けて、それに基づき前記修正認識結果を設定することを特徴とする請求項15に記載の画像認識装置。
JP2011038798A 2011-02-24 2011-02-24 画像認識プログラム、方法及び装置 Withdrawn JP2012174222A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011038798A JP2012174222A (ja) 2011-02-24 2011-02-24 画像認識プログラム、方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011038798A JP2012174222A (ja) 2011-02-24 2011-02-24 画像認識プログラム、方法及び装置

Publications (1)

Publication Number Publication Date
JP2012174222A true JP2012174222A (ja) 2012-09-10

Family

ID=46977033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011038798A Withdrawn JP2012174222A (ja) 2011-02-24 2011-02-24 画像認識プログラム、方法及び装置

Country Status (1)

Country Link
JP (1) JP2012174222A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6002796B1 (ja) * 2015-03-30 2016-10-05 エヌ・ティ・ティ・コムウェア株式会社 感性評価装置、感性評価方法、およびプログラム
JP2016206805A (ja) * 2015-04-17 2016-12-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 識別サーバ、識別方法及び識別プログラム
JPWO2016006090A1 (ja) * 2014-07-10 2017-05-25 株式会社東芝 電子機器、方法及びプログラム
JP2018109906A (ja) * 2017-01-05 2018-07-12 住友電気工業株式会社 画像データ作成プログラム、画像データ作成装置および画像データ作成方法
WO2018139302A1 (ja) * 2017-01-24 2018-08-02 エンゼルプレイングカード株式会社 チップの認識学習システム
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム
JP2019018090A (ja) * 2015-08-03 2019-02-07 エンゼルプレイングカード株式会社 遊技場における不正検知システム
JP2020154602A (ja) * 2019-03-19 2020-09-24 日本製鉄株式会社 能動学習方法及び能動学習装置
WO2021130864A1 (ja) * 2019-12-24 2021-07-01 日本電気株式会社 特徴学習システム、特徴学習方法およびプログラム
WO2021145265A1 (ja) 2020-01-17 2021-07-22 富士フイルム株式会社 医療画像処理装置、内視鏡システム、診断支援方法及びプログラム

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016006090A1 (ja) * 2014-07-10 2017-05-25 株式会社東芝 電子機器、方法及びプログラム
JP6002796B1 (ja) * 2015-03-30 2016-10-05 エヌ・ティ・ティ・コムウェア株式会社 感性評価装置、感性評価方法、およびプログラム
JP2016191979A (ja) * 2015-03-30 2016-11-10 エヌ・ティ・ティ・コムウェア株式会社 感性評価装置、感性評価方法、およびプログラム
JP2016206805A (ja) * 2015-04-17 2016-12-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 識別サーバ、識別方法及び識別プログラム
US11037401B2 (en) 2015-08-03 2021-06-15 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US11527131B2 (en) 2015-08-03 2022-12-13 Angel Group Co., Ltd. Fraud detection system in a casino
JP2021102074A (ja) * 2015-08-03 2021-07-15 エンゼルグループ株式会社 遊技場におけるシステム
US11741780B2 (en) 2015-08-03 2023-08-29 Angel Group Co., Ltd. Fraud detection system in a casino
JP2019018089A (ja) * 2015-08-03 2019-02-07 エンゼルプレイングカード株式会社 遊技場における不正検知システム
US11727750B2 (en) 2015-08-03 2023-08-15 Angel Group Co., Ltd. Fraud detection system in a casino
US10529183B2 (en) 2015-08-03 2020-01-07 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10540846B2 (en) 2015-08-03 2020-01-21 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10593154B2 (en) 2015-08-03 2020-03-17 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10600282B2 (en) 2015-08-03 2020-03-24 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10741019B2 (en) 2015-08-03 2020-08-11 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10748378B2 (en) 2015-08-03 2020-08-18 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10755524B2 (en) 2015-08-03 2020-08-25 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10762745B2 (en) 2015-08-03 2020-09-01 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US11657674B2 (en) 2015-08-03 2023-05-23 Angel Group Go., Ltd. Fraud detection system in casino
US10846985B2 (en) 2015-08-03 2020-11-24 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10846986B2 (en) 2015-08-03 2020-11-24 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
JP2021102073A (ja) * 2015-08-03 2021-07-15 エンゼルグループ株式会社 遊技場における不正検知システム
US10896575B2 (en) 2015-08-03 2021-01-19 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US10930112B2 (en) 2015-08-03 2021-02-23 Angel Playing Cards Co., Ltd. Fraud detection system in casino
US11657673B2 (en) 2015-08-03 2023-05-23 Angel Group Co., Ltd. Fraud detection system in a casino
US11620872B2 (en) 2015-08-03 2023-04-04 Angel Group Co., Ltd. Fraud detection system in a casino
JP2019018090A (ja) * 2015-08-03 2019-02-07 エンゼルプレイングカード株式会社 遊技場における不正検知システム
US11587398B2 (en) 2015-08-03 2023-02-21 Angel Group Co., Ltd. Fraud detection system in a casino
US10846987B2 (en) 2015-08-03 2020-11-24 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US11527130B2 (en) 2015-08-03 2022-12-13 Angel Group Co., Ltd. Fraud detection system in a casino
JP7065228B2 (ja) 2015-08-03 2022-05-11 エンゼルグループ株式会社 遊技場におけるシステム
JP7085040B2 (ja) 2015-08-03 2022-06-15 エンゼルグループ株式会社 遊技場における不正検知システム
US11380161B2 (en) 2015-08-03 2022-07-05 Angel Group Co., Ltd. Fraud detection system in a casino
US11386748B2 (en) 2015-08-03 2022-07-12 Angel Playing Cards Co., Ltd. Fraud detection system in a casino
US11386749B2 (en) 2015-08-03 2022-07-12 Angel Group Co., Ltd. Fraud detection system in a casino
US11393285B2 (en) 2015-08-03 2022-07-19 Angel Group Co., Ltd. Fraud detection system in a casino
US11393284B2 (en) 2015-08-03 2022-07-19 Angel Group Co., Ltd. Fraud detection system in a casino
US11393286B2 (en) 2015-08-03 2022-07-19 Angel Group Co., Ltd. Fraud detection system in a casino
JP2018109906A (ja) * 2017-01-05 2018-07-12 住友電気工業株式会社 画像データ作成プログラム、画像データ作成装置および画像データ作成方法
WO2018139302A1 (ja) * 2017-01-24 2018-08-02 エンゼルプレイングカード株式会社 チップの認識学習システム
JP7347934B2 (ja) 2017-01-24 2023-09-20 エンゼルグループ株式会社 チップの認識学習システム
JPWO2018139302A1 (ja) * 2017-01-24 2019-12-26 エンゼルプレイングカード株式会社 チップの認識学習システム
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム
JP7225978B2 (ja) 2019-03-19 2023-02-21 日本製鉄株式会社 能動学習方法及び能動学習装置
JP2020154602A (ja) * 2019-03-19 2020-09-24 日本製鉄株式会社 能動学習方法及び能動学習装置
WO2021130864A1 (ja) * 2019-12-24 2021-07-01 日本電気株式会社 特徴学習システム、特徴学習方法およびプログラム
JPWO2021130864A1 (ja) * 2019-12-24 2021-07-01
JP7367775B2 (ja) 2019-12-24 2023-10-24 日本電気株式会社 特徴学習システム、特徴学習方法およびプログラム
WO2021145265A1 (ja) 2020-01-17 2021-07-22 富士フイルム株式会社 医療画像処理装置、内視鏡システム、診断支援方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2012174222A (ja) 画像認識プログラム、方法及び装置
US11256918B2 (en) Object detection in images
RU2701995C2 (ru) Автоматическое определение набора категорий для классификации документа
US11481869B2 (en) Cross-domain image translation
KR102385463B1 (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
AU2010203220B2 (en) Organizing digital images by correlating faces
US11562588B2 (en) Enhanced supervised form understanding
US8644621B2 (en) Image processing apparatus and image retrieval method
US9886669B2 (en) Interactive visualization of machine-learning performance
US10558851B2 (en) Image processing apparatus and method of generating face image
US20160364633A1 (en) Font recognition and font similarity learning using a deep neural network
US10068155B2 (en) Verification of optical character recognition results
AU2018202767B2 (en) Data structure and algorithm for tag less search and svg retrieval
US9025889B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
CN106844518B (zh) 一种基于子空间学习的不完整跨模态检索方法
US11080348B2 (en) System and method for user-oriented topic selection and browsing
JP5214679B2 (ja) 学習装置、方法及びプログラム
CN116612324A (zh) 基于语义自适应融合机制的小样本图像分类方法及装置
EP3910496A1 (en) Search method and device
JP2015069256A (ja) 文字識別システム
JP6202938B2 (ja) 画像認識装置および画像認識方法
US20160078315A1 (en) Auxiliary observing method and auxiliary observing apparatus
EP3959652A1 (en) Object discovery in images through categorizing object parts
JP2016040731A (ja) 画像検索装置、画像検索方法及びプログラム
JP5083162B2 (ja) 画像データ判定装置、画像データ判定システム、及びプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513