JP2012194691A - 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 - Google Patents
識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 Download PDFInfo
- Publication number
- JP2012194691A JP2012194691A JP2011057052A JP2011057052A JP2012194691A JP 2012194691 A JP2012194691 A JP 2012194691A JP 2011057052 A JP2011057052 A JP 2011057052A JP 2011057052 A JP2011057052 A JP 2011057052A JP 2012194691 A JP2012194691 A JP 2012194691A
- Authority
- JP
- Japan
- Prior art keywords
- class
- evaluation
- user
- image
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】高精度で多様性を有する画像認識のための識別器の再学習方法を提供する。
【解決手段】ステップS201において、画像データを読み込む。ステップS202において、識別器により、読み込んだ画像に基づいて、画像に関連する言葉や意味等の画像認識を行い第1のクラスを決定する。ステップS203において、第1のクラスに関連、類似又は共起する関連語である第2のクラスを選択又は生成する。ステップS204において、第1のクラスと第2のクラスとを含むGUIに係る画像を、出力装置に出力する。また、前記GUIと入力装置とにより、第1のクラス及び第2のクラスに対するユーザの評価を取得する。ステップS205において、前記ユーザの評価に基づいて、画像に関連する第1のクラスを決定する画像認識方法についての再学習を行う。
【選択図】図2
【解決手段】ステップS201において、画像データを読み込む。ステップS202において、識別器により、読み込んだ画像に基づいて、画像に関連する言葉や意味等の画像認識を行い第1のクラスを決定する。ステップS203において、第1のクラスに関連、類似又は共起する関連語である第2のクラスを選択又は生成する。ステップS204において、第1のクラスと第2のクラスとを含むGUIに係る画像を、出力装置に出力する。また、前記GUIと入力装置とにより、第1のクラス及び第2のクラスに対するユーザの評価を取得する。ステップS205において、前記ユーザの評価に基づいて、画像に関連する第1のクラスを決定する画像認識方法についての再学習を行う。
【選択図】図2
Description
本発明は、画像認識により画像に関するクラスを決定する識別器の再学習方法、再学習のためのプログラム、及び画像認識装置に関する。
近年、統計的機械学習によるパターン認識技術に関する提案が多数なされている。このパターン認識技術では、大量の教師データに基づいて学習を実施し、認識処理を行う識別器を構成する。
例えば、非特許文献1には、画像に含まれる物体を識別する識別器の識別において、識別される複数のクラスが共起する確率を考慮した学習を行い、共起する複数のクラスを認識結果として出力する方法が開示されている。
また、特許文献1には、画像処理装置において、画像に関連するキーワードを選択し、そのキーワードに基づいて、文章を作成する技術が開示されている。
例えば、非特許文献1には、画像に含まれる物体を識別する識別器の識別において、識別される複数のクラスが共起する確率を考慮した学習を行い、共起する複数のクラスを認識結果として出力する方法が開示されている。
また、特許文献1には、画像処理装置において、画像に関連するキーワードを選択し、そのキーワードに基づいて、文章を作成する技術が開示されている。
岡部孝弘他著「カテゴリーの共起を考慮した回帰による複数物体の認識」電子情報通信学会論文誌D,Vol.J92−D,pp1115−1124,2009年
前記特許文献1及び前記非特許文献1に開示されている技術において、当該識別器は、学習時に用いられたクラスに対応する認識結果しか出力することができず、学習時に用いられなかったクラスに対応する認識結果を出力することはできない。すなわち、識別器による認識結果は、学習時に用いられたクラスに対応する認識結果に限定される。
そこで本発明は、認識結果が多様性を有し、学習時に用いられたクラスのみに制限されることがなく、これにより精度が高い画像認識を行うことができる識別器を得るための再学習方法、再学習のためのプログラム、及び画像認識装置を提供することを目的とする。
前記目的を果たすため、本発明の識別器の再学習方法の一態様は、画像認識により画像に関するクラスを決定する識別器の再学習方法であって、予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第1のクラスを決定することと、前記第1のクラスと関連、類似又は共起する第2のクラスを決定することと、前記第1のクラスと前記第2のクラスとをユーザに提示することと、前記第1のクラスに対する前記ユーザの第1の評価と、前記第2のクラスに対する該ユーザの第2の評価とを受け取ることと、前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施することと、を含むことを特徴とする。
前記目的を果たすため、本発明の識別器の再学習のためのプログラムの一態様は、画像認識により画像に関するクラスを決定する識別器の再学習のためのプログラムであって、予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第1のクラスを決定するステップと、前記第1のクラスと関連、類似又は共起する第2のクラスを決定するステップと、前記第1のクラスと前記第2のクラスとをユーザに提示するステップと、前記第1のクラスに対する前記ユーザの第1の評価と、前記第2のクラスに対する該ユーザの第2の評価とを受け取るステップと、前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施するステップと、をコンピュータに発揮させることを特徴とする。
また、前記目的を果たすため、本発明の画像認識装置の一態様は、画像データを読み込む画像読み込み部と、予め実施した画像認識のための学習結果を有し、読み込んだ前記画像データが表す画像と該学習結果とに基づいて第1のクラスを決定する識別器と、前記第1のクラスと関連、類似又は共起する第2のクラスを決定する関連語生成部と、出力装置に前記第1のクラスと前記第2のクラスとをユーザに提示させ、該ユーザの指示を受け取る入力装置からの信号に基づいて、該第1のクラスに対する該ユーザの第1の評価と、該第2のクラスに対する該ユーザの第2の評価とを取得するインターフェース制御部と、前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施する再学習部と、を具備し、前記識別器により前記画像に関するクラスを決定する画像認識を実施することを特徴とする。
本発明によれば、識別器が出力する第1のクラスと、第1のクラスと関連、類似又は共起する第2のクラスとに対するユーザの評価に基づいて再学習を行うので、多様性を有し精度が高い画像認識を行う識別器の再学習方法、再学習のためのプログラム、及び画像認識装置を提供できる。
[第1の実施形態]
まず、本発明の第1の実施形態について図面を参照して説明する。本実施形態は、画像データに対するクラスの認識処理として、画像に関連するキーワードを出力する画像認識装置である。
まず、本実施形態に係る画像認識装置の構成を図1を参照して説明する。本画像認識装置は、演算装置110、画像入力装置122、画像データベース記憶装置124、記憶装置130、出力装置140、及び入力装置150を備える。
演算装置110は、画像読み込み部111、識別器112、関連語生成部113、GUI制御部114、及び再学習部115を有する。
まず、本発明の第1の実施形態について図面を参照して説明する。本実施形態は、画像データに対するクラスの認識処理として、画像に関連するキーワードを出力する画像認識装置である。
まず、本実施形態に係る画像認識装置の構成を図1を参照して説明する。本画像認識装置は、演算装置110、画像入力装置122、画像データベース記憶装置124、記憶装置130、出力装置140、及び入力装置150を備える。
演算装置110は、画像読み込み部111、識別器112、関連語生成部113、GUI制御部114、及び再学習部115を有する。
画像読み込み部111は、画像入力装置122又は画像データベース記憶装置124から画像データを読み込む。画像読み込み部111は、読み込んだ画像データを識別器112に出力する。ここで、画像入力装置122は、例えばデジタルカメラや画像を記憶した記憶媒体である。また、画像データベース記憶装置124は、例えば画像のデータベースを記憶した記憶媒体であり、これは例えばネットワークサーバであってもよい。
識別器112は、画像読み込み部111から入力した画像データに基づいて、その画像データが表す画像に関連する言葉や意味等の認識を行い、キーワードを決定する。識別器112が決定したこのキーワードを、第1のクラスと称する。この画像認識には、例えばScale Invariant Feature Transform(SIFT)特徴量や、Histograms of Oriented Gradients(HOG)特徴量に基づいた物体認識を利用することができる。この識別器112は、予め多くの教師データを用いて学習されたものである。識別器112は、第1のクラスを、関連語生成部113とGUI制御部114とに出力する。
関連語生成部113は、識別器112から入力した第1のクラスと、関連、類似又は共起する言葉又は意味、すなわち関連語を、選択又は生成する。関連語生成部113が選択又は生成したこの関連語を、第2のクラスと称する。ここで、関連語生成部113は、記憶装置130に保存されている関連/類似/共起データベース132を参照して、関連/類似/共起データベース132内のデータのうち、前記認識結果である第1のクラスに対して関連、類似又は共起する関連語である第2のクラスを検索し、選択することができる。また、関連語生成部113は、前記第1のクラスに対して関連、類似又は共起する関連語である第2のクラスを、協調フィルタリング処理によって生成することができる。関連語生成部113は、検索又は生成した関連語である第2のクラスを、GUI制御部114に出力する。
GUI制御部114は、例えばディスプレイである出力装置140に、画像信号を出力する。本実施形態では、この画像信号はグラフィカル・ユーザ・インタフェース(GUI)としての画像を表す信号とする。このGUIに係る画像は、後に詳述するように、識別器112より入力された認識結果である第1のクラスと、関連語生成部113より入力された関連語である第2のクラスと、それら各々に対するユーザの評価を入力するための画像とを含む。GUI制御部114は、例えばマウスである入力装置150から、前記GUIに係るユーザの入力を受け取り、第1のクラス、及び第2のクラスに対するユーザの評価を取得する。GUI制御部114は、第1のクラス、第2のクラス、及びそれら各々に対するユーザの評価を、再学習部115に出力する。GUIを用いることで、ユーザは、容易に第1のクラス及び第2のクラスに対する評価を入力することができる。
再学習部115は、GUI制御部114から入力した第1のクラス、第2のクラス、及びそれら各々に対するユーザの評価に基づいて、識別器112における第1のクラスの決定のための画像認識方法についての再学習を行う。再学習の方法としては、線形的手法である判別分析法若しくは正準相関分析法、又は、非線形的手法であるカーネル判別分析法、カーネル正準分析法、SVM(サポートベクタマシン)若しくはMKL(マルチプルカーネルラーニング)など、任意の学習法を用いることができる。再学習部115は、再学習の結果を、識別器112に出力し、識別器112の画像認識方法に前記再学習の結果を反映させるように、識別器112を更新する。
このように、例えば画像読み込み部111は、画像データを読み込む画像読み込み部として機能し、例えば識別器112は、読み込んだ画像データが表す画像と学習結果とに基づいて第1のクラスを決定する識別器として機能し、例えば関連語生成部113は、第1のクラスと関連、類似又は共起する第2のクラスを決定する関連語生成部として機能し、例えばGUI制御部114は、出力装置に第1のクラスと第2のクラスとをユーザに提示させ、入力装置からの信号に基づいて、ユーザの第1の評価とユーザの第2の評価とを取得するインターフェース制御部として機能し、例えば再学習部115は、画像認識のための再学習を実施し、識別器を更新する再学習部として機能する。
次に本画像認識装置の動作を説明する。図2に、本実施形態の認識方法に係る演算装置110の処理を表すフローチャートを示す。
ステップS201において、演算装置110は、画像読み込み部111により、画像入力装置122又は画像データベース記憶装置124から画像データを読み込む。
ステップS201において、演算装置110は、画像読み込み部111により、画像入力装置122又は画像データベース記憶装置124から画像データを読み込む。
ステップS202において、演算装置110は、識別器112により、ステップS201において読み込んだ画像データに基づいて、その画像データが表す画像に関連する言葉や意味等の認識を行い、認識結果である第1のクラスを決定する。
ステップS203において、演算装置110は、関連語生成部113により、識別器112による認識結果である第1のクラスに関連、類似又は共起する関連語である第2のクラスを、選択又は生成する。
ステップS203において、演算装置110は、関連語生成部113により、識別器112による認識結果である第1のクラスに関連、類似又は共起する関連語である第2のクラスを、選択又は生成する。
ステップS204において、演算装置110は、GUI制御部114により、ステップS202において決定した認識結果である第1のクラスと、ステップS203において選択又は生成した関連語である第2のクラスとを含むGUIに係る画像を、出力装置140に出力する。また、GUI制御部114は、前記GUIと入力装置150とにより、第1のクラス及び第2のクラスに対するユーザの評価を取得する。
ステップS205において、演算装置110は、再学習部115により、第1のクラスと第2のクラスと、ステップS204において入力したユーザの評価とに基づいて、再学習を行い、識別器112を更新する。この再学習は、ステップS202において行う、画像認識により画像に関連する言葉や意味等を表す第1のクラスを決定する認識方法についての再学習である。
本実施形態に係る画像認識装置による認識と、その再学習の例とを図3を参照して説明する。演算装置110の画像読み込み部111が、ステップS201において、画像301を入力したとする。このとき識別器112は、ステップS202において、この画像301に対して、認識結果として第1のクラスであるキーワード「山」302を出力する。
関連語生成部113は、ステップS203において、キーワード「山」302に関連する第2のクラスである、関連語「木」303及び関連語「花」304を選択する。
関連語生成部113は、ステップS203において、キーワード「山」302に関連する第2のクラスである、関連語「木」303及び関連語「花」304を選択する。
ステップS203において関連語生成部113によって実施される、第1のクラスとしてのキーワードに関連する第2のクラスとしての関連語の選択には、例えば図4に示すような、言葉の類似度表を用いることができる。例えば、関連語生成部113は、このような類似度表に基づいて、当該キーワードと類似度が高い方から順に一定数だけ関連語を選択することができる。なお、参照する類似度表は、シソーラスのような、言葉の間の関連性を示すものであれば任意の表を用いることができる。この類似度表は、記憶装置130に記憶しておけばよい。
上記のような類似度表を用いると、関連語生成部113は、容易に関連語を選定することができる。さらに、再学習部115による再学習に応じて、類似度表を適切に更新することも可能である。類似度表を更新すれば、再学習を繰り返すことにより、関連語生成部113に、より適切なキーワードを出力させることができるようになる。
また、各種キーワードに対して情報推薦システムで行われているような手法、例えば、コンテンツに基づくフィルタリングや、集合知に基づく協調フィルタリングといった、関連キーワードや推薦キーワードを出力する手法を用いることもできる。例えば協調フィルタリングに基づくと、類似するという観点ではなく、同一の画像に同時に写っている確率が高いような関連語が選定されることになる。したがって、類似する関連語のみならず、より多様な関連語を出力する識別器112を生成することができる。
図3に戻って説明を続ける。GUI制御部114は、ステップS204において、ディスプレイである出力装置140に、GUIに係る画像を出力する。このGUIに係る画像には、キーワード「山」302、関連語「木」303、及び関連語「花」304と、それらの適切度に係る評価をユーザが入力する際に用いるチェックボックスとを含む画像305,306,307が含まれる。
ステップS204においてGUI制御部114が出力装置140に表示させるグラフィカル・ユーザ・インタフェース(GUI)の例を、図5及び図6に示す。図5に示す例では、キーワード及び関連語と、ユーザがそれらが適切であるか否かを選択するためのチェックボックスとが表示される。この例では、ユーザは、入力装置150である例えばマウスを使って、チェックボックスにチェックを入れたりチェックを外したりし、最後に決定ボタンを押す。このチェックボックスにより、ユーザは、各キーワードの評価を入力することができる。より具体的には、ユーザは、画像305,306,307を確認しながら、キーワード「山」302、関連語「木」303、及び関連語「花」304のそれぞれについて、チェックボックスを使い、○又は×の2者択一による評価結果の入力を行うことができる。この例では、関連語「木」303及び関連語「花」304のみならず、識別器112の認識結果であるキーワード「山」302についても、ユーザの評価が入力される。
例えば、ユーザによって「山」と「木」が○であり「花」が×であると評価されたとする。この場合、再学習部115は、ステップS205において、「山」と「木」という言葉の組み合わせを教師データとして、画像認識について再学習を実施する。
一方、図6に示す例では、キーワード及び関連語と、ユーザがそれらの適切さを入力するためのスライダとが表示される。この例では、ユーザは、スライダを操作することにより、各キーワード又は関連語の適切さを評価結果として入力することができる。すなわち、図6に示す例では、ユーザによる評価が、図5に示した例のように○又は×による2値の評価ではなく、実数による評価値として入力される。例えば、キーワード「山」302に対する評価値が0.9、関連語「木」303に対する評価値が0.7、関連語「花」304に対する評価値が0.2といったように、それぞれ評価値を入力することができる。このように実数による評価値を用いる場合、再学習部115は、評価値を重みとし、重みを考慮して画像認識について再学習を行うことができる。
このように、重みを考慮して再学習を行うと、○又は×による2値の評価の場合と比較して、効率的に学習が行われる。
このように、重みを考慮して再学習を行うと、○又は×による2値の評価の場合と比較して、効率的に学習が行われる。
また、図7及び図8に示すように、グラフ状の表示を用いたGUIを用いることもできる。この例では、2次元平面を用いている。この例では、表示領域401に、2次元グラフ402が設けられる。2次元グラフ402において、縦軸は識別器112により出力されたキーワードの適切さを示し、横軸は識別器112によるキーワードに基づいて関連語生成部113が出力する関連語の適切さを示す。図7及び図8の例では、ともに縦軸は、識別器112から出力された認識結果としてのキーワード「山」の適切さを表す。図7の例では横軸は、関連語生成部113から出力された「山」に関連する関連語「木」の適切さを表す。図8の例では横軸は、関連語生成部113から出力された「山」に関連する関連語「花」の適切さを表す。
ステップS204においてGUI制御部114は、ステップS201において画像読み込み部111により読み込んだ画像データの画像403を、2次元グラフ402上に配置して表示させる。初期状態では、識別器112から出力されたキーワード「山」が適切であり、関連語「木」又は「花」については適切でないことを表す図7及び図8に示すグラフおける左上の位置に、画像403を配置する。
ユーザは、縦軸に設定されたキーワード「山」の適切さと、横軸に設定された関連語「木」又は「花」の適切さとを評価する。ユーザは、その評価結果を表すようなグラフ上の位置に、画像を移動させるように、当該GUIを用いて操作する。例えば、図7及び図8に示す画像404の位置に画像を移動させる。このようにしてユーザは、キーワード及び関連語の適切さの評価結果を入力することができる。
演算装置110は、ステップS204において、ユーザによって画像が移動された先の位置を検出することでユーザの評価を入力し、その評価に基づいて、ステップS205において再学習を行い、識別器112を更新する。
関連語生成部113から複数の関連語が出力される場合、例えば、図7に示すようなGUIと図8に示すようなGUIとを、例えばディスプレイである出力装置140に順次表示し、ユーザの評価結果を、順次入力できるように構成することができる。また、例えば、図7に示すようなGUIと図8に示すようなGUIとを、ディスプレイに並べて同時に表示することで、ユーザの評価結果を入力できるように構成することができる。
また、図9に示すように、表示領域401に、3次元座標系412を設定し、1つの軸を、識別器112により出力されたキーワードの適切さを示す軸とし、他の2軸を、識別器112によるキーワードに基づいて関連語生成部113が出力する関連語の適切さを示す軸とすることができる。ユーザは、読み込んだ画像データに基づく画像413の表示された位置を、評価結果を表すような3次元グラフ上の画像414の位置に、GUIにより移動させることができる。このようにしてユーザは、各キーワードの適切さの評価結果を入力することができる。
ここで、関連語生成部113で選択又は生成される関連語についてさらに説明する。関連語生成部113は、識別器112の出力結果を多様化するという点からは、それまでに用いられることがなかった関連語を出力することが好ましい。また、識別器112の認識結果を高精度化するという観点、又はユーザの嗜好に基づいてパーソナライズするという観点からは、関連語生成部113は、それまでの学習に用いられている関連語を、再度出力することが好ましい。
ユーザの嗜好という観点において、ユーザ固有の関連/類似/共起データベース132を用いて学習を行うと、ユーザ毎に固有の識別器112が構成される。そのような識別器112で認識されるクラスは、特定の分野のクラスに関連して詳細度が高くなる等、特定のユーザに対するパーソナライズが行われる。その結果、当該ユーザの興味の分野に関する認識精度が向上するというメリットがある。
例えば、図3には、キーワード「山」302が認識され、このキーワードに対して関連語「木」303及び関連語「花」304といった、一般的な言葉が選定される例を示している。これに対して、パーソナライズされた識別器112では、関連語生成部113が、ユーザ固有の関連/類似/共起データベース132を参照すること等により、キーワードに関連、類似又は共起する関連語を出力して、これに基づいて、識別器112が再学習を行う。したがって、パーソナライズされた識別器112によれば、「富士山」若しくは「八ヶ岳」といった特定の山の名前を示すキーワードや、特定の登山家の名前を示すキーワードや、過去にいっしょに登山した仲間の名前を示すキーワードや、山岳用品ショップを示すキーワード等といった、ユーザ特有の嗜好を良好に反映するキーワードが出力される。
本実施形態の画像認識装置は、統計的学習に基づくパターン認識の手法による識別器112の出力結果である第1のクラス(キーワード)に併せて、クラス間の関連度、類似度又は共起度に基づいて関連語生成部113によって選定された第2のクラス(関連語)を、ユーザに提示する。さらに、この画像認識装置は、ユーザに提示した第1のクラス及び第2のクラスに対するユーザの評価を入力する処理を行う。この画像認識装置は、入力したユーザの評価結果に基づいて再学習を実施し、識別器112の更新を行う。このため、ユーザ毎の嗜好にマッチするような認識結果を出力できるように最適化された、多様性を有し精度の良い識別器112を生成することができる。
このような、多様性を有し精度がよい識別器112を含む本実施形態の画像認識装置は、入力画像に対して、多様でユーザの嗜好に適合した、適切なキーワードを出力することができる。
なお、演算装置110や記憶装置130は、ネットワークサーバ上にあってもよい。
なお、演算装置110や記憶装置130は、ネットワークサーバ上にあってもよい。
また、本実施形態では、グラフィカル・ユーザ・インタフェース(GUI)を用いて、ユーザにキーワードや関連語を示し、それらの評価を受け取る例を示したが、GUIを使うものに限定されない。入力装置150として、例えばボタン、スイッチ、キーボードを用いることができるし、出力装置は、ディスプレイに限らず例えばプリンタや、音声を出力するスピーカを用いることもできる。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、関連語生成部113は、出力する第2のクラスとしての関連語に併せて、その関連語の信頼度の値を出力する。
次に、本発明の第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、関連語生成部113は、出力する第2のクラスとしての関連語に併せて、その関連語の信頼度の値を出力する。
このため本実施形態では、関連語生成部113は、ステップS203における関連語の選択又は生成とともに、それら関連語の信頼度を算出する。関連語生成部113は、関連語と併せて、それらの信頼度を、GUI制御部114に出力する。ステップS205における再学習部115による再学習では、上記の関連語の信頼度も利用する。
本実施形態に係る画像認識装置による認識とその再学習の例を図10を参照して説明する。この例では、画像読み込み部111が、ステップS201において、画像301を入力したとする。このとき識別器112は、ステップS202において、この画像301に対して、認識結果としてキーワード「山」302を出力する。
関連語生成部113は、ステップS203において、キーワード「山」302に関連する例えば、関連語「木」303及び関連語「花」304を選択する。さらに、関連語生成部113は、関連語「木」303の信頼度を例えば0.8と算出し、その信頼度の情報308も、GUI制御部114を介して、再学習部115に出力する。同様に、関連語生成部113は、関連語「花」304の信頼度を例えば0.7と算出し、その信頼度の情報309も、GUI制御部114を介して、再学習部115に出力する。
GUI制御部114は、ステップS204において、ディスプレイである出力装置140に、キーワード「山」302と、関連語「木」303及び関連語「花」304と、これらそれぞれについて、○及び×と、それらに対応するチェックボックスとを含む画像305,306,307を表示させる。
この場合、ユーザは、画像305,306,307を確認しながら、チェックボックスを使い、キーワード「山」302、関連語「木」303及び関連語「花」304それぞれについて、入力装置150を用いて、○又は×の2者択一によって評価結果の入力を行うことができる。
図10の例では、ユーザによってキーワード「山」と関連語「木」が○であり、関連語「花」が×であると評価されたとする。この場合、再学習部115は、「山」と「木」という言葉の組み合わせを教師データとして、認識の再学習を実施する。再学習に際し、再学習部115は、各言葉に付与されている信頼度の値に基づく重みを考慮する。すなわち、図10に示す例の場合には、「山」に対して1、「木」に対して0.8という重みを考慮して、再学習を実施する。
本実施形態によれば、信頼度に基づく重みを考慮して再学習を行うので、学習の効果が向上し、より早く精度のよい識別器112を生成することができる。
本実施形態によれば、信頼度に基づく重みを考慮して再学習を行うので、学習の効果が向上し、より早く精度のよい識別器112を生成することができる。
なお、ユーザによる評価は、○又は×の2者択一によらずとも、図6乃至9を参照して説明したように、実数値による評価でもよい。この場合、例えば、ユーザの評価と、関連語生成部113が算出した信頼度との和や積を重みとして、再学習部115が再学習を行ってもよい。
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器112が認識結果として複数のキーワードを出力する場合に、関連語生成部113は、出力された複数のキーワードに対して統計処理を行い、関連語を選定する。
次に、本発明の第3の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器112が認識結果として複数のキーワードを出力する場合に、関連語生成部113は、出力された複数のキーワードに対して統計処理を行い、関連語を選定する。
例えば、ある画像に対して識別器112は、「山」と「川」という2つのキーワードを識別結果として出力したとする。このとき、例えば図4に示すような表に基づくと、関連語生成部113は、「山」というキーワードに対しては、評価値が0.8である「木」という関連語と、評価値が0.7である「花」という関連語とを選定する。同様に、図4に示すような表に基づくと、関連語生成部113は、「川」というキーワードに対しては、評価値が0.8である「海」という関連語と、評価値が0.4である「木」という関連語とを選定する。さらに、関連語生成部113は、「山」というキーワードと「川」というキーワードとに対して統計処理、例えば協調フィルタリングを行う。その結果、関連語生成部113は、「山」というキーワードと「川」というキーワードとに基づいて、「空」という関連語を選定する。GUI制御部114は、識別器112と関連語生成部113とから入力した、「山」、「川」、「木」、「花」、「海」、「空」というキーワード及び関連語を、ユーザに提示する。その後は、第1の実施形態の場合と同様に、これらキーワード及び関連語のユーザによる評価結果に基づいて、識別器112の更新を行う。
このように、本実施形態では、ステップS202において、識別器112は、認識結果として複数のキーワードを関連語生成部113に出力する。ステップS203において、関連語生成部113は、識別器112から入力した複数のキーワードのそれぞれに対する関連語と、識別器112から入力した複数のキーワードに統計処理を行い選定される関連語とを、GUI制御部114に出力する。その他の動作は、第1の実施形態の場合と同様である。
本実施形態によれば、関連語生成部113は、識別器112から出力された複数の第1のクラス(キーワード)に互いに関連、類似又は共起する第2のクラス(関連語)を選定するので、各第1のクラスに関連、類似又は共起する第2のクラスのみを選定する場合とは異なる、新たな第2のクラスを選定することができる。その結果、識別器112を、より多様なクラスの出力が可能なものに更新することができる。
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器112が出力する第1のクラスとしてのキーワードを複数のカテゴリに分類したときに、関連語生成部113は、複数のカテゴリ間の関連性に基づいて関連語の選定を行う。
次に、本発明の第4の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器112が出力する第1のクラスとしてのキーワードを複数のカテゴリに分類したときに、関連語生成部113は、複数のカテゴリ間の関連性に基づいて関連語の選定を行う。
図4に示す表には、画像内に存在する物体に関する言葉とその関連性が示されている。このような物体に関する複数の言葉を1つのカテゴリと考える。このようなカテゴリの他にも、例えば図11に示すようなカテゴリを考えることもできる。図11には、画像内の状態に関する言葉とその関連性が示されている。このように、認識結果である言葉は、いくつかのカテゴリに分類することができる。本実施形態では、関連語生成部113は、同一のカテゴリから第2のクラスである関連語を選定するのみならず、異なるカテゴリ間での言葉の関連性に基づいて、識別器112が出力したキーワードが属するカテゴリ以外のカテゴリに属する関連語を選定する。
例えば識別器112が、図4に示すような物体的なカテゴリから「山」というキーワードを出力し、それとともに図11に示すような状態的なカテゴリから「暖かい」というキーワードを出力する場合を考える。このとき、「山」と「暖かい」というキーワードから、関連語生成部113は、前記物体的なカテゴリとも前記状態的なカテゴリとも異なる季節というカテゴリに属する「春」という関連語を選定する。
このようなカテゴリ間の関連語を選定する場合に、カテゴリについての優先度の評価を行うことも可能である。関連語生成部113は、カテゴリの優先度を考慮の上、各カテゴリに含まれる言葉から、異なるカテゴリ間の関係に基づいて、関連語を選定することができる。すなわち、関連語生成部113は、カテゴリの優先度も考慮した関連語の選定を行うことができる。このようにして選定された関連語に対するユーザの評価に基づいて再学習を行うことで、より多様でユーザの嗜好にマッチした識別器112を生成することが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても、発明が解決しようとする課題の欄で述べられた課題が解決でき、かつ、発明の効果が得られる場合には、この構成要素が削除された構成も発明として抽出され得る。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
110…演算装置、111…画像読み込み部、112…識別器、113…関連語生成部、114…GUI制御部、115…再学習部、122…画像入力装置、124…画像データベース記憶装置、130…記憶装置、132…関連/類似/共起データベース、140…出力装置、150…入力装置。
Claims (13)
- 画像認識により画像に関するクラスを決定する識別器の再学習方法であって、
予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第1のクラスを決定することと、
前記第1のクラスと関連、類似又は共起する第2のクラスを決定することと、
前記第1のクラスと前記第2のクラスとをユーザに提示することと、
前記第1のクラスに対する前記ユーザの第1の評価と、前記第2のクラスに対する該ユーザの第2の評価とを受け取ることと、
前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施することと、
を含むことを特徴とする識別器の再学習方法。 - 前記第1のクラス又は前記第2のクラスの信頼度を示す値を決定することをさらに含み、
前記再学習は、前記信頼度を示す値を用いて実施される、
ことを特徴とする請求項1に記載の識別器の再学習方法。 - 前記識別器は、少なくとも2つの前記第1のクラスを決定し、
前記少なくとも2つの前記第1のクラスに関連、類似又は共起する第3のクラスを決定することと、
前記第3のクラスを前記ユーザに提示することと、
前記第3のクラスに対する前記ユーザの第3の評価を受け取ることと、
をさらに含み、
前記再学習は、前記第1のクラスと前記第2のクラスと前記第3のクラスと前記第1の評価と前記第2の評価と前記第3の評価とに基づいて実施される、
ことを特徴とする請求項1又は2に記載の識別器の再学習方法。 - 前記第2のクラスを決定することは、予め作成されたクラス間の関連度、類似度、又は共起度を表すテーブルを参照することにより実施されることを特徴とする請求項1乃至3のうち何れか1項に記載の識別器の再学習方法。
- 前記第2のクラスを決定することは、情報推薦手法により実施されることを特徴とする請求項1乃至3のうち何れか1項に記載の識別器の再学習方法。
- 前記情報推薦手法は、コンテンツに基づくフィルタリング、又は協調フィルタリングであることを特徴とする請求項5に記載の識別器の再学習方法。
- 前記識別器は、少なくとも2つの異なるカテゴリのそれぞれから、該カテゴリに属する少なくとも1つずつの前記第1のクラスを決定し、
前記少なくとも2つの異なる前記カテゴリの特徴と、少なくとも2つの前記第1のクラスの特徴とを統計的に扱い、該少なくとも2つの該カテゴリとは異なるカテゴリに属し、かつ該少なくとも2つの該第1のクラスに関連、類似又は共起する第4のクラスを決定することと、
前記第4のクラスを前記ユーザに提示することと、
前記第4のクラスに対する前記ユーザの第4の評価を受け取ることと、
をさらに含み、
前記再学習は、前記第1のクラスと前記第2のクラスと前記第4のクラスと前記第1の評価と前記第2の評価と前記第4の評価とに基づいて実施される、
ことを特徴とする請求項1に記載の識別器の再学習方法。 - 画像認識により画像に関するクラスを決定する識別器の再学習のためのプログラムであって、
予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第1のクラスを決定するステップと、
前記第1のクラスと関連、類似又は共起する第2のクラスを決定するステップと、
前記第1のクラスと前記第2のクラスとをユーザに提示するステップと、
前記第1のクラスに対する前記ユーザの第1の評価と、前記第2のクラスに対する該ユーザの第2の評価とを受け取るステップと、
前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施するステップと、
をコンピュータに発揮させることを特徴とする識別器の再学習のためのプログラム。 - 画像データを読み込む画像読み込み部と、
予め実施した画像認識のための学習結果を有し、読み込んだ前記画像データが表す画像と該学習結果とに基づいて第1のクラスを決定する識別器と、
前記第1のクラスと関連、類似又は共起する第2のクラスを決定する関連語生成部と、
出力装置に前記第1のクラスと前記第2のクラスとをユーザに提示させ、該ユーザの指示を受け取る入力装置からの信号に基づいて、該第1のクラスに対する該ユーザの第1の評価と、該第2のクラスに対する該ユーザの第2の評価とを取得するインターフェース制御部と、
前記第1のクラスと前記第2のクラスと前記第1の評価と前記第2の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施する再学習部と、
を具備し、
前記識別器により前記画像に関するクラスを決定する画像認識を実施することを特徴とする画像認識装置。 - 前記インターフェース制御部は、
前記第1のクラス及び前記第2のクラスと、前記ユーザの前記第1の評価及び前記第2の評価を設定するための評価入力画像とを前記出力装置に提示させることと、
前記ユーザによる前記入力装置の操作と前記評価入力画像との対応に基づいて、前記第1の評価及び前記第2の評価を取得することと、
を含むグラフィカル・ユーザ・インタフェースを制御することを特徴とする請求項9に記載の画像認識装置。 - 前記評価入力画像は、前記第1のクラス及び前記第2のクラスの各々に対応したチェックボックスであり、
前記インターフェース制御部は、前記ユーザが前記チェックボックスをチェックするか否かに応じて、前記第1のクラスが適切であるか否かを表す前記第1の評価と、前記第2のクラスが適切であるか否かを表す前記第2の評価とを取得する、
ことを特徴とする請求項10に記載の画像認識装置。 - 前記評価入力画像は、前記第1のクラス及び前記第2のクラスの各々に対応したスライダであり、
前記インターフェース制御部は、前記ユーザが設定した前記スライダが示す位置に応じて、前記第1のクラスの適切さを表す前記第1の評価と、前記第2のクラスの適切さを表す前記第2の評価とを取得する、
ことを特徴とする請求項10に記載の画像認識装置。 - 前記評価入力画像は、前記第1のクラス及び前記第2のクラスの各々に対応した座標軸を有する座標系であり、
前記インターフェース制御部は、前記ユーザが指定した前記座標系における位置に応じて、前記第1のクラスの適切さを表す前記第1の評価と、前記第2のクラスの適切さを表す前記第2の評価とを取得する、
ことを特徴とする請求項10に記載の画像認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057052A JP2012194691A (ja) | 2011-03-15 | 2011-03-15 | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057052A JP2012194691A (ja) | 2011-03-15 | 2011-03-15 | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012194691A true JP2012194691A (ja) | 2012-10-11 |
Family
ID=47086534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011057052A Withdrawn JP2012194691A (ja) | 2011-03-15 | 2011-03-15 | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012194691A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016206805A (ja) * | 2015-04-17 | 2016-12-08 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 識別サーバ、識別方法及び識別プログラム |
WO2018142702A1 (ja) * | 2017-01-31 | 2018-08-09 | 株式会社ニコン | 培養支援装置、観察装置、及びプログラム |
JP2019036087A (ja) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | 生成装置、生成方法、生成プログラム、学習データ、及びモデル |
JP2022068264A (ja) * | 2021-04-12 | 2022-05-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 |
US11551134B2 (en) | 2016-12-22 | 2023-01-10 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
-
2011
- 2011-03-15 JP JP2011057052A patent/JP2012194691A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016206805A (ja) * | 2015-04-17 | 2016-12-08 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 識別サーバ、識別方法及び識別プログラム |
US11551134B2 (en) | 2016-12-22 | 2023-01-10 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
WO2018142702A1 (ja) * | 2017-01-31 | 2018-08-09 | 株式会社ニコン | 培養支援装置、観察装置、及びプログラム |
US11640664B2 (en) | 2017-01-31 | 2023-05-02 | Nikon Corporation | Culturing assistance device, observation device and program |
JP2019036087A (ja) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | 生成装置、生成方法、生成プログラム、学習データ、及びモデル |
JP2022068264A (ja) * | 2021-04-12 | 2022-05-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 |
JP7331175B2 (ja) | 2021-04-12 | 2023-08-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
US9218364B1 (en) | Monitoring an any-image labeling engine | |
CN108269110B (zh) | 基于社区问答的物品推荐方法、系统及用户设备 | |
US20190287139A1 (en) | Generating a shoppable video | |
CN101281540B (zh) | 用于处理信息的设备、方法和计算机程序 | |
CN112313697A (zh) | 用于生成描述角度增强的可解释的基于描述的推荐的系统和方法 | |
US9037600B1 (en) | Any-image labeling engine | |
CN109844767A (zh) | 基于图像分析和预测的可视化搜索 | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
CN113688951A (zh) | 视频数据处理方法以及装置 | |
CN115618101A (zh) | 基于负反馈的流媒体内容推荐方法、装置及电子设备 | |
CN114898192A (zh) | 模型训练方法、预测方法、设备、存储介质及程序产品 | |
KR102119518B1 (ko) | 인공지능을 이용하여 생성되는 스타일 공간에 기반한 상품 추천 방법 및 시스템 | |
Wen et al. | Visual background recommendation for dance performances using deep matrix factorization | |
JP2013025745A (ja) | 教師データの作成方法、教師データの作成のためのプログラム、及び教師データ作成装置 | |
Sanguansub et al. | Song lyrics recommendation for social media captions using image captioning, image emotion, and caption-lyric matching via universal sentence embedding | |
CN110851629A (zh) | 一种图像检索的方法 | |
CN114443916B (zh) | 一种面向试验数据的供需匹配方法及系统 | |
JP2007241881A (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN111522914B (zh) | 标注数据采集方法、装置、电子设备及存储介质 | |
CN116955599A (zh) | 一种类目确定的方法、相关装置、设备以及存储介质 | |
Milleville et al. | Enriching Image Archives via Facial Recognition | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 | |
CN117056575B (zh) | 一种基于智能图书推荐系统数据采集的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |