JP2012194691A

JP2012194691A - 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置

Info

Publication number: JP2012194691A
Application number: JP2011057052A
Authority: JP
Inventors: Hiroshi Matsuzaki; 弘松崎
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2011-03-15
Filing date: 2011-03-15
Publication date: 2012-10-11

Abstract

【課題】高精度で多様性を有する画像認識のための識別器の再学習方法を提供する。
【解決手段】ステップＳ２０１において、画像データを読み込む。ステップＳ２０２において、識別器により、読み込んだ画像に基づいて、画像に関連する言葉や意味等の画像認識を行い第１のクラスを決定する。ステップＳ２０３において、第１のクラスに関連、類似又は共起する関連語である第２のクラスを選択又は生成する。ステップＳ２０４において、第１のクラスと第２のクラスとを含むＧＵＩに係る画像を、出力装置に出力する。また、前記ＧＵＩと入力装置とにより、第１のクラス及び第２のクラスに対するユーザの評価を取得する。ステップＳ２０５において、前記ユーザの評価に基づいて、画像に関連する第１のクラスを決定する画像認識方法についての再学習を行う。
【選択図】図２

Description

本発明は、画像認識により画像に関するクラスを決定する識別器の再学習方法、再学習のためのプログラム、及び画像認識装置に関する。

近年、統計的機械学習によるパターン認識技術に関する提案が多数なされている。このパターン認識技術では、大量の教師データに基づいて学習を実施し、認識処理を行う識別器を構成する。
例えば、非特許文献１には、画像に含まれる物体を識別する識別器の識別において、識別される複数のクラスが共起する確率を考慮した学習を行い、共起する複数のクラスを認識結果として出力する方法が開示されている。
また、特許文献１には、画像処理装置において、画像に関連するキーワードを選択し、そのキーワードに基づいて、文章を作成する技術が開示されている。

特開２００９−３２１５４号公報

岡部孝弘他著「カテゴリーの共起を考慮した回帰による複数物体の認識」電子情報通信学会論文誌Ｄ，Ｖｏｌ．Ｊ９２−Ｄ，ｐｐ１１１５−１１２４，２００９年

前記特許文献１及び前記非特許文献１に開示されている技術において、当該識別器は、学習時に用いられたクラスに対応する認識結果しか出力することができず、学習時に用いられなかったクラスに対応する認識結果を出力することはできない。すなわち、識別器による認識結果は、学習時に用いられたクラスに対応する認識結果に限定される。

そこで本発明は、認識結果が多様性を有し、学習時に用いられたクラスのみに制限されることがなく、これにより精度が高い画像認識を行うことができる識別器を得るための再学習方法、再学習のためのプログラム、及び画像認識装置を提供することを目的とする。

前記目的を果たすため、本発明の識別器の再学習方法の一態様は、画像認識により画像に関するクラスを決定する識別器の再学習方法であって、予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第１のクラスを決定することと、前記第１のクラスと関連、類似又は共起する第２のクラスを決定することと、前記第１のクラスと前記第２のクラスとをユーザに提示することと、前記第１のクラスに対する前記ユーザの第１の評価と、前記第２のクラスに対する該ユーザの第２の評価とを受け取ることと、前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施することと、を含むことを特徴とする。

前記目的を果たすため、本発明の識別器の再学習のためのプログラムの一態様は、画像認識により画像に関するクラスを決定する識別器の再学習のためのプログラムであって、予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第１のクラスを決定するステップと、前記第１のクラスと関連、類似又は共起する第２のクラスを決定するステップと、前記第１のクラスと前記第２のクラスとをユーザに提示するステップと、前記第１のクラスに対する前記ユーザの第１の評価と、前記第２のクラスに対する該ユーザの第２の評価とを受け取るステップと、前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施するステップと、をコンピュータに発揮させることを特徴とする。

また、前記目的を果たすため、本発明の画像認識装置の一態様は、画像データを読み込む画像読み込み部と、予め実施した画像認識のための学習結果を有し、読み込んだ前記画像データが表す画像と該学習結果とに基づいて第１のクラスを決定する識別器と、前記第１のクラスと関連、類似又は共起する第２のクラスを決定する関連語生成部と、出力装置に前記第１のクラスと前記第２のクラスとをユーザに提示させ、該ユーザの指示を受け取る入力装置からの信号に基づいて、該第１のクラスに対する該ユーザの第１の評価と、該第２のクラスに対する該ユーザの第２の評価とを取得するインターフェース制御部と、前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施する再学習部と、を具備し、前記識別器により前記画像に関するクラスを決定する画像認識を実施することを特徴とする。

本発明によれば、識別器が出力する第１のクラスと、第１のクラスと関連、類似又は共起する第２のクラスとに対するユーザの評価に基づいて再学習を行うので、多様性を有し精度が高い画像認識を行う識別器の再学習方法、再学習のためのプログラム、及び画像認識装置を提供できる。

本発明の各実施形態に係る画像認識装置の構成例を示すブロック図。本発明の各実施形態に係る画像認識装置の画像認識処理の一例を示すフローチャート。本発明の第１の実施形態に係る画像認識とその再学習の例を説明するための図。第１の実施形態に係る関連語生成部が用いる、キーワードと関連語との類似度を示す類似度表の一例を示す図。第１の実施形態に係るグラフィカル・ユーザ・インタフェースの一例を示す図。第１の実施形態に係るグラフィカル・ユーザ・インタフェースの別の例を示す図。第１の実施形態に係るグラフィカル・ユーザ・インタフェースの別の例を示す図。第１の実施形態に係るグラフィカル・ユーザ・インタフェースの別の例を示す図。第１の実施形態に係るグラフィカル・ユーザ・インタフェースの別の例を示す図。本発明の第２の実施形態に係る画像認識とその再学習の例を説明するための図。第２の実施形態に係る関連語生成部が用いる、キーワードと関連語との類似度を示す類似度表の一例を示す図。

［第１の実施形態］
まず、本発明の第１の実施形態について図面を参照して説明する。本実施形態は、画像データに対するクラスの認識処理として、画像に関連するキーワードを出力する画像認識装置である。
まず、本実施形態に係る画像認識装置の構成を図１を参照して説明する。本画像認識装置は、演算装置１１０、画像入力装置１２２、画像データベース記憶装置１２４、記憶装置１３０、出力装置１４０、及び入力装置１５０を備える。
演算装置１１０は、画像読み込み部１１１、識別器１１２、関連語生成部１１３、ＧＵＩ制御部１１４、及び再学習部１１５を有する。

画像読み込み部１１１は、画像入力装置１２２又は画像データベース記憶装置１２４から画像データを読み込む。画像読み込み部１１１は、読み込んだ画像データを識別器１１２に出力する。ここで、画像入力装置１２２は、例えばデジタルカメラや画像を記憶した記憶媒体である。また、画像データベース記憶装置１２４は、例えば画像のデータベースを記憶した記憶媒体であり、これは例えばネットワークサーバであってもよい。

識別器１１２は、画像読み込み部１１１から入力した画像データに基づいて、その画像データが表す画像に関連する言葉や意味等の認識を行い、キーワードを決定する。識別器１１２が決定したこのキーワードを、第１のクラスと称する。この画像認識には、例えばＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ（ＳＩＦＴ）特徴量や、ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ（ＨＯＧ）特徴量に基づいた物体認識を利用することができる。この識別器１１２は、予め多くの教師データを用いて学習されたものである。識別器１１２は、第１のクラスを、関連語生成部１１３とＧＵＩ制御部１１４とに出力する。

関連語生成部１１３は、識別器１１２から入力した第１のクラスと、関連、類似又は共起する言葉又は意味、すなわち関連語を、選択又は生成する。関連語生成部１１３が選択又は生成したこの関連語を、第２のクラスと称する。ここで、関連語生成部１１３は、記憶装置１３０に保存されている関連／類似／共起データベース１３２を参照して、関連／類似／共起データベース１３２内のデータのうち、前記認識結果である第１のクラスに対して関連、類似又は共起する関連語である第２のクラスを検索し、選択することができる。また、関連語生成部１１３は、前記第１のクラスに対して関連、類似又は共起する関連語である第２のクラスを、協調フィルタリング処理によって生成することができる。関連語生成部１１３は、検索又は生成した関連語である第２のクラスを、ＧＵＩ制御部１１４に出力する。

ＧＵＩ制御部１１４は、例えばディスプレイである出力装置１４０に、画像信号を出力する。本実施形態では、この画像信号はグラフィカル・ユーザ・インタフェース（ＧＵＩ）としての画像を表す信号とする。このＧＵＩに係る画像は、後に詳述するように、識別器１１２より入力された認識結果である第１のクラスと、関連語生成部１１３より入力された関連語である第２のクラスと、それら各々に対するユーザの評価を入力するための画像とを含む。ＧＵＩ制御部１１４は、例えばマウスである入力装置１５０から、前記ＧＵＩに係るユーザの入力を受け取り、第１のクラス、及び第２のクラスに対するユーザの評価を取得する。ＧＵＩ制御部１１４は、第１のクラス、第２のクラス、及びそれら各々に対するユーザの評価を、再学習部１１５に出力する。ＧＵＩを用いることで、ユーザは、容易に第１のクラス及び第２のクラスに対する評価を入力することができる。

再学習部１１５は、ＧＵＩ制御部１１４から入力した第１のクラス、第２のクラス、及びそれら各々に対するユーザの評価に基づいて、識別器１１２における第１のクラスの決定のための画像認識方法についての再学習を行う。再学習の方法としては、線形的手法である判別分析法若しくは正準相関分析法、又は、非線形的手法であるカーネル判別分析法、カーネル正準分析法、ＳＶＭ（サポートベクタマシン）若しくはＭＫＬ（マルチプルカーネルラーニング）など、任意の学習法を用いることができる。再学習部１１５は、再学習の結果を、識別器１１２に出力し、識別器１１２の画像認識方法に前記再学習の結果を反映させるように、識別器１１２を更新する。

このように、例えば画像読み込み部１１１は、画像データを読み込む画像読み込み部として機能し、例えば識別器１１２は、読み込んだ画像データが表す画像と学習結果とに基づいて第１のクラスを決定する識別器として機能し、例えば関連語生成部１１３は、第１のクラスと関連、類似又は共起する第２のクラスを決定する関連語生成部として機能し、例えばＧＵＩ制御部１１４は、出力装置に第１のクラスと第２のクラスとをユーザに提示させ、入力装置からの信号に基づいて、ユーザの第１の評価とユーザの第２の評価とを取得するインターフェース制御部として機能し、例えば再学習部１１５は、画像認識のための再学習を実施し、識別器を更新する再学習部として機能する。

次に本画像認識装置の動作を説明する。図２に、本実施形態の認識方法に係る演算装置１１０の処理を表すフローチャートを示す。
ステップＳ２０１において、演算装置１１０は、画像読み込み部１１１により、画像入力装置１２２又は画像データベース記憶装置１２４から画像データを読み込む。

ステップＳ２０２において、演算装置１１０は、識別器１１２により、ステップＳ２０１において読み込んだ画像データに基づいて、その画像データが表す画像に関連する言葉や意味等の認識を行い、認識結果である第１のクラスを決定する。
ステップＳ２０３において、演算装置１１０は、関連語生成部１１３により、識別器１１２による認識結果である第１のクラスに関連、類似又は共起する関連語である第２のクラスを、選択又は生成する。

ステップＳ２０４において、演算装置１１０は、ＧＵＩ制御部１１４により、ステップＳ２０２において決定した認識結果である第１のクラスと、ステップＳ２０３において選択又は生成した関連語である第２のクラスとを含むＧＵＩに係る画像を、出力装置１４０に出力する。また、ＧＵＩ制御部１１４は、前記ＧＵＩと入力装置１５０とにより、第１のクラス及び第２のクラスに対するユーザの評価を取得する。

ステップＳ２０５において、演算装置１１０は、再学習部１１５により、第１のクラスと第２のクラスと、ステップＳ２０４において入力したユーザの評価とに基づいて、再学習を行い、識別器１１２を更新する。この再学習は、ステップＳ２０２において行う、画像認識により画像に関連する言葉や意味等を表す第１のクラスを決定する認識方法についての再学習である。

本実施形態に係る画像認識装置による認識と、その再学習の例とを図３を参照して説明する。演算装置１１０の画像読み込み部１１１が、ステップＳ２０１において、画像３０１を入力したとする。このとき識別器１１２は、ステップＳ２０２において、この画像３０１に対して、認識結果として第１のクラスであるキーワード「山」３０２を出力する。
関連語生成部１１３は、ステップＳ２０３において、キーワード「山」３０２に関連する第２のクラスである、関連語「木」３０３及び関連語「花」３０４を選択する。

ステップＳ２０３において関連語生成部１１３によって実施される、第１のクラスとしてのキーワードに関連する第２のクラスとしての関連語の選択には、例えば図４に示すような、言葉の類似度表を用いることができる。例えば、関連語生成部１１３は、このような類似度表に基づいて、当該キーワードと類似度が高い方から順に一定数だけ関連語を選択することができる。なお、参照する類似度表は、シソーラスのような、言葉の間の関連性を示すものであれば任意の表を用いることができる。この類似度表は、記憶装置１３０に記憶しておけばよい。

上記のような類似度表を用いると、関連語生成部１１３は、容易に関連語を選定することができる。さらに、再学習部１１５による再学習に応じて、類似度表を適切に更新することも可能である。類似度表を更新すれば、再学習を繰り返すことにより、関連語生成部１１３に、より適切なキーワードを出力させることができるようになる。

また、各種キーワードに対して情報推薦システムで行われているような手法、例えば、コンテンツに基づくフィルタリングや、集合知に基づく協調フィルタリングといった、関連キーワードや推薦キーワードを出力する手法を用いることもできる。例えば協調フィルタリングに基づくと、類似するという観点ではなく、同一の画像に同時に写っている確率が高いような関連語が選定されることになる。したがって、類似する関連語のみならず、より多様な関連語を出力する識別器１１２を生成することができる。

図３に戻って説明を続ける。ＧＵＩ制御部１１４は、ステップＳ２０４において、ディスプレイである出力装置１４０に、ＧＵＩに係る画像を出力する。このＧＵＩに係る画像には、キーワード「山」３０２、関連語「木」３０３、及び関連語「花」３０４と、それらの適切度に係る評価をユーザが入力する際に用いるチェックボックスとを含む画像３０５，３０６，３０７が含まれる。

ステップＳ２０４においてＧＵＩ制御部１１４が出力装置１４０に表示させるグラフィカル・ユーザ・インタフェース（ＧＵＩ）の例を、図５及び図６に示す。図５に示す例では、キーワード及び関連語と、ユーザがそれらが適切であるか否かを選択するためのチェックボックスとが表示される。この例では、ユーザは、入力装置１５０である例えばマウスを使って、チェックボックスにチェックを入れたりチェックを外したりし、最後に決定ボタンを押す。このチェックボックスにより、ユーザは、各キーワードの評価を入力することができる。より具体的には、ユーザは、画像３０５，３０６，３０７を確認しながら、キーワード「山」３０２、関連語「木」３０３、及び関連語「花」３０４のそれぞれについて、チェックボックスを使い、○又は×の２者択一による評価結果の入力を行うことができる。この例では、関連語「木」３０３及び関連語「花」３０４のみならず、識別器１１２の認識結果であるキーワード「山」３０２についても、ユーザの評価が入力される。

例えば、ユーザによって「山」と「木」が○であり「花」が×であると評価されたとする。この場合、再学習部１１５は、ステップＳ２０５において、「山」と「木」という言葉の組み合わせを教師データとして、画像認識について再学習を実施する。

一方、図６に示す例では、キーワード及び関連語と、ユーザがそれらの適切さを入力するためのスライダとが表示される。この例では、ユーザは、スライダを操作することにより、各キーワード又は関連語の適切さを評価結果として入力することができる。すなわち、図６に示す例では、ユーザによる評価が、図５に示した例のように○又は×による２値の評価ではなく、実数による評価値として入力される。例えば、キーワード「山」３０２に対する評価値が０．９、関連語「木」３０３に対する評価値が０．７、関連語「花」３０４に対する評価値が０．２といったように、それぞれ評価値を入力することができる。このように実数による評価値を用いる場合、再学習部１１５は、評価値を重みとし、重みを考慮して画像認識について再学習を行うことができる。
このように、重みを考慮して再学習を行うと、○又は×による２値の評価の場合と比較して、効率的に学習が行われる。

また、図７及び図８に示すように、グラフ状の表示を用いたＧＵＩを用いることもできる。この例では、２次元平面を用いている。この例では、表示領域４０１に、２次元グラフ４０２が設けられる。２次元グラフ４０２において、縦軸は識別器１１２により出力されたキーワードの適切さを示し、横軸は識別器１１２によるキーワードに基づいて関連語生成部１１３が出力する関連語の適切さを示す。図７及び図８の例では、ともに縦軸は、識別器１１２から出力された認識結果としてのキーワード「山」の適切さを表す。図７の例では横軸は、関連語生成部１１３から出力された「山」に関連する関連語「木」の適切さを表す。図８の例では横軸は、関連語生成部１１３から出力された「山」に関連する関連語「花」の適切さを表す。

ステップＳ２０４においてＧＵＩ制御部１１４は、ステップＳ２０１において画像読み込み部１１１により読み込んだ画像データの画像４０３を、２次元グラフ４０２上に配置して表示させる。初期状態では、識別器１１２から出力されたキーワード「山」が適切であり、関連語「木」又は「花」については適切でないことを表す図７及び図８に示すグラフおける左上の位置に、画像４０３を配置する。

ユーザは、縦軸に設定されたキーワード「山」の適切さと、横軸に設定された関連語「木」又は「花」の適切さとを評価する。ユーザは、その評価結果を表すようなグラフ上の位置に、画像を移動させるように、当該ＧＵＩを用いて操作する。例えば、図７及び図８に示す画像４０４の位置に画像を移動させる。このようにしてユーザは、キーワード及び関連語の適切さの評価結果を入力することができる。

演算装置１１０は、ステップＳ２０４において、ユーザによって画像が移動された先の位置を検出することでユーザの評価を入力し、その評価に基づいて、ステップＳ２０５において再学習を行い、識別器１１２を更新する。

関連語生成部１１３から複数の関連語が出力される場合、例えば、図７に示すようなＧＵＩと図８に示すようなＧＵＩとを、例えばディスプレイである出力装置１４０に順次表示し、ユーザの評価結果を、順次入力できるように構成することができる。また、例えば、図７に示すようなＧＵＩと図８に示すようなＧＵＩとを、ディスプレイに並べて同時に表示することで、ユーザの評価結果を入力できるように構成することができる。

また、図９に示すように、表示領域４０１に、３次元座標系４１２を設定し、１つの軸を、識別器１１２により出力されたキーワードの適切さを示す軸とし、他の２軸を、識別器１１２によるキーワードに基づいて関連語生成部１１３が出力する関連語の適切さを示す軸とすることができる。ユーザは、読み込んだ画像データに基づく画像４１３の表示された位置を、評価結果を表すような３次元グラフ上の画像４１４の位置に、ＧＵＩにより移動させることができる。このようにしてユーザは、各キーワードの適切さの評価結果を入力することができる。

ここで、関連語生成部１１３で選択又は生成される関連語についてさらに説明する。関連語生成部１１３は、識別器１１２の出力結果を多様化するという点からは、それまでに用いられることがなかった関連語を出力することが好ましい。また、識別器１１２の認識結果を高精度化するという観点、又はユーザの嗜好に基づいてパーソナライズするという観点からは、関連語生成部１１３は、それまでの学習に用いられている関連語を、再度出力することが好ましい。

ユーザの嗜好という観点において、ユーザ固有の関連／類似／共起データベース１３２を用いて学習を行うと、ユーザ毎に固有の識別器１１２が構成される。そのような識別器１１２で認識されるクラスは、特定の分野のクラスに関連して詳細度が高くなる等、特定のユーザに対するパーソナライズが行われる。その結果、当該ユーザの興味の分野に関する認識精度が向上するというメリットがある。

例えば、図３には、キーワード「山」３０２が認識され、このキーワードに対して関連語「木」３０３及び関連語「花」３０４といった、一般的な言葉が選定される例を示している。これに対して、パーソナライズされた識別器１１２では、関連語生成部１１３が、ユーザ固有の関連／類似／共起データベース１３２を参照すること等により、キーワードに関連、類似又は共起する関連語を出力して、これに基づいて、識別器１１２が再学習を行う。したがって、パーソナライズされた識別器１１２によれば、「富士山」若しくは「八ヶ岳」といった特定の山の名前を示すキーワードや、特定の登山家の名前を示すキーワードや、過去にいっしょに登山した仲間の名前を示すキーワードや、山岳用品ショップを示すキーワード等といった、ユーザ特有の嗜好を良好に反映するキーワードが出力される。

本実施形態の画像認識装置は、統計的学習に基づくパターン認識の手法による識別器１１２の出力結果である第１のクラス（キーワード）に併せて、クラス間の関連度、類似度又は共起度に基づいて関連語生成部１１３によって選定された第２のクラス（関連語）を、ユーザに提示する。さらに、この画像認識装置は、ユーザに提示した第１のクラス及び第２のクラスに対するユーザの評価を入力する処理を行う。この画像認識装置は、入力したユーザの評価結果に基づいて再学習を実施し、識別器１１２の更新を行う。このため、ユーザ毎の嗜好にマッチするような認識結果を出力できるように最適化された、多様性を有し精度の良い識別器１１２を生成することができる。

このような、多様性を有し精度がよい識別器１１２を含む本実施形態の画像認識装置は、入力画像に対して、多様でユーザの嗜好に適合した、適切なキーワードを出力することができる。
なお、演算装置１１０や記憶装置１３０は、ネットワークサーバ上にあってもよい。

また、本実施形態では、グラフィカル・ユーザ・インタフェース（ＧＵＩ）を用いて、ユーザにキーワードや関連語を示し、それらの評価を受け取る例を示したが、ＧＵＩを使うものに限定されない。入力装置１５０として、例えばボタン、スイッチ、キーボードを用いることができるし、出力装置は、ディスプレイに限らず例えばプリンタや、音声を出力するスピーカを用いることもできる。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。ここでは、第１の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、関連語生成部１１３は、出力する第２のクラスとしての関連語に併せて、その関連語の信頼度の値を出力する。

このため本実施形態では、関連語生成部１１３は、ステップＳ２０３における関連語の選択又は生成とともに、それら関連語の信頼度を算出する。関連語生成部１１３は、関連語と併せて、それらの信頼度を、ＧＵＩ制御部１１４に出力する。ステップＳ２０５における再学習部１１５による再学習では、上記の関連語の信頼度も利用する。

本実施形態に係る画像認識装置による認識とその再学習の例を図１０を参照して説明する。この例では、画像読み込み部１１１が、ステップＳ２０１において、画像３０１を入力したとする。このとき識別器１１２は、ステップＳ２０２において、この画像３０１に対して、認識結果としてキーワード「山」３０２を出力する。

関連語生成部１１３は、ステップＳ２０３において、キーワード「山」３０２に関連する例えば、関連語「木」３０３及び関連語「花」３０４を選択する。さらに、関連語生成部１１３は、関連語「木」３０３の信頼度を例えば０．８と算出し、その信頼度の情報３０８も、ＧＵＩ制御部１１４を介して、再学習部１１５に出力する。同様に、関連語生成部１１３は、関連語「花」３０４の信頼度を例えば０．７と算出し、その信頼度の情報３０９も、ＧＵＩ制御部１１４を介して、再学習部１１５に出力する。

ＧＵＩ制御部１１４は、ステップＳ２０４において、ディスプレイである出力装置１４０に、キーワード「山」３０２と、関連語「木」３０３及び関連語「花」３０４と、これらそれぞれについて、○及び×と、それらに対応するチェックボックスとを含む画像３０５，３０６，３０７を表示させる。

この場合、ユーザは、画像３０５，３０６，３０７を確認しながら、チェックボックスを使い、キーワード「山」３０２、関連語「木」３０３及び関連語「花」３０４それぞれについて、入力装置１５０を用いて、○又は×の２者択一によって評価結果の入力を行うことができる。

図１０の例では、ユーザによってキーワード「山」と関連語「木」が○であり、関連語「花」が×であると評価されたとする。この場合、再学習部１１５は、「山」と「木」という言葉の組み合わせを教師データとして、認識の再学習を実施する。再学習に際し、再学習部１１５は、各言葉に付与されている信頼度の値に基づく重みを考慮する。すなわち、図１０に示す例の場合には、「山」に対して１、「木」に対して０．８という重みを考慮して、再学習を実施する。
本実施形態によれば、信頼度に基づく重みを考慮して再学習を行うので、学習の効果が向上し、より早く精度のよい識別器１１２を生成することができる。

なお、ユーザによる評価は、○又は×の２者択一によらずとも、図６乃至９を参照して説明したように、実数値による評価でもよい。この場合、例えば、ユーザの評価と、関連語生成部１１３が算出した信頼度との和や積を重みとして、再学習部１１５が再学習を行ってもよい。

［第３の実施形態］
次に、本発明の第３の実施形態について説明する。ここでは、第１の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器１１２が認識結果として複数のキーワードを出力する場合に、関連語生成部１１３は、出力された複数のキーワードに対して統計処理を行い、関連語を選定する。

例えば、ある画像に対して識別器１１２は、「山」と「川」という２つのキーワードを識別結果として出力したとする。このとき、例えば図４に示すような表に基づくと、関連語生成部１１３は、「山」というキーワードに対しては、評価値が０．８である「木」という関連語と、評価値が０．７である「花」という関連語とを選定する。同様に、図４に示すような表に基づくと、関連語生成部１１３は、「川」というキーワードに対しては、評価値が０．８である「海」という関連語と、評価値が０．４である「木」という関連語とを選定する。さらに、関連語生成部１１３は、「山」というキーワードと「川」というキーワードとに対して統計処理、例えば協調フィルタリングを行う。その結果、関連語生成部１１３は、「山」というキーワードと「川」というキーワードとに基づいて、「空」という関連語を選定する。ＧＵＩ制御部１１４は、識別器１１２と関連語生成部１１３とから入力した、「山」、「川」、「木」、「花」、「海」、「空」というキーワード及び関連語を、ユーザに提示する。その後は、第１の実施形態の場合と同様に、これらキーワード及び関連語のユーザによる評価結果に基づいて、識別器１１２の更新を行う。

このように、本実施形態では、ステップＳ２０２において、識別器１１２は、認識結果として複数のキーワードを関連語生成部１１３に出力する。ステップＳ２０３において、関連語生成部１１３は、識別器１１２から入力した複数のキーワードのそれぞれに対する関連語と、識別器１１２から入力した複数のキーワードに統計処理を行い選定される関連語とを、ＧＵＩ制御部１１４に出力する。その他の動作は、第１の実施形態の場合と同様である。

本実施形態によれば、関連語生成部１１３は、識別器１１２から出力された複数の第１のクラス（キーワード）に互いに関連、類似又は共起する第２のクラス（関連語）を選定するので、各第１のクラスに関連、類似又は共起する第２のクラスのみを選定する場合とは異なる、新たな第２のクラスを選定することができる。その結果、識別器１１２を、より多様なクラスの出力が可能なものに更新することができる。

［第４の実施形態］
次に、本発明の第４の実施形態について説明する。ここでは、第１の実施形態との相違点について説明し、同一の部分については同一の符号を付して、その説明は省略する。本実施形態では、識別器１１２が出力する第１のクラスとしてのキーワードを複数のカテゴリに分類したときに、関連語生成部１１３は、複数のカテゴリ間の関連性に基づいて関連語の選定を行う。

図４に示す表には、画像内に存在する物体に関する言葉とその関連性が示されている。このような物体に関する複数の言葉を１つのカテゴリと考える。このようなカテゴリの他にも、例えば図１１に示すようなカテゴリを考えることもできる。図１１には、画像内の状態に関する言葉とその関連性が示されている。このように、認識結果である言葉は、いくつかのカテゴリに分類することができる。本実施形態では、関連語生成部１１３は、同一のカテゴリから第２のクラスである関連語を選定するのみならず、異なるカテゴリ間での言葉の関連性に基づいて、識別器１１２が出力したキーワードが属するカテゴリ以外のカテゴリに属する関連語を選定する。

例えば識別器１１２が、図４に示すような物体的なカテゴリから「山」というキーワードを出力し、それとともに図１１に示すような状態的なカテゴリから「暖かい」というキーワードを出力する場合を考える。このとき、「山」と「暖かい」というキーワードから、関連語生成部１１３は、前記物体的なカテゴリとも前記状態的なカテゴリとも異なる季節というカテゴリに属する「春」という関連語を選定する。

このようなカテゴリ間の関連語を選定する場合に、カテゴリについての優先度の評価を行うことも可能である。関連語生成部１１３は、カテゴリの優先度を考慮の上、各カテゴリに含まれる言葉から、異なるカテゴリ間の関係に基づいて、関連語を選定することができる。すなわち、関連語生成部１１３は、カテゴリの優先度も考慮した関連語の選定を行うことができる。このようにして選定された関連語に対するユーザの評価に基づいて再学習を行うことで、より多様でユーザの嗜好にマッチした識別器１１２を生成することが可能となる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても、発明が解決しようとする課題の欄で述べられた課題が解決でき、かつ、発明の効果が得られる場合には、この構成要素が削除された構成も発明として抽出され得る。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１１０…演算装置、１１１…画像読み込み部、１１２…識別器、１１３…関連語生成部、１１４…ＧＵＩ制御部、１１５…再学習部、１２２…画像入力装置、１２４…画像データベース記憶装置、１３０…記憶装置、１３２…関連／類似／共起データベース、１４０…出力装置、１５０…入力装置。

Claims

画像認識により画像に関するクラスを決定する識別器の再学習方法であって、
予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第１のクラスを決定することと、
前記第１のクラスと関連、類似又は共起する第２のクラスを決定することと、
前記第１のクラスと前記第２のクラスとをユーザに提示することと、
前記第１のクラスに対する前記ユーザの第１の評価と、前記第２のクラスに対する該ユーザの第２の評価とを受け取ることと、
前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施することと、
を含むことを特徴とする識別器の再学習方法。
前記第１のクラス又は前記第２のクラスの信頼度を示す値を決定することをさらに含み、
前記再学習は、前記信頼度を示す値を用いて実施される、
ことを特徴とする請求項１に記載の識別器の再学習方法。
前記識別器は、少なくとも２つの前記第１のクラスを決定し、
前記少なくとも２つの前記第１のクラスに関連、類似又は共起する第３のクラスを決定することと、
前記第３のクラスを前記ユーザに提示することと、
前記第３のクラスに対する前記ユーザの第３の評価を受け取ることと、
をさらに含み、
前記再学習は、前記第１のクラスと前記第２のクラスと前記第３のクラスと前記第１の評価と前記第２の評価と前記第３の評価とに基づいて実施される、
ことを特徴とする請求項１又は２に記載の識別器の再学習方法。
前記第２のクラスを決定することは、予め作成されたクラス間の関連度、類似度、又は共起度を表すテーブルを参照することにより実施されることを特徴とする請求項１乃至３のうち何れか１項に記載の識別器の再学習方法。
前記第２のクラスを決定することは、情報推薦手法により実施されることを特徴とする請求項１乃至３のうち何れか１項に記載の識別器の再学習方法。
前記情報推薦手法は、コンテンツに基づくフィルタリング、又は協調フィルタリングであることを特徴とする請求項５に記載の識別器の再学習方法。
前記識別器は、少なくとも２つの異なるカテゴリのそれぞれから、該カテゴリに属する少なくとも１つずつの前記第１のクラスを決定し、
前記少なくとも２つの異なる前記カテゴリの特徴と、少なくとも２つの前記第１のクラスの特徴とを統計的に扱い、該少なくとも２つの該カテゴリとは異なるカテゴリに属し、かつ該少なくとも２つの該第１のクラスに関連、類似又は共起する第４のクラスを決定することと、
前記第４のクラスを前記ユーザに提示することと、
前記第４のクラスに対する前記ユーザの第４の評価を受け取ることと、
をさらに含み、
前記再学習は、前記第１のクラスと前記第２のクラスと前記第４のクラスと前記第１の評価と前記第２の評価と前記第４の評価とに基づいて実施される、
ことを特徴とする請求項１に記載の識別器の再学習方法。
画像認識により画像に関するクラスを決定する識別器の再学習のためのプログラムであって、
予め実施した前記画像認識のための学習結果を有する前記識別器により、該学習結果と前記画像とに基づいて第１のクラスを決定するステップと、
前記第１のクラスと関連、類似又は共起する第２のクラスを決定するステップと、
前記第１のクラスと前記第２のクラスとをユーザに提示するステップと、
前記第１のクラスに対する前記ユーザの第１の評価と、前記第２のクラスに対する該ユーザの第２の評価とを受け取るステップと、
前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施するステップと、
をコンピュータに発揮させることを特徴とする識別器の再学習のためのプログラム。
画像データを読み込む画像読み込み部と、
予め実施した画像認識のための学習結果を有し、読み込んだ前記画像データが表す画像と該学習結果とに基づいて第１のクラスを決定する識別器と、
前記第１のクラスと関連、類似又は共起する第２のクラスを決定する関連語生成部と、
出力装置に前記第１のクラスと前記第２のクラスとをユーザに提示させ、該ユーザの指示を受け取る入力装置からの信号に基づいて、該第１のクラスに対する該ユーザの第１の評価と、該第２のクラスに対する該ユーザの第２の評価とを取得するインターフェース制御部と、
前記第１のクラスと前記第２のクラスと前記第１の評価と前記第２の評価とに基づいて、前記画像認識のための前記識別器の再学習を実施する再学習部と、
を具備し、
前記識別器により前記画像に関するクラスを決定する画像認識を実施することを特徴とする画像認識装置。
前記インターフェース制御部は、
前記第１のクラス及び前記第２のクラスと、前記ユーザの前記第１の評価及び前記第２の評価を設定するための評価入力画像とを前記出力装置に提示させることと、
前記ユーザによる前記入力装置の操作と前記評価入力画像との対応に基づいて、前記第１の評価及び前記第２の評価を取得することと、
を含むグラフィカル・ユーザ・インタフェースを制御することを特徴とする請求項９に記載の画像認識装置。
前記評価入力画像は、前記第１のクラス及び前記第２のクラスの各々に対応したチェックボックスであり、
前記インターフェース制御部は、前記ユーザが前記チェックボックスをチェックするか否かに応じて、前記第１のクラスが適切であるか否かを表す前記第１の評価と、前記第２のクラスが適切であるか否かを表す前記第２の評価とを取得する、
ことを特徴とする請求項１０に記載の画像認識装置。
前記評価入力画像は、前記第１のクラス及び前記第２のクラスの各々に対応したスライダであり、
前記インターフェース制御部は、前記ユーザが設定した前記スライダが示す位置に応じて、前記第１のクラスの適切さを表す前記第１の評価と、前記第２のクラスの適切さを表す前記第２の評価とを取得する、
ことを特徴とする請求項１０に記載の画像認識装置。
前記評価入力画像は、前記第１のクラス及び前記第２のクラスの各々に対応した座標軸を有する座標系であり、
前記インターフェース制御部は、前記ユーザが指定した前記座標系における位置に応じて、前記第１のクラスの適切さを表す前記第１の評価と、前記第２のクラスの適切さを表す前記第２の評価とを取得する、
ことを特徴とする請求項１０に記載の画像認識装置。