JP2020135494A

JP2020135494A - 画像検索装置および教師データ抽出方法

Info

Publication number: JP2020135494A
Application number: JP2019028920A
Authority: JP
Inventors: 留以三井; Rui MITSUI; 小味　弘典; Hironori Komi; 弘典小味; 躍一五十嵐; Yoichi Igarashi; 将央篠本; Masachika Sasamoto; 賢司関村; Kenji Sekimura; 博幸菊池; Hiroyuki Kikuchi; 直人瀧; Naoto Taki; 泰裕村井; Yasuhiro Murai; 洋介徳田; Yosuke Tokuda
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2020-08-31
Anticipated expiration: 2039-02-20
Also published as: CN113474769A; WO2020171066A1; JP7018408B2

Abstract

【課題】教師データ収集のコストを削減し、追加学習作業の容易化を可能とする。
【解決手段】人物検出部１１２は、画像から人物を検出し、特徴抽出部１１３は、人物の特徴量を抽出して特徴量データベース１３０に格納する。画像検索部１１５は、画像を検索し、検索結果データベース１５０に格納するとともに、検索結果として端末３２０に送信する。分類項目登録部１１７は、検索結果の画像に付与された分類項目（該当、非該当など）を取得して、検索結果データベース１５０に格納する。教師データ抽出部１１８は、検索結果データベース１５０から特徴量と分類項目の相関に基づいて教師データを抽出する。
【選択図】図３

Description

本発明は、機械学習技術を用いた画像検索を行う画像検索装置と教師データ抽出方法とに関するものである。

近年、画像認識、画像分類などの技術領域において深層学習（Deep Learning）に代表される機械学習技術の活用が進んでいる。機械学習による画像認識や画像分類では、従来のように開発者がアルゴリズムを設計してプログラミングするのではなく、機械学習モデル自身が、入力データに基づいて学習して、分類できるようになる。詳しくは、画像データとその正しい分類結果（正解タグ）のペアが複数入力されると、機械学習モデル自身が、入力された画像データに対して正しく分類結果を出力できるように、機械学習モデル内のパラメータを調整する。なお、入力される画像データとその分類結果のペアのデータは、教師データ（学習データ）と呼ばれ、教師データを用いた機械学習のことは、教師あり機械学習と呼ばれる。

教師あり機械学習では、大量の教師データが機械学習モデルに投入され、学習させることで、機械学習モデルの精度を向上させる。一般的に、学習に用いる教師データが多い程、機械学習モデルの精度が向上し、正確な分類結果を得ることが可能になる。
しかし、教師あり機械学習では大量の教師データを準備する必要があるために、画像データの収集と、収集した個々の画像データに対する正しい分類結果（正解タグ）を対応付けるという、教師データの準備作業が膨大となり、コストがかかるという問題がある。また、一度、実運用を開始した機械学習モデルも１００％の正解率を得ることは困難であり、精度向上のための追加学習を行うことが望ましい。しかしながら、システムの日々の運用のなかで、追加学習用の教師データを収集することや正解タグを付与すると、システムのダウンタイムの増加や、日々の作業における保守コストが増加するという課題がある。

特許文献１の追加学習では、あらかじめ用意しておいた正解ラベル（分類結果、正解タグ）が付与されている正解ラベル付き画像データの特徴ベクトルである第１の特徴ベクトルと、正解ラベル付き画像を分割して生成したラベルが付与されていない画像（未ラベル画像）の特徴ベクトルである第２の特徴ベクトルとの距離情報を求める。距離情報に基づいて、利用者に提示する未ラベル画像データを選択し、利用者がラベル付けを行い、第２の正解ラベル付き画像として追加学習に利用する。

こうすることにより、第１の正解ラベル付き画像から、元の第１の正解ラベル付き画像と映っている内容が異なる新たな学習用画像を生成することが可能になる。例えば、元の第１の正解ラベル付き画像と最も似ていない未ラベル画像を、ユーザに提示する画像として選択することが可能になる。この結果、１学習用画像あたりの分類モデルの精度の改善率を大きくし、学習効率を向上させることなどが可能となることが記載されている。

特開２０１３−１２５３２２号公報

利用者の環境によって追加学習の対象は様々である。個々の機械学習モデルの動作環境に合った適切な機械学習を行うための、大量の画像が蓄積された画像データベースから必要なデータを効率よく収集する技術については、特許文献１では言及されていない。また、学習用の画像の収集は可能であるとしても、分類（正解タグ付け）が必要であり、コストがかかるという問題は解決されていない。

本発明は、このような背景を鑑みてなされたものであり、教師データの収集や作成のコストを削減し、追加学習の容易化を可能とする画像検索装置および教師データ抽出方法を提供することを課題とする。

上記課題を解決するため、本発明の画像検索装置は、取得した画像から機械学習モデルを用いて特徴量を抽出する特徴抽出部と、前記特徴量を用いて前記画像を検索して検索結果を出力する画像検索部と、前記検索結果の個々の画像が分類されて、付与された分類結果を示す分類項目を取得する分類項目取得部と、前記特徴量と前記分類項目との相関に基づいて、前記機械学習モデルを追加学習するための教師データとなる画像を抽出する教師データ抽出部と、を備える。

本発明によれば、教師データの収集や作成のコストを削減し、追加学習の容易化を可能とする画像検索装置および教師データ抽出方法を提供することができる。

本実施形態に係る画像検索装置を含む画像検索システムの全体構成を示す図である。本実施形態に係る画像検索装置の端末に表示される画像検索画面の構成図である。本実施形態に係る画像検索装置の機能ブロックの構成図である。本実施形態に係る画像取込部、人物検出部および特徴抽出部の動作を説明するための図である。本実施形態に係る特徴量データベースに含まれる特徴量テーブルのデータ構成を説明するための図である。本実施形態に係る検索結果データベースに含まれる検索条件テーブルのデータ構成を示す図である。本実施形態に係る検索結果データベースに含まれる検索結果テーブルのデータ構成を示す図である。本実施形態に係る教師データ抽出条件テーブルのデータ構成を示す図である。本実施形態に係り、抽出対象データの分類項目、閾値Ａ、閾値Ｂおよび追加学習要否を説明するためのグラフである。本実施形態に係る教師データ抽出結果テーブルのデータ構成を示す図である。本実施形態に係る教師データ抽出部が実行する教師データ抽出処理のフローチャートである。本実施形態の変型例に係る画像検索装置の端末に表示される教師データ抽出条件設定画面の構成図である。本実施形態の変型例に係る特徴量と分類項目との相関を示したグラフである。本実施形態の変型例に係る特徴量と分類項目との相関を示したグラフである。

以下に、本発明を実施するための形態（実施形態）における画像検索装置について説明する。詳しくは、ショッピングモールやオフィスビルなどの施設に設置されるカメラが撮影した画像から、所定の条件に合致する人物の画像を検索するシステムにおける画像検索装置について説明する。画像検索装置は、蓄積した画像データから追加学習用の教師データとなる画像データを抽出する。なお、本システムは、施設内での迷子の探索といった用途や、施設で発生した問題に関わった人物を通報などで得られた情報を元に当該人物を探索するといった用途を想定しているが、これらの用途に限らず、幅広い用途に適用可能である。

≪画像検索システムの全体構成≫
図１は、本実施形態に係る画像検索装置１００を含む画像検索システム１０の全体構成を示す図である。画像検索システム１０は、画像検索装置１００、カメラ３１０、カメラ３１０が撮影した映像を画像検索装置１００に転送するネットワーク３３０、追加学習装置３００および端末３２０を含んで構成される。

カメラ３１０は、施設に設置されるカメラであり、ネットワーク３３０を経由して撮影した映像を画像検索装置１００に送信する。端末３２０は、画像検索システム１０を用いて施設内を監視する人（以下、利用者とも記す）が利用する端末である。利用者の端末３２０における操作方法や表示画面については、後記する図２を参照して説明する。画像検索装置１００は、端末３２０から入力された人物の特徴（検索条件）に合致する人物を、カメラ３１０の画像から抽出して、端末３２０に出力する。
なお、画像検索システム１０を用いて施設内を監視する人を利用者と記すのに対して、画像検索装置１００の機械学習モデル１１４（後記する図３参照）を保守し、追加学習を管理する人を管理者と記す。管理者も端末３２０を利用してもよい。

追加学習装置３００は、人物の特徴を抽出する際に用いられる機械学習モデル１１４と置き換わる新機械学習モデル４２０を生成する追加学習を実行する。追加学習装置３００は、画像検索装置１００から追加学習データ４１０（教師データ）を取得し、追加学習を実行して新機械学習モデル４２０を生成する。

≪画像検索装置の画像検索画面≫
図２は、本実施形態に係る画像検索装置１００の端末３２０に表示される画像検索画面５００の構成図である。本実施形態では、利用者は、Ｗｅｂブラウザを用いて画像検索装置１００を操作する。画像検索画面５００は、検索セット領域５１０、検索条件領域５２０および検索結果領域５３０を含んで構成される。

利用者は、検索する人物（探索対象となる人物）の特徴（検索条件）を検索条件領域５２０に設定する。詳しくは、人物の頭部の色（頭部色）をリストボックス５２１から選択して設定する。本実施形態では、頭部色は黒、グレーおよび白から選択するものとする。同様にして、上半身の服の色および下半身の服の色を黒、グレーおよび青から選択する。条件クリアボタン５２２が押下されると、選択された頭部色、上半身の服の色および下半身の服の色の色がクリアされ、何も選択されていない状態になる。検索ボタン５２３が押下されると、設定した条件に合う人物の画像が検索され、検索結果領域５３０に表示される。

検索セット領域５１０の検索識別情報５１１は、検索条件および検索結果に割り当てられた識別情報であって、画像検索装置１００が自動的に割り振る。保存ボタン５１２が押下されると、検索条件領域５２０に設定された検索条件、および検索結果領域５３０に表示された検索結果が画像検索装置１００に保存される。利用者が検索識別情報５１１を入力してロードボタン５１３を押下すると、検索識別情報５１１に対応し保存されていた検索条件が、検索条件領域５２０に、検索結果が、検索結果領域５３０に表示される。

検索結果領域５３０は、検索結果５３１が検索条件との合致度（平均類似度とも記す）の降順に表示される領域である。図２では、６つの検索結果が表示されている。個々の検索結果５３１は、画像確認領域５３２、平均類似度バー５３３および分類項目設定領域５３４の３つの領域からなる。
画像確認領域５３２には、人物が含まれる映像のサンプル画像が表示される。サンプル画像には、画像検索装置１００により割り振られた画像識別情報が表示される。また、人物が検出された領域は、矩形で囲われて表示される。画像確認領域５３２には、撮影時刻や撮影したカメラ、カメラが設置されているエリアの識別情報が含まれてもよい。
平均類似度バー５３３は、頭部色、上半身の服の色および下半身の服の色の類似度（後記する特徴量）の平均値を、棒グラフの形式で表示している。バー（ハッチングされている矩形）が右側にのびているほど（面積が大きいほど）平均類似度が高く、左端で平均類似度が０、右端で平均類似度が１００を示す。

分類項目設定領域５３４は、利用者が、画像中の矩形で囲われた人物（以下、画像の人物、または単に画像とも記す）が探索対象の人物に当たるか否かを判定した結果（以下、分類項目とも記す）を入力する領域である。利用者は、画像が探索対象の人物であると判断すれば、該当を選択する。利用者は、画像が探索対象の人物ではないと判断すれば、非該当を選択する。利用者は、判断を保留すれば、保留を選択する。該当、保留および非該当の何れも選択しない場合には、利用者は何も選択せず、未分類となる。

なお、保留の意味としては、画像が不鮮明で判断できない、探索対象人物か否か特定できない、目視確認するまで判断を保留する、利用者が判定結果を忘れないようにマークしたいなどの使い方を想定している。
本実施例では、該当や非該当という用語を用いて説明しているが、探索対象に該当または非該当という意味で、対象者／非対象者、要確認／確認不要、要注意／注意不要など別の用語を用いてもよい。

表示フィルタ５３６において、該当、保留、非該当、未分類の検索結果を検索結果領域５３０に表示するか否かを設定できる。図２においては、該当、保留、非該当、未分類が全て選択されており、すべての検索結果が検索結果領域５３０に表示される。利用者は、画像を該当、保留、非該当および未分類の分類項目に分類し、表示フィルタによってどの分類項目を表示するかを選択することができる。利用者は、検索結果の表示数を削減あるいは確認したい画像のみを表示することでき、画像間で人物を詳細に比較することや、判定や探索対象人物の確定が容易になる。

検索結果領域５３０の左上にある検索結果の画像識別情報は「Ｉ３４８３」であり、平均類似度バーに示されるように平均類似度は約９０％であって、利用者は該当を選択している。画像確認領域の画像には２人の人物が含まれているが、検索結果となっている人物は右側の矩形で囲われた人物である。
検索結果領域５３０の右側には、スクロールバー５３５が備えられている。利用者は、スクロールバー５３５のノブ（つまみ）や上下にあるアロー（矢印）を操作することで、表示されていない検索結果５３１を閲覧できる。

≪画像検索装置の全体構成≫
図３は、本実施形態に係る画像検索装置１００の機能ブロックの構成図である。画像検索装置１００は、コンピュータであって、後記する特徴抽出部１１３や画像検索部１１５などの機能部として動作するＣＰＵ（Central Processing Unit）、データベースや一時的処理データ、ＣＰＵを機能部として動作させるプログラムを記憶する記憶部（ハードディスクやＳＳＤ（Solid State Drive）など）、および通信部などを含むが図示していない。

≪画像取込部、人物検出部、特徴抽出部≫
画像取込部１１１は、カメラ３１０が撮影した映像を取得し、映像の各フレーム画像を人物検出部１１２に出力する。
人物検出部１１２は、フレーム画像（単に画像、画像データとも記す）のなかの人物を検出して、検出した領域や撮影時刻情報、撮影したカメラの識別情報、画像識別情報とともに画像データベース（図３では画像ＤＢ（Database）と記載）１２０に格納する。また、人物検出部１１２は、人物を検出した領域の画像を画像識別情報とともに特徴抽出部１１３に出力する。
既存の人物検出技術としてFaster-RCNNなどがありUS9858496(B2)などにＤＮＮ（Deep Neural Networks）を用いた人物検出アルゴリズムなどが記載されている。

特徴抽出部１１３は、機械学習モデル１１４を用いて人物の領域の画像から複数の特徴量を抽出して、特徴量データベース１３０（後記する図５参照）に格納する。複数の特徴量を抽出するＤＮＮは、マルチラベル式のＤＮＮと呼ばれ、例えば特表2018-503161号公報に、複数特徴量を解析し、その検出結果を出力するＤＮＮの技術が開示されている。機械学習モデル１１４は、ＤＮＮに限らず、ＳＶＭ（Support Vector Machine）など他の機械学習技術の機械学習モデルであってもよい。

図４は、本実施形態に係る画像取込部１１１、人物検出部１１２および特徴抽出部１１３の動作を説明するための図である。図４を参照して、画像取込部１１１、人物検出部１１２および特徴抽出部１１３が出力するデータについて補足して説明する。
画像４３１は、画像取込部１１１が出力した映像のフレーム画像であり、３人の人物が含まれている。画像４３２〜４３４は、人物検出部１１２が出力した、画像４３１のなかで人物を検出した領域の画像であり、画像４３１に含まれる３人の人物それぞれを切り出した画像である。

特徴量データ４３５は、特徴抽出部１１３が出力したデータであって、画像４３２〜４３４それぞれの特徴量を機械学習モデル１１４により解析した結果のデータである。機械学習モデル１１４は、複数の特徴量を抽出するマルチラベル式のＤＮＮである。特徴量は、頭部色が黒である度合、頭部色がグレーである度合、頭部色が白である度合、上半身の服の色が黒である度合、上半身の服の色がグレーである度合、上半身の服の色が青である度合、下半身の服の色が黒である度合、下半身の服の色がグレーである度合および下半身の服の色が青である度合の９つであり、９次元のベクトルで表される。各特徴量は、最大で１００、最小で０となるよう正規化して出力される。例えば、画像識別情報が「Ｉ００１４」である画像４３２の頭部色が黒である度合（特徴量）は８０である。

≪特徴量データベース≫
図５は、本実施形態に係る特徴量データベース１３０に含まれる特徴量テーブル１３１のデータ構成を説明するための図である。特徴量データベース１３０は、１つ以上の特徴量テーブル１３１から構成される。特徴量テーブル１３１は、特徴量テーブル識別情報１３２、機械学習モデルバージョン１３３および１つ以上の画像レコードを含む。特徴量テーブル識別情報１３２は、特徴量テーブル１３１の識別情報である。機械学習モデルバージョン１３３は、特徴量テーブル１３１に含まれる特徴量を算出したときの機械学習モデル１１４のバージョンである。

画像レコードは、画像識別情報（図５では画像ＩＤと記載）１３４、頭部色が黒である度合の特徴量１３５、頭部色がグレーである度合の特徴量１３６、頭部色が白である度合の特徴量１３７、上半身の服の色が黒である度合の特徴量１３８、上半身の服の色がグレーである度合の特徴量１３９、上半身の服の色が青である度合の特徴量１４０、下半身の服の色が黒である度合の特徴量１４１、下半身の服の色がグレーである度合の特徴量１４２および下半身の服の色が青である度合の特徴量１４３の属性を含む。

特徴量テーブル１３１は、機械学習モデル１１４ごとに存在する。即ち、機械学習モデル１１４が新機械学習モデル４２０（図１参照）に更新されると、新しい特徴量テーブルに切り替えられる。このため、特徴量テーブル識別情報１３２と機械学習モデルバージョン１３３とは、１対１に対応する。同一の機械学習モデル１１４を用いて特徴抽出部１１３が特徴量を抽出している期間は、同一の特徴量テーブル１３１に画像レコードが追加されていく。
なお、特徴量テーブル１３１は、日ごとやカメラごと、施設のエリアごとに分割するようにしてもよい。この場合、特徴量テーブル識別情報１３２と機械学習モデルバージョン１３３とは、Ｎ対１の対応となる。

≪画像検索部：検索時の動作≫
図３の説明に戻る。Ｗｅｂサーバ１１６は、端末３２０の利用者からの指示を受信したり、指示された処理の結果を端末３２０に送信したりする。利用者が検索条件領域５２０（図２参照）に検索条件を設定して検索ボタン５２３を押下して検索を指示すると、Ｗｅｂサーバ１１６が検索条件を受信して、画像検索部１１５に出力する。画像検索部１１５は、検索条件を検索結果データベース１５０の検索条件テーブル１５１（後記する図６参照）に格納する。

続いて、画像検索部１１５は、特徴量テーブル１３１の画像レコードのなかで、指定された検索条件に含まれる特徴量の平均値（平均類似度）が所定の値以上のレコードを検索した結果を、検索結果データベース１５０の検索結果テーブル１６４（後記する図７参照）に格納する。続いて、画像検索部１１５は、検索結果を平均類似度の降順でソートする。さらに、画像検索部１１５は、このソートした結果の各レコードに対応する画像データを画像データベース１２０から取得して、画像データ、平均値および分類項目設定領域５３４の表示用データと合わせたデータを検索条件に対する検索結果として、Ｗｅｂサーバ１１６に出力する。Ｗｅｂサーバ１１６は、検索結果を端末３２０に送信する。端末３２０のＷｅｂブラウザは、受信した検索結果を検索結果領域５３０（図２参照）に表示する。

≪検索結果データベース：検索条件テーブル≫
図６は、本実施形態に係る検索結果データベース１５０に含まれる検索条件テーブル１５１のデータ構成を示す図である。検索結果データベース１５０は、検索条件テーブル１５１および検索結果テーブル１６４（後記する図７参照）を含む。

検索条件テーブル１５１は、例えば、表形式のデータであって、１つのレコード（行）は、１つの検索条件を示し、検索識別情報（図６では検索ＩＤと記載）１５２、検索条件に頭部色が黒・グレー・白を含むか否かを示すフラグ１５３〜１５５、検索条件に上半身の服の色が黒・グレー・青を含むか否かを示すフラグ１５６〜１５８、検索条件に下半身の服の色が黒・グレー・青を含むか否かを示すフラグ１５９〜１６１、特徴量テーブル識別情報１６２および機械学習モデルバージョン１６３（図６ではＭＬＭ（Machine Learning Model）バージョンと記載）の属性を含む。

フラグ１５３〜１６１は、検索条件に含まれれば「１」であり、含まなければ「０」である。例えば、検索識別情報１５２が「Ｓ０１８」であるレコードは、頭部色がグレー、上半身の服の色が青、下半身の服の色が黒である検索条件を示している。特徴量テーブル識別情報１６２および機械学習モデルバージョン１６３は、特徴量テーブル１３１（図５参照）の特徴量テーブル識別情報１３２および機械学習モデルバージョン１３３にそれぞれ対応し、検索対象となる特徴量テーブル１３１や特徴量が算出されたときの機械学習モデル１１４のバージョンを示す。

≪検索結果データベース：検索結果テーブル≫
図７は、本実施形態に係る検索結果データベース１５０に含まれる検索結果テーブル１６４のデータ構成を示す図である。検索結果テーブル１６４は、例えば表形式のデータであって、検索結果である検索結果レコードから構成される。検索結果レコードは、検索条件テーブル１５１の検索識別情報１５２に対応する検索識別情報１６５、特徴量テーブル１３１の画像識別情報１３４に対応する画像識別情報１６６、特徴量テーブル１３１の特徴量１３５〜１４３にそれぞれ対応する特徴量１６７〜１７５、平均類似度１７６、分類項目１７７および検索条件テーブル１５１の機械学習モデルバージョン１６３に対応する機械学習モデルバージョン１７８の属性を含む。

分類項目１７７は、利用者が設定した個々の検索結果に対する分類項目（図２の分類項目設定領域５３４参照）を格納する属性であって、分類項目が該当ならば「１」、保留ならば「２」、非該当ならば「３」、未分類ならば「０」である。利用者が分類項目を設定する前の初期状態では、分類項目は設定されていないので、分類項目１７７は「０」となる。

検索結果テーブル１６４のなかで画像識別情報１６６が「Ｉ００１４」である検索結果レコードについて説明する。この検索結果レコードの検索識別情報１６５は、「Ｓ０１８」であり、検索条件テーブル１５１のなかの検索識別情報１５２が「Ｓ０１８」であるレコードである検索条件によって検索された結果であることを示している。特徴量１６７〜１７５は、特徴量テーブル１３１にある画像識別情報１３４が「Ｉ００１４」であるレコードの特徴量１３５〜１４３にそれぞれ対応する。
検索識別情報１５２が「Ｓ０１８」であるレコードである検索条件は、頭部色がグレー、上半身の服の色が青、下半身の服の色が黒である。対応する特徴量は、それぞれ２０、３０、３０であり、平均類似度１７６は、２７となる。

≪分類項目登録部：検索保存時の動作≫
図３の説明に戻る。利用者が分類項目設定領域５３４（図２参照）において分類項目を入力して、保存ボタン５１２を押下すると、端末３２０のＷｅｂブラウザは、個々の検索結果に対する分類項目（該当、保留、非該当または未分類）をＷｅｂサーバ１１６に送信し、Ｗｅｂサーバ１１６は、分類項目を分類項目登録部１１７に出力する。分類項目登録部１１７は、検索結果に対応する利用者による判定結果である分類項目を、検索結果データベース１５０の検索結果テーブル１６４の分類項目１７７に格納する。

≪画像検索部：検索結果ロード時の動作≫
利用者が検索識別情報５１１（図２参照）を入力してロードボタン５１３を押下すると、端末３２０のＷｅｂブラウザは、検索識別情報をＷｅｂサーバ１１６に送信し、Ｗｅｂサーバ１１６は、検索識別情報を画像検索部１１５に出力する。画像検索部１１５は、検索結果データベース１５０の検索条件テーブル１５１のレコードのなかで、検索識別情報１５２が、Ｗｅｂサーバ１１６が出力した検索識別情報に一致する検索条件のレコードを取得する。

また、画像検索部１１５は、検索結果データベース１５０の検索結果テーブル１６４の検索レコードのなかで、検索識別情報１６５が、Ｗｅｂサーバ１１６が出力した検索識別情報に一致する検索結果レコードを取得する。画像検索部１１５は、検索条件のレコードと、検索結果レコードをＷｅｂサーバ１１６に出力し、Ｗｅｂサーバ１１６は、端末３２０に送信する。端末３２０のＷｅｂブラウザは、受信した検索条件のレコードを検索条件領域５２０（図２参照）に、検索結果レコードを検索結果領域５３０に表示する。

≪教師データ抽出結果データベース≫
教師データ抽出部１１８の動作を説明する前に、教師データ抽出結果データベース１８０を説明する。教師データ抽出結果データベース１８０は、教師データ抽出条件テーブル１８１（後記する図８参照）と教師データ抽出結果テーブル１９１（後記する図１０参照）を含む。

≪教師データ抽出結果データベース：教師データ抽出条件テーブル≫
図８は、本実施形態に係る教師データ抽出条件テーブル１８１のデータ構成を示す図である。教師データ抽出条件テーブル１８１は、例えば表形式のデータであって、１つのレコード（行）は、１つの抽出条件を示し、抽出条件識別情報１８２、特徴量１８３、正非フラグ１８４、閾値Ａ１８５、閾値Ｂ１８６、追加学習要否１８７、収集データ数１８８および機械学習モデルバージョン１８９を含む。抽出条件は、検索結果テーブル１６４（図７参照）の画像データに相当する検索結果レコードを検索するときの検索条件である。機械学習モデルバージョン１８９は、抽出対象となる検索結果テーブル１６４の検索結果レコードの機械学習モデルバージョン１７８を示す。

抽出条件識別情報１８２は、抽出条件の識別情報である。
特徴量１８３は、抽出条件のキーとなる特徴量を示し、頭部色が黒・グレー・白である特徴量、上半身の服の色が黒・グレー・青である特徴量および下半身の服の色が黒・グレー・青である特徴量の何れかである。
正非フラグ１８４は、正解、不正解または両方である。正解とは、分類項目１７７を該当に設定した検索結果を正解とみなすデータのこと、不正解とは、分類項目１７７を非該当に設定した検索結果を不正解とみなすデータのこと、両方は、正解と不正解の両方のデータのことを指す。

追加学習要否１８７は、追加学習が要のデータを抽出するか、追加学習が否のデータを抽出するか、追加学習が要と否の両方のデータを抽出するかを示す。追加学習が要とは、利用者の判断結果（分類項目）が該当であって、抽出対象データの特徴量１８３に示される特徴量の値が閾値Ｂ１８６以下である場合か、利用者の判断結果が非該当であって、抽出対象データの特徴量１８３に示される特徴量の値が閾値Ａ１８５以上である場合である。また、追加学習が否とは、利用者の判断結果が該当であって、抽出対象データの特徴量１８３に示される特徴量の値が閾値Ａ１８５以上である場合か、利用者の判断結果が非該当であって、抽出対象データの特徴量１８３に示される特徴量の値が閾値Ｂ１８６以下である場合である。抽出対象データの特徴量が閾値Ａ１８５と閾値Ｂ１８６の間にある場合や、分類項目が保留または未分類ならば、要でも否でもない。
追加学習要否１８７は、後記する図９を参照して再度説明する。

収集データ数１８８は、追加学習の教師データとして望ましい、抽出条件に合致する検索結果テーブル１６４（図７参照）の検索結果レコードの件数である。
抽出条件識別情報１８２が「ＳＣ０１」であるレコードは、キーとなる特徴量１８３が「頭部色が黒」であって、正非フラグ１８４が正解と不正解の両方であり、閾値Ａ１８５が８０、閾値Ｂ１８６が３０として追加学習が要となる抽出条件を示している。

図９は、本実施形態に係り、抽出対象データ（検索結果レコード）の正非フラグ１８４、閾値Ａ１８５、閾値Ｂ１８６および追加学習要否１８７を説明するためのグラフ４５０である。グラフ４５０の縦軸は特徴量であり、横軸は分類項目である。点線横線４５５は、閾値Ａ１８５に示される閾値であり、点線横線４５６は、閾値Ｂ１８６に示される閾値である。

利用者により該当と判定され、特徴量が閾値Ａ１８５以上の抽出対象データは、領域４５１にプロットされる。利用者により該当と判定され、特徴量が閾値Ｂ１８６以下の抽出対象データは、領域４５２にプロットされる。利用者により非該当と判定され、特徴量が閾値Ａ１８５以上の抽出対象データは、領域４５４にプロットされる。利用者により非該当と判定され、特徴量が閾値Ｂ１８６以下の抽出対象データは、領域４５３にプロットされる。

追加学習が要となる抽出対象データは、特徴量と分類項目（該当、非該当）が食い違っている（特徴量と分類項目との逆相関がある）領域４５２または領域４５４にプロットされる抽出対象データである。追加学習が否となる抽出対象データは、特徴量と分類項目が一致している（特徴量と分類項目との相関がある）領域４５１または領域４５３にプロットされる抽出対象データである。

正非フラグが正解となる抽出対象データは、分類項目が該当であるデータであって、領域４５１、領域４５２、または領域４５１と領域４５２との間にプロットされる抽出対象データである。不正解となる抽出対象データは、分類項目が非該当であるデータであって、領域４５３、領域４５４、または領域４５３と領域４５４との間にプロットされる抽出対象データである。

≪教師データ抽出結果データベース：教師データ抽出結果テーブル≫
図１０は、本実施形態に係る教師データ抽出結果テーブル１９１のデータ構成を示す図である。教師データ抽出結果テーブル１９１は、例えば表形式のデータであって、１つのレコード（行）は、教師データ抽出条件テーブル１８１の何れかの抽出条件に合致して抽出された検索結果テーブル１６４（図７参照）の検索結果レコード（画像データ）を示し、教師データ識別情報１９２、特徴量１９３、分類項目１９４、追加学習要否１９５、画像識別情報１９６、類似度１９７および機械学習モデルバージョン１９８の属性を含む。

教師データ識別情報１９２は、教師データとして抽出された画像データの識別情報である。
特徴量１９３は、教師データ抽出条件テーブル１８１の検索条件にある特徴量１８３に対応し、どの特徴量がキーとなっているかを示す。
分類項目１９４は、教師データとして抽出された画像データに対する利用者の判定結果である分類項目あり、該当か非該当である。

追加学習要否１９５は、教師データとして抽出された画像データに対する追加学習の要否を示す。
画像識別情報１９６は、教師データとして抽出された画像データの識別情報であり、画像識別情報１６６（図７参照）に対応する。
類似度１９７は、画像データの特徴量１９３に示される特徴量の値である。
機械学習モデルバージョン１９８は、教師データとして抽出された画像データの機械学習モデルバージョン１７８を示す。

教師データ識別情報１９２が「ＬＤ０１」および「ＬＤ０２」のレコードは、抽出条件識別情報が「ＳＣ０１」の抽出条件で合致したデータである。教師データ識別情報１９２が「ＬＤ０１」であるレコードに示される画像データは、頭部色が黒である度合の特徴量が１５であって特徴量の値が閾値Ｂ１８６以下であると判断されているのに対して、利用者から該当と判定されており、追加学習が要である画像データである。教師データ識別情報１９２が「ＬＤ０２」であるレコードに示される画像データは、頭部色が黒である度合の特徴量が８５であって特徴量の値が閾値Ａ１８５以上であると判断されているのに対して、利用者から非該当と判定されており、追加学習が要である画像データである。

≪教師データ抽出部≫
図３の説明に戻る。管理者が端末３２０において教師データ抽出を指示すると、Ｗｅｂサーバ１１６が教師データ抽出部１１８に通知する。教師データ抽出部１１８は、検索結果テーブル１６４（図７参照）の検索結果レコード（画像データ）のなかで、教師データ抽出条件テーブル１８１にある何れかの検索条件に合う検索結果レコードを抽出して、教師データ抽出結果テーブル１９１を生成する。抽出された教師データは、追加学習データとして、画像データベース１２０に格納されていて画像識別情報１９６に対応する画像データとともに追加学習装置３００に送信される（図１参照）。抽出処理の詳細については、後記する図１１を参照して説明する。

≪機械学習モデル更新部≫
図３の説明に戻る。機械学習モデル更新部１１９は、追加学習装置３００が生成した新機械学習モデル４２０（図１参照）を受け取り、特徴抽出部１１３の機械学習モデル１１４と置き換える（機械学習モデル１１４を新機械学習モデル４２０で更新する）。

≪教師データ抽出処理≫
図１１は、本実施形態に係る教師データ抽出部１１８が実行する教師データ抽出処理のフローチャートである。図１１を参照しながら、教師データ抽出処理の詳細を説明する。
ステップＳ１０１において教師データ抽出部１１８は、教師データ抽出結果テーブル１９１を初期化して、レコード件数を０件とする。
ステップＳ１０２において教師データ抽出部１１８は、教師データ抽出条件テーブル１８１の各レコードが示す抽出条件について、ステップＳ１０３〜Ｓ１０９を繰り返す。以下では、ステップＳ１０２で選択したレコードが示す抽出条件を本抽出条件と記す。

ステップＳ１０３において教師データ抽出部１１８は、最新の検索結果テーブル１６４（図７参照）に含まれる各検索結果レコード（画像データ）について、ステップＳ１０４〜Ｓ１０８を繰り返す。以下では、ステップＳ１０３で選択した検索結果レコードが示す画像データを抽出対象データと記す。

ステップＳ１０４において教師データ抽出部１１８は、抽出対象データの機械学習モデルバージョン１７８が本抽出条件の機械学習モデルバージョン１８９に合致するか判定し、合致すれば（ステップＳ１０４→Ｙ）ステップＳ１０５に進み、合致しなければ（ステップＳ１０４→Ｎ）ステップＳ１０９に進む。

ステップＳ１０５において教師データ抽出部１１８は、抽出対象データが本抽出条件の正非フラグ１８４に合致するか判定し、合致すれば（ステップＳ１０５→Ｙ）ステップＳ１０６に進み、合致しなければ（ステップＳ１０５→Ｎ）ステップＳ１０９に進む。
正非フラグ１８４が正解で合致するとは、抽出対象データの分類項目１７７（図７参照）が該当であることである。正非フラグ１８４が不正解で合致するとは、抽出対象データの分類項目１７７が非該当であることである。正非フラグ１８４が両方で合致するとは、抽出対象データの分類項目１７７が該当または非該当であることである。

ステップＳ１０６において教師データ抽出部１１８は、抽出対象データの特徴と分類項目の相関から追加判定の要否を判定する。詳しくは、教師データ抽出部１１８は、特徴量の値が閾値Ａ１８５以上であって分類項目が該当ならば、相関ありで、追加学習不要（追加学習否）と判定する。教師データ抽出部１１８は、特徴量の値が閾値Ａ１８５以上でであって分類項目が非該当ならば、逆相関ありで、追加学習要と判定する。教師データ抽出部１１８は、特徴量の値が閾値Ｂ１８６以下であって分類項目が該当ならば、逆相関ありで、追加学習要と判定する。教師データ抽出部１１８は、特徴量の値が閾値Ｂ１８６以下であって分類項目が非該当ならば、相関ありで、追加学習不要と判定する。

ステップＳ１０７において教師データ抽出部１１８は、抽出対象データが本抽出条件の追加学習要否１８７に合致するか判定し、合致すれば（ステップＳ１０７→Ｙ）ステップＳ１０８に進み、合致しなければ（ステップＳ１０７→Ｎ）ステップＳ１０９に進む。抽出対象データが本抽出条件の追加学習要否１８７に合致するとは、ステップＳ１０６で判定した追加学習の要否（要または不要）が本抽出条件の追加学習要否１８７に示す条件（要、否、両方（要と否の何れか））に合致するということである。

ステップＳ１０８において教師データ抽出部１１８は、抽出対象データを教師データ抽出結果テーブル１９１に追加する。追加するには、教師データ抽出結果テーブル１９１にレコードを追加して、教師データ識別情報１９２に新しい識別情報を格納し、特徴量１９３には本抽出条件の特徴量１８３を格納して、分類項目１９４には抽出対象データの分類項目１７７を格納し、追加学習要否１９５にはステップＳ１０６で判定した追加要否の判定結果を格納し、画像識別情報１９６には抽出対象データの画像識別情報１６６を格納して、類似度１９７には本抽出条件の特徴量１８３に対応する抽出対象データの特徴量を格納し、機械学習モデルバージョン１９８には、抽出対象データの機械学習モデルバージョン１７８を格納する。

ステップＳ１０９において教師データ抽出部１１８は、最新の検索結果テーブル１６４に含まれる全ての検索結果レコードについてステップＳ１０４〜Ｓ１０８を実行したならば、ステップＳ１１０に進む。残りがあるならば、次の検索結果レコードを抽出対象データとして、ステップＳ１０４〜Ｓ１０８を実行する。
ステップＳ１１０において教師データ抽出部１１８は、教師データ抽出条件テーブル１８１に含まれる全ての抽出条件についてステップＳ１０３〜Ｓ１０９を実行したならば、教師データ抽出処理を終える。残りがあるならば、次の抽出条件を本抽出条件として、ステップＳ１０３〜Ｓ１０９を実行する。

≪教師データ抽出処理の特徴≫
教師データ抽出の対象となる画像データは、探索する人物の条件を設定して検索した結果に、利用者が探索対象の人物に該当するか否かを判定した結果（分類項目）を付与したデータである。分類項目が付与済みであるため、教師データとして、改めて正解タグを付与することなく教師データとして利用可能である。例えば、図１０に示す教師データ識別情報１９２が「ＬＤ０１」のデータは、「頭部色が黒」という特徴量１９３に該当するデータとして、追加学習に使うことができる。従来技術にあるように、データを収集したり、新たに正解タグを付与したりする必要がなく、教師データを収集して正解タグを付与するコストを削減することができる。

抽出された教師データは、画像検索装置１００の外部に出力される。このように正解タグを付与する作業が効率化されることで、追加学習の期間を短縮することが可能となる。なお、追加学習を画像検索装置１００内部で実行してもよい。

深層学習の追加学習については、多くの文献で既に開示されているものであり、Caffeなどの機械学習フレームワークで様々な学習が可能である。本実施形態の効果は、特定のフレームワークに限定されるものではない。特に追加学習の必要性が高い特徴量を集中的に追加学習したい場合には、収集されたデータから、追加学習要否１８７を要（特徴量と分類項目が逆相関）として教師データを抽出して学習することで効率的に追加学習を進めることができる。また、全般的な学習により精度アップを図りたい場合は、収集されたデータから、正非フラグ１８４を両方として教師データを抽出して学習することで効率的に追加学習を進めることができる。

≪変形例１：機械学習モデルバージョン≫
画像検索装置１００は、検索結果テーブル１６４（図７参照）や教師データ抽出結果テーブル１９１（図１０参照）に付与された機械学習モデルバージョン１７８，１９８を参照して、古いバージョンの機械学習モデル１１４による特徴量を含む検索結果テーブル１６４をロードして参照する利用者や、教師データ抽出をする管理者に警告を送るようにしてもよい。こうすることで、異なるバージョンの検索結果レコードからの教師データ抽出を防ぐことができ、整合性のある追加学習が可能となる。

≪変形例２：教師データ抽出条件≫
上記した実施形態では、教師データ抽出条件テーブル１８１（図８参照）に格納される抽出条件は、設定済みの条件として説明した。画像検索装置１００の管理者により、抽出条件を変更できるようにしてもよい。このようにすることで、例えば、全ての特徴量について教師データを抽出するのではなく、精度が低いと考えられる特徴量（例えば頭部色、上半身の服の色がグレー）に絞って追加学習が可能となる。または、正非フラグ１８４や閾値Ａ１８５、閾値Ｂ１８６を調整して、教師データ件数を加減することが可能となる。

図１２は、本実施形態の変型例に係る画像検索装置１００の端末３２０に表示される教師データ抽出条件設定画面６００の構成図である。教師データ抽出条件設定画面６００は、抽出セット領域６１０および抽出条件領域６２０を含んで構成される。
管理者は、教師データ抽出条件テーブル１８１（図８参照）に反映する内容を抽出条件領域６２０に設定する。詳しくは、教師データ抽出条件テーブル１８１の特徴量１８３、正非フラグ１８４、閾値Ａ１８５、閾値Ｂ１８６および追加学習要否１８７に設定する値を、それぞれリストボックス６２１、リストボックス６２２、テキストボックス６２３、テキストボックス６２４およびリストボックス６２５に設定する。例えば、正非フラグ１８４については、リストボックス６２２の「正解」、「不正解」および「両方」から選択する。

抽出セット領域６１０の抽出条件識別情報６１１は、教師データ抽出条件テーブル１８１の抽出条件識別情報１８２に対応する。管理者が抽出条件識別情報６１１を入力してロードボタン６１３を押下すると、教師データ抽出条件テーブル１８１のレコードのなかで抽出条件識別情報１８２が、管理者が入力した抽出条件識別情報６１１に一致するレコードの内容が抽出条件領域６２０に表示される。

管理者が抽出条件識別情報６１１を入力して保存ボタン６１２を押下すると、教師データ抽出条件テーブル１８１のレコードのなかで抽出条件識別情報１８２が、管理者が入力した抽出条件識別情報６１１に一致するレコードに、抽出条件領域６２０に設定された内容が反映される。管理者が入力した抽出条件識別情報６１１に一致するレコードがない場合には、教師データ抽出条件テーブル１８１にレコードが追加され、抽出条件領域６２０に設定された内容が反映される。

≪変型例３：追加学習の必要性≫
特徴量と分類項目との相関を可視化することで、何れの特徴量について追加学習が必要かを判断することができる。図１３および図１４は、本実施形態の変型例に係る特徴量と分類項目との相関を示したグラフ４７０，４８０である。グラフ４７０は、ある特徴量、例えば上半身の服の色が青という検索条件における、検索結果レコード（図７参照）をプロットしたグラフである。また、グラフ４８０は、ある特徴量、例えば上半身の服の色が黒という検索条件における、検索結果レコードをプロットしたグラフである。グラフの右上にある「ｒ＝ .８」や「ｒ＝ −.８」は、相関係数を示している。

グラフ４７０では、分類項目が該当で特徴量が大きい領域４７１、および分類項目が非該当委で特徴量が小さい領域４７２にプロットされる検索結果レコードが多く、特徴量と分類項目の相関がある。このため、「上半身の服の色が青」という特徴量についての追加学習の必要性は、比較的低いといえる。
一方、グラフ４８０では、分類項目が該当で特徴量が小さい領域４８１、および分類項目が非該当で特徴量が大きい領域４８２にプロットされる検索結果レコードが多く、特徴量と分類項目の逆相関がある。このため、「上半身の服の色が黒」という特徴量についての追加学習の必要性は、比較的高いといえる。

画像検索装置１００が、グラフ４７０，４８０に示すような特徴量と分類項目との相関を示すグラフを管理者に提示するグラフ生成部を備えるようにしてもよい。管理者は、グラフ上で相関が低い（逆相関（負の相関）または弱い相関）特徴量について、優先的に追加学習することができる。
また、グラフ生成部は、グラフを管理者に提示すると同時に、相関係数を算出して表示するようにしてもよい。このようにすることで、管理者が追加学習の判断をしやすくなる。
さらに、グラフ生成部は、相関係数のほかに、該当と非該当とのそれぞれの検索結果レコードの特徴量について、平均値と標準偏差を算出して表示してもよい。管理者は、該当の平均値が低い、非該当の平均値が高い、該当または非該当の標準偏差が大きい特徴量について、優先的に追加学習するなど、相関係数、平均値、標準偏差を参照して追加学習する特徴量を判断することができる。

追加学習に用いる教師データについては、教師データ抽出条件設定画面６００（図１２参照）で抽出条件を設定して抽出する他に、グラフ上で管理者が指定した検索結果レコードを教師データとして抽出するようにしてもよい。画像検索装置１００は、例えば、グラフ上で管理者が指定した領域にある検索結果レコードを抽出して教師データとしてもよい。

≪変型例４：教師データ抽出のタイミング≫
上記した実施形態では、画像検索装置１００は、管理者の指示があったときに追加学習用の教師データを抽出している。画像検索装置１００は、例えば所定の周期で抽出して、追加学習装置３００に出力するようにしてもよい。また、画像検索装置１００は、定期的に抽出を繰り返し、抽出結果の件数が収集データ数１８８（図８参照）以上になったときに追加学習装置３００に出力するようにしてもよい。

教師データは、利用者が分類項目設定領域５３４の分類項目を設定するたびに抽出するようにしてもよい。詳しくは、利用者が分類項目を設定するたびに、端末３２０上のＷｅｂブラウザは、画像識別情報および分類項目とをＷｅｂサーバ１１６に送信する。Ｗｅｂサーバ１１６は、画像識別情報および分類項目を分類項目登録部１１７および教師データ抽出部１１８に出力する。
分類項目登録部１１７は、検索結果データベース１５０の検索結果テーブル１６４（図７参照）のなかのレコードであって、画像識別情報に対応する検索結果レコードの分類項目１７７をＷｅｂサーバ１１６が出力した分類項目に変更する。

教師データ抽出部１１８は、検索結果テーブル１６４のなかのレコードであって、画像識別情報に対応する検索結果レコードが、教師データ抽出条件テーブル１８１（図８参照）の何れかの抽出条件に合致するならば、検索結果レコードを教師データ抽出結果テーブル１９１（図１０参照）に格納する。利用者が、分類項目を変更した場合には、分類項目１７７を変更したり、変更により教師データ抽出条件テーブル１８１（図８参照）の何れの抽出条件に合致しない場合にはレコードを削除したりする。
このようにすることで、利用者が設定した分類項目に応じて即座に教師データが抽出されるようになる。また、抽出結果の件数が収集データ数１８８に達したときに即座に教師データが抽出されて追加学習装置３００（図１参照）に出力できるようになる。結果として、システムのダウンタイムの減少や日々の作業における保守コストの減少となり、機械学習モデル１１４の更新が早くなる。

他にも、画像検索装置１００は、定期的に検索結果レコードにおける特徴と分類項目の相関係数や平均値、標準偏差を算出し、所定の条件を満たしたときに追加学習装置３００に出力するようにしてもよい。例えば、画像検索装置１００は、相関係数が所定値より小さいときに出力するようにしてもよい。
このようにすることで、管理者の指示がなくても、画像検索装置１００は、必要に応じて追加学習を行うことができるようになる。または、画像検索装置１００は、管理者に追加学習を促すことができるようになる。

≪変型例５：判定対象データや特徴量≫
上記した実施形態における機械学習モデル１１４は、人物の画像データから、頭部色や上半身の服の色、下半身の服の色の特徴量を抽出して分類している。色については、黒・グレー・白・青に限定する必要はない。色に限らず、メガネや帽子など身に着けているもの、かばんやスマートフォンなど携帯しているもの、背丈などを特徴量して抽出して分類するようにしてもよい。このような人物に対する様々な特徴量に対応することで、画像検索装置１００が実行する検索の精度をあげることができる。

また、上記した実施形態における機械学習モデル１１４の対象（入力データ）は、人物の画像であるが、これに限定するものではなく、物品であってもよい。また、画像の検索に限らず、例えば、文書の検索であってもよい。種別やカテゴリなどで文書を検索する装置において、種別やカテゴリを特徴量として、機械学習モデルの教師データを抽出するようにしてもよい。機械学習モデルは、深層学習に限らず、ＳＶＭなどの機械学習モデルであってもよい。

≪変型例６：検索条件≫
上記した実施形態においての人物の検索条件は、頭部色、上半身の服の色および下半身の服の色である。この他に、カメラ３１０の撮影時刻や撮影したカメラ３１０、撮影エリアなどの条件を加えて、検索できるようにしてもよい。
または、検索条件として、頭部色、上半身の服の色および下半身の服の色の替わりに、探索対象人物の画像データを用いてもよい。画像検索部１１５は、検索条件となる画像データから頭部色、上半身の服の色および下半身の服の色を抽出して、抽出した色を条件に特徴量データベース１３０の特徴量テーブル１３１（図５参照）を検索する。このようにすることで、利用者は、頭部色や上半身の服の色、下半身の服の色を指定しなくても、対象人物の画像があれば検索可能となる。

≪変型例７：検索結果の表示順序≫
上記した実施形態において検索結果領域５３０には、検索結果５３１が検索条件との合致度（平均類似度）の降順で表示される。カメラやその設置エリア、撮影時刻など他の情報に基づいて順序で表示されてもよい。

≪その他の変型例≫
本発明は、上記した実施形態に限定されることなく、その趣旨を逸脱しない範囲で変更することができる。画像検索装置１００は、画像の取り込み、探索対象人物の検索、教師データの抽出を１台のコンピュータで実行していたが、複数のコンピュータで実行するようにしてもよい。また、ユーザインタフェースは、端末３２０上のＷｅｂブラウザであったが、これに限る必要はない。

以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。また、処理の順序を入れ替えたり、並列に処理してもよい。
例えば、特徴量テーブル１３１（図５参照）や検索結果テーブル１６４（図７参照）、教師データ抽出結果テーブル１９１（図１０参照）は、画像識別情報１３４，１６６，１９６を含むが、これに替わり画像そのものを含めるようにしてもよい。また、画像検索部１１５、分類項目登録部１１７および教師データ抽出部１１８を１つの機能部としてもよい。他にも、ステップＳ１０４，Ｓ１０５を入れ替えてもよい。
これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００画像検索装置
１１１画像取込部
１１２人物検出部
１１３特徴抽出部
１１４機械学習モデル
１１５画像検索部
１１７分類項目登録部（分類項目取得部）
１１８教師データ抽出部
１１９機械学習モデル更新部
３００追加学習装置
５１０検索セット領域
５２０検索条件領域
５３０検索結果領域
５３１検索結果
５３２画像確認領域
５３３平均類似度バー
５３４分類項目設定領域

Claims

取得した画像から機械学習モデルを用いて特徴量を抽出する特徴抽出部と、
前記特徴量を用いて前記画像を検索して検索結果を出力する画像検索部と、
前記検索結果の個々の画像が分類されて、付与された分類結果を示す分類項目を取得する分類項目取得部と、
前記特徴量と前記分類項目との相関に基づいて、前記機械学習モデルを追加学習するための教師データとなる画像を抽出する教師データ抽出部と、を備える
ことを特徴とする画像検索装置。
前記画像検索部は、目標とする対象の特徴を取得して、前記対象の特徴と前記画像から抽出された特徴量とを照合することで前記画像を検索して検索結果を出力し、
前記分類項目は、前記目標とする対象を前記画像が含むことを示す該当および前記目標とする対象を前記画像が含まないことを示す非該当を含む
ことを特徴とする請求項１に記載の画像検索装置。
前記教師データ抽出部は、抽出した画像とともに、当該画像の分類項目および特徴量の何れかを前記画像検索装置の外部に出力する
ことを特徴とする請求項１または２に記載の画像検索装置。
前記教師データ抽出部は、前記特徴量と前記分類項目とが逆相関である画像、および前記特徴量と前記分類項目とが相関している画像の何れかを抽出する
ことを特徴とする請求項１〜３の何れか１項に記載の画像検索装置。
前記教師データ抽出部は、前記特徴量が所定値より低く前記分類項目が該当である画像、前記特徴量が所定値より高く前記分類項目が非該当である画像、前記特徴量が所定値より低く前記分類項目が非該当である画像、および前記特徴量が所定値より高く前記分類項目が該当である画像の何れかを抽出する
ことを特徴とする請求項４に記載の画像検索装置。
前記特徴量と前記分類項目を軸とし、前記画像をプロットしたグラフを生成するグラフ生成部を備える
ことを特徴とする請求項１に記載の画像検索装置。
前記グラフ生成部は、前記グラフにプロットされた画像の特徴量および分類項目の相関係数と、分類項目ごとの特徴量の平均および標準偏差との何れかを算出して表示する
ことを特徴とする請求項６に記載の画像検索装置。
前記教師データ抽出部は、前回の抽出から所定時間が経過したとき、抽出件数が所定の条件を満たすとき、前記画像の特徴量と分類項目の相関が所定の条件を満たすとき、前記画像の分類項目ごとの特徴量の平均が所定の条件を満たすとき、前記画像の分類項目ごとの特徴量の標準偏差が所定の条件を満たすときの何れかのタイミングで、教師データとなる画像を抽出する、教師データとなる画像を抽出して前記画像検索装置の外部に出力する、および条件が満たされたことを報知するの何れかを実行する
ことを特徴とする請求項１に記載の画像検索装置。
前記機械学習モデルには、前記追加学習の結果、前記機械学習モデルが更新されると変更されるバージョンが付与されており、
前記教師データ抽出部は、現行バージョンの機械学習モデルによって抽出された特徴量と、当該特徴量に基づいて検索されて付与された分類項目との相関に基づいて、教師データとなる画像を抽出する
ことを特徴とする請求項１に記載の画像検索装置。
前記教師データ抽出部は、現行バージョンとは異なるバージョンの機械学習モデルによって抽出された特徴量に基づいて検索されて付与された分類項目との相関に基づいて、教師データとなる画像の抽出を指示されると、警告を報知する
ことを特徴とする請求項９に記載の画像検索装置。
前記画像は、人物を含む画像であり、
前記特徴量は、前記人物の頭部の色、上半身の服の色、下半身の服の色、前記人物が携帯しているもの、前記人物が身に着けているものにかかわる特徴量の何れかである
ことを特徴とする請求項１に記載の画像検索装置。
画像検索装置の教師データ抽出方法であって、
取得した画像から機械学習モデルを用いて特徴量を抽出するステップと、
前記特徴量を用いて前記画像を検索して検索結果を出力するステップと、
前記検索結果の個々の画像が分類されて、付与された分類結果を示す分類項目を取得するステップと、
前記特徴量と前記分類項目との相関に基づいて、前記機械学習モデルを追加学習するための教師データとなる画像を抽出するステップとを
実行することを特徴とする教師データ抽出方法。