JP7362074B2

JP7362074B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7362074B2
Application number: JP2021087721A
Authority: JP
Inventors: 隆之堀; 容範金; 裕真鈴木; 一也植木
Original assignee: SoftBank Corp; Meisei Gakuen
Current assignee: SoftBank Corp; Meisei Gakuen
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-10-17
Anticipated expiration: 2041-05-25
Also published as: JP2022180941A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

近年、ＳＮＳ（Social Networking Service）や防犯カメラの普及により、映像コンテンツの数が急増している。そこで、膨大な数の映像コンテンツを効率よく整理、管理するための技術が求められている。

例えば、画像に含まれる複数のオブジェクトのオブジェクト名情報と、画像に含まれる複数のオブジェクト間の所定の関係性を示す関係名称情報とを含む検索用データを算出する。そして、オブジェクト名情報または関係名称情報のうち少なくともいずれか一方を検索クエリとして入力を受け付け、受け付けた検索クエリに対応する所定の画像を抽出する技術が知られている。

特開２０２０－１４９３３７号公報特開２０１９－２０４１８３号公報特開２０１９－１９７４６４号公報

画像の検索精度を向上させる技術が求められている。

本願に係る情報処理装置は、利用者によって入力された第１クエリ文を受け付ける受付部と、ＶＳＥ（Visual-Semantic Embedding）モデルを用いて、前記第１クエリ文に関する第１画像を検索する検索部と、前記第１画像に関するコンセプトを抽出する抽出部と、を備え、前記検索部は、前記ＶＳＥモデルを用いて、前記抽出部によって抽出されたコンセプトに基づく第２クエリ文に関する第２画像を再検索する。

図１は、実施形態に係るＶＳＥ（Visual-Semantic Embedding）モデルとコンセプト識別器について説明するための図である。図２は、実施形態に係る情報処理装置の構成例を示す図である。図３は、実施形態に係る情報処理手順を示す図である。図４は、変形例に係る情報処理手順を示す図である。図５は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．はじめに〕
近年、膨大な数の映像コンテンツを効率よく整理、管理するために、画像の内容を自動で分析し、画像の内容を示す文字情報（キャプションやタグなど）を自動で生成・付与する技術が知られている。これにより、文字情報から画像を検索可能とすることができる。ここで、本願明細書における「画像」とは、映像などの動画であってもよいし、映像に含まれる各シーン（静止画）であってもよい。

このような背景の下、文字情報から画像を検索する代表的な２つの手法を比較した研究が知られている。具体的には、（１）画像に含まれる物体、人物、場面および動作等の検出対象（以下、コンセプトともいう）をあらかじめ学習した学習済みの機械学習モデル（以下、コンセプト識別器ともいう）を用いてクエリ文から画像を検索する手法と、（２）画像の特徴を示す画像特徴量と、画像の内容を言語で表現した言語表現の特徴を示す言語特徴量とが対応付けられて埋め込まれた共通空間を用いて、クエリ文とマッチする画像を検索する手法とを比較した研究が知られている（参考文献；「Comparison and Evaluation of Video Retrieval Approaches Using Query Sentences」、IMIP 2020: Proceedings of the 2020 2nd International Conference on Intelligent Medicine and Image Processing、April 2020、Pages 103‐107、https://doi.org/10.1145/3399637.3399657）。ここで、画像の特徴を示す画像特徴量と、画像の内容を言語で表現した言語表現の特徴を示す言語特徴量を対応付けて共通空間に埋め込む技術は、ＶＳＥ（Visual-Semantic Embedding）と呼ばれている。

上記の研究によると、（１）に示すコンセプト識別器を用いる手法と（２）に示すＶＳＥを用いる手法は、相補的であることが示されている。そこで、本願発明の発明者は、（１）に示すコンセプト識別器を用いる手法と（２）に示すＶＳＥに基づく手法を統合することで、画像の検索精度を向上させる技術を提案する。具体的には、本願発明は、コンセプト識別器を用いて画像から適切なコンセプトを抽出し、ＶＳＥモデルを用いて抽出されたコンセプトと類似する画像を再検索する。これにより、本願発明は、例えば、利用者から受け付けたクエリ文に明示されていないコンセプト（例えば、暗示的なコンセプト）の中から、適切なコンセプトを抽出して、抽出したコンセプトと類似する画像を再検索することができる。したがって、本願発明は、画像の検索精度を向上させることができる。

ここから、図１を用いて、実施形態に係るＶＳＥ（Visual-Semantic Embedding）モデルとコンセプト識別器について説明する。図１は、実施形態に係るＶＳＥモデルとコンセプト識別器について説明するための図である。

図１の左側は、実施形態に係るＶＳＥモデルの一例を示す。例えば、図１の左側に示すＶＳＥモデルは、画像から文を検索する場合、画像をＶＳＥモデルに入力して、画像の特徴を示す画像特徴量に対応する特徴ベクトル（以下、画像の特徴ベクトルともいう）を生成する。続いて、ＶＳＥモデルは、生成した画像の特徴ベクトルを文の特徴を示す文特徴量に対応する特徴ベクトル（以下、文の特徴ベクトルともいう）との共通の空間にマッピングしたのち、画像の特徴ベクトルと類似する文の特徴ベクトルに対応する文を検索結果とする。例えば、ＶＳＥモデルは、画像の特徴ベクトルと文の特徴ベクトルとの類似度が所定の閾値を超えるような文の特徴ベクトルに対応する文を検索結果として出力する。

また、ＶＳＥモデルは、画像から画像特徴量を抽出することができる。ＶＳＥモデルは、画像から画像特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、ＶＳＥモデルは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を備えてよい。そして、ＶＳＥモデルは、ＣＮＮを用いて、画像から画像特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、物体認識用に開発されたＲｅｓＮｅｔ（Residual Network）（Kaiming He et al., 2015）、ＡｌｅｘＮｅｔ（Krizhevsky et al., 2012）、ＶＧＧＮｅｔ（Simonyan et al., 2014）、ＧｏｏｇＬｅＮｅｔ（Szegedy et al., 2014）、ＳＥＮｅｔ（Squeeze-and-Excitation Networks）（Jie Hu et al., 2018））、ＥｆｆｉｃｉｅｎｔＮｅｔ（Tan et al., 2019）、またはＺＦＮｅｔ（Matthew et al., 2013）を備えてよい。そして、ＶＳＥモデルは、ＲｅｓＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＳＥＮｅｔ、ＥｆｆｉｃｉｅｎｔＮｅｔ、またはＺＦＮｅｔを用いて、画像から画像特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、物体検出用に開発されたＦａｓｔｅｒＲ－ＣＮＮ（Shaoqing Ren et al., 2015）、ＹＯＬＯ（You Look Only Onse）（Joseph Redmon et al., 2015）、またはＳＳＤ（Single Shot MultiBox Detector）（Wei Liu., 2015）を備えてよい。そして、ＶＳＥモデルは、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ、またはＳＳＤを用いて、画像から画像特徴量を抽出してよい。

また、図１の左側に示すＶＳＥモデルは、文から画像を検索する場合、文をＶＳＥモデルに入力して、文の特徴ベクトルを生成する。続いて、ＶＳＥモデルは、生成した文の特徴ベクトルを画像の特徴ベクトルとの共通の空間にマッピングしたのち、文の特徴ベクトルと類似する画像の特徴ベクトルに対応する画像を検索結果とする。例えば、ＶＳＥモデルは、文の特徴ベクトルと画像の特徴ベクトルとの類似度が所定の閾値を超えるような画像の特徴ベクトルに対応する画像を検索結果として出力する。

また、ＶＳＥモデルは、言語表現（文章、フレーズ、又はキーワードなど）から言語特徴量を抽出することができる。ＶＳＥモデルは、言語表現から言語表現の特徴を示す言語特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、ＶＳＥモデルは、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）を備えてよい。そして、ＶＳＥモデルは、ＲＮＮを用いて、言語表現から言語特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ（Long Short Term Memory）を備えてよい。そして、ＶＳＥモデルは、ＧＲＵまたはＬＳＴＭを用いて、言語表現から言語特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、Ｔｒａｎｓｆｏｒｍｅｒ（Ashish Vaswani et al., 2017）、ＴｒａｎｓｆｏｒｍｅｒをベースとしたＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＧＰＴ－３（Generative Pre-Training3）またはＴ５（Text-to-Text Transfer Transformer）を備えてよい。そして、ＶＳＥモデルは、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ、ＧＰＴ－３またはＴ５を用いて、言語表現から言語特徴量を抽出してよい。

図１の右側は、実施形態に係るコンセプト識別器の出力結果の一例を示す。コンセプト識別器は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像との類似度を示すコンセプト類似度を出力するよう学習された学習済みの機械学習モデルである。ここで、コンセプト識別器が学習するコンセプト（検出対象ともいう）には、画像に含まれる物体や人物等の対象物に限らず、画像の場面（シーン）および画像に含まれる人物や動物等の動作（走っている、座っている等）等の概念が含まれる。例えば、図１の右側に示すコンセプト識別器の出力結果は、バイクの横に男性が立っている画像がコンセプト識別器に入力された場合に、画像に含まれる男性の髪の毛の色、男性が着ている服装、男性の体の部位、バイクの色、背景の山や海、赤い橋といった対象を検出し、対象のクラス（カテゴリ）を出力したものである。なお、図１の右側では図示を省略しているが、コンセプト識別器は、画像に含まれるコンセプトのクラスとともに、画像に含まれるコンセプトが当該コンセプトのクラス（カテゴリ）に該当する確率を出力する。このように、コンセプト識別器は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトを検出するとともに、検出されたコンセプトのクラスを推定する。すなわち、コンセプト識別器は、コンセプトを含む画像が入力された場合に、コンセプト類似度として、画像に含まれる各コンセプトが推定された各コンセプトのクラスに該当する確率をそれぞれ出力する。

〔２．情報処理装置の構成〕
次に、図２を用いて、実施形態に係る情報処理装置の構成について説明する。図２は、実施形態に係る情報処理装置の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、入力部１３０と、出力部１４０と、制御部１５０とを有する。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）、モデムチップ及びアンテナモジュール等によって実現される。また、通信部１１０は、ネットワークＮ（図示略）と有線又は無線で接続される。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部１２０は、複数の映像または複数の映像それぞれに含まれる各シーンである画像のデータベースである映像プールを記憶する。また、記憶部１２０は、複数の文章または複数の文章それぞれに含まれる各テキストである文字列のデータベースであるキャプションプールを記憶する。

（入力部１３０）
入力部１３０は、利用者から各種操作の入力を受け付ける。例えば、入力部１３０は、タッチパネル機能により表示面（例えば出力部１４０）を介して利用者からの各種操作を受け付けてもよい。また、入力部１３０は、情報処理装置１００に設けられたボタンや、情報処理装置１００に接続されたキーボードやマウスからの各種操作を受け付けてもよい。例えば、入力部１３０は、利用者からクエリ文の入力を受け付けてよい。また、入力部１３０は、利用者からクエリ画像の入力を受け付けてよい。

（出力部１４０）
出力部１４０は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部１４０は、制御部１５０の制御に従って、各種情報を表示する。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部１３０と出力部１４０とは一体化される。また、以下の説明では、出力部１４０を画面と記載する場合がある。

（制御部１５０）
制御部１５０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、情報処理装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図２に示す例では、制御部１５０は、受付部１５１と、取得部１５２と、検索部１５３と、抽出部１５４と、生成部１５５を有する。

（受付部１５１）
受付部１５１は、利用者によって入力されたクエリ文を受け付ける。例えば、受付部１５１は、入力部１３０を介して利用者が入力したクエリ文を受け付ける。ここで、本願明細書におけるクエリ文とは、完全な文章でなくてもよく、例えば、キーワードやフレーズであってもよい。以下では、受付部１５１が利用者から最初に受け付けたクエリ文を「第１クエリ文」と記載する。例えば、受付部１５１は、第１クエリ文の一例として、利用者から「person in a car」というフレーズを受け付ける。

（取得部１５２）
取得部１５２は、映像プールから画像を取得する。例えば、取得部１５２は、受付部１５１が第１クエリ文を受け付けると、記憶部１２０を参照して、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する。例えば、取得部１５２は、Ｎ個（Ｎは自然数）の画像＃１１～画像＃１Ｎを映像プールから取得する。

（検索部１５３）
検索部１５３は、ＶＳＥモデルを用いて、受付部１５１によって受け付けられた第１クエリ文に関する第１画像を検索する。具体的には、検索部１５３は、取得部１５２が画像を取得すると、受付部１５１によって受け付けられた第１クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。例えば、検索部１５３は、第１クエリ文である「person in a car」とＮ個の画像＃１１～画像＃１Ｎそれぞれとの組をＶＳＥモデルに入力する。

続いて、検索部１５３は、第１クエリ文と画像との第１類似度をＶＳＥモデルから出力する。例えば、検索部１５３は、第１クエリ文とＮ個の画像＃１１～画像＃１Ｎそれぞれとの類似度＃１１～類似度＃１Ｎそれぞれを出力する。続いて、検索部１５３は、出力された第１類似度が第１閾値を超える第１画像を検索する。例えば、類似度＃１１～類似度＃１３は第１閾値を超えるが、類似度＃１４～類似度＃１Ｎは第１閾値以下であるとする。このとき、検索部１５３は、Ｎ個の画像＃１１～画像＃１Ｎの中から、第１クエリ文との第１類似度が第１閾値を超える画像＃１１～画像＃１３を第１画像として取得する。

なお、検索部１５３は、出力された第１類似度が第１閾値を超える第１画像を検索する代わりに、出力された第１類似度が高い方から順にいくつかの第１画像を検索してよい。例えば、第１クエリ文とＮ個の画像＃１１～画像＃１Ｎそれぞれとの類似度＃１１～類似度＃１Ｎのうち、類似度＃１１の類似度が最も高く、Ｎが大きくなるほど類似度が低いとする。このとき、検索部１５３は、Ｎ個の画像＃１１～画像＃１Ｎの中から、第１クエリ文との第１類似度が高い方から順に、例えば、３つの画像＃１１～画像＃１３を第１画像として取得してよい。

（抽出部１５４）
抽出部１５４は、第１画像に関するコンセプトを抽出する。具体的には、抽出部１５４は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、第１画像から第１画像に関するコンセプトを抽出する。例えば、抽出部１５４は、検索部１５３によって第１画像が検索されると、検索部１５３によって検索された第１画像をコンセプト識別器に入力する。例えば、抽出部１５４は、検索部１５３によって検索された第１画像である画像＃１１～画像＃１３それぞれをコンセプト識別器に入力する。なお、以下では、簡単のため、第１画像が画像＃１１のみである場合について説明する。

続いて、抽出部１５４は、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力する。例えば、抽出部１５４は、画像＃１１に含まれるコンセプトである「car_interior」と画像＃１１とのコンセプト類似度＃２１である「９０％」をコンセプト識別器から出力する。また、例えば、抽出部１５４は、画像＃１１に含まれるコンセプトである「自動車」と画像＃１１とのコンセプト類似度＃２２である「８０％」をコンセプト識別器から出力する。また、例えば、抽出部１５４は、画像＃１１に含まれるコンセプトである「バイク」と画像＃１１とのコンセプト類似度＃２３である「７０％」をコンセプト識別器から出力する。

続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。例えば、コンセプト閾値が「８５％」であるとする。このとき、抽出部１５４は、コンセプト類似度がコンセプト閾値である「８５％」を超えるコンセプトである「car_interior」を抽出する。続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する。例えば、抽出部１５４は、第１クエリ文に含まれない文字列を含むコンセプトを隠れコンセプトとして抽出する。例えば、抽出部１５４は、第１クエリ文である「person in a car」に含まれない文字列である「interior」を含むコンセプトである「car_interior」を隠れコンセプトとして抽出する。

なお、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する代わりに、出力されたコンセプト類似度が高い方から順にいくつかのコンセプトを抽出してよい。例えば、第１画像とＭ個（Ｍは自然数）のコンセプト＃１１～コンセプト＃１Ｍそれぞれとのコンセプト類似度＃１１～コンセプト類似度＃１Ｍのうち、コンセプト類似度＃１１のコンセプト類似度が最も高く、Ｍが大きくなるほどコンセプト類似度が低いとする。このとき、抽出部１５４は、Ｍ個のコンセプト＃１１～コンセプト＃１Ｍの中から、第１画像とのコンセプト類似度が高い方から順に、例えば、３つのコンセプト＃１１～コンセプト＃１３を抽出してよい。

（生成部１５５）
以下では、抽出部１５４によって抽出された隠れコンセプトに基づいて生成されたクエリ文のことを「第２クエリ文」と記載する。生成部１５５は、抽出部１５４によって抽出された隠れコンセプトに基づいて、第２クエリ文を生成する。例えば、生成部１５５は、抽出部１５４によって抽出された隠れコンセプトに基づいて、第１クエリ文を更新して、第２クエリ文を生成してよい。例えば、生成部１５５は、抽出部１５４によって抽出された隠れコンセプトである「car_interior」を含む第２クエリ文を生成してよい。出力部１４０は、生成部１５５によって生成された第２クエリ文を出力する。例えば、出力部１４０は、生成部１５５によって生成された第２クエリ文の一例として、「car_interior」を出力する。受付部１５１は、出力部１４０によって出力された第２クエリ文を利用者から受け付ける。例えば、受付部１５１は、出力部１４０によって出力された第２クエリ文である「car_interior」を利用者から受け付ける。

なお、生成部１５５が第２クエリ文を生成する代わりに、出力部１４０によって出力された隠れコンセプトに基づいて利用者が第２クエリ文を生成してもよい。受付部１５１は、利用者によって生成された第２クエリ文を利用者から受け付けてもよい。

また、取得部１５２は、受付部１５１が第２クエリ文を受け付けると、記憶部１２０を参照して、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する。検索部１５３は、ＶＳＥモデルを用いて、受付部１５１によって受け付けられた第２クエリ文に関する第２画像を再検索する。例えば、検索部１５３は、受付部１５１によって受け付けられた第２クエリ文である「car_interior」に関する第２画像を再検索する。例えば、検索部１５３は、受付部１５１によって受け付けられた第２クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５３は、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力する。続いて、検索部１５３は、出力された第２類似度が第２閾値を超える第２画像を再検索する。出力部１４０は、検索部１５３によって再検索された第２画像を検索結果として出力する。このようにして、出力部１４０は、例えば、隠れコンセプトである「car_interior」に基づいて生成された第２クエリ文である「car_interior」に関する第２画像を検索結果として出力する。

上述した例では、抽出部１５４が、第１クエリ文である「person in a car」に含まれない文字列「interior」を含むコンセプトである「car_interior」を隠れコンセプトとして抽出する場合について説明したが、他の例について説明する。例えば、受付部１５１は、第１クエリ文の一例として、「destroyed old building」というフレーズを利用者から受け付ける。検索部１５３は、ＶＳＥモデルを用いて、受付部１５１によって受け付けられた第１クエリ文である「destroyed old building」に関する第１画像を検索する。抽出部１５４は、第１画像をコンセプト識別器に入力して、第１画像に含まれるコンセプトである「ruin」を抽出する。続いて、抽出部１５４は、第１クエリ文である「destroyed old building」に含まれない文字列である「ruin」を含むコンセプトである「ruin」を隠れコンセプトとして抽出する。

〔３．情報処理のフロー〕
次に、図３を用いて、実施形態に係る情報処理の手順について説明する。図３は、実施形態に係る情報処理の一例を示すフローチャートである。図３では、受付部１５１が、利用者によって入力された第１クエリ文を受け付ける（ステップＳ１０１）。取得部１５２は、受付部１５１が第１クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ１０２）。

検索部１５３は、受付部１５１によって受け付けられた第１クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５３は、第１クエリ文と画像との第１類似度をＶＳＥモデルから出力する（ステップＳ１０３）。続いて、検索部１５３は、出力された第１類似度が第１閾値を超える第１画像を検索する（ステップＳ１０４）。

抽出部１５４は、検索部１５３によって検索された第１画像をコンセプト識別器に入力する（ステップＳ１０５）。続いて、抽出部１５４は、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力する（ステップＳ１０６）。続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する（ステップＳ１０７）。

出力部１４０は、抽出部１５４によって抽出された隠れコンセプトを出力する（ステップＳ１０８）。利用者は、出力部１４０によって出力された隠れコンセプトに基づいて第１クエリ文を更新し、新たな第２クエリ文を生成する（ステップＳ１０９）。受付部１５１は、出力部１４０によって出力された隠れコンセプトに基づいて更新された第２クエリ文を利用者から受け付ける。例えば、受付部１５１は、入力部１３０を介して、利用者によって更新された第２クエリ文を利用者から受け付ける（ステップＳ１１０）。取得部１５２は、受付部１５１が第２クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ１１１）。

検索部１５３は、受付部１５１によって受け付けられた第２クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５３は、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力する（ステップＳ１１２）。続いて、検索部１５３は、出力された第２類似度が第２閾値を超える第２画像を再検索する（ステップＳ１１３）。出力部１４０は、検索部１５３によって再検索された第２画像を検索結果として出力する（ステップＳ１１４）。

〔４．変形例〕
次に、図４を用いて、変形例に係る情報処理の手順について説明する。図４は、変形例に係る情報処理の一例を示すフローチャートである。図４では、受付部１５１が、利用者によって入力されたクエリ画像を受け付ける（ステップＳ２０１）。例えば、受付部１５１は、入力部１３０を介して利用者が入力したクエリ画像を受け付ける。ここで、本願明細書におけるクエリ画像とは、画像全体でなくてもよく、例えば、画像の一部であってもよい。

取得部１５２は、受付部１５１がクエリ画像を受け付けると、記憶部１２０を参照して、複数の文章または複数の文章それぞれに含まれる各テキストである文字列をキャプションプールから取得する（ステップＳ２０２）。

また、検索部１５３は、取得部１５２が文字列を取得すると、受付部１５１によって受け付けられたクエリ画像と取得部１５２によって取得された文字列の組をＶＳＥモデルに入力する。続いて、検索部１５３は、クエリ画像と文字列との第３類似度をＶＳＥモデルから出力する（ステップＳ２０３）。続いて、検索部１５３は、出力された第３類似度が第３閾値を超える文字列を検索する（ステップＳ２０４）。

生成部１５５は、検索部１５３によって検索された文字列に基づいて第３クエリ文を生成する。出力部１４０は、生成部１５５によって生成された第３クエリ文を出力する。受付部１５１は、出力部１４０によって出力された第３クエリ文を利用者から受け付ける（ステップＳ２０５）。取得部１５２は、受付部１５１が第３クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ２０６）。

検索部１５３は、受付部１５１によって受け付けられた第３クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５３は、画像と第３クエリ文との第１類似度をＶＳＥモデルから出力する（ステップＳ２０７）。続いて、検索部１５３は、出力された第１類似度が第１閾値を超える第３画像を検索する（ステップＳ２０８）。

抽出部１５４は、検索部１５３によって検索された第３画像をコンセプト識別器に入力する（ステップＳ２０９）。続いて、抽出部１５４は、第３画像に含まれるコンセプトと第３画像とのコンセプト類似度をコンセプト識別器から出力する（ステップＳ２１０）。続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。続いて、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第３クエリ文に含まれないコンセプトである隠れコンセプトを抽出する（ステップＳ２１１）。

出力部１４０は、抽出部１５４によって抽出された隠れコンセプトを出力する（ステップＳ２１２）。利用者は、出力部１４０によって出力された隠れコンセプトに基づいて第３クエリ文を更新し、新たな第４クエリ文を生成する（ステップＳ２１３）。受付部１５１は、出力部１４０によって出力された隠れコンセプトに基づいて更新された第４クエリ文を利用者から受け付ける。例えば、受付部１５１は、入力部１３０を介して、利用者によって更新された第４クエリ文を利用者から受け付ける（ステップＳ１２１４）。取得部１５２は、受付部１５１が第４クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ２１５）。

検索部１５３は、受付部１５１によって受け付けられた第４クエリ文と取得部１５２によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５３は、画像と第４クエリ文との第２類似度をＶＳＥモデルから出力する（ステップＳ２１６）。続いて、検索部１５３は、出力された第２類似度が第２閾値を超える第４画像を再検索する（ステップＳ１２１７）。出力部１４０は、検索部１５３によって再検索された第４画像を検索結果として出力する（ステップＳ２１８）。

なお、ステップＳ２０５において、利用者は、出力部１４０によって出力された第３クエリ文を変更することができる。受付部１５１は、入力部１３０を介して、利用者によって変更された第３クエリ文を利用者から受け付ける。

〔５．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、受付部１５１と、検索部１５３と、抽出部１５４とを有する。受付部１５１は、利用者によって入力された第１クエリ文を受け付ける。検索部１５３は、ＶＳＥ（Visual-Semantic Embedding）モデルを用いて、第１クエリ文に関する第１画像を検索する。抽出部１５４は、第１画像に関するコンセプトを抽出する。検索部１５３は、ＶＳＥモデルを用いて、抽出部１５４によって抽出されたコンセプトに基づく第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、ＶＳＥを用いることで、利用者によって入力されたクエリ文に関する画像を適切に検索することができる。また、情報処理装置１００は、適切に検索された画像からコンセプトを抽出したうえで、抽出したコンセプトに基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

また、情報処理装置１００は、生成部１５５をさらに備える。生成部１５５は、抽出部１５４によって抽出されたコンセプトに基づいて、第２クエリ文を生成する。検索部１５３は、ＶＳＥモデルを用いて、生成部１５５によって生成された第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、適切なコンセプトに基づいて適切なクエリ文を生成することができる。例えば、情報処理装置１００は、適切な検索キーワードを追加（または不適切な検索キーワードを排除）することで、検索精度を向上させることを可能にする。したがって、情報処理装置１００は、適切なクエリ文に基づいて画像を再検索することができるので、画像の検索精度を向上させることができる。

また、情報処理装置１００は、検索部１５３による検索結果を出力する出力部１４０をさらに備える。出力部１４０は、抽出部１５４によって抽出されたコンセプトを出力する。受付部１５１は、出力部１４０によって出力されたコンセプトに基づく第２クエリ文を利用者から受け付ける。検索部１５３は、ＶＳＥモデルを用いて、受付部１５１によって受け付けられた第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、利用者が、適切なコンセプトに基づいて適切なクエリ文を生成するのを助けることができる。例えば、情報処理装置１００は、利用者が適切な検索キーワードを追加（または不適切な検索キーワードを排除）することで、検索精度を向上させることを可能にする。したがって、情報処理装置１００は、適切なクエリ文に基づいて画像を再検索することができるので、画像の検索精度を向上させることができる。

また、情報処理装置１００は、取得部１５２をさらに備える。取得部１５２は、複数の映像または複数の映像それぞれに含まれる各シーンである画像を取得する。検索部１５３は、取得部１５２によって取得された画像と受付部１５１によって受け付けられた第１クエリ文の組をＶＳＥモデルに入力して、画像と第１クエリ文との第１類似度をＶＳＥモデルから出力し、出力された第１類似度が第１閾値を超える第１画像を検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理により、適切な画像を選択することができる。

また、検索部１５３は、取得部１５２によって取得された画像と抽出部１５４によって抽出されたコンセプトに基づく第２クエリ文の組をＶＳＥモデルに入力して、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力し、出力された第２類似度が第２閾値を超える第２画像を再検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理とコンセプト識別器に基づく処理を回すことで、適切なコンセプトを選択することができる。例えば、情報処理装置１００は、利用者が入力したクエリ文に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。

また、抽出部１５４は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、第１画像から第１画像に関するコンセプトを抽出する。

これにより、情報処理装置１００は、コンセプト識別器を用いることで、適切に検索された画像から適切なコンセプトを抽出することができる。また、情報処理装置１００は、適切なコンセプトを抽出したうえで、適切なコンセプトに基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

また、抽出部１５４は、検索部１５３によって検索された第１画像をコンセプト識別器に入力して、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力し、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。

これにより、情報処理装置１００は、適切なコンセプトを抽出することができる。

また、抽出部１５４は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する。

これにより、情報処理装置１００は、利用者が入力したクエリ文に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。

また、抽出部１５４は、第１クエリ文に含まれない文字列を含むコンセプトである隠れコンセプトを抽出する。

また、検索部１５３は、隠れコンセプトに基づく第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、利用者が入力したクエリ文に明示されていないコンセプト（例えば、暗示的なコンセプト）に基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

また、受付部１５１は、利用者によって入力されたクエリ画像を受け付ける。検索部１５３は、ＶＳＥモデルを用いて、受付部１５１によって受け付けられたクエリ画像に関する文字列を検索し、検索した文字列に基づく第３クエリ文に関する第３画像を検索する。

これにより、情報処理装置１００は、利用者が入力したクエリ画像に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。

また、取得部１５２は、複数の文章または複数の文章それぞれに含まれる各テキストである文字列を取得する。検索部１５３は、取得部１５２によって取得された文字列と受付部１５１によって受け付けられたクエリ画像の組をＶＳＥモデルに入力して、文字列とクエリ画像との第３類似度をＶＳＥモデルから出力し、出力された第３類似度が第３閾値を超える文字列を検索し、検索した文字列に基づく第３クエリ文に関する第３画像を検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理とコンセプト識別器に基づく処理を回すことで、適切なコンセプトを選択することができる。

また、抽出部１５４は、第３画像に関するコンセプトを抽出する。検索部１５３は、ＶＳＥモデルを用いて、抽出部１５４によって抽出されたコンセプトに基づく第４クエリ文に関する第４画像を再検索する。

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図５に示すような構成のコンピュータ１０００によって実現される。図５は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。なお、ＣＰＵ１１００の代わりに、ＭＰＵ（Micro Processing Unit）、また多大な計算パワーを必要とすることからＧＰＵ（Graphics Processing Unit）を用いてもよい。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検索部は、検索手段や検索回路に読み替えることができる。

１００情報処理装置
１１０通信部
１２０記憶部
１３０入力部
１４０出力部
１５０制御部
１５１受付部
１５２取得部
１５３検索部
１５４抽出部
１５５生成部

Claims

利用者によって入力された第１クエリ文を受け付ける受付部と、
ＶＳＥ（Visual-Semantic Embedding）モデルを用いて、前記第１クエリ文に関する第１画像を検索する検索部と、
前記第１画像に含まれる検出対象である第１コンセプトを抽出する抽出部と、
を備え、
前記検索部は、
前記ＶＳＥモデルを用いて、前記抽出部によって抽出された第１コンセプトに基づく第２クエリ文に関する第２画像を再検索する、
情報処理装置。
前記検出対象は、物体、人物、場面および動作の少なくともいずれか一つを含む
請求項１に記載の情報処理装置。
前記抽出部によって抽出された第１コンセプトに基づいて、前記第２クエリ文を生成する生成部をさらに備え、
前記検索部は、
前記ＶＳＥモデルを用いて、前記生成部によって生成された前記第２クエリ文に関する前記第２画像を再検索する、
請求項１に記載の情報処理装置。
前記検索部による検索結果を出力する出力部、をさらに備え、
前記出力部は、
前記抽出部によって抽出された第１コンセプトに関する第１コンセプト情報を出力し、
前記受付部は、
前記出力部によって出力された第１コンセプト情報に基づく前記第２クエリ文を前記利用者から受け付け、
前記検索部は、
前記ＶＳＥモデルを用いて、前記受付部によって受け付けられた前記第２クエリ文に関する前記第２画像を再検索する、
請求項１に記載の情報処理装置。
複数の映像または前記複数の映像それぞれに含まれる各シーンである画像を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された画像と前記受付部によって受け付けられた第１クエリ文の組を前記ＶＳＥモデルに入力して、前記画像と前記第１クエリ文との第１類似度を前記ＶＳＥモデルから出力し、当該出力された前記第１類似度が第１閾値を超える前記第１画像を検索する、
請求項１～４のいずれか１つに記載の情報処理装置。
前記検索部は、
前記取得部によって取得された画像と前記抽出部によって抽出された第１コンセプトに基づく第２クエリ文の組を前記ＶＳＥモデルに入力して、前記画像と前記第２クエリ文との第２類似度を前記ＶＳＥモデルから出力し、当該出力された前記第２類似度が第２閾値を超える前記第２画像を再検索する、
請求項５に記載の情報処理装置。
前記抽出部は、
画像が入力された場合に、前記画像に含まれる検出対象であるコンセプトと前記画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、前記第１画像から前記第１コンセプトを抽出する、
請求項１～６のいずれか１つに記載の情報処理装置。
前記抽出部は、
前記検索部によって検索された第１画像を前記コンセプト識別器に入力して、前記第１画像に含まれる検出対象である第１コンセプトと前記第１画像とのコンセプト類似度を前記コンセプト識別器から出力し、当該出力されたコンセプト類似度がコンセプト閾値を超える前記第１コンセプトを抽出する、
請求項７に記載の情報処理装置。
前記抽出部は、
前記出力されたコンセプト類似度がコンセプト閾値を超える前記第１コンセプトの中から、前記第１クエリ文に含まれない文字列に対応する前記第１コンセプトである隠れコンセプトを抽出する、
請求項８に記載の情報処理装置。
前記検索部は、
前記隠れコンセプトに基づく前記第２クエリ文に関する前記第２画像を再検索する、
請求項９に記載の情報処理装置。
前記受付部は、
前記利用者によって入力されたクエリ画像を受け付け、
前記検索部は、
前記ＶＳＥモデルを用いて、前記受付部によって受け付けられたクエリ画像に関する文字列を検索し、当該検索した文字列に基づく第３クエリ文に関する第３画像を検索する、
請求項１～１０のいずれか１つに記載の情報処理装置。
複数の文章または前記複数の文章それぞれに含まれる各テキストである文字列を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された文字列と前記受付部によって受け付けられたクエリ画像の組を前記ＶＳＥモデルに入力して、前記文字列と前記クエリ画像との第３類似度を前記ＶＳＥモデルから出力し、当該出力された前記第３類似度が第３閾値を超える文字列を検索し、当該検索した文字列に基づく前記第３クエリ文に関する前記第３画像を検索する、
請求項１１に記載の情報処理装置。
前記抽出部は、
前記第３画像に含まれる検出対象である第３コンセプトを抽出し、
前記検索部は、
前記ＶＳＥモデルを用いて、前記抽出部によって抽出された第３コンセプトに基づく第４クエリ文に関する第４画像を再検索する、
請求項１２に記載の情報処理装置。
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
利用者によって入力された第１クエリ文を受け付ける受付工程と、
ＶＳＥ（Visual-Semantic Embedding）モデルを用いて、前記第１クエリ文に関する第１画像を検索する検索工程と、
前記第１画像に含まれる検出対象である第１コンセプトを抽出する抽出工程と、
を含み、
前記検索工程は、
前記ＶＳＥモデルを用いて、前記抽出工程によって抽出された第１コンセプトに基づく第２クエリ文に関する第２画像を再検索する、
情報処理方法。
利用者によって入力された第１クエリ文を受け付ける受付手順と、
ＶＳＥ（Visual-Semantic Embedding）モデルを用いて、前記第１クエリ文に関する第１画像を検索する検索手順と、
前記第１画像に含まれる検出対象である第１コンセプトを抽出する抽出手順と、
をコンピュータに実行させ、
前記検索手順は、
前記ＶＳＥモデルを用いて、前記抽出手順によって抽出された第１コンセプトに基づく第２クエリ文に関する第２画像を再検索する、
情報処理プログラム。