JP2023039656A

JP2023039656A - 事例検索装置、方法及びプログラム

Info

Publication number: JP2023039656A
Application number: JP2021146888A
Authority: JP
Inventors: 悠介細矢; Yusuke Hosoya; 俊信中洲; Toshinobu Nakasu; 功雄三原; Isao Mihara; 直三島; Sunao Mishima; ヴェトクォクファン; Viet Quoc Pham
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-03-22
Also published as: US20230077031A1

Abstract

【課題】自由度の高い検索を可能にする事例検索装置、方法及びプログラムを提供すること。【解決手段】実施形態に係る事例検索装置は、第１取得部、第２取得部、算出部、検索部及び提示部を有する。第１取得部は、検索対象の事例のデータである検索条件を取得する。第２取得部は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。算出部は、メタ検索条件に基づいて、検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する。検索部は、類似度に基づいて、複数の参照事例に対して、メタ検索条件の観点で検索条件に類似する類似参照事例を検索する。提示部は、検索部による検索結果を提示する。【選択図】図２

Description

本発明の実施形態は、事例検索装置、方法及びプログラムに関する。

非特許文献１に係る技術は，入力としてクエリ画像の他に、検索したい画像特徴を記述したテキストをモデルに与えることで、その条件に合致する類似画像を取得する。特許文献１に係る技術は，物体の色やテクスチャ等の物体に付随する属性を類似観点として事前に設定・学習し、定めた観点について、抽出した画像領域ごとに類似画像検索を行う。これら技術は、検索条件として入力する情報が物体名称や色、模様など個々の物体に付随する局所的属性に限られており、物体間または非物体間で成り立つ関係、あるいは物体と非物体との関係を表すコンテキスト情報に着目した検索は困難である。

特開２０２０－０４２６８４号公報

N. Vo等、"Composing Text and Image for Image Retrieval - An Empirical Odyssey"、arXiv:1812.07119v1 [cs.CV]、２０１８年１２月１８日

本発明が解決しようとする課題は、自由度の高い検索を可能にする事例検索装置、方法及びプログラムを提供することである。

実施形態に係る事例検索装置は、検索対象の事例のデータである検索条件を取得する第１取得部と、前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する第２取得部と、前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する算出部と、前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索する検索部と、前記検索部による検索結果を提示する提示部と、を具備する。

本実施形態に係る事例検索装置の構成例を示す図本実施形態に係る事例検索装置による事例検索処理の一例の流れを示す図図２に示す事例検索処理の概要を示す図本実施形態に係る類似度の算出過程を示す図特徴量空間における類似度の概念を示す図応用例１に係る事例検索装置による事例検索処理の一例の流れを示す図図６に示す事例検索処理の概要を示す図応用例１に係る一致率の算出過程を示す図応用例１に係る検索結果の表示画面の一例を示す図応用例１に係るフィルタリング結果の表示画面の一例を示す図応用例４に係る事例検索装置の構成例を示す図応用例４に係る事例検索装置による人物追跡処理の一例の流れを示す図図１２に示す人物追跡処理の概要を示す図応用例４に係る推定経路の表示画面の一例を示す図応用例５に係る事例検索処理の概要を示す図

以下、図面を参照しながら本実施形態に係わる事例検索装置、方法及びプログラムを説明する。

図１は、本実施形態に係る事例検索装置１の構成例を示す図である。図１に示すように、事例検索装置１は、処理回路１１、記憶装置１２、入力機器１３、通信機器１４及び表示機器１５を有するコンピュータである。処理回路１１、記憶装置１２、入力機器１３、通信機器１４及び表示機器１５間のデータ通信はバスを介して行われる。

処理回路１１は、ＣＰＵ（Central Processing Unit）等のプロセッサとＲＡＭ（Random Access Memory）等のメモリとを有する。処理回路１１は、検索条件取得部１１１、メタ検索条件取得部１１２、類似度算出部１１３、検索部１１４及び提示部１１５を有する。処理回路１１は、事例検索プログラムを実行することにより、上記各部１１１～１１５の各機能を実現する。事例検索プログラムは、記憶装置１２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。事例検索プログラムは、上記各部１１１～１１５の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部１１１～１１５は特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。

検索条件取得部１１１は、検索対象の事例のデータにより表される検索条件を取得する。データの媒体（メディア）は、一例として、現場で撮影した静止画や動画等が使用される。但し、データのメディアは、静止画や動画に限らず、現場で収録した音声データ、資料等のテキストデータ、計測器から取得したセンサ値でもよい。事例は、当該データに対応する事実を意味する。検索対象の事例は、災害、事故、故障及び／又は事件を含む事象でもよいし、これら事象が起こる前の事例でもよい。検索条件は、リアルタイムに取得してもよいし、過去に蓄積された事例のデータから取得してもよい。

メタ検索条件取得部１１２は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。より詳細には、メタ検索条件は、検索条件に含まれる注目する複数の対象間の関係性を自然文（話し言葉）で表す記述であるテキストデータである。このようなメタ検索条件としては、「人が手にグローブを装着している」のような平叙文や「人が手にグローブを装着しているか？」のような質問文でもよい。メタ検索条件は、複数の対象間の関係性を表す自然文に限定されず、「黒いグローブ」のような個々の物体の属性を表す単語でもよい。

類似度算出部１１３は、メタ検索条件に基づいて検索条件と複数の参照事例各々との類似度を算出する。参照事例は、被検索対象の事例のデータにより表される。複数の参照事例は、記憶装置１２等に記憶されている。一例として、過去に現場で起きた類似の災害事例などを検索する場合には、当時の災害現場を撮影した又は再現した静止画や動画、テキストであれば当時の災害状況や対処法を記述したテキスト、災害要因となった故障機械の異常音を記録した音声データやセンサ計測値などの各種メディアのデータが記憶装置１２に記憶されている。

検索部１１４は、類似度に基づいて、記憶装置１２に記憶されている複数の参照事例のうちのメタ検索条件の観点で検索条件に類似する類似参照事例を検索する。一例として、類似度が閾値以上の参照事例が類似参照事例として抽出される。

提示部１１５は、検索部１１４による検索結果を提示する。一例として、提示部１１５は、検索部１１４により類似参照事例が抽出された場合、当該類似参照事例を提示する。検索部１１４により類似参照事例が抽出されなかった場合、提示部１１５は、類似参照事例が存在しない事を提示する。検索結果の提示は、表示機器１５への表示により行われる。

記憶装置１２は、ＲＯＭ（Read Only Memory）やＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置等により構成される。記憶装置１２は、事例検索プログラム等を記憶する。また、記憶装置１２は、複数の参照事例を記憶するデータベースとして機能する。このデータベースを参照事例データベースと呼ぶ。

入力機器１３は、検索依頼人や検索依頼を受けて検索作業を行う作業者等のユーザからの各種指令を入力する。入力機器１３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器１３からの出力信号は処理回路１１に供給される。なお、入力機器１３としては、処理回路１１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

通信機器１４は、事例検索装置１にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。一例として、外部機器は検索条件や参照事例を収集する機器であり、通信機器１４は、これら外部機器により収集された検索条件や参照事例を、ネットワークを介して受信する。

表示機器１５は、種々の情報を表示する。例えば、表示機器１５は、提示部１１５による制御に従い検索結果を表示する。表示機器１５としては、ＣＲＴ（Cathode-Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＬＥＤ（Light-Emitting Diode）ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器１５は、プロジェクタでもよい。

以下、事例検索装置１について詳細に説明する。以下の説明において検索条件及び参照事例のデータメディアは画像であるとする。ここで検索条件である画像を検索画像、参照事例である画像を参照画像と呼ぶ。また、メタ検索条件は、類似参照画像を検索するうえで注目する観点を記述したテキスト（以下、メタ検索テキストと呼ぶ）であるとする。

図２は、本実施形態に係る事例検索装置１による事例検索処理の一例の流れを示す図である。図３は、図２に示す事例検索処理の概要を示す図である。図２及び図３に示すように、検索条件取得部１１１は、検索画像（検索条件）３１を取得する（ステップＳ２０１）。本実施例において検索画像３１は、工場内の現場作業員が映る静止画であるとする。

ステップＳ２０１が行われるとメタ検索条件取得部１１２は、メタ検索テキスト（メタ検索条件）３２を取得する（ステップＳ２０２）。テキスト３２は、検索画像３１に映る対象のうちのユーザが注目する観点を記述した文章である。本実施例に係るテキスト３２は、ユーザが注目する観点として、検索画像３１に映る複数の対象間の関係性を表す記述である。注目する対象は、人物や物品等の物体でもよいし、階段や廊下、天井、道路、空等の非物体でもよい。対象間の関係性は、物体同士の関係性、非物体同士の関係性、物体と非物体との関係性の何れでもよい。メタ検索テキスト３２は、関係性を記述可能な自然文が適当である。また、メタ検索テキスト３２には、関係性を表す１個の記述が含まれてもよいし、２個以上の記述が含まれてもよい。

本実施例に係るメタ検索テキスト３２は、「人が手にグローブを装着している」と「人が屋内にいる」の２個の記述を含むものとする。前者は、物体「手」と物体「グローブ」との関係性、すなわち、物体／物体間の関係性を表し、後者は物体「人」と非物体「屋内」との関係性、すなわち、物体／非物体間の関係性を表す。なお、メタ検索テキスト３２は、上記自然文の中に「黒いグローブ」等の物体の属性を表す名詞句が含まれてもよいし、自然文に代わり名詞句を、独立した記述として含んでもよい。

ステップＳ２０２が行われると類似度算出部１１３は、ステップＳ２０２で取得されたメタ検索条件３２に基づき、ステップＳ２０１において取得された検索画像３１と、参照事例データベース３３に保管されている複数の参照画像３４ｎ各々との類似度を算出する（ステップＳ２０３）。「ｎ」は、参照事例データベース３３に保管されている各参照画像３４の番号を示す自然数であり、１≦ｎ≦Ｎの値をとる。「Ｎ」は参照事例データベース３３に保管されている各参照画像３４の総数を示す自然数であり、２以上の値を有する。参照事例データベース３３には、工場等で作業している現場作業員に関連する多数の参照画像３４ｎが保管されている。

類似度の算出方法として種々の方法が適用可能である。一例として、類似度算出部１１３は、検索画像３１とメタ検索テキスト３２との組合せに基づく第１の特徴量と、複数の参照画像３４ｎ各々とメタ検索テキスト３２との組合せに基づく第２の特徴量とを算出し、第１の特徴量と第２の特徴量との距離を、類似度として算出する。第１の特徴量は、検索画像３１での、メタ検索テキスト３２で記述された対象間の関係性の程度を数値化したものである。第２の特徴量は、参照画像３４ｎでの、メタ検索テキスト３２で記述された対象間の関係性の程度を数値化したものである。

第１の特徴量及び第２の特徴量の算出方法の一例は以下の通りである。類似度算出部１１３は、検索画像３１、メタ検索テキスト３２及び参照画像３４ｎを同一の特徴量空間に射影することにより、検索画像３１の特徴量、メタ検索テキスト３２の特徴量及び参照画像３４ｎの特徴量を算出する。そして類似度算出部１１３は、検索画像３１の特徴量とメタ検索テキスト３２の特徴量とに基づいて上記第１の特徴量を算出し、参照画像３４ｎの特徴量とメタ検索テキスト３２の特徴量とに基づいて上記第２の特徴量を算出する。

図４は、類似度５７ｎの算出過程を示す図である。図５は、特徴量空間５０における類似度の概念を示す図である。図４に示す画像特徴量変換器４１、テキスト特徴量変換器４２、融合器４３及び類似度算出器４４は類似度算出部１１３の構成要素である。図４に示すように、画像特徴量変換器４１は、検索画像３１を、エンコーダ等を用いて特徴量空間５０に射影することにより、画像特徴量５１に変換する。当該エンコーダとしては、画像を特徴量に変換するように訓練された、ＣＮＮ（Convolutional Neural Network）等を利用したエンコーダネットワークが用いられればよい。テキスト特徴量変換器４２は、メタ検索テキスト３２を、エンコーダ等を用いて特徴量空間５０に射影することにより、テキスト特徴量５２に変換する。当該エンコーダとしては、テキストを特徴量に変換するように訓練された、ＬＳＴＭ（Long Short-Term Memory）等を利用したエンコーダネットワーク（言語モデル）が用いられればよい。次に融合器４３は、検索画像３１に基づく画像特徴量５１とメタ検索テキストに基づくテキスト特徴量５２とを融合して融合特徴量５５を生成する。融合特徴量５５は上記第１の特徴量の一例である。融合器４３は、画像特徴量とテキスト特徴量との組合せを特徴量に変換するように訓練された、ＭＬＰ（Multi Layer Perceptron）を利用したニューラルネットワーク等が用いられればよい。

同様に、画像特徴量変換器４１は、参照画像３４ｎを特徴量空間５０に射影することにより、画像特徴量５３ｎに変換し、テキスト特徴量変換器４２は、メタ検索テキスト３２を特徴量空間５０に射影することにより、テキスト特徴量５４に変換する。なお、テキスト特徴量５４としてテキスト特徴量５２が流用されてもよい。融合器４３は、参照画像３４ｎに基づく画像特徴量５３ｎとメタ検索テキストに基づくテキスト特徴量５２とを融合して融合特徴量５６ｎを生成する。融合特徴量５６ｎは上記第２の特徴量の一例である。画像特徴量５１、テキスト特徴量５２、画像特徴量５３ｎ及びテキスト特徴量５４は、同一の特徴量空間において定義されている。

そして類似度算出器４４は、融合特徴量５５と融合特徴量５６ｎとの距離を類似度５７ｎとして算出する。類似度５７ｎとしてはコサイン類似度が用いられるとよい。この類似度５７ｎが、メタ検索テキストの観点での検索画像３１と参照画像３４ｎとの類似度として用いられる。なお、類似度５７ｎはコサイン類似度に限定されず、融合特徴量５５と融合特徴量５６ｎとの距離を表すものであれば如何なる指標でもよく、例えば、融合特徴量５５と融合特徴量５６ｎとの差分値等でもよい。

類似度算出部１１３は、全ての参照画像３４ｎについて、図４に示す処理を行うことにより、検索画像３１と参照画像３４ｎとの類似度５７ｎを算出する。参照画像３４ｎと類似度５７ｎとは関連付けて参照事例データベース５３に保管される。

ここで、テキスト特徴量変換器４２によるテキスト特徴量５２の算出について詳述する。上記の通り、メタ検索テキスト３２は、複数の対象間の関係性を表す記述である。テキスト特徴量５２としては、例えば、Ｗｏｒｄ２ｖｅｃといったテキストの分散表現化（Ｅｍｂｅｄｄｉｎｇ）が可能な手法を用いてテキストをベクトル化した値を用いればよい。これにより、テキスト特徴量５２は、このような関係性を数値化することが可能になる。換言すれば、テキスト特徴量変換器４２は、メタ検索テキスト３２により記述された対象間の関係性を抽出する機能を有している。

テキスト特徴量５２は、複数の対象間の関係性を定量した値であればよく、その算出方法は、上記方法に限定されない。上記した言語モデルを利用した算出方法に限定されない。例えば、テキスト特徴量変換器４２は、メタ検索テキスト３２に係り受け解析を施してテキスト特徴量５２を算出してもよい。具体的には、メタ検索テキスト３２に含まれる自然文を文節で区切り、文節間の関係性として係り受けを特定する。係り受けとしては、例えば、主語や述語、目的語、形容詞、副詞等の関係が特定される。より詳細な関係性が特定されてもよい。メタ検索テキスト３２に含まれる全ての係り受けが連結されて１個のテキスト特徴量５２に変換される。他の例として、テキスト特徴量変換器４２は、メタ検索テキスト３２にテキスト解析を施してナレッジグラフに変換し、ナレッジグラフをテキスト特徴量５２に変換してもよい。ナレッジグラフは、メタ検索テキスト３２に含まれる各文節をエンティティとし、エンティティ間の係り受けをエッジで表現する有向グラフである。ナレッジグラフ自体をテキスト特徴量５２として使用してもよいし、ナレッジグラフにグラフ畳み込みネットワーク（ＧＣＮ：Graph Convolutional Network）を適用して得た特徴量をテキスト特徴量５２として使用してもよい。

ステップＳ２０３が行われると検索部１１４は、ステップＳ２０３において算出された類似度に基づいて、検索画像３１に、メタ検索テキスト３２に関して類似する類似参照画像を検索する（ステップＳ２０４）。具体的には、検索部１１４は、閾値と各参照画像３４ｎに関連付けられた類似度５７ｎとを比較し、閾値以上の類似度に関連付けられた参照画像３４ｎを類似参照画像として参照事例データベース３３から抽出する。閾値は、ユーザ等により入力機器１３を介して任意の値に設定されればよい。

ステップＳ２０４が行われると提示部１１５は、ステップＳ２０４による検索結果を提示する（ステップＳ２０５）。ステップＳ２０５において提示部１１５は、ステップＳ２０４において類似参照画像が抽出された場合、当該類似参照画像を表示機器１５に表示する。例えば、図３の場合、参照画像３４１の類似度が比較的高く、閾値以上であるとすると、参照画像３４１が類似参照画像として表示機器１５に表示される。確認のため、検索画像と類似参照画像との類似度が表示されてもよい。

類似参照画像３４１は、メタ検索テキスト３２の観点で検索画像３１に類似する画像であることが期待される。具体的には、類似参照画像３４１は、検索画像３１と同様、「人が手にグローブを装着し」且つ「人が屋内にいる」事例に関する画像であることが期待される。このように本実施例によれば、ユーザ等が注目する観点を記述したメタ検索テキスト３２の観点で検索画像３１に類似する類似参照画像３４１を表示することが可能になる。

上記の通り、検索画像３１に映る対象間の関係性を記述した自然文の形式でメタ検索テキスト３２を指定することが可能である。これにより、対象間の細かな相互関係（インタラクション）や周辺環境（シチュエーション）などといったコンテキストをテキスト特徴量や融合特徴量、類似度等に昇華させることができ、コンテキストのレベルで類似する事例でも検索することが可能となる。これにより検索の自由度が向上する。具体例として、類似画像検索において「人」と「グローブ」とが同一画像内に映っていること（共起）だけでなく、人がグローブを「手に持っている」のか「テーブルの上に置いている」のか「装着している」のかなど、細かな条件で類似する画像を検索できる。

上記の事例検索処理は、災害、事故、故障及び／又は事件を含む如何なる事例にも活用可能である。例えば、災害事例検索やヒヤリハット検知にも活用可能である。災害事例検索では、現場で事故が発生した際、災害現場の監視カメラにより撮影された画像（以下、監視カメラ画像と呼ぶ）を検索条件として、当該検索条件に類似する、過去に発生した災害事例が類似参照事例として検索される。これにより、当時の災害状況や実施した対応策等を直ちに確認することができる。具体的には、破損又は故障した機械の画像やテキスト、異常音等のデータから、過去の類似する故障例を検索することにより、応急の対応策や修復フローを把握することが可能になる。

ヒヤリハット検知では、実際に災害が発生していない現場であっても、監視カメラ等から収集した監視カメラ画像を検索条件として、当該検索条件に類似する災害事例が類似参照事例として定期的に検索・解析される。これにより、災害が発生しそうな危険な状態を検知し、予防に活かすことが可能になる。具体的には、現場の監視カメラ画像を検索条件とする定期的な検索から、手元の保護を怠ったことが原因の事故事例が類似検索された場合、現場作業者がグローブ未装着である可能性が高いとして注意喚起に用いることが可能になる。

提示部１１５は、ユーザによる確認のため、類似参照画像３４１と共に、検索画像３１及び／又はメタ検索テキスト３２を表示してもよい。検索画像３１及び／又はメタ検索テキスト３２は、類似検索の判断根拠として観察及び解釈することが可能である。

ステップＳ２０４において類似参照画像が抽出されなかった場合、表示機器１５には類似参照画像が表示されないこととなる。この場合、提示部１１５は、「類似参照画像は見つかりませんでした」等の類似参照画像が存在しない旨のメッセージを表示機器１５に表示してもよいし、その旨の音声又は警告音をスピーカ等から出力してもよい。

ステップＳ２０５が行われると事例検索処理が終了する。

上記実施形態によれば、事例検索装置１は、検索条件取得部１１１、メタ検索条件取得部１１２、類似度算出部１１３、検索部１１４及び提示部１１５を有する。検索条件取得部１１１は、検索対象の事例のデータである検索条件を取得する。メタ検索条件取得部１１２は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。類似度算出部１１３は、メタ検索条件に基づいて、検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する。検索部１１４は、類似度に基づいて、複数の参照事例に対して、メタ検索条件の観点で検索条件に類似する類似参照事例を検索する。提示部１１５は、検索部１１４による検索結果を提示する。

上記の構成によれば、メタ検索条件として、検索条件に含まれる、注目する複数の対象間の関係性を自然文で記述したテキストを入力した場合、当該関係性等の複雑なコンテキストに関して類似した事例を検索することができる。これにより、検索の自由度の向上が期待される。

なお、上記事例検索処理は、その趣旨を逸脱しない程度に種々の変形が可能である。

一例として、ステップＳ２０１とステップＳ２０２とは逆でもよい。

他の例として、ステップＳ２０２においてメタ検索条件は処理回路１１や記憶装置１２等に予め登録されていてもよい。具体的には、管理者等のユーザが予め調べたい観点を記述したテキストをデフォルトのメタ検索テキストとして登録し、参照事例データベースに参照画像と共に保管しておくとよい。また、この場合、検索画像の画像特徴量を算出する前段階において、各参照画像を画像特徴量に変換し、これに並行して、当該メタ検索テキストをテキスト特徴量に変換し、各画像特徴量とテキスト特徴量とに基づいて各融合特徴量を算出し、参照事例データベースにおいて参照画像と融合特徴量とを関連付けて保管しておいてもよい。これにより、デフォルトのメタ検索テキストと類似参照画像の検索を行う場合、参照画像に関する融合特徴量の算出処理を省略することができるので、処理時間の短縮を図ることが可能になる。なお、全ての融合特徴量を算出する必要はなく、隣接する融合特徴量に基づいて補間してもよい。

複数個のデフォルトのメタ検索テキストを生成し、デフォルトのメタ検索テキスト毎に融合特徴量を参照画像に関連付けて記憶装置１２に記憶しておいてもよい。類似参照画像の検索を行う場合、複数のメタ検索テキストの中からユーザが関心にあるものが入力機器１３を介して選択されればよい。

（応用例１）
上記実施形態において類似度は、検索条件とメタ検索条件との組合せに基づく第１の特徴量と、参照事例とメタ検索条件との組合せに基づく第２の特徴量との距離であるとした。応用例１に係る類似度は、検索条件に関するメタ検索条件に対する第１のステータスと、参照事例に関するメタ検索条件に対する第２のステータスとの一致率であるとする。以下、応用例１に係る事例検索装置について説明する。

応用例１に係る類似度算出部１１３は、検索条件のメタ検索条件に対する第１のステータスと、参照事例の当該メタ検索条件に対する第２のステータスとの一致率を、類似度として算出する。応用例１に係るメタ検索条件は、検索条件に類似する事例を検索するうえで注目する観点を質問形式で記述した質問文であるとする。この場合、類似度算出部１１３は、検索条件の質問文に対する第１の回答を、第１のステータスとして推定し、参照事例の当該質問文に対する第２の回答を、第２のステータスとして推定する。

図６は、応用例１に係る事例検索装置１による事例検索処理の一例の流れを示す図である。図７は、図６に示す事例検索処理の概要を示す図である。以下の説明において検索条件及び参照事例のデータメディアは、上記実施形態と同様、それぞれ検索画像及び参照画像であるとする。

図６及び図７に示すように、検索条件取得部１１１は、検索画像（検索条件）７１を取得する（ステップＳ６０１）。本実施例において検索画像７１は、階段で作業をしている現場作業員が映る静止画であるとする。

ステップＳ６０１が行われるとメタ検索条件取得部１１２は、質問文（メタ検索条件）７２を取得する（ステップＳ６０２）。質問文７２は、検索画像７１に映る対象のうちのユーザが注目する観点として、検索画像７１に映る複数の対象間の関係性を質問形式で記述したテキストである。注目する対象は、人物や物品等の物体でもよいし、階段や廊下、天井、道路、空等の非物体でもよい。対象間の関係性は、物体同士の関係性、非物体同士の関係性、物体と非物体との関係性の何れでもよい。質問文７２は、関係性を記述可能な自然文が適当である。また、質問文７２には、関係性を表す１個の質問が含まれてもよいし、２個以上の質問が含まれてもよい。

本実施例に係る質問文７２は、１．「人が階段にいる？」、２．「人が物を運んでいる？」及び３「人が手にグローブを装着している？」の３個の質問を含むものとする。１番目の質問は物体「人」と非物体「階段」との関係性、すなわち、物体／非物体間の関係性を表し、２番目の質問は物体「人」と物体「物」との関係性、すなわち、物体／物体間の関係性を表し、３番目の質問は物体「手」と物体「グローブ」との関係性、すなわち、物体／物体間の関係性を表す。なお、質問文７２は、自然文に限定されず、「黒いグローブ」等の物体の属性を表す名詞句が含まれてもよい。

ステップＳ６０２が行われると類似度算出部１１３は、ＶＱＡ（Visual Question Answering）モデルを使用して、検索画像７１についての質問文７２に対する回答文（ステータス）７３を推定する（ステップＳ６０３）。ＶＱＡモデルは、画像に関する質問文に対して回答文を推定する学習済みモデルである。ＶＱＡモデルとしては、参考文献（L. Li et al. “Relation-Aware Graph Attention Network for Visual Question Answering”，ICCV2019）に記載の技術が用いられるとよい。回答文７３は、質問文７２に含まれる質問毎に対して推定される。例えば、図７に示すように、質問１．「人が階段にいる？」に対して回答１．「はい」、質問２．「人が物を運んでいる？」に対して回答２．「はい」、質問３「人が手にグローブを装着している？」に対して回答３．「いいえ」のように回答文７３が得られる。

ステップＳ６０３が行われると類似度算出部１１３は、ステップＳ６０１において取得された検索画像７１と、参照事例データベース７４に保管されている複数の参照画像７５ｎ各々とその回答文７６ｎの一致率（類似度）を算出する（ステップＳ６０４）。「ｎ」は、参照事例データベース７４に保管されている各参照画像の番号を示す自然数であり、１≦ｎ≦Ｎの値をとる。「Ｎ」は参照事例データベース７４に保管されている各参照画像７５の総数を示す自然数であり、２以上の値を有する。参照事例データベース７４には、現場作業員に関連する多数の参照画像７５ｎが保管されている。各参照画像７５ｎには当該参照画像７５ｎについての質問文７２に対する回答文７６ｎが関連付けて保管されている。

図８は、一致率の算出過程を示す図である。図８に示すＶＱＡモデル８１及び一致率算出器８２は、応用例１に係る類似度算出部１１３の構成要素である。ＶＱＡモデル８１は、画像特徴量変換器８１１、テキスト特徴量変換器８１２及び回答推定器８１３等のネットワークモジュールを有する。画像特徴量変換器８１１は、検索画像７１を画像特徴量８３に変換する。画像特徴量８３の変換方法としては種々の方法が適用可能である。以下、３種類の方法を説明する。

第１の画像特徴量変換方法：画像特徴量変換器８１１は、検索画像７１に物体検出モデルを適用して、物体らしい領域を含むＲＯＩ（Region Of Interest）を検出する。次に画像特徴量変換器８１１は、抽出されたＲＯＩの特徴量（以下、ＲＯＩ特徴量と呼ぶ）を算出する。次に画像特徴量変換器８１１は、検索画像７１にセマンティックセグメンテーションモデルを適用して検索画像７１を複数の画像領域に分割する。次に画像特徴量変換器８１１は、画像領域毎に、セマンティックセグメンテーションに関する特徴量（以下、セグメンテーション特徴量と呼ぶ）を算出する。融合方法としては、例えば、ＲＯＩ特徴量及びセグメンテーション特徴量がそれぞれベクトルで表現されていれば、ベクトル同士を結合すればよい。

ＲＯＩ特徴量の算出方法について具体的に説明する。ここでは、物体検出モデルとして、Faster R-CNNと呼ばれるニューラルネットワークを用いることを想定する。なお、Faster R-CNNに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。物体検出モデルでは、物体らしい領域を特定するように、作業者や棚など、物体を囲む矩形（バウンディングボックス）がＲＯＩとして表現される。ＲＯＩごとにＲＯＩ特徴量が抽出される。一般的な物体認識モデルでは、当該物体認識モデルからの出力として、物体の候補と識別ベクトル（識別スコア）とが出力されるが、本実施例では、出力層の１つ前の層で算出される値をＲＯＩ特徴量として設定する。例えば、処理対象のＲＯＩについて、出力層から８０個の物体候補に関する識別スコアを含む識別ベクトル（つまり８０次元のベクトル）が得られる場合、当該出力層の前段以前では８０次元以上のベクトル、例えば２０００次元以上のベクトルを処理しており、ここでは、出力層の１つ前の層で算出されるベクトル値をＲＯＩ特徴量として用いる。なお、ＲＯＩ特徴量として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。

セグメンテーション特徴量の算出方法について具体的に説明する。ここでは、セマンティックセグメンテーションモデルの一例として、ＦＣＮ（Fully Convolutional Networks）と呼ばれるニューラルネットワークを用いることを想定する。なお、ＦＣＮに限らず、Ｓｅｇｎｅｔ、Ｕ－ｎｅｔ等セマンティックセグメンテーションに用いるモデルであれば、どのようなモデルを用いてもよい。セマンティックセグメンテーションでは、画像中の各画素に対してラベリングされる。本実施例では、分割後の画像領域は、検索画像７１に映る現場作業員や機械等の物体や、廊下や屋根等の非物体等の各領域に相当する。当該画像領域に含まれる画素について、出力層の１つ前の層で算出されるベクトル値（例えば、４０００次元のベクトル）を、当該画像領域に関するセグメンテーション特徴量として算出される。

第２の画像特徴量変換方法：まず、第１の画像特徴量変換方法と同様、画像特徴量変換器８１１は、検索画像７１に物体検出モデルを適用して、物体らしい領域を含むＲＯＩを検出する。また、第１の画像特徴量変換方法と同様、次に画像特徴量変換器８１１は、検索画像７１にセマンティックセグメンテーションモデルを適用して、検索画像７１を複数の画像領域に分割する。次に画像特徴量変換器８１１は、同一対象に関するＲＯＩと画像領域とを融合して融合ＲＯＩを生成する。例えば、ＲＯＩと画像領域との総和を融合ＲＯＩとする。なお、画像特徴量変換器８１１は、ＲＯＩ検出処理においてＲＯＩとして認識するための閾値を下げ、通常よりも多くのＲＯＩを検出し、検出されたＲＯＩと画像領域との重複領域が閾値以上であるＲＯＩを、融合ＲＯＩとして生成してもよい。そして画像特徴量変換器８１１は、第１の画像特徴量変換方法と同様の手法により、融合ＲＯＩ毎に画像特徴量８３を算出する。融合ＲＯＩ毎に画像特徴量は、物体検出モデルによる画像特徴量と同様の方法で算出さればよい。

第３の画像特徴量変換方法：まず、画像特徴量変換器８１１は、第１の画像特徴量変換方法と同様、ＲＯＩ特徴量を算出とセグメンテーション特徴量とを算出し、融合特徴量である画像特徴量８３を算出する。次に画像特徴量変換器８１１は、検索画像７１にセマンティックセグメンテーションモデルを適用して検索画像７１を複数の画像領域に分割する。次に画像特徴量変換器８１１は、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは各画像領域に付与されるラベルである。次に画像特徴量変換器８１１は、セマンティックラベルをエンコードする。例えば、Ｗｏｒｄ２ｖｅｃを用いて、セマンティックラベルをベクトル化すればよい。画像特徴量変換器８１１は、融合特徴量と、エンコードされたセマンティックラベルとを結合して画像特徴量８３を算出する。例えば、融合特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。

以上に示した第１～第３の画像特徴量変換処理によれば、画像の特徴量として物体と非物体との双方を精度良く認識して画像特徴量８３に変換することができる。なお、第１～第３の画像特徴量変換処理は、図４に示す画像特徴量５１，５３ｎの算出に使用することも可能である。

図８に示すように、テキスト特徴量変換器８１２は、質問文７２をテキスト特徴量８４に変換する。テキスト特徴量８４としては、例えば、Ｗｏｒｄ２ｖｅｃといったテキストの分散表現化が可能な手法を用いてテキストをベクトル化した値を用いればよい。回答推定器８１３は、画像特徴量８３及びテキスト特徴量８４に基づいて回答文７３を推定する。一例として、回答推定器８１３は、Ａｔｔｅｎｔｉｏｎを利用したＤＮＮなどによるＶＱＡのための学習済みモデルを用いて、画像特徴量８５ｎ及びテキスト特徴量８６を用いて回答文７６ｎを推定する。

同様に、画像特徴量変換器８１１は、参照画像７５ｎを画像特徴量８５ｎに変換する。テキスト特徴量変換器８１２は、質問文７２をテキスト特徴量８６に変換し、回答推定器８１３は、画像特徴量８５ｎ及びテキスト特徴量８６に基づいて回答文７６ｎを推定する。

そして一致率算出器８２は、回答文７３と回答文７６ｎとの一致率７７ｎを類似度として算出する。一致率７７ｎは、回答文７３に含まれる回答のパターンの一致する度合いを意味する。一致率７７ｎは、一致する回答の個数が多いほど大きい値を有し、一致する回答の個数が少ないほど小さい値を有する。具体的には、回答推定器８１３は、単語選択肢「はい」の予測スコアと単語選択肢「いいえ」の予測スコアとを算出し、予測スコアが高い方の単語選択肢を回答として出力している。予測スコアは、クラス分類タスクのネットワーク出力であり、尤度に対応する。一致率算出器８２は、質問文７２に含まれる質問毎に、検索画像７１の回答と参照画像７５ｎの回答とが一致するか否かの二値判定を行い、一致する個数を計数する。そして一致率算出器８２は、質問文７２に含まれる質問数に対する一致個数の比率を一致率７７ｎとして算出する。例えば、図７に示すように、検索画像７１の回答文７３と参照画像７５１の回答文７６１とは３個の回答全てが一致するので一致率が高く、検索画像７１の回答文７３と参照画像７５Ｎの回答文７６Ｎとは２個の回答が一致するので一致率が中程度に高い。

類似度算出部１１３は、全ての参照画像７５ｎについて、図８に示す処理を行うことにより、検索画像７１と参照画像７５ｎとの一致率７７ｎを算出する。参照画像７５ｎと一致率７７ｎとは関連付けて参照事例データベース７４に保管される。

ステップＳ６０４が行われると検索部１１４は、ステップＳ６０４において算出された一致率に基づいて、検索画像７１に、回答文７３に関して類似する類似参照画像を検索する（ステップＳ６０５）。具体的には、検索部１１４は、閾値と各参照画像７５ｎに関連付けられた一致率７７ｎとを比較し、閾値以上の一致率に関連付けられた参照画像７５ｎを類似参照画像として参照事例データベース７４から抽出する。閾値は、ユーザ等により入力機器１３を介して任意の値に設定されればよい。

ステップＳ６０５が行われると提示部１１５は、ステップＳ６０５による検索結果を提示する（ステップＳ６０６）。ステップＳ６０６において提示部１１５は、ステップＳ６０５において類似参照画像が抽出された場合、当該類似参照画像を表示機器１５に表示する。例えば、図７の場合、参照画像７５１の一致率が比較的高く、閾値以上であるとすると、参照画像７５１が類似参照画像として表示機器１５に表示される。

図９は、検索結果の表示画面９０の一例を示す図である。図９に示すように、表示画面９０は、検索事例の表示領域９１と参照事例の表示領域９２とに区分される。表示領域９２には、一例として、検索画像７１、質問文７２及び回答文７３が表示される。表示領域９２には、一例として、第１候補の表示領域９３、第２候補の表示領域９４及び候補外の表示領域９５に区分される。表示領域９３には、ステップＳ６０５において類似参照画像として抽出された参照画像のうちの最も一致率の参照画像（類似参照画像）７５１とその回答文７６１とが視覚的に対応付けて表示される。表示領域９４には、ステップＳ６０５において類似参照画像として抽出された参照画像のうちの２番目高い一致率の参照画像７５Ｎとその回答文７６Ｎとが視覚的に対応付けて表示される。表示領域９５には、第１候補及び第２候補外の参照画像７５ｎが表示される。

図９に示すように、応用例１によれば、質問文７２に対する回答文７３に関して検索画像７１に類似する参照画像７５ｎが提示されるので、ユーザは、当該類似参照画像７５ｎを効率的に観察することが可能になる。類似参照画像７５ｎと共にその回答文７６ｎが視覚的に対応付けて表示されるので、ユーザは、回答文７６ｎも確認することができる。検索画像７１とその回答文７３とが表示されるので、回答文７３と回答文７６ｎとを見比べることにより、類似参照画像７５ｎの一致具合（類似具合）をユーザが検証することも可能である。すなわち、回答文７６ｎは、類似事例検索の根拠として活用することが期待される。

提示部１１５は、一致度に応じた視覚効果で回答文７６ｎを表示する。一例として、提示部１１５は、検索画像７１の回答文７３に回答のパターンが一致する、類似参照画像７５ｎの回答文７６ｎを強調してもよい。これにより、一致率の高い回答文７６ｎ及びその類似参照画像７５ｎを容易に識別することが可能である。また、提示部１１５は、一致率を可視化するため、一致率に応じて回答文７６ｎを色分けして表示してもよい。一例として、提示部１１５は、回答が全て一致する回答文７６１は青で表示し、回答が１つ異なる回答文７６Ｎは黄色、回答が２つ異なる回答文７６Ｎは赤色で表示し、回答が全て異なる回答文７６Ｎは灰色等で表示するとよい。また、提示部１１５は、一致率を可視化するため、一致率に応じて類似参照画像７５ｎを視覚的に強調してもよい。一例として、提示部１１５は、回答が全て一致する回答文７６ｎに対応する類似参照画像７５ｎを点滅させたり、縁取りして表示したり、他の類似参照画像７５ｎよりも拡大して表示してもよい。

ここで、提示部１１５は、ステップＳ６０５において抽出された類似参照画像７５を、ユーザが指定した質問又は回答でフィルタリングしてもよい。一例として、図９に示す質問文７２、回答文７３及び回答文７６ｎは個々の質問及び回答が選択可能にＧＵＩ（Graphical User Interface）形式で表示される。提示部１１５は、回答文７３のうちの興味のある回答が入力機器１３を介して指定された場合、指定された回答に一致する回答を有する類似参照画像７５ｎを、ステップＳ６０５において抽出された類似参照画像７５ｎの中から抽出し、抽出された類似参照画像７５ｎを表示する。

図１０は、フィルタリング結果の表示画面１００の一例を示す図である。図１０に示すように、検索画像７１の回答文７３のうちの１番目の回答１０１が選択された場合、提示部１１５は、回答１０１に一致する回答を有する類似参照画像１０２ｎを、ステップＳ６０５において抽出された類似参照画像の中から抽出し、参照事例の表示領域９２に表示する。この際、提示部１１５は、類似参照画像１０２ｎの回答文１０３ｎを視覚的に対応付けて表示する。図１０に示すように、回答文７３のうちの選択された１番目の回答１０１は「はい」であるので、１番目の回答が「はい」である類似参照画像１０２ｎが抽出されることにある。回答文１０３ｎのうちのフィルタリングに関与していない回答についてはマスクされるとよい。フィルタリングにより、ユーザが関心のある回答を有する類似参照画像１０２ｎを簡易に検索して表示することが可能になる。

なお、提示部１１５は、検索画像７１の回答文７３ではなく、質問文７２を選択することによりフィルタリングを行ってもよい。より詳細には、提示部１１５は、質問文７２のうちの興味のある質問が入力機器１３を介して指定された場合、指定された質問に対応する検索画像７１の回答に一致する回答を有する類似参照画像７５ｎを、ステップＳ６０５において抽出された類似参照画像７５ｎの中から抽出し、抽出された類似参照画像７５ｎを表示する。

ステップＳ６０６が行われると応用例１に係る事例検索処理が終了する。

一例として、ステップＳ６０１とステップＳ６０２とは逆でもよい。

他の例として、ステップＳ６０２において質問文は処理回路１１や記憶装置１２等に予め登録されていてもよい。具体的には、管理者等のユーザが予め調べたい観点を記述した質問文をデフォルトの質問文として、参照事例データベースに保管しておくとよい。この場合、検索画像の回答を推定する前段階において、各参照画像のデフォルトの質問文に対応する回答文を推定し、参照事例データベースにおいて参照画像と回答文とを関連付けて保管しておいてもよい。これにより、デフォルトの質問文により類似参照画像の検索を行う場合、参照画像の回答文の推定処理を省略することができるので、処理時間の短縮を図ることが可能になる。

複数個のデフォルトの質問文を生成し、デフォルトの質問文毎に回答文を参照画像に関連付けて記憶装置１２に記憶しておいてもよい。類似参照画像の検索を行う場合、複数の質問文の中からユーザが関心にあるものが入力機器１３を介して選択されればよい。

（応用例２）
応用例１に係るＶＱＡモデルは動画にも応用可能である。応用例２に係る事例検索装置１は、検索条件及び参照事例として動画を使用し、メタ検索条件として質問文を使用する。応用例２に係る類似度算出部１１３は、ＶｉｄｅｏＱＡモデル（例：J. Lei et al. “TVQA: Localized, Compositional Video Question Answering”, EMNLP2018）を使用し、質問文から抽出した前記関係性に対して、検索条件及び参照事例それぞれについて、質問文に対する回答文を推定する。その後、検索条件に関する回答文と参照事例に関する回答文とに基づいて一致率（類似度）を算出すればよい。

（応用例３）
応用例３に係るメタ検索条件取得部１１２は、メタ検索条件を自動で生成する。生成には。検索条件及び／又は参照事例を転用してよい。例えば、検索条件及び参照事例として画像を扱う場合、検索画像から質問文を生成する参考技術（S. Zhang et al, “Automatic Generation of Grounded Visual Questions”, IJCAI2017）を使用してもよい。あるいは、参照事例内のテキストデータに対して形態素解析や構文解析を行いて抽出した登場頻度の高い語を、準備した定型文内の一部と置き換えるなど、統計量を使用した生成方法を用いてもよい。

（応用例４）
応用例４に係る事例検索装置は、上記応用例２及び応用例３に係る事例検索処理を応用して、監視カメラ画像から人物追跡を行う。以下、応用例４に係る事例検索装置について説明する。

図１１は、応用例４に係る事例検索装置４の構成例を示す図である。図１１に示すように、事例検索装置４は、処理回路１１、記憶装置１２、入力機器１３、通信機器１４及び表示機器１５を有するコンピュータである。処理回路１１は、検索条件取得部１１１、メタ検索条件取得部１１２、類似度算出部１１３、検索部１１４及び提示部１１５に加え、特定部１１６及び経路推定部１１７を有する。処理回路１１は、人物追跡プログラムを実行することにより、上記各部１１１～１１７の各機能を実現する。人物追跡プログラムは、記憶装置１２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。事例検索プログラムは、上記各部１１１～１１７の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部１１１～１１７はＡＳＩＣ等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。

図１２は、応用例４に係る事例検索装置４による人物追跡処理の一例の流れを示す図である。図１３は、図１２に示す人物追跡処理の概要を示す図である。

図１２及び図１３に示すように、検索条件取得部１１１は、追跡対象者が映る検索画像（検索条件）１３１を取得する（ステップＳ１２０１）。本実施例において検索画像１３１は、任意の光学カメラ等で撮影された、追跡対象者が映る画像であるとする。検索画像１３１は、監視カメラで撮影された監視カメラ画像の一部静止画でもよい。

ステップＳ１２０１が行われるとメタ検索条件取得部１１２は、質問文（メタ検索条件）１３２を取得する（ステップＳ１２０２）。質問文１３２は、検索画像１３１に映る追跡対象者と、洋服や装身具、持ち物との関係性を質問形式で記述したテキストである。

本実施例に係る質問文１３２は、１．「人が赤いシャツを着ている？」、２．「人が帽子をかぶっている？」及び３「人が茶色いカバンを持っている？」の３個の質問を含むものとする。

ステップＳ１２０２が行われると類似度算出部１１３は、ＶＱＡモデルやＶｉｄｅｏＱＡを使用して、検索画像１３１についての質問文１３２に対する回答（ステータス）１３３を推定する（ステップＳ１２０３）。回答文１３３は、質問文１３２に含まれる質問毎に対して推定される。例えば、図１２に示すように、質問１．「人が赤いシャツを着ている？」に対して回答１．「はい」、質問２．「人が帽子をかぶっている？」に対して回答２．「はい」、質問３「人が茶色いカバンを持っている？」に対して回答３．「はい」のように回答文１３３が得られる。

ステップＳ１２０３が行われると類似度算出部１１３は、ステップＳ１２０１において取得された検索画像７１と、参照事例データベース１３４に保管されている複数の監視カメラ画像１３５ｎ各々とその回答文１３６ｎの一致率（類似度）を算出する（ステップＳ１２０４）。「ｎ」は、参照事例データベース１３４に保管されている各監視カメラ画像の番号を示す自然数であり、１≦ｎ≦Ｎの値をとる。「Ｎ」は参照事例データベース１３４に保管されている各監視カメラ画像１３５の総数を示す自然数であり、２以上の値を有する。参照事例データベース１３４には、多数の監視カメラ画像１３５ｎが保管されている。各監視カメラ画像には、当該監視カメラ画像を撮影した監視カメラの設置位置（以下、撮影位置と呼ぶ）と撮影時刻とが関連付けられている。また、各監視カメラ画像１３５ｎには当該監視カメラ画像１３５ｎについての質問文１３２に対する回答文１３６ｎが関連付けて保管されている。回答文１３６ｎは、予め類似度算出部１１３等により、監視カメラ画像１３５ｎと質問文１３２とから、ＶＱＡモデルやＶｉｄｅｏＱＡを使用して推定されているものとする。

ステップＳ１２０４が行われると検索部１１４は、ステップＳ１２０４において算出された一致率に基づいて、追跡対象者が映る監視カメラ画像（以下、類似監視カメラ画像と呼ぶ）を検索する（ステップＳ１２０５）。具体的には、検索部１１４は、閾値と各監視カメラ画像１３５ｎに関連付けられた一致率とを比較し、閾値以上の一致率に関連付けられた監視カメラ画像１３５ｎを類似監視カメラ画像として参照事例データベース１３４から抽出する。閾値は、ユーザ等により入力機器１３を介して任意の値に設定されればよい。

ステップＳ１３０５が行われると特定部１１６は、ステップＳ１３０５において抽出された監視カメラ画像１３５ｎの撮影位置及び撮影時刻１３７ｎを特定する（ステップＳ１２０６）。撮影位置は、対応する監視カメラの設置位置の住所でもよいし、当該住所に紐付けられた識別子でもよい。

ステップＳ１２０６が行われると経路推定部１１７は、ステップＳ１２０６において特定された撮影位置及び撮影時刻１３７ｎに基づいて、追跡対象者が辿った経路（以下、推定経路と呼ぶ）１３８を推定する（ステップＳ１２０７）。推定経路１３８の推定方法は任意の方法により行われればよい。一例として、経路推定部１１７は、類似監視カメラ画像１３５ｎの撮影位置を撮影時刻順に結ぶことにより推定経路１３８を生成する。

ステップＳ１２０７が行われると提示部１１５は、ステップＳ１２０７において得られた推定経路１３８を提示する（ステップＳ１２０８）。ステップＳ１２０８において提示部１１５は、推定経路１３８を表示機器１５に表示する。

図１４は、推定経路１３８の表示画面１４０の一例を示す図である。図１４に示すように、表示画面１４０には、追跡対象者に関する推定経路１３８が描画された地図画像１４１が表示される。地図画像１４１は、提示部１１５により生成される。具体的には、以下の手順で地図画像１４１を生成する。まず、提示部１１５は、類似監視カメラ画像１３５ｎの撮影位置を包含する地図データを読み出し、地図データに類似監視カメラ画像１３５ｎの撮影位置にマーク１４２ｎをプロットし、マーク１４２を撮影時刻順に結ぶ直線を推定経路１３８として地図データに描画する。そして提示部１１５は、マーク１４２ｎと推定経路１３８とが描画された地図データの任意範囲を地図画像１４１として切り出す。地図画像１４１が表示されることにより、ユーザは、追跡対象者が辿ったと推定される経路を容易に確認することができる。なお、マーク１４２ｎ間における追跡対象者の経路を推定可能であれば、提示部１１５は、当該経路を辿る直線や曲線等の任意の線で、マーク１４２ｎ間を描画してもよい。

図１４に示すように、ユーザによる確認のため、マーク１４２ｎに隣接して、当該マーク１４２ｎに対応する撮影時刻及び撮影時刻が表示されてもよい。更に、表示画面１４０には、ユーザによる確認のため、検索画像１３１、質問文１３２及び回答文１３３が表示されるとよい。更に、提示部１１５は、ユーザによる確認のため、任意の監視カメラ画像、回答文、撮影時刻及び撮影位置の組合せを表示してもよい。例えば、図１４に示すように、マーク１４２３が指定された場合、マーク１４２３に対応する監視カメラ画像１３５３、回答文１３６３、撮影時刻Ｔ３及び撮影位置Ｐ３が表示される。

ステップＳ１２０８が行われると応用例４に係る人物追跡処理が終了する。

一例として、ステップＳ１２０１とステップＳ１２０２とは逆でもよい。また、応用例１と同様、ステップＳ１２０２において質問文はデフォルトの質問文として処理回路１１や記憶装置１２等に予め登録されていてもよい。

他の例として、追跡対象は、人物に限定されず、動物や昆虫、魚等の生物でもよいし、ロボットや自動車、飛行体、船舶等の移動体にも適用可能である。

（応用例５）
上記の種々の実施例において非検索対象である参照事例のデータメディアは、画像、動画、テキスト、音声及びセンサ計測値の一種類であるとした。しかしながら、非検索対象である参照事例のデータメディアは、一種類に限定されず、画像、動画、テキスト、音声及びセンサ計測値のうちの一種類以上であればよく、すなわち、二種類以上でもよい。これによりクロスモーダルな事例検索を行うことが可能になる。以下、応用例５に係る事例検索装置について説明する。なお、以下の説明において、検索条件のデータメディアは画像であり、参照事例のデータメディアは画像及び資料であるとする。資料は、テキストで作成されたデータである。また、メタ検索条件は、本実施形態と同様、メタ検索テキストであるとする。

図１５は、応用例５に係る事例検索処理の概要を示す図である。図１５に示すように、検索画像１５１とメタ検索テキスト１５２とが取得される。検索画像１５１とメタ検索テキスト１５２とは、説明の簡単のため、それぞれ図４に示す検索画像３１とメタ検索テキスト３２と同一であるとする。応用例５において参照事例データベースとして、参照画像データベース１５３と参照資料データベース１５４とが用意されている。参照画像データベース１５３には被検索対象である多数の参照画像１５５ｎ（２≦ｎ≦Ｎ，Ｎは２以上の自然数）が保管されている。各参照画像１５５ｎは、予め類似度算出部１１３により算出された、メタ検索テキスト１５２の観点での検索画像１５１との類似度が関連付けられている。参照資料データベース１５４には被検索対象である多数の資料１５６ｍ（２≦ｍ≦Ｍ，Ｍは２以上の自然数、ＭはＮと同一でも非同一でもよい）が保管されている。資料１５６ｍとしては、様々な事例についての報告書等が用いられるとよい。各資料１５６ｍは、予め類似度算出部１１３により算出された、メタ検索テキスト１５２の観点での検索画像１５１との類似度が関連付けられている。

図１５に示すように、検索部１１４は、類似度に基づいて、参照画像データベース１５３に対して、検索画像１５１に類似する類似参照画像を検索し、参照資料データベース１５４に対して、検索画像１５１に類似する類似資料を検索する。そして提示部１１５は、検索結果として、類似参照画像１５６１と類似資料１５６３とを提示する。

（応用例６）
上記応用例１等における質問は、「はい」又は「いいえ」の回答に限定するクローズドクエスチョン（closed question）であるとした。しかしながら、本実施形態に係る質問は、ある程度任意な回答を想定するオープンクエスチョン（open question）にも適用可能である。応用例６に係るオープンクエスチョンは、一例として、有限個の単語選択肢の中から回答単語を選択するための制限的なオープンクエスチョンが適用可能である。制限的なオープンクエスチョンの場合、例えば、質問「人は何をしているか？」に対し、単語選択肢「野球」「テニス」「食事」等の中から、適切な一単語が回答単語として選択される。

（応用例７）
上記応用例１等における類似度は、検索画像と参照画像との回答単語（すなわち、複数個の単語選択肢のうちの予測スコアが最大のもの）の一致率であるとした。類似度の算出方法は、応用例１に記載した方法のみに限定されない。例えば、類似度は、検索画像と参照画像との回答単語の一致／不一致だけでなく、回答単語の予測スコアを考慮して算出されてもよい。回答単語の予測スコアが高いほど高い類似度を有することとなる。具体的には、検索画像と参照画像とで回答単語が一致した場合、検索画像及び参照画像各々の回答単語の予測スコアが大きいほど大きい値を有するように設計された係数を、一致率に乗算する。当該乗算値が類似度として用いられる。他の例として、検索画像の予測スコアと参照画像の予測スコアとが近いほど大きい値を有するように設計された係数を、一致率に乗算してもよい。

応用例６のような制限的なオープンクエスチョンの場合、複数の単語選択肢のうちの予測スコアが最も高い単語選択肢だけではなく、上位Ｋ（Ｋは２以上の自然数）番目までの単語選択肢に基づいて類似度を算出してもよい。一例として、上位Ｋ番目までのＫ個の単語選択肢を検索画像と参照画像とで選択し、選択されたＫ個の単語選択肢の一致率（以下、個別一致率と呼ぶ）を算出する。個別一致率は質問文に含まれる質問毎に算出される。そして質問文に含まれる複数の質問に関する複数の個別一致率に基づいて類似度を算出する。例えば、複数の個別一致率を掛け合わせた値を類似度として算出するとよい。

他の例として、検索画像及び参照画像各々の回答単語をエンコードしてテキスト特徴量（以下、回答特徴量と呼ぶ）に変換し、検索画像の回答特徴量と参照画像の回答特徴量との距離を類似度として算出してもよい。距離としては、コサイン類似度や差分値等が用いられればよい。この場合、検索画像と参照画像とで回答単語そのものは異なっていても意味的に近ければ高い類似度を有することとなる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１事例検索装置
４事例検索装置
１１処理回路
１２記憶装置
１３入力機器
１４通信機器
１５表示機器
１１１検索条件取得部
１１２メタ検索条件取得部
１１３類似度算出部
１１４検索部
１１５提示部
１１６特定部
１１７経路推定部

Claims

検索対象の事例のデータにより表される検索条件を取得する第１取得部と、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する第２取得部と、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出する算出部と、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索する検索部と、
前記検索部による検索結果を提示する提示部と、
を具備する事例検索装置。
前記メタ検索条件は、前記検索条件に含まれる、注目する複数の対象間の関係性を自然文で記述したテキストである、請求項１記載の事例検索装置。
前記算出部は、
前記検索条件と前記メタ検索条件との組合せに基づく第１の特徴量と、前記参照事例と前記メタ検索条件との組合せに基づく第２の特徴量とを算出し、
前記第１の特徴量と前記第２の特徴量との距離を、前記類似度として算出する、
請求項１記載の事例検索装置。
前記算出部は、
前記検索条件、前記メタ検索条件及び前記参照事例を同一の特徴量空間に射影することにより、前記検索条件の特徴量、前記メタ検索条件の特徴量及び前記参照事例の特徴量を算出し、
前記検索条件の特徴量と前記メタ検索条件の特徴量とに基づいて前記第１の特徴量を算出し、
前記参照事例の特徴量と前記メタ検索条件の特徴量とに基づいて前記第２の特徴量を算出する、
請求項３記載の事例検索装置。
前記算出部は、前記検索条件の前記メタ検索条件に対する第１のステータスと、前記参照事例の前記メタ検索条件に対する第２のステータスとの一致率を、前記類似度として算出する、請求項４記載の事例検索装置。
前記メタ検索条件は、前記注目する観点に関する質問文であり、
前記算出部は、前記検索条件の前記質問文に対する第１の回答文を、前記第１のステータスとして推定し、前記参照事例の前記質問文に対する第２の回答文を、前記第２のステータスとして推定する、
請求項５記載の事例検索装置。
前記算出部は、事例に関する質問文に対して回答文を推定する学習済みモデルを用いて、前記検索条件から前記第１の回答文を推定し、前記参照事例から前記第２の回答文を推定する、請求項６記載の事例検索装置。
前記注目する観点は、複数の観点を含み、
前記質問文は、前記複数の観点にそれぞれ対応する複数の質問を含み、
前記第１の回答文及び前記第２の回答文は、前記複数の質問にそれぞれ対応する複数の回答を含み、
前記類似度は、前記第１の回答文に含まれる前記複数の回答のパターンと前記第２の回答文に含まれる前記複数の回答のパターンとの一致率である、
請求項７記載の事例検索装置。
前記データは、画像であり、
前記算出部は、前記画像から物体らしい領域を含むＲＯＩを検出し、前記ＲＯＩに関するＲＯＩ特徴量を抽出し、前記画像を複数の領域に分割し、前記領域のセグメンテーション特徴量を算出し、前記ＲＯＩ特徴量と前記セグメンテーション特徴量とを融合して前記検索条件の特徴量を算出する、
請求項７記載の事例検索装置。
前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する１個以上の前記類似参照事例を表示する、請求項１記載の事例検索装置。
前記提示部は、更に、前記類似参照事例と前記検索条件との前記類似度を表示する、請求項１０記載の事例検索装置。
前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する１個以上の前記類似参照事例と前記類似参照事例に対応する前記第２の回答文とを表示する、請求項８記載の事例検索装置。
前記提示部は、前記検索条件と前記第１の回答文とを表示する、請求項１２記載の事例検索装置。
前記提示部は、前記類似度に応じた視覚効果で前記第２の回答文を表示する、請求項１３記載の事例検索装置。
前記提示部は、
前記第１の回答文に含まれる前記複数の回答のうちの指定された回答に一致する又は一致しない回答を有する類似参照事例を特定し、
前記特定された類似参照事例を画面において強調する、又は前記特定された類似参照事例以外の類似参照事例を前記画面から消去する、
請求項１３記載の事例検索装置。
前記提示部は、前記複数の参照事例のうちの閾値以上の前記類似度を有する１個以上の類似参照事例が特定された場合、前記検索結果として、警告を提示する、請求項１記載の事例検索装置。
前記データは、画像、動画、テキスト、音声及びセンサ計測値の少なくとも1種類を含む、請求項１記載の事例検索装置。
経路推定部を更に備え、
前記検索条件は、追跡対象が描画された画像のデータであり、
前記複数の参照事例は、複数の監視カメラによりそれぞれ撮影された複数の監視カメラ画像のデータであり、
前記複数の監視カメラ画像各々は、設置位置及び撮影時刻に関連付けられ、
前記検索部は、前記複数の監視カメラ画像の中から前記追跡対象が描画された複数の類似画像を抽出し、
前記経路推定部は、前記抽出された複数の類似画像を撮影した複数の監視カメラの設置位置及び撮影時刻を特定し、前記特定された設置位置及び撮影時刻に基づいて前記追跡対象が辿った経路を推定する、
請求項１記載の事例検索装置。
検索対象の事例のデータにより表される検索条件を取得し、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得し、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出し、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索し、
前記類似参照事例の検索結果を提示する、
ことを具備する事例検索方法。
コンピュータに、
検索対象の事例のデータにより表される検索条件を取得させる機能と、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得させる機能と、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出させる機能と、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索させる機能と、
前記類似参照事例の検索結果を提示する機能と、
を実現させる事例検索プログラム。