JP2023039656A - 事例検索装置、方法及びプログラム - Google Patents

事例検索装置、方法及びプログラム Download PDF

Info

Publication number
JP2023039656A
JP2023039656A JP2021146888A JP2021146888A JP2023039656A JP 2023039656 A JP2023039656 A JP 2023039656A JP 2021146888 A JP2021146888 A JP 2021146888A JP 2021146888 A JP2021146888 A JP 2021146888A JP 2023039656 A JP2023039656 A JP 2023039656A
Authority
JP
Japan
Prior art keywords
search
case
search condition
image
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021146888A
Other languages
English (en)
Inventor
悠介 細矢
Yusuke Hosoya
俊信 中洲
Toshinobu Nakasu
功雄 三原
Isao Mihara
直 三島
Sunao Mishima
ヴェトクォク ファン
Viet Quoc Pham
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021146888A priority Critical patent/JP2023039656A/ja
Priority to US17/652,739 priority patent/US20230077031A1/en
Publication of JP2023039656A publication Critical patent/JP2023039656A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自由度の高い検索を可能にする事例検索装置、方法及びプログラムを提供すること。【解決手段】 実施形態に係る事例検索装置は、第1取得部、第2取得部、算出部、検索部及び提示部を有する。第1取得部は、検索対象の事例のデータである検索条件を取得する。第2取得部は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。算出部は、メタ検索条件に基づいて、検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する。検索部は、類似度に基づいて、複数の参照事例に対して、メタ検索条件の観点で検索条件に類似する類似参照事例を検索する。提示部は、検索部による検索結果を提示する。【選択図】 図2

Description

本発明の実施形態は、事例検索装置、方法及びプログラムに関する。
非特許文献1に係る技術は,入力としてクエリ画像の他に、検索したい画像特徴を記述したテキストをモデルに与えることで、その条件に合致する類似画像を取得する。特許文献1に係る技術は,物体の色やテクスチャ等の物体に付随する属性を類似観点として事前に設定・学習し、定めた観点について、抽出した画像領域ごとに類似画像検索を行う。これら技術は、検索条件として入力する情報が物体名称や色、模様など個々の物体に付随する局所的属性に限られており、物体間または非物体間で成り立つ関係、あるいは物体と非物体との関係を表すコンテキスト情報に着目した検索は困難である。
特開2020-042684号公報
N. Vo等、"Composing Text and Image for Image Retrieval - An Empirical Odyssey"、arXiv:1812.07119v1 [cs.CV]、2018年12月18日
本発明が解決しようとする課題は、自由度の高い検索を可能にする事例検索装置、方法及びプログラムを提供することである。
実施形態に係る事例検索装置は、検索対象の事例のデータである検索条件を取得する第1取得部と、前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する第2取得部と、前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する算出部と、前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索する検索部と、前記検索部による検索結果を提示する提示部と、を具備する。
本実施形態に係る事例検索装置の構成例を示す図 本実施形態に係る事例検索装置による事例検索処理の一例の流れを示す図 図2に示す事例検索処理の概要を示す図 本実施形態に係る類似度の算出過程を示す図 特徴量空間における類似度の概念を示す図 応用例1に係る事例検索装置による事例検索処理の一例の流れを示す図 図6に示す事例検索処理の概要を示す図 応用例1に係る一致率の算出過程を示す図 応用例1に係る検索結果の表示画面の一例を示す図 応用例1に係るフィルタリング結果の表示画面の一例を示す図 応用例4に係る事例検索装置の構成例を示す図 応用例4に係る事例検索装置による人物追跡処理の一例の流れを示す図 図12に示す人物追跡処理の概要を示す図 応用例4に係る推定経路の表示画面の一例を示す図 応用例5に係る事例検索処理の概要を示す図
以下、図面を参照しながら本実施形態に係わる事例検索装置、方法及びプログラムを説明する。
図1は、本実施形態に係る事例検索装置1の構成例を示す図である。図1に示すように、事例検索装置1は、処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15を有するコンピュータである。処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15間のデータ通信はバスを介して行われる。
処理回路11は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路11は、検索条件取得部111、メタ検索条件取得部112、類似度算出部113、検索部114及び提示部115を有する。処理回路11は、事例検索プログラムを実行することにより、上記各部111~115の各機能を実現する。事例検索プログラムは、記憶装置12等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。事例検索プログラムは、上記各部111~115の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部111~115は特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。
検索条件取得部111は、検索対象の事例のデータにより表される検索条件を取得する。データの媒体(メディア)は、一例として、現場で撮影した静止画や動画等が使用される。但し、データのメディアは、静止画や動画に限らず、現場で収録した音声データ、資料等のテキストデータ、計測器から取得したセンサ値でもよい。事例は、当該データに対応する事実を意味する。検索対象の事例は、災害、事故、故障及び/又は事件を含む事象でもよいし、これら事象が起こる前の事例でもよい。検索条件は、リアルタイムに取得してもよいし、過去に蓄積された事例のデータから取得してもよい。
メタ検索条件取得部112は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。より詳細には、メタ検索条件は、検索条件に含まれる注目する複数の対象間の関係性を自然文(話し言葉)で表す記述であるテキストデータである。このようなメタ検索条件としては、「人が手にグローブを装着している」のような平叙文や「人が手にグローブを装着しているか?」のような質問文でもよい。メタ検索条件は、複数の対象間の関係性を表す自然文に限定されず、「黒いグローブ」のような個々の物体の属性を表す単語でもよい。
類似度算出部113は、メタ検索条件に基づいて検索条件と複数の参照事例各々との類似度を算出する。参照事例は、被検索対象の事例のデータにより表される。複数の参照事例は、記憶装置12等に記憶されている。一例として、過去に現場で起きた類似の災害事例などを検索する場合には、当時の災害現場を撮影した又は再現した静止画や動画、テキストであれば当時の災害状況や対処法を記述したテキスト、災害要因となった故障機械の異常音を記録した音声データやセンサ計測値などの各種メディアのデータが記憶装置12に記憶されている。
検索部114は、類似度に基づいて、記憶装置12に記憶されている複数の参照事例のうちのメタ検索条件の観点で検索条件に類似する類似参照事例を検索する。一例として、類似度が閾値以上の参照事例が類似参照事例として抽出される。
提示部115は、検索部114による検索結果を提示する。一例として、提示部115は、検索部114により類似参照事例が抽出された場合、当該類似参照事例を提示する。検索部114により類似参照事例が抽出されなかった場合、提示部115は、類似参照事例が存在しない事を提示する。検索結果の提示は、表示機器15への表示により行われる。
記憶装置12は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置12は、事例検索プログラム等を記憶する。また、記憶装置12は、複数の参照事例を記憶するデータベースとして機能する。このデータベースを参照事例データベースと呼ぶ。
入力機器13は、検索依頼人や検索依頼を受けて検索作業を行う作業者等のユーザからの各種指令を入力する。入力機器13としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器13からの出力信号は処理回路11に供給される。なお、入力機器13としては、処理回路11に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。
通信機器14は、事例検索装置1にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。一例として、外部機器は検索条件や参照事例を収集する機器であり、通信機器14は、これら外部機器により収集された検索条件や参照事例を、ネットワークを介して受信する。
表示機器15は、種々の情報を表示する。例えば、表示機器15は、提示部115による制御に従い検索結果を表示する。表示機器15としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器15は、プロジェクタでもよい。
以下、事例検索装置1について詳細に説明する。以下の説明において検索条件及び参照事例のデータメディアは画像であるとする。ここで検索条件である画像を検索画像、参照事例である画像を参照画像と呼ぶ。また、メタ検索条件は、類似参照画像を検索するうえで注目する観点を記述したテキスト(以下、メタ検索テキストと呼ぶ)であるとする。
図2は、本実施形態に係る事例検索装置1による事例検索処理の一例の流れを示す図である。図3は、図2に示す事例検索処理の概要を示す図である。図2及び図3に示すように、検索条件取得部111は、検索画像(検索条件)31を取得する(ステップS201)。本実施例において検索画像31は、工場内の現場作業員が映る静止画であるとする。
ステップS201が行われるとメタ検索条件取得部112は、メタ検索テキスト(メタ検索条件)32を取得する(ステップS202)。テキスト32は、検索画像31に映る対象のうちのユーザが注目する観点を記述した文章である。本実施例に係るテキスト32は、ユーザが注目する観点として、検索画像31に映る複数の対象間の関係性を表す記述である。注目する対象は、人物や物品等の物体でもよいし、階段や廊下、天井、道路、空等の非物体でもよい。対象間の関係性は、物体同士の関係性、非物体同士の関係性、物体と非物体との関係性の何れでもよい。メタ検索テキスト32は、関係性を記述可能な自然文が適当である。また、メタ検索テキスト32には、関係性を表す1個の記述が含まれてもよいし、2個以上の記述が含まれてもよい。
本実施例に係るメタ検索テキスト32は、「人が手にグローブを装着している」と「人が屋内にいる」の2個の記述を含むものとする。前者は、物体「手」と物体「グローブ」との関係性、すなわち、物体/物体間の関係性を表し、後者は物体「人」と非物体「屋内」との関係性、すなわち、物体/非物体間の関係性を表す。なお、メタ検索テキスト32は、上記自然文の中に「黒いグローブ」等の物体の属性を表す名詞句が含まれてもよいし、自然文に代わり名詞句を、独立した記述として含んでもよい。
ステップS202が行われると類似度算出部113は、ステップS202で取得されたメタ検索条件32に基づき、ステップS201において取得された検索画像31と、参照事例データベース33に保管されている複数の参照画像34n各々との類似度を算出する(ステップS203)。「n」は、参照事例データベース33に保管されている各参照画像34の番号を示す自然数であり、1≦n≦Nの値をとる。「N」は参照事例データベース33に保管されている各参照画像34の総数を示す自然数であり、2以上の値を有する。参照事例データベース33には、工場等で作業している現場作業員に関連する多数の参照画像34nが保管されている。
類似度の算出方法として種々の方法が適用可能である。一例として、類似度算出部113は、検索画像31とメタ検索テキスト32との組合せに基づく第1の特徴量と、複数の参照画像34n各々とメタ検索テキスト32との組合せに基づく第2の特徴量とを算出し、第1の特徴量と第2の特徴量との距離を、類似度として算出する。第1の特徴量は、検索画像31での、メタ検索テキスト32で記述された対象間の関係性の程度を数値化したものである。第2の特徴量は、参照画像34nでの、メタ検索テキスト32で記述された対象間の関係性の程度を数値化したものである。
第1の特徴量及び第2の特徴量の算出方法の一例は以下の通りである。類似度算出部113は、検索画像31、メタ検索テキスト32及び参照画像34nを同一の特徴量空間に射影することにより、検索画像31の特徴量、メタ検索テキスト32の特徴量及び参照画像34nの特徴量を算出する。そして類似度算出部113は、検索画像31の特徴量とメタ検索テキスト32の特徴量とに基づいて上記第1の特徴量を算出し、参照画像34nの特徴量とメタ検索テキスト32の特徴量とに基づいて上記第2の特徴量を算出する。
図4は、類似度57nの算出過程を示す図である。図5は、特徴量空間50における類似度の概念を示す図である。図4に示す画像特徴量変換器41、テキスト特徴量変換器42、融合器43及び類似度算出器44は類似度算出部113の構成要素である。図4に示すように、画像特徴量変換器41は、検索画像31を、エンコーダ等を用いて特徴量空間50に射影することにより、画像特徴量51に変換する。当該エンコーダとしては、画像を特徴量に変換するように訓練された、CNN(Convolutional Neural Network)等を利用したエンコーダネットワークが用いられればよい。テキスト特徴量変換器42は、メタ検索テキスト32を、エンコーダ等を用いて特徴量空間50に射影することにより、テキスト特徴量52に変換する。当該エンコーダとしては、テキストを特徴量に変換するように訓練された、LSTM(Long Short-Term Memory)等を利用したエンコーダネットワーク(言語モデル)が用いられればよい。次に融合器43は、検索画像31に基づく画像特徴量51とメタ検索テキストに基づくテキスト特徴量52とを融合して融合特徴量55を生成する。融合特徴量55は上記第1の特徴量の一例である。融合器43は、画像特徴量とテキスト特徴量との組合せを特徴量に変換するように訓練された、MLP(Multi Layer Perceptron)を利用したニューラルネットワーク等が用いられればよい。
同様に、画像特徴量変換器41は、参照画像34nを特徴量空間50に射影することにより、画像特徴量53nに変換し、テキスト特徴量変換器42は、メタ検索テキスト32を特徴量空間50に射影することにより、テキスト特徴量54に変換する。なお、テキスト特徴量54としてテキスト特徴量52が流用されてもよい。融合器43は、参照画像34nに基づく画像特徴量53nとメタ検索テキストに基づくテキスト特徴量52とを融合して融合特徴量56nを生成する。融合特徴量56nは上記第2の特徴量の一例である。画像特徴量51、テキスト特徴量52、画像特徴量53n及びテキスト特徴量54は、同一の特徴量空間において定義されている。
そして類似度算出器44は、融合特徴量55と融合特徴量56nとの距離を類似度57nとして算出する。類似度57nとしてはコサイン類似度が用いられるとよい。この類似度57nが、メタ検索テキストの観点での検索画像31と参照画像34nとの類似度として用いられる。なお、類似度57nはコサイン類似度に限定されず、融合特徴量55と融合特徴量56nとの距離を表すものであれば如何なる指標でもよく、例えば、融合特徴量55と融合特徴量56nとの差分値等でもよい。
類似度算出部113は、全ての参照画像34nについて、図4に示す処理を行うことにより、検索画像31と参照画像34nとの類似度57nを算出する。参照画像34nと類似度57nとは関連付けて参照事例データベース53に保管される。
ここで、テキスト特徴量変換器42によるテキスト特徴量52の算出について詳述する。上記の通り、メタ検索テキスト32は、複数の対象間の関係性を表す記述である。テキスト特徴量52としては、例えば、Word2vecといったテキストの分散表現化(Embedding)が可能な手法を用いてテキストをベクトル化した値を用いればよい。これにより、テキスト特徴量52は、このような関係性を数値化することが可能になる。換言すれば、テキスト特徴量変換器42は、メタ検索テキスト32により記述された対象間の関係性を抽出する機能を有している。
テキスト特徴量52は、複数の対象間の関係性を定量した値であればよく、その算出方法は、上記方法に限定されない。上記した言語モデルを利用した算出方法に限定されない。例えば、テキスト特徴量変換器42は、メタ検索テキスト32に係り受け解析を施してテキスト特徴量52を算出してもよい。具体的には、メタ検索テキスト32に含まれる自然文を文節で区切り、文節間の関係性として係り受けを特定する。係り受けとしては、例えば、主語や述語、目的語、形容詞、副詞等の関係が特定される。より詳細な関係性が特定されてもよい。メタ検索テキスト32に含まれる全ての係り受けが連結されて1個のテキスト特徴量52に変換される。他の例として、テキスト特徴量変換器42は、メタ検索テキスト32にテキスト解析を施してナレッジグラフに変換し、ナレッジグラフをテキスト特徴量52に変換してもよい。ナレッジグラフは、メタ検索テキスト32に含まれる各文節をエンティティとし、エンティティ間の係り受けをエッジで表現する有向グラフである。ナレッジグラフ自体をテキスト特徴量52として使用してもよいし、ナレッジグラフにグラフ畳み込みネットワーク(GCN:Graph Convolutional Network)を適用して得た特徴量をテキスト特徴量52として使用してもよい。
ステップS203が行われると検索部114は、ステップS203において算出された類似度に基づいて、検索画像31に、メタ検索テキスト32に関して類似する類似参照画像を検索する(ステップS204)。具体的には、検索部114は、閾値と各参照画像34nに関連付けられた類似度57nとを比較し、閾値以上の類似度に関連付けられた参照画像34nを類似参照画像として参照事例データベース33から抽出する。閾値は、ユーザ等により入力機器13を介して任意の値に設定されればよい。
ステップS204が行われると提示部115は、ステップS204による検索結果を提示する(ステップS205)。ステップS205において提示部115は、ステップS204において類似参照画像が抽出された場合、当該類似参照画像を表示機器15に表示する。例えば、図3の場合、参照画像341の類似度が比較的高く、閾値以上であるとすると、参照画像341が類似参照画像として表示機器15に表示される。確認のため、検索画像と類似参照画像との類似度が表示されてもよい。
類似参照画像341は、メタ検索テキスト32の観点で検索画像31に類似する画像であることが期待される。具体的には、類似参照画像341は、検索画像31と同様、「人が手にグローブを装着し」且つ「人が屋内にいる」事例に関する画像であることが期待される。このように本実施例によれば、ユーザ等が注目する観点を記述したメタ検索テキスト32の観点で検索画像31に類似する類似参照画像341を表示することが可能になる。
上記の通り、検索画像31に映る対象間の関係性を記述した自然文の形式でメタ検索テキスト32を指定することが可能である。これにより、対象間の細かな相互関係(インタラクション)や周辺環境(シチュエーション)などといったコンテキストをテキスト特徴量や融合特徴量、類似度等に昇華させることができ、コンテキストのレベルで類似する事例でも検索することが可能となる。これにより検索の自由度が向上する。具体例として、類似画像検索において「人」と「グローブ」とが同一画像内に映っていること(共起)だけでなく、人がグローブを「手に持っている」のか「テーブルの上に置いている」のか「装着している」のかなど、細かな条件で類似する画像を検索できる。
上記の事例検索処理は、災害、事故、故障及び/又は事件を含む如何なる事例にも活用可能である。例えば、災害事例検索やヒヤリハット検知にも活用可能である。災害事例検索では、現場で事故が発生した際、災害現場の監視カメラにより撮影された画像(以下、監視カメラ画像と呼ぶ)を検索条件として、当該検索条件に類似する、過去に発生した災害事例が類似参照事例として検索される。これにより、当時の災害状況や実施した対応策等を直ちに確認することができる。具体的には、破損又は故障した機械の画像やテキスト、異常音等のデータから、過去の類似する故障例を検索することにより、応急の対応策や修復フローを把握することが可能になる。
ヒヤリハット検知では、実際に災害が発生していない現場であっても、監視カメラ等から収集した監視カメラ画像を検索条件として、当該検索条件に類似する災害事例が類似参照事例として定期的に検索・解析される。これにより、災害が発生しそうな危険な状態を検知し、予防に活かすことが可能になる。具体的には、現場の監視カメラ画像を検索条件とする定期的な検索から、手元の保護を怠ったことが原因の事故事例が類似検索された場合、現場作業者がグローブ未装着である可能性が高いとして注意喚起に用いることが可能になる。
提示部115は、ユーザによる確認のため、類似参照画像341と共に、検索画像31及び/又はメタ検索テキスト32を表示してもよい。検索画像31及び/又はメタ検索テキスト32は、類似検索の判断根拠として観察及び解釈することが可能である。
ステップS204において類似参照画像が抽出されなかった場合、表示機器15には類似参照画像が表示されないこととなる。この場合、提示部115は、「類似参照画像は見つかりませんでした」等の類似参照画像が存在しない旨のメッセージを表示機器15に表示してもよいし、その旨の音声又は警告音をスピーカ等から出力してもよい。
ステップS205が行われると事例検索処理が終了する。
上記実施形態によれば、事例検索装置1は、検索条件取得部111、メタ検索条件取得部112、類似度算出部113、検索部114及び提示部115を有する。検索条件取得部111は、検索対象の事例のデータである検索条件を取得する。メタ検索条件取得部112は、検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する。類似度算出部113は、メタ検索条件に基づいて、検索条件と被検索対象の事例のデータである複数の参照事例各々との類似度を算出する。検索部114は、類似度に基づいて、複数の参照事例に対して、メタ検索条件の観点で検索条件に類似する類似参照事例を検索する。提示部115は、検索部114による検索結果を提示する。
上記の構成によれば、メタ検索条件として、検索条件に含まれる、注目する複数の対象間の関係性を自然文で記述したテキストを入力した場合、当該関係性等の複雑なコンテキストに関して類似した事例を検索することができる。これにより、検索の自由度の向上が期待される。
なお、上記事例検索処理は、その趣旨を逸脱しない程度に種々の変形が可能である。
一例として、ステップS201とステップS202とは逆でもよい。
他の例として、ステップS202においてメタ検索条件は処理回路11や記憶装置12等に予め登録されていてもよい。具体的には、管理者等のユーザが予め調べたい観点を記述したテキストをデフォルトのメタ検索テキストとして登録し、参照事例データベースに参照画像と共に保管しておくとよい。また、この場合、検索画像の画像特徴量を算出する前段階において、各参照画像を画像特徴量に変換し、これに並行して、当該メタ検索テキストをテキスト特徴量に変換し、各画像特徴量とテキスト特徴量とに基づいて各融合特徴量を算出し、参照事例データベースにおいて参照画像と融合特徴量とを関連付けて保管しておいてもよい。これにより、デフォルトのメタ検索テキストと類似参照画像の検索を行う場合、参照画像に関する融合特徴量の算出処理を省略することができるので、処理時間の短縮を図ることが可能になる。なお、全ての融合特徴量を算出する必要はなく、隣接する融合特徴量に基づいて補間してもよい。
複数個のデフォルトのメタ検索テキストを生成し、デフォルトのメタ検索テキスト毎に融合特徴量を参照画像に関連付けて記憶装置12に記憶しておいてもよい。類似参照画像の検索を行う場合、複数のメタ検索テキストの中からユーザが関心にあるものが入力機器13を介して選択されればよい。
(応用例1)
上記実施形態において類似度は、検索条件とメタ検索条件との組合せに基づく第1の特徴量と、参照事例とメタ検索条件との組合せに基づく第2の特徴量との距離であるとした。応用例1に係る類似度は、検索条件に関するメタ検索条件に対する第1のステータスと、参照事例に関するメタ検索条件に対する第2のステータスとの一致率であるとする。以下、応用例1に係る事例検索装置について説明する。
応用例1に係る類似度算出部113は、検索条件のメタ検索条件に対する第1のステータスと、参照事例の当該メタ検索条件に対する第2のステータスとの一致率を、類似度として算出する。応用例1に係るメタ検索条件は、検索条件に類似する事例を検索するうえで注目する観点を質問形式で記述した質問文であるとする。この場合、類似度算出部113は、検索条件の質問文に対する第1の回答を、第1のステータスとして推定し、参照事例の当該質問文に対する第2の回答を、第2のステータスとして推定する。
図6は、応用例1に係る事例検索装置1による事例検索処理の一例の流れを示す図である。図7は、図6に示す事例検索処理の概要を示す図である。以下の説明において検索条件及び参照事例のデータメディアは、上記実施形態と同様、それぞれ検索画像及び参照画像であるとする。
図6及び図7に示すように、検索条件取得部111は、検索画像(検索条件)71を取得する(ステップS601)。本実施例において検索画像71は、階段で作業をしている現場作業員が映る静止画であるとする。
ステップS601が行われるとメタ検索条件取得部112は、質問文(メタ検索条件)72を取得する(ステップS602)。質問文72は、検索画像71に映る対象のうちのユーザが注目する観点として、検索画像71に映る複数の対象間の関係性を質問形式で記述したテキストである。注目する対象は、人物や物品等の物体でもよいし、階段や廊下、天井、道路、空等の非物体でもよい。対象間の関係性は、物体同士の関係性、非物体同士の関係性、物体と非物体との関係性の何れでもよい。質問文72は、関係性を記述可能な自然文が適当である。また、質問文72には、関係性を表す1個の質問が含まれてもよいし、2個以上の質問が含まれてもよい。
本実施例に係る質問文72は、1.「人が階段にいる?」、2.「人が物を運んでいる?」及び3「人が手にグローブを装着している?」の3個の質問を含むものとする。1番目の質問は物体「人」と非物体「階段」との関係性、すなわち、物体/非物体間の関係性を表し、2番目の質問は物体「人」と物体「物」との関係性、すなわち、物体/物体間の関係性を表し、3番目の質問は物体「手」と物体「グローブ」との関係性、すなわち、物体/物体間の関係性を表す。なお、質問文72は、自然文に限定されず、「黒いグローブ」等の物体の属性を表す名詞句が含まれてもよい。
ステップS602が行われると類似度算出部113は、VQA(Visual Question Answering)モデルを使用して、検索画像71についての質問文72に対する回答文(ステータス)73を推定する(ステップS603)。VQAモデルは、画像に関する質問文に対して回答文を推定する学習済みモデルである。VQAモデルとしては、参考文献(L. Li et al. “Relation-Aware Graph Attention Network for Visual Question Answering”,ICCV2019)に記載の技術が用いられるとよい。回答文73は、質問文72に含まれる質問毎に対して推定される。例えば、図7に示すように、質問1.「人が階段にいる?」に対して回答1.「はい」、質問2.「人が物を運んでいる?」に対して回答2.「はい」、質問3「人が手にグローブを装着している?」に対して回答3.「いいえ」のように回答文73が得られる。
ステップS603が行われると類似度算出部113は、ステップS601において取得された検索画像71と、参照事例データベース74に保管されている複数の参照画像75n各々とその回答文76nの一致率(類似度)を算出する(ステップS604)。「n」は、参照事例データベース74に保管されている各参照画像の番号を示す自然数であり、1≦n≦Nの値をとる。「N」は参照事例データベース74に保管されている各参照画像75の総数を示す自然数であり、2以上の値を有する。参照事例データベース74には、現場作業員に関連する多数の参照画像75nが保管されている。各参照画像75nには当該参照画像75nについての質問文72に対する回答文76nが関連付けて保管されている。
図8は、一致率の算出過程を示す図である。図8に示すVQAモデル81及び一致率算出器82は、応用例1に係る類似度算出部113の構成要素である。VQAモデル81は、画像特徴量変換器811、テキスト特徴量変換器812及び回答推定器813等のネットワークモジュールを有する。画像特徴量変換器811は、検索画像71を画像特徴量83に変換する。画像特徴量83の変換方法としては種々の方法が適用可能である。以下、3種類の方法を説明する。
第1の画像特徴量変換方法:画像特徴量変換器811は、検索画像71に物体検出モデルを適用して、物体らしい領域を含むROI(Region Of Interest)を検出する。次に画像特徴量変換器811は、抽出されたROIの特徴量(以下、ROI特徴量と呼ぶ)を算出する。次に画像特徴量変換器811は、検索画像71にセマンティックセグメンテーションモデルを適用して検索画像71を複数の画像領域に分割する。次に画像特徴量変換器811は、画像領域毎に、セマンティックセグメンテーションに関する特徴量(以下、セグメンテーション特徴量と呼ぶ)を算出する。融合方法としては、例えば、ROI特徴量及びセグメンテーション特徴量がそれぞれベクトルで表現されていれば、ベクトル同士を結合すればよい。
ROI特徴量の算出方法について具体的に説明する。ここでは、物体検出モデルとして、Faster R-CNNと呼ばれるニューラルネットワークを用いることを想定する。なお、Faster R-CNNに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。物体検出モデルでは、物体らしい領域を特定するように、作業者や棚など、物体を囲む矩形(バウンディングボックス)がROIとして表現される。ROIごとにROI特徴量が抽出される。一般的な物体認識モデルでは、当該物体認識モデルからの出力として、物体の候補と識別ベクトル(識別スコア)とが出力されるが、本実施例では、出力層の1つ前の層で算出される値をROI特徴量として設定する。例えば、処理対象のROIについて、出力層から80個の物体候補に関する識別スコアを含む識別ベクトル(つまり80次元のベクトル)が得られる場合、当該出力層の前段以前では80次元以上のベクトル、例えば2000次元以上のベクトルを処理しており、ここでは、出力層の1つ前の層で算出されるベクトル値をROI特徴量として用いる。なお、ROI特徴量として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。
セグメンテーション特徴量の算出方法について具体的に説明する。ここでは、セマンティックセグメンテーションモデルの一例として、FCN(Fully Convolutional Networks)と呼ばれるニューラルネットワークを用いることを想定する。なお、FCNに限らず、Segnet、U-net等セマンティックセグメンテーションに用いるモデルであれば、どのようなモデルを用いてもよい。セマンティックセグメンテーションでは、画像中の各画素に対してラベリングされる。本実施例では、分割後の画像領域は、検索画像71に映る現場作業員や機械等の物体や、廊下や屋根等の非物体等の各領域に相当する。当該画像領域に含まれる画素について、出力層の1つ前の層で算出されるベクトル値(例えば、4000次元のベクトル)を、当該画像領域に関するセグメンテーション特徴量として算出される。
第2の画像特徴量変換方法:まず、第1の画像特徴量変換方法と同様、画像特徴量変換器811は、検索画像71に物体検出モデルを適用して、物体らしい領域を含むROIを検出する。また、第1の画像特徴量変換方法と同様、次に画像特徴量変換器811は、検索画像71にセマンティックセグメンテーションモデルを適用して、検索画像71を複数の画像領域に分割する。次に画像特徴量変換器811は、同一対象に関するROIと画像領域とを融合して融合ROIを生成する。例えば、ROIと画像領域との総和を融合ROIとする。なお、画像特徴量変換器811は、ROI検出処理においてROIとして認識するための閾値を下げ、通常よりも多くのROIを検出し、検出されたROIと画像領域との重複領域が閾値以上であるROIを、融合ROIとして生成してもよい。そして画像特徴量変換器811は、第1の画像特徴量変換方法と同様の手法により、融合ROI毎に画像特徴量83を算出する。融合ROI毎に画像特徴量は、物体検出モデルによる画像特徴量と同様の方法で算出さればよい。
第3の画像特徴量変換方法:まず、画像特徴量変換器811は、第1の画像特徴量変換方法と同様、ROI特徴量を算出とセグメンテーション特徴量とを算出し、融合特徴量である画像特徴量83を算出する。次に画像特徴量変換器811は、検索画像71にセマンティックセグメンテーションモデルを適用して検索画像71を複数の画像領域に分割する。次に画像特徴量変換器811は、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは各画像領域に付与されるラベルである。次に画像特徴量変換器811は、セマンティックラベルをエンコードする。例えば、Word2vecを用いて、セマンティックラベルをベクトル化すればよい。画像特徴量変換器811は、融合特徴量と、エンコードされたセマンティックラベルとを結合して画像特徴量83を算出する。例えば、融合特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。
以上に示した第1~第3の画像特徴量変換処理によれば、画像の特徴量として物体と非物体との双方を精度良く認識して画像特徴量83に変換することができる。なお、第1~第3の画像特徴量変換処理は、図4に示す画像特徴量51,53nの算出に使用することも可能である。
図8に示すように、テキスト特徴量変換器812は、質問文72をテキスト特徴量84に変換する。テキスト特徴量84としては、例えば、Word2vecといったテキストの分散表現化が可能な手法を用いてテキストをベクトル化した値を用いればよい。回答推定器813は、画像特徴量83及びテキスト特徴量84に基づいて回答文73を推定する。一例として、回答推定器813は、Attentionを利用したDNNなどによるVQAのための学習済みモデルを用いて、画像特徴量85n及びテキスト特徴量86を用いて回答文76nを推定する。
同様に、画像特徴量変換器811は、参照画像75nを画像特徴量85nに変換する。テキスト特徴量変換器812は、質問文72をテキスト特徴量86に変換し、回答推定器813は、画像特徴量85n及びテキスト特徴量86に基づいて回答文76nを推定する。
そして一致率算出器82は、回答文73と回答文76nとの一致率77nを類似度として算出する。一致率77nは、回答文73に含まれる回答のパターンの一致する度合いを意味する。一致率77nは、一致する回答の個数が多いほど大きい値を有し、一致する回答の個数が少ないほど小さい値を有する。具体的には、回答推定器813は、単語選択肢「はい」の予測スコアと単語選択肢「いいえ」の予測スコアとを算出し、予測スコアが高い方の単語選択肢を回答として出力している。予測スコアは、クラス分類タスクのネットワーク出力であり、尤度に対応する。一致率算出器82は、質問文72に含まれる質問毎に、検索画像71の回答と参照画像75nの回答とが一致するか否かの二値判定を行い、一致する個数を計数する。そして一致率算出器82は、質問文72に含まれる質問数に対する一致個数の比率を一致率77nとして算出する。例えば、図7に示すように、検索画像71の回答文73と参照画像751の回答文761とは3個の回答全てが一致するので一致率が高く、検索画像71の回答文73と参照画像75Nの回答文76Nとは2個の回答が一致するので一致率が中程度に高い。
類似度算出部113は、全ての参照画像75nについて、図8に示す処理を行うことにより、検索画像71と参照画像75nとの一致率77nを算出する。参照画像75nと一致率77nとは関連付けて参照事例データベース74に保管される。
ステップS604が行われると検索部114は、ステップS604において算出された一致率に基づいて、検索画像71に、回答文73に関して類似する類似参照画像を検索する(ステップS605)。具体的には、検索部114は、閾値と各参照画像75nに関連付けられた一致率77nとを比較し、閾値以上の一致率に関連付けられた参照画像75nを類似参照画像として参照事例データベース74から抽出する。閾値は、ユーザ等により入力機器13を介して任意の値に設定されればよい。
ステップS605が行われると提示部115は、ステップS605による検索結果を提示する(ステップS606)。ステップS606において提示部115は、ステップS605において類似参照画像が抽出された場合、当該類似参照画像を表示機器15に表示する。例えば、図7の場合、参照画像751の一致率が比較的高く、閾値以上であるとすると、参照画像751が類似参照画像として表示機器15に表示される。
図9は、検索結果の表示画面90の一例を示す図である。図9に示すように、表示画面90は、検索事例の表示領域91と参照事例の表示領域92とに区分される。表示領域92には、一例として、検索画像71、質問文72及び回答文73が表示される。表示領域92には、一例として、第1候補の表示領域93、第2候補の表示領域94及び候補外の表示領域95に区分される。表示領域93には、ステップS605において類似参照画像として抽出された参照画像のうちの最も一致率の参照画像(類似参照画像)751とその回答文761とが視覚的に対応付けて表示される。表示領域94には、ステップS605において類似参照画像として抽出された参照画像のうちの2番目高い一致率の参照画像75Nとその回答文76Nとが視覚的に対応付けて表示される。表示領域95には、第1候補及び第2候補外の参照画像75nが表示される。
図9に示すように、応用例1によれば、質問文72に対する回答文73に関して検索画像71に類似する参照画像75nが提示されるので、ユーザは、当該類似参照画像75nを効率的に観察することが可能になる。類似参照画像75nと共にその回答文76nが視覚的に対応付けて表示されるので、ユーザは、回答文76nも確認することができる。検索画像71とその回答文73とが表示されるので、回答文73と回答文76nとを見比べることにより、類似参照画像75nの一致具合(類似具合)をユーザが検証することも可能である。すなわち、回答文76nは、類似事例検索の根拠として活用することが期待される。
提示部115は、一致度に応じた視覚効果で回答文76nを表示する。一例として、提示部115は、検索画像71の回答文73に回答のパターンが一致する、類似参照画像75nの回答文76nを強調してもよい。これにより、一致率の高い回答文76n及びその類似参照画像75nを容易に識別することが可能である。また、提示部115は、一致率を可視化するため、一致率に応じて回答文76nを色分けして表示してもよい。一例として、提示部115は、回答が全て一致する回答文761は青で表示し、回答が1つ異なる回答文76Nは黄色、回答が2つ異なる回答文76Nは赤色で表示し、回答が全て異なる回答文76Nは灰色等で表示するとよい。また、提示部115は、一致率を可視化するため、一致率に応じて類似参照画像75nを視覚的に強調してもよい。一例として、提示部115は、回答が全て一致する回答文76nに対応する類似参照画像75nを点滅させたり、縁取りして表示したり、他の類似参照画像75nよりも拡大して表示してもよい。
ここで、提示部115は、ステップS605において抽出された類似参照画像75を、ユーザが指定した質問又は回答でフィルタリングしてもよい。一例として、図9に示す質問文72、回答文73及び回答文76nは個々の質問及び回答が選択可能にGUI(Graphical User Interface)形式で表示される。提示部115は、回答文73のうちの興味のある回答が入力機器13を介して指定された場合、指定された回答に一致する回答を有する類似参照画像75nを、ステップS605において抽出された類似参照画像75nの中から抽出し、抽出された類似参照画像75nを表示する。
図10は、フィルタリング結果の表示画面100の一例を示す図である。図10に示すように、検索画像71の回答文73のうちの1番目の回答101が選択された場合、提示部115は、回答101に一致する回答を有する類似参照画像102nを、ステップS605において抽出された類似参照画像の中から抽出し、参照事例の表示領域92に表示する。この際、提示部115は、類似参照画像102nの回答文103nを視覚的に対応付けて表示する。図10に示すように、回答文73のうちの選択された1番目の回答101は「はい」であるので、1番目の回答が「はい」である類似参照画像102nが抽出されることにある。回答文103nのうちのフィルタリングに関与していない回答についてはマスクされるとよい。フィルタリングにより、ユーザが関心のある回答を有する類似参照画像102nを簡易に検索して表示することが可能になる。
なお、提示部115は、検索画像71の回答文73ではなく、質問文72を選択することによりフィルタリングを行ってもよい。より詳細には、提示部115は、質問文72のうちの興味のある質問が入力機器13を介して指定された場合、指定された質問に対応する検索画像71の回答に一致する回答を有する類似参照画像75nを、ステップS605において抽出された類似参照画像75nの中から抽出し、抽出された類似参照画像75nを表示する。
ステップS606が行われると応用例1に係る事例検索処理が終了する。
なお、上記事例検索処理は、その趣旨を逸脱しない程度に種々の変形が可能である。
一例として、ステップS601とステップS602とは逆でもよい。
他の例として、ステップS602において質問文は処理回路11や記憶装置12等に予め登録されていてもよい。具体的には、管理者等のユーザが予め調べたい観点を記述した質問文をデフォルトの質問文として、参照事例データベースに保管しておくとよい。この場合、検索画像の回答を推定する前段階において、各参照画像のデフォルトの質問文に対応する回答文を推定し、参照事例データベースにおいて参照画像と回答文とを関連付けて保管しておいてもよい。これにより、デフォルトの質問文により類似参照画像の検索を行う場合、参照画像の回答文の推定処理を省略することができるので、処理時間の短縮を図ることが可能になる。
複数個のデフォルトの質問文を生成し、デフォルトの質問文毎に回答文を参照画像に関連付けて記憶装置12に記憶しておいてもよい。類似参照画像の検索を行う場合、複数の質問文の中からユーザが関心にあるものが入力機器13を介して選択されればよい。
(応用例2)
応用例1に係るVQAモデルは動画にも応用可能である。応用例2に係る事例検索装置1は、検索条件及び参照事例として動画を使用し、メタ検索条件として質問文を使用する。応用例2に係る類似度算出部113は、VideoQAモデル(例:J. Lei et al. “TVQA: Localized, Compositional Video Question Answering”, EMNLP2018)を使用し、質問文から抽出した前記関係性に対して、検索条件及び参照事例それぞれについて、質問文に対する回答文を推定する。その後、検索条件に関する回答文と参照事例に関する回答文とに基づいて一致率(類似度)を算出すればよい。
(応用例3)
応用例3に係るメタ検索条件取得部112は、メタ検索条件を自動で生成する。生成には。検索条件及び/又は参照事例を転用してよい。例えば、検索条件及び参照事例として画像を扱う場合、検索画像から質問文を生成する参考技術(S. Zhang et al, “Automatic Generation of Grounded Visual Questions”, IJCAI2017)を使用してもよい。あるいは、参照事例内のテキストデータに対して形態素解析や構文解析を行いて抽出した登場頻度の高い語を、準備した定型文内の一部と置き換えるなど、統計量を使用した生成方法を用いてもよい。
(応用例4)
応用例4に係る事例検索装置は、上記応用例2及び応用例3に係る事例検索処理を応用して、監視カメラ画像から人物追跡を行う。以下、応用例4に係る事例検索装置について説明する。
図11は、応用例4に係る事例検索装置4の構成例を示す図である。図11に示すように、事例検索装置4は、処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15を有するコンピュータである。処理回路11は、検索条件取得部111、メタ検索条件取得部112、類似度算出部113、検索部114及び提示部115に加え、特定部116及び経路推定部117を有する。処理回路11は、人物追跡プログラムを実行することにより、上記各部111~117の各機能を実現する。人物追跡プログラムは、記憶装置12等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。事例検索プログラムは、上記各部111~117の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部111~117はASIC等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。
図12は、応用例4に係る事例検索装置4による人物追跡処理の一例の流れを示す図である。図13は、図12に示す人物追跡処理の概要を示す図である。
図12及び図13に示すように、検索条件取得部111は、追跡対象者が映る検索画像(検索条件)131を取得する(ステップS1201)。本実施例において検索画像131は、任意の光学カメラ等で撮影された、追跡対象者が映る画像であるとする。検索画像131は、監視カメラで撮影された監視カメラ画像の一部静止画でもよい。
ステップS1201が行われるとメタ検索条件取得部112は、質問文(メタ検索条件)132を取得する(ステップS1202)。質問文132は、検索画像131に映る追跡対象者と、洋服や装身具、持ち物との関係性を質問形式で記述したテキストである。
本実施例に係る質問文132は、1.「人が赤いシャツを着ている?」、2.「人が帽子をかぶっている?」及び3「人が茶色いカバンを持っている?」の3個の質問を含むものとする。
ステップS1202が行われると類似度算出部113は、VQAモデルやVideoQAを使用して、検索画像131についての質問文132に対する回答(ステータス)133を推定する(ステップS1203)。回答文133は、質問文132に含まれる質問毎に対して推定される。例えば、図12に示すように、質問1.「人が赤いシャツを着ている?」に対して回答1.「はい」、質問2.「人が帽子をかぶっている?」に対して回答2.「はい」、質問3「人が茶色いカバンを持っている?」に対して回答3.「はい」のように回答文133が得られる。
ステップS1203が行われると類似度算出部113は、ステップS1201において取得された検索画像71と、参照事例データベース134に保管されている複数の監視カメラ画像135n各々とその回答文136nの一致率(類似度)を算出する(ステップS1204)。「n」は、参照事例データベース134に保管されている各監視カメラ画像の番号を示す自然数であり、1≦n≦Nの値をとる。「N」は参照事例データベース134に保管されている各監視カメラ画像135の総数を示す自然数であり、2以上の値を有する。参照事例データベース134には、多数の監視カメラ画像135nが保管されている。各監視カメラ画像には、当該監視カメラ画像を撮影した監視カメラの設置位置(以下、撮影位置と呼ぶ)と撮影時刻とが関連付けられている。また、各監視カメラ画像135nには当該監視カメラ画像135nについての質問文132に対する回答文136nが関連付けて保管されている。回答文136nは、予め類似度算出部113等により、監視カメラ画像135nと質問文132とから、VQAモデルやVideoQAを使用して推定されているものとする。
ステップS1204が行われると検索部114は、ステップS1204において算出された一致率に基づいて、追跡対象者が映る監視カメラ画像(以下、類似監視カメラ画像と呼ぶ)を検索する(ステップS1205)。具体的には、検索部114は、閾値と各監視カメラ画像135nに関連付けられた一致率とを比較し、閾値以上の一致率に関連付けられた監視カメラ画像135nを類似監視カメラ画像として参照事例データベース134から抽出する。閾値は、ユーザ等により入力機器13を介して任意の値に設定されればよい。
ステップS1305が行われると特定部116は、ステップS1305において抽出された監視カメラ画像135nの撮影位置及び撮影時刻137nを特定する(ステップS1206)。撮影位置は、対応する監視カメラの設置位置の住所でもよいし、当該住所に紐付けられた識別子でもよい。
ステップS1206が行われると経路推定部117は、ステップS1206において特定された撮影位置及び撮影時刻137nに基づいて、追跡対象者が辿った経路(以下、推定経路と呼ぶ)138を推定する(ステップS1207)。推定経路138の推定方法は任意の方法により行われればよい。一例として、経路推定部117は、類似監視カメラ画像135nの撮影位置を撮影時刻順に結ぶことにより推定経路138を生成する。
ステップS1207が行われると提示部115は、ステップS1207において得られた推定経路138を提示する(ステップS1208)。ステップS1208において提示部115は、推定経路138を表示機器15に表示する。
図14は、推定経路138の表示画面140の一例を示す図である。図14に示すように、表示画面140には、追跡対象者に関する推定経路138が描画された地図画像141が表示される。地図画像141は、提示部115により生成される。具体的には、以下の手順で地図画像141を生成する。まず、提示部115は、類似監視カメラ画像135nの撮影位置を包含する地図データを読み出し、地図データに類似監視カメラ画像135nの撮影位置にマーク142nをプロットし、マーク142を撮影時刻順に結ぶ直線を推定経路138として地図データに描画する。そして提示部115は、マーク142nと推定経路138とが描画された地図データの任意範囲を地図画像141として切り出す。地図画像141が表示されることにより、ユーザは、追跡対象者が辿ったと推定される経路を容易に確認することができる。なお、マーク142n間における追跡対象者の経路を推定可能であれば、提示部115は、当該経路を辿る直線や曲線等の任意の線で、マーク142n間を描画してもよい。
図14に示すように、ユーザによる確認のため、マーク142nに隣接して、当該マーク142nに対応する撮影時刻及び撮影時刻が表示されてもよい。更に、表示画面140には、ユーザによる確認のため、検索画像131、質問文132及び回答文133が表示されるとよい。更に、提示部115は、ユーザによる確認のため、任意の監視カメラ画像、回答文、撮影時刻及び撮影位置の組合せを表示してもよい。例えば、図14に示すように、マーク1423が指定された場合、マーク1423に対応する監視カメラ画像1353、回答文1363、撮影時刻T3及び撮影位置P3が表示される。
ステップS1208が行われると応用例4に係る人物追跡処理が終了する。
なお、上記事例検索処理は、その趣旨を逸脱しない程度に種々の変形が可能である。
一例として、ステップS1201とステップS1202とは逆でもよい。また、応用例1と同様、ステップS1202において質問文はデフォルトの質問文として処理回路11や記憶装置12等に予め登録されていてもよい。
他の例として、追跡対象は、人物に限定されず、動物や昆虫、魚等の生物でもよいし、ロボットや自動車、飛行体、船舶等の移動体にも適用可能である。
(応用例5)
上記の種々の実施例において非検索対象である参照事例のデータメディアは、画像、動画、テキスト、音声及びセンサ計測値の一種類であるとした。しかしながら、非検索対象である参照事例のデータメディアは、一種類に限定されず、画像、動画、テキスト、音声及びセンサ計測値のうちの一種類以上であればよく、すなわち、二種類以上でもよい。これによりクロスモーダルな事例検索を行うことが可能になる。以下、応用例5に係る事例検索装置について説明する。なお、以下の説明において、検索条件のデータメディアは画像であり、参照事例のデータメディアは画像及び資料であるとする。資料は、テキストで作成されたデータである。また、メタ検索条件は、本実施形態と同様、メタ検索テキストであるとする。
図15は、応用例5に係る事例検索処理の概要を示す図である。図15に示すように、検索画像151とメタ検索テキスト152とが取得される。検索画像151とメタ検索テキスト152とは、説明の簡単のため、それぞれ図4に示す検索画像31とメタ検索テキスト32と同一であるとする。応用例5において参照事例データベースとして、参照画像データベース153と参照資料データベース154とが用意されている。参照画像データベース153には被検索対象である多数の参照画像155n(2≦n≦N,Nは2以上の自然数)が保管されている。各参照画像155nは、予め類似度算出部113により算出された、メタ検索テキスト152の観点での検索画像151との類似度が関連付けられている。参照資料データベース154には被検索対象である多数の資料156m(2≦m≦M,Mは2以上の自然数、MはNと同一でも非同一でもよい)が保管されている。資料156mとしては、様々な事例についての報告書等が用いられるとよい。各資料156mは、予め類似度算出部113により算出された、メタ検索テキスト152の観点での検索画像151との類似度が関連付けられている。
図15に示すように、検索部114は、類似度に基づいて、参照画像データベース153に対して、検索画像151に類似する類似参照画像を検索し、参照資料データベース154に対して、検索画像151に類似する類似資料を検索する。そして提示部115は、検索結果として、類似参照画像1561と類似資料1563とを提示する。
(応用例6)
上記応用例1等における質問は、「はい」又は「いいえ」の回答に限定するクローズドクエスチョン(closed question)であるとした。しかしながら、本実施形態に係る質問は、ある程度任意な回答を想定するオープンクエスチョン(open question)にも適用可能である。応用例6に係るオープンクエスチョンは、一例として、有限個の単語選択肢の中から回答単語を選択するための制限的なオープンクエスチョンが適用可能である。制限的なオープンクエスチョンの場合、例えば、質問「人は何をしているか?」に対し、単語選択肢「野球」「テニス」「食事」等の中から、適切な一単語が回答単語として選択される。
(応用例7)
上記応用例1等における類似度は、検索画像と参照画像との回答単語(すなわち、複数個の単語選択肢のうちの予測スコアが最大のもの)の一致率であるとした。類似度の算出方法は、応用例1に記載した方法のみに限定されない。例えば、類似度は、検索画像と参照画像との回答単語の一致/不一致だけでなく、回答単語の予測スコアを考慮して算出されてもよい。回答単語の予測スコアが高いほど高い類似度を有することとなる。具体的には、検索画像と参照画像とで回答単語が一致した場合、検索画像及び参照画像各々の回答単語の予測スコアが大きいほど大きい値を有するように設計された係数を、一致率に乗算する。当該乗算値が類似度として用いられる。他の例として、検索画像の予測スコアと参照画像の予測スコアとが近いほど大きい値を有するように設計された係数を、一致率に乗算してもよい。
応用例6のような制限的なオープンクエスチョンの場合、複数の単語選択肢のうちの予測スコアが最も高い単語選択肢だけではなく、上位K(Kは2以上の自然数)番目までの単語選択肢に基づいて類似度を算出してもよい。一例として、上位K番目までのK個の単語選択肢を検索画像と参照画像とで選択し、選択されたK個の単語選択肢の一致率(以下、個別一致率と呼ぶ)を算出する。個別一致率は質問文に含まれる質問毎に算出される。そして質問文に含まれる複数の質問に関する複数の個別一致率に基づいて類似度を算出する。例えば、複数の個別一致率を掛け合わせた値を類似度として算出するとよい。
他の例として、検索画像及び参照画像各々の回答単語をエンコードしてテキスト特徴量(以下、回答特徴量と呼ぶ)に変換し、検索画像の回答特徴量と参照画像の回答特徴量との距離を類似度として算出してもよい。距離としては、コサイン類似度や差分値等が用いられればよい。この場合、検索画像と参照画像とで回答単語そのものは異なっていても意味的に近ければ高い類似度を有することとなる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 事例検索装置
4 事例検索装置
11 処理回路
12 記憶装置
13 入力機器
14 通信機器
15 表示機器
111 検索条件取得部
112 メタ検索条件取得部
113 類似度算出部
114 検索部
115 提示部
116 特定部
117 経路推定部

Claims (20)

  1. 検索対象の事例のデータにより表される検索条件を取得する第1取得部と、
    前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する第2取得部と、
    前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出する算出部と、
    前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索する検索部と、
    前記検索部による検索結果を提示する提示部と、
    を具備する事例検索装置。
  2. 前記メタ検索条件は、前記検索条件に含まれる、注目する複数の対象間の関係性を自然文で記述したテキストである、請求項1記載の事例検索装置。
  3. 前記算出部は、
    前記検索条件と前記メタ検索条件との組合せに基づく第1の特徴量と、前記参照事例と前記メタ検索条件との組合せに基づく第2の特徴量とを算出し、
    前記第1の特徴量と前記第2の特徴量との距離を、前記類似度として算出する、
    請求項1記載の事例検索装置。
  4. 前記算出部は、
    前記検索条件、前記メタ検索条件及び前記参照事例を同一の特徴量空間に射影することにより、前記検索条件の特徴量、前記メタ検索条件の特徴量及び前記参照事例の特徴量を算出し、
    前記検索条件の特徴量と前記メタ検索条件の特徴量とに基づいて前記第1の特徴量を算出し、
    前記参照事例の特徴量と前記メタ検索条件の特徴量とに基づいて前記第2の特徴量を算出する、
    請求項3記載の事例検索装置。
  5. 前記算出部は、前記検索条件の前記メタ検索条件に対する第1のステータスと、前記参照事例の前記メタ検索条件に対する第2のステータスとの一致率を、前記類似度として算出する、請求項4記載の事例検索装置。
  6. 前記メタ検索条件は、前記注目する観点に関する質問文であり、
    前記算出部は、前記検索条件の前記質問文に対する第1の回答文を、前記第1のステータスとして推定し、前記参照事例の前記質問文に対する第2の回答文を、前記第2のステータスとして推定する、
    請求項5記載の事例検索装置。
  7. 前記算出部は、事例に関する質問文に対して回答文を推定する学習済みモデルを用いて、前記検索条件から前記第1の回答文を推定し、前記参照事例から前記第2の回答文を推定する、請求項6記載の事例検索装置。
  8. 前記注目する観点は、複数の観点を含み、
    前記質問文は、前記複数の観点にそれぞれ対応する複数の質問を含み、
    前記第1の回答文及び前記第2の回答文は、前記複数の質問にそれぞれ対応する複数の回答を含み、
    前記類似度は、前記第1の回答文に含まれる前記複数の回答のパターンと前記第2の回答文に含まれる前記複数の回答のパターンとの一致率である、
    請求項7記載の事例検索装置。
  9. 前記データは、画像であり、
    前記算出部は、前記画像から物体らしい領域を含むROIを検出し、前記ROIに関するROI特徴量を抽出し、前記画像を複数の領域に分割し、前記領域のセグメンテーション特徴量を算出し、前記ROI特徴量と前記セグメンテーション特徴量とを融合して前記検索条件の特徴量を算出する、
    請求項7記載の事例検索装置。
  10. 前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の前記類似参照事例を表示する、請求項1記載の事例検索装置。
  11. 前記提示部は、更に、前記類似参照事例と前記検索条件との前記類似度を表示する、請求項10記載の事例検索装置。
  12. 前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の前記類似参照事例と前記類似参照事例に対応する前記第2の回答文とを表示する、請求項8記載の事例検索装置。
  13. 前記提示部は、前記検索条件と前記第1の回答文とを表示する、請求項12記載の事例検索装置。
  14. 前記提示部は、前記類似度に応じた視覚効果で前記第2の回答文を表示する、請求項13記載の事例検索装置。
  15. 前記提示部は、
    前記第1の回答文に含まれる前記複数の回答のうちの指定された回答に一致する又は一致しない回答を有する類似参照事例を特定し、
    前記特定された類似参照事例を画面において強調する、又は前記特定された類似参照事例以外の類似参照事例を前記画面から消去する、
    請求項13記載の事例検索装置。
  16. 前記提示部は、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の類似参照事例が特定された場合、前記検索結果として、警告を提示する、請求項1記載の事例検索装置。
  17. 前記データは、画像、動画、テキスト、音声及びセンサ計測値の少なくとも1種類を含む、請求項1記載の事例検索装置。
  18. 経路推定部を更に備え、
    前記検索条件は、追跡対象が描画された画像のデータであり、
    前記複数の参照事例は、複数の監視カメラによりそれぞれ撮影された複数の監視カメラ画像のデータであり、
    前記複数の監視カメラ画像各々は、設置位置及び撮影時刻に関連付けられ、
    前記検索部は、前記複数の監視カメラ画像の中から前記追跡対象が描画された複数の類似画像を抽出し、
    前記経路推定部は、前記抽出された複数の類似画像を撮影した複数の監視カメラの設置位置及び撮影時刻を特定し、前記特定された設置位置及び撮影時刻に基づいて前記追跡対象が辿った経路を推定する、
    請求項1記載の事例検索装置。
  19. 検索対象の事例のデータにより表される検索条件を取得し、
    前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得し、
    前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出し、
    前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索し、
    前記類似参照事例の検索結果を提示する、
    ことを具備する事例検索方法。
  20. コンピュータに、
    検索対象の事例のデータにより表される検索条件を取得させる機能と、
    前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得させる機能と、
    前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出させる機能と、
    前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索させる機能と、
    前記類似参照事例の検索結果を提示する機能と、
    を実現させる事例検索プログラム。
JP2021146888A 2021-09-09 2021-09-09 事例検索装置、方法及びプログラム Pending JP2023039656A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021146888A JP2023039656A (ja) 2021-09-09 2021-09-09 事例検索装置、方法及びプログラム
US17/652,739 US20230077031A1 (en) 2021-09-09 2022-02-28 Case query apparatus and method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021146888A JP2023039656A (ja) 2021-09-09 2021-09-09 事例検索装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023039656A true JP2023039656A (ja) 2023-03-22

Family

ID=85385235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021146888A Pending JP2023039656A (ja) 2021-09-09 2021-09-09 事例検索装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US20230077031A1 (ja)
JP (1) JP2023039656A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム

Also Published As

Publication number Publication date
US20230077031A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
US11669979B2 (en) Method of searching data to identify images of an object captured by a camera system
Lan et al. Discriminative latent models for recognizing contextual group activities
Benabbas et al. Motion pattern extraction and event detection for automatic visual surveillance
CN106255968B (zh) 自然语言图像搜索
Gomes et al. A vision-based approach to fire detection
CN111709296A (zh) 一种景别识别方法、装置、电子设备及可读存储介质
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
Onie et al. The use of closed-circuit television and video in suicide prevention: narrative review and future directions
JP2023039656A (ja) 事例検索装置、方法及びプログラム
Vo et al. Contextual explainable video representation: Human perception-based understanding
CN110765314A (zh) 一种视频语义结构化提取与标注的方法
CN116863116A (zh) 基于人工智能的图像识别方法、装置、设备及介质
Durand et al. Utilizing deep object detector for video surveillance indexing and retrieval
US20230076241A1 (en) Object detection systems and methods including an object detection model using a tailored training dataset
KR20190064288A (ko) 스케치 기반의 영상표절 검사 방법 및 장치
Klempous et al. Review of algorithms for tag detection in video sequences
WO2023281897A1 (ja) 映像監視システム及び映像監視方法
Pawar et al. Recognize Objects for Visually Impaired using Computer Vision
Anitha Rani et al. Human activity recognition on multivariate time series data: a technical review
Nouyed et al. Face detection on surveillance images
Tao et al. University of Missouri-Kansas City TRECVID 2022 DSDI Track
Diem et al. Interpretable video representation
JP2023119287A (ja) 映像検索システム、映像検索方法およびコンピュータプログラム
Loufakis et al. Employing Deep Learning Framework to Support Location Management for the Audio-Visual Industry
Prasomphan Feature Extraction for Image Content Retrieval in Thai Traditional Painting with SIFT Algorithms

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240202