JP2023039656A - 事例検索装置、方法及びプログラム - Google Patents
事例検索装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2023039656A JP2023039656A JP2021146888A JP2021146888A JP2023039656A JP 2023039656 A JP2023039656 A JP 2023039656A JP 2021146888 A JP2021146888 A JP 2021146888A JP 2021146888 A JP2021146888 A JP 2021146888A JP 2023039656 A JP2023039656 A JP 2023039656A
- Authority
- JP
- Japan
- Prior art keywords
- search
- case
- search condition
- image
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 238000009434 installation Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 30
- 230000004927 fusion Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000012925 reference material Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
上記実施形態において類似度は、検索条件とメタ検索条件との組合せに基づく第1の特徴量と、参照事例とメタ検索条件との組合せに基づく第2の特徴量との距離であるとした。応用例1に係る類似度は、検索条件に関するメタ検索条件に対する第1のステータスと、参照事例に関するメタ検索条件に対する第2のステータスとの一致率であるとする。以下、応用例1に係る事例検索装置について説明する。
応用例1に係るVQAモデルは動画にも応用可能である。応用例2に係る事例検索装置1は、検索条件及び参照事例として動画を使用し、メタ検索条件として質問文を使用する。応用例2に係る類似度算出部113は、VideoQAモデル(例:J. Lei et al. “TVQA: Localized, Compositional Video Question Answering”, EMNLP2018)を使用し、質問文から抽出した前記関係性に対して、検索条件及び参照事例それぞれについて、質問文に対する回答文を推定する。その後、検索条件に関する回答文と参照事例に関する回答文とに基づいて一致率(類似度)を算出すればよい。
応用例3に係るメタ検索条件取得部112は、メタ検索条件を自動で生成する。生成には。検索条件及び/又は参照事例を転用してよい。例えば、検索条件及び参照事例として画像を扱う場合、検索画像から質問文を生成する参考技術(S. Zhang et al, “Automatic Generation of Grounded Visual Questions”, IJCAI2017)を使用してもよい。あるいは、参照事例内のテキストデータに対して形態素解析や構文解析を行いて抽出した登場頻度の高い語を、準備した定型文内の一部と置き換えるなど、統計量を使用した生成方法を用いてもよい。
応用例4に係る事例検索装置は、上記応用例2及び応用例3に係る事例検索処理を応用して、監視カメラ画像から人物追跡を行う。以下、応用例4に係る事例検索装置について説明する。
上記の種々の実施例において非検索対象である参照事例のデータメディアは、画像、動画、テキスト、音声及びセンサ計測値の一種類であるとした。しかしながら、非検索対象である参照事例のデータメディアは、一種類に限定されず、画像、動画、テキスト、音声及びセンサ計測値のうちの一種類以上であればよく、すなわち、二種類以上でもよい。これによりクロスモーダルな事例検索を行うことが可能になる。以下、応用例5に係る事例検索装置について説明する。なお、以下の説明において、検索条件のデータメディアは画像であり、参照事例のデータメディアは画像及び資料であるとする。資料は、テキストで作成されたデータである。また、メタ検索条件は、本実施形態と同様、メタ検索テキストであるとする。
上記応用例1等における質問は、「はい」又は「いいえ」の回答に限定するクローズドクエスチョン(closed question)であるとした。しかしながら、本実施形態に係る質問は、ある程度任意な回答を想定するオープンクエスチョン(open question)にも適用可能である。応用例6に係るオープンクエスチョンは、一例として、有限個の単語選択肢の中から回答単語を選択するための制限的なオープンクエスチョンが適用可能である。制限的なオープンクエスチョンの場合、例えば、質問「人は何をしているか?」に対し、単語選択肢「野球」「テニス」「食事」等の中から、適切な一単語が回答単語として選択される。
上記応用例1等における類似度は、検索画像と参照画像との回答単語(すなわち、複数個の単語選択肢のうちの予測スコアが最大のもの)の一致率であるとした。類似度の算出方法は、応用例1に記載した方法のみに限定されない。例えば、類似度は、検索画像と参照画像との回答単語の一致/不一致だけでなく、回答単語の予測スコアを考慮して算出されてもよい。回答単語の予測スコアが高いほど高い類似度を有することとなる。具体的には、検索画像と参照画像とで回答単語が一致した場合、検索画像及び参照画像各々の回答単語の予測スコアが大きいほど大きい値を有するように設計された係数を、一致率に乗算する。当該乗算値が類似度として用いられる。他の例として、検索画像の予測スコアと参照画像の予測スコアとが近いほど大きい値を有するように設計された係数を、一致率に乗算してもよい。
4 事例検索装置
11 処理回路
12 記憶装置
13 入力機器
14 通信機器
15 表示機器
111 検索条件取得部
112 メタ検索条件取得部
113 類似度算出部
114 検索部
115 提示部
116 特定部
117 経路推定部
Claims (20)
- 検索対象の事例のデータにより表される検索条件を取得する第1取得部と、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得する第2取得部と、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出する算出部と、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索する検索部と、
前記検索部による検索結果を提示する提示部と、
を具備する事例検索装置。 - 前記メタ検索条件は、前記検索条件に含まれる、注目する複数の対象間の関係性を自然文で記述したテキストである、請求項1記載の事例検索装置。
- 前記算出部は、
前記検索条件と前記メタ検索条件との組合せに基づく第1の特徴量と、前記参照事例と前記メタ検索条件との組合せに基づく第2の特徴量とを算出し、
前記第1の特徴量と前記第2の特徴量との距離を、前記類似度として算出する、
請求項1記載の事例検索装置。 - 前記算出部は、
前記検索条件、前記メタ検索条件及び前記参照事例を同一の特徴量空間に射影することにより、前記検索条件の特徴量、前記メタ検索条件の特徴量及び前記参照事例の特徴量を算出し、
前記検索条件の特徴量と前記メタ検索条件の特徴量とに基づいて前記第1の特徴量を算出し、
前記参照事例の特徴量と前記メタ検索条件の特徴量とに基づいて前記第2の特徴量を算出する、
請求項3記載の事例検索装置。 - 前記算出部は、前記検索条件の前記メタ検索条件に対する第1のステータスと、前記参照事例の前記メタ検索条件に対する第2のステータスとの一致率を、前記類似度として算出する、請求項4記載の事例検索装置。
- 前記メタ検索条件は、前記注目する観点に関する質問文であり、
前記算出部は、前記検索条件の前記質問文に対する第1の回答文を、前記第1のステータスとして推定し、前記参照事例の前記質問文に対する第2の回答文を、前記第2のステータスとして推定する、
請求項5記載の事例検索装置。 - 前記算出部は、事例に関する質問文に対して回答文を推定する学習済みモデルを用いて、前記検索条件から前記第1の回答文を推定し、前記参照事例から前記第2の回答文を推定する、請求項6記載の事例検索装置。
- 前記注目する観点は、複数の観点を含み、
前記質問文は、前記複数の観点にそれぞれ対応する複数の質問を含み、
前記第1の回答文及び前記第2の回答文は、前記複数の質問にそれぞれ対応する複数の回答を含み、
前記類似度は、前記第1の回答文に含まれる前記複数の回答のパターンと前記第2の回答文に含まれる前記複数の回答のパターンとの一致率である、
請求項7記載の事例検索装置。 - 前記データは、画像であり、
前記算出部は、前記画像から物体らしい領域を含むROIを検出し、前記ROIに関するROI特徴量を抽出し、前記画像を複数の領域に分割し、前記領域のセグメンテーション特徴量を算出し、前記ROI特徴量と前記セグメンテーション特徴量とを融合して前記検索条件の特徴量を算出する、
請求項7記載の事例検索装置。 - 前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の前記類似参照事例を表示する、請求項1記載の事例検索装置。
- 前記提示部は、更に、前記類似参照事例と前記検索条件との前記類似度を表示する、請求項10記載の事例検索装置。
- 前記提示部は、前記検索結果として、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の前記類似参照事例と前記類似参照事例に対応する前記第2の回答文とを表示する、請求項8記載の事例検索装置。
- 前記提示部は、前記検索条件と前記第1の回答文とを表示する、請求項12記載の事例検索装置。
- 前記提示部は、前記類似度に応じた視覚効果で前記第2の回答文を表示する、請求項13記載の事例検索装置。
- 前記提示部は、
前記第1の回答文に含まれる前記複数の回答のうちの指定された回答に一致する又は一致しない回答を有する類似参照事例を特定し、
前記特定された類似参照事例を画面において強調する、又は前記特定された類似参照事例以外の類似参照事例を前記画面から消去する、
請求項13記載の事例検索装置。 - 前記提示部は、前記複数の参照事例のうちの閾値以上の前記類似度を有する1個以上の類似参照事例が特定された場合、前記検索結果として、警告を提示する、請求項1記載の事例検索装置。
- 前記データは、画像、動画、テキスト、音声及びセンサ計測値の少なくとも1種類を含む、請求項1記載の事例検索装置。
- 経路推定部を更に備え、
前記検索条件は、追跡対象が描画された画像のデータであり、
前記複数の参照事例は、複数の監視カメラによりそれぞれ撮影された複数の監視カメラ画像のデータであり、
前記複数の監視カメラ画像各々は、設置位置及び撮影時刻に関連付けられ、
前記検索部は、前記複数の監視カメラ画像の中から前記追跡対象が描画された複数の類似画像を抽出し、
前記経路推定部は、前記抽出された複数の類似画像を撮影した複数の監視カメラの設置位置及び撮影時刻を特定し、前記特定された設置位置及び撮影時刻に基づいて前記追跡対象が辿った経路を推定する、
請求項1記載の事例検索装置。 - 検索対象の事例のデータにより表される検索条件を取得し、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得し、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出し、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索し、
前記類似参照事例の検索結果を提示する、
ことを具備する事例検索方法。 - コンピュータに、
検索対象の事例のデータにより表される検索条件を取得させる機能と、
前記検索条件に類似する事例を検索するうえで注目する観点に関する記述であるメタ検索条件を取得させる機能と、
前記メタ検索条件に基づいて、前記検索条件と被検索対象の事例のデータにより表される複数の参照事例各々との類似度を算出させる機能と、
前記類似度に基づいて、前記複数の参照事例に対して、前記メタ検索条件の観点で前記検索条件に類似する類似参照事例を検索させる機能と、
前記類似参照事例の検索結果を提示する機能と、
を実現させる事例検索プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021146888A JP2023039656A (ja) | 2021-09-09 | 2021-09-09 | 事例検索装置、方法及びプログラム |
US17/652,739 US20230077031A1 (en) | 2021-09-09 | 2022-02-28 | Case query apparatus and method and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021146888A JP2023039656A (ja) | 2021-09-09 | 2021-09-09 | 事例検索装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023039656A true JP2023039656A (ja) | 2023-03-22 |
Family
ID=85385235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021146888A Pending JP2023039656A (ja) | 2021-09-09 | 2021-09-09 | 事例検索装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230077031A1 (ja) |
JP (1) | JP2023039656A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7481995B2 (ja) * | 2020-10-28 | 2024-05-13 | 株式会社東芝 | 状態判定装置、方法およびプログラム |
-
2021
- 2021-09-09 JP JP2021146888A patent/JP2023039656A/ja active Pending
-
2022
- 2022-02-28 US US17/652,739 patent/US20230077031A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230077031A1 (en) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669979B2 (en) | Method of searching data to identify images of an object captured by a camera system | |
Lan et al. | Discriminative latent models for recognizing contextual group activities | |
Benabbas et al. | Motion pattern extraction and event detection for automatic visual surveillance | |
CN106255968B (zh) | 自然语言图像搜索 | |
Gomes et al. | A vision-based approach to fire detection | |
CN111709296A (zh) | 一种景别识别方法、装置、电子设备及可读存储介质 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
Onie et al. | The use of closed-circuit television and video in suicide prevention: narrative review and future directions | |
JP2023039656A (ja) | 事例検索装置、方法及びプログラム | |
Vo et al. | Contextual explainable video representation: Human perception-based understanding | |
CN110765314A (zh) | 一种视频语义结构化提取与标注的方法 | |
CN116863116A (zh) | 基于人工智能的图像识别方法、装置、设备及介质 | |
Durand et al. | Utilizing deep object detector for video surveillance indexing and retrieval | |
US20230076241A1 (en) | Object detection systems and methods including an object detection model using a tailored training dataset | |
KR20190064288A (ko) | 스케치 기반의 영상표절 검사 방법 및 장치 | |
Klempous et al. | Review of algorithms for tag detection in video sequences | |
WO2023281897A1 (ja) | 映像監視システム及び映像監視方法 | |
Pawar et al. | Recognize Objects for Visually Impaired using Computer Vision | |
Anitha Rani et al. | Human activity recognition on multivariate time series data: a technical review | |
Nouyed et al. | Face detection on surveillance images | |
Tao et al. | University of Missouri-Kansas City TRECVID 2022 DSDI Track | |
Diem et al. | Interpretable video representation | |
JP2023119287A (ja) | 映像検索システム、映像検索方法およびコンピュータプログラム | |
Loufakis et al. | Employing Deep Learning Framework to Support Location Management for the Audio-Visual Industry | |
Prasomphan | Feature Extraction for Image Content Retrieval in Thai Traditional Painting with SIFT Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240202 |