JP2023119287A - 映像検索システム、映像検索方法およびコンピュータプログラム - Google Patents
映像検索システム、映像検索方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2023119287A JP2023119287A JP2022022102A JP2022022102A JP2023119287A JP 2023119287 A JP2023119287 A JP 2023119287A JP 2022022102 A JP2022022102 A JP 2022022102A JP 2022022102 A JP2022022102 A JP 2022022102A JP 2023119287 A JP2023119287 A JP 2023119287A
- Authority
- JP
- Japan
- Prior art keywords
- search
- video
- queries
- unit
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004590 computer program Methods 0.000 title claims abstract description 10
- 238000003058 natural language processing Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000037308 hair color Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
【課題】ユーザの使い勝手が高い映像検索システム、映像検索方法およびコンピュータプログラムを提供すること。【解決手段】映像検索システム1は、検索対象について自然言語で表現された検索対象情報を取得する取得部11と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部12と、生成された複数の検索クエリにより映像データベース15を検索する検索部14と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部16とを備える。【選択図】図1
Description
本発明は、映像検索システム、映像検索方法およびコンピュータプログラムに関するものである。
駅や空港などの公共施設、商業施設、アミューズメント施設などでは、多数の監視カメラが設置されており、それら多数の監視カメラで撮影された映像を活用して警備業務が行われている。現場警備員による目撃情報または警察などからの事前情報を元に、迅速に監視映像中から該当の人物または物体を発見するために、監視映像を解析して検索可能にする映像検索システムが考えられる。
ここで、映像データをテキストデータにより検索する映像検索システムを想定し、この映像検索システムを用いて施設を警備する場合を考える。以下に述べる想定例は、公知の背景技術として述べるものではなく、想定された比較例として述べるものである。
例えば、施設内の警備室に監視員が在室しており、一人または複数の警備員が施設内を巡回しているとする。不審者が出現すると、警備員は現場に駆けつけて付近の人間から目撃情報を聞き取り、監視員に伝える。監視員は、警備員から目撃情報を聞きとり、不審者の属性情報を検索クエリタグとして指定することにより、監視カメラで撮影された映像を検索する。
属性情報とは、対象人物(ここでは不審者)の服装の色および種別、年齢、性別などである。検索クエリタグとは、属性情報に対応する選択項目である。このように、背景技術ではない想定例では、ユーザが自然言語の情報を元に検索クエリタグを検討して指定する必要があると考えられる。
一方、ウェブ検索では、自然言語で検索クエリを指定可能な検索システムが実用化されている。例えば、特許文献1では、オントロジ(辞書)等を活用して、自然言語のクエリを適切なタグに変換する方法が開示されている。
特許文献1では、「自然言語画像検索について記載する。例えば、これによって、オントロジの概念(概念の階層を含んでもよい)である画像タグが自動的にタグ付けされた画像のストアから画像を引き出すために、自然言語クエリを使用することができる。種々の例において、自然言語クエリを複数の画像タグの内1つ以上にマッピングし、マッピングされたクエリが引き出しのために使用される。」と要約に記載されている。特許文献1の方法は、主としてウェブ上のコンテンツ検索を前提としており、ユーザの指定した自然言語表現に関連する対象を広く見つけ出すことを目的としている。
一方で、上述の想定例(背景技術ではない)では、検索により見つけたい対象は特定の人物または物体であり、限定的である。したがって、検索結果に期待する画像イメージが概ね確定している映像監視システムに、自然言語の検索対象情報を元に検索タグ(画像タグ)を生成して検索する特許文献1を仮に適用することができたとしても、監視業務に使用可能な精度を得られないと考えられる。
本開示の目的は、ユーザの使い勝手が高い映像検索システム、映像検索方法およびコンピュータプログラムを提供することにある。
上記課題を解決すべく、本発明の一つの観点に従う映像検索システムは、検索対象について自然言語で表現された検索対象情報を取得する取得部と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、生成された複数の検索クエリにより映像データベースを検索する検索部と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部とを備える。
本発明によれば、検索対象情報から複数の検索クエリを生成して映像データベースを検索し、それら検索結果に基づいて複数の検索クエリを順位付けして評価できる。
以下、図面に基づいて、本発明の実施の形態を説明する。本開示に係る映像検索システムは、自然言語により指定された検索クエリの表現または着眼点に揺らぎがある場合でも、ユーザの期待する映像の検索結果を提供することができる。
ここで、目撃者の話を現場に駆けつけた警備員が聴取し、その聴取結果を電話や無線機などで監視員に伝達し、監視員が警備員からの情報に基づいて、監視カメラで撮影した映像を記憶するデータベースを検索する例を検討する。この例は、本開示の優位性を示すための比較例であり、背景技術ではない。
比較例は複数の課題を有すると考えられる。第1に、視覚情報の認知または認識と視覚情報の言語化とにはそれぞれ個性が反映されるため、異なる人物が同じ対象を見ても同じように表現するとは限らない。したがって、目撃者による対象(不審者など)の表現方法と、目撃者から目撃情報を聞き取った警備員または監視員が目撃者から聞き取った言葉の意味を解釈して検索クエリタグ(検索クエリ項目)に変換することとの間には、意味解釈の差異がある。
第2に、監視カメラの撮影した映像を検索するためのデータベースを構築する映像解析処理では、カメラと人物の位置関係、カメラ映像上での人物サイズ、解像度、映像解析手法の精度などの各種制約を有するため、画像毎に映像解析結果に違いが生じる。
例えば、青いジーンズを履いている人物がいる場合に、その人物の掃いているズボンがジーンズであると認識できる場合もあれば、下半身に青色の服を着ていることのみ認識できる場合もある。この場合、監視員などのユーザが、発見対象者を「ジーンズを履いている人」と表現すると、ジーンズを掃いた人物が映っていると認識された画像のみが検索され、下半身が青い服装であると認識された画像は検索されない。下半身が青い服装であると認識された画像内に発見対象者が映っている場合、ユーザは、その画像を見逃してしまうことになる。
このように、映像監視システムに使用される映像検索システムは、キーワードに関連する画像を広く集めるために使用されるのではなく、特定の対象(人間または荷物など)をピンポイントで検索するために使用される。映像監視システムに使用される映像検索システムは、上述の通り、検索により発見したい対象が限定的であり、かつ、警備員や目撃者の話に基づいて自然言語で表現された検索クエリを使用して対象を検索する。このため、映像検索システムには、自然言語によって検索対象を表現する際に生じる表現内容と実際の発見対象の間に生じる差異と、映像検索に使用するデータベースを構築する際に生じる映像解析によって生じる映像解析結果と実際の映像の間に生じる差異とを補償する必要がある。
そこで、本開示に係る映像検索システムは、検索対象について自然言語で表現された検索対象情報を取得する取得部と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、生成された複数の検索クエリにより映像データベースを検索する検索部と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部とを備える。
本開示に係る映像検索システムによれば、ユーザが自然言語で表現した検索対象の情報から複数の検索クエリを生成し、検索結果を元に有意な検索クエリを評価し、ユーザが期待すると想定される検索結果を優先的に提示することが可能となる。これにより、ユーザが入力した検索対象の情報の表現の揺らぎの解消と、複数の検索クエリの生成から予想される検索結果の閲覧負荷の増大防止とを両立することができる。
さらに、本開示の映像検索システムには、巡回中の警備員がスマートフォンなどの音声入力機能を使用して自然言語で検索クエリを入力することもできる。したがって、警備員は、監視員を介さずに現場から映像データベースを検索して、検索結果をただちに確認することができる。これにより、警備業務の信頼性と使い勝手が向上する。
図1~図9を用いて第1実施例を説明する。本開示では、映像検索システム10は、音声クエリまたはテキストクエリを元にタグのリストを複数導出し、それぞれのタグのリスト毎にタグのリストをクエリとしてカメラ映像の映像解析結果を構成要素とする映像データベースに対する映像検索を実施し、最も良い映像検索結果が得られるタグのリストとそのタグのリストをクエリとする映像検索結果とをユーザへ提示する。本開示によると、ユーザが音声入力またはテキスト入力により、発見したい対象に関する検索対象情報を入力すると、映像検索システム10は、検索対象情報(検索クエリ)の不完全性と映像データベースの不完全性とを補完する映像検索結果を提示することができる。
図1は、映像監視システム1の全体構成を示す概要図である。図1に示すように、映像監視システム1は、例えば、映像検索システム10と、映像解析システム20と、撮影システム30と、映像管理システム40とを備える。
映像監視システム1は、例えば、施設内を巡回する警備員U1と、警備員U1からの連絡で映像を検索し、その結果を警備員へ知らせる監視員U2とにより使用される。以下、映像検索システム10の幾つかの使用形態を述べる。以下の使用形態のいずれを採用してもよい。警備員U1を第1ユーザ、監視員U2を第2ユーザと呼ぶこともできる。
図1では、一人の警備員U1と一人の監視員U2を示すが、複数の警備員U1と一人の監視員U2が本開示に含まれてもよいし、複数の警備員U1と複数の監視員U2とが本開示に含まれてもよい。さらには、警備員U1は自動で巡回するロボット警備員でもよく、ロボット警備員の周囲の人物(施設内の従業員または訪問者など)が映像検索システム10を利用可能としてもよい。
第1の使用形態では、警備員U1が現場で情報を収集し、収集した情報を警備員端末dv1により監視員U2に伝える(S1A)。警備員端末dv1は、警備員U1の使用する端末であり、例えば、携帯電話(いわゆるスマートフォンを含む。以下同じ。)、無線機などである。
警備員U1から検索依頼を受けた監視員U2は、監視員端末dv2を用いて映像検索システム10へアクセスし、映像データベース15を検索し、その結果を監視員端末dv2から警備員U1の所持する警備員端末dv1に通知する(S2)。監視員U2から警備員U1への検索結果の通知は、例えば、発見対象(人物または荷物など。以下同じ。)の発見された場所を音声メッセージまたはテキストメッセージで行われる。検索結果に含まれる映像の一部または全部を監視員U2が選択し、それら選択された映像のデータを警備員U1の所持する端末dv1へ送信してもよい。
第2の使用形態では、警備員U1が警備員端末dv1を用いて映像検索システム10に直接アクセスし、映像データベース15を検索する(S1B)。警備員U1は、監視員U2を介さずに映像データベース15を検索できるため、第1の使用形態に比べると、異常が検知されてから映像を検索するまでの時間を短縮できる。
映像解析システム20は、撮影システム30または映像管理システム40のうち少なくともいずれか一方を利用できればよい。ここでは、映像解析システム20は、撮影システム30および映像管理システム40を利用できる例を説明する。
映像監視システム1の通信接続の例を説明する。例えば、映像解析システム20は、撮影システム30および映像管理システム40と通信手段CN1により接続される。映像解析システム20と映像検索システム10は、通信手段CN2により接続される。映像検索システム10と警備員端末dv1および監視員端末dv2は、通信手段CN3により接続される。
通信手段CN1~CN3は、有線通信手段または無線通信手段のいずれでもよい。通信手段CN1~CN3は、インターネットのような通信ネットワークでもよいし、専用ネットワークでもよい。
映像検索システム10と映像解析システム20および映像管理システム40は、それぞれ個別のコンピュータに設けられてもよいし、あるいは同一のコンピュータに設けられてもよい。すなわち、システム10,20,40のうちいずれか2つまたは全部は、同一のコンピュータに実装されてもよい。システム10,20,40の設けられるコンピュータは、警備対象施設の運営会社または警備会社の社内に設置されるいわゆるオンプレミスのコンピュータとして構成されてもよいし、クラウド上に存在してもよい。
映像解析システム20は、撮影システム30または映像管理システム40から入力される映像を解析し、その解析結果を映像検索システム10の映像データベース15に登録する。映像検索システム10は、ユーザから入力される映像検索用のクエリを受け付け、その検索クエリを元に複数の検索クエリを自動生成し、好適な検索結果が得られる検索タグのリスト(以下、タグリストと記載)を評価し、推薦タグリストとそのタグリストによって得られる検索結果とをユーザへ提示する。
以下、撮影システム30、映像管理システム40、映像解析システム20、および映像検索システム10について詳細に説明する。
撮影システム30は、一つ以上のカメラ31を含んでいる。カメラ31で撮像された映像は、映像解析システム20の映像入力部22へ送信される。カメラ31は、固定型の監視カメラ、PTZ(パン・チルト・ズーム)対応の監視カメラ、三脚などに取り付けられた可搬型の監視カメラまたはPTZカメラ、ドローンまたは航空機または衛星などに取り付けられた空撮カメラ、スマートフォンのカメラ、デジタルカメラなどのいずれであってもよく、形式を問わない。カメラ31は、RGBカメラ(カラー映像撮影用カメラ)であってもよいし、IR(赤外線)カメラまたはサーマルカメラであってもよい。
映像管理システム40は、VMS(Video Management Software)41を含む。VMS41は、映像を記録して管理し、映像入力部22のリクエストに応じて映像を映像解析システム20へ配信する。VMS41は、カメラ31と接続されていてもよいし、本実施例のカメラ31以外の図示せぬカメラと接続されてもよい。
なお、VMS41は、レコーダであってもよい。VMS41は、コンピュータに記憶された映像データのファイルでもよい。VMS41が映像の配信機能を持たない場合、映像入力部22が映像管理システム40内のファイルの保存場所に直接アクセスして、映像を取得する。
映像解析システム20は、映像入力部22と映像解析部21を含む。映像入力部22は、カメラ31またはVMS41から、動画像または時系列に連続する複数の静止画像の入力を受け付ける。映像入力部22は、受け付けた映像(画像とも呼ぶ)を時系列に連続する画像へデコードし、映像解析部21へ順次画像を送信する。あるいは、映像入力部22は、ウェブで公開されているライブカメラの映像、または、動画配信サイトで公開されている映像を受け付けてもよい。
映像解析部21は、映像入力部22の受け付けた画像に対して、検知処理、追跡処理、属性推定処理、特徴抽出処理、人物行動認識処理、関係性推定処理などの映像解析処理を実施し、映像解析結果を映像データベース15へ送信する。
検知処理とは、画像中の人物または物体について、その位置、範囲および領域を特定する処理である。追跡処理とは、検知処理により特定された人物または物体を、時系列に連続する画像間で同定し、個々の人物または物体の移動軌跡を特定する処理である。
属性推定処理とは、人物または物体の属性を推定する処理である。人物に関する属性とは、服装の種類、複数の色、髪型、髪の色、アクセサリの種類、性別、年齢などである。物体に関する属性とは、物体の種類、形状、色などである。
特徴抽出処理とは、検知処理により特定された人物または物体に関する画像特徴を抽出する処理である。画像特徴とは、画像を表す数値列、つまり、特徴ベクトルである。特徴抽出処理は、いわゆるHaar, HOG, SIFTなどの処理でもよいし、あるいは、深層ニューラルネットワークをエンコーダとして使用して特徴ベクトルを算出する処理でもよい。
人物行動認識処理とは、人物行動を推定する処理である。人物行動とは、例えば、走る、殴る、蹴る、しゃがみこむ、倒れる、万引きする、運転する、など人のあらゆる行動を指す。関係推定とは、人と人、人と物体などの、複数の対象間における関係性を推定する処理である。例えば、人と人の関係性とは、例えば、友人同士なのか、家族なのかといった関係である。人と物体の関係性とは、例えば、人が物体を所有しているか否かという内容である。
映像検索システム10は、例えば、入力部11、自然言語処理部12、オントロジ13、検索部14、映像データベース15、検索結果評価部16、提供部17を含む。
入力部11は、例えば、キーボード、マウス、タッチパネル、マイクロフォンなどである。ユーザは、入力部11を用いて、検索対象情報を音声またはテキストとして映像検索システム10へ入力できる。入力部11は、音声を受け付けた場合は、その音声をテキストデータへ変換し、変換されたテキストデータ(以下、テキスト)を自然言語処理部12へ送信する。
自然言語処理部12は、入力部11から検索対象情報としてのテキストを受け付けると、検索クエリとなる検索タグのリストを複数推定し、推定された複数の検索タグのリストを検索部14へ送信する。自然言語処理部12は、検索対象情報から複数のリストを生成する。複数のリスト(検索タグリスト)は、それぞれ複数の検索タグを有する。
検索部14は、自然言語処理部12から受け付けた複数の検索タグリストを用いて、映像データベース15を検索し、検索結果を検索結果判定部へ送信する。
映像データベース15は、映像解析部21から受け付けた映像解析結果をデータベースとして蓄積している。検索結果評価部16は、検索部14から、複数の検索タグリストと複数の検索タグリストをそれぞれ検索クエリとする検索結果とを受け付け、それら検索結果を元に、複数の検索タグリストの優劣を評価する。
提供部17は、各検索タグリストによる検索結果と各検索タグリストの評価結果とを、検索部14および検索結果評価部16から受け取り、ユーザへ提供する。ユーザへの検索結果および評価結果の提供は、代表的にはモニタディスプレイに情報を表示することにより実現される。静止画像、動画像、グラフィックス、音声、テキストを適宜組み合わせて、検索結果および評価結果をユーザへ提供することができる。
オントロジ13は、自然言語処理部12が参照するオントロジを保持する。
図2は、映像検索システム10のハードウェア構成を示す。映像検索システム10は、例えば、プロセッサ(図中、CPU)101、メモリ102,通信インターフェース(図中、通信IF)103、ユーザインターフェース(図中、UI)を備える。メモリ102は、主記憶装置および補助記憶装置を含む。メモリ102には、入力部11、自然言語処理部12、オントロジ13、検索部14,映像データベース15、検索結果評価部16、提供部17を実現するためのコンピュータプログラムおよびデータが記憶される。
メモリ102に格納されたコンピュータプログラムおよびデータの全部または一部を、記憶媒体MMに転送して記憶させることもできる。記憶媒体MMを図示せぬ他の計算機に接続して、記憶媒体MMに記憶されたコンピュータプログラムなどをその計算機へ転送することもできる。記憶媒体MMは、例えば、フラッシュメモリデバイスまたはハードディスクドライブなどの、記憶内容を長時間保持できる装置である。
図3~図5を参照して、映像解析部21により構築される映像データベース15の内容について説明する。ここでは、映像解析部21により映像データベース15が構築される場合を例に、映像データベース15の内容を説明する。ユーザが映像検索システム10のみを使用する場合、映像解析部21と映像データベース15とは連携して稼働する必要はない。この場合、映像データベース15は、後述の内容を備えているなら、映像解析部21によって構築される必要はない。
本開示では、映像データベース15は、図3に示す人物ID別テーブルT1、図4に示す物体ID別テーブルT2、図5に示す追跡ID別テーブルT3を格納する。IDとは、識別子の意味である。図3~図5の各テーブルT1~T3では、データの行を2つだけ示しているが、データ数に応じて行が拡張される。テーブルT1~T3は、図示した構成以外の構成でもよい。映像データベース15は、リストまたは辞書などの形式で、図3~図5に示すデータを保持してもよい。
図3に示す人物ID別テーブルT1は、例えば、人物ID C10、カメラID C11、タイムスタンプ C12、領域C13、属性C14-C16、関連ID C17、人物画像特徴 C18を保持する。
人物ID C10は、映像データベース15内において人物を一意に特定する固有のIDである。複数のカメラに登場する人物に対しても、原則固有のIDである。カメラID C11は、カメラ31に固有のIDである。ユーザは、カメラID C11から、各カメラの機種および場所などを特定可能である。映像データベース15がカメラ31ではなくVMS41からの映像を受け付けた場合、カメラID C11には、VMS41から取得したカメラIDを格納する。VMS41がレコーダや単なるファイルサーバ上の映像ファイルなどの場合は、映像ファイルの特定に必要な情報をカメラIDに格納する。
タイムスタンプ C12は、人物IDで特定される人物を検知した際の時刻であり、日付を含んでもよい。タイムスタンプ C12は、「時:分:秒:ミリ秒」などの、人が把握しやすい表示形態でもよいし、UNIX(登録商標)時刻でもよい。タイムスタンプ C12には、映像の撮影された時刻または映像が解析された時刻などが格納される。映像データベース15が動画ファイルの解析結果を格納する場合、タイムスタンプ C12には、映像の再生時間または映像に埋め込まれた時刻を格納してもよい。
領域C13は、画像中の人物位置を格納する。図3の例では、画像中の人物を囲む矩形を表現するための、矩形左上端点の水平座標および垂直座標と、矩形の幅および高さの画像座標の配列を示す。画像中の人物の位置を特定できる情報であれば、その表現方法を問わない。領域C13は、画像座標ではなく、世界座標(被写体の撮影された実空間における位置を示す二次元座標または三次元座標)で表現されてもよい。
属性C14-C16は、人物の属性に関する情報であり、属性値と確信度とが格納される。属性値は区分を示すIDであってもよいし、ラベルであってもよい。図5では属性として、年齢C14、性別C15、髪型C16を例示したが、これに限らず、上半身の服装の色、上半身の服装の種類、下半身の服装の色、下半身の服装の種類、アクセサリの種類、荷物の種類、荷物の色など、人または人の部分を表現する項目であればよい。
年齢C14の場合、第1行目に「2, 0.9」と記載されているが、属性値が「2」で、確信度が「0.9」であることを示す。これは、年齢をいくつかの区間に分けた場合の、1つの区間に該当することを示しており、かつ、映像解析により年齢の属性値が区間の「2」に該当すると推論した際の確信度が「0.9」であったことを示している。図3では、年齢の区分を示す数値が属性値として表現されているが、「20-60歳」などのように年齢の区間を示すラベルを直接格納してもよい。
関連ID C17は、関係性を示すIDを含む。例えば、人物ID C10が「P001」の場合、関連ID C17には「P102」が登録されている。これは、「P001」で特定される人物と「P102」で特定される人物との間に関係性があった(例えば二人が一緒のグループとして映っていた)ことを示している。
人物ID C10が「P102」の行では、関連ID C17に「O001」が登録されている。これは、「O001」で特定される物体を「P102」で特定される人物が所有していたという所有関係を示している。
人物画像特徴 C18は、人物の画像特徴を示す特徴ベクトル、つまり、画像から算出される人物の特徴を表現する数値列を格納する。
図4に示す物体IDテーブルT2は、例えば、物体ID C20、カメラID C21、タイムスタンプC22、領域C23、物体種別C24、関連ID C25、物体画像特徴C26を保持する。カメラID C21、タイムスタンプC22、領域C23は、人物IDテーブルT1と同様の項目であるため説明を省略する。
物体ID C20は、映像データベース15内において物体を一意に識別する固有のIDである。複数のカメラに登場する物体に対しても原則固有のIDである。
物体種別C24は、物体の種別とその確信度を格納する。図4の例では、「backpack」、「carryback」などのラベルを格納する例を示しているが、ラベルに対応する数値を格納してもよい。
物体画像特徴C26は、物体の画像特徴を示す特徴ベクトル、つまり、画像から算出される物体の特徴を表現する数値列を格納する。
図5に示す追跡ID別テーブルT3は、例えば、追跡ID C30、カメラID C31、タイムスタンプC32、人物IDリストC33、行動C34を保持する。
追跡ID C30は、時系列に連続する画像中の人物を紐づけた人物の追跡結果(移動軌跡)に対応する軌跡に固有のIDである。追跡ID C30は、映像データベース15内において固有のIDであり、複数のカメラ間においても原則重複しない。
タイムスタンプC32は、移動軌跡の開始時点と終了時点のタイムスタンプを含む。
人物IDリストC33は、移動軌跡を構成する各時刻の画像における人物ID(図3の人物IDテーブルT1の項目C10)からなるリストである。人物IDリストC33は、人物ID別テーブルT1と追跡ID別テーブルT3のリンクデータである。
行動C34は、様々な行動に対応する確信度を保有する。図5では、「走る」、「キョロキョロする」などの例を示しているが、人が行ういかなる動作でもよい。
以上の説明において、人物ID C10と物体ID C20と追跡ID C30については、原則固有のIDであり、カメラ間で重複しないと記載した。異なるカメラ間で重複するIDを許容する場合であって、かつ、映像データベース15が複数のカメラで撮影された映像を扱う場合には、これら3種類のIDは、カメラID C11と一体として参照される必要がある。
図6を参照して、映像検索システム10の実行する映像検索処理を説明する。はじめに、ユーザは、入力部11を用いて、検索により発見したい対象の特徴を入力する。ユーザが入力部11であるマイクを使用して、検索対象情報を音声で入力すると(S101)、入力された音声はテキストに変換され、変換されたテキストが検索クエリベースとなる(S102)。ユーザが検索対象情報としてテキスト情報を入力する場合、ステップS101はスキップされて、ステップS102が実行される。
自然言語処理部12は、検索クエリベースを元に、複数の検索クエリを生成する(S103)。本開示における検索クエリとは、検索タグのリストである。検索タグとは、カメラID C11、タイムスタンプC12、領域C13、属性C14-C16、物体種別C24、行動C34などである。
本開示では、ユーザが検索のために入力する問い合わせ文(検索対象情報)を検索クエリベースと表記し、映像検索システム10が内部処理で実際の検索に使用するクエリを検索クエリと表記する。
検索クエリの生成では、検索クエリベースに対して該当する検索タグを識別するいわゆる文分類問題みなすことができ、任意の機械学習手段などにより実施できる。クエリを係り受け解析器などを用いて構文解析したり意味解析したりすることで、解析結果とオントロジ13とを照合し、該当する検索タグを推定することができる。オントロジ13との照合では、テキストの一致のほかに、編集距離、または、語や句などのベクトル表現間の類似性尺度など、様々な類似性尺度を用いることができる。
例えば、ユーザがステップS101で「『ジーンズ姿の人を殴って去っていった中年男性』を検索」と音声入力したとする。ステップS102では、『ジーンズ姿の人を殴って去っていった中年男性』というテキスト情報が検索クエリベースとして映像検索システム10に受け付けられる。
ステップS103では、「上半身の服の種別:ジーンズ, 行動:走る, 性別:男性」、「上半身の服の色:青, 年齢:35-50歳」、「全身の服の色:青またはグレー, 行動:殴る, 性別:男性」などのように、任意の数の検索タグで構成される検索クエリが複数生成される。この例では、「ジーンズ→青やグレーの服」、「殴って去る→走る(走って逃げている)」、「中年→35-50歳」などのように、検索対象情報としての検索クエリベースに含まれる要素から連想される表現の置き換えを行い、複数の検索タグを含む検索タグリストを複数生成する。
このような表現の置き換えは、検索クエリベース中の単語とオントロジ13とを照合することで実現できる。オントロジ13は、映像検索システム10の構築者が予め辞書情報として、表現の置き換えパターンを登録してもよい。または、映像データベース15を使用して学習することで、オントロジ13を構築してもよい。本開示では、オントロジ13の構築方法を問わない。
検索部14は、複数の検索クエリのそれぞれについて(S104)、映像データベース15を検索し、その検索結果を取得する(S105)。例えば、検索クエリが3個の検索タグ(T1,T2,T3)から構成される例を説明する。それぞれの検索タグを含む人物IDと各検索タグに対応する確信度(P’1,P’2,P’3)とが検索部14により取得される。この場合、検索結果は、(人物ID,P’1,P’2,P’3)というデータ集合である。
検索結果評価部16は、検索部14での検索結果について評価し、自然言語処理部12が生成した複数の検索クエリを、好適な検索結果が得られる順に優先度付けする(S20)。検索結果評価部16による検索結果評価処理は、図7で後述する。
提供部17は、評価された検索クエリの優先度を参照して、検索結果のみをユーザに提示したり、または、検索クエリと検索結果をユーザに提示したりする(S30)。ユーザへ提示される情報の例は、図8,9で後述する。検索結果の表示処理の詳細は、第2実施例で述べる。
図7のフローチャートを参照して、検索結果評価部16の実行する検索結果評価処理を説明する。
検索結果評価部16は、はじめに、検索部14から複数の検索クエリとそれぞれに対応する検索結果を受け付け、検索結果毎(S201)に、以下の各ステップS202~S206を実施する。
ステップS202において、検索結果評価部16は、検索結果に含まれる各検索タグに対応する確信度について、閾値フィルタを適用する。検索クエリを(T1,T2,T3)とすると、検索結果は上述の通り、(人物ID,P’1,P’2,P’3)となる。閾値フィルタが適用された確信度を(P1,P2,P3)と表記すると、検索結果から(人物ID,P1,P2,P3)のデータ集合が算出される。ここで、閾値フィルタ済みの確信度Piは、「0」または閾値以上、「1」以下である。
ステップS203において、検索結果評価部16は、追跡IDが重複するデータをマージする。{(人物ID,P1,P2,P3)}のデータ集合は、{(追跡ID,Pt1,Pt2,Pt3)}のデータ集合へ集約される。検索結果評価部16は、追跡IDテーブルT3の追跡ID C30と人物IDリストC33とを参照して、人物IDと追跡IDの関連を取得する。
追跡IDに対しては、複数の画像の人物IDに対応する確信度の集合{P1},{P2},{P3}が得られる。それぞれの確信度についてデータの集合から算出した代表値は、Pt1,Pt2,Pt3である。代表値の算出方法は、集合から一つの値を算出する方法であればいかなる算出方法であっても良い。例えば、最大値、平均値、中央値などで算出してもよい。
ステップS204において、検索結果評価部16は、確信度を元に評価値を算出するための値「Score」を算出する。例えば、「Score」の算出には下記の式1のように確信度のべき乗和を用いる。式1の添え字はiである。
Score=ΣPti
n , n≧1・・・(式1)
そして計算の結果、元の検索結果から{(追跡ID,Score)}のデータ集合が得られる。これらのデータ集合について、検索結果評価部16は、「Score」の昇順ソートを実施し、上位N位までの部分集合を抽出する(S206)。
「Score」の算出に確信度のべき乗和を用いる理由は、確信度の高いタグを含む検索結果の「Score」を高くするためである。例えば、タグが2個でn=3の場合を考える。例えば「Pt1=0.7、Pt2=0.7」の場合、「Score」は約0.69となる。「Pt1=0.9、Pt2=0.4」の場合、「Score」は約0.79となる。つまり、一つだけ確信度の高い項目がある後者の方が「Score」は高くなる。そこで、本開示では、確信度のべき乗を用いることで、一部の要素を削除した方が検索結果が改善するといったケースを低減し、ステップS103における検索クエリの生成数を抑制することができる。
ステップS207において、検索結果評価部16は、複数の検索クエリの検索結果について追跡IDの重複を比較する。
検索結果評価部16は、追跡IDがすべて一致する検索結果の組み合わせがある場合(S208:YES)、それら検索結果についてステップS206で算出された「Score」の全て(上位N位までの「Score」)の総和値をクエリ評価値として算出し、算出されたクエリ評価値の最も高い検索クエリとその検索結果のみを残し、他を削除する(S209)。
ステップS209は、検索結果間で登場する人物(追跡ID)が全て同じであり、それらの人物を極力高い確信度で表現できる検索クエリを選別する処理と言える。追跡IDがすべて一致する検索結果の組み合わせがなければ、ステップS209は実施しない。
ステップS208およびS209の実施後に、検索結果が未だ複数組ある場合(S2110:YES)、検索結果評価部16は、検索結果間で共通する追跡IDを抽出する(S211)。検索結果評価部16は、抽出された追跡IDに関する「Score」の総和値をクエリ評価値として算出し(S212)、クエリ評価値の高い順に検索クエリをソートする(S213)。クエリ評価値の最も高い検索クエリは、推薦クエリとしてユーザに提示される。ユーザは、推薦クエリの検索結果である映像を画面で確認することで、発見したい対象を探索する。
ステップS211~S213の処理は、検索結果のいずれにも登場する人物のみを抽出することで、同一人物をできるだけ高い確信度で表現できる検索クエリを優先する順位付けの処理と言える。ステップS208およびS209の実施後に、検索結果が一つしか残っていない場合、検索結果評価部16は、残った検索結果のみを出力し、ステップS211~S213は実施しない。以上で検索結果評価部16の処理は完了する。
図8及び図9を参照して、検索結果をユーザへ提供する画面例を説明する。図8および図9は、スマートフォンをユーザ端末(警備員端末dv1または監視員端末dv2)として使用する場合のGUI(Graphical User Interface)の例を示す。
図8は、検索画面の例である。図8の検索画面は、ステップS20およびS213で得られた検索結果のうち第一位の検索クエリおよびその検索結果を表示する例である。図9は、複数の検索クエリと、複数の検索クエリのうち選択された検索クエリの検索結果とを表示する例である。
図8について説明する。スマートフォン画面G11には、例えば、マイクボタンG12、テキストボックスG13、検索クエリ表示部G14、検索結果表示部G15、カメラ画像G16、人物矩形G17、人物拡大画像G18が表示される。
ユーザがマイクボタンG12をタップすると、マイク入力の受付が開始され(図6のステップS101)、入力部11が受け付けたユーザの音声がテキスト化され検索クエリベースとして受け付けられ(図6のステップS102)、テキストボックスG13に表示される。あるいは、ユーザは、テキストボックスG13に直接、検索クエリベースとなるテキストをキーボードなどから入力してもよい。
ステップS103で述べた通り、テキストボックスG13に表示された検索クエリベースに対応する複数の検索クエリが生成され、それら複数の検索クエリを用いて映像データベース15が検索される。複数の検索クエリの検索結果は、図7の処理(S20)で評価される。評価された順位のうち第一位の検索クエリは、検索クエリ表示部G14に表示される。図8の例では、「男性」、「ジーンズ」、「35歳から55歳」、「走っている」といった検索タグを有する検索クエリが最も評価の高い検索クエリ(推薦クエリ)として表示されている。
検索クエリ表示部G14に表示された検索クエリに対応する検索結果が、検索結果表示部G15に表示される。検索結果表示部G15には、例えば、カメラ画像G16、人物矩形G17、人物拡大画像G18、ランキング順位G19、追跡ID G20などが表示される。
検索結果表示部G15では、ランキング順位に沿って、複数の検索結果表示される。図8では、第3位までの検索結果が表示されているが、例えばユーザのスワイプ操作によって縦方向に画面をスクロールさせることで、ランキング下位の検索結果を表示させることもできる。
カメラ画像G16には、検索結果の人物が登場する画像が表示される。カメラ画像G16には、カメラIDおよび撮影時刻がオーバーレイ表示されてもよい。
検索結果の人物については、カメラ画像G16上で検索結果の人物を明確に識別して視認するための人物矩形G17がオーバーレイ表示されるとともに、人物矩形G17内の人物を拡大した画像G18が表示される。図中では記載を省略するが、ステップS206で算出された「Score」が検索結果表示部G15に表示されてもよいし、検索クエリ表示部G14に検索クエリの評価値である「Score」の総和値が検索クエリとともに表示されてもよい。
なお、カメラIDおよび撮影時刻(解析時刻)が、検索結果評価部16から出力される情報には含まれない場合、提供部17は、映像データベース15を参照して取得することができる。
ユーザがカメラ画像G16をタップすると、図示を省略するがポップアップ画面が表示され、追跡ID510の人物の映っているシーン(映像クリップ)が再生される。
図9について説明する。図8と同様の箇所については説明を省略する。検索クエリ選択部G31には、ステップS103で生成された複数の検索クエリが、順位付けの評価順に表示されている。図9の左側がランキング上位の検索クエリであり、右側にいくほどランキンが下がる。
選択中の検索クエリは、太枠G32などにより選択中であることが明示される。選択された検索クエリに対応する検索結果は、検索結果表示部G15に表示される。ユーザは、検索クエリ選択部G31をスワイプしたり、検索クエリスライドボタンG33をクリックしたりすることで、ランキング下位の検索クエリを表示させることができる。
検索クエリ選択部G31における検索クエリのランキングは、ステップS213で算出された推薦順である。再生済みコンテンツ非表示ボタンG34をチェック状態に選択すると、検索クエリ選択部G31で検索クエリを切り替えた際に、ユーザは、カメラ画像G16を押して、再生済みの検索結果を削除して検索結果を表示させることができる。あるいは、異なる検索クエリにおいて、検索結果表示部G15に表示済みの検索結果を削除して表示させることもできる。本機能の搭載により、ユーザは、極力少ない検索結果の確認時間で所望の検索結果にたどり着くことが可能となる。重複する検索結果を除いて表示させる処理の例は、後述する。
図8,図9では、スマートフォンの画面で開いたウェブブラウザでの表示例を記載したが、パーソナルコンピュータまたはタブレット端末などのウェブブラウザ上で検索結果を表示してもよい。タッチスクリーンが無い場合には、スワイプをマウス操作などにより行うことができる。
このように構成される本実施例によれば、使い勝手のよい映像検索システム、映像検索方法およびコンピュータプログラムを得ることができる。
本実施例によれば、自然言語により指定された検索クエリの表現または着眼点に揺らぎがある場合でも、検索対象情報から複数の検索クエリを生成して映像を検索できるため、目撃者または検索依頼者(伝達者)による言語表現または着眼点の揺らぎを吸収して、適切な検索クエリをユーザへ提供することができる。
図10を用いて第2実施例を説明する。図10は、検索結果の表示処理を示すフローチャートである。
映像検索システム10の提供部17は、上述の通り、重複した検索結果を除外し、ユーザが未だ確認していない新規な検索結果のみをユーザへ提供することができる。
提供部17は、ユーザにより表示させる検索クエリが切り替えられたか判定し(S301)、検索クエリが切り替えられたと判定すると(S301:YES)、再生済みコンテンツを表示しないモードであるか判定する(S302)。再生済みコンテンツを表示しないモードとは、既に表示された検索結果と同一の検索結果を表示しないモードであり、以下、再生済みコンテンツの非表示モードとも呼ぶ。再生済みコンテンツの非表示モードは、ユーザが選択可能である。再生済みコンテンツの非表示モードが選択されていない場合、既に表示された検索結果と同一の検索結果であっても表示される。
提供部17は、再生済みコンテンツの非表示モードが選択されていると判定すると(S302:YES)、表示対象の検索クエリの検索結果を取得し(S303)、既に再生されたコンテンツ(検索結果)を確認して、表示対象から除外する(S304)。
提供部17は、検索結果のコンテンツのうち表示対象として残っているものをユーザの端末画面へ表示し(S305)、ユーザ操作からコンテンツが再生されたことを判定し、再生されたコンテンツを記憶する(S306)。
提供部17は、ユーザが検索結果の表示終了を選択すると(S307:YES)、本処理を終了し、そうではない場合(S307:NO)、ステップS301へ戻る。なお、検索クエリが切り替えられていない場合(S301:NO)または再生済みコンテンツの非表示モードが選択されていない場合(S302:NO)、ステップS305へ移る。
このように構成される本実施例も第1実施例と同様の作用効果を奏する。本実施例では、既に表示された検索結果を表示せず、ユーザに確認されていない検索結果をユーザへ提供するため、ユーザは、効率的かつ速やかに、適切な検索結果を得ることができる。したがって、映像監視システム1などの発見したい対象が特定されている用途において、監視性能および信頼性を向上させることができる。一般的なウェブ検索の場合、広く網羅的に検索結果をユーザへ提供するため、監視対象(発見したい対象)を効率的に探し出すことは難しい。これに対し、本実施例では、一度ユーザが確認し、不要と判断したであろう検索結果を除外することができるため、速やかに監視対象を発見できる。
図11は、第3実施例によるスマートフォンの画面G41を示す。本実施例の検索画面では、検索クエリに含まれる検索タグを手動で調整できるようにしている。
本実施例の検索画面は、マイクG42、入力窓G43、検索ボタンG44、検索クエリG45を含む。さらに、検索画面は、発見対象を探す場所、発見対象を探す時間帯などを指定する指定部G46を備える。場所は、カメラIDで特定してもよいし、施設内の区画を示す番号などで特定してもよい。
さらに、検索画面は、検索タグを手動で設定する手動設定部G47を備える。手動設定部G47では、例えば、「行為」、「性別」、「髪の色」、「体型」、「アクセサリ」、「服装(上)」、「服装(下)」、「手荷物」、「年齢」などの検索タグごとにユーザが手動で設定することができる。
このように構成される本実施例も第1実施例と同様の作用効果を奏する。本実施例は第1実施例だけでなく、第2実施例とも結合させることができる。本実施例によれば、検索対象情報(検索クエリベース)を元に自動生成された複数の検索クエリの一部または全部について、検索タグを手動で調整することができる。したがって、映像検索システム10の使い勝手がさらに向上する。
なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
1:映像監視システム1、10:映像検索システム、11:入力部、12:自然言語処理部、13:オントロジ、14:検索部、15:映像データベース、16:検索結果評価部、17:提供部、20:映像解析システム、30:撮影システム、40:映像管理システム
Claims (13)
- 映像を検索する映像検索システムであって、
検索対象について自然言語で表現された検索対象情報を取得する取得部と、
前記取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、
前記生成された複数の検索クエリにより映像データベースを検索する検索部と、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを評価して順位付けする検索結果評価部と
を備える
映像検索システム。 - 前記検索部による前記複数の検索クエリについての検索結果と、前記検索結果評価部による前記複数の検索クエリの評価結果とを対応付けて、前記検索対象情報を出力したコンピュータ端末へ提供する提供部をさらに備える
請求項1に記載の映像検索システム。 - 前記複数の検索クエリは、それぞれ複数の検索タグを含んでおり、
前記検索部は、前記複数の検索クエリ毎に、前記複数の検索タグに対応する確信度を前記検索結果の一部として取得し、
前記検索結果評価部は、前記複数の検索クエリ毎に、前記複数の検索タグの確信度に基づいて前記検索結果の評価値を算出する
請求項1に記載の映像検索システム。 - 前記検索結果評価部は、前記算出された評価値の昇順に前記複数の検索クエリを順位付けすることにより評価する
請求項3に記載の映像検索システム。 - 前記映像データベースは、各画像を識別する追跡識別子ごとに前記検索結果を管理するためのデータを保持しており、
検索結果評価部は、複数の検索クエリのそれぞれについて、前記追跡識別子ごとに検索結果を集約し、前記検索タグに対応する前記確信度の総和から前記評価値を算出し、算出された評価値の降順で、任意の順位までの検索結果として抽出する
請求項3に記載の映像検索システム。 - 前記映像データベースは、各画像を識別するための追跡識別子と映像とを対応付けて管理しており、
検索結果評価部は、前記複数の検索クエリの検索結果に含まれる追跡識別子を比較し、前記追跡識別子がすべて一致する検索クエリの組合せが存在する場合は、検索結果の個々のデータの確信度からスコアを算出し、前記各データについて算出されたスコアの総和値を検索クエリの評価値として算出する
請求項3に記載の映像検索システム。 - 前記検索結果評価部は、前記算出された評価値の最も高い検索クエリ以外の検索クエリを削除する
請求項4に記載の映像検索システム。 - 前記検索結果評価部は、前記複数の検索クエリの検索結果について共通する追跡識別子を抽出し、それぞれの検索結果について、前記抽出された追跡識別子に該当する検索結果の個々のデータの確信度からスコアを算出し、前記算出された各スコアの総和値を検索クエリの評価値として算出し、評価値の高い順に検索クエリを推薦する
請求項3に記載の映像検索システム。 - 前記提供部は、前記検索結果評価部が第1位と評価した検索クエリとその検索結果のみを前記コンピュータ端末へ提供する
請求項2に記載の映像検索システム。 - 前記提供部は、前記検索結果評価部が第1位と評価した検索クエリとその検索結果を前記コンピュータ端末へ提供するとともに、前記検索結果評価部が第2位以下と評価した検索クエリを検索クエリの候補として前記提供する
請求項2に記載の映像検索システム。 - 前記提供部は、検索クエリが切り替えられると、当該検索クエリの検索結果のうち、既に前記コンピュータ端末へ提供された検索結果を除いて、前記コンピュータ端末へ提供する
請求項2に記載の映像検索システム。 - 計算機を用いて映像を検索する映像検索方法であって、
検索対象について自然言語で表現された検索対象情報を取得し、
前記取得された検索対象情報から複数の検索クエリを生成し、
前記生成された複数の検索クエリにより映像データベースを検索し、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを順位付けして評価し、
前記複数の検索クエリについての検索結果と、前記複数の検索クエリの評価結果とを対応付けて、前記検索対象情報を出力したコンピュータ端末へ提供する
映像検索方法。 - 計算機を映像検索システムとして機能させるためのコンピュータプログラムを記憶する記憶媒体であって、
前記計算機に、
検索対象について自然言語で表現された検索対象情報を取得する取得部と、
前記取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、
前記生成された複数の検索クエリにより映像データベースを検索する検索部と、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを順位付けして評価する検索結果評価部と
を実現させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022022102A JP2023119287A (ja) | 2022-02-16 | 2022-02-16 | 映像検索システム、映像検索方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022022102A JP2023119287A (ja) | 2022-02-16 | 2022-02-16 | 映像検索システム、映像検索方法およびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023119287A true JP2023119287A (ja) | 2023-08-28 |
Family
ID=87763446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022022102A Pending JP2023119287A (ja) | 2022-02-16 | 2022-02-16 | 映像検索システム、映像検索方法およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023119287A (ja) |
-
2022
- 2022-02-16 JP JP2022022102A patent/JP2023119287A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8959082B2 (en) | Context-sensitive query enrichment | |
JP5523900B2 (ja) | 人物検索装置、人物検索方法、及び人物検索プログラム | |
US7707162B2 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
JP5674406B2 (ja) | 自律移動体を用いた監視システム、監視装置、自律移動体、監視方法、及び監視プログラム | |
JP5358083B2 (ja) | 人物画像検索装置及び画像検索装置 | |
US20130106892A1 (en) | Context-sensitive query enrichment | |
JP5590945B2 (ja) | 人物検索装置、人物検索方法、及び人物検索プログラム | |
KR101649322B1 (ko) | 이미지에서 텍스트로 및 텍스트에서 이미지로 연관시키기 위한 시스템 및 방법 | |
CN106031165B (zh) | 管理视频监视系统的方法、系统和计算机可读介质 | |
CN101489073B (zh) | 信息处理装置以及信息处理方法 | |
US20170034483A1 (en) | Smart shift selection in a cloud video service | |
JP2011244043A (ja) | 映像記録再生装置 | |
JP2023129429A (ja) | 情報処理装置、情報処理方法及びプログラム | |
EP3570207A1 (en) | Video cookies | |
US20230196769A1 (en) | Posting support apparatus, and posting support method | |
JP2023119287A (ja) | 映像検索システム、映像検索方法およびコンピュータプログラム | |
JP2010257450A (ja) | 人物検索装置、人物検索方法、及び人物検索プログラム | |
JP7512239B2 (ja) | 事例検索装置、方法及びプログラム | |
JP2013061733A (ja) | 時系列データから興味深いパタンを発見する装置 | |
JP2012049774A (ja) | 映像監視装置 | |
JPH08235198A (ja) | マルチメディア情報管理システム | |
JP2022133547A (ja) | 映像解析システム、及び映像解析方法 | |
US20220083596A1 (en) | Information processing apparatus and information processing method | |
WO2023281897A1 (ja) | 映像監視システム及び映像監視方法 | |
JP2023064238A (ja) | 計算機システム及び運動を行う人の身体動作の分析方法 |