JP2023119287A

JP2023119287A - 映像検索システム、映像検索方法およびコンピュータプログラム

Info

Publication number: JP2023119287A
Application number: JP2022022102A
Authority: JP
Inventors: 健一森田; Kenichi Morita; 太亮尾崎; Hiroaki Ozaki; 智明吉永; Tomoaki Yoshinaga
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2023-08-28

Abstract

【課題】ユーザの使い勝手が高い映像検索システム、映像検索方法およびコンピュータプログラムを提供すること。【解決手段】映像検索システム１は、検索対象について自然言語で表現された検索対象情報を取得する取得部１１と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部１２と、生成された複数の検索クエリにより映像データベース１５を検索する検索部１４と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部１６とを備える。【選択図】図１

Description

本発明は、映像検索システム、映像検索方法およびコンピュータプログラムに関するものである。

駅や空港などの公共施設、商業施設、アミューズメント施設などでは、多数の監視カメラが設置されており、それら多数の監視カメラで撮影された映像を活用して警備業務が行われている。現場警備員による目撃情報または警察などからの事前情報を元に、迅速に監視映像中から該当の人物または物体を発見するために、監視映像を解析して検索可能にする映像検索システムが考えられる。

ここで、映像データをテキストデータにより検索する映像検索システムを想定し、この映像検索システムを用いて施設を警備する場合を考える。以下に述べる想定例は、公知の背景技術として述べるものではなく、想定された比較例として述べるものである。

例えば、施設内の警備室に監視員が在室しており、一人または複数の警備員が施設内を巡回しているとする。不審者が出現すると、警備員は現場に駆けつけて付近の人間から目撃情報を聞き取り、監視員に伝える。監視員は、警備員から目撃情報を聞きとり、不審者の属性情報を検索クエリタグとして指定することにより、監視カメラで撮影された映像を検索する。

属性情報とは、対象人物（ここでは不審者）の服装の色および種別、年齢、性別などである。検索クエリタグとは、属性情報に対応する選択項目である。このように、背景技術ではない想定例では、ユーザが自然言語の情報を元に検索クエリタグを検討して指定する必要があると考えられる。

一方、ウェブ検索では、自然言語で検索クエリを指定可能な検索システムが実用化されている。例えば、特許文献１では、オントロジ（辞書）等を活用して、自然言語のクエリを適切なタグに変換する方法が開示されている。

特許第６４８７９４４号公報

特許文献１では、「自然言語画像検索について記載する。例えば、これによって、オントロジの概念（概念の階層を含んでもよい）である画像タグが自動的にタグ付けされた画像のストアから画像を引き出すために、自然言語クエリを使用することができる。種々の例において、自然言語クエリを複数の画像タグの内１つ以上にマッピングし、マッピングされたクエリが引き出しのために使用される。」と要約に記載されている。特許文献１の方法は、主としてウェブ上のコンテンツ検索を前提としており、ユーザの指定した自然言語表現に関連する対象を広く見つけ出すことを目的としている。

一方で、上述の想定例（背景技術ではない）では、検索により見つけたい対象は特定の人物または物体であり、限定的である。したがって、検索結果に期待する画像イメージが概ね確定している映像監視システムに、自然言語の検索対象情報を元に検索タグ（画像タグ）を生成して検索する特許文献１を仮に適用することができたとしても、監視業務に使用可能な精度を得られないと考えられる。

本開示の目的は、ユーザの使い勝手が高い映像検索システム、映像検索方法およびコンピュータプログラムを提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う映像検索システムは、検索対象について自然言語で表現された検索対象情報を取得する取得部と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、生成された複数の検索クエリにより映像データベースを検索する検索部と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部とを備える。

本発明によれば、検索対象情報から複数の検索クエリを生成して映像データベースを検索し、それら検索結果に基づいて複数の検索クエリを順位付けして評価できる。

映像検索システムを含む映像監視システムの全体概要図。映像監視システムのハードウェア構成図。監視映像中で人物を識別するテーブルの例。監視映像中で物体を識別するテーブルの例。監視映像中で人物を追跡するテーブルの例。映像検索処理のフローチャート。検索結果評価処理のフローチャート。検索画面例。他の検索画面例。第２実施例に係り、検索結果の表示処理を示すフローチャート。第３実施例に係り、検索画面例。

以下、図面に基づいて、本発明の実施の形態を説明する。本開示に係る映像検索システムは、自然言語により指定された検索クエリの表現または着眼点に揺らぎがある場合でも、ユーザの期待する映像の検索結果を提供することができる。

ここで、目撃者の話を現場に駆けつけた警備員が聴取し、その聴取結果を電話や無線機などで監視員に伝達し、監視員が警備員からの情報に基づいて、監視カメラで撮影した映像を記憶するデータベースを検索する例を検討する。この例は、本開示の優位性を示すための比較例であり、背景技術ではない。

比較例は複数の課題を有すると考えられる。第１に、視覚情報の認知または認識と視覚情報の言語化とにはそれぞれ個性が反映されるため、異なる人物が同じ対象を見ても同じように表現するとは限らない。したがって、目撃者による対象（不審者など）の表現方法と、目撃者から目撃情報を聞き取った警備員または監視員が目撃者から聞き取った言葉の意味を解釈して検索クエリタグ（検索クエリ項目）に変換することとの間には、意味解釈の差異がある。

第２に、監視カメラの撮影した映像を検索するためのデータベースを構築する映像解析処理では、カメラと人物の位置関係、カメラ映像上での人物サイズ、解像度、映像解析手法の精度などの各種制約を有するため、画像毎に映像解析結果に違いが生じる。

例えば、青いジーンズを履いている人物がいる場合に、その人物の掃いているズボンがジーンズであると認識できる場合もあれば、下半身に青色の服を着ていることのみ認識できる場合もある。この場合、監視員などのユーザが、発見対象者を「ジーンズを履いている人」と表現すると、ジーンズを掃いた人物が映っていると認識された画像のみが検索され、下半身が青い服装であると認識された画像は検索されない。下半身が青い服装であると認識された画像内に発見対象者が映っている場合、ユーザは、その画像を見逃してしまうことになる。

このように、映像監視システムに使用される映像検索システムは、キーワードに関連する画像を広く集めるために使用されるのではなく、特定の対象（人間または荷物など）をピンポイントで検索するために使用される。映像監視システムに使用される映像検索システムは、上述の通り、検索により発見したい対象が限定的であり、かつ、警備員や目撃者の話に基づいて自然言語で表現された検索クエリを使用して対象を検索する。このため、映像検索システムには、自然言語によって検索対象を表現する際に生じる表現内容と実際の発見対象の間に生じる差異と、映像検索に使用するデータベースを構築する際に生じる映像解析によって生じる映像解析結果と実際の映像の間に生じる差異とを補償する必要がある。

そこで、本開示に係る映像検索システムは、検索対象について自然言語で表現された検索対象情報を取得する取得部と、取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、生成された複数の検索クエリにより映像データベースを検索する検索部と、複数の検索クエリの検索結果を元に複数の検索クエリを順位付けして評価する検索結果評価部とを備える。

本開示に係る映像検索システムによれば、ユーザが自然言語で表現した検索対象の情報から複数の検索クエリを生成し、検索結果を元に有意な検索クエリを評価し、ユーザが期待すると想定される検索結果を優先的に提示することが可能となる。これにより、ユーザが入力した検索対象の情報の表現の揺らぎの解消と、複数の検索クエリの生成から予想される検索結果の閲覧負荷の増大防止とを両立することができる。

さらに、本開示の映像検索システムには、巡回中の警備員がスマートフォンなどの音声入力機能を使用して自然言語で検索クエリを入力することもできる。したがって、警備員は、監視員を介さずに現場から映像データベースを検索して、検索結果をただちに確認することができる。これにより、警備業務の信頼性と使い勝手が向上する。

図１～図９を用いて第１実施例を説明する。本開示では、映像検索システム１０は、音声クエリまたはテキストクエリを元にタグのリストを複数導出し、それぞれのタグのリスト毎にタグのリストをクエリとしてカメラ映像の映像解析結果を構成要素とする映像データベースに対する映像検索を実施し、最も良い映像検索結果が得られるタグのリストとそのタグのリストをクエリとする映像検索結果とをユーザへ提示する。本開示によると、ユーザが音声入力またはテキスト入力により、発見したい対象に関する検索対象情報を入力すると、映像検索システム１０は、検索対象情報（検索クエリ）の不完全性と映像データベースの不完全性とを補完する映像検索結果を提示することができる。

図１は、映像監視システム１の全体構成を示す概要図である。図１に示すように、映像監視システム１は、例えば、映像検索システム１０と、映像解析システム２０と、撮影システム３０と、映像管理システム４０とを備える。

映像監視システム１は、例えば、施設内を巡回する警備員Ｕ１と、警備員Ｕ１からの連絡で映像を検索し、その結果を警備員へ知らせる監視員Ｕ２とにより使用される。以下、映像検索システム１０の幾つかの使用形態を述べる。以下の使用形態のいずれを採用してもよい。警備員Ｕ１を第１ユーザ、監視員Ｕ２を第２ユーザと呼ぶこともできる。

図１では、一人の警備員Ｕ１と一人の監視員Ｕ２を示すが、複数の警備員Ｕ１と一人の監視員Ｕ２が本開示に含まれてもよいし、複数の警備員Ｕ１と複数の監視員Ｕ２とが本開示に含まれてもよい。さらには、警備員Ｕ１は自動で巡回するロボット警備員でもよく、ロボット警備員の周囲の人物（施設内の従業員または訪問者など）が映像検索システム１０を利用可能としてもよい。

第１の使用形態では、警備員Ｕ１が現場で情報を収集し、収集した情報を警備員端末ｄｖ１により監視員Ｕ２に伝える（Ｓ１Ａ）。警備員端末ｄｖ１は、警備員Ｕ１の使用する端末であり、例えば、携帯電話（いわゆるスマートフォンを含む。以下同じ。）、無線機などである。

警備員Ｕ１から検索依頼を受けた監視員Ｕ２は、監視員端末ｄｖ２を用いて映像検索システム１０へアクセスし、映像データベース１５を検索し、その結果を監視員端末ｄｖ２から警備員Ｕ１の所持する警備員端末ｄｖ１に通知する（Ｓ２）。監視員Ｕ２から警備員Ｕ１への検索結果の通知は、例えば、発見対象（人物または荷物など。以下同じ。）の発見された場所を音声メッセージまたはテキストメッセージで行われる。検索結果に含まれる映像の一部または全部を監視員Ｕ２が選択し、それら選択された映像のデータを警備員Ｕ１の所持する端末ｄｖ１へ送信してもよい。

第２の使用形態では、警備員Ｕ１が警備員端末ｄｖ１を用いて映像検索システム１０に直接アクセスし、映像データベース１５を検索する（Ｓ１Ｂ）。警備員Ｕ１は、監視員Ｕ２を介さずに映像データベース１５を検索できるため、第１の使用形態に比べると、異常が検知されてから映像を検索するまでの時間を短縮できる。

映像解析システム２０は、撮影システム３０または映像管理システム４０のうち少なくともいずれか一方を利用できればよい。ここでは、映像解析システム２０は、撮影システム３０および映像管理システム４０を利用できる例を説明する。

映像監視システム１の通信接続の例を説明する。例えば、映像解析システム２０は、撮影システム３０および映像管理システム４０と通信手段ＣＮ１により接続される。映像解析システム２０と映像検索システム１０は、通信手段ＣＮ２により接続される。映像検索システム１０と警備員端末ｄｖ１および監視員端末ｄｖ２は、通信手段ＣＮ３により接続される。

通信手段ＣＮ１～ＣＮ３は、有線通信手段または無線通信手段のいずれでもよい。通信手段ＣＮ１～ＣＮ３は、インターネットのような通信ネットワークでもよいし、専用ネットワークでもよい。

映像検索システム１０と映像解析システム２０および映像管理システム４０は、それぞれ個別のコンピュータに設けられてもよいし、あるいは同一のコンピュータに設けられてもよい。すなわち、システム１０，２０，４０のうちいずれか２つまたは全部は、同一のコンピュータに実装されてもよい。システム１０，２０，４０の設けられるコンピュータは、警備対象施設の運営会社または警備会社の社内に設置されるいわゆるオンプレミスのコンピュータとして構成されてもよいし、クラウド上に存在してもよい。

映像解析システム２０は、撮影システム３０または映像管理システム４０から入力される映像を解析し、その解析結果を映像検索システム１０の映像データベース１５に登録する。映像検索システム１０は、ユーザから入力される映像検索用のクエリを受け付け、その検索クエリを元に複数の検索クエリを自動生成し、好適な検索結果が得られる検索タグのリスト（以下、タグリストと記載）を評価し、推薦タグリストとそのタグリストによって得られる検索結果とをユーザへ提示する。

以下、撮影システム３０、映像管理システム４０、映像解析システム２０、および映像検索システム１０について詳細に説明する。

撮影システム３０は、一つ以上のカメラ３１を含んでいる。カメラ３１で撮像された映像は、映像解析システム２０の映像入力部２２へ送信される。カメラ３１は、固定型の監視カメラ、ＰＴＺ（パン・チルト・ズーム）対応の監視カメラ、三脚などに取り付けられた可搬型の監視カメラまたはＰＴＺカメラ、ドローンまたは航空機または衛星などに取り付けられた空撮カメラ、スマートフォンのカメラ、デジタルカメラなどのいずれであってもよく、形式を問わない。カメラ３１は、ＲＧＢカメラ（カラー映像撮影用カメラ）であってもよいし、ＩＲ（赤外線）カメラまたはサーマルカメラであってもよい。

映像管理システム４０は、ＶＭＳ（ＶｉｄｅｏＭａｎａｇｅｍｅｎｔＳｏｆｔｗａｒｅ）４１を含む。ＶＭＳ４１は、映像を記録して管理し、映像入力部２２のリクエストに応じて映像を映像解析システム２０へ配信する。ＶＭＳ４１は、カメラ３１と接続されていてもよいし、本実施例のカメラ３１以外の図示せぬカメラと接続されてもよい。

なお、ＶＭＳ４１は、レコーダであってもよい。ＶＭＳ４１は、コンピュータに記憶された映像データのファイルでもよい。ＶＭＳ４１が映像の配信機能を持たない場合、映像入力部２２が映像管理システム４０内のファイルの保存場所に直接アクセスして、映像を取得する。

映像解析システム２０は、映像入力部２２と映像解析部２１を含む。映像入力部２２は、カメラ３１またはＶＭＳ４１から、動画像または時系列に連続する複数の静止画像の入力を受け付ける。映像入力部２２は、受け付けた映像（画像とも呼ぶ）を時系列に連続する画像へデコードし、映像解析部２１へ順次画像を送信する。あるいは、映像入力部２２は、ウェブで公開されているライブカメラの映像、または、動画配信サイトで公開されている映像を受け付けてもよい。

映像解析部２１は、映像入力部２２の受け付けた画像に対して、検知処理、追跡処理、属性推定処理、特徴抽出処理、人物行動認識処理、関係性推定処理などの映像解析処理を実施し、映像解析結果を映像データベース１５へ送信する。

検知処理とは、画像中の人物または物体について、その位置、範囲および領域を特定する処理である。追跡処理とは、検知処理により特定された人物または物体を、時系列に連続する画像間で同定し、個々の人物または物体の移動軌跡を特定する処理である。

属性推定処理とは、人物または物体の属性を推定する処理である。人物に関する属性とは、服装の種類、複数の色、髪型、髪の色、アクセサリの種類、性別、年齢などである。物体に関する属性とは、物体の種類、形状、色などである。

特徴抽出処理とは、検知処理により特定された人物または物体に関する画像特徴を抽出する処理である。画像特徴とは、画像を表す数値列、つまり、特徴ベクトルである。特徴抽出処理は、いわゆるＨａａｒ，ＨＯＧ，ＳＩＦＴなどの処理でもよいし、あるいは、深層ニューラルネットワークをエンコーダとして使用して特徴ベクトルを算出する処理でもよい。

人物行動認識処理とは、人物行動を推定する処理である。人物行動とは、例えば、走る、殴る、蹴る、しゃがみこむ、倒れる、万引きする、運転する、など人のあらゆる行動を指す。関係推定とは、人と人、人と物体などの、複数の対象間における関係性を推定する処理である。例えば、人と人の関係性とは、例えば、友人同士なのか、家族なのかといった関係である。人と物体の関係性とは、例えば、人が物体を所有しているか否かという内容である。

映像検索システム１０は、例えば、入力部１１、自然言語処理部１２、オントロジ１３、検索部１４、映像データベース１５、検索結果評価部１６、提供部１７を含む。

入力部１１は、例えば、キーボード、マウス、タッチパネル、マイクロフォンなどである。ユーザは、入力部１１を用いて、検索対象情報を音声またはテキストとして映像検索システム１０へ入力できる。入力部１１は、音声を受け付けた場合は、その音声をテキストデータへ変換し、変換されたテキストデータ（以下、テキスト）を自然言語処理部１２へ送信する。

自然言語処理部１２は、入力部１１から検索対象情報としてのテキストを受け付けると、検索クエリとなる検索タグのリストを複数推定し、推定された複数の検索タグのリストを検索部１４へ送信する。自然言語処理部１２は、検索対象情報から複数のリストを生成する。複数のリスト（検索タグリスト）は、それぞれ複数の検索タグを有する。

検索部１４は、自然言語処理部１２から受け付けた複数の検索タグリストを用いて、映像データベース１５を検索し、検索結果を検索結果判定部へ送信する。

映像データベース１５は、映像解析部２１から受け付けた映像解析結果をデータベースとして蓄積している。検索結果評価部１６は、検索部１４から、複数の検索タグリストと複数の検索タグリストをそれぞれ検索クエリとする検索結果とを受け付け、それら検索結果を元に、複数の検索タグリストの優劣を評価する。

提供部１７は、各検索タグリストによる検索結果と各検索タグリストの評価結果とを、検索部１４および検索結果評価部１６から受け取り、ユーザへ提供する。ユーザへの検索結果および評価結果の提供は、代表的にはモニタディスプレイに情報を表示することにより実現される。静止画像、動画像、グラフィックス、音声、テキストを適宜組み合わせて、検索結果および評価結果をユーザへ提供することができる。

オントロジ１３は、自然言語処理部１２が参照するオントロジを保持する。

図２は、映像検索システム１０のハードウェア構成を示す。映像検索システム１０は、例えば、プロセッサ（図中、ＣＰＵ）１０１、メモリ１０２，通信インターフェース（図中、通信ＩＦ）１０３、ユーザインターフェース（図中、ＵＩ）を備える。メモリ１０２は、主記憶装置および補助記憶装置を含む。メモリ１０２には、入力部１１、自然言語処理部１２、オントロジ１３、検索部１４，映像データベース１５、検索結果評価部１６、提供部１７を実現するためのコンピュータプログラムおよびデータが記憶される。

メモリ１０２に格納されたコンピュータプログラムおよびデータの全部または一部を、記憶媒体ＭＭに転送して記憶させることもできる。記憶媒体ＭＭを図示せぬ他の計算機に接続して、記憶媒体ＭＭに記憶されたコンピュータプログラムなどをその計算機へ転送することもできる。記憶媒体ＭＭは、例えば、フラッシュメモリデバイスまたはハードディスクドライブなどの、記憶内容を長時間保持できる装置である。

図３～図５を参照して、映像解析部２１により構築される映像データベース１５の内容について説明する。ここでは、映像解析部２１により映像データベース１５が構築される場合を例に、映像データベース１５の内容を説明する。ユーザが映像検索システム１０のみを使用する場合、映像解析部２１と映像データベース１５とは連携して稼働する必要はない。この場合、映像データベース１５は、後述の内容を備えているなら、映像解析部２１によって構築される必要はない。

本開示では、映像データベース１５は、図３に示す人物ＩＤ別テーブルＴ１、図４に示す物体ＩＤ別テーブルＴ２、図５に示す追跡ＩＤ別テーブルＴ３を格納する。ＩＤとは、識別子の意味である。図３～図５の各テーブルＴ１～Ｔ３では、データの行を２つだけ示しているが、データ数に応じて行が拡張される。テーブルＴ１～Ｔ３は、図示した構成以外の構成でもよい。映像データベース１５は、リストまたは辞書などの形式で、図３～図５に示すデータを保持してもよい。

図３に示す人物ＩＤ別テーブルＴ１は、例えば、人物ＩＤＣ１０、カメラＩＤＣ１１、タイムスタンプＣ１２、領域Ｃ１３、属性Ｃ１４－Ｃ１６、関連ＩＤＣ１７、人物画像特徴Ｃ１８を保持する。

人物ＩＤＣ１０は、映像データベース１５内において人物を一意に特定する固有のＩＤである。複数のカメラに登場する人物に対しても、原則固有のＩＤである。カメラＩＤＣ１１は、カメラ３１に固有のＩＤである。ユーザは、カメラＩＤＣ１１から、各カメラの機種および場所などを特定可能である。映像データベース１５がカメラ３１ではなくＶＭＳ４１からの映像を受け付けた場合、カメラＩＤＣ１１には、ＶＭＳ４１から取得したカメラＩＤを格納する。ＶＭＳ４１がレコーダや単なるファイルサーバ上の映像ファイルなどの場合は、映像ファイルの特定に必要な情報をカメラＩＤに格納する。

タイムスタンプＣ１２は、人物ＩＤで特定される人物を検知した際の時刻であり、日付を含んでもよい。タイムスタンプＣ１２は、「時：分：秒：ミリ秒」などの、人が把握しやすい表示形態でもよいし、ＵＮＩＸ（登録商標）時刻でもよい。タイムスタンプＣ１２には、映像の撮影された時刻または映像が解析された時刻などが格納される。映像データベース１５が動画ファイルの解析結果を格納する場合、タイムスタンプＣ１２には、映像の再生時間または映像に埋め込まれた時刻を格納してもよい。

領域Ｃ１３は、画像中の人物位置を格納する。図３の例では、画像中の人物を囲む矩形を表現するための、矩形左上端点の水平座標および垂直座標と、矩形の幅および高さの画像座標の配列を示す。画像中の人物の位置を特定できる情報であれば、その表現方法を問わない。領域Ｃ１３は、画像座標ではなく、世界座標（被写体の撮影された実空間における位置を示す二次元座標または三次元座標）で表現されてもよい。

属性Ｃ１４－Ｃ１６は、人物の属性に関する情報であり、属性値と確信度とが格納される。属性値は区分を示すＩＤであってもよいし、ラベルであってもよい。図５では属性として、年齢Ｃ１４、性別Ｃ１５、髪型Ｃ１６を例示したが、これに限らず、上半身の服装の色、上半身の服装の種類、下半身の服装の色、下半身の服装の種類、アクセサリの種類、荷物の種類、荷物の色など、人または人の部分を表現する項目であればよい。

年齢Ｃ１４の場合、第１行目に「２，０．９」と記載されているが、属性値が「２」で、確信度が「０．９」であることを示す。これは、年齢をいくつかの区間に分けた場合の、１つの区間に該当することを示しており、かつ、映像解析により年齢の属性値が区間の「２」に該当すると推論した際の確信度が「０．９」であったことを示している。図３では、年齢の区分を示す数値が属性値として表現されているが、「２０－６０歳」などのように年齢の区間を示すラベルを直接格納してもよい。

関連ＩＤＣ１７は、関係性を示すＩＤを含む。例えば、人物ＩＤＣ１０が「Ｐ００１」の場合、関連ＩＤＣ１７には「Ｐ１０２」が登録されている。これは、「Ｐ００１」で特定される人物と「Ｐ１０２」で特定される人物との間に関係性があった（例えば二人が一緒のグループとして映っていた）ことを示している。

人物ＩＤＣ１０が「Ｐ１０２」の行では、関連ＩＤＣ１７に「Ｏ００１」が登録されている。これは、「Ｏ００１」で特定される物体を「Ｐ１０２」で特定される人物が所有していたという所有関係を示している。

人物画像特徴Ｃ１８は、人物の画像特徴を示す特徴ベクトル、つまり、画像から算出される人物の特徴を表現する数値列を格納する。

図４に示す物体ＩＤテーブルＴ２は、例えば、物体ＩＤＣ２０、カメラＩＤＣ２１、タイムスタンプＣ２２、領域Ｃ２３、物体種別Ｃ２４、関連ＩＤＣ２５、物体画像特徴Ｃ２６を保持する。カメラＩＤＣ２１、タイムスタンプＣ２２、領域Ｃ２３は、人物ＩＤテーブルＴ１と同様の項目であるため説明を省略する。

物体ＩＤＣ２０は、映像データベース１５内において物体を一意に識別する固有のＩＤである。複数のカメラに登場する物体に対しても原則固有のＩＤである。

物体種別Ｃ２４は、物体の種別とその確信度を格納する。図４の例では、「ｂａｃｋｐａｃｋ」、「ｃａｒｒｙｂａｃｋ」などのラベルを格納する例を示しているが、ラベルに対応する数値を格納してもよい。

物体画像特徴Ｃ２６は、物体の画像特徴を示す特徴ベクトル、つまり、画像から算出される物体の特徴を表現する数値列を格納する。

図５に示す追跡ＩＤ別テーブルＴ３は、例えば、追跡ＩＤＣ３０、カメラＩＤＣ３１、タイムスタンプＣ３２、人物ＩＤリストＣ３３、行動Ｃ３４を保持する。

追跡ＩＤＣ３０は、時系列に連続する画像中の人物を紐づけた人物の追跡結果（移動軌跡）に対応する軌跡に固有のＩＤである。追跡ＩＤＣ３０は、映像データベース１５内において固有のＩＤであり、複数のカメラ間においても原則重複しない。

タイムスタンプＣ３２は、移動軌跡の開始時点と終了時点のタイムスタンプを含む。

人物ＩＤリストＣ３３は、移動軌跡を構成する各時刻の画像における人物ＩＤ（図３の人物ＩＤテーブルＴ１の項目Ｃ１０）からなるリストである。人物ＩＤリストＣ３３は、人物ＩＤ別テーブルＴ１と追跡ＩＤ別テーブルＴ３のリンクデータである。

行動Ｃ３４は、様々な行動に対応する確信度を保有する。図５では、「走る」、「キョロキョロする」などの例を示しているが、人が行ういかなる動作でもよい。

以上の説明において、人物ＩＤＣ１０と物体ＩＤＣ２０と追跡ＩＤＣ３０については、原則固有のＩＤであり、カメラ間で重複しないと記載した。異なるカメラ間で重複するＩＤを許容する場合であって、かつ、映像データベース１５が複数のカメラで撮影された映像を扱う場合には、これら３種類のＩＤは、カメラＩＤＣ１１と一体として参照される必要がある。

図６を参照して、映像検索システム１０の実行する映像検索処理を説明する。はじめに、ユーザは、入力部１１を用いて、検索により発見したい対象の特徴を入力する。ユーザが入力部１１であるマイクを使用して、検索対象情報を音声で入力すると（Ｓ１０１）、入力された音声はテキストに変換され、変換されたテキストが検索クエリベースとなる（Ｓ１０２）。ユーザが検索対象情報としてテキスト情報を入力する場合、ステップＳ１０１はスキップされて、ステップＳ１０２が実行される。

自然言語処理部１２は、検索クエリベースを元に、複数の検索クエリを生成する（Ｓ１０３）。本開示における検索クエリとは、検索タグのリストである。検索タグとは、カメラＩＤＣ１１、タイムスタンプＣ１２、領域Ｃ１３、属性Ｃ１４－Ｃ１６、物体種別Ｃ２４、行動Ｃ３４などである。

本開示では、ユーザが検索のために入力する問い合わせ文（検索対象情報）を検索クエリベースと表記し、映像検索システム１０が内部処理で実際の検索に使用するクエリを検索クエリと表記する。

検索クエリの生成では、検索クエリベースに対して該当する検索タグを識別するいわゆる文分類問題みなすことができ、任意の機械学習手段などにより実施できる。クエリを係り受け解析器などを用いて構文解析したり意味解析したりすることで、解析結果とオントロジ１３とを照合し、該当する検索タグを推定することができる。オントロジ１３との照合では、テキストの一致のほかに、編集距離、または、語や句などのベクトル表現間の類似性尺度など、様々な類似性尺度を用いることができる。

例えば、ユーザがステップＳ１０１で「『ジーンズ姿の人を殴って去っていった中年男性』を検索」と音声入力したとする。ステップＳ１０２では、『ジーンズ姿の人を殴って去っていった中年男性』というテキスト情報が検索クエリベースとして映像検索システム１０に受け付けられる。

ステップＳ１０３では、「上半身の服の種別：ジーンズ，行動：走る，性別：男性」、「上半身の服の色：青，年齢：３５－５０歳」、「全身の服の色：青またはグレー，行動：殴る，性別：男性」などのように、任意の数の検索タグで構成される検索クエリが複数生成される。この例では、「ジーンズ→青やグレーの服」、「殴って去る→走る（走って逃げている）」、「中年→３５－５０歳」などのように、検索対象情報としての検索クエリベースに含まれる要素から連想される表現の置き換えを行い、複数の検索タグを含む検索タグリストを複数生成する。

このような表現の置き換えは、検索クエリベース中の単語とオントロジ１３とを照合することで実現できる。オントロジ１３は、映像検索システム１０の構築者が予め辞書情報として、表現の置き換えパターンを登録してもよい。または、映像データベース１５を使用して学習することで、オントロジ１３を構築してもよい。本開示では、オントロジ１３の構築方法を問わない。

検索部１４は、複数の検索クエリのそれぞれについて（Ｓ１０４）、映像データベース１５を検索し、その検索結果を取得する（Ｓ１０５）。例えば、検索クエリが３個の検索タグ（Ｔ１，Ｔ２，Ｔ３）から構成される例を説明する。それぞれの検索タグを含む人物ＩＤと各検索タグに対応する確信度（Ｐ’１，Ｐ’２，Ｐ’３）とが検索部１４により取得される。この場合、検索結果は、（人物ＩＤ，Ｐ’１，Ｐ’２，Ｐ’３）というデータ集合である。

検索結果評価部１６は、検索部１４での検索結果について評価し、自然言語処理部１２が生成した複数の検索クエリを、好適な検索結果が得られる順に優先度付けする（Ｓ２０）。検索結果評価部１６による検索結果評価処理は、図７で後述する。

提供部１７は、評価された検索クエリの優先度を参照して、検索結果のみをユーザに提示したり、または、検索クエリと検索結果をユーザに提示したりする（Ｓ３０）。ユーザへ提示される情報の例は、図８，９で後述する。検索結果の表示処理の詳細は、第２実施例で述べる。

図７のフローチャートを参照して、検索結果評価部１６の実行する検索結果評価処理を説明する。

検索結果評価部１６は、はじめに、検索部１４から複数の検索クエリとそれぞれに対応する検索結果を受け付け、検索結果毎（Ｓ２０１）に、以下の各ステップＳ２０２～Ｓ２０６を実施する。

ステップＳ２０２において、検索結果評価部１６は、検索結果に含まれる各検索タグに対応する確信度について、閾値フィルタを適用する。検索クエリを（Ｔ１，Ｔ２，Ｔ３）とすると、検索結果は上述の通り、（人物ＩＤ，Ｐ’１，Ｐ’２，Ｐ’３）となる。閾値フィルタが適用された確信度を（Ｐ１，Ｐ２，Ｐ３）と表記すると、検索結果から（人物ＩＤ，Ｐ１，Ｐ２，Ｐ３）のデータ集合が算出される。ここで、閾値フィルタ済みの確信度Ｐｉは、「０」または閾値以上、「１」以下である。

ステップＳ２０３において、検索結果評価部１６は、追跡ＩＤが重複するデータをマージする。｛（人物ＩＤ，Ｐ１，Ｐ２，Ｐ３）｝のデータ集合は、｛（追跡ＩＤ，Ｐｔ１，Ｐｔ２，Ｐｔ３）｝のデータ集合へ集約される。検索結果評価部１６は、追跡ＩＤテーブルＴ３の追跡ＩＤＣ３０と人物ＩＤリストＣ３３とを参照して、人物ＩＤと追跡ＩＤの関連を取得する。

追跡ＩＤに対しては、複数の画像の人物ＩＤに対応する確信度の集合｛Ｐ１｝，｛Ｐ２｝，｛Ｐ３｝が得られる。それぞれの確信度についてデータの集合から算出した代表値は、Ｐｔ１，Ｐｔ２，Ｐｔ３である。代表値の算出方法は、集合から一つの値を算出する方法であればいかなる算出方法であっても良い。例えば、最大値、平均値、中央値などで算出してもよい。

ステップＳ２０４において、検索結果評価部１６は、確信度を元に評価値を算出するための値「Ｓｃｏｒｅ」を算出する。例えば、「Ｓｃｏｒｅ」の算出には下記の式１のように確信度のべき乗和を用いる。式１の添え字はｉである。

Score＝ΣPt_i ⁿ , n≧1・・・（式１）

そして計算の結果、元の検索結果から｛（追跡ＩＤ，Ｓｃｏｒｅ）｝のデータ集合が得られる。これらのデータ集合について、検索結果評価部１６は、「Ｓｃｏｒｅ」の昇順ソートを実施し、上位Ｎ位までの部分集合を抽出する（Ｓ２０６）。

「Ｓｃｏｒｅ」の算出に確信度のべき乗和を用いる理由は、確信度の高いタグを含む検索結果の「Ｓｃｏｒｅ」を高くするためである。例えば、タグが２個でｎ＝３の場合を考える。例えば「Ｐｔ１＝０．７、Ｐｔ２＝０．７」の場合、「Ｓｃｏｒｅ」は約０．６９となる。「Ｐｔ１＝０．９、Ｐｔ２＝０．４」の場合、「Ｓｃｏｒｅ」は約０．７９となる。つまり、一つだけ確信度の高い項目がある後者の方が「Ｓｃｏｒｅ」は高くなる。そこで、本開示では、確信度のべき乗を用いることで、一部の要素を削除した方が検索結果が改善するといったケースを低減し、ステップＳ１０３における検索クエリの生成数を抑制することができる。

ステップＳ２０７において、検索結果評価部１６は、複数の検索クエリの検索結果について追跡ＩＤの重複を比較する。

検索結果評価部１６は、追跡ＩＤがすべて一致する検索結果の組み合わせがある場合（Ｓ２０８：ＹＥＳ）、それら検索結果についてステップＳ２０６で算出された「Ｓｃｏｒｅ」の全て（上位Ｎ位までの「Ｓｃｏｒｅ」）の総和値をクエリ評価値として算出し、算出されたクエリ評価値の最も高い検索クエリとその検索結果のみを残し、他を削除する（Ｓ２０９）。

ステップＳ２０９は、検索結果間で登場する人物（追跡ＩＤ）が全て同じであり、それらの人物を極力高い確信度で表現できる検索クエリを選別する処理と言える。追跡ＩＤがすべて一致する検索結果の組み合わせがなければ、ステップＳ２０９は実施しない。

ステップＳ２０８およびＳ２０９の実施後に、検索結果が未だ複数組ある場合（Ｓ２１１０：ＹＥＳ）、検索結果評価部１６は、検索結果間で共通する追跡ＩＤを抽出する（Ｓ２１１）。検索結果評価部１６は、抽出された追跡ＩＤに関する「Ｓｃｏｒｅ」の総和値をクエリ評価値として算出し（Ｓ２１２）、クエリ評価値の高い順に検索クエリをソートする（Ｓ２１３）。クエリ評価値の最も高い検索クエリは、推薦クエリとしてユーザに提示される。ユーザは、推薦クエリの検索結果である映像を画面で確認することで、発見したい対象を探索する。

ステップＳ２１１～Ｓ２１３の処理は、検索結果のいずれにも登場する人物のみを抽出することで、同一人物をできるだけ高い確信度で表現できる検索クエリを優先する順位付けの処理と言える。ステップＳ２０８およびＳ２０９の実施後に、検索結果が一つしか残っていない場合、検索結果評価部１６は、残った検索結果のみを出力し、ステップＳ２１１～Ｓ２１３は実施しない。以上で検索結果評価部１６の処理は完了する。

図８及び図９を参照して、検索結果をユーザへ提供する画面例を説明する。図８および図９は、スマートフォンをユーザ端末（警備員端末ｄｖ１または監視員端末ｄｖ２）として使用する場合のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の例を示す。

図８は、検索画面の例である。図８の検索画面は、ステップＳ２０およびＳ２１３で得られた検索結果のうち第一位の検索クエリおよびその検索結果を表示する例である。図９は、複数の検索クエリと、複数の検索クエリのうち選択された検索クエリの検索結果とを表示する例である。

図８について説明する。スマートフォン画面Ｇ１１には、例えば、マイクボタンＧ１２、テキストボックスＧ１３、検索クエリ表示部Ｇ１４、検索結果表示部Ｇ１５、カメラ画像Ｇ１６、人物矩形Ｇ１７、人物拡大画像Ｇ１８が表示される。

ユーザがマイクボタンＧ１２をタップすると、マイク入力の受付が開始され（図６のステップＳ１０１）、入力部１１が受け付けたユーザの音声がテキスト化され検索クエリベースとして受け付けられ（図６のステップＳ１０２）、テキストボックスＧ１３に表示される。あるいは、ユーザは、テキストボックスＧ１３に直接、検索クエリベースとなるテキストをキーボードなどから入力してもよい。

ステップＳ１０３で述べた通り、テキストボックスＧ１３に表示された検索クエリベースに対応する複数の検索クエリが生成され、それら複数の検索クエリを用いて映像データベース１５が検索される。複数の検索クエリの検索結果は、図７の処理（Ｓ２０）で評価される。評価された順位のうち第一位の検索クエリは、検索クエリ表示部Ｇ１４に表示される。図８の例では、「男性」、「ジーンズ」、「３５歳から５５歳」、「走っている」といった検索タグを有する検索クエリが最も評価の高い検索クエリ（推薦クエリ）として表示されている。

検索クエリ表示部Ｇ１４に表示された検索クエリに対応する検索結果が、検索結果表示部Ｇ１５に表示される。検索結果表示部Ｇ１５には、例えば、カメラ画像Ｇ１６、人物矩形Ｇ１７、人物拡大画像Ｇ１８、ランキング順位Ｇ１９、追跡ＩＤＧ２０などが表示される。

検索結果表示部Ｇ１５では、ランキング順位に沿って、複数の検索結果表示される。図８では、第３位までの検索結果が表示されているが、例えばユーザのスワイプ操作によって縦方向に画面をスクロールさせることで、ランキング下位の検索結果を表示させることもできる。

カメラ画像Ｇ１６には、検索結果の人物が登場する画像が表示される。カメラ画像Ｇ１６には、カメラＩＤおよび撮影時刻がオーバーレイ表示されてもよい。

検索結果の人物については、カメラ画像Ｇ１６上で検索結果の人物を明確に識別して視認するための人物矩形Ｇ１７がオーバーレイ表示されるとともに、人物矩形Ｇ１７内の人物を拡大した画像Ｇ１８が表示される。図中では記載を省略するが、ステップＳ２０６で算出された「Ｓｃｏｒｅ」が検索結果表示部Ｇ１５に表示されてもよいし、検索クエリ表示部Ｇ１４に検索クエリの評価値である「Ｓｃｏｒｅ」の総和値が検索クエリとともに表示されてもよい。

なお、カメラＩＤおよび撮影時刻（解析時刻）が、検索結果評価部１６から出力される情報には含まれない場合、提供部１７は、映像データベース１５を参照して取得することができる。

ユーザがカメラ画像Ｇ１６をタップすると、図示を省略するがポップアップ画面が表示され、追跡ＩＤ５１０の人物の映っているシーン（映像クリップ）が再生される。

図９について説明する。図８と同様の箇所については説明を省略する。検索クエリ選択部Ｇ３１には、ステップＳ１０３で生成された複数の検索クエリが、順位付けの評価順に表示されている。図９の左側がランキング上位の検索クエリであり、右側にいくほどランキンが下がる。

選択中の検索クエリは、太枠Ｇ３２などにより選択中であることが明示される。選択された検索クエリに対応する検索結果は、検索結果表示部Ｇ１５に表示される。ユーザは、検索クエリ選択部Ｇ３１をスワイプしたり、検索クエリスライドボタンＧ３３をクリックしたりすることで、ランキング下位の検索クエリを表示させることができる。

検索クエリ選択部Ｇ３１における検索クエリのランキングは、ステップＳ２１３で算出された推薦順である。再生済みコンテンツ非表示ボタンＧ３４をチェック状態に選択すると、検索クエリ選択部Ｇ３１で検索クエリを切り替えた際に、ユーザは、カメラ画像Ｇ１６を押して、再生済みの検索結果を削除して検索結果を表示させることができる。あるいは、異なる検索クエリにおいて、検索結果表示部Ｇ１５に表示済みの検索結果を削除して表示させることもできる。本機能の搭載により、ユーザは、極力少ない検索結果の確認時間で所望の検索結果にたどり着くことが可能となる。重複する検索結果を除いて表示させる処理の例は、後述する。

図８，図９では、スマートフォンの画面で開いたウェブブラウザでの表示例を記載したが、パーソナルコンピュータまたはタブレット端末などのウェブブラウザ上で検索結果を表示してもよい。タッチスクリーンが無い場合には、スワイプをマウス操作などにより行うことができる。

このように構成される本実施例によれば、使い勝手のよい映像検索システム、映像検索方法およびコンピュータプログラムを得ることができる。

本実施例によれば、自然言語により指定された検索クエリの表現または着眼点に揺らぎがある場合でも、検索対象情報から複数の検索クエリを生成して映像を検索できるため、目撃者または検索依頼者（伝達者）による言語表現または着眼点の揺らぎを吸収して、適切な検索クエリをユーザへ提供することができる。

図１０を用いて第２実施例を説明する。図１０は、検索結果の表示処理を示すフローチャートである。

映像検索システム１０の提供部１７は、上述の通り、重複した検索結果を除外し、ユーザが未だ確認していない新規な検索結果のみをユーザへ提供することができる。

提供部１７は、ユーザにより表示させる検索クエリが切り替えられたか判定し（Ｓ３０１）、検索クエリが切り替えられたと判定すると（Ｓ３０１：ＹＥＳ）、再生済みコンテンツを表示しないモードであるか判定する（Ｓ３０２）。再生済みコンテンツを表示しないモードとは、既に表示された検索結果と同一の検索結果を表示しないモードであり、以下、再生済みコンテンツの非表示モードとも呼ぶ。再生済みコンテンツの非表示モードは、ユーザが選択可能である。再生済みコンテンツの非表示モードが選択されていない場合、既に表示された検索結果と同一の検索結果であっても表示される。

提供部１７は、再生済みコンテンツの非表示モードが選択されていると判定すると（Ｓ３０２：ＹＥＳ）、表示対象の検索クエリの検索結果を取得し（Ｓ３０３）、既に再生されたコンテンツ（検索結果）を確認して、表示対象から除外する（Ｓ３０４）。

提供部１７は、検索結果のコンテンツのうち表示対象として残っているものをユーザの端末画面へ表示し（Ｓ３０５）、ユーザ操作からコンテンツが再生されたことを判定し、再生されたコンテンツを記憶する（Ｓ３０６）。

提供部１７は、ユーザが検索結果の表示終了を選択すると（Ｓ３０７：ＹＥＳ）、本処理を終了し、そうではない場合（Ｓ３０７：ＮＯ）、ステップＳ３０１へ戻る。なお、検索クエリが切り替えられていない場合（Ｓ３０１：ＮＯ）または再生済みコンテンツの非表示モードが選択されていない場合（Ｓ３０２：ＮＯ）、ステップＳ３０５へ移る。

このように構成される本実施例も第１実施例と同様の作用効果を奏する。本実施例では、既に表示された検索結果を表示せず、ユーザに確認されていない検索結果をユーザへ提供するため、ユーザは、効率的かつ速やかに、適切な検索結果を得ることができる。したがって、映像監視システム１などの発見したい対象が特定されている用途において、監視性能および信頼性を向上させることができる。一般的なウェブ検索の場合、広く網羅的に検索結果をユーザへ提供するため、監視対象（発見したい対象）を効率的に探し出すことは難しい。これに対し、本実施例では、一度ユーザが確認し、不要と判断したであろう検索結果を除外することができるため、速やかに監視対象を発見できる。

図１１は、第３実施例によるスマートフォンの画面Ｇ４１を示す。本実施例の検索画面では、検索クエリに含まれる検索タグを手動で調整できるようにしている。

本実施例の検索画面は、マイクＧ４２、入力窓Ｇ４３、検索ボタンＧ４４、検索クエリＧ４５を含む。さらに、検索画面は、発見対象を探す場所、発見対象を探す時間帯などを指定する指定部Ｇ４６を備える。場所は、カメラＩＤで特定してもよいし、施設内の区画を示す番号などで特定してもよい。

さらに、検索画面は、検索タグを手動で設定する手動設定部Ｇ４７を備える。手動設定部Ｇ４７では、例えば、「行為」、「性別」、「髪の色」、「体型」、「アクセサリ」、「服装（上）」、「服装（下）」、「手荷物」、「年齢」などの検索タグごとにユーザが手動で設定することができる。

このように構成される本実施例も第１実施例と同様の作用効果を奏する。本実施例は第１実施例だけでなく、第２実施例とも結合させることができる。本実施例によれば、検索対象情報（検索クエリベース）を元に自動生成された複数の検索クエリの一部または全部について、検索タグを手動で調整することができる。したがって、映像検索システム１０の使い勝手がさらに向上する。

なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

１：映像監視システム１、１０：映像検索システム、１１：入力部、１２：自然言語処理部、１３：オントロジ、１４：検索部、１５：映像データベース、１６：検索結果評価部、１７：提供部、２０：映像解析システム、３０：撮影システム、４０：映像管理システム

Claims

映像を検索する映像検索システムであって、
検索対象について自然言語で表現された検索対象情報を取得する取得部と、
前記取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、
前記生成された複数の検索クエリにより映像データベースを検索する検索部と、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを評価して順位付けする検索結果評価部と
を備える
映像検索システム。
前記検索部による前記複数の検索クエリについての検索結果と、前記検索結果評価部による前記複数の検索クエリの評価結果とを対応付けて、前記検索対象情報を出力したコンピュータ端末へ提供する提供部をさらに備える
請求項１に記載の映像検索システム。
前記複数の検索クエリは、それぞれ複数の検索タグを含んでおり、
前記検索部は、前記複数の検索クエリ毎に、前記複数の検索タグに対応する確信度を前記検索結果の一部として取得し、
前記検索結果評価部は、前記複数の検索クエリ毎に、前記複数の検索タグの確信度に基づいて前記検索結果の評価値を算出する
請求項１に記載の映像検索システム。
前記検索結果評価部は、前記算出された評価値の昇順に前記複数の検索クエリを順位付けすることにより評価する
請求項３に記載の映像検索システム。
前記映像データベースは、各画像を識別する追跡識別子ごとに前記検索結果を管理するためのデータを保持しており、
検索結果評価部は、複数の検索クエリのそれぞれについて、前記追跡識別子ごとに検索結果を集約し、前記検索タグに対応する前記確信度の総和から前記評価値を算出し、算出された評価値の降順で、任意の順位までの検索結果として抽出する
請求項３に記載の映像検索システム。
前記映像データベースは、各画像を識別するための追跡識別子と映像とを対応付けて管理しており、
検索結果評価部は、前記複数の検索クエリの検索結果に含まれる追跡識別子を比較し、前記追跡識別子がすべて一致する検索クエリの組合せが存在する場合は、検索結果の個々のデータの確信度からスコアを算出し、前記各データについて算出されたスコアの総和値を検索クエリの評価値として算出する
請求項３に記載の映像検索システム。
前記検索結果評価部は、前記算出された評価値の最も高い検索クエリ以外の検索クエリを削除する
請求項４に記載の映像検索システム。
前記検索結果評価部は、前記複数の検索クエリの検索結果について共通する追跡識別子を抽出し、それぞれの検索結果について、前記抽出された追跡識別子に該当する検索結果の個々のデータの確信度からスコアを算出し、前記算出された各スコアの総和値を検索クエリの評価値として算出し、評価値の高い順に検索クエリを推薦する
請求項３に記載の映像検索システム。
前記提供部は、前記検索結果評価部が第１位と評価した検索クエリとその検索結果のみを前記コンピュータ端末へ提供する
請求項２に記載の映像検索システム。
前記提供部は、前記検索結果評価部が第１位と評価した検索クエリとその検索結果を前記コンピュータ端末へ提供するとともに、前記検索結果評価部が第２位以下と評価した検索クエリを検索クエリの候補として前記提供する
請求項２に記載の映像検索システム。
前記提供部は、検索クエリが切り替えられると、当該検索クエリの検索結果のうち、既に前記コンピュータ端末へ提供された検索結果を除いて、前記コンピュータ端末へ提供する
請求項２に記載の映像検索システム。
計算機を用いて映像を検索する映像検索方法であって、
検索対象について自然言語で表現された検索対象情報を取得し、
前記取得された検索対象情報から複数の検索クエリを生成し、
前記生成された複数の検索クエリにより映像データベースを検索し、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを順位付けして評価し、
前記複数の検索クエリについての検索結果と、前記複数の検索クエリの評価結果とを対応付けて、前記検索対象情報を出力したコンピュータ端末へ提供する
映像検索方法。
計算機を映像検索システムとして機能させるためのコンピュータプログラムを記憶する記憶媒体であって、
前記計算機に、
検索対象について自然言語で表現された検索対象情報を取得する取得部と、
前記取得された検索対象情報から複数の検索クエリを生成する自然言語処理部と、
前記生成された複数の検索クエリにより映像データベースを検索する検索部と、
前記複数の検索クエリの検索結果を元に前記複数の検索クエリを順位付けして評価する検索結果評価部と
を実現させるためのコンピュータプログラム。