JP2017021672A

JP2017021672A - 検索装置

Info

Publication number: JP2017021672A
Application number: JP2015140109A
Authority: JP
Inventors: 俊成縣; Toshinari Agata
Original assignee: Murata Machinery Ltd
Current assignee: Murata Machinery Ltd
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2017-01-26

Abstract

【課題】本発明では、動画のメタ情報を容易に作成すること可能であり、所望の動画を検索可能な検索装置を提供する事を目的とする。【解決手段】検索装置は、音声比較部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。音声比較部は、動画と、特定の話者を示す音声情報及び話者情報とが記憶される所定の記憶部から、動画と音声情報とを取得し、音声情報と動画の音声とを比較する。紐づけ処理部は、音声比較部が比較して動画の音声が音声情報と合致する場合、音声情報に対応する話者情報を動画に紐づける。検索受付部は、特定の話者を示す話者情報を検索者から受け付ける。検索部は、動画に紐づけた話者情報を参照して、検索受付部が受け付けた話者情報と一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、動画を検索者に提示する。【選択図】図１１

Description

本発明は、動画を検索する検索装置に関する。

従来から、多数の動画を蓄積し、例えばＰＣ等の各種端末からのリクエストを受けて動画を検索する検索装置は存在する。検索装置は、端末から検索リクエストを受け付けると、指定の検索キーワードを用いて、動画のメタ情報を参照しながら該当する動画を検索し、検索結果をリクエスト元の端末に提示する。

しかしながら、動画を検索するためには、動画にメタ情報を手動で紐づけておく必要がある。ここで、特許文献１では、上記の問題に着目した音声検索装置が開示され、この音声検索装置では、検索キーを音声として受け付け、音声特徴の類似度比較により目的の音声データを検索する。これにより、直接、音声データを検索することが可能であるため、メタ情報を作成する必要がなくなる。また、特許文献１の音声検索装置は、検索キーをテキストとして受け付けることも可能であり（話者氏名の情報が検索キーとして入力される）、この場合には、音声データの属性情報（テキスト情報）と検索キーのテキストとを比較し、合致した音声データを抽出する。

特開平１１−２８２８５７号公報

しかしながら、特許文献１の音声検索装置では、検索キーを音声とする場合、検索対象の音声データを都度解析する必要があり、検索処理の負荷が大きくなってしまう。一方、検索キーをテキストとする場合、音声データの属性情報とテキストベースで比較しているが、特許文献１には、音声データの属性情報をどのように付加するのか記載されていない。従って、音声データの属性情報を参照して検索処理を実行する場合には、依然、音声データに対して属性情報を付加する作業が要求される。なお、この音声検索装置は、そもそも動画を検索する装置でもない。本発明は、動画のメタ情報を容易に作成することが可能であり、かつ、所望の動画を検索可能な検索装置を提供する事を目的とする。

本発明の第１の観点に係る検索装置は、以下のように構成される。即ち、検索装置は、音声比較部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。音声比較部は、音声を含む動画と、特定の話者が発する音声情報と、当該特定の話者を示すと共に当該音声情報と関連付けられる話者情報とが記憶される所定の記憶部から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する。紐づけ処理部は、音声比較部が比較した結果、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報を、当該動画に紐づける。検索受付部は、特定の話者を示す話者情報を検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけた話者情報を参照することにより、検索受付部が受け付けた話者情報と一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する。

これにより、所定の記憶部に、話者を特定できる音声情報及び話者情報が格納されていれば、音声情報を介して動画と話者情報とを紐づけ処理部が紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとして話者を特定可能な話者情報を検索者から受け付けることで、動画の実体内容（誰が話をしているのか）を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、音声を介して動画とテキストを紐づけるため、例えば、画像を介して動画とテキストを紐づける態様と比較して、動画の全再生時間に渡って音声比較をせずとも良く（画像（フレーム）は動画中に常に登場するが、音声は動画中にスポット的に出現するため）、動画と個人情報の紐づけ処理を高速化することが可能である。

本発明に係る検索装置は、更に以下のように構成すると望ましい。つまり、紐づけ処理部は、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報と、動画において当該音声情報に合致する音声が再生される再生タイミングとを動画に紐づける。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、動画に紐づけられる再生タイミングを検索者に提示する。

これにより、キーワードの検索キーに一致する動画が存在すれば、その動画に紐づけられる再生タイミングが検索者に提示されるため、動画のどの時間を再生すべきか探す必要がない。

本発明の第２の観点に係る検索装置は、以下のように構成しても良い。つまり、検索装置は、キーワード抽出部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。キーワード抽出部は、所定の記憶部に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出する。紐づけ処理部は、キーワード抽出部が抽出したキーワードを動画に紐づける。検索受付部は、キーワードを検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけたキーワードを参照することにより、検索受付部が受け付けたキーワードと一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する

これにより、所定の記憶部に記憶される動画に対して、紐づけ処理部が、音声を認識することでキーワードを抽出し動画に紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとしてキーワードを検索者から受け付けることで、動画の実体内容（何を話をしているのか）を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、動画データがあれば、音声認識を用いてキーワードを抽出するため、利用者が事前に設定すべき情報を省略できる。

本発明に係る検索装置は、更に以下のように構成すると望ましい。つまり、紐づけ処理部は、キーワード抽出部が抽出したキーワードと、動画において当該キーワードに対応する音声が再生される再生タイミングとを動画に紐づける。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する。

本発明の第３の観点に係る検索装置は、以下のように構成しても良い。つまり、検索装置は、話者人数特定部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。話者人数特定部は、所定の記憶部に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する。紐づけ処理部は、話者人数特定部が特定した話者人数を示す話者人数情報を動画に紐づける。検索受付部は、話者人数を示す話者人数情報を検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけた話者人数情報を参照することにより、検索受付部が受け付けた話者人数情報に一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する。

これにより、所定の記憶部で記憶される動画に対して、話者人数特定部及び紐づけ処理部が、動画中の複数の音声を互いに比較することにより話者人数を特定し、話者人数情報を動画に紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとして話者人数情報を検索者から受け付けることで、動画の実体内容（何人で話をしているのか）を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、動画データがあれば、音声の比較処理により話者人数を抽出するため、利用者が事前に設定すべき情報を省略できる。

本発明は、動画にメタ情報（話者、キーワード、話者人数）を、動画内容を確認することなく関連付けることができ、手動で付加する作業を簡易化できる。また、検索キーとして、話者、キーワード、又は話者人数に関する情報を受け付けることで、動画に紐づけられるメタ情報を参照して、動画の実体内容を加味して所望のデータを容易に検索することができる。

図１は、本実施形態に係る検索システム１である。図２は、本実施形態に係る検索サーバ２及び検索クライアント３のブロック図である。図３は、ユーザ情報５５が登録される登録テーブル３０である。図４は、各種のメタ情報が関連付けられた動画の管理テーブル３２である。図５は、本実施形態に係る検索サーバ２が、話者情報を動画に紐づける紐づけ処理を実行するフローである。図６は、本実施形態に係る検索サーバ２が、話者人数情報を動画に紐づける紐づけ処理を実行するフローである。図７は、本実施形態に係る検索サーバ２が、キーワードを動画に紐づける紐づけ処理を実行するフローである。図８は、本実施形態に係る検索クライアント３で表示される検索設定画面７０を示す図である。図９は、本実施形態に係る検索クライアント３で表示される検索結果画面９０（該当する動画有り）を示す図である。図１０は、本実施形態に係る検索クライアント３で表示される検索結果画面１００（該当する動画なし）を示す図である。図１１は、本実施形態に係る検索サーバ２が実行する検索処理を示すフローである。

＜検索システム１の構成＞
以下、本発明に係る実施形態について、図１を用いて、検索システム１を以下で説明する。検索システム１において、サーバ−クライアント型でシステムが構築されており、各種の動画データを蓄積する検索サーバに対して、各種クライアント端末が所望の動画データを取得するために一連の検索処理を実行する。検索システム１は、検索サーバ２、ＰＣ４、ＰＣ５、携帯端末６、アクセスポイント７、プロジェクタ８、複合機９、及びビデオカメラ１０で構成されており、これらが有線ＬＡＮ、無線ＬＡＮ、及び専用ケーブルで互いに通信可能に接続されている。検索サーバ２をサーバとして、ＰＣ５、ＰＣ５、携帯端末６等をクライアントとして、検索処理が進められる。アクセスポイント７は、携帯端末６と検索システム１との間で両者を相互接続するために、無線ＬＡＮと有線ＬＡＮとのネットワークハブとして機能する。プロジェクタ８は、動画データを含む各種のデータを保有する端末（ＰＣ４、ＰＣ５、携帯端末６等）に通信可能に接続されれば、その端末からデータを受け取って、所定の投影先に自由にサイズを変更しつつ投影できる装置であり、投影に利用する動画データをネットワーク機能を利用して検索システム１の各要素（例えば検索サーバ２）から取得しても良い。複合機９は、画像読取機能、プリント機能、及び各種ネットワーク機能を複合的に備える装置であり、動画を視聴するためのコーデック及び視聴可能なディスプレイを設けることで、例えば、検索サーバ２から動画データを検索して取得し、複合機９で動画を視聴することも可能である。ビデオカメラ１０は、動画撮影を行うと共に撮影動画データを記録し、専用ケーブルを介してＰＣ４又はＰＣ５と接続することで、撮影動画データをＰＣ４又はＰＣ５に転送可能である。

なお、動画データは、時系列に沿った静止画と音声の集合データであり、例えば、複数のフレームデータと音声データで構成され、複数のフレームデータを、基本フレームデータと差分データ（静止画データにおいて基本フレームデータとの間で変化分）とすることで、動画データ容量を低減する効果がある。

＜検索サーバ２と検索クライアント３の構成＞
次に、検索サーバ２及び検索クライアント３のブロック構成について図２を用いて以下で説明する。検索サーバ２は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、ＨＤＤ１５、ＣＯＤＥＣ１７、ネットワークＩ／Ｆ１９、動画解析部２１、紐づけ処理部２３、検索受付部２５、及び検索部２７を相互接続された状態で備えている。ＣＰＵ１１、ＲＯＭ１２、及びＲＡＭ１３に関しては、ＲＯＭ１２に格納されている各種プログラムに基づいて、ＲＡＭ１３をワークメモリとしてＣＰＵ１１が検索サーバ２の制御を実行する。ＨＤＤ１５は、長期で各種データを貯蔵可能であり、登録テーブル３０及び管理テーブル３２や、多数の動画データを記憶している。ＣＯＤＥＣ１７は、主には動画データの符号化及び復号化を行う。ネットワークＩ／Ｆ１９は、検索システム１の端末とネットワークで各種データを授受し合うように構成され、例えば、クライアント端末から検索リクエストを受信し、検索処理結果や動画データをクライアント端末に送信することが可能である。動画解析部２１は、動画データを解析し、具体的には、動画データに含まれる音声を抽出し、音声を解析又は認識することによって、音声同士の類似性を比較したり音声の文字変換を行う。紐づけ処理部２３は、後述する登録テーブル３０及び管理テーブル３２を介して動画にメタ情報を紐づける。検索受付部２５は、クライアント端末から検索要求を受け付けると共に、検索キーとして話者情報、話者人数情報、及びキーワードに関する検索条件の入力を受け付ける。検索部２７は、検索受付部２５が受け付けた検索条件に従い、ＨＤＤ１５に格納される動画群の中で該当する動画を検索する。

検索クライアント３は、検索サーバ２に対して検索条件を指定すると共に検索リクエストを行い、その検索結果を検索サーバ２から受け取ることが可能である。検索クライアント３は、ＣＰＵ４０、ＲＯＭ４１、ＲＡＭ４２、キーボード４５、ディスプレイ４６、ＣＯＤＥＣ４８、及びネットワークＩ／Ｆ５０を備え、検索クライアント３として該当するＰＣ４、ＰＣ５、及び携帯端末６は少なくともこれらの構成要素を含む。なお、検索システム１の構成要素のうちで、プロジェクタ９及び複合機１０も検索クライアント３として機能させても良い。
ＣＰＵ４０、ＲＯＭ４１、及びＲＡＭ４２に関しては、ＲＯＭ４１をプログラムメモリとし、かつＲＡＭ４２をワークメモリとして、例えば、動画を検索する処理、動画を転送する処理、及び他の各種処理をＣＰＵ４０が制御する。キーボード４５には、操作者から例えば検索条件等の情報が入力され、ディスプレイ４６には、検索結果や動画等の情報が画面上に出力される。ＣＯＤＥＣ４８は、情報の符号化及び復号化を行い、ＣＯＤＥＣ４８の対応形式の動画データであれば検索クライアント３のディスプレイ４６で視聴可能である。ネットワークＩ／Ｆ５０は、検索システム１の他要素とネットワークを通じて各種データの送受信を行い、例えば、検索リクエスト、検索条件、及び検索結果に関する情報を検索サーバ２と授受しあう。

検索サーバ２には、予め、以下のように動画データが格納される。検索サーバ２に対して、検索システム１の他要素（ＰＣ４、ＰＣ５、携帯端末６ｅｔｃ）が、保有する動画データをＬＡＮ及び専用ケーブル等のネットワークを通じてネットワークＩ／Ｆを介して動画データを格納する。その他には、検索サーバ２に、ＵＳＢメモリ等の可搬用記憶メディア（不図示）を接続させて、動画データを転送させたり、検索サーバ２がネットワークを通じて自発的に動画データを取得しても良い。

上記のように蓄積された動画データを検索対象として、検索サーバ２は、検索クライアント３から検索要求と共に検索条件（検索キー）の指定を検索受付部２５により受け付けることで、検索条件に基づいてＨＤＤ１５にある動画の検索を検索部２７で実行する。具体的には、検索サーバ２は、検索クライアント３から、話者情報、話者人数情報、又はキーワードに関する検索キーの指定を受けると、これに対応して、話者検索、話者人数検索、及びキーワード検索のいずれかの検索処理を実行する。

本実施形態では、検索処理では、指定された検索条件と合致している動画データであるか否かを判別するために、動画データにメタ情報が作成される。検索サーバ２は、紐づけ処理部２３によって各動画データに応じたメタ情報を作成し、管理テーブル３２により動画と共に管理し、検索部２７によって検索条件と動画との類似性を管理テーブル３２のメタ情報に依拠して判別している。

＜話者情報の紐づけ処理＞
検索サーバ２は、話者検索、話者人数検索、及びキーワード検索に対応するために、動画データに対して、話者情報、話者人数情報、及びキーワードをそれぞれ紐づけておく必要がある。話者情報を紐づける場合について、図３及び図５を用いて以下で説明する。検索サーバ２は、ＨＤＤ１５に格納される動画群のうち対象の動画データを選択し、動画データに含まれる音声を動画解析部２１により抽出する（ステップ１）。続いて、検索サーバ２は、図３の登録テーブル３０を参照し、ユーザ情報５５が登録されているか判定し（ステップ２）、ユーザ情報５５が登録されていなければ紐づけ処理を終了する。

ここで、登録テーブル３０は、検索サーバ２のＨＤＤ１５に格納され、ＰＣ４、ＰＣ５、又は携帯端末６から検索サーバ２にアクセスすることで、後述するユーザ情報５５を登録テーブル３０に登録することができる。登録テーブル３０には、１つのレコードとして１つのユーザ情報５５が登録され、ユーザ情報５５にユーザー名５７、ユーザパスワード５８、及び音声ファイル名５９が含まれている。音声ファイル名５９は、適宜の記憶エリアに記憶される音声データのファイル名を示し、音声データとして、ユーザ情報５５（ユーザ名５７）で示される人物の発話音声が記録されている。本実施形態では、管理テーブル３２で管理される話者情報としてユーザー名５７が取り扱われるが、これに限らず、ユーザーを特定するユーザー番号、ユーザーの使用する端末に関してＩＰアドレスやＭＡＣアドレスを話者情報とすることも可能である。

なお、登録テーブル３０の登録処理は、動画データから音声を抽出して適宜の記憶エリアに記憶させておき、この抽出音声（ファイル名）をユーザ情報登録者が一覧できるように登録テーブル３０で管理しておく。ユーザ情報登録者は、検索システム１の各種端末から登録テーブル３０を参照し、抽出音声（話者の発話音声）の一覧から音声を再生しながら実際に聞き比べ、対象の音声に対してユーザー名５７及びそのユーザパスワード５８を追記することで、登録テーブル３０上でユーザ情報５５を完成させる。これにより、検索対象となり得る動画データから音声を抽出し、その後に、ユーザー名５７及びユーザパスワード５８をユーザ情報登録者に追記してもらうだけであるため、音声登録を省力化できる。

ステップ２の判定の結果、ユーザ情報５５が登録されていれば、動画解析部２１は、抽出音声と一致するユーザ情報５５が登録テーブル３０に含まれるか判定する（ステップ３）。具体的には、検索サーバ２は、ユーザ情報５５の音声ファイル名に対応する音声ファイルを取得し、その音声ファイルの音声と抽出音声とを動画解析部２１により比較することで、両音声が合致しているか判定する。判定方法として、例えば、音声ファイルの音声特徴と抽出音声の音声特徴を比較することで類似度を求め、この類似度が閾値より高い場合に、合致しているとみなす。登録テーブル３０に含まれていない場合には、紐づけ処理を終了し、登録テーブル３０に含まれている場合に、対象の動画とユーザ名５７（ユーザ情報５）を紐づけ処理部２３が紐づけ、管理テーブル３２（図４を参照）に１つのレコードとして記録する（ステップ４）。

なお、検索サーバ２は、所定のタイミングで、ＨＤＤ１５内の動画データを順次サーチし、対象動画が選択された後で、図５の示すフローが実行されるが、ＨＤＤ１５内に新規の動画データが格納される都度で、その新規の動画データを対象に、図５で示すフローが実行されるようにしても良い。

管理テーブル３２は、ＨＤＤ１５内に格納されており、各動画データの動画メタ情報６５が複数レコード分記録可能に構成されて、検索部２７が検索条件に合致する動画を検索するために参照される。管理テーブル３２では、１つの紐づけ処理で１つの動画メタ情報６８が記録され、動画メタ情報６５には、動画ファイル名６６、検索種別６７、登録検索情報６８、及び再生時間６９が含まれる。動画ファイル名６６は、ＨＤＤ１５等の所定の記録エリアに格納される動画データのファイル名を示し、検索種別６７は、動画に関連付けられている登録検索情報６８の種別を示し、具体的には、話者、人数、及び文字のうちいずれかの種別が指定されている。登録検索情報６８は、検索部２７が検索条件と合致するか否かを判定するために参照される検索情報であり、話者情報（ユーザ名５７）、話者人数情報、及びキーワードが含まれる。検索種別６７である話者、人数、及び文字に対応する検索情報として、話者情報、話者人数情報、及びキーワードのいずれかの情報が動画メタ情報６５において指定されている。再生時間６９は、検索条件としてキーワードが指定された場合（検索種別６７が文字）に登録される情報であり、そのキーワードに関する音声（話者の発話）の再生時間を示す。

＜話者人数情報の紐づけ処理＞
話者人数情報の紐づけ処理を、図６を用いて以下で説明する。検索サーバ２は、対象動画が選択された後に、動画解析部２１により動画データから音声を抽出し（ステップ１１）、抽出音声の解析を行う（ステップ１２）。具体的には、動画解析部２１は、同一の動画データで既に抽出済みの音声と音声波形を比較することにより抽出音声と抽出済みの音声との類似性を判別する。ステップ１２の解析結果に基づいて、検索サーバ２は、今回の抽出音声が抽出済みの音声と異なる音声（新規な音声）であるか否かを判定し（ステップ１３）、新規な音声であれば、動画データに初登場する人間の発話音声とみなして、人数をカウントし（ステップ１４）、動画データに抽出すべき音声の存否を判定する（ステップ１５）。新規な音声がなければ、ステップ１５に移行する。ステップ１５では、抽出すべき音声が存在しなければ、ステップ１１〜ステップ１４を後判定繰り返し処理としながら、新規な抽出音声が動画データに発見される度に、人数を累積でカウントしていく。一方、ステップ１５で、検索サーバ２は、抽出すべき音声が存在しなければ、紐づけ処理部２１が、管理テーブル３２において、動画データと話者人数（累積のカウント人数）を紐づける（ステップ１６）。具体的には、紐づけ処理部２１は、対象の動画ファイル名６６及び検索種別６７と共に、１つの動画メタ情報６５として話者人数を管理テーブル３２にレコード追加する。

＜キーワードの紐づけ処理＞
キーワードの紐づけ処理を、図７を用いて以下で説明する。検索サーバ２は、対象動画が選択された後に、動画解析部２１により、動画データから音声を抽出した後に（ステップ２１）、抽出音声を認識してキーワード（文字データ）として抽出する（ステップ２２）。続いて、紐づけ処理部２１は、キーワードを動画データに紐づけるために、対象の動画ファイル名６６、検索種別６７、再生時間と共に１つの動画メタ情報６５として管理テーブル３２にレコードを追加する。（ステップ２３）。なお、検索種別６７は、例えば、図５〜７のどの紐づけ処理を実行しているのかで特定でき、再生時間は、キーワードが発話されている再生時間を記憶しておき、管理テーブル３２に記録することが可能である。

＜検索処理＞
図５〜７で示す紐づけ処理により、動画データに話者情報、話者人数情報、及びキーワードをそれぞれ動画のメタ情報として関連付けておくことで、動画の検索対象として追加される。以下で、一連の検索処理を図８〜図１１を用いて説明する。まずは、検索クライアント３は、図８で示す検索設定画面７０を開き、検索設定画面７０で必要な検索条件を設定した上で、実行ボタン８４を押下する。これにより、検索サーバ２に対して、検索設定画面７０に基づいて、設定の検索条件に基づく検索リクエストが通知される。検索設定画面７０では、検索種別７２として、キーワード検索、話者検索、及び話者人数検索のいずれかが指定可能であり、検索文字列７６には、検索条件として自由に文字列が入力される。例えば、検索種別７２にキーワード検索が指定されると共に、「開発発表会」が検索キーワードで入力されたり、検索種別７２に話者検索が指定されると共に、「情報進」が検索話者の氏名として入力されたり、検索種別７２に話者人数検索が指定されると共に、「６」（話者人数の数字）が入力される。なお、検索自体を中止したい場合には、キャンセルボタン８６を押下すれば、検索設定画面７０をクローズすると共に、検索設定が中止される。

また、検索条件の指定を文字列でなく音声とすることも可能である。例えば、図８の検索設定画面７０において、検索種別７２に話者検索を選択する場合、参照ボタン８２を押下することで、検索クライアント３又は他装置に格納されている音声データを、話者情報として入力し、検索音声とする。この場合には、音声データの音声特徴、或いは、発話されている話者氏名等を話者情報として識別される。なお、設定後には、参照ボタン８２の右欄に、音声データの格納アドレスが表示される。検索種別７２にキーワード検索や話者人数検索を選択する場合、参照ボタン８２を介して入力される音声データを検索音声とし、この音声データ中に、キーワードや話者人数に関する発話情報が含まれる。

一方、検索サーバ２は、検索クライアント３から検索リクエストをネットワークＩ／Ｆ１９を介して受信したか否かを常時判定しており（ステップ３１）、受信していなければこの処理が繰り返され、受信していれば検索処理が開始される。検索処理の開始の際に、検索リクエストに含まれる検索種別７２を参照することで、どの検索種別６７であるかを判定する（ステップ３２〜３４）。具体的には、キーワード検索、話者人数検索、及び話者検索であるか否かをそれぞれこの順で逐次判別していく。該当する検索種別７２があれば、各々検索条件に従い、キーワード検索、話者人数検索、及び話者検索をそれぞれ実行する（ステップ３６〜３８）。その後に、検索結果を、検索クライアント３に提示するために、検索結果画面データ（図９、図１０を参照）を検索クライアント３に返信する（ステップ４０）。

検索クライアント３は、検索結果画面データに基づいてディスプレイ４６に検索結果画面９０，１００を表示し、検索利用者は検索結果を確認することができる。例えば、検索の結果、該当する動画が存在する場合には、図９で示す検索結果画面９０の通り、動画ファイル名６６が表示され、検索サーバ２から動画データを取得するか否かをＹＥＳボタン９２又はＮＯボタン９４で選択することが可能である。ＹＥＳボタン９２を検索利用者が押下すれば、検索サーバ２に対して検索クライアント３が動画データを要求し、検索サーバ２がその要求に応じて該当する動画データを検索クライアント２に送信する。ＮＯボタン９４を検索利用者が押下した場合には、動画データを取得することなく、検索の結果だけ確認して検索処理を終了する。また、検索クライアント３において、検索の結果、該当する動画が存在しなかった場合には、図１０で示すような検索結果画面１００が表示され、再度、検索条件を変更して再検索を行うか否かを、ＹＥＳボタン１０２又はＮＯボタン１０４により選択することが可能である。検索利用者がＹＥＳボタン１０２を押下すれば、図８で示す検索結果画面７０がディスプレイ４６に表示され、再度検索設定を行うことができ、検索利用者がＮＯボタン１０４を押下すれば、再検索をせずに検索処理を終了する。

なお、本実施形態については、下記のように表現することが可能である。検索サーバ２は、動画解析部２１、紐づけ処理部２３、検索受付部２５、検索部２７、及びネットワークＩ／Ｆ１９を含む。動画解析部２１は、音声を含む動画と、特定の話者が発する音声情報（音声ファイル名５９を示す音声ファイル）と、特定の話者を示すと共に音声情報（音声ファイル名５９を示す音声ファイル）と関連付けられるユーザ名５７とが記憶されるＨＤＤ１５から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する。紐づけ処理部２３は、動画解析部２１が比較した結果、動画の音声が音声情報と合致する場合、音声情報に関連付けられるユーザ名５７を、（登録検索情報６８として）動画に紐づける。検索受付部２５は、特定の話者を示す話者情報（検索設定画面７０の検索文字列７６又は参照ボタン８２を介して入力される話者情報）を検索キーとして検索者から受け付ける。検索部２７は、紐づけ処理部２３が動画に紐づけた登録検索情報６８（ユーザ名５７）を参照することにより、検索受付部２５が受け付けた話者情報と一致する動画を検索する。ネットワークＩ／Ｆ１９は、検索部２７が検索した結果、一致する動画が存在する場合には、検索結果画面９０（動画データ）を検索者に提示する。

また、本実施形態の別の観点として下記のようにも表現することが可能である。即ち、検索サーバ２は、動画解析部２１、紐づけ処理部２３、検索受付部２５、検索部２７、及びネットワークＩ／Ｆ１９を含む。動画解析部２１は、ＨＤＤ１５に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出する。紐づけ処理部２３は、（登録検索情報６８として）動画解析部２１が抽出したキーワードを動画に紐づける。検索受付部２５は、キーワード（検索設定画面７０の検索文字列７６又は参照ボタン８２を介して入力されるキーワード）を検索キーとして検索者から受け付ける。検索部２７は、紐づけ処理部２３が動画に紐づけた登録検索情報６８を参照することにより、検索受付部２５が受け付けたキーワードと一致する動画を検索する。ネットワークＩ／Ｆ１９は、検索部２７が検索した結果、一致する動画が存在する場合には、検索結果画面９０（動画データ）を検索者に提示する。

また、本実施形態の別の観点として下記のようにも表現することが可能である。即ち、検索サーバ２は、動画解析部２１、紐づけ処理部２３、検索受付部２５、検索部２７、及びネットワークＩ／Ｆ１９を含む。動画解析部２１は、ＨＤＤ１５に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する。紐づけ処理部２３は、動画解析部２１を特定した話者人数を、（登録検索情報６８として）動画に紐づける。検索受付部２５は、話者人数を（検索設定画面７０の検索文字列７６又は参照ボタン８２を介して入力される話者人数）を検索キーとして検索者から受け付ける。検索部２７は、紐づけ処理部２３が動画に紐づけた話者人数を参照することにより、検索受付部２５が受け付けた話者人数に一致する動画を検索する。ネットワークＩ／Ｆ１９は、検索部２７が検索した結果、一致する動画が存在する場合には、検索結果画面９０（動画データ）を検索者に提示する。

＜各種の他実施形態＞
本実施形態では、話者情報、話者人数情報、及びキーワードを動画データに紐づけ、これらの情報に関する入力を検索条件とすることで、動画の存否に関する検索結果を提示する点を述べたが、動画データ中の再生開始時間（再生タイミング）を検索結果で提示するとなお良い。つまり、検索サーバ２において、管理テーブル３２で再生時間６９（再生タイミング）が紐づけられているならば、検索受付部２５が受け付けたキーワードに従い、検索部２７が検索した結果、該当する動画データが存在するときには、管理テーブル３２を介して動画に紐づけられる再生タイミングを検索結果として検索者に提示する。このようにすると、検索者は、再生ポイントを動画の中で探す必要がない。なお、本実施形態では、検索種別６７が文字である場合に、管理テーブル３２で動画に再生時間６９を紐づけたが、これに限らず、検索種別６７が話者である場合でも、管理テーブル３２で動画に再生時間６９を紐づけても良く、検索受付部２５が受け付けた話者情報に基づき、検索部２７が検索した結果、管理テーブル３２で再生タイミングを抽出して、検索結果として提示することも可能である。

なお、管理テーブル３２に紐づけるために、動画から再生タイミング（再生時間６９）を抽出する場合、その方法として、動画データに含まれる音声ファイル（動画の全再生時間に対応する１つのファイル）から再生タイミングを抽出する。例えば、動画データに話者情報を紐づける場合には、以下のように行う。つまり、動画解析部２１が、音声ファイル名５９が示す音声ファイルと動画データの音声ファイルとを用いて音声比較を行い、両者が合致するとき、動画データの音声ファイルにおけるその合致時間を再生タイミングとして抽出する。動画データにキーワードを紐づける場合には、動画解析部２１が、動画データの音声ファイルから音声認識することによって、動画データの音声ファイルにおける音声認識した時間を再生タイミングとして抽出する。ただし、動画データに話者人数情報を紐づける場合には、再生タイミングを抽出することは困難である。つまり、ある任意の時刻において、音声ファイルから抽出する音声は、例えば複数名の発話音声が含まれていても、これらの音声が合成された１つの音声波形として表現されている。従って、本発明では、話者人数情報を動画に紐づける場合には、その動画の全再生時間に渡って登場する話者人数を紐づけ、ある１時点での話者人数は取り扱わない。

また、本発明には、本実施形態とは別に、以下のような形態も含まれる。
１．管理テーブル３２を用いて動画データと動画メタ情報６５を紐づけて管理せずに、例えば、動画データに動画メタ情報６５を直接付加しても良い。２．検索対象の動画データを、検索サーバ２のＨＤＤ１５以外の記憶部（検索サーバ２の内外問わず）に記憶しても良い。同様に、登録テーブル３０及び管理テーブル３２を、検索サーバ２のＨＤＤ１５以外の記憶部（検索サーバ２の内外問わず）に記憶させても良い。音声ファイル名５７が示す音声データも、ＨＤＤ１５でもそれ以外の記憶部に記憶させても良い。以上のように、動画データ、登録テーブル３０、管理テーブル３２、及び音声ファイル名５７が示す音声ファイルに関して、同一の記憶部に制限されず、互いに異なる任意の記憶部にそれぞれ記憶させても良い。
２．クライアント−サーバ型ではなく、組み込み型で検索装置を構成しても良い。その場合には、検索装置が、検索利用者から直接検索リクエスト及び検索条件を受け付けると共に、検索結果を提示するＵＩ画面を提供する。
３．管理テーブル３２及び登録テーブル３０の項目は一例であり、これに限定されない。
４．ユーザ名５７はテキスト情報である必要もなく、画像情報又は音声情報であることが許容される。例えば、ユーザ名を示す画像データを音声ファイルと共に登録テーブル３０で管理する場合、音声ファイルと動画の音声とが合致するときに、紐づけ処理部２３は、音声ファイルを介して、画像データ（ユーザ名）を動画に紐づける。

以下の形態は、本発明の周辺技術を構成するが、本発明には含まれない
１．動画から画像（人の顔、物体）を検出し、検出画像を動画と紐づけて記憶しておき、動画検索時に画像データが検索キーとして入力されたとき、記憶している顔画像を参照して動画を検索する。
２．動画から画像を抽出し、抽出画像にＯＣＲ処理を施すことで取得した文字情報と動画とを紐づけて記憶しておき、動画検索時にキーワードが検索キーで入力されたとき、記憶している文字情報を参照して動画を検索する。
３．動画から抽出した顔画像を一覧で保存した後に、顔画像が示す人物の個人情報を顔画像に関連付けて利用者がテーブルに登録しておく。動画にメタ情報を紐づける際には、対象の動画から顔画像を検出し、この顔画像と合致する顔画像がテーブルに存在すれば、顔画像に対応する個人情報を動画に紐づける。この紐づけ処理は、顔画像を介して、動画と個人情報を紐づける方法だが、動画には全再生時間に渡ってフレーム画像が存在するため、動画の全再生時間を対象に、動画に含まれる顔画像を検出し続ける必要があり、紐づけ処理の負荷が大きいデメリットが考えられる。

１検索システム、２検索サーバ、３検索クライアント、１９ネットワークＩ／Ｆ、２１動画解析部、２３紐づけ処理部、２５検索受付部、２７検索部、３０登録テーブル、３２管理テーブル

Claims

音声を含む動画と、特定の話者が発する音声情報と、当該特定の話者を示すと共に当該音声情報と関連付けられる話者情報とが記憶される所定の記憶部から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する音声比較部と、
前記音声比較部が比較した結果、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報を、当該動画に紐づける紐づけ処理部と、
特定の話者を示す話者情報を検索キーとして検索者から受け付ける検索受付部と、
前記紐づけ処理部が動画に紐づけた話者情報を参照することにより、前記検索受付部が受け付けた話者情報と一致する動画を検索する検索部と、
前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。
前記紐づけ処理部は、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報と、動画において当該音声情報に合致する音声が再生される再生タイミングとを動画に紐づけ、
前記検索結果提示部は、前記検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する、請求項１に記載の検索装置。
所定の記憶部に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出するキーワード抽出部と、
前記キーワード抽出部が抽出したキーワードを動画に紐づける紐づけ処理部と、
キーワードを検索キーとして検索者から受け付ける検索受付部と、
前記紐づけ処理部が動画に紐づけたキーワードを参照することにより、前記検索受付部が受け付けたキーワードと一致する動画を検索する検索部と、
前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。
前記紐づけ処理部は、前記キーワード抽出部が抽出したキーワードと、動画において当該キーワードに対応する音声が再生される再生タイミングとを動画に紐づけ、
前記検索結果提示部は、前記検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する、請求項３に記載の検索装置。
所定の記憶部に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する話者人数特定部と、
前記話者人数特定部が特定した話者人数を示す話者人数情報を動画に紐づける紐づけ処理部と、
話者人数を示す話者人数情報を検索キーとして検索者から受け付ける検索受付部と、
前記紐づけ処理部が動画に紐づけた話者人数情報を参照することにより、前記検索受付部が受け付けた話者人数情報に一致する動画を検索する検索部と、
前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。