JP2017021672A - 検索装置 - Google Patents

検索装置 Download PDF

Info

Publication number
JP2017021672A
JP2017021672A JP2015140109A JP2015140109A JP2017021672A JP 2017021672 A JP2017021672 A JP 2017021672A JP 2015140109 A JP2015140109 A JP 2015140109A JP 2015140109 A JP2015140109 A JP 2015140109A JP 2017021672 A JP2017021672 A JP 2017021672A
Authority
JP
Japan
Prior art keywords
search
moving image
unit
information
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015140109A
Other languages
English (en)
Inventor
俊成 縣
Toshinari Agata
俊成 縣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Original Assignee
Murata Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd filed Critical Murata Machinery Ltd
Priority to JP2015140109A priority Critical patent/JP2017021672A/ja
Publication of JP2017021672A publication Critical patent/JP2017021672A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 本発明では、動画のメタ情報を容易に作成すること可能であり、所望の動画を検索可能な検索装置を提供する事を目的とする。【解決手段】 検索装置は、音声比較部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。音声比較部は、動画と、特定の話者を示す音声情報及び話者情報とが記憶される所定の記憶部から、動画と音声情報とを取得し、音声情報と動画の音声とを比較する。紐づけ処理部は、音声比較部が比較して動画の音声が音声情報と合致する場合、音声情報に対応する話者情報を動画に紐づける。検索受付部は、特定の話者を示す話者情報を検索者から受け付ける。検索部は、動画に紐づけた話者情報を参照して、検索受付部が受け付けた話者情報と一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、動画を検索者に提示する。【選択図】 図11

Description

本発明は、動画を検索する検索装置に関する。
従来から、多数の動画を蓄積し、例えばPC等の各種端末からのリクエストを受けて動画を検索する検索装置は存在する。検索装置は、端末から検索リクエストを受け付けると、指定の検索キーワードを用いて、動画のメタ情報を参照しながら該当する動画を検索し、検索結果をリクエスト元の端末に提示する。
しかしながら、動画を検索するためには、動画にメタ情報を手動で紐づけておく必要がある。ここで、特許文献1では、上記の問題に着目した音声検索装置が開示され、この音声検索装置では、検索キーを音声として受け付け、音声特徴の類似度比較により目的の音声データを検索する。これにより、直接、音声データを検索することが可能であるため、メタ情報を作成する必要がなくなる。また、特許文献1の音声検索装置は、検索キーをテキストとして受け付けることも可能であり(話者氏名の情報が検索キーとして入力される)、この場合には、音声データの属性情報(テキスト情報)と検索キーのテキストとを比較し、合致した音声データを抽出する。
特開平11−282857号公報
しかしながら、特許文献1の音声検索装置では、検索キーを音声とする場合、検索対象の音声データを都度解析する必要があり、検索処理の負荷が大きくなってしまう。一方、検索キーをテキストとする場合、音声データの属性情報とテキストベースで比較しているが、特許文献1には、音声データの属性情報をどのように付加するのか記載されていない。従って、音声データの属性情報を参照して検索処理を実行する場合には、依然、音声データに対して属性情報を付加する作業が要求される。なお、この音声検索装置は、そもそも動画を検索する装置でもない。本発明は、動画のメタ情報を容易に作成することが可能であり、かつ、所望の動画を検索可能な検索装置を提供する事を目的とする。
本発明の第1の観点に係る検索装置は、以下のように構成される。即ち、検索装置は、音声比較部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。音声比較部は、音声を含む動画と、特定の話者が発する音声情報と、当該特定の話者を示すと共に当該音声情報と関連付けられる話者情報とが記憶される所定の記憶部から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する。紐づけ処理部は、音声比較部が比較した結果、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報を、当該動画に紐づける。検索受付部は、特定の話者を示す話者情報を検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけた話者情報を参照することにより、検索受付部が受け付けた話者情報と一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する。
これにより、所定の記憶部に、話者を特定できる音声情報及び話者情報が格納されていれば、音声情報を介して動画と話者情報とを紐づけ処理部が紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとして話者を特定可能な話者情報を検索者から受け付けることで、動画の実体内容(誰が話をしているのか)を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、音声を介して動画とテキストを紐づけるため、例えば、画像を介して動画とテキストを紐づける態様と比較して、動画の全再生時間に渡って音声比較をせずとも良く(画像(フレーム)は動画中に常に登場するが、音声は動画中にスポット的に出現するため)、動画と個人情報の紐づけ処理を高速化することが可能である。
本発明に係る検索装置は、更に以下のように構成すると望ましい。つまり、紐づけ処理部は、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報と、動画において当該音声情報に合致する音声が再生される再生タイミングとを動画に紐づける。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、動画に紐づけられる再生タイミングを検索者に提示する。
これにより、キーワードの検索キーに一致する動画が存在すれば、その動画に紐づけられる再生タイミングが検索者に提示されるため、動画のどの時間を再生すべきか探す必要がない。
本発明の第2の観点に係る検索装置は、以下のように構成しても良い。つまり、検索装置は、キーワード抽出部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。キーワード抽出部は、所定の記憶部に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出する。紐づけ処理部は、キーワード抽出部が抽出したキーワードを動画に紐づける。検索受付部は、キーワードを検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけたキーワードを参照することにより、検索受付部が受け付けたキーワードと一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する
これにより、所定の記憶部に記憶される動画に対して、紐づけ処理部が、音声を認識することでキーワードを抽出し動画に紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとしてキーワードを検索者から受け付けることで、動画の実体内容(何を話をしているのか)を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、動画データがあれば、音声認識を用いてキーワードを抽出するため、利用者が事前に設定すべき情報を省略できる。
本発明に係る検索装置は、更に以下のように構成すると望ましい。つまり、紐づけ処理部は、キーワード抽出部が抽出したキーワードと、動画において当該キーワードに対応する音声が再生される再生タイミングとを動画に紐づける。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する。
これにより、キーワードの検索キーに一致する動画が存在すれば、その動画に紐づけられる再生タイミングが検索者に提示されるため、動画のどの時間を再生すべきか探す必要がない。
本発明の第3の観点に係る検索装置は、以下のように構成しても良い。つまり、検索装置は、話者人数特定部、紐づけ処理部、検索受付部、検索部、及び検索結果提示部を含む。話者人数特定部は、所定の記憶部に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する。紐づけ処理部は、話者人数特定部が特定した話者人数を示す話者人数情報を動画に紐づける。検索受付部は、話者人数を示す話者人数情報を検索キーとして検索者から受け付ける。検索部は、紐づけ処理部が動画に紐づけた話者人数情報を参照することにより、検索受付部が受け付けた話者人数情報に一致する動画を検索する。検索結果提示部は、検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する。
これにより、所定の記憶部で記憶される動画に対して、話者人数特定部及び紐づけ処理部が、動画中の複数の音声を互いに比較することにより話者人数を特定し、話者人数情報を動画に紐づけるため、利用者が動画内容を確認しながらメタ情報を付加しなくても良く、メタ情報の作成作業が簡略化される。また、検索キーとして話者人数情報を検索者から受け付けることで、動画の実体内容(何人で話をしているのか)を考慮に入れつつも、処理負荷が少ない動画検索が可能である。更に、動画データがあれば、音声の比較処理により話者人数を抽出するため、利用者が事前に設定すべき情報を省略できる。
本発明は、動画にメタ情報(話者、キーワード、話者人数)を、動画内容を確認することなく関連付けることができ、手動で付加する作業を簡易化できる。また、検索キーとして、話者、キーワード、又は話者人数に関する情報を受け付けることで、動画に紐づけられるメタ情報を参照して、動画の実体内容を加味して所望のデータを容易に検索することができる。
図1は、本実施形態に係る検索システム1である。 図2は、本実施形態に係る検索サーバ2及び検索クライアント3のブロック図である。 図3は、ユーザ情報55が登録される登録テーブル30である。 図4は、各種のメタ情報が関連付けられた動画の管理テーブル32である。 図5は、本実施形態に係る検索サーバ2が、話者情報を動画に紐づける紐づけ処理を実行するフローである。 図6は、本実施形態に係る検索サーバ2が、話者人数情報を動画に紐づける紐づけ処理を実行するフローである。 図7は、本実施形態に係る検索サーバ2が、キーワードを動画に紐づける紐づけ処理を実行するフローである。 図8は、本実施形態に係る検索クライアント3で表示される検索設定画面70を示す図である。 図9は、本実施形態に係る検索クライアント3で表示される検索結果画面90(該当する動画有り)を示す図である。 図10は、本実施形態に係る検索クライアント3で表示される検索結果画面100(該当する動画なし)を示す図である。 図11は、本実施形態に係る検索サーバ2が実行する検索処理を示すフローである。
<検索システム1の構成>
以下、本発明に係る実施形態について、図1を用いて、検索システム1を以下で説明する。検索システム1において、サーバ−クライアント型でシステムが構築されており、各種の動画データを蓄積する検索サーバに対して、各種クライアント端末が所望の動画データを取得するために一連の検索処理を実行する。検索システム1は、検索サーバ2、PC4、PC5、携帯端末6、アクセスポイント7、プロジェクタ8、複合機9、及びビデオカメラ10で構成されており、これらが有線LAN、無線LAN、及び専用ケーブルで互いに通信可能に接続されている。検索サーバ2をサーバとして、PC5、PC5、携帯端末6等をクライアントとして、検索処理が進められる。アクセスポイント7は、携帯端末6と検索システム1との間で両者を相互接続するために、無線LANと有線LANとのネットワークハブとして機能する。プロジェクタ8は、動画データを含む各種のデータを保有する端末(PC4、PC5、携帯端末6等)に通信可能に接続されれば、その端末からデータを受け取って、所定の投影先に自由にサイズを変更しつつ投影できる装置であり、投影に利用する動画データをネットワーク機能を利用して検索システム1の各要素(例えば検索サーバ2)から取得しても良い。複合機9は、画像読取機能、プリント機能、及び各種ネットワーク機能を複合的に備える装置であり、動画を視聴するためのコーデック及び視聴可能なディスプレイを設けることで、例えば、検索サーバ2から動画データを検索して取得し、複合機9で動画を視聴することも可能である。ビデオカメラ10は、動画撮影を行うと共に撮影動画データを記録し、専用ケーブルを介してPC4又はPC5と接続することで、撮影動画データをPC4又はPC5に転送可能である。
なお、動画データは、時系列に沿った静止画と音声の集合データであり、例えば、複数のフレームデータと音声データで構成され、複数のフレームデータを、基本フレームデータと差分データ(静止画データにおいて基本フレームデータとの間で変化分)とすることで、動画データ容量を低減する効果がある。
<検索サーバ2と検索クライアント3の構成>
次に、検索サーバ2及び検索クライアント3のブロック構成について図2を用いて以下で説明する。検索サーバ2は、CPU11、ROM12、RAM13、HDD15、CODEC17、ネットワークI/F19、動画解析部21、紐づけ処理部23、検索受付部25、及び検索部27を相互接続された状態で備えている。CPU11、ROM12、及びRAM13に関しては、ROM12に格納されている各種プログラムに基づいて、RAM13をワークメモリとしてCPU11が検索サーバ2の制御を実行する。HDD15は、長期で各種データを貯蔵可能であり、登録テーブル30及び管理テーブル32や、多数の動画データを記憶している。CODEC17は、主には動画データの符号化及び復号化を行う。ネットワークI/F19は、検索システム1の端末とネットワークで各種データを授受し合うように構成され、例えば、クライアント端末から検索リクエストを受信し、検索処理結果や動画データをクライアント端末に送信することが可能である。動画解析部21は、動画データを解析し、具体的には、動画データに含まれる音声を抽出し、音声を解析又は認識することによって、音声同士の類似性を比較したり音声の文字変換を行う。紐づけ処理部23は、後述する登録テーブル30及び管理テーブル32を介して動画にメタ情報を紐づける。検索受付部25は、クライアント端末から検索要求を受け付けると共に、検索キーとして話者情報、話者人数情報、及びキーワードに関する検索条件の入力を受け付ける。検索部27は、検索受付部25が受け付けた検索条件に従い、HDD15に格納される動画群の中で該当する動画を検索する。
検索クライアント3は、検索サーバ2に対して検索条件を指定すると共に検索リクエストを行い、その検索結果を検索サーバ2から受け取ることが可能である。検索クライアント3は、CPU40、ROM41、RAM42、キーボード45、ディスプレイ46、CODEC48、及びネットワークI/F50を備え、検索クライアント3として該当するPC4、PC5、及び携帯端末6は少なくともこれらの構成要素を含む。なお、検索システム1の構成要素のうちで、プロジェクタ9及び複合機10も検索クライアント3として機能させても良い。
CPU40、ROM41、及びRAM42に関しては、ROM41をプログラムメモリとし、かつRAM42をワークメモリとして、例えば、動画を検索する処理、動画を転送する処理、及び他の各種処理をCPU40が制御する。キーボード45には、操作者から例えば検索条件等の情報が入力され、ディスプレイ46には、検索結果や動画等の情報が画面上に出力される。CODEC48は、情報の符号化及び復号化を行い、CODEC48の対応形式の動画データであれば検索クライアント3のディスプレイ46で視聴可能である。ネットワークI/F50は、検索システム1の他要素とネットワークを通じて各種データの送受信を行い、例えば、検索リクエスト、検索条件、及び検索結果に関する情報を検索サーバ2と授受しあう。
検索サーバ2には、予め、以下のように動画データが格納される。検索サーバ2に対して、検索システム1の他要素(PC4、PC5、携帯端末6 etc)が、保有する動画データをLAN及び専用ケーブル等のネットワークを通じてネットワークI/Fを介して動画データを格納する。その他には、検索サーバ2に、USBメモリ等の可搬用記憶メディア(不図示)を接続させて、動画データを転送させたり、検索サーバ2がネットワークを通じて自発的に動画データを取得しても良い。
上記のように蓄積された動画データを検索対象として、検索サーバ2は、検索クライアント3から検索要求と共に検索条件(検索キー)の指定を検索受付部25により受け付けることで、検索条件に基づいてHDD15にある動画の検索を検索部27で実行する。具体的には、検索サーバ2は、検索クライアント3から、話者情報、話者人数情報、又はキーワードに関する検索キーの指定を受けると、これに対応して、話者検索、話者人数検索、及びキーワード検索のいずれかの検索処理を実行する。
本実施形態では、検索処理では、指定された検索条件と合致している動画データであるか否かを判別するために、動画データにメタ情報が作成される。検索サーバ2は、紐づけ処理部23によって各動画データに応じたメタ情報を作成し、管理テーブル32により動画と共に管理し、検索部27によって検索条件と動画との類似性を管理テーブル32のメタ情報に依拠して判別している。
<話者情報の紐づけ処理>
検索サーバ2は、話者検索、話者人数検索、及びキーワード検索に対応するために、動画データに対して、話者情報、話者人数情報、及びキーワードをそれぞれ紐づけておく必要がある。話者情報を紐づける場合について、図3及び図5を用いて以下で説明する。検索サーバ2は、HDD15に格納される動画群のうち対象の動画データを選択し、動画データに含まれる音声を動画解析部21により抽出する(ステップ1)。続いて、検索サーバ2は、図3の登録テーブル30を参照し、ユーザ情報55が登録されているか判定し(ステップ2)、ユーザ情報55が登録されていなければ紐づけ処理を終了する。
ここで、登録テーブル30は、検索サーバ2のHDD15に格納され、PC4、PC5、又は携帯端末6から検索サーバ2にアクセスすることで、後述するユーザ情報55を登録テーブル30に登録することができる。登録テーブル30には、1つのレコードとして1つのユーザ情報55が登録され、ユーザ情報55にユーザー名57、ユーザパスワード58、及び音声ファイル名59が含まれている。音声ファイル名59は、適宜の記憶エリアに記憶される音声データのファイル名を示し、音声データとして、ユーザ情報55(ユーザ名57)で示される人物の発話音声が記録されている。本実施形態では、管理テーブル32で管理される話者情報としてユーザー名57が取り扱われるが、これに限らず、ユーザーを特定するユーザー番号、ユーザーの使用する端末に関してIPアドレスやMACアドレスを話者情報とすることも可能である。
なお、登録テーブル30の登録処理は、動画データから音声を抽出して適宜の記憶エリアに記憶させておき、この抽出音声(ファイル名)をユーザ情報登録者が一覧できるように登録テーブル30で管理しておく。ユーザ情報登録者は、検索システム1の各種端末から登録テーブル30を参照し、抽出音声(話者の発話音声)の一覧から音声を再生しながら実際に聞き比べ、対象の音声に対してユーザー名57及びそのユーザパスワード58を追記することで、登録テーブル30上でユーザ情報55を完成させる。これにより、検索対象となり得る動画データから音声を抽出し、その後に、ユーザー名57及びユーザパスワード58をユーザ情報登録者に追記してもらうだけであるため、音声登録を省力化できる。
ステップ2の判定の結果、ユーザ情報55が登録されていれば、動画解析部21は、抽出音声と一致するユーザ情報55が登録テーブル30に含まれるか判定する(ステップ3)。具体的には、検索サーバ2は、ユーザ情報55の音声ファイル名に対応する音声ファイルを取得し、その音声ファイルの音声と抽出音声とを動画解析部21により比較することで、両音声が合致しているか判定する。判定方法として、例えば、音声ファイルの音声特徴と抽出音声の音声特徴を比較することで類似度を求め、この類似度が閾値より高い場合に、合致しているとみなす。登録テーブル30に含まれていない場合には、紐づけ処理を終了し、登録テーブル30に含まれている場合に、対象の動画とユーザ名57(ユーザ情報5)を紐づけ処理部23が紐づけ、管理テーブル32(図4を参照)に1つのレコードとして記録する(ステップ4)。
なお、検索サーバ2は、所定のタイミングで、HDD15内の動画データを順次サーチし、対象動画が選択された後で、図5の示すフローが実行されるが、HDD15内に新規の動画データが格納される都度で、その新規の動画データを対象に、図5で示すフローが実行されるようにしても良い。
管理テーブル32は、HDD15内に格納されており、各動画データの動画メタ情報65が複数レコード分記録可能に構成されて、検索部27が検索条件に合致する動画を検索するために参照される。管理テーブル32では、1つの紐づけ処理で1つの動画メタ情報68が記録され、動画メタ情報65には、動画ファイル名66、検索種別67、登録検索情報68、及び再生時間69が含まれる。動画ファイル名66は、HDD15等の所定の記録エリアに格納される動画データのファイル名を示し、検索種別67は、動画に関連付けられている登録検索情報68の種別を示し、具体的には、話者、人数、及び文字のうちいずれかの種別が指定されている。登録検索情報68は、検索部27が検索条件と合致するか否かを判定するために参照される検索情報であり、話者情報(ユーザ名57)、話者人数情報、及びキーワードが含まれる。検索種別67である話者、人数、及び文字に対応する検索情報として、話者情報、話者人数情報、及びキーワードのいずれかの情報が動画メタ情報65において指定されている。再生時間69は、検索条件としてキーワードが指定された場合(検索種別67が文字)に登録される情報であり、そのキーワードに関する音声(話者の発話)の再生時間を示す。
<話者人数情報の紐づけ処理>
話者人数情報の紐づけ処理を、図6を用いて以下で説明する。検索サーバ2は、対象動画が選択された後に、動画解析部21により動画データから音声を抽出し(ステップ11)、抽出音声の解析を行う(ステップ12)。具体的には、動画解析部21は、同一の動画データで既に抽出済みの音声と音声波形を比較することにより抽出音声と抽出済みの音声との類似性を判別する。ステップ12の解析結果に基づいて、検索サーバ2は、今回の抽出音声が抽出済みの音声と異なる音声(新規な音声)であるか否かを判定し(ステップ13)、新規な音声であれば、動画データに初登場する人間の発話音声とみなして、人数をカウントし(ステップ14)、動画データに抽出すべき音声の存否を判定する(ステップ15)。新規な音声がなければ、ステップ15に移行する。ステップ15では、抽出すべき音声が存在しなければ、ステップ11〜ステップ14を後判定繰り返し処理としながら、新規な抽出音声が動画データに発見される度に、人数を累積でカウントしていく。一方、ステップ15で、検索サーバ2は、抽出すべき音声が存在しなければ、紐づけ処理部21が、管理テーブル32において、動画データと話者人数(累積のカウント人数)を紐づける(ステップ16)。具体的には、紐づけ処理部21は、対象の動画ファイル名66及び検索種別67と共に、1つの動画メタ情報65として話者人数を管理テーブル32にレコード追加する。
<キーワードの紐づけ処理>
キーワードの紐づけ処理を、図7を用いて以下で説明する。検索サーバ2は、対象動画が選択された後に、動画解析部21により、動画データから音声を抽出した後に(ステップ21)、抽出音声を認識してキーワード(文字データ)として抽出する(ステップ22)。続いて、紐づけ処理部21は、キーワードを動画データに紐づけるために、対象の動画ファイル名66、検索種別67、再生時間と共に1つの動画メタ情報65として管理テーブル32にレコードを追加する。(ステップ23)。なお、検索種別67は、例えば、図5〜7のどの紐づけ処理を実行しているのかで特定でき、再生時間は、キーワードが発話されている再生時間を記憶しておき、管理テーブル32に記録することが可能である。
<検索処理>
図5〜7で示す紐づけ処理により、動画データに話者情報、話者人数情報、及びキーワードをそれぞれ動画のメタ情報として関連付けておくことで、動画の検索対象として追加される。以下で、一連の検索処理を図8〜図11を用いて説明する。まずは、検索クライアント3は、図8で示す検索設定画面70を開き、検索設定画面70で必要な検索条件を設定した上で、実行ボタン84を押下する。これにより、検索サーバ2に対して、検索設定画面70に基づいて、設定の検索条件に基づく検索リクエストが通知される。検索設定画面70では、検索種別72として、キーワード検索、話者検索、及び話者人数検索のいずれかが指定可能であり、検索文字列76には、検索条件として自由に文字列が入力される。例えば、検索種別72にキーワード検索が指定されると共に、「開発発表会」が検索キーワードで入力されたり、検索種別72に話者検索が指定されると共に、「情報 進」が検索話者の氏名として入力されたり、検索種別72に話者人数検索が指定されると共に、「6」(話者人数の数字)が入力される。なお、検索自体を中止したい場合には、キャンセルボタン86を押下すれば、検索設定画面70をクローズすると共に、検索設定が中止される。
また、検索条件の指定を文字列でなく音声とすることも可能である。例えば、図8の検索設定画面70において、検索種別72に話者検索を選択する場合、参照ボタン82を押下することで、検索クライアント3又は他装置に格納されている音声データを、話者情報として入力し、検索音声とする。この場合には、音声データの音声特徴、或いは、発話されている話者氏名等を話者情報として識別される。なお、設定後には、参照ボタン82の右欄に、音声データの格納アドレスが表示される。検索種別72にキーワード検索や話者人数検索を選択する場合、参照ボタン82を介して入力される音声データを検索音声とし、この音声データ中に、キーワードや話者人数に関する発話情報が含まれる。
一方、検索サーバ2は、検索クライアント3から検索リクエストをネットワークI/F19を介して受信したか否かを常時判定しており(ステップ31)、受信していなければこの処理が繰り返され、受信していれば検索処理が開始される。検索処理の開始の際に、検索リクエストに含まれる検索種別72を参照することで、どの検索種別67であるかを判定する(ステップ32〜34)。具体的には、キーワード検索、話者人数検索、及び話者検索であるか否かをそれぞれこの順で逐次判別していく。該当する検索種別72があれば、各々検索条件に従い、キーワード検索、話者人数検索、及び話者検索をそれぞれ実行する(ステップ36〜38)。その後に、検索結果を、検索クライアント3に提示するために、検索結果画面データ(図9、図10を参照)を検索クライアント3に返信する(ステップ40)。
検索クライアント3は、検索結果画面データに基づいてディスプレイ46に検索結果画面90,100を表示し、検索利用者は検索結果を確認することができる。例えば、検索の結果、該当する動画が存在する場合には、図9で示す検索結果画面90の通り、動画ファイル名66が表示され、検索サーバ2から動画データを取得するか否かをYESボタン92又はNOボタン94で選択することが可能である。YESボタン92を検索利用者が押下すれば、検索サーバ2に対して検索クライアント3が動画データを要求し、検索サーバ2がその要求に応じて該当する動画データを検索クライアント2に送信する。NOボタン94を検索利用者が押下した場合には、動画データを取得することなく、検索の結果だけ確認して検索処理を終了する。また、検索クライアント3において、検索の結果、該当する動画が存在しなかった場合には、図10で示すような検索結果画面100が表示され、再度、検索条件を変更して再検索を行うか否かを、YESボタン102又はNOボタン104により選択することが可能である。検索利用者がYESボタン102を押下すれば、図8で示す検索結果画面70がディスプレイ46に表示され、再度検索設定を行うことができ、検索利用者がNOボタン104を押下すれば、再検索をせずに検索処理を終了する。
なお、本実施形態については、下記のように表現することが可能である。検索サーバ2は、動画解析部21、紐づけ処理部23、検索受付部25、検索部27、及びネットワークI/F19を含む。動画解析部21は、音声を含む動画と、特定の話者が発する音声情報(音声ファイル名59を示す音声ファイル)と、特定の話者を示すと共に音声情報(音声ファイル名59を示す音声ファイル)と関連付けられるユーザ名57とが記憶されるHDD15から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する。紐づけ処理部23は、動画解析部21が比較した結果、動画の音声が音声情報と合致する場合、音声情報に関連付けられるユーザ名57を、(登録検索情報68として)動画に紐づける。検索受付部25は、特定の話者を示す話者情報(検索設定画面70の検索文字列76又は参照ボタン82を介して入力される話者情報)を検索キーとして検索者から受け付ける。検索部27は、紐づけ処理部23が動画に紐づけた登録検索情報68(ユーザ名57)を参照することにより、検索受付部25が受け付けた話者情報と一致する動画を検索する。ネットワークI/F19は、検索部27が検索した結果、一致する動画が存在する場合には、検索結果画面90(動画データ)を検索者に提示する。
また、本実施形態の別の観点として下記のようにも表現することが可能である。即ち、検索サーバ2は、動画解析部21、紐づけ処理部23、検索受付部25、検索部27、及びネットワークI/F19を含む。動画解析部21は、HDD15に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出する。紐づけ処理部23は、(登録検索情報68として)動画解析部21が抽出したキーワードを動画に紐づける。検索受付部25は、キーワード(検索設定画面70の検索文字列76又は参照ボタン82を介して入力されるキーワード)を検索キーとして検索者から受け付ける。検索部27は、紐づけ処理部23が動画に紐づけた登録検索情報68を参照することにより、検索受付部25が受け付けたキーワードと一致する動画を検索する。ネットワークI/F19は、検索部27が検索した結果、一致する動画が存在する場合には、検索結果画面90(動画データ)を検索者に提示する。
また、本実施形態の別の観点として下記のようにも表現することが可能である。即ち、検索サーバ2は、動画解析部21、紐づけ処理部23、検索受付部25、検索部27、及びネットワークI/F19を含む。動画解析部21は、HDD15に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する。紐づけ処理部23は、動画解析部21を特定した話者人数を、(登録検索情報68として)動画に紐づける。検索受付部25は、話者人数を(検索設定画面70の検索文字列76又は参照ボタン82を介して入力される話者人数)を検索キーとして検索者から受け付ける。検索部27は、紐づけ処理部23が動画に紐づけた話者人数を参照することにより、検索受付部25が受け付けた話者人数に一致する動画を検索する。ネットワークI/F19は、検索部27が検索した結果、一致する動画が存在する場合には、検索結果画面90(動画データ)を検索者に提示する。
<各種の他実施形態>
本実施形態では、話者情報、話者人数情報、及びキーワードを動画データに紐づけ、これらの情報に関する入力を検索条件とすることで、動画の存否に関する検索結果を提示する点を述べたが、動画データ中の再生開始時間(再生タイミング)を検索結果で提示するとなお良い。つまり、検索サーバ2において、管理テーブル32で再生時間69(再生タイミング)が紐づけられているならば、検索受付部25が受け付けたキーワードに従い、検索部27が検索した結果、該当する動画データが存在するときには、管理テーブル32を介して動画に紐づけられる再生タイミングを検索結果として検索者に提示する。このようにすると、検索者は、再生ポイントを動画の中で探す必要がない。なお、本実施形態では、検索種別67が文字である場合に、管理テーブル32で動画に再生時間69を紐づけたが、これに限らず、検索種別67が話者である場合でも、管理テーブル32で動画に再生時間69を紐づけても良く、検索受付部25が受け付けた話者情報に基づき、検索部27が検索した結果、管理テーブル32で再生タイミングを抽出して、検索結果として提示することも可能である。
なお、管理テーブル32に紐づけるために、動画から再生タイミング(再生時間69)を抽出する場合、その方法として、動画データに含まれる音声ファイル(動画の全再生時間に対応する1つのファイル)から再生タイミングを抽出する。例えば、動画データに話者情報を紐づける場合には、以下のように行う。つまり、動画解析部21が、音声ファイル名59が示す音声ファイルと動画データの音声ファイルとを用いて音声比較を行い、両者が合致するとき、動画データの音声ファイルにおけるその合致時間を再生タイミングとして抽出する。動画データにキーワードを紐づける場合には、動画解析部21が、動画データの音声ファイルから音声認識することによって、動画データの音声ファイルにおける音声認識した時間を再生タイミングとして抽出する。ただし、動画データに話者人数情報を紐づける場合には、再生タイミングを抽出することは困難である。つまり、ある任意の時刻において、音声ファイルから抽出する音声は、例えば複数名の発話音声が含まれていても、これらの音声が合成された1つの音声波形として表現されている。従って、本発明では、話者人数情報を動画に紐づける場合には、その動画の全再生時間に渡って登場する話者人数を紐づけ、ある1時点での話者人数は取り扱わない。
また、本発明には、本実施形態とは別に、以下のような形態も含まれる。
1.管理テーブル32を用いて動画データと動画メタ情報65を紐づけて管理せずに、例えば、動画データに動画メタ情報65を直接付加しても良い。2.検索対象の動画データを、検索サーバ2のHDD15以外の記憶部(検索サーバ2の内外問わず)に記憶しても良い。同様に、登録テーブル30及び管理テーブル32を、検索サーバ2のHDD15以外の記憶部(検索サーバ2の内外問わず)に記憶させても良い。音声ファイル名57が示す音声データも、HDD15でもそれ以外の記憶部に記憶させても良い。以上のように、動画データ、登録テーブル30、管理テーブル32、及び音声ファイル名57が示す音声ファイルに関して、同一の記憶部に制限されず、互いに異なる任意の記憶部にそれぞれ記憶させても良い。
2.クライアント−サーバ型ではなく、組み込み型で検索装置を構成しても良い。その場合には、検索装置が、検索利用者から直接検索リクエスト及び検索条件を受け付けると共に、検索結果を提示するUI画面を提供する。
3.管理テーブル32及び登録テーブル30の項目は一例であり、これに限定されない。
4.ユーザ名57はテキスト情報である必要もなく、画像情報又は音声情報であることが許容される。例えば、ユーザ名を示す画像データを音声ファイルと共に登録テーブル30で管理する場合、音声ファイルと動画の音声とが合致するときに、紐づけ処理部23は、音声ファイルを介して、画像データ(ユーザ名)を動画に紐づける。
以下の形態は、本発明の周辺技術を構成するが、本発明には含まれない
1.動画から画像(人の顔、物体)を検出し、検出画像を動画と紐づけて記憶しておき、動画検索時に画像データが検索キーとして入力されたとき、記憶している顔画像を参照して動画を検索する。
2.動画から画像を抽出し、抽出画像にOCR処理を施すことで取得した文字情報と動画とを紐づけて記憶しておき、動画検索時にキーワードが検索キーで入力されたとき、記憶している文字情報を参照して動画を検索する。
3.動画から抽出した顔画像を一覧で保存した後に、顔画像が示す人物の個人情報を顔画像に関連付けて利用者がテーブルに登録しておく。動画にメタ情報を紐づける際には、対象の動画から顔画像を検出し、この顔画像と合致する顔画像がテーブルに存在すれば、顔画像に対応する個人情報を動画に紐づける。この紐づけ処理は、顔画像を介して、動画と個人情報を紐づける方法だが、動画には全再生時間に渡ってフレーム画像が存在するため、動画の全再生時間を対象に、動画に含まれる顔画像を検出し続ける必要があり、紐づけ処理の負荷が大きいデメリットが考えられる。
1 検索システム、2 検索サーバ、3 検索クライアント、19 ネットワークI/F、21 動画解析部、23 紐づけ処理部、25 検索受付部、27 検索部、30 登録テーブル、32 管理テーブル

Claims (5)

  1. 音声を含む動画と、特定の話者が発する音声情報と、当該特定の話者を示すと共に当該音声情報と関連付けられる話者情報とが記憶される所定の記憶部から、動画の音声と音声情報とを取得し、動画の音声と音声情報とを比較する音声比較部と、
    前記音声比較部が比較した結果、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報を、当該動画に紐づける紐づけ処理部と、
    特定の話者を示す話者情報を検索キーとして検索者から受け付ける検索受付部と、
    前記紐づけ処理部が動画に紐づけた話者情報を参照することにより、前記検索受付部が受け付けた話者情報と一致する動画を検索する検索部と、
    前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。
  2. 前記紐づけ処理部は、動画の音声が音声情報と合致する場合、当該音声情報に関連付けられる話者情報と、動画において当該音声情報に合致する音声が再生される再生タイミングとを動画に紐づけ、
    前記検索結果提示部は、前記検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する、請求項1に記載の検索装置。
  3. 所定の記憶部に記憶される動画の音声を認識することによって、動画中に含まれる音声をキーワードとして抽出するキーワード抽出部と、
    前記キーワード抽出部が抽出したキーワードを動画に紐づける紐づけ処理部と、
    キーワードを検索キーとして検索者から受け付ける検索受付部と、
    前記紐づけ処理部が動画に紐づけたキーワードを参照することにより、前記検索受付部が受け付けたキーワードと一致する動画を検索する検索部と、
    前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。
  4. 前記紐づけ処理部は、前記キーワード抽出部が抽出したキーワードと、動画において当該キーワードに対応する音声が再生される再生タイミングとを動画に紐づけ、
    前記検索結果提示部は、前記検索部が検索した結果、一致する動画が存在する場合には、当該動画に紐づけられる再生タイミングを検索者に提示する、請求項3に記載の検索装置。
  5. 所定の記憶部に記憶される動画に含まれる複数の音声同士を比較することによって、音声を発する話者を識別し、動画に出現する話者人数を特定する話者人数特定部と、
    前記話者人数特定部が特定した話者人数を示す話者人数情報を動画に紐づける紐づけ処理部と、
    話者人数を示す話者人数情報を検索キーとして検索者から受け付ける検索受付部と、
    前記紐づけ処理部が動画に紐づけた話者人数情報を参照することにより、前記検索受付部が受け付けた話者人数情報に一致する動画を検索する検索部と、
    前記検索部が検索した結果、一致する動画が存在する場合には、当該動画を検索者に提示する検索結果提示部と、を含む検索装置。
JP2015140109A 2015-07-14 2015-07-14 検索装置 Pending JP2017021672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015140109A JP2017021672A (ja) 2015-07-14 2015-07-14 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015140109A JP2017021672A (ja) 2015-07-14 2015-07-14 検索装置

Publications (1)

Publication Number Publication Date
JP2017021672A true JP2017021672A (ja) 2017-01-26

Family

ID=57889728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015140109A Pending JP2017021672A (ja) 2015-07-14 2015-07-14 検索装置

Country Status (1)

Country Link
JP (1) JP2017021672A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019061428A (ja) * 2017-09-26 2019-04-18 Jcc株式会社 映像管理方法、映像管理装置、及び映像管理システム
CN112764603A (zh) * 2020-12-31 2021-05-07 维沃移动通信有限公司 消息显示方法、装置和电子设备
CN113724543A (zh) * 2021-08-27 2021-11-30 读书郎教育科技有限公司 一种看图写话训练的系统及方法
JP2022096852A (ja) * 2020-12-18 2022-06-30 株式会社ミルプラトー 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019061428A (ja) * 2017-09-26 2019-04-18 Jcc株式会社 映像管理方法、映像管理装置、及び映像管理システム
JP7121378B2 (ja) 2017-09-26 2022-08-18 Jcc株式会社 映像管理方法、映像管理装置、及び映像管理システム
JP2022096852A (ja) * 2020-12-18 2022-06-30 株式会社ミルプラトー 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP7103681B2 (ja) 2020-12-18 2022-07-20 株式会社ミルプラトー 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
CN112764603A (zh) * 2020-12-31 2021-05-07 维沃移动通信有限公司 消息显示方法、装置和电子设备
CN113724543A (zh) * 2021-08-27 2021-11-30 读书郎教育科技有限公司 一种看图写话训练的系统及方法
CN113724543B (zh) * 2021-08-27 2024-02-06 读书郎教育科技有限公司 一种看图写话训练的系统及方法

Similar Documents

Publication Publication Date Title
US8615395B2 (en) Generating a display screen in response to detecting keywords in speech
US9304657B2 (en) Audio tagging
US7616840B2 (en) Techniques for using an image for the retrieval of television program information
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2019134587A1 (zh) 视频数据处理方法、装置、电子设备和存储介质
US20050192808A1 (en) Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
US8462231B2 (en) Digital camera with real-time picture identification functionality
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
KR20080004772A (ko) 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
JP2009181216A (ja) 電子機器および画像処理方法
US8255395B2 (en) Multimedia data recording method and apparatus for automatically generating/updating metadata
WO2013189317A1 (zh) 基于人脸信息的多媒体交互方法及装置及终端
CN106407358B (zh) 一种图像搜索方法、装置及移动终端
JP2017021672A (ja) 検索装置
JP2008048204A (ja) 情報処理装置、情報処理システム及び情報処理プログラム
KR20200024541A (ko) 동영상 컨텐츠 검색 지원 방법 및 이를 지원하는 서비스 장치
KR102198424B1 (ko) 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
US20160260435A1 (en) Assigning voice characteristics to a contact information record of a person
WO2015000433A1 (zh) 一种多媒体查找方法、终端、服务器及系统
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
KR20110080712A (ko) 이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치
US20140078331A1 (en) Method and system for associating sound data with an image
JP7196393B2 (ja) 情報提示装置、情報提示システム、情報提示方法およびプログラム
US20120059855A1 (en) Method and computer program product for enabling organization of media objects