JP2011049707A - Moving image playback device, moving image playback method, and program - Google Patents
Moving image playback device, moving image playback method, and program Download PDFInfo
- Publication number
- JP2011049707A JP2011049707A JP2009194901A JP2009194901A JP2011049707A JP 2011049707 A JP2011049707 A JP 2011049707A JP 2009194901 A JP2009194901 A JP 2009194901A JP 2009194901 A JP2009194901 A JP 2009194901A JP 2011049707 A JP2011049707 A JP 2011049707A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- moving image
- video
- file
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、動画再生装置、動画再生方法及びプログラムに関し、更に詳しくは、動画ファイルを音声認識し、ユーザが希望する優先順位で動画を再生する動画再生装置、動画再生方法及びプログラムに関する。 The present invention relates to a moving image reproducing apparatus, a moving image reproducing method, and a program, and more particularly, to a moving image reproducing device, a moving image reproducing method, and a program for recognizing a moving image file and reproducing a moving image in a priority order desired by a user.
近年、youtube(登録商標)等の動画共有Webサイトには、大量の動画ファイルがアップロードされている。アップロードされた動画ファイルには、動画製作者(動画投稿者)又はユーザ(動画視聴者)によってメタデータが付加されている。メタデータとは、タイトル情報、カテゴリ情報、説明文等の付加的なデータをいう。 In recent years, a large number of moving image files have been uploaded to moving image sharing websites such as YouTube (registered trademark). Metadata is added to the uploaded video file by a video producer (video poster) or a user (video viewer). Metadata refers to additional data such as title information, category information, and explanatory text.
ユーザは、目的の動画ファイルを探し出す際に、メタデータを用いて自らが再生を希望する再生データをカテゴリ検索、キーワード検索等による検索を行う。しかし、メタデータは限定された情報に過ぎないので、メタデータを用いた検索で目的の動画ファイルを探し出すことは困難である。また、動画ファイル内の特定の場面(シーン又は区間)を探し出すことは更に困難であった。 When searching for a target moving image file, the user searches the reproduction data that he / she desires to reproduce by category search, keyword search, or the like using the metadata. However, since the metadata is only limited information, it is difficult to find the target moving image file by searching using the metadata. Further, it has been more difficult to find a specific scene (scene or section) in the moving image file.
特許文献1には、インターネット等の動画サイト上に登録された大量の動画に対してキーワード検索を行う動画検索システムが記載されている。この動画検索システムでは、動画ファイルデータベース上の動画ファイルを音声認識してテキストデータ(テキスト)を生成し、このテキストを新たな検索ワードとして登録することで、検索キーワードの陳腐化を防止している。
特許文献2には、選択された動画ファイルに含まれるキーワードを抽出或いは表示し、このキーワードを利用者に選択させることで、所望のシーンを直ちに再生する動作再生装置が記載されている。 Japanese Patent Application Laid-Open No. 2004-228561 describes an operation playback device that extracts or displays a keyword included in a selected moving image file and causes a user to select the keyword to immediately play back a desired scene.
特許文献3には、動画コンテンツを画像認識により各シーンに分割し、シーン毎の代表静止画をストーリーに沿って保存する技術が記載されている。この技術は、各シーンの代表静止画を再生し、これをユーザが見ることで、所望のシーンを探し出すものである。
特許文献1に記載の技術は、単に検索キーワードの陳腐化を防止するものに過ぎない。また、特許文献1,2に記載の技術は、キーワードや代表静止画をユーザに提示し、ユーザが希望のシーンを探し出すものに過ぎず、動画内の話者の発話内容に基づいて、動画ファイルを検索することはできない。そのため、大量の動画ファイルから目的の動画ファイルを検索すること、また、その動画ファイル内の一場面を、条件を絞り込みながら探し出していくことは困難である。
The technique described in
また、特許文献4には、画像認識により類似の画像を検索する技術が記載されている。しかし、この技術を用いて動画ファイルの一場面を検索したとしても、あくまで画像認識を利用した検索に過ぎず、特許文献1〜3と同様に、動画内の話者の発話内容に基づいた検索はできない。
本発明は、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索できる動画再生装置、動画再生方法及びプログラムを提供することを目的とする。 The present invention provides a video playback device, a video playback method, and a program capable of searching a video file from a large number of video files based on the utterance content of a speaker in the video and searching for a scene in the video file. With the goal.
上記目的を達成するために、本発明は、動画ファイルを音声認識する音声認識手段と、
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置を提供する。
In order to achieve the above object, the present invention provides a voice recognition means for voice recognition of a moving image file,
Text file generation means for generating a text file from the output of the voice recognition means;
Keyword detecting means for detecting a keyword stored in advance in the storage device from the text file;
A video ranking determining means for determining the priority of the video to be played with reference to the keyword weight attached to the keyword,
Movie playback means for playing back the movie selected by the user's selection referring to the movie ranking;
There is provided a moving image reproducing apparatus including weight updating means for updating the keyword weight based on a moving image selected by a user and an aspect in which the keyword is generated.
また、本発明は、動画ファイルを音声認識する音声認識ステップと、
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法を提供する。
The present invention also includes a speech recognition step for recognizing a moving image file,
A text file generation step for generating a text file from the output of the speech recognition step;
A keyword detection step of detecting a keyword stored in advance in the storage device from the text file;
A video ranking determination step that determines the priority of the videos to be played by referring to the keyword weights attached to the keywords;
A video playback step of playing back the video selected by the user's selection referring to the video ranking;
There is provided a moving image reproduction method including a weight update step of updating the keyword weight based on a moving image selected by a user and an aspect in which the keyword is generated.
さらに、本発明は、コンピュータを備え、動画を再生する動画再生装置のためのプログラムであって、前記コンピュータに、
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラムを提供する。
Furthermore, the present invention is a program for a moving image reproducing apparatus that includes a computer and reproduces a moving image, and the computer includes:
Voice recognition processing that recognizes video files,
A text file generation process for generating a text file from the output of the speech recognition process;
A keyword detection process for detecting a keyword stored in advance in the storage device from the text file;
A video ranking determination process that determines the priority of videos to be played with reference to the keyword weights assigned to the keywords,
A video playback process for playing back the video selected by the user's selection referring to the video ranking;
There is provided a program for executing a weight update process for updating the keyword weight based on a moving image selected by a user and an aspect in which the keyword is generated.
本発明の動画再生装置、動画再生方法及びプログラムでは、大量の動画ファイルから、動画内の話者の発話内容に基づいて希望の動画ファイルを検索し、或いは動画ファイル内の一場面を検索できる。 In the moving image playback apparatus, the moving image playback method, and the program of the present invention, a desired moving image file can be searched from a large number of moving image files based on the utterance content of a speaker in the moving image, or one scene in the moving image file can be searched.
図1は、本発明の動画再生装置の最小構成を示すブロック図である。本発明の動画再生装置1は、その最小構成として、音声認識手段2と、テキストファイル生成手段3と、記憶装置4と、キーワード検出手段5と、動画順位決定手段6と、動画再生手段7と、重み更新手段8とを備える。音声認識手段2は、動画ファイルを音声認識する。テキストファイル生成手段3は、音声認識手段2の出力からテキストファイルを生成する。キーワード検出手段5は、記憶装置4に予め記憶されたキーワードを、テキストファイルから検出する。動画順位決定手段6は、キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める。動画再生手段7は、動画順位を参照するユーザの選択によって選択された動画を再生する。重み更新手段8は、ユーザが選択した動画と、キーワードが発生した態様とに基づいて、キーワード重みを更新する。
FIG. 1 is a block diagram showing the minimum configuration of the moving picture reproducing apparatus of the present invention. The moving
上記動画再生装置1では、動画ファイルを音声認識して生成したテキストファイルから、テキストファイルに含まれるキーワードを検出し、また、記憶装置4に予め記憶されたキーワード重みを取得する。取得したキーワード重みを参照して、再生すべき動画の優先順位を定める。定められた動画順位を参照してユーザが選択した動画は、再生される。次いで、キーワード重みは、ユーザが選択した動画と、この動画内でのキーワードが発生した態様とに基づいて更新される。更新されたキーワード重みは、次回、再生すべき動画の優先順位を定めるときに利用される。
In the moving
つまり、ユーザが目的の動画ファイルに関連するキーワードを入力すれば、このキーワードを含む再生すべき動画の優先順位が一旦は定まり、この動画順位を参照してユーザが動画を選択することで、動画順位を定めるパラメータの一つであるキーワード重みが更新される。従って、次回からは、ユーザの選択をフィードバックして動的に変更されるキーワード重みを用いて、動画順位が決定されるので、繰返し使用すればする程、大量の動画ファイルから目的の動画を検索する精度が高まる。また、目的の動画ファイルに関連するキーワードとして、動画内の話者の発話内容を反映した複数のキーワードを入力すれば、目的の動画ファイル内の一場面(区間、シーン)を検索できる。 In other words, if the user inputs a keyword related to the target video file, the priority order of the video to be played that includes this keyword is once determined, and the user selects the video by referring to this video ranking. The keyword weight that is one of the parameters for determining the ranking is updated. Therefore, from the next time, the video ranking is determined using keyword weights that are dynamically changed by feeding back the user's selection, so the more repeatedly used, the target video is searched from a large number of video files. Increase the accuracy. In addition, if a plurality of keywords reflecting the utterance content of the speaker in the video are input as keywords related to the target video file, one scene (section, scene) in the target video file can be searched.
また、本発明の動画再生方法及びプログラムでは、上記動画再生装置1の最小構成に対応する構成を有しており、上記同様に、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索することができる。
In addition, the moving image playback method and program of the present invention have a configuration corresponding to the minimum configuration of the moving
以下、図2〜図11を参照して、本発明の例示的な実施の形態について詳細に説明する。図2は、本発明の実施形態に係る動画再生装置を示す全体図である。動画再生装置10は、例えば、ユーザ端末11のユーザ12が目的とする或いは目的に合っている動画(以下、目的の動画)、及び、目的の動画内の一場面(以下、区間又はシーン)を検索し再生するための装置である。
Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to FIGS. FIG. 2 is an overall view showing the moving image playback apparatus according to the embodiment of the present invention. For example, the
動画再生装置10は、Webサーバ20と、動画検索サーバ30と、ファイルサーバ40とを備え、これらの各サーバ20,30,40がローカルネットワーク(LAN)50で接続されている。また、動画再生装置10には、複数のユーザ端末11,13が接続されている。ユーザ端末11,13は、インターネット60を経由してWebサーバ20に接続され、各種Webサイトにアクセス可能となっている。以下では、Webサイトを、youtube(登録商標)等の動画共有Webサイトとし、また、ユーザ端末11のユーザ12を目的の動画を検索する利用者とし、さらに、ユーザ端末13のユーザ14を動画共有Webサイトに動画を投稿する動画投稿者とする。
The
図3は、動画再生装置10の構成を示すブロック図である。動画投稿者であるユーザ14のユーザ端末13は、動画投稿手段15を有する。利用者であるユーザ12のユーザ端末11は、キーワード設定手段16と動画選択手段17とを有する。これらの各手段15,16,17は、Webサーバ20にアクセス可能である。動画投稿手段15は、ユーザ14の操作に従い、Web上の動画共有サイトにアクセスし、動画ファイルを投稿するための手段である。キーワード設定手段16は、ユーザ12の操作に従い、目的の動画に関連すると思われるキーワードを入力するための手段である。動画選択手段17は、ユーザ12の操作に従い、Webサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている(又は合っていない)動画を選択するための手段である。
FIG. 3 is a block diagram illustrating a configuration of the moving
Webサーバ20は、動画投稿画面表示手段21と、キーワード入力画面表示手段22と、動画検索結果表示手段23とを備える。また、動画検索サーバ30は、音声認識手段31と、動画ファイル検索手段32と、キーワード情報一時検索結果データベース33と、動画ファイル一時検索結果出力データベース34と、キーワード重み付け変更手段35とを備える。さらに、ファイルサーバ40は、動画ファイルデータベース41と、言語モデルデータベース42と、認識テキストデータベース43と、キーワード情報データベース44とを備える。
The
動画投稿画面表示手段21は、動画投稿手段15により投稿された動画ファイル、及び動画ファイルに付加されたメタデータを、動画ファイルデータベース41に格納する。メタデータとは、動画ファイルに関するタイトル情報、カテゴリ情報、説明文等の付加的なデータである。なお、動画ファイルは、動画ファイルデータベース41に格納されたことで、アップロードされたことになる。
The moving image posting screen display means 21 stores the moving image file posted by the moving image posting means 15 and the metadata added to the moving image file in the moving
音声認識手段31は、アップロードされている動画ファイルを動画ファイルデータベース41から取得し、言語モデルデータベース42の言語モデル(辞書データ)を参照して音声認識を実行する。音声認識手段31は、音声認識によりテキスト化を行い、認識テキスト(テキストファイル)を生成する。このとき、音声認識手段31は、単にテキスト化を行うだけでなく、認識テキストに含まれる各単語(記載)と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録する。
The voice recognition means 31 acquires the uploaded moving picture file from the moving
音声認識手段31は、動画ファイルに付加されたメタデータに、言語モデルデータベース42の言語モデルに登録されていないワードが含まれていれば、このワードを言語モデルに追加登録する。ワードが追加登録されることで、言語モデルに含まれる登録ワードが自動的に増加する。なお、ワードとしては、動画投稿者が動画ファイルに付加したタイトルや説明文に含まれるワードや、利用者が指定したキーワード等が挙げられる。また、音声認識手段31は、認識テキストを認識テキストデータベース43に格納する。認識テキストデータベース43に格納された認識テキストは、インデックス化される。インデックスとは、データの検索速度を向上させるために、データベース内でどのデータがどこに格納されているかを示した索引をいう。
If the metadata added to the moving image file includes a word that is not registered in the language model of the
続いて、利用者であるユーザ12が、ユーザ端末11を用いて動画共有サイトにアクセスした場合について説明する。ユーザ12がユーザ端末11を用いて動画共有サイトにアクセスすると、Webサーバ20内のキーワード入力画面表示手段22は、キーワード入力画面をユーザ端末11に表示する。次に、キーワード入力画面上で目的の動画(検索したい動画)の一場面に関連したキーワードがキーワード設定手段16を用いて入力されると、キーワード入力画面表示手段22は、入力されたキーワードを動画ファイル検索手段32に引き渡す。
Next, a case where the
動画ファイル検索手段32は、入力されたキーワードについてキーワード情報データベース44を検索する。キーワード情報データベース44には、キーワードに付けられたキーワードの重み付け情報(キーワード重み)が格納されており、動画ファイル検索手段32は、入力されたキーワードのキーワード重みをキーワード情報データベース44から取得する。
The moving image file search means 32 searches the
また、動画ファイル検索手段32は、入力されたキーワードについて、認識テキストデータベース43を検索し、認識テキスト内に同じキーワードが含まれている動画ファイルを、動画ファイルデータベース41から取得する。動画ファイル検索手段32は、例えば、取得した動画ファイルの認識テキスト及びキーワード重みから、再生すべき動画順位及びシーン順位を算出し、これらの算出結果を含む動画ファイル検索結果を動画ファイル一時検索結果データベース34に格納する。同時に、動画ファイル検索手段32は、例えば動画ファイル検索結果から、入力されたキーワードが動画ファイル内で発話されている先頭からの経過時間(秒数)を取得し、キーワード情報としてキーワード情報一時検索結果データベース33に格納する。ここで、音声認識手段31が認識テキストに含まれる各単語と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録していることから、先頭からの経過時間の取得が可能となる。動画ファイル検索手段32は、認識テキスト内の記載と、動画ファイルの再生時における先頭からの経過時間とを対応付けると共に、認識テキストを動画ファイルの再生時間に従って複数の区間(シーン)に区分する経過時間算出手段としても機能する。なお、キーワード情報としては、例えば、シーンID、キーワード名、キーワードが含まれている動画ファイル名、発話開始時間、キーワード重み等が含まれる。
In addition, the moving image
動画検索結果表示手段23は、動画ファイル一時検索結果データベース34から動画ファイル検索結果を、キーワード情報一時検索結果データベース33からキーワード情報をそれぞれ取得する。そして、動画検索結果表示手段23は、これらのデータベース33,34から取得した情報を、ユーザ端末11に表示されたWebサイト画面上に、動画ファイル検索結果一覧として表示する。
The moving image search result display means 23 acquires a moving image file search result from the moving image file temporary
ユーザ端末11の動画選択手段17は、ユーザ12の操作に従い、Webサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている(又は合っていない)動画を選択する。動画検索結果表示手段23は、動画選択手段17による選択結果を、キーワード重み付け変更手段35に送る。
The moving image selection means 17 of the
キーワード重み付け変更手段35は、動画選択手段17で選択された目的と合っている(又は合っていない)動画ファイルに含まれるキーワードのキーワード情報を、キーワード情報一時検索結果データベース33から取得する。キーワード重み付け変更手段35は、取得したキーワードのキーワード重みを、動画選択手段17による選択結果に基づいて更新し、更新後のキーワード重みをキーワード情報データベース44に格納する。キーワード情報データベース44に格納された更新後のキーワード重みは、ユーザ12がユーザ端末11を用いて再度検索を行う場合に使用される。つまり、目的の動画の一場面に関連したキーワードがキーワード設定手段16から再度入力されると、動画ファイル検索手段32が再生すべき動画順位及びシーン順位を決定する際に、更新後のキーワード重みを参照することになる。
The keyword
以下、図3〜図10を参照して、動画再生装置10の動作を具体的に説明する。図4は、動画再生装置10の動作を示すシーケンス図である。動画投稿手段15が、動画投稿者であるユーザ14の操作に従い、Web上の動画共有サイトにアクセスし、動画ファイルをWebサーバ20に投稿する(ステップS11)。Webサーバ20の動画投稿画面表示手段21は、投稿された動画ファイル(動画データ)及びこの動画ファイルに付加されたメタデータを、ファイルサーバ40の動画ファイルデータベース41に格納する(ステップS12)。
Hereinafter, with reference to FIGS. 3 to 10, the operation of the moving
次に、動画検索サーバ30の音声認識手段31は、動画ファイルデータベース41に動画ファイルが格納されると、動画ファイルデータベース41から自動的に動画ファイルを取得する(ステップS13)。続いて、音声認識手段31は、言語モデルデータベース42から言語モデルを取得して(ステップS14)、音声認識を行い、動画ファイル内の音声をテキスト化して、認識テキストを作成する(ステップS15)。ステップS15では、テキスト化する際には、各単語が発話される先頭からの秒数を認識テキスト内の各単語に紐づけて記述する。
Next, when the moving image file is stored in the moving
続いて、音声認識手段31は、言語モデルに登録されていないワードを言語モデルデータベース42に追加登録する(ステップS16)。次に、音声認識手段31は、認識テキストをファイルサーバ40の認識テキストデータベース43に格納する(ステップS17)。格納された認識テキストは、ファイルサーバ40上の認識テキストデータベース43内で自動的にインデックス化される(ステップS18)。
Subsequently, the speech recognition means 31 additionally registers words that are not registered in the language model in the language model database 42 (step S16). Next, the speech recognition means 31 stores the recognized text in the recognized
上記ステップS11〜S18の処理が行われた後に、利用者であるユーザ12が目的の動画を検索する場合について説明する。まず、ユーザ12の操作に従い、ユーザ端末11から動画共有サイトへのアクセスが発生すると(ステップS19)、Webサーバ20のキーワード入力画面表示手段22は、検索キーワード入力画面をユーザ端末11に表示する(ステップS20)。キーワード入力画面表示手段22は、検索キーワード入力画面に目的の動画に関連すると思われるキーワードがキーワード設定手段16から入力されると(ステップS21)、入力されたキーワードを、動画検索サーバ30の動画ファイル検索手段32に送信する(ステップS22)。
A case will be described in which the
次いで、動画ファイル検索手段32は、例えばファイルサーバ40の動画ファイルデータベース41にアクセスし、動画ファイルに付加されたメタデータに、上記ステップS21で入力されたキーワードが含まれる動画ファイルを検索する(ステップS23)。次に、動画ファイル検索手段32は、認識テキストデータベース43にアクセスし、認識テキストに、入力されたキーワードが含まれる動画ファイルを検索する(ステップS24)。
Next, the moving image file search means 32 accesses, for example, the moving
続いて、動画ファイル検索手段32は、ステップS23,24の検索結果から、入力されたキーワードが含まれる動画ファイル名一覧(検索結果動画一覧)を、認識テキストデータベース43から取得する(ステップS25)。次に、動画ファイル検索手段32は、ステップS25で取得した検索結果動画一覧に含まれる動画ファイルのメタデータ(タイトル、カテゴリ情報等)を、動画ファイルデータベース41から取得する(ステップS26)。次に、動画ファイル検索手段32は、検索結果動画一覧に含まれる動画ファイルの表示順を算出する(ステップS30)。ステップS30での表示順とは、再生すべき動画の優先順位(順位)と動画に含まれるシーンの優先順位(順位)とを含む。以下、図5を参照して、動画ファイル検索手段32によるステップS30の処理について説明する。
Subsequently, the moving image file search means 32 acquires a moving image file name list (search result moving image list) including the input keyword from the recognized
まず、動画ファイル検索手段32は、検索結果動画一覧に含まれる動画ファイル毎に認識テキスト内に含まれているキーワード名とキーワード数とを、認識テキストデータベース43から取得する(ステップS31)。次に、認識テキスト内に含まれていたキーワードのキーワード重みを、キーワード情報データベース44から取得する(ステップS32)。 First, the moving image file search means 32 acquires the keyword name and the number of keywords included in the recognized text for each moving image file included in the search result moving image list from the recognized text database 43 (step S31). Next, the keyword weight of the keyword included in the recognized text is acquired from the keyword information database 44 (step S32).
ここで、キーワード及びキーワード重みについて説明する。キーワードは、プラスキーワードとマイナスキーワードとに区別される。この区別は、ユーザ12がユーザ端末11の動画選択手段17を用いて、例えば動画順位を参照して、図9に示す動画ファイル検索結果動画一覧70に含まれる動画ファイルを選択したか否かによる。なお、動画ファイルの選択は、図9に示す「対象」領域71をチェックすればよく、また、「対象外」領域72をチェックすれば、非選択となる。例えば、動画順位が上位である動画ファイルであっても、ユーザ12が目的に合わない動画(目的のシーンを含まない動画)として動画ファイルを選択しなければ、この動画ファイルに含まれるキーワードはマイナスキーワードと定義される。一方、動画順位が下位であっても、ユーザが目的に合う動画(目的のシーンを含む動画)として動画ファイルを選択すれば、この動画ファイルに含まれるキーワードはプラスキーワードと定義される。
Here, keywords and keyword weights will be described. Keywords are classified into positive keywords and negative keywords. This distinction depends on whether or not the
プラスキーワードのキーワード重みは、ユーザ12に選択された全ての動画ファイル内でのプラスキーワードの発生回数と、ユーザ12に選択された全ての動画ファイルの数との比率で示される。つまり、プラスキーワードのキーワード重みは、ユーザ12に選択された1動画に含まれるプラスキーワードの平均発生回数をいう。
The keyword weight of the plus keyword is indicated by a ratio between the number of occurrences of the plus keyword in all moving image files selected by the
マイナスキーワードのキーワード重みは、ユーザ12に選択されなかった全ての動画ファイル内でのマイナスキーワードの発生回数と、ユーザ12に選択されなかった全ての動画ファイルの数との比率で示される。つまり、マイナスキーワードのキーワード重みは、ユーザ12に選択されなかった1動画に含まれるマイナスキーワードの平均発生回数をいう。
The keyword weight of the minus keyword is indicated by a ratio between the number of occurrences of the minus keyword in all moving image files not selected by the
図6に、キーワード情報データベース44に格納されたプラスキーワード、マイナスキーワード及びそれぞれのキーワード重みの具体例を示す。ここでは、ユーザ12が、A首相の会見でアメリカ経済に関する意見を聞きたい場合に、キーワード設定手段16を用いて、検索キーワードとして、「A」、「首相」、「アメリカ」、「経済」を入力した場合を想定する。これらの入力されたキーワードを含む動画が、図9に示す動画ファイル検索結果動画一覧70に表示されると、ユーザ12は、目的に合う又は合わない動画を選択する。一例として、会見等の動画は、ユーザ12によって目的に合う動画として選択される。このため、会見等の動画に含まれるキーワードは、図6に示すように、全てプラスキーワード44aとされる。一方、ニュース等の動画は、A首相の会見ではなく、例えばキャスターの発言が主であるから、ユーザ12によって目的に合わない動画として選択されることになる。このため、ニュース等の動画に含まれるキーワードは、全てマイナスキーワード44bとされる。
FIG. 6 shows specific examples of plus keywords, minus keywords, and keyword weights stored in the
プラスキーワードのキーワード重みは、「A」、「首相」、「アメリカ」、「経済」に対して、それぞれ「0.30」、「0.42」、「3.17」、「2.50」となっている。なお、「A」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて小さくなっている理由は、会見等の動画では、A首相自身が話しているので、「A」、「首相」等のプラスキーワードの平均発生回数が少ないためである。 The keyword weights of the plus keywords are “0.30”, “0.42”, “3.17”, “2.50” for “A”, “Prime Minister”, “America”, and “Economy”, respectively. It has become. The reason why the keyword weights of “A” and “Prime Minister” are smaller than the keyword weights of “America” and “Economy” is because Prime Minister A talks in videos such as conferences. This is because the average number of occurrences of positive keywords such as “A” and “Prime Minister” is small.
一方、マイナスキーワードのキーワード重みは、「A」、「首相」、「アメリカ」、「経済」に対して、それぞれ「2.50」、「3.26」、「0.60」、「0.24」となっている。なお、「A」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて大きくなっている。この理由は、ニュース等の動画では、キャスターが「A」、「首相」等のマイナスキーワードを多く発言するので、これらのマイナスキーワードの平均発生回数が大きいからである。 On the other hand, the keyword weights of the negative keywords are “2.50”, “3.26”, “0.60”, “0.0” for “A”, “Prime Minister”, “America”, and “Economy”, respectively. 24 ". Note that the keyword weights of “A” and “Prime Minister” are larger than the keyword weights of “America” and “Economy”. This is because, in a video such as news, the caster speaks many negative keywords such as “A” and “Prime Minister”, so the average number of occurrences of these negative keywords is large.
ここで、キーワード「A」に着目する。プラスキーワード「A」のキーワード重みが「0.30」となる例としては、ユーザ12に選択された動画数が10個であり、この10個の動画内で「A」の発生回数が3回であった場合等が挙げられる。また、マイナスキーワード「A」のキーワード重みが「2.50」となる例としては、ユーザ12に選択されなかった動画数が12個であり、この12個の動画内で「A」の発生回数が30回であった場合等が挙げられる。これらのキーワード重みを算出する際に用いられた動画数、発生回数は、例えばキーワード情報データベース44に保持される。
Here, attention is focused on the keyword “A”. As an example in which the keyword weight of the plus keyword “A” is “0.30”, the number of moving images selected by the
再び図5に戻り説明する。動画ファイル検索手段32は、ステップS32で取得したキーワード重みから、プラスキーワードのキーワード重みとマイナスキーワードのキーワード重みとの差(キーワードの重み値の差)を算出する(ステップS33)。図6に示す各キーワード重みから、キーワード「A」の重み値の差が「−2.20」、キーワード「首相」の重み値の差が「−2.84」、キーワード「アメリカ」の重み値の差が「2.57」、キーワード「経済」の重み値の差が「2.26」となる。 Returning again to FIG. The moving image file search means 32 calculates the difference (keyword weight value difference) between the keyword weight of the plus keyword and the keyword weight of the minus keyword from the keyword weight acquired in step S32 (step S33). From the keyword weights shown in FIG. 6, the difference between the weight values of the keyword “A” is “−2.20”, the difference between the weight values of the keyword “Prime” is “−2.84”, and the weight value of the keyword “America”. Is “2.57”, and the difference between the weight values of the keyword “economy” is “2.26”.
次に、動画ファイル検索手段32は、動画ファイル内のキーワード間の時間間隔を算出する(ステップS34)。キーワード間の時間間隔は、動画ファイル検索手段32が経過時間算出手段として、上記したように、認識テキスト内の各キーワードと、動画ファイルの再生時における先頭からの経過時間とを対応付け、認識テキストを動画ファイルの再生時間に従って複数の区間(シーン)に区分することで算出できる。即ち、動画ファイル検出手段32は、図7(a)に示すように、シーンID33a、キーワード名33b、キーワードが含まれている動画ファイル名33c、及び発話開始時間33dが含まれるキーワード情報を生成し、このキーワード情報をキーワード情報一時検索結果データベース33に格納する。なお、キーワード情報には、動画ファイル検索手段32がキーワード情報データベース44から取得したキーワード重みも含まれる。以下では、動画ファイル名「動画1」の動画に着目する。
Next, the moving image file search means 32 calculates a time interval between keywords in the moving image file (step S34). As described above, the time interval between the keywords is determined by associating each keyword in the recognized text with the elapsed time from the beginning at the time of playback of the moving image file as the elapsed time calculating means. Can be calculated by dividing it into a plurality of sections (scenes) according to the playback time of the moving image file. That is, as shown in FIG. 7A, the moving image
「動画1」のキーワード情報は、図7(b)のように時系列で示すと、動画再生開始から動画再生終了までの間で、キーワード「首相」からキーワード「アメリカ」までの時間間隔が45秒、キーワード「アメリカ」からキーワード「経済」までの時間間隔が2秒、キーワード「経済」からキーワード「アメリカ」までの時間間隔が3秒となる。
When the keyword information of “
続いて、動画ファイル検索手段32は、例えば「動画1」について、上記ステップS31で取得した「認識テキスト内に含まれるキーワード数」、上記ステップS33で取得した「キーワードの重み値の差」、及び、上記ステップS34で取得した「キーワード間の時間間隔」の3つの要素に基づいて、動画順位を決定する(ステップS35)。
Subsequently, the moving image file search means 32, for example, for “moving
ステップS35で用いられる計算式としては、例えば、以下の式(1)が挙げられる。
{(キーワード「A」の重み値の差)×(キーワード「A」のキーワード数)+(キーワード「首相」の重み値の差)×(キーワード「首相」のキーワード数)+…}+{(キーワード間の時間間隔が30秒以内の個数)/(30秒以内のキーワード間の平均秒数)}
式(1)
As a calculation formula used at Step S35, the following formula (1) is mentioned, for example.
{(Difference in weight value of keyword “A”) × (Number of keywords of keyword “A”) + (Difference in weight value of keyword “Prime”) × (Number of keywords of keyword “Prime”) + ...} + {( Number of time intervals between keywords within 30 seconds) / (Average number of seconds between keywords within 30 seconds)}
Formula (1)
ここで、図7(b)を参照すると、「動画1」でのキーワード「A」のキーワード数は0個、キーワード「首相」のキーワード数は1個、キーワード「アメリカ」のキーワード数は2個、キーワード「経済」のキーワード数は1個である。同じく図7(b)を参照すると、キーワード間の時間間隔が30秒以内のキーワードの個数は3個、この3個のキーワード間の平均秒数は(2+3)/2=2.5秒となる。
Here, referring to FIG. 7B, the number of keywords “A” in “
従って、これらの数値を式(1)に代入すると、
{(−2.20×0)+(−2.84×1)+(2.57×2)+(2.26×1)}+(3/2.5)=5.76
となり、動画順位を決定するための値「5.76」が得られる。このような計算を、他の動画ファイルに対しても行うことで、動画ファイルの動画順位を決定できる。つまり、動画ファイル検索手段32は、キーワードの重み値の差が大きいほど、キーワードの発生回数が多いほど、且つ、キーワードの単位時間当たりの発生回数が多いほど、動画順位を上位とする。
Therefore, when these numerical values are substituted into the equation (1),
{(-2.20 × 0) + (− 2.84 × 1) + (2.57 × 2) + (2.26 × 1)} + (3 / 2.5) = 5.76
Thus, the value “5.76” for determining the moving image ranking is obtained. By performing such calculation for other moving image files, the moving image ranking of the moving image files can be determined. That is, the moving image file search means 32 sets the moving image rank higher as the difference between the keyword weight values is larger, the keyword is generated more frequently, and the keyword is generated more times per unit time.
次に、動画ファイル検索手段32は、「キーワード間の時間間隔」と「プラスキーワードのキーワード重み」とに基づいて、動画ファイル内の各キーワードで区分された区間(シーン)毎の順位を決定する(ステップS36)。ここで、「動画1」内のシーンID:001〜004までの4つのシーンの順位を決定する場合について、図7(b)を参照して説明する。
Next, the moving image file search means 32 determines the rank for each section (scene) divided by each keyword in the moving image file based on the “time interval between keywords” and “the keyword weight of a plus keyword”. (Step S36). Here, the case where the order of the four scenes ID “001” to “004” in “
ステップS36で用いられる計算式としては、例えば、以下の式(2)が挙げられる。
{(プラスキーワードのキーワード重み)/(隣り合うキーワード間の秒数の合計値)}
式(2)
As a calculation formula used at Step S36, the following formula (2) is mentioned, for example.
{(Keyword weight of plus keyword) / (Total number of seconds between adjacent keywords)}
Formula (2)
但し、隣り合うキーワードが1つの場合には、この隣り合うキーワード間の秒数を2倍した値を合計値とする。よって、隣り合うキーワード間の秒数の合計値は、図7(b)を参照すると、シーンID:001が「45×2=90秒」、シーンID:002が「45+2=47秒」、シーンID:003が「2+3=5秒」、シーンID:004が「3×2=6秒」となる。 However, when there is one adjacent keyword, a value obtained by doubling the number of seconds between the adjacent keywords is set as the total value. Therefore, referring to FIG. 7B, the total value of the number of seconds between adjacent keywords is as follows: scene ID: 001 is “45 × 2 = 90 seconds”, scene ID: 002 is “45 + 2 = 47 seconds”, scene ID: 003 is “2 + 3 = 5 seconds” and scene ID: 004 is “3 × 2 = 6 seconds”.
そこで、これらの合計値と、図6に示したプラスキーワードのキーワード重みとを式(2)に代入すると、シーンID:001が「0.42/90=0.0047」、シーンID:002が「3.17/47=0.067」、シーンID:003が「2.50/5=0.50」、シーンID:004が「3.17/6=0.53」を得られ、得られた値が大きい程、シーン順位を上位とする。よって、「動画1」内のシーン順位は、シーンID:004>シーンID:003>シーンID:002>シーンID:001となる。つまり、動画ファイル検索手段32は、シーンのプラスキーワードのキーワード重みが大きいほど、且つ、キーワードの発生間隔が短いほど、より重要なシーンと判定してシーン順位を上位とする。
Therefore, by substituting these total values and the keyword weights of the plus keywords shown in FIG. 6 into Expression (2), the scene ID: 001 is “0.42 / 90 = 0.007” and the scene ID: 002 is “3.17 / 47 = 0.67”, scene ID: 003 “2.50 / 5 = 0.50”, and scene ID: 004 “3.17 / 6 = 0.53” are obtained. The larger the value obtained, the higher the scene ranking. Therefore, the scene order in “
続いて、動画ファイル検索手段32は、ステップS35で決定した動画ファイルの動画順位と、ステップS36で決定した動画ファイル内のシーン順位とを、動画ファイル名等の情報と共に、動画ファイル一時検索結果データベース34に格納する(ステップS37)。ステップS37では、図8に示すように、動画ファイル一時検索結果データベース34に、検索結果一覧として、動画順位34a、シーン順位34b、動画ファイル名34c、シーンID34d、更に、タイトル、カテゴリ、動画サイズ等が格納される。
Subsequently, the moving image file search means 32 stores the moving image file ranking determined in step S35 and the scene order in the moving image file determined in step S36, together with information such as the moving image file name, in a moving image file temporary search result database. 34 (step S37). In step S37, as shown in FIG. 8, in the moving image file temporary
再び図4に戻り説明する。動画ファイル検索手段32は、図7(a)に示す内容でキーワード情報一時検索結果データベース33に格納したキーワード情報と、図8に示す動画ファイル一時検索結果データベース34に格納した検索結果一覧とを、Webサーバ20の動画検索結果表示手段23に送信する(ステップS40)。
Returning again to FIG. The moving image file search means 32 stores the keyword information stored in the keyword information temporary
次に、動画検索結果表示手段23は、ステップS40で取得したキーワード情報と検索結果一覧とに基づいて、Web画面上に、図9に示す検索結果一覧画面(動画ファイル検索結果一覧)70を表示する(ステップS41)。動画ファイル検索結果一覧70には、図示のように、動画順位、シーン順位、更に動画のタイトル、カテゴリ、動画ファイル名、検索ワード(入力されたキーワード)が表示されている。さらに、動画ファイル検索結果一覧70には、図示のように、ユーザ12が、目的に合った動画、又は、目的に合っていない動画である選択をするための「対象」領域71及び「対象外」領域72と、動画再生画面73と、映像の時間軸74と、動画内でのシーンの位置75とが表示される。なお、シーンの位置75をクリックすると、動画再生におけるシーンの頭出しができる。
Next, the video search result display means 23 displays a search result list screen (video file search result list) 70 shown in FIG. 9 on the Web screen based on the keyword information acquired in step S40 and the search result list. (Step S41). In the moving image file
続いて、ステップS30で表示された動画ファイル検索結果一覧70から、「対象」領域71又は「対象外」領域72がユーザ12の操作に応じてチェックされると、ユーザ端末11の動画選択手段17は、目的に合っている又は合っていない動画を選択し(ステップS42)、選択結果を動画検索結果表示手段23に送信する。動画検索結果表示手段23は、選択結果を、動画検索サーバ30のキーワード重み付け変更手段35に送信する(ステップS43)。
Subsequently, when the “target”
キーワード重み付け変更手段35は、選択結果に基づいて、目的に合っている動画として選択された動画ファイルに含まれるキーワード(即ち、プラスキーワード)と、目的に合っていない動画として選択された動画ファイルに含まれるキーワード(即ち、マイナスキーワード)と、これらのキーワード重みとを、キーワード情報一時検索結果データベース33から取得する(ステップS44)。
Based on the selection result, the keyword
次に、キーワード重み付け変更手段35は、取得したプラスキーワードのキーワード重み、マイナスキーワードのキーワード重みを変更(更新)する(ステップS45)。以下、図10を参照して、ステップS45でのキーワード重みを更新する処理について説明する。図10は、更新後のプラスキーワードのキーワード重み、及び、マイナスキーワードのキーワード重みを示している。ここでは、一例としてキーワード「A」に着目する。 Next, the keyword weight changing means 35 changes (updates) the keyword weight of the acquired plus keyword and the keyword weight of the minus keyword (step S45). Hereinafter, with reference to FIG. 10, the process of updating the keyword weight in step S45 will be described. FIG. 10 shows the keyword weight of the plus keyword and the keyword weight of the minus keyword after the update. Here, attention is focused on the keyword “A” as an example.
キーワード重み付け変更手段35は、キーワード情報一時検索結果データベース33にアクセスする。キーワード重み付け変更手段35は、ファイルサーバ40内のキーワード情報データベース44に保持されていた更新前のプラスキーワード「A」のキーワード重み「0.3」と、この値を算出するために用いられた、ユーザ12に選択された動画数「10個」と、この10個の動画内での「A」の発生回数「3回」とを取得する。一例として、ステップS42の選択結果が、目的に合っている動画として新たに5個の動画が選択され、この5個の動画内での「A」の発生回数が1回であったとする。この場合には、キーワード重み付け変更手段35は、プラスキーワード「A」の新たなキーワード重みを
{(3+1)/(10+5)}≒0.27とする。
The keyword weighting changing means 35 accesses the keyword information temporary
{(3 + 1) / (10 + 5)} ≈0.27.
つまり、キーワード重み付け変更手段35は、図10に示すように、プラスキーワード「A」のキーワード重み44cを、ステップS42の選択結果に応じて、図6に示す「0.3」から「0.27」に更新する。
That is, as shown in FIG. 10, the keyword weight changing means 35 changes the
また、キーワード重み付け変更手段35は、キーワード情報一時検索結果データベース33にアクセスし、キーワード情報データベース44に保持されていた更新前のマイナスキーワード「A」のキーワード重み「2.50」と、この値を算出するために用いられた、ユーザ12に目的に合っていないとして選択された動画数「12個」と、この12個の動画内での「A」の発生回数「30回」とを取得する。一例として、ステップS42の選択結果が、目的に合っていない動画として新たに3個の動画が選択され、この3個の動画内での「A」の発生回数が8回であったとする。この場合には、キーワード重み付け変更手段35は、マイナスキーワード「A」の新たなキーワード重みを
{(30+8)/(12+3)}≒2.53とする。
Further, the keyword weighting changing means 35 accesses the keyword information temporary
{(30 + 8) / (12 + 3)} ≈2.53.
つまり、キーワード重み付け変更手段35は、図10に示すように、マイナスキーワード「A」のキーワード重み44dを、ステップS42の選択結果に応じて、図6に示す「2.5」から「2.53」に更新する。上記計算を他のキーワードに適用することで、図10に例示する更新後のプラスキーワードのキーワード重み及びマイナスキーワードのキーワード重みが算出可能となる。
That is, as shown in FIG. 10, the keyword weight changing means 35 changes the
次いで、キーワード重み付け変更手段35は、キーワード情報データベース44に既に格納されているキーワードに更新後のキーワード重みを付与する(ステップS46)。キーワード情報データベース44には、図10に示すように、同時に検索されたキーワードのセット(例えば、「A」「首相」「アメリカ」「経済」からなるワンセット)毎にキーワード重みが保存される。なお、ステップS46では、キーワード情報データベース44に格納されていないキーワードについては、算出されたキーワード重みと共に、キーワード情報データベース44に新規に登録する。
Next, the keyword
ユーザ12は、目的の動画が検索されるまで、ユーザ端末11のキーワード設定手段16を用いてキーワードを入力し、さらに、動画選択手段17を用いて動画ファイル検索結果一覧70から目的の動画を選択する。キーワード重み付け変更手段35は、ユーザ12の操作による動画の選択に応じて、キーワード重みを更新する。そして、動画ファイル検索手段32は、動画順位及びシーン順位を決定する際に更新後のキーワード重みを参照する。つまり、動画再生装置10では、ユーザ12が再度同じ検索キーワードで検索をする場合に、更新されたキーワード重みが適用されるので、目的に合った動画及びシーンの順位が上位に表示され、より目的に合った動画ファイルを検索できる。
The
本実施形態では、キーワード毎にキーワード重みがあり、このキーワード重みがユーザの操作を反映して動的に更新されるので、使用すればする程、検索結果の上位に目的のシーンを含む動画が表示される精度が高まる。また、キーワード間の時間間隔に着目することで、動画ファイル内でのシーンの順位を決定できる。さらに、キーワードと、動画ファイルの再生時における先頭からの再生位置(経過時間)とが対応付けられているので、動画ファイル内でキーワードが発話されている目的のシーンを瞬時に頭出しできる。また、動画ファイルの音声認識による発話内容からの検索と動画ファイルのメタデータによる検索とを組み合わせることで、精度の高い検索が可能となる。よって、本実施形態では、Web上等にある大量の動画ファイルから、動画内の話者がキーワードを実際に発話しているシーンを効率的に検索できる。また、入力されたキーワードを蓄積(学習)することで、効率的な検索の絞り込みが可能となる。 In the present embodiment, there is a keyword weight for each keyword, and this keyword weight is dynamically updated to reflect the user's operation. The displayed accuracy is increased. In addition, by focusing on the time interval between keywords, the order of scenes in a moving image file can be determined. Furthermore, since the keyword is associated with the reproduction position (elapsed time) from the beginning when the moving image file is reproduced, the target scene where the keyword is uttered in the moving image file can be found immediately. In addition, it is possible to perform a highly accurate search by combining the search from the utterance content by the voice recognition of the moving image file and the search by the metadata of the moving image file. Therefore, in this embodiment, it is possible to efficiently search a scene in which a speaker in a moving image actually speaks a keyword from a large amount of moving image files on the Web or the like. Further, by storing (learning) the input keywords, it is possible to narrow down search efficiently.
上記実施形態では、ユーザ12が、目的のシーンを含む動画として、A首相の会見でアメリカ経済に関する意見を聞きたい場合を例示したが、これに限定されない。一例として、図11に示すように、ユーザ12が、サッカーのB選手のインタビューでゴールの感想を聞きたい場合に、検索キーワードとして、「サッカー」「B」「インタビュー」「ゴール」を入力したとする。
In the above-described embodiment, the case where the
これらの検索キーワードを含む動画が、図9に示す動画ファイル検索結果動画一覧70に表示されると、ユーザ12は、目的に合う又は合わない動画を選択することになる。例えば、インタビュー映像の動画は、ユーザ12によって目的に合う動画として選択される。このため、インタビュー映像の動画に含まれるキーワードは、全てプラスキーワード44eとされる。プラスキーワードのキーワード重みは、「サッカー」、「B」、「インタビュー」、「ゴール」に対して、それぞれ「0.24」、「0.81」、「1.05」、「2.76」となっている。インタビュー映像では、「サッカー」「B」などのプラスキーワードが他のプラスキーワードと比べて平均発生回数が少ないので、キーワード重みが小さくなっている。
When a moving image including these search keywords is displayed in the moving image file search result moving
一方、ニュース映像、サッカーのプレイ映像の動画は、B選手のインタビューではなく、例えばキャスターの発言が主であるから、ユーザ12によって目的に合わない動画として選択されることになる。このため、ニュース映像、サッカーのプレイ映像の動画に含まれるキーワードは、全てマイナスキーワード44fとされる。マイナスキーワードのキーワード重みは、「サッカー」、「B」、「インタビュー」、「ゴール」に対して、それぞれ「2.20」、「2.89」、「1.55」、「1.10」となっている。ニュース映像、サッカーのプレイ映像では、「サッカー」「B」などのマイナスキーワードが他のマイナスキーワードと比べて平均発生回数が大きいので、キーワード重みが大きくなっている。なお、これらのプラスキーワード44e及びマイナスキーワード44fは、キーワード情報データベース44に格納される。このような場合であっても、上記実施形態の構成により、動画内の話者が実際にキーワードを発話しているシーンを高い精度で検索できる。
On the other hand, since the video of the news video and the football play video is not the interview of the player B but mainly the remark of the caster, for example, the video is selected by the
また、上記実施形態では、Web上にアップロードされた動画ファイルの音声データに基づいて、目的のシーンが含まれる動画を検索する例について説明したが、これに限定されない。一例として、ハードディスクレコーダー等に保存された動画ファイルから目的のシーンを検索することもできる。 Moreover, although the said embodiment demonstrated the example which searches the moving image containing the target scene based on the audio | voice data of the moving image file uploaded on Web, it is not limited to this. As an example, a target scene can be searched from a moving image file stored in a hard disk recorder or the like.
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の動画再生装置、動画再生方法及びプログラムは、上記実施形態の構成にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。 As described above, the present invention has been described based on the preferred embodiment. However, the moving image reproducing apparatus, the moving image reproducing method, and the program of the present invention are not limited to the configuration of the above embodiment, and the configuration of the above embodiment. To which various modifications and changes are made within the scope of the present invention.
1,10:動画再生装置
2,31:音声認識手段
3:テキストファイル生成手段
4:記憶装置
5:キーワード検出手段
6:動画順位決定手段
7:動画再生手段
8:重み更新手段
11,13:ユーザ端末
12:ユーザ(利用者)
14:ユーザ(動画投稿者)
15:動画投稿手段
16:キーワード設定手段
17:動画選択手段
20:Webサーバ
21:動画投稿画面表示手段
22:キーワード入力画面表示手段
23:動画検索結果表示手段
30:動画検索サーバ
32:動画ファイル検索手段
33:キーワード情報一時検索結果データベース
34:動画ファイル一時検索結果データベース
35:キーワード重み付け変更手段
40:ファイルサーバ
41:動画ファイルデータベース
42:言語モデルデータベース
43:認識テキストデータベース
44:キーワード情報データベース
50:LAN
60:インターネット
70:検索結果一覧画面
DESCRIPTION OF
14: User (video contributor)
15: Movie posting unit 16: Keyword setting unit 17: Movie selection unit 20: Web server 21: Movie posting screen display unit 22: Keyword input screen display unit 23: Movie search result display unit 30: Movie search server 32: Movie file search Means 33: Keyword information temporary search result database 34: Movie file temporary search result database 35: Keyword weight change means 40: File server 41: Movie file database 42: Language model database 43: Recognition text database 44: Keyword information database 50: LAN
60: Internet 70: Search result list screen
Claims (9)
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置。 A voice recognition means for voice recognition of a video file;
Text file generation means for generating a text file from the output of the voice recognition means;
Keyword detecting means for detecting a keyword stored in advance in the storage device from the text file;
A video ranking determining means for determining the priority of the video to be played with reference to the keyword weight attached to the keyword,
Movie playback means for playing back the movie selected by the user's selection referring to the movie ranking;
A moving image playback apparatus comprising: a moving image selected by a user; and weight updating means for updating the keyword weight based on a mode in which the keyword is generated.
ユーザが非選択とした動画に含まれるキーワードをマイナスキーワードと定義し、前記マイナスキーワードの発生回数が多いほど、且つ、非選択とされた動画の数と選択対象の動画の数との比率が小さいほど、マイナスキーワードのキーワード重みが大きくなるように修正する、請求項1〜4の何れか一に記載の動画再生装置。 The weight updating means defines a keyword included in the video selected by the user as a positive keyword, and the ratio of the number of selected videos and the number of videos to be selected increases as the number of occurrences of the positive keyword increases. The smaller the, the higher the keyword weight of the plus keyword,
A keyword included in a video that is not selected by the user is defined as a negative keyword. The more the negative keyword is generated, the smaller the ratio between the number of videos that are not selected and the number of videos to be selected. The moving image reproducing device according to claim 1, wherein the moving image reproducing device is modified so that the keyword weight of the minus keyword increases.
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法。 A voice recognition step for recognizing a video file,
A text file generation step for generating a text file from the output of the speech recognition step;
A keyword detection step of detecting a keyword stored in advance in the storage device from the text file;
A video ranking determination step that determines the priority of the videos to be played by referring to the keyword weights attached to the keywords;
A video playback step of playing back the video selected by the user's selection referring to the video ranking;
A video reproduction method comprising: a weight update step of updating the keyword weight based on a video selected by a user and an aspect in which the keyword is generated.
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラム。 A program for a video playback device that includes a computer and plays back a video, the computer comprising:
Voice recognition processing that recognizes video files,
A text file generation process for generating a text file from the output of the speech recognition process;
A keyword detection process for detecting a keyword stored in advance in the storage device from the text file;
A video ranking determination process that determines the priority of videos to be played with reference to the keyword weights assigned to the keywords,
A video playback process for playing back the video selected by the user's selection referring to the video ranking;
A program for executing weight update processing for updating the keyword weight based on a moving image selected by a user and an aspect in which the keyword is generated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009194901A JP5499566B2 (en) | 2009-08-26 | 2009-08-26 | Movie playback device, movie playback method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009194901A JP5499566B2 (en) | 2009-08-26 | 2009-08-26 | Movie playback device, movie playback method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011049707A true JP2011049707A (en) | 2011-03-10 |
JP5499566B2 JP5499566B2 (en) | 2014-05-21 |
Family
ID=43835622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009194901A Expired - Fee Related JP5499566B2 (en) | 2009-08-26 | 2009-08-26 | Movie playback device, movie playback method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5499566B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6382423B1 (en) * | 2017-10-05 | 2018-08-29 | 株式会社リクルートホールディングス | Information processing apparatus, screen output method, and program |
JP2019102060A (en) * | 2017-12-04 | 2019-06-24 | 株式会社リコー | Information presentation system, information presentation method, program, and recording medium |
JP2020528705A (en) * | 2017-07-24 | 2020-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Moving video scenes using cognitive insights |
CN114554245A (en) * | 2022-02-16 | 2022-05-27 | 杭州座头鲸科技有限公司 | Analysis method for video content understanding |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002142160A (en) * | 2000-11-02 | 2002-05-17 | Nec Corp | Program recommending apparatus and program recommending method and recoding medium with its program recorded |
JP2007281856A (en) * | 2006-04-06 | 2007-10-25 | Sony Corp | Recording and reproducing device and recording and reproducing method |
JP2008234290A (en) * | 2007-03-20 | 2008-10-02 | Hitachi Systems & Services Ltd | Retrieval method and retrieval device |
-
2009
- 2009-08-26 JP JP2009194901A patent/JP5499566B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002142160A (en) * | 2000-11-02 | 2002-05-17 | Nec Corp | Program recommending apparatus and program recommending method and recoding medium with its program recorded |
JP2007281856A (en) * | 2006-04-06 | 2007-10-25 | Sony Corp | Recording and reproducing device and recording and reproducing method |
JP2008234290A (en) * | 2007-03-20 | 2008-10-02 | Hitachi Systems & Services Ltd | Retrieval method and retrieval device |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020528705A (en) * | 2017-07-24 | 2020-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Moving video scenes using cognitive insights |
JP7123122B2 (en) | 2017-07-24 | 2022-08-22 | キンドリル・インク | Navigating Video Scenes Using Cognitive Insights |
JP6382423B1 (en) * | 2017-10-05 | 2018-08-29 | 株式会社リクルートホールディングス | Information processing apparatus, screen output method, and program |
WO2019069997A1 (en) * | 2017-10-05 | 2019-04-11 | 株式会社リクルート | Information processing device, screen output method, and program |
JP2019066785A (en) * | 2017-10-05 | 2019-04-25 | 株式会社リクルートホールディングス | Information processing device, screen output method and program |
JP2019102060A (en) * | 2017-12-04 | 2019-06-24 | 株式会社リコー | Information presentation system, information presentation method, program, and recording medium |
CN114554245A (en) * | 2022-02-16 | 2022-05-27 | 杭州座头鲸科技有限公司 | Analysis method for video content understanding |
CN114554245B (en) * | 2022-02-16 | 2024-03-22 | 杭州座头鲸科技有限公司 | Analysis method for understanding video content |
Also Published As
Publication number | Publication date |
---|---|
JP5499566B2 (en) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4910582B2 (en) | Information processing apparatus and method, and program | |
US20190266150A1 (en) | Video Content Search Using Captioning Data | |
US8185543B1 (en) | Video image-based querying for video content | |
JP5539904B2 (en) | Annotate video interval | |
US7546288B2 (en) | Matching media file metadata to standardized metadata | |
US20070101266A1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
JP2005512233A (en) | System and method for retrieving information about a person in a video program | |
US8612384B2 (en) | Methods and apparatus for searching and accessing multimedia content | |
WO2015101155A1 (en) | Method for recommending information to user | |
JP2011217209A (en) | Electronic apparatus, content recommendation method, and program | |
JP4354441B2 (en) | Video data management apparatus, method and program | |
US20170242861A1 (en) | Music Recommendation Method and Apparatus | |
JP6337183B1 (en) | Text extraction device, comment posting device, comment posting support device, playback terminal, and context vector calculation device | |
JP2004528640A (en) | Method, system, architecture and computer program product for automatic video retrieval | |
JP2010220065A (en) | Device and method for recommending content | |
JP2010055501A (en) | Information providing server, information providing method and information providing system | |
JP5499566B2 (en) | Movie playback device, movie playback method and program | |
US20080005100A1 (en) | Multimedia system and multimedia search engine relating thereto | |
JP4064902B2 (en) | Meta information generation method, meta information generation device, search method, and search device | |
EP2336900A2 (en) | Search device and search method | |
US20140032537A1 (en) | Apparatus, system, and method for music identification | |
JP2019008779A (en) | Text extraction apparatus, comment posting apparatus, comment posting support apparatus, reproduction terminal, and context vector calculation apparatus | |
WO2014103374A1 (en) | Information management device, server and control method | |
Haubold et al. | Vast mm: multimedia browser for presentation video | |
JP2013092912A (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5499566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |