JP4346613B2 - 映像要約装置及び映像要約方法 - Google Patents

映像要約装置及び映像要約方法 Download PDF

Info

Publication number
JP4346613B2
JP4346613B2 JP2006003973A JP2006003973A JP4346613B2 JP 4346613 B2 JP4346613 B2 JP 4346613B2 JP 2006003973 A JP2006003973 A JP 2006003973A JP 2006003973 A JP2006003973 A JP 2006003973A JP 4346613 B2 JP4346613 B2 JP 4346613B2
Authority
JP
Japan
Prior art keywords
video
section
audio
video data
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006003973A
Other languages
English (en)
Other versions
JP2007189343A (ja
Inventor
晃司 山本
龍也 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006003973A priority Critical patent/JP4346613B2/ja
Priority to US11/647,151 priority patent/US20070168864A1/en
Publication of JP2007189343A publication Critical patent/JP2007189343A/ja
Application granted granted Critical
Publication of JP4346613B2 publication Critical patent/JP4346613B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames

Description

本発明は、映像要約装置及び方法に関する。
従来の映像要約装置には特開2005−109566公報に開示されているように、属性情報が付与された映像からユーザの好みに基づいて重要度の高い区間を抽出し、同時にその映像の内容に合わせて、得点状況や画面内の選手のプレイを説明するナレーションを作成するナレーション付き映像要約装置があった。ここで、属性情報とはスポーツ中継映像の中で発生した事象(サッカーのシュートや野球のホームランなど)の内容を時刻情報と共に記述したものである。しかしながら、この装置で使用されるナレーションは属性情報から作成され、もともと映像に含まれる音声についてはナレーションとして使用していなかった。そのため、場面ごとに詳細にプレイを説明するナレーションを作成するためには、プレイの内容を詳細に記述した属性情報を必要とした。そのような属性情報は自動で作成することは困難であるため、人手による入力に頼らざるを得ず、負担が大きかった。
特開2005−109566公報
上述したように、従来、要約映像データにナレーションを付加するためには、映像の内容を記述した属性情報を必要とし、映像の内容をより詳細に説明するためには、多量の属性情報を予め作成する必要があるという問題点があった。
そこで本発明は、上記問題点を解決するためになされたものであって、映像データ中の音声を要約映像データの内容を説明するナレーションとして利用できる映像要約装置及び方法を提供することを目的とする。
本発明の映像要約装置は、映像及び音声を含む時系列な映像データを記憶する映像記憶手段と、前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段とを備え、前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択し、前記映像記憶手段に記憶されている映像データのうち、選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する。一方、前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出して、検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出し、前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する。
本発明によれば、映像データ中の音声を要約映像データの内容を説明するナレーションとして利用できる。
以下、本発明の実施形態について図面を参照して説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る映像要約装置の構成例を示すブロック図である。
図1の映像要約装置は、条件入力部100、映像データ記憶部101、属性情報記憶部102,容赦句映像生成部103、説明文生成部104、説明文出力部105,再生部106,音声カット検出部107、音声区間抽出部108、映像区間制御部109を含む。
映像データ記憶部101は、映像及び音声を含む映像データが記憶されている。この映像データ記憶部101に記憶されている映像データから、要約映像データ、当該要約映像データに対応するナレーションが図1の映像要約装置から生成される。
属性情報記憶部102は、映像データ記憶部101に記憶されている映像データの各映像区間について、当該映像区間内の映像の内容を示した属性情報が記憶されている。また、属性情報と、映像データ記憶部101に記憶されている映像データは、ここでは、映像データの先頭からカウントされる時刻あるいはフレーム番号で対応付けられている。例えば、ある映像区間に対応する属性情報は、当該映像区間の開始時刻及び終了時刻を含み、この開始時刻及び終了時刻で属性情報と映像区間の映像データとを対応付けることができる。また、映像データ中のある事象が発生した時刻を中心に、予め定められた時間幅を1つの映像区間とした場合、当該映像区間に対応する属性情報は、当該事象の発生時刻を含み、この発生時刻で、属性情報と当該発生時刻を中心とする予め定められた時間幅の映像区間の映像データとを対応付けることができる。また、1つの映像区間は、その開始時刻から次の映像区間の開始時刻までであるとすると、当該映像区間に対応する属性情報は、当該映像区間の開始時刻を含み、この開始時刻で属性情報と映像区間とを対応付けることができる。さらに、時刻の代わりに、映像のフレーム番号を用いてもよい。なお、ここでは、属性情報は、映像データ中の任意の事象の発生時刻を含み、この発生時刻で、属性情報と映像区間とを対応付ける場合を例にとり説明する。この場合、1つの映像区間は、ある事象が発生した時刻を中心とする予め定められた時間区間内の映像データを含む。
映像データ記憶部101に記憶されている映像データが、野球の中継番組の映像データである場合の属性情報記憶部102に記憶されている属性情報の一例を図4に示す。
図4に示す属性情報では、ヒット、三振、ホームランなどが発生した時刻(タイムコード)と、このような事象(ここでは、ヒット、三振、ホームランなどの打席の結果)が発生したときの打席の回、表裏、アウトカウント、出塁状況、チーム名、打者名、得点状況などが項目別に記述されている。なお、図4に示した項目は一例であり、図4とは異なる項目であってもよい。
条件入力部100は、映像データ記憶部101に記憶されている映像データから、所望の映像区間を検索するための条件が入力される。
要約映像生成部103は、条件入力部100から入力された条件に一致する属性情報を選択し、選択された属性情報に対応付けられている映像区間の映像データを基に要約映像データを生成する。
説明文生成部104は、少なくとも、条件入力部100で入力された条件に一致する属性情報から、要約映像に対する説明文を生成し、説明文出力部105は、生成された説明文の合成音声及びテキスト(あるいは、説明文の合成音声とテキストのうちのいずれか一方)を生成し、出力する。再生部106は、要約映像データと説明文の合成音声及びテキスト(あるいは、説明文の合成音声とテキストのうちのいずれか一方)を同期させて再生する。
音声カット検出部107は、映像データ記憶部101に記憶されている映像データに含まれる音声の区切り位置を検出し、音声区間抽出部108は、検出された音声の区切り位置を基に、映像データに含まれる音声から、要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する。映像区間制御部109は、この抽出された音声区間に基づいて、要約映像生成部103で生成される要約映像中の映像区間を修正する。
図2は、図1の映像要約装置の処理動作を説明するためのフローチャートである。次に、図2を参照して、図1の映像要約装置の処理動作について説明する。
まず、条件入力部100より、要約映像作成時の条件となるユーザの嗜好を示すキーワードや、要約映像全体の再生時間などを入力する(ステップS01)。
次に、要約映像生成部103は、属性情報記憶部102に記憶されている属性情報のなかから、入力された条件を満たす(例えば、ここでは、条件として指定されたキーワードを含む)属性情報を選択し、映像データ記憶部101に記憶されている映像データのうち、当該選択された属性情報に対応する映像区間の映像データを選択する(ステップS02)。
ここで、図3を参照して、ステップS02の処理動作について、より具体的に説明する。なお、図3では、映像データ記憶部101に記憶されている映像データが、野球の中継番組の映像データである場合を示している。この映像データの属性情報が図4であるとする。
ステップS01で条件として入力された「チームB」や「ヒット」などのキーワードが入力され、ステップS02では、これらキーワードを含む属性情報が検索され、検索された属性情報に対応付けられている映像区間201、202等を選択する。後述するように、これら選択された映像区間の長さを修正した後、修正後の各映像区間の映像データを時系列に接続して、要約映像データ203が生成される。
映像区間の選択は、例えば特開2004−126811公報(コンテンツ情報編集装置とその編集プログラム)に記載されている手法を用いて行うことができる。以下、映像要約処理を例に映像区間の選択処理を説明する。
図17は映像要約処理について説明する図である。図4の例では個々の属性情報について、発生時刻のみを記述し、区間の開始と終了は記述していなかった。この手法は要約映像に含める属性情報の選択とともに、各区間の開始・終了点を同時に決定する。
まず属性情報とユーザの嗜好を比較し、図17(a)に示すように、属性情報ごとの重要度wを算出する。
次に、属性情報の重要度と、図17(b)に示すような重要度関数とから個々の属性情報の重要度の時間的変化を示すE(t)を算出する。重要度関数f(t)はi番目の属性情報の重要度の変化をモデル化した時間tの関数である。この重要度関数を用い、i番目の属性情報の重要度曲線E(t)を次式で定義する。
(t)=(1+w)f(t)
次に、イベントごとの重要度曲線から、次式に従い、図17(c)に示すように、映像コンテンツ全体の重要度曲線ER(t)を算出する。ただし、Max(E(t))は時刻tにおけるE(t)の最大値を示す。
ER(t)=Max(E(t))
最後に、太線で示された区間1203のようにコンテンツ全体の重要度曲線ER(t)が閾値ERthより大きい区間を抽出し、要約映像とする。なお、閾値ERthは、その値が小さい(低い)ほど、要約映像区間は長くなり、大きい(高い)ほど要約映像区間は短くなる。そこで、閾値ERthは抽出された区間の合計時間が要約作成条件に含まれる全体の再生時間を満足するように決定される。
以上により、属性情報と要約作成条件に含まれるユーザの嗜好から要約映像に含める区間を選択する。
上述の手法の詳細については、例えば特開2004−126811公報(コンテンツ情報編集装置とその編集プログラム)にも記載されている。
次に、説明文生成部104は、検索された属性情報から説明文を生成する(ステップS03)。説明文の生成は、例えば特開2005−109566公報に記載されている手法により行うことができる。以下、説明文の生成について要約映像のナレーション生成を例に説明する。
図18は要約映像のナレーション生成について説明する図である。ナレーション生成は属性情報を文章テンプレート(雛形)に当てはめることで行う。例えば、属性情報1100を文章テンプレート1101に当てはめ、ナレーション1102を生成する。しかし、毎回同じ文章テンプレートを用いていたのでは、画一的なナレーションしか生成できず、不自然になってしまう。
そこで、自然なナレーションを生成するために、文章テンプレートを複数用意し、映像の内容に応じた切り替えを行うとよい。映像の内容を反映する状態遷移モデルを作成し、試合の状況を管理する。属性情報が入力されると、状態遷移モデル上での遷移が生じ、文章テンプレートが選択される。遷移条件は属性情報の項目などによって定義される。
図18の例ではノード1103が属性情報が入力される前の現状態を示す。属性情報1100が入力されて状態1104に遷移すると、対応づけられたテンプレート1101が選択される。同様に他のノードに対する遷移に対してもテンプレートが対応付けられており、そちらの遷移が起これば文章テンプレートが選択される。実際には状態遷移モデルは1つではなく、得点状況を管理するモデル、攻撃の状況を管理するモデルなど複数のモデルが存在し、属性情報はこれらの状態遷移モデルから得られるナレーションを統合して生成される。得点の例では、「同点」、「逆転」、「追加点」では異なる遷移をたどり、同じ得点のナレーションであっても試合の状況に応じて文章が生成される。
例えば、映像区間201の属性情報が、図4の属性情報300であるとする。この属性情報300は、映像データの時刻「0:53:19」に発生した事象(打者がヒットを打った、という事象)を記述した属性情報であるが、この属性情報からは、「チームBは5回の裏の攻撃で、バッターはコバヤシ。」という説明文を生成する。
なお、映像区間201の映像データのうち、この生成された説明文は、図3では、映像区間201の先頭部分の(先頭のたかだか数フレーム分)の映像データ205に対応する説明文206となる。
次に、説明文出力部105は、生成された説明文の合成音声、すなわち、音声ナレーションを生成する(ステップS04)。
次に、音声カット検出部107は、映像データに含まれる音声の区切り位置を検出する(ステップS05)。一例として音響パワーが一定の値を下回る区間を無音区間とし、区切り位置を無音区間の任意の一時点(例えば、無音区間の中間点、無音区間の開始時点から所定時間後の時点など)に設定する。
ここで、図5を参照して、音声カット検出部107における、区切り位置の検出方法について説明する。ここでは、ステップS02で求めた映像区間201およびこの映像区間201近傍における音声の波形(図5(a))と、その音響パワー(図5(b))を示したものである。
音響パワーをPとすると、P<Pthとなる区間を無音区間とする。ただし、Pthは無音と判定するための予め定められた閾値である。図5(b)において、音声カット検出部107は、音響パワーが閾値Pth未満の太線で表された区間を、無音区間404と判定し、この各無音区間404内の任意の時点を区切り位置として設定する。区切り位置から区切り位置までの区間を1つの音声区間とする。
次に、音声区間抽出部108は、ステップS02で選択された各映像区間の映像に対し、当該映像区間近傍に存在する、音声カット検出部107で検出された音声の区切り位置で区切られた音声区間のなかから、当該映像区間の説明音声として用いる音声区間を抽出する(ステップS06)。
例えば、音声区間抽出部108は、映像区間201の開始時刻や、映像区間201の事象の発生時刻(ここでは、属性情報に記述されている時刻)を含む音声区間を選択及び抽出してもよい。あるいは、映像区間201の開始時刻や、映像区間201の事象の発生時刻に一番近い時刻に発生する音声区間を選択及び抽出してもよい。
図5では、映像区間201の事象(打者がヒットを打った、という事象)の発生時刻が405であるとすると、これを含む音声区間406が選択及び抽出される。この音声区間406は、図3では、打者が実際にヒットを打った場面の映像207の実況音声であったとする。
次に、音声区間制御部109は、ステップS02で選択された各映像区間に対し抽出された音声区間に従い、要約映像として用いる各映像区間の長さを修正する(ステップS07)。これは、各映像区間に対応する音声区間を完全に含むように、当該映像区間を延長することで可能である。
例えば、図5において、映像区間201に対し抽出された音声区間406は、映像区間201の終端時刻よりも後まで続いている。この場合、音声区間406を完全に含むような映像区間に修正すべく、映像区間201に、その後の所定時間幅の映像データ211を追加して、映像区間201の終端時刻を延長する。すなわち、区間修正後の映像区間201は、映像区間201と映像区間211とを合わせた区間である。
あるいは、ステップS02で選択された各映像区間の終了時点が、当該映像区間に対し抽出された音声区間の終了時点の区切り位置と一致するように、当該映像区間の終了時点を修正してもよい。
また、ステップS02で選択された各映像区間の開始時点及び終了時点が、当該映像区間に対し抽出された音声区間の開始時点及び終了時点の区切り位置を含むように、当該映像区間の開始時点及び終了時点を修正してもよい。
さらに、ステップS02で選択された各映像区間の開始時点及び終了時点が、当該映像区間に対し抽出された音声区間の開始時点及び終了時点の区切り位置と一致するように、当該映像区間の開始時点及び終了時点を修正してもよい。
このようにして、音声区間制御部109により、要約映像生成部103で生成された、要約映像として用いる各映像区間の区間が修正される。
次に、再生部106は、以上の処理により得られた、区間修正後の各映像区間の映像データを時系列に繋げてなる要約映像データ(映像区間(修正された場合には修正後の映像区間の)映像及び説明音声)と、ステップS04で生成された説明文の音声ナレーションとを、同期させて再生する(ステップS08)。
以上説明したように、上記第1の実施形態によれば、音声の区切り位置を基に区切られた映像データからなる要約映像を生成することができ、当該要約映像の属性情報から生成された説明文のナレーションの他に、当該要約映像の映像データに含まれる音声により、要約映像に含まれる映像に関する詳細な情報が得られる。すなわち、要約映像の映像データにもともと含まれている音声情報からも、要約映像に関する情報を得られるため、詳細な説明文を生成するための詳細な属性情報を予め作成する必要がない。属性情報は、映像データから、所望の場面を検索するためのインデックスとして利用することができる程度の情報があればよく、属性情報作成のための負荷を軽減することができる。
(音声の区切り位置の他の検出方法)
図2のステップS05では、映像データに含まれる音声の無音区間あるいは音の小さい区間を検出することによって、区切り位置を検出したが、区切り位置を検出する方法はこの手法に限らない。
以下、図6、図7を参照して、音声カット検出部107における音声の区切り位置の他の検出方法について説明する。
図6では、複数の話者がいる場合は、話者の切り替わりを、音声の区切り位置として検出する手法を説明したものである。話者の切り替わりは、例えば特開2003−263193(音声認識システムで話者の交代を自動検出する方法)記載の手法を用いて検出することが可能である。
図19は、話者の交代を検出する処理について説明する図である。セミコンティニュアス隠れマルコフモデルSCHMMを用いた音声認識システムにおいて、コードブックを標準コードブック1300以外に話者ごとに学習させた複数のコードブックを用意する。各コードブックはn次の正規分布から形成され、平均値ベクトルμおよびその共変マトリクスKにより表される。話者ごとに学習させたコードブックとは、これらの平均値ベクトル及び/あるいは共変マトリクスを話者ごとに固有に変更したものである。例として話者Aに適応するコードブック1301と話者Bに適応するコードブック1302を用意する。
音声認識システムはベクトル量子化を用いて話者から独立したコードブック及び話者に依存するコードブックを相関させる。この相関に基づいて音声認識システムでは音声信号を該当するコードブックに割り当て、これにより話者の同一性を判断する。具体的には音声信号1303から得られた各特徴ベクトルごとに全コードブック1300〜1302に含まれる各正規分布へのベクトル量子化を行う。1つのコードブックにk個の正規分布が含まれるとき、各正規分布の確率をp(x,k)とする。各コードブックにおいて、p(x,k)のうち、閾値を上回る確率値の数をNとすると正規化係数Fを次式により求める。
F=1/(p(x,1)+p(x,2)+・・・+p(x,N))
正規化係数とは閾値を上回る確率値に乗ずることにより、その合計を「1」にすることができる係数である。音声の特徴ベクトルがいずれかのコードブックの正規分布に近づくにつれて、確率値が大きくなる。すなわち、正規化係数が小さくなる。正規化係数が最も小さいコードブックを選択することにより、話者の判別が可能であり、話者の交代も検出することができる。
図6において、2人の話者Aが発話している音声区間500a、500bと、話者Bが発話している音声区間501a、501bが検出されたとすると、話者が切り替わる区間502a、502bが求まる。そこで、ある話者の発話が終了し、別の話者の発話が開始するまでの区間(話者が切り替わる区間)502a、502bの任意の時点(例えば、中間時点)を区切り位置を設定する。
図6では、映像区間201の事象(打者がヒットを打った、という事象)の発生時刻が405を含み、映像区間201の最も近傍にある話者Aの発話区間500a及び500bを含む音声区間が、音声区間抽出部108により選択及び抽出される。
音声区間制御部109は、この抽出された音声区間を完全に含むような映像区間に修正すべく、映像区間201に、その後の所定時間幅の映像データ211を追加して、映像区間201の終端時刻を延長する。
図7では、映像データ中の音声を文章や句に分解し、その切れ目を音声の区切り位置として検出する手法を説明したものである。音声を文章や句に分解するには音声認識を用いて、音声をテキスト情報に変換した上で、自然言語処理することで可能である。図7(a)に示すような映像データ中の映像区間202及びその前後の時間区間内の音声を音声認識することにより、図7(b)に示すような3つの文章A〜Cが得られたとする。このとき、文章の変わり目602a、602bを区切り位置とする。同様に、句や単語の切れ目を区切り位置としてもよい。
図7では、映像区間201の事象(打者がヒットを打った、という事象)の発生時刻が405を含み、映像区間201に最も近傍の文書Bの音声区間が、音声区間抽出部108により選択及び抽出される。
音声区間制御部109は、この抽出された音声区間を完全に含むような映像区間に修正すべく、映像区間201に、その後の所定時間幅の映像データ211を追加して、映像区間201の終端時刻を延長する。
図6、図7に示した音声の区切り位置の検出方法は、音声の内容によって区切り位置を決定するため、図5に示したような無音区間を検出する場合と比較して、より意味的なまとまりのある音声区間に区切ることが可能である。
(他の音声区間抽出方法)
図2のステップS06では、要約映像データに含まれる各映像区間の説明音声として用いる音声区間を、各映像区間の属性情報に記述された事象の発生時刻と音声区間の時間的位置との関係に従って決定したが、音声区間を選択する方法はこの限りではない。
次に、図8に示すフローチャートを参照して、他の音声区間抽出方法について説明する。
まず、要約映像に含まれる各映像区間について、当該映像区間の属性情報に記述されている事象の発生時刻の付近に、未処理の音声区間が存在するか調べる(ステップS11)。事象の発生時刻の付近とは例えば、事象の発生時刻をt(秒)とするとt−t1(秒)〜t−t2(秒)の区間を指す。ただし、t1、t2(秒)は閾値である。あるいは、当該映像区間を基準として用い、映像区間の開始時刻をts(秒)、終了時刻をte(秒)として、ts−t1(秒)〜te+t2(秒)を事象の発生時刻の付近としてもよい。
次に、事象の発生時刻付近の区間に含まれる未処理の音声区間を1つ選択し、テキスト情報を取得する(ステップS12)。音声区間はステップS05において検出された区切り位置によって区切られる区間である。テキスト情報を得るには音声認識を用いることで可能である。あるいは、音声に対応した字幕情報やクローズドキャプションなどのテキスト情報が提供される場合はそれを用いてもよい。
次に、テキスト情報がステップS03において説明文として出力される内容を含むか否かを判断する(ステップS13)。これは、「得点」など説明文を生成するもととなる属性情報がテキスト情報に含まれるかによって行うことが可能である。説明文以外の内容を含む場合はステップS14へ進み、説明文以外の内容を含まない場合はステップS11へ進む。これをステップS11において、未処理の音声区間がなくなるまで繰り返す。
テキスト情報が説明文以外の内容を含む場合はその音声区間を、当該映像区間の説明音声として採用する(ステップS14)。
このように、要約映像データとして用いる各映像区間に対し、当該映像区間に対応する属性情報から生成した説明文以外の内容を含む音声区間を抽出することで、その内容が説明文と重複することにより冗長で不自然となるような音声区間の音声を利用することを防ぐことが可能となる。
(第2の実施形態)
図9、図10、図11を参照して、第2の実施形態について説明する。図9は第2の実施形態に係る映像要約装置の構成例を示すブロック図である。なお、図9において、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図9では、図1の映像区間制御部109に代えて、要約映像データの音量を調整する音量制御部700を備えている。
図1の映像区間制御部109は、図2のステップS07において、抽出された音声区間に合わせて、映像区間の時間的位置を修正したが、図2の音量制御部700は、図11のステップS07´に示すように、音量を調整する。すなわち、要約映像データに含まれる映像区間に対し説明音声として抽出された音声区間の音声の音量は、大きくし、説明音声以外の音声は小さく設定する。
次に、図10を参照して、音量制御部700の処理動作について説明する。音声区間抽出部108において、要約映像に含まれる映像区間201に対応する音声区間801が抽出されたとする。このとき、音量制御部700は、音声のゲインを、図10(c)に示すように、抽出された音声区間の部分(説明音声)803は、所定の第1の閾値よりも高く、抽出された音声区間(説明音声)以外の部分804は、上記第1の閾値よりも低い第2の閾値よりも低く設定する。
上記第2の実施形態に係る映像要約装置によれば、要約映像データの内容に適当な音声区間を検出してナレーションとして用いることで、ナレーション作成のための詳細な属性情報が不要となる。また、第1の実施形態と比較し、要約映像データ中の各映像区間の修正が不要で、要約映像全体の長さの変更が生じないため、ユーザの指定した時間に厳密に一致した長さの要約映像を作成することが可能である。
なお、図9では、図1の映像区間制御部109に代えて、要約映像データの音量を調整する音量制御部700を備えている場合を示しているが、図9に、映像区間制御部109をさらに追加した構成もあり得る。
この場合、図11のステップS07´において、図5に示したように、映像区間201に対し抽出された音声区間406の終了時点が、映像区間201の終了時点よりも後であるような場合や、映像区間201よりも音声区間406が長い場合には、映像区間制御部109が、映像区間201の修正を行う。例えば、この場合、映像区間201の終了時点を音声区間406の終了時点まで延長する。その結果、要約映像データ中の各映像区間に対し抽出された音声区間が、当該映像区間に完全に含まれるような時間的位置及び長さとなるので(図10において、映像区間201に対する音声区間801のような場合)、音量制御部700が、音量の制御を行う。すなわち、映像区間制御部109で終点時点、あるいは終点時点及び始点時点の修正された映像区間を含む要約映像データ中の各映像区間の説明音声の音量を上記第1の閾値よりも高く設定し、当該映像区間内の当該説明音声以外の音声の音量は、上記第2の閾値よりも低く設定する。
以上のような処理動作により、音量が制御され、映像区間の修正が行われた各映像区間の映像データを含む要約映像データが生成される。その後、当該生成された要約映像データと、説明文の合成音声が、ステップS08において再生される。
(第3の実施形態)
図12、図13、図14を参照して第3の実施形態について説明する。図12は第3の実施形態に係る映像要約装置の構成例を示すブロック図である。なお、図12において、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図12では、図1の映像区間制御部109に代えて、要約映像データ中の映像区間の説明音声として抽出された音声区間の時間位置をずらす音声区間制御部900を備えている。
図1の映像区間制御部109は、図2のステップS07において、抽出された音声区間に合わせて、映像区間の開始時点や終了時点を修正したが、図12の要約映像生成装置では、映像区間の時間位置は変更せず、音声区間制御部900は、図14のステップS07´´に示すように、説明音声として抽出された音声区間内の音声の時間的置だけをずらす。つまり、元の映像データに対して、ずれた音声が再生されるようになる。
次に、図13を参照して、音声区間制御部900の処理動作について説明する。音声区間抽出部108において、要約映像に含まれる映像区間201に対し、説明音声として音声区間801が抽出されたとする。このとき、図13(a)に示すように、音声区間801のうち、区間811の部分が映像区間801に納まらなかった部分である場合、この区間811の時間長さだけ、音声区間801の時間位置を前にずらす(図13(b))。そして、再生部106は、映像区間201に納まるようずらした時間位置で音声区間801の音声を再生する。
上記第3の実施形態に係る映像要約装置によれば、要約映像の内容に適当な音声区間を検出してナレーションとして用いることで、ナレーション作成のための詳細な属性情報が不要となる。また、第1の実施形態と比較し、要約映像中の各映像区間の修正が不要で、要約映像全体の長さの変更が生じないため、ユーザの指定した時間に厳密に一致した長さの要約映像を作成することが可能である。
(第4の実施形態)
なお、図12では、図1の映像区間制御部109に代えて、要約映像データの音量を調整する音量制御部700を備えている場合を示しているが、図15に示すように、図12に、第2の実施形態で説明した音量制御部700や、第1の実施形態で説明した映像区間制御部109をさらに追加した構成もあり得る。この場合、要約映像データ中の各映像区間と、当該映像区間に対し説明音声として抽出された音声区間の長さ及び時間的位置関係を基に、要約映像データ中の各映像区間に対し、映像区間制御部109と、音量制御部700と、音声区間制御部900のいずれか1つを選択するための切替部1000が追加されている。図15の映像要約装置の処理動作を図16に示す。なお、図16では、要約映像データ中の各映像区間に対し、切替部1000により、映像区間制御部109と、音量制御部700と、音声区間制御部900のいずれかが選択されて、映像区間の修正、音量の制御、音声区間の制御が行われる点が、図2、図11、図14と異なる。
すなわち、切替部1000は、要約映像データ中の各映像区間と、当該映像区間に対し抽出された音声区間の長さと時間的位置関係を調べ、当該音声区間が当該映像区間よりも短く、当該音声区間の時間的位置が当該映像区間に完全に含まれるような場合には(図10において、映像区間201に対する音声区間801のような場合)、当該映像区間に対し、音量制御部700を選択し、第2の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う(ステップS07b)。
また、図13に示したように、映像区間201に対し抽出された音声区間801の長さは、当該映像区間201よりも短いが、当該音声区間801の終了時点が、映像区間201の終了時点よりも遅い場合には、当該映像区間201に対し、音声区間制御部900を選択し、第3の実施形態で説明したように、音声区間の時間的位置をずらす(ステップS07c)。その後、切替部1000は、当該映像区間に対し、音量制御部700を選択し、第2の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う(ステップS07b)。
さらに、図5に示したように、映像区間201に対し抽出された音声区間406の長さは、当該映像区間201よりも長い場合には、当該映像区間201に対し、映像区間制御部109を選択し、第1の実施形態で説明したように、映像区間の終了時点、あるいは終了時点及び開始時点を修正する(ステップS07a)。なお、この場合、切替部1000は、まず、映像区間制御部109を選択し、映像区間201の終了時点を延長して、映像区間201の長さを、音声区間406と同じに、あるいは音声区間406よりも長くした後(ステップS07a)、次に、音声区間制御部900を選択して、音声区間406の時間的位置が、修正された映像区間201内となるように、ずらすようにしてもよい(ステップS07c)。映像区間の修正、あるいは映像区間の修正及び音声区間をずらした後に、切替部1000は、音量制御部700を選択し、第2の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う(ステップS07b)。
このような処理動作により、映像区間が修正されたり、音声区間がずらされたり、音量が制御された各映像区間の映像データを含む要約映像データが生成される。その後、当該生成された要約映像データと、説明文の合成音声が、ステップS08において再生される。
以上第1乃至第4の実施形態によれば、映像データから、当該映像データに含まれる音声をその映像データの内容を説明するナレーションとして利用できる要約映像データを生成することができる。その結果、要約映像データとして用いる映像区間に対し、当該映像区間の詳細な説明文を生成する必要がなくなるため、属性情報の情報量を極力抑えることができる。
なお、この映像要約装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、コンピュータ装置が備える記憶手段を、映像データ記憶部101、属性情報記憶部102として用い、条件入力部100、要約映像生成部103、説明文生成部104、説明文出力部105、再生部106、音声カット検出部107、音声区間抽出部108、および映像区間制御部109、音声制御部700、音声区間制御部900の各処理ステップを記述したプログラムを、上記のコンピュータ装置に搭載されたプロセッサに実行させることにより実現することができる。このとき、映像要約装置は、上記プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記プログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、映像データ記憶部101および属性情報記憶部102は、上記コンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
第1の実施形態に係る映像要約装置の構成例を示すブロック図。 映像要約装置の処理動作を説明するためのフローチャート。 要約映像とする映像区間の選択、及び要約映像について説明するための図。 属性情報の一例を示した図。 音声の大きさを用いた区切り位置の検出方法について説明するための図。 話者の切り替わりを用いた区切り位置の検出方法について説明するための図。 文章の構成を用いた区切り位置の検出方法について説明するための図。 説明文と内容が重複しない音声区間の選択動作を説明するためのフローチャート。 第2の実施形態に係る映像要約装置の構成例を示すブロック図。 音量制御部の動作を説明するための図。 図9の映像要約装置の処理動作を説明するためのフローチャート。 第3の実施形態に係る映像要約装置の構成例を示すブロック図。 音声区間制御部の動作を説明するための図。 図12の映像要約装置の処理動作を説明するためのフローチャート。 第4の実施形態に係る映像要約装置の構成例を示すブロック図。 図15の映像要約装置の処理動作を説明するためのフローチャート。 映像区間の選択処理を説明するための図。 要約映像の説明文(ナレーション)の生成処理を説明するための図。 話者の切り替わりの検出方法を説明するための図。
符号の説明
100…条件入力部、101…映像データ記憶部、102…属性情報記憶部、103…要約映像生成部、104…説明文生成部、105…説明文出力部、106…再生部、107…音声カット検出部、108…音声区間抽出部、109…映像区間制御部、700…音量制御部、900…音声区間制御部、1000…切替部

Claims (14)

  1. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
    前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
    前記検出手段で検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出手段と、
    前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
    前記修正手段で修正された映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御手段と、
    を具備したことを特徴とする映像要約装置。
  2. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
    前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
    前記検出手段で検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出手段と、
    前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さ以下のときに、当該音声区間の時間的位置を当該映像区間内となるようにずらす音声区間制御手段と、
    前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さよりも長いとき、当該映像区間の終了時点が当該音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
    前記修正手段で修正された映像区間及び前記音声区間制御手段で音声区間をずらした映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御手段と、
    を具備したことを特徴とする映像要約装置。
  3. 前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
    前記説明文の合成音声を生成する合成音声生成手段と、
    さらに具備し、
    前記抽出手段は、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項1または2記載の映像要約装置。
  4. 前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
    前記説明文の合成音声を生成する合成音声生成手段と、
    さらに具備し、
    前記抽出手段は、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項1または2記載の映像要約装置。
  5. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
    前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
    前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
    前記説明文の合成音声を生成する合成音声生成手段と、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
    前記検出手段で検出された区切り位置で区切られた音声区間のうち前記要約映像データ中の各映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出する抽出手段と、
    前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
    を具備したことを特徴とする映像要約装置。
  6. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
    前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
    前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
    前記説明文の合成音声を生成する合成音声生成手段と、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
    前記検出手段で検出された区切り位置で区切られた音声区間のうち前記要約映像データ中の各映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出する抽出手段と、
    前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
    を具備したことを特徴とする映像要約装置。
  7. 前記映像データ中の各映像区間に対応する属性情報は、当該映像区間内に発生した事象の発生時刻を含むことを特徴とする請求項1、2、5、及び6のうちのいずれか1つに記載の映像要約装置。
  8. 前記検出手段は、前記映像データに含まれる音声の大きさが、予め定められた値より小さい無音区間の任意の一時点を前記区切り位置として検出することを特徴とする請求項1、2、5、及び6のうちのいずれか1つに記載の映像要約装置。
  9. 前記検出手段は、前記映像データに含まれる音声の話者の切り替わりを前記区切り位置として検出することを特徴とする請求項1、2、5、及び6のうちのいずれか1つに記載の映像要約装置。
  10. 前記検出手段は、前記映像データに含まれる音声の文章あるいは句の切れ目を前記区切り位置として検出することを特徴とする請求項1、2、5、及び6のうちのいずれか1つに記載の映像要約装置。
  11. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    を備えた映像要約装置における映像要約方法であって、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択ステップと、
    前記映像記憶手段に記憶されている映像データのうち、前記選択ステップで選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成ステップと、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出ステップと、
    前記検出ステップで検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出ステップと、
    前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出ステップで抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正ステップと、
    前記修正ステップで修正された映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御ステップと、
    を含む映像要約方法。
  12. 映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
    前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
    を備えた映像要約装置における映像要約方法であって、
    前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択ステップと、
    前記映像記憶手段に記憶されている映像データのうち、前記選択ステップで選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成ステップと、
    前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出ステップと、
    前記検出ステップで検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出ステップと、
    前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さ以下のときに、当該音声区間の時間的位置を当該映像区間内となるようにずらす音声区間制御ステップと、
    前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さよりも長いとき、当該映像区間の終了時点が当該音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正ステップと、
    前記修正ステップで修正された映像区間及び前記音声区間制御手段で音声区間をずらした映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御ステップと、
    を含む映像要約方法。
  13. 前記選択ステップで選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成ステップと、
    前記説明文の合成音声を生成する合成音声生成ステップと、
    をさらに含み、
    前記抽出ステップは、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項11または12記載の映像要約方法。
  14. 前記選択ステップで選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成ステップと、
    前記説明文の合成音声を生成する合成音声生成ステップと、
    をさらに含み、
    前記抽出ステップは、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項11または12記載の映像要約方法。
JP2006003973A 2006-01-11 2006-01-11 映像要約装置及び映像要約方法 Expired - Fee Related JP4346613B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006003973A JP4346613B2 (ja) 2006-01-11 2006-01-11 映像要約装置及び映像要約方法
US11/647,151 US20070168864A1 (en) 2006-01-11 2006-12-29 Video summarization apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006003973A JP4346613B2 (ja) 2006-01-11 2006-01-11 映像要約装置及び映像要約方法

Publications (2)

Publication Number Publication Date
JP2007189343A JP2007189343A (ja) 2007-07-26
JP4346613B2 true JP4346613B2 (ja) 2009-10-21

Family

ID=38264754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006003973A Expired - Fee Related JP4346613B2 (ja) 2006-01-11 2006-01-11 映像要約装置及び映像要約方法

Country Status (2)

Country Link
US (1) US20070168864A1 (ja)
JP (1) JP4346613B2 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US20080269924A1 (en) * 2007-04-30 2008-10-30 Huang Chen-Hsiu Method of summarizing sports video and apparatus thereof
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
US20100023485A1 (en) * 2008-07-25 2010-01-28 Hung-Yi Cheng Chu Method of generating audiovisual content through meta-data analysis
US8425325B2 (en) * 2009-02-06 2013-04-23 Apple Inc. Automatically generating a book describing a user's videogame performance
CA2754173C (en) * 2009-03-03 2016-12-06 Centre De Recherche Informatique De Montreal (Crim) Adaptive videodescription player
WO2011018681A1 (en) * 2009-08-13 2011-02-17 Youfoot Ltd Process and method for generating dynamic sport statistics, multilingual sport commentaries, and media tags for association with user generated media content
US8786597B2 (en) 2010-06-30 2014-07-22 International Business Machines Corporation Management of a history of a meeting
US8687941B2 (en) 2010-10-29 2014-04-01 International Business Machines Corporation Automatic static video summarization
US9792363B2 (en) 2011-02-01 2017-10-17 Vdopia, INC. Video display method
US20120271823A1 (en) * 2011-04-25 2012-10-25 Rovi Technologies Corporation Automated discovery of content and metadata
US9204175B2 (en) * 2011-08-03 2015-12-01 Microsoft Technology Licensing, Llc Providing partial file stream for generating thumbnail
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
US10091552B2 (en) * 2012-09-19 2018-10-02 Rovi Guides, Inc. Methods and systems for selecting optimized viewing portions
EP2720172A1 (en) * 2012-10-12 2014-04-16 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Video access system and method based on action type detection
KR102025362B1 (ko) * 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
US9972357B2 (en) 2014-01-08 2018-05-15 Adobe Systems Incorporated Audio and video synchronizing perceptual model
US10219048B2 (en) * 2014-06-11 2019-02-26 Arris Enterprises Llc Method and system for generating references to related video
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
KR20160057864A (ko) * 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
EP3032435A1 (en) * 2014-12-12 2016-06-15 Thomson Licensing Method and apparatus for generating an audiovisual summary
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
US20170061959A1 (en) * 2015-09-01 2017-03-02 Disney Enterprises, Inc. Systems and Methods For Detecting Keywords in Multi-Speaker Environments
KR20170098079A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 전자 장치 및 전자 장치에서의 비디오 녹화 방법
EP3430613B1 (en) * 2016-03-16 2019-10-30 Sony Mobile Communications Inc. Controlling playback of speech-containing audio data
KR101830747B1 (ko) * 2016-03-18 2018-02-21 주식회사 이노스피치 온라인 면접 시스템 및 그 방법
CN106210878A (zh) * 2016-07-25 2016-12-07 北京金山安全软件有限公司 一种画面的提取方法及终端
US10606814B2 (en) 2017-01-18 2020-03-31 Microsoft Technology Licensing, Llc Computer-aided tracking of physical entities
US10482900B2 (en) 2017-01-18 2019-11-19 Microsoft Technology Licensing, Llc Organization of signal segments supporting sensed features
US10679669B2 (en) * 2017-01-18 2020-06-09 Microsoft Technology Licensing, Llc Automatic narration of signal segment
US10637814B2 (en) 2017-01-18 2020-04-28 Microsoft Technology Licensing, Llc Communication routing based on physical status
US10635981B2 (en) 2017-01-18 2020-04-28 Microsoft Technology Licensing, Llc Automated movement orchestration
US11094212B2 (en) 2017-01-18 2021-08-17 Microsoft Technology Licensing, Llc Sharing signal segments of physical graph
US10437884B2 (en) 2017-01-18 2019-10-08 Microsoft Technology Licensing, Llc Navigation of computer-navigable physical feature graph
US10939172B2 (en) * 2017-03-03 2021-03-02 Rovi Guides, Inc. Systems and methods for addressing a corrupted segment in a media asset
US10715883B2 (en) 2017-09-06 2020-07-14 Rovi Guides, Inc. Systems and methods for generating summaries of missed portions of media assets
CN110392281B (zh) * 2018-04-20 2022-03-18 腾讯科技(深圳)有限公司 视频合成方法、装置、计算机设备及存储介质
US11252483B2 (en) 2018-11-29 2022-02-15 Rovi Guides, Inc. Systems and methods for summarizing missed portions of storylines
CN110012231A (zh) * 2019-04-18 2019-07-12 环爱网络科技(上海)有限公司 视频处理方法、装置、电子设备以及存储介质
US11430485B2 (en) * 2019-11-19 2022-08-30 Netflix, Inc. Systems and methods for mixing synthetic voice with original audio tracks
CN110769178B (zh) * 2019-12-25 2020-05-19 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质
US10945041B1 (en) * 2020-06-02 2021-03-09 Amazon Technologies, Inc. Language-agnostic subtitle drift detection and localization
US11461090B2 (en) 2020-06-26 2022-10-04 Whatfix Private Limited Element detection
US11372661B2 (en) * 2020-06-26 2022-06-28 Whatfix Private Limited System and method for automatic segmentation of digital guidance content
US11704232B2 (en) 2021-04-19 2023-07-18 Whatfix Private Limited System and method for automatic testing of digital guidance content
US11526669B1 (en) * 2021-06-21 2022-12-13 International Business Machines Corporation Keyword analysis in live group breakout sessions
US11669353B1 (en) 2021-12-10 2023-06-06 Whatfix Private Limited System and method for personalizing digital guidance content
US20230362446A1 (en) * 2022-05-04 2023-11-09 At&T Intellectual Property I, L.P. Intelligent media content playback

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1032776A (ja) * 1996-07-18 1998-02-03 Matsushita Electric Ind Co Ltd 映像表示方法及び記録再生装置
JP4165851B2 (ja) * 2000-06-07 2008-10-15 キヤノン株式会社 記録装置及び記録制御方法
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
JP3642019B2 (ja) * 2000-11-08 2005-04-27 日本電気株式会社 Avコンテンツ自動要約システム及びavコンテンツ自動要約方法
JP4546682B2 (ja) * 2001-06-26 2010-09-15 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
JP2003288096A (ja) * 2002-03-27 2003-10-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
US7027124B2 (en) * 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos
JP3621686B2 (ja) * 2002-03-06 2005-02-16 日本電信電話株式会社 データ編集方法、データ編集装置、データ編集プログラム
JP4359069B2 (ja) * 2003-04-25 2009-11-04 日本放送協会 要約生成装置及びそのプログラム
JP3923932B2 (ja) * 2003-09-26 2007-06-06 株式会社東芝 映像要約装置、映像要約方法及びプログラム
JP2005229366A (ja) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd ダイジェスト作成装置及びダイジェスト作成方法
JP2006019770A (ja) * 2004-05-31 2006-01-19 Toshiba Corp 放送受信装置及び放送受信方法、音声再生装置及び音声再生方法
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search

Also Published As

Publication number Publication date
US20070168864A1 (en) 2007-07-19
JP2007189343A (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
JP4346613B2 (ja) 映像要約装置及び映像要約方法
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
JP4757599B2 (ja) 音声認識システムと音声認識方法およびプログラム
JP2986345B2 (ja) 音声記録指標化装置及び方法
US8311832B2 (en) Hybrid-captioning system
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
US6463412B1 (en) High performance voice transformation apparatus and method
US20060136226A1 (en) System and method for creating artificial TV news programs
US20110093263A1 (en) Automated Video Captioning
JP5149107B2 (ja) 音響処理装置およびプログラム
Lambourne et al. Speech-based real-time subtitling services
WO2009122779A1 (ja) テキストデータ処理装置、方法、プログラムが格納された記録媒体
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP2015212732A (ja) 音喩認識装置、及びプログラム
JP5398295B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP2013025763A (ja) 書き起こし支援システムおよび書き起こし支援方法
CN112382310A (zh) 一种人声音频录制方法和装置
JP4736478B2 (ja) 音声書き起こし支援装置およびその方法ならびにプログラム
JP3923932B2 (ja) 映像要約装置、映像要約方法及びプログラム
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP3881620B2 (ja) 話速可変装置及び話速変換方法
JP2004233541A (ja) ハイライトシーン検出システム
JP3803302B2 (ja) 映像要約装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090623

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090714

R151 Written notification of patent or utility model registration

Ref document number: 4346613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313121

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees