JP2008166914A - コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 - Google Patents

コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 Download PDF

Info

Publication number
JP2008166914A
JP2008166914A JP2006351358A JP2006351358A JP2008166914A JP 2008166914 A JP2008166914 A JP 2008166914A JP 2006351358 A JP2006351358 A JP 2006351358A JP 2006351358 A JP2006351358 A JP 2006351358A JP 2008166914 A JP2008166914 A JP 2008166914A
Authority
JP
Japan
Prior art keywords
content data
metadata
feature amount
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006351358A
Other languages
English (en)
Other versions
JP5022025B2 (ja
Inventor
Daisuke Sato
大介 佐藤
Takashi Fukuda
隆 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006351358A priority Critical patent/JP5022025B2/ja
Priority to CN2007101867254A priority patent/CN101212648B/zh
Priority to US11/964,971 priority patent/US8838594B2/en
Publication of JP2008166914A publication Critical patent/JP2008166914A/ja
Application granted granted Critical
Publication of JP5022025B2 publication Critical patent/JP5022025B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツ・データ・ストリームとメタデータをコンテンツ・データ・ストリームの特徴量で同期する装置を提案する。
【課題手段】 上記課題を解決するため、本発明においては、コンテンツ・データとメタデータを同期する装置であって、前記コンテンツ・データの特徴量を含む前記メタデータを記録した記憶装置と、前記コンテンツ・データから特徴量を算出する手段と、前記算出された特徴量に基づいて、前記記憶装置のメタデータを検索する手段と、前記検索されたメタデータを、コンテンツ・データと同期して再生する手段とを有する装置を提供する。
【選択図】図2

Description

本発明は、マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定することに関する。
ブロードバンドの普及により、動画などのマルチメディアコンテンツを配信するサービスが急増しているが、視聴覚障害者向けに字幕や音声解説を提供しているコンテンツはほとんど無い。そのため、インターネット上で配信される動画コンテンツに対して、視聴覚障害者向けの字幕や音声解説をメタデータとして提供することが、アクセシビリティ向上のため強く要望されている。現状ではコンテンツの配信元が字幕や音声解説のメタデータを用意していないことが多く、ボランティア等の第三者機関がメタデータを提供できるようにする仕組みの必要性が急速に高まっている。
しかし、現在のコンテンツプレーヤは第三者機関が提供するメタデータを解釈する仕組みを持たない。さらに、様々な種類のコンテンツプレーヤーが利用されており、全てのプレーヤーが第三者機関の提供するメタデータに対応するには時間がかかると考えられる。通常のメタデータはコンテンツの開始位置を原点としたタイムスタンプによってコンテンツとの同期を行うため、コンテンツプレーヤの再生位置が取得できなければならないが、全てのコンテンツプレーヤから再生位置を取得できるわけではないため、メタデータを外部のアプリケーションによって解釈しコンテンツと同期して再生するアプローチでは十分に問題を解決できない。
特許文献1は、メディアの特徴量から、特定のサービスを提供するタイミングを決定する装置が開示されている。ここでは、ある特徴量と適応度(特定のサービスを提供するために適した度合い)を予め登録して、再生中のメディアの特徴量から適応度を得て、その適応度が閾値以上であれば、サービスを提供する、すなわち、広告などを挿入するタイミングを決定するものである。したがって、特許文献1は、サービスを提供するのに適しているか否かを判断するものであるが、メディアのタイムスタンプを特定するものではない。
特開平2005−339038号公報
マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定する方法および装置を提供する。
上記課題を解決するため、本発明においては、コンテンツ・データ・ストリームとメタデータをコンテンツ・データ・ストリームの特徴量で同期する装置を提案する。当該装置は、コンテンツ・データとメタデータを同期する装置であって、前記コンテンツ・データの特徴量を含む前記メタデータを記録した記憶装置と、前記コンテンツ・データから特徴量を算出する手段と、前記算出された特徴量に基づいて、前記記憶装置のメタデータを検索する手段と、前記検索されたメタデータを、コンテンツ・データと同期して再生する手段と を有する装置である。
本発明の装置により、コンテンツ・データを加工することなく、メタデータを付与し、コンテンツ・データ・ストリームとメタデータを同期することを可能にする。
以上、本発明の概要を、方法として説明したが、本発明は、装置、プログラム、またはプログラム製品として把握することもできる。プログラム製品は、例えば、前述のプログラムを格納した記憶媒体を含め、あるいはプログラムを伝送する媒体を含めることができる。
上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーションまたはサブコンビネーションもまた、発明となり得ることに留意すべきである。
図1は、本発明の、マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定するシステム100の高水準の概要図である。クライアント端末110は、ネットワーク101を通じて、メタデータおよびコンテンツ・データをダウンロードして再生する。メタデータ・サーバ140は、メタデータをクライアント110に提供する。コンテンツ・サーバ160は、マルチメディアコンテンツのデータをクライアント110に提供する。なお、メタデータ・サーバ140およびコンテンツ・サーバ160の機能が、同一サーバ上に存在してもよい。
図2は、マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定システムの機能ブロックを概念的に示した概略図200である。クライアント端末は、メタデータ・サーバ240からメタデータをメタデータDB(記憶装置)211にダウンロードする。また、コンテンツ・サーバ260から、コンテンツ・データをコンテンツ・データDB(記憶装置)225にダウンロードする。ここでは、コンテンツ・データ225は、音声ストリーム227と動画ストリーム229を有し、コンテンツ・プレーヤ223で再生される。
メタデータ同期システム210は、特徴量算出部213を有し、特徴量算出部213は、音声ストリーム227または動画ストリーム229の一方またはその両方から、特徴量を算出する。メタデータ検索部215は、メタデータDB211から、算出した特徴量に対応する特徴量を持つメタデータを検索する。検索の結果、対応する特徴量をメタデータDB中に発見できれば、メタデータ再生部が、その特徴量に関連付けられたメタデータを再生する。通常は、字幕や音声解説が含まれるので、ここでは、メタデータ再生部217は、字幕再生部219と、音声解説再生部221を有する。再生された字幕や音声解説は、スピーカ225と表示装置227にコンテンツ・データ・ストリームと共に出力される。なお、メタデータ同期システム210は、検索時間などを考慮して、バッファ・メモリに先読みして処理を行うことが望ましい。
ここでは、メタデータおよびコンテンツ・データを一旦ダウンロードしているが、いずれもデータ・ストリームとして、少量ずつダウンロードしながらメタデータとコンテンツ・データの同期をとっても良い。
また、本発明におけるメタデータが持つデータとしては、タイムスタンプ、メタデータとして付与する情報(字幕データや音声解説データなど)、特徴量によるポインタとして特徴量のデータ、および特徴量の種類(特徴量の算出方法を特定する情報)である。メタデータの例として以下のようになる。
<metadata type="audio-description">
<time>00:12:23.30</time>
<description>川沿いの道をヒロシが意気揚々と歩いてくる</description>
<feature type="sound-feature">
<data type="base64">MDEyMzQ1Njc4OTAxMjM0NTY3ODk=</data>
</feature>
</metadata>
<data type=”base64”> と </data> で囲まれている文字列が、特徴量によるポインタとしてのデータで、コンテンツから算出された特徴量を一定のルールに従って文字列に置換したものである。
ここでは、自動音声読上げシステムを使った音声解説のためのデータとして例を挙げているが、字幕用のデータによって字幕をユーザに提供することもできる。
なお、マルチメディアコンテンツのデータ・ストリームの特徴量として、音声の特徴量と動画の特徴量が考えられる。音声特徴量としては、標準的な音声認識装置で用いられるMFCC(Mel Frequency Cepstrum Coefficient)やLPC(Linear Predictive Coding)メルケプストラム,あるいは単純に対数パワースペクトルなどが利用可能である。MFCCの抽出過程を一例として挙げると、まず、入力音声から25msの時間長の音声信号(通常、これをフレームと呼ぶ)を切り出した後、その信号に対して周波数分析を行う。続いて、メルスケール間隔の中心周波数を持つ24チャンネルの帯域通過フィルタ(BPF)で分析を行い、結果として得られるBPF群の出力を離散コサイン変換してMFCCを抽出する。ここで、メルスケールとは音の高低に対する人間の間隔尺度であり、その値は概ね周波数の対数値に対応する。 フレーム単位で計算されるMFCCは12個の要素を持つベクトル(12次元ベクトル)である。動画の特徴量としては、物体の面積や周囲長などを表す形態特徴や、画素の濃淡特徴の時間的変化、もしくは画面上の各点の速度ベクトル画像(オプティカルフロー)などが挙げられる。
図3は、本発明の、コンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定する処理フロー300の一例を示したものである。ステップ301で処理を開始する。ステップ303でコンテンツ・データとメタデータをダウンロードする。ステップ305で、コンテンツ・データを取得する。ここでは、コンテンツ・データから適宜データの一部を取得してもよく、また、再生中の情報ストリームに関するデータを取得してもよい。ステップ307でコンテンツ・データから特徴量を算出する。
ステップ309では、ステップ307で算出した特徴量で、メタデータを検索する。メタデータの検索には、ステップ307で得られる特徴量とメタデータ中の特徴量とのユークリッド距離や、確率モデルに基づく尤度比などが利用できる。ステップ311では、ステップ309の検査の結果、対応するメタデータを検出できたか否かを判断する。ステップ311で、対応するメタデータを検出できなかったと判断した場合(No)、ステップ305に戻り、新たにコンテンツ・データを取得して、再度メタデータを検索する。一方、ステップ311で、メタデータを検出できたと判断した場合(Yes)、ステップ313に進む。ステップ313で、コンテンツ・データとメタデータを同期させコンテンツ・データとメタデータを再生する。同期は、コンテンツ・データの先読みなどをした場合は、先読み分の調整などを行うことになる。
ステップ317では、全てのコンテンツ・データを読み出したか否か判断する。ステップ317で全てのコンテンツ・データを読み出していないと判断した場合は(No)、ステップ305に戻って、新たにコンテンツ・データを取得して、再度メタデータを検索する。一方、ステップ317で全てのコンテンツ・データを読み出したと判断した場合は(Yes)、ステップ319に進んで、処理を終了する。なお、ステップ317では、全てのコンテンツ・データを読み出したかの判断のほか、全てのメタデータを検出し終えた場合も、ステップ319に進んで処理を終了するようにしても良い。
図4は、特徴量をオリジナルのコンテンツ・データから生成し、メタデータとして設定する処理フロー400を例示したものである。ポインタ(検索キー)としての特徴量がコンテンツ中の複数箇所でヒットすると、その特徴量がメタデータに対するポインタとしての役割を果たさなくなるので、特徴量の算出と設定は非常に重要になる。
処理フロー400は、ステップ401から開始される。ステップ403で、コンテンツ・データを一部読み出す。ステップ405で特徴量を算出する。ステップ405では、複数ある特徴量算出方法のなかから、一つまたは複数の特徴量算出方法が予め選択されている。ステップ407では、ステップ405で算出された複数の特徴量を、それぞれ比較する。
ステップ409で、ステップ407の比較の結果、類似する特徴量が存在するか否か判断する。ステップ409で、類似する特徴量が存在すると判断した場合(Yes)、ステップ413に進む。ステップ413では、特徴量算出方法を変更し、ステップ403に戻って、再び特徴量算出をやり直す。特徴量算出方法を変更するには、計算式を変える他、特徴量を算出するためのコンテンツ・データの取得時間を変更しても良い。一方、ステップ409で、類似する特徴量が存在しないと判断した場合(Yes)、ステップ411に進んで、特徴量をメタデータのポインタ(検索キー)として登録する。その後、ステップ415に進んで、処理を終了する。
なお、算出した特徴量が動画中のあるシーンを一意に特定できるものであるかどうかは、動画全体とマッチングを計算することでも検証可能であるので、特徴量の一意性の検証は、処理フロー400に限定されるものではないことは、当業者には容易に理解できることである。
図5、コンテンツ内で類似したシーンが繰り返し出てくる場合の対処法を例示したものである。コンテンツ内で背景音が類似したシーンが至るところに存在すると、たまたま同じような背景音を持つシーンのメタデータを作成した場合、メタデータの適用時にマッチングミスが起こる可能性が高い。例えば、ニュース番組の冒頭で毎回同じバックミュージックが流れるように、コンテンツ内で同じ効果音や同じシーンが繰り返し使われることがある。このようなコンテンツに対応するため、比較的長い時間、例えば指定されたシーンを中心とした50秒の音声信号から均等に100フレーム分の特徴量を抽出して組み合わせたものを、シーンを特定するための情報としてメタデータに追加する。これにより、メタデータ適用時のマッチングエラーが減少する。また、フレームの間隔を広げることは、メタデータのサイズを小さくすることにもつながる。メタデータとしての特徴量を計算する間隔、何フレーム分を組み合わせるかなどは、番組(場面)に応じて適切なものを選択するとよい。
図6は、ブロードバンドを利用したストリーミング放送で、ユーザの嗜好などによってCM(commercial message)が異なる場合の対処方法を例示したものである。CM部分を含めた音声特徴量をメタデータに加えると、ユーザがメタデータを適用するときに、録画した動画コンテンツとの特徴量が一致しないことがある。これを回避するために、特徴量を作成する段階でCM検出技術もしくは人手で動画中のCM部分にマークを付け、CM部分を避けて特徴量の選択を行う。例えば、CMの前後では対象シーンを中心とした50秒から特徴量を抽出するのではなく、CMの直前もしくは直後の50秒の音声信号から特徴量を抽出する。このとき、メタデータの抽出位置と対象シーンの時間的位置関係も同時に計算し、メタデータとして持っておくことでCM部分の問題も解決する。これは、番組の開始直後や終了直前についても同様である。この場合は、計算区間の関係もメタデータとして保持すると良い。
また、一般的な音声認識装置で利用される時間間隔よりも広い間隔で抽出した特徴量を利用すれば、特徴量からオリジナルのデータを復元できないため、著作権法上の問題が軽減される。すなわち、音声特徴量(MFCCの時系列データ)は、MLSA(Mel Log Spectrum Approximation)という技術を使えば多少信号が歪むものの、人間が聞いて何をしゃべっているかがわかる程度に元の音声信号を復元できてしまう。メタデータとして付与する音声特徴量が、連続したフレームから計算されたものであれば、音声信号を復元できるため著作権の観点から無断複製という問題が発生しうる。しかし、例に示したように一定の間隔で抽出した特徴量を利用すれば音声信号を復元することはできないため、著作権上の問題が軽減される。
図7は、本発明を視覚障害者向けマルチメディアブラウザに適用した例を示したものである。コンテンツ配信元730は、番組などのコンテンツ・データを作成し、ユーザ720および第三者機関710に送信する。第三者機関710は、コンテンツ配信元から許可を得て、または、法律の許される範囲で、番組用メタデータを作成し、ユーザに配信する。第三者機関710は、コンテンツ・データからシーンを選択し、特徴量を抽出して、メタデータに付与する。ユーザ720は、コンテンツ配信元730から、コンテンツ・データをダウンロードし、このコンテンツ・データに対応するメタデータを第三者機関からダウンロードする。コンテンツ・データの特徴量を計算し、その特徴量でメタデータを検索し、一致する箇所を検出する。検出した箇所にメタデータを適用し、コンテンツ・データの再生とともに、メタデータを再生する。
図8は、本発明の実施の形態によるクライアント110、メタデータ・サーバ140、およびコンテンツ・データ・サーバ150を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。
情報処理装置は、バス802に接続されたCPU(中央処理装置)801とメインメモリ804を含んでいる。ハードディスク装置813、830、およびCD−ROM装置826、829、フレキシブル・ディスク装置820、MO装置828、DVD装置831のようなリムーバブル・ストレージ(記憶メディアを交換可能な外部記憶システム)がフロッピー(R)ディスクコントローラ819、IDEコントローラ825、SCSIコントローラ827などを経由してバス802へ接続されている。
フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置813、830、ROM814には、オペレーティング・システムと協働してCPU等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記憶することができる。メインメモリ804にロードされることによってコンピュータ・プログラムは実行される。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記憶することもできる。
情報処理装置は、キーボード/マウス・コントローラ805を経由して、キーボード806やマウス807のような入力デバイスからの入力を受ける。情報処理装置は、視覚データをユーザに提示するための表示装置811にDAC/LCDC810を経由して接続される。
情報処理装置は、ネットワーク・アダプタ818(イーサネット(R)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。図示はされていないが、パラレルポートを介してプリンタと接続することや、シリアルポートを介してモデムを接続することも可能である。
以上の説明により、本発明の実施の形態によるシステムを実現するのに好適な情報処理装置は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、または、これらの組み合わせによって実現されることが容易に理解されるであろう。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
本発明の実施の形態において使用される情報処理装置の各ハードウェア構成要素を、複数のマシンを組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。
本発明の実施形態によるシステムは、マイクロソフト・コーポレーションが提供するWindows(R)オペレーティング・システム、アップル・コンピュータ・インコーポレイテッド提供するMacOS(R)、X Window Systemを備えるUNIX(R)系システム(例えば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するAIX(R)など)のような、GUI(グラフィカル・ユーザー・インターフェース)マルチウインドウ環境をサポートするオペレーティング・システムを採用することができる。
以上から、本発明の実施の形態において使用されるシステムは、特定のオペレーティング・システム環境に限定されるものではないことを理解することができる。すなわち、オペレーティング・システムは、アプリケーション・ソフトウェアなどがデータ処理システムの資源を利用できるようにする資源管理機能を提供することができるものであれば、いかなるものをも採用することができる。なお、資源管理機能には、ハードウェア資源管理機能、ファイルハンドル機能、スプール機能、ジョブ管理機能、記憶保護機能、仮想記憶管理機能などが含まれ得るが、これらの機能については、当業者によく知られたものであるので詳細な説明は省略する。
また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実行において、所定のプログラムを有するデータ処理システムにおける実行が典型的な例として挙げられる。かかる場合、該所定プログラムが該データ処理システムにロードされ実行されることにより、該プログラムは、データ処理システムを制御し、本発明にかかる処理を実行させる。このプログラムは、任意の言語・コード・表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接、または1.他の言語・コード・表記への変換、2.他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。
もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記憶した媒体もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハードディスク装置、ROM、MRAM、RAM等の任意のコンピュータ読み取り可能な記憶媒体に格納することができる。かかるプログラムは、記憶媒体への格納のために、通信回線で接続する他のデータ処理システムからダウンロードしたり、他の記憶媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記憶媒体に格納することもできる。また、様々な形態で、本発明を実施するプログラム製品を提供することも勿論可能であることにも留意されたい。
以上、本発明の実施形態によれば、ウェブサーバのリソース・データをクライアントにバックアップし、また、ウェブサーバのリソース・データが破損した場合に、クライアントがバックアップしたリソース・データから回復できるシステムを容易に構築することができることが理解される。
上記の実施の形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれることに留意されたい。
本発明の、マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定するシステム100の高水準の概要図である。 マルチメディアコンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定システムの機能ブロックを概念的に示した概略図200である。 本発明の、コンテンツのデータ・ストリームの時間位置を再生中のマルチメディアコンテンツ・データの特徴量を用いて特定する処理フロー300の一例を示したものである。 特徴量をオリジナルのコンテンツ・データから生成し、メタデータとして設定する処理フロー400を例示したものである。 コンテンツ内で類似したシーンが繰り返し出てくる場合の対処法を例示したものである。 ブロードバンドを利用したストリーミング放送で、ユーザの嗜好などによってCMが異なる場合の対処方法を例示したものである。 本発明を視覚障害者向けマルチメディアブラウザに適用した例を示したものである。 本発明の実施の形態によるクライアント110、メタデータ・サーバ140、およびコンテンツ・データ・サーバ150を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。

Claims (19)

  1. コンテンツ・データとメタデータを同期する装置であって、
    前記コンテンツ・データの特徴量を含む前記メタデータを記録した記憶装置と、
    前記コンテンツ・データから特徴量を算出する手段と、
    前記算出された特徴量に基づいて、前記記憶装置の対応するメタデータを検索する手段と、
    前記検索されたメタデータを、コンテンツ・データと同期して再生する手段と
    を有する装置。
  2. 前記メタデータは、タイムスタンプを含む請求項1に記載の装置。
  3. 前記メタデータは、少なくとも字幕データまたは音声解説データを含む請求項1に記載の装置。
  4. 特徴量を算出する手段は、前記コンテンツ・データを、コンテンツ・データの再生よりも先読みして算出する請求項1に記載の装置。
  5. 前記メタデータに含まれる特徴量は、コンテンツ・データのCM部分を避けて算出している、請求項1に記載の装置。
  6. 前記メタデータに含まれる特徴量は、コンテンツ・データから一定の時間間隔で抽出した特徴量である、請求項1に記載の装置。
  7. コンテンツ・データとメタデータを同期する方法であって、
    前記コンテンツ・データの特徴量を含む前記メタデータを記憶装置に記憶するステップと、
    前記コンテンツ・データから特徴量を算出するステップと、
    前記算出された特徴量に基づいて、前記記憶装置の対応するメタデータを検索するステップ、
    前記検索されたメタデータを、コンテンツ・データと同期して再生するステップと
    を有する方法。
  8. 前記メタデータは、タイムスタンプを含む請求項7に記載の方法。
  9. 前記メタデータは、少なくとも字幕データまたは音声解説データを含む請求項7に記載の方法。
  10. 特徴量を算出するステップは、前記コンテンツ・データを、コンテンツ・データの再生よりも先読みして算出する請求項7に記載の方法。
  11. 前記メタデータに含まれる特徴量は、コンテンツ・データのCM部分を避けて算出している、請求項7に記載の方法。
  12. 前記メタデータに含まれる特徴量は、コンテンツ・データから一定の時間間隔で抽出した特徴量である、請求項7に記載の方法。
  13. コンテンツ・データに同期するようにメタデータを作成するための方法であって、
    コンテンツ・データから特徴量を所定の特徴量算出方法を使って算出するステップと、
    前記算出した特徴量に、類似する他の特徴量が前記コンテンツ・データに含まれるか検出するステップと、
    前記検出するステップで、他に類似する特徴量が検出されないことに応答して、前記特徴量をメタデータの検索キーとして登録するステップと、
    を有する方法。
  14. 前記検出するステップで、他に類似する特徴量が検出されたことに応答して、前記特徴量を算出するステップで使用する特徴量の算出方法を他の特徴量の算出方法に変更するステップを、さらに有する請求項13に記載の方法。
  15. 前記メタデータは、タイムスタンプを含む請求項13に記載の方法。
  16. 前記メタデータは、少なくとも字幕データまたは音声解説データを含む請求項13に記載の方法。
  17. 前記特徴量算出方法は、コンテンツ・データのCM部分を避けて算出することを特徴に含む、請求項13に記載の方法。
  18. 前記特徴量算出方法は、コンテンツ・データを一定の時間間隔で算出することを特徴に含む、請求項13に記載の方法。
  19. 請求項7乃至18のいずれか1項に記載の方法の各ステップをコンピュータに実行させるためのコンピュータ・プログラム。
JP2006351358A 2006-12-27 2006-12-27 コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 Active JP5022025B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006351358A JP5022025B2 (ja) 2006-12-27 2006-12-27 コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
CN2007101867254A CN101212648B (zh) 2006-12-27 2007-11-16 用于同步内容的数据流与元数据的方法和设备
US11/964,971 US8838594B2 (en) 2006-12-27 2007-12-27 Automatic method to synchronize the time-line of video with audio feature quantity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006351358A JP5022025B2 (ja) 2006-12-27 2006-12-27 コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。

Publications (2)

Publication Number Publication Date
JP2008166914A true JP2008166914A (ja) 2008-07-17
JP5022025B2 JP5022025B2 (ja) 2012-09-12

Family

ID=39585495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006351358A Active JP5022025B2 (ja) 2006-12-27 2006-12-27 コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。

Country Status (3)

Country Link
US (1) US8838594B2 (ja)
JP (1) JP5022025B2 (ja)
CN (1) CN101212648B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012111514A1 (ja) * 2011-02-15 2012-08-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2012132530A1 (ja) 2011-03-25 2012-10-04 日本電気株式会社 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
WO2012132532A1 (ja) * 2011-03-25 2012-10-04 日本電気株式会社 映像処理システム、映像コンテンツ監視方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
JP2013141254A (ja) * 2011-12-29 2013-07-18 Thomson Licensing メディアサービスの同期方法
JP2015515770A (ja) * 2012-02-29 2015-05-28 アルトネット、インコーポレイテッド ストリーム認識およびフィルタリング

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
US8179475B2 (en) * 2007-03-09 2012-05-15 Legend3D, Inc. Apparatus and method for synchronizing a secondary audio track to the audio track of a video source
US8205148B1 (en) 2008-01-11 2012-06-19 Bruce Sharpe Methods and apparatus for temporal alignment of media
GB2470417B (en) * 2009-05-22 2011-08-03 S3 Res & Dev Ltd A test system for a set-top box
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
JP5652642B2 (ja) * 2010-08-02 2015-01-14 ソニー株式会社 データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
US9268773B2 (en) * 2010-12-06 2016-02-23 Baker Hughes Incorporated System and methods for integrating and using information relating to a complex process
US8725128B2 (en) 2010-12-10 2014-05-13 Alcatel Lucent Pre-fetching of assets to user equipment
US8730232B2 (en) 2011-02-01 2014-05-20 Legend3D, Inc. Director-style based 2D to 3D movie conversion system and method
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9043444B2 (en) * 2011-05-25 2015-05-26 Google Inc. Using an audio stream to identify metadata associated with a currently playing television program
EP2608431A1 (en) * 2011-12-19 2013-06-26 Thomson Licensing Method for processing an audiovisual content and corresponding device
CN102426611B (zh) * 2012-01-13 2013-09-04 广州从兴电子开发有限公司 一种数据库同步方法及装置
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US10565168B2 (en) 2017-05-02 2020-02-18 Oxygen Cloud, Inc. Independent synchronization with state transformation
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN109189773B (zh) * 2018-08-21 2020-10-20 北京睦合达信息技术股份有限公司 一种数据修复方法及装置
US11321904B2 (en) 2019-08-30 2022-05-03 Maxon Computer Gmbh Methods and systems for context passing between nodes in three-dimensional modeling
US11714928B2 (en) 2020-02-27 2023-08-01 Maxon Computer Gmbh Systems and methods for a self-adjusting node workspace
US11373369B2 (en) 2020-09-02 2022-06-28 Maxon Computer Gmbh Systems and methods for extraction of mesh geometry from straight skeleton for beveled shapes
US11729476B2 (en) * 2021-02-08 2023-08-15 Sony Group Corporation Reproduction control of scene description

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194727A (ja) * 1998-10-23 2000-07-14 Telecommunication Advancement Organization Of Japan 動画像検索装置、動画像検索方法、及び動画像検索プログラムを記録した記録媒体
JP2006311328A (ja) * 2005-04-28 2006-11-09 Sony Corp 字幕生成装置及び方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920572A (en) * 1995-06-30 1999-07-06 Divicom Inc. Transport stream decoder/demultiplexer for hierarchically organized audio-video streams
US6567612B2 (en) * 1996-04-05 2003-05-20 Pioneer Electronic Corporation Information record medium, apparatus for recording the same and apparatus for reproducing the same
US5828809A (en) * 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
JPH10285548A (ja) * 1997-04-03 1998-10-23 Sony Corp 符号化装置及び方法、復号装置及び方法、編集方法
US6360234B2 (en) * 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6704930B1 (en) * 1999-04-20 2004-03-09 Expanse Networks, Inc. Advertisement insertion techniques for digital video streams
JP3597735B2 (ja) * 1999-10-12 2004-12-08 日本電信電話株式会社 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
US6535269B2 (en) * 2000-06-30 2003-03-18 Gary Sherman Video karaoke system and method of use
US7337462B2 (en) * 2000-11-16 2008-02-26 Meevee, Inc. System and method for providing timing data for programming events
EP1374080A2 (en) * 2001-03-02 2004-01-02 Kasenna, Inc. Metadata enabled push-pull model for efficient low-latency video-content distribution over a network
JP2003005769A (ja) * 2001-06-26 2003-01-08 Sharp Corp 楽音生成装置、楽音生成方法及び楽音生成プログラムを記録した記録媒体
US6831729B1 (en) * 2001-12-06 2004-12-14 Matthew L. Davies Apparatus and method of using same for synchronizing film with sound
US20030188317A1 (en) * 2002-03-28 2003-10-02 Liew William J. Advertisement system and methods for video-on-demand services
JP4047109B2 (ja) * 2002-09-11 2008-02-13 日本電信電話株式会社 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体
JP2004173118A (ja) * 2002-11-22 2004-06-17 Matsushita Electric Ind Co Ltd 音声画像多重化データ生成装置と再生装置および動画像復号化装置
JP3777609B2 (ja) * 2003-06-26 2006-05-24 ソニー株式会社 記録装置および方法、並びにプログラム
TWI259719B (en) * 2004-01-14 2006-08-01 Mitsubishi Electric Corp Apparatus and method for reproducing summary
JP4776179B2 (ja) 2004-05-25 2011-09-21 株式会社エヌ・ティ・ティ・ドコモ タイミング決定装置及びタイミング決定方法
US8761568B2 (en) * 2005-12-20 2014-06-24 Vestel Elektronik Sanayi Ve Ticaret A.S. Method and apparatus for synchronizing subtitles with a video
JP2007251553A (ja) * 2006-03-15 2007-09-27 Matsushita Electric Ind Co Ltd リアルタイム処理装置及びその方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194727A (ja) * 1998-10-23 2000-07-14 Telecommunication Advancement Organization Of Japan 動画像検索装置、動画像検索方法、及び動画像検索プログラムを記録した記録媒体
JP2006311328A (ja) * 2005-04-28 2006-11-09 Sony Corp 字幕生成装置及び方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012111514A1 (ja) * 2011-02-15 2012-08-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2012168801A (ja) * 2011-02-15 2012-09-06 Sony Corp 情報処理装置
US11621993B2 (en) 2011-02-15 2023-04-04 Saturn Licensing Llc Information processing device, information processing method, and program
WO2012132530A1 (ja) 2011-03-25 2012-10-04 日本電気株式会社 映像処理システム、映像処理方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
WO2012132532A1 (ja) * 2011-03-25 2012-10-04 日本電気株式会社 映像処理システム、映像コンテンツ監視方法、映像処理装置及びその制御方法と制御プログラムを格納した記憶媒体
JP5590427B2 (ja) * 2011-03-25 2014-09-17 日本電気株式会社 映像処理システム、映像コンテンツ監視方法、映像処理装置及びその制御方法と制御プログラム
US9602565B2 (en) 2011-03-25 2017-03-21 Nec Corporation Video processing system, video content monitoring method, video processing apparatus, control method of the apparatus, and storage medium storing control program of the apparatus
JP2013141254A (ja) * 2011-12-29 2013-07-18 Thomson Licensing メディアサービスの同期方法
JP2015515770A (ja) * 2012-02-29 2015-05-28 アルトネット、インコーポレイテッド ストリーム認識およびフィルタリング
US9703869B2 (en) 2012-02-29 2017-07-11 Global File Systems Holdings, Llc Stream recognition and filtering
US10068017B2 (en) 2012-02-29 2018-09-04 Global File Systems Holdings, Llc Stream recognition and filtering

Also Published As

Publication number Publication date
US8838594B2 (en) 2014-09-16
JP5022025B2 (ja) 2012-09-12
CN101212648A (zh) 2008-07-02
CN101212648B (zh) 2010-06-02
US20080162577A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP5022025B2 (ja) コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US20180343224A1 (en) Watermarking and signal recognition for managing and sharing captured content, metadata discovery and related arrangements
US8204317B2 (en) Method and device for automatic generation of summary of a plurality of images
JP2003179849A (ja) ビデオコラージュの作成方法および装置、ビデオコラージュ、ビデオコラージュ・ユーザ・インタフェース、ビデオコラージュ作成プログラム
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
US20110153328A1 (en) Obscene content analysis apparatus and method based on audio data analysis
JP2007267173A (ja) コンテンツ再生装置および方法
JPWO2007066450A1 (ja) 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
WO2017101510A1 (zh) 视频处理的方法及装置
US20130151251A1 (en) Automatic dialog replacement by real-time analytic processing
US8839086B2 (en) Verbal description
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
CN113170228B (zh) 用于从视听内容中提取可变长度不相交片段的音频处理
CN111741333B (zh) 直播数据获取方法、装置、计算机设备及存储介质
Laiola Guimarães et al. A Lightweight and Efficient Mechanism for Fixing the Synchronization of Misaligned Subtitle Documents
JP4019945B2 (ja) 要約生成装置及び要約生成方法並びに要約生成プログラム及びそのプログラムを記録した記録媒体
JP5242826B1 (ja) 情報処理装置及び情報処理方法
JP5088119B2 (ja) データ生成装置、データ生成プログラムおよび情報処理装置
JP2002324071A (ja) コンテンツ検索システム、コンテンツ検索方法
KR100577558B1 (ko) 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
US10536729B2 (en) Methods, systems, and media for transforming fingerprints to detect unauthorized media content items
WO2019182075A1 (ja) 情報処理方法および情報処理装置
TW201415884A (zh) 人聲訊號與其文字說明資料的同步之系統及其方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Ref document number: 5022025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3