JP2005309427A - オーディオビジュアルサマリ作成方法および装置 - Google Patents
オーディオビジュアルサマリ作成方法および装置 Download PDFInfo
- Publication number
- JP2005309427A JP2005309427A JP2005107342A JP2005107342A JP2005309427A JP 2005309427 A JP2005309427 A JP 2005309427A JP 2005107342 A JP2005107342 A JP 2005107342A JP 2005107342 A JP2005107342 A JP 2005107342A JP 2005309427 A JP2005309427 A JP 2005309427A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- image
- segments
- track
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/162—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
- H04N7/165—Centralised control of user terminal ; Registering at central
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
- G06F16/4387—Presentation of query results by the use of playlists
- G06F16/4393—Multimedia presentations, e.g. slide shows, multimedia albums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
【解決手段】 オーディオと画像の内容の厳密な同期が要求されないときには、統合型サマリ作成が用いられる。オーディオ内容と画像内容の同期を要求するビデオ番組の場合、オーディオ中心型または画像中心型のいずれかの方法を用いてサマリが作成される。機械学習による方法と、代替法である発見的方法が使用可能である。ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法のようなさまざまな確率論的方法が、機械学習による方法で使用可能である。代替法である発見的方法を用いてオーディオビジュアル統合型サマリを作成するには、最大2部マッチング法が用いられる。
【選択図】 図1
Description
通常のビデオ番組は、オーディオトラックおよび画像トラックの両方を含み、これらはいずれも長く連続することがある。このようなビデオ番組のサマリを作成するには、そのビデオを構成するオーディオトラックおよび画像トラックの両方を、有意味かつ管理可能な操作ユニットに分節化しなければならない。例えば、有意味なオーディオ操作ユニットとしては、1個の単語、1個の句、1個の文、あるいはその他のコヒーレントな音響プロファイルを有するオーディオセグメントの発声がある。同様に、可能な画像操作ユニットの例には、単一のカメラショット、一連の連続するカメラショット、ある判断基準によってグループ分けされた画像フレームのクラスタなどがある。
上記のように、図1は、機械学習によるビデオサマリ要約作成システム・方法の一実施例の動作を示す概略流れ図である。システムは、ビデオ入力の画像トラックおよびオーディオトラックを検査する。さらに、システムは、入力ビデオに関連する字幕があればそれも検査することが可能である。ビデオサマリ作成システム・方法は、これらの3つの入力コンポーネント、すなわち、字幕、オーディオトラック、および画像トラックの間の整列を実行することが可能である。各入力コンポーネントに対する特徴抽出および特殊な操作も実行可能である。抽出された特徴および各コンポーネント操作の出力はその後、オーディオビジュアル統合型サマリ、または、オーディオ中心型サマリもしくは画像中心型サマリのいずれかを作成するために、機械学習によるサマリ作成モジュールに入力される。以下の操作が一般に、入力コンポーネントのそれぞれに関して実行される。
オーディオおよびビジュアルサマリが作成された後、解決すべき最後の問題は、どのようにしてこれらの2つのサマリを同期するかである。オーディオトラックAおよび画像トラックIからなるビデオシーケンスをV=(I,A)とする。Vのオーディオサマリは、Asum={A(ti,τi)∈A|i=1,...,N(Asum)}と表される。ただし、A(ti,τi)は、時刻tiに開始し時間τiだけ継続するオーディオセグメントを表し、N(Asum)は、Asumを構成するオーディオセグメントの個数を表す。Asum内のすべてのオーディオセグメントは、それらの開始時刻tiの昇順に配列される。同様に、Vのビジュアルサマリは、Isum={I(tj,τj)∈I|j=1,...,N(Isum)}と表され、すべてのコンポーネントはそれらの開始時刻の昇順にソートされる。
上記のように、機械学習フレームワークに基づくビデオサマリ作成のシステムおよび方法は、人間の専門家が前もって作成した十分な数のサンプルビデオサマリからなるトレーニングデータを必要とする。機械学習によるサマリ作成のシステムおよび方法は、専門家のサンプルビデオサマリから学習すること、および、サンプルビデオサマリに示される挙動を模倣することによってビデオサマリを作成することが可能である。しかし、場合によっては、専門家により作られたサンプルビデオサマリを得ることが高価すぎることや非常に困難なことがある。このような場合、トレーニングデータを必要としないシステムおよび方法を提供することが好ましい。
個の時間スロットを提供することが可能であり、したがって利用可能な時間スロットの総数はStotal=Σi=1 PSiとなる。ここで、問題は次のようになる。ビデオサマリの全部でO個のフレームクラスタとStotal個の時間スロットが与えられた場合に、上記の2つの制約を満たすように、フレームクラスタと時間スロットの間の最適なマッチングを決定せよ。
I(0,10)からなるクラスタ1、
I(10,10)およびI(50,10)からなるクラスタ2、
I(30,10)からなるクラスタ3、
I(20,10)およびI(40,10)からなるクラスタ4、
I(60,10)からなるクラスタ5。
Claims (61)
- オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する装置において、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別する手段と、
前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成する手段と、
を有することを特徴とするビデオサマリ作成装置。 - 前記識別する手段は、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記オーディオトラックから1個以上のオーディオセグメントを識別する、ことを特徴とする請求項1記載のビデオサマリ作成装置。 - 前記識別する手段は、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記画像トラックから1個以上の画像セグメントを識別する、ことを特徴とする請求項1記載のビデオサマリ作成装置。 - 前記ビデオサマリを生成する手段は、
前記確率の降順に、前記オーディオビジュアルサマリの長さLsumに達するまで前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントを選択する、ことを特徴とする請求項1記載のビデオサマリ作成装置。 - 前記識別する手段は、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記オーディオトラックから1個以上のオーディオセグメントを識別する、ことを特徴とする請求項1記載のビデオサマリ作成装置。 - 前記識別する手段は、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内の画像セグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記画像トラックから1個以上の画像セグメントを識別する、ことを特徴とする請求項1記載のビデオサマリ作成装置。 - オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する方法において、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別し、
前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成する、
ステップを有することを特徴とするビデオサマリ作成方法。 - 前記識別するステップは、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記オーディオトラックから1個以上のオーディオセグメントを識別する、ことを特徴とする請求項7記載のビデオサマリ作成方法。 - 前記識別するステップは、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記画像トラックから1個以上の画像セグメントを識別する、ことを特徴とする請求項7記載のビデオサマリ作成方法。 - 前記ビデオサマリを生成するステップは、
前記確率の降順に、前記オーディオビジュアルサマリの長さLsumに達するまで前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントを選択する、ことを特徴とする請求項7記載のビデオサマリ作成方法。 - 前記識別するステップは、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記オーディオトラックから1個以上のオーディオセグメントを識別する、ことを特徴とする請求項7記載のビデオサマリ作成方法。 - 前記識別するステップは、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内の画像セグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記画像トラックから1個以上の画像セグメントを識別する、ことを特徴とする請求項7記載のビデオサマリ作成方法。 - オーディオトラックおよび画像トラックを有するビデオ番組のオーディオ中心型オーディオビジュアルサマリを作成する方法において、
前記オーディオビジュアルサマリの時間長Lsumを選択するステップと、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記オーディオトラックから1個以上のオーディオセグメントを識別する識別ステップと、
前記時間長Lsumに達するまで、前記確率の降順に、1個以上のオーディオセグメントを前記オーディオビジュアルサマリに追加するステップと、
前記追加された1個以上のオーディオセグメントに対応する1個以上の画像セグメントを選択するステップと、
を有することを特徴とするオーディオビジュアルサマリ作成方法。 - 前記識別するステップは、
前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
各非音声ユニットのオーディオ特徴を前記確率を計算するために生成するステップと、
を有することを特徴とする請求項13記載の方法。 - 前記識別するステップは、さらに、
前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成するステップと、
を有することを特徴とする請求項14記載の方法。 - 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項15記載の方法。
- 前記識別するステップは、
前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
前記音声ユニットのそれぞれの特徴ベクトルを重要度ランクを計算するために生成するステップと、
を有することを特徴とする請求項16記載の方法。 - 前記音声ユニットのそれぞれについて前記重要度ランクを前記確率を計算するために計算するステップをさらに有することを特徴とする請求項17記載の方法。
- 前記音声ユニットを受け取るステップと、
前記音声ユニットから1以上の話者を前記オーディオセグメントと画像セグメントとの対応づけのために識別するステップと、
をさらに有することを特徴とする請求項18記載の方法。 - 前記識別するステップは、前記画像トラックを画像操作ユニットとして使用する纏まりのある画像プロファイルおよび動きプロファイルを有する画像セグメントに分節化するステップを有することを特徴とする請求項13記載の方法。
- 画像特徴を抽出するステップと、
前記画像セグメントのそれぞれについて画像特徴ベクトルを前記対応する画像セグメントを選択するために生成するステップと、
をさらに有することを特徴とする請求項20記載の方法。 - 前記画像セグメントのそれぞれについて、1個以上の顔を前記対応する画像セグメントを選択するために識別するステップをさらに有することを特徴とする請求項21記載の方法。
- 前記確率は、ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法からなる群から選択される方法に従って計算されることを特徴とする請求項13記載の方法。
- オーディオトラックおよび画像トラックを有するビデオ番組の画像中心型オーディオビジュアルサマリを作成する方法において、
前記オーディオビジュアルサマリの時間長Lsumを選択するステップと、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められる確率を学習データに依拠して与える機械学習法に従って前記画像トラックから1個以上の画像セグメントを識別する識別ステップと、
前記時間長Lsumに達するまで、前記確率の降順に、前記識別された1個以上の画像セグメントを前記オーディオビジュアルサマリに追加するステップと、
前記1個以上の識別された画像セグメントに対応する1個以上のオーディオセグメントを選択するステップと、
を有することを特徴とするオーディオビジュアルサマリ作成方法。 - 前記識別するステップは、前記画像トラックを画像操作ユニットとして使用する纏まりのある画像プロファイルおよび動きプロファイルを有する画像セグメントに分節化するステップを有することを特徴とする請求項24記載の方法。
- 画像特徴を抽出するステップと、
前記画像セグメントのそれぞれについて画像特徴ベクトルを前記確率を計算するために形成するステップと、
をさらに有することを特徴とする請求項25記載の方法。 - 前記画像セグメントのそれぞれについて1個以上の顔を前記確率を計算するために識別するステップをさらに有することを特徴とする請求項25記載の方法。
- 前記オーディオビジュアルサマリ内の前記画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップをさらに有することを特徴とする請求項24記載の方法。
- 前記オーディオビジュアルサマリに提供されるオーディオセグメントおよび画像セグメントの数を設定するために、前記最小再生時間Lminと前記オーディオビジュアルサマリの時間長Lsumとをそれぞれ選択することを特徴とする請求項28記載の方法。
- LminをLsumに比べて小さくすることで相対的にセグメント数が多く継続時間が短い幅指向のオーディオビジュアルサマリが提供され、LminをLsumに比べて大きくすることで相対的にセグメント数が少なく継続時間が長い深さ指向のオーディオビジュアルサマリが提供されることを特徴とする請求項28記載の方法。
- 前記識別するステップは、
前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
各非音声ユニットのオーディオ特徴を前記対応するオーディオセグメントを選択するために生成するステップと、
を有することを特徴とする請求項24記載の方法。 - 前記識別するステップは、さらに、
前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを前記対応するオーディオセグメントを選択するために生成するステップと、
を有することを特徴とする請求項31記載の方法。 - 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項32記載の方法。
- 前記識別するステップは、
前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
前記音声ユニットのそれぞれの特徴ベクトルを重要度ランクを計算するために生成するステップと、
を有することを特徴とする請求項33記載の方法。 - 前記音声ユニットのそれぞれについて重要度ランクを前記対応するオーディオセグメントを選択するために計算するステップをさらに有することを特徴とする請求項34記載の方法。
- 前記音声ユニットを受け取るステップと、
1以上の話者を識別し、前記オーディオセグメントと画像セグメントとを対応づけるステップと、
をさらに有することを特徴とする請求項35記載の方法。 - 前記確率は、ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法からなる群から選択される方法に従って計算されることを特徴とする請求項24記載の方法。
- オーディオトラックおよび画像トラックを有するビデオ番組のオーディオ中心型オーディオビジュアルサマリを作成する方法において、
前記オーディオビジュアルサマリの時間長Lsumを選択するステップと、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内のオーディオセグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記オーディオトラックから1個以上のオーディオセグメントを識別する識別ステップと、
前記時間長Lsumに達するまで、前記オーディオセグメントのランク付けの降順に、前記識別された1個以上のオーディオセグメントを前記オーディオビジュアルサマリに追加するステップと、
前記1個以上の識別されたオーディオセグメントに対応する1個以上の画像セグメントを選択するステップと、
を有することを特徴とするオーディオビジュアルサマリ作成方法。 - 前記識別するステップは、
前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
各非音声ユニットのオーディオ特徴を前記ランク付け計算のために生成するステップと、
を有することを特徴とする請求項38記載の方法。 - 前記識別するステップは、さらに、
前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成するステップと、
を有することを特徴とする請求項39記載の方法。 - 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項40記載の方法。
- 前記識別するステップは、
前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
前記音声ユニットのそれぞれの特徴ベクトルを前記ランク付けを計算するために生成するステップと、
をさらに有することを特徴とする請求項41記載の方法。 - 前記音声ユニットを受け取るステップと、
1以上の話者を識別し、前記オーディオセグメントと画像セグメントとを対応づけるステップと、
をさらに有することを特徴とする請求項42記載の方法。 - 前記識別するステップは、前記画像トラックを画像操作ユニットとして使用する纏まりのある画像プロファイルおよび動きプロファイルを有する画像セグメントに分節化するステップを有することを特徴とする請求項38記載の方法。
- 画像特徴を抽出するステップと、
前記画像セグメントのそれぞれについて画像特徴ベクトルを前記対応する画像セグメントの選択のために生成するステップと、
をさらに有することを特徴とする請求項44記載の方法。 - 前記画像セグメントのそれぞれについて、1個以上の顔を前記対応する画像セグメントの選択のために識別するステップをさらに有することを特徴とする請求項45記載の方法。
- 前記音声ユニットのそれぞれについて前記ランク付けを計算するステップをさらに有することを特徴とする請求項38記載の方法。
- オーディオトラックおよび画像トラックを有するビデオ番組の画像中心型オーディオビジュアルサマリを作成する方法において、
前記サマリの時間長Lsumを選択するステップと、
前記画像トラックおよびオーディオトラックを検査するステップと、
前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオ番組内の画像セグメントの各々について前記オーディオビジュアルサマリに含められるかどうかを決定するランク付けを与える所定の発見的ルールの集合に従って、前記画像トラックから1個以上の画像セグメントを識別する識別ステップと、
前記時間長Lsumに達するまで、前記ランク付けの降順に、前記識別された1個以上の画像セグメントを前記オーディオビジュアルサマリに追加するステップと、
前記1個以上の識別された画像セグメントに対応する1個以上のオーディオセグメントを選択するステップと、
を有することを特徴とするオーディオビジュアルサマリ作成方法。 - 前記識別するステップは、所定の視覚的類似性および動的特性に基づいて、前記ビデオ番組の画像セグメントをクラスタ化するステップを有し、
前記追加ステップは、前記クラスタを用いて、前記画像セグメントを前記オーディオビジュアルサマリに追加する際の時間的割り当て位置を決定する、
ことを特徴とする請求項48記載の方法。 - 前記識別するステップは、前記画像トラックを画像操作ユニットとして使用する纏まりのある画像プロファイルおよび動きプロファイルを有する画像セグメントに分節化するステップを有することを特徴とする請求項49記載の方法。
- 画像特徴を抽出するステップと、
前記フレームクラスタのそれぞれについて、画像特徴ベクトルを前記ランク付け計算のために生成するステップと、
をさらに有することを特徴とする請求項50記載の方法。 - 前記フレームクラスタのそれぞれについて、1個以上の顔を前記ランク付け計算のために識別するステップをさらに有することを特徴とする請求項51記載の方法。
- 前記識別するステップは、
前記オーディオトラックから非音声サウンドを含む非音声オーディオセグメントを検出するステップと、
前記非音声オーディオセグメントを纏まった音響プロファイルを有する非音声ユニットに分節するステップと、
各非音声ユニットのオーディと特徴を前記対応するオーディとセグメントの選択のために出力するステップと、
を有することを特徴とする請求項48記載の方法。 - 前記識別するステップは、さらに、
前記オーディオトラックから前記非音声オーディオセグメントを取り除くステップと、
前記非音声オーディオセグメントが取り除かれた前記オーディオトラックの残りのオーディオセグメントに対して音声認識を実行して音声トランスクリプトを生成するステップと、
を有することを特徴とする請求項53記載の方法。 - 字幕が存在するとき、前記方法は、字幕と音声トランスクリプトを整列させるステップをさらに有することを特徴とする請求項54記載の方法。
- 前記字幕が存在する場合には前記整列に基づいて、また、前記字幕が存在しない場合には前記音声トランスクリプトに基づいて、有意味な音声内容を有する音声ユニットを生成するステップと、
前記音声ユニットのそれぞれの特徴ベクトルを重要度ランクを計算するために生成するステップと、
をさらに有することを特徴とする請求項55記載の方法。 - 前記音声ユニットのそれぞれについて重要度ランクを前記対応するオーディとセグメントの選択のために計算するステップをさらに有することを特徴とする請求項56記載の方法。
- 前記音声ユニットを受け取るステップと、
1以上の話者を前記対応するオーディとセグメントの選択のために識別するステップと、
をさらに有することを特徴とする請求項57記載の方法。 - 前記オーディオビジュアルサマリ内の前記画像セグメントのそれぞれについて、最小再生時間Lminを選択するステップをさらに有することを特徴とする請求項48記載の方法。
- 前記オーディオビジュアルサマリに提供されるオーディオセグメントおよび画像セグメントの数を設定するために、前記最小再生時間Lminと前記オーディオビジュアルサマリの時間長Lsumとをそれぞれ選択することを特徴とする請求項59記載の方法。
- LminをLsumに比べて小さくすることで相対的にセグメント数が多く継続時間が短い幅指向のオーディオビジュアルサマリが提供され、LminをLsumに比べて大きくすることで相対的にセグメント数が少なく継続時間が長い深さ指向のオーディオビジュアルサマリが提供されることを特徴とする請求項59記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25453400P | 2000-12-12 | 2000-12-12 | |
US10/011,215 US6925455B2 (en) | 2000-12-12 | 2001-10-25 | Creating audio-centric, image-centric, and integrated audio-visual summaries |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001376561A Division JP3705429B2 (ja) | 2000-12-12 | 2001-12-11 | オーディオビジュアルサマリ作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005309427A true JP2005309427A (ja) | 2005-11-04 |
JP4340907B2 JP4340907B2 (ja) | 2009-10-07 |
Family
ID=26682129
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001376561A Expired - Fee Related JP3705429B2 (ja) | 2000-12-12 | 2001-12-11 | オーディオビジュアルサマリ作成方法 |
JP2005107342A Expired - Fee Related JP4340907B2 (ja) | 2000-12-12 | 2005-04-04 | オーディオビジュアルサマリ作成方法および装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001376561A Expired - Fee Related JP3705429B2 (ja) | 2000-12-12 | 2001-12-11 | オーディオビジュアルサマリ作成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6925455B2 (ja) |
JP (2) | JP3705429B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6355800B1 (ja) * | 2017-06-28 | 2018-07-11 | ヤフー株式会社 | 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム |
WO2019135523A1 (ko) * | 2018-01-08 | 2019-07-11 | 삼성전자(주) | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
JP2019160071A (ja) * | 2018-03-15 | 2019-09-19 | Jcc株式会社 | 要約作成システム、及び要約作成方法 |
Families Citing this family (115)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8028314B1 (en) | 2000-05-26 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
US8020183B2 (en) | 2000-09-14 | 2011-09-13 | Sharp Laboratories Of America, Inc. | Audiovisual management system |
US20030038796A1 (en) * | 2001-02-15 | 2003-02-27 | Van Beek Petrus J.L. | Segmentation metadata for audio-visual content |
US6520032B2 (en) * | 2001-03-27 | 2003-02-18 | Trw Vehicle Safety Systems Inc. | Seat belt tension sensing apparatus |
US20030163815A1 (en) * | 2001-04-06 | 2003-08-28 | Lee Begeja | Method and system for personalized multimedia delivery service |
US20030088687A1 (en) * | 2001-12-28 | 2003-05-08 | Lee Begeja | Method and apparatus for automatically converting source video into electronic mail messages |
US8060906B2 (en) * | 2001-04-06 | 2011-11-15 | At&T Intellectual Property Ii, L.P. | Method and apparatus for interactively retrieving content related to previous query results |
US7904814B2 (en) | 2001-04-19 | 2011-03-08 | Sharp Laboratories Of America, Inc. | System for presenting audio-video content |
US8479238B2 (en) | 2001-05-14 | 2013-07-02 | At&T Intellectual Property Ii, L.P. | Method for content-based non-linear control of multimedia playback |
JP4426743B2 (ja) * | 2001-09-13 | 2010-03-03 | パイオニア株式会社 | 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム |
US7474698B2 (en) | 2001-10-19 | 2009-01-06 | Sharp Laboratories Of America, Inc. | Identification of replay segments |
US8214741B2 (en) * | 2002-03-19 | 2012-07-03 | Sharp Laboratories Of America, Inc. | Synchronization of video and data |
US6940540B2 (en) * | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
US7657907B2 (en) | 2002-09-30 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Automatic user profiling |
WO2004090752A1 (en) * | 2003-04-14 | 2004-10-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for summarizing a music video using content analysis |
KR100708337B1 (ko) | 2003-06-27 | 2007-04-17 | 주식회사 케이티 | 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법 |
US7372991B2 (en) * | 2003-09-26 | 2008-05-13 | Seiko Epson Corporation | Method and apparatus for summarizing and indexing the contents of an audio-visual presentation |
JP3848319B2 (ja) * | 2003-11-11 | 2006-11-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
DE60319710T2 (de) * | 2003-11-12 | 2009-03-12 | Sony Deutschland Gmbh | Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
DE60320414T2 (de) * | 2003-11-12 | 2009-05-20 | Sony Deutschland Gmbh | Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen |
US20070061352A1 (en) * | 2003-12-03 | 2007-03-15 | Koninklijke Philips Electronic, N.V. | System & method for integrative analysis of intrinsic and extrinsic audio-visual |
EP1538536A1 (en) * | 2003-12-05 | 2005-06-08 | Sony International (Europe) GmbH | Visualization and control techniques for multimedia digital content |
US7594245B2 (en) | 2004-03-04 | 2009-09-22 | Sharp Laboratories Of America, Inc. | Networked video devices |
US8949899B2 (en) | 2005-03-04 | 2015-02-03 | Sharp Laboratories Of America, Inc. | Collaborative recommendation system |
US8356317B2 (en) | 2004-03-04 | 2013-01-15 | Sharp Laboratories Of America, Inc. | Presence based technology |
JP2006197115A (ja) * | 2005-01-12 | 2006-07-27 | Fuji Photo Film Co Ltd | 撮像装置及び画像出力装置 |
WO2007004110A2 (en) * | 2005-06-30 | 2007-01-11 | Koninklijke Philips Electronics N.V. | System and method for the alignment of intrinsic and extrinsic audio-visual information |
US8949235B2 (en) * | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
JP4972095B2 (ja) | 2005-11-15 | 2012-07-11 | イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム | 映像概要を生成する方法およびシステム |
US8364665B2 (en) * | 2005-12-16 | 2013-01-29 | Nextbio | Directional expression-based scientific information knowledge management |
US9183349B2 (en) | 2005-12-16 | 2015-11-10 | Nextbio | Sequence-centric scientific information management |
EP1964037A4 (en) | 2005-12-16 | 2012-04-25 | Nextbio | SYSTEM AND METHOD FOR MANAGING SCIENTIFIC INFORMATION KNOWLEDGE |
US20070157228A1 (en) * | 2005-12-30 | 2007-07-05 | Jason Bayer | Advertising with video ad creatives |
US8032840B2 (en) * | 2006-01-10 | 2011-10-04 | Nokia Corporation | Apparatus, method and computer program product for generating a thumbnail representation of a video sequence |
US8689253B2 (en) | 2006-03-03 | 2014-04-01 | Sharp Laboratories Of America, Inc. | Method and system for configuring media-playing sets |
WO2007099496A1 (en) * | 2006-03-03 | 2007-09-07 | Koninklijke Philips Electronics N.V. | Method and device for automatic generation of summary of a plurality of images |
US8682654B2 (en) * | 2006-04-25 | 2014-03-25 | Cyberlink Corp. | Systems and methods for classifying sports video |
US8392183B2 (en) | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
JP2009543413A (ja) * | 2006-07-04 | 2009-12-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツ置換の方法 |
WO2008007274A2 (en) * | 2006-07-04 | 2008-01-17 | Koninklijke Philips Electronics N.V. | Method of content substitution |
US20080085055A1 (en) * | 2006-10-06 | 2008-04-10 | Cerosaletti Cathleen D | Differential cluster ranking for image record access |
CN101529500B (zh) * | 2006-10-23 | 2012-05-23 | 日本电气株式会社 | 内容概括系统、内容概括的方法 |
US8677409B2 (en) * | 2007-01-05 | 2014-03-18 | At&T Intellectual Property I, L.P | Methods, systems, and computer program products for categorizing/rating content uploaded to a network for broadcasting |
JP5355422B2 (ja) | 2007-02-01 | 2013-11-27 | イッサム・リサーチ・デヴェロップメント・カンパニー・オヴ・ザ・ヘブルー・ユニヴァーシティ・オヴ・イェルサレム | ビデオの索引付けとビデオシノプシスのための、方法およびシステム |
US8204359B2 (en) * | 2007-03-20 | 2012-06-19 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
US9870796B2 (en) * | 2007-05-25 | 2018-01-16 | Tigerfish | Editing video using a corresponding synchronized written transcript by selection from a text viewer |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
CN102638686B (zh) * | 2007-06-04 | 2015-04-22 | 恩斯沃尔斯有限责任公司 | 处理动态图像的方法及设备 |
WO2009111581A1 (en) * | 2008-03-04 | 2009-09-11 | Nextbio | Categorization and filtering of scientific data |
KR101614160B1 (ko) * | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
US8259082B2 (en) * | 2008-09-12 | 2012-09-04 | At&T Intellectual Property I, L.P. | Multimodal portable communication interface for accessing video content |
US20100070863A1 (en) * | 2008-09-16 | 2010-03-18 | International Business Machines Corporation | method for reading a screen |
US9141860B2 (en) | 2008-11-17 | 2015-09-22 | Liveclips Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
US9141859B2 (en) | 2008-11-17 | 2015-09-22 | Liveclips Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
US10002192B2 (en) * | 2009-09-21 | 2018-06-19 | Voicebase, Inc. | Systems and methods for organizing and analyzing audio content derived from media files |
US9142216B1 (en) * | 2012-01-30 | 2015-09-22 | Jan Jannink | Systems and methods for organizing and analyzing audio content derived from media files |
US8707381B2 (en) * | 2009-09-22 | 2014-04-22 | Caption Colorado L.L.C. | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs |
US9191639B2 (en) | 2010-04-12 | 2015-11-17 | Adobe Systems Incorporated | Method and apparatus for generating video descriptions |
CN102385861B (zh) * | 2010-08-31 | 2013-07-31 | 国际商业机器公司 | 一种用于从语音内容生成文本内容提要的系统和方法 |
JP5259670B2 (ja) * | 2010-09-27 | 2013-08-07 | 株式会社東芝 | コンテンツ要約装置およびコンテンツ要約表示装置 |
US9185469B2 (en) * | 2010-09-30 | 2015-11-10 | Kodak Alaris Inc. | Summarizing image collection using a social network |
US9489732B1 (en) * | 2010-12-21 | 2016-11-08 | Hrl Laboratories, Llc | Visual attention distractor insertion for improved EEG RSVP target stimuli detection |
US8380711B2 (en) * | 2011-03-10 | 2013-02-19 | International Business Machines Corporation | Hierarchical ranking of facial attributes |
CN103186578A (zh) * | 2011-12-29 | 2013-07-03 | 方正国际软件(北京)有限公司 | 漫画有声效果的处理系统和处理方法 |
US20130283143A1 (en) | 2012-04-24 | 2013-10-24 | Eric David Petajan | System for Annotating Media Content for Automatic Content Understanding |
US9367745B2 (en) | 2012-04-24 | 2016-06-14 | Liveclips Llc | System for annotating media content for automatic content understanding |
US9412372B2 (en) * | 2012-05-08 | 2016-08-09 | SpeakWrite, LLC | Method and system for audio-video integration |
US9699485B2 (en) * | 2012-08-31 | 2017-07-04 | Facebook, Inc. | Sharing television and video programming through social networking |
US10346542B2 (en) | 2012-08-31 | 2019-07-09 | Verint Americas Inc. | Human-to-human conversation analysis |
US9459768B2 (en) | 2012-12-12 | 2016-10-04 | Smule, Inc. | Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters |
US9158435B2 (en) * | 2013-03-15 | 2015-10-13 | International Business Machines Corporation | Synchronizing progress between related content from different mediums |
US9804729B2 (en) | 2013-03-15 | 2017-10-31 | International Business Machines Corporation | Presenting key differences between related content from different mediums |
US9495365B2 (en) | 2013-03-15 | 2016-11-15 | International Business Machines Corporation | Identifying key differences between related content from different mediums |
US20140362290A1 (en) * | 2013-06-06 | 2014-12-11 | Hallmark Cards, Incorporated | Facilitating generation and presentation of sound images |
US8947596B2 (en) * | 2013-06-27 | 2015-02-03 | Intel Corporation | Alignment of closed captions |
US9368106B2 (en) * | 2013-07-30 | 2016-06-14 | Verint Systems Ltd. | System and method of automated evaluation of transcription quality |
CN104183239B (zh) * | 2014-07-25 | 2017-04-19 | 南京邮电大学 | 基于加权贝叶斯混合模型的与文本无关的说话人识别方法 |
US20160098395A1 (en) * | 2014-10-01 | 2016-04-07 | Charter Communications Operating, Llc | System and method for separate audio program translation |
WO2016098458A1 (ja) * | 2014-12-15 | 2016-06-23 | ソニー株式会社 | 情報処理方法、映像処理装置及びプログラム |
KR102306538B1 (ko) * | 2015-01-20 | 2021-09-29 | 삼성전자주식회사 | 콘텐트 편집 장치 및 방법 |
EP3271747B1 (en) | 2015-03-17 | 2022-05-25 | Cornell University | Depth field imaging apparatus, methods, and applications |
US9940932B2 (en) * | 2016-03-02 | 2018-04-10 | Wipro Limited | System and method for speech-to-text conversion |
US9858340B1 (en) | 2016-04-11 | 2018-01-02 | Digital Reasoning Systems, Inc. | Systems and methods for queryable graph representations of videos |
US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10083369B2 (en) | 2016-07-01 | 2018-09-25 | Ricoh Company, Ltd. | Active view planning by deep learning |
US10535371B2 (en) * | 2016-09-13 | 2020-01-14 | Intel Corporation | Speaker segmentation and clustering for video summarization |
US10432789B2 (en) * | 2017-02-09 | 2019-10-01 | Verint Systems Ltd. | Classification of transcripts by sentiment |
KR102452644B1 (ko) * | 2017-10-31 | 2022-10-11 | 삼성전자주식회사 | 전자 장치, 음성 인식 방법 및 기록 매체 |
CN108175426B (zh) * | 2017-12-11 | 2020-06-02 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
KR102468214B1 (ko) * | 2018-02-19 | 2022-11-17 | 삼성전자주식회사 | 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템 |
US20190294886A1 (en) * | 2018-03-23 | 2019-09-26 | Hcl Technologies Limited | System and method for segregating multimedia frames associated with a character |
US10679069B2 (en) | 2018-03-27 | 2020-06-09 | International Business Machines Corporation | Automatic video summary generation |
US10372991B1 (en) | 2018-04-03 | 2019-08-06 | Google Llc | Systems and methods that leverage deep learning to selectively store audiovisual content |
US10558761B2 (en) * | 2018-07-05 | 2020-02-11 | Disney Enterprises, Inc. | Alignment of video and textual sequences for metadata analysis |
WO2020014223A1 (en) * | 2018-07-09 | 2020-01-16 | Tree Goat Media, LLC | Systems and methods for transforming digital audio content into visual topic-based segments |
US11100918B2 (en) | 2018-08-27 | 2021-08-24 | American Family Mutual Insurance Company, S.I. | Event sensing system |
EP3841754A4 (en) * | 2018-09-13 | 2022-06-15 | iChannel.io Ltd. | SYSTEM AND COMPUTERIZED METHOD FOR SUBTITLE SYNCHRONIZATION OF AUDIOVISUAL CONTENT USING HUMAN VOICE DETECTION FOR SYNCHRONIZATION |
US11822888B2 (en) | 2018-10-05 | 2023-11-21 | Verint Americas Inc. | Identifying relational segments |
US11636673B2 (en) | 2018-10-31 | 2023-04-25 | Sony Interactive Entertainment Inc. | Scene annotation using machine learning |
US10977872B2 (en) | 2018-10-31 | 2021-04-13 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
US11375293B2 (en) * | 2018-10-31 | 2022-06-28 | Sony Interactive Entertainment Inc. | Textual annotation of acoustic effects |
US11039177B2 (en) | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US11102523B2 (en) * | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
GB2587627B (en) * | 2019-10-01 | 2023-05-03 | Sony Interactive Entertainment Inc | Apparatus and method for generating a recording |
US11270123B2 (en) * | 2019-10-22 | 2022-03-08 | Palo Alto Research Center Incorporated | System and method for generating localized contextual video annotation |
US11032620B1 (en) * | 2020-02-14 | 2021-06-08 | Sling Media Pvt Ltd | Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text |
US11445273B1 (en) * | 2021-05-11 | 2022-09-13 | CLIPr Co. | System and method for creating a video summary based on video relevancy |
US11425181B1 (en) | 2021-05-11 | 2022-08-23 | CLIPr Co. | System and method to ingest one or more video streams across a web platform |
US11610402B2 (en) | 2021-05-11 | 2023-03-21 | CLIPr Co. | System and method for crowdsourcing a video summary for creating an enhanced video summary |
US11355155B1 (en) | 2021-05-11 | 2022-06-07 | CLIPr Co. | System and method to summarize one or more videos based on user priorities |
US11683558B2 (en) * | 2021-06-29 | 2023-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine the speed-up of media programs using speech recognition |
US11736773B2 (en) * | 2021-10-15 | 2023-08-22 | Rovi Guides, Inc. | Interactive pronunciation learning system |
US11902690B2 (en) * | 2021-10-27 | 2024-02-13 | Microsoft Technology Licensing, Llc | Machine learning driven teleprompter |
US11785278B1 (en) * | 2022-03-18 | 2023-10-10 | Comcast Cable Communications, Llc | Methods and systems for synchronization of closed captions with content output |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867495A (en) * | 1996-11-18 | 1999-02-02 | Mci Communications Corporations | System, method and article of manufacture for communications utilizing calling, plans in a hybrid network |
US6335927B1 (en) * | 1996-11-18 | 2002-01-01 | Mci Communications Corporation | System and method for providing requested quality of service in a hybrid network |
US5867494A (en) * | 1996-11-18 | 1999-02-02 | Mci Communication Corporation | System, method and article of manufacture with integrated video conferencing billing in a communication system architecture |
US6754181B1 (en) * | 1996-11-18 | 2004-06-22 | Mci Communications Corporation | System and method for a directory service supporting a hybrid communication system architecture |
US5999525A (en) * | 1996-11-18 | 1999-12-07 | Mci Communications Corporation | Method for video telephony over a hybrid network |
US6731625B1 (en) * | 1997-02-10 | 2004-05-04 | Mci Communications Corporation | System, method and article of manufacture for a call back architecture in a hybrid network with support for internet telephony |
JP3325809B2 (ja) * | 1997-08-15 | 2002-09-17 | 日本電信電話株式会社 | 映像制作方法及び装置及びこの方法を記録した記録媒体 |
-
2001
- 2001-10-25 US US10/011,215 patent/US6925455B2/en not_active Expired - Fee Related
- 2001-12-11 JP JP2001376561A patent/JP3705429B2/ja not_active Expired - Fee Related
-
2005
- 2005-04-04 JP JP2005107342A patent/JP4340907B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6355800B1 (ja) * | 2017-06-28 | 2018-07-11 | ヤフー株式会社 | 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム |
JP2019008742A (ja) * | 2017-06-28 | 2019-01-17 | ヤフー株式会社 | 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム |
WO2019135523A1 (ko) * | 2018-01-08 | 2019-07-11 | 삼성전자(주) | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
KR20190093722A (ko) * | 2018-01-08 | 2019-08-12 | 삼성전자주식회사 | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
US11386665B2 (en) | 2018-01-08 | 2022-07-12 | Samsung Electronics Co., Ltd. | Display apparatus, server, system and information-providing methods thereof |
KR102542788B1 (ko) * | 2018-01-08 | 2023-06-14 | 삼성전자주식회사 | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
JP2019160071A (ja) * | 2018-03-15 | 2019-09-19 | Jcc株式会社 | 要約作成システム、及び要約作成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4340907B2 (ja) | 2009-10-07 |
US6925455B2 (en) | 2005-08-02 |
JP3705429B2 (ja) | 2005-10-12 |
JP2002251197A (ja) | 2002-09-06 |
US20020093591A1 (en) | 2002-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4340907B2 (ja) | オーディオビジュアルサマリ作成方法および装置 | |
JP4981026B2 (ja) | 複合ニュース・ストーリーの合成 | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
CN106021496A (zh) | 视频搜索方法及视频搜索装置 | |
CN113709561A (zh) | 视频剪辑方法、装置、设备及存储介质 | |
EP1859368A1 (en) | Summarization of audio and/or visual data | |
CN112911324B (zh) | 直播间的内容展示方法、装置、服务器以及存储介质 | |
CN114143479B (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
US8433566B2 (en) | Method and system for annotating video material | |
CN107066488A (zh) | 基于影视内容语义分析的影视桥段自动分割方法 | |
CN114363695B (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
Toklu et al. | Videoabstract: a hybrid approach to generate semantically meaningful video summaries | |
Sundaram | Segmentation, structure detection and summarization of multimedia sequences | |
US20240037941A1 (en) | Search results within segmented communication session content | |
CN115580758A (zh) | 视频内容生成方法及装置、电子设备、存储介质 | |
Jitaru et al. | Lrro: a lip reading data set for the under-resourced romanian language | |
JP4270118B2 (ja) | 映像シーンに対する意味ラベル付与方法及び装置及びプログラム | |
JP3622711B2 (ja) | 映像コンテンツ視聴者情報提供システム及び方法と、視聴者情報提供装置、プログラム及びプログラムの記録媒体 | |
Bechet et al. | Detecting person presence in tv shows with linguistic and structural features | |
Özer et al. | Deep learning based, a new model for video captioning | |
US20230394854A1 (en) | Video-based chapter generation for a communication session | |
Avdelidis et al. | Designing optimal phoneme-wise fuzzy cluster analysis | |
Ide et al. | Assembling personal speech collections by monologue scene detection from a news video archive | |
Doudpota | Mining movie archives for song sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090610 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090623 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130717 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |