JP2007519053A - マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法 - Google Patents

マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法 Download PDF

Info

Publication number
JP2007519053A
JP2007519053A JP2006518426A JP2006518426A JP2007519053A JP 2007519053 A JP2007519053 A JP 2007519053A JP 2006518426 A JP2006518426 A JP 2006518426A JP 2006518426 A JP2006518426 A JP 2006518426A JP 2007519053 A JP2007519053 A JP 2007519053A
Authority
JP
Japan
Prior art keywords
video
text
audio
importance
substream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006518426A
Other languages
English (en)
Inventor
アグニホトリ,ラリサ
ディミトロワ,ネヴェンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007519053A publication Critical patent/JP2007519053A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234354Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering signal-to-noise ratio parameters, e.g. requantization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26216Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6131Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8453Structuring of content, e.g. decomposing content into time segments by locking or enabling a set of features, e.g. optional functionalities in an executable program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17336Handling of requests in head-ends
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

映像、音声、テキスト情報の何らかの組み合わせを含む一つまたは複数のマルチメディア入力ストリームの閲覧を容易にし、改善するシステムが、マルチメディア要約を生成することでユーザーがマルチメディア入力ストリームをブラウズし、あるいは全体を視聴することを決め、あるいはその両方を行いやすくする。前記マルチメディア要約は、システム指定、ユーザー指定ならびにネットワークおよび機器上の制約に基づいて自動的に構築される。本発明の特定の用途においては、前記入力マルチメディアストリームはニュース放送(たとえばテレビのニュース番組、ビデオ保存庫の映像)を表す。そのような特定の用途においては、本発明によって、ユーザーは、事前に与えられたユーザーの好み設定ならびに支配的なネットワークおよびユーザー機器の制約に基づくニュースストリームの要約を自動的に受け取ることができる。

Description

本発明は、一般にビデオまたは動画の要約に、またニュース放送のマルチメディア要約(映像/音声/テキスト)を提供することでユーザーが該放送をブラウズし、視聴を決めやすくするシステムおよび方法に関するものである。
ビデオコンテンツの量は増加の一途をたどっている。同時に、視聴者が所望のビデオコンテンツのすべてを消費する、あるいは他の仕方で視聴するのに使える時間は減っている。ビデオコンテンツ量の増大がビデオコンテンツ視聴に使える時間の減少と相俟って、視聴者にとって潜在的に望ましいコンテンツすべての全体を視聴することはますます困難になってきている。よって、視聴者は、視聴するビデオコンテンツの選択に関してますます厳しくなってきている。視聴者の需要に対応するため、ビデオ全体を何らかの形で表すビデオ要約を提供する諸技術が開発されてきた。ビデオ要約を生成する典型的な目的は、のちの視聴のために原ビデオのコンパクトな表現を得ることである。
自動化されたストーリーのセグメント化および識別の分野では進歩が続けられている。その証左が、MITRE社のBNE(Broadcast News Editor[放送ニュースエディタ])およびBNN(Broadcast News Navigator[放送ニュースナビゲータ])である(米国マサチューセッツ州ベッドフォード、MITRE社のアンドルー・マーリーノ、ダリル・モーリー、マーク・メイベリー「ストーリーのセグメント化を使った放送ニュースナビゲーション」ACMマルチメディア会議集録、1997年、pp.381〜389)。BNEを使うと、ニュース放送は自動的に個々のストーリーセグメントに分割され、該セグメントに対応するクローズドキャプションテキストの最初の行が各ストーリーの要約として使われる。各ストーリーセグメントについてクローズドキャプションテキストや音声からキーワードが決定される。これが検索語と一致すべきものである。一致キーワードの出現頻度に基づいて、ユーザーは興味のあるストーリーを選択する。同様の検索・取得技術は当業界では一般的なものになりつつある。たとえば、従来式のテキスト検索技術はコンピュータベースのテレビ番組表に応用でき、人が特定の番組タイトル、特定の出演者、特定の種類の番組などを検索することができるようになる。
伝統的な検索・取得技術の不都合な点は、明示的な検索タスクおよび該明示的検索に基づく選択肢からの対応する選択が必要であることである。しかし、明示的な検索トピックがユーザーの念頭にないこともしばしばである。典型的なチャンネルサーフィンの場面では、ユーザーには明示的な検索トピックはない。チャンネルサーフィンをするユーザーはあてもなくさまざまなチャンネルを試しており、特定のトピックを指定して探しているというよりは、興味があるかもしれないいくつかのトピックのどれでもいい。すなわち、たとえばユーザーは特定のトピックを念頭におくことなく漫然とチャンネルを切り換えていき、試した多くのチャンネルのうちから、試した時点でそのチャンネルでやっていたトピックに基づいて一つを選択するといった具合である。別の場面では、ユーザーは読書や料理など別の仕事をしながらバックグラウンドでテレビをつけているということもありうる。興味のあるトピックが現れたらユーザーはテレビに注意を向け、より興味の薄いトピックになったら元の仕事に戻るのである。
したがって、ユーザーが特定のキーワードを使ってニューストピックを検索する必要なしに、ビデオストリーム(ニュース放送)の映像、音声、テキスト部分を要約するマルチメディア要約を自動的に生成する技術が大いに望まれている。
本発明は従来技術の欠点を克服する。一般に、本発明は、一つまたは複数の入力ビデオシーケンスのマルチメディア要約を生成することでユーザーが該ビデオシーケンスをブラウズし、あるいは全体を視聴することを決め、あるいはその両方を行いやすくするシステムおよび方法に向けられている。前記マルチメディア要約は、システム指定、ユーザー指定ならびにネットワークおよび機器上の制約に基づいて自動的に構築される。本発明の特定の用途においては、前記入力ビデオシーケンスはニュース放送を表す。
本発明の一つの特徴は、PDAや携帯電話のような通信帯域に制約のある機器からパソコンやマルチメディアワークステーションのような帯域の制約のない機器まで幅広い機器で使うのに好適な入力ビデオストリームのマルチメディア要約を生成することである。
本発明のもう一つの特徴は、前記マルチメディア要約が構築される仕方における柔軟性を提供することである。すなわち、本発明では、ユーザーはその特定のユーザーの視聴上の好みに合うように該マルチメディア要約をカスタマイズできる。より具体的には、ユーザーは、たとえば該マルチメディア要約を包括的なものとするか簡潔なものとするか、該マルチメディア要約が単一のトップニュースの要約のみを含むべきか複数のトップニュースの要約を含むべきか、該要約が含むのがテキストのみか、音声のみか、映像のみか、あるいはそれらの組み合わせとすべきか、などといったことを指定する一つまたは複数のパラメータを与えることができる。ユーザーはまた、一つまたは複数のキーワードパラメータを与え、要約システムがそれを利用して入力ビデオストリームからのテキスト、音声、ビデオの適切な部分を選択してマルチメディア要約に含めるのでもよい。
本発明のある側面によれば、ニュース放送のマルチメディア要約を生成する方法は:映像、音声、テキスト情報を有するマルチメディアストリームの受信および検索の一方を行い、該マルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割し、前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキーとなる要素を識別し、前記識別ステップで識別された映像、音声、テキストのキー要素について重要度を計算し、前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除し、前記フィルタ処理ステップで残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかけ、前記第二のフィルタ処理ステップで残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかけて前記第三のフィルタ処理ステップで残ったキー要素からのマルチメディア要約を出力する、作業を有する。
本発明はニュース放送にとりわけ好適であるが、本発明の原理を使えば、ユーザーは他の種類の放送のマルチメディア要約も受信できるようになる。たとえば、本発明は映画のマルチメディア要約にも適用可能で、ユーザーが映画をブラウズし、全体を見ることを決めやすくする。
本発明はまた、前記方法を実行するための製造物をも含む。本発明のその他の特徴および利点は以下の詳細な説明、図面、付属の請求項を添付の図面とともに参照することで明らかとなるであろう。
本発明は、一つまたは複数の3種別の(映像、音声、テキスト)入力マルチメディアストリームを要約するシステムおよび方法に向けられたものである。
ここで記載される代表例としてのシステムモジュールおよび方法はハードウェア、ソフトウェア、ファームウェア、専用プロセッサあるいはそれらの組み合わせといったさまざまな形態で実装しうることを理解しておく必要がある。好ましくは、本発明は、一つまたは複数のプログラム記憶デバイス上に目に見える形で具現されるアプリケーションプログラムとしてソフトウェア的に実装される。そのアプリケーションプログラムは好適なアーキテクチャを有するいかなる機械、装置またはプラットフォームによって実行されてもよい。さらに、付属の図面に描かれている構成システムモジュールや方法のいくつかは好ましくはソフトウェア的に実装されるため、システム構成要素(または処理作業)の間の実際のつながりは本発明がプログラムされる仕方によって変わりうることも理解しておくべきである。ここに開示される思想を与えられれば、通常の技量を有する当業者は、本発明のこれらの、そして同様の実装または構成を考え、実施することができるであろう。
本発明は、本発明のプロセスのいずれかを実行するようコンピュータをプログラムするのに使われうる命令を保存している記憶媒体(メディア)であるコンピュータプログラムプロダクトを含んでいる。該コンピュータプログラムプロダクトはまた、本発明のプロセスのいずれかに対応するデータ、たとえば入力データをも含んでいる可能性がある。前記記憶媒体は、フロッピーディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、光磁気ディスクを含むいかなる種類のディスクも、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリ素子、磁気もしくは光カード、ナノシステム(分子記憶ICを含む)なども、あるいは命令もしくはデータまたはその両方を記憶するために好適ないかなる種類の媒体もしくはデバイスも含みうるが、これらに限られるものではない。
前記コンピュータ可読媒体(メディア)上に記憶された形で、本発明は、汎用/専用どちらのコンピュータまたはマイクロプロセッサのハードウェアをも制御し、該コンピュータまたはマイクロプロセッサが本発明の結果を利用する人間のユーザーまたはその他の機構と対話できるようにするためのソフトウェアを含んでいる。そのようなソフトウェアは、デバイスドライバ、OS、ユーザーアプリケーションを含みうるが、これらに限られるものではない。最後に、そのようなコンピュータ可読媒体はさらに前述した本発明を実行するためのソフトウェアを含む。
システムアーキテクチャ:
図1を参照すると、本発明に基づくマルチメディア要約システム100の一つの実施形態の概略的な概観が示されている。限定的な意味のない例として、当該マルチメディア要約システム100はニュースストーリーを要約するための要約システム100の場合について提示されるが、ここに提示される原理を他のマルチメディアアプリケーションに拡張することは通常の技術を有する当業者には明らかであろう。
図1に示した実施形態では、マルチメディア要約システム100は放送チャンネル選択器110(たとえばテレビのチューナーや衛星放送受信機)から入力としてマルチメディアストリーム101を受信する。システム100はまた、ビデオ保存庫112からあらかじめ保存されているマルチメディアストリーム102も受信してもよい。システム100はまた、ネットワーク上のサーバーからなどのビデオストリームの形で入力を受信してもよい。マルチメディア入力ストリーム101、102はデジタル形式でもアナログ形式でもよく、放送はストリーム101、102を伝達するのに使われる、ポイントツーポイント通信を含むいかなる形式のメディアであってもよい。図1に示した実施形態では、入力マルチメディアストリーム101、102は、限定的な意味のない例として挙げるが、ニュース放送に対応しており、広告やコマーシャルを随所に含む複数のニュースストーリーを含む。ニュース放送はたとえば、CNNヘッドラインニュース、NBCナイトリーニュースなどのような特定のニュース番組を表していることもできる。
図1に示した実施形態では、マルチメディア要約システム100は、入力マルチメディアストリーム101、102を3つの種別に分割する種別認識・分割(MRAD: modality recognition and division)モジュール103を有する。3つの種別を以下では映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307と称する。MRADモジュール103はストーリーセグメント識別器(SSI: story segment identifier)モジュール103a、音声識別器(AI: audio identifier)モジュール103b、テキスト識別器(TI: text identifier)モジュール103cを有しており、これらが入力マルチメディアストリーム101、102を処理してそれぞれ映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307を出力する。サブストリーム303、305、307はMRADモジュール103から、各サブストリーム303、305、307に含まれるキーとなる要素を識別するキー要素識別器(KEI: key element identifier)モジュール105に出力される。KEIモジュール105は特徴抽出(FE: feature extraction)モジュール107および重要度(IV: importance value)モジュール109を有している。KEIモジュール105の機能はのちに図4〜図7との関連でさらに詳細に説明する。KEIモジュール105の出力はキー要素フィルタ(KEF: key element filter)モジュール111の入力に結合され、これがKEIモジュール105によって識別されたキー要素をフィルタ処理するのであるが、その仕方についてはのちに説明する。KEF111から出力された残ったキー要素はユーザープロファイルフィルタ(UPF: user profile filter)113への入力として与えられ、ここで残ったキー要素がさらに所定のユーザーの好み設定に基づいてフィルタ処理される。図にあるように、UPFモジュール113は所定のユーザーの好み設定を記憶するための一つまたは複数の記憶装置(すなわち、ユーザーの好み設定データベース117)に結合されている。UPFモジュール113の出力はネットワーク・機器制約(NADC: network and device constraint)モジュール115の入力に結合されており、これがUPFモジュール113からの残ったキー要素をさらに、支配的なネットワーク条件およびユーザー機器制約条件に基づいてフィルタ処理することができる。NADCモジュール115は本発明のマルチメディア要約120を出力する。典型的には、マルチメディア要約は遠隔のユーザーから、クライアント機器124を通じて要求される。クライアント機器124はインターネット、イントラネットあるいはその他いかなる好適なネットワークであってもよいネットワーク122を通じて要約システム100とのインターフェースがある。クライアント機器124はネットワーク122に接続してデータを送信するよう動作できるいかなる電子機器でもよい。たとえば、クライアント機器124は有線機器(たとえば、パソコン、ワークステーション、ファクシミリ機)または無線機器(たとえば、ノートパソコン、携帯情報端末(PDA)、携帯電話、ポケットベル、スマートフォン、ウェアラブルな計算・通信機器またはコミュニケータ)を含みうる。
動作:
本発明のマルチメディア要約方法の一つの実施形態の概括的な議論をこれから図1〜図3を参照しつつ述べる。その後、記載される方法に関連するさまざまな作業のより詳細な説明が与えられる。
図2は本発明の一つの実施形態に基づく要約の方法を示すフローチャートである。
作業205において、プロセスが開始される。
作業210において、マルチメディア要約システム100は一つまたは複数のマルチメディアストリーム101、102(たとえばニュース放送)を入力として検索および/または受信する。
作業215において、検索/受信された入力マルチメディアストリーム101は3つの種別(すなわち、映像、音声、テキスト)に従って分割される。
図3のA〜Dは例として、入力マルチメディアストリーム(たとえばストリーム101)がどのようにして3つの種別に従って分割されうるかを示している。
図3のAは、全体を通じて分布した映像、音声、テキスト成分を有する入力マルチメディアストリーム101(たとえばニュース放送101)の一般的な図解である。前述したように、ニュース放送はたとえば、CNNヘッドラインニュース、NBCナイトリーニュースなどのような特定のニュース番組を表していることもできる。
図3のB〜Dは入力ビデオストリーム101がどのようにして3つの種別に従って分割されうるかを示している。
まず図3のBを参照すれば、映像種別に対応する映像サブストリーム303が示されている。これは、ニュースストーリーのセグメント化をわかりやすくするため、処理される入力マルチメディアストリーム101を代表するものである。図3のBの映像サブストリーム303は、MRADモジュール103のストーリーセグメント識別器(SSI)サブモジュール103aから出力されるものとして示されている。例に挙げた映像サブストリーム303は、SSIサブモジュール103aによって複数のビデオフレーム(たとえば、フレーム1〜25000)に分割される。図では説明の便宜上、40フレームだけが示されている。前記分割はニュース放送の典型的な構成に基づいている。すなわち、典型的なニュース放送は、ストーリーセグメント化に特に好適な共通フォーマットに従っているのである。たとえば、第一のストーリー、すなわちトップニュースはワシントン政界の動きに、第二のニュースストーリーは労働者のストライキやビル火災に関係したものでありうるなどである。たとえば、図3のBに示したように、オープニングフレーム301(フレーム1)の後、典型的にはキャスターまたはアンカーが現れ311(アンカーフレーム2〜4)、第一のリポート321を導入する(フレーム5〜24)。アンカーフレーム2〜4およびニュースストーリーセグメントフレーム5〜24はまとめて第一のニュースストーリー(311、321)と称される。このニュースストーリーの後、再びアンカーが現れて312(アンカーフレーム25〜29)第二のリポート322を導入し(フレーム30〜39)、これらはまとめて第二のニュースストーリー(312、322)と称される。アンカー−ストーリー−アンカーのシーケンスの随所にコマーシャルがはさまれたものがニュース放送の終わり(たとえばフレーム2500)まで繰り返される。アンカーが典型的には同じスタジオ設定において繰り返し登場すること(311、312…)が各リポートセグメントの開始および前のニュースセグメントまたはコマーシャルの終了を明確に識別するのに役立つ。また、MPEG−7のような規格がビデオコンテンツを記述するために開発されているため、ビデオストリームがストリーム内の独立したセグメントの開始と終了を識別する明示的なマーカーを含んでいることが期待できることもある。
ニュースストーリーセグメントを識別する一つの方法が欧州特許第1057129A1号「パーソナル化したビデオの分類・検索システム」(2000年12月6日にJ・H・エレンバース、N・ディミトロヴァ、T・マクジー、M・シンプソン、J・マルティーノ、M・アブデル=モッタレブ、M・ガレット、C・ラムジー、R・デサイに発行)において提供されている。その開示全体がここに参照により組み込まれる。
ここで図3のCを参照すると、音声サブストリーム305が示されている。入力マルチメディアストリーム101における音声識別は比較的ストレートなもので、音声識別サブモジュール103bが事前に音声境界(たとえばこの代表例としての実施形態では20ms)を選択しており、入力マルチメディアストリーム101を最初から最後までの複数の20ms時間フレーム306に分割して音声サブストリーム305を構築する。
再び図1を参照すると、入力マルチメディアストリーム101がMRADモジュール103によって受信され、音声識別器(AI)サブモジュール103bによって処理されて音声サブストリーム305が出力される。
今度は図3のDを参照すると、テキストサブストリーム307が示されている。テキスト識別は比較的ストレートなもので、テキスト識別器はテキストサブストリーム307内で識別される単語の境界でフレーム308を定義する。
再び図1を参照すると、入力マルチメディアストリーム101がMRADモジュール103によって受信され、テキスト識別器(TI)サブモジュール103cによって処理されてテキストサブストリーム307が出力される。MRADモジュール103から出力される映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307は、その後、キー要素識別KEIモジュール105への入力ストリームとして与えられる。
作業220において、KEIモジュール105によってキー要素識別分析が入力サブストリーム303、305、307に対して実行されて、それぞれのサブストリーム内でキー要素が識別される。キー要素は一般に、サブストリーム303、305、307の「セグメント」で所定の基準を満たすか超えるものとして定義されうる。これについてはのちにさらに説明する。
作業225では、作業220で識別されたこれらのキー要素がさらにフィルタ処理される。そこでは、作業220で計算された重要度が所定の基準を満たすか超えるかするキー要素のみが保持される。図1のキー要素フィルタ(KEF)モジュール111がこのフィルタ処理工程を実行する。
作業230では、図1のユーザープロファイルフィルタ(UPF)モジュール113がまず、ユーザーが先にユーザープロファイルを提供しているかどうかを判別する。ユーザープロファイルはいくつかのユーザーカスタマイズパラメータからなっており、それらは好ましくはユーザー好み設定データベース117に保存されている。ユーザープロファイルが存在していれば、作業232でそれを使って作業225から残ったキー要素をさらにフィルタ処理する。
ユーザープロファイルはユーザーから提供されるいくつかのカスタマイズ(好み設定)パラメータから構成されうる。そのパラメータは、実行時に与えられるのでもよいが、好ましくはユーザー好み設定データベース117からUPF113に与えられ、マルチメディア要約120をどのように提示するかについてユーザーの具体的なカスタマイズの好みを示す。そのシステムのユーザーは典型的には、システム100についてのその好み設定を初期構成段階の間に保存する。カスタマイズパラメータは、マルチメディア要約120がユーザーの具体的な視聴嗜好に適合するようどのようにカスタマイズされるべきかをある程度まで決定する。
ユーザーによって提供されるカスタマイズパラメータは、たとえば次のようなものを含みうる。
・マルチメディア要約120を包括的なものとするか簡潔なものとするか。
・マルチメディア要約120が含むのが、テキストのみ、音声のみ、静止画のみ、映像のみあるいはそれらの組み合わせとするべきか。
・新たな映像を求めてブラウズするかすでに見た映画を呼び出すかなどといった実行すべきタスク。
・要約120を見る予定の環境(すなわち、コンテキスト)。
・マルチメディア要約120を見ている時刻、週、月、年。
・ユーザーから「キーワード」カスタマイズパラメータが一つまたは複数与えられてそのユーザーにとって興味のある特定の項目(たとえば、人物、場所、事物)を識別するのに使われてもよい。一例として、ユーザーが「政治」および「野球」というキーワードを指定し、ビデオ要約システム100がそれを使って、選択されたキーワードを大きく扱っているニュースストーリーセグメントを特定するなどである。
単なる例として挙げると、ユーザーがマルチメディア要約120を音声要約だけに限定したい場合、音声サブストリーム305からランクが最高の音声セグメントが選ばれて、ユーザーに提示されるようにできる。さらなる例として、ユーザーが簡潔なマルチメディア要約120(たとえば2分のニュース要約)を見たい場合、ユーザーが興味をもつニュースストーリーがユーザープロファイルの好み設定に従って選ばれ、選択された各ニュースストーリーのうちからランクが最高の映像、音声、テキストのセグメントだけがそれぞれ映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307から選択され、時間的に短縮されたマルチメディア要約120を構築する。
作業235では、その前のユーザープロファイルフィルタ処理の作業で残ったキー要素が今度はネットワークおよび機器制約条件を考慮することによってさらにフィルタ処理される。具体的には、ネットワーク・機器制約(NADC)モジュール115は、マルチメディア要約120が伝送されるネットワークの通信帯域のいかなる制約をも考慮し、追加的にユーザーの視聴機器に関連する制約をも考慮する。ステップ230で残ったキー要素はいかなる既知のネットワークおよび機器制約条件に従って修正されてもよい。これについては後述する。
マルチメディア要約120がインターネットのようなネットワークを通じて伝送される典型的な場合には、機器の制約条件と利用可能な伝送通信帯域がある程度まで伝送されるマルチメディア要約120の質と量を決定する。映像特有の通信帯域需要のため、マルチメディア要約120は典型的には該マルチメディア要約120の映像部分の質もしくは量またはその両方によって制限される。これに対し、マルチメディア要約120の音声およびテキスト部分はそのような制約は受けない。
無線ネットワークは典型的な限定通信帯域の用途の代表である。そのような限定的な通信帯域条件が存在するのは、狭い通信帯域のデータチャンネルを使うために強いられる直接的な技術的制約条件による場合もあれば、比較的広帯域のチャンネル上で同時ユーザー負荷が高いために課される間接的な制約条件である場合もある。ネットワークの通信帯域を透明な仕方でリアルタイムで監視し、ネットワークの現在の状況を決定することも考えられる。マルチメディア要約は支配的なネットワーク条件に従って修正されうる。たとえば、輻輳ネットワーク条件下では、マルチメディア要約120は、作業235で残る各キー要素の映像品質を制限する形で制約を受けることがありうる。
機器制約条件の考慮に関し、携帯電話網に接続されたPDAやウェブホンは、処理能力、表示能力、メモリ、OSなどが限定されているのが特徴的である機器の例である。これらの限定の結果、こうした機器は映像データを受信し、処理し、表示する能力が異なっている。マルチメディア要約120は映像の解像度、ビットレートなどを制限することによって機器の制約に対応するよう調整できる。
ユーザー機器がテキスト表示しかできなければ、各ニュースストーリーに対してランクが最高のテキストセグメントが選ばれて当該機器に送られる。
作業240では、作業235で残ったこうしたキー要素からなるマルチメディア要約120がユーザーに出力される。
この議論をもってマルチメディアビデオ要約のシステムおよび方法の概観を締めくくる。本方法のさまざまな側面の動作について、これからより詳細に説明する。
本発明のある実施形態の最も大きなレベルでの説明が上記で図2のフローチャートを参照しつつ与えられた。そこには、なかんづく、映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307のそれぞれからのキー要素の識別に向けられている作業220が含まれている。作業220、すなわちキー要素識別について、これから図3〜図6を参照しつつより詳細に説明する。
ここで、図2のフローチャートの作業220を構成する諸作業の詳細なフローチャートである図4を参照し、また、限定的な意味のない単なる例として特徴抽出の過程をさらに図解するフローチャートである図5も参照しながら、サブストリーム303、305、307からの3つの成分のそれぞれにおける特徴の抽出と導出を有する特徴抽出過程を説明する。
作業220.a―特徴抽出
作業220.aにおいて、特徴抽出が実行される。ここで、映像サブストリーム303、音声サブストリーム305、テキストサブストリーム307のそれぞれにおける各フレームから低レベル特徴510、中レベル特徴710、高レベル特徴910が抽出される。代表例として映像サブストリーム303に関し、映像サブストリーム303をなす2500の映像フレーム(説明の便宜上40フレームしか示していない)のそれぞれにおいて特徴抽出が実行される。同様に、音声サブストリーム305に関し、該音声サブストリーム305をなす8000の音声フレーム306(図3のC)(説明の便宜上12フレームしか示していない)のそれぞれにおいて特徴抽出が実行される。同様にして、テキストサブストリーム307に関し、該テキストサブストリーム307をなす6500のテキストフレーム308(図3のD)(説明の便宜上一部しか示していない)のそれぞれにおいて特徴抽出が実行される。
各サブストリーム(映像、音声、テキスト)におけるフレームから抽出されうる低レベル特徴、中レベル特徴、高レベル特徴のいくつかの例をこれから説明する。
限定的な意味のない単なる例として挙げると、映像サブストリームは次のような低レベル503、中レベル703、高レベル903の映像モード特徴を含みうる。
低レベル映像モード特徴503は、なかんづく、動き値(そのフレームまたは映像セグメントについてのグローバルな動き)、フレーム内でのエッジの総数、支配的な色を含みうる。
中レベル映像モード特徴703は,前記抽出された低レベル映像モード特徴503から導出されるものであり、なかんづく、同族ヒストグラム、カメラの動き、フレーム詳細、顔、文字多重テキストの有無その他オブジェクト検出器を含みうる。
高レベル映像モード特徴903は、前記導出された中レベル映像モード特徴から導出されるものであり、なかんづく、アンカーフレーム、リポートフレーム、屋内フレーム、屋外フレーム、自然フレーム、図形フレーム、風景フレーム、街中フレームなどといったさまざまな映像フレーム分類を含みうる。
限定的な意味のない単なる例として挙げると、音声サブストリーム305は次のような低レベル505、中レベル705、高レベル905の音声モード特徴を含みうる。
低レベル音声モード特徴505は、たとえば、MFCC、LPC、平均エネルギー、帯域幅、ピッチなどを含みうる。
中レベル音声モード特徴705は、前記抽出された低レベル音声モード特徴505から導出されるものであり、たとえば、当該音声の声、音楽、無音、雑音、声+声、声+雑音、声+音楽への分類を含みうる。
高レベル音声モード特徴905は、前記導出された中レベル音声モード特徴705から導出されるものであり、なかんづく、群集の歓声、発話、笑い、爆発、サイレンなどを含みうる。また、発話のテキストへの転写も含むことができる。
限定的な意味のない単なる例として挙げると、テキストサブストリーム307は次のような低レベル507、中レベル707、高レベル907のテキストモード特徴を含みうる。
低レベルテキストモード特徴507はたとえば、キーワード、合図、名前、地名などの存在を含みうる。
中レベルテキストモード特徴707は、前記低レベルテキストモード特徴507から導出されるもので、たとえば、トピック、カテゴリー、重要な名詞を含みうる。
高レベルテキストモード特徴907は、前記中レベルテキストモード特徴707から導出されるもので、なかんづく、問答、発話者の推定(すなわちニュースリポーターかアンカーかゲストかなど)を含みうる。
図5は、限定的な意味のない単なる例として、3つの種別のそれぞれにおけるそれぞれサブストリーム303、305、307からの特徴の抽出および導出からなる特徴抽出の過程をさらに説明する図である。図示したように、低レベル特徴510として、エッジ、形、色といった低レベル映像特徴503が映像サブストリーム303から抽出される。次いで、前記抽出された低レベル映像特徴503の一つまたは複数を使って、ビデオテックス、顔、同族ヒストグラムといった一つまたは複数の中レベル特徴703が導出されうる。次にその中レベル特徴703を使って、今度はアンカーフレーム、リポートフレーム、屋内フレームなどといった一つまたは複数の高レベル映像特徴903が導出されうる。
中レベル映像特徴703の一つの要素である「同族ヒストグラム(family histogram)」に関していうと、のちにさらに説明するように、映像サブストリーム303を「セグメント」に分割するのに使われるという意味で、この特徴の導出および使用はとりわけ重要である。映像において色は主要な特徴であり、映像を知覚的な観点からセグメント化する助けとなる。さらに、同族ヒストグラムの継続時間もまた、のちに説明するように映像セグメントの計算された「重要度」に直接対応する。
映像サブストリーム303の抽出された低レベル映像特徴から同族ヒストグラムを導出する過程は、映像サブストリーム303の各映像フレームの解析に関わっている。この解析は、各映像フレームの色情報を量子化して色量子化ビンに分け入れるために実行される。実験的に、ビンが9つの簡単な量子化色ヒストグラムがキー要素を識別するには十分であると判定された。この手法のある変形では、用途に応じてより複雑な256ビンの色ヒストグラムを使うこともできる。簡単な9ビン量子化色ヒストグラム法は、あるニュースストーリーセグメント内に含まれる各同族セグメントについてはフレームとフレームとの間で色の変化はわずかしかないであろうという想定をしている。これは、キー要素についてはフレームとフレームとの間でかなりのフレーム類似性があると想定されるので成り立つ。一方、場面が変わるときにはフレームと次のフレームとの間でかなりの色の変化が起こり、一つの同族セグメントの終わりと別の同族セグメントの開始が示される。色ヒストグラム法は著しい色変化(すなわち低レベル特徴)を、あるフレームから次のフレームにかけての色ヒストグラム値の鋭いコントラストによって検出する。
映像フレーム間の類似性の度合いを見出すため、ヒストグラムの相違の尺度のいくつかの場合について実験を行った。同族ヒストグラム計算作業において、各映像フレームについてヒストグラムが計算され、次いで以前に計算された同族ヒストグラムが検索され、最も近い同族ヒストグラムの一致が見出される。現在の(current)ヒストグラムHCと以前の(previous)同族ヒストグラムHPとの比較は、ヒストグラム差Dを計算するための以下の諸方法の一つを使って計算することができる
(1)L1距離尺度を使ったヒストグラム差は次の式を使って計算される。
Figure 2007519053
ここで、Nは使用する色ビンの総数(今の場合は9)である。この式を使って得られる値は、0から、それぞれの画像における最大ピクセル数の2倍までの間である。ここでは類似性の割合を得ようとしているのであるから、前記の値をピクセル総数で割って規格化する。規格化された値は0と1の間である。ここで、0に近い値は画像が似ていることを表し、1に近い値は画像が似ていないことを表す。
(2)L2距離尺度を使ったヒストグラム差は次の式を使って計算される。
Figure 2007519053
Dの値は(1)の場合と同様に規格化する。
(3)ヒストグラムの交わりは次の式を使って計算される。
Figure 2007519053
この式を使って得られる値は0と1の間にはいる。0に近い値は画像が似ていないことを意味し、1に近い値は画像が似ていることを意味する。同じ類似性の解釈でヒストグラムどうしを比較するため、D=I−1を距離尺度として使う。
(4)2つの画像ヒストグラムについてのカイ二乗検定は次の式を使って計算される。
Figure 2007519053
この場合、値は0から色ビン数Nの間にはいるので、Nで規格化してD=χ2/Nとする。
(5)ビンごとのヒストグラムの交わりは次の式を使って計算される。
Figure 2007519053
ヒストグラムの交わりと同様に、値が小さいほど差が大きく、大きいほど両画像が似ていることを意味している。上記の尺度との一貫性のため、距離はD=1−B/Nを使って計算される。
ヒストグラム情報を使って色を指標化する方法は当業界で既知のものである(たとえば、M・ストリッカー、M・オレンゴによる「カラー画像の類似性」と題する画像およびビデオデータベースの保存と検索に関するIS&T/SPIE会議IIの講演集録、Vol. SPIE 2420、1995年、所収の解説を参照)。
作業220.b―特徴重要度の割り当て
作業220.bでは、作業220.aで各サブストリーム303、305、307からの各フレームにおいて抽出された中レベル特徴710および高レベル特徴910に、対応する特徴重要度が割り当てられる。そのような重要度を割り当てるために使う特徴解析方法は、離散的でも、連続的でも、その両方でもよい。離散的な場合、特徴解析方法はある特徴が存在するか否かを示す離散的な重要度を出力する(すなわち、存在すれば重要度=1で、存在しなければ重要度=0)。あるいは、マルチメディア要約120に含めるのが望ましい場合は重要度=1、要約120に含めるのが望ましくなければ0、どちらでもなければ0.5でもよい。一例として、マルチメディア要約120に「顔」が含まれるのが望ましい場合、顔が1ないし2存在する場合には特徴重要度の値として1が割り当てられ、顔が存在しなければ値0が割り当てられ、顔が3つ以上存在する場合には値0.5が割り当てられるようにしてもよい。離散的な例をもう一つ挙げると、アンカーが存在すれば0を割り当て、リポート部分が存在すれば1を割り当ててもよい。離散的な例をもう一つ挙げると、ニュースストーリーの全継続時間のn%未満の継続時間である同族ヒストグラムに属するフレームには0を割り当て、それ以外の場合には値1を割り当てるというようにしてもよい。ここで、nは10などに設定することができる。
音声サブストリーム305に関しては、マルチメディア要約120に声が含まれることが望ましい可能性がある。よって、重要度は声が存在すれば1に、雑音および無音には0に、{音楽、声+音楽、声+声、声+雑音}には0.5に設定することができる。
テキストサブストリーム307に関しては、名前または重要なキーワードが存在すれば、重要度は1に設定し、そうでなければ0に設定するようにできる。
連続的な場合、同族ヒストグラムの場合をとってみると、重要度はあるフレームが属するセグメントの継続時間をそのニュースストーリーの全継続時間で割ったものとすることができる。
あるいはまた、連続的な場合で、特徴解析方法は確率分布を使って抽出された特徴に重要度を割り当ててもよい。確率分布は、その特徴が存在する確率を与える。この手法とともに使われる特徴解析方法は0から1の範囲の確率の値を出力しうるが、それはある特徴の存在に関する信頼性の度合いを示している。
連続的な場合において重要度を導出するための確率分布は正規分布から導出されうる。あるいはまた、重要度はポワソン分布、レイリー分布、ベルヌーイ分布としてマッピングされてもよい。式(6)は、例として、フレームについて特徴値を正規分布として計算する一つの方法を示している。
Figure 2007519053
ここで、Sはその特徴が要約に存在する確率、
θは一般に何らかの特徴、
θ1は特徴値の平均、
θ2は期待される偏差、である。
一例として、考慮すべき中レベル映像特徴、すなわち式(6)でθとして表されているものが「顔」であるとすると、非常に小さな顔や非常に大きな顔はめったに現れない。たいていの場合、ビデオストリームに「顔」が現れる場合、典型的には画面の高さの実質50%の高さで存在する。この場合、たとえばθ1は0.5に等しく(平均)、θ2は0.2に等しい。パラメータθ1およびθ2を決定するためには最尤推定法を使うことができることを注意しておく。
それぞれの特徴は潜在的にはマルチメディア要約120への潜在的選択のためのキー要素の重要度を上げることもあれば下げることもあることを注意しておく。
220.c―各種別におけるフレームごとの重要度の計算
作業220.cでは、作業220.bで計算された特徴重要度に基づいて、フレーム重要度が計算される。フレーム重要度を決定するためには、重み付き総和法を使うこともできるし、抽出された特徴の重要度のポーリング(polling)を使うこともできる。これらについて説明する。
表1、表2、表3は、あくまでも限定的な意味のない例として、それぞれの種別(映像、音声、テキスト)において作業220.aで識別された抽出特徴のそれぞれについて作業220.bで計算された特徴重要度を示している。この重要度がフレームごとに重要度を計算するのに使われる。表の列見出しは以前に抽出・導出された、エッジ、色、顔、無音、屋内などといった低レベル特徴、中レベル特徴、高レベル特徴を表している。
Figure 2007519053
Figure 2007519053
Figure 2007519053
表の値が後述の仕方で組み合わされてフレームがどのくらい「価値」があるかの尺度を与える。フレームの「価値」は、マルチメディア要約120に取り入れる可能性に関してそのフレームの意義の尺度である。フレームの「価値」を計算する方法はいくらでもあるが、決定論的方法、統計的方法、条件付確率を使う方法が含まれる。
フレームの「価値」の決定論的計算
ある実施形態では、フレームの「価値」は、低レベル、中レベル、高レベルの映像特徴の決定論的な線形関数で次式によって計算されうる。
Figure 2007519053
ここで、fiは特徴ベクトルにおけるある特定の低レベル、中レベルまたは高レベルの特徴であり、
wiはその特徴の重みである。
特徴fiは動き値(そのフレームまたは映像セグメントについてのグローバルな動き)、エッジの総数、支配的な色といった低レベル特徴、同族重要度、カメラの動き、フレーム詳細、顔、文字多重テキストボックスサイズといった中レベル特徴でありうる。高レベル特徴は、アンカー/リポート、屋内場面/屋外場面、自然/図形、風景/街中といった分類でありうる。この特徴リストは網羅的ではなく、重要度の計算に取り入れられる可能性のある特徴の種類を例示するために挙げてあるだけである。
各特長に付随する重みwiは要約システム100によって事前に決定することもできるし、あるいはユーザーの好みに従って決定することもできる。たとえば、ユーザーがマルチメディア要約120で音楽を聴きたければ、音楽に対する重みの値は1に設定できる。別の例では、ユーザーが要約ではビデオテックスを見たくなければ、フレーム中にビデオテックスが存在しない場合に重要度1が与えられるなどとすることができる。
各種別に対して、特徴重要度が何らかの仕方で組み合わされて、フレームごとのキー要素重要度を出力するものと想定されている。それには単一の確率的または決定論的関数を使う。その結果、限定的な意味のない単なる例として表4に示したリストのようなリストが得られる。
Figure 2007519053
さらに別の実施形態では、フレームの「価値」はベイズ推論ネットワークパターン分類を使って条件的確率を見出すことによって計算しうる。ベイズ推論ネットワークパターン分類は当業界で既知のものである。たとえば、リチャード・O・ドゥーダ、ピーター・E・ハート、デーヴィッド・G・ストークによる『ベイズ推論ネットワークパターン分類』(第2版)を参照されたい。その開示全体は参照によってここに組み込まれる。
220.d―セグメント生成
作業220.dでは、各種別における各フレームについてのフレーム重要度を220.cでまとめたので、そのフレーム重要度を使って各種別においてフレームを組み合わせ、すなわちグループ化してセグメントとする。
映像セグメントの生成
映像サブストリーム303をなす各ビデオフレーム(すなわち、フレーム1、フレーム2、…フレームN)からの映像セグメントの生成は、同族ヒストグラム計算を実行するか、あるいはカット変化検出(shot change detection)を通じて行われる。フレームを組み合わせてセグメントにする一つの方法は、カット変化検出を使うことである。カット変化検出はよく知られており、N・ディミトロヴァ、T・マクジー、J・H・エレンバースに対して発行された米国特許US6125229,26-Sep-00(欧州特許EP0916120A2,19-May-99としても発行された)「映像指標化システム」において開示されており、その開示の全体はここに参照によって組み込まれる。映像サブストリーム303のそれぞれの映像フレームから映像セグメントを生成するもう一つの方法は、前述したように同族ヒストグラムを使うことである。
音声セグメントの生成
音声サブストリーム305をなす各時間フレーム(すなわち、時間1、時間2など)からの音声セグメントの生成のためには、セグメント境界は異なる分類の境界でよい。すなわち、音声分類器は音声を、声(1)、音楽(2)、無音(3)、雑音(4)、声+声(5)、声+雑音(6)、声+音楽(7)に分類する。図6は、例として、図3の音声サブストリーム305をなす時間要素がどのようにグループ化されてセグメントを形成するかを示すものである。このグラフは、音声分類と時間フレーム(時間フレーム[x])との対応をプロットしている。示されているように、最初のフレーム(フレーム1〜20000)はほとんど音楽(2)フレームとして分類されている。その後に続くフレームはほとんど雑音フレーム(4)として分類されており、さらに声+音楽フレーム(7)が続く。
音声分類のさらなる詳細は、ドンゲ・リー、イシュワル・K・セティ、ネヴァンカ・ディミトロヴァ「コンテンツベースの検索のための一般音声データの分類」、パターン認識レターズ第22巻第5号、pp.533〜544(2001年)に記載されており、ここにその全体が参照によって組み込まれる。
テキストセグメントの生成
テキストセグメントを生成するためには、セグメント境界はセンテンス境界として定義することができる。センテンス境界は入力ビデオストリーム101、102のクローズドキャプションの部分に与えられている句読点に基づいて決める。
220.e―セグメント重要度の決定
セグメント重要度の決定は、一つの方法では、各セグメントをなすフレームのフレーム重要度を平均して単一のランクまたはスコアを生成することによって実行しうる。セグメント重要度決定を計算するもう一つの方法は、セグメント内で最高のフレーム重要度をとってそれをセグメント全体に割り当てることである。
220.f―セグメントの順位付け
各種別においてステップ220.dで識別された各セグメントについて作業220.eにおいてセグメントランク(スコア)が計算されている。そのランクのついたセグメントがさらにその計算されたランクまたはスコアに基づいて重要度の順に並べ替えられる。
表6は、例として、映像セグメント(列1)とそれに割り当てられたセグメント重要度(列2)がどのように順位付けられるかを示している。表7および表8は、それぞれ音声種別およびテキスト種別について同様の構成を示すものである。
Figure 2007519053
Figure 2007519053
Figure 2007519053
220.g―キー要素識別
作業220.gでは、作業220.eのセグメントランクに基づいてキー要素が識別される。
図7のA〜Cは、例として、キー要素を識別するいくつかの方法を示している。例として、図7のA〜Cは、フレーム重要度とセグメントとの関係のグラフであり、先に議論した種別、すなわち表6、7、8のいずれを表しているものでもよい。
図7Aは、キー要素を識別する第一の方法を示すグラフである。キー要素は、所定の閾値を超えているあらゆるセグメントを選択することによって識別される。
図7Bは、キー要素を識別する第二の方法を示すグラフである。キー要素は、所定の閾値Thを超えている極大、すなわち「A」「B」「C」を選択することによって識別される。
図7Cは、キー要素を識別する第三の方法を示すグラフである。キー要素は、閾値基準は考慮することなく最初のN個の極大を選択することによって識別される。
上記の図7のA〜Cを参照しつつ示したキー要素識別工程は、ユーザーの視聴プロファイルに基づいてさらに修正しうることを注意しておく。推薦システムが一般に、特定のユーザーについて既知の情報に基づいてそのユーザーに項目を推薦することによって機能することはよく知られている。典型的には、そのようなシステムは、顧客の以前の視聴または購入動向に基づく顧客のプロファイルを構築する。今の場合では、ユーザーの視聴プロファイルを作成し、好ましくは先に議論した他のユーザープロファイルとともにユーザー好み設定データベース117に保存することができる。そうすれば、ユーザーの視聴プロファイルを、図7A〜Cにおいて示されているような先述の重要度−セグメント関係のグラフを顧客の視聴嗜好を考慮に入れた第二の関数に変換する変換関数を作成するために使うことができる。このプロセスは任意的であり、種別のうちのどれに対してでも、またすべてに対してでも実装しうる。
明らかに、本発明の数多くの修正および変形が上記の思想に照らして可能である。したがって、本発明は、付属の特許請求の範囲内において、ここで明示的に記載された以外の仕方でも実施されうることを理解しておくものとする。
本発明に基づくマルチメディア要約システムの代表例としての実施形態を概観する概略図である。 本発明に基づく要約の方法のフローチャートである。 A〜Dは典型的なニュース放送の代表例としてのビデオストリームを示す図である。 本発明に基づいてキーとなる要素を識別する方法のフローチャートである。 入力マルチメディアストリームからの特徴抽出の過程および特徴の導出の例となるブロック図である。 音声サブストリームをなす時間要素がどのようにグループ化されてセグメントを形成しうるかを示すグラフである。 A〜Cはキーとなる要素を識別するさまざまな方法を示すグラフである。

Claims (27)

  1. 少なくとも一つのマルチメディアストリームを要約する方法であって:
    a)映像、音声、テキスト情報を有する前記少なくとも一つのマルチメディアストリームの受信および検索の一方を行い、
    b)前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割し、
    c)前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキー要素を識別し、
    d)前記ステップ(c)で識別された映像、音声、テキストのキー要素について重要度を計算し、
    e)前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除し、
    f)前記ステップ(e)で残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかけ、
    g)前記ステップ(f)で残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかけ、
    h)前記ステップ(g)で残ったキー要素からのマルチメディア要約を出力する、
    ことを有することを特徴とする方法。
  2. 前記少なくとも一つのマルチメディアストリームがアナログマルチメディアストリームおよびデジタルマルチメディアストリームのうちの一つであることを特徴とする、請求項1記載の方法。
  3. 前記少なくとも一つのマルチメディアストリームを分割して映像サブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを識別して複数のニュースストーリーにグループ化するステップを有しており、各識別されたニュースストーリーがアンカー部分とリポート部分からなることを特徴とする、請求項1記載の方法。
  4. 前記少なくとも一つのマルチメディアストリームを分割して音声サブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを一定の継続時間の複数の同じ長さのフレームに分解することを有することを特徴とする、請求項1記載の方法。
  5. 前記少なくとも一つのマルチメディアストリームを分割してテキストサブストリームを得るステップがさらに、前記少なくとも一つのマルチメディアストリームを複数のフレームに分割することを有しており、該複数のフレームの各フレームが単語の境界によって定義されることを特徴とする、請求項1記載の方法。
  6. 前記映像、音声、テキストのサブストリームから映像、音声、テキストのキー要素を識別する前記作業がさらに、
    1)前記映像、音声、テキストのサブストリームをなす複数のフレームから低レベル特徴、中レベル特徴、高レベル特徴を識別し、
    2)前記識別作業から抽出された前記低レベル特徴、中レベル特徴、高レベル特徴のそれぞれに対する重要度を決定し、
    3)前記映像、音声、テキストのサブストリームをなす前記複数のフレームのそれぞれについて、フレーム重要度を、前記決定作業において決定された特徴重要度の重要度の関数として計算し、
    4)前記映像、音声、テキストのサブストリームのそれぞれにおいてフレームを組み合わせてセグメントを形成し、
    5)前記組み合わせ作業からの各セグメントについて、セグメントに対する重要度を計算し、
    6)前記計算ステップでの前記計算された重要度に基づいてセグメントを順位付けし、
    7)前記順位付けされたセグメントに基づいてキー要素を識別する、
    作業を有することを特徴とする、請求項1記載の方法。
  7. 前記抽出された低レベル特徴、中レベル特徴、高レベル特徴のそれぞれについてフレーム重要度を計算する前記作業(3)がさらに、該重要度を決定論的方法、統計的方法および条件付確率方法のうちの一つによって計算することを有することを特徴とする、請求項6記載の方法。
  8. 前記確率的方法が、前記フレーム重要度を、ガウス分布、ポワソン分布、レイリー分布およびベルヌーイ分布のうちの一つとして計算することを有することを特徴とする、請求項7記載の方法。
  9. 前記フレーム重要度を計算するための前記ガウス分布が、
    Figure 2007519053
    として計算され、ここで:
    θは何らかの特徴、
    θ1は特徴値の平均、
    θ2は期待される偏差、であることを特徴とする、請求項8記載の方法。
  10. 前記決定論的方法が前記フレーム重要度を
    Figure 2007519053
    として計算することを有し、ここで、
    fiは低レベル、中レベルおよび高レベルの特徴を表し、
    wiは該特徴に重みをかけるための重み因子を表す、ことを特徴とする、請求項7記載の方法。
  11. フレームを組み合わせて映像セグメントを形成する前記ステップ(4)がさらに、同族ヒストグラム計算方法およびカット変化検出方法のうちの一つによって前記フレームを組み合わせることを有することを特徴とする、請求項6記載の方法。
  12. フレームを組み合わせて音声セグメントを形成する前記ステップ(4)がさらに:
    当該音声サブストリームからの各フレームを声フレーム、音楽フレーム、静寂フレーム、雑音フレーム、声+声フレーム、声+雑音フレームおよび声+音楽フレームの一つとして類別し、
    前記類別が同じである一連のフレームをグループ化する、
    ステップを有することを特徴とする、請求項6記載の方法。
  13. フレームを組み合わせてテキストセグメントを形成する前記ステップ(4)がさらに、当該テキストサブストリームに含まれる句読点に基づいてフレームを組み合わせることを有することを特徴とする、請求項6記載の方法。
  14. セグメントに対する重要度を計算する前記ステップ(5)がさらに、当該セグメントをなすフレームについてフレーム重要度を平均することを有することを特徴とする、請求項6記載の方法。
  15. セグメントに対する重要度を計算する前記ステップ(5)がさらに、当該セグメントにおける最高のフレーム重要度を使うことを有することを特徴とする、請求項6記載の方法。
  16. 前記順位付けに基づいてキー要素を識別する前記ステップ(7)がさらに、セグメント順位が所定のセグメント順位閾値を超えるキー要素を識別することを有することを特徴とする、請求項6記載の方法。
  17. 前記順位付けに基づいてキー要素を識別する前記ステップ(7)がさらに、セグメント順位が所定のセグメント順位閾値を超えかつ極大をなしているキー要素を識別することを有することを特徴とする、請求項6記載の方法。
  18. 前記順位付けに基づいてキー要素を識別する前記ステップ(7)がさらに、セグメント順位が極大をなしているキー要素を識別することを有することを特徴とする、請求項6記載の方法。
  19. 少なくとも一つのマルチメディアストリームを要約するシステムであって:ストーリーセグメント識別器モジュール、音声識別器モジュールおよびテキスト識別器モジュールを有する種別認識・分割(MRAD)モジュールを有しており、該MRADモジュールは前記少なくとも一つのマルチメディアストリームを受信するための第一の外部ソースと通信できるよう結合されており、該MRADモジュールは前記少なくとも一つのマルチメディアストリームを受信するための第二の外部ソースと通信できるよう結合されており、該MRADモジュールは前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割して該映像サブストリーム、音声サブストリーム、テキストサブストリームをKEIモジュールに出力し、該KEIモジュールは該映像サブストリーム、音声サブストリーム、テキストサブストリームに含まれるキー要素を識別してそれに重要度を割り当てるための特徴抽出モジュールおよび重要度モジュールを有しており、該KEIモジュールは前記識別されたキー要素を受信して該キー要素をフィルタ処理して所定の閾値基準を超えるものを取り出すためのキー要素フィルタ(KEF)と通信できるよう結合されており、前記KEFモジュールは前記フィルタ処理されたキー要素を受信して該フィルタ処理されたキー要素をユーザープロファイルに基づいてさらにフィルタ処理するためのユーザープロファイルフィルタ(UPF)と通信できるよう結合されており、該UPFモジュールはネットワークおよび機器制約(NADC)モジュールと通信できるよう結合されており、該NADCモジュールは前記さらにフィルタ処理されたキー要素を受信して前記さらにフィルタ処理されたキー要素をネットワークおよび/またはユーザー機器の制約に基づいてさらにフィルタ処理し、前記NADCモジュールは前記少なくとも一つのマルチメディアストリームのマルチメディア要約を出力する、ことを特徴とするシステム。
  20. ユーザープロファイルを保存するため前記UPFモジュールと通信できるよう結合されているユーザー好み設定データベースをさらに有することを特徴とする、請求項19記載のシステム。
  21. 前記第一の外部ソースが放送チャンネル選択器であることを特徴とする、請求項19記載のシステム。
  22. 前記第一の外部ソースがビデオストリームソースであることを特徴とする、請求項19記載のシステム。
  23. 前記少なくとも一つのマルチメディアストリームがアナログマルチメディアストリームおよびデジタルマルチメディアストリームのうちの一つであることを特徴とする、請求項19記載のシステム。
  24. 前記NADCモジュールがユーザー機器に結合している外部ネットワークと通信できるよう接続されていることを特徴とする、請求項19記載のシステム。
  25. 前記ネットワークがインターネットであることを特徴とする、請求項19記載のシステム。
  26. 少なくとも一つのマルチメディアストリームを要約するための製造物であって:コンピュータ可読媒体を有し、該コンピュータ可読媒体にはコンピュータ可読コード手段が具現化されており、該コンピュータ可読プログラムコード手段が、
    映像、音声、テキスト情報を有する前記少なくとも一つのマルチメディアストリームの受信および検索の一方を行う作業と、
    前記少なくとも一つのマルチメディアストリームを映像サブストリーム、音声サブストリーム、テキストサブストリームに分割する作業と、
    前記映像、音声、テキストのサブストリームのそれぞれから映像、音声、テキストのキー要素を識別する作業と、
    前記識別作業で識別された前記識別された映像、音声、テキストのキー要素について重要度を計算する作業と、
    前記識別された映像、音声、テキストのキー要素を第一のフィルタ処理にかけて対応する重要度がそれぞれ所定の映像、音声、テキストの重要度閾値より小さいキー要素を排除する作業と、
    前記第一のフィルタ処理作業で残ったキー要素をユーザープロファイルに基づく第二のフィルタ処理にかける作業と、
    前記第二のフィルタ処理作業で残ったキー要素をネットワークおよびユーザー機器の制約に基づく第三のフィルタ処理にかける作業と、
    前記第三のフィルタ処理作業で残ったキー要素からのマルチメディア要約を出力する作業、
    とを有することを特徴とする製造物。
  27. 前記映像、音声、テキストのサブストリームからそれぞれ映像、音声、テキストのキー要素を識別する前記作業がさらに、
    前記映像、音声、テキストのサブストリームをなす前記複数のフレームから低レベル特徴、中レベル特徴、高レベル特徴を識別する作業と、
    前記識別作業から抽出された前記低レベル特徴、中レベル特徴、高レベル特徴のそれぞれに対する重要度を決定する作業と、
    前記映像、音声、テキストのサブストリームをなす前記複数のフレームのそれぞれについて、フレーム重要度を、前記決定ステップにおいて決定された特徴重要度の重要度の関数として計算する作業と、
    前記映像、音声、テキストのサブストリームのそれぞれにおいてフレームを組み合わせてセグメントを形成する作業と、
    前記組み合わせ作業からの各セグメントについて、セグメントに対する重要度を計算する作業と、
    前記計算作業での前記計算された重要度に基づいてセグメントを順位付けする作業と、
    前記順位付けされたセグメントに基づいてキー要素を識別する作業、
    とを有することを特徴とする、請求項26記載の製造物。
JP2006518426A 2003-06-30 2004-06-28 マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法 Withdrawn JP2007519053A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US48376503P 2003-06-30 2003-06-30
PCT/IB2004/051033 WO2005001715A1 (en) 2003-06-30 2004-06-28 System and method for generating a multimedia summary of multimedia streams

Publications (1)

Publication Number Publication Date
JP2007519053A true JP2007519053A (ja) 2007-07-12

Family

ID=33552073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006518426A Withdrawn JP2007519053A (ja) 2003-06-30 2004-06-28 マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法

Country Status (8)

Country Link
US (1) US7738778B2 (ja)
EP (1) EP1642212B1 (ja)
JP (1) JP2007519053A (ja)
KR (1) KR101150748B1 (ja)
AT (1) ATE347143T1 (ja)
DE (1) DE602004003497T2 (ja)
ES (1) ES2277260T3 (ja)
WO (1) WO2005001715A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017528016A (ja) * 2014-06-12 2017-09-21 マイクロソフト テクノロジー ライセンシング,エルエルシー ルールに基づくビデオ重要度解析
WO2019077846A1 (ja) * 2017-10-17 2019-04-25 ソニーモバイルコミュニケーションズ株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6769128B1 (en) 1995-06-07 2004-07-27 United Video Properties, Inc. Electronic television program guide schedule system and method with data feed access
CN1555191A (zh) 1997-07-21 2004-12-15 E�ǵ¹�˾ 显示和记录控制接口的系统和方法
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
US6898762B2 (en) 1998-08-21 2005-05-24 United Video Properties, Inc. Client-server electronic program guide
US9477665B2 (en) * 1999-05-05 2016-10-25 Virtual Creative Artists, LLC Revenue-generating electronic multi-media exchange and process of operating same
KR100971697B1 (ko) 2000-10-11 2010-07-22 유나이티드 비디오 프로퍼티즈, 인크. 데이터의 기억 장치를 주문형 매체 배달 시스템의 서버에 제공하기 위한 시스템 및 방법
US7493646B2 (en) 2003-01-30 2009-02-17 United Video Properties, Inc. Interactive television systems with digital video recording and adjustable reminders
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
KR101385087B1 (ko) * 2004-08-10 2014-04-14 소니 주식회사 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터프로그램 기록 매체
US8266019B2 (en) * 2004-12-22 2012-09-11 Hewlett-Packard Development Company, L.P. Optimizing retrieval of object-associated information
US20060152504A1 (en) * 2005-01-11 2006-07-13 Levy James A Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media
DE102005016866A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren sowie Vorrichtung zum Synchronisieren von inhaltsbezogenen ersten Datensegmenten einer ersten Datendatei und inhaltsbezogenen zweiten Datensegmenten einer zweiten Datendatei
JP4556752B2 (ja) * 2005-04-18 2010-10-06 株式会社日立製作所 コマーシャル視聴制御機能を有する録画再生装置
US7684566B2 (en) * 2005-05-27 2010-03-23 Microsoft Corporation Encryption scheme for streamed multimedia content protected by rights management system
US8321690B2 (en) 2005-08-11 2012-11-27 Microsoft Corporation Protecting digital media of various content types
JP4739346B2 (ja) * 2005-10-13 2011-08-03 パイオニア株式会社 要約データ生成装置、表示装置、操作装置、要約データ生成方法およびプログラム
KR100703801B1 (ko) * 2005-10-21 2007-04-06 삼성전자주식회사 Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
JP2007274556A (ja) * 2006-03-31 2007-10-18 Toshiba Corp コンテンツデータ送信装置
US8392183B2 (en) * 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US20080222120A1 (en) * 2007-03-08 2008-09-11 Nikolaos Georgis System and method for video recommendation based on video frame features
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US8094997B2 (en) * 2006-06-28 2012-01-10 Cyberlink Corp. Systems and method for embedding scene processing information in a multimedia source using an importance value
CN101485123B (zh) * 2006-07-04 2014-08-20 皇家飞利浦电子股份有限公司 内容替换的方法
JP2009543411A (ja) * 2006-07-04 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ置換の方法
JP4835321B2 (ja) * 2006-08-21 2011-12-14 ソニー株式会社 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置
KR100803747B1 (ko) * 2006-08-23 2008-02-15 삼성전자주식회사 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US20080049704A1 (en) * 2006-08-25 2008-02-28 Skyclix, Inc. Phone-based broadcast audio identification
EP1919216A1 (en) * 2006-10-30 2008-05-07 British Telecommunications Public Limited Company Personalised media presentation
US8090694B2 (en) 2006-11-02 2012-01-03 At&T Intellectual Property I, L.P. Index of locally recorded content
US7801888B2 (en) 2007-03-09 2010-09-21 Microsoft Corporation Media content search results ranked by popularity
US10528629B2 (en) * 2007-04-03 2020-01-07 Oath Inc. Systems and methods for providing syndicated content
US20090019492A1 (en) 2007-07-11 2009-01-15 United Video Properties, Inc. Systems and methods for mirroring and transcoding media content
US20090060469A1 (en) * 2007-08-31 2009-03-05 United Video Properties, Inc. Systems and methods for recording popular media in an interactive media delivery system
JP2009124510A (ja) * 2007-11-15 2009-06-04 Canon Inc 表示制御装置及びその方法、プログラム、記録媒体
JP5343861B2 (ja) * 2007-12-27 2013-11-13 日本電気株式会社 テキスト分割装置とテキスト分割方法およびプログラム
FR2926695B1 (fr) * 2008-01-21 2013-08-09 Alcatel Lucent Procede de preparation de contenus de programmes audiovisuels, et systeme associe
DE102008018679B4 (de) * 2008-04-14 2010-11-25 Siemens Aktiengesellschaft Vorrichtung zum Filtern und Übertragen dynamischer Daten und Verfahren zum Filtern und Übertragen dynamischer Daten
US8655953B2 (en) * 2008-07-18 2014-02-18 Porto Technology, Llc System and method for playback positioning of distributed media co-viewers
US8812311B2 (en) * 2008-10-27 2014-08-19 Frank Elmo Weber Character-based automated shot summarization
US10063934B2 (en) 2008-11-25 2018-08-28 Rovi Technologies Corporation Reducing unicast session duration with restart TV
KR101264070B1 (ko) * 2009-03-25 2013-05-13 후지쯔 가부시끼가이샤 재생 제어 프로그램을 기록한 컴퓨터 판독 가능한 매체, 재생 제어 방법 및 재생 장치
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101786051B1 (ko) * 2009-11-13 2017-10-16 삼성전자 주식회사 데이터 제공 방법 및 장치와 데이터 수신 방법 및 장치
US8495105B2 (en) * 2009-12-22 2013-07-23 International Business Machines Corporation Consolidating input messages for social activity summarization
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20110191141A1 (en) * 2010-02-04 2011-08-04 Thompson Michael L Method for Conducting Consumer Research
JP2011205217A (ja) * 2010-03-24 2011-10-13 Sony Corp 情報処理装置、情報処理方法、プログラム
US20120183271A1 (en) * 2011-01-17 2012-07-19 Qualcomm Incorporated Pressure-based video recording
US9137573B2 (en) 2011-06-06 2015-09-15 Netgear, Inc. Systems and methods for managing media content based on segment-based assignment of content ratings
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9015109B2 (en) 2011-11-01 2015-04-21 Lemi Technology, Llc Systems, methods, and computer readable media for maintaining recommendations in a media recommendation system
US8903911B2 (en) * 2011-12-05 2014-12-02 International Business Machines Corporation Using text summaries of images to conduct bandwidth sensitive status updates
US8805418B2 (en) 2011-12-23 2014-08-12 United Video Properties, Inc. Methods and systems for performing actions based on location-based rules
EP2739061A1 (en) * 2012-11-30 2014-06-04 Alcatel Lucent Multi resolutions adaptive video summarization and its adaptive delivery
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
US9807474B2 (en) 2013-11-15 2017-10-31 At&T Intellectual Property I, Lp Method and apparatus for generating information associated with a lapsed presentation of media content
US9286938B1 (en) 2014-01-02 2016-03-15 Google Inc. Generating and providing different length versions of a video
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US20160041998A1 (en) * 2014-08-05 2016-02-11 NFL Enterprises LLC Apparatus and Methods for Personalized Video Delivery
WO2016032019A1 (ko) * 2014-08-27 2016-03-03 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 방법
US10331398B2 (en) 2015-05-14 2019-06-25 International Business Machines Corporation Reading device usability
US10090020B1 (en) * 2015-06-30 2018-10-02 Amazon Technologies, Inc. Content summarization
US10158983B2 (en) 2015-07-22 2018-12-18 At&T Intellectual Property I, L.P. Providing a summary of media content to a communication device
EP4270214A3 (en) 2015-09-01 2023-12-13 Dream It Get IT Limited Media unit retrieval and related processes
US9965680B2 (en) 2016-03-22 2018-05-08 Sensormatic Electronics, LLC Method and system for conveying data from monitored scene via surveillance cameras
US10733231B2 (en) * 2016-03-22 2020-08-04 Sensormatic Electronics, LLC Method and system for modeling image of interest to users
US10140259B2 (en) 2016-04-28 2018-11-27 Wipro Limited Method and system for dynamically generating multimedia content file
US10440431B1 (en) * 2016-11-28 2019-10-08 Amazon Technologies, Inc. Adaptive and automatic video scripting
US10783315B2 (en) * 2016-12-15 2020-09-22 Microsoft Technology Licensing, Llc Contextually sensitive summary
US10423409B2 (en) * 2017-04-21 2019-09-24 Semmle Limited Weighting static analysis alerts
US10587919B2 (en) 2017-09-29 2020-03-10 International Business Machines Corporation Cognitive digital video filtering based on user preferences
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
KR102542788B1 (ko) * 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
CN108650558B (zh) * 2018-05-30 2021-01-15 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
US20210144418A1 (en) * 2018-08-10 2021-05-13 Microsoft Technology Licensing, Llc Providing video recommendation
US20200186852A1 (en) * 2018-12-07 2020-06-11 Arris Enterprises Llc Methods and Systems for Switching Between Summary, Time-shifted, or Live Content
KR102124825B1 (ko) * 2018-12-27 2020-06-19 주식회사 산타 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
TWI716033B (zh) * 2019-07-15 2021-01-11 李姿慧 影像配樂智能系統
CN111163366B (zh) * 2019-12-30 2022-01-18 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
US11308331B2 (en) * 2019-12-31 2022-04-19 Wipro Limited Multimedia content summarization method and system thereof
US11315568B2 (en) 2020-06-09 2022-04-26 International Business Machines Corporation Summarizing multi-modal conversations in a multi-user messaging application
US11675822B2 (en) * 2020-07-27 2023-06-13 International Business Machines Corporation Computer generated data analysis and learning to derive multimedia factoids
US11314970B1 (en) * 2020-11-19 2022-04-26 Adobe Inc. Reinforcement learning techniques for automated video summarization
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113660541B (zh) * 2021-07-16 2023-10-13 北京百度网讯科技有限公司 新闻视频的摘要生成方法及装置
US20230068502A1 (en) * 2021-08-30 2023-03-02 Disney Enterprises, Inc. Multi-Modal Content Based Automated Feature Recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
US6125229A (en) 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6100941A (en) * 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
WO2000039707A1 (en) * 1998-12-23 2000-07-06 Koninklijke Philips Electronics N.V. Personalized video classification and retrieval system
JP2002259720A (ja) * 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム
US20030107592A1 (en) 2001-12-11 2003-06-12 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017528016A (ja) * 2014-06-12 2017-09-21 マイクロソフト テクノロジー ライセンシング,エルエルシー ルールに基づくビデオ重要度解析
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
WO2019077846A1 (ja) * 2017-10-17 2019-04-25 ソニーモバイルコミュニケーションズ株式会社 情報処理装置、情報処理方法、及びプログラム
US11038980B2 (en) 2017-10-17 2021-06-15 Sony Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
EP1642212B1 (en) 2006-11-29
KR20060027377A (ko) 2006-03-27
DE602004003497T2 (de) 2007-09-13
ATE347143T1 (de) 2006-12-15
US7738778B2 (en) 2010-06-15
WO2005001715A1 (en) 2005-01-06
EP1642212A1 (en) 2006-04-05
US20060165379A1 (en) 2006-07-27
ES2277260T3 (es) 2007-07-01
DE602004003497D1 (de) 2007-01-11
KR101150748B1 (ko) 2012-06-08

Similar Documents

Publication Publication Date Title
KR101150748B1 (ko) 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법
KR100711948B1 (ko) 개인화된 비디오 분류 및 검색 시스템
US7356830B1 (en) Method and apparatus for linking a video segment to another segment or information source
US9202523B2 (en) Method and apparatus for providing information related to broadcast programs
US20190320003A1 (en) Media production system with score-based display feature
CN101529467B (zh) 用于生成视频内容中感兴趣区域的方法、装置和系统
US9253511B2 (en) Systems and methods for performing multi-modal video datastream segmentation
US20160014482A1 (en) Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US20030093580A1 (en) Method and system for information alerts
US20050028194A1 (en) Personalized news retrieval system
US8478759B2 (en) Information presentation apparatus and mobile terminal
US20030093794A1 (en) Method and system for personal information retrieval, update and presentation
EP2159722A1 (en) Display processing apparatus and display processing method
KR20040066850A (ko) 타겟 주제에 관한 정보를 검색하는 시스템 및 방법
US20050165613A1 (en) Methods for constructing multimedia database and providing mutimedia-search service and apparatus therefor
US20190082236A1 (en) Determining Representative Content to be Used in Representing a Video
CN100505072C (zh) 用于生成基于内容的内容表格的方法、系统和程序产品
JP2003085207A (ja) 映像情報レコメンドシステム、方法及び装置、並びに、映像情報レコメンドプログラム及びプログラムの記録媒体
JP4881061B2 (ja) コンテンツ受信装置およびコンテンツ受信プログラム
JP4961760B2 (ja) コンテンツ出力装置、及びコンテンツ出力方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070808