JP2024505988A - シーン説明の再生制御 - Google Patents

シーン説明の再生制御 Download PDF

Info

Publication number
JP2024505988A
JP2024505988A JP2023547248A JP2023547248A JP2024505988A JP 2024505988 A JP2024505988 A JP 2024505988A JP 2023547248 A JP2023547248 A JP 2023547248A JP 2023547248 A JP2023547248 A JP 2023547248A JP 2024505988 A JP2024505988 A JP 2024505988A
Authority
JP
Japan
Prior art keywords
information
video
scene
audio
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023547248A
Other languages
English (en)
Inventor
ブラント キャンデロア
マヤル マイク ネジャット
ピーター シンタニ
ロバート ブランチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2024505988A publication Critical patent/JP2024505988A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6377Control signals issued by the client directed to the server or network components directed to server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

シーン説明の再生制御のためのメディアレンダリング装置及び方法を提供する。メディアレンダリング装置は、一連の撮影シーン及びテキスト情報を含むメディアコンテンツを検索する。テキスト情報は、ビデオ説明情報及びタイミング情報を含む。ビデオ説明情報は、一連の撮影シーンにおける撮影シーンを説明する。メディアレンダリング装置は、撮影シーンのテキスト情報から、ビデオ説明情報を再生するためのタイミング情報をさらに抽出する。メディアレンダリング装置は、ビデオ説明情報の再生を、抽出された撮影シーンのタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト表現及びオーディオ表現のいずれかでさらに制御する。【選択図】 図1

Description

〔関連出願との相互参照/引用による組み入れ〕
なし
本開示の様々な実施形態は、メディア再生制御に関する。具体的には、本開示の様々な実施形態は、メディアレンダリング装置及びシーン説明の再生制御方法に関する。
近年のメディアコンテンツ再生分野の進歩は、メディアコンテンツの様々な部分を制御するための様々な技術の発展をもたらした。通常、メディアコンテンツ(例えば、映画)は、1又は2以上の視聴者のためにメディアレンダリング装置上で同時にレンダリングできるビデオトラック及び対応するオーディオトラックなどの異なる部分を含むことができる。いくつかの状況では、視覚障害者又は認知障害者などの視聴者が、映画を理解する上でメディアコンテンツのシーンにおける要素、文脈、筋書き又は感情を視覚化できないという問題に直面することがある。メディアコンテンツの中には、視覚障害又は認知障害視聴者のメディアコンテンツ体験をさらに強化するために、ビデオトラック及びオーディオトラックと共に、メディアコンテンツ内にビデオ説明付きオーディオを代替オーディオトラックとして含むことができるものもある。いくつかのシナリオでは、ビデオ説明がオーディオベースであってビデオの説明に使用され、従って「ビデオ説明(video description)」と呼ばれる。しかしながら、米国では、連邦通信委員会(FCC)が、2020年11月30日に発行された21世紀における通信とビデオアクセシビリティに関する2010年法、FCC20-155(2020年)によってこの用語を「オーディオ説明(audio description)」に変更した。本文書では、古い用語である「ビデオ説明」を引き続き使用する。このナレーション付きの説明は、視覚障害者又は認知障害者などの視聴者にとってのメディアコンテンツの利用しやすさを強化するものである。これらのビデオ説明は、事前録画されたメディアコンテンツのオーディオトラック(例えば、せりふ)間の自然な途切れに挿入される。自然な途切れにおけるビデオ説明の挿入に関するいくつかのシナリオでは、対応する自然な途切れの期間内にビデオ説明が収まるように、対応するビデオ説明の1又は2以上の関連部分を削除し、又は自然な途切れの期間を増加させる編集が行われる。このようなシナリオでは、ビデオ説明の関連部分の削除又はメディアコンテンツのオーディオトラックの期間の増大が望ましくない場合もあり、視聴者のコンテンツ体験が不快で低品質なものになってしまう恐れがある。さらに、メディアコンテンツのせりふの自然な途切れにビデオ説明が挿入されるので、認知障害者は、自然な老化過程の一部としてよく理解することができず、従ってビデオ説明を理解できないことが多い。従って、視聴者(例えば、視覚障害者又は認知障害者)のメディアコンテンツ体験を改善するようにビデオ説明を効果的に制御できる強化された装置が必要とされている。
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、シーン説明の再生制御のためのメディアレンダリング装置及び方法を提供する。
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
本開示の実施形態による、シーン説明の再生制御のための例示的なネットワーク環境を示すブロック図である。 本開示の実施形態による、シーン説明の再生制御のための例示的なメディアレンダリング装置を示すブロック図である。 本開示の実施形態による、シーン説明の再生制御のための例示的なシナリオを図3Bと合わせて示す図である。 本開示の実施形態による、シーン説明の再生制御のための例示的なシナリオを図3Aと合わせて示す図である。 本開示の実施形態による、シーン説明の再生制御のための別の例示的なシナリオを示す図である。 本開示の実施形態による、シーン説明の再生制御のための例示的な動作を示す第1のフローチャートである。 本開示の実施形態による、シーン説明の再生制御のための例示的な動作を示す第2のフローチャートである。
開示する(視覚障害者又は認知障害者ユーザなどの)視聴者のメディアコンテンツ体験を強化するシーン説明の再生の動的制御のためのメディアレンダリング装置及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、一連の撮影シーンを含むことができるメディアコンテンツ(例えば、映画)を検索するように構成できるメディアレンダリング装置(例えば、テレビ)を提供する。メディアコンテンツは、ビデオ説明情報(例えば、一連の撮影シーンにおける撮影シーンを説明できるビデオ、筋書き又はシーン説明)と、ビデオ説明情報を再生するためのタイミング情報とを含むことができるテキスト情報をさらに含むことができる。タイミング情報は、ビデオ説明情報のテキスト表現又はオーディオ表現、或いはこれらの組み合わせを収めることができる空白又は途切れ(すなわち、メディアコンテンツのオーディオ部分の空白)に関する情報を含むことができる。メディアレンダリング装置は、ビデオ説明情報を再生するために撮影シーンのテキスト情報からタイミング情報を抽出することができる。メディアレンダリング装置は、ビデオ説明情報の再生を、第1の時間間隔(すなわち、撮影シーンの抽出されたタイミング情報によって示される第1の時間間隔)においてオーディオ表現、テキスト表現、又はテキスト表現及びオーディオ表現で制御するように構成することができる。
別の実施形態では、テキスト情報が、ビデオ説明情報を再生するための速度情報をさらに含むことができる。速度情報は、タイミング情報に対応するビデオ説明情報のオーディオ表現を再生するための再生速度に関する情報を含むことができる。メディアレンダリング装置は、ビデオ説明情報のオーディオ表現を再生するために撮影シーンのテキスト情報から速度情報を抽出することができる。メディアレンダリング装置は、抽出された速度情報に基づいて、第1の時間間隔(すなわち、抽出された撮影シーンのタイミング情報によって示される第1の時間間隔)においてビデオ説明情報のオーディオ表現の再生を制御するように構成することができる。
別の実施形態では、メディアレンダリング装置を、一連の撮影シーンのみを含むことができるメディアコンテンツと、一連の撮影シーンにおける撮影シーンを説明することはできるがタイミング情報及び速度情報を含まないビデオ説明情報とを検索するように構成することができる。メディアレンダリング装置は、撮影シーンにおけるオーディオ部分(例えば、せりふ)を再生するための時間間隔をそれぞれが示すことができる、撮影シーンの一連の第2の時間間隔を決定するように構成することができる。メディアレンダリング装置は、撮影シーンのビデオ説明情報(すなわち、シーン説明)のオーディオ表現をレンダリングする期間に対応できる第3の時間間隔を決定するようにさらに構成することができる。メディアレンダリング装置は、ビデオ説明情報のオーディオ表現を含めるために、一連の第2の時間間隔の合間の第1の時間間隔(すなわち、空白又は途切れ)を決定し、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて、含められるビデオ説明情報のオーディオ表現の再生速度をさらに制御するように構成することができる。
別の実施形態では、メディアレンダリング装置が、メディアレンダリング装置102に関連するディスプレイ装置上にビデオ説明情報を(例えば、テキストフォーマット又は表現で)直接レンダリングすることができる。ビデオ説明情報のテキストは、ディスプレイ装置上にレンダリングできる検索されたメディアコンテンツ上に、又は検索されたメディアコンテンツの外部にオーバーレイ表示することができる。別の実施形態では、ビデオ説明情報のテキストを、任意にクローズドキャプション情報(すなわち、メディアコンテンツのオーディオ部分又はせりふに関連するクローズドキャプション)と共に表示することができる。このことは、ビデオ説明情報が長く、ユーザがディスプレイ装置上にレンダリングされたビデオ説明情報を読むためにさらなる時間を必要とする場合に、メディアレンダリング装置のユーザがメディアコンテンツを手動で制御(一時停止及び再生)することができるため有利である。
メディアコンテンツの途切れ/空白にシーン説明を含めるためにビデオ/シーン説明の関連部分を削除し、又は途切れ/空白の長さの期間を増加させることがある従来の解決策とは対照的に、開示するメディアレンダリング装置は、メディアコンテンツと共に検索できる、又は撮影シーンのせりふ間の検出された空白/途切れの期間に基づいて動的に決定できる速度に基づいて、ビデオ説明情報(すなわち、シーン又はビデオ説明)のオーディオ表現を再生することができる。メディアレンダリング装置は、撮影シーンにおいて識別される(単複の)自然な途切れ又は空白の期間と、メディアレンダリング装置に関連する規定の速度設定とに基づいて、ビデオ説明情報のオーディオ表現の再生速度を増加/減少させることができる。従って、シーン/ビデオ説明の全体的な再生品質が損なわれず、これによって視聴者(視覚障害者又は認知障害者)のコンテンツ体験をリアルタイムベースでさらに強化することができる。
さらに、ビデオ又はシーン説明をオーディオ形態で受け取ることができる従来の解決策と比べて、開示するメディアレンダリング装置は、シーン説明をテキストフォーマットで受け取り、又はテキストフォーマットでメディアコンテンツに含め、さらにシーン説明のテキスト情報をオーディオ表現に変換するように構成することができる。なお、任意に、ビデオ説明情報は、ディスプレイ装置上に直接レンダリングされるようにテキストとして保持する(すなわち、メディアコンテンツ上に、又はメディアコンテンツへの影響が大きい場合にはメディアコンテンツの外部にオーバーレイ表示する)こともできる。従って、シーン説明をテキストフォーマットで含め又は伝えることで、2つの装置間でビデオ説明をオーディオフォーマットで送信するのに必要とされる適切な帯域幅を節約することができる。従って、開示するメディアレンダリング装置は、ビデオ説明情報を含むオーディオトラックとビデオ説明情報を含まないオーディオトラックとを基本的に重複させる従来の解決策と比べて帯域幅を効率的に利用することができる。また、テキスト版のビデオ説明は、映画又はTV番組内の特定のシーンを検索するための単語検索を可能にすることもできる。
図1は、本開示の実施形態による、シーン説明の再生制御のための例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、メディアレンダリング装置102、ディスプレイ装置104、オーディオレンダリング装置106、サーバ108、及び通信ネットワーク110を含むことができる。メディアレンダリング装置102は、通信ネットワーク110を介してディスプレイ装置104、オーディオレンダリング装置106、サーバ108に通信可能に結合することができる。メディアレンダリング装置102は、アンテナに接続された時にメディアコンテンツ112を受信できるように無線地上波チューナ(図示せず)と共に構成することができる。図1では、メディアレンダリング装置102及びディスプレイ装置104を2つの独立した装置として示しているが、いくつかの実施形態では、本開示の範囲から逸脱することなく、ディスプレイ装置104の機能全体をメディアレンダリング装置102に含めることもできる。
さらに、図1では、オーディオレンダリング装置106をメディアレンダリング装置102及び/又はディスプレイ装置104から分離して示しているが、本開示はこのように限定されるものではない。いくつかの実施形態では、本開示の範囲から逸脱することなく、オーディオレンダリング装置106をメディアレンダリング装置102及び/又はディスプレイ装置104に統合することもできる。図1には、一連の撮影シーン114、オーディオ部分116及びテキスト情報118を含むことができるメディアコンテンツ112をさらに示す。図1に示すように、一連の撮影シーン114は、第1の撮影シーン114A、第2の撮影シーン114B、及び第Nの撮影シーン114Nを含むことができる。一連の撮影シーン114の各々は、対応する撮影シーンを形成するように構築できる複数のショットを含むことができる。テキスト情報118は、ビデオ説明情報118A及びタイミング情報118Bを含むこともできる。いくつかの実施形態では、テキスト情報が速度情報118Cを含むこともできる。ビデオ説明情報118Aは、一連の撮影シーン114における少なくとも1つの撮影シーン(例えば、第1の撮影シーン114A)に関する説明を含むことができる。いくつかの実施形態では、複数のショットを含む一連の撮影シーン114の各々が、オーディオ部分116に関連する1又は2以上の画像フレーム又は部分をさらに含むことができる。さらに、メディアレンダリング装置102に関連することができるユーザ120も示す。例えば、ユーザ120は、メディアコンテンツ112の視聴者であることができ、視覚障害又は認知障害視聴者とすることができる。
メディアレンダリング装置102は、(サーバ108などの)リモートソース又はメディアレンダリング装置102のメモリ(すなわち、図2のメモリ204)からメディアコンテンツ112を検索するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。いくつかの実施形態では、地上波チューナを利用して無線でメディアコンテンツ112を検索することができる。いくつかのシナリオでは、高度テレビシステム委員会(ATSC)又はATSC 3.0標準を使用して、メディアコンテンツ112をデジタルで受信することができる。
メディアコンテンツ112は、ビデオ説明情報118A、タイミング情報118B及び速度情報118Cを含むことができるテキスト情報118を含むことができる。ビデオ説明情報118Aは、一連の撮影シーン114のうちの(第1の撮影シーン114Aなどの)撮影シーンを説明することができる。メディアレンダリング装置102は、第1の撮影シーン114Aのテキスト情報118からタイミング情報118Bを抽出するように構成することができる。タイミング情報118Bは、メディアレンダリング装置102がビデオ説明情報を再生するために使用することができる。いくつかの実施形態では、メディアレンダリング装置が、ビデオ説明情報を再生するためにタイミング情報118Bと共に速度情報118Cを使用することもできる。メディアレンダリング装置102は、ビデオ説明情報の再生を、撮影シーンの抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現、オーディオ表現、又はテキスト表現及びオーディオ表現の両方で制御するようにさらに構成することができる。他のいくつかの実施形態では、メディアレンダリング装置102を、抽出された速度情報118Cに基づいて、撮影シーンの抽出されたタイミング情報によって示される第1の時間間隔においてビデオ説明情報のオーディオ表現の再生を制御するようにさらに構成することができる。
別の実施形態では、メディアレンダリング装置102が、(サーバ108などの)リモートソース又はメディアレンダリング装置102のメモリ(すなわち、図2のメモリ204)からメディアコンテンツ112を検索することができる。メディアコンテンツは、一連の撮影シーン114の(第1の撮影シーン114Aなどの)撮影シーンを説明できるビデオ説明情報118Aを含むことができる。メディアレンダリング装置102は、第1の撮影シーン114Aのオーディオ部分116を再生するための一連の第2の時間間隔を決定し、ビデオ説明情報118Aのオーディオ表現を再生するための第3の時間間隔を決定するように構成することができる。メディアレンダリング装置102は、決定された一連の第2の時間間隔及び第3の時間間隔に基づいて、ビデオ説明情報118Aのオーディオ表現の再生速度を決定するようにさらに構成することができる。メディアレンダリング装置102の例としては、以下に限定するわけではないが、デジタルメディアプレーヤ(DMP)、スマートテレビメディアプレーヤ、オーバーザトップ(OTT)プレーヤ、デジタルメディアストリーマ、メディアエクステンダ/レギュレータ、デジタルメディアハブ、メディアコンテンツコントローラ、テレビ、コンピュータワークステーション、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯電話機、スマートフォン、セルラー電話機、スマート家電、携帯情報端末(PDA)、スマートスピーカ、スマートメガネ、サウンドシステム、ヘッドマウント装置(HMD)、ヘッドセット、スマートヘッドホン、及び/又はオーディオ-ビデオレンダリング能力を有するその他のコンピュータ装置を挙げることができる。
ディスプレイ装置104は、検索されたメディアコンテンツ112内に存在する一連の撮影シーン114を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ディスプレイ装置104は、ビデオ説明情報118Aをテキストフォーマットで表示するようにさらに構成することができる。ディスプレイ装置104は、ユーザがディスプレイ装置104を介してユーザ入力を提供することを可能にするタッチ画面とすることができる。タッチ画面は、抵抗膜式タッチ画面、静電容量式タッチ画面、又は感熱式タッチ画面のうちの少なくとも1つとすることができる。ディスプレイ装置104は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術のうちの少なくとも1つ、或いはその他のディスプレイ装置などの複数の既知の技術を通じて実現することができる。ある実施形態によれば、ディスプレイ装置104は、ヘッドマウント装置(HMD)のディスプレイ画面、スマートメガネ装置、シースルーディスプレイ、投影型ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイを意味することができる。
オーディオレンダリング装置106は、ビデオ説明情報118A(すなわち、シーン又はビデオ説明)のオーディオ表現を再生又はプレイバックするように構成できる好適なロジック、回路及びインターフェイスを含むことができる。オーディオレンダリング装置106は、第1の撮影シーン114A又は一連の撮影シーン114のオーディオ部分116(例えば、せりふ)を再生するようにさらに構成することができる。オーディオレンダリング装置106の例としては、以下に限定するわけではないが、ラウドスピーカ、壁埋め込み型/天井取り付け型スピーカ、サウンドバー、ウーファ又はサブウーファ、サウンドカード、ヘッドフォン、ヘッドセット、ワイヤレススピーカ、及び/又はオーディオ再生能力を有するその他のコンピュータ装置を挙げることができる。
サーバ108は、メディアコンテンツ112を記憶するように構成できる好適なロジック、回路、インターフェイス及びコードを含むことができる。サーバ108は、メディアレンダリング装置102から、サーバ108に記憶されているメディアコンテンツ112を検索するための要求を受け取ることができる。いくつかの実施形態では、サーバ108を、ビデオ説明情報118A(すなわち、シーン説明)のオーディオ表現の最大再生速度を示すことができる規定の速度設定を記憶するように構成することができる。サーバ108は、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ操作及びファイル転送などを通じて動作を実行できるクラウドサーバとして実装することができる。サーバ108の他の例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、メディアサーバ、アプリケーションサーバ、メインフレームサーバ、クラウドサーバ、又はその他のタイプのサーバを挙げることができる。1又は2以上の実施形態では、サーバ108を、当業者に周知の複数の技術を使用することによって複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲は、サーバ108及びメディアレンダリング装置102を独立エンティティとして実装することに限定されるものではないと理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ108の機能を全体的に又は少なくとも部分的にメディアレンダリング装置102に組み込むこともできる。
通信ネットワーク110は、メディアレンダリング装置102、ディスプレイ装置104、オーディオレンダリング装置106及びサーバ108が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク110は、有線通信ネットワーク又は無線通信ネットワークとすることができる。通信ネットワーク110の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク110に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE802.11s、IEEE802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、Bluetooth(BT)通信プロトコルを挙げることができる。
動作時には、開示するメディアレンダリング装置102が、ユーザ120からメディアコンテンツ112を再生するための要求を受け取ることができる。メディアコンテンツ112の例としては、以下に限定するわけではないが、ビデオクリップ、映画、広告、オーディオ-ビデオコンテンツ、ゲームコンテンツ、又はスライドショークリップを挙げることができる。メディアレンダリング装置102は、この要求に基づいて、(サーバ108などの)リモートソース又はメディアレンダリング装置102の(図2のメモリ204などの)メモリからメディアコンテンツ112を検索することができる。メディアコンテンツ112は、一連の撮影シーン114、オーディオ部分116、及びテキスト情報118を含むことができる。テキスト情報118は、一連の撮影シーン114のうちの撮影シーン(例えば、第1の撮影シーン114A)を説明することができる、テキストフォーマットであることができるビデオ説明情報118Aを含むことができる。いくつかの実施形態では、ビデオ説明情報118Aが、メディアコンテンツ112内に存在する一連の撮影シーン114の各々を説明することができる。ある実施形態では、メディアレンダリング装置102を、第1の撮影シーン114Aの(例えば、テキストフォーマットの)ビデオ説明情報118Aをビデオ説明情報118Aのオーディオ表現に変換するようにさらに構成することができる。テキスト情報118は、タイミング情報118Bを含むこともできる。タイミング情報118Bは、ビデオ説明情報118Aのオーディオ表現を収めて再生できる第1の時間間隔を示すことができる。別の実施形態では、テキスト情報118が速度情報118Cをさらに含むことができる。速度情報118Cは、タイミング情報118Bによって示される(第1の時間間隔などの)特定の時間間隔中にビデオ説明情報118Aのオーディオ表現を再生する再生速度を示すことができる。メディアレンダリング装置102は、第1の撮影シーン114Aのテキスト情報118からタイミング情報118Bを抽出するようにさらに構成することができる。メディアレンダリング装置102は、ビデオ説明情報118Aの再生を、一連の撮影シーン114の第1の撮影シーン114Aの抽出されたタイミング情報118Bによって示される第1の時間間隔においてテキスト表現、オーディオ表現、又はテキスト表現及びオーディオ表現で制御するようにさらに構成することができる。他のいくつかの実施形態では、メディアレンダリング装置102を、速度情報118Cを抽出するようにさらに構成することができる。このような事例では、メディアレンダリング装置102を、抽出された速度情報118Cに基づいて、一連の撮影シーン114のうちの第1の撮影シーン114Aの抽出されたタイミング情報118Bによって示される第1の時間間隔においてビデオ説明情報118Aのオーディオ表現の再生を制御するようにさらに構成することができる。
別の実施形態では、メディアレンダリング装置102が、一連の撮影シーン114における第1の撮影シーン114Aのオーディオ部分116(すなわち、せりふ)を再生するための時間間隔をそれぞれが示すことができる、第1の撮影シーン114Aの一連の第2の時間間隔を決定することができる。メディアレンダリング装置102は、第1の撮影シーン114Aのビデオ説明情報118Aのオーディオ表現を再生するために必要な第3の時間間隔を決定するようにさらに構成することができる。第3の時間間隔は、第1の撮影シーン114Aのビデオ説明情報118Aのオーディオ表現を再生するのにかかる時間又はそのために必要な期間に対応することができる。一連の第2の時間間隔及び第3の時間間隔の詳細については、例えば図4で説明する。
メディアレンダリング装置102は、ビデオ説明情報118Aのオーディオ表現を再生する速度を決定するようにさらに構成することができる。決定される速度は、例えば第1の撮影シーン114Aの再生中にユーザ120のためにビデオ説明情報118Aのオーディオ表現を再生できる速度とすることができる。ビデオ説明情報118Aのオーディオ表現の再生速度は、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて決定することができる。いくつかの実施形態では、決定される速度が、ビデオ説明情報118Aのオーディオ表現の実際の再生速度よりも低いことができる。他のいくつかの実施形態では、決定される速度が、ビデオ説明情報118Aのオーディオ表現の実際の再生速度よりも高いことができる。決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づくビデオ説明情報118Aのオーディオ表現の再生速度の決定の詳細については、例えば図4で説明する。
メディアレンダリング装置102は、決定された速度に基づいて、ビデオ説明情報118Aのオーディオ表現の再生を制御するようにさらに構成することができる。ビデオ説明情報118Aのオーディオ表現は、第1の時間間隔(例えば、第1の撮影シーン114Aのせりふ間の空白)において再生することができる。第1の時間間隔は、一連の第2の時間間隔とは異なることができる。いくつかの実施形態では、第1の時間間隔を、第1の撮影シーン114Aの第1のせりふと第2のせりふとの間の間隔(すなわち、空白)とすることができる。第1のせりふは、第1の撮影シーン114Aのあるショット(例えば、第1のショット)の最後の単語に対応することができ、第2のせりふは、第1の撮影シーン114Aの次のショット(例えば、第2のショット)の最初の単語に対応することができる。第1のショット及び第2のショットは、第1の撮影シーン114Aの連続するショットとすることができる。別の実施形態では、第1の時間間隔を、第1の撮影シーン114Aの開始と第1の撮影シーン114Aの第1のせりふとの間の間隔(すなわち、空白)とすることができる。ある実施形態では、第1の時間間隔(すなわち、空白)が第3の時間間隔よりも短い場合、メディアレンダリング装置102が、ビデオ説明情報118Aのオーディオ表現の再生速度をビデオ説明情報118Aのオーディオ表現の実際の再生速度よりも高くなるように決定することができる。別の実施形態では、第1の時間間隔(すなわち、空白)が第3の時間間隔よりも長い場合、メディアレンダリング装置102が、ビデオ説明情報118Aのオーディオ表現の再生速度をオーディオ表現の実際の再生速度よりも低くなるように決定することができる。ビデオ説明情報118Aのオーディオ表現(すなわち、第1の撮影シーン114Aの説明)の再生速度を増減することで、(説明内容の短縮のような)著しい修正を伴わずにシーン説明を再生することができ、視覚障害又は認知障害視聴者などのユーザ120のためにシーン/ビデオ説明の品質をさらに維持することができる。
図1には、本開示の範囲から逸脱することなく修正、追加又は省略を行うことができる。例えば、ネットワーク環境100は、本開示において図示し説明する要素よりも多くの又は少ない要素を含むことができる。例えば、いくつかの実施形態では、ネットワーク環境100が、メディアレンダリング装置102を含んでディスプレイ装置104を含まないこともできる。また、いくつかの実施形態では、本開示の範囲から逸脱することなく、各オーディオレンダリング装置106の機能をディスプレイ装置104に組み込むこともできる。
図2は、本開示の実施形態による、シーン説明の再生制御のための例示的なメディアレンダリング装置を示すブロック図である。図2の説明は、図1の要素に関連して行う。図2には、メディアレンダリング装置102のブロック図200を示す。メディアレンダリング装置102は、シーン又はビデオ説明の再生を制御する動作を実行できる回路202を含むことができる。メディアレンダリング装置102は、メモリ204、入力/出力(I/O)装置206、テキスト-スピーチ変換器208、ネットワークインターフェイス210、ディスプレイ装置104、及びオーディオレンダリング装置106をさらに含むことができる。メモリ204は、機械学習(ML)モデル212を含むことができる。回路202は、メモリ204、I/O装置206、テキスト-スピーチ変換器208、ネットワークインターフェイス210、ディスプレイ装置104及びオーディオレンダリング装置106に通信可能に結合することができる。
回路202は、メディアレンダリング装置102によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。例えば、これらの動作の一部は、メディアコンテンツ112の検索、タイミング情報118B及び/又は速度情報118Cの抽出、及び抽出されたタイミング情報118B及び速度情報118Cに基づく第1の時間間隔におけるビデオ説明情報118Aのテキスト表現又はオーディオ表現又はテキスト表現及びオーディオ表現の再生を含むことができる。回路202は、独立したプロセッサとして実装できる1又は2以上の特殊処理ユニットを含むことができる。ある実施形態では、1又は2以上の特殊処理ユニットを、1又は2以上の特殊処理ユニットの機能をまとめて実行する統合プロセッサ又はプロセッサ群として実装することができる。回路202は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、X86ベースのプロセッサ、グラフィックプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路とすることができる。
メモリ204は、回路202によって実行される命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。メモリ204は、メディアコンテンツ112、テキスト情報118、及びビデオ説明情報118Aのオーディオ表現の最大再生速度を示すことができる規定の速度設定を記憶するように構成することができる。メモリ204は、(第1の撮影シーン114Aなどの)撮影シーンのコンテキスト情報に基づいてオーディオ特性を決定するように構成できる訓練済み機械学習(ML)モデル212を記憶するようにさらに構成することができる。MLモデル212の詳細な機能については、例えば図4で説明する。メモリ204は、ユーザのプロファイル情報を記憶するようにさらに構成することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードなどを挙げることができる。
I/O装置206は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。I/O装置206は、撮影シーンの説明に対応する第1のユーザ入力を受け取るように構成することができる。I/O装置は、ディスプレイ装置104及びオーディオレンダリング装置106を介してメディアコンテンツ112の再生を制御するようにさらに構成することができる。I/O装置は、回路202と通信するように構成できる様々な入力及び出力装置を含むことができる。I/O装置206の例としては、以下に限定するわけではないが、ディスプレイ装置104、オーディオレンダリング装置106、タッチ画面、キーボード、マウス、ジョイスティック、及びマイクを挙げることができる。
テキスト-スピーチ変換器208は、一連の撮影シーン114のうちの少なくとも第1の撮影シーン114Aを説明するビデオ説明情報118Aをオーディオレンダリング装置106による再生に適合できるオーディオフォーマットに変換するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。本明細書では、変換されたオーディオをビデオ説明情報118Aのオーディオ表現と呼ぶことができ、オーディオレンダリング装置106上でレンダリングすることができる。テキスト-スピーチ変換器208は、当業で周知の数多くのプロセッサ技術に基づいて実装することができる。プロセッサ技術の例としては、以下に限定するわけではないが、中央処理装置(CPU)、x86ベースのプロセッサ、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、及びその他のプロセッサを挙げることができる。
ネットワークインターフェイス210は、通信ネットワーク110を介して回路202とサーバ108との間の通信を容易にするように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ネットワークインターフェイス210は、メディアレンダリング装置102と通信ネットワーク110との有線又は無線通信をサポートする様々な既知の技術を使用して実装することができる。ネットワークインターフェイス210は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者IDモジュール(SIM)カード、又はローカルバッファ回路を含むことができる。ネットワークインターフェイス210は、インターネット、イントラネットなどのネットワーク、又はセルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)及びメトロポリタンエリアネットワーク(MAN)などの無線ネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11a、IEEE802.11b、IEEE802.11g又はIEEE802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス(SMS)などの複数の通信標準、プロトコル及び技術のうちの1つ又は2つ以上を使用するように構成することができる。
図3Aは、本開示の実施形態による、シーン説明の再生制御のための例示的なシナリオを示す図である。図3Aの説明は、図1及び図2の要素に関連して行う。図3Aには例示的なシナリオ300を示す。例示的なシナリオ300には、メディアレンダリング装置302(すなわち、メディアレンダリング装置102と同様のもの)を示す。図3Aには、メディアレンダリング装置302に関連するディスプレイ装置104及びオーディオレンダリング装置106をさらに示す。メディアレンダリング装置302は、ディスプレイ装置104及びオーディオレンダリング装置106を、メディアコンテンツをレンダリングするように制御することができる。メディアコンテンツの例としては、以下に限定するわけではないが、ビデオクリップ、映画、オーディオビデオコンテンツ、ゲームコンテンツ、広告、又はスライドショークリップを挙げることができる。メディアコンテンツは、(図3Aに示すような)ディスプレイ装置104上に表示された撮影シーン304を含むことができる(図1の一連の撮影シーン114などの)一連の撮影シーンを含むことができる。
なお、図3Aに示す撮影シーン304は車のシーンの一例として提示するものにすぎない。本開示は、(以下に限定するわけではないが、アクションシーン、ドラマシーン、ロマンチックなシーン、感情的なシーン、ダンスシーン、音楽シーン、ホラーシーン、又はラブシーンなどの)他のタイプの撮影シーンにも適用可能である。他のタイプの撮影シーンの説明については、簡潔にするために本開示からは省略する。さらに、図3Aに示すディスプレイ装置104はテレビの一例として提示するものにすぎない。本開示は、例えば図1で説明したような他のタイプのディスプレイ装置にも適用可能である。このような他のタイプのディスプレイ装置の説明については、簡潔にするために本開示からは省略する。さらに、図3Aに示すオーディオレンダリング装置106はスピーカの一例として提示するものにすぎない。本開示は、例えば図1で説明したような他のタイプのオーディオレンダリング装置にも適用可能である。このような他のタイプのオーディオレンダリング装置の説明については、簡潔にするために本開示からは省略している。
ある実施形態では、メディアコンテンツの一連の撮影シーンの各々が、オーディオ部分、画像部分、及びテキスト情報306を含むことができる。オーディオ部分は、オーディオレンダリング装置106を介してレンダリングできるオーディオフォーマットでの、メディアコンテンツの一連の撮影シーンの各々の1又は2以上のせりふを含むことができる。各シーンの画像部分は、ディスプレイ装置104上にレンダリングできる1又は2以上の画像フレームを含むことができる。
テキスト情報306は、ビデオ説明情報306A、タイミング情報、及び/又は速度情報をさらに含むことができる。ビデオ説明情報306Aは、一連の撮影シーンのうちの(撮影シーン304又は第1の撮影シーン114Aなどの)撮影シーンを説明することができ、撮影シーン304はディスプレイ装置104上に表示することができる。いくつかの実施形態では、ビデオ説明情報306Aが、一連の撮影シーンの各撮影シーンを説明することができる。ビデオ説明情報306A又は撮影シーンの説明の例としては、以下に限定するわけではないが、撮影シーン内の1又は2以上の装飾品の説明、シーン内の照明条件の説明、撮影シーン内の場所の説明、撮影シーン内のカメラモーションの説明、撮影シーン内の背景情報の説明、撮影シーン内の環境条件の説明、撮影シーン内のショット推移の説明、撮影シーンに含まれるテキストの説明、撮影シーンに描かれるキャラクタの説明、撮影シーンに描かれるキャラクタの態度/感情の説明、撮影シーンに描かれるキャラクタ間の空間的関係の説明、撮影シーンに描かれるキャラクタの身体的属性の説明、撮影シーンに描かれるキャラクタの肉体的表現の説明、撮影シーンに描かれるキャラクタの表情の説明、撮影シーンに描かれるキャラクタの動きの説明、撮影シーンに描かれるキャラクタの職業又は役割の説明、撮影シーンに描かれるキャラクタの服装の説明などを挙げることができる。
ある実施形態によれば、回路202は、メディアレンダリング装置302のメモリ204から、一連の撮影シーン及びテキスト情報306を含むメディアコンテンツを検索するように構成することができる。いくつかの実施形態では、回路202を、メディアコンテンツを求める要求をサーバ108に送信するように構成することができる。送信された要求に基づいて、サーバ108から(一連の撮影シーン及びテキスト情報306を含むことができる)メディアコンテンツを受け取ることができる。テキスト情報306内に存在するビデオ説明情報306Aは(オーディオフォーマットではなく)テキストフォーマットで受け取ることができ、これによりサーバ108とメディアレンダリング装置302との間におけるテキスト情報306の通信中の帯域幅をさらに節約することができる。テキストフォーマットでのテキスト情報306は、メモリ204又はサーバ108の記憶スペースをさらに節約することができる。ある実施形態では、メディアコンテンツの再生前に、メディアコンテンツから一連の撮影シーン及びテキスト情報306の各々を検索することができる。他のいくつかの実施形態では、回路202が、特定の撮影シーン(例えば、現在の撮影シーン)の再生時に、さらなる処理(例えば、次の撮影シーンのビデオ説明情報306Aをオーディオ再生するためのタイミング情報及び速度情報の抽出又は速度の計算)のために次の撮影シーンのテキスト情報306を検索することができる。
ある実施形態では、撮影シーン304が、第1のショット及び第2のショットなどの複数のショットを含むことができる。撮影シーン304は、複数の生物オブジェクト(animated objects)及び無生物オブジェクト(in-animated objects)を含むことができる。例えば、図3Aでは、生物オブジェクトが、以下に限定するわけではないが、(例えば、「George」という名前の)第1の人物308及び(例えば、「Jack」という名前の)第2の人物310を含むことができる。図3Aに示す無生物オブジェクトは、限定するわけではないが車312を含むことができる。図3Aにはタイムライン314をさらに示す。タイムライン314は、撮影シーン304を再生できる(例えば、秒、分又は時間単位の)時間間隔を示すことができる。タイムライン314に示される合計時間は、撮影シーン304に関連する全ての画像フレーム及び/又はオーディオフレームをレンダリングするための再生時間とすることができる。
図3Aに示すように、撮影シーン304は、撮影シーン304のオーディオ部分316として第1のオーディオ部分316A及び第2のオーディオ部分316Bを含むことができる。第1のオーディオ部分316A及び第2のオーディオ部分316Bの各々は、撮影シーン304に取り込まれた第1の人物308及び/又は第2の人物310に対応する(図3Aに示す「George:おいJack、どこに向かってるんだ?(Hey Jack! Where are you heading)」及び「Jack:仕事だよ(I am going to work)」などの)せりふを含むことができる。一例として、図3Aに示すように、撮影シーン304に関連するタイムライン314には、時点t0~t1に、第1の途切れ318Aに対応できる自然な途切れが存在することができる。時点t1~t2には、第1の人物308が、せりふ又は第1のオーディオ部分316Aとして「おいJack、どこに向かってるんだ?」と発話することができる。さらに、時点t2~t3には、第2の途切れ318Bに対応できる別の自然な途切れが存在することができる。時点t3~t4には、第2の人物310が、せりふ又は第2のオーディオ部分316Bとして、例えば「仕事だよ」というせりふで第1の人物308に返答することができる。時点t4~t5には、第3の途切れ318Cに対応できる別の自然な途切れが存在することができる。
一例として、ビデオ説明情報306A、及びタイミング情報を含むことができる検索されたテキスト情報306を以下の表1に示す。
Figure 2024505988000002

表1:テキスト情報
なお、テキスト情報306内の行数は一例として提示するものにすぎない。テキスト情報306は、撮影シーン304に含まれるビデオ説明の数に基づいてこれよりも多くの又は少ない数の行を含むことができる。
回路202は、撮影シーン304のテキスト情報306からタイミング情報を抽出するようにさらに構成することができる。タイミング情報は、テキスト情報306のビデオ説明情報306Aを再生するために抽出することができる。タイミング情報は、ビデオ説明情報306Aのテキスト表現又はオーディオ表現、或いはテキスト表現及びオーディオ表現の両方を再生のために収めることができる、タイムライン314内の第1の時間間隔(例えば、第2の途切れ318Bとしての時間間隔t2~t3)を示すことができる。
別の実施形態では、回路202を、撮影シーン304のテキスト情報306から速度情報を抽出するようにさらに構成することができる。タイミング情報と同様に、速度情報も、テキスト情報306のビデオ説明情報306Aを再生するために抽出することができる。速度情報は、タイミング情報118Bによって示される第1の時間間隔(すなわち、第2の途切れ318B)中にビデオ説明情報306Aのオーディオ表現を再生する再生速度を示すことができる。一例として、ビデオ説明情報306A、タイミング情報及び速度情報を含むことができる検索されたテキスト情報306を以下の表2に示す。
Figure 2024505988000003

表2:テキスト情報
なお、テキスト情報306内の行数は一例として提示するものにすぎない。テキスト情報306は、撮影シーン304に含まれるビデオ説明の数に基づいてこれよりも多くの又は少ない数の行を含むことができる。
テキスト表現の場合には、回路202を、撮影シーン304の抽出されたタイミング情報によって示される第1の時間間隔(すなわち、第2の途切れ318B)において(テキスト情報306内に存在する)ビデオ説明情報306Aをディスプレイ装置104上にレンダリングするように構成することができる。ビデオ説明情報306Aのテキスト再生に関する詳細については、例えば図3Bで説明する。
オーディオ表現の場合には、回路202を、撮影シーン304のテキスト情報306内に存在する検索されたビデオ説明情報306Aをビデオ説明情報306Aのオーディオ表現に変換するようにテキスト-スピーチ変換器208を制御するようさらに構成することができる。回路202は、撮影シーン304の抽出されたタイミング情報によって示される第1の時間間隔(すなわち、第2の途切れ318B)においてビデオ説明情報306Aのオーディオ表現の再生を制御することができる。ビデオ説明情報306Aのオーディオ表現の再生は、抽出された速度情報に基づくことができる。
テキスト表現及びオーディオ表現の両方の場合には、オーディオレンダリング装置106を介してビデオ説明情報306Aのオーディオ表現をレンダリングできる第1の時間間隔(すなわち、t2~t3)中に、ビデオ説明情報306Aをディスプレイ装置104上に(例えば、テキストフォーマットで)レンダリングすることができる。表2によれば、回路202は、第1の時間間隔(すなわち、t2~t3)中に、ビデオ説明情報306Aのオーディオ表現(例えば、「Jackが車を運転中、GeorgeがJackを見ている(George is looking at Jack while Jack is driving the car)」)の再生を、撮影シーン304のビデオ説明情報306Aのオーディオ表現の実際の再生速度の1.6倍の速度で制御することができる。実際の再生速度は、メディアコンテンツのオーディオをレンダリングできるレート又は速度(すなわち、1倍速)に対応することができる。実際の再生速度は、撮影シーン404の取り込み時にオーディオ部分116が録音されたレート又は速度とすることができる。ビデオ説明情報306Aのオーディオ表現を再生するための第1の時間間隔(すなわち、図3Aに示すt2~t3)は、テキスト情報306に含まれるタイミング情報によって示すことができ、ビデオ説明情報306Aのオーディオ表現を再生できる速度(すなわち、1.6倍)は、テキスト情報306に含まれる速度情報によって示すことができる。
限定ではなく一例として、表1によれば、回路202は、時間間隔tA~tB中に、ビデオ説明情報306A(「ビデオ説明1」)のテキスト表現、又はテキスト表現及びオーディオ表現の両方の再生を制御することができる。限定ではなく別の例として、表1によれば、回路202は、時間間隔tA~tB中に、ビデオ説明情報306A(「ビデオ説明1」)のオーディオ表現の再生を、撮影シーン304のビデオ説明情報306Aのオーディオ表現の実際の再生速度の0.5倍の速度で制御することができる。従って、開示するメディアレンダリング装置302は、ディスプレイ装置104及びオーディオレンダリング装置106を介して再生できるメディアコンテンツのテキスト情報306に(例えば、テキスト形態で)含まれるタイミング情報及び/又は速度情報に基づいて、ビデオ説明情報306Aの(テキスト表現、オーディオ表現、又はテキスト表現及びオーディオ表現の両方での)再生のタイミング及び/又は速度を制御することを可能にすることができる。
ある実施形態では、回路202を、メディアコンテンツのレンダリング前又はその最中にユーザ112に対してディスプレイ装置104上に一連の選択肢を表示するように構成することができる。一連の選択肢のうちの第1の選択肢は、ビデオ説明情報のオーディオ表現(すなわち、ビデオ説明情報をオーディオフォーマットでレンダリングすること)の選択に対応することができる。一連の選択肢のうちの第2の選択肢は、ビデオ説明情報のテキスト表現(すなわち、ビデオ説明情報をテキストフォーマットでレンダリングすること)の選択に対応することができる。同様に、一連の選択肢のうちの第3の選択肢は、ビデオ説明情報のオーディオ表現及びテキスト表現の選択(すなわち、ビデオ説明情報をオーディオ表現及びテキスト表現の両方で同時にレンダリングすること)に対応することができる。いくつかの実施形態では、回路202が、ユーザ120のユーザプロファイルからビデオ説明情報の再生のためのユーザ選好を決定することができる。回路202は、このユーザ選好に基づいてビデオ説明情報の再生(テキストフォーマット、オーディオフォーマット、又はこれらの両方)をさらに制御することができる。
図3Bには、ディスプレイ装置104及びオーディオレンダリング装置106をさらに含むことができるメディアレンダリング装置302を示す。メディアレンダリング装置302は、ディスプレイ装置104及びオーディオレンダリング装置106を、メディアコンテンツをレンダリングするように制御することができる。メディアコンテンツは、(図3Aに示すような)ディスプレイ装置104上に表示された撮影シーン304を含むことができる(図1の一連の撮影シーン114などの)一連の撮影シーンを含むことができる。
ある実施形態では、メディアコンテンツの一連の撮影シーンの各々が、オーディオ部分、画像部分、テキスト情報306、及びクローズドキャプション情報320を含むことができる。オーディオ部分は、オーディオレンダリング装置106を介してレンダリングできるオーディオフォーマットでの、メディアコンテンツの一連の撮影シーンの各々の1又は2以上のせりふを含むことができる。各シーンの画像部分は、ディスプレイ装置104上にレンダリングできる1又は2以上の画像フレームを含むことができる。クローズドキャプション情報320は、撮影シーン304の再生中に(図3Bに示すような)ディスプレイ装置104上にレンダリングできるテキストフォーマットでの、撮影シーン304のオーディオ部分116を表すことができる。クローズドキャプション情報320は、撮影シーン304のオーディオ部分の転写とみなすことができる。いくつかの実施形態では、ビデオ説明情報306A(すなわち、シーン説明)をクローズドキャプション情報320と共にメディアコンテンツ内に符号化することができる。
ある実施形態では、撮影シーン304が、第1のショット及び第2のショットなどの複数のショットを含むことができる。撮影シーン304は、複数の生物オブジェクト及び無生物オブジェクトを含むことができる。例えば、図3Bでは、生物オブジェクトが、以下に限定するわけではないが、(例えば、「George」という名前の)第1の人物308及び(例えば、「Jack」という名前の)第2の人物310を含むことができる。図3Bに示す無生物オブジェクトは、限定するわけではないが車312を含むことができる。
ある実施形態では、図3Bに示すように、第1の時間間隔(すなわち、図3Aに示すt2~t3)中に、「Jackが車を運転中、GeorgeがJackを見ている」というビデオ説明情報306Aをディスプレイ装置104上にテキストフォーマットでレンダリングすることができる。別の実施形態では、表2に従って、回路202が、第1の時間間隔(t2~t3)中に、「Jackが車を運転中、GeorgeがJackを見ている」というビデオ説明情報306Aのオーディオ表現の再生を、撮影シーン304のビデオ説明情報306Aのオーディオ表現の実際の再生速度(すなわち、1.0倍速)の1.6倍の速度で制御することができる。ある実施形態では、図3Bに示すように、第1の時間間隔(すなわち、図3Aに示すt2~t3)中に、ビデオ説明情報306Aをクローズドキャプション情報320の表示と共にディスプレイ装置104上にテキストフォーマットでレンダリングしながら、オーディオレンダリング装置106を介してビデオ説明情報306Aのオーディオ表現をレンダリングすることもできる。図3Bに示すように、ビデオ説明情報306A及びクローズドキャプション情報320は、撮影シーン304の表示時に(画像フレームなどの)画像部分にオーバーレイ表示できるテキストフォーマットでディスプレイ装置104上にレンダリングすることができる。いくつかの実施形態では、ビデオ説明情報306Aのオーディオ表現を再生する代わりに、第1の時間間隔(t2~t3)中にビデオ説明情報306A及びクローズドキャプション情報320を同時にディスプレイ装置104上にレンダリングすることができる。
図4は、本開示の実施形態による、シーン説明の再生制御のための別の例示的なシナリオを示す図である。図4の説明は、図1、図2、図3A及び図3Bの要素に関連して行う。図4には例示的なシナリオ400を示す。例示的なシナリオ400には、メディアレンダリング装置402(すなわち、メディアレンダリング装置102と同様のもの)を示す。図4には、メディアレンダリング装置402に関連するディスプレイ装置104及びオーディオレンダリング装置106をさらに示す。メディアレンダリング装置402は、ディスプレイ装置104及びオーディオレンダリング装置106を、メディアコンテンツをレンダリングように制御することができる。メディアコンテンツは、ディスプレイ装置104上に表示された撮影シーン404を含むことができる(図1の一連の撮影シーン114などの)一連の撮影シーンを含むことができる。
ある実施形態では、メディアコンテンツの一連の撮影シーンの各々が、オーディオ部分、画像部分、及びビデオ説明情報406を含むことができる。いくつかの実施形態では、一連の撮影シーンの各々が、(例えば、図3Aで説明したようなビデオ説明情報406を含むことができるテキスト情報306などの)テキスト情報を含むことができる。オーディオ部分は、オーディオレンダリング装置106を介してレンダリングできるオーディオフォーマットでの、メディアコンテンツの一連の撮影シーンの各々の1又は2以上のせりふを含むことができる。各シーンの画像部分は、ディスプレイ装置104上にレンダリングできる1又は2以上の画像フレームを含むことができる。ビデオ説明情報406Aは、一連の撮影シーンのうちの(撮影シーン404又は第1の撮影シーン114Aなどの)撮影シーンを説明することができ、撮影シーン404はディスプレイ装置104上に表示することができる。いくつかの実施形態では、ビデオ説明情報406が、一連の撮影シーンの各撮影シーンを説明することができる。
ある実施形態によれば、回路202は、メディアレンダリング装置402のメモリ204から(一連の撮影シーン及びビデオ説明情報406を含むことができる)メディアコンテンツを検索するように構成することができる。いくつかの実施形態では、回路202を、メディアコンテンツを求める要求をサーバ108に送信するように構成することができる。送信された要求に基づいて、サーバ108から(一連の撮影シーン及びビデオ説明情報406を含むことができる)メディアコンテンツを受け取ることができる。ビデオ説明情報406Aは(オーディオフォーマットではなく)テキストフォーマットで受け取ることができ、これによりサーバ108とメディアレンダリング装置402との間におけるビデオ説明情報406の通信中の帯域幅をさらに節約することができる。テキストフォーマットでのビデオ説明情報406は、メモリ204又はサーバ108の記憶スペースをさらに節約することができる。ある実施形態では、メディアコンテンツの再生前に、メディアコンテンツから一連の撮影シーン及びビデオ説明情報406の各々を検索することができる。他のいくつかの実施形態では、回路202が、特定の撮影シーン(例えば、現在の撮影シーン)の再生時に、さらなる処理(例えば、次の撮影シーンのビデオ説明情報406をオーディオ再生するための速度の計算)のために次の撮影シーンのビデオ説明情報406を検索することができる。
回路202は、撮影シーン404の検索されたビデオ説明情報406をビデオ説明情報406のオーディオ表現に変換するようにテキスト-スピーチ変換器208を制御するようさらに構成することができる。いくつかの実施形態では、撮影シーン404に関する情報がクローズドキャプション情報も含む。例えば図3Bで説明したように、クローズドキャプション情報は、撮影シーン304の表示時に(画像フレームなどの)画像部分にオーバーレイ表示できる、テキストフォーマットでの撮影シーン404のオーディオ部分116を表すことができる。いくつかの実施形態では、ビデオ説明情報406(すなわち、シーン説明)をクローズドキャプション情報と共にメディアコンテンツ内に符号化することができる。
ある実施形態では、撮影シーン404が、第1のショット及び第2のショットなどの複数のショットを含むことができる。撮影シーン404は、複数の生物オブジェクト及び無生物オブジェクトを含むことができる。例えば、図4では、生物オブジェクトが、以下に限定するわけではないが、(例えば、「George」という名前の)第1の人物408及び(例えば、「Jack」という名前の)第2の人物410を含むことができる。図4に示す無生物オブジェクトは、限定するわけではないが車312を含むことができる。図4にはタイムライン414をさらに示す。タイムライン414は、撮影シーン404を再生できる(例えば、秒、分又は時間単位の)時間間隔を示すことができる。タイムライン414に示される合計時間は、撮影シーン404に関連する全ての画像フレーム及び/又はオーディオフレームをレンダリングするための再生時間とすることができる。タイムライン414は、撮影シーン404における第1の人物408と第2の人物410との間の会話中に発せられるせりふに対応できる一連の第2の時間間隔416を含むことができる。
図4に関しては、メディアコンテンツ又は(図1に示すテキスト情報118などの)テキスト情報がタイミング情報及び速度情報(すなわち、例えば図3Aで説明したもの)を含んでいないと仮定することができる。従って、開示するメディアレンダリング装置102は、ビデオ説明情報406のオーディオ表現を再生するための速度及び第1の時間間隔を決定することができる。ある実施形態によれば、回路202は、(第1のオーディオ部分416A及び第2のオーディオ部分416Bなどの)オーディオ部分116を含むことができる撮影シーン404の一連の第2の時間間隔416を決定するようにさらに構成することができる。一連の第2の時間間隔416の各々は、一連の撮影シーンにおける撮影シーン404のオーディオ部分116を再生するための時間間隔を示すことができる。例えば、図4に示すように、撮影シーン404は、撮影シーン404のオーディオ部分116として第1のオーディオ部分416A及び第2のオーディオ部分416Bを含むことができる。第1のオーディオ部分416A及び第2のオーディオ部分416Bの各々は、撮影シーン404に取り込まれた第1の人物408及び/又は第2の人物410に対応する(図4に示す「George:おいJack、どこに向かってるんだ?」及び「Jack:仕事だよ」などの)せりふを含むことができる。回路202は、撮影シーン404に含まれる各オーディオフレームのオーディオ分析に基づいて、撮影シーン404における一連の第2の時間間隔416を決定するように構成することができる。オーディオ分析では、回路202が、各オーディオフレーム内のオーディオ音量又はピッチをオーディオ閾値(dB単位)と比較して、撮影シーン404に関連するせりふ又は音楽を含むことができる一連の第2の時間間隔416を決定することができる。
ある実施形態では、回路202を、撮影シーン404のビデオ説明情報406のオーディオ表現の第3の時間間隔418(すなわち、図4に示すような「t00」~「t01」の時間間隔)を決定するようにさらに構成することができる。第3の時間間隔418は、ビデオ説明情報406のオーディオ表現をその実際の再生速度でプレイバック又は再生するために必要な期間(例えば、数秒単位)に対応することができる。この時間間隔は、ユーザ120がビデオ説明情報406を表示する選択肢を選択した場合に(図3Bに示すような)ディスプレイ装置104上にビデオ説明情報406のテキストフォーマットを表示できる期間であることもできる。実際の再生速度は、メディアコンテンツのオーディオをレンダリングできるレート又は速度(すなわち、1倍速)に対応することができる。実際の再生速度は、撮影シーン404の取り込み時にオーディオ部分116が録音されたレート又は速度とすることができる。ある実施形態では、第3の時間間隔418が、ビデオ説明情報406のサイズに基づくことができる。例えば、撮影シーン404を説明するためにより多くの数の単語がビデオ説明情報406に含まれている場合には、ビデオ説明情報406のオーディオ表現を実際の再生速度で再生するための第3の時間間隔418の期間も長くなることができる。
ある実施形態によれば、回路202は、撮影シーン404の一連の第4の時間間隔420A~420Cを決定するようにさらに構成することができる。一連の第4の時間間隔420A~420Cの各々は、一連の第2の時間間隔416とは異なることができ、撮影シーン404のタイムライン414内の自然な途切れ(又は空白)に対応できる全ての間隔を含むことができる。図4に示すように、一連の第4の時間間隔420A~420Cは、第1の途切れ420A、第2の途切れ420B、及び第3の途切れ420Cを含むことができる。回路202は、撮影シーン404に含まれる各オーディオフレームのオーディオ分析に基づいて、撮影シーン404内の自然な途切れ又は空白(すなわち、一連の第4の時間間隔420A~420Cに対応する途切れ又は空白)を決定するように構成することができる。オーディオ分析では、回路202が、各オーディオフレーム内のオーディオ音量又はピッチをオーディオ閾値(dB単位)と比較することができる。オーディオフレーム内のオーディオ音量又はピッチが(例えば、dB単位の)オーディオ閾値よりも小さい場合には、対応するオーディオフレームを撮影シーン404内の自然な途切れ又は空白として決定することができる。回路202は、撮影シーン404に含まれる第1の途切れ420A、第2の途切れ420B又は第3の途切れ420Cなどの決定された途切れ又は空白を再生するための一連の第4の時間間隔420A~420C又は期間を決定するようにさらに構成することができる。
一例として、図4に示すように、撮影シーン404に関連するタイムライン414には、時点t0~t1に、第1の途切れ420Aに対応できる自然な途切れが存在することができる。時点t1~t2には、第1の人物408が、せりふ又はオーディオ部分116として「おいJack、どこに向かってるんだ?」と発話することができる。さらに、時点t2~t3には、第2の途切れ420Bに対応できる別の自然な途切れが存在することができる。時点t3~t4には、第2の人物410が、例えば「仕事だよ」というせりふで第1の人物408に返答することができる。時点t4~t5には、第3の途切れ420Cに対応できる別の自然な途切れが存在することができる。従って、図4に示すように、一連の第2の時間間隔416は、時点t1からt2に及ぶことができる第1のオーディオ部分416A、及び時点t3からt4に及ぶことができる第2のオーディオ部分416Bを含むことができる。一連の第4の時間間隔420A~420Cは、時点t0からt1に及ぶことができる第1の途切れ420A、時点t2からt3に及ぶことができる第2の途切れ420B、及び時点t4からt5に及ぶことができる第3の途切れ420Cを含むことができる。
回路202は、撮影シーン404の一連の第4の時間間隔420A~420Cから第1の時間間隔422を選択するようにさらに構成することができる。第1の時間間隔422は、時間間隔閾値の期間よりも長い期間を有することができる時間間隔であることができ、ビデオ説明情報406(すなわち、シーン説明)のオーディオ再生のための潜在的空白とみなすことができる。時間間隔閾値は、第1の人物408又は第2の人物410が特定のせりふを発話している間に発生し得る短い途切れ又は空白をフィルタ除去するために利用される(例えば、ミリ秒又は数秒単位の)所定の時間値とすることができる。例えば、時間間隔閾値は、第1の人物408又は第2の人物410が複数のせりふ間に息を吸う/吐くために要する時間を示すことができる。
ある実施形態では、回路202が、一連の第4の時間間隔420A~420Cの各々と時間間隔閾値との比較に基づいて第1の時間間隔422を選択することができる。時間間隔閾値は、ビデオ説明情報406のオーディオ再生が不可能と考えられる間隔の値に対応することができる。換言すれば、時間間隔閾値は、それ未満ではビデオ説明情報406のオーディオ再生がメディアコンテンツのレンダリング対象であるユーザ120に対して十分に詳細なシーン説明を提供できないと考えられるタイミング値に対応することができる。
例えば、第1の途切れ420Aの期間が0.75秒であり、第2の途切れ420Bの期間が1秒であり、第3の途切れ420Cの期間が0.5秒であり、時間間隔閾値が1秒である場合、回路202は、一連の第4の時間間隔420A~420C内の各途切れの期間と時間間隔閾値とを比較し、時間間隔閾値以上の期間を有する第2の途切れ420Bを第1の時間間隔422として選択することができる。いくつかの実施形態では、期間が長くなるとビデオ説明情報406(すなわち、シーン説明)の再生速度が実際の再生速度と同じになり、従ってビデオ説明情報406のオーディオ再生の品質を維持することができるので、回路202は、(第1の途切れ420A、第2の途切れ420B、又は第3の途切れ420Cのうちの)最も長い期間を有する途切れを第1の時間間隔422として選択することができる。
ある実施形態によれば、回路202は、ビデオ説明情報406のオーディオ表現を再生する再生速度を決定するようにさらに構成することができる。再生速度は、ビデオ説明情報406のオーディオ表現の再生速度に対応することができる。いくつかの実施形態では、回路202が乗算係数(multiplication factor)を計算し、計算された乗算係数及びビデオ説明情報406のオーディオ表現の実際の再生速度に基づいて再生速度を決定することができる。乗算係数は、決定された第3の時間間隔418及び選択された第1の時間間隔422に基づいて計算することができる。
ある例では、撮影シーン404内の第1の途切れ420A(時点t0~t1)の期間が2秒であり、第2の途切れ420B(時点t2~t3)の期間が3秒であり、第3の途切れ420C(時点t4~t5)の期間が2秒である。第3の時間間隔418の期間が5秒である場合、このような期間は、一連の第4の時間間隔420A~420C(すなわち、第1の途切れ420A、第2の途切れ420B、及び第3の途切れ420C)の各々又は選択された第1の時間間隔422に対応する時間間隔中にビデオ説明情報406を実際の再生速度で聞き取れるように再生するには不十分と考えられる。回路202は、以下の方程式(1)を使用して乗算係数を決定するように構成することができる。
Figure 2024505988000004
(1)
回路202は、計算された乗算係数及び実際の再生速度に基づいて、以下の方程式(2)を使用することによって、ビデオ説明情報406のオーディオ表現を再生する再生速度を決定するようにさらに構成することができる。
再生速度=乗算係数*実際の再生速度(2)
上述した例を参照すると、回路202は、方程式(1)を使用することにより、乗算係数を1.66(すなわち、5秒である第3の時間間隔418と、3秒である第2の途切れ420Bとして選択された第1の時間間隔422との比率)であると決定するように構成することができる。乗算係数が1.0よりも大きい(すなわち、第3の時間間隔418が第1の時間間隔422よりも大きい)場合、回路202は、ビデオ説明情報406のオーディオ表現の実際の再生速度を乗算係数によって増加させるように構成することができる。例えば、乗算係数が1.66である場合、回路202は、撮影シーン404のビデオ説明情報406のオーディオ表現の実際の再生速度の1.66倍を再生速度として決定することができる。その他の事例では、乗算係数が1.0未満である場合(すなわち、第3の時間間隔418が第1の時間間隔422よりも小さい場合)、回路202は、ビデオ説明情報406のオーディオ表現の実際の再生速度を乗算係数によって減少させるように構成することができる。例えば、乗算係数が0.8である場合、回路202は、撮影シーン404のビデオ説明情報406のオーディオ表現の実際の再生速度の0.8倍を再生速度として決定することができる。いくつかの実施形態では、乗算係数が1.0未満である場合、回路202は実際の再生速度を変更せず、ビデオ説明情報406のオーディオ表現の再生速度は実際の再生速度と同じままであることができる(例えば、乗算係数が0.95である場合には実質的に1.0に近いと考えることができる)。他のいくつかの実施形態では、乗算係数が1.0に等しい場合(すなわち、第3の時間間隔418が第1の時間間隔422に等しい場合)、回路202は、ビデオ説明情報406のオーディオ表現の実際の再生速度を再生速度として決定するように構成することができる。
回路202は、決定された再生速度に基づいて、ビデオ説明情報406のオーディオ表現の再生を第1の時間間隔422において制御するようにさらに構成することができる。第1の時間間隔422(すなわち、途切れのうちの1つ)は、一連の第2の時間間隔416(すなわち、撮影シーン404のオーディオ部分を含む第2の時間間隔)とは異なることができる。いくつかの実施形態では、第1の時間間隔422を、撮影シーン404の第1のせりふ(例えば、第1のオーディオ部分416A)と第2のせりふ(例えば、第2のオーディオ部分416B)との間とすることができる。例えば、図4に示すように、ビデオ説明情報406のオーディオ表現(すなわち、「Jackが車を運転中、GeorgeがJackを見ている」というシーン説明)は、第1の時間間隔422において、決定された再生速度で(例えば、第3の時間間隔418が5秒であり、第1の時間間隔422が3秒である場合には1.66倍で)再生することができる。従って、回路202は、ビデオ説明情報406の一部(例えば、特定の文字、テキスト又は単語)を短縮又は削除することなく、オーディオせりふの空白(すなわち、第1の時間間隔422)間のビデオ説明情報406(すなわち、シーン説明)のオーディオ再生速度を増加させることができる。この速度の増加により、ビデオ説明情報406の第3の時間間隔418よりも短い期間である第1の時間間隔422内にビデオ説明情報406のオーディオ表現を効果的に組み込み又は収めることができる。従って、たとえ決定された空白(すなわち、撮影シーン404内の特定の空白の第1の時間間隔422)が第3の時間間隔418(すなわち、シーン/ビデオ説明を聞き取れるように再生するのに必要な時間)より短い場合でも、ビデオ説明情報406の再生品質が維持される。
いくつかの実施形態では、第1のせりふを撮影シーン404の第1のショットの最後の単語とすることができ、第2のせりふを撮影シーン404の第2のショットの最初の単語とすることができる。第1のショット及び第2のショットは、撮影シーン404の連続するショットとすることができる。他のいくつかの実施形態では、第1の時間間隔422を、撮影シーン404の開始と撮影シーン404の(第1のオーディオ部分416Aなどの)第1のせりふとの間とすることができる。このような場合、第1の時間間隔422は、図4に示すような第1の途切れ420Aに対応することができる。
なお、図4に示す撮影シーン404、及び複数の生物オブジェクト又は無生物オブジェクトは、一例として提示するものにすぎない。本開示は、他のタイプの撮影シーン(例えば、以下に限定するわけではないが、アクションシーン、恋愛シーン、ドラマシーン、ダンスシーン又は音楽シーン)及び複数の生物オブジェクト又は無生物オブジェクトにも適用可能である。他のタイプの撮影シーン404及び複数の生物オブジェクト又は無生物オブジェクト、或いはこれらの例の説明については、簡潔にするために本開示からは省略する。
ある実施形態では、回路202を、一連の撮影シーン114の各々について、対応する撮影シーンのオーディオ部分を再生するための時間間隔をそれぞれが示すことができる一連の第2の時間間隔を決定するように構成することができる。回路202は、一連の撮影シーン114のうちの対応する撮影シーンのビデオ説明情報のオーディオ表現の第3の時間間隔を決定するようにさらに構成することができる。撮影シーン404に関して上述したように、回路202は、各シーンの決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて、ビデオ説明情報406のオーディオ表現を再生する速度を決定するようにさらに構成することができる。回路202は、決定された速度に基づいて、一連の撮影シーン114の各撮影シーンのビデオ説明情報のオーディオ表現の再生を第1の時間間隔(すなわち、一連の第2の時間間隔とは異なる時間間隔)において制御するようにさらに構成することができる。従って、開示するメディアレンダリング装置402は、対応する撮影シーン又は以前の撮影シーン(すなわち、対応する撮影シーンの直前のシーン)の再生中に、メディアコンテンツ内の各撮影シーンを処理し、対応する撮影シーンの第1の時間間隔422を選択し、撮影シーンに関連するビデオ説明情報406の再生速度を決定することができる。さらに、メディアレンダリング装置402は、一連の撮影シーン114内の各撮影シーンの決定された再生速度に基づいて、対応するビデオ説明情報のオーディオ表現(すなわち、シーン説明)の再生を動的に制御することができる。従って、開示するメディアレンダリング装置402は、例えば視覚障害者又は認知障害者などのユーザ120のコンテンツ体験を強化することができる。
ある実施形態では、回路202を、ユーザ120からI/O装置206を介して第1のユーザ入力を受け取るようにさらに構成することができる。第1のユーザ入力はテキストフォーマットであることができ、ビデオ説明情報406、又は一連の撮影シーン114のうちの1つの撮影シーンのシーン説明に対応することができる。回路202は、メディアコンテンツの再生中又はメディアコンテンツの再生開始前に第1のユーザ入力を受け取ることができる。第1のユーザ入力は、一連の撮影シーン114のうちの撮影シーンのうちの1つの撮影シーンのビデオ説明情報406に含めることができるテキスト単語又は表現とすることができる。例えば、図4に示すビデオ説明情報406は、「Jackが車を運転中、GeorgeがJackを見ている」であることができる。受け取られた第1のユーザ入力は、ビデオ説明情報406の一部であることができる単語又は表現(例えば、「GeorgeがJackを見ている」)を含むことができる。
回路202は、一連の撮影シーン114の各々に関連する記憶されたビデオ説明情報406内で、受け取られた第1のユーザ入力を検索するようにさらに構成することができる。いくつかの実施形態では、第1のユーザ入力で受け取られたテキスト説明が、一連の撮影シーン114のうちの1つの撮影シーンのビデオ説明情報406と全く同じものであることができる。他の実施形態では、第1のユーザ入力が、ビデオ説明情報406の一部であることができる。回路202は、検索に基づいて、メディアコンテンツを再生するための再生タイミング情報を決定するようにさらに構成することができる。回路202は、検索に基づいて再生タイミング情報を決定するために、撮影シーン(例えば、撮影シーン404)、及び第1のユーザ入力を含む対応するビデオ説明情報406を決定することができる。このような場合、再生タイミング情報は、決定された撮影シーンの再生タイミングであることができる。他のいくつかの実施形態では、第1のユーザ入力で受け取られたテキスト説明が、一連の撮影シーン114の各々に関連するビデオ説明情報406と全く同じではないことがある。このようなシナリオでは、回路202を、第1のユーザ入力において受け取られたテキスト説明と、一連の撮影シーン114の各々に関連するビデオ説明情報406との間の類似性スコアを決定するように構成することができる。類似性スコアは、テキスト説明と対応する撮影シーンのビデオ説明情報406の部分との一致に基づいて決定することができる。いくつかの実施形態では、類似性スコアを、メディアコンテンツの一連の撮影シーン114の各々に関連する人気度スコアに基づいて計算することができる。回路202は、サーバ108から各撮影シーンの人気スコアを検索することができる。ある実施形態では、サーバ108又はメモリ204から検索されたメディアコンテンツに各撮影シーンの人気スコアを含めることができる。例えば、第1のユーザ入力(すなわち、説明)が「GeorgeがJackを見ている」という単語であり、この単語が、撮影シーン404を含む複数の撮影シーンに関連するビデオ説明情報406内に存在し得るものとする。このような場合、回路202は、複数の撮影シーンの中の各撮影シーンの人気スコアを抽出し、どのシーンが人々の間で人気が高く、ユーザ120が人気の高い撮影シーンのビデオ説明情報406の説明を検索したいと思っている確率が高い(例えば、撮影シーン404)のはどのシーンであるかを識別することができる。回路202は、受け取られた説明(又は第1のユーザ入力)の類似度スコアが高い識別された撮影シーン(例えば、撮影シーン404)の再生タイミング情報を決定するようにさらに構成することができる。回路202は、決定された再生タイミング情報(t0)に基づいて、識別された撮影シーンからのメディアコンテンツの再生を制御するようにさらに構成することができる。従って、開示するメディアレンダリング装置402は、ユーザ120がメディアコンテンツの一連の撮影シーン114の各々の記憶されたビデオ説明情報406(すなわち、シーン説明)内の単語又はテキストを検索し、従って検索に基づいて識別できる識別された撮影シーンの再生タイミングを制御(すなわち、早送り又は巻き戻し)することを可能にすることができる。従って、メディアレンダリング装置402は、メディアコンテンツ内の1又は2以上のシーンに対応する説明をユーザ120が検索できるようにする検索エンジン機能を提供することができる。
ある実施形態では、メディアレンダリング装置402を、一定期間(例えば、最後の1日又は1週間)内に第1のユーザ入力で受け取られた以前の検索説明に基づいて、新たなメディアコンテンツの個人化された推奨を提供するようにさらに構成することができる。一例として、ユーザ120が特定の期間内に「アクション」という単語を検索した頻度が高い場合、回路202は、「アクション」ジャンルに関連し得る他の又は新たなメディアコンテンツの推奨を提供することができる。従って、開示するメディアレンダリング装置402は、ユーザ120が頻繁に検索していると考えられるシーン又はビデオ説明に関連するメディアコンテンツを推奨することができる。
ある実施形態では、メディアレンダリング装置402を、メディアレンダリング装置402に関連する第1の規定の速度設定をメモリ204に記憶するように構成することができる。第1の規定の速度設定は、ビデオ説明情報406(すなわち、シーン説明)のオーディオ表現の最大再生速度を示すことができる。第1の規定の速度設定によって示される最大速度は、メディアコンテンツのレンダリング対象であるユーザ120がビデオ説明情報406のオーディオ表現を正しく理解できる速度とすることができる。例えば、最大速度は、実際の再生速度の2倍とすることができる。いくつかの実施形態では、第1の規定の速度設定が、再生速度を決定できる基になる乗算係数の最大値(例えば、2.0)を示すことができる。
別の実施形態では、メディアレンダリング装置402を、メディアレンダリング装置402に関連する第2の規定の速度設定をメモリ204に記憶するように構成することができる。第2の規定の速度設定は、ビデオ説明情報406(すなわち、シーン説明)のオーディオ表現の最小再生速度を示すことができる。第2の規定の速度設定によって示される最小速度は、メディアコンテンツのレンダリング対象であるユーザ120がビデオ説明情報406のオーディオ表現を正しく理解できる速度とすることができる。例えば、最小速度は、実際の再生速度の0.5倍とすることができる。いくつかの実施形態では、第2の規定の速度設定が、再生速度を決定できる基になる乗算係数の最小値(例えば、0.5)を示すことができる。
ある実施形態によれば、回路202を、ビデオ説明情報406のオーディオ表現の決定された再生速度、及び第1/第2の規定の速度設定に基づいて、撮影シーン404の画像部分又はオーディオ部分の一方の再生を制御するようにさらに構成することができる。撮影シーン404の画像部分又はオーディオ部分(すなわち、せりふ)の一方の再生制御は、自然な途切れ(すなわち、第1の時間間隔422)が、決定された再生速度及び第1又は第2の規定の速度設定に基づいてビデオ説明情報406のオーディオ表現を収めることができるほど十分に長い場合の、撮影シーンの画像部分及び/又はオーディオ部分のレンダリングの時間遅延又は一時停止に対応することができる。
一例として、第1の規定の速度設定(すなわち、最大速度)がビデオ説明情報406のオーディオ表現の実際の再生速度の2倍であり、第3の時間間隔418が7秒であり、第1の時間間隔422の期間が3秒である場合、方程式(1)によれば、決定された再生速度は2.33倍となる。決定された再生速度が最大速度(すなわち、2倍)よりも高いので、回路202は、一連の第4の時間間隔420A~420Cから選択された第1の時間間隔422を廃棄することができる。このような場合、回路202は、ビデオ説明情報406のオーディオ表現をレンダリングするために撮影シーン404の画像部分又はオーディオ部分(すなわち、図4の第2のオーディオ部分416Bなどのせりふ)を一時停止することができる。別の事例では、回路202が、レンダリングされているメディアコンテンツの品質を維持するために、ビデオ説明情報406を(2倍のような)最大速度で聞き取れるようにレンダリングし、撮影シーンの画像部分又はオーディオ部分を(第3の時間間隔418が7秒であり、第1の時間間隔422の期間が3秒である場合の残りの1秒などの)残りの時間にわたって一時停止することができる。
ある実施形態では、回路202を、I/O装置206を介してユーザ120から第2のユーザ入力を受け取るようにさらに構成することができる。第2のユーザ入力は、メディアコンテンツをレンダリングできる対象であるユーザ120のプロファイル情報を示すことができる。プロファイル情報は、ビデオ説明情報406を聞き取れるようにレンダリングするためのユーザ120の過去の速度選好を含むことができる。いくつかの実施形態では、プロファイル情報が、ユーザ120に関連し得る一意の識別番号(例えば、以下に限定するわけではないが、社会保障番号(SSN)、電話番号、又は保険証券番号)を示すことができる。回路202は、受け取られた一意の識別番号に基づいて、サーバ108又はメモリ204からユーザ120の年齢を検索するようにさらに構成することができる。いくつかの実施形態では、回路202を、ユーザ120に関連する一意の識別番号に基づいてユーザ120の健康状態を決定するようにさらに構成することができる。健康状態は、ビデオ説明情報406のオーディオ表現又は撮影シーンのオーディオ部分(すなわち、せりふ)を特定の再生速度で理解するためのユーザ120の聞き取り能力の欠如を示すことができる。回路202は、受け取られた第2のユーザ入力に基づいて、ビデオ説明情報406のオーディオ表現を再生する再生速度を決定するようにさらに構成することができる。
一例として、ユーザ120の年齢が65歳(すなわち、老齢)として決定された場合、回路202は、ビデオ説明情報406のオーディオ表現の実際の再生速度の1.5倍を再生速度として決定することができる。いくつかの実施形態では、回路202が、決定された年齢に基づいて(例えば、1.5倍を最大速度とする)第1の速度設定を定めることができる。別の例として、ユーザ120の健康状態によってユーザ120が過去の所定の期間内(例えば、過去6ヶ月以内)に耳の手術を受けたことが示される場合、回路202は、ビデオ説明情報406のオーディオ表現の実際の再生速度の1.2倍を第1の速度設定として定め、又は再生速度として決定することができる。従って、開示するメディアレンダリング装置402は、ユーザ120の(年齢又は健康状態などの)プロファイル情報に基づいて、視覚障害又は聴覚障害問題の一方又は両方を有する可能性がある異なるユーザにとってオーディオシーン説明の再生品質が維持されるように、シーン/ビデオ説明を再生するための再生速度又は速度設定(例えば、最大又は最小)を制御することができる。
ある実施形態では、メディアレンダリング装置402のメモリ204に(図2に示す)訓練済み機械学習(ML)モデル212を記憶することができる。訓練済みMLモデル212は、撮影シーン404のコンテキスト情報(すなわち、コンテキストを示す情報)に基づいて、ビデオ説明情報406のオーディオ表現を再生するためのオーディオ特性を決定又は出力することができる。コンテキスト情報は、訓練済み機械学習(ML)モデル212への入力であることができる。機械学習(ML)モデル212は、入力(すなわち、コンテキスト情報)と出力(すなわち、オーディオ特性)との間の関係を識別するように訓練することができる。MLモデル212は、例えば重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。MLモデル212のハイパーパラメータは、MLモデル212のコスト関数の大域的最小点に近づくように調整することができ、重みもそのように更新することができる。MLモデル212は、MLモデル212の訓練データセット内の特徴に基づく数エポックの訓練後に一連の入力(すなわち、コンテキスト情報)に対して予測結果(例えば、オーディオ特性)を出力するように訓練することができる。
MLモデル212は、例えばソフトウェアプログラム、ソフトウェアプログラムのコード、ライブラリ、アプリケーション、スクリプト、或いは回路202などの処理装置によって実行されるその他のロジック又は命令などの電子データを含むことができる。MLモデル212は、メディアレンダリング装置402などのコンピュータ装置がコンテキスト情報に基づいてオーディオ特性を決定するための1又は2以上の動作を実行することを可能にするように構成されたコード及びルーチンを含むことができる。これに加えて又はこれに代えて、MLモデル212は、プロセッサ、(例えば、1又は2以上の動作を実行し又は実行を制御する)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、ハードウェアとソフトウェアとの組み合わせを使用してMLモデル212を実装することもできる。
ある実施形態によれば、回路202は、撮影シーン404のコンテキスト情報を決定するように構成することができる。コンテキスト情報の例としては、以下に限定するわけではないが、アクション、格闘、冒険、アニメーション、コメディ、ダンス、ミュージカル、犯罪、叙事詩、エロティカ、ファンタジー、ホラー、ミステリー、哲学、政治、宗教、ロマンス、SF、スリラー、都市、戦争、伝記、又は悲劇を挙げることができる。コンテキスト情報は、撮影シーン404の少なくとも1つの視覚的特性の分析に基づいて決定することができる。撮影シーン404の視覚的特性としては、以下に限定するわけではないが、少なくとも1つのフレーム内で認識される物体(例えば、図4の車412)、少なくとも1つのフレーム内で認識される(図4の第1の人物408又は第2の人物410などの)人物、少なくとも1つのフレーム内の少なくとも1つのオブジェクトの(幸福状態、悲しみ状態、怒り状態、混乱状態、ストレス状態、又は興奮状態などの)感情状態、少なくとも1つのフレームの背景情報、少なくとも1つのフレーム内の周囲照明条件、少なくとも1つのフレーム内の動き情報(すなわち、静止又は移動)、少なくとも1つのフレーム内の少なくとも1つのオブジェクトに関連する(ダンスジェスチャ又はアクションジェスチャなどの)ジェスチャ、又は少なくとも1つのフレームに関連するジャンル情報を挙げることができる。いくつかの実施形態では、回路202を、(撮影シーン404などの)撮影シーンの視覚的特徴及びコンテキスト情報を決定するために、当業で周知の様々な画像処理法、シーンマイニング法、又はシーン理解法を実装するように構成することができる。
回路202は、撮影シーン404の決定されたコンテキストに対する訓練済みMLモデル212の適用に基づいて、ビデオ説明情報406のオーディオ表現を再生するためのオーディオ特性を決定するようにさらに構成することができる。オーディオ特性は、以下に限定するわけではないが、ラウドネスパラメータ、ピッチパラメータ、トーンパラメータ、発話速度パラメータ、声質パラメータ、音声学的パラメータ、イントネーションパラメータ、倍音の強度、音声変調パラメータ、発音パラメータ、韻律パラメータ、音色パラメータ、或いは1又は2以上の音響心理的パラメータを含むことができる。オーディオ特性は、撮影シーン404の決定されたコンテキスト情報に対する訓練済みMLモデル212の適用に基づいて決定することができる。
回路202は、決定された速度及び決定されたオーディオ特性に基づいて、ビデオ説明情報406のオーディオ表現の再生を第1の時間間隔422において制御するようにさらに構成することができる。一例として、撮影シーン404のコンテキスト情報が格闘シーンとして決定された場合、回路202は、メディアコンテンツ及びビデオ説明情報406(すなわち、シーン説明)をレンダリングできる対象であるユーザ120にリアルなユーザ体験を提供するために、ビデオ説明情報406の(音量などの)ラウドネスパラメータ、及び倍音パラメータ(すなわち、オーディオ特性)の強度を高めるように構成することができる。このような場合、回路202は、コンテキスト情報が格闘シーンとして決定されたことに基づいて、決定されたコンテキスト情報に対する訓練済みMLモデル212の適用に基づいて(音量などの)ラウドネスパラメータをオーディオ特性として決定することができる。
別の実施形態では、回路202を、ビデオ説明情報406のオーディオ表現、並びに撮影シーン404又は一連の撮影シーンの各撮影シーンの(第1のオーディオ部分416A及び第2のオーディオ部分416Bなどの)オーディオ部分を聞き取れるように再生するようにオーディオレンダリング装置106を制御するようさらに構成することができる。オーディオレンダリング装置106は、(図2に示すような)メディアレンダリング装置402に関連することができ、又はメディアレンダリング装置402内に統合することができる。
ある実施形態では、撮影シーン404のビデオ説明情報406が、撮影シーン404内に存在する生物オブジェクト及び/又は無生物オブジェクトに関する認知情報を含むことができる。生物オブジェクトは(人間、動物又は鳥などの)生物を含むことができる。無生物オブジェクトは無生物を含むことができる。オブジェクト(生物又は無生物)に関する認知情報は、撮影シーン404のコンテキストに関連することも又はしないこともあるオブジェクトの徹底的な詳細を提供することができる。認知情報は、撮影シーン404内に存在するオブジェクトに関する一般的知識又は情報をユーザ120に提供することができる。いくつかの実施形態では、認知情報が、撮影シーン内に存在するオブジェクトに関連する画像又はアイコンに対応することができ、或いはオブジェクトに関連するオーディオトーンに対応することができる。ある実施形態では、回路202を、ディスプレイ装置104又はオーディオレンダリング装置106のいずれかによる認知情報の再生を制御するようにさらに構成することができる。
図5は、本開示の実施形態による、シーン説明の再生制御のための例示的な動作を示す第1のフローチャートである。図5の説明は、図1、図2、図3A、図3B及び図4の要素に関連して行う。図5にはフローチャート500を示す。502~508の動作は、例えばメディアレンダリング装置102又は回路202などのいずれかのコンピュータ装置上で実施することができる。動作は502から開始して504に進むことができる。
504において、メディアコンテンツを検索することができる。メディアコンテンツは、一連の撮影シーン114及びテキスト情報118を含むことができる。テキスト情報118は、ビデオ説明情報118A及びタイミング情報118Bを含むことができる。ビデオ説明情報118Aは、一連の撮影シーン114の撮影シーンを説明することができる。1又は2以上の実施形態では、回路202を、一連の撮影シーン114及びテキスト情報118を含むことができるメディアコンテンツ112を検索するように構成することができる。テキスト情報118は、ビデオ説明情報118A及びタイミング情報118Bをさらに含むことができる。ビデオ説明情報118Aは、一連の撮影シーン114の撮影シーンを説明することができる。
506において、撮影シーンのテキスト情報118から、ビデオ説明情報118Aを再生するためのタイミング情報118Bを抽出することができる。1又は2以上の実施形態では、回路202を、撮影シーンのテキスト情報118からタイミング情報118B(すなわち、ビデオ説明情報118Aを再生するためのタイミング情報)を抽出するように構成することができる。
508において、ビデオ説明情報118A(テキスト表現、オーディオ表現、又はテキスト表現及びオーディオ表現の両方)の再生を制御することができる。ビデオ説明情報118Aは、撮影シーンの抽出されたタイミング情報118Bによって示される第1の時間間隔において再生することができる。1又は2以上の実施形態では、回路202を、撮影シーンの抽出されたタイミング情報によって示される第1の時間間隔においてビデオ説明情報118Aの再生(テキスト表現、オーディオ表現、又はテキスト表現及びオーディオ表現の両方)を制御するように構成することができる。制御は終了に進むことができる。
図6は、本開示の実施形態による、シーン説明の再生制御のための例示的な動作を示す第2のフローチャートである。図6の説明は、図1、図2、図3A、図3B、図4及び図5の要素に関連して行う。図6にはフローチャート600を示す。602~610の動作は、例えばメディアレンダリング装置102又は回路202などのいずれかのコンピュータ装置上で実施することができる。動作は602から開始して604に進むことができる。
604において、第1の撮影シーン114Aの一連の第2の時間間隔を決定することができる。一連の第2の時間間隔の各々は、一連の撮影シーン114における撮影シーンのオーディオ部分116を再生するための時間間隔を示すことができる。1又は2以上の実施形態では、回路202を、一連の撮影シーンにおける撮影シーンのオーディオ部分116を再生するための時間間隔をそれぞれが示すことができる、撮影シーンの一連の第2の時間間隔を決定するように構成することができる。一連の第2の時間間隔の決定の詳細については、例えば図4で説明している。
606において、撮影シーンのビデオ説明情報118Aのオーディオ表現の第3の時間間隔を決定することができる。1又は2以上の実施形態では、回路202を、撮影シーンのビデオ説明情報118Aのオーディオ表現の第3の時間間隔を決定するように構成することができる。第3の時間間隔の決定の詳細については、例えば図4で説明している。
608において、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて、ビデオ説明情報118Aのオーディオ表現を再生する速度を決定することができる。1又は2以上の実施形態では、回路202を、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて、ビデオ説明情報118A(すなわち、シーン説明)のオーディオ表現を再生する速度を決定するように構成することができる。ビデオ説明情報の再生速度の決定に関する詳細については、例えば図4で説明している。
610において、決定された速度に基づいてビデオ説明情報118Aのオーディオ表現の再生を制御することができる。ビデオ説明情報118Aのオーディオ表現は、一連の第2の時間間隔とは異なることができる第1の時間間隔において再生することができる。1又は2以上の実施形態では、回路202を、決定された速度に基づいてビデオ説明情報118Aのオーディオ表現の再生を第1の時間間隔において制御するように構成することができる。ビデオ説明情報118Aのオーディオ表現の再生を制御する詳細については、例えば図4で説明している。制御は終了に進むことができる。
本開示の様々な実施形態は、メディアレンダリング装置402などの機械及び/又はコンピュータが実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、一連の撮影シーンを含むことができるメディアコンテンツの検索を含むことができる動作を機械及び/又はコンピュータに実行させることができる。メディアコンテンツは、ビデオ説明情報及びタイミング情報を含むテキスト情報を含むことができる。ビデオ説明情報は、一連の撮影シーン内の撮影シーンを説明することができる。動作は、撮影シーンのテキスト情報から、ビデオ説明情報を再生するためのタイミング情報を抽出することをさらに含むことができる。動作は、ビデオ説明情報の再生を、抽出された撮影シーンのタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト表現及びオーディオ表現のいずれかで制御することをさらに含むことができる。
他のいくつかの実施形態では、動作が、撮影シーンの一連の第2の時間間隔を決定することを含むことができる。一連の第2の時間間隔の各々は、一連の撮影シーンにおける撮影シーンのオーディオ部分を再生するための時間間隔を示すことができる。動作は、撮影シーンのビデオ説明情報のオーディオ表現の第3の時間間隔を決定することをさらに含むことができる。動作は、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいてビデオ説明情報のオーディオ表現を再生する速度を決定することをさらに含むことができる。動作は、決定された速度に基づいてビデオ説明情報のオーディオ表現の再生を第1の時間間隔において制御することをさらに含むことができる。第1の時間間隔は、一連の第2の時間間隔とは異なることができる。
本開示の例示的な態様は、(回路202などの)回路を含むことができる(図1のメディアレンダリング装置102などの)メディアレンダリング装置を含むことができる。回路は、(一連の撮影シーン114などの)一連の撮影シーン、(オーディオ部分116などの)オーディオ部分及び(テキスト情報118などの)テキスト情報を含むことができるメディアコンテンツを検索するように構成することができる。テキスト情報は、(ビデオ説明情報118Aなどの)テキストベースのビデオ説明情報及び(タイミング情報118Bなどの)タイミング情報を含むことができる。ビデオ説明情報118Aは、一連の撮影シーンにおける(撮影シーン304などの)撮影シーンを説明することができる。メディアコンテンツは、一連の撮影シーンの各々のオーディオ部分を表すことができるクローズドキャプション情報をさらに含むことができる。一連の撮影シーンの各々を説明するビデオ説明情報は、クローズドキャプション情報と共にメディアコンテンツ内に符号化することができる。ある実施形態では、回路を、撮影シーンのテキスト情報をビデオ説明情報のオーディオ表現に変換するようにさらに構成することができる。
ある実施形態では、回路を、撮影シーンのテキスト情報から、ビデオ説明情報を再生するためのタイミング情報を抽出するようにさらに構成することができる。回路は、ビデオ説明情報の再生を、抽出された撮影シーンのタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト表現及びオーディオ表現のいずれかで制御するようにさらに構成することができる。
別の実施形態では、回路を、撮影シーンのテキスト情報から、ビデオ説明情報を再生するための速度情報を抽出するようにさらに構成することができる。テキスト情報は、速度情報をさらに含むことができる。回路は、抽出された速度情報に基づいて、抽出された撮影シーンのタイミング情報によって示される第1の時間間隔においてビデオ説明情報のオーディオ表現の再生を制御するようにさらに構成することができる。
いくつかの実施形態では、回路を、撮影シーンの(一連の第2の時間間隔416などの)一連の第2の時間間隔を決定するように構成することができる。一連の第2の時間間隔の各々は、一連の撮影シーンにおける撮影シーンのオーディオ部分を再生するための時間間隔を示すことができる。回路は、撮影シーンのビデオ説明情報のオーディオ表現の(第3の時間間隔418などの)第3の時間間隔を決定するようにさらに構成することができる。回路は、ビデオ説明情報のオーディオ表現を再生する速度を決定するようにさらに構成することができる。ビデオ説明情報のオーディオ表現を再生する速度は、決定された一連の第2の時間間隔及び決定された第3の時間間隔に基づいて決定することができる。ある実施形態では、決定される速度が、変換されたオーディオ表現の実際の再生速度よりも低いことができる。別の実施形態では、決定される速度が、変換されたオーディオ表現の実際の再生速度よりも高いことができる。
いくつかの実施形態では、回路を、ビデオ説明情報のオーディオ表現の再生を(第1の時間間隔422などの)第1の時間間隔において制御するように構成することができる。ビデオ説明情報のオーディオ表現の再生は、決定された速度に基づいて制御することができる。ある実施形態では、回路を、撮影シーンの(一連の第4の時間間隔420A~420Cなどの)一連の第4の時間間隔を決定するように構成することができる。一連の第4の時間間隔の各々は、一連の第2の時間間隔とは異なることができる。回路は、一連の第4の時間間隔から、時間間隔閾値よりも高いことができる第1の時間間隔を選択するように構成することができる。第1の時間間隔は、一連の第2の時間間隔とは異なることができる。ある実施形態では、第1の時間間隔が、撮影シーンの第1のせりふと第2のせりふとの間であることができる。第1のせりふは、撮影シーンの第1のショットの最後の単語であることができ、第2のせりふは、撮影シーンの第2のショットの最初の単語であることができる。第1のショット及び第2のショットは、撮影シーンの連続するショットであることができる。別の実施形態では、第1の時間間隔が、撮影シーンの開始と撮影シーンの第1のせりふとの間であることができる。
いくつかの実施形態では、回路を、メディアレンダリング装置に関連する規定の速度設定に基づいて、ビデオ説明情報のオーディオ表現を再生する速度を決定するように構成することができる。規定の速度設定は、ビデオ説明情報のオーディオ表現の最大再生速度を示すことができる。回路は、テキスト情報と共に速度情報を受け取り、決定された速度及び規定の速度設定に基づいて撮影シーンの画像部分又はオーディオ部分の一方の再生を制御するようにさらに構成することができる。いくつかの実施形態では、撮影シーンを説明するビデオ説明情報が、撮影シーン内に存在する生物オブジェクト又は無生物オブジェクトに関する認知情報を含むことができる。回路は、撮影シーンのビデオ説明情報に含まれる認知情報の再生を制御するように構成することができる。
ある実施形態では、回路を、一連の撮影シーンのうちの1つの撮影シーンの説明に対応できる第1のユーザ入力を受け取るように構成することができる。回路は、受け取られた第1のユーザ入力を、一連の撮影シーンの各々に関連するビデオ説明情報内で検索するようにさらに構成することができる。回路は、検索に基づいて、メディアコンテンツを再生するための再生タイミング情報を決定するようにさらに構成することができる。回路は、決定された再生タイミング情報に基づいてメディアコンテンツの再生を制御するようにさらに構成することができる。
別の実施形態では、回路を、メディアコンテンツをレンダリングできる対象であるユーザのプロファイル情報を示すことができる第2のユーザ入力を受け取るように構成することができる。回路は、受け取られた第2のユーザ入力に基づいて、ビデオ説明情報のオーディオ表現を再生する速度設定を決定するように構成することができる。
いくつかの実施形態では、メディアレンダリング装置に関連する(メモリ204などの)メモリを、(訓練済み機械学習(ML)モデル212などの)訓練済みMLモデルを記憶するように構成することができる。回路は、撮影シーンの少なくとも1つの特性の分析に基づいて撮影シーンのコンテキスト情報を決定するように構成することができる。回路は、撮影シーンの決定されたコンテキスト情報に対する訓練済みMLモデルの適用に基づいて、ビデオ説明情報のオーディオ表現を再生するためのオーディオ特性を決定するようにさらに構成することができる。回路は、決定された速度及び決定されたオーディオ特性に基づいて、ビデオ説明情報のオーディオ表現の再生を第1の時間間隔において制御するようにさらに構成することができる。
ある実施形態では、メディアレンダリング装置が、ビデオ説明情報のテキスト表現を再生する(又は表示する)ように構成されたディスプレイ装置を含むことができる。別の実施形態では、ビデオ説明情報のオーディオ表現の再生に加えてテキスト表現を表示することができる。
別の実施形態では、回路を、オーディオレンダリング装置を制御するようにさらに構成することができる。オーディオレンダリング装置は、メディアレンダリング装置に関連することができる。オーディオレンダリング装置は、ビデオ説明情報のオーディオ表現及び撮影シーンのオーディオ部分を再生するように制御することができる。
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
100 ネットワーク環境
102 メディアレンダリング装置
104 ディスプレイ装置
106 オーディオレンダリング装置
108 サーバ
110 通信ネットワーク
112 メディアコンテンツ
114 一連の撮影シーン
114A 第1の撮影シーン
114B 第2の撮影シーン
114N 第Nの撮影シーン
116 オーディオ部分
118 テキスト情報
118A ビデオ説明情報
118B タイミング情報
118C 速度情報
120 ユーザ

Claims (20)

  1. メディアレンダリング装置であって、
    一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを検索し、
    前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出し、
    前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御する、
    ように構成された回路を備える、
    ことを特徴とするメディアレンダリング装置。
  2. 前記テキスト情報は速度情報をさらに含み、前記回路は、
    前記ビデオ説明情報を再生するために、前記撮影シーンの前記テキスト情報から前記速度情報を抽出し、
    前記抽出された速度情報に基づいて、前記撮影シーンの前記抽出されたタイミング情報によって示される前記第1の時間間隔において前記ビデオ説明情報のオーディオ表現の再生を制御する、
    ようにさらに構成される、請求項1に記載のメディアレンダリング装置。
  3. 前記回路は、
    前記一連の撮影シーンにおける前記撮影シーンのオーディオ部分を再生するための時間間隔をそれぞれが示す、前記撮影シーンの一連の第2の時間間隔を決定し、
    前記撮影シーンの前記ビデオ説明情報のオーディオ表現の第3の時間間隔を決定し、
    前記決定された一連の第2の時間間隔及び前記決定された第3の時間間隔に基づいて、前記ビデオ説明情報の前記オーディオ表現を再生する速度を決定し、
    前記決定された速度に基づいて、前記一連の第2の時間間隔とは異なる前記第1の時間間隔において前記ビデオ説明情報の前記オーディオ表現の再生を制御する。
  4. 前記回路は、
    それぞれが前記一連の第2の時間間隔とは異なる、前記撮影シーンの一連の第4の時間間隔を決定し、
    前記一連の第4の時間間隔から、時間間隔閾値よりも高い前記第1の時間間隔を選択する、
    ようにさらに構成される、請求項3に記載のメディアレンダリング装置。
  5. 前記決定される速度は、前記オーディオ表現の実際の再生速度よりも低い、
    請求項3に記載のメディアレンダリング装置。
  6. 前記決定される速度は、前記オーディオ表現の実際の再生速度よりも高い、
    請求項3に記載のメディアレンダリング装置。
  7. 前記回路は、前記メディアレンダリング装置に関連する規定の速度設定に基づいて、前記ビデオ説明情報の前記オーディオ表現を再生する前記速度を決定するようにさらに構成され、
    前記規定の速度設定は、前記ビデオ説明情報の前記オーディオ表現の最大再生速度を示す、
    請求項3に記載のメディアレンダリング装置。
  8. 前記回路は、前記テキスト情報と共に速度情報を受け取り、前記決定された速度及び前記規定の速度設定に基づいて、前記撮影シーンの画像部分又はオーディオ部分の一方の再生を制御するようにさらに構成される、
    請求項7に記載のメディアレンダリング装置。
  9. 前記回路は、
    前記メディアコンテンツがレンダリングされている対象であるユーザのプロファイル情報を示す第2のユーザ入力を受け取り、
    前記受け取った第2のユーザ入力に基づいて、前記ビデオ説明情報の前記オーディオ表現を再生するための速度設定を決定する、
    ようにさらに構成される、請求項7に記載のメディアレンダリング装置。
  10. 前記回路は、
    前記一連の撮影シーンのうちの1つの撮影シーンの説明に対応する第1のユーザ入力を受け取り、
    前記受け取った第1のユーザ入力を、前記一連の撮影シーンの各々に関連する前記ビデオ説明情報内で検索し、
    前記検索に基づいて、前記メディアコンテンツを再生するための再生タイミング情報を決定し、
    前記決定された再生タイミング情報に基づいて前記メディアコンテンツの前記再生を制御する、
    ようにさらに構成される、請求項1に記載のメディアレンダリング装置。
  11. 前記第1の時間間隔は、前記撮影シーンの第1のせりふと第2のせりふとの間である、
    請求項1に記載のメディアレンダリング装置。
  12. 前記第1のせりふは、前記撮影シーンの第1のショットの最後の単語であり、前記第2のせりふは、前記撮影シーンの第2のショットの最初の単語であり、
    前記第1のショット及び前記第2のショットは、前記撮影シーンの連続するショットである、
    請求項11に記載のメディアレンダリング装置。
  13. 訓練済み機械学習(ML)モデルを記憶するように構成されたメモリをさらに備え、前記テキスト情報は速度情報をさらに含み、前記回路は、
    前記撮影シーンの少なくとも1つの特性の分析に基づいて前記撮影シーンのコンテキスト情報を決定し、
    前記撮影シーンの前記決定されたコンテキスト情報に対する前記訓練済みMLモデルの適用に基づいて、前記ビデオ説明情報のオーディオ表現を再生するためのオーディオ特性を決定し、
    前記速度情報及び前記決定されたオーディオ特性に基づいて、前記撮影シーンの前記抽出されたタイミング情報によって示される前記第1の時間間隔において前記ビデオ説明情報の前記オーディオ表現を再生するように制御する、
    ようにさらに構成される、請求項1に記載のメディアレンダリング装置。
  14. 前記撮影シーンを説明する前記ビデオ説明情報は、前記撮影シーン内に存在する生物オブジェクト又は無生物オブジェクトに関する認知情報を含み、
    前記回路は、前記撮影シーンの前記ビデオ説明情報に含まれる前記認知情報の再生を制御するようにさらに構成される、
    請求項1に記載のメディアレンダリング装置。
  15. 前記メディアレンダリング装置は、前記ビデオ説明情報のテキスト表現を再生するように構成されたディスプレイ装置をさらに備える、
    請求項1に記載のメディアレンダリング装置。
  16. 前記メディアコンテンツは、前記一連の撮影シーンの各々のオーディオ部分を表すクローズドキャプション情報をさらに含み、
    前記一連の撮影シーンの各々を説明する前記ビデオ説明情報は、前記クローズドキャプション情報と共に前記メディアコンテンツ内に符号化される、
    請求項1に記載のメディアレンダリング装置。
  17. 前記回路は、前記メディアレンダリング装置に関連するオーディオレンダリング装置を、前記ビデオ説明情報のオーディオ表現及び前記撮影シーンのオーディオ部分を再生するように制御するようさらに構成される、
    請求項1に記載のメディアレンダリング装置。
  18. メディアレンダリング装置において、
    一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを検索することと、
    前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出することと、
    前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御することと、
    を含むことを特徴とする方法。
  19. 前記テキスト情報は速度情報をさらに含み、前記方法は、
    前記ビデオ説明情報を再生するために、前記撮影シーンの前記テキスト情報から前記速度情報を抽出することと、
    前記抽出された速度情報に基づいて、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔において前記ビデオ説明情報のオーディオ表現の再生を制御することと、
    をさらに含む、請求項18に記載の方法。
  20. コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、メディアレンダリング装置によって実行された時に、前記メディアレンダリング装置に、
    一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを検索することと、
    前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出することと、
    前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御することと、
    を含む動作を実行させる、ことを特徴とする非一時的コンピュータ可読媒体。
JP2023547248A 2021-02-08 2022-02-08 シーン説明の再生制御 Pending JP2024505988A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/170,695 US11729476B2 (en) 2021-02-08 2021-02-08 Reproduction control of scene description
US17/170,695 2021-02-08
PCT/US2022/070572 WO2022170368A1 (en) 2021-02-08 2022-02-08 Reproduction control of scene description

Publications (1)

Publication Number Publication Date
JP2024505988A true JP2024505988A (ja) 2024-02-08

Family

ID=80682728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023547248A Pending JP2024505988A (ja) 2021-02-08 2022-02-08 シーン説明の再生制御

Country Status (6)

Country Link
US (1) US11729476B2 (ja)
EP (1) EP4268472A1 (ja)
JP (1) JP2024505988A (ja)
KR (1) KR20230087577A (ja)
CN (1) CN115804099A (ja)
WO (1) WO2022170368A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021061450A1 (en) * 2019-09-27 2021-04-01 Qsinx Management Llc Scene-to-text conversion
US11763099B1 (en) * 2022-04-27 2023-09-19 VoyagerX, Inc. Providing translated subtitle for video content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5022025B2 (ja) * 2006-12-27 2012-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
US8497939B2 (en) * 2008-12-08 2013-07-30 Home Box Office, Inc. Method and process for text-based assistive program descriptions for television
US20130124984A1 (en) * 2010-04-12 2013-05-16 David A. Kuspa Method and Apparatus for Providing Script Data
WO2014018652A2 (en) * 2012-07-24 2014-01-30 Adam Polak Media synchronization
US11190855B2 (en) 2017-08-30 2021-11-30 Arris Enterprises Llc Automatic generation of descriptive video service tracks
US11582527B2 (en) * 2018-02-26 2023-02-14 Google Llc Automated voice translation dubbing for prerecorded video
US10726062B2 (en) * 2018-11-30 2020-07-28 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
US11211074B2 (en) * 2019-06-06 2021-12-28 Sony Corporation Presentation of audio and visual content at live events based on user accessibility
US11341186B2 (en) * 2019-06-19 2022-05-24 International Business Machines Corporation Cognitive video and audio search aggregation
US10999566B1 (en) * 2019-09-06 2021-05-04 Amazon Technologies, Inc. Automated generation and presentation of textual descriptions of video content
US11430485B2 (en) * 2019-11-19 2022-08-30 Netflix, Inc. Systems and methods for mixing synthetic voice with original audio tracks

Also Published As

Publication number Publication date
KR20230087577A (ko) 2023-06-16
US20220256156A1 (en) 2022-08-11
WO2022170368A1 (en) 2022-08-11
EP4268472A1 (en) 2023-11-01
US11729476B2 (en) 2023-08-15
CN115804099A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
JP6541934B2 (ja) 音声対話機能を備えた携帯端末機及びその音声対話方法
KR101492359B1 (ko) 입력 지원 장치, 입력 지원 방법 및 기록 매체
US11373446B1 (en) Interactive media facial emotion-based content selection system
JP2022523606A (ja) 動画解析のためのゲーティングモデル
US10645464B2 (en) Eyes free entertainment
US11758228B2 (en) Methods, systems, and media for modifying the presentation of video content on a user device based on a consumption of the user device
JP2024505988A (ja) シーン説明の再生制御
US11647261B2 (en) Electrical devices control based on media-content context
US20170169857A1 (en) Method and Electronic Device for Video Play
US11211074B2 (en) Presentation of audio and visual content at live events based on user accessibility
AU2013222959B2 (en) Method and apparatus for processing information of image including a face
US20230063988A1 (en) External audio enhancement via situational detection models for wearable audio devices
US11675419B2 (en) User-driven adaptation of immersive experiences
CN114417052A (zh) 界面展示方法、智能终端及存储介质
JP2023505986A (ja) ユーザ入力に基づく複数出力制御
WO2020144196A1 (en) Determining a light effect based on a light effect parameter specified by a user for other content taking place at a similar location
US20230362451A1 (en) Generation of closed captions based on various visual and non-visual elements in content
US11848655B1 (en) Multi-channel volume level equalization based on user preferences
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020069979A1 (en) Determining one or more light effects by looking ahead in a book
KR20210015410A (ko) 디스플레이 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230803