JP7621607B2 - シーン説明の再生制御 - Google Patents
シーン説明の再生制御 Download PDFInfo
- Publication number
- JP7621607B2 JP7621607B2 JP2023547248A JP2023547248A JP7621607B2 JP 7621607 B2 JP7621607 B2 JP 7621607B2 JP 2023547248 A JP2023547248 A JP 2023547248A JP 2023547248 A JP2023547248 A JP 2023547248A JP 7621607 B2 JP7621607 B2 JP 7621607B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- scene
- video description
- audio
- description information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
- H04N19/126—Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43074—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4355—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/443—OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4882—Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/637—Control signals issued by the client directed to the server or network components
- H04N21/6377—Control signals issued by the client directed to the server or network components directed to server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Description
なし
表2:テキスト情報
(1)
再生速度=乗算係数*実際の再生速度(2)
102 メディアレンダリング装置
104 ディスプレイ装置
106 オーディオレンダリング装置
108 サーバ
110 通信ネットワーク
112 メディアコンテンツ
114 一連の撮影シーン
114A 第1の撮影シーン
114B 第2の撮影シーン
114N 第Nの撮影シーン
116 オーディオ部分
118 テキスト情報
118A ビデオ説明情報
118B タイミング情報
118C 速度情報
120 ユーザ
Claims (17)
- メディアレンダリング装置であって、
一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを取得し、
前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出し、
前記撮影シーンの連続する音声部分間の自然な休止に対応する第1の時間間隔を前記タイミング情報から抽出し、
前記一連の撮影シーンにおける前記撮影シーンのオーディオ部分を再生するための時間間隔をそれぞれが示す、前記撮影シーンの一連の第2の時間間隔を決定し、
前記撮影シーンの前記ビデオ説明情報のオーディオ表現の第3の時間間隔を決定し、
前記決定された第3の時間間隔と前記第1の時間間隔の比率に基づいて乗数を決定し、
前記乗数と前記ビデオ説明情報の実際の再生速度とに基づいて、前記ビデオ説明情報のオーディオ表現を再生する速度を決定し、
前記決定された速度に基づいて、前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御する、
ように構成された回路を備える、
ことを特徴とするメディアレンダリング装置。 - 前記回路は、
それぞれが前記一連の第2の時間間隔とは異なる、前記撮影シーンの一連の第4の時間間隔を決定し、
前記一連の第4の時間間隔から、時間間隔閾値よりも高い前記第1の時間間隔を選択する、
ようにさらに構成される、請求項1に記載のメディアレンダリング装置。 - 前記決定される速度は、前記オーディオ表現の実際の再生速度よりも低い、
請求項1に記載のメディアレンダリング装置。 - 前記決定される速度は、前記オーディオ表現の実際の再生速度よりも高い、
請求項1に記載のメディアレンダリング装置。 - 前記回路は、前記メディアレンダリング装置に関連する規定の速度設定に基づいて、前記ビデオ説明情報の前記オーディオ表現を再生する前記速度を決定するようにさらに構成され、
前記規定の速度設定は、前記ビデオ説明情報の前記オーディオ表現の最大再生速度を示す、
請求項1に記載のメディアレンダリング装置。 - 前記回路は、前記テキスト情報と共に速度情報を受け取り、前記決定された速度及び前記規定の速度設定に基づいて、前記撮影シーンの画像部分又はオーディオ部分の一方の再生を制御するようにさらに構成される、
請求項5に記載のメディアレンダリング装置。 - 前記回路は、
前記メディアコンテンツがレンダリングされている対象であるユーザのプロファイル情報を示す第2のユーザ入力を受け取り、
前記受け取った第2のユーザ入力に基づいて、前記ビデオ説明情報の前記オーディオ表現を再生するための速度設定を決定する、
ようにさらに構成される、請求項5に記載のメディアレンダリング装置。 - 前記回路は、
前記一連の撮影シーンのうちの1つの撮影シーンの説明に対応する第1のユーザ入力を受け取り、
前記受け取った第1のユーザ入力を、前記一連の撮影シーンの各々に関連する前記ビデオ説明情報内で検索し、
前記検索に基づいて、前記メディアコンテンツを再生するための再生タイミング情報を決定し、
前記決定された再生タイミング情報に基づいて前記メディアコンテンツの前記再生を制御する、
ようにさらに構成される、請求項1に記載のメディアレンダリング装置。 - 前記第1の時間間隔は、前記撮影シーンの第1のせりふと第2のせりふとの間である、
請求項1に記載のメディアレンダリング装置。 - 前記第1のせりふは、前記撮影シーンの第1のショットの最後の単語であり、前記第2のせりふは、前記撮影シーンの第2のショットの最初の単語であり、
前記第1のショット及び前記第2のショットは、前記撮影シーンの連続するショットである、
請求項9に記載のメディアレンダリング装置。 - 訓練済み機械学習(ML)モデルを記憶するように構成されたメモリをさらに備え、前記テキスト情報は速度情報をさらに含み、前記回路は、
前記撮影シーンの少なくとも1つの特性の分析に基づいて前記撮影シーンのコンテキスト情報を決定し、
前記撮影シーンの前記決定されたコンテキスト情報に対する前記訓練済みMLモデルの適用に基づいて、前記ビデオ説明情報のオーディオ表現を再生するためのオーディオ特性を決定し、
前記速度情報及び前記決定されたオーディオ特性に基づいて、前記撮影シーンの前記抽出されたタイミング情報によって示される前記第1の時間間隔において前記ビデオ説明情報の前記オーディオ表現を再生するように制御する、
ようにさらに構成される、請求項1に記載のメディアレンダリング装置。 - 前記撮影シーンを説明する前記ビデオ説明情報は、前記撮影シーン内に存在する生物オブジェクト又は無生物オブジェクトに関する認知情報を含み、
前記回路は、前記撮影シーンの前記ビデオ説明情報に含まれる前記認知情報の再生を制御するようにさらに構成される、
請求項1に記載のメディアレンダリング装置。 - 前記メディアレンダリング装置は、前記ビデオ説明情報のテキスト表現を再生するように構成されたディスプレイ装置をさらに備える、
請求項1に記載のメディアレンダリング装置。 - 前記メディアコンテンツは、前記一連の撮影シーンの各々のオーディオ部分を表すクローズドキャプション情報をさらに含み、
前記一連の撮影シーンの各々を説明する前記ビデオ説明情報は、前記クローズドキャプション情報と共に前記メディアコンテンツ内に符号化される、
請求項1に記載のメディアレンダリング装置。 - 前記回路は、前記メディアレンダリング装置に関連するオーディオレンダリング装置を、前記ビデオ説明情報のオーディオ表現及び前記撮影シーンのオーディオ部分を再生するように制御するようさらに構成される、
請求項1に記載のメディアレンダリング装置。 - メディアレンダリング装置において、
一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを取得することと、
前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出することと、
前記撮影シーンの連続する音声部分間の自然な休止に対応する第1の時間間隔を前記タイミング情報から抽出することと、
前記一連の撮影シーンにおける前記撮影シーンのオーディオ部分を再生するための時間間隔をそれぞれが示す、前記撮影シーンの一連の第2の時間間隔を決定することと、
前記撮影シーンの前記ビデオ説明情報のオーディオ表現の第3の時間間隔を決定することと、
前記決定された第3の時間間隔と前記第1の時間間隔の比率に基づいて乗数を決定することと、
前記乗数と前記ビデオ説明情報の実際の再生速度とに基づいて、前記ビデオ説明情報のオーディオ表現を再生する速度を決定することと、
前記決定された速度に基づいて、前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御することと、
を含むことを特徴とする方法。 - コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、メディアレンダリング装置によって実行された時に、前記メディアレンダリング装置に、
一連の撮影シーンと、前記一連の撮影シーンにおける撮影シーンを説明するテキストベースのビデオ説明情報及びタイミング情報を含むテキスト情報とを含むメディアコンテンツを取得することと、
前記撮影シーンの前記テキスト情報から、前記ビデオ説明情報を再生するためのタイミング情報を抽出することと、
前記撮影シーンの連続する音声部分間の自然な休止に対応する第1の時間間隔を前記タイミング情報から抽出することと、
前記一連の撮影シーンにおける前記撮影シーンのオーディオ部分を再生するための時間間隔をそれぞれが示す、前記撮影シーンの一連の第2の時間間隔を決定することと、
前記撮影シーンの前記ビデオ説明情報のオーディオ表現の第3の時間間隔を決定することと、
前記決定された第3の時間間隔と前記第1の時間間隔の比率に基づいて乗数を決定することと、
前記乗数と前記ビデオ説明情報の実際の再生速度とに基づいて、前記ビデオ説明情報のオーディオ表現を再生する速度を決定することと、
前記決定された速度に基づいて、前記ビデオ説明情報の再生を、前記撮影シーンの前記抽出されたタイミング情報によって示される第1の時間間隔においてテキスト表現又はテキスト及びオーディオ表現で制御することと、
を含む動作を実行させる、ことを特徴とする非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/170,695 US11729476B2 (en) | 2021-02-08 | 2021-02-08 | Reproduction control of scene description |
| US17/170,695 | 2021-02-08 | ||
| PCT/US2022/070572 WO2022170368A1 (en) | 2021-02-08 | 2022-02-08 | Reproduction control of scene description |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024505988A JP2024505988A (ja) | 2024-02-08 |
| JP7621607B2 true JP7621607B2 (ja) | 2025-01-27 |
Family
ID=80682728
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023547248A Active JP7621607B2 (ja) | 2021-02-08 | 2022-02-08 | シーン説明の再生制御 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US11729476B2 (ja) |
| EP (1) | EP4268472A1 (ja) |
| JP (1) | JP7621607B2 (ja) |
| KR (1) | KR102797767B1 (ja) |
| CN (1) | CN115804099A (ja) |
| WO (1) | WO2022170368A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021061450A1 (en) * | 2019-09-27 | 2021-04-01 | Qsinx Management Llc | Scene-to-text conversion |
| US11763099B1 (en) * | 2022-04-27 | 2023-09-19 | VoyagerX, Inc. | Providing translated subtitle for video content |
| CN119729150A (zh) * | 2023-09-28 | 2025-03-28 | 北京字跳网络技术有限公司 | 一种视频生成方法、装置、设备及介质 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000250575A (ja) | 1999-03-01 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 双方向性テレビ受像機を自動的に選局するための音声理解装置およびその方法 |
| JP2003143575A (ja) | 2001-11-02 | 2003-05-16 | Toshiba Corp | マルチメディア再生方法及び装置 |
| JP2003259320A (ja) | 2002-03-05 | 2003-09-12 | Matsushita Electric Ind Co Ltd | 映像音声合成装置 |
| JP2004062769A (ja) | 2002-07-31 | 2004-02-26 | Sharp Corp | コンテンツ出力装置 |
| JP2017531936A (ja) | 2014-08-16 | 2017-10-26 | ソニー株式会社 | 認知機能障害者のためのシーン毎の筋書き背景 |
| WO2018211748A1 (ja) | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
| WO2020112808A1 (en) | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5022025B2 (ja) * | 2006-12-27 | 2012-09-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 |
| FR2928805B1 (fr) * | 2008-03-14 | 2012-06-01 | Alcatel Lucent | Procede permettant la mise en oeuvre de la video enrichie sur les terminaux mobiles. |
| KR101599875B1 (ko) * | 2008-04-17 | 2016-03-14 | 삼성전자주식회사 | 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치 |
| US8497939B2 (en) * | 2008-12-08 | 2013-07-30 | Home Box Office, Inc. | Method and process for text-based assistive program descriptions for television |
| US20130124984A1 (en) * | 2010-04-12 | 2013-05-16 | David A. Kuspa | Method and Apparatus for Providing Script Data |
| WO2014018652A2 (en) * | 2012-07-24 | 2014-01-30 | Adam Polak | Media synchronization |
| US9179184B1 (en) * | 2014-06-20 | 2015-11-03 | Google Inc. | Methods, systems, and media for detecting a presentation of media content on a display device |
| US11190855B2 (en) | 2017-08-30 | 2021-11-30 | Arris Enterprises Llc | Automatic generation of descriptive video service tracks |
| WO2019164535A1 (en) * | 2018-02-26 | 2019-08-29 | Google Llc | Automated voice translation dubbing for prerecorded videos |
| US11211074B2 (en) * | 2019-06-06 | 2021-12-28 | Sony Corporation | Presentation of audio and visual content at live events based on user accessibility |
| US11341186B2 (en) * | 2019-06-19 | 2022-05-24 | International Business Machines Corporation | Cognitive video and audio search aggregation |
| US10999566B1 (en) * | 2019-09-06 | 2021-05-04 | Amazon Technologies, Inc. | Automated generation and presentation of textual descriptions of video content |
| US11430485B2 (en) * | 2019-11-19 | 2022-08-30 | Netflix, Inc. | Systems and methods for mixing synthetic voice with original audio tracks |
-
2021
- 2021-02-08 US US17/170,695 patent/US11729476B2/en active Active
-
2022
- 2022-02-08 WO PCT/US2022/070572 patent/WO2022170368A1/en not_active Ceased
- 2022-02-08 CN CN202280005383.4A patent/CN115804099A/zh active Pending
- 2022-02-08 JP JP2023547248A patent/JP7621607B2/ja active Active
- 2022-02-08 EP EP22708715.2A patent/EP4268472A1/en active Pending
- 2022-02-08 KR KR1020237016340A patent/KR102797767B1/ko active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000250575A (ja) | 1999-03-01 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 双方向性テレビ受像機を自動的に選局するための音声理解装置およびその方法 |
| JP2003143575A (ja) | 2001-11-02 | 2003-05-16 | Toshiba Corp | マルチメディア再生方法及び装置 |
| JP2003259320A (ja) | 2002-03-05 | 2003-09-12 | Matsushita Electric Ind Co Ltd | 映像音声合成装置 |
| JP2004062769A (ja) | 2002-07-31 | 2004-02-26 | Sharp Corp | コンテンツ出力装置 |
| JP2017531936A (ja) | 2014-08-16 | 2017-10-26 | ソニー株式会社 | 認知機能障害者のためのシーン毎の筋書き背景 |
| WO2018211748A1 (ja) | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
| WO2020112808A1 (en) | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
Non-Patent Citations (1)
| Title |
|---|
| Ruxandra Tapu et al.,DEEP-HEAR: A Multimodal Subtitle Positioning System Dedicated to Deaf and Hearing-Impaired People,IEEE Access,米国,IEEE,2019年07月01日,Volume: 7,pp.88150-88162,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8751956,IEL Online |
Also Published As
| Publication number | Publication date |
|---|---|
| US20220256156A1 (en) | 2022-08-11 |
| US11729476B2 (en) | 2023-08-15 |
| JP2024505988A (ja) | 2024-02-08 |
| KR102797767B1 (ko) | 2025-04-23 |
| KR20230087577A (ko) | 2023-06-16 |
| CN115804099A (zh) | 2023-03-14 |
| WO2022170368A1 (en) | 2022-08-11 |
| EP4268472A1 (en) | 2023-11-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107172485B (zh) | 一种用于生成短视频的方法与装置、输入设备 | |
| JP7621607B2 (ja) | シーン説明の再生制御 | |
| US9786326B2 (en) | Method and device of playing multimedia and medium | |
| US9681186B2 (en) | Method, apparatus and computer program product for gathering and presenting emotional response to an event | |
| JP2022523606A (ja) | 動画解析のためのゲーティングモデル | |
| US11647261B2 (en) | Electrical devices control based on media-content context | |
| CN112616063A (zh) | 一种直播互动方法、装置、设备及介质 | |
| US12482023B2 (en) | Media collection navigation with opt-out interstitial | |
| US12170819B2 (en) | Methods, systems, and media for modifying the presentation of video content on a user device based on a consumption of the user device | |
| US20170300752A1 (en) | Method and system for summarizing multimedia content | |
| US20170169857A1 (en) | Method and Electronic Device for Video Play | |
| CN110267113A (zh) | 视频文件加工方法、系统、介质和电子设备 | |
| US20230031056A1 (en) | Audio recommendation based on text information and video content | |
| AU2013222959B2 (en) | Method and apparatus for processing information of image including a face | |
| CN114630057A (zh) | 确定特效视频的方法、装置、电子设备及存储介质 | |
| JP2025508844A (ja) | ビデオ処理方法、装置、機器及び媒体 | |
| CN116567338A (zh) | 视频会议场景中的智能录屏方法及相关装置 | |
| CN114299415A (zh) | 一种视频切分方法、装置、电子设备以及存储介质 | |
| US20200057890A1 (en) | Method and device for determining inter-cut time range in media item | |
| CN111008287A (zh) | 音视频处理方法、装置、服务器及存储介质 | |
| CN114022814A (zh) | 视频处理方法和装置、电子设备及计算机可读的存储介质 | |
| CN113744071A (zh) | 评论信息的处理方法、装置、电子设备及存储介质 | |
| US12401863B2 (en) | Playback control of audio content based on ad-related restrictions | |
| CN112565913A (zh) | 视频通话方法、装置和电子设备 | |
| KR102796897B1 (ko) | 영상 재생 속도 변경 방법 및 이를 위한 전자 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230803 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240711 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240729 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240926 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241127 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241216 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241229 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7621607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |

