JP7334355B2 - 字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体 - Google Patents

字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体 Download PDF

Info

Publication number
JP7334355B2
JP7334355B2 JP2022543693A JP2022543693A JP7334355B2 JP 7334355 B2 JP7334355 B2 JP 7334355B2 JP 2022543693 A JP2022543693 A JP 2022543693A JP 2022543693 A JP2022543693 A JP 2022543693A JP 7334355 B2 JP7334355 B2 JP 7334355B2
Authority
JP
Japan
Prior art keywords
display area
information
video
subtitle
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022543693A
Other languages
English (en)
Other versions
JP2023510942A (ja
Inventor
スン,インジャオ
リ,シンドン
ワン,ハイティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023510942A publication Critical patent/JP2023510942A/ja
Application granted granted Critical
Publication of JP7334355B2 publication Critical patent/JP7334355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、コンピュータ技術の分野に関する。具体的に、本開示は、字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体に関する。
本開示は、2020年01月21日に中国知識産権局に提出された、出願番号が202010072502.0である中国特許出願について優先権を主張するものであり、その全内容が、援用により本明細書に組み込まれている。
アプリケーションプログラムを介してビデオを再生する際には、一般的に、対応する字幕を表示し、ユーザーは、ビデオを投稿する前に、字幕を編集することができる。常に発生する1つの状況は、編集後の字幕の表示領域がビデオ表示領域範囲を超えることである。このように、ビデオを投稿した後で、アプリケーション表示ページにはビデオ表示領域範囲内の字幕情報のみを表示することができ、ビデオ表示領域範囲外の字幕情報が表示できないため、字幕情報の表示が不完全になる。
当該「発明の概要」セクションは、以下の「発明を実施するための形態」セクションで詳しく説明される構想を概略的な形態で紹介するために提供される。当該「発明の概要」セクションは、保護を請求する技術案の主要な特徴又は必要な特徴を特定することを意図しておらず、保護を請求する技術案の範囲を限定することも意図していない。
本開示の第1の態様は、字幕情報の表示方法を提供し、
ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するステップと、
字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップと、
アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するステップと、
字幕表示領域に編集後の字幕情報を表示するステップと、を含む。
本開示の第2の態様は、字幕情報の表示装置を提供し、
ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するための第1の決定モジュールと、
字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するための第2の決定モジュールと、
アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するための拡張モジュールと、
字幕表示領域に編集後の字幕情報を表示するための表示モジュールと、を含む。
本開示の第3の態様は、電子デバイスを提供し、当該電子デバイスは、
コンピュータプログラムが記憶されるメモリと、
コンピュータプログラムを実行するときに、第1の態様のいずれか1項に記載の方法を実行するためのプロセッサーと、を含む。
本開示の第4の態様は、コンピュータプログラムが記憶されるコンピュータ可読媒体を提供し、当該コンピュータプログラムは、プロセッサーによって実行される場合、第1の態様のいずれか1項に記載の方法を実行する。
本開示が提供した技術案によってもたらされる有益な効果は、以下の通りである。
本実施例において、初期字幕情報に対するユーザーの編集操作を検出した場合、ビデオ表示領域及び編集後の字幕表示領域を決定することができ、字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定することができる。このように、第1の拡張長さ及び第1の拡張方向に基づいて、アプリケーションプログラムの表示ページに対応する領域範囲内で、ビデオ表示領域を相応的に拡張した後、拡張されたビデオ表示領域に字幕表示領域が含まれるようにすることができ、このように、ビデオを投稿した後、字幕表示領域において完全な字幕情報をユーザーに表示することができる。これにより、本開示は、ビデオ表示領域を拡張することで、拡張されたビデオ表示領域に字幕表示領域が含まれるようにすることができる。このように、完全な字幕情報を表示することができ、字幕表示の完全性が保証され、多様化の字幕情報の表示要件に適応することができ、より多くのシナリオに適用され、ユーザーエクスペリエンスを向上させる。
本開示の各実施例の上記及び他の特徴、利点、並びに態様は、添付の図面と併せて、以下の具体的な実施形態を参照することによって、より明らかになる。図面全体を通して、同一又は類似の符号は、同一又は類似の要素を示す。ここで、図面は、概略的なものであり、素子及び要素は、必ずしも一定の縮尺で描かれているわけではない。
本開示に係る字幕情報の表示方法の一実施例の概略図である。 本開示に係るビデオ表示領域の拡張の実施例の概略図である。 本開示に係る適用シナリオの実施例の概略図である。 本開示に係る字幕情報の表示装置の構成概略図である。 本開示に係る電子デバイスの構成概略図である。
以下で、図面を参照しながら本開示の実施例についてより詳しく説明する。本開示のいくつかの実施例は図面に示されているが、本開示は、様々な形態で実現されることができ、本明細書に記載の実施例に制限されるものと解釈されるべきではなく、むしろ、これらの実施例は、本開示をより深くかつ完全に理解するために提供されることを理解されたい。また、本開示の図面及び実施例は、例示的な目的のためにのみ使用され、本開示の保護範囲を制限することを意図するものではないことが理解されるべきである。
本開示の方法の実施形態に記載される各ステップは、異なる順序に従って実行され、及び/又は、並行して実行されることが理解されるべきである。また、方法の実施形態は、追加のステップを含み、及び/又は、図示されるステップの実行を省略し得る。本開示の範囲はこの点に関して限定されない。
本明細書で使用される「含む」という用語及びその変形は、自由形式の包含、即ち、「含むがこれらに限定されない」という意味である。「に基づく」という用語は、「少なくとも部分的に基づく」という意味である。「一実施例」という用語は、「少なくとも1つの実施例」を意味し、「別の実施例」という用語は、「少なくとも1つの別の実施形態」を意味し、「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味する。他の用語の関連する定義は、以下で説明される。
なお、本開示で言及される「第1」、「第2」などの概念は、装置、モジュール、又はユニットを区別するためにのみ使用されるが、これらの装置、モジュール、又はユニットが必ず異なる装置、モジュール、又はユニットであることに限定されるものではなく、これらの装置、モジュール、又はユニットによって実行される機能の順序又は相互依存関係を限定することを意図するものでもない。
ここで、本開示で言及される「1つ」、「複数」の修飾は、限定的ではなく、例示的なものであり、当業者であれば理解できるように、本明細書において特に指摘されない限り、「1つ又は複数」として理解されるべきである。
本開示の実施形態における複数の装置の間でやり取りされるメッセージ又は情報の名称は、これらのメッセージ又は情報の範囲を限定することを意図するものではなく、説明する目的のためだけである。
図1を参照すると、本開示の方法は具体的に、クライアント端末によって実行され、本開示は、以下のステップを含む。
ステップS101:ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定する。クライアント端末は、ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、ビデオ表示領域を拡張する機能を自動的にトリガーすることができ、クライアント端末は、アプリケーション表示ページ内のビデオ表示領域(本実施例において、特別な説明がなければ、ビデオ表示領域は、いずれも拡張前のビデオ表示領域を指す)及びユーザーが編集した後の字幕表示領域を決定し、当該ビデオ表示領域は、クライアント端末の適応型アプリケーション表示ページのサイズによって生成される。
ステップS102:字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定する。
本実施例において、字幕表示領域(本実施例において、特別な説明がなければ、字幕表示領域は、編集後の字幕表示領域を指す)がビデオ表示領域に含まれるいずれかのサブ領域に属していない可能性のある状況は以下の通りである。即ち、ビデオ表示領域は、部分的に字幕表示領域と重なり、ビデオ表示領域及び字幕表示領域はいずれもキャンバスの領域範囲内にあり、キャンバスのサイズは、一般的に、アプリケーション表示ページのサイズである。別の可能性のある場合は、以下の通りである。即ち、ビデオ表示領域と字幕表示領域が、互いに独立する2つの領域であり、ビデオ表示領域及び字幕表示領域はいずれもキャンバスの領域範囲内にある。
クライアント端末は、ビデオ表示領域の領域情報及び編集後の字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長の第1の拡張方向及び第1の拡張長さを決定することができ、ビデオ表示領域の辺長は、ビデオ表示領域の高さ及び幅であってもよく、第1の拡張方向は、高さを上又は下に拡張してもよいし、幅を左又は右に拡張してもよい。
ステップS103:アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張後のビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張する。
ステップS104:字幕表示領域に編集後の字幕情報を表示する。
クライアント端末は、アプリケーション表示ページに対応する領域範囲(即ち、キャンバスに対応する領域範囲)内において、各辺長の第1の拡張長さ及び第1の拡張方向に基づいて、ビデオ表示領域の各辺長を、対応する拡張方向に、対応する長さだけ拡張することで、ビデオ表示領域の拡張を完了し、このようにして、拡張されたビデオ表示領域に上記の編集後の字幕表示領域が含まれるようにすることができる。即ち、字幕表示領域は、拡張後のビデオ表示領域に含まれるサブ領域に属し、これにより、ビデオを投稿した後、クライアント端末は、字幕表示領域に編集後の字幕情報を表示することができ、同時に、当該字幕情報を完全に表示することができる。
本実施例において、初期字幕情報に対するユーザーの編集操作を検出した場合、ビデオ表示領域及び編集後の字幕表示領域を決定することができ、字幕表示領域が、ビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定することができる。このように、第1の拡張長さ及び第1の拡張方向に基づいて、アプリケーションプログラム表示ページに対応する領域範囲内で、ビデオ表示領域を相応的に拡張した後、拡張されたビデオ表示領域に字幕表示領域が含まれるようにすることができ、ビデオを投稿した後、字幕表示領域において完全な字幕情報をユーザーに表示し、これにより、本開示は、ビデオ表示領域を拡張することで、拡張されたビデオ表示領域に字幕表示領域が含まれるようにすることができる。このように、完全な字幕情報を表示することができ、字幕表示の完全性が保証され、多様化の字幕情報の表示要件に適応することができ、より多くのシナリオに適用され、ユーザーエクスペリエンスを向上させる。
本開示の実施例によれば、編集操作は、
字幕のフォント色の調整、字幕のフォントサイズの調整、字幕のテキストコンテンツの調整、字幕表示領域の位置の調整、字幕表示領域のサイズの調整、字幕表示領域の形状の調整のうちの少なくとも1つを含む。
本実施例において、字幕情報に対するユーザーの編集操作は、フォントの色の調整であってもよいし、フォントのサイズの調整であってもよく、一般的に、フォントが大きくなると、字幕表示領域は、それに応じて拡張され、字幕のテキストコンテンツに対する増加、削除及び修正などのうちの任意の1つ又は複数の操作であってもよく、テキストコンテンツに対する増加、削除又は修正は、いずれも字幕表示領域のサイズを変更する可能性があり、字幕表示領域の位置の調整であってもよい。例えば、ビデオ表示領域内にある字幕表示領域をビデオ表示領域外にドラッグし、また、字幕表示領域のサイズの調整であってもよく、例えば、字幕表示領域を拡張し、この場合、字幕表示領域の一部がビデオ表示領域の領域範囲を超える可能性もあり、字幕表示領域の形状の調整であってもよく、例えば、字幕表示領域の高さ及び幅の長さを変更する。
本開示の実施例によれば、いずれかの表示領域の領域情報は、表示領域の各端点座標を含み、
ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップは、
ビデオ表示領域の各端点座標及び字幕表示領域の各端点座標に基づいて、ビデオ表示領域と字幕表示領域との位置関係を決定するステップと、
位置関係に基づいて、ビデオ表示領域の各辺長に対する第1の拡張方向を決定するステップと、
ビデオ表示領域の各辺長に対して、辺長の第1の拡張方向に基づいて、ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、字幕表示領域の端点座標から第2のターゲット端点座標を決定し、第1のターゲット端点座標及び第2のターゲット端点座標に基づいて、辺長の第1の拡張長さを決定するステップと、を含む。
本実施例において、ビデオ表示領域(本実施例において、拡張前のビデオ表示領域である)又は字幕表示領域(本実施例において、編集後の字幕表示領域である)の領域情報は、当該ビデオ表示領域又は字幕表示領域の各端点座標であってもよい。
アプリケーション表示ページに対応する座標系において、ビデオ表示領域の各端点座標及び字幕表示領域の各端点座標に基づいて、ビデオ表示領域と字幕表示領域との位置関係を決定することができる。これにより、当該位置関係に基づいて、ビデオ表示領域の各辺長の第1の拡張方向を決定することができ、例えば、図2に示すように、縦方向次元で、字幕表示領域は、ビデオ表示領域の下方にあるので、ビデオ表示領域の高さを下に拡張することができる。
ビデオ表示領域の各辺長に対して、当該辺長の第1の拡張方向に基づいて、ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、字幕表示領域の端点座標から第2のターゲット端点座標を決定し、第1のターゲット端点座標及び第2のターゲット端点座標に基づいて、当該辺長が所在する次元に対応する座標拡張距離を決定し、当該座標拡張距離をアプリケーション表示ページでの第1の拡張長さに変換することができる。例えば、図2に示すように、ビデオ表示領域の高さを下に拡張するシナリオの場合、第1のターゲット端点の座標は、ビデオ表示領域の各端点座標におけるy軸上の最小座標であり、第2のターゲット端点の座標は、字幕表示領域の各端点座標におけるy軸上の最小座標であり、第1のターゲット端点座標と第2のターゲット端点座標との、y軸上の差を計算し、当該差は、高さの座標拡張距離であり、当該座標拡張距離を高さの第1の拡張長さに変換する。同様に、図2のビデオ表示領域を右に拡張する必要もあり、ビデオ表示領域の幅について、第1のターゲット端点の座標は、ビデオ表示領域の各端点座標におけるx軸上の最大座標であり、第2のターゲット端点の座標は、字幕表示領域の各端点座標におけるx軸上の最大座標であり、第1のターゲット端点座標と第2のターゲット端点座標との、x軸上の差、即ち、幅の座標拡張距離を計算し、当該座標拡張距離を幅の第1の拡張長さに変換する。
本実施例において、各端点座標に対して正規化処理を行って、各端点座標のx値及びy値を、0から1の範囲内に限定することができる。
本実施例において、ビデオ表示領域を拡張することで得られた新規領域を特定の背景色にレンダリングすることができ、例えば、新規領域を黒で塗りつぶす。
本開示の実施例によれば、初期字幕情報に対するユーザーの編集操作を検出する前に、当該方法は、
処理対象となるビデオデータを取得し、ビデオデータに基づいて、オーディオ情報を取得するステップと、
サーバーがオーディオ情報に対して文字認識を行って初期字幕情報を取得するように、オーディオ情報をサーバーに送信するステップと、
サーバーから返された初期字幕情報を受信するステップと、をさらに含む。
本実施例において、クライアント端末は、処理対象となるビデオデータを取得し、当該ビデオデータは、ユーザーによってアップロードされたビデオデータであってもよいし、サーバーのビデオストリームから取得されたビデオデータであってもよい。クライアント端末は、処理対象となるビデオデータをサーバーに送信し、サーバーには、訓練することで得られた文字認識モデルが予め配置される。文字認識モデルは、ビデオデータにおけるオーディオ情報に対して文字認識を行って、初期字幕情報を取得することができ、クライアント端末は、ビデオデータにおけるオーディオ情報を抽出することもでき、クライアント端末は、オーディオ情報をサーバーに送信する。同じサーバーは、文字認識モデルを利用して、オーディオデータに対して文字認識を行って、初期字幕情報を取得してもよく、クライアント端末がオーディオ情報を抽出して取得する方法により、サーバーのデータ処理の負荷を低減させ、クライアント端末に初期字幕情報を返す速度を上げ、データ処理の時間遅延を低減させる。
クライアント端末は、処理対象となるビデオデータを処理して、ビデオ情報を取得することができる。具体的な処理過程は、ビデオデータに対する符号化及びレンダリングなどであり、これによって、アプリケーション表示ページにビデオ情報及び初期字幕情報を表示することができる。ビデオ情報は、アプリケーション表示ページの上記の拡張前のビデオ表示領域にプレビュー表示され、初期字幕情報は、アプリケーション表示ページの編集前の字幕表示領域にプレビュー表示される。これは、ビデオ投稿後のビデオ及び字幕の表示状況をユーザーにプレビュー表示することに相当する。なお、プレビュー表示が提供されるビデオ及び字幕の表示状況は、ビデオと字幕の表示領域との相対的な位置関係のみを提供してもよく、即ち、2つの表示領域(拡張前のビデオ表示領域及び編集前の字幕表示領域)の関連位置関係は変わらず、実際に投稿された後の2つの表示領域のサイズは、プレビューが提供される2つの表示領域のサイズと異なってもよい。
ビデオを投稿する前に、ユーザーは、プレビュー表示されたビデオ情報及び初期字幕情報に基づいて、初期字幕情報を編集することができる。ユーザーが編集した後、クライアント端末は、同様に、ビデオ情報及び編集後の初期字幕情報をプレビュー表示し、同じビデオ情報は、上記アプリケーション表示ページの拡張前のビデオ表示領域にプレビュー表示される。編集後の初期字幕情報は、アプリケーション表示ページの編集後の字幕表示領域にプレビュー表示され、又は、2つの表示領域(拡張前のビデオ表示領域及び編集後の字幕表示領域)の相対的な位置関係は変わらず、実際に投稿された2つの表示領域のサイズは、プレビューが提供される2つの表示領域のサイズと異なってもよい。この場合、編集後の字幕表示領域は、ビデオ表示領域に含まれるサブ領域に属しない可能性があり、ビデオを投稿した後、編集後の初期字幕情報を完全に表示できるために、本開示の実施例に記載のビデオ表示領域の拡張機能をトリガーする必要がある。
本開示の実施例によれば、アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、ビデオ表示領域を相応的に拡張した後、当該方法は、
ビデオ投稿指令を検出した場合、編集操作及び初期字幕情報に基づいて、編集後の字幕情報を決定するステップと、
ビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得するステップと、をさらに含む。
ビデオ投稿指令を受信した場合、一般的に、ユーザーがビデオ情報の関連する属性を変更することを防止するために、クライアント端末は、ビデオデータを再取得し、同様に、ビデオデータを符号化及びレンダリングして、ビデオ情報を取得し、ビデオ情報と編集後の初期字幕情報とを合成して、編集後の初期字幕情報が付けられたビデオ情報を取得する必要がある。無論、上記のように、編集前に、ビデオデータを既に処理してビデオ情報を取得し、当該ビデオ情報及び編集後の初期字幕情報に基づいて直接合成して、編集後の初期字幕情報が付けられたビデオ情報を取得してもよい。
本開示の実施例によれば、ビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得した後、当該方法は、
拡張前のビデオ表示領域にビデオ情報を表示するステップ、をさらに含む。
上記のように、初期字幕情報に対する編集操作は、ビデオ表示領域を拡張するようにクライアント端末をトリガーし、本実施例において、拡張前のビデオ表示領域は、クライアント端末の適応型アプリケーション表示ページのサイズによって生成される。ユーザーのビデオ視聴のエクスペリエンスを保証するために、ビデオ表示領域が拡張された後、ビデオ情報の表示領域は変化しておらず、即ち、拡張前のビデオ表示領域にビデオ情報を表示する。このように、字幕表示領域の変化は、ビデオ表示領域の変化に影響しておらず、ビデオの歪みなどの現象が回避され、ビデオの表示効果が保証される。
以下、図3を参照して、本開示の実施例の応用シナリオを説明する。
処理対象となるビデオデータを処理した後、ビデオ情報及び初期字幕情報を取得し、ビデオ情報及び初期字幕情報をプレビュー表示し、上記の拡張前のビデオ表示領域にビデオ情報をプレビュー表示し、編集前の字幕表示領域に初期字幕情報をプレビュー表示する。編集前に、図に示すように、(編集前の)字幕表示領域は、(拡張前の)ビデオ表示領域の内部にあり、このように、ビデオを投稿した後、(編集前の)字幕表示領域における初期字幕情報を完全に表示できる。
ユーザーは、例えば、字幕のフォントサイズの調整、字幕の具体的なテキストコンテンツの調整、(編集前の)字幕表示領域の傾斜などのように、初期字幕情報を編集することがでる。編集後の字幕表示領域は、図に示され、同様に、拡張前のビデオ表示領域にビデオ情報をプレビュー表示し、編集後の字幕表示領域に編集後の初期字幕情報をプレビュー表示してもよいが、このときの(編集後の)字幕表示領域の一部は(拡張前の)ビデオ表示領域の外部にあり、ビデオを投稿した後、(拡張前の)ビデオ表示領域の外部に表示される字幕は、ユーザーに表示することができない。
ビデオを投稿した後、完全な字幕を表示できるために、本開示において、字幕に対するユーザーの編集操作は、ビデオ表示領域の拡張機能を行うように、クライアント端末を自動的にトリガーする。図に示すように、(拡張後の)ビデオ表示領域は、(編集後の)字幕表示領域を含み、新規領域を黒で塗りつぶすことができ、このように、ユーザーのビデオ投稿指令を検出した後、クライアント端末は、ビデオ情報及び編集後の初期字幕情報を合成して、編集後の初期字幕情報が付けられたビデオ情報を取得し、アプリケーション表示ページに編集後の初期字幕情報が付けられたビデオ情報を表示する。ビデオを投稿した後の具体的な最後の表示状況は以下の通りである。即ち、ビデオ表示領域は変わらず、つまり、ビデオは相変わらず編集前のビデオ表示領域に表示され、ビデオ表示領域の拡張によるビデオの歪みなどの状況の発生が回避され、編集後の字幕表示領域に字幕を完全に表示する。
図4は、本開示の実施例によって提供される字幕情報の表示装置の構成概略図である。当該装置は、
ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するための第1の決定モジュール401と、
字幕表示領域が、ビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するための第2の決定モジュール402と、
アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するための拡張モジュール403と、
字幕表示領域に編集後の字幕情報を表示するための表示モジュール404と、を含む。
本開示の実施例によれば、編集操作は、
字幕のフォント色の調整、字幕のフォントサイズの調整、字幕のテキストコンテンツの調整、字幕表示領域の位置の調整、字幕表示領域のサイズの調整、字幕表示領域の形状の調整のうちの少なくとも1つを含む。
本開示の実施例によれば、いずれかの表示領域の領域情報は、表示領域の各端点座標を含み、
第2の決定モジュール402は具体的に、
ビデオ表示領域の各端点座標及び字幕表示領域の各端点座標に基づいて、ビデオ表示領域と字幕表示領域との位置関係を決定し、
位置関係に基づいて、ビデオ表示領域の各辺長に対する第1の拡張方向を決定し、
ビデオ表示領域の各辺長に対して、辺長の第1の拡張方向に基づいて、ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、字幕表示領域の端点座標から第2のターゲット端点座標を決定し、第1のターゲット端点座標及び第2のターゲット端点座標に基づいて、辺長の第1の拡張長さを決定するために使用される。
本開示の実施例によれば、当該装置は、
第1の決定モジュール401が、初期字幕情報に対するユーザーの編集操作を検出する前に、処理対象となるビデオデータを取得し、ビデオデータに基づいて、オーディオ情報を取得するための取得モジュールと、
サーバーがオーディオ情報に対して文字認識を行って初期字幕情報を取得するように、オーディオ情報をサーバーに送信するための送信モジュールと、
サーバーから返された初期字幕情報を受信するための受信モジュールと、をさらに含む。
本開示の実施例によれば、当該装置は、
拡張モジュールが、アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、ビデオ表示領域を相応的に拡張した後、ビデオ投稿指令を検出した場合、編集操作及び初期字幕情報に基づいて、編集後の字幕情報を決定するための第3の決定モジュールと、
ビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得するための合成モジュールと、をさらに含む。
本開示の実施例によれば、合成モジュールがビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得した後、表示モジュールは、さらに、拡張前のビデオ表示領域にビデオ情報を表示する。
以下、図5を参照すると、本開示の実施例を実現するのに適した電子デバイス(例えば、図1のクライアント端末)600の構成概略図が示されている。本開示の実施例におけるクライアント端末は、例えば携帯電話、ノートブックパソコン、デジタル放送受信器、PDA(携帯情報端末)、PAD(タブレットコンピューター)、PMP(ポータブルメディアプレイヤ)、車載端末(例えば、車載ナビゲーション端末)などのモバイル端末、及び、例えば、デジタルTV、デスクトップコンピュータなどの固定端末に適用される。図5に示される電子デバイスは、単なる一例であり、本開示の実施例の機能及び使用範囲にいかなる限定も課すべきではない。
電子デバイスは、メモリ及びプロセッサーを含む。ここで、プロセッサーは、以下では処理装置601と呼ばれてもよく、メモリは、以下の読み取り専用メモリ(ROM)602、ランダムアクセスメモリ(RAM)603、及び記憶装置608のうちの少なくとも1つを含むことができる。具体的に、次のように示される。
図5に示すように、電子デバイス600は、処理装置(例えば、中央処理装置、グラフィックス処理装置など)601を含み、読み取り専用メモリ(ROM)602に記憶されるプログラム、又は、記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM603には、電子デバイス600の動作に必要な様々なプログラム及びデータも記憶される。処理装置601、ROM602、及びRAM603は、バス604を介して互いに接続される。入力/出力(I/O)インターフェース605もバス604に接続される。
一般的に、以下の装置は、I/Oインターフェース605に接続することができる。例えば、タッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置606、例えば、液晶ディスプレイ(LCD)、スピーカ、振動器などを含む出力装置607、例えば、磁気テープ、ハードディスクなどを含む記憶装置608、及び、通信装置609である。通信装置609は、電子デバイス600が他の装置と無線又は有線で通信してデータを交換することを可能にする。図5は、様々な装置を有する電子デバイス600を示しているが、図示された全ての装置を実施又は具備する必要があるわけではないことが理解されるべきである。代替的に、より多くの又はより少ない装置を実施又は具備することができる。
特に、本開示の実施例によれば、フローチャートを参照して上記に説明されたプロセスは、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、非一時的なコンピュータ可読媒体でベアラ(bearer)されるコンピュータプログラムを有するコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置609を介してネットワークからダウンロード及びインストールされ得るか、又は、記憶装置608から、或いはROM602からインストールされ得る。当該コンピュータプログラムが処理装置601によって実行されると、本開示の実施例に係る方法で定義される上記の機能が実行される。
ここで、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは、上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気的、光学的、電磁気的、赤外線、又は半導体システム、装置、若しくはデバイス、或いは、以上の任意の組み合わせであってもよいが、これらに限定されていない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又は、上記の任意の適切な組み合わせを含んでもよいが、これらに限定されていない。本開示において、コンピュータ可読記憶媒体は、プログラムを含むか、又は、記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置、又はデバイスによって、又はそれらと組み合わせて使用されてもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドにおいて、又はコンピュータ可読プログラムコードがベアラされるキャリアの一部として伝搬されるデータ信号を含み得る。このように伝搬されるデータ信号は、様々な形態を採用してもよく、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、指令実行システム、装置、又はデバイスによって、又は、それらと組み合わせて使用されるためのプログラムを送信、伝、播又は伝送する。コンピュータ可読媒体に含まれるプログラムコードは、有線、光ケーブル、RF(無線周波数)など、又は、上記の任意の適切な組み合わせを含むが、これらに限定されていない任意の適切な媒体で伝送されてもよい。
いくつかの実施形態では、クライアント端末やサーバーは、例えばHTTP(HyperText Transfer Protocol、ハイパーテキスト・トランスファー・プロトコル)などのような、現在既知、又は、将来開発される任意のネットワークプロトコルを利用して通信することができ、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続され得る。通信ネットワークの例は、ローカルネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、ワールドワイドウェブ(例えば、インターネット)、エンドツーエンドネットワーク(例えば、adhocエンドツーエンドネットワーク)、及び、現在既知、又は将来開発されるネットワークを含む。
上記コンピュータ可読媒体は、上記電子デバイスに含まれてもよいし、当該電子デバイスに配置されず、個別として存在しもよい。
上記コンピュータ可読媒体には、1つ又は複数のプログラムがベアラされ、上記の1つ又は複数のプログラムは、当該電子デバイスによって実行されると、当該電子デバイスに、ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するステップと、字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップと、アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するステップと、字幕表示領域に編集後の字幕情報を表示するステップと、を実行させる。
1つ又は複数のプログラミング言語又はその組み合わせで、本開示の操作を実行するためのコンピュータプログラムコードを作成することができる。上記のプログラミング言語は、Java、Smalltalk、C++などのようなオブジェクト向けプログラミング言語、「C」言語又は類似するプログラミング言語のような通常の手続き型プログラミング言語を含むが、これらに限定されていない。プログラムコードは、完全にユーザーのコンピュータ上で実行されてもよく、部分的にユーザーのコンピュータ上で実行されてもよく、スタンドアロンソフトウェアパッケージとして、一部がユーザーのコンピュータ上でかつ一部がリモートコンピュータ上で、又は、完全にリモートコンピュータ又はサーバー上で実行され得る。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークによって、ユーザーのコンピュータに接続されるか、又は、外部コンピュータに接続される(例えば、インターネットサービスプロバイダを利用してインターネットによって接続される)。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法、及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能、及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、当該モジュール、プログラムセグメント、又はコードの一部は、所定の論理機能を実現するための1つ又は複数の実行可能指令を含む。なお、いくつかの代替の実現において、ブロックに示されている機能は、図に示されている順序とは異なる順序に従って発生してもよい。例えば、連続的に示される2つのブロックは、実際には、基本的に並行して実行されてもよく、ある場合、逆の順序に従って実行されてもよく、関連する機能に応じて決定される。また、ブロック図及び/又はフローチャートにおける各ブロック、並びに、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための、ハードウェアによる専用システムで実現されてもよいし、又は、専用ハードウェアとコンピュータ指令との組み合わせで実現されてもよい。
本開示の実施例に記載のモジュール又はユニットは、ソフトウェアの形態で実現されてもよいし、ハードウェアの形態で実現されてもよい。ある場合、モジュール又はユニットの名称は、当該ユニット自体に対する限定を形成していない。例えば、第1の決定モジュールは、「ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するモジュール」として記載されてもよい。
本明細書で上記に説明された機能は、少なくとも部分的に1つ又は複数のハードウェアロジック部材によって実行されてもよい。例えば、これらに限定されないが、利用できるハードウェアロジック部材の例示的なタイプは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、などを含む。
本開示において、機械可読媒体は、指令実行システム、装置、又はデバイスによって、又は、それらと組み合わせて使用されてもよいプログラムを含むか、又は、記憶する有形媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、或いは、上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
本開示の1つ又は複数の実施例によれば、字幕情報の表示方法を提供し、
ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するステップと、
字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップと、
アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するステップと、
字幕表示領域に編集後の字幕情報を表示するステップと、を含む。
本開示の実施例によれば、編集操作は、
字幕のフォント色の調整、字幕のフォントサイズの調整、字幕のテキストコンテンツの調整、字幕表示領域の位置の調整、字幕表示領域のサイズの調整、字幕表示領域の形状の調整のうちの少なくとも1つを含む。
本開示の実施例によれば、いずれかの表示領域の領域情報は、表示領域の各端点座標を含み、
ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップは、
ビデオ表示領域の各端点座標及び字幕表示領域の各端点座標に基づいて、ビデオ表示領域と字幕表示領域との位置関係を決定するステップと、
位置関係に基づいて、ビデオ表示領域の各辺長に対する第1の拡張方向を決定するステップと、
ビデオ表示領域の各辺長に対して、辺長の第1の拡張方向に基づいて、ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、字幕表示領域の端点座標から第2のターゲット端点座標を決定し、第1のターゲット端点座標及び第2のターゲット端点座標に基づいて、辺長の第1の拡張長さを決定するステップと、を含む。
本開示の実施例によれば、初期字幕情報に対するユーザーの編集操作を検出する前に、本方法は、
処理対象となるビデオデータを取得し、ビデオデータに基づいて、オーディオ情報を取得するステップと、
サーバーがオーディオ情報に対して文字認識を行って初期字幕情報を取得するように、オーディオ情報をサーバーに送信するステップと、
サーバーから返された初期字幕情報を受信するステップと、をさらに含む。
本開示の実施例によれば、アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、ビデオ表示領域を相応的に拡張した後、本方法は、
ビデオ投稿指令を検出した場合、編集操作及び初期字幕情報に基づいて、編集後の字幕情報を決定するステップと、
ビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得するステップと、をさらに含む。
本開示の実施例によれば、ビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得した後、本方法は、
拡張前のビデオ表示領域にビデオ情報を表示するステップをさらに含む。
本開示の1つ又は複数の実施例によれば、字幕情報の表示装置の構成概略図をさらに提供し、当該装置は、
ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するための第1の決定モジュールと、
字幕表示領域がビデオ表示領域に含まれるサブ領域に属していない場合、ビデオ表示領域の領域情報及び字幕表示領域の領域情報に基づいて、ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するための第2の決定モジュールと、
アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、拡張されたビデオ表示領域には字幕表示領域が含まれるように、ビデオ表示領域を相応的に拡張するための拡張モジュールと、
字幕表示領域に編集後の字幕情報を表示するための表示モジュールと、を含む。
本開示の実施例によれば、編集操作は、
字幕のフォント色の調整、字幕のフォントサイズの調整、字幕のテキストコンテンツの調整、字幕表示領域の位置の調整、字幕表示領域のサイズの調整、字幕表示領域の形状の調整のうちの少なくとも1つを含む。
本開示の実施例によれば、いずれかの表示領域の領域情報は、表示領域の各端点座標を含み、
第2の決定モジュールは具体的に、
ビデオ表示領域の各端点座標及び字幕表示領域の各端点座標に基づいて、ビデオ表示領域と字幕表示領域との位置関係を決定し、
位置関係に基づいて、ビデオ表示領域の各辺長に対する第1の拡張方向を決定し、
ビデオ表示領域の各辺長に対して、辺長の第1の拡張方向に基づいて、ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、字幕表示領域の端点座標から第2のターゲット端点座標を決定し、第1のターゲット端点座標及び第2のターゲット端点座標に基づいて、辺長の第1の拡張長さを決定するために使用される。
本開示の実施例によれば、当該装置は、
第1の決定モジュールが、初期字幕情報に対するユーザーの編集操作を検出する前に、処理対象となるビデオデータを取得し、ビデオデータに基づいて、オーディオ情報を取得するための取得モジュールと、
サーバーがオーディオ情報に対して文字認識を行って初期字幕情報を取得するように、オーディオ情報をサーバーに送信するための送信モジュールと、
サーバーから返された初期字幕情報を受信するための受信モジュールと、をさらに含む。
本開示の実施例によれば、当該装置は、
拡張モジュールが、アプリケーション表示ページに対応する領域範囲内で、第1の拡張長さ及び第1の拡張方向に基づいて、ビデオ表示領域を相応的に拡張した後、ビデオ投稿指令を検出した場合、編集操作及び初期字幕情報に基づいて、編集後の字幕情報を決定するための第3の決定モジュールと、
ビデオデータ及び編集後の字幕情報に基づいてビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得するための合成モジュールと、をさらに含む。
本開示の実施例によれば、合成モジュールがビデオデータ及び編集後の字幕情報に基づいて、ビデオ合成を行って、編集後の字幕情報が付けられたビデオ情報を取得した後、表示モジュールはさらに、拡張前のビデオ表示領域にビデオ情報を表示する。
以上の記載は、本開示の好適な実施例及び応用される技術原理に対する説明にすぎない。当業者であれば理解できるように、本開示に係る開示範囲は、上記の技術特徴の特定の組み合わせによって形成される技術案に限定されず、それと同時に、上記の開示された構想から逸脱することなく、上記の技術特徴又はその等価特徴の任意の組み合わせによって形成される他の技術案も含む。例えば、上記の特徴と、本開示に開示された(ただしこれに限定されていない)類似機能を有する技術特徴とを互いに置き換えることによって形成された技術案である。
また、特定の順序を採用して各操作を記載したが、示される特定の順番又は順序に従ってこれらの操作を順に実行することを要求するものとして解釈されるべきではない。特定の環境で、マルチタスク及び並行処理は有利である可能性がある。同様に、以上の論述には、いくつかの具体的な実現の詳細が含まれるが、本開示の範囲に対する限定として解釈されるべきではない。単一の実施例の文脈で説明されるいくつかの特徴は、組み合わせて、単一の実施例で実現されてもよい。逆に、単一の実施例の文脈で説明される様々な特徴は、別々に、又は、任意の適切なサブ組み合わせの形態で、複数の実施例で実現されてもよい。構成特徴及び/又は方法の論理動作に固有の言語で、本主題を説明したが、添付の特許請求の範囲で限定される主題は、上記の特定の特徴又は動作に限定されないことを理解すべきである。むしろ、上述した特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態である。

Claims (10)

  1. 字幕情報の表示方法であって、
    ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するステップと、
    前記字幕表示領域が前記ビデオ表示領域に含まれるサブ領域に属していない場合、前記ビデオ表示領域の領域情報及び前記字幕表示領域の領域情報に基づいて、前記ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するステップと、
    前記アプリケーション表示ページに対応する領域範囲内で、前記第1の拡張長さ及び前記第1の拡張方向に基づいて、拡張後のビデオ表示領域に前記字幕表示領域が含まれるように、前記ビデオ表示領域を相応的に拡張するステップと、
    前記字幕表示領域に編集後の字幕情報を表示するステップと、
    を含む、方法。
  2. 前記編集操作は、字幕のフォント色の調整、字幕のフォントサイズの調整、字幕のテキストコンテンツの調整、字幕表示領域の位置の調整、字幕表示領域のサイズの調整、字幕表示領域の形状の調整のうちの少なくとも1つを含む、
    請求項1に記載の方法。
  3. いずれかの表示領域の領域情報は、表示領域の各端点座標を含み、
    前記ビデオ表示領域の領域情報及び前記字幕表示領域の領域情報に基づいて、前記ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定する前記ステップは、
    前記ビデオ表示領域の各端点座標及び前記字幕表示領域の各端点座標に基づいて、前記ビデオ表示領域と前記字幕表示領域との位置関係を決定するステップと、
    前記位置関係に基づいて、前記ビデオ表示領域の各辺長に対する第1の拡張方向を決定するステップと、
    前記ビデオ表示領域の各辺長に対して、前記辺長の第1の拡張方向に基づいて、前記ビデオ表示領域の端点座標から第1のターゲット端点座標を決定するとともに、前記字幕表示領域の端点座標から第2のターゲット端点座標を決定し、前記第1のターゲット端点座標及び前記第2のターゲット端点座標に基づいて、前記辺長の第1の拡張長さを決定するステップと、
    を含む、
    請求項1又は2に記載の方法。
  4. 前記方法は、さらに、
    前記初期字幕情報に対するユーザーの編集操作を検出する前に、
    処理対象となるビデオデータを取得し、前記ビデオデータに基づいてオーディオ情報を取得するステップと、
    サーバーが前記オーディオ情報に対して文字認識を行って初期字幕情報を取得するように、前記オーディオ情報を前記サーバーに送信するステップと、
    前記サーバーから返された前記初期字幕情報を受信するステップと、
    を含む、請求項1又は2に記載の方法。
  5. 前記方法は、さらに、
    前記アプリケーション表示ページに対応する領域範囲内で、前記第1の拡張長さ及び前記第1の拡張方向に基づいて、前記ビデオ表示領域を相応的に拡張した後に、
    ビデオ投稿指令を検出した場合、前記編集操作及び前記初期字幕情報に基づいて、前記編集後の字幕情報を決定するステップと、
    前記ビデオデータ及び前記編集後の字幕情報に基づいて、ビデオ合成を行って、前記編集後の字幕情報が付けられたビデオ情報を取得するステップと、
    を含む、請求項4に記載の方法。
  6. 前記方法は、さらに、
    合成して前記編集後の字幕情報が付けられたビデオ情報を取得した後に、
    拡張前の前記ビデオ表示領域に前記ビデオ情報を表示するステップ、
    を含む、請求項5に記載の方法。
  7. 字幕情報の表示装置であって、
    ビデオ情報の初期字幕情報に対するユーザーの編集操作を検出した場合、アプリケーション表示ページ内のビデオ表示領域及び編集後の字幕表示領域を決定するための第1の決定モジュールと、
    前記字幕表示領域が前記ビデオ表示領域に含まれるサブ領域に属していない場合、前記ビデオ表示領域の領域情報及び前記字幕表示領域の領域情報に基づいて、前記ビデオ表示領域の各辺長に対する第1の拡張長さ及び第1の拡張方向を決定するための第2の決定モジュールと、
    前記アプリケーション表示ページに対応する領域範囲内で、前記第1の拡張長さ及び前記第1の拡張方向に基づいて、拡張されたビデオ表示領域には前記字幕表示領域が含まれるように、前記ビデオ表示領域を相応的に拡張するための拡張モジュールと、
    前記字幕表示領域に編集後の字幕情報を表示するための表示モジュールと、
    を含む、装置。
  8. 前記装置は、さらに、
    処理対象となるビデオデータを取得し、前記ビデオデータに基づいてオーディオ情報を取得するための取得モジュールと、
    サーバーが前記オーディオ情報に対して文字認識を行って初期字幕情報を取得するように、前記オーディオ情報を前期サーバーに送信するための送信モジュールと、
    前記サーバーから返された前記初期字幕情報を受信するための受信モジュールと、
    を含む、請求項7に記載の装置。
  9. 電子デバイスであって、
    コンピュータプログラムが記憶されるメモリと、
    プロセッサーと、を含む、
    前記コンピュータプログラムが前記プロセッサーによって実行されると、請求項1乃至6のいずれか一項に記載の方法を実行させる、
    電子デバイス。
  10. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサーによって実行されると、コンピュータに、請求項1乃至6のいずれか一項に記載の方法を実施させる、
    コンピュータ可読媒体。
JP2022543693A 2020-01-21 2020-11-06 字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体 Active JP7334355B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010072502.0 2020-01-21
CN202010072502.0A CN111225288A (zh) 2020-01-21 2020-01-21 展示字幕信息的方法、装置以及电子设备
PCT/CN2020/127221 WO2021147461A1 (zh) 2020-01-21 2020-11-06 展示字幕信息的方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
JP2023510942A JP2023510942A (ja) 2023-03-15
JP7334355B2 true JP7334355B2 (ja) 2023-08-28

Family

ID=70829613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022543693A Active JP7334355B2 (ja) 2020-01-21 2020-11-06 字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体

Country Status (7)

Country Link
US (1) US11678024B2 (ja)
EP (1) EP4080900A4 (ja)
JP (1) JP7334355B2 (ja)
KR (1) KR20220124797A (ja)
CN (1) CN111225288A (ja)
BR (1) BR112022014283A2 (ja)
WO (1) WO2021147461A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111225288A (zh) * 2020-01-21 2020-06-02 北京字节跳动网络技术有限公司 展示字幕信息的方法、装置以及电子设备
CN112738629B (zh) * 2020-12-29 2023-03-10 北京达佳互联信息技术有限公司 视频展示方法、装置、电子设备和存储介质
CN112954441B (zh) * 2021-03-02 2023-06-06 北京字节跳动网络技术有限公司 视频编辑及播放方法、装置、设备、介质
CN113873221B (zh) * 2021-08-27 2023-07-18 深圳市九洲电器有限公司 字幕失真性检测方法、多媒体终端、服务器以及存储介质
CN114268829B (zh) * 2021-12-22 2024-01-16 中电金信软件有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN118132023B (zh) * 2024-05-07 2024-07-05 江西曼荼罗软件有限公司 一种基于滚动字幕的动态消息提醒方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316613A (ja) 2006-04-26 2007-12-06 Matsushita Electric Ind Co Ltd 字幕表示制御装置
US20090027552A1 (en) 2007-07-24 2009-01-29 Cyberlink Corp Systems and Methods for Automatic Adjustment of Text
WO2010055560A1 (ja) 2008-11-12 2010-05-20 富士通株式会社 テロップ移動処理装置、方法及びプログラム
JP2010157961A (ja) 2009-01-05 2010-07-15 Kadokawa Marketing Co Ltd 字幕作成システム及びプログラム
WO2010116457A1 (ja) 2009-03-30 2010-10-14 Necディスプレイソリューションズ株式会社 映像表示装置および映像処理方法
US20130308922A1 (en) 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
WO2017002602A1 (ja) 2015-06-30 2017-01-05 ソニー株式会社 受信装置、受信方法、送信装置および送信方法
US11070891B1 (en) 2019-12-10 2021-07-20 Amazon Technologies, Inc. Optimization of subtitles for video content

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3468404B2 (ja) * 1998-03-11 2003-11-17 日本電信電話株式会社 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体
JP2004038512A (ja) * 2002-07-03 2004-02-05 Nec Corp 情報処理端末及びそれに用いる指定タグ位置移動方法並びにそのプログラム
KR20090124240A (ko) * 2008-05-29 2009-12-03 주식회사 케이티테크 자막 편집 장치 및 그 방법
US8754984B2 (en) * 2011-05-02 2014-06-17 Futurewei Technologies, Inc. System and method for video caption re-overlaying for video adaptation and retargeting
US20140240472A1 (en) * 2011-10-11 2014-08-28 Panasonic Corporation 3d subtitle process device and 3d subtitle process method
CN102724458B (zh) * 2012-06-18 2016-04-06 深圳Tcl新技术有限公司 视频画面全屏显示的字幕处理方法及视频终端
CN103533256A (zh) * 2013-10-28 2014-01-22 广东威创视讯科技股份有限公司 一种字幕的处理方法,装置及字幕显示系统
US10511882B2 (en) 2016-01-26 2019-12-17 Sony Corporation Reception apparatus, reception method, and transmission apparatus
CN106210838B (zh) * 2016-07-14 2019-05-24 腾讯科技(深圳)有限公司 字幕显示方法及装置
CN110177295B (zh) * 2019-06-06 2021-06-22 北京字节跳动网络技术有限公司 字幕越界的处理方法、装置和电子设备
CN111225288A (zh) * 2020-01-21 2020-06-02 北京字节跳动网络技术有限公司 展示字幕信息的方法、装置以及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316613A (ja) 2006-04-26 2007-12-06 Matsushita Electric Ind Co Ltd 字幕表示制御装置
US20090027552A1 (en) 2007-07-24 2009-01-29 Cyberlink Corp Systems and Methods for Automatic Adjustment of Text
WO2010055560A1 (ja) 2008-11-12 2010-05-20 富士通株式会社 テロップ移動処理装置、方法及びプログラム
JP2010157961A (ja) 2009-01-05 2010-07-15 Kadokawa Marketing Co Ltd 字幕作成システム及びプログラム
WO2010116457A1 (ja) 2009-03-30 2010-10-14 Necディスプレイソリューションズ株式会社 映像表示装置および映像処理方法
US20130308922A1 (en) 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
WO2017002602A1 (ja) 2015-06-30 2017-01-05 ソニー株式会社 受信装置、受信方法、送信装置および送信方法
US11070891B1 (en) 2019-12-10 2021-07-20 Amazon Technologies, Inc. Optimization of subtitles for video content

Also Published As

Publication number Publication date
EP4080900A4 (en) 2023-01-04
KR20220124797A (ko) 2022-09-14
EP4080900A1 (en) 2022-10-26
JP2023510942A (ja) 2023-03-15
BR112022014283A2 (pt) 2022-09-20
US11678024B2 (en) 2023-06-13
US20220353586A1 (en) 2022-11-03
CN111225288A (zh) 2020-06-02
WO2021147461A1 (zh) 2021-07-29

Similar Documents

Publication Publication Date Title
JP7334355B2 (ja) 字幕情報の表示方法、装置、電子デバイス、及びコンピュータ可読媒体
CN109168026B (zh) 即时视频显示方法、装置、终端设备及存储介质
CN109460233B (zh) 页面的原生界面显示更新方法、装置、终端设备及介质
CN106792092A (zh) 直播视频流分镜显示控制方法及其相应的装置
US11423112B2 (en) Document input content processing method and apparatus, electronic device, and storage medium
KR20140030299A (ko) 동적 콘텐츠를 이용하여 줌 인 및 줌 아웃하기 위한 기법
CN109725970B (zh) 应用客户端窗口展示的方法、装置及电子设备
KR20170026272A (ko) 콘텐츠 편집 장치 및 편집 방법
CN110674624B (zh) 一种用于图文编辑的方法和系统
WO2020220773A1 (zh) 图片预览信息的显示方法、装置、电子设备及计算机可读存储介质
CN113157153A (zh) 内容分享方法、装置、电子设备及计算机可读存储介质
CN110519645B (zh) 视频内容的播放方法、装置、电子设备及计算机可读介质
CN115600629B (zh) 车辆信息二维码生成方法、电子设备和计算机可读介质
CN116527748A (zh) 一种云渲染交互方法、装置、电子设备及存储介质
KR102652069B1 (ko) 정보 지시 방법, 장치, 전자기기 및 저장매체
JP2023538825A (ja) ピクチャのビデオへの変換の方法、装置、機器および記憶媒体
WO2024037491A1 (zh) 媒体内容处理方法、装置、设备及存储介质
CN111461965B (zh) 图片处理方法、装置、电子设备和计算机可读介质
WO2023217081A1 (zh) 信息输入页面的元素控制方法、装置、设备、介质
CN114742013A (zh) 在线文档展示方法、装置和电子设备
CN110807164A (zh) 图像区域的自动调节方法、装置、电子设备及计算机可读存储介质
WO2021018176A1 (zh) 文字特效处理方法及装置
WO2023029892A1 (zh) 视频处理方法、装置、设备及存储介质
WO2021018177A1 (zh) 文字特效处理方法及装置
WO2021018178A1 (zh) 文字特效处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230816

R150 Certificate of patent or registration of utility model

Ref document number: 7334355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150