JP7270661B2 - ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7270661B2
JP7270661B2 JP2021037984A JP2021037984A JP7270661B2 JP 7270661 B2 JP7270661 B2 JP 7270661B2 JP 2021037984 A JP2021037984 A JP 2021037984A JP 2021037984 A JP2021037984 A JP 2021037984A JP 7270661 B2 JP7270661 B2 JP 7270661B2
Authority
JP
Japan
Prior art keywords
target
scene
display position
image
video stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021037984A
Other languages
English (en)
Other versions
JP2021190993A (ja
Inventor
チュー、チャオミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021190993A publication Critical patent/JP2021190993A/ja
Application granted granted Critical
Publication of JP7270661B2 publication Critical patent/JP7270661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本出願の実施形態はコンピュータ技術分野に関し、具体的にコンピュータビジョン技術分野に関し、特にビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
ネットワークとビデオ業界の発展に伴い、それによりキャリアされるコンテンツの表示方法も継続的に充実し、開発されてきた。近年、ライブストリームやショートビデオなどのビデオ表示形式が人々の生活の中でますます一般的になり、それらがもたらす社会的影響力もますます注目を集めている。一般的なライブストリームには、ショッピングライブストリーム、タレントライブストリームなどがある。
上記の様々な形式のビデオ画面の領域に、例えばテキスト、画像、ビデオまたは動画などの様々なコンテンツを表示できる。ビデオに上記のコンテンツを表示することで、宣伝や普及に役立ち、それにより、ビデオの表示機能を多様化することができる。
ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
第1態様によれば、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像を分離することと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像を取得することと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得することと、を含むビデオの処理方法を提供する。
第2態様によれば、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像を分離するように構成される分離ユニットと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像を取得するように構成される追加ユニットと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される合併ユニットと、を備えるビデオの処理装置を提供する。
第3態様によれば、1つまたは複数のプロセッサと、1つまたは複数のプログラムを格納するための記憶装置と、を備え、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサにビデオの処理方法のいずれかの実施形態に記載の方法が実装される電子機器を提供する。
第4態様によれば、コンピュータプログラムが格納されたコンピュータ読み取り可能な記憶媒体であって、該コンピュータプログラムはプロセッサによって実行される際にビデオの処理方法のいずれかの実施形態に記載の方法が実装されるコンピュータ読み取り可能な記憶媒体を提供する。
第5態様によれば、コンピュータプログラムであって、コンピュータプログラムがプロセッサにより実行されると、ビデオの処理方法のいずれかの実施形態に記載の方法が実装される、コンピュータプログラムを提供する。
本出願の手段によれば、表示対象コンテンツを背景に直接レンダリングする方法を使用し、背景に表示されるコンテンツが、キャラクターなどの前景の被写体を覆い隠さないようにする。それと同時に、本出願は、ビデオ画面のエッジにのみコンテンツを表示できる単一の表示形式を回避し、ビデオにコンテンツを表示する柔軟性を向上させる。
以下の図面を参照して非限定的な実施形態に対して行われた詳細な説明を読むことによって、本出願の他の特徴、目的および利点がより明らかになる。
本出願のいくつかの実施形態を適用できる例示的なシステムアーキテクチャを示す図である。 本出願によるビデオの処理方法の一実施形態を示すフローチャートである。 本出願によるビデオの処理方法の1つの応用シーンを示す模式図である。 本出願によるビデオの処理方法の他の実施形態を示すフローチャートである。 本出願によるビデオの処理方法のシーン画像およびターゲットビデオフレームを示す模式図である。 本出願によるビデオの処理装置の一実施形態を示す構造模式図である。 本出願の実施形態によるビデオの処理方法を実現するための電子機器のブロック図である。
以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解に役立つため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、矛盾しない限り、本出願における実施形態および実施形態における特徴を組み合わせることができる。以下、図面を参照して実施形態を組み合わせて本出願を詳細に説明する。
図1は、本出願のビデオの処理方法またはビデオの処理装置を適用できる実施形態を示す例示的なシステムアーキテクチャ100である。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、ネットワーク104およびサーバ103を備えてもよい。ネットワーク104は、端末装置101、102と、サーバ103との間に通信リンクを提供する媒体である。ネットワーク104は、様々な接続タイプ、例えば有線、無線通信リンクまたは光ファイバケーブルなどを含んでもよい。
ユーザは、メッセージ等を送受信するために、端末装置101、102を使用してネットワーク104を介してサーバ103とインタラクションすることができる。端末装置101、102には、例えばビデオアプリケーション、ライブストリームアプリケーション、インスタントメッセージングツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされてもよい。
ここでの端末装置101、102は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102がハードウェアである場合、ディスプレイを有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子ブックリーダ、ラップトップコンピュータ、デスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102がソフトウェアである場合、上記で挙げられた電子機器にインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール(例えば分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここで具体的に限定されない。実際には、端末装置101、102のうちの一方は、ライブビデオストリームを出力するためのライブストリームの端末装置であり得、他方は、ライブストリームを視聴する視聴者の端末装置であり得る。
サーバ103は様々なサービスを提供するサーバ、例えば端末装置101、102をサポートするライブストリームプラットホームサーバであり得る。例えば、バックエンドサーバは、端末装置101から取得されたターゲットビデオストリームなどのデータに対して解析などの処理を実行し、且つ処理結果(例えばターゲットビデオフレーム)を端末装置102に送信してもよい。
なお、本出願の実施形態によるビデオの処理方法はサーバ103或いは端末装置101、102により実行されてもよく、それに対応して、ビデオの処理装置はサーバ103或いは端末装置101、102に設けられてもよい。
図1における端末装置、ネットワークおよびサーバの数は例示的なものにすぎないことを理解すべきである。実装の必要性に応じて、任意の数の端末装置、ネットワークおよびサーバを備えることができる。
次に、図2を参照し、本出願によるビデオの処理方法の一実施形態を示すフロー200が示されている。該ビデオの処理方法は、以下のステップを含む。
ステップ201、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離する。
本実施形態において、ビデオの処理方法が実行される実行主体(例えば図1に示すようなサーバまたは端末装置)はこの電子機器或いは他の電子機器からターゲットビデオストリームを取得したことに応答して、取得されたターゲットビデオストリームにおけるビデオフレームに対して前景と背景との分離を実行し、それにより、前景画像と背景画像とを分離することができる。取得されたターゲットビデオストリームはユーザ(例えばアンカー)の端末装置からこの電子機器に送信されたものであってもよい。ターゲットビデオフレームから分離された前景画像と背景画像のサイズは、いずれも該ビデオフレームのサイズと同じである。本実施形態におけるターゲットビデオストリームは、ライブビデオストリームまたは記録されたビデオストリームであり得る。
ステップ202、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得する。
本実施形態において、上記実行主体は分離された背景画像における上記ターゲット表示位置に、表示対象コンテンツを追加し、且つ追加結果を処理済み背景画像として使用することができる。上記実行主体は様々な方法で追加処理することができ、例えば、表示対象コンテンツを背景画像におけるターゲット表示位置に対して、カバー、置換または上位レイヤーに配置するという処理を行うことができる。
上記実行主体は上記ターゲット表示位置を取得することができる。表示対象コンテンツは、様々なコンテンツ、例えば画像、文字或いはビデオなどであり得る。具体的に、表示対象コンテンツは、宣伝用のスローガン、普及用の広告などであり得る。ターゲット表示位置は、画像における座標位置、例えばターゲット表示位置が所在する領域のエッジ(輪郭)の座標、および/または中心点の座標として表現されることができる。なお、ターゲット表示位置にはターゲット表示位置が所在する領域の幅、高さなどの情報を含んでもよい。
実際には、上記実行主体は様々な方法でターゲット表示位置を取得することができる。例えば上記実行主体はこの電子機器或いは他の電子機器からターゲット表示位置を直接取得してもよい。該ターゲット表示位置は予め設定されたものであってもよいし、上記の他の電子機器により生成されたものであってもよい。なお、上記実行主体はこの電子機器からターゲット表示位置をリアルタイムで生成することもでき、具体的に、ランダムに生成してもよいし、所定のルールに従って生成してもよく、例えば画像のエッジとある頂点(左上の頂点または右上の頂点)を表示対象コンテンツの一部のエッジと1つの頂点として、表示対象コンテンツのサイズに合致するターゲット表示位置を生成する。
ステップ203、前景画像と処理済み背景画像を合併して、ターゲットビデオフレームを取得する。
本実施形態において、上記実行主体は分離された前景画像と上記処理済み背景画像とを合併して、且つ合併結果をターゲットビデオフレームとして使用することができる。実際には、上記実行主体は、ビデオ画面における表示対象コンテンツの安定性を確保するために、取得されたターゲットビデオストリームにおけるビデオフレームのそれぞれに対してステップ201、202および203を実行してもよい。
本出願の上記実施形態による方法は、背景に表示されるコンテンツが、キャラクターなどの前景の被写体を覆い隠さないようにするために、表示対象コンテンツを背景に直接レンダリングする方法を使用してもよい。それと同時に、上記実施形態はビデオ画面のエッジにのみコンテンツを表示できる単一の表示形式を回避し、ビデオにコンテンツを表示する柔軟性が向上された。
次に、図3を参照し、図3は本実施形態によるビデオの処理方法の応用シーンを示す一模式図である。図3の応用シーンでは、実行主体301は、ターゲットビデオストリーム302の取得に応答して、ターゲットビデオストリーム302におけるビデオフレームから前景画像303と背景画像304を分離する。背景画像304におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像305を取得する。該ターゲット表示位置は矩形領域(x,y,h,w)であり、x,yはターゲット表示位置の中心点であり、h,wはターゲット表示位置の高さおよび幅である。前景画像303と処理済み背景画像305とを合併して、ターゲットビデオフレーム306を取得する。
図4Aを更に参照し、ビデオの処理方法の他の実施形態のフロー400が示されている。ここで、ターゲットビデオストリームはライブビデオストリームである。該フロー400は以下のステップを含む。
ステップ401、シーン画像を受信し、シーン画像で、表示対象コンテンツの少なくとも1つの選択的表示位置(alternative display position)を認識し、前記シーン画像は単一の画像またはビデオストリームであり、前記シーン画像におけるシーンは前記ターゲットビデオストリームにおけるシーンと同じシーンである。
本実施形態において、ビデオの処理方法が実行される実行主体(例えば図1に示すようなサーバまたは端末装置)はシーン画像を受信すると、該シーン画像で表示対象コンテンツの1つまたは複数の選択的表示位置を認識することができる。表示対象コンテンツはライブビデオストリームの画面に表示しようとするコンテンツである。シーン画像は、撮影されたシーンにおける実際のシーンを反映できる画像である。シーン画像は例えばライブ放送室などのライブシーンであり得る。シーン画像にアンカーなどのキャラクターが表示されなくてもよい。
実際には、上記実行主体は様々な方法で少なくとも1つの選択的表示位置を認識することができ、例えば、上記実行主体は、例えば壁や床などの大面積のカラーブロック(つまり、予め設定された面積の閾値を超える面積のカラーブロック)を認識することができ、且つ認識された大面積のカラーブロックが所在する位置を上記少なくとも1つの選択的表示位置として使用する。
シーン画像は複数の画像、即ちビデオストリームにおける各ビデオフレームであり得る。なお、シーン画像は単一の画像であってもよい。シーン画像はビデオストリームである場合、上記実行主体はビデオストリームにおける1つのビデオフレームを選択して認識し、上記少なくとも1つの選択的表示位置を取得することができる。或いは、上記実行主体は、ビデオストリームにおける複数のビデオフレームを認識して、且つ各認識結果のうちの同じオブジェクトを対象とする認識結果に対して位置の平均値を確定し、且つ各オブジェクトに対して確定された位置の平均値を上記少なくとも1つの選択的表示位置として使用してもよい。なお、上記実行主体は、ビデオストリームにおける複数のビデオフレームを認識し、且つすべての認識結果をいずれも上記少なくとも1つの選択的表示位置として使用してもよい。
オプション的に、上記シーン画像はターゲット端末装置のユーザ向けではなくてもよく、ここでのターゲット端末装置のユーザはライブ視聴者を指し、つまり、該シーン画像をライブ視聴者のターゲット端末装置に送信しないため、ライブ視聴者が上記シーン画像を見えない。それに対応して、上記ターゲットビデオストリームは上記ターゲット端末装置のユーザ向けのビデオストリームであり得る。
上記シーン画像と上記ターゲットビデオストリームの両方は、同じライブ放送室で撮影された、つまり同じシーンで撮影されたものである。具体的に、上記実行主体或いは他の電子機器は、両方に少なくとも一部のオブジェクト(例えばエッジに近いオブジェクトは、一般的に人間などのライブストリームの主体を含まない)が重なっているか否かを判断することによって、両方が同じシーンを対象としているか否かを判断する。重なっていると判断されると、両方が同じシーンを対象としていると判定する。なお、シーン画像とターゲットビデオストリームを生成して送信する電子機器の識別子が同じものであると、上記実行主体は、上記シーン画像と上記ターゲットビデオストリームの両方が同じシーンを対象としていると判定してもよい。
ステップ402、少なくとも1つの選択的表示位置に基づいて、ターゲット表示位置を確定する。
本実施形態において、上記実行主体は上記少なくとも1つの選択的表示位置に基づいて、ターゲット表示位置を確定することができる。該ターゲット表示位置はシーン画像における表示位置である。実際には、上記実行主体は様々な方法で上記少なくとも1つの選択的表示位置に基づいてターゲット表示位置を確定し、例えば上記実行主体は認識された1つの選択的表示位置をターゲット表示位置として直接確定してもよい。なお、上記実行主体は少なくとも1つの選択的表示位置のうちの、最初に認識された選択的表示位置をターゲット表示位置としてもよい。
ステップ403、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像を分離する。
本実施形態において、上記実行主体は、本電子機器或いは他の電子機器からターゲットビデオストリームを取得したことに応答して、取得されたターゲットビデオストリームにおけるビデオフレームに対して前景と背景との分離を行い、それにより、前景画像と背景画像とを分離する。取得されたターゲットビデオストリームはユーザデバイスから本電子機器に送信されたものであり得る。ビデオフレームから分離された前景画像と背景画像のサイズは、いずれも該ビデオフレームのサイズと同じである。
ステップ404、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得する。
本実施形態において、上記実行主体は分離された背景画像における上記ターゲット表示位置に、表示対象コンテンツを追加し、且つ追加結果を処理済み背景画像として使用することができる。上記実行主体は様々な方法で処理することができ、例えば、表示対象コンテンツを背景画像におけるターゲット表示位置に対して、カバー、置換または上位レイヤーに配置するという処理を行うことができる。
ステップ405、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得する。
本実施形態において、上記実行主体は分離された前景画像と上記処理済み背景画像とを合併して、且つ合併結果をターゲットビデオフレームとして使用することができる。
図4Bに示すように、左図はシーン画像であり、該画像に壁掛け時計がある。右図はライブビデオストリームを受信した後に生成されたターゲットビデオフレームであり、ターゲットビデオフレームにおけるターゲット表示位置は、上記シーン画像における壁掛け時計が所在する位置である。
本実施形態は、ライブストリームの開始前に、ライブ放送室の実シーン画像を取得することができ、それにより、ライブ放送室の実状況に基づいて、ターゲット表示位置を確定することができ、ターゲット表示位置とライブ放送室の実シーンとの一致性が向上される。
本実施形態のいくつかのオプション的な実施形態において、ステップ402は、少なくとも1つの選択的表示位置に対する、位置選択情報および/または位置移動情報を含む調整情報を取得することと、調整情報に基づいて、少なくとも1つの選択的表示位置を調整し、且つ調整結果をターゲット表示位置として使用することと、を含んでもよい。
これらのオプション的な実施形態において、上記実行主体は選択的表示位置に対する調整情報を取得することができる。ここでの調整情報はライブストリームプラットホームのユーザ(例えば、ライブストリームプラットホームの運用・メンテナンス作業員)により設定されることができる。さらに、上記実行主体は、調整情報に基づいて、調整情報によって示される表示位置を選択し、および/または選択的表示位置を移動して移動済み表示位置を取得することで、上記少なくとも1つの選択的表示位置の調整を実現することができる。なお、調整結果に含まれた選択的表示位置の数が表示対象コンテンツの数を超えると、上記実行主体は調整結果をさらに調整してもよく、例えば、表示対象コンテンツの数と一致する表示位置を所定のルールに従うか或いはランダムで選択し、調整を終了し、且つ最終的な調整結果をターゲット表示位置として使用する。
上記調整情報は、少なくとも1つの選択的表示位置から選択された1つまたは複数の選択的表示位置を表してもよく、少なくとも1つの選択的表示位置のうちの1つ以上の選択的表示位置に対する位置移動情報を表してもよい。位置移動情報はこれらの1つ以上の選択的表示位置、およびこれらの1つ以上の選択的表示位置のそれぞれの移動先位置を含み得る。
これらの実施形態は、ユーザによる表示位置への調整を実現することができ、それにより、表示位置がユーザの希望を満たすものになる。
本実施形態のいくつかのオプション的な実施形態において、ステップ401におけるシーン画像で、表示対象コンテンツの少なくとも1つの選択的表示位置を認識することは、シーン画像で、予め設定された図形が所在する位置を表示対象コンテンツの選択的表示位置として認識することを含んでもよい。
これらのオプション的な実施形態において、上記実行主体はシーン画像で予め設定された図形が所在する位置を認識することができる。ここでの予め設定された図形は、例えば円形、矩形、台形などの様々な図形であり得る。ここでの円形はシーン画像内の壁掛け時計であり得、矩形はシーン画像内のフォトフレームであり得、台形はシーン画像内の植木鉢であり得る。これらの実施形態において、予め設定された図形を認識することによって認識された選択的表示位置は、認識された一部の選択的表示位置或いはすべての選択的表示位置であり得、即ち、上記少なくとも1つの選択的表示位置のうちの一部の選択的表示位置またはすべての選択的表示位置である。
これらの実施形態は特定の図形の位置を表示コンテンツの位置として認識することができ、ライブストリームユーザへの表示にもたらす興味性を増加することに役立つ。
これらの実施形態のいくつかのオプション的な応用シーンにおいて、ステップ404は、表示対象コンテンツとターゲット表示位置との間のサイズが一致しないことが確定されたことに応答して、表示対象コンテンツのサイズをターゲット表示位置のサイズに調整することと、背景画像におけるターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することと、を含んでもよい。
これらの応用シーンでは、上記実行主体は、表示対象コンテンツのサイズとターゲット表示位置のサイズが一致しない場合、調整された表示対象コンテンツのサイズがターゲット表示位置のサイズと同じくなるように、表示対象コンテンツのサイズを調整することができる。
これらの応用シーンは、表示対象コンテンツのサイズを調整することによって、表示対象コンテンツとターゲット表示位置を一致させることができ、より優れた表示効果を取得することに役立つ。
本実施形態のいくつかのオプション的な実施形態において、上記ステップ401におけるシーン画像を受信することは、事前認識機能の状態がオンであることに応答して、シーン画像を受信することを含んでもよく、シーン画像とターゲットビデオストリームとの間の撮影時間間隔は所定の間隔閾値よりも小さい。
これらのオプション的な実施形態において、上記実行主体は、事前認識機能の状態がオンである場合、シーン画像を受信することができる。事前認識機能とは、アンカーがライブストリームを行う前、即ちターゲットビデオストリームを取得する前に、ターゲット表示位置を予め認識する機能を指す。
上記実行主体は、本電子機器の事前認識機能のオン/オフ状態を示すパラメータ(例えば1または0)を有してもよい。
これらの実施形態は、事前認識機能の状態に基づいて、表示位置の事前識別を実行するか否かを制御し、且つ撮影時間の間隔を限定することによって、認識された表示位置とライブ放送室内の対応する位置との一致性を確保することができる。
図5を更に参照し、上記各図に示すような方法の実装として、本出願はビデオの処理装置の一実施形態を提供し、該装置の実施形態は図2に示すような方法の実施形態と対応しており、以下に記載の特徴に加え、該装置の実施形態は図2に示すような方法の実施形態と同じまたは対応する特徴または効果を含んでもよい。該装置は具体的に様々な電子機器に適用できる。
図5に示すように、本実施形態のビデオの処理装置500は、分離ユニット501、追加ユニット502および合併ユニット503を備える。分離ユニット501は、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離するように構成され、追加ユニット502は、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得するように構成され、合併ユニット503は、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される。
本実施形態において、ビデオの処理装置500の分離ユニット501、追加ユニット502および合併ユニット503の具体的な処理およびもたらした技術的効果はそれぞれ図2の対応する実施形態におけるステップ201、ステップ202およびステップ203の関連説明を参照でき、ここで繰り返して説明しない。
本実施形態のいくつかのオプション的な実施形態において、ターゲットビデオストリームはライブビデオストリームであり、装置は、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像を分離する前に、シーン画像を受信し、シーン画像で、表示対象コンテンツの少なくとも1つの選択的表示位置を認識し、ここで、シーン画像は単一の画像またはビデオストリームであり、シーン画像とターゲットビデオストリームは同じシーンを対象としているものであるように構成される認識ユニットと、少なくとも1つの選択的表示位置に基づいて、ターゲット表示位置を確定するように構成される確定ユニットと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態において、取得ユニットはさらに、少なくとも1つの選択的表示位置に対する、位置選択情報および/または位置移動情報を含む調整情報を取得し、調整情報に基づいて、少なくとも1つの選択的表示位置を調整し、且つ調整結果をターゲット表示位置として使用することに従って、少なくとも1つの選択的表示位置に基づいてターゲット表示位置を確定することを実行するように構成される。
本実施形態のいくつかのオプション的な実施形態において、確定ユニットはさらに、シーン画像で、予め設定された図形が所在する位置を表示対象コンテンツの選択的表示位置として認識することに従って、シーン画像で、表示対象コンテンツの少なくとも1つの選択的表示位置を認識することを実行するように構成される。
本実施形態のいくつかのオプション的な実施形態において、追加ユニットはさらに、表示対象コンテンツとターゲット表示位置との間のサイズが一致しないことが確定されたことに応答して、表示対象コンテンツのサイズをターゲット表示位置のサイズに調整し、背景画像におけるターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することに従って、背景画像におけるターゲット表示位置に表示対象コンテンツを追加して処理済み背景画像を取得することを実行するように構成される。
本実施形態のいくつかのオプション的な実施形態において、認識ユニットはさらに、事前認識機能の状態がオンであることに応答して、シーン画像を受信し、シーン画像とターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さいことに従って、実行シーン画像を受信することを実行するように構成される。
本出願の実施形態によれば、本出願は電子機器と読み取り可能な記憶媒体をさらに提供する。
図6は、本出願の実施形態によるビデオの処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなどの様々な態様のデジタルコンピュータを示すことを目的とする。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを示すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで説明および/または要求した本出願の実現を限定することを意図するものではない。
図6に示すように、該電子機器は、1つまたは複数のプロセッサ601、メモリ602、および高速インターフェースおよび低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、互いに異なるバスで接続され、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行する指令を処理することができ、その指令には、インターフェースに結合される表示装置などの外部入出力装置上にGUI(GUI,Graphical User Interface)のグラフィック情報を表示するための、メモリ内またはメモリ上に格納された指令が含まれる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図6では、1つのプロセッサ601を例にする。
メモリ602は、即ち、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサによって実行可能な指令が格納され、それにより前記少なくとも1つのプロセッサに本出願によるビデオの処理方法を実行させる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願によるビデオの処理方法を実行させるためのコンピュータ指令を格納する。
メモリ602は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、およびモジュールを格納するのに用いられ、例えば本出願の実施形態におけるビデオの処理方法に対応するプログラム指令/モジュール(例えば、図5に示すような分離ユニット501、追加ユニット502および合併ユニット503)である。プロセッサ601は、メモリ602に格納された非一時的なソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施形態におけるビデオの処理方法を実現する。
メモリ602は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを格納可能なプログラム記憶領域と、ビデオ処理のための電子機器の使用に応じて作成されたデータ等を格納可能なデータ記憶領域とを含んでもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施形態では、メモリ602は、任意選択で、プロセッサ601に対して遠隔に設定されたメモリを含み、これらの遠隔に設置されたメモリは、ネットワークを介してビデオの処理方法を実行するのに適する電子機器に接続されることができる。上記のネットワークの実施形態は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網、およびそれらの組み合わせなどを含むが、これらに限定されない。
ビデオの処理方法の電子機器は、入力装置603と出力装置604を備えてもよい。プロセッサ601、メモリ602、入力装置603および出力装置604は、バスまたは他の方法で接続されてもよいが、図6にバスによる接続を例にする。
入力装置603は、入力された数字や文字情報を受信でき、ビデオの処理のための方法を実現するための電子機器のユーザ設定および機能制御に関するキー信号の入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等が例示される。出力装置604は、表示装置、補助照明装置および触覚フィードバック装置等を含むことができ、そのうち、補助照明装置は例えば発光ダイオード(Light Emitting Diode,LED)であり、触覚フィードバック装置は例えば、振動モータである。該表示装置は、液晶ディスプレイ(Liquid Crystal Display,LCD)、LEDディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも1つの入力装置および該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を利用してこれらのコンピュータプログラムを実施することができる。本明細書で、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されるシステムおよび技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、およびキーボードとポインティングデバイス(マウスやトラックボールなど)を備え、ユーザが該キーボードとポインティングデバイスを介してコンピュータに入力を提供することができる。他のタイプの装置もユーザとのインタラクションを提供するために用いられ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音入力、音声入力、または触覚入力を含む)でユーザからの入力を受信することができる。
ここでは説明されるシステムと技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザインターフェイスまたはWebブラウザを備え、ユーザが該ラフィカルユーザインターフェイスまたはWebブラウザでシステムと技術の実施形態とインタラクションできるユーザコンピュータ)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせで実施されてもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信(通信ネットワークなど)を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワークが挙げられる。
コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で、互いにクライアント/サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。
図面におけるフローチャートおよびブロック図は、本出願の複数の実施形態によるシステム、方法およびコンピュータプログラム製品の実装可能なシステムアーキテクチャ、機能および動作を示す。この点で、フローチャートまたはブロック図における各ブロックは1つのモジュール、プログラムセグメントまたはコードの一部を示し、該モジュール、プログラムセグメントまたはコードの一部は規定しているロジック機能を実装するための1つまたは複数の実行可能な指令を含む。なお、代替としてのいくつかの実装において、ブロックで付記される機能は図面に付記される順序と異なる順序で発生する場合がある。例えば、2つの連続するブロックは、実際には基本的に並行して実行することができ、関連する機能に応じて、逆の順序で実行することもできる。さらに注意すべきなのは、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行するハードウェアに基づく専用のシステムを使用して実装されてもよく、特定用途向けハードウェアとコンピュータ指令との組み合わせを使用して実装されてもよい。
本出願の実施形態に係るユニットはソフトウェアによって実装されてもよいし、ハードウェアによって実装されてもよい。記載されたユニットはプロセッサに設けられてもよく、例えば、分離ユニット、追加ユニットおよび合併ユニットを備えるプロセッサというように記載されてもよい。これらのユニットの名称はある場合で該ユニットそのものを限定しなく、例えば、分離ユニットは、「ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離するユニット」として記載されてもよい。
他の態様として、本出願はコンピュータ読み取り可能な媒体をさらに提供し、該コンピュータ読み取り可能な媒体は上記実施形態に記載の装置に含まれたものであってもよいし、該装置に組み込まずに、独立して存在するものであってもよい。上記コンピュータ読み取り可能な媒体に1つ或いは複数のプログラムが格納され、上記1つ或いは複数のプログラムは該装置によって実行される場合、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離することと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得することと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得することとを該装置に実行させる。
以上で、本出願の好ましい実施形態および用いられる技術原理を説明するものだけである。当業者は、本出願に係る発明範囲は上記の技術特徴の特定の組合わせからなる技術案に限定されなく、上記の発明構想を逸脱せずに、上記技術特徴またはその均等な特徴を任意に組み合わせて形成した他の技術案をさらに含むことを理解すべきである。例えば上記特徴と本出願に開示された類似の機能を有する技術特徴を互いに置き換えて形成した技術案(限られない)である。

Claims (15)

  1. 単一の画像またはビデオストリームであるシーン画像を受信し、前記シーン画像において表示対象コンテンツを表示するための少なくとも1つの選択的表示位置を認識することと、
    前記少なくとも1つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することと、
    ターゲットビデオストリームを取得したことと、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したこととに応答して、前記ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像とを分離することと、
    前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することと、
    前記前景画像と前記処理済み背景画像を合併して、ターゲットビデオフレームを取得することと、を含むビデオの処理方法。
  2. 前記ターゲットビデオストリームは、ライブビデオストリームであり、
    前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したことは、
    前記ライブビデオストリームにおけるシーンと前記シーン画像の両方に少なくとも一部のオブジェクトが重なっていると判断したことに応答して、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定することを含む請求項1に記載の方法。
  3. 前記の、前記少なくとも1つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することは、
    前記少なくとも1つの選択的表示位置の、位置選択情報および/または位置移動情報を含む調整情報を取得することと、
    前記調整情報に基づいて、前記少なくとも1つの選択的表示位置を調整し、且つ調整結果を前記ターゲット表示位置とすることとを含む請求項2に記載の方法。
  4. 前記の、前記シーン画像において表示対象コンテンツを表示するための少なくとも1つの選択的表示位置を認識することは、前記シーン画像において予め設定された図形が所在する位置を前記表示対象コンテンツの選択的表示位置として認識することを含む請求項2に記載の方法。
  5. 前記の、前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することは、
    前記表示対象コンテンツと前記ターゲット表示位置との間のサイズが一致しないと確定されたことに応答して、前記表示対象コンテンツのサイズを前記ターゲット表示位置のサイズに調整することと、
    前記背景画像における前記ターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することと、を含む請求項4に記載の方法。
  6. 前記の、シーン画像を受信することは、事前認識機能の状態がオンであることに応答して、シーン画像を受信することを含み、ここで、前記シーン画像と前記ターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さい請求項2に記載の方法。
  7. 単一の画像またはビデオストリームであるシーン画像を受信し、前記シーン画像において表示対象コンテンツを表示するための少なくとも1つの選択的表示位置を認識するように構成される認識ユニットと、
    前記少なくとも1つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定するように構成される確定ユニットと、
    ターゲットビデオストリームを取得したことと、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したこととに応答して、前記ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像とを分離するように構成される分離ユニットと、
    前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得するように構成される追加ユニットと、
    前記前景画像と前記処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される合併ユニットと、を備えるビデオの処理装置。
  8. 前記ターゲットビデオストリームはライブビデオストリームであり、
    前記ビデオの処理装置は、前記ライブビデオストリームにおけるシーンと前記シーン画像の両方に少なくとも一部のオブジェクトが重なっていると判断したことに応答して、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定するように構成される判定ユニットをさらに備える請求項7に記載のビデオの処理装置。
  9. 前記確定ユニットはさらに、前記の、前記少なくとも1つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することが、前記少なくとも1つの選択的表示位置の、位置選択情報および/または位置移動情報を含む調整情報を取得し、前記調整情報に基づいて前記少なくとも1つの選択的表示位置を調整し、調整の結果を前記ターゲット表示位置とすることによって実行されるように構成される請求項8に記載のビデオの処理装置。
  10. 前記認識ユニットはさらに、前記の、前記シーン画像において表示対象コンテンツを表示するための少なくとも1つの選択的表示位置を認識することが、前記シーン画像において予め設定された図形の所在位置を前記表示対象コンテンツの選択的表示位置として認識することによって実行されるように構成される請求項8に記載のビデオの処理装置。
  11. 前記追加ユニットはさらに、前記の、前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することが、前記表示対象コンテンツと前記ターゲット表示位置との間のサイズが一致しないと確定されたことに応答して、前記表示対象コンテンツのサイズを前記ターゲット表示位置のサイズに調整し、前記背景画像における前記ターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することによって実行されるように構成される請求項10に記載のビデオの処理装置。
  12. 前記認識ユニットはさらに、事前認識機能の状態がオンであることに応答して、シーン画像を受信するように構成され、前記シーン画像と前記ターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さい請求項8に記載のビデオの処理装置。
  13. 1つまたは複数のプロセッサと、1つまたは複数のプログラムを格納するための記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~6のいずれかに記載のビデオの処理方法が実装される電子機器。
  14. コンピュータプログラムが格納されたコンピュータ読み取り可能な記憶媒体であって、該コンピュータプログラムはプロセッサによって実行される際に請求項1~6のいずれかに記載のビデオの処理方法が実装されるコンピュータ読み取り可能な記憶媒体。
  15. プロセッサにより実行されると、請求項1~6のいずれか一項に記載のビデオの処理方法が実装される、コンピュータプログラム。
JP2021037984A 2020-05-27 2021-03-10 ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7270661B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010460106.5A CN111586319B (zh) 2020-05-27 2020-05-27 视频的处理方法和装置
CN202010460106.5 2020-05-27

Publications (2)

Publication Number Publication Date
JP2021190993A JP2021190993A (ja) 2021-12-13
JP7270661B2 true JP7270661B2 (ja) 2023-05-10

Family

ID=72111116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021037984A Active JP7270661B2 (ja) 2020-05-27 2021-03-10 ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11700417B2 (ja)
EP (1) EP3826309A3 (ja)
JP (1) JP7270661B2 (ja)
KR (1) KR102463304B1 (ja)
CN (1) CN111586319B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261420B (zh) * 2020-09-30 2022-07-01 北京市商汤科技开发有限公司 直播视频处理方法及相关装置
CN113225517A (zh) * 2021-04-14 2021-08-06 海信集团控股股份有限公司 多方视频通话时的视频画面确定方法及通信设备
CN115484466B (zh) * 2021-05-31 2024-09-24 海信集团控股股份有限公司 在线演唱视频的显示方法和服务器
CN113837978B (zh) * 2021-09-28 2024-04-05 北京奇艺世纪科技有限公司 图像合成方法、装置、终端设备以及可读存储介质
CN114003160B (zh) * 2021-10-29 2024-03-29 影石创新科技股份有限公司 数据可视化展示方法、装置、计算机设备和存储介质
CN114040129B (zh) * 2021-11-30 2023-12-05 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
CN114638914B (zh) * 2022-03-21 2024-09-10 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备和存储介质
CN114881901A (zh) * 2022-04-29 2022-08-09 北京字跳网络技术有限公司 视频合成方法、装置、设备、介质及产品
CN115484504A (zh) * 2022-09-14 2022-12-16 北京奇艺世纪科技有限公司 图像显示方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160065864A1 (en) 2013-04-17 2016-03-03 Digital Makeup Ltd System and method for online processing of video images in real time
WO2017056229A1 (ja) 2015-09-30 2017-04-06 楽天株式会社 情報処理装置、情報処理方法および情報処理装置用プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6972774B2 (en) * 2000-02-21 2005-12-06 Fujitsu Limited Image processing system for inserting plurality of images into composite area, and medium
US7231651B2 (en) * 2001-06-18 2007-06-12 Ta-Ching Pong System and method for insertion and modification of advertisements
JP5098259B2 (ja) * 2006-09-04 2012-12-12 株式会社ニコン カメラ
US8436891B2 (en) * 2009-09-16 2013-05-07 Disney Enterprises, Inc. Hyperlinked 3D video inserts for interactive television
US20110202603A1 (en) * 2010-02-12 2011-08-18 Nokia Corporation Method and apparatus for providing object based media mixing
CN102867418B (zh) * 2012-09-14 2014-10-22 浙江宇视科技有限公司 一种判断车牌识别准确性的方法和装置
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US10037605B2 (en) * 2016-08-23 2018-07-31 Disney Enterprises, Inc. Video object tagging using synthetic images and segmentation hierarchies
US10270934B2 (en) 2016-12-01 2019-04-23 Kyocera Document Solutions Inc. Image processing apparatus and image forming apparatus
CN107707860B (zh) * 2017-10-24 2020-04-10 南昌黑鲨科技有限公司 一种视频数据处理方法、处理装置及计算机可读存储介质
US11006154B2 (en) * 2018-04-04 2021-05-11 DISH Technologies L.L.C. Selected replacement of digital imagery portions using augmented reality
CN108965982B (zh) * 2018-08-28 2020-01-31 百度在线网络技术(北京)有限公司 视频录制方法、装置、电子设备和可读存储介质
CN110536151B (zh) * 2019-09-11 2021-11-19 广州方硅信息技术有限公司 虚拟礼物特效的合成方法和装置、直播系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160065864A1 (en) 2013-04-17 2016-03-03 Digital Makeup Ltd System and method for online processing of video images in real time
WO2017056229A1 (ja) 2015-09-30 2017-04-06 楽天株式会社 情報処理装置、情報処理方法および情報処理装置用プログラム

Also Published As

Publication number Publication date
EP3826309A3 (en) 2021-08-04
KR20210147868A (ko) 2021-12-07
US11700417B2 (en) 2023-07-11
JP2021190993A (ja) 2021-12-13
EP3826309A2 (en) 2021-05-26
US20210203859A1 (en) 2021-07-01
CN111586319A (zh) 2020-08-25
KR102463304B1 (ko) 2022-11-04
CN111586319B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
JP7270661B2 (ja) ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US9424767B2 (en) Local rendering of text in image
CN110989878B (zh) 小程序中的动画展示方法、装置、电子设备及存储介质
US11450044B2 (en) Creating and displaying multi-layered augemented reality
CN111935528B (zh) 视频生成方法和装置
US11094105B2 (en) Display apparatus and control method thereof
CN112105983B (zh) 增强的视觉能力
WO2020248711A1 (zh) 一种显示设备及内容推荐方法
CN111654746A (zh) 视频的插帧方法、装置、电子设备和存储介质
US11917329B2 (en) Display device and video communication data processing method
US20230405475A1 (en) Shooting method, apparatus, device and medium based on virtual reality space
US20220172440A1 (en) Extended field of view generation for split-rendering for virtual reality streaming
CN113747227A (zh) 视频播放方法、装置、存储介质以及电子设备
US11961190B2 (en) Content distribution system, content distribution method, and content distribution program
CN109885172B (zh) 一种基于增强现实ar的对象互动展示方法及系统
CN112153409B (zh) 直播方法、装置、直播接收端及存储介质
JP7560207B2 (ja) オブジェクトの表示方法、装置、電子機器及びコンピュータ可読型記憶媒体
CN114915798A (zh) 实时视频生成方法、多摄像头直播方法及装置
CN111601042B (zh) 图像采集方法、图像展示方法及装置
US11962743B2 (en) 3D display system and 3D display method
KR102622082B1 (ko) 디스플레이 장치, 서버, 전자 장치 및 그 제어 방법들
CN117376591A (zh) 基于虚拟现实的场景切换处理方法、装置、设备及介质
KR20240079996A (ko) 복수의 영역들 내에 미디어 콘텐트 및 사용자 인터페이스를 표시하기 위한 전자 장치 및 그 방법
CN117435041A (zh) 信息交互方法、装置、电子设备和存储介质
CN117687542A (zh) 信息交互方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230425

R150 Certificate of patent or registration of utility model

Ref document number: 7270661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150