JP7270661B2

JP7270661B2 - ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7270661B2
Application number: JP2021037984A
Authority: JP
Inventors: チュー、チャオミン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2021-03-10
Publication date: 2023-05-10
Anticipated expiration: 2041-03-10
Also published as: EP3826309A3; KR20210147868A; US11700417B2; JP2021190993A; EP3826309A2; US20210203859A1; CN111586319A; KR102463304B1; CN111586319B

Description

本出願の実施形態はコンピュータ技術分野に関し、具体的にコンピュータビジョン技術分野に関し、特にビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。

ネットワークとビデオ業界の発展に伴い、それによりキャリアされるコンテンツの表示方法も継続的に充実し、開発されてきた。近年、ライブストリームやショートビデオなどのビデオ表示形式が人々の生活の中でますます一般的になり、それらがもたらす社会的影響力もますます注目を集めている。一般的なライブストリームには、ショッピングライブストリーム、タレントライブストリームなどがある。

上記の様々な形式のビデオ画面の領域に、例えばテキスト、画像、ビデオまたは動画などの様々なコンテンツを表示できる。ビデオに上記のコンテンツを表示することで、宣伝や普及に役立ち、それにより、ビデオの表示機能を多様化することができる。

ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。

第１態様によれば、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像を分離することと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像を取得することと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得することと、を含むビデオの処理方法を提供する。

第２態様によれば、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像を分離するように構成される分離ユニットと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像を取得するように構成される追加ユニットと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される合併ユニットと、を備えるビデオの処理装置を提供する。

第３態様によれば、１つまたは複数のプロセッサと、１つまたは複数のプログラムを格納するための記憶装置と、を備え、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサにビデオの処理方法のいずれかの実施形態に記載の方法が実装される電子機器を提供する。

第４態様によれば、コンピュータプログラムが格納されたコンピュータ読み取り可能な記憶媒体であって、該コンピュータプログラムはプロセッサによって実行される際にビデオの処理方法のいずれかの実施形態に記載の方法が実装されるコンピュータ読み取り可能な記憶媒体を提供する。

第５態様によれば、コンピュータプログラムであって、コンピュータプログラムがプロセッサにより実行されると、ビデオの処理方法のいずれかの実施形態に記載の方法が実装される、コンピュータプログラムを提供する。

本出願の手段によれば、表示対象コンテンツを背景に直接レンダリングする方法を使用し、背景に表示されるコンテンツが、キャラクターなどの前景の被写体を覆い隠さないようにする。それと同時に、本出願は、ビデオ画面のエッジにのみコンテンツを表示できる単一の表示形式を回避し、ビデオにコンテンツを表示する柔軟性を向上させる。

以下の図面を参照して非限定的な実施形態に対して行われた詳細な説明を読むことによって、本出願の他の特徴、目的および利点がより明らかになる。
本出願のいくつかの実施形態を適用できる例示的なシステムアーキテクチャを示す図である。本出願によるビデオの処理方法の一実施形態を示すフローチャートである。本出願によるビデオの処理方法の１つの応用シーンを示す模式図である。本出願によるビデオの処理方法の他の実施形態を示すフローチャートである。本出願によるビデオの処理方法のシーン画像およびターゲットビデオフレームを示す模式図である。本出願によるビデオの処理装置の一実施形態を示す構造模式図である。本出願の実施形態によるビデオの処理方法を実現するための電子機器のブロック図である。

以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解に役立つため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、矛盾しない限り、本出願における実施形態および実施形態における特徴を組み合わせることができる。以下、図面を参照して実施形態を組み合わせて本出願を詳細に説明する。

図１は、本出願のビデオの処理方法またはビデオの処理装置を適用できる実施形態を示す例示的なシステムアーキテクチャ１００である。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、ネットワーク１０４およびサーバ１０３を備えてもよい。ネットワーク１０４は、端末装置１０１、１０２と、サーバ１０３との間に通信リンクを提供する媒体である。ネットワーク１０４は、様々な接続タイプ、例えば有線、無線通信リンクまたは光ファイバケーブルなどを含んでもよい。

ユーザは、メッセージ等を送受信するために、端末装置１０１、１０２を使用してネットワーク１０４を介してサーバ１０３とインタラクションすることができる。端末装置１０１、１０２には、例えばビデオアプリケーション、ライブストリームアプリケーション、インスタントメッセージングツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされてもよい。

ここでの端末装置１０１、１０２は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２がハードウェアである場合、ディスプレイを有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子ブックリーダ、ラップトップコンピュータ、デスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１、１０２がソフトウェアである場合、上記で挙げられた電子機器にインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール（例えば分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここで具体的に限定されない。実際には、端末装置１０１、１０２のうちの一方は、ライブビデオストリームを出力するためのライブストリームの端末装置であり得、他方は、ライブストリームを視聴する視聴者の端末装置であり得る。

サーバ１０３は様々なサービスを提供するサーバ、例えば端末装置１０１、１０２をサポートするライブストリームプラットホームサーバであり得る。例えば、バックエンドサーバは、端末装置１０１から取得されたターゲットビデオストリームなどのデータに対して解析などの処理を実行し、且つ処理結果（例えばターゲットビデオフレーム）を端末装置１０２に送信してもよい。

なお、本出願の実施形態によるビデオの処理方法はサーバ１０３或いは端末装置１０１、１０２により実行されてもよく、それに対応して、ビデオの処理装置はサーバ１０３或いは端末装置１０１、１０２に設けられてもよい。

図１における端末装置、ネットワークおよびサーバの数は例示的なものにすぎないことを理解すべきである。実装の必要性に応じて、任意の数の端末装置、ネットワークおよびサーバを備えることができる。

次に、図２を参照し、本出願によるビデオの処理方法の一実施形態を示すフロー２００が示されている。該ビデオの処理方法は、以下のステップを含む。

ステップ２０１、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離する。

本実施形態において、ビデオの処理方法が実行される実行主体（例えば図１に示すようなサーバまたは端末装置）はこの電子機器或いは他の電子機器からターゲットビデオストリームを取得したことに応答して、取得されたターゲットビデオストリームにおけるビデオフレームに対して前景と背景との分離を実行し、それにより、前景画像と背景画像とを分離することができる。取得されたターゲットビデオストリームはユーザ（例えばアンカー）の端末装置からこの電子機器に送信されたものであってもよい。ターゲットビデオフレームから分離された前景画像と背景画像のサイズは、いずれも該ビデオフレームのサイズと同じである。本実施形態におけるターゲットビデオストリームは、ライブビデオストリームまたは記録されたビデオストリームであり得る。

ステップ２０２、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得する。

本実施形態において、上記実行主体は分離された背景画像における上記ターゲット表示位置に、表示対象コンテンツを追加し、且つ追加結果を処理済み背景画像として使用することができる。上記実行主体は様々な方法で追加処理することができ、例えば、表示対象コンテンツを背景画像におけるターゲット表示位置に対して、カバー、置換または上位レイヤーに配置するという処理を行うことができる。

上記実行主体は上記ターゲット表示位置を取得することができる。表示対象コンテンツは、様々なコンテンツ、例えば画像、文字或いはビデオなどであり得る。具体的に、表示対象コンテンツは、宣伝用のスローガン、普及用の広告などであり得る。ターゲット表示位置は、画像における座標位置、例えばターゲット表示位置が所在する領域のエッジ（輪郭）の座標、および／または中心点の座標として表現されることができる。なお、ターゲット表示位置にはターゲット表示位置が所在する領域の幅、高さなどの情報を含んでもよい。

実際には、上記実行主体は様々な方法でターゲット表示位置を取得することができる。例えば上記実行主体はこの電子機器或いは他の電子機器からターゲット表示位置を直接取得してもよい。該ターゲット表示位置は予め設定されたものであってもよいし、上記の他の電子機器により生成されたものであってもよい。なお、上記実行主体はこの電子機器からターゲット表示位置をリアルタイムで生成することもでき、具体的に、ランダムに生成してもよいし、所定のルールに従って生成してもよく、例えば画像のエッジとある頂点（左上の頂点または右上の頂点）を表示対象コンテンツの一部のエッジと１つの頂点として、表示対象コンテンツのサイズに合致するターゲット表示位置を生成する。

ステップ２０３、前景画像と処理済み背景画像を合併して、ターゲットビデオフレームを取得する。

本実施形態において、上記実行主体は分離された前景画像と上記処理済み背景画像とを合併して、且つ合併結果をターゲットビデオフレームとして使用することができる。実際には、上記実行主体は、ビデオ画面における表示対象コンテンツの安定性を確保するために、取得されたターゲットビデオストリームにおけるビデオフレームのそれぞれに対してステップ２０１、２０２および２０３を実行してもよい。

本出願の上記実施形態による方法は、背景に表示されるコンテンツが、キャラクターなどの前景の被写体を覆い隠さないようにするために、表示対象コンテンツを背景に直接レンダリングする方法を使用してもよい。それと同時に、上記実施形態はビデオ画面のエッジにのみコンテンツを表示できる単一の表示形式を回避し、ビデオにコンテンツを表示する柔軟性が向上された。

次に、図３を参照し、図３は本実施形態によるビデオの処理方法の応用シーンを示す一模式図である。図３の応用シーンでは、実行主体３０１は、ターゲットビデオストリーム３０２の取得に応答して、ターゲットビデオストリーム３０２におけるビデオフレームから前景画像３０３と背景画像３０４を分離する。背景画像３０４におけるターゲット表示位置に、表示対象コンテンツを追加し、処理済み背景画像３０５を取得する。該ターゲット表示位置は矩形領域（ｘ，ｙ，ｈ，ｗ）であり、ｘ，ｙはターゲット表示位置の中心点であり、ｈ，ｗはターゲット表示位置の高さおよび幅である。前景画像３０３と処理済み背景画像３０５とを合併して、ターゲットビデオフレーム３０６を取得する。

図４Ａを更に参照し、ビデオの処理方法の他の実施形態のフロー４００が示されている。ここで、ターゲットビデオストリームはライブビデオストリームである。該フロー４００は以下のステップを含む。

ステップ４０１、シーン画像を受信し、シーン画像で、表示対象コンテンツの少なくとも１つの選択的表示位置（ａｌｔｅｒｎａｔｉｖｅｄｉｓｐｌａｙｐｏｓｉｔｉｏｎ）を認識し、前記シーン画像は単一の画像またはビデオストリームであり、前記シーン画像におけるシーンは前記ターゲットビデオストリームにおけるシーンと同じシーンである。

本実施形態において、ビデオの処理方法が実行される実行主体（例えば図１に示すようなサーバまたは端末装置）はシーン画像を受信すると、該シーン画像で表示対象コンテンツの１つまたは複数の選択的表示位置を認識することができる。表示対象コンテンツはライブビデオストリームの画面に表示しようとするコンテンツである。シーン画像は、撮影されたシーンにおける実際のシーンを反映できる画像である。シーン画像は例えばライブ放送室などのライブシーンであり得る。シーン画像にアンカーなどのキャラクターが表示されなくてもよい。

実際には、上記実行主体は様々な方法で少なくとも１つの選択的表示位置を認識することができ、例えば、上記実行主体は、例えば壁や床などの大面積のカラーブロック（つまり、予め設定された面積の閾値を超える面積のカラーブロック）を認識することができ、且つ認識された大面積のカラーブロックが所在する位置を上記少なくとも１つの選択的表示位置として使用する。

シーン画像は複数の画像、即ちビデオストリームにおける各ビデオフレームであり得る。なお、シーン画像は単一の画像であってもよい。シーン画像はビデオストリームである場合、上記実行主体はビデオストリームにおける１つのビデオフレームを選択して認識し、上記少なくとも１つの選択的表示位置を取得することができる。或いは、上記実行主体は、ビデオストリームにおける複数のビデオフレームを認識して、且つ各認識結果のうちの同じオブジェクトを対象とする認識結果に対して位置の平均値を確定し、且つ各オブジェクトに対して確定された位置の平均値を上記少なくとも１つの選択的表示位置として使用してもよい。なお、上記実行主体は、ビデオストリームにおける複数のビデオフレームを認識し、且つすべての認識結果をいずれも上記少なくとも１つの選択的表示位置として使用してもよい。

オプション的に、上記シーン画像はターゲット端末装置のユーザ向けではなくてもよく、ここでのターゲット端末装置のユーザはライブ視聴者を指し、つまり、該シーン画像をライブ視聴者のターゲット端末装置に送信しないため、ライブ視聴者が上記シーン画像を見えない。それに対応して、上記ターゲットビデオストリームは上記ターゲット端末装置のユーザ向けのビデオストリームであり得る。

上記シーン画像と上記ターゲットビデオストリームの両方は、同じライブ放送室で撮影された、つまり同じシーンで撮影されたものである。具体的に、上記実行主体或いは他の電子機器は、両方に少なくとも一部のオブジェクト（例えばエッジに近いオブジェクトは、一般的に人間などのライブストリームの主体を含まない）が重なっているか否かを判断することによって、両方が同じシーンを対象としているか否かを判断する。重なっていると判断されると、両方が同じシーンを対象としていると判定する。なお、シーン画像とターゲットビデオストリームを生成して送信する電子機器の識別子が同じものであると、上記実行主体は、上記シーン画像と上記ターゲットビデオストリームの両方が同じシーンを対象としていると判定してもよい。

ステップ４０２、少なくとも１つの選択的表示位置に基づいて、ターゲット表示位置を確定する。

本実施形態において、上記実行主体は上記少なくとも１つの選択的表示位置に基づいて、ターゲット表示位置を確定することができる。該ターゲット表示位置はシーン画像における表示位置である。実際には、上記実行主体は様々な方法で上記少なくとも１つの選択的表示位置に基づいてターゲット表示位置を確定し、例えば上記実行主体は認識された１つの選択的表示位置をターゲット表示位置として直接確定してもよい。なお、上記実行主体は少なくとも１つの選択的表示位置のうちの、最初に認識された選択的表示位置をターゲット表示位置としてもよい。

ステップ４０３、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像を分離する。

本実施形態において、上記実行主体は、本電子機器或いは他の電子機器からターゲットビデオストリームを取得したことに応答して、取得されたターゲットビデオストリームにおけるビデオフレームに対して前景と背景との分離を行い、それにより、前景画像と背景画像とを分離する。取得されたターゲットビデオストリームはユーザデバイスから本電子機器に送信されたものであり得る。ビデオフレームから分離された前景画像と背景画像のサイズは、いずれも該ビデオフレームのサイズと同じである。

ステップ４０４、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得する。

本実施形態において、上記実行主体は分離された背景画像における上記ターゲット表示位置に、表示対象コンテンツを追加し、且つ追加結果を処理済み背景画像として使用することができる。上記実行主体は様々な方法で処理することができ、例えば、表示対象コンテンツを背景画像におけるターゲット表示位置に対して、カバー、置換または上位レイヤーに配置するという処理を行うことができる。

ステップ４０５、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得する。

本実施形態において、上記実行主体は分離された前景画像と上記処理済み背景画像とを合併して、且つ合併結果をターゲットビデオフレームとして使用することができる。

図４Ｂに示すように、左図はシーン画像であり、該画像に壁掛け時計がある。右図はライブビデオストリームを受信した後に生成されたターゲットビデオフレームであり、ターゲットビデオフレームにおけるターゲット表示位置は、上記シーン画像における壁掛け時計が所在する位置である。

本実施形態は、ライブストリームの開始前に、ライブ放送室の実シーン画像を取得することができ、それにより、ライブ放送室の実状況に基づいて、ターゲット表示位置を確定することができ、ターゲット表示位置とライブ放送室の実シーンとの一致性が向上される。

本実施形態のいくつかのオプション的な実施形態において、ステップ４０２は、少なくとも１つの選択的表示位置に対する、位置選択情報および／または位置移動情報を含む調整情報を取得することと、調整情報に基づいて、少なくとも１つの選択的表示位置を調整し、且つ調整結果をターゲット表示位置として使用することと、を含んでもよい。

これらのオプション的な実施形態において、上記実行主体は選択的表示位置に対する調整情報を取得することができる。ここでの調整情報はライブストリームプラットホームのユーザ（例えば、ライブストリームプラットホームの運用・メンテナンス作業員）により設定されることができる。さらに、上記実行主体は、調整情報に基づいて、調整情報によって示される表示位置を選択し、および／または選択的表示位置を移動して移動済み表示位置を取得することで、上記少なくとも１つの選択的表示位置の調整を実現することができる。なお、調整結果に含まれた選択的表示位置の数が表示対象コンテンツの数を超えると、上記実行主体は調整結果をさらに調整してもよく、例えば、表示対象コンテンツの数と一致する表示位置を所定のルールに従うか或いはランダムで選択し、調整を終了し、且つ最終的な調整結果をターゲット表示位置として使用する。

上記調整情報は、少なくとも１つの選択的表示位置から選択された１つまたは複数の選択的表示位置を表してもよく、少なくとも１つの選択的表示位置のうちの１つ以上の選択的表示位置に対する位置移動情報を表してもよい。位置移動情報はこれらの１つ以上の選択的表示位置、およびこれらの１つ以上の選択的表示位置のそれぞれの移動先位置を含み得る。

これらの実施形態は、ユーザによる表示位置への調整を実現することができ、それにより、表示位置がユーザの希望を満たすものになる。

本実施形態のいくつかのオプション的な実施形態において、ステップ４０１におけるシーン画像で、表示対象コンテンツの少なくとも１つの選択的表示位置を認識することは、シーン画像で、予め設定された図形が所在する位置を表示対象コンテンツの選択的表示位置として認識することを含んでもよい。

これらのオプション的な実施形態において、上記実行主体はシーン画像で予め設定された図形が所在する位置を認識することができる。ここでの予め設定された図形は、例えば円形、矩形、台形などの様々な図形であり得る。ここでの円形はシーン画像内の壁掛け時計であり得、矩形はシーン画像内のフォトフレームであり得、台形はシーン画像内の植木鉢であり得る。これらの実施形態において、予め設定された図形を認識することによって認識された選択的表示位置は、認識された一部の選択的表示位置或いはすべての選択的表示位置であり得、即ち、上記少なくとも１つの選択的表示位置のうちの一部の選択的表示位置またはすべての選択的表示位置である。

これらの実施形態は特定の図形の位置を表示コンテンツの位置として認識することができ、ライブストリームユーザへの表示にもたらす興味性を増加することに役立つ。

これらの実施形態のいくつかのオプション的な応用シーンにおいて、ステップ４０４は、表示対象コンテンツとターゲット表示位置との間のサイズが一致しないことが確定されたことに応答して、表示対象コンテンツのサイズをターゲット表示位置のサイズに調整することと、背景画像におけるターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することと、を含んでもよい。

これらの応用シーンでは、上記実行主体は、表示対象コンテンツのサイズとターゲット表示位置のサイズが一致しない場合、調整された表示対象コンテンツのサイズがターゲット表示位置のサイズと同じくなるように、表示対象コンテンツのサイズを調整することができる。

これらの応用シーンは、表示対象コンテンツのサイズを調整することによって、表示対象コンテンツとターゲット表示位置を一致させることができ、より優れた表示効果を取得することに役立つ。

本実施形態のいくつかのオプション的な実施形態において、上記ステップ４０１におけるシーン画像を受信することは、事前認識機能の状態がオンであることに応答して、シーン画像を受信することを含んでもよく、シーン画像とターゲットビデオストリームとの間の撮影時間間隔は所定の間隔閾値よりも小さい。

これらのオプション的な実施形態において、上記実行主体は、事前認識機能の状態がオンである場合、シーン画像を受信することができる。事前認識機能とは、アンカーがライブストリームを行う前、即ちターゲットビデオストリームを取得する前に、ターゲット表示位置を予め認識する機能を指す。

上記実行主体は、本電子機器の事前認識機能のオン／オフ状態を示すパラメータ（例えば１または０）を有してもよい。

これらの実施形態は、事前認識機能の状態に基づいて、表示位置の事前識別を実行するか否かを制御し、且つ撮影時間の間隔を限定することによって、認識された表示位置とライブ放送室内の対応する位置との一致性を確保することができる。

図５を更に参照し、上記各図に示すような方法の実装として、本出願はビデオの処理装置の一実施形態を提供し、該装置の実施形態は図２に示すような方法の実施形態と対応しており、以下に記載の特徴に加え、該装置の実施形態は図２に示すような方法の実施形態と同じまたは対応する特徴または効果を含んでもよい。該装置は具体的に様々な電子機器に適用できる。

図５に示すように、本実施形態のビデオの処理装置５００は、分離ユニット５０１、追加ユニット５０２および合併ユニット５０３を備える。分離ユニット５０１は、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離するように構成され、追加ユニット５０２は、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得するように構成され、合併ユニット５０３は、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される。

本実施形態において、ビデオの処理装置５００の分離ユニット５０１、追加ユニット５０２および合併ユニット５０３の具体的な処理およびもたらした技術的効果はそれぞれ図２の対応する実施形態におけるステップ２０１、ステップ２０２およびステップ２０３の関連説明を参照でき、ここで繰り返して説明しない。

本実施形態のいくつかのオプション的な実施形態において、ターゲットビデオストリームはライブビデオストリームであり、装置は、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像を分離する前に、シーン画像を受信し、シーン画像で、表示対象コンテンツの少なくとも１つの選択的表示位置を認識し、ここで、シーン画像は単一の画像またはビデオストリームであり、シーン画像とターゲットビデオストリームは同じシーンを対象としているものであるように構成される認識ユニットと、少なくとも１つの選択的表示位置に基づいて、ターゲット表示位置を確定するように構成される確定ユニットと、をさらに備える。

本実施形態のいくつかのオプション的な実施形態において、取得ユニットはさらに、少なくとも１つの選択的表示位置に対する、位置選択情報および／または位置移動情報を含む調整情報を取得し、調整情報に基づいて、少なくとも１つの選択的表示位置を調整し、且つ調整結果をターゲット表示位置として使用することに従って、少なくとも１つの選択的表示位置に基づいてターゲット表示位置を確定することを実行するように構成される。

本実施形態のいくつかのオプション的な実施形態において、確定ユニットはさらに、シーン画像で、予め設定された図形が所在する位置を表示対象コンテンツの選択的表示位置として認識することに従って、シーン画像で、表示対象コンテンツの少なくとも１つの選択的表示位置を認識することを実行するように構成される。

本実施形態のいくつかのオプション的な実施形態において、追加ユニットはさらに、表示対象コンテンツとターゲット表示位置との間のサイズが一致しないことが確定されたことに応答して、表示対象コンテンツのサイズをターゲット表示位置のサイズに調整し、背景画像におけるターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することに従って、背景画像におけるターゲット表示位置に表示対象コンテンツを追加して処理済み背景画像を取得することを実行するように構成される。

本実施形態のいくつかのオプション的な実施形態において、認識ユニットはさらに、事前認識機能の状態がオンであることに応答して、シーン画像を受信し、シーン画像とターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さいことに従って、実行シーン画像を受信することを実行するように構成される。

本出願の実施形態によれば、本出願は電子機器と読み取り可能な記憶媒体をさらに提供する。

図６は、本出願の実施形態によるビデオの処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなどの様々な態様のデジタルコンピュータを示すことを目的とする。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを示すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで説明および／または要求した本出願の実現を限定することを意図するものではない。

図６に示すように、該電子機器は、１つまたは複数のプロセッサ６０１、メモリ６０２、および高速インターフェースおよび低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、互いに異なるバスで接続され、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行する指令を処理することができ、その指令には、インターフェースに結合される表示装置などの外部入出力装置上にＧＵＩ（ＧＵＩ，ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）のグラフィック情報を表示するための、メモリ内またはメモリ上に格納された指令が含まれる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図６では、１つのプロセッサ６０１を例にする。

メモリ６０２は、即ち、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも１つのプロセッサによって実行可能な指令が格納され、それにより前記少なくとも１つのプロセッサに本出願によるビデオの処理方法を実行させる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願によるビデオの処理方法を実行させるためのコンピュータ指令を格納する。

メモリ６０２は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、およびモジュールを格納するのに用いられ、例えば本出願の実施形態におけるビデオの処理方法に対応するプログラム指令／モジュール（例えば、図５に示すような分離ユニット５０１、追加ユニット５０２および合併ユニット５０３）である。プロセッサ６０１は、メモリ６０２に格納された非一時的なソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施形態におけるビデオの処理方法を実現する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを格納可能なプログラム記憶領域と、ビデオ処理のための電子機器の使用に応じて作成されたデータ等を格納可能なデータ記憶領域とを含んでもよい。また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施形態では、メモリ６０２は、任意選択で、プロセッサ６０１に対して遠隔に設定されたメモリを含み、これらの遠隔に設置されたメモリは、ネットワークを介してビデオの処理方法を実行するのに適する電子機器に接続されることができる。上記のネットワークの実施形態は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網、およびそれらの組み合わせなどを含むが、これらに限定されない。

ビデオの処理方法の電子機器は、入力装置６０３と出力装置６０４を備えてもよい。プロセッサ６０１、メモリ６０２、入力装置６０３および出力装置６０４は、バスまたは他の方法で接続されてもよいが、図６にバスによる接続を例にする。

入力装置６０３は、入力された数字や文字情報を受信でき、ビデオの処理のための方法を実現するための電子機器のユーザ設定および機能制御に関するキー信号の入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等が例示される。出力装置６０４は、表示装置、補助照明装置および触覚フィードバック装置等を含むことができ、そのうち、補助照明装置は例えば発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＬＥＤ）であり、触覚フィードバック装置は例えば、振動モータである。該表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，ＬＣＤ）、ＬＥＤディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムに実装され、該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも１つの入力装置および該少なくとも１つの出力装置に伝送することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語を利用してこれらのコンピュータプログラムを実施することができる。本明細書で、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されるシステムおよび技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）、およびキーボードとポインティングデバイス（マウスやトラックボールなど）を備え、ユーザが該キーボードとポインティングデバイスを介してコンピュータに入力を提供することができる。他のタイプの装置もユーザとのインタラクションを提供するために用いられ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音入力、音声入力、または触覚入力を含む）でユーザからの入力を受信することができる。

ここでは説明されるシステムと技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム（例えば、グラフィカルユーザインターフェイスまたはＷｅｂブラウザを備え、ユーザが該ラフィカルユーザインターフェイスまたはＷｅｂブラウザでシステムと技術の実施形態とインタラクションできるユーザコンピュータ）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせで実施されてもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信（通信ネットワークなど）を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワークが挙げられる。

コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で、互いにクライアント／サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。

図面におけるフローチャートおよびブロック図は、本出願の複数の実施形態によるシステム、方法およびコンピュータプログラム製品の実装可能なシステムアーキテクチャ、機能および動作を示す。この点で、フローチャートまたはブロック図における各ブロックは１つのモジュール、プログラムセグメントまたはコードの一部を示し、該モジュール、プログラムセグメントまたはコードの一部は規定しているロジック機能を実装するための１つまたは複数の実行可能な指令を含む。なお、代替としてのいくつかの実装において、ブロックで付記される機能は図面に付記される順序と異なる順序で発生する場合がある。例えば、２つの連続するブロックは、実際には基本的に並行して実行することができ、関連する機能に応じて、逆の順序で実行することもできる。さらに注意すべきなのは、ブロック図および／またはフローチャートにおける各ブロック、並びにブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行するハードウェアに基づく専用のシステムを使用して実装されてもよく、特定用途向けハードウェアとコンピュータ指令との組み合わせを使用して実装されてもよい。

本出願の実施形態に係るユニットはソフトウェアによって実装されてもよいし、ハードウェアによって実装されてもよい。記載されたユニットはプロセッサに設けられてもよく、例えば、分離ユニット、追加ユニットおよび合併ユニットを備えるプロセッサというように記載されてもよい。これらのユニットの名称はある場合で該ユニットそのものを限定しなく、例えば、分離ユニットは、「ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離するユニット」として記載されてもよい。

他の態様として、本出願はコンピュータ読み取り可能な媒体をさらに提供し、該コンピュータ読み取り可能な媒体は上記実施形態に記載の装置に含まれたものであってもよいし、該装置に組み込まずに、独立して存在するものであってもよい。上記コンピュータ読み取り可能な媒体に１つ或いは複数のプログラムが格納され、上記１つ或いは複数のプログラムは該装置によって実行される場合、ターゲットビデオストリームの取得に応答して、ターゲットビデオストリームのビデオフレームから前景画像と背景画像とを分離することと、背景画像におけるターゲット表示位置に、表示対象コンテンツを追加して、処理済み背景画像を取得することと、前景画像と処理済み背景画像とを合併して、ターゲットビデオフレームを取得することとを該装置に実行させる。

以上で、本出願の好ましい実施形態および用いられる技術原理を説明するものだけである。当業者は、本出願に係る発明範囲は上記の技術特徴の特定の組合わせからなる技術案に限定されなく、上記の発明構想を逸脱せずに、上記技術特徴またはその均等な特徴を任意に組み合わせて形成した他の技術案をさらに含むことを理解すべきである。例えば上記特徴と本出願に開示された類似の機能を有する技術特徴を互いに置き換えて形成した技術案（限られない）である。

Claims

単一の画像またはビデオストリームであるシーン画像を受信し、前記シーン画像において表示対象コンテンツを表示するための少なくとも１つの選択的表示位置を認識することと、
前記少なくとも１つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することと、
ターゲットビデオストリームを取得したことと、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したこととに応答して、前記ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像とを分離することと、
前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することと、
前記前景画像と前記処理済み背景画像を合併して、ターゲットビデオフレームを取得することと、を含むビデオの処理方法。
前記ターゲットビデオストリームは、ライブビデオストリームであり、
前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したことは、
前記ライブビデオストリームにおけるシーンと前記シーン画像の両方に少なくとも一部のオブジェクトが重なっていると判断したことに応答して、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定することを含む請求項１に記載の方法。
前記の、前記少なくとも１つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することは、
前記少なくとも１つの選択的表示位置の、位置選択情報および／または位置移動情報を含む調整情報を取得することと、
前記調整情報に基づいて、前記少なくとも１つの選択的表示位置を調整し、且つ調整結果を前記ターゲット表示位置とすることとを含む請求項２に記載の方法。
前記の、前記シーン画像において表示対象コンテンツを表示するための少なくとも１つの選択的表示位置を認識することは、前記シーン画像において予め設定された図形が所在する位置を前記表示対象コンテンツの選択的表示位置として認識することを含む請求項２に記載の方法。
前記の、前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することは、
前記表示対象コンテンツと前記ターゲット表示位置との間のサイズが一致しないと確定されたことに応答して、前記表示対象コンテンツのサイズを前記ターゲット表示位置のサイズに調整することと、
前記背景画像における前記ターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することと、を含む請求項４に記載の方法。
前記の、シーン画像を受信することは、事前認識機能の状態がオンであることに応答して、シーン画像を受信することを含み、ここで、前記シーン画像と前記ターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さい請求項２に記載の方法。
単一の画像またはビデオストリームであるシーン画像を受信し、前記シーン画像において表示対象コンテンツを表示するための少なくとも１つの選択的表示位置を認識するように構成される認識ユニットと、
前記少なくとも１つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定するように構成される確定ユニットと、
ターゲットビデオストリームを取得したことと、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定したこととに応答して、前記ターゲットビデオストリームにおけるビデオフレームから前景画像と背景画像とを分離するように構成される分離ユニットと、
前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得するように構成される追加ユニットと、
前記前景画像と前記処理済み背景画像とを合併して、ターゲットビデオフレームを取得するように構成される合併ユニットと、を備えるビデオの処理装置。
前記ターゲットビデオストリームはライブビデオストリームであり、
前記ビデオの処理装置は、前記ライブビデオストリームにおけるシーンと前記シーン画像の両方に少なくとも一部のオブジェクトが重なっていると判断したことに応答して、前記ターゲットビデオストリームにおけるシーンと前記シーン画像におけるシーンとが同じシーンであると判定するように構成される判定ユニットをさらに備える請求項７に記載のビデオの処理装置。
前記確定ユニットはさらに、前記の、前記少なくとも１つの選択的表示位置に基づいて、前記表示対象コンテンツを表示するためのターゲット表示位置を確定することが、前記少なくとも１つの選択的表示位置の、位置選択情報および／または位置移動情報を含む調整情報を取得し、前記調整情報に基づいて前記少なくとも１つの選択的表示位置を調整し、調整の結果を前記ターゲット表示位置とすることによって実行されるように構成される請求項８に記載のビデオの処理装置。
前記認識ユニットはさらに、前記の、前記シーン画像において表示対象コンテンツを表示するための少なくとも１つの選択的表示位置を認識することが、前記シーン画像において予め設定された図形の所在位置を前記表示対象コンテンツの選択的表示位置として認識することによって実行されるように構成される請求項８に記載のビデオの処理装置。
前記追加ユニットはさらに、前記の、前記背景画像における、前記シーン画像の前記ターゲット表示位置に対応する位置に表示対象コンテンツを追加し、処理済み背景画像を取得することが、前記表示対象コンテンツと前記ターゲット表示位置との間のサイズが一致しないと確定されたことに応答して、前記表示対象コンテンツのサイズを前記ターゲット表示位置のサイズに調整し、前記背景画像における前記ターゲット表示位置に、調整された表示対象コンテンツを追加し、処理済み背景画像を取得することによって実行されるように構成される請求項１０に記載のビデオの処理装置。
前記認識ユニットはさらに、事前認識機能の状態がオンであることに応答して、シーン画像を受信するように構成され、前記シーン画像と前記ターゲットビデオストリームとの間の撮影時間間隔が所定の間隔閾値よりも小さい請求項８に記載のビデオの処理装置。
１つまたは複数のプロセッサと、１つまたは複数のプログラムを格納するための記憶装置と、を備え、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～６のいずれかに記載のビデオの処理方法が実装される電子機器。
コンピュータプログラムが格納されたコンピュータ読み取り可能な記憶媒体であって、該コンピュータプログラムはプロセッサによって実行される際に請求項１～６のいずれかに記載のビデオの処理方法が実装されるコンピュータ読み取り可能な記憶媒体。
プロセッサにより実行されると、請求項１～６のいずれか一項に記載のビデオの処理方法が実装される、コンピュータプログラム。