JP7479750B2

JP7479750B2 - 仮想ビデオライブ放送処理方法及び装置、電子機器

Info

Publication number: JP7479750B2
Application number: JP2023521162A
Authority: JP
Inventors: ▲紹▼明朱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-26
Filing date: 2021-10-14
Publication date: 2024-05-09
Anticipated expiration: 2041-10-14
Also published as: US11991423B2; WO2022111110A1; JP2023545050A; CN112543342B; US20230033378A1; EP4195668A4; EP4195668A1; CN112543342A

Description

本願は仮想ビデオライブ放送の技術分野に関し、具体的には、仮想ビデオライブ放送処理技術に関する。

本願は、２０２０年１１月２６日に中国特許庁に提出された、出願番号が第２０２０１１３５６９９５．７号、出願の名称が「仮想ビデオライブ放送処理方法及び装置、記憶媒体、電子機器」である中国特許出願の優先権を主張し、その全内容が引用によって本願に組み込まれている。

通信技術の発展に伴い、ネットワークの通信帯域幅は大幅に向上し、ビデオライブ放送技術も日々成熟し、様々な面で応用されている。同時に、人工知能技術の発展に伴い、テキスト音声合成（ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳ）技術と画像合成技術も人々の研究のホットスポットとなっている。ビデオライブ放送技術と人工知能技術との組合せ（たとえば、仮想ビデオライブ放送技術）は、たとえば、実在の人物のかわりにニュース仮想放送を行うことや、ゲームアンカーのかわりにゲームの仮想解説を行うなどの多くの場面で役割を果たすことができ、期待できる将来の応用可能性を有する。

仮想ビデオライブ放送技術では、オーディオと映像の生成には大量の計算時間を消費する必要があり、仮想ビデオライブ放送のリアルタイム性を保証するために、仮想ビデオのリアルタイムストリームプッシュの実現は最終的なライブ放送ビデオの品質に影響する重要な要素となる。現在のビデオのリアルタイムライブ放送方法は、ほとんどが既存の安定したオーディオ、映像データ入力（たとえば、ローカルビデオストリームプッシュ）、又はオーディオ、映像データを迅速に取得できる（たとえば、カメラでデータを取得する）などの応用シーンに対してなされるものである。

なお、上記背景技術部分に開示されている情報は単に本願の背景の理解を深めることに用いられ、従って、当業者に対して周知の従来技術を構成しない情報を含むことができる。

本願の目的は、仮想ビデオライブ放送処理方法、仮想ビデオライブ放送処理装置、電子機器及びコンピュータ可読記憶媒体を提供することであり、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できると同時に、従来の仮想ビデオライブ放送技術がハード切り替え方法を採用してビデオ中断処理を行うことによってビデオがギクシャクすることを引き起こすなどの問題をある程度克服し、仮想ビデオライブ放送の滑らかさを向上させる。

本願の第１態様によれば、仮想ビデオライブ放送処理方法を提供し、前記方法は電子機器により実行され、前記方法は、テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定するステップと、前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュするステップと、ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定するステップと、前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュするステップと、を含む。

本願の第２態様によれば、仮想ビデオライブ放送処理装置を提供し、前記装置は電子機器に搭載され、前記装置は、テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定することに用いられるデータ決定モジュールと、前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられる第１ビデオ合成モジュールと、ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられる中断応答モジュールと、前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュすることに用いられる第２ビデオ合成モジュールと、を含む。

本願の１つの例示的な実施例では、前記データ決定モジュールは、前記テキストデータに関する関連テキストデータを決定し、前記テキストデータと前記関連テキストデータをターゲットテキストとすることに用いられるターゲットテキスト決定ユニットと、前記ターゲットテキストを対応するターゲット単語ベクトルに転換し、前記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、前記ターゲット単語ベクトルのオーディオ特徴を生成することに用いられるオーディオ特徴生成ユニットと、前記オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成することに用いられるオーディオデータ生成ユニットと、前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づきビデオ出力画像を生成することに用いられる画像生成ユニットと、を含む。

本願の１つの例示的な実施例では、画像生成ユニットは、前記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成することに用いられる顔画像生成ユニットと、前記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定ユニットであって、前記背景画像は前記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、背景画像決定ユニットと、前記顔画像と前記背景画像とに対して画像融合処理を行うことによって、前記ビデオ出力画像を生成することに用いられる画像融合ユニットと、を含む。

本願の１つの例示的な実施例では、背景画像決定ユニットは、前記顔画像の時系列に揃えられた前記オーディオデータのオーディオ時間長さを決定することに用いられるオーディオ時間長さ決定サブユニットと、前記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定することに用いられるビデオ時間長さ決定サブユニットと、前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、背景画像決定サブユニットは、前記ビデオ時間長さにおける前記出力ビデオに含まれる前記仮想オブジェクトのオブジェクト動作数を決定し、前記オブジェクト動作数に基づき前記背景画像セットから同数のグループの背景画像を、前記顔画像にマッチングする背景画像として決定するように構成される。

本願の１つの例示的な実施例では、中断応答モジュールは、前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定することに用いられるターゲット画像決定ユニットと、前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定することに用いられるターゲットオーディオ決定ユニットと、前記ターゲットビデオ画像及び前記ターゲットオーディオデータを前記ターゲットビデオデータとすることに用いられるビデオデータ決定ユニットと、を含む。

本願の１つの例示的な実施例では、ターゲット画像決定ユニットは、前記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定することに用いられる時間長さ判断サブユニットと、前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定することに用いられるターゲット画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、ターゲット画像決定サブユニットは、前記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ前記残りビデオ出力画像の残り画像数を決定し、前記残り画像数及び前記画像フレームレートに基づき前記フレームスキップ歩長を決定することに用いられるフレームスキップ歩長決定サブユニットと、時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定することに用いられる画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、画像決定サブユニットは、前記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、前記時間順序に従い前記最初フレーム画像から開始し、前記フレームスキップ歩長おきに前記残りビデオ出力画像の中から中間画像を決定し、前記最初フレーム画像、前記中間画像及び前記最終フレーム画像を前記ターゲットビデオ画像とするように構成される。

本願の１つの例示的な実施例では、ターゲット画像決定ユニットはさらに、前記フレームスキップ歩長に基づき前記ターゲットビデオ画像のターゲット画像数を決定し、前記残りビデオ出力画像のうち隣接する２つの画像間の画像類似度を決定し、前記画像類似度に基づき前記残りビデオ出力画像の中から前記ターゲット画像数を超えない前記ターゲットビデオ画像を決定するように構成され得る。

本願の１つの例示的な実施例では、ターゲットオーディオ決定ユニットは、前記残りオーディオデータの残りオーディオ時間長さを決定し、前記残りオーディオ時間長さが前記時間長さ閾値よりも大きければ、前記残りオーディオデータを削除し、前記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、前記ターゲット画像フレーム時間長さに基づき前記ターゲットオーディオデータを生成するように構成される。

本願の１つの例示的な実施例では、前記中断応答モジュールはさらにアニメーション生成サブユニットを含み、アニメーション生成サブユニットは、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の１番目のビデオ出力画像を第１中断画像とし、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の最後の１つのビデオ出力画像を第２中断画像とし、前記第１中断画像及び前記第２中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成するように構成される。

本願の第３態様によれば、仮想ビデオライブ放送処理用の電子機器を提供し、プロセッサと、前記プロセッサの実行可能命令を記憶することに用いられるメモリと、を含み、ここで、前記プロセッサは、前記実行可能命令を実行することを経由して上記いずれか一項に記載の方法を実行するように構成される。

本願の第４態様によれば、コンピュータ可読記憶媒体を提供し、それにコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると上記いずれか一項に記載の方法を実現する。

本願の第５態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品が実行されると、上記いずれか一項に記載の方法を実現することに用いられる。

本願の例示的な実施例は、以下の一部又はすべての有益な効果を有してもよい。

本願の１つの例示的な実施形態が提供する仮想ビデオライブ放送処理では、テキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする過程では、ライブ放送中断要求を受信すると、ライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、それによってターゲットビデオデータに基づき中断移行ビデオストリームを合成する。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。

理解できるように、以上の一般的な説明及び後述の詳細な説明は単に例示的で解釈的なものであり、本願を制限するものではない。

ここでの図面は明細書に組み込まれ、且つ本明細書の一部を構成し、本願に合った実施例を示し、且つ明細書とともに本願の原理を解釈することに用いられる。明らかなように、以下の説明における図面は単に本願のいくつかの実施例であり、当業者であれば、創造的な労働をしない前提で、さらにこれらの図面に基づき他の図面を取得できる。

本願の実施例における画像融合方法及び装置を応用できる例示的なシステムアーキテクチャの模式図を示す。本願の実施例における電子機器を実現することに適用できるコンピュータシステムの構造模式図を示す。本願の一実施例に係る仮想ビデオライブ放送処理方法のフローチャートを模式的に示す。本願の一実施例に係る仮想ビデオライブ放送サービスの全体フレームワーク図を模式的に示す。本願の一実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。本願の別の実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。本願の一実施例に係るターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成するフローチャートを模式的に示す。本願の一実施例に係る中断移行アニメーションを生成するフローチャートを模式的に示す。本願の一実施例に係る仮想ビデオストリームプッシュサービスの実現フレームワーク図を模式的に示す。本願の一実施例に係る仮想ビデオライブ放送処理装置の構造図を模式的に示す。

ここで、図面を参照しながら例示的な実施形態をより全面的に説明する。しかしながら、例示的な実施形態は様々な形式で実施でき、且つここで述べた例に限定されないと理解すべきである。反面、これらの実施形態を提供することによって、本願はより全面的かつ完全になり、且つ例示的な実施形態の発想を当業者に全面的に伝える。説明される特徴、構造又は特性は任意の適切な方式で１つ又はより多くの実施形態に組み合わせることができる。以下の説明では、多くの具体的な詳細を提供することで、本願の実施形態に対する十分な理解を与える。しかしながら、当業者が認識できるように、本願の技術的手段を実践する際に上記特定の詳細の１つ又はより多くを省略してもよいか、又は他の方法、要素、装置、ステップなどを採用してもよい。他の状況では、周知の技術的手段を詳細に示さないか、又は説明しないことで、主客転倒して本願の各態様を曖昧にしてしまうことを回避する。

また、図面は単に本願の模式的なプロットであり、必ずしも縮尺に従って描かれるものではない。図における同じ符号は同じ、又は類似する部分を示し、したがって、それらについての重複説明を省略する。図面に示されるいくつかのブロック図は機能実体であり、必ずしも物理的又は論理的に独立した実体と対応しない。ソフトウェア形式を採用してこれらの機能実体を実現するか、又は１つ又は複数のハードウェアモジュール又は集積回路においてこれらの機能実体を実現するか、又は異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置においてこれらの機能実体を実現することができる。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を利用して人間の知能をシミュレート、拡大及び拡張し、環境を感知し、知識を取得し、且つ知識を使用して最適結果を取得する理論、方法、技術及びアプリケーションシステムである。換言すれば、人工知能はコンピュータ科学の１つの総合的な技術であり、それは知能の本質を把握し、且つ人間の知能と類似する方式で反応できる１つの新しいインテリジェント機械を生み出すことを図る。つまり、人工知能は各種のインテリジェント機械の設計原理及び実現方法を研究して機械に感知、推理及び意思決定の機能を付与するものである。

人工知能技術は１つの総合的な学科であり、関連する分野が広く、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基礎技術は一般的には、たとえばセンサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの主要な方向を含む。

本願の実施例が提供する手段は人工知能の仮想ビデオライブ放送処理などの技術に関し、具体的に以下の実施例をもって説明を行う。

図１は、本願の実施例における仮想ビデオライブ放送処理方法及び装置を応用できる例示的な応用環境のシステムアーキテクチャの模式図を示す。

図１に示すように、システムアーキテクチャ１００は端末機器１０１、１０２、１０３のうちの１つ又は複数、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は端末機器１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供することに用いられる媒体である。ネットワーク１０４はたとえば有線、無線通信リンク又は光ファイバーケーブルなどの各種の接続タイプを含んでもよい。端末機器１０１、１０２、１０３はディスプレイスクリーンを有する各種の電子機器であってもよく、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン及びタブレットコンピュータなどを含むが、これらに限定されない。理解できるように、図１における端末機器、ネットワーク及びサーバの数は単に例示的なものである。実現のニーズに応じて、任意数の端末機器、ネットワーク及びサーバを有し得る。たとえば、サーバ１０５は複数のサーバからなるサーバクラスターなどであり得る。

本願の実施例が提供する仮想ビデオライブ放送処理方法は一般的にはサーバ１０５により実行され、相応には、仮想ビデオライブ放送処理装置は一般的には、サーバ１０５内に設置される。しかし、当業者が容易に理解できるように、本願の実施例が提供する仮想ビデオライブ放送処理方法は端末機器１０１、１０２、１０３により実行されてもよく、他の端末機器に仮想ライブ放送処理サービスを提供し、相応には、仮想ビデオライブ放送処理装置も端末機器１０１、１０２、１０３内に設置されてもよく、本例示的な実施例ではこれを特に限定しない。たとえば、１つの例示的な実施例では、ユーザーは端末機器１０１、１０２、１０３によってテキストデータをサーバ１０５にアップロードし、サーバは本願の実施例が提供する仮想ビデオライブ放送処理方法によってテキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリーム及び中断移行ビデオストリームを生成し、且つライブ放送ビデオストリーム及び中断移行ビデオストリームを端末機器１０１、１０２、１０３などに伝送する。

図２は本願の実施例における電子機器を実現することに適用できるコンピュータシステムの構造模式図を示す。

なお、図２に示される電子機器のコンピュータシステム２００は単に一例であり、本願の実施例の機能及び使用範囲にいかなる制限をももたらすべきではない。

図２に示すように、コンピュータシステム２００は中央処理ユニット（ＣＰＵ）２０１を含み、それは読み出し専用メモリ（ＲＯＭ）２０２に記憶されるプログラム又は記憶部分２０８からランダムアクセスメモリ（ＲＡＭ）２０３にロードされるプログラムに基づき各種の適切な動作及び処理を実行することができる。ＲＡＭ２０３には、システム操作に必要な各種のプログラム及びデータがさらに記憶されている。ＣＰＵ２０１、ＲＯＭ２０２及びＲＡＭ２０３はバス２０４によって互いに結合される。入力／出力（Ｉ／Ｏ）インタフェース２０５もバス２０４に接続される。

以下の部材はＩ／Ｏインタフェース２０５に接続される。キーボード、マウスなどを含む入力部分２０６、たとえば陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など及びスピーカなどを含む出力部分２０７、ハードディスクなどを含む記憶部分２０８、並びに、たとえばＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部分２０９が挙げられる。通信部分２０９はたとえばインターネットのようなネットワークを経由して通信処理を実行する。ドライバ２１０も必要に応じてＩ／Ｏインタフェース２０５に接続される。たとえば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体２１１は、必要に応じてドライバ２１０に取り付けられることで、それから読み出したコンピュータプログラムは必要に応じて記憶部分２０８にインストールされる。

特に、本願の実施例によれば、以下、フローチャートを参照して説明される過程はコンピュータソフトウェアプログラムとして実現され得る。たとえば、本願の実施例は１つのコンピュータプログラム製品を含み、それはコンピュータ可読媒体に搭載されるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信部分２０９によってネットワークからダウンロード及びインストールされるか、及び／又はリムーバブル媒体２１１からインストールされるようにしてもよい。該コンピュータプログラムが中央処理ユニット（ＣＰＵ）２０１により実行されると、本願の方法及び装置に限定される各種の機能を実行する。いくつかの実施例では、コンピュータシステム２００はさらにＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサを含んでもよく、該ＡＩプロセッサは機械学習に関する計算操作を処理することに用いられる。

なお、本願に示すコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、たとえば電気、磁気、光、電磁、赤外線、又は半導体システム、装置又はデバイス、又は任意の以上の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクト磁気ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含んでもよいが、これらに限定されない。本願では、コンピュータ可読記憶媒体はプログラムを含むか又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用されるか又はそれと組み合わせて使用されるようにしてもよい。一方、本願では、コンピュータ可読信号媒体はベースバンドにおいて、又は搬送波の一部として伝播するデータ信号を含んでもよく、それにはコンピュータ可読プログラムコードが搭載されている。このような伝播するデータ信号は様々な形式を採用でき、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置又はデバイスに使用されるか、又はそれと組み合わせて使用されるためのプログラムを送信、伝播又は伝送できる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送でき、無線、ワイヤ、ケーブル、ＲＦなど、又は上記任意の適切な組み合わせを含むが、これらに限定されない。

図面におけるフローチャート及びブロック図は、本願の各種の実施例におけるシステム、方法及びコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能及び操作を図示する。この点では、フローチャート、又はブロック図における各ブロックは１つのモジュール、プログラムセグメント、又はコードの一部を表す代表、上記モジュール、プログラムセグメント、又はコードの一部は所定のロジック機能を実現することに用いられる１つ、又は複数の実行可能命令を含む。なお、置換としてのいくつかの実現では、ブロックにおいてマークされる機能は図面においてマークされる順序とは異なる順序で発生してもよい。たとえば、連続して示される２つのブロックは実際には基本的に並行して実行されてもよく、場合によってそれらは反対の順序で実行されてもよく、これは関連する機能次第である。なお、ブロック図、又はフローチャートにおける各ブロック、及びブロック図、又はフローチャートにおけるブロックの組み合わせは、所定の機能、又は操作を実行するハードウェアに基づく専用システムを用いて実現されてもよいか、又は専用ハードウェアとコンピュータ命令との組み合わせを用いて実現されてもよい。

本願の実施例において説明される係るユニットはソフトウェア方式により実現されてもよく、ハードウェア方式により実現されてもよく、説明されるユニットはプロセッサ内に設置されてもよい。ここで、場合によってはこれらのユニットの名称は該ユニット自体に対する限定を構成しない。

別の態様として、本願はさらにコンピュータ可読媒体を提供し、該コンピュータ可読媒体は上記実施例において説明された電子機器に含まれてもよく、単独で存在し、該電子機器内に組み立てなくてもよい。上記コンピュータ可読媒体には１つ又は複数のプログラムが搭載されており、上記１つ、又は複数のプログラムが１つの該電子機器により実行されると、該電子機器に下記実施例に記載の方法を実現させる。たとえば、上記電子機器は図３～図９に示す各ステップなどを実現できる。

以下、本願の実施例の技術的手段を詳細に述べる。

仮想ビデオライブ放送技術では、主にオーディオ及び画像に基づき対応するライブ放送ビデオストリームを生成し、且つライブ放送ビデオストリームをライブ放送クライアントにリアルタイムにプッシュし、ここで、ライブ放送クライアントは図１に示す端末機器１０１、１０２、１０３にインストールされてもよい。オーディオ及び画像の生成過程では、大量の計算時間を消費する必要があり、仮想ビデオライブ放送のリアルタイム性を保証するために、仮想ビデオのリアルタイムストリームプッシュの実現は最終的なライブ放送ビデオの品質に影響する重要な要素となる。現在のビデオのリアルタイムライブ放送方法はほとんどが既存の安定したオーディオ、映像データ入力（たとえば、ローカルビデオストリームプッシュ）、又はオーディオ、映像データを迅速に取得できる（たとえば、カメラでデータを取得する）などの応用シーンに対してなされるものである。

しかしながら、これらの安定したデータソースは仮想ビデオライブ放送においては良好に応用できず、同時に、ライブ放送のリアルタイム性に影響しない前提では、従来の仮想ライブ放送ビデオ技術はほとんどビデオ中断平滑移行処理をサポートしていない。仮想ビデオライブ放送過程では、ライブ放送中断要求を受信すると、通常、ハード切り替えの方式によってライブ放送中断要求を処理するか、又は現在のビデオの再生が完了するまで中断処理を行わないままである。

仮想ビデオライブ放送過程では、ハード切り替えの方式を採用して中断要求を処理すると、ライブ放送ビデオにギクシャクする現象が出現することを引き起こすことになり、現在のビデオ動作と次のビデオ動作との間の平滑移行を実現できない。また、ビデオライブ放送過程では、中断処理を行わなければ、ユーザーはライブ放送ビデオのリアルタイムな応答を感じることができない。

上記１つ又は複数の問題に基づいて、本例示的な実施形態は仮想ビデオライブ放送処理方法を提供する。該仮想ビデオライブ放送処理方法は上記サーバ１０５に応用されてもよく、上記端末機器１０１、１０２、１０３のうちの１つ又は複数に応用されてもよく、本例示的な実施例ではこれを特に限定しない。図３を参照して示すように、該仮想ビデオライブ放送処理方法は以下のステップＳ３１０～ステップＳ３４０を含んでもよい。

ステップＳ３１０：テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定する。

ステップＳ３２０：合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする。

ステップＳ３３０：ライブ放送中断要求を受信すると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する。

ステップＳ３４０：ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。

本例示的な実施形態が提供する仮想ビデオライブ放送処理方法では、テキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする過程では、ライブ放送中断要求を受信すると、ライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、それによってターゲットビデオデータに基づき中断移行ビデオストリームを合成する。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。

以下、本例示的な実施形態の上記ステップをより詳細に説明する。

ステップＳ３１０では、テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定する。

本例示的な実施形態では、テキストデータは合成すべきビデオデータを生成する根拠となるテキストデータであってもよく、テキストデータは仮想オブジェクトがライブ放送ビデオ中に発話しようとする文字であってもよい。たとえば、ユーザーはライブ放送クライアントを通して自らテキストデータを入力してもよく、ユーザーはさらにライブ放送クライアントにより提供される多数の候補テキストか相応なテキストデータを選択してもよく、テキストデータはさらにサーバに予め記憶されたテキストデータであってもよい。合成すべきビデオデータは仮想ビデオライブ放送過程でライブ放送ビデオストリームの生成が依存する関連ビデオデータであってもよい。たとえば、合成すべきビデオデータは画像データ、オーディオデータ及びアニメーションデータなどを含んでもよく、ここで、画像データは仮想オブジェクトの顔特徴、肢体動作及び仮想オブジェクトに対応する環境背景を含む画像であってもよい。オーディオデータはシミュレートされた人間の声であってもよく、仮想オブジェクトのビデオ出力画像にマッチングすることに用いられる。アニメーションデータはいくつかの特定のイベントに基づき生成されるアニメーションであってもよい。

仮想ビデオライブ放送を行うときに、仮想ビデオライブ放送サーバ端末（たとえば、サーバ）はまずテキストデータを取得し、テキストデータを取得した後に、テキストデータに基づき対応する合成すべきビデオデータを決定してもよい。図４に参照されるように、図４は本願の一実施例に係る仮想ビデオライブ放送サービスの全体フレームワーク図を模式的に示す。仮想ビデオライブ放送サービスはライブ放送クライアント４１０と仮想ビデオライブ放送サーバ端末４２０とを含んでもよく、仮想ビデオライブ放送サーバ端末４２０にはテキスト音声変換モジュール４２１と、三次元レンダリングモジュール４２２と、ビデオストリームプッシュモジュール４２３とが含まれてもよい。テキストデータを取得するときに、仮想ビデオライブ放送サーバ端末４２０はライブ放送クライアント４１０によってユーザーが入力、又は選択したテキストデータを取得でき、仮想ビデオライブ放送サーバ端末４２０はさらにサーバ端末データベースに予め記憶されたテキストデータを取得できる。仮想ビデオライブ放送サーバ端末４２０はテキストデータを取得した後に、テキストデータに基づき対応する合成すべきビデオデータを生成できる。

たとえば、下記ステップによってテキストデータに対応する合成すべきビデオデータを決定できる。

本願の１つの例示的な実施例では、テキストデータに関する関連テキストデータを決定し、テキストデータ及び関連テキストデータをターゲットテキストとし、ターゲットテキストを対応するターゲット単語ベクトルに転換し、ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、ターゲット単語ベクトルのオーディオ特徴を生成し、オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成し、ターゲットテキストに対応する表情特徴データを決定し、且つ表情特徴データに基づきビデオ出力画像を生成する。

ここで、関連テキストデータはテキストデータに関するテキストデータであってもよい。たとえば、いくつかのヒューマンマシンインタラクションシーンでは、テキストデータが「製品Ａはどのように使用するか」であるとき、関連テキストデータは製品Ａの具体的な使用説明に対応するテキストであってもよい。ターゲットテキストはテキストデータ及びそれに関する関連テキストデータを含んでもよく、たとえば、テキストデータと関連テキストデータとを接合してターゲットテキストを生成できる。ターゲット単語ベクトルはターゲットテキストに対してベクトル化処理を行って生成されたベクトルであってもよい。オーディオ特徴はターゲット単語ベクトルからオーディオデータへの変換に対応するキーの特徴であってもよく、たとえば、オーディオ特徴は短時間ゼロクロスレート、短時間エネルギー、及びスペクトル重心などを含んでもよい。オーディオデータはテキストデータに対してテキスト音声変換処理を経て生成された対応するオーディオであってもよい。表情特徴データはテキストデータと対応するライブ放送ビデオ中の仮想オブジェクトの顔表情特徴であってもよい。ビデオ出力画像はライブ放送ビデオに対応するビデオ画像であってもよい。

テキストデータを取得した後に、該テキストデータに関する関連テキストデータを決定し、且つテキストデータ及び関連テキストデータをターゲットテキストとするようにしてもよい。図４に参照されるように、仮想ビデオライブ放送サーバ端末４２０はテキスト音声変換モジュール４２１によってターゲットテキストに対してテキスト音声変換処理を行ってもよく、テキスト音声変換モジュールには１つの訓練後のテキスト音声変換モデルが含まれてもよく、すなわち、１つの初期深層学習テキスト音声変換モデルを予め構築し、深層学習方法を採用して該初期テキスト音声変換モデルを訓練し、訓練が完了した後に、訓練後のテキスト音声変換モデルを得る。ターゲットテキストを訓練済みのテキスト音声変換モデルに入力した後に、まず、ターゲットテキストを対応するターゲット単語ベクトルに転換でき、たとえば、ターゲットテキストは１文であってもよく、ターゲットテキストに対して単語分割を行い、各単語に対応する単語ベクトル、すなわちターゲット単語ベクトルを決定できる。ターゲット単語ベクトルを得た後に、ターゲット単語ベクトルに対して符号化処理を行って中間語意識別子を得ることができ、さらに復号処理によってターゲット単語ベクトルのオーディオ特徴を得て、オーディオ合成アルゴリズムを採用して、得たオーディオ特徴に対して合成処理を行い、ターゲットテキストに対応するオーディオデータを生成できる。

また、テキスト音声変換モジュール４２１はさらにターゲットテキストに基づき対応する表情特徴データを生成でき、対応する表情特徴データの生成は下記の技術的手段によって実現できる。ターゲットテキストのオーディオデータに基づきライブ放送ビデオ中の仮想オブジェクトの口部キーポイントを予測し、口部キーポイントに対して正規化処理を行って口部キーポイントを標準顔テンプレートに適応させ、正規化処理を経た口部キーポイントに対して次元削減処理を行い、対応する仮想オブジェクトの口形特徴を得て、ターゲットテキストに対して語意分析を行い、ターゲットテキストが表す語意を得て、ターゲットテキストが表す語意に基づき、語意にマッチングする表情特徴データを決定し、それによって後続では表情特徴データに基づき対応するビデオ出力画像を生成できる。

本願の１つの例示的な実施例では、表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成し、顔画像にマッチングする背景画像を決定し、背景画像は仮想オブジェクトの肢体動作情報及び環境背景情報を含み、顔画像及び背景画像に対して画像融合処理を行うことによって、ビデオ出力画像を生成する。

ここで、顔画像はライブ放送ビデオ中の仮想オブジェクトに対応する顔画像であってもよい。背景画像は仮想オブジェクトの顔画像に対応し、且つ仮想オブジェクトの他の特徴を含む画像であってもよく、たとえば、背景画像は仮想オブジェクトの肢体動作情報、及びビデオ出力画像の生成に対応する環境背景情報を含んでもよい。ビデオ出力画像は仮想オブジェクトの顔画像、肢体動作、及び現在対応している環境背景を含む画像であってもよい。

図４に参照されるように、テキスト音声変換モジュール４２１はテキストデータに対してテキスト転換処理を行い、且つ合成すべきビデオデータを生成した後に、生成した合成すべきビデオデータを三次元レンダリングモジュール４２２にプッシュでき、三次元レンダリングモジュール４２２は合成すべきビデオデータ中の表情特徴データに対してレンダリング処理を行うことができ、すなわち、仮想オブジェクトの口形特徴及び表情特徴データを組み合わせて仮想オブジェクトの顔特徴を形成し、顔特徴に基づき仮想オブジェクトに対応する顔画像を生成する。三次元レンダリングモジュールでは、三次元レンダリングと融合には非常に時間がかかり、従って、すべての表情特徴データを入力するときに、直ちにすべての融合後の画像を得ることができず、ストリーミングの形で融合後の画像を１組ずつ得る。

表情特徴データに対してレンダリング処理を行って顔画像を生成するときには、オープングラッフィクスライブラリ（ＯｐｅｎＧｒａｐｈｉｃｓＬｉｂｒａｒｙ、ＯｐｅｎＧＬ）ツールを採用して実現できる。たとえば、ＯｐｅｎＧＬの幾何プリミティブからデータを設定して、仮想オブジェクトの顔輪郭形状を構築することに用いられる。入力された口形特徴、表情特徴データなどのプリミティブデータに対して計算を行い、顔キーポイントの位置、色などの他のレンダリング属性を判断し、入力されたプリミティブの数学的記述をスクリーン位置に対応する画素フラグメントに転換し、すなわち、ラスタライズ処理を行う。ラスタライズで生じた各フラグメントに対してフラグメントシェーダーを実行し、それによってフラグメントおきの色及び位置を決定し、また、いくつかの付加的な操作によって各フラグメントに対応するオブジェクトが可視であるかいなかを判断するか、又は該フラグメントの色と現在のスクリーンの色とを融合することができる。

顔画像を生成した後に、顔画像に基づきそれに対応する背景画像を決定できる。仮想オブジェクトの顔画像とそれぞれに対応する背景画像とに対して画像融合処理を行った後に、ライブ放送ビデオ中の仮想オブジェクトに対応するビデオ出力画像を生成でき、各ビデオ出力画像は仮想オブジェクトの１つの時刻における肢体動作及び現在時刻の対応する環境背景に対応できる。顔画像と背景画像とを融合して１つの完全なビデオ出力画像を形成することは畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）によって実現できる。

本願の１つの例示的な実施例では、顔画像の時系列に揃えられたオーディオデータのオーディオ時間長さを決定し、オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定し、ビデオ時間長さに基づき、予め記憶された背景画像セットから顔画像にマッチングする背景画像を決定する。

ここで、オーディオ時間長さはターゲットテキストに基づき生成されるオーディオデータの再生時間長さであってもよい。出力ビデオは合成すべきビデオデータに対してビデオ合成処理を行った後にライブ放送クライアントにストリームプッシュされたライブ放送ビデオであってもよい。ビデオ時間長さは出力ビデオの再生時間長さであってもよい。背景画像セットは予め設定された、各種の異なるカテゴリの背景画像を記憶することに用いられる画像セットであってもよい。

生成されたオーディオデータは表情データに基づき生成されたビデオ出力画像と時系列に揃えられ、従って、顔画像に対応する背景画像を決定するときに、まず顔画像の時系列に揃えられたオーディオデータを決定し、且つ該オーディオデータに対応するオーディオ時間長さを決定することができる。オーディオデータとビデオ出力画像に対して合成処理を行って出力ビデオを生成でき、従って、オーディオ時間長さに基づき出力ビデオのビデオ時間長さを算出でき、出力ビデオのビデオ時間長さとオーディオデータのオーディオ時間長さは等しい。ビデオ時間長さを決定した後に、予め記憶された背景画像セットを取得でき、ビデオ時間長さに基づき背景画像セットから背景画像を選ぶ。

本願の１つの例示的な実施例では、ビデオ時間長さにおける出力ビデオに含まれる仮想オブジェクトのオブジェクト動作数を決定し、オブジェクト動作数に基づき背景画像セットから同数のグループの背景画像を、顔画像にマッチングする背景画像として決定する。

ここで、オブジェクト動作数は合成すべきビデオデータに基づき決定されるライブ放送ビデオ中の仮想オブジェクトが行う肢体動作の数であってもよい。顔画像に基づき背景画像を決定する具体的な過程は、出力ビデオのビデオ時間長さに基づき該出力ビデオに含まれる仮想オブジェクトのオブジェクト動作数を決定でき、たとえば、出力ビデオにｎ個の仮想オブジェクトの動作が含まれ、背景画像セットに予め保存された汎用背景画像の中からｎ組の適切な背景画像を選択して顔画像にマッチングできることを含んでもよい。各組の背景画像はいずれも１つの完全な動作に対応でき、ｎ組の背景画像は仮想オブジェクトが完了しようとするｎ個の動作に対応でき、ｎ組の背景画像はちょうど仮想ビデオの終了時にｎ個の動作を完了できる。各組の動作に対応する背景画像は同じ画像であってもよく、それによって仮想ビデオの自然なつながりを保証する。

ステップＳ３２０では、合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする。

本例示的な実施形態では、ライブ放送ビデオストリームは合成すべきビデオデータに対してビデオ合成処理を行って生成されたビデオストリームであってもよく、ライブ放送ビデオストリームはビデオストリームプッシュモジュールによってライブ放送クライアントにリアルタイムにプッシュできる。仮想ライブ放送ビデオサーバ端末はライブ放送ビデオストリームを生成した後に、ライブ放送ビデオストリームをライブ放送クライアントにプッシュしてリアルタイムに再生できる。ライブ放送クライアントはライブ放送ビデオストリームを受信し、且つライブ放送ビデオストリームに基づきライブ放送クライアントに仮想ライブ放送ビデオをリアルタイムに表示することに用いられ得る。ライブ放送中断要求は仮想ライブ放送過程で仮想ビデオライブ放送サーバ端末が受信する中断要求であってもよい。ライブ放送中断要求は現在リアルタイムにライブ放送している仮想ライブ放送ビデオを中断することに用いられ得る。

図４に参照されるように、仮想ビデオライブ放送サーバ端末４２０におけるビデオストリームプッシュモジュール４２３は、合成すべきビデオデータを受信した後に、合成すべきビデオデータに対してビデオ合成処理を行い、ライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアント４１０にプッシュでき、それによってライブ放送クライアント４１０はライブ放送ビデオストリームに基づき仮想ライブ放送ビデオをリアルタイムに表示する。ライブ放送クライアント４１０がライブ放送ビデオストリームを取得し、且つライブ放送ビデオストリームに対応する仮想ライブ放送ビデオをリアルタイムに表示することは、以下の技術的手段によって実現できる。仮想ビデオライブ放送サーバ端末４２０はライブ放送ビデオストリームを相応なストリームメディア再生アドレスのストリームメディアインタフェースにプッシュし、それによってライブ放送クライアント４１０はストリームメディア再生アドレスに基づいてライブ放送ビデオストリームをプルし、且つライブ放送クライアント４１０のユーザーインタフェースを通して、リアルタイムに合成される仮想ライブ放送ビデオをリアルタイムに表示する。

仮想ビデオライブ放送サーバ端末がライブ放送クライアントにライブ放送ビデオストリームをプッシュすると同時に、ユーザーはライブ放送クライアントを通して仮想ビデオライブ放送サーバ端末にライブ放送中断要求を送信でき、仮想ビデオライブ放送サーバ端末はライブ放送中断要求を受信すると、ライブ放送中断要求に対する処理の過程を行うことができる。ユーザーは仮想ビデオライブ放送中の仮想オブジェクトとインタラクションでき、仮想オブジェクトがライブ放送を行っているときに、ユーザーはライブ放送クライアントを通して音声を録音できるか、又は文字を入力でき、ライブ放送クライアントはユーザーからのフィードバックを受信すると、ライブ放送中断要求を生成する。たとえば、ユーザーは仮想オブジェクトに「製品Ａはどのように使用するか」を訪ね、仮想オブジェクトがリアルタイムなライブ放送によって「製品Ａの使用説明」を紹介するときに、ユーザーはライブ放送クライアントを通して「わかった」と答え、このときに、ライブ放送クライアントは１つのライブ放送中断要求を生成し、且つ該ライブ放送中断要求を仮想ビデオライブ放送サーバ端末に送信する。

ステップＳ３３０では、ライブ放送中断要求を受信すると、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する。

本例示的な実施形態では、ライブ放送ビデオストリームを合成していない合成すべきビデオデータは、仮想ビデオライブ放送サーバ端末がライブ放送中断要求を受信した後にまだビデオ合成処理を行っていない合成すべきビデオデータであってもよい。ライブ放送ビデオストリームを合成していない合成すべきビデオデータは三次元レンダリングモジュールによるレンダリング処理を経たが、まだビデオストリームプッシュモジュールによるビデオ合成処理を経ていないビデオデータであってもよい。ターゲットビデオデータは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータから決定されるビデオデータであってもよく、ターゲットビデオデータはライブ放送中断要求後の対応する中断移行ビデオストリームを生成するビデオデータことに用いられ得る。たとえば、ターゲットビデオデータは、ターゲットビデオ画像及びターゲットオーディオデータなどを含んでもよい。

仮想ビデオライブ放送サーバ端末がライブ放送中断要求を受信した後に、三次元レンダリングモジュールはライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定でき、それによってターゲットビデオデータに基づき対応するライブ放送ビデオストリームを生成する。

本願の１つの例示的な実施例では、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ残りビデオ出力データに基づきターゲットビデオ画像を決定し、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中から残りオーディオデータを決定し、且つ残りオーディオデータ、及びターゲットビデオ画像に基づきターゲットオーディオデータを決定し、ターゲットビデオ画像及びターゲットオーディオデータをターゲットビデオデータとする。

ここで、残りビデオ出力データは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータに含まれるビデオ出力データであってもよく、残りビデオ出力データは残りビデオ出力画像を含んでもよい。残りオーディオデータは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータに含まれるオーディオデータであってもよい。残りビデオ出力データ及び残りオーディオデータは、いずれもまだビデオ合成処理を行っていない合成すべきビデオデータである。

仮想ビデオライブ放送サーバ端末は、ライブ放送中断要求を受信した後に、ライブ放送ビデオストリームを合成していない合成すべきビデオからそれぞれ残りビデオ出力データ及び残りオーディオデータを決定し、残りビデオ出力データに基づきターゲットビデオ画像を決定し、残りオーディオデータ及びターゲットビデオ画像に基づきターゲットオーディオデータを決定し、且つターゲットビデオ画像及びターゲットオーディオデータをターゲットビデオデータとすることができる。

本願の１つの例示的な実施例では、残りビデオ出力画像に対応する残り画像フレーム時間長さを決定し、残り画像フレーム時間長さが時間長さ閾値よりも大きいか否かを判断し、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する。

ここで、残りビデオ出力画像は、ライブ放送ビデオストリームを合成していないビデオ出力画像であってもよく、残りビデオ出力画像の数をＦと記してもよい。残り画像フレーム時間長さはこれらの残りビデオ出力画像の再生に対応する時間長さであってもよく、Ｔと記してもよい。時間長さ閾値は予め設定された、残り画像フレーム時間長さと比較することに用いられる数値であってもよい。フレームスキップ歩長は残りビデオ出力画像からターゲットビデオ画像を選択することに採用されるビデオフレームの歩長であってもよく、Ｓと記してもよい。ターゲットビデオ画像はライブ放送中断要求後の仮想ライブ放送ビデオを生成するために採用されるビデオ画像であってもよい。

ライブ放送中断要求を受信した後に、仮想ビデオライブ放送サーバ端末における三次元レンダリングモジュールは、残りビデオ出力画像に対してフレームスキップ圧縮処理を行うことによってターゲットビデオデータを決定できる。図５に参照されるように、図５は本願の一実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。図５は残りビデオ出力画像に対してフレームスキップ圧縮処理を行うプロセスを示す。具体的には下記ステップを含んでもよい。ステップＳ５１０では、ビデオ出力画像に対応する残り画像フレーム時間長さを決定し、且つ決定した残り画像フレーム時間長さを予め設定された時間長さ閾値と比較する。ステップＳ５２０では、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、それによってフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する。残り画像フレーム時間長さが時間長さ閾値未満であれば、現在のビデオ動作が所定の時間長さ内に初期位置に復帰でき、次のテキストビデオ動作との間で平滑移行を行うことができることを示し、この場合、フレームスキップ圧縮処理を行わず、フレームスキップ圧縮処理ステップを終了する。

本願の１つの例示的な実施例では、フレームスキップ歩長を決定する可能な実現方式は、残りビデオ出力画像に対応する画像フレームレートを取得し、且つ残りビデオ出力画像の残り画像数を決定し、残り画像数及び画像フレームレートに基づきフレームスキップ歩長を決定することであってもよい。フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する実現方式は、時間順序に従い、且つフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定してもよい。ここで、画像フレームレートはライブ放送クライアントが１秒あたりに再生できる画像のフレーム数であってもよく、画像フレームレートはＦｐｓを採用して表してもよい。残り画像数は残りビデオ出力画像に対応する画像数であってもよい。

例を挙げると、時間長さ閾値を５００ミリ秒に設定でき、残りビデオ出力画像に対応する残り画像フレーム時間長さを計算する。残り画像フレーム時間長さは画像フレームレートに基づき決定でき、たとえば、残り画像フレーム時間長さの計算式は、Ｔ＝Ｆ／Ｆｐｓ＊１０００（ミリ秒）である。従って、算出した残り画像フレーム時間長さが５００ミリ秒未満であれば、残りビデオ出力画像に対してフレームスキップ圧縮処理を行わない。算出した残り画像フレーム時間長さが５００ミリ秒よりも大きければ、残りビデオ出力画像に対してフレームスキップ圧縮処理ステップを実行する。具体的には、フレームスキップ圧縮処理ステップは、残りビデオ出力画像の残り画像数を決定し、且つ残り出力ビデオ画像に対応する画像フレームレートを取得し、画像フレームレート及び残り画像数に基づきフレームスキップ歩長を決定できることを含んでもよく、フレームスキップ歩長の計算式は、Ｓ＝［Ｆ／（Ｆｐｓ／２）］であってもよい。フレームスキップ歩長を算出した後に、時間順序に従い、且つフレームスキップ歩長おきに残りビデオ出力画像から１つのターゲットビデオ画像を決定できる。

本願の１つの例示的な実施例では、時間順序に従い、且つフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する可能な実現方式は、残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、時間順序に従い最初フレーム画像から開始し、フレームスキップ歩長おきに残りビデオ出力画像の中から中間画像を決定し、最初フレーム画像、中間画像及び最終フレーム画像をターゲットビデオ画像とすることであってもよい。

ここで、最初フレーム画像は、時間順序に従い残りビデオ出力画像の中から決定される１フレーム目の画像であってもよい。最終フレーム画像は時間順序に従い残りビデオ出力画像の中から決定される最後のフレームの画像であってもよい。中間画像は時間順序に従い残りビデオ出力画像の中間部分に位置する画像であってもよい。

フレームスキップ歩長を算出した後に、フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定でき、具体的な過程は以下の通りである。まず、残りビデオ出力画像中の１フレーム目の画像（すなわち、最初フレーム画像）と最後の１つの画像（すなわち、最終フレーム画像）を取得する。次に、時間順序に従い、Ｓフレーム（すなわち、フレームスキップ歩長）おきに残り出力画像の中から１つの画像を中間画像として抽出し、また、さらにＳフレームおきに、このＳフレームから１つの画像を中間画像としてランダムに選んでもよい。残りビデオ出力画像のすべてに対して上記処理を行うまでこのステップを繰り返す。最後に、取得した最初フレーム画像、１つ又は複数の中間画像及び最終フレーム画像をターゲットビデオ画像としてもよい。

本願の１つの例示的な実施例では、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する。フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する方式はさらに、フレームスキップ歩長に基づきターゲットビデオ画像のターゲット画像数を決定し、残りビデオ出力画像のうち隣接する２つの画像間の画像類似度を決定し、画像類似度に基づき残りビデオ出力画像の中からターゲット画像数を超えないターゲットビデオ画像を決定することであってもよい。ここで、ターゲット画像数は残りビデオ出力画像の中から決定されるターゲットビデオ画像の数であってもよく、Ｎと記してもよい。画像類似度は残りビデオ出力画像のうち２つの隣接する画像間の類似程度であってもよい。

図６に参照されるように、図６は本願の別の実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。図６には、隣接する画像間の画像類似度に基づき残りビデオ出力画像の中からターゲットビデオ出力画像を決定する過程が示される。ステップＳ６１０では、残りビデオ出力画像に対応する残り画像フレーム時間長さと時間長さ閾値との大きさ関係を比較でき、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する。フレームスキップ歩長の計算方式は上記と同じであり、ここでは重複説明を省略する。ステップＳ６２０では、フレームスキップ歩長に基づきターゲットビデオ画像に対応するターゲット画像数を決定でき、たとえば、ターゲット画像数Ｎの計算式はＮ＝［Ｆ／Ｓ］であってもよい。ステップＳ６３０では、残りビデオ出力画像のうち隣接する２つの画像間の画像類似度を計算し、且つ画像類似度に基づき残りビデオ出力画像の中からターゲット画像数を超えないターゲットビデオ画像をスクリーニングする。たとえば、連続する第１数の残りビデオ出力画像のうち、２つの連続する画像間の画像類似度がいずれも９５％よりも大きければ、これらの連続する第１数の残りビデオ出力画像の中から１つの画像をターゲットビデオ画像としてスクリーニングできる。すべての残りビデオ出力画像に対する上記判断が完了するまで、該ステップを繰り返して実行し、決定したターゲットビデオ画像の数がターゲット画像数を超えないようにする。

本願の１つの例示的な実施例では、残りオーディオデータ及びターゲットビデオ画像に基づきターゲットオーディオデータを決定する可能な実現方式は、残りオーディオデータの残りオーディオ時間長さを決定し、残りオーディオ時間長さが時間長さ閾値よりも大きいか否かを判断し、残りオーディオ時間長さが時間長さ閾値よりも大きければ、残りオーディオデータを削除し、ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、ターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成することであってもよい。ここで、残りオーディオ時間長さは残りオーディオデータに対応する時間長さであってもよい。時間長さ閾値は予め設定された、残りオーディオ時間長さと比較することに用いられる閾値であってもよい。ターゲットオーディオデータは中断移行ビデオストリームの生成に採用されるオーディオデータであってもよい。

図７に参照されるように、図７は本願の一実施例に係るターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成するフローチャートを模式的に示す。ステップＳ７１０では、残りオーディオデータに対応する残りオーディオ時間長さを決定し、且つ残りオーディオ時間長さを時間長さ閾値と比較し、残りオーディオ時間長さと時間長さ閾値との大きさ関係を判断するようにしてもよい。ステップＳ７２０では、残りオーディオ時間長さが時間長さ閾値よりも大きければ、残りオーディオデータを削除する。ステップＳ７３０では、ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、ターゲット画像フレーム時間長さに基づき対応するターゲットオーディオデータを生成する。たとえば、残りオーディオデータを削除した後に、ターゲット画像フレーム時間長さに基づき時間長さが等しい１つのミュートオーディオＡを生成し、且つミュートオーディオＡをターゲットオーディオデータとするようにしてもよい。さらにたとえば、時間順序に従い残りオーディオデータから時間長さがターゲット画像フレーム時間長さに等しい１つのオーディオ断片をカットし、且つ音量調整処理後の該オーディオ断片をターゲットオーディオデータとするようにしてもよい。また、たとえば、仮想ライブ放送ビデオサーバ端末に１つのターゲットオーディオライブラリを予め設定してもよく、ターゲットオーディオライブラリから時間長さがターゲット画像フレーム時間長さに等しい１つのオーディオ断片をターゲットオーディオデータとして選んでもよい。

本願の１つの例示的な実施例では、ターゲットビデオデータが中断移行アニメーションを含んでいるとすると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する可能な実現方式は、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータ中の１番目のビデオ出力画像を第１中断画像とし、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータ中の最後の１つのビデオ出力画像を第２中断画像とし、上記第１中断画像及び上記第２中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成することであってもよい。ここで、第１中断画像は時間順序に従いライブ放送ビデオストリームを合成していない合成すべきビデオデータ（すなわち、残りビデオ出力画像）から決定される１フレーム目の画像であってもよい。第２中断画像は時間順序に従い残りビデオ出力画像の中から決定される最後フレームの画像であってもよい。中断移行アニメーションは第１中断画像及び第２中断画像に基づき生成されるアニメーションであってもよく、中断移行アニメーションは第１中断画像から第２中断画像に変換される移行状態を反映できる。

図８に参照されるように、図８は本願の一実施例に係る中断移行アニメーションを生成するフローチャートを模式的に示す。ステップＳ８１０では、仮想ビデオライブ放送サーバ端末はライブ放送中断要求を受信した後に、ライブ放送ビデオストリームを合成していない合成すべきビデオデータから第１中断画像を決定でき、すなわち、残りビデオ出力画像中の１番目のビデオ出力画像を第１中断画像とする。ステップＳ８２０では、仮想ビデオライブ放送サーバ端末はライブ放送ビデオストリームを合成していない合成すべきビデオデータから第２中断画像を決定でき、すなわち、残りビデオ出力画像中の最後の１つのビデオ出力画像を第２中断画像とする。ステップＳ８３０では、仮想ビデオライブ放送サーバ端末は第１中断画像及び第２中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成でき、それによって生成した中断移行アニメーション及びターゲットオーディオデータをターゲットビデオデータとする。例を挙げると、仮想ビデオライブ放送サーバ端末に移行アニメーションライブラリを設定でき、移行アニメーションライブラリにはいくつかのキー表情特徴画像に対応する移行アニメーションを予め記憶でき、第１中断画像及び第２中断画像を決定した後に、移行アニメーションライブラリからこれら２つの画像に対応し、且つ再生時間長さが予め設定された時間長さである移行アニメーションを中断移行アニメーションとしてマッチングできる。また、第１中断画像及び第２中断画像を決定した後に、さらに１つの予め設定された時間長さの中断移行アニメーションをリアルタイムに生成できる。

ステップＳ３４０では、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。

本例示的な実施形態では、中断移行ビデオストリームはターゲットビデオデータに対してビデオストリーム合成処理を行って生成されたビデオストリームであってもよい。仮想ビデオライブ放送サーバ端末はターゲットビデオデータを決定した後に、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュすることができ、それによってライブ放送クライアントは取得した中断移行ビデオストリームに対応する仮想ライブ放送ビデオリアルタイムをユーザーインタフェースに表示する。

図９に参照されるように、図９は本願の一実施例に係る仮想ビデオストリームプッシュサービスの実現フレームワーク図を模式的に示す。図９において、仮想ビデオストリームプッシュサービスはテキスト音声変換モジュールと、三次元レンダリングモジュールと、ビデオストリームプッシュモジュールと、を含んでもよい。

ライブ放送クライアントが仮想ビデオライブ放送サーバ端末にテキストデータを送信するときに、ライブ放送クライアントが送信するテキストデータは仮想ライブ放送ビデオ中の仮想オブジェクトが発話しようとする文字であってもよく、また、あるいくつかのシーンでは、ライブ放送クライアントが送信するテキストデータは仮想オブジェクトが発話しようとする文字の一部であってもよく、従って、該テキストデータに対応する関連テキストデータを決定し、且つターゲットテキストを決定することができる。

仮想ビデオライブ放送サーバ端末がターゲットテキストを決定した後に、テキスト音声変換モジュールはターゲットテキストに基づき対応するオーディオデータ及び表情特徴データを生成し、オーディオデータ及び表情特徴データをパッケージ化して１つの合成すべきビデオデータのデータパケットを形成し、且つ合成すべきビデオデータパケットを三次元レンダリングモジュールにプッシュすることができる。たとえば、テキスト音声変換モジュールはターゲットテキストと対応するオーディオデータ、及び表情特徴データをストリーミングの形で取得でき、テキスト音声変換モジュールはオーディオデータ及び表情特徴データを含む１つのデータパケットを取得するたびに、該データパケットを三次元レンダリングモジュールにプッシュし、仮想ビデオライブ放送サーバ端末はライブ放送中断要求又はライブ放送終了要求を受信した後に、対応する中断信号又は終了信号を三次元レンダリングモジュールに転送できる。

三次元レンダリングモジュールは合成すべきビデオデータパケットを受信するときに、その中の表情特徴データを抽出して三次元レンダリングを行って１組の対応する顔画像を取得すると同時に、１つの顔画像と１つの背景画像とに対して画像融合処理を行って１つの完全な画像を合成し、１組の完全なビデオ出力画像を得て、且つオーディオデータとパッケージ化して、ともにビデオストリームプッシュモジュールにプッシュすることができる。中断信号、又は終了信号を受信すると、三次元レンダリングモジュールはビデオストリームプッシュモジュールに送信されていない画像データ及びオーディオデータに対してフレームスキップ圧縮処理を行い、且つフレームスキップ圧縮処理を経て生成されるターゲットビデオデータをビデオストリームプッシュモジュールに送信することができる。

ビデオストリームプッシュモジュールは１つの三次元レンダリングモジュールからプッシュされてくるデータパケットを取得するたびに、その中のオーディオデータ及び画像データを抽出し、ＦＦｍｐｅｇ（ＦａｓｔＦｏｒｗａｒｄＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ、ＦＦＭＰＥＧ）ツールによってオーディオデータと画像フレームデータに対して合成処理を行ってライブ放送ビデオストリーム、又は中断移行ビデオストリームを生成し、且つライブ放送ビデオストリーム、又は中断移行ビデオストリームをライブ放送クライアントに同期的にプッシュすることができる。ビデオストリームプッシュモジュールは１つの中断信号を受信した後に、テキストデータ取得ステップにジャンプでき、ビデオストリームプッシュモジュールは終了信号を受信した後に、今回のビデオストリームプッシュサービスを終了し、ライブ放送クライアントとの間の通信接続を切断することができる。

以上のように、本願における仮想ビデオライブ放送処理方法は、テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定し、合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュし、ライブ放送中断要求を受信すると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。更なる方面では、本願は、ライブ放送ビデオが中断される平滑移行の問題を解決すると同時に、ライブ放送ビデオのリアルタイム性を考慮し、平滑移行過程を１つの設定された時間長さ内に制御し、現在のビデオ動作を次のテキストビデオ動作に平滑に移行させることができると同時に、ビデオのリアルタイム性への影響を減少できる。

なお、図面において特定の順序で本願における方法の各ステップを説明したが、これは該特定の順序に従いこれらのステップを実行しなければならないか、又は所望の結果を実現するには示されるステップを実行しなければならないことを要求、又は暗示しない。付加的に、又は選択可能に、あるいくつかのステップを省略したり、複数のステップを１つのステップに合併して実行したり、及び／又は１つのステップを複数のステップに分解して実行したりするなどのようにしてもよい。

さらに、本例示的な実施形態では、さらに仮想ビデオライブ放送処理装置を提供する。該仮想ビデオライブ放送処理装置は１つのサーバ又は端末機器に応用できる。図１０を参照して示すように、該仮想ビデオライブ放送処理装置１０００は、データ決定モジュール１０１０と、第１ビデオ合成モジュール１０２０と、中断応答モジュール１０３０と、第２ビデオ合成モジュール１０４０とを含んでもよい。ここで、
データ決定モジュール１０１０は、テキストデータを取得し、且つ上記テキストデータに対応する合成すべきビデオデータを決定することに用いられ、
第１ビデオ合成モジュール１０２０は、上記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ上記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられ、
中断応答モジュール１０３０は、ライブ放送中断要求を受信すると、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられ、
第２ビデオ合成モジュール１０４０は、上記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ上記中断移行ビデオストリームを上記ライブ放送クライアントにプッシュすることに用いられる。

本願の１つの例示的な実施例では、上記データ決定モジュールは、上記テキストデータに関する関連テキストデータを決定し、上記テキストデータと上記関連テキストデータをターゲットテキストとすることに用いられるターゲットテキスト決定ユニットと、上記ターゲットテキストを対応するターゲット単語ベクトルに転換し、上記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、上記ターゲット単語ベクトルのオーディオ特徴を生成することに用いられるオーディオ特徴生成ユニットと、上記オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成することに用いられるオーディオデータ生成ユニットと、上記ターゲットテキストに対応する表情特徴データを決定し、且つ上記表情特徴データに基づきビデオ出力画像を生成することに用いられる画像生成ユニットと、を含む。

本願の１つの例示的な実施例では、画像生成ユニットは、上記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成することに用いられる顔画像生成ユニットと、上記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定ユニットであって、上記背景画像は上記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、背景画像決定ユニットと、上記顔画像と上記背景画像に対して画像融合処理を行って上記ビデオ出力画像を生成することに用いられる画像融合ユニットと、を含む。

本願の１つの例示的な実施例では、背景画像決定ユニットは、上記顔画像の時系列に揃えられた上記オーディオデータのオーディオ時間長さを決定することに用いられるオーディオ時間長さ決定サブユニットと、上記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定することに用いられるビデオ時間長さ決定サブユニットと、上記ビデオ時間長さに基づき、予め記憶された背景画像セットから上記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、背景画像決定サブユニットは、上記ビデオ時間長さにおける上記出力ビデオに含まれる上記仮想オブジェクトのオブジェクト動作数を決定し、上記オブジェクト動作数に基づき上記背景画像セットから同数のグループの背景画像を、上記顔画像にマッチングする背景画像として決定するように構成される。

本願の１つの例示的な実施例では、中断応答モジュールは、上記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ上記残りビデオ出力データに基づきターゲットビデオ画像を決定することに用いられるターゲット画像決定ユニットと、上記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ上記残りオーディオデータ及び上記ターゲットビデオ画像に基づきターゲットオーディオデータを決定することに用いられるターゲットオーディオ決定ユニットと、上記ターゲットビデオ画像及び上記ターゲットオーディオデータを上記ターゲットビデオデータとすることに用いられるビデオデータ決定ユニットと、を含む。

本願の１つの例示的な実施例では、ターゲット画像決定ユニットは、上記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定することに用いられる時間長さ判断サブユニットと、上記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、上記フレームスキップ歩長に基づき上記残りビデオ出力画像の中から上記ターゲットビデオ画像を決定することに用いられるターゲット画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、ターゲット画像決定サブユニットは、上記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ上記残りビデオ出力画像の残り画像数を決定し、上記残り画像数及び上記画像フレームレートに基づき上記フレームスキップ歩長を決定することに用いられるフレームスキップ歩長決定サブユニットと、時間順序に従い、且つ上記フレームスキップ歩長に基づき上記残りビデオ出力画像の中から上記ターゲットビデオ画像を決定することに用いられる画像決定サブユニットと、を含む。

本願の１つの例示的な実施例では、画像決定サブユニットは、上記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、上記時間順序に従い上記最初フレーム画像から開始し、上記フレームスキップ歩長おきに上記残りビデオ出力画像の中から中間画像を決定し、上記最初フレーム画像、上記中間画像及び上記最終フレーム画像を上記ターゲットビデオ画像とするように構成される。

本願の１つの例示的な実施例では、ターゲット画像決定ユニットはさらに、上記フレームスキップ歩長に基づき上記ターゲットビデオ画像のターゲット画像数を決定し、上記残りビデオ出力画像のうち隣接する２つの画像間の画像類似度を決定し、上記画像類似度に基づき上記残りビデオ出力画像の中から上記ターゲット画像数を超えない上記ターゲットビデオ画像を決定するように構成され得る。

本願の１つの例示的な実施例では、ターゲットオーディオ決定ユニットは、上記残りオーディオデータの残りオーディオ時間長さを決定し、上記残りオーディオ時間長さが上記時間長さ閾値よりも大きければ、上記残りオーディオデータを削除し、上記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、上記ターゲット画像フレーム時間長さに基づき上記ターゲットオーディオデータを生成するように構成される。

本願の１つの例示的な実施例では、上記中断応答モジュールはさらにアニメーション生成サブユニットを含み、アニメーション生成サブユニットは、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータ中の１番目のビデオ出力画像を第１中断画像とし、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータ中の最後の１つのビデオ出力画像を第２中断画像とし、上記第１中断画像及び上記第２中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成するように構成される。

上記仮想ビデオライブ放送処理装置における各モジュール、又はユニットの具体的な詳細は対応する仮想ビデオライブ放送処理方法において詳細に説明されており、従って、ここでは重複説明を省略する。

なお、以上の詳細な説明において動作実行用の機器の複数のモジュール、又はユニットが言及されたが、このような分割は強制的なものではない。実際には、本願の実施形態によれば、以上説明された２つ、又はより多くのモジュール又はユニットの特徴及び機能は１つのモジュール、又はユニットにおいて具現化されてもよい。逆に、以上説明された１つのモジュール、又はユニットの特徴及び機能はさらに複数のモジュール、又はユニットに分割して具現化されてもよい。

当業者は明細書を考慮し、且つここで開示されている発明を実践した後に、本願の他の実施手段を容易に想到できるようになる。本願は本願のいかなる変形、用途又は適応的な変化もカバーすることを目的としており、これらの変形、用途又は適応的な変化は本願の一般的な原理に即し、且つ本願に開示されていない本技術分野における周知の常識又は慣用的な技術手段を含む。明細書及び実施例は単に例示的なものであり、本願の真の範囲及び趣旨は以下の特許請求の範囲に定められる。

理解できるように、本願は上記において既に説明され、且つ図面に示された正確な構造に限定されるものではなく、その範囲を逸脱せずに種々の修正や変化を行うことができる。本願の範囲は添付する特許請求の範囲のみにより制限される。

１００システムアーキテクチャ
１０１端末機器
１０２端末機器
１０３端末機器
１０４ネットワーク
１０５サーバ
２００コンピュータシステム
２０１中央処理ユニット（ＣＰＵ）
２０２専用メモリ（ＲＯＭ）
２０３ランダムアクセスメモリ（ＲＡＭ）
２０４バス
２０５Ｉ／Ｏインタフェース
２０６入力部分
２０７出力部分
２０８記憶部分
２０９通信部分
２１０ドライバ
２１１リムーバブル媒体
４１０ライブ放送クライアント
４２０仮想ビデオライブ放送サーバ端末
４２１テキスト音声変換モジュール
４２２三次元レンダリングモジュール
４２３ビデオストリームプッシュモジュール
１０００仮想ビデオライブ放送処理装置
１０１０データ決定モジュール
１０２０第１ビデオ合成モジュール
１０３０中断応答モジュール
１０４０第２ビデオ合成モジュール

Claims

電子機器により実行される、仮想ビデオライブ放送処理方法であって、前記方法は、
テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定するステップと、
前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュするステップと、
ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定するステップと、
前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュするステップと、を含む、仮想ビデオライブ放送処理方法。
前記合成すべきビデオデータはオーディオデータ及びビデオ出力画像を含み、
テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定する前記ステップは、
前記テキストデータに関する関連テキストデータを決定し、前記テキストデータと前記関連テキストデータをターゲットテキストとするステップと、
前記ターゲットテキストを対応するターゲット単語ベクトルに転換し、前記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、前記ターゲット単語ベクトルのオーディオ特徴を生成するステップと、
前記オーディオ特徴に対して合成処理を行うことによって、前記オーディオデータを生成するステップと、
前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づき前記ビデオ出力画像を生成するステップと、を含む、請求項１に記載の仮想ビデオライブ放送処理方法。
前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づき前記ビデオ出力画像を生成する前記ステップは、
前記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成するステップと、
前記顔画像にマッチングする背景画像を決定するステップであって、前記背景画像は前記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、ステップと、
前記顔画像と前記背景画像とに対して画像融合処理を行うことによって、前記ビデオ出力画像を生成するステップと、を含む、請求項２に記載の仮想ビデオライブ放送処理方法。
前記顔画像にマッチングする背景画像を決定する前記ステップは、
前記顔画像の時系列に揃えられた前記オーディオデータのオーディオ時間長さを決定するステップと、
前記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定するステップと、
前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定するステップと、を含む、請求項３に記載の仮想ビデオライブ放送処理方法。
前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定する前記ステップは、
前記ビデオ時間長さにおける前記出力ビデオに含まれる前記仮想オブジェクトのオブジェクト動作数を決定するステップと、
前記オブジェクト動作数に基づき前記背景画像セットから同数のグループの背景画像を、前記顔画像にマッチングする背景画像として決定するステップと、を含む、請求項４に記載の仮想ビデオライブ放送処理方法。
ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定する前記ステップは、
前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定するステップと、
前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定するステップと、
前記ターゲットビデオ画像及び前記ターゲットオーディオデータを前記ターゲットビデオデータとするステップと、を含む、請求項１に記載の仮想ビデオライブ放送処理方法。
前記残りビデオ出力データは残りビデオ出力画像を含み、
前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定する前記ステップは、
前記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定するステップと、
前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定するステップと、
前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定するステップと、を含む、請求項６に記載の仮想ビデオライブ放送処理方法。
前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する前記ステップは、
前記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ前記残りビデオ出力画像の残り画像数を決定するステップと、
前記残り画像数及び前記画像フレームレートに基づき前記フレームスキップ歩長を決定するステップと、を含み、
前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定するステップを含む、請求項７に記載の仮想ビデオライブ放送処理方法。
時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
前記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得するステップと、
前記時間順序に従い前記最初フレーム画像から開始し、前記フレームスキップ歩長おきに前記残りビデオ出力画像の中から中間画像を決定するステップと、
前記最初フレーム画像、前記中間画像及び前記最終フレーム画像を前記ターゲットビデオ画像とするステップと、を含む、請求項８に記載の仮想ビデオライブ放送処理方法。
時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
前記フレームスキップ歩長に基づき前記ターゲットビデオ画像のターゲット画像数を決定するステップと、
前記残りビデオ出力画像のうち隣接する２つの画像間の画像類似度を決定するステップと、
前記画像類似度に基づき前記残りビデオ出力画像の中から前記ターゲット画像数を超えない前記ターゲットビデオ画像を決定するステップと、を含む、請求項７に記載の仮想ビデオライブ放送処理方法。
前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定する前記ステップは、
前記残りオーディオデータの残りオーディオ時間長さを決定するステップと、
前記残りオーディオ時間長さが前記時間長さ閾値よりも大きければ、前記残りオーディオデータを削除するステップと、
前記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定するステップと、
前記ターゲット画像フレーム時間長さに基づき前記ターゲットオーディオデータを生成するステップと、を含む、請求項６に記載の仮想ビデオライブ放送処理方法。
前記ターゲットビデオデータは中断移行アニメーションを含み、
ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定する前記ステップは、
前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の１番目のビデオ出力画像を第１中断画像とするステップと、
前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の最後の１つのビデオ出力画像を第２中断画像とするステップと、
前記第１中断画像及び前記第２中断画像に基づき予め設定された時間長さの前記中断移行アニメーションを生成するステップと、を含む、請求項１に記載の仮想ビデオライブ放送処理方法。
仮想ビデオライブ放送処理装置であって、前記装置は電子機器内に配備され、前記装置は、
テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定することに用いられるデータ決定モジュールと、
前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられる第１ビデオ合成モジュールと、
ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられる中断応答モジュールと、
前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュすることに用いられる第２ビデオ合成モジュールと、を含む、仮想ビデオライブ放送処理装置。
仮想ビデオライブ放送処理用の電子機器であって、
プロセッサと、
メモリと、を含み、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行されると、請求項１～１２のいずれか一項に記載の仮想ビデオライブ放送処理方法を実現する、仮想ビデオライブ放送処理用の電子機器。
請求項１～１２のいずれか一項に記載の仮想ビデオライブ放送処理方法を実現するように構成された、コンピュータプログラム。