JP7479750B2 - 仮想ビデオライブ放送処理方法及び装置、電子機器 - Google Patents

仮想ビデオライブ放送処理方法及び装置、電子機器 Download PDF

Info

Publication number
JP7479750B2
JP7479750B2 JP2023521162A JP2023521162A JP7479750B2 JP 7479750 B2 JP7479750 B2 JP 7479750B2 JP 2023521162 A JP2023521162 A JP 2023521162A JP 2023521162 A JP2023521162 A JP 2023521162A JP 7479750 B2 JP7479750 B2 JP 7479750B2
Authority
JP
Japan
Prior art keywords
video
image
live broadcast
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023521162A
Other languages
English (en)
Other versions
JP2023545050A (ja
Inventor
▲紹▼明 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023545050A publication Critical patent/JP2023545050A/ja
Application granted granted Critical
Publication of JP7479750B2 publication Critical patent/JP7479750B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本願は仮想ビデオライブ放送の技術分野に関し、具体的には、仮想ビデオライブ放送処理技術に関する。
本願は、2020年11月26日に中国特許庁に提出された、出願番号が第202011356995.7号、出願の名称が「仮想ビデオライブ放送処理方法及び装置、記憶媒体、電子機器」である中国特許出願の優先権を主張し、その全内容が引用によって本願に組み込まれている。
通信技術の発展に伴い、ネットワークの通信帯域幅は大幅に向上し、ビデオライブ放送技術も日々成熟し、様々な面で応用されている。同時に、人工知能技術の発展に伴い、テキスト音声合成(Text To Speech、TTS)技術と画像合成技術も人々の研究のホットスポットとなっている。ビデオライブ放送技術と人工知能技術との組合せ(たとえば、仮想ビデオライブ放送技術)は、たとえば、実在の人物のかわりにニュース仮想放送を行うことや、ゲームアンカーのかわりにゲームの仮想解説を行うなどの多くの場面で役割を果たすことができ、期待できる将来の応用可能性を有する。
仮想ビデオライブ放送技術では、オーディオと映像の生成には大量の計算時間を消費する必要があり、仮想ビデオライブ放送のリアルタイム性を保証するために、仮想ビデオのリアルタイムストリームプッシュの実現は最終的なライブ放送ビデオの品質に影響する重要な要素となる。現在のビデオのリアルタイムライブ放送方法は、ほとんどが既存の安定したオーディオ、映像データ入力(たとえば、ローカルビデオストリームプッシュ)、又はオーディオ、映像データを迅速に取得できる(たとえば、カメラでデータを取得する)などの応用シーンに対してなされるものである。
なお、上記背景技術部分に開示されている情報は単に本願の背景の理解を深めることに用いられ、従って、当業者に対して周知の従来技術を構成しない情報を含むことができる。
本願の目的は、仮想ビデオライブ放送処理方法、仮想ビデオライブ放送処理装置、電子機器及びコンピュータ可読記憶媒体を提供することであり、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できると同時に、従来の仮想ビデオライブ放送技術がハード切り替え方法を採用してビデオ中断処理を行うことによってビデオがギクシャクすることを引き起こすなどの問題をある程度克服し、仮想ビデオライブ放送の滑らかさを向上させる。
本願の第1態様によれば、仮想ビデオライブ放送処理方法を提供し、前記方法は電子機器により実行され、前記方法は、テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定するステップと、前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュするステップと、ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定するステップと、前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュするステップと、を含む。
本願の第2態様によれば、仮想ビデオライブ放送処理装置を提供し、前記装置は電子機器に搭載され、前記装置は、テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定することに用いられるデータ決定モジュールと、前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられる第1ビデオ合成モジュールと、ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられる中断応答モジュールと、前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュすることに用いられる第2ビデオ合成モジュールと、を含む。
本願の1つの例示的な実施例では、前記データ決定モジュールは、前記テキストデータに関する関連テキストデータを決定し、前記テキストデータと前記関連テキストデータをターゲットテキストとすることに用いられるターゲットテキスト決定ユニットと、前記ターゲットテキストを対応するターゲット単語ベクトルに転換し、前記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、前記ターゲット単語ベクトルのオーディオ特徴を生成することに用いられるオーディオ特徴生成ユニットと、前記オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成することに用いられるオーディオデータ生成ユニットと、前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づきビデオ出力画像を生成することに用いられる画像生成ユニットと、を含む。
本願の1つの例示的な実施例では、画像生成ユニットは、前記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成することに用いられる顔画像生成ユニットと、前記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定ユニットであって、前記背景画像は前記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、背景画像決定ユニットと、前記顔画像と前記背景画像とに対して画像融合処理を行うことによって、前記ビデオ出力画像を生成することに用いられる画像融合ユニットと、を含む。
本願の1つの例示的な実施例では、背景画像決定ユニットは、前記顔画像の時系列に揃えられた前記オーディオデータのオーディオ時間長さを決定することに用いられるオーディオ時間長さ決定サブユニットと、前記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定することに用いられるビデオ時間長さ決定サブユニットと、前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、背景画像決定サブユニットは、前記ビデオ時間長さにおける前記出力ビデオに含まれる前記仮想オブジェクトのオブジェクト動作数を決定し、前記オブジェクト動作数に基づき前記背景画像セットから同数のグループの背景画像を、前記顔画像にマッチングする背景画像として決定するように構成される。
本願の1つの例示的な実施例では、中断応答モジュールは、前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定することに用いられるターゲット画像決定ユニットと、前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定することに用いられるターゲットオーディオ決定ユニットと、前記ターゲットビデオ画像及び前記ターゲットオーディオデータを前記ターゲットビデオデータとすることに用いられるビデオデータ決定ユニットと、を含む。
本願の1つの例示的な実施例では、ターゲット画像決定ユニットは、前記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定することに用いられる時間長さ判断サブユニットと、前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定することに用いられるターゲット画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、ターゲット画像決定サブユニットは、前記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ前記残りビデオ出力画像の残り画像数を決定し、前記残り画像数及び前記画像フレームレートに基づき前記フレームスキップ歩長を決定することに用いられるフレームスキップ歩長決定サブユニットと、時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定することに用いられる画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、画像決定サブユニットは、前記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、前記時間順序に従い前記最初フレーム画像から開始し、前記フレームスキップ歩長おきに前記残りビデオ出力画像の中から中間画像を決定し、前記最初フレーム画像、前記中間画像及び前記最終フレーム画像を前記ターゲットビデオ画像とするように構成される。
本願の1つの例示的な実施例では、ターゲット画像決定ユニットはさらに、前記フレームスキップ歩長に基づき前記ターゲットビデオ画像のターゲット画像数を決定し、前記残りビデオ出力画像のうち隣接する2つの画像間の画像類似度を決定し、前記画像類似度に基づき前記残りビデオ出力画像の中から前記ターゲット画像数を超えない前記ターゲットビデオ画像を決定するように構成され得る。
本願の1つの例示的な実施例では、ターゲットオーディオ決定ユニットは、前記残りオーディオデータの残りオーディオ時間長さを決定し、前記残りオーディオ時間長さが前記時間長さ閾値よりも大きければ、前記残りオーディオデータを削除し、前記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、前記ターゲット画像フレーム時間長さに基づき前記ターゲットオーディオデータを生成するように構成される。
本願の1つの例示的な実施例では、前記中断応答モジュールはさらにアニメーション生成サブユニットを含み、アニメーション生成サブユニットは、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の1番目のビデオ出力画像を第1中断画像とし、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の最後の1つのビデオ出力画像を第2中断画像とし、前記第1中断画像及び前記第2中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成するように構成される。
本願の第3態様によれば、仮想ビデオライブ放送処理用の電子機器を提供し、プロセッサと、前記プロセッサの実行可能命令を記憶することに用いられるメモリと、を含み、ここで、前記プロセッサは、前記実行可能命令を実行することを経由して上記いずれか一項に記載の方法を実行するように構成される。
本願の第4態様によれば、コンピュータ可読記憶媒体を提供し、それにコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると上記いずれか一項に記載の方法を実現する。
本願の第5態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品が実行されると、上記いずれか一項に記載の方法を実現することに用いられる。
本願の例示的な実施例は、以下の一部又はすべての有益な効果を有してもよい。
本願の1つの例示的な実施形態が提供する仮想ビデオライブ放送処理では、テキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする過程では、ライブ放送中断要求を受信すると、ライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、それによってターゲットビデオデータに基づき中断移行ビデオストリームを合成する。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。
理解できるように、以上の一般的な説明及び後述の詳細な説明は単に例示的で解釈的なものであり、本願を制限するものではない。
ここでの図面は明細書に組み込まれ、且つ本明細書の一部を構成し、本願に合った実施例を示し、且つ明細書とともに本願の原理を解釈することに用いられる。明らかなように、以下の説明における図面は単に本願のいくつかの実施例であり、当業者であれば、創造的な労働をしない前提で、さらにこれらの図面に基づき他の図面を取得できる。
本願の実施例における画像融合方法及び装置を応用できる例示的なシステムアーキテクチャの模式図を示す。 本願の実施例における電子機器を実現することに適用できるコンピュータシステムの構造模式図を示す。 本願の一実施例に係る仮想ビデオライブ放送処理方法のフローチャートを模式的に示す。 本願の一実施例に係る仮想ビデオライブ放送サービスの全体フレームワーク図を模式的に示す。 本願の一実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。 本願の別の実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。 本願の一実施例に係るターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成するフローチャートを模式的に示す。 本願の一実施例に係る中断移行アニメーションを生成するフローチャートを模式的に示す。 本願の一実施例に係る仮想ビデオストリームプッシュサービスの実現フレームワーク図を模式的に示す。 本願の一実施例に係る仮想ビデオライブ放送処理装置の構造図を模式的に示す。
ここで、図面を参照しながら例示的な実施形態をより全面的に説明する。しかしながら、例示的な実施形態は様々な形式で実施でき、且つここで述べた例に限定されないと理解すべきである。反面、これらの実施形態を提供することによって、本願はより全面的かつ完全になり、且つ例示的な実施形態の発想を当業者に全面的に伝える。説明される特徴、構造又は特性は任意の適切な方式で1つ又はより多くの実施形態に組み合わせることができる。以下の説明では、多くの具体的な詳細を提供することで、本願の実施形態に対する十分な理解を与える。しかしながら、当業者が認識できるように、本願の技術的手段を実践する際に上記特定の詳細の1つ又はより多くを省略してもよいか、又は他の方法、要素、装置、ステップなどを採用してもよい。他の状況では、周知の技術的手段を詳細に示さないか、又は説明しないことで、主客転倒して本願の各態様を曖昧にしてしまうことを回避する。
また、図面は単に本願の模式的なプロットであり、必ずしも縮尺に従って描かれるものではない。図における同じ符号は同じ、又は類似する部分を示し、したがって、それらについての重複説明を省略する。図面に示されるいくつかのブロック図は機能実体であり、必ずしも物理的又は論理的に独立した実体と対応しない。ソフトウェア形式を採用してこれらの機能実体を実現するか、又は1つ又は複数のハードウェアモジュール又は集積回路においてこれらの機能実体を実現するか、又は異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置においてこれらの機能実体を実現することができる。
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を利用して人間の知能をシミュレート、拡大及び拡張し、環境を感知し、知識を取得し、且つ知識を使用して最適結果を取得する理論、方法、技術及びアプリケーションシステムである。換言すれば、人工知能はコンピュータ科学の1つの総合的な技術であり、それは知能の本質を把握し、且つ人間の知能と類似する方式で反応できる1つの新しいインテリジェント機械を生み出すことを図る。つまり、人工知能は各種のインテリジェント機械の設計原理及び実現方法を研究して機械に感知、推理及び意思決定の機能を付与するものである。
人工知能技術は1つの総合的な学科であり、関連する分野が広く、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基礎技術は一般的には、たとえばセンサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかの主要な方向を含む。
本願の実施例が提供する手段は人工知能の仮想ビデオライブ放送処理などの技術に関し、具体的に以下の実施例をもって説明を行う。
図1は、本願の実施例における仮想ビデオライブ放送処理方法及び装置を応用できる例示的な応用環境のシステムアーキテクチャの模式図を示す。
図1に示すように、システムアーキテクチャ100は端末機器101、102、103のうちの1つ又は複数、ネットワーク104及びサーバ105を含み得る。ネットワーク104は端末機器101、102、103とサーバ105との間で通信リンクを提供することに用いられる媒体である。ネットワーク104はたとえば有線、無線通信リンク又は光ファイバーケーブルなどの各種の接続タイプを含んでもよい。端末機器101、102、103はディスプレイスクリーンを有する各種の電子機器であってもよく、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン及びタブレットコンピュータなどを含むが、これらに限定されない。理解できるように、図1における端末機器、ネットワーク及びサーバの数は単に例示的なものである。実現のニーズに応じて、任意数の端末機器、ネットワーク及びサーバを有し得る。たとえば、サーバ105は複数のサーバからなるサーバクラスターなどであり得る。
本願の実施例が提供する仮想ビデオライブ放送処理方法は一般的にはサーバ105により実行され、相応には、仮想ビデオライブ放送処理装置は一般的には、サーバ105内に設置される。しかし、当業者が容易に理解できるように、本願の実施例が提供する仮想ビデオライブ放送処理方法は端末機器101、102、103により実行されてもよく、他の端末機器に仮想ライブ放送処理サービスを提供し、相応には、仮想ビデオライブ放送処理装置も端末機器101、102、103内に設置されてもよく、本例示的な実施例ではこれを特に限定しない。たとえば、1つの例示的な実施例では、ユーザーは端末機器101、102、103によってテキストデータをサーバ105にアップロードし、サーバは本願の実施例が提供する仮想ビデオライブ放送処理方法によってテキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリーム及び中断移行ビデオストリームを生成し、且つライブ放送ビデオストリーム及び中断移行ビデオストリームを端末機器101、102、103などに伝送する。
図2は本願の実施例における電子機器を実現することに適用できるコンピュータシステムの構造模式図を示す。
なお、図2に示される電子機器のコンピュータシステム200は単に一例であり、本願の実施例の機能及び使用範囲にいかなる制限をももたらすべきではない。
図2に示すように、コンピュータシステム200は中央処理ユニット(CPU)201を含み、それは読み出し専用メモリ(ROM)202に記憶されるプログラム又は記憶部分208からランダムアクセスメモリ(RAM)203にロードされるプログラムに基づき各種の適切な動作及び処理を実行することができる。RAM 203には、システム操作に必要な各種のプログラム及びデータがさらに記憶されている。CPU 201、ROM 202及びRAM 203はバス204によって互いに結合される。入力/出力(I/O)インタフェース205もバス204に接続される。
以下の部材はI/Oインタフェース205に接続される。キーボード、マウスなどを含む入力部分206、たとえば陰極線管(CRT)、液晶ディスプレイ(LCD)など及びスピーカなどを含む出力部分207、ハードディスクなどを含む記憶部分208、並びに、たとえばLANカード、モデムなどのネットワークインタフェースカードを含む通信部分209が挙げられる。通信部分209はたとえばインターネットのようなネットワークを経由して通信処理を実行する。ドライバ210も必要に応じてI/Oインタフェース205に接続される。たとえば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体211は、必要に応じてドライバ210に取り付けられることで、それから読み出したコンピュータプログラムは必要に応じて記憶部分208にインストールされる。
特に、本願の実施例によれば、以下、フローチャートを参照して説明される過程はコンピュータソフトウェアプログラムとして実現され得る。たとえば、本願の実施例は1つのコンピュータプログラム製品を含み、それはコンピュータ可読媒体に搭載されるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信部分209によってネットワークからダウンロード及びインストールされるか、及び/又はリムーバブル媒体211からインストールされるようにしてもよい。該コンピュータプログラムが中央処理ユニット(CPU)201により実行されると、本願の方法及び装置に限定される各種の機能を実行する。いくつかの実施例では、コンピュータシステム200はさらにAI(Artificial Intelligence、人工知能)プロセッサを含んでもよく、該AIプロセッサは機械学習に関する計算操作を処理することに用いられる。
なお、本願に示すコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、たとえば電気、磁気、光、電磁、赤外線、又は半導体システム、装置又はデバイス、又は任意の以上の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクト磁気ディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含んでもよいが、これらに限定されない。本願では、コンピュータ可読記憶媒体はプログラムを含むか又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用されるか又はそれと組み合わせて使用されるようにしてもよい。一方、本願では、コンピュータ可読信号媒体はベースバンドにおいて、又は搬送波の一部として伝播するデータ信号を含んでもよく、それにはコンピュータ可読プログラムコードが搭載されている。このような伝播するデータ信号は様々な形式を採用でき、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置又はデバイスに使用されるか、又はそれと組み合わせて使用されるためのプログラムを送信、伝播又は伝送できる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送でき、無線、ワイヤ、ケーブル、RFなど、又は上記任意の適切な組み合わせを含むが、これらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各種の実施例におけるシステム、方法及びコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能及び操作を図示する。この点では、フローチャート、又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を表す代表、上記モジュール、プログラムセグメント、又はコードの一部は所定のロジック機能を実現することに用いられる1つ、又は複数の実行可能命令を含む。なお、置換としてのいくつかの実現では、ブロックにおいてマークされる機能は図面においてマークされる順序とは異なる順序で発生してもよい。たとえば、連続して示される2つのブロックは実際には基本的に並行して実行されてもよく、場合によってそれらは反対の順序で実行されてもよく、これは関連する機能次第である。なお、ブロック図、又はフローチャートにおける各ブロック、及びブロック図、又はフローチャートにおけるブロックの組み合わせは、所定の機能、又は操作を実行するハードウェアに基づく専用システムを用いて実現されてもよいか、又は専用ハードウェアとコンピュータ命令との組み合わせを用いて実現されてもよい。
本願の実施例において説明される係るユニットはソフトウェア方式により実現されてもよく、ハードウェア方式により実現されてもよく、説明されるユニットはプロセッサ内に設置されてもよい。ここで、場合によってはこれらのユニットの名称は該ユニット自体に対する限定を構成しない。
別の態様として、本願はさらにコンピュータ可読媒体を提供し、該コンピュータ可読媒体は上記実施例において説明された電子機器に含まれてもよく、単独で存在し、該電子機器内に組み立てなくてもよい。上記コンピュータ可読媒体には1つ又は複数のプログラムが搭載されており、上記1つ、又は複数のプログラムが1つの該電子機器により実行されると、該電子機器に下記実施例に記載の方法を実現させる。たとえば、上記電子機器は図3~図9に示す各ステップなどを実現できる。
以下、本願の実施例の技術的手段を詳細に述べる。
仮想ビデオライブ放送技術では、主にオーディオ及び画像に基づき対応するライブ放送ビデオストリームを生成し、且つライブ放送ビデオストリームをライブ放送クライアントにリアルタイムにプッシュし、ここで、ライブ放送クライアントは図1に示す端末機器101、102、103にインストールされてもよい。オーディオ及び画像の生成過程では、大量の計算時間を消費する必要があり、仮想ビデオライブ放送のリアルタイム性を保証するために、仮想ビデオのリアルタイムストリームプッシュの実現は最終的なライブ放送ビデオの品質に影響する重要な要素となる。現在のビデオのリアルタイムライブ放送方法はほとんどが既存の安定したオーディオ、映像データ入力(たとえば、ローカルビデオストリームプッシュ)、又はオーディオ、映像データを迅速に取得できる(たとえば、カメラでデータを取得する)などの応用シーンに対してなされるものである。
しかしながら、これらの安定したデータソースは仮想ビデオライブ放送においては良好に応用できず、同時に、ライブ放送のリアルタイム性に影響しない前提では、従来の仮想ライブ放送ビデオ技術はほとんどビデオ中断平滑移行処理をサポートしていない。仮想ビデオライブ放送過程では、ライブ放送中断要求を受信すると、通常、ハード切り替えの方式によってライブ放送中断要求を処理するか、又は現在のビデオの再生が完了するまで中断処理を行わないままである。
仮想ビデオライブ放送過程では、ハード切り替えの方式を採用して中断要求を処理すると、ライブ放送ビデオにギクシャクする現象が出現することを引き起こすことになり、現在のビデオ動作と次のビデオ動作との間の平滑移行を実現できない。また、ビデオライブ放送過程では、中断処理を行わなければ、ユーザーはライブ放送ビデオのリアルタイムな応答を感じることができない。
上記1つ又は複数の問題に基づいて、本例示的な実施形態は仮想ビデオライブ放送処理方法を提供する。該仮想ビデオライブ放送処理方法は上記サーバ105に応用されてもよく、上記端末機器101、102、103のうちの1つ又は複数に応用されてもよく、本例示的な実施例ではこれを特に限定しない。図3を参照して示すように、該仮想ビデオライブ放送処理方法は以下のステップS310~ステップS340を含んでもよい。
ステップS310:テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定する。
ステップS320:合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする。
ステップS330:ライブ放送中断要求を受信すると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する。
ステップS340:ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。
本例示的な実施形態が提供する仮想ビデオライブ放送処理方法では、テキストデータに対応する合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする過程では、ライブ放送中断要求を受信すると、ライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、それによってターゲットビデオデータに基づき中断移行ビデオストリームを合成する。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。
以下、本例示的な実施形態の上記ステップをより詳細に説明する。
ステップS310では、テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定する。
本例示的な実施形態では、テキストデータは合成すべきビデオデータを生成する根拠となるテキストデータであってもよく、テキストデータは仮想オブジェクトがライブ放送ビデオ中に発話しようとする文字であってもよい。たとえば、ユーザーはライブ放送クライアントを通して自らテキストデータを入力してもよく、ユーザーはさらにライブ放送クライアントにより提供される多数の候補テキストか相応なテキストデータを選択してもよく、テキストデータはさらにサーバに予め記憶されたテキストデータであってもよい。合成すべきビデオデータは仮想ビデオライブ放送過程でライブ放送ビデオストリームの生成が依存する関連ビデオデータであってもよい。たとえば、合成すべきビデオデータは画像データ、オーディオデータ及びアニメーションデータなどを含んでもよく、ここで、画像データは仮想オブジェクトの顔特徴、肢体動作及び仮想オブジェクトに対応する環境背景を含む画像であってもよい。オーディオデータはシミュレートされた人間の声であってもよく、仮想オブジェクトのビデオ出力画像にマッチングすることに用いられる。アニメーションデータはいくつかの特定のイベントに基づき生成されるアニメーションであってもよい。
仮想ビデオライブ放送を行うときに、仮想ビデオライブ放送サーバ端末(たとえば、サーバ)はまずテキストデータを取得し、テキストデータを取得した後に、テキストデータに基づき対応する合成すべきビデオデータを決定してもよい。図4に参照されるように、図4は本願の一実施例に係る仮想ビデオライブ放送サービスの全体フレームワーク図を模式的に示す。仮想ビデオライブ放送サービスはライブ放送クライアント410と仮想ビデオライブ放送サーバ端末420とを含んでもよく、仮想ビデオライブ放送サーバ端末420にはテキスト音声変換モジュール421と、三次元レンダリングモジュール422と、ビデオストリームプッシュモジュール423とが含まれてもよい。テキストデータを取得するときに、仮想ビデオライブ放送サーバ端末420はライブ放送クライアント410によってユーザーが入力、又は選択したテキストデータを取得でき、仮想ビデオライブ放送サーバ端末420はさらにサーバ端末データベースに予め記憶されたテキストデータを取得できる。仮想ビデオライブ放送サーバ端末420はテキストデータを取得した後に、テキストデータに基づき対応する合成すべきビデオデータを生成できる。
たとえば、下記ステップによってテキストデータに対応する合成すべきビデオデータを決定できる。
本願の1つの例示的な実施例では、テキストデータに関する関連テキストデータを決定し、テキストデータ及び関連テキストデータをターゲットテキストとし、ターゲットテキストを対応するターゲット単語ベクトルに転換し、ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、ターゲット単語ベクトルのオーディオ特徴を生成し、オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成し、ターゲットテキストに対応する表情特徴データを決定し、且つ表情特徴データに基づきビデオ出力画像を生成する。
ここで、関連テキストデータはテキストデータに関するテキストデータであってもよい。たとえば、いくつかのヒューマンマシンインタラクションシーンでは、テキストデータが「製品Aはどのように使用するか」であるとき、関連テキストデータは製品Aの具体的な使用説明に対応するテキストであってもよい。ターゲットテキストはテキストデータ及びそれに関する関連テキストデータを含んでもよく、たとえば、テキストデータと関連テキストデータとを接合してターゲットテキストを生成できる。ターゲット単語ベクトルはターゲットテキストに対してベクトル化処理を行って生成されたベクトルであってもよい。オーディオ特徴はターゲット単語ベクトルからオーディオデータへの変換に対応するキーの特徴であってもよく、たとえば、オーディオ特徴は短時間ゼロクロスレート、短時間エネルギー、及びスペクトル重心などを含んでもよい。オーディオデータはテキストデータに対してテキスト音声変換処理を経て生成された対応するオーディオであってもよい。表情特徴データはテキストデータと対応するライブ放送ビデオ中の仮想オブジェクトの顔表情特徴であってもよい。ビデオ出力画像はライブ放送ビデオに対応するビデオ画像であってもよい。
テキストデータを取得した後に、該テキストデータに関する関連テキストデータを決定し、且つテキストデータ及び関連テキストデータをターゲットテキストとするようにしてもよい。図4に参照されるように、仮想ビデオライブ放送サーバ端末420はテキスト音声変換モジュール421によってターゲットテキストに対してテキスト音声変換処理を行ってもよく、テキスト音声変換モジュールには1つの訓練後のテキスト音声変換モデルが含まれてもよく、すなわち、1つの初期深層学習テキスト音声変換モデルを予め構築し、深層学習方法を採用して該初期テキスト音声変換モデルを訓練し、訓練が完了した後に、訓練後のテキスト音声変換モデルを得る。ターゲットテキストを訓練済みのテキスト音声変換モデルに入力した後に、まず、ターゲットテキストを対応するターゲット単語ベクトルに転換でき、たとえば、ターゲットテキストは1文であってもよく、ターゲットテキストに対して単語分割を行い、各単語に対応する単語ベクトル、すなわちターゲット単語ベクトルを決定できる。ターゲット単語ベクトルを得た後に、ターゲット単語ベクトルに対して符号化処理を行って中間語意識別子を得ることができ、さらに復号処理によってターゲット単語ベクトルのオーディオ特徴を得て、オーディオ合成アルゴリズムを採用して、得たオーディオ特徴に対して合成処理を行い、ターゲットテキストに対応するオーディオデータを生成できる。
また、テキスト音声変換モジュール421はさらにターゲットテキストに基づき対応する表情特徴データを生成でき、対応する表情特徴データの生成は下記の技術的手段によって実現できる。ターゲットテキストのオーディオデータに基づきライブ放送ビデオ中の仮想オブジェクトの口部キーポイントを予測し、口部キーポイントに対して正規化処理を行って口部キーポイントを標準顔テンプレートに適応させ、正規化処理を経た口部キーポイントに対して次元削減処理を行い、対応する仮想オブジェクトの口形特徴を得て、ターゲットテキストに対して語意分析を行い、ターゲットテキストが表す語意を得て、ターゲットテキストが表す語意に基づき、語意にマッチングする表情特徴データを決定し、それによって後続では表情特徴データに基づき対応するビデオ出力画像を生成できる。
本願の1つの例示的な実施例では、表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成し、顔画像にマッチングする背景画像を決定し、背景画像は仮想オブジェクトの肢体動作情報及び環境背景情報を含み、顔画像及び背景画像に対して画像融合処理を行うことによって、ビデオ出力画像を生成する。
ここで、顔画像はライブ放送ビデオ中の仮想オブジェクトに対応する顔画像であってもよい。背景画像は仮想オブジェクトの顔画像に対応し、且つ仮想オブジェクトの他の特徴を含む画像であってもよく、たとえば、背景画像は仮想オブジェクトの肢体動作情報、及びビデオ出力画像の生成に対応する環境背景情報を含んでもよい。ビデオ出力画像は仮想オブジェクトの顔画像、肢体動作、及び現在対応している環境背景を含む画像であってもよい。
図4に参照されるように、テキスト音声変換モジュール421はテキストデータに対してテキスト転換処理を行い、且つ合成すべきビデオデータを生成した後に、生成した合成すべきビデオデータを三次元レンダリングモジュール422にプッシュでき、三次元レンダリングモジュール422は合成すべきビデオデータ中の表情特徴データに対してレンダリング処理を行うことができ、すなわち、仮想オブジェクトの口形特徴及び表情特徴データを組み合わせて仮想オブジェクトの顔特徴を形成し、顔特徴に基づき仮想オブジェクトに対応する顔画像を生成する。三次元レンダリングモジュールでは、三次元レンダリングと融合には非常に時間がかかり、従って、すべての表情特徴データを入力するときに、直ちにすべての融合後の画像を得ることができず、ストリーミングの形で融合後の画像を1組ずつ得る。
表情特徴データに対してレンダリング処理を行って顔画像を生成するときには、オープングラッフィクスライブラリ(Open Graphics Library、OpenGL)ツールを採用して実現できる。たとえば、OpenGLの幾何プリミティブからデータを設定して、仮想オブジェクトの顔輪郭形状を構築することに用いられる。入力された口形特徴、表情特徴データなどのプリミティブデータに対して計算を行い、顔キーポイントの位置、色などの他のレンダリング属性を判断し、入力されたプリミティブの数学的記述をスクリーン位置に対応する画素フラグメントに転換し、すなわち、ラスタライズ処理を行う。ラスタライズで生じた各フラグメントに対してフラグメントシェーダーを実行し、それによってフラグメントおきの色及び位置を決定し、また、いくつかの付加的な操作によって各フラグメントに対応するオブジェクトが可視であるかいなかを判断するか、又は該フラグメントの色と現在のスクリーンの色とを融合することができる。
顔画像を生成した後に、顔画像に基づきそれに対応する背景画像を決定できる。仮想オブジェクトの顔画像とそれぞれに対応する背景画像とに対して画像融合処理を行った後に、ライブ放送ビデオ中の仮想オブジェクトに対応するビデオ出力画像を生成でき、各ビデオ出力画像は仮想オブジェクトの1つの時刻における肢体動作及び現在時刻の対応する環境背景に対応できる。顔画像と背景画像とを融合して1つの完全なビデオ出力画像を形成することは畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)によって実現できる。
本願の1つの例示的な実施例では、顔画像の時系列に揃えられたオーディオデータのオーディオ時間長さを決定し、オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定し、ビデオ時間長さに基づき、予め記憶された背景画像セットから顔画像にマッチングする背景画像を決定する。
ここで、オーディオ時間長さはターゲットテキストに基づき生成されるオーディオデータの再生時間長さであってもよい。出力ビデオは合成すべきビデオデータに対してビデオ合成処理を行った後にライブ放送クライアントにストリームプッシュされたライブ放送ビデオであってもよい。ビデオ時間長さは出力ビデオの再生時間長さであってもよい。背景画像セットは予め設定された、各種の異なるカテゴリの背景画像を記憶することに用いられる画像セットであってもよい。
生成されたオーディオデータは表情データに基づき生成されたビデオ出力画像と時系列に揃えられ、従って、顔画像に対応する背景画像を決定するときに、まず顔画像の時系列に揃えられたオーディオデータを決定し、且つ該オーディオデータに対応するオーディオ時間長さを決定することができる。オーディオデータとビデオ出力画像に対して合成処理を行って出力ビデオを生成でき、従って、オーディオ時間長さに基づき出力ビデオのビデオ時間長さを算出でき、出力ビデオのビデオ時間長さとオーディオデータのオーディオ時間長さは等しい。ビデオ時間長さを決定した後に、予め記憶された背景画像セットを取得でき、ビデオ時間長さに基づき背景画像セットから背景画像を選ぶ。
本願の1つの例示的な実施例では、ビデオ時間長さにおける出力ビデオに含まれる仮想オブジェクトのオブジェクト動作数を決定し、オブジェクト動作数に基づき背景画像セットから同数のグループの背景画像を、顔画像にマッチングする背景画像として決定する。
ここで、オブジェクト動作数は合成すべきビデオデータに基づき決定されるライブ放送ビデオ中の仮想オブジェクトが行う肢体動作の数であってもよい。顔画像に基づき背景画像を決定する具体的な過程は、出力ビデオのビデオ時間長さに基づき該出力ビデオに含まれる仮想オブジェクトのオブジェクト動作数を決定でき、たとえば、出力ビデオにn個の仮想オブジェクトの動作が含まれ、背景画像セットに予め保存された汎用背景画像の中からn組の適切な背景画像を選択して顔画像にマッチングできることを含んでもよい。各組の背景画像はいずれも1つの完全な動作に対応でき、n組の背景画像は仮想オブジェクトが完了しようとするn個の動作に対応でき、n組の背景画像はちょうど仮想ビデオの終了時にn個の動作を完了できる。各組の動作に対応する背景画像は同じ画像であってもよく、それによって仮想ビデオの自然なつながりを保証する。
ステップS320では、合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュする。
本例示的な実施形態では、ライブ放送ビデオストリームは合成すべきビデオデータに対してビデオ合成処理を行って生成されたビデオストリームであってもよく、ライブ放送ビデオストリームはビデオストリームプッシュモジュールによってライブ放送クライアントにリアルタイムにプッシュできる。仮想ライブ放送ビデオサーバ端末はライブ放送ビデオストリームを生成した後に、ライブ放送ビデオストリームをライブ放送クライアントにプッシュしてリアルタイムに再生できる。ライブ放送クライアントはライブ放送ビデオストリームを受信し、且つライブ放送ビデオストリームに基づきライブ放送クライアントに仮想ライブ放送ビデオをリアルタイムに表示することに用いられ得る。ライブ放送中断要求は仮想ライブ放送過程で仮想ビデオライブ放送サーバ端末が受信する中断要求であってもよい。ライブ放送中断要求は現在リアルタイムにライブ放送している仮想ライブ放送ビデオを中断することに用いられ得る。
図4に参照されるように、仮想ビデオライブ放送サーバ端末420におけるビデオストリームプッシュモジュール423は、合成すべきビデオデータを受信した後に、合成すべきビデオデータに対してビデオ合成処理を行い、ライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアント410にプッシュでき、それによってライブ放送クライアント410はライブ放送ビデオストリームに基づき仮想ライブ放送ビデオをリアルタイムに表示する。ライブ放送クライアント410がライブ放送ビデオストリームを取得し、且つライブ放送ビデオストリームに対応する仮想ライブ放送ビデオをリアルタイムに表示することは、以下の技術的手段によって実現できる。仮想ビデオライブ放送サーバ端末420はライブ放送ビデオストリームを相応なストリームメディア再生アドレスのストリームメディアインタフェースにプッシュし、それによってライブ放送クライアント410はストリームメディア再生アドレスに基づいてライブ放送ビデオストリームをプルし、且つライブ放送クライアント410のユーザーインタフェースを通して、リアルタイムに合成される仮想ライブ放送ビデオをリアルタイムに表示する。
仮想ビデオライブ放送サーバ端末がライブ放送クライアントにライブ放送ビデオストリームをプッシュすると同時に、ユーザーはライブ放送クライアントを通して仮想ビデオライブ放送サーバ端末にライブ放送中断要求を送信でき、仮想ビデオライブ放送サーバ端末はライブ放送中断要求を受信すると、ライブ放送中断要求に対する処理の過程を行うことができる。ユーザーは仮想ビデオライブ放送中の仮想オブジェクトとインタラクションでき、仮想オブジェクトがライブ放送を行っているときに、ユーザーはライブ放送クライアントを通して音声を録音できるか、又は文字を入力でき、ライブ放送クライアントはユーザーからのフィードバックを受信すると、ライブ放送中断要求を生成する。たとえば、ユーザーは仮想オブジェクトに「製品Aはどのように使用するか」を訪ね、仮想オブジェクトがリアルタイムなライブ放送によって「製品Aの使用説明」を紹介するときに、ユーザーはライブ放送クライアントを通して「わかった」と答え、このときに、ライブ放送クライアントは1つのライブ放送中断要求を生成し、且つ該ライブ放送中断要求を仮想ビデオライブ放送サーバ端末に送信する。
ステップS330では、ライブ放送中断要求を受信すると、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する。
本例示的な実施形態では、ライブ放送ビデオストリームを合成していない合成すべきビデオデータは、仮想ビデオライブ放送サーバ端末がライブ放送中断要求を受信した後にまだビデオ合成処理を行っていない合成すべきビデオデータであってもよい。ライブ放送ビデオストリームを合成していない合成すべきビデオデータは三次元レンダリングモジュールによるレンダリング処理を経たが、まだビデオストリームプッシュモジュールによるビデオ合成処理を経ていないビデオデータであってもよい。ターゲットビデオデータは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータから決定されるビデオデータであってもよく、ターゲットビデオデータはライブ放送中断要求後の対応する中断移行ビデオストリームを生成するビデオデータことに用いられ得る。たとえば、ターゲットビデオデータは、ターゲットビデオ画像及びターゲットオーディオデータなどを含んでもよい。
仮想ビデオライブ放送サーバ端末がライブ放送中断要求を受信した後に、三次元レンダリングモジュールはライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定でき、それによってターゲットビデオデータに基づき対応するライブ放送ビデオストリームを生成する。
本願の1つの例示的な実施例では、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ残りビデオ出力データに基づきターゲットビデオ画像を決定し、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中から残りオーディオデータを決定し、且つ残りオーディオデータ、及びターゲットビデオ画像に基づきターゲットオーディオデータを決定し、ターゲットビデオ画像及びターゲットオーディオデータをターゲットビデオデータとする。
ここで、残りビデオ出力データは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータに含まれるビデオ出力データであってもよく、残りビデオ出力データは残りビデオ出力画像を含んでもよい。残りオーディオデータは、ライブ放送ビデオストリームを合成していない合成すべきビデオデータに含まれるオーディオデータであってもよい。残りビデオ出力データ及び残りオーディオデータは、いずれもまだビデオ合成処理を行っていない合成すべきビデオデータである。
仮想ビデオライブ放送サーバ端末は、ライブ放送中断要求を受信した後に、ライブ放送ビデオストリームを合成していない合成すべきビデオからそれぞれ残りビデオ出力データ及び残りオーディオデータを決定し、残りビデオ出力データに基づきターゲットビデオ画像を決定し、残りオーディオデータ及びターゲットビデオ画像に基づきターゲットオーディオデータを決定し、且つターゲットビデオ画像及びターゲットオーディオデータをターゲットビデオデータとすることができる。
本願の1つの例示的な実施例では、残りビデオ出力画像に対応する残り画像フレーム時間長さを決定し、残り画像フレーム時間長さが時間長さ閾値よりも大きいか否かを判断し、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する。
ここで、残りビデオ出力画像は、ライブ放送ビデオストリームを合成していないビデオ出力画像であってもよく、残りビデオ出力画像の数をFと記してもよい。残り画像フレーム時間長さはこれらの残りビデオ出力画像の再生に対応する時間長さであってもよく、Tと記してもよい。時間長さ閾値は予め設定された、残り画像フレーム時間長さと比較することに用いられる数値であってもよい。フレームスキップ歩長は残りビデオ出力画像からターゲットビデオ画像を選択することに採用されるビデオフレームの歩長であってもよく、Sと記してもよい。ターゲットビデオ画像はライブ放送中断要求後の仮想ライブ放送ビデオを生成するために採用されるビデオ画像であってもよい。
ライブ放送中断要求を受信した後に、仮想ビデオライブ放送サーバ端末における三次元レンダリングモジュールは、残りビデオ出力画像に対してフレームスキップ圧縮処理を行うことによってターゲットビデオデータを決定できる。図5に参照されるように、図5は本願の一実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。図5は残りビデオ出力画像に対してフレームスキップ圧縮処理を行うプロセスを示す。具体的には下記ステップを含んでもよい。ステップS510では、ビデオ出力画像に対応する残り画像フレーム時間長さを決定し、且つ決定した残り画像フレーム時間長さを予め設定された時間長さ閾値と比較する。ステップS520では、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、それによってフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する。残り画像フレーム時間長さが時間長さ閾値未満であれば、現在のビデオ動作が所定の時間長さ内に初期位置に復帰でき、次のテキストビデオ動作との間で平滑移行を行うことができることを示し、この場合、フレームスキップ圧縮処理を行わず、フレームスキップ圧縮処理ステップを終了する。
本願の1つの例示的な実施例では、フレームスキップ歩長を決定する可能な実現方式は、残りビデオ出力画像に対応する画像フレームレートを取得し、且つ残りビデオ出力画像の残り画像数を決定し、残り画像数及び画像フレームレートに基づきフレームスキップ歩長を決定することであってもよい。フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する実現方式は、時間順序に従い、且つフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定してもよい。ここで、画像フレームレートはライブ放送クライアントが1秒あたりに再生できる画像のフレーム数であってもよく、画像フレームレートはFpsを採用して表してもよい。残り画像数は残りビデオ出力画像に対応する画像数であってもよい。
例を挙げると、時間長さ閾値を500ミリ秒に設定でき、残りビデオ出力画像に対応する残り画像フレーム時間長さを計算する。残り画像フレーム時間長さは画像フレームレートに基づき決定でき、たとえば、残り画像フレーム時間長さの計算式は、T=F/Fps*1000(ミリ秒)である。従って、算出した残り画像フレーム時間長さが500ミリ秒未満であれば、残りビデオ出力画像に対してフレームスキップ圧縮処理を行わない。算出した残り画像フレーム時間長さが500ミリ秒よりも大きければ、残りビデオ出力画像に対してフレームスキップ圧縮処理ステップを実行する。具体的には、フレームスキップ圧縮処理ステップは、残りビデオ出力画像の残り画像数を決定し、且つ残り出力ビデオ画像に対応する画像フレームレートを取得し、画像フレームレート及び残り画像数に基づきフレームスキップ歩長を決定できることを含んでもよく、フレームスキップ歩長の計算式は、S=[F/(Fps/2)]であってもよい。フレームスキップ歩長を算出した後に、時間順序に従い、且つフレームスキップ歩長おきに残りビデオ出力画像から1つのターゲットビデオ画像を決定できる。
本願の1つの例示的な実施例では、時間順序に従い、且つフレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する可能な実現方式は、残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、時間順序に従い最初フレーム画像から開始し、フレームスキップ歩長おきに残りビデオ出力画像の中から中間画像を決定し、最初フレーム画像、中間画像及び最終フレーム画像をターゲットビデオ画像とすることであってもよい。
ここで、最初フレーム画像は、時間順序に従い残りビデオ出力画像の中から決定される1フレーム目の画像であってもよい。最終フレーム画像は時間順序に従い残りビデオ出力画像の中から決定される最後のフレームの画像であってもよい。中間画像は時間順序に従い残りビデオ出力画像の中間部分に位置する画像であってもよい。
フレームスキップ歩長を算出した後に、フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定でき、具体的な過程は以下の通りである。まず、残りビデオ出力画像中の1フレーム目の画像(すなわち、最初フレーム画像)と最後の1つの画像(すなわち、最終フレーム画像)を取得する。次に、時間順序に従い、Sフレーム(すなわち、フレームスキップ歩長)おきに残り出力画像の中から1つの画像を中間画像として抽出し、また、さらにSフレームおきに、このSフレームから1つの画像を中間画像としてランダムに選んでもよい。残りビデオ出力画像のすべてに対して上記処理を行うまでこのステップを繰り返す。最後に、取得した最初フレーム画像、1つ又は複数の中間画像及び最終フレーム画像をターゲットビデオ画像としてもよい。
本願の1つの例示的な実施例では、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する。フレームスキップ歩長に基づき残りビデオ出力画像の中からターゲットビデオ画像を決定する方式はさらに、フレームスキップ歩長に基づきターゲットビデオ画像のターゲット画像数を決定し、残りビデオ出力画像のうち隣接する2つの画像間の画像類似度を決定し、画像類似度に基づき残りビデオ出力画像の中からターゲット画像数を超えないターゲットビデオ画像を決定することであってもよい。ここで、ターゲット画像数は残りビデオ出力画像の中から決定されるターゲットビデオ画像の数であってもよく、Nと記してもよい。画像類似度は残りビデオ出力画像のうち2つの隣接する画像間の類似程度であってもよい。
図6に参照されるように、図6は本願の別の実施例に係る残りビデオ出力画像の中からターゲットビデオ画像を決定するフローチャートを模式的に示す。図6には、隣接する画像間の画像類似度に基づき残りビデオ出力画像の中からターゲットビデオ出力画像を決定する過程が示される。ステップS610では、残りビデオ出力画像に対応する残り画像フレーム時間長さと時間長さ閾値との大きさ関係を比較でき、残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する。フレームスキップ歩長の計算方式は上記と同じであり、ここでは重複説明を省略する。ステップS620では、フレームスキップ歩長に基づきターゲットビデオ画像に対応するターゲット画像数を決定でき、たとえば、ターゲット画像数Nの計算式はN=[F/S]であってもよい。ステップS630では、残りビデオ出力画像のうち隣接する2つの画像間の画像類似度を計算し、且つ画像類似度に基づき残りビデオ出力画像の中からターゲット画像数を超えないターゲットビデオ画像をスクリーニングする。たとえば、連続する第1数の残りビデオ出力画像のうち、2つの連続する画像間の画像類似度がいずれも95%よりも大きければ、これらの連続する第1数の残りビデオ出力画像の中から1つの画像をターゲットビデオ画像としてスクリーニングできる。すべての残りビデオ出力画像に対する上記判断が完了するまで、該ステップを繰り返して実行し、決定したターゲットビデオ画像の数がターゲット画像数を超えないようにする。
本願の1つの例示的な実施例では、残りオーディオデータ及びターゲットビデオ画像に基づきターゲットオーディオデータを決定する可能な実現方式は、残りオーディオデータの残りオーディオ時間長さを決定し、残りオーディオ時間長さが時間長さ閾値よりも大きいか否かを判断し、残りオーディオ時間長さが時間長さ閾値よりも大きければ、残りオーディオデータを削除し、ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、ターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成することであってもよい。ここで、残りオーディオ時間長さは残りオーディオデータに対応する時間長さであってもよい。時間長さ閾値は予め設定された、残りオーディオ時間長さと比較することに用いられる閾値であってもよい。ターゲットオーディオデータは中断移行ビデオストリームの生成に採用されるオーディオデータであってもよい。
図7に参照されるように、図7は本願の一実施例に係るターゲット画像フレーム時間長さに基づきターゲットオーディオデータを生成するフローチャートを模式的に示す。ステップS710では、残りオーディオデータに対応する残りオーディオ時間長さを決定し、且つ残りオーディオ時間長さを時間長さ閾値と比較し、残りオーディオ時間長さと時間長さ閾値との大きさ関係を判断するようにしてもよい。ステップS720では、残りオーディオ時間長さが時間長さ閾値よりも大きければ、残りオーディオデータを削除する。ステップS730では、ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、ターゲット画像フレーム時間長さに基づき対応するターゲットオーディオデータを生成する。たとえば、残りオーディオデータを削除した後に、ターゲット画像フレーム時間長さに基づき時間長さが等しい1つのミュートオーディオAを生成し、且つミュートオーディオAをターゲットオーディオデータとするようにしてもよい。さらにたとえば、時間順序に従い残りオーディオデータから時間長さがターゲット画像フレーム時間長さに等しい1つのオーディオ断片をカットし、且つ音量調整処理後の該オーディオ断片をターゲットオーディオデータとするようにしてもよい。また、たとえば、仮想ライブ放送ビデオサーバ端末に1つのターゲットオーディオライブラリを予め設定してもよく、ターゲットオーディオライブラリから時間長さがターゲット画像フレーム時間長さに等しい1つのオーディオ断片をターゲットオーディオデータとして選んでもよい。
本願の1つの例示的な実施例では、ターゲットビデオデータが中断移行アニメーションを含んでいるとすると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定する可能な実現方式は、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータ中の1番目のビデオ出力画像を第1中断画像とし、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータ中の最後の1つのビデオ出力画像を第2中断画像とし、上記第1中断画像及び上記第2中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成することであってもよい。ここで、第1中断画像は時間順序に従いライブ放送ビデオストリームを合成していない合成すべきビデオデータ(すなわち、残りビデオ出力画像)から決定される1フレーム目の画像であってもよい。第2中断画像は時間順序に従い残りビデオ出力画像の中から決定される最後フレームの画像であってもよい。中断移行アニメーションは第1中断画像及び第2中断画像に基づき生成されるアニメーションであってもよく、中断移行アニメーションは第1中断画像から第2中断画像に変換される移行状態を反映できる。
図8に参照されるように、図8は本願の一実施例に係る中断移行アニメーションを生成するフローチャートを模式的に示す。ステップS810では、仮想ビデオライブ放送サーバ端末はライブ放送中断要求を受信した後に、ライブ放送ビデオストリームを合成していない合成すべきビデオデータから第1中断画像を決定でき、すなわち、残りビデオ出力画像中の1番目のビデオ出力画像を第1中断画像とする。ステップS820では、仮想ビデオライブ放送サーバ端末はライブ放送ビデオストリームを合成していない合成すべきビデオデータから第2中断画像を決定でき、すなわち、残りビデオ出力画像中の最後の1つのビデオ出力画像を第2中断画像とする。ステップS830では、仮想ビデオライブ放送サーバ端末は第1中断画像及び第2中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成でき、それによって生成した中断移行アニメーション及びターゲットオーディオデータをターゲットビデオデータとする。例を挙げると、仮想ビデオライブ放送サーバ端末に移行アニメーションライブラリを設定でき、移行アニメーションライブラリにはいくつかのキー表情特徴画像に対応する移行アニメーションを予め記憶でき、第1中断画像及び第2中断画像を決定した後に、移行アニメーションライブラリからこれら2つの画像に対応し、且つ再生時間長さが予め設定された時間長さである移行アニメーションを中断移行アニメーションとしてマッチングできる。また、第1中断画像及び第2中断画像を決定した後に、さらに1つの予め設定された時間長さの中断移行アニメーションをリアルタイムに生成できる。
ステップS340では、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。
本例示的な実施形態では、中断移行ビデオストリームはターゲットビデオデータに対してビデオストリーム合成処理を行って生成されたビデオストリームであってもよい。仮想ビデオライブ放送サーバ端末はターゲットビデオデータを決定した後に、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュすることができ、それによってライブ放送クライアントは取得した中断移行ビデオストリームに対応する仮想ライブ放送ビデオリアルタイムをユーザーインタフェースに表示する。
図9に参照されるように、図9は本願の一実施例に係る仮想ビデオストリームプッシュサービスの実現フレームワーク図を模式的に示す。図9において、仮想ビデオストリームプッシュサービスはテキスト音声変換モジュールと、三次元レンダリングモジュールと、ビデオストリームプッシュモジュールと、を含んでもよい。
ライブ放送クライアントが仮想ビデオライブ放送サーバ端末にテキストデータを送信するときに、ライブ放送クライアントが送信するテキストデータは仮想ライブ放送ビデオ中の仮想オブジェクトが発話しようとする文字であってもよく、また、あるいくつかのシーンでは、ライブ放送クライアントが送信するテキストデータは仮想オブジェクトが発話しようとする文字の一部であってもよく、従って、該テキストデータに対応する関連テキストデータを決定し、且つターゲットテキストを決定することができる。
仮想ビデオライブ放送サーバ端末がターゲットテキストを決定した後に、テキスト音声変換モジュールはターゲットテキストに基づき対応するオーディオデータ及び表情特徴データを生成し、オーディオデータ及び表情特徴データをパッケージ化して1つの合成すべきビデオデータのデータパケットを形成し、且つ合成すべきビデオデータパケットを三次元レンダリングモジュールにプッシュすることができる。たとえば、テキスト音声変換モジュールはターゲットテキストと対応するオーディオデータ、及び表情特徴データをストリーミングの形で取得でき、テキスト音声変換モジュールはオーディオデータ及び表情特徴データを含む1つのデータパケットを取得するたびに、該データパケットを三次元レンダリングモジュールにプッシュし、仮想ビデオライブ放送サーバ端末はライブ放送中断要求又はライブ放送終了要求を受信した後に、対応する中断信号又は終了信号を三次元レンダリングモジュールに転送できる。
三次元レンダリングモジュールは合成すべきビデオデータパケットを受信するときに、その中の表情特徴データを抽出して三次元レンダリングを行って1組の対応する顔画像を取得すると同時に、1つの顔画像と1つの背景画像とに対して画像融合処理を行って1つの完全な画像を合成し、1組の完全なビデオ出力画像を得て、且つオーディオデータとパッケージ化して、ともにビデオストリームプッシュモジュールにプッシュすることができる。中断信号、又は終了信号を受信すると、三次元レンダリングモジュールはビデオストリームプッシュモジュールに送信されていない画像データ及びオーディオデータに対してフレームスキップ圧縮処理を行い、且つフレームスキップ圧縮処理を経て生成されるターゲットビデオデータをビデオストリームプッシュモジュールに送信することができる。
ビデオストリームプッシュモジュールは1つの三次元レンダリングモジュールからプッシュされてくるデータパケットを取得するたびに、その中のオーディオデータ及び画像データを抽出し、FFmpeg(Fast Forward Moving Picture Expert Group、FFMPEG)ツールによってオーディオデータと画像フレームデータに対して合成処理を行ってライブ放送ビデオストリーム、又は中断移行ビデオストリームを生成し、且つライブ放送ビデオストリーム、又は中断移行ビデオストリームをライブ放送クライアントに同期的にプッシュすることができる。ビデオストリームプッシュモジュールは1つの中断信号を受信した後に、テキストデータ取得ステップにジャンプでき、ビデオストリームプッシュモジュールは終了信号を受信した後に、今回のビデオストリームプッシュサービスを終了し、ライブ放送クライアントとの間の通信接続を切断することができる。
以上のように、本願における仮想ビデオライブ放送処理方法は、テキストデータを取得し、且つテキストデータに対応する合成すべきビデオデータを決定し、合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つライブ放送ビデオストリームをライブ放送クライアントにプッシュし、ライブ放送中断要求を受信すると、ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない合成すべきビデオデータの中からターゲットビデオデータを決定し、ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ中断移行ビデオストリームをライブ放送クライアントにプッシュする。一方では、テキストデータによって対応する合成すべきビデオデータを生成し、ビデオライブ放送過程では、たとえ安定したデータソースがないとしてもライブ放送ビデオストリームをリアルタイムに生成できる。他方では、ハード切り替えを採用してビデオ中断処理を行う時にビデオがギクシャクする問題が存在することを回避し、ライブ放送ビデオが中断される時の平滑移行処理を効果的に行い、仮想ビデオライブ放送の滑らかさを向上させることができる。更なる方面では、本願は、ライブ放送ビデオが中断される平滑移行の問題を解決すると同時に、ライブ放送ビデオのリアルタイム性を考慮し、平滑移行過程を1つの設定された時間長さ内に制御し、現在のビデオ動作を次のテキストビデオ動作に平滑に移行させることができると同時に、ビデオのリアルタイム性への影響を減少できる。
なお、図面において特定の順序で本願における方法の各ステップを説明したが、これは該特定の順序に従いこれらのステップを実行しなければならないか、又は所望の結果を実現するには示されるステップを実行しなければならないことを要求、又は暗示しない。付加的に、又は選択可能に、あるいくつかのステップを省略したり、複数のステップを1つのステップに合併して実行したり、及び/又は1つのステップを複数のステップに分解して実行したりするなどのようにしてもよい。
さらに、本例示的な実施形態では、さらに仮想ビデオライブ放送処理装置を提供する。該仮想ビデオライブ放送処理装置は1つのサーバ又は端末機器に応用できる。図10を参照して示すように、該仮想ビデオライブ放送処理装置1000は、データ決定モジュール1010と、第1ビデオ合成モジュール1020と、中断応答モジュール1030と、第2ビデオ合成モジュール1040とを含んでもよい。ここで、
データ決定モジュール1010は、テキストデータを取得し、且つ上記テキストデータに対応する合成すべきビデオデータを決定することに用いられ、
第1ビデオ合成モジュール1020は、上記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ上記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられ、
中断応答モジュール1030は、ライブ放送中断要求を受信すると、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられ、
第2ビデオ合成モジュール1040は、上記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ上記中断移行ビデオストリームを上記ライブ放送クライアントにプッシュすることに用いられる。
本願の1つの例示的な実施例では、上記データ決定モジュールは、上記テキストデータに関する関連テキストデータを決定し、上記テキストデータと上記関連テキストデータをターゲットテキストとすることに用いられるターゲットテキスト決定ユニットと、上記ターゲットテキストを対応するターゲット単語ベクトルに転換し、上記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、上記ターゲット単語ベクトルのオーディオ特徴を生成することに用いられるオーディオ特徴生成ユニットと、上記オーディオ特徴に対して合成処理を行うことによって、オーディオデータを生成することに用いられるオーディオデータ生成ユニットと、上記ターゲットテキストに対応する表情特徴データを決定し、且つ上記表情特徴データに基づきビデオ出力画像を生成することに用いられる画像生成ユニットと、を含む。
本願の1つの例示的な実施例では、画像生成ユニットは、上記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成することに用いられる顔画像生成ユニットと、上記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定ユニットであって、上記背景画像は上記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、背景画像決定ユニットと、上記顔画像と上記背景画像に対して画像融合処理を行って上記ビデオ出力画像を生成することに用いられる画像融合ユニットと、を含む。
本願の1つの例示的な実施例では、背景画像決定ユニットは、上記顔画像の時系列に揃えられた上記オーディオデータのオーディオ時間長さを決定することに用いられるオーディオ時間長さ決定サブユニットと、上記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定することに用いられるビデオ時間長さ決定サブユニットと、上記ビデオ時間長さに基づき、予め記憶された背景画像セットから上記顔画像にマッチングする背景画像を決定することに用いられる背景画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、背景画像決定サブユニットは、上記ビデオ時間長さにおける上記出力ビデオに含まれる上記仮想オブジェクトのオブジェクト動作数を決定し、上記オブジェクト動作数に基づき上記背景画像セットから同数のグループの背景画像を、上記顔画像にマッチングする背景画像として決定するように構成される。
本願の1つの例示的な実施例では、中断応答モジュールは、上記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ上記残りビデオ出力データに基づきターゲットビデオ画像を決定することに用いられるターゲット画像決定ユニットと、上記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない上記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ上記残りオーディオデータ及び上記ターゲットビデオ画像に基づきターゲットオーディオデータを決定することに用いられるターゲットオーディオ決定ユニットと、上記ターゲットビデオ画像及び上記ターゲットオーディオデータを上記ターゲットビデオデータとすることに用いられるビデオデータ決定ユニットと、を含む。
本願の1つの例示的な実施例では、ターゲット画像決定ユニットは、上記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定することに用いられる時間長さ判断サブユニットと、上記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定し、上記フレームスキップ歩長に基づき上記残りビデオ出力画像の中から上記ターゲットビデオ画像を決定することに用いられるターゲット画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、ターゲット画像決定サブユニットは、上記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ上記残りビデオ出力画像の残り画像数を決定し、上記残り画像数及び上記画像フレームレートに基づき上記フレームスキップ歩長を決定することに用いられるフレームスキップ歩長決定サブユニットと、時間順序に従い、且つ上記フレームスキップ歩長に基づき上記残りビデオ出力画像の中から上記ターゲットビデオ画像を決定することに用いられる画像決定サブユニットと、を含む。
本願の1つの例示的な実施例では、画像決定サブユニットは、上記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得し、上記時間順序に従い上記最初フレーム画像から開始し、上記フレームスキップ歩長おきに上記残りビデオ出力画像の中から中間画像を決定し、上記最初フレーム画像、上記中間画像及び上記最終フレーム画像を上記ターゲットビデオ画像とするように構成される。
本願の1つの例示的な実施例では、ターゲット画像決定ユニットはさらに、上記フレームスキップ歩長に基づき上記ターゲットビデオ画像のターゲット画像数を決定し、上記残りビデオ出力画像のうち隣接する2つの画像間の画像類似度を決定し、上記画像類似度に基づき上記残りビデオ出力画像の中から上記ターゲット画像数を超えない上記ターゲットビデオ画像を決定するように構成され得る。
本願の1つの例示的な実施例では、ターゲットオーディオ決定ユニットは、上記残りオーディオデータの残りオーディオ時間長さを決定し、上記残りオーディオ時間長さが上記時間長さ閾値よりも大きければ、上記残りオーディオデータを削除し、上記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定し、上記ターゲット画像フレーム時間長さに基づき上記ターゲットオーディオデータを生成するように構成される。
本願の1つの例示的な実施例では、上記中断応答モジュールはさらにアニメーション生成サブユニットを含み、アニメーション生成サブユニットは、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータ中の1番目のビデオ出力画像を第1中断画像とし、上記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない上記合成すべきビデオデータ中の最後の1つのビデオ出力画像を第2中断画像とし、上記第1中断画像及び上記第2中断画像に基づき、予め設定された時間長さの中断移行アニメーションを生成するように構成される。
上記仮想ビデオライブ放送処理装置における各モジュール、又はユニットの具体的な詳細は対応する仮想ビデオライブ放送処理方法において詳細に説明されており、従って、ここでは重複説明を省略する。
なお、以上の詳細な説明において動作実行用の機器の複数のモジュール、又はユニットが言及されたが、このような分割は強制的なものではない。実際には、本願の実施形態によれば、以上説明された2つ、又はより多くのモジュール又はユニットの特徴及び機能は1つのモジュール、又はユニットにおいて具現化されてもよい。逆に、以上説明された1つのモジュール、又はユニットの特徴及び機能はさらに複数のモジュール、又はユニットに分割して具現化されてもよい。
当業者は明細書を考慮し、且つここで開示されている発明を実践した後に、本願の他の実施手段を容易に想到できるようになる。本願は本願のいかなる変形、用途又は適応的な変化もカバーすることを目的としており、これらの変形、用途又は適応的な変化は本願の一般的な原理に即し、且つ本願に開示されていない本技術分野における周知の常識又は慣用的な技術手段を含む。明細書及び実施例は単に例示的なものであり、本願の真の範囲及び趣旨は以下の特許請求の範囲に定められる。
理解できるように、本願は上記において既に説明され、且つ図面に示された正確な構造に限定されるものではなく、その範囲を逸脱せずに種々の修正や変化を行うことができる。本願の範囲は添付する特許請求の範囲のみにより制限される。
100 システムアーキテクチャ
101 端末機器
102 端末機器
103 端末機器
104 ネットワーク
105 サーバ
200 コンピュータシステム
201 中央処理ユニット(CPU)
202 専用メモリ(ROM)
203 ランダムアクセスメモリ(RAM)
204 バス
205 I/Oインタフェース
206 入力部分
207 出力部分
208 記憶部分
209 通信部分
210 ドライバ
211 リムーバブル媒体
410 ライブ放送クライアント
420 仮想ビデオライブ放送サーバ端末
421 テキスト音声変換モジュール
422 三次元レンダリングモジュール
423 ビデオストリームプッシュモジュール
1000 仮想ビデオライブ放送処理装置
1010 データ決定モジュール
1020 第1ビデオ合成モジュール
1030 中断応答モジュール
1040 第2ビデオ合成モジュール

Claims (15)

  1. 電子機器により実行される、仮想ビデオライブ放送処理方法であって、前記方法は、
    テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定するステップと、
    前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュするステップと、
    ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定するステップと、
    前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュするステップと、を含む、仮想ビデオライブ放送処理方法。
  2. 前記合成すべきビデオデータはオーディオデータ及びビデオ出力画像を含み、
    テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定する前記ステップは、
    前記テキストデータに関する関連テキストデータを決定し、前記テキストデータと前記関連テキストデータをターゲットテキストとするステップと、
    前記ターゲットテキストを対応するターゲット単語ベクトルに転換し、前記ターゲット単語ベクトルに対して符号化処理及び復号処理を行うことによって、前記ターゲット単語ベクトルのオーディオ特徴を生成するステップと、
    前記オーディオ特徴に対して合成処理を行うことによって、前記オーディオデータを生成するステップと、
    前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づき前記ビデオ出力画像を生成するステップと、を含む、請求項1に記載の仮想ビデオライブ放送処理方法。
  3. 前記ターゲットテキストに対応する表情特徴データを決定し、且つ前記表情特徴データに基づき前記ビデオ出力画像を生成する前記ステップは、
    前記表情特徴データに対してレンダリング処理を行うことによって、仮想オブジェクトに対応する顔画像を生成するステップと、
    前記顔画像にマッチングする背景画像を決定するステップであって、前記背景画像は前記仮想オブジェクトの肢体動作情報及び環境背景情報を含む、ステップと、
    前記顔画像と前記背景画像とに対して画像融合処理を行うことによって、前記ビデオ出力画像を生成するステップと、を含む、請求項2に記載の仮想ビデオライブ放送処理方法。
  4. 前記顔画像にマッチングする背景画像を決定する前記ステップは、
    前記顔画像の時系列に揃えられた前記オーディオデータのオーディオ時間長さを決定するステップと、
    前記オーディオ時間長さに基づき出力ビデオのビデオ時間長さを決定するステップと、
    前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定するステップと、を含む、請求項3に記載の仮想ビデオライブ放送処理方法。
  5. 前記ビデオ時間長さに基づき、予め記憶された背景画像セットから前記顔画像にマッチングする背景画像を決定する前記ステップは、
    前記ビデオ時間長さにおける前記出力ビデオに含まれる前記仮想オブジェクトのオブジェクト動作数を決定するステップと、
    前記オブジェクト動作数に基づき前記背景画像セットから同数のグループの背景画像を、前記顔画像にマッチングする背景画像として決定するステップと、を含む、請求項4に記載の仮想ビデオライブ放送処理方法。
  6. ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定する前記ステップは、
    前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定するステップと、
    前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定するステップと、
    前記ターゲットビデオ画像及び前記ターゲットオーディオデータを前記ターゲットビデオデータとするステップと、を含む、請求項1に記載の仮想ビデオライブ放送処理方法。
  7. 前記残りビデオ出力データは残りビデオ出力画像を含み、
    前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りビデオ出力データを決定し、且つ前記残りビデオ出力データに基づきターゲットビデオ画像を決定する前記ステップは、
    前記残りビデオ出力画像に対応する残り画像フレーム時間長さを決定するステップと、
    前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定するステップと、
    前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定するステップと、を含む、請求項6に記載の仮想ビデオライブ放送処理方法。
  8. 前記残り画像フレーム時間長さが時間長さ閾値よりも大きければ、フレームスキップ歩長を決定する前記ステップは、
    前記残りビデオ出力画像に対応する画像フレームレートを取得し、且つ前記残りビデオ出力画像の残り画像数を決定するステップと、
    前記残り画像数及び前記画像フレームレートに基づき前記フレームスキップ歩長を決定するステップと、を含み、
    前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
    時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定するステップを含む、請求項7に記載の仮想ビデオライブ放送処理方法。
  9. 時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
    前記残りビデオ出力画像中の最初フレーム画像及び最終フレーム画像を取得するステップと、
    前記時間順序に従い前記最初フレーム画像から開始し、前記フレームスキップ歩長おきに前記残りビデオ出力画像の中から中間画像を決定するステップと、
    前記最初フレーム画像、前記中間画像及び前記最終フレーム画像を前記ターゲットビデオ画像とするステップと、を含む、請求項8に記載の仮想ビデオライブ放送処理方法。
  10. 時間順序に従い、且つ前記フレームスキップ歩長に基づき前記残りビデオ出力画像の中から前記ターゲットビデオ画像を決定する前記ステップは、
    前記フレームスキップ歩長に基づき前記ターゲットビデオ画像のターゲット画像数を決定するステップと、
    前記残りビデオ出力画像のうち隣接する2つの画像間の画像類似度を決定するステップと、
    前記画像類似度に基づき前記残りビデオ出力画像の中から前記ターゲット画像数を超えない前記ターゲットビデオ画像を決定するステップと、を含む、請求項7に記載の仮想ビデオライブ放送処理方法。
  11. 前記ライブ放送中断要求に応答して、ライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中から残りオーディオデータを決定し、且つ前記残りオーディオデータ及び前記ターゲットビデオ画像に基づきターゲットオーディオデータを決定する前記ステップは、
    前記残りオーディオデータの残りオーディオ時間長さを決定するステップと、
    前記残りオーディオ時間長さが前記時間長さ閾値よりも大きければ、前記残りオーディオデータを削除するステップと、
    前記ターゲットビデオ画像に対応するターゲット画像フレーム時間長さを決定するステップと、
    前記ターゲット画像フレーム時間長さに基づき前記ターゲットオーディオデータを生成するステップと、を含む、請求項6に記載の仮想ビデオライブ放送処理方法。
  12. 前記ターゲットビデオデータは中断移行アニメーションを含み、
    ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定する前記ステップは、
    前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の1番目のビデオ出力画像を第1中断画像とするステップと、
    前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータ中の最後の1つのビデオ出力画像を第2中断画像とするステップと、
    前記第1中断画像及び前記第2中断画像に基づき予め設定された時間長さの前記中断移行アニメーションを生成するステップと、を含む、請求項1に記載の仮想ビデオライブ放送処理方法。
  13. 仮想ビデオライブ放送処理装置であって、前記装置は電子機器内に配備され、前記装置は、
    テキストデータを取得し、且つ前記テキストデータに対応する合成すべきビデオデータを決定することに用いられるデータ決定モジュールと、
    前記合成すべきビデオデータに基づきライブ放送ビデオストリームをリアルタイムに合成し、且つ前記ライブ放送ビデオストリームをライブ放送クライアントにプッシュすることに用いられる第1ビデオ合成モジュールと、
    ライブ放送中断要求を受信すると、前記ライブ放送中断要求に応答してライブ放送ビデオストリームを合成していない前記合成すべきビデオデータの中からターゲットビデオデータを決定することに用いられる中断応答モジュールと、
    前記ターゲットビデオデータに基づき中断移行ビデオストリームを合成し、且つ前記中断移行ビデオストリームを前記ライブ放送クライアントにプッシュすることに用いられる第2ビデオ合成モジュールと、を含む、仮想ビデオライブ放送処理装置。
  14. 仮想ビデオライブ放送処理用の電子機器であって、
    プロセッサと、
    メモリと、を含み、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行されると、請求項1~12のいずれか一項に記載の仮想ビデオライブ放送処理方法を実現する、仮想ビデオライブ放送処理用の電子機器。
  15. 請求項1~12のいずれか一項に記載の仮想ビデオライブ放送処理方法を実現するように構成された、コンピュータプログラム。
JP2023521162A 2020-11-26 2021-10-14 仮想ビデオライブ放送処理方法及び装置、電子機器 Active JP7479750B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011356995.7 2020-11-26
CN202011356995.7A CN112543342B (zh) 2020-11-26 2020-11-26 虚拟视频直播处理方法及装置、存储介质、电子设备
PCT/CN2021/123818 WO2022111110A1 (zh) 2020-11-26 2021-10-14 虚拟视频直播处理方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
JP2023545050A JP2023545050A (ja) 2023-10-26
JP7479750B2 true JP7479750B2 (ja) 2024-05-09

Family

ID=75017011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023521162A Active JP7479750B2 (ja) 2020-11-26 2021-10-14 仮想ビデオライブ放送処理方法及び装置、電子機器

Country Status (5)

Country Link
US (1) US11991423B2 (ja)
EP (1) EP4195668A4 (ja)
JP (1) JP7479750B2 (ja)
CN (1) CN112543342B (ja)
WO (1) WO2022111110A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543342B (zh) * 2020-11-26 2023-03-14 腾讯科技(深圳)有限公司 虚拟视频直播处理方法及装置、存储介质、电子设备
CN113891133B (zh) * 2021-12-06 2022-04-22 阿里巴巴达摩院(杭州)科技有限公司 多媒体信息的播放方法、装置、设备及存储介质
CN114125569B (zh) * 2022-01-27 2022-07-15 阿里巴巴(中国)有限公司 直播处理方法以及装置
CN114866802B (zh) * 2022-04-14 2024-04-19 青岛海尔科技有限公司 视频流的发送方法和装置、存储介质及电子装置
CN115022655A (zh) * 2022-05-19 2022-09-06 咪咕文化科技有限公司 直播卡顿处理方法、装置、电子设备及可读存储介质
CN115002088B (zh) * 2022-06-09 2023-06-02 厦门熵基科技有限公司 一种视频流的推流和存储方法及系统
CN115426536B (zh) * 2022-11-02 2023-01-20 北京优幕科技有限责任公司 音视频生成方法及装置
CN116958331B (zh) * 2023-09-20 2024-01-19 四川蜀天信息技术有限公司 一种音画同步的调整方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090044112A1 (en) 2007-08-09 2009-02-12 H-Care Srl Animated Digital Assistant
JP2009060353A (ja) 2007-08-31 2009-03-19 Mitsubishi Electric Corp コンテンツ配信装置、及び移動端末装置、並びにコンテンツ配信システム、コンテンツ配信方法、コンテンツ受信方法、及びコンテンツ配信プログラム
JP2017076028A (ja) 2015-10-14 2017-04-20 富士通株式会社 音声合成装置及び音声合成方法
JP2018133664A (ja) 2017-02-14 2018-08-23 日本放送協会 配信装置およびプログラム
CN110298906A (zh) 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
US20200359104A1 (en) 2018-04-25 2020-11-12 Tencent Technology (Shenzhen) Company Limited Method and apparatus for pushing subtitle data, subtitle display method and apparatus, device and medium
JP2021533400A (ja) 2018-08-23 2021-12-02 グーグル エルエルシーGoogle LLC マルチアシスタント環境の特性によるアシスタント応答性の規制

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4820136B2 (ja) * 2005-09-22 2011-11-24 パナソニック株式会社 映像音声記録装置及び映像音声記録方法
US9031381B2 (en) * 2006-07-20 2015-05-12 Panopto, Inc. Systems and methods for generation of composite video from multiple asynchronously recorded input streams
CN103997680B (zh) * 2014-06-06 2017-10-24 上海众源网络有限公司 一种视频码流的切换方法及装置
CN107370980A (zh) * 2016-05-11 2017-11-21 中兴通讯股份有限公司 视频切换方法、装置及系统
CN107277599A (zh) * 2017-05-31 2017-10-20 珠海金山网络游戏科技有限公司 一种虚拟现实的直播方法、装置和系统
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
CN108307248B (zh) * 2018-02-01 2019-10-29 腾讯科技(深圳)有限公司 视频播放方法、装置、计算设备及存储介质
SE1851667A1 (en) * 2018-12-21 2020-06-22 Net Insight Intellectual Property Ab Method for ad pod handling in live media streaming
CN109889914B (zh) * 2019-03-08 2021-04-02 腾讯科技(深圳)有限公司 视频画面推送方法、装置、计算机设备及存储介质
CN109922355B (zh) * 2019-03-29 2020-04-17 广州虎牙信息科技有限公司 虚拟形象直播方法、虚拟形象直播装置和电子设备
CN110868635B (zh) * 2019-12-04 2021-01-12 深圳追一科技有限公司 视频处理方法、装置、电子设备及存储介质
CN111050187B (zh) * 2019-12-09 2020-12-15 腾讯科技(深圳)有限公司 一种虚拟视频处理的方法、装置及存储介质
CN112995706B (zh) * 2019-12-19 2022-04-19 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质
CN111010589B (zh) * 2019-12-19 2022-02-25 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质
CN111182358B (zh) * 2019-12-30 2021-09-28 腾讯科技(深圳)有限公司 视频处理方法、视频播放方法、装置、设备和存储介质
CN111866529A (zh) * 2020-06-05 2020-10-30 江苏遨信科技有限公司 一种在视频直播时混合使用虚拟真人的方法及其系统
US11683538B2 (en) * 2020-09-03 2023-06-20 Meta Platforms, Inc. Live group video streaming
CN112543342B (zh) * 2020-11-26 2023-03-14 腾讯科技(深圳)有限公司 虚拟视频直播处理方法及装置、存储介质、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090044112A1 (en) 2007-08-09 2009-02-12 H-Care Srl Animated Digital Assistant
JP2009060353A (ja) 2007-08-31 2009-03-19 Mitsubishi Electric Corp コンテンツ配信装置、及び移動端末装置、並びにコンテンツ配信システム、コンテンツ配信方法、コンテンツ受信方法、及びコンテンツ配信プログラム
JP2017076028A (ja) 2015-10-14 2017-04-20 富士通株式会社 音声合成装置及び音声合成方法
JP2018133664A (ja) 2017-02-14 2018-08-23 日本放送協会 配信装置およびプログラム
US20200359104A1 (en) 2018-04-25 2020-11-12 Tencent Technology (Shenzhen) Company Limited Method and apparatus for pushing subtitle data, subtitle display method and apparatus, device and medium
JP2021533400A (ja) 2018-08-23 2021-12-02 グーグル エルエルシーGoogle LLC マルチアシスタント環境の特性によるアシスタント応答性の規制
CN110298906A (zh) 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
US11991423B2 (en) 2024-05-21
WO2022111110A1 (zh) 2022-06-02
JP2023545050A (ja) 2023-10-26
CN112543342B (zh) 2023-03-14
US20230033378A1 (en) 2023-02-02
EP4195668A4 (en) 2024-05-29
EP4195668A1 (en) 2023-06-14
CN112543342A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
JP7479750B2 (ja) 仮想ビデオライブ放送処理方法及び装置、電子機器
CN111010586B (zh) 基于人工智能的直播方法、装置、设备及存储介质
WO2022166709A1 (zh) 虚拟视频直播处理方法及装置、存储介质、电子设备
CN111010589B (zh) 基于人工智能的直播方法、装置、设备及存储介质
CN112333179B (zh) 虚拟视频的直播方法、装置、设备及可读存储介质
US11308671B2 (en) Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
CN113392201A (zh) 信息交互方法、装置、电子设备、介质和程序产品
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN107979763B (zh) 一种虚拟现实设备生成视频、播放方法、装置及系统
WO2022106654A2 (en) Methods and systems for video translation
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN110880198A (zh) 动画生成方法和装置
CN110931042A (zh) 同声传译方法、装置、电子设备以及存储介质
CN112652041B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113282791B (zh) 视频生成方法和装置
CN116524924A (zh) 数字人交互控制方法、装置、电子设备和存储介质
WO2023065963A1 (zh) 互动展示方法、装置、电子设备及可读介质
CN116168108A (zh) 文本生成图像的方法及装置、存储介质及电子设备
CN115690277A (zh) 视频生成方法、系统、装置、电子设备和计算机存储介质
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN114401439A (zh) 一种舞蹈视频生成方法、设备及存储介质
CN117373455B (zh) 一种音视频的生成方法、装置、设备及存储介质
CN116843805B (zh) 一种包含行为的虚拟形象生成方法、装置、设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230405

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240418

R150 Certificate of patent or registration of utility model

Ref document number: 7479750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150