JP2023059937A - データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム - Google Patents

データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム Download PDF

Info

Publication number
JP2023059937A
JP2023059937A JP2023025174A JP2023025174A JP2023059937A JP 2023059937 A JP2023059937 A JP 2023059937A JP 2023025174 A JP2023025174 A JP 2023025174A JP 2023025174 A JP2023025174 A JP 2023025174A JP 2023059937 A JP2023059937 A JP 2023059937A
Authority
JP
Japan
Prior art keywords
data
target
lip
determining
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2023025174A
Other languages
English (en)
Inventor
イェンロン ジャン,
Yanlong Zhang
トンフイ リー,
Tonghui Li
ジンジン スン,
Jingjing Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023059937A publication Critical patent/JP2023059937A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】本開示は、データインタラクション方法、装置、電子機器、記憶媒体及びプログラムを提供し、人工知能分野に関し、特にディープラーニング、画像処理、コンピュータ視覚技術分野に関し、顔識別等のシーンに適用することができる。【解決手段】返答データに応答して、返答データに対応する音素データを確定し、音素データと一対一に対応するターゲットリップ形画像フレームを確定し、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得て、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。【選択図】図2

Description

本開示は人工知能分野に関し、特にディープラーニング、画像処理、コンピュータ視覚技術分野に関し、顔識別等のシーンに適用することができ、具体的には、データインタラクション方法、装置、機器、記憶媒体、および、プログラムに関する。
コンピュータ技術及びインターネット技術の発展に伴い、多くのインテリジェント製品は、ユーザの使用体験を向上させるために、データインタラクション機能を備える。
本開示は、データインタラクション方法、装置、機器、記憶媒体、および、プログラムを提供する。
本開示の一態様は、返答データに応答して、返答データに対応する音素データを確定することと、音素データと一対一に対応するターゲットリップ形画像フレームを確定することと、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることと、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることと、を含む、データインタラクション方法を提供する。
本開示の他の態様は、返答データに応答して、返答データに対応する音素データを確定するための音素データ確定モジュールと、音素データと一対一に対応するターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定モジュールと、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るための融合モジュールと、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るためのレンダリングモジュールと、を含む、データインタラクション装置を提供する。
本開示の他の態様は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されるメモリとを備える電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも1つのプロセッサが本開示の実施形態の方法を実行することができるように、前記命令が前記少なくとも1つのプロセッサによって実行される、電子機器を提供する。
本開示の他の態様は、コンピュータに本開示の実施形態の方法を実行させるためのコンピュータ命令を記憶している、非一時的なコンピュータ可読記憶媒体を提供する。
本開示の他の態様は、プロセッサにより実行される場合に、本開示の実施形態の方法を実現するコンピュータプログラムを提供する。
本部分に記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもないと理解されるべきである。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本開示の発明をよく理解するために用いられ、本開示を限定するものではない。
本開示の実施形態に係るデータインタラクション方法及び装置を模式的に示すシステムアーキテクチャ図である。 本開示の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。 本開示の他の実施形態に係るデータインタラクション方法を模式的に示す概略図である。 本開示の実施形態に係る音素データの確定を模式的に示す概略図である。 本開示の実施形態に係るターゲットリップ形画像フレームの確定を模式的に示す概略図である。 本開示の実施形態に係るターゲットビデオフレームの取得を模式的に示す概略図である。 本開示の実施形態に係るターゲット表示データの取得を模式的に示す概略図である。 本開示のさらに他の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。 本開示の実施形態に係るデータインタラクション装置を模式的に示すブロック図である。 本開示の実施形態のデータインタラクション方法を実現することができる電子機器を模式的に示すブロック図である。
以下、図面を参照して本開示の例示的な実施形態を説明する。ここで、より理解しやすくするために本開示の実施形態の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施形態に対して様々な変更や補正を行うことができ、本開示の範囲及び精神から逸脱することはないと理解するべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
ここで使用される用語は、具体的な実施形態を説明するためだけであり、本開示を限定することを意図するものではない。ここで使用される「含む」、「含み」等の用語は、前記特徴、ステップ、操作及び/又は部品の存在を示すが、1つ又は複数の他の特徴、ステップ、操作又は部品が存在するか又は追加されることを排除するものではない。
ここで使用される全ての用語(技術及び科学的用語を含む)は、特に説明されない限り、当業者が一般的に理解する意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈すべきであり、理想化又はステレオタイプ過ぎのやり方で解釈されるべきではない、と注意すべきである。
「A、B及びCなどのうちの少なくとも1つ」のような表現を用いる場合、一般的には当業者の該表現に対する一般的な理解で解釈すべきである(例えば、「A、B及びCのうちの少なくとも1つを有するシステム」は、Aだけを有し、Bだけを有し、Cだけを有し、AとBを有し、AとCを有し、BとCを有し、及び/又はAとBとCを有するシステムなどを含むべきであるが、これらに限定されない)。
コンピュータ技術及びインターネット技術の発展に伴い、多くのインテリジェント製品は、ユーザの使用体験を向上させるために、データインタラクション機能を備える。
例えば、複数種類のインテリジェント製品は、例えばデジタルヒューマンのバーチャルキャラクターにより、ユーザとの間にデータインタラクションを行う。デジタルヒューマンは、バーチャルキャラクターであり、人体の形態及び機能を仮想シミュレーションすることができる。
いくつかの実施形態において、端末機器は、ユーザの入力語音データを収集し、且つ、入力語音データをデジタルヒューマンサーババックグラウンドに送信することができ、サーババックグラウンドは、入力語音データを取得した後に、語音解析を行い、解析された入力語音データを取得し、且つ、解析された入力語音データに基づいて返答内容を生成することができる。次に、返答内容に基づいてバーチャルキャラクターを生成する各画像フレームを駆動し、各画像フレームが符号化された後にビデオストリームを形成し、ビデオストリームをストリーミングメディアサーバに送信する。端末機器は、ストリーミングメディアサーバ内のビデオストリームを引き出して再生することができ、データインタラクションプロセスが完了する。
図1は、本開示の実施形態に係るデータインタラクション方法及び装置を模式的に示すシステムアーキテクチャ図である。注意すべきものとして、図1に示すのは、本開示の実施形態を適用し得るシステムアーキテクチャの例に過ぎず、当業者が本開示の技術内容を理解することに役立つが、本開示の実施形態が他の機器、システム、環境又はシーンに用いられないことを意味するものではない。
図1に示すように、該実施形態に係るシステムアーキテクチャ100は、クライアント側101、102、103と、ネットワーク104と、サーバ105とを含むことができる。ネットワーク104は、クライアント側101、102、103とサーバ105との間に通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば有線、無線通信リンク又は光ファイバーケーブルなどの様々な接続タイプを含むことができる。
ユーザは、クライアント側101、102、103を使い、ネットワーク104を介してサーバ105とインタラクションすることにより、メッセージ等を送受信することができる。クライアント側101、102、103には、例えばショッピング類アプリ、ウェブブラウザアプリ、検索類アプリ、リアルタイム通信ツール、メールボックスクライアント側、ソーシャルプラットフォームソフトウェアなど(例に過ぎない)の様々な通信クライアント側アプリケーションがインストールされてもよい。
クライアント側101、102、103は、表示画面を有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ及びデスクトップコンピュータ等を含むが、それらに限定されない。本開示の実施形態に係るクライアント側101、102、103は、例えばアプリケーションプログラムを実行することができる。
サーバ105は、様々なサービスを提供するサーバであってもよく、例えばユーザがクライアント側101、102、103により閲覧されるウエブサイトをサポートするバックグラウンド管理サーバ(例に過ぎない)であってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対して分析等の処理を行い、かつ処理結果(例えばユーザの要求に応じて取得又は生成されたウェブページ、情報、又はデータ等)をクライアント側にフィードバックすることができる。また、サーバ105は、クラウドサーバであってもよく、即ち、サーバ105は、クラウドコンピューティング機能を有する。
なお、本開示の実施形態が提供するデータインタラクション方法は、クライアント側101、102、103により実行されてもよい。それに応じて、本開示の実施形態が提供するデータインタラクション装置は、クライアント側101、102、103に設置されてもよい。本開示の実施形態が提供するデータインタラクション方法は、クライアント側101、102、103とは異なり、サーバ105及び/又はクライアント側101、102、103と通信可能なクライアント側又はクライアント側クラスタにより実行されてもよい。それに応じて、本開示の実施形態が提供するデータインタラクション装置は、クライアント側101、102、103、且つサーバ105及び/又はクライアント側101、102、103と通信可能なクライアント側又はクライアント側クラスタに設置されてもよい。
一例では、クライアント側101、102、103は、ネットワーク104を介して、サーバ105からの返答データを取得することができる。
図1におけるクライアント側、ネットワーク及びサーバの数は単に模式的なものであると理解すべきである。実現の必要に応じて、任意の数のクライアント側、ネットワーク及びサーバを有することができる。
本開示の発明において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供、及び開示等の処理は、いずれも相関法規則の規定に適合し、且つ公序良俗に反するものではない。
本開示の発明において、ユーザの個人情報を取得または採集する前に、いずれもユーザの許可又は同意を取得した。
本開示の実施形態は、データインタラクション方法を提供し、以下に、図1のシステムアーキテクチャを結合し、図2~図4を参照して本開示の例示的な実施形態に係るデータインタラクション方法を説明する。本開示の実施形態に係るデータインタラクション方法は、例えば、図1に示すクライアント側により実行されてもよい。
図2は、本開示の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。
図2に示すように、本開示の実施形態のデータインタラクション方法200は、例えば、操作S210~操作S240を含んでもよい。
操作S210は、返答データに応答して、返答データに対応する音素データを確定する。
本開示の実施形態のデータインタラクション方法は、デジタルヒューマンの例で説明する。返答データは、入力データに対して返答するためのデータとして理解することができる。例えば、ユーザは、クライアント側により、ある問題を質問する場合、該問題は、入力データであり、該問題に対する応答内容は、返答データであり、返答データは、クライアント側に表示されたデジタルヒューマンによりユーザに出力することができる。
音素は、語音の自然属性に基づいて区画された最小語音単位であると理解することができ、音節における各発音動作は、1つの音素を構成することができる。したがって、音素は、音節を構成する最小単位又は最小の語音フラグメントであり、音質の角度から区画された最小の線形の語音単位である。
返答内容が語音フォーマットである場合、返答内容に基づいて対応する音素データを取得することができる。返答内容がテキストフォーマットである場合、テキストフォーマットの返答内容を語音フォーマットに変換し、対応する音素データを確定することができる。
操作S220は、音素データと一対一に対応するターゲットリップ形画像フレームを確定する。
理解できるように、音素は、最小の語音単位である。したがって、返答データに対して、音素データに基づいて確定されたターゲットリップ形画像フレームは、返答データを語音で出力する場合のリップ部の動作を正確に表すことができる。
操作S230は、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得る。
ベースビデオフレームは、デジタルヒューマンのテンプレートビデオフレームとして理解することができ、ベースビデオフレームは、例えば、デジタルヒューマンの全体イメージ及び背景を含むことができる。理解できるように、デジタルヒューマンは、実際の人の語音を模擬して返答データを出力する。それに応じて、返答データを語音で出力する場合、リップ形は、異なる発音変化に伴って変化し、デジタルヒューマンの他の部分は、いずれも不変を保持することができ、ターゲットリップ形画像フレームとベースビデオフレームを融合することにより、得られたターゲットビデオフレームは、デジタルヒューマンの全体状態を正確に体現することができる。
操作S240は、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。
ターゲット表示データは、例えば、符号化によりビデオストリームを形成し、且つ、クライアント側でビデオストリームを再生することができる。
本開示の実施形態のデータインタラクション方法は、最小語音単位の音素データを確定することにより、返答データを語音で出力する時の発音プロセスを正確に示すことができる。音素データに対応するターゲットリップ形画像フレームを確定することにより、返答データを語音で出力する時のリップ形を正確に確定することができる。ターゲットリップ形画像フレームをベースビデオフレームと融合することにより、ターゲットビデオフレームを迅速で、効率的に確定することができ、ターゲットビデオフレームをレンダリングして得られたターゲット表示データは、デジタルヒューマンの全体状態を正確に表示し、ユーザの使用体験を向上させることができ。
本開示の実施形態のデータインタラクション方法は、ネットワークがない環境でデータインタラクションを行うことができる。例えば、本開示の実施形態のデータインタラクション方法の関連操作は、いずれもクライアント側により実行されてもよく、ネットワークを介してサーバ側とデータインタラクションを行う必要がなく、ネットワークへの依存を低減し、ネットワーク品質が悪いためデータインタラクション時の応答速度が低下し、インタラクションがタイムリーでないなどの状況を回避することができる。したがって、本開示の実施形態のデータインタラクション方法は、各操作の実行過程がより迅速で効率的であり、より高いデータインタラクション効率を有し、ユーザの使用体験を向上させることができる。
図3は、本開示の他の実施形態に係るデータインタラクション方法を模式的に示す概略図である。
図3に示すように、本開示の他の実施形態に係るデータインタラクション方法300は、操作S310~操作S340を含んでもよい。
操作S310は、返答データ301に応答して、返答データ301に対応する音素データを確定する。図3は、n個の音素データ、例えば音素データPhone_1~音素データPhone_nを模式的に示している。
操作S320は、音素データと一対一に対応するターゲットリップ形画像フレームを確定する。図3は、n個のターゲットリップ形画像フレーム、例えばターゲットリップ形画像フレームPL_1~ターゲットリップ形画像フレームPL_nを模式的に示している。
操作S330は、ターゲットリップ形画像フレームをそれぞれベースビデオフレームPfと融合し、ターゲットビデオフレームを取得する。図3は、n個のターゲットビデオフレーム、例えばターゲットビデオフレームPT_1~ターゲットビデオフレームPT_nを模式的に示している。
操作S340は、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。図3は、n個のターゲット表示データ、例えばターゲット表示データV_1~ターゲット表示データV_nを模式的に示している。
図4は、本開示のさらに他の実施形態に係るデータインタラクション方法における音素データの確定を模式的に示す概略図である。
本開示のさらに他の実施形態によれば、以下の実施形態を使用して、データインタラクション方法において返答データに応答して、前記返答データに対応する音素データを確定する具体的な例を実現することができる。返答データは、返答語音データを含んでもよい。
図4に示すように、操作S411は、返答語音データ401に基づいて、音声フレームの語音特徴ベクトル402を確定する。
複数の音声フレームが含まれてもよく、各音声フレームは、分割周波数に基づいて返答語音データを分割して得られたものである。
語音特徴ベクトルは、語音データから抽出された、コンピュータに処理され得る特徴ベクトルであると理解してもよい。
語音特徴ベクトルは、人間の耳の聴覚知覚特性と一致するか又は類似し、且つ、ある程度で語音情報を強化し、非語音信号を抑制することができる。
例示的には、線形予測分析方法と、知覚線形予測係数方法と、ボトルネック特徴抽出方法と、線形予測ケプストラム係数方法と、メル周波数ケプストラム係数方法と、の語音特徴ベクトル抽出方法のうちの1つにより、返答語音データに対して語音特徴ベクトル抽出を行ってもよい。
以下、メル周波数ケプストラム係数方法(メル周波数ケプストラム係数は、Mel-scale Frequency Cepstral Coefficientsであり、MFCCと略称する。)を用いて返答語音データの語音特徴ベクトルを抽出することを例に説明する。
人間の耳の聴覚メカニズムの研究により、人間の耳は、異なる周波数の音波に対して異なる聴覚感度を有する。200Hzから5000Hzまでの語音信号は、語音の明瞭さに対する影響が最も大きい。2つのラウドネスが異なる音声が人間の耳に作用する場合、ラウドネスの高い周波数成分の存在は、ラウドネスの低い周波数成分に対する感じに影響を与え、それを目立ちにくくし、このような現象は、マスキング効果と呼ばれる。周波数の低い音声は、内蝸牛基底膜で進行波が伝達する距離が周波数の高い音声よりも大きいため、一般的に、低音は、高音をマスキングしやすく、高音は、低音をマスキングすることが困難である。低周波での音声マスキングの臨界帯域幅は、高周波よりも小さい。したがって、人々は、低周波から高周波までの周波数帯域内に臨界帯域幅の大きさに応じて密から疎に一組のバンドパスフィルタを配置し、入力信号をフィルタリングする。各バンドパスフィルタにより出力された信号エネルギーを信号の基本的な特徴とし、この特徴に対してさらなる処理を行った後、語音の入力特徴とすることができる。このような特徴は信号の性質に依存せず、入力信号に対していかなる仮定及び制限を行わず、また聴覚モデルの研究成果を利用している。したがって、このようなメル周波数ケプストラム係数に基づいて確定されたパラメータは、より優れたロバスト性を有し、人間の耳の聴覚特性により合致し、且つ、信号対雑音比が低下する時に依然として良好な識別性能を有する。
メル周波数ケプストラム係数方法に基づいて語音特徴ベクトルを抽出することは、プリエンファシス→フレーミング→窓掛け→高速フーリエ変換→三角バンドパスフィルタ→メル周波数フィルタセット→各フィルタセットから出力された対数エネルギーを算出→離散コサイン変換によりMFCC係数を取得、という操作を含む。
操作S412は、語音特徴ベクトル402を隠れマルコフモデルHMMに入力し、各音声フレームの状態データ403を確定する。
隠れマルコフモデル(Hidden Markov Model、HMMと略称)は、1つの統計モデルであり、暗黙的な未知パラメータを含むマルコフプロセスを記述するために用いられる。
語音認識技術分野において、隠れマルコフモデルは、入力された語音特徴ベクトルに基づいて、各音声フレームの状態データを確定することができ、ここで、1つの音声フレームに基づいて1つの状態を確定することができ、状態が音素よりも小さい語音単位であると理解することができる。例えば、1つの音素を3つの状態に分けることができる。
操作S413は、音声フレームの状態データに基づいて、音素データ404を確定する。
例えば、連続的な、同じ状態を有する3つの音声フレームに基づいて、1つの音素を確定することができる。これにより、音声フレームの状態データに基づいて、音素データを確定することができる。
本開示の実施形態のデータインタラクション方法は、返答語音データに対して、語音データの特徴に基づいて、語音特徴ベクトル抽出を行い、且つ、隠れマルコフモデルという具体的な声道モデルを利用して音素データを正確に、効率的に確定することができる。
理解できるように、隠れマルコフモデルは、クライアント側にあることができる。したがって、語音特徴ベクトルをローカルの隠れマルコフモデルに入力し、各音声フレームの状態データを確定し、さらに音素データを確定することができる。
図5は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲットリップ形画像フレームの確定を模式的に示す概略図である。
本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法において音素データと一対一に対応するターゲットリップ形画像フレームの確定の具体的な例を実現することができる。
操作S521は、音素データ501に対応するリップ形キーポイントデータ502を確定する。
リップ形キーポイントは、異なるリップ形を区別することができるポイントとして理解してもよい。
例示的には、例えば、ターゲット検出モデルにより音素データに対応するリップ形キーポイントデータを確定することができる。
操作S522は、リップ形キーポイントデータ502に基づいて、リップ形画像フレームセット503からリップ形キーポイントデータ502にマッチングするターゲットリップ形画像フレーム504を確定する。
リップ形画像フレームセットは、ローカルのクライアント側に記憶されてもよい。本開示の実施形態のデータインタラクション方法は、リップ形キーポイントデータに基づいて、ローカルのリップ形画像フレームセットを迅速で、効率的に検索し、リップ形画像フレームセットからリップ形キーポイントデータとのマッチング度が高い1つのリップ形画像フレームをターゲットリップ形画像フレームとして確定することができ、ネットワークに依存せず、ユーザの使用体験を向上させることができる。
図6は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲットビデオフレームの取得を模式的に示す概略図である。
本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法においてターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得る具体的な例を実現することができる。
操作S631は、ターゲットリップ形画像フレーム601に基づいて、リップ形マスク602を確定する。
マスクは、選択された画像、図形であると理解することができ、マスクは、処理する画像を遮断することにより、画像処理の領域又は処理過程を制御するために用いられる。
操作S632は、リップ形マスク602とベースビデオフレーム603に基づいて、融合経路604を確定する。
例示的には、エネルギー最小検索ポリシーに基づいてリップ形マスクとベースビデオフレームとの間の融合経路を確定することができる。例えば、リップ形マスクとベースビデオフレームとの融合領域を予め確定することができ、「エネルギー」は、融合領域の両側の画像画素の差分値の二乗和であると理解することができ、エネルギー最小検索ポリシーに基づいて確定された融合経路は、よりスムーズで平滑であり、より良好な融合効果を有する。
操作S633は、融合経路604に基づいて、リップ形マスク602とベースビデオフレーム603を融合し、ターゲットビデオフレーム605を得る。
本開示の実施形態のデータインタラクション方法は、ターゲットリップ形画像フレームに基づいてリップ形マスクを確定し、且つ、リップ形マスクとベースビデオフレームとの間の融合経路に基づいて、リップ形マスクとベースビデオフレームを融合することができ、これにより、リップ形マスクとベースビデオフレームの融合経路による両側の画素の差異がより小さく、より良好な融合効果を有し、より自然なターゲットビデオフレームを得ることができる。
図7は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲット表示データの取得を模式的に示す概略図である。
本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法においてターゲットビデオフレームをレンダリングし、ターゲット表示データを得る具体的な例を実現することができる。
操作S741は、ターゲットビデオフレームの頂点データ701に基づいて、スクリーン座標系に基づく頂点座標データ702を確定する。
例示的には、頂点データは、配列形式で表す各頂点の座標を含んでもよい。頂点シェーダを利用して、ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定することができる。頂点シェーダは、頂点属性に対していくつかの基本的な処理をさらに行うことができる。
操作S742は、頂点座標データ702に基づいて、プリミティブデータ(primitive data)703を確定する。
プリミティブデータは、頂点データをどのようにレンダリングするかの参照とすることができる。例えば、プリミティブデータは、点、線、三角形を含んでもよい。
操作S743は、プリミティブデータ703に対してユニット化処理を行い、ターゲット図形データ704を生成する。
例示的には、ジオメトリシェーダを利用してプリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成することができる。ユニット化処理は、例えば、新たな頂点を生成し、且つ各頂点を接続し、さらにターゲット図形データを生成することを含んでもよい。
操作S744は、ターゲット図形データ704に対して画素変換処理を行い、ターゲット図形データの画素データ705を得る。
操作S744は、ラスタライズ処理であると理解することができ、プリミティブデータを最終スクリーン上の対応する画素にマッピングし、フラグメントを生成する。フラグメントは、1つの画素をレンダリングするために必要な全てのデータである。
操作S745は、画素データ705に基づいて、各画素点のカラーデータを確定し、ターゲット表示データ706を得る。
本開示の実施形態のデータインタラクション方法によれば、上記の具体的なターゲットビデオフレームをレンダリングする操作によりターゲット表示データをクライアント側のスクリーンにレンダリングすることができる。上記のターゲットビデオフレームをレンダリングする操作は、グラフィックプロセッサに基づく。グラフィックプロセッサ(Graphics Processing Unit、GPUと略称)は、パーソナルコンピュータ、ワークステーション、ゲーム機、及び、いくつかの携帯機器上に画像及び図形に関する演算動作を行うマイクロプロセッサである。GPUは、強力な演算能力を有し、画像のレンダリングに用いられる場合、レンダリング効率を向上させることができ、且つ、CPUのリソース使用を減少させることができる。本開示の実施形態のデータインタラクション方法は、GPUにより画像をレンダリングし、低構成のクライアント側に良好な表示効果をレンダリングすることができる。
本開示の実施形態に係るデータインタラクション方法では、返答語音データは、対応する返答テキストデータから得られることができ、返答テキストデータは、対応する入力テキストデータから得られることができ、入力テキストデータは、対応する入力語音データから得られることができる。
入力語音データは、ユーザが発声した語音形式の入力データであると理解することができる。
例示的には、入力語音データに対して語音認識を行い、入力テキストデータを得ることができる。例えば、語音認識モジュールのインタフェースを呼び出すことにより入力された語音データに対して語音認識を行うことができる。語音認識モジュールは、サーバ側にあってもよい。この時、クライアント側とサーバ側の接続及びデータインタラクションは、ネットワークに依存する。
例示的には、ローカルデータベース又はサーバ側で入力テキストデータに対応する返答テキストデータを検索することができる。例えば、ローカルデータベースに配置された返答テキストデータが記憶された場合、入力データに応答して、ローカルデータベースに記憶された配置の返答テキストデータを検索することができる。オンライン上の応用シーンでは、入力データに応答して、サーバ側で返答テキストデータを検索することができ、この時にクライアント側とサーバ側の接続及びデータインタラクションはネットワークに依存する。
例示的には、返答テキストデータに対してテキストから語音へ(テキストから語音、Text To Speech、TTSと略称)の処理を行い、返答語音データを得ることができる。返答語音データは、例えばパルス符号化変調データ(パルス変調符号化は、Pulse Code Modulationであり、PCMと略称する。)であってもよい。例えば、テキストから語音へのモジュールのインタフェースを呼び出して、返答テキストに対してテキストから語音への処理を行うことができる。テキストから語音へのモジュールは、サーバ側に位置することができる。この時、クライアント側とサーバ側の接続及びデータインタラクションはネットワークに依存する。
図8は、本開示のさらに他の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。
図8に示すように、本開示のさらに他の実施形態に係るデータインタラクション方法800は、操作S850をさらに含むことができる。
操作S850は、ターゲット表示データと同期して返答語音データを再生する。
図8に示すように、データインタラクション方法800は、操作S850の前に、操作S810~操作S840をさらに含むことができる。操作S810~操作S840は、それぞれ上記の操作S210~操作S240と同じであり、ここでは説明を省略する。
本開示の実施形態のデータインタラクション方法は、依然としてデジタルヒューマンを例とする。返答語音データとターゲット表示データとの同期再生は、同期された語音出力と視覚出力をユーザに提供し、ユーザの使用体験を向上させることができ。
例示的には、ターゲット表示データに対応する画像フレームの表示周波数が返答語音データに対応する音声フレームの再生周波数と同じである場合、ターゲット表示データと返答語音データは、同期することができる。
図9は、本開示の実施形態に係るデータインタラクション装置を模式的に示すブロック図である。
図9に示すように、本開示の実施形態のデータインタラクション装置900は、例えば、音素データ確定モジュール910と、ターゲットリップ形画像フレーム確定モジュール920と、融合モジュール930と、レンダリングモジュール940とを含む。
音素データ確定モジュールは、返答データに応答して、返答データに対応する音素データを確定するために用いられる。
ターゲットリップ形画像フレーム確定モジュールは、音素データと一対一に対応するターゲットリップ形画像フレームを確定するために用いられる。
融合モジュールは、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るために用いられる。
レンダリングモジュールは、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るために用いられる。
本開示の実施形態に係るデータインタラクション装置では、返答データは、返答語音データを含み、音素データ確定モジュールは、語音特徴ベクトル確定サブモジュールと、状態データ確定サブモジュールと、音素データ確定サブモジュールとを含んでもよい。
語音特徴ベクトル確定サブモジュールは、返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定するために用いられ、各音声フレームは、分割周波数に基づいて返答語音データを分割して得られる。
状態データ確定サブモジュールは、語音特徴ベクトルを隠れマルコフモデルに入力し、各音声フレームの状態データを確定するために用いられる。
音素データ確定サブモジュールは、音声フレームの状態データに基づいて、音素データを確定するために用いられる。
本開示の実施形態に係るデータインタラクション装置では、ターゲットリップ形画像フレーム確定モジュールは、リップ形キーポイント確定サブモジュールと、ターゲットリップ形画像フレーム確定サブモジュールとを含んでもよい。
リップ形キーポイント確定サブモジュールは、音素データに対応するリップ形キーポイントデータを確定するために用いられる。
ターゲットリップ形画像フレーム確定サブモジュールは、リップ形キーポイントデータに基づいて、リップ形画像フレームセットからリップ形キーポイントデータにマッチングするターゲットリップ形画像フレームを確定するために用いられる。
本開示の実施形態に係るデータインタラクション装置では、融合モジュールは、リップ形マスク確定サブモジュールと、融合経路確定サブモジュールと、融合サブモジュールとを含んでもよい。
リップ形マスク確定サブモジュールは、ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定するために用いられる。
融合経路確定サブモジュールは、リップ形マスクとベースビデオフレームに基づいて、融合経路を確定するために用いられる。
融合サブモジュールは、融合経路に基づいて、リップ形マスクとベースビデオフレームを融合し、ターゲットビデオフレームを得るために用いられる。
本開示の実施形態に係るデータインタラクション装置では、レンダリングモジュールは、頂点座標データ確定サブモジュールと、プリミティブデータ確定サブモジュールと、ターゲット画像データ確定サブモジュールと、画素データ確定サブモジュールと、ターゲット表示データ確定サブモジュールとを含んでもよい。
頂点座標データ確定サブモジュールは、ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定するために用いられる。
プリミティブデータ確定サブモジュールは、頂点座標データに基づいて、プリミティブデータを確定するために用いられる。
ターゲット画像データ確定サブモジュールは、プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成するために用いられる。
画素データ確定サブモジュールは、ターゲット図形データに対して画素変換処理を行い、ターゲット図形データの画素データを得るために用いられる。
ターゲット表示データ確定サブモジュールは、画素データに基づいて、各画素点のカラーデータを確定し、ターゲット表示データを得るために用いられる。
本開示の実施形態に係るデータインタラクション装置では、返答語音データは、対応する返答テキストデータから得られ、返答テキストデータは、対応する入力テキストデータから得られ、入力テキストデータは、対応する入力語音データから得られる。
本開示の実施形態に係るデータインタラクション装置は、返答語音データ再生モジュールをさらに含んでもよい。
返答語音データ再生モジュールは、ターゲット表示データと同期して返答語音データを再生するために用いられる。
本開示の装置部分の実施形態は本開示の方法部分の実施形態に対応して同じであるか又は類似し、解決する技術的課題と達成された技術的効果も対応して同じであるか又は類似することは言うまでもなく、本開示はここで説明を省略する。
本開示の実施形態によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
図10は、本開示の実施形態を実施するために用いられる電子機器1000の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部品、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び/または要求された本開示の実現を限定することを意味しない。
図10に示すように、電子機器1000は、演算ユニット1001を含み、演算ユニット1001は、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラムまたは記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM1003には、電子機器1000の操作に必要な様々なプログラム及びデータをさらに記憶してもよい。演算ユニット1001と、ROM1002と、RAM1003とは、バス1004を介して相互に接続される。入出力(I/O)インタフェース1005も、バス1004に接続される。
電子機器1000における、例えばキーボード、マウス等の入力ユニット1006と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット1007と、例えば磁気ディスク、光ディスク等の記憶ユニット1008と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1009とを含む複数の部品は、I/Oインタフェース1005に接続される。通信ユニット1009は、電子機器1000がインターネット等のコンピュータネットワーク及び/または各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
演算ユニット1001は、処理及び演算能力を有する各種の汎用及び/または専用の処理モジュールであってもよい。演算ユニット1001の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムをランニングする各種演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。演算ユニット1001は、例えばデータインタラクション方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施形態において、データインタラクション方法は、例えば記憶ユニット1008のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態において、コンピュータプログラムの一部または全部は、ROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM1003にロードされて演算ユニット1001により実行される場合、上記に記載のデータインタラクション方法の1つまたは複数のステップを実行してもよい。代替的に、他の実施形態において、演算ユニット1001は、他の任意の適切な方式(例えば、ファームウェアを介する)によりデータインタラクション方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実施され、当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/または解釈されることが可能であり、当該プログラムマブルプロセッサは、専用または汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、それによって、プログラムコードがプロセッサまたはコントローラにより実行される時に、フローチャート及び/またはブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるかまたは完全に遠隔機器またはサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置または電子機器に使用され、または命令実行システム、装置または電子機器と組み合わせて使用されるプログラムを含んでまたは記憶してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、または半導体システム、装置または電子機器、または上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且ついかなる形式(音声入力、語音入力、または、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェースまたは該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント側及びサーバを含んでもよい。クライアント側とサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアント側とサーバとの関係は、該当するコンピュータ上でランニングし、クライアント側-サーバの関係を有するコンピュータプログラムによって生成される。
以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したりまたは削除してもよいと理解されるべきである。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、または異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 返答データに応答して、前記返答データに対応する音素データを確定することと、
    前記音素データと一対一に対応するターゲットリップ形画像フレームを確定することと、
    前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることと、
    前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることと、を含む、
    データインタラクション方法。
  2. 前記返答データは、返答語音データを含み、
    前記返答データに応答して、前記返答データに対応する音素データを確定することは、
    前記返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定し、各前記音声フレームは分割周波数に基づいて前記返答語音データを分割して得られることと、
    前記語音特徴ベクトルを隠れマルコフモデルに入力し、各前記音声フレームの状態データを確定することと、
    前記音声フレームの状態データに基づいて、音素データを確定することと、を含む、
    請求項1に記載の方法。
  3. 前記音素データと一対一に対応するターゲットリップ形画像フレームを確定することは、
    前記音素データに対応するリップ形キーポイントデータを確定することと、
    前記リップ形キーポイントデータに基づいて、リップ形画像フレームセットから前記リップ形キーポイントデータにマッチングする前記ターゲットリップ形画像フレームを確定することと、を含む、
    請求項1に記載の方法。
  4. 前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることは、
    前記ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定することと、
    前記リップ形マスクと前記ベースビデオフレームに基づいて、融合経路を確定することと、
    前記融合経路に基づいて、前記リップ形マスクと前記ベースビデオフレームを融合し、前記ターゲットビデオフレームを得ることと、を含む、
    請求項1~3のいずれか一項に記載の方法。
  5. 前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることは、
    前記ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定することと、
    前記頂点座標データに基づいて、プリミティブデータを確定することと、
    前記プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成することと、
    前記ターゲット図形データに対して画素変換処理を行い、前記ターゲット図形データの画素データを得ることと、
    前記画素データに基づいて、各画素点のカラーデータを確定し、前記ターゲット表示データを得ることと、を含む、
    請求項1~3のいずれか一項に記載の方法。
  6. 前記返答語音データは、対応する返答テキストデータから得られ、前記返答テキストデータは、対応する入力テキストデータから得られ、前記入力テキストデータは、対応する入力語音データから得られる、
    請求項2に記載の方法。
  7. 前記ターゲット表示データと同期して前記返答語音データを再生することをさらに含む、
    請求項2に記載の方法。
  8. 返答データに応答して、前記返答データに対応する音素データを確定するための音素データ確定モジュールと、
    前記音素データと一対一に対応するターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定モジュールと、
    前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るための融合モジュールと、
    前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るためのレンダリングモジュールと、を含む、
    データインタラクション装置。
  9. 前記返答データは、返答語音データを含み、
    前記音素データ確定モジュールは、
    前記返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定するための語音特徴ベクトル確定サブモジュールであって、各前記音声フレームは分割周波数に基づいて前記返答語音データを分割して得られる、語音特徴ベクトル確定サブモジュールと、
    前記語音特徴ベクトルを隠れマルコフモデルに入力し、各前記音声フレームの状態データを確定するための状態データ確定サブモジュールと、
    前記音声フレームの状態データに基づいて、音素データを確定するための音素データ確定サブモジュールと、を含む、
    請求項8に記載の装置。
  10. ターゲットリップ形画像フレーム確定モジュールは、
    前記音素データに対応するリップ形キーポイントデータを確定するためのリップ形キーポイント確定サブモジュールと、
    前記リップ形キーポイントデータに基づいて、リップ形画像フレームセットから前記リップ形キーポイントデータにマッチングする前記ターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定サブモジュールと、を含む、
    請求項8に記載の装置。
  11. 前記融合モジュールは、
    前記ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定するためのリップ形マスク確定サブモジュールと、
    前記リップ形マスクと前記ベースビデオフレームに基づいて、融合経路を確定するための融合経路確定サブモジュールと、
    前記融合経路に基づいて、前記リップ形マスクと前記ベースビデオフレームを融合し、前記ターゲットビデオフレームを得るための融合サブモジュールと、を含む、
    請求項8~10のいずれか一項に記載の装置。
  12. 前記レンダリングモジュールは、
    前記ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定するための頂点座標データ確定サブモジュールと、
    前記頂点座標データに基づいて、プリミティブデータを確定するためのプリミティブデータ確定サブモジュールと、
    前記プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成するためのターゲット画像データ確定サブモジュールと、
    前記ターゲット図形データに対して画素変換処理を行い、前記ターゲット図形データの画素データを得るための画素データ確定サブモジュールと、
    前記画素データに基づいて、各画素点のカラーデータを確定し、前記ターゲット表示データを得るためのターゲット表示データ確定サブモジュールと、を含む、
    請求項8~10のいずれか一項に記載の装置。
  13. 前記返答語音データは、対応する返答テキストデータから得られ、前記返答テキストデータは、対応する入力テキストデータから得られ、前記入力テキストデータは、対応する入力語音データから得られる、
    請求項9に記載の装置。
  14. 前記ターゲット表示データと同期して前記返答語音データを再生するための返答語音データ再生モジュールをさらに含む、
    請求項9に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも1つのプロセッサが請求項1~3、6および7のいずれか一項に記載の方法を実行することができるように、前記命令が前記少なくとも1つのプロセッサによって実行される、
    電子機器。
  16. コンピュータに請求項1~3、6および7のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している、
    非一時的なコンピュータ可読記憶媒体。
  17. プロセッサにより実行される場合に、請求項1~3、6および7のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2023025174A 2022-03-29 2023-02-21 データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム Withdrawn JP2023059937A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210327776.9 2022-03-29
CN202210327776.9A CN114663556A (zh) 2022-03-29 2022-03-29 数据交互方法、装置、设备、存储介质以及程序产品

Publications (1)

Publication Number Publication Date
JP2023059937A true JP2023059937A (ja) 2023-04-27

Family

ID=82033544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023025174A Withdrawn JP2023059937A (ja) 2022-03-29 2023-02-21 データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム

Country Status (3)

Country Link
JP (1) JP2023059937A (ja)
KR (1) KR20230005079A (ja)
CN (1) CN114663556A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877509A (zh) * 2024-03-13 2024-04-12 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695943A (zh) * 2022-10-31 2023-02-03 北京百度网讯科技有限公司 数字人视频生成方法、装置、设备及存储介质
CN116228895B (zh) * 2023-01-16 2023-11-17 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备
CN116664603B (zh) * 2023-07-31 2023-12-12 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1489560A1 (en) * 2003-06-17 2004-12-22 Koninklijke Philips Electronics N.V. Primitive edge pre-filtering
CN109741432B (zh) * 2018-12-03 2022-11-01 广州纬纶信息科技有限公司 一种渲染预估用时计算方法、电子设备及存储介质
CN111311528B (zh) * 2020-01-22 2023-07-28 广州虎牙科技有限公司 图像融合优化方法、装置、设备和介质
CN111294665B (zh) * 2020-02-12 2021-07-20 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN112131988B (zh) * 2020-09-14 2024-03-26 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877509A (zh) * 2024-03-13 2024-04-12 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN114663556A (zh) 2022-06-24
KR20230005079A (ko) 2023-01-09

Similar Documents

Publication Publication Date Title
WO2022052481A1 (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
US11151765B2 (en) Method and apparatus for generating information
JP2023059937A (ja) データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
JP6974421B2 (ja) 音声認識方法及び装置
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN112652041B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
JP2022101663A (ja) ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7412483B2 (ja) 音声処理方法、装置、電子機器及び記憶媒体
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN114255737B (zh) 语音生成方法、装置、电子设备
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN114999441A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN114201596A (zh) 虚拟数字人使用方法、电子设备和存储介质
CN113312928A (zh) 文本翻译方法、装置、电子设备和存储介质
CN111966803A (zh) 对话模拟方法、装置、存储介质及电子设备
CN114051105B (zh) 多媒体数据处理方法、装置、电子设备及存储介质
US20240177717A1 (en) Voice processing method and apparatus, device, and medium
CN114360535B (zh) 语音对话的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240307

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20240311