JP2023059937A

JP2023059937A - データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム

Info

Publication number: JP2023059937A
Application number: JP2023025174A
Authority: JP
Inventors: イェンロンジャン，; Yanlong Zhang; トンフイリー，; Tonghui Li; ジンジンスン，; Jingjing Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-29
Filing date: 2023-02-21
Publication date: 2023-04-27
Also published as: CN114663556A; KR20230005079A

Abstract

【課題】本開示は、データインタラクション方法、装置、電子機器、記憶媒体及びプログラムを提供し、人工知能分野に関し、特にディープラーニング、画像処理、コンピュータ視覚技術分野に関し、顔識別等のシーンに適用することができる。【解決手段】返答データに応答して、返答データに対応する音素データを確定し、音素データと一対一に対応するターゲットリップ形画像フレームを確定し、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得て、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。【選択図】図２

Description

本開示は人工知能分野に関し、特にディープラーニング、画像処理、コンピュータ視覚技術分野に関し、顔識別等のシーンに適用することができ、具体的には、データインタラクション方法、装置、機器、記憶媒体、および、プログラムに関する。

コンピュータ技術及びインターネット技術の発展に伴い、多くのインテリジェント製品は、ユーザの使用体験を向上させるために、データインタラクション機能を備える。

本開示は、データインタラクション方法、装置、機器、記憶媒体、および、プログラムを提供する。

本開示の一態様は、返答データに応答して、返答データに対応する音素データを確定することと、音素データと一対一に対応するターゲットリップ形画像フレームを確定することと、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることと、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることと、を含む、データインタラクション方法を提供する。

本開示の他の態様は、返答データに応答して、返答データに対応する音素データを確定するための音素データ確定モジュールと、音素データと一対一に対応するターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定モジュールと、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るための融合モジュールと、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るためのレンダリングモジュールと、を含む、データインタラクション装置を提供する。

本開示の他の態様は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されるメモリとを備える電子機器であって、前記メモリには、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも１つのプロセッサが本開示の実施形態の方法を実行することができるように、前記命令が前記少なくとも１つのプロセッサによって実行される、電子機器を提供する。

本開示の他の態様は、コンピュータに本開示の実施形態の方法を実行させるためのコンピュータ命令を記憶している、非一時的なコンピュータ可読記憶媒体を提供する。

本開示の他の態様は、プロセッサにより実行される場合に、本開示の実施形態の方法を実現するコンピュータプログラムを提供する。

本部分に記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもないと理解されるべきである。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本開示の発明をよく理解するために用いられ、本開示を限定するものではない。

本開示の実施形態に係るデータインタラクション方法及び装置を模式的に示すシステムアーキテクチャ図である。本開示の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。本開示の他の実施形態に係るデータインタラクション方法を模式的に示す概略図である。本開示の実施形態に係る音素データの確定を模式的に示す概略図である。本開示の実施形態に係るターゲットリップ形画像フレームの確定を模式的に示す概略図である。本開示の実施形態に係るターゲットビデオフレームの取得を模式的に示す概略図である。本開示の実施形態に係るターゲット表示データの取得を模式的に示す概略図である。本開示のさらに他の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。本開示の実施形態に係るデータインタラクション装置を模式的に示すブロック図である。本開示の実施形態のデータインタラクション方法を実現することができる電子機器を模式的に示すブロック図である。

以下、図面を参照して本開示の例示的な実施形態を説明する。ここで、より理解しやすくするために本開示の実施形態の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施形態に対して様々な変更や補正を行うことができ、本開示の範囲及び精神から逸脱することはないと理解するべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

ここで使用される用語は、具体的な実施形態を説明するためだけであり、本開示を限定することを意図するものではない。ここで使用される「含む」、「含み」等の用語は、前記特徴、ステップ、操作及び／又は部品の存在を示すが、１つ又は複数の他の特徴、ステップ、操作又は部品が存在するか又は追加されることを排除するものではない。

ここで使用される全ての用語（技術及び科学的用語を含む）は、特に説明されない限り、当業者が一般的に理解する意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈すべきであり、理想化又はステレオタイプ過ぎのやり方で解釈されるべきではない、と注意すべきである。

「Ａ、Ｂ及びＣなどのうちの少なくとも１つ」のような表現を用いる場合、一般的には当業者の該表現に対する一般的な理解で解釈すべきである（例えば、「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」は、Ａだけを有し、Ｂだけを有し、Ｃだけを有し、ＡとＢを有し、ＡとＣを有し、ＢとＣを有し、及び／又はＡとＢとＣを有するシステムなどを含むべきであるが、これらに限定されない）。

例えば、複数種類のインテリジェント製品は、例えばデジタルヒューマンのバーチャルキャラクターにより、ユーザとの間にデータインタラクションを行う。デジタルヒューマンは、バーチャルキャラクターであり、人体の形態及び機能を仮想シミュレーションすることができる。

いくつかの実施形態において、端末機器は、ユーザの入力語音データを収集し、且つ、入力語音データをデジタルヒューマンサーババックグラウンドに送信することができ、サーババックグラウンドは、入力語音データを取得した後に、語音解析を行い、解析された入力語音データを取得し、且つ、解析された入力語音データに基づいて返答内容を生成することができる。次に、返答内容に基づいてバーチャルキャラクターを生成する各画像フレームを駆動し、各画像フレームが符号化された後にビデオストリームを形成し、ビデオストリームをストリーミングメディアサーバに送信する。端末機器は、ストリーミングメディアサーバ内のビデオストリームを引き出して再生することができ、データインタラクションプロセスが完了する。

図１は、本開示の実施形態に係るデータインタラクション方法及び装置を模式的に示すシステムアーキテクチャ図である。注意すべきものとして、図１に示すのは、本開示の実施形態を適用し得るシステムアーキテクチャの例に過ぎず、当業者が本開示の技術内容を理解することに役立つが、本開示の実施形態が他の機器、システム、環境又はシーンに用いられないことを意味するものではない。

図１に示すように、該実施形態に係るシステムアーキテクチャ１００は、クライアント側１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを含むことができる。ネットワーク１０４は、クライアント側１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、例えば有線、無線通信リンク又は光ファイバーケーブルなどの様々な接続タイプを含むことができる。

ユーザは、クライアント側１０１、１０２、１０３を使い、ネットワーク１０４を介してサーバ１０５とインタラクションすることにより、メッセージ等を送受信することができる。クライアント側１０１、１０２、１０３には、例えばショッピング類アプリ、ウェブブラウザアプリ、検索類アプリ、リアルタイム通信ツール、メールボックスクライアント側、ソーシャルプラットフォームソフトウェアなど（例に過ぎない）の様々な通信クライアント側アプリケーションがインストールされてもよい。

クライアント側１０１、１０２、１０３は、表示画面を有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ及びデスクトップコンピュータ等を含むが、それらに限定されない。本開示の実施形態に係るクライアント側１０１、１０２、１０３は、例えばアプリケーションプログラムを実行することができる。

サーバ１０５は、様々なサービスを提供するサーバであってもよく、例えばユーザがクライアント側１０１、１０２、１０３により閲覧されるウエブサイトをサポートするバックグラウンド管理サーバ（例に過ぎない）であってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対して分析等の処理を行い、かつ処理結果（例えばユーザの要求に応じて取得又は生成されたウェブページ、情報、又はデータ等）をクライアント側にフィードバックすることができる。また、サーバ１０５は、クラウドサーバであってもよく、即ち、サーバ１０５は、クラウドコンピューティング機能を有する。

なお、本開示の実施形態が提供するデータインタラクション方法は、クライアント側１０１、１０２、１０３により実行されてもよい。それに応じて、本開示の実施形態が提供するデータインタラクション装置は、クライアント側１０１、１０２、１０３に設置されてもよい。本開示の実施形態が提供するデータインタラクション方法は、クライアント側１０１、１０２、１０３とは異なり、サーバ１０５及び／又はクライアント側１０１、１０２、１０３と通信可能なクライアント側又はクライアント側クラスタにより実行されてもよい。それに応じて、本開示の実施形態が提供するデータインタラクション装置は、クライアント側１０１、１０２、１０３、且つサーバ１０５及び／又はクライアント側１０１、１０２、１０３と通信可能なクライアント側又はクライアント側クラスタに設置されてもよい。

一例では、クライアント側１０１、１０２、１０３は、ネットワーク１０４を介して、サーバ１０５からの返答データを取得することができる。

図１におけるクライアント側、ネットワーク及びサーバの数は単に模式的なものであると理解すべきである。実現の必要に応じて、任意の数のクライアント側、ネットワーク及びサーバを有することができる。

本開示の発明において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供、及び開示等の処理は、いずれも相関法規則の規定に適合し、且つ公序良俗に反するものではない。

本開示の発明において、ユーザの個人情報を取得または採集する前に、いずれもユーザの許可又は同意を取得した。

本開示の実施形態は、データインタラクション方法を提供し、以下に、図１のシステムアーキテクチャを結合し、図２～図４を参照して本開示の例示的な実施形態に係るデータインタラクション方法を説明する。本開示の実施形態に係るデータインタラクション方法は、例えば、図１に示すクライアント側により実行されてもよい。

図２は、本開示の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。

図２に示すように、本開示の実施形態のデータインタラクション方法２００は、例えば、操作Ｓ２１０～操作Ｓ２４０を含んでもよい。

操作Ｓ２１０は、返答データに応答して、返答データに対応する音素データを確定する。

本開示の実施形態のデータインタラクション方法は、デジタルヒューマンの例で説明する。返答データは、入力データに対して返答するためのデータとして理解することができる。例えば、ユーザは、クライアント側により、ある問題を質問する場合、該問題は、入力データであり、該問題に対する応答内容は、返答データであり、返答データは、クライアント側に表示されたデジタルヒューマンによりユーザに出力することができる。

音素は、語音の自然属性に基づいて区画された最小語音単位であると理解することができ、音節における各発音動作は、１つの音素を構成することができる。したがって、音素は、音節を構成する最小単位又は最小の語音フラグメントであり、音質の角度から区画された最小の線形の語音単位である。

返答内容が語音フォーマットである場合、返答内容に基づいて対応する音素データを取得することができる。返答内容がテキストフォーマットである場合、テキストフォーマットの返答内容を語音フォーマットに変換し、対応する音素データを確定することができる。

操作Ｓ２２０は、音素データと一対一に対応するターゲットリップ形画像フレームを確定する。

理解できるように、音素は、最小の語音単位である。したがって、返答データに対して、音素データに基づいて確定されたターゲットリップ形画像フレームは、返答データを語音で出力する場合のリップ部の動作を正確に表すことができる。

操作Ｓ２３０は、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得る。

ベースビデオフレームは、デジタルヒューマンのテンプレートビデオフレームとして理解することができ、ベースビデオフレームは、例えば、デジタルヒューマンの全体イメージ及び背景を含むことができる。理解できるように、デジタルヒューマンは、実際の人の語音を模擬して返答データを出力する。それに応じて、返答データを語音で出力する場合、リップ形は、異なる発音変化に伴って変化し、デジタルヒューマンの他の部分は、いずれも不変を保持することができ、ターゲットリップ形画像フレームとベースビデオフレームを融合することにより、得られたターゲットビデオフレームは、デジタルヒューマンの全体状態を正確に体現することができる。

操作Ｓ２４０は、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。

ターゲット表示データは、例えば、符号化によりビデオストリームを形成し、且つ、クライアント側でビデオストリームを再生することができる。

本開示の実施形態のデータインタラクション方法は、最小語音単位の音素データを確定することにより、返答データを語音で出力する時の発音プロセスを正確に示すことができる。音素データに対応するターゲットリップ形画像フレームを確定することにより、返答データを語音で出力する時のリップ形を正確に確定することができる。ターゲットリップ形画像フレームをベースビデオフレームと融合することにより、ターゲットビデオフレームを迅速で、効率的に確定することができ、ターゲットビデオフレームをレンダリングして得られたターゲット表示データは、デジタルヒューマンの全体状態を正確に表示し、ユーザの使用体験を向上させることができ。

本開示の実施形態のデータインタラクション方法は、ネットワークがない環境でデータインタラクションを行うことができる。例えば、本開示の実施形態のデータインタラクション方法の関連操作は、いずれもクライアント側により実行されてもよく、ネットワークを介してサーバ側とデータインタラクションを行う必要がなく、ネットワークへの依存を低減し、ネットワーク品質が悪いためデータインタラクション時の応答速度が低下し、インタラクションがタイムリーでないなどの状況を回避することができる。したがって、本開示の実施形態のデータインタラクション方法は、各操作の実行過程がより迅速で効率的であり、より高いデータインタラクション効率を有し、ユーザの使用体験を向上させることができる。

図３は、本開示の他の実施形態に係るデータインタラクション方法を模式的に示す概略図である。

図３に示すように、本開示の他の実施形態に係るデータインタラクション方法３００は、操作Ｓ３１０～操作Ｓ３４０を含んでもよい。

操作Ｓ３１０は、返答データ３０１に応答して、返答データ３０１に対応する音素データを確定する。図３は、ｎ個の音素データ、例えば音素データＰｈｏｎｅ＿１～音素データＰｈｏｎｅ＿ｎを模式的に示している。

操作Ｓ３２０は、音素データと一対一に対応するターゲットリップ形画像フレームを確定する。図３は、ｎ個のターゲットリップ形画像フレーム、例えばターゲットリップ形画像フレームＰＬ＿１～ターゲットリップ形画像フレームＰＬ＿ｎを模式的に示している。

操作Ｓ３３０は、ターゲットリップ形画像フレームをそれぞれベースビデオフレームＰｆと融合し、ターゲットビデオフレームを取得する。図３は、ｎ個のターゲットビデオフレーム、例えばターゲットビデオフレームＰＴ＿１～ターゲットビデオフレームＰＴ＿ｎを模式的に示している。

操作Ｓ３４０は、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得る。図３は、ｎ個のターゲット表示データ、例えばターゲット表示データＶ＿１～ターゲット表示データＶ＿ｎを模式的に示している。

図４は、本開示のさらに他の実施形態に係るデータインタラクション方法における音素データの確定を模式的に示す概略図である。

本開示のさらに他の実施形態によれば、以下の実施形態を使用して、データインタラクション方法において返答データに応答して、前記返答データに対応する音素データを確定する具体的な例を実現することができる。返答データは、返答語音データを含んでもよい。

図４に示すように、操作Ｓ４１１は、返答語音データ４０１に基づいて、音声フレームの語音特徴ベクトル４０２を確定する。

複数の音声フレームが含まれてもよく、各音声フレームは、分割周波数に基づいて返答語音データを分割して得られたものである。

語音特徴ベクトルは、語音データから抽出された、コンピュータに処理され得る特徴ベクトルであると理解してもよい。

語音特徴ベクトルは、人間の耳の聴覚知覚特性と一致するか又は類似し、且つ、ある程度で語音情報を強化し、非語音信号を抑制することができる。

例示的には、線形予測分析方法と、知覚線形予測係数方法と、ボトルネック特徴抽出方法と、線形予測ケプストラム係数方法と、メル周波数ケプストラム係数方法と、の語音特徴ベクトル抽出方法のうちの１つにより、返答語音データに対して語音特徴ベクトル抽出を行ってもよい。

以下、メル周波数ケプストラム係数方法（メル周波数ケプストラム係数は、Ｍｅｌ－ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓであり、ＭＦＣＣと略称する。）を用いて返答語音データの語音特徴ベクトルを抽出することを例に説明する。

人間の耳の聴覚メカニズムの研究により、人間の耳は、異なる周波数の音波に対して異なる聴覚感度を有する。２００Ｈｚから５０００Ｈｚまでの語音信号は、語音の明瞭さに対する影響が最も大きい。２つのラウドネスが異なる音声が人間の耳に作用する場合、ラウドネスの高い周波数成分の存在は、ラウドネスの低い周波数成分に対する感じに影響を与え、それを目立ちにくくし、このような現象は、マスキング効果と呼ばれる。周波数の低い音声は、内蝸牛基底膜で進行波が伝達する距離が周波数の高い音声よりも大きいため、一般的に、低音は、高音をマスキングしやすく、高音は、低音をマスキングすることが困難である。低周波での音声マスキングの臨界帯域幅は、高周波よりも小さい。したがって、人々は、低周波から高周波までの周波数帯域内に臨界帯域幅の大きさに応じて密から疎に一組のバンドパスフィルタを配置し、入力信号をフィルタリングする。各バンドパスフィルタにより出力された信号エネルギーを信号の基本的な特徴とし、この特徴に対してさらなる処理を行った後、語音の入力特徴とすることができる。このような特徴は信号の性質に依存せず、入力信号に対していかなる仮定及び制限を行わず、また聴覚モデルの研究成果を利用している。したがって、このようなメル周波数ケプストラム係数に基づいて確定されたパラメータは、より優れたロバスト性を有し、人間の耳の聴覚特性により合致し、且つ、信号対雑音比が低下する時に依然として良好な識別性能を有する。

メル周波数ケプストラム係数方法に基づいて語音特徴ベクトルを抽出することは、プリエンファシス→フレーミング→窓掛け→高速フーリエ変換→三角バンドパスフィルタ→メル周波数フィルタセット→各フィルタセットから出力された対数エネルギーを算出→離散コサイン変換によりＭＦＣＣ係数を取得、という操作を含む。

操作Ｓ４１２は、語音特徴ベクトル４０２を隠れマルコフモデルＨＭＭに入力し、各音声フレームの状態データ４０３を確定する。

隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭと略称）は、１つの統計モデルであり、暗黙的な未知パラメータを含むマルコフプロセスを記述するために用いられる。

語音認識技術分野において、隠れマルコフモデルは、入力された語音特徴ベクトルに基づいて、各音声フレームの状態データを確定することができ、ここで、１つの音声フレームに基づいて１つの状態を確定することができ、状態が音素よりも小さい語音単位であると理解することができる。例えば、１つの音素を３つの状態に分けることができる。

操作Ｓ４１３は、音声フレームの状態データに基づいて、音素データ４０４を確定する。

例えば、連続的な、同じ状態を有する３つの音声フレームに基づいて、１つの音素を確定することができる。これにより、音声フレームの状態データに基づいて、音素データを確定することができる。

本開示の実施形態のデータインタラクション方法は、返答語音データに対して、語音データの特徴に基づいて、語音特徴ベクトル抽出を行い、且つ、隠れマルコフモデルという具体的な声道モデルを利用して音素データを正確に、効率的に確定することができる。

理解できるように、隠れマルコフモデルは、クライアント側にあることができる。したがって、語音特徴ベクトルをローカルの隠れマルコフモデルに入力し、各音声フレームの状態データを確定し、さらに音素データを確定することができる。

図５は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲットリップ形画像フレームの確定を模式的に示す概略図である。

本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法において音素データと一対一に対応するターゲットリップ形画像フレームの確定の具体的な例を実現することができる。

操作Ｓ５２１は、音素データ５０１に対応するリップ形キーポイントデータ５０２を確定する。

リップ形キーポイントは、異なるリップ形を区別することができるポイントとして理解してもよい。

例示的には、例えば、ターゲット検出モデルにより音素データに対応するリップ形キーポイントデータを確定することができる。

操作Ｓ５２２は、リップ形キーポイントデータ５０２に基づいて、リップ形画像フレームセット５０３からリップ形キーポイントデータ５０２にマッチングするターゲットリップ形画像フレーム５０４を確定する。

リップ形画像フレームセットは、ローカルのクライアント側に記憶されてもよい。本開示の実施形態のデータインタラクション方法は、リップ形キーポイントデータに基づいて、ローカルのリップ形画像フレームセットを迅速で、効率的に検索し、リップ形画像フレームセットからリップ形キーポイントデータとのマッチング度が高い１つのリップ形画像フレームをターゲットリップ形画像フレームとして確定することができ、ネットワークに依存せず、ユーザの使用体験を向上させることができる。

図６は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲットビデオフレームの取得を模式的に示す概略図である。

本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法においてターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得る具体的な例を実現することができる。

操作Ｓ６３１は、ターゲットリップ形画像フレーム６０１に基づいて、リップ形マスク６０２を確定する。

マスクは、選択された画像、図形であると理解することができ、マスクは、処理する画像を遮断することにより、画像処理の領域又は処理過程を制御するために用いられる。

操作Ｓ６３２は、リップ形マスク６０２とベースビデオフレーム６０３に基づいて、融合経路６０４を確定する。

例示的には、エネルギー最小検索ポリシーに基づいてリップ形マスクとベースビデオフレームとの間の融合経路を確定することができる。例えば、リップ形マスクとベースビデオフレームとの融合領域を予め確定することができ、「エネルギー」は、融合領域の両側の画像画素の差分値の二乗和であると理解することができ、エネルギー最小検索ポリシーに基づいて確定された融合経路は、よりスムーズで平滑であり、より良好な融合効果を有する。

操作Ｓ６３３は、融合経路６０４に基づいて、リップ形マスク６０２とベースビデオフレーム６０３を融合し、ターゲットビデオフレーム６０５を得る。

本開示の実施形態のデータインタラクション方法は、ターゲットリップ形画像フレームに基づいてリップ形マスクを確定し、且つ、リップ形マスクとベースビデオフレームとの間の融合経路に基づいて、リップ形マスクとベースビデオフレームを融合することができ、これにより、リップ形マスクとベースビデオフレームの融合経路による両側の画素の差異がより小さく、より良好な融合効果を有し、より自然なターゲットビデオフレームを得ることができる。

図７は、本開示のさらに他の実施形態に係るデータインタラクション方法においてターゲット表示データの取得を模式的に示す概略図である。

本開示のさらに他の実施形態によれば、以下の実施形態を使用してデータインタラクション方法においてターゲットビデオフレームをレンダリングし、ターゲット表示データを得る具体的な例を実現することができる。

操作Ｓ７４１は、ターゲットビデオフレームの頂点データ７０１に基づいて、スクリーン座標系に基づく頂点座標データ７０２を確定する。

例示的には、頂点データは、配列形式で表す各頂点の座標を含んでもよい。頂点シェーダを利用して、ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定することができる。頂点シェーダは、頂点属性に対していくつかの基本的な処理をさらに行うことができる。

操作Ｓ７４２は、頂点座標データ７０２に基づいて、プリミティブデータ（ｐｒｉｍｉｔｉｖｅｄａｔａ）７０３を確定する。

プリミティブデータは、頂点データをどのようにレンダリングするかの参照とすることができる。例えば、プリミティブデータは、点、線、三角形を含んでもよい。

操作Ｓ７４３は、プリミティブデータ７０３に対してユニット化処理を行い、ターゲット図形データ７０４を生成する。

例示的には、ジオメトリシェーダを利用してプリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成することができる。ユニット化処理は、例えば、新たな頂点を生成し、且つ各頂点を接続し、さらにターゲット図形データを生成することを含んでもよい。

操作Ｓ７４４は、ターゲット図形データ７０４に対して画素変換処理を行い、ターゲット図形データの画素データ７０５を得る。

操作Ｓ７４４は、ラスタライズ処理であると理解することができ、プリミティブデータを最終スクリーン上の対応する画素にマッピングし、フラグメントを生成する。フラグメントは、１つの画素をレンダリングするために必要な全てのデータである。

操作Ｓ７４５は、画素データ７０５に基づいて、各画素点のカラーデータを確定し、ターゲット表示データ７０６を得る。

本開示の実施形態のデータインタラクション方法によれば、上記の具体的なターゲットビデオフレームをレンダリングする操作によりターゲット表示データをクライアント側のスクリーンにレンダリングすることができる。上記のターゲットビデオフレームをレンダリングする操作は、グラフィックプロセッサに基づく。グラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵと略称）は、パーソナルコンピュータ、ワークステーション、ゲーム機、及び、いくつかの携帯機器上に画像及び図形に関する演算動作を行うマイクロプロセッサである。ＧＰＵは、強力な演算能力を有し、画像のレンダリングに用いられる場合、レンダリング効率を向上させることができ、且つ、ＣＰＵのリソース使用を減少させることができる。本開示の実施形態のデータインタラクション方法は、ＧＰＵにより画像をレンダリングし、低構成のクライアント側に良好な表示効果をレンダリングすることができる。

本開示の実施形態に係るデータインタラクション方法では、返答語音データは、対応する返答テキストデータから得られることができ、返答テキストデータは、対応する入力テキストデータから得られることができ、入力テキストデータは、対応する入力語音データから得られることができる。

入力語音データは、ユーザが発声した語音形式の入力データであると理解することができる。

例示的には、入力語音データに対して語音認識を行い、入力テキストデータを得ることができる。例えば、語音認識モジュールのインタフェースを呼び出すことにより入力された語音データに対して語音認識を行うことができる。語音認識モジュールは、サーバ側にあってもよい。この時、クライアント側とサーバ側の接続及びデータインタラクションは、ネットワークに依存する。

例示的には、ローカルデータベース又はサーバ側で入力テキストデータに対応する返答テキストデータを検索することができる。例えば、ローカルデータベースに配置された返答テキストデータが記憶された場合、入力データに応答して、ローカルデータベースに記憶された配置の返答テキストデータを検索することができる。オンライン上の応用シーンでは、入力データに応答して、サーバ側で返答テキストデータを検索することができ、この時にクライアント側とサーバ側の接続及びデータインタラクションはネットワークに依存する。

例示的には、返答テキストデータに対してテキストから語音へ（テキストから語音、ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳと略称）の処理を行い、返答語音データを得ることができる。返答語音データは、例えばパルス符号化変調データ（パルス変調符号化は、ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎであり、ＰＣＭと略称する。）であってもよい。例えば、テキストから語音へのモジュールのインタフェースを呼び出して、返答テキストに対してテキストから語音への処理を行うことができる。テキストから語音へのモジュールは、サーバ側に位置することができる。この時、クライアント側とサーバ側の接続及びデータインタラクションはネットワークに依存する。

図８は、本開示のさらに他の実施形態に係るデータインタラクション方法を模式的に示すフローチャートである。

図８に示すように、本開示のさらに他の実施形態に係るデータインタラクション方法８００は、操作Ｓ８５０をさらに含むことができる。

操作Ｓ８５０は、ターゲット表示データと同期して返答語音データを再生する。

図８に示すように、データインタラクション方法８００は、操作Ｓ８５０の前に、操作Ｓ８１０～操作Ｓ８４０をさらに含むことができる。操作Ｓ８１０～操作Ｓ８４０は、それぞれ上記の操作Ｓ２１０～操作Ｓ２４０と同じであり、ここでは説明を省略する。

本開示の実施形態のデータインタラクション方法は、依然としてデジタルヒューマンを例とする。返答語音データとターゲット表示データとの同期再生は、同期された語音出力と視覚出力をユーザに提供し、ユーザの使用体験を向上させることができ。

例示的には、ターゲット表示データに対応する画像フレームの表示周波数が返答語音データに対応する音声フレームの再生周波数と同じである場合、ターゲット表示データと返答語音データは、同期することができる。

図９は、本開示の実施形態に係るデータインタラクション装置を模式的に示すブロック図である。

図９に示すように、本開示の実施形態のデータインタラクション装置９００は、例えば、音素データ確定モジュール９１０と、ターゲットリップ形画像フレーム確定モジュール９２０と、融合モジュール９３０と、レンダリングモジュール９４０とを含む。

音素データ確定モジュールは、返答データに応答して、返答データに対応する音素データを確定するために用いられる。

ターゲットリップ形画像フレーム確定モジュールは、音素データと一対一に対応するターゲットリップ形画像フレームを確定するために用いられる。

融合モジュールは、ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るために用いられる。

レンダリングモジュールは、ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るために用いられる。

本開示の実施形態に係るデータインタラクション装置では、返答データは、返答語音データを含み、音素データ確定モジュールは、語音特徴ベクトル確定サブモジュールと、状態データ確定サブモジュールと、音素データ確定サブモジュールとを含んでもよい。

語音特徴ベクトル確定サブモジュールは、返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定するために用いられ、各音声フレームは、分割周波数に基づいて返答語音データを分割して得られる。

状態データ確定サブモジュールは、語音特徴ベクトルを隠れマルコフモデルに入力し、各音声フレームの状態データを確定するために用いられる。

音素データ確定サブモジュールは、音声フレームの状態データに基づいて、音素データを確定するために用いられる。

本開示の実施形態に係るデータインタラクション装置では、ターゲットリップ形画像フレーム確定モジュールは、リップ形キーポイント確定サブモジュールと、ターゲットリップ形画像フレーム確定サブモジュールとを含んでもよい。

リップ形キーポイント確定サブモジュールは、音素データに対応するリップ形キーポイントデータを確定するために用いられる。

ターゲットリップ形画像フレーム確定サブモジュールは、リップ形キーポイントデータに基づいて、リップ形画像フレームセットからリップ形キーポイントデータにマッチングするターゲットリップ形画像フレームを確定するために用いられる。

本開示の実施形態に係るデータインタラクション装置では、融合モジュールは、リップ形マスク確定サブモジュールと、融合経路確定サブモジュールと、融合サブモジュールとを含んでもよい。

リップ形マスク確定サブモジュールは、ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定するために用いられる。

融合経路確定サブモジュールは、リップ形マスクとベースビデオフレームに基づいて、融合経路を確定するために用いられる。

融合サブモジュールは、融合経路に基づいて、リップ形マスクとベースビデオフレームを融合し、ターゲットビデオフレームを得るために用いられる。

本開示の実施形態に係るデータインタラクション装置では、レンダリングモジュールは、頂点座標データ確定サブモジュールと、プリミティブデータ確定サブモジュールと、ターゲット画像データ確定サブモジュールと、画素データ確定サブモジュールと、ターゲット表示データ確定サブモジュールとを含んでもよい。

頂点座標データ確定サブモジュールは、ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定するために用いられる。

プリミティブデータ確定サブモジュールは、頂点座標データに基づいて、プリミティブデータを確定するために用いられる。

ターゲット画像データ確定サブモジュールは、プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成するために用いられる。

画素データ確定サブモジュールは、ターゲット図形データに対して画素変換処理を行い、ターゲット図形データの画素データを得るために用いられる。

ターゲット表示データ確定サブモジュールは、画素データに基づいて、各画素点のカラーデータを確定し、ターゲット表示データを得るために用いられる。

本開示の実施形態に係るデータインタラクション装置では、返答語音データは、対応する返答テキストデータから得られ、返答テキストデータは、対応する入力テキストデータから得られ、入力テキストデータは、対応する入力語音データから得られる。

本開示の実施形態に係るデータインタラクション装置は、返答語音データ再生モジュールをさらに含んでもよい。

返答語音データ再生モジュールは、ターゲット表示データと同期して返答語音データを再生するために用いられる。

本開示の装置部分の実施形態は本開示の方法部分の実施形態に対応して同じであるか又は類似し、解決する技術的課題と達成された技術的効果も対応して同じであるか又は類似することは言うまでもなく、本開示はここで説明を省略する。

本開示の実施形態によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。

図１０は、本開示の実施形態を実施するために用いられる電子機器１０００の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部品、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び／または要求された本開示の実現を限定することを意味しない。

図１０に示すように、電子機器１０００は、演算ユニット１００１を含み、演算ユニット１００１は、リードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラムまたは記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ１００３には、電子機器１０００の操作に必要な様々なプログラム及びデータをさらに記憶してもよい。演算ユニット１００１と、ＲＯＭ１００２と、ＲＡＭ１００３とは、バス１００４を介して相互に接続される。入出力（Ｉ／Ｏ）インタフェース１００５も、バス１００４に接続される。

電子機器１０００における、例えばキーボード、マウス等の入力ユニット１００６と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット１００７と、例えば磁気ディスク、光ディスク等の記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１００９とを含む複数の部品は、Ｉ／Ｏインタフェース１００５に接続される。通信ユニット１００９は、電子機器１０００がインターネット等のコンピュータネットワーク及び／または各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

演算ユニット１００１は、処理及び演算能力を有する各種の汎用及び／または専用の処理モジュールであってもよい。演算ユニット１００１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムをランニングする各種演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。演算ユニット１００１は、例えばデータインタラクション方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施形態において、データインタラクション方法は、例えば記憶ユニット１００８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態において、コンピュータプログラムの一部または全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて演算ユニット１００１により実行される場合、上記に記載のデータインタラクション方法の１つまたは複数のステップを実行してもよい。代替的に、他の実施形態において、演算ユニット１００１は、他の任意の適切な方式（例えば、ファームウェアを介する）によりデータインタラクション方法を実行するように構成されてもよい。

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラムマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実施され、当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び／または解釈されることが可能であり、当該プログラムマブルプロセッサは、専用または汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、それによって、プログラムコードがプロセッサまたはコントローラにより実行される時に、フローチャート及び／またはブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるかまたは完全に遠隔機器またはサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置または電子機器に使用され、または命令実行システム、装置または電子機器と組み合わせて使用されるプログラムを含んでまたは記憶してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、または半導体システム、装置または電子機器、または上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且ついかなる形式（音声入力、語音入力、または、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、またはミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェースまたは該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる）、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント側及びサーバを含んでもよい。クライアント側とサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアント側とサーバとの関係は、該当するコンピュータ上でランニングし、クライアント側－サーバの関係を有するコンピュータプログラムによって生成される。

以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したりまたは削除してもよいと理解されるべきである。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、または異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

返答データに応答して、前記返答データに対応する音素データを確定することと、
前記音素データと一対一に対応するターゲットリップ形画像フレームを確定することと、
前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることと、
前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることと、を含む、
データインタラクション方法。
前記返答データは、返答語音データを含み、
前記返答データに応答して、前記返答データに対応する音素データを確定することは、
前記返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定し、各前記音声フレームは分割周波数に基づいて前記返答語音データを分割して得られることと、
前記語音特徴ベクトルを隠れマルコフモデルに入力し、各前記音声フレームの状態データを確定することと、
前記音声フレームの状態データに基づいて、音素データを確定することと、を含む、
請求項１に記載の方法。
前記音素データと一対一に対応するターゲットリップ形画像フレームを確定することは、
前記音素データに対応するリップ形キーポイントデータを確定することと、
前記リップ形キーポイントデータに基づいて、リップ形画像フレームセットから前記リップ形キーポイントデータにマッチングする前記ターゲットリップ形画像フレームを確定することと、を含む、
請求項１に記載の方法。
前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得ることは、
前記ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定することと、
前記リップ形マスクと前記ベースビデオフレームに基づいて、融合経路を確定することと、
前記融合経路に基づいて、前記リップ形マスクと前記ベースビデオフレームを融合し、前記ターゲットビデオフレームを得ることと、を含む、
請求項１～３のいずれか一項に記載の方法。
前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得ることは、
前記ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定することと、
前記頂点座標データに基づいて、プリミティブデータを確定することと、
前記プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成することと、
前記ターゲット図形データに対して画素変換処理を行い、前記ターゲット図形データの画素データを得ることと、
前記画素データに基づいて、各画素点のカラーデータを確定し、前記ターゲット表示データを得ることと、を含む、
請求項１～３のいずれか一項に記載の方法。
前記返答語音データは、対応する返答テキストデータから得られ、前記返答テキストデータは、対応する入力テキストデータから得られ、前記入力テキストデータは、対応する入力語音データから得られる、
請求項２に記載の方法。
前記ターゲット表示データと同期して前記返答語音データを再生することをさらに含む、
請求項２に記載の方法。
返答データに応答して、前記返答データに対応する音素データを確定するための音素データ確定モジュールと、
前記音素データと一対一に対応するターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定モジュールと、
前記ターゲットリップ形画像フレームをそれぞれベースビデオフレームと融合し、ターゲットビデオフレームを得るための融合モジュールと、
前記ターゲットビデオフレームをレンダリングし、ターゲット表示データを得るためのレンダリングモジュールと、を含む、
データインタラクション装置。
前記返答データは、返答語音データを含み、
前記音素データ確定モジュールは、
前記返答語音データに基づいて、複数の音声フレームの語音特徴ベクトルを確定するための語音特徴ベクトル確定サブモジュールであって、各前記音声フレームは分割周波数に基づいて前記返答語音データを分割して得られる、語音特徴ベクトル確定サブモジュールと、
前記語音特徴ベクトルを隠れマルコフモデルに入力し、各前記音声フレームの状態データを確定するための状態データ確定サブモジュールと、
前記音声フレームの状態データに基づいて、音素データを確定するための音素データ確定サブモジュールと、を含む、
請求項８に記載の装置。
ターゲットリップ形画像フレーム確定モジュールは、
前記音素データに対応するリップ形キーポイントデータを確定するためのリップ形キーポイント確定サブモジュールと、
前記リップ形キーポイントデータに基づいて、リップ形画像フレームセットから前記リップ形キーポイントデータにマッチングする前記ターゲットリップ形画像フレームを確定するためのターゲットリップ形画像フレーム確定サブモジュールと、を含む、
請求項８に記載の装置。
前記融合モジュールは、
前記ターゲットリップ形画像フレームに基づいて、リップ形マスクを確定するためのリップ形マスク確定サブモジュールと、
前記リップ形マスクと前記ベースビデオフレームに基づいて、融合経路を確定するための融合経路確定サブモジュールと、
前記融合経路に基づいて、前記リップ形マスクと前記ベースビデオフレームを融合し、前記ターゲットビデオフレームを得るための融合サブモジュールと、を含む、
請求項８～１０のいずれか一項に記載の装置。
前記レンダリングモジュールは、
前記ターゲットビデオフレームの頂点データに基づいて、スクリーン座標系に基づく頂点座標データを確定するための頂点座標データ確定サブモジュールと、
前記頂点座標データに基づいて、プリミティブデータを確定するためのプリミティブデータ確定サブモジュールと、
前記プリミティブデータに対してユニット化処理を行い、ターゲット図形データを生成するためのターゲット画像データ確定サブモジュールと、
前記ターゲット図形データに対して画素変換処理を行い、前記ターゲット図形データの画素データを得るための画素データ確定サブモジュールと、
前記画素データに基づいて、各画素点のカラーデータを確定し、前記ターゲット表示データを得るためのターゲット表示データ確定サブモジュールと、を含む、
請求項８～１０のいずれか一項に記載の装置。
前記返答語音データは、対応する返答テキストデータから得られ、前記返答テキストデータは、対応する入力テキストデータから得られ、前記入力テキストデータは、対応する入力語音データから得られる、
請求項９に記載の装置。
前記ターゲット表示データと同期して前記返答語音データを再生するための返答語音データ再生モジュールをさらに含む、
請求項９に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも１つのプロセッサが請求項１～３、６および７のいずれか一項に記載の方法を実行することができるように、前記命令が前記少なくとも１つのプロセッサによって実行される、
電子機器。
コンピュータに請求項１～３、６および７のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される場合に、請求項１～３、６および７のいずれか一項に記載の方法を実現するコンピュータプログラム。