JP7104683B2

JP7104683B2 - 情報を生成する方法および装置

Info

Publication number: JP7104683B2
Application number: JP2019227932A
Authority: JP
Inventors: ホアン、チンポー; ファン、メイホア; ホー、チエンピン; ワン、リーハオ; ツァイ、チェンション; コン、シーカン; チャオ、ヤーフェイ; ワン、チエンシアン; チェン、チャオ; チェン、ポー; リー、チュアンカン; リウ、ユイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-12-18
Publication date: 2022-07-21
Anticipated expiration: 2039-12-18
Also published as: US11151765B2; KR20210001857A; CN110298906B; CN110298906A; JP2021010156A; KR20220002820A; US20200410732A1; KR102471202B1

Description

本開示の実施例は、コンピュータ技術の分野に関し、特に、情報を生成する方法および装置に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＡＩ）技術の急速な発展に伴い、インテリジェントサービスは、金融分野のインテリジェントカスタマーサービス、インテリジェントファイナンシャルアドバイザーなど、様々な分野に適用されている。仮想ポートレート技術は、三次元仮想ポートレートをレンダリングすることにより、インテリジェントサービスにより簡便なエクスペリエンスを与えることができるため、ユーザが三次元仮想ポートレートと対話するときの三次元仮想ポートレートの擬人化を改善する。従来の仮想ポートレート技術は高い擬人化効果を有するが、それらのほとんどは三次元ゲーム、映画ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ、コンピューターグラフィックス）などのスクリプト化されたアプリケーションシナリオに限定され、指定されたコンテンツのみに応じて、設計された動作に応答でき、また、研究開発の面では人件費が高く、時間がかかる。

本開示の実施例は、情報を生成する方法および装置を提供する。

課題を解決すための手段

第１の様態では、本開示の実施例は、情報を生成する方法を提供する。該方法は、クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するステップと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するステップと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するステップと、を含む。

いくつかの実施例では、上記フィードバック情報は、テキストフィードバック情報である。上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する上記ステップは、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するステップと、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するステップと、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するステップと、を含む。

いくつかの実施例では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する上記ステップは、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定するステップと、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報に設定するステップと、を含む。

いくつかの実施例では、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成する上記ステップは、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を含む。

いくつかの実施例では、上記方法は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するステップと、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するステップと、をさらに含む。

第２の様態では、本開示の実施例は、情報を生成する装置を提供する。該装置は、クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニットと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するように構成された分析ユニットと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するように構成された第一生成ユニットと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニットと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するように構成された送信ユニットと、を含む。

いくつかの実施例では、上記フィードバック情報は、テキストフィードバック情報である。上記第二生成ユニットは、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニットと、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニットと、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニットと、を含む。

いくつかの実施例では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記取得ユニットはさらに、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定し、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定し、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定し、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するように構成されている。

いくつかの実施例では、上記音声生成ユニットは、さらに、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するように構成されている。

いくつかの実施例では、上記装置は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニットと、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニットと、をさらに含む。

第３の態様では、本開示の実施例は、サーバであって、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶した記憶装置と、を含み、上記１つまたは複数のプログラムが、上記１つまたは複数のプロセッサによって実行されると、上記１つまたは複数のプロセッサに第１の態様のいずれか１つに記載の方法を実行させるサーバを提供する。

第４の態様では、本開示の実施例は、コンピュータプログラムを記憶したコンピュータ可読媒体であって、上記コンピュータプログラムがプロセッサによって実行されると、第１の態様のいずれか１つに記載の方法を実行させるコンピュータ可読媒体を提供する。

本開示の実施例によって提供される、情報を生成する方法および装置は、まず、クライアントから送信されたユーザのビデオおよびオーディオを受信し、次に、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定し、次に、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成し、次に、フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成し、最後に、クライアントがユーザに表示するように、生成された三次元仮想ポートレートのビデオをクライアントに送信する。それにより、ユーザの意図カテゴリを満たす三次元仮想ポートレートのビデオをクライアントにフィードバックし、ユーザと三次元仮想ポートレートとのライブインタラクションの精度を向上させ、三次元仮想ポートレートの擬人化を改善し、ユーザエクスペリエンスを向上させることができる。

本開示の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。本開示に係る、情報を生成する方法の一実施例のフローチャートである。本開示に係る、情報を生成する方法のアプリケーションシナリオの概略図である。本開示に係る、情報を生成する方法の別の実施例のフローチャートである。本開示に係る、情報を生成する装置の一実施例の構造概略図である。本開示の実施例を実施するのに適したサーバのコンピュータシステムの構造概略図である。

以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載の特定の実施例は、本発明を解釈するものにすぎず、本発明を限定するものではないことが理解される。また、説明の便宜上、本発明に関連する部分のみが図面に示されている。

なお、本開示の実施例および実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。

図１は、本開示の実施例が適用され得る、情報を生成する方法または情報を生成する装置の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体として機能している。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。

ユーザは、端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５と対話し、情報などを送受信することができる。チャットロボットアプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションは、端末装置１０１、１０２、１０３にインストールすることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面、ビデオ収集装置（例えば、カメラ）、オーディオ収集装置（例えば、マイク）などを有する様々な電子機器であってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。

サーバ１０５は、端末装置１０１、１０２、１０３に表示される三次元仮想ポートレートにサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したビデオやオーディオなどのデータに対して分析処理などを行い、処理結果（例えば、三次元仮想ポートレートのビデオ）を端末装置１０１、１０２、１０３にフィードバックすることができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ１０５がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。

図１の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解される。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定されてもよい。

なお、本開示の実施例によって提供される、情報を生成する方法は、一般にサーバ１０５によって実行され、それに応じて、情報を生成する装置は、一般にサーバ１０５に配置される。

さらに図２を参照すると、図２は、本開示に係る、情報を生成する方法の一実施例のプロセス２００を示している。情報を生成する方法は、以下のステップを含む。

ステップ２０１、クライアントから送信されたユーザのビデオおよびオーディオを受信する。

本実施例では、情報を生成する方法の実行主体（例えば、図１に示すサーバ１０５）は、有線接続または無線接続を介してクライアントからユーザのビデオおよびオーディオを受信することができる。ここで、ユーザがクライアントを介してテキスト情報を入力する場合、クライアントはテキスト情報を実行主体に送信することもできる。さらに、クライアントは自身の位置情報を実行主体に送信することもできる。

一般に、ユーザは、端末装置（例えば、図１に示す端末装置１０１、１０２、１０３）にインストールされたクライアントを介して情報を交換することができる。ここで、ユーザが使用する端末装置は、ビデオ収集装置（例えば、カメラ）、オーディオ収集装置（例えば、マイク）などを備えていてもよい。端末装置は、ユーザのビデオ、オーディオなどの情報をリアルタイムで収集することができ、クライアントは、収集されたビデオ、オーディオなどの情報を実行主体にリアルタイムで送信することができる。ここで、実行主体は、クライアントにサポートを提供するバックエンドサーバであってもよい。このように、バックエンドサーバはユーザのビデオ、オーディオなどの情報をリアルタイムで処理することができる。

ステップ２０２、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定する。

本実施例では、実行主体は、ステップ２０１で受信したビデオおよびオーディオに対して様々な分析処理を実行して、ユーザの意図カテゴリを決定することができる。一例として、実行主体は、ビデオ内のビデオフレームに対して顔認識、表情認識、ジェスチャ認識、姿勢認識などを実行することにより、ユーザの身元、表情、ジェスチャ、姿勢などのユーザ特徴情報を取得することができる。実行主体は、上記オーディオに対して音声認識を実行し、オーディオに対応するテキスト情報を取得することもできる。その後、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して意味解析などを実行して、ユーザの意図カテゴリを決定することができる。ここで、意図カテゴリは、クライアントを介してビデオおよびオーディオを送信するユーザの意図を示すためのカテゴリであってもよい。

実際には、意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定されてもよい。一例として、クライアントに適用されるサービスシナリオが金融（例えば、銀行）シナリオであると仮定すると、事前に設定された意図カテゴリは、個人情報の更新、サービス問い合わせ、サービス処理などを含むことができる。このように、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して様々な意味解析（例えば、単語の分割、品詞のタグ付け、名前付きエンティティの認識など）を実行して、ユーザの意図カテゴリを決定することができる。一例として、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して単語の分割を実行して、少なくとも１つの単語セグメントを取得することができる。その後、少なくとも１つの単語セグメントを事前に確立された意図分類モデルに入力して、ユーザの意図カテゴリを取得することができる。ここで、意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用され、上記意図分類モデルは、機械学習方法に基づいて取得することができる。

ステップ２０３、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成する。

本実施形態では、実行主体は、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成することができる。ここで、サービス情報セットは、クライアントに適用されるサービスシナリオに関連する様々なサービス情報を記憶するために使用される。一例として、クライアントに適用されるサービスシナリオが銀行シナリオであり、ユーザの意図カテゴリがサービス問い合わせであると仮定すると、実行主体は、サービス情報セットからユーザが問い合わせるサービスの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成することができる。例えば、取得された関連情報をフィードバック情報として直接設定することができる。また例えば、事前に設定された音声テンプレートに基づいて、取得された関連情報を用いてフィードバック情報を生成することができる。

ステップ２０４、フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する。

本実施例では、実行主体は、ステップ２０３で生成されたフィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成することができる。具体的には、実行主体は、最初にＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキストから音声へ）を介してフィードバック情報を返信オーディオに変換することができる。実際のニーズに応じて、返信オーディオは、中国語、英語、日本語、韓国語、タイ語などの様々な言語の返信オーディオにすることができる。通常、返信オーディオの言語はユーザのオーディオと同じ言語である。一例として、フィードバック情報を返信オーディオに変換する際、実行主体は、ユーザ特徴情報に基づいて、音調、話速、音色など、変換される返信オーディオの特定の特徴を設定することができる。ここで、ユーザ特徴情報と返信オーディオの特徴との対応関係が実行主体に事前に記憶されてもよく、例えば、若いユーザに対して、返信オーディオの話速が低く設定されてもよい。その後、実行主体は、返信オーディオに基づいて三次元仮想ポートレートのビデオを生成することができる。ここで、三次元仮想ポートレートは、ＵＥ４（ＵｎｒｅａｌＥｎｇｉｎｅ４、アンリアルエンジン４）、Ｍａｙａ、Ｕｎｉｔｙ３Ｄなどを含むがこれらに限定されない、アニメーションエンジンを介して開発することができる。

ステップ２０５、クライアントがユーザに表示するように、三次元仮想ポートレートのビデオをクライアントに送信する。

本実施形態では、実行主体は、クライアントがユーザに表示するように、ステップ２０４で生成された三次元仮想ポートレートのビデオをクライアントに送信することができる。これにより、ユーザと三次元仮想ポートレートとの対話が実現される。

本実施例のいくつかの代替的な実施形態では、情報を生成する上記方法は、図２に示されていない以下のステップをさらに含むことができる。

まず、三次元仮想ポートレートのカスタムリクエストを受信する。

本実施形態では、実行主体は、三次元仮想ポートレートの外観を決定するための情報を含むことができる三次元仮想ポートレートのカスタムリクエストを受信することもできる。一例として、カスタムリクエストに含まれる、三次元仮想ポートレートの外観を決定するための情報は、実在の人物に基づいて取得された情報であってもよい。例えば、三次元仮想ポートレートの外観を決定するための情報は、特別な装置（例えば、ヘルメット）を装着した実在の人物、特別な装置の画像収集装置（例えば、カメラ）、センサなどによって収集することができる。実行主体は、実在の人物によって収集された情報を用いて、実在の人物の効果を有する三次元仮想ポートレートを生成することができる。別の例として、カスタムリクエストに含まれる、三次元仮想ポートレートの外観を決定するための情報は、漫画画像設計データであってもよい。実行主体は、漫画画像設計データに基づいて、漫画効果を有する三次元仮想ポートレートを生成することができる。

次に、カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定する。

本実施形態では、実行主体は、カスタムリクエストにおける、三次元仮想ポートレートの外観を決定するための情報に基づいて、三次元仮想ポートレートの外観を決定することができる。一例として、三次元仮想ポートレートは、全身または半身であってもよく、本明細書に限定されない。本実施形態によれば、実行主体は、カスタムリクエストに基づいて、三次元仮想ポートレートを生成することができるため、三次元仮想ポートレートの画像カスタマイズを実現することができる。

さらに図３を参照すると、図３は、本実施例に係る、情報を生成する方法の銀行アプリケーションシナリオの概略図である。図３のアプリケーションシナリオでは、ユーザはまず、クライアント３０１を介して「理財商品を知りたい」というユーザのビデオおよびオーディオをサーバ３０２に送信する。次に、サーバ３０２は、受信したビデオおよびオーディオを分析し、ユーザの意図カテゴリが理財商品向けのサービス問い合わせであると判定する。次に、サーバ３０２は、ユーザの意図カテゴリおよびサービス情報セットに基づいて、複数の理財商品の情報を含むフィードバック情報を生成する。次に、サーバ３０２は、フィードバック情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成する。最後に、サーバ３０２は、クライアント３０１がユーザに表示するように、生成された三次元仮想ポートレートのビデオをクライアント３０１に送信する。

本開示の上記実施例によって提供される方法は、ユーザのビデオおよびオーディオを包括的に分析して、ユーザの意図カテゴリを決定し、意図カテゴリおよびサービス情報セットに基づいてフィードバック情報を生成し、フィードバック情報に基づいて三次元仮想ポートレートのビデオを生成し、それにより、ユーザの意図カテゴリを満たす三次元仮想ポートレートのビデオをクライアントにフィードバックし、ユーザと三次元仮想ポートレートとのライブインタラクションの精度を向上させ、三次元仮想ポートレートの擬人化を改善し、ユーザエクスペリエンスを向上させることができる。

さらに図４を参照すると、図４は、情報を生成する方法の別の実施例のプロセス４００を示している。情報を生成する方法のプロセス４００は、以下のステップを含む。

ステップ４０１、クライアントから送信されたユーザのビデオおよびオーディオを受信する。

本実施例では、ステップ４０１は、図２に示す実施例のステップ２０１と同様であるため、ここではその説明を省略する。

ステップ４０２、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定する。

本実施例では、ステップ４０２は、図２に示す実施例のステップ２０２と同様であるため、ここではその説明を省略する。

ステップ４０３、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成する。

本実施例では、実行主体は、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成することができる。ここで、サービス情報セットは、クライアントに適用されるサービスシナリオに関連する様々なサービス情報を記憶するために使用され、上記フィードバック情報は、テキストフィードバック情報であってもよい。

ステップ４０４、テキストフィードバック情報に基づいて、音声フィードバック情報を生成する。

本実施例では、実行主体は、ステップ４０３で生成されたテキストフィードバック情報に基づいて、音声フィードバック情報を生成することができる。具体的には、実行主体は、ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキストから音声へ）を介してテキストフィードバック情報を音声フィードバック情報に変換することができる。

本実施例のいくつかの代替的な実施形態では、上記ステップ４０４は、具体的には、テキストフィードバック情報を事前に確立された音声生成モデルに入力して、音声フィードバック情報を生成することにより、実行することができる。

本実施例では、実行主体は、テキストフィードバック情報を事前に確立された音声生成モデルに入力して、音声フィードバック情報を取得することができる。ここで、上記音声生成モデルは、テキストと音声との対応関係を特徴付けるために使用でき、上記音声生成モデルは、実在の人物の音声に基づいてトレーニングして得られる。一例として、上記音声生成モデルは、機械学習モデルであってもよい。この機械学習モデルは、そのトレーニングサンプルがサンプルテキストおよびサンプルテキストに対応する実在の人物の音声を含む、トレーニングサンプルセットを取得し、トレーニングサンプルセット内のトレーニングサンプルのサンプルテキストを入力とし、入力されたサンプルテキストに対応する実在の人物の音声を所望の出力とし、トレーニングして取得することができる。

ステップ４０５、テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する。

本実施例では、実行主体は、ステップ４０３で生成されたテキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得することができる。ここで、ターゲット表情情報は、音声フィードバック情報が再生ステップ４０４で取得されるときに、三次元仮想ポートレートの表情を制御するために使用できる。ターゲット口形情報は、音声フィードバック情報が再生ステップ４０４で取得されるときに、三次元仮想ポートレートの口形を制御するために使用できる。ターゲット動作情報は、音声フィードバック情報が再生ステップ４０４で取得されるときに、三次元仮想ポートレートの姿勢、動作などを制御するために使用できる。

本実施例のいくつかの代替的な実施形態では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含むことができる。ここで、表情情報セットは、事前に設定された様々な表情の表情情報を含むことができる。口形情報セットは、様々な口形の変化に対応する、事前に設定された口形情報を含むことができる。動作情報セットは、様々な姿勢および動作の変化に対応する、事前に設定された動作情報を含むことができる。上記ステップ４０５は、具体的には次のように実行することができる。

まず、テキストフィードバック情報に基づいて、表情情報セットから、ターゲット表情情報を決定する。

本実施形態では、複数のテキストと表情情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報を、複数の対応関係における複数のテキストとマッチングすることができる。複数のテキストのうちの１つがテキストフィードバック情報と同じであるか、またはそれに類似している場合、このテキストに対応する表情情報をターゲット表情情報として設定する。

次に、テキストフィードバック情報に基づいて、口形情報セットから、ターゲット口形情報を決定する。

本実施形態では、複数のテキストと口形情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報に基づいて、口形情報セットから、ターゲット口形情報を決定することができる。

次に、テキストフィードバック情報に基づいて、動作情報セットから、ターゲット動作情報を決定する。

本実施形態では、複数のテキストと動作情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報に基づいて、動作情報セットから、ターゲット動作情報を決定することができる。

最後に、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定する。

本実施形態では、実行主体は、決定されたターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定することができる。

ステップ４０６、音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成する。

本実施形態では、実行主体は、音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をアニメーションエンジンに送信することができる。アニメーションエンジンは、受信された音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、三次元仮想ポートレートのビデオをレンダリングし、レンダリングされたビデオを実行主体にフィードバックすることができる。ここで、アニメーションエンジンによってレンダリングされた三次元仮想ポートレートのビデオは、音声フィードバック情報を含むビデオである。

ステップ４０７、クライアントがユーザに表示するように、三次元仮想ポートレートのビデオをクライアントに送信する。

本実施例では、ステップ４０７は、図２に示す実施例のステップ２０５と同様であるため、ここではその説明を省略する。

図４から分かるように、本実施例における、情報を生成する方法のプロセス４００は、図２に対応する実施例と比べて、テキストフィードバック情報に基づいて所定のポートレート情報セットからターゲットポートレート情報を取得するステップを強調している。従って、本実施例に記載の解決手段は、テキストフィードバック情報に基づいて、三次元仮想ポートレートを生成するためのターゲットポートレート情報を迅速に取得することができるため、三次元仮想ポートレートのビデオの生成効率を向上させ、さらにクライアントとサーバとの対話のリアルタイム性を向上させる。

さらに図５を参照すると、上記各図に示された方法の実施形態として、本開示は、図２に示す方法の実施例に対応する、情報を生成する装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。

図５に示すように、本実施例における、情報を生成する装置５００は、クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニット５０１と、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するように構成された分析ユニット５０２と、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するように構成された第一生成ユニット５０３と、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニット５０４と、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するように構成された送信ユニット５０５と、を含む。

本実施例では、情報を生成する装置５００の受信ユニット５０１、分析ユニット５０２、第一生成ユニット５０３、第二生成ユニット５０４および送信ユニット５０５の具体的な処理とその技術的効果は、それぞれ図２に対応する実施例のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４およびステップ２０５の関連説明を参照することができるため、ここではその説明を省略する。

本実施例のいくつかの代替的な実施形態では、上記フィードバック情報は、テキストフィードバック情報である。上記第二生成ユニット５０４は、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニット（図示せず）と、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニット（図示せず）と、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニット（図示せず）と、を含む。

本実施例のいくつかの代替的な実施形態では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記取得ユニットは、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定するステップと、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するステップと、を実行するようにさらに構成されている。

本実施例のいくつかの代替的な実施形態では、上記音声生成ユニットは、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を実行するようにさらに構成されている。
本実施例のいくつかの代替的な実施形態では、上記装置５００は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニット（図示せず）と、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニット（図示せず）と、をさらに含む。

さらに図６を参照すると、図６は、本開示の実施例を実施するのに適した電子機器（例えば、図１のサーバ）６００の構造概略図を示している。図６に示すサーバは、単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきではない。

図６に示すように、電子機器６００は、リードオンリメモリ（ＲＯＭ）６０２に記憶されたプログラム、または記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに従って、各種の適切な動作および処理を実行することができる、処理装置（例えば、中央処理装置、グラフィックプロセッサなど）６０１を含むことができる。ＲＡＭ６０３には、電子機器６００の動作に必要な各種のプログラムやデータも記憶されている。処理装置６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置６０６と、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータなどを含む出力装置６０７と、磁気テープ、ハードディスクなどを含む記憶装置６０８と、通信装置６０９とは、Ｉ／Ｏインターフェース６０５に接続できる。通信装置６０９は、電子機器６００がデータを交換するために他の機器と無線または有線で通信することを可能にすることができる。図６は、様々な装置を有する電子機器６００を示しているが、示された装置のすべてを実装または具備する必要はないことが理解される。より多いまたはより少ない装置は、代替的に実装または具備されてもよい。図６に示す各ブロックは、１つの装置を表すことができるし、必要に応じて複数の装置を表すことができる。

特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で搬送されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードしてインストールされてもよいし、記憶装置６０８からインストールされてもよいし、ＲＯＭ６０２からインストールされてもよい。このコンピュータプログラムが処理装置６０１によって実行されると、本開示の実施例の方法において限定された上記機能が実行される。

なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。例えば、コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよいし、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ（ＣＤ－ＲＯＭ）、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、命令実行システム、装置、または機器によって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを搬送するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、命令実行システム、装置、または機器によって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、ＲＦ（無線周波数）など、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、この電子機器に組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搬送するものであり、上記１つまたは複数のプログラムがこの電子機器によって実行されるとき、この電子機器は、クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するステップと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するステップと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するステップと、を実行する。

本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む１つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される）。

図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための１つまたは複数の実行可能命令を含む、モジュール、プログラムセグメント、またはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示されている機能は、図面に示されているものとは異なる順序で発生し得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行されてもよいし、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および／またはフローチャートの各ブロックと、ブロック図および／またはフローチャートのブロックの組み合わせとは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実現されてもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。

本開示の実施例に記載のユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。上記ユニットは、例えば、受信ユニット、分析ユニット、第一生成ユニット、第二生成ユニット、および送信ユニットを含むプロセッサとして説明されるプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、受信ユニットは、「クライアントから送信されたユーザのビデオおよびオーディオを受信するユニット」として説明されてもよい。

以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解される。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示される（これらに限定されない）、同様の機能を有する技術的特徴と、を置き換えることによって形成される技術的解決手段であってもよい。

Claims

クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、
前記ビデオを認識してユーザ特徴情報を得るとともに、前記オーディオを認識して当該オーディオの対応するテキスト情報を得、得られたユーザ特徴情報及びテキスト情報に対して、単語の分割を実行して、少なくとも１つの単語セグメントを得、得られた前記少なくとも１つの単語セグメントを事前に確立された意図分類モデルに入力することにより、前記ユーザの意図カテゴリを決定するステップであって、前記意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定された複数の意図カテゴリに含まれ、前記ユーザ特徴情報は、前記ユーザの身元、表情、ジェスチャ、姿勢のうちの少なくとも1つを示すテキスト情報であり、前記意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用される、ステップと、
前記決定されたユーザの意図カテゴリにより、クライアントが適用されるサービスシナリオに関連する複数のサービス情報を含む所定のサービス情報セットから、当該意図カテゴリの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成するステップと、
前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、
前記クライアントが前記ユーザに表示するように、前記三次元仮想ポートレートのビデオを前記クライアントに送信するステップと、を含む、
情報を生成する方法。
前記フィードバック情報は、テキストフィードバック情報であり、
前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する前記ステップは、
前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するステップと、
前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するステップと、
前記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するステップと、を含む、
請求項１に記載の方法。
前記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含み、
前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する前記ステップは、
前記テキストフィードバック情報に基づいて、前記表情情報セットから、ターゲット表情情報を決定するステップと、
前記テキストフィードバック情報に基づいて、前記口形情報セットから、ターゲット口形情報を決定するステップと、
前記テキストフィードバック情報に基づいて、前記動作情報セットから、ターゲット動作情報を決定するステップと、
前記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するステップと、を含む、
請求項２に記載の方法。
前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成する前記ステップは、
前記テキストフィードバック情報をテキストと音声との対応関係を特徴付けるために使用される、実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を含む、
請求項２に記載の方法。
前記方法は、
三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するステップと、
前記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するステップと、をさらに含む、
請求項１に記載の方法。
クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニットと、
前記ビデオを認識してユーザ特徴情報を得るとともに、前記オーディオを認識して当該オーディオの対応するテキスト情報を得、得られたユーザ特徴情報及びテキスト情報に対して、単語の分割を実行して、少なくとも１つの単語セグメントを得、得られた前記少なくとも１つの単語セグメントを事前に確立された意図分類モデルに入力することにより、前記ユーザの意図カテゴリを決定するように構成された分析ユニットであって、前記意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定された複数の意図カテゴリに含まれ、前記ユーザ特徴情報は、前記ユーザの身元、表情、ジェスチャ、姿勢のうちの少なくとも1つを示すテキスト情報であり、前記意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用される、分析ユニットと、
前記決定されたユーザの意図カテゴリにより、クライアントが適用されるサービスシナリオに関連する複数のサービス情報を含む所定のサービス情報セットから、当該意図カテゴリの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成するように構成された第一生成ユニットと、
前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニットと、
前記クライアントが前記ユーザに表示するように、前記三次元仮想ポートレートのビデオを前記クライアントに送信するように構成された送信ユニットと、を含む、
情報を生成する装置。
前記フィードバック情報は、テキストフィードバック情報であり、
前記第二生成ユニットは、
前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニットと、
前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニットと、
前記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニットと、を含む、
請求項６に記載の装置。
前記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含み、
前記取得ユニットは、さらに、
前記テキストフィードバック情報に基づいて、前記表情情報セットから、ターゲット表情情報を決定し、
前記テキストフィードバック情報に基づいて、前記口形情報セットから、ターゲット口形情報を決定し、
前記テキストフィードバック情報に基づいて、前記動作情報セットから、ターゲット動作情報を決定し、
前記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定する
ように構成されている、請求項７に記載の装置。
前記音声生成ユニットは、さらに
前記テキストフィードバック情報をテキストと音声との対応関係を特徴付けるために使用される、実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するように構成されている、請求項７に記載の装置。
前記装置は、
三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニットと、
前記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニットと、をさらに含む、
請求項６に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶した記憶装置と、を含み、
前記１つまたは複数のプログラムは、１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～５のいずれか一項に記載の方法を実行させる、サーバ。
コンピュータプログラムを記憶したコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～５のいずれか一項に記載の方法を実行させるコンピュータ可読媒体。
コンピュータプログラムであって、
プロセッサによって実行されると、請求項１～５のいずれか一項に記載の方法を実行させるコンピュータプログラム。