JP7104683B2 - 情報を生成する方法および装置 - Google Patents

情報を生成する方法および装置 Download PDF

Info

Publication number
JP7104683B2
JP7104683B2 JP2019227932A JP2019227932A JP7104683B2 JP 7104683 B2 JP7104683 B2 JP 7104683B2 JP 2019227932 A JP2019227932 A JP 2019227932A JP 2019227932 A JP2019227932 A JP 2019227932A JP 7104683 B2 JP7104683 B2 JP 7104683B2
Authority
JP
Japan
Prior art keywords
information
target
feedback information
text
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019227932A
Other languages
English (en)
Other versions
JP2021010156A (ja
Inventor
ホアン、チンポー
ファン、メイホア
ホー、チエンピン
ワン、リーハオ
ツァイ、チェンション
コン、シーカン
チャオ、ヤーフェイ
ワン、チエンシアン
チェン、チャオ
チェン、ポー
リー、チュアンカン
リウ、ユイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021010156A publication Critical patent/JP2021010156A/ja
Application granted granted Critical
Publication of JP7104683B2 publication Critical patent/JP7104683B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本開示の実施例は、コンピュータ技術の分野に関し、特に、情報を生成する方法および装置に関する。
人工知能(Artificial Intelligence,AI)技術の急速な発展に伴い、インテリジェントサービスは、金融分野のインテリジェントカスタマーサービス、インテリジェントファイナンシャルアドバイザーなど、様々な分野に適用されている。仮想ポートレート技術は、三次元仮想ポートレートをレンダリングすることにより、インテリジェントサービスにより簡便なエクスペリエンスを与えることができるため、ユーザが三次元仮想ポートレートと対話するときの三次元仮想ポートレートの擬人化を改善する。従来の仮想ポートレート技術は高い擬人化効果を有するが、それらのほとんどは三次元ゲーム、映画CG(Computer Graphics、コンピューターグラフィックス)などのスクリプト化されたアプリケーションシナリオに限定され、指定されたコンテンツのみに応じて、設計された動作に応答でき、また、研究開発の面では人件費が高く、時間がかかる。
本開示の実施例は、情報を生成する方法および装置を提供する。
課題を解決すための手段
第1の様態では、本開示の実施例は、情報を生成する方法を提供する。該方法は、クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するステップと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するステップと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するステップと、を含む。
いくつかの実施例では、上記フィードバック情報は、テキストフィードバック情報である。上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する上記ステップは、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するステップと、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するステップと、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するステップと、を含む。
いくつかの実施例では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する上記ステップは、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定するステップと、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報に設定するステップと、を含む。
いくつかの実施例では、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成する上記ステップは、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を含む。
いくつかの実施例では、上記方法は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するステップと、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するステップと、をさらに含む。
第2の様態では、本開示の実施例は、情報を生成する装置を提供する。該装置は、クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニットと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するように構成された分析ユニットと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するように構成された第一生成ユニットと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニットと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するように構成された送信ユニットと、を含む。
いくつかの実施例では、上記フィードバック情報は、テキストフィードバック情報である。上記第二生成ユニットは、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニットと、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニットと、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニットと、を含む。
いくつかの実施例では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記取得ユニットはさらに、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定し、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定し、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定し、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するように構成されている。
いくつかの実施例では、上記音声生成ユニットは、さらに、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するように構成されている。
いくつかの実施例では、上記装置は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニットと、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニットと、をさらに含む。
第3の態様では、本開示の実施例は、サーバであって、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶した記憶装置と、を含み、上記1つまたは複数のプログラムが、上記1つまたは複数のプロセッサによって実行されると、上記1つまたは複数のプロセッサに第1の態様のいずれか1つに記載の方法を実行させるサーバを提供する。
第4の態様では、本開示の実施例は、コンピュータプログラムを記憶したコンピュータ可読媒体であって、上記コンピュータプログラムがプロセッサによって実行されると、第1の態様のいずれか1つに記載の方法を実行させるコンピュータ可読媒体を提供する。
本開示の実施例によって提供される、情報を生成する方法および装置は、まず、クライアントから送信されたユーザのビデオおよびオーディオを受信し、次に、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定し、次に、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成し、次に、フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成し、最後に、クライアントがユーザに表示するように、生成された三次元仮想ポートレートのビデオをクライアントに送信する。それにより、ユーザの意図カテゴリを満たす三次元仮想ポートレートのビデオをクライアントにフィードバックし、ユーザと三次元仮想ポートレートとのライブインタラクションの精度を向上させ、三次元仮想ポートレートの擬人化を改善し、ユーザエクスペリエンスを向上させることができる。
本開示の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。 本開示に係る、情報を生成する方法の一実施例のフローチャートである。 本開示に係る、情報を生成する方法のアプリケーションシナリオの概略図である。 本開示に係る、情報を生成する方法の別の実施例のフローチャートである。 本開示に係る、情報を生成する装置の一実施例の構造概略図である。 本開示の実施例を実施するのに適したサーバのコンピュータシステムの構造概略図である。
以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載の特定の実施例は、本発明を解釈するものにすぎず、本発明を限定するものではないことが理解される。また、説明の便宜上、本発明に関連する部分のみが図面に示されている。
なお、本開示の実施例および実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。
図1は、本開示の実施例が適用され得る、情報を生成する方法または情報を生成する装置の例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含むことができる。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体として機能している。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。
ユーザは、端末装置101、102、103を用いてネットワーク104を介してサーバ105と対話し、情報などを送受信することができる。チャットロボットアプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションは、端末装置101、102、103にインストールすることができる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面、ビデオ収集装置(例えば、カメラ)、オーディオ収集装置(例えば、マイク)などを有する様々な電子機器であってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。
サーバ105は、端末装置101、102、103に表示される三次元仮想ポートレートにサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したビデオやオーディオなどのデータに対して分析処理などを行い、処理結果(例えば、三次元仮想ポートレートのビデオ)を端末装置101、102、103にフィードバックすることができる。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ105がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。
図1の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解される。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定されてもよい。
なお、本開示の実施例によって提供される、情報を生成する方法は、一般にサーバ105によって実行され、それに応じて、情報を生成する装置は、一般にサーバ105に配置される。
さらに図2を参照すると、図2は、本開示に係る、情報を生成する方法の一実施例のプロセス200を示している。情報を生成する方法は、以下のステップを含む。
ステップ201、クライアントから送信されたユーザのビデオおよびオーディオを受信する。
本実施例では、情報を生成する方法の実行主体(例えば、図1に示すサーバ105)は、有線接続または無線接続を介してクライアントからユーザのビデオおよびオーディオを受信することができる。ここで、ユーザがクライアントを介してテキスト情報を入力する場合、クライアントはテキスト情報を実行主体に送信することもできる。さらに、クライアントは自身の位置情報を実行主体に送信することもできる。
一般に、ユーザは、端末装置(例えば、図1に示す端末装置101、102、103)にインストールされたクライアントを介して情報を交換することができる。ここで、ユーザが使用する端末装置は、ビデオ収集装置(例えば、カメラ)、オーディオ収集装置(例えば、マイク)などを備えていてもよい。端末装置は、ユーザのビデオ、オーディオなどの情報をリアルタイムで収集することができ、クライアントは、収集されたビデオ、オーディオなどの情報を実行主体にリアルタイムで送信することができる。ここで、実行主体は、クライアントにサポートを提供するバックエンドサーバであってもよい。このように、バックエンドサーバはユーザのビデオ、オーディオなどの情報をリアルタイムで処理することができる。
ステップ202、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定する。
本実施例では、実行主体は、ステップ201で受信したビデオおよびオーディオに対して様々な分析処理を実行して、ユーザの意図カテゴリを決定することができる。一例として、実行主体は、ビデオ内のビデオフレームに対して顔認識、表情認識、ジェスチャ認識、姿勢認識などを実行することにより、ユーザの身元、表情、ジェスチャ、姿勢などのユーザ特徴情報を取得することができる。実行主体は、上記オーディオに対して音声認識を実行し、オーディオに対応するテキスト情報を取得することもできる。その後、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して意味解析などを実行して、ユーザの意図カテゴリを決定することができる。ここで、意図カテゴリは、クライアントを介してビデオおよびオーディオを送信するユーザの意図を示すためのカテゴリであってもよい。
実際には、意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定されてもよい。一例として、クライアントに適用されるサービスシナリオが金融(例えば、銀行)シナリオであると仮定すると、事前に設定された意図カテゴリは、個人情報の更新、サービス問い合わせ、サービス処理などを含むことができる。このように、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して様々な意味解析(例えば、単語の分割、品詞のタグ付け、名前付きエンティティの認識など)を実行して、ユーザの意図カテゴリを決定することができる。一例として、実行主体は、ユーザ特徴情報、およびオーディオに対応するテキスト情報に対して単語の分割を実行して、少なくとも1つの単語セグメントを取得することができる。その後、少なくとも1つの単語セグメントを事前に確立された意図分類モデルに入力して、ユーザの意図カテゴリを取得することができる。ここで、意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用され、上記意図分類モデルは、機械学習方法に基づいて取得することができる。
ステップ203、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成する。
本実施形態では、実行主体は、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成することができる。ここで、サービス情報セットは、クライアントに適用されるサービスシナリオに関連する様々なサービス情報を記憶するために使用される。一例として、クライアントに適用されるサービスシナリオが銀行シナリオであり、ユーザの意図カテゴリがサービス問い合わせであると仮定すると、実行主体は、サービス情報セットからユーザが問い合わせるサービスの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成することができる。例えば、取得された関連情報をフィードバック情報として直接設定することができる。また例えば、事前に設定された音声テンプレートに基づいて、取得された関連情報を用いてフィードバック情報を生成することができる。
ステップ204、フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する。
本実施例では、実行主体は、ステップ203で生成されたフィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成することができる。具体的には、実行主体は、最初にTTS(Text To Speech、テキストから音声へ)を介してフィードバック情報を返信オーディオに変換することができる。実際のニーズに応じて、返信オーディオは、中国語、英語、日本語、韓国語、タイ語などの様々な言語の返信オーディオにすることができる。通常、返信オーディオの言語はユーザのオーディオと同じ言語である。一例として、フィードバック情報を返信オーディオに変換する際、実行主体は、ユーザ特徴情報に基づいて、音調、話速、音色など、変換される返信オーディオの特定の特徴を設定することができる。ここで、ユーザ特徴情報と返信オーディオの特徴との対応関係が実行主体に事前に記憶されてもよく、例えば、若いユーザに対して、返信オーディオの話速が低く設定されてもよい。その後、実行主体は、返信オーディオに基づいて三次元仮想ポートレートのビデオを生成することができる。ここで、三次元仮想ポートレートは、UE4(Unreal Engine 4、アンリアルエンジン4)、Maya、Unity3Dなどを含むがこれらに限定されない、アニメーションエンジンを介して開発することができる。
ステップ205、クライアントがユーザに表示するように、三次元仮想ポートレートのビデオをクライアントに送信する。
本実施形態では、実行主体は、クライアントがユーザに表示するように、ステップ204で生成された三次元仮想ポートレートのビデオをクライアントに送信することができる。これにより、ユーザと三次元仮想ポートレートとの対話が実現される。
本実施例のいくつかの代替的な実施形態では、情報を生成する上記方法は、図2に示されていない以下のステップをさらに含むことができる。
まず、三次元仮想ポートレートのカスタムリクエストを受信する。
本実施形態では、実行主体は、三次元仮想ポートレートの外観を決定するための情報を含むことができる三次元仮想ポートレートのカスタムリクエストを受信することもできる。一例として、カスタムリクエストに含まれる、三次元仮想ポートレートの外観を決定するための情報は、実在の人物に基づいて取得された情報であってもよい。例えば、三次元仮想ポートレートの外観を決定するための情報は、特別な装置(例えば、ヘルメット)を装着した実在の人物、特別な装置の画像収集装置(例えば、カメラ)、センサなどによって収集することができる。実行主体は、実在の人物によって収集された情報を用いて、実在の人物の効果を有する三次元仮想ポートレートを生成することができる。別の例として、カスタムリクエストに含まれる、三次元仮想ポートレートの外観を決定するための情報は、漫画画像設計データであってもよい。実行主体は、漫画画像設計データに基づいて、漫画効果を有する三次元仮想ポートレートを生成することができる。
次に、カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定する。
本実施形態では、実行主体は、カスタムリクエストにおける、三次元仮想ポートレートの外観を決定するための情報に基づいて、三次元仮想ポートレートの外観を決定することができる。一例として、三次元仮想ポートレートは、全身または半身であってもよく、本明細書に限定されない。本実施形態によれば、実行主体は、カスタムリクエストに基づいて、三次元仮想ポートレートを生成することができるため、三次元仮想ポートレートの画像カスタマイズを実現することができる。
さらに図3を参照すると、図3は、本実施例に係る、情報を生成する方法の銀行アプリケーションシナリオの概略図である。図3のアプリケーションシナリオでは、ユーザはまず、クライアント301を介して「理財商品を知りたい」というユーザのビデオおよびオーディオをサーバ302に送信する。次に、サーバ302は、受信したビデオおよびオーディオを分析し、ユーザの意図カテゴリが理財商品向けのサービス問い合わせであると判定する。次に、サーバ302は、ユーザの意図カテゴリおよびサービス情報セットに基づいて、複数の理財商品の情報を含むフィードバック情報を生成する。次に、サーバ302は、フィードバック情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成する。最後に、サーバ302は、クライアント301がユーザに表示するように、生成された三次元仮想ポートレートのビデオをクライアント301に送信する。
本開示の上記実施例によって提供される方法は、ユーザのビデオおよびオーディオを包括的に分析して、ユーザの意図カテゴリを決定し、意図カテゴリおよびサービス情報セットに基づいてフィードバック情報を生成し、フィードバック情報に基づいて三次元仮想ポートレートのビデオを生成し、それにより、ユーザの意図カテゴリを満たす三次元仮想ポートレートのビデオをクライアントにフィードバックし、ユーザと三次元仮想ポートレートとのライブインタラクションの精度を向上させ、三次元仮想ポートレートの擬人化を改善し、ユーザエクスペリエンスを向上させることができる。
さらに図4を参照すると、図4は、情報を生成する方法の別の実施例のプロセス400を示している。情報を生成する方法のプロセス400は、以下のステップを含む。
ステップ401、クライアントから送信されたユーザのビデオおよびオーディオを受信する。
本実施例では、ステップ401は、図2に示す実施例のステップ201と同様であるため、ここではその説明を省略する。
ステップ402、ビデオおよびオーディオを分析し、ユーザの意図カテゴリを決定する。
本実施例では、ステップ402は、図2に示す実施例のステップ202と同様であるため、ここではその説明を省略する。
ステップ403、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成する。
本実施例では、実行主体は、ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成することができる。ここで、サービス情報セットは、クライアントに適用されるサービスシナリオに関連する様々なサービス情報を記憶するために使用され、上記フィードバック情報は、テキストフィードバック情報であってもよい。
ステップ404、テキストフィードバック情報に基づいて、音声フィードバック情報を生成する。
本実施例では、実行主体は、ステップ403で生成されたテキストフィードバック情報に基づいて、音声フィードバック情報を生成することができる。具体的には、実行主体は、TTS(Text To Speech、テキストから音声へ)を介してテキストフィードバック情報を音声フィードバック情報に変換することができる。
本実施例のいくつかの代替的な実施形態では、上記ステップ404は、具体的には、テキストフィードバック情報を事前に確立された音声生成モデルに入力して、音声フィードバック情報を生成することにより、実行することができる。
本実施例では、実行主体は、テキストフィードバック情報を事前に確立された音声生成モデルに入力して、音声フィードバック情報を取得することができる。ここで、上記音声生成モデルは、テキストと音声との対応関係を特徴付けるために使用でき、上記音声生成モデルは、実在の人物の音声に基づいてトレーニングして得られる。一例として、上記音声生成モデルは、機械学習モデルであってもよい。この機械学習モデルは、そのトレーニングサンプルがサンプルテキストおよびサンプルテキストに対応する実在の人物の音声を含む、トレーニングサンプルセットを取得し、トレーニングサンプルセット内のトレーニングサンプルのサンプルテキストを入力とし、入力されたサンプルテキストに対応する実在の人物の音声を所望の出力とし、トレーニングして取得することができる。
ステップ405、テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する。
本実施例では、実行主体は、ステップ403で生成されたテキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得することができる。ここで、ターゲット表情情報は、音声フィードバック情報が再生ステップ404で取得されるときに、三次元仮想ポートレートの表情を制御するために使用できる。ターゲット口形情報は、音声フィードバック情報が再生ステップ404で取得されるときに、三次元仮想ポートレートの口形を制御するために使用できる。ターゲット動作情報は、音声フィードバック情報が再生ステップ404で取得されるときに、三次元仮想ポートレートの姿勢、動作などを制御するために使用できる。
本実施例のいくつかの代替的な実施形態では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含むことができる。ここで、表情情報セットは、事前に設定された様々な表情の表情情報を含むことができる。口形情報セットは、様々な口形の変化に対応する、事前に設定された口形情報を含むことができる。動作情報セットは、様々な姿勢および動作の変化に対応する、事前に設定された動作情報を含むことができる。上記ステップ405は、具体的には次のように実行することができる。
まず、テキストフィードバック情報に基づいて、表情情報セットから、ターゲット表情情報を決定する。
本実施形態では、複数のテキストと表情情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報を、複数の対応関係における複数のテキストとマッチングすることができる。複数のテキストのうちの1つがテキストフィードバック情報と同じであるか、またはそれに類似している場合、このテキストに対応する表情情報をターゲット表情情報として設定する。
次に、テキストフィードバック情報に基づいて、口形情報セットから、ターゲット口形情報を決定する。
本実施形態では、複数のテキストと口形情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報に基づいて、口形情報セットから、ターゲット口形情報を決定することができる。
次に、テキストフィードバック情報に基づいて、動作情報セットから、ターゲット動作情報を決定する。
本実施形態では、複数のテキストと動作情報との対応関係が実行主体に事前に記憶されてもよい。これらの対応関係が手動で設定されてもよい。このように、実行主体は、テキストフィードバック情報に基づいて、動作情報セットから、ターゲット動作情報を決定することができる。
最後に、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定する。
本実施形態では、実行主体は、決定されたターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定することができる。
ステップ406、音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成する。
本実施形態では、実行主体は、音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をアニメーションエンジンに送信することができる。アニメーションエンジンは、受信された音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、三次元仮想ポートレートのビデオをレンダリングし、レンダリングされたビデオを実行主体にフィードバックすることができる。ここで、アニメーションエンジンによってレンダリングされた三次元仮想ポートレートのビデオは、音声フィードバック情報を含むビデオである。
ステップ407、クライアントがユーザに表示するように、三次元仮想ポートレートのビデオをクライアントに送信する。
本実施例では、ステップ407は、図2に示す実施例のステップ205と同様であるため、ここではその説明を省略する。
図4から分かるように、本実施例における、情報を生成する方法のプロセス400は、図2に対応する実施例と比べて、テキストフィードバック情報に基づいて所定のポートレート情報セットからターゲットポートレート情報を取得するステップを強調している。従って、本実施例に記載の解決手段は、テキストフィードバック情報に基づいて、三次元仮想ポートレートを生成するためのターゲットポートレート情報を迅速に取得することができるため、三次元仮想ポートレートのビデオの生成効率を向上させ、さらにクライアントとサーバとの対話のリアルタイム性を向上させる。
さらに図5を参照すると、上記各図に示された方法の実施形態として、本開示は、図2に示す方法の実施例に対応する、情報を生成する装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。
図5に示すように、本実施例における、情報を生成する装置500は、クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニット501と、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するように構成された分析ユニット502と、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するように構成された第一生成ユニット503と、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニット504と、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するように構成された送信ユニット505と、を含む。
本実施例では、情報を生成する装置500の受信ユニット501、分析ユニット502、第一生成ユニット503、第二生成ユニット504および送信ユニット505の具体的な処理とその技術的効果は、それぞれ図2に対応する実施例のステップ201、ステップ202、ステップ203、ステップ204およびステップ205の関連説明を参照することができるため、ここではその説明を省略する。
本実施例のいくつかの代替的な実施形態では、上記フィードバック情報は、テキストフィードバック情報である。上記第二生成ユニット504は、上記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニット(図示せず)と、上記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニット(図示せず)と、上記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニット(図示せず)と、を含む。
本実施例のいくつかの代替的な実施形態では、上記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含む。上記取得ユニットは、上記テキストフィードバック情報に基づいて、上記表情情報セットから、ターゲット表情情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記口形情報セットから、ターゲット口形情報を決定するステップと、上記テキストフィードバック情報に基づいて、上記動作情報セットから、ターゲット動作情報を決定するステップと、上記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するステップと、を実行するようにさらに構成されている。
本実施例のいくつかの代替的な実施形態では、上記音声生成ユニットは、上記テキストフィードバック情報を実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を実行するようにさらに構成されている。
本実施例のいくつかの代替的な実施形態では、上記装置500は、三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニット(図示せず)と、上記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニット(図示せず)と、をさらに含む。
さらに図6を参照すると、図6は、本開示の実施例を実施するのに適した電子機器(例えば、図1のサーバ)600の構造概略図を示している。図6に示すサーバは、単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきではない。
図6に示すように、電子機器600は、リードオンリメモリ(ROM)602に記憶されたプログラム、または記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って、各種の適切な動作および処理を実行することができる、処理装置(例えば、中央処理装置、グラフィックプロセッサなど)601を含むことができる。RAM603には、電子機器600の動作に必要な各種のプログラムやデータも記憶されている。処理装置601、ROM602、およびRAM603は、バス604を介して相互に接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置606と、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置607と、磁気テープ、ハードディスクなどを含む記憶装置608と、通信装置609とは、I/Oインターフェース605に接続できる。通信装置609は、電子機器600がデータを交換するために他の機器と無線または有線で通信することを可能にすることができる。図6は、様々な装置を有する電子機器600を示しているが、示された装置のすべてを実装または具備する必要はないことが理解される。より多いまたはより少ない装置は、代替的に実装または具備されてもよい。図6に示す各ブロックは、1つの装置を表すことができるし、必要に応じて複数の装置を表すことができる。
特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で搬送されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置609を介してネットワークからダウンロードしてインストールされてもよいし、記憶装置608からインストールされてもよいし、ROM602からインストールされてもよい。このコンピュータプログラムが処理装置601によって実行されると、本開示の実施例の方法において限定された上記機能が実行される。
なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。例えば、コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよいし、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD-ROM)、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、命令実行システム、装置、または機器によって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを搬送するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、命令実行システム、装置、または機器によって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、この電子機器に組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搬送するものであり、上記1つまたは複数のプログラムがこの電子機器によって実行されるとき、この電子機器は、クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、上記ビデオおよびオーディオを分析し、上記ユーザの意図カテゴリを決定するステップと、上記ユーザの意図カテゴリおよび所定のサービス情報セットに基づいて、フィードバック情報を生成するステップと、上記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、上記クライアントが上記ユーザに表示するように、上記三次元仮想ポートレートのビデオを上記クライアントに送信するステップと、を実行する。
本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される)。
図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための1つまたは複数の実行可能命令を含む、モジュール、プログラムセグメント、またはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示されている機能は、図面に示されているものとは異なる順序で発生し得る。例えば、連続して示される2つのブロックは、実際には実質的に並行して実行されてもよいし、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャートの各ブロックと、ブロック図および/またはフローチャートのブロックの組み合わせとは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実現されてもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。
本開示の実施例に記載のユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。上記ユニットは、例えば、受信ユニット、分析ユニット、第一生成ユニット、第二生成ユニット、および送信ユニットを含むプロセッサとして説明されるプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、受信ユニットは、「クライアントから送信されたユーザのビデオおよびオーディオを受信するユニット」として説明されてもよい。
以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解される。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示される(これらに限定されない)、同様の機能を有する技術的特徴と、を置き換えることによって形成される技術的解決手段であってもよい。

Claims (13)

  1. クライアントから送信されたユーザのビデオおよびオーディオを受信するステップと、
    前記ビデオを認識してユーザ特徴情報を得るとともに、前記オーディオを認識して当該オーディオの対応するテキスト情報を得、得られたユーザ特徴情報及びテキスト情報に対して、単語の分割を実行して、少なくとも1つの単語セグメントを得、得られた前記少なくとも1つの単語セグメントを事前に確立された意図分類モデルに入力することにより、前記ユーザの意図カテゴリを決定するステップであって、前記意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定された複数の意図カテゴリに含まれ、前記ユーザ特徴情報は、前記ユーザの身元、表情、ジェスチャ、姿勢のうちの少なくとも1つを示すテキスト情報であり、前記意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用される、ステップと、
    前記決定されたユーザの意図カテゴリにより、クライアントが適用されるサービスシナリオに関連する複数のサービス情報を含む所定のサービス情報セットから、当該意図カテゴリの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成するステップと、
    前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するステップと、
    前記クライアントが前記ユーザに表示するように、前記三次元仮想ポートレートのビデオを前記クライアントに送信するステップと、を含む、
    情報を生成する方法。
  2. 前記フィードバック情報は、テキストフィードバック情報であり、
    前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成する前記ステップは、
    前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するステップと、
    前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するステップと、
    前記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するステップと、を含む、
    請求項1に記載の方法。
  3. 前記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含み、
    前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲットポートレート情報を取得する前記ステップは、
    前記テキストフィードバック情報に基づいて、前記表情情報セットから、ターゲット表情情報を決定するステップと、
    前記テキストフィードバック情報に基づいて、前記口形情報セットから、ターゲット口形情報を決定するステップと、
    前記テキストフィードバック情報に基づいて、前記動作情報セットから、ターゲット動作情報を決定するステップと、
    前記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定するステップと、を含む、
    請求項2に記載の方法。
  4. 前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成する前記ステップは、
    前記テキストフィードバック情報をテキストと音声との対応関係を特徴付けるために使用される、実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するステップと、を含む、
    請求項2に記載の方法。
  5. 前記方法は、
    三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するステップと、
    前記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するステップと、をさらに含む、
    請求項1に記載の方法。
  6. クライアントから送信されたユーザのビデオおよびオーディオを受信するように構成された受信ユニットと、
    前記ビデオを認識してユーザ特徴情報を得るとともに、前記オーディオを認識して当該オーディオの対応するテキスト情報を得、得られたユーザ特徴情報及びテキスト情報に対して、単語の分割を実行して、少なくとも1つの単語セグメントを得、得られた前記少なくとも1つの単語セグメントを事前に確立された意図分類モデルに入力することにより、前記ユーザの意図カテゴリを決定するように構成された分析ユニットであって、前記意図カテゴリは、クライアントに適用されるサービスシナリオに基づいて事前に設定された複数の意図カテゴリに含まれ、前記ユーザ特徴情報は、前記ユーザの身元、表情、ジェスチャ、姿勢のうちの少なくとも1つを示すテキスト情報であり、前記意図分類モデルは、単語セグメントセットと意図カテゴリとの対応関係を示すために使用される、分析ユニットと、
    前記決定されたユーザの意図カテゴリにより、クライアントが適用されるサービスシナリオに関連する複数のサービス情報を含む所定のサービス情報セットから、当該意図カテゴリの関連情報を取得し、取得された関連情報に基づいてフィードバック情報を生成するように構成された第一生成ユニットと、
    前記フィードバック情報に基づいて、アニメーションエンジンを介して、事前に確立された三次元仮想ポートレートのビデオを生成するように構成された第二生成ユニットと、
    前記クライアントが前記ユーザに表示するように、前記三次元仮想ポートレートのビデオを前記クライアントに送信するように構成された送信ユニットと、を含む、
    情報を生成する装置。
  7. 前記フィードバック情報は、テキストフィードバック情報であり、
    前記第二生成ユニットは、
    前記テキストフィードバック情報に基づいて、音声フィードバック情報を生成するように構成された音声生成ユニットと、
    前記テキストフィードバック情報に基づいて、所定のポートレート情報セットから、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報を含むターゲットポートレート情報を取得するように構成された取得ユニットと、
    前記音声フィードバック情報、ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報に基づいて、アニメーションエンジンを介して三次元仮想ポートレートのビデオを生成するように構成されたビデオ生成ユニットと、を含む、
    請求項6に記載の装置。
  8. 前記ポートレート情報セットは、表情情報セット、口形情報セット、および動作情報セットを含み、
    前記取得ユニットは、さらに、
    前記テキストフィードバック情報に基づいて、前記表情情報セットから、ターゲット表情情報を決定し、
    前記テキストフィードバック情報に基づいて、前記口形情報セットから、ターゲット口形情報を決定し、
    前記テキストフィードバック情報に基づいて、前記動作情報セットから、ターゲット動作情報を決定し、
    前記ターゲット表情情報、ターゲット口形情報、およびターゲット動作情報をターゲットポートレート情報として設定する
    ように構成されている、請求項7に記載の装置。
  9. 前記音声生成ユニットは、さらに
    前記テキストフィードバック情報をテキストと音声との対応関係を特徴付けるために使用される、実在の人物の音声に基づいてトレーニングして得られた、事前に確立された音声生成モデルに入力し、音声フィードバック情報を生成するように構成されている、請求項7に記載の装置。
  10. 前記装置は、
    三次元仮想ポートレートの外観を決定するための情報を含む三次元仮想ポートレートのカスタムリクエストを受信するように構成されたリクエスト受信ユニットと、
    前記カスタムリクエストに基づいて、三次元仮想ポートレートの外観を決定するように構成された決定ユニットと、をさらに含む、
    請求項6に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶した記憶装置と、を含み、
    前記1つまたは複数のプログラムは、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~5のいずれか一項に記載の方法を実行させる、サーバ。
  12. コンピュータプログラムを記憶したコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法を実行させるコンピュータ可読媒体。
  13. コンピュータプログラムであって、
    プロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2019227932A 2019-06-28 2019-12-18 情報を生成する方法および装置 Active JP7104683B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573150.4A CN110298906B (zh) 2019-06-28 2019-06-28 用于生成信息的方法和装置
CN201910573150.4 2019-06-28

Publications (2)

Publication Number Publication Date
JP2021010156A JP2021010156A (ja) 2021-01-28
JP7104683B2 true JP7104683B2 (ja) 2022-07-21

Family

ID=68029203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019227932A Active JP7104683B2 (ja) 2019-06-28 2019-12-18 情報を生成する方法および装置

Country Status (4)

Country Link
US (1) US11151765B2 (ja)
JP (1) JP7104683B2 (ja)
KR (2) KR20210001857A (ja)
CN (1) CN110298906B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767220B (zh) * 2019-10-16 2024-05-28 腾讯科技(深圳)有限公司 一种智能语音助手的交互方法、装置、设备及存储介质
CN111063339A (zh) * 2019-11-11 2020-04-24 珠海格力电器股份有限公司 智能交互方法、装置、设备及计算机可读介质
CN112929253B (zh) * 2019-12-05 2023-08-08 北京沃东天骏信息技术有限公司 一种虚拟形象交互方法和装置
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111400441A (zh) * 2020-02-28 2020-07-10 东莞市易联交互信息科技有限责任公司 一种应用于虚拟影院的虚拟交互方法及系统
CN111340920B (zh) * 2020-03-02 2024-04-09 长沙千博信息技术有限公司 一种语义驱动的二维动画自动生成方法
CN111401921B (zh) * 2020-03-05 2023-04-18 成都威爱新经济技术研究院有限公司 一种基于虚拟人的远程客服方法
CN111523981A (zh) * 2020-04-29 2020-08-11 深圳追一科技有限公司 虚拟试用方法、装置、电子设备及存储介质
CN111627440A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种基于三维虚拟人物和语音识别实现交互的学习系统
CN112543342B (zh) 2020-11-26 2023-03-14 腾讯科技(深圳)有限公司 虚拟视频直播处理方法及装置、存储介质、电子设备
CN112906546A (zh) * 2021-02-09 2021-06-04 中国工商银行股份有限公司 虚拟数字人外形、音效以及服务模型的个性化生成方法
CN113822967A (zh) * 2021-02-09 2021-12-21 北京沃东天骏信息技术有限公司 人机交互方法、装置、系统、电子设备以及计算机介质
CN112925898B (zh) * 2021-04-13 2023-07-18 平安科技(深圳)有限公司 基于人工智能的问答方法、装置、服务器及存储介质
CN113194350B (zh) * 2021-04-30 2022-08-19 百度在线网络技术(北京)有限公司 推送待播报数据、播报数据的方法和装置
CN114221940B (zh) * 2021-12-13 2023-12-29 北京百度网讯科技有限公司 音频数据处理方法、系统、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248841A (ja) 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2011237795A (ja) 2010-05-07 2011-11-24 Toshiba Corp 音声処理方法及び装置
JP2013243646A (ja) 2012-05-22 2013-12-05 Commonwealth Scientific & Industrial Research Organization ビデオを生成するためのシステムおよび方法
WO2017085992A1 (ja) 2015-11-17 2017-05-26 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US20190095775A1 (en) 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102196300A (zh) * 2010-03-18 2011-09-21 国际商业机器公司 虚拟世界场景的图像的提供方法和设备及处理方法和设备
US10824310B2 (en) * 2012-12-20 2020-11-03 Sri International Augmented reality virtual personal assistant for external representation
KR102616172B1 (ko) * 2016-08-12 2023-12-19 주식회사 케이티 캐릭터 제공 시스템 및 이를 이용한 정보 수집 방법
US20180350155A1 (en) * 2017-05-31 2018-12-06 L'oreal System for manipulating a 3d simulation of a person by adjusting physical characteristics
KR102078627B1 (ko) * 2017-11-14 2020-02-19 네이버 주식회사 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248841A (ja) 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2011237795A (ja) 2010-05-07 2011-11-24 Toshiba Corp 音声処理方法及び装置
JP2013243646A (ja) 2012-05-22 2013-12-05 Commonwealth Scientific & Industrial Research Organization ビデオを生成するためのシステムおよび方法
WO2017085992A1 (ja) 2015-11-17 2017-05-26 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US20190095775A1 (en) 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human

Also Published As

Publication number Publication date
KR20220002820A (ko) 2022-01-07
US20200410732A1 (en) 2020-12-31
US11151765B2 (en) 2021-10-19
CN110298906A (zh) 2019-10-01
CN110298906B (zh) 2023-08-11
JP2021010156A (ja) 2021-01-28
KR102471202B1 (ko) 2022-11-25
KR20210001857A (ko) 2021-01-06

Similar Documents

Publication Publication Date Title
JP7104683B2 (ja) 情報を生成する方法および装置
US11158102B2 (en) Method and apparatus for processing information
KR102346046B1 (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN111476871B (zh) 用于生成视频的方法和装置
US20210201550A1 (en) Method, apparatus, device and storage medium for animation interaction
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
CN111813910B (zh) 客服问题的更新方法、系统、终端设备及计算机存储介质
JP6971292B2 (ja) 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
WO2020211573A1 (zh) 用于处理图像的方法和装置
JP6949931B2 (ja) 情報を生成するための方法および装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN117951723A (zh) 任务数据的构建方法及装置、计算设备、可读存储介质
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN117632109A (zh) 虚拟数字助手构建方法、装置、电子设备以及存储介质
JP2023551169A (ja) 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること
CN118212935A (zh) 信息处理方法、装置和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200403

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220708

R150 Certificate of patent or registration of utility model

Ref document number: 7104683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150