JP2022531855A - テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム - Google Patents

テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム Download PDF

Info

Publication number
JP2022531855A
JP2022531855A JP2021564427A JP2021564427A JP2022531855A JP 2022531855 A JP2022531855 A JP 2022531855A JP 2021564427 A JP2021564427 A JP 2021564427A JP 2021564427 A JP2021564427 A JP 2021564427A JP 2022531855 A JP2022531855 A JP 2022531855A
Authority
JP
Japan
Prior art keywords
action
text
network
coded
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021564427A
Other languages
English (en)
Other versions
JP7210774B2 (ja
Inventor
シエ,ジン
リ,ピジ
ドアン,ホォン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022531855A publication Critical patent/JP2022531855A/ja
Application granted granted Critical
Publication of JP7210774B2 publication Critical patent/JP7210774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本開示は、テキストに基づくアバターの行動制御方法、デバイス及び媒体を開示する。前記方法は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップと、前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップと、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む。

Description

[関連出願の相互参照]
本出願は、2019年9月23日に「テキストに基づくアバターの行動制御方法、デバイス及び媒体」との発明の名称で中国特許庁に提出された中国特許出願第201910898521.6号の優先権を主張し、その全ての内容は参照により本出願に援用される。
[技術分野]
本開示は、人工知能の技術分野に関し、より具体的には、テキストに基づくアバターの行動制御方法、デバイス及び媒体に関する。
人工知能(Artificial Intelligence、AI)の様々な方向での様々な機能の開発に伴い、実際の場面では、もはや単一のAI機能だけの適用に満足できなくなっている。このため、AIの包括的な機能を発揮する適用場面への検討も進められている。近年、AIの包括的な機能の表現形式として、アバターが大きな話題を呼んでいる。アバターとは、コンピュータ技術を用いて人体構造をデジタル化することにより、コンピュータの画面に表示される可視的で制御可能なアバター形態を指す。アバターは、実在の人に基づくキャラクターであってもよく、漫画のキャラクターに基づくキャラクターであってもよい。学界及び産業界の両方で、様々な方法を使用して、人々にサービスや娯楽を24時間提供することができるアバターを作る試みが行われている。
本出願の実施形態は、実在の人によって駆動されることなく、テキストに適応し、かつ実在の人に似た表情や動作をするようにアバターを制御することが可能なテキストに基づくアバターの行動制御方法、デバイス及び媒体を提供する。
本開示の一態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものである、ステップと、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、ステップと、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含むテキストに基づくアバターの行動制御方法を提供する。
本開示の別の態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、ベクトル化装置と、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、行動トリガー位置決定装置と、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイスを提供する。
また、本開示によるデバイスにおいて、前記行動トリガー位置決定装置は、さらに、前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。
また、本開示によるデバイスにおいて、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。前記行動内容決定装置は、さらに、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力する処理と、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。
また、本開示によるデバイスにおいて、前記特定の行動マッピングは、行動マッピングテーブルを含み、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理は、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定する処理をさらに含む。
また、本開示によるデバイスにおいて、前記特定の行動マッピングは、前記アバターの適用場面によって異なる。
また、本開示によるデバイスにおいて、前記第1の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。
また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。
また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する処理と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する処理と、前記第2の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定する処理とを実行するように配置される。前記行動内容決定装置は、さらに、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行することによって、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するように配置される。
また、本開示によるデバイスにおいて、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含む。
また、本開示によるデバイスにおいて、前記行動内容が動作内容及び表情内容の両方を含む場合、前記第1の符号化ネットワークは、第3の符号化サブネットワークと第4の符号化サブネットワークとを含む。前記行動トリガー位置決定装置は、さらに、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定する処理と、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定する処理とを実行するように配置される。
また、本開示によるデバイスにおいて、前記行動提示装置は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置される。
また、本開示によるデバイスにおいて、前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも1つを含む。
本開示のまた別の態様によると、
プロセッサと、
前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータデバイスを開示する。
本開示のさらに別の態様によると、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータ読み取り可能な記憶媒体を開示する。
本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスを示すフローチャートである。 本出願のいくつかの実施形態に記載される第1の符号化ネットワークの内部構造の模式図である。 本出願のいくつかの実施形態におけるアテンションメカニズムの模式図である。 本出願のいくつかの実施形態における第1の符号化ネットワーク及び第1の分類ネットワークの入出力を示す模式図である。 図1におけるS103の具体的なプロセスを示すフローチャートである。 本開示の一実施形態によるアバターの行動制御を示す製品フローチャートである。 本出願のいくつかの実施形態における表情マッピングテーブルの一例を示す。 本開示の一実施形態による行動生成プロセスを示す模式図である。 本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスの構成を示す機能ブロック図である。 本開示の一実施形態による例示的なコンピューティングデバイスのアーキテクチャを示す模式図である。
以下、添付の図面を参照して本出願の各実施形態について説明する。添付の図面を参照した以下の説明は、特許請求の範囲及びその等価物によって限定される本出願の例示的な実施形態を理解しやすくするために提供され、理解に役立つ様々な詳細を含むが、あくまでも例示的なものと考えられる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載される実施形態に対して様々な変更及び修正を行うことができることを認識するであろう。さらに、本明細書をより明確かつ簡潔にするために、当技術分野でよく知られている機能や構成の詳細な説明を省略する。
人工知能(Artificial Intelligence、AI)とは、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して、人間の知能のシミュレーション、延長、及び拡張を行い、環境を感知し、知識を獲得して利用し、最適な結果を得るための理論、方法、技術、及び応用システムのことである。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術、機械学習/深層学習などの幾つかの分野が含まれる。
機械学習(Machine Learning、ML)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な学問に関わる学際的な学問である。新しい知識やスキルを身につけ、既存の知識構造を再編成して自身の性能を継続的に向上させるために、コンピュータがどのように人間の学習行動をシミュレート又は実現するかを専門に研究している。機械学習は、人工知能の中核をなすものとして、コンピュータを知能化するための基本的な方法であり、人工知能のあらゆる分野に応用できる。機械学習及び深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術が含まれる。
本出願の実施形態により提供される技術方案は、人工知能の機械学習などの技術に関わる。具体的には、以下の実施形態によって説明する。
通常、アバターを作るための技術方案は、主に2つの方法に大別される。1つ目の方法としては、実在の人による駆動方法である。具体的には、モーションキャプチャデバイスを介して、実際の俳優の体及び表情のデータをキャプチャし、そして、該データを使用してこれらの動作や表情を提示するように3D又は2Dアバターを駆動する方法である。2つ目の方法としては、データによる駆動方法である。具体的には、入力されたテキスト内容をTTS(Text To Speech、テキストツースピーチ)によってアバターに読み上げさせる方法である。しかし、アバターは何の表情も動作も提示しないため、ニュースアナウンスなど、表情や動作をほとんど必要としない場面にしか適用できない。
これらのアバターの駆動方法は、人間によって駆動される形跡が明らかであったり、動作や表情などのパーソナライズされた行動要素が回避されていたりして、実在の人によって駆動されずにテキストに基づいて実在の人に似た行動を提示するようにアバターを制御することは困難である。
本開示によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いて、アバターを、対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
図1を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスについて説明する。アバターは、例えば、実在の人を忠実に再現したキャラクターであってもよく、完全に仮想化されたマンガのキャラクターであってもよい。一例として、ニュース放送の適用場面では、アバターは実際のアナウンサーを忠実に再現したキャラクターである。ニュースキャスターとしてのアバターは、テキストに基づいてニュース放送ビデオを短時間で生成できるだけでなく、放送されるニュース内容の「ゼロエラー」を確保することができる。また、場面を問わずに仕事に迅速に取り組み、24時間途切れなく放送でき、メディア業界における効率化に寄与する。別の例として、仮想ゲームの適用場面では、様々なゲームキャラクターとしてのマンガのキャラクターは、テキストに基づいて豊富な行動を提示するとともに、ゲームの解説やチャットサービスなどの役割タスクを24時間途切れなく実行することができる。
図1に示すように、前記方法は電子デバイスによって実行することができ、以下の操作を含む。
S101において、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成する。
ここで、テキストは、通常、1つの文である。いくつかの実施形態では、前記特定のシンボルは、テキストの分類を表すためのCLS(Classification、分類)シンボルであってもよい。ここで、S101において挿入される特定のシンボルは、CLSシンボルに対応するオリジナルベクトルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。
特定のシンボルを挿入した後、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。
S102において、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。
図2は、本出願のいくつかの実施形態に記載される第1の符号化ネットワークの内部構造の模式図を示す。前記第1の符号化ネットワークの入力は、S101で取得した各文字/単語/特定のシンボルのオリジナルベクトルであり、前記第1の符号化ネットワークの出力は、各文字/単語/特定のシンボルが全文のセマンティクス情報と統合されたベクトル表現である。例えば、第1の層にある1番目のネットワークノードの場合、該ネットワークノードに対応する第1の要素の入力ベクトルとそのコンテキストにおける各要素の入力ベクトルとの加重和を該ネットワークノードの符号化ベクトルとして計算する。また、該符号化ベクトルを入力として第2の層にある1番目のネットワークノードから最後の層にある1番目のネットワークノードまで提供し、全文のセマンティクス情報を統合した最終的な第1の符号化出力を取得する。図2では、前記第1の符号化ネットワークは多層のネットワークノードを含む。もちろん、本開示では、これに限定されない。前記第1の符号化ネットワークはネットワークノードを1層のみ含んでいてもよい。
例えば、1つの可能な実施形態としては、前記第1の符号化ネットワークは、BERT(Bidirectional Encoder Representations from Transformer、トランスフォーマーによる双方向のエンコード表現)モデルによって実現することができる。BERTモデルは、大規模なラベルなしコーパスを用いてトレーニングを行い、豊富なセマンティクス情報を含むテキストのセマンティクス表現(Representation)を取得した後、特定の自然言語処理(Natural Language Processing、NLP)においてテキストのセマンティクス表現をファインチューニングし、最終的に該NLPタスクに適用するために使用される。
したがって、BERTモデルの入力は、S101で取得したテキストにおける各文字/単語のオリジナル単語ベクトルであり、BERTモデルの出力は、テキストにおける各文字/単語が全文のセマンティクス情報と統合されたベクトル表現である。
BERTモデルは、アテンション(attention)メカニズムに基づくモデルである。アテンションメカニズムの主な機能は、ニューラルネットワークが「アテンション」を入力の一部に集中できるようにする、つまり、入力の異なる部分が出力に与える影響を区別することである。ここで、アテンションメカニズムは、文字/単語のセマンティクス表現を強化する観点から理解される。
文中の文字/単語の意味は、通常、そのコンテキストに関連する。例えば、「鵠」という文字は、一見して理解できないが、「鴻鵠の志」というコンテキストを見ると、すぐに理解できるようになる。したがって、文字/単語に関するコンテキスト情報は、該文字/単語のセマンティクス表現の強化に役立つ。また、コンテキスト中の異なる文字/単語は、セマンティクス表現を強化する上で異なる役割を果たす傾向がある。例えば、上記の例では、「鴻」という文字は「鵠」への理解に最も有用であるが、「の」という文字は比較的に理解に有用ではない。コンテキスト中の文字/単語情報を区別して使用することで対象とする文字/単語のセマンティクス表現を強化するには、アテンションメカニズムを使用することができる。
図3は、本出願のいくつかの実施形態におけるアテンションメカニズムの模式図を示す。図3では、入力の第1の要素(文字、単語、又は特定のシンボル)を例として、アテンションメカニズムの計算プロセスについて説明する。
図3に示すように、入力の第1の要素を対象要素とし、第1の要素に対応する第1の層の符号化ネットワークにおける1番目のネットワークノードを対象ネットワークノードとする。アテンションメカニズムは、対象要素とコンテキストにおける各要素のセマンティクスベクトル表現とを入力とし、まず特定の行列変換によって対象要素のQueryベクトルと、コンテキストにおける各要素のKeyベクトルと、対象要素及びコンテキストにおける各要素のオリジナルなValueとを取得する。具体的には、対象要素について、トレーニング後の変換行列Wに基づいてQueryベクトルを作成し、対象要素及びコンテキストにおける各要素について、トレーニング後の変換行列WK及びWVに基づいてKeyベクトル及びValueベクトルをそれぞれ作成する。例えば、これらのベクトルは、入力ベクトルと3つのトレーニング後の変換行列WQ、WK、WVとを乗算することによって得られる。第1の符号化ネットワークに提供される入力をX=(x1、x2、・・・、xn)(ただし、第1の要素のベクトルがx1である)とすると、x1に対応するQueryベクトルqと、コンテキストにおける各要素のKeyベクトルkと、対象要素及びコンテキストにおける各要素のオリジナルなValueベクトルvとは、下記の式で算出できる。
Figure 2022531855000002
ここで、iは1~nの整数である。
次に、Queryベクトル及びKeyベクトルに基づいて、第1の層の符号化ネットワークにおける1番目のネットワークノード(すなわち、対象ネットワークノード)のアテンションベクトル
Figure 2022531855000003
を計算する。ここで、対象ネットワークノードのアテンションベクトルA における各要素は、対象ネットワークノードからコンテキストにおける各ネットワークノード(つまり、同じ層にある各ネットワークノード)までのアテンション重みをそれぞれ示すものである。例えば、a 1iは、第1の層の符号化ネットワークにおける1番目のネットワークノードから同じ層にあるi番目のネットワークノードまでのアテンション重みを表す。a 1iは、q1にkiを乗じてから、softmax関数で正規化することで得られる。最後に、アテンションベクトルA 及びValueベクトルVに基づいて、対象要素のアテンション出力を得る。例えば、対象ネットワークノードのアテンション出力は、下記の式で算出できる。
Figure 2022531855000004
つまり、対象ネットワークノードに対応するアテンションベクトルを重みとし、前記対象ネットワークノードに入力された対象要素のValueベクトルとコンテキストにおける各要素のValueベクトルとを重み付き統合し、得られた結果を対象ネットワークノードの符号化出力、すなわち、対象要素の強化されたセマンティクスベクトル表現とする。
図3に示すアテンション出力は、図2の第1の層の符号化ネットワークにおける1番目のネットワークノードの符号化出力に対応する。前記第1の符号化ネットワークがネットワークノードを1層のみ有する場合、図3に示すアテンション出力は、入力の第1の要素に対応する最終的な符号化出力である。前記第1の符号化ネットワークが多層のネットワークノードを有する場合、図3に示す第1の層にある1番目のネットワークノードのアテンション出力を入力として第2の層の符号化ネットワークの1番目のネットワークノードに提供して、同様の方法で第2の層の符号化ネットワークの1番目のネットワークノードの符号化出力を得る。続いて、最後の層に至るまで、層ごとに同様の処理を繰り返す。最後の層の符号化ネットワークにおける1番目のネットワークノードの符号化出力は、入力の第1の要素に対応する最終的な符号化出力である。
以上のことから分かるように、前記第1の符号化ネットワークが多層のネットワークノードを有する場合、入力の対象要素は、対象要素に対応するネットワークノードのアテンションベクトルが層ごとに計算される。現在の層では、対象要素に対応するネットワークノードのアテンションベクトルを重みとし、該層に入力されたすべてのベクトルの加重和を求め、得られた加重和を、コンテキストのセマンティクスを統合した現在の層の出力符号化ベクトルとする。次に、現在の層の出力をさらに次の層の入力とし、同じ処理を繰り返す。つまり、第1の符号化ネットワークが計L層あり、対象要素が入力の第1の要素であると仮定した場合、対象要素に対応するL個のアテンションベクトルA 、A 、・・・、A が得られ、前記L個のアテンションベクトルは、それぞれL層の符号化ネットワークに対応する。
続いて、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。
例えば、前記特定のシンボルが前記テキストの前に挿入されると仮定した場合、前記特定のシンボルに対応するネットワークノードは、各層の符号化ネットワークにおける1番目のネットワークノードであり、前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、各層における1番目のネットワークノードのアテンションベクトルを含む。
なお、ここで、行動は、後述するように、動作及び表情のうちの少なくとも1つを含み得る。アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素(文字/単語)に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。
前述のように、BERTモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字/単語情報を用いて対象とする文字/単語のセマンティクス表現を強化する。また、本開示によるBERTモデルにおいて、テキストの分類を表すためのCLS(Classification、分類)シンボルがさらに挿入されている。テキストに含まれている他の文字/単語と比較して、挿入されたCLSシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字/単語のセマンティクス情報をより「公正」に統合することができる。したがって、CLSシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字/単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字/単語の重要性が高くなる。
本開示による方法において、テキストにおける最も重要な文字/単語の位置で、アバターを、対応する行動を提示するように制御することが好適であると考えられる。したがって、テキストにおける最も重要な文字/単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、テキストにおける各文字/単語の重要性を反映できるため、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。
具体的には、第1の符号化ネットワークがネットワークノードを1層のみ有する場合、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。前記特定のシンボルが1番目の入力ベクトルに対応すると仮定した場合、前記特定のシンボルに対応するネットワークノードが1番目のネットワークノードである。そして、1番目のネットワークノードのアテンションベクトルをA =(a 11、a 12、・・・、a 1n)とする場合、行動トリガー位置pは下記の式で算出できる。
Figure 2022531855000005
ここで、該式は、a1iが最大値をとるときのインデックスiがpに割り当てられることを示す。
第1の符号化ネットワークが多層のネットワークノードを有する場合、S102における、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記第1の符号化ネットワークの全ての層における前記特定のシンボルに対応するノードから各ノードまでのアテンションベクトルの平均値を計算し、平均アテンションベクトルを取得するステップと、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップとをさらに含む。
具体的には、前述のように、第1の符号化ネットワークが多層のネットワークノードを有する場合、各層には、前記特定のシンボルに対応する1つのネットワークノードが存在し、また、各層において前記特定のシンボルに対応するネットワークノードのアテンションベクトルが計算される。第1の符号化ネットワークが計L層あると仮定した場合、前記特定のシンボルに対応するL個のネットワークノードのL個のアテンションベクトルA 、A 、・・・、A が取得される。この場合、まずこれらのL個のアテンションベクトルの平均値を求め、平均アテンションベクトルAave を取得する。
Figure 2022531855000006
次に、下記の式により行動トリガー位置を決定する。
Figure 2022531855000007
ここで、該式は、aave 1iが最大値をとるときのインデックスiがpに割り当てられることを示す。
上記では、第1の符号化ネットワークに基づいてアバターの行動トリガー位置を決定する方法について説明した。アバターの行動トリガー位置を決定した後、さらにアバターが提示すべき行動内容も決定する必要がある。
S103において、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する符号化ベクトルに基づいて、前記テキストに対応する行動内容を決定する。
前述のように、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。第1の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルCLSが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字/単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する第1の符号化ベクトルをテキスト全体のセマンティクス表現とする。
図4は、本出願のいくつかの実施形態における第1の符号化ネットワーク及び第1の分類ネットワークの入出力の模式図を示す。さらに、図5は、図1におけるS103の具体的なプロセスを示す。
図5に示すように、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップは、以下の操作をさらに含む。
S501:図4に示すように、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルhCLSを第1の分類ネットワーク(順伝播型ニューラルネットワーク+softmax)に入力する。前記第1の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第1の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、softmax関数により0~1の範囲内の値に正規化することができる。具体的には、前記第1の分類ネットワークの出力
(外1)

Figure 2022531855000008
は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。
テキストシーケンスをX=(x、x、・・・、x)(ここで、xが文Xにおけるi番目の要素(文字/単語)である)とし、CLSシンボルをテキストの前に挿入すると、CLSシンボル及びテキストに対応するベクトルをBERTモデルに入力することにより、CLSシンボルに対応する出力ベクトルを取得できる。
Figure 2022531855000009
S502:前記第1の分類ネットワークの出力
(外2)

Figure 2022531855000010
に基づいて、行動カテゴリを決定する。具体的には、hCLSを入力ベクトルとして第1の分類ネットワークに提供し、第1の分類ネットワークは、テキストが各行動カテゴリに対応する確率値を出力することができる。
Figure 2022531855000011
ここで、Wは第1の分類ネットワークにおけるネットワークノードの重みを表し、bはオフセット定数を表す。
(外3)

Figure 2022531855000012
のうちの最大の確率値に対応するカテゴリiは、テキストが属する行動カテゴリである。図4には、5番目の要素が最大の確率値を有する場合、すなわち、i=5の場合が示されている。
あるいは、別の可能な実施形態として、前記第1の分類ネットワークの出力に基づいて、行動カテゴリを決定するステップは、前記行動予測ベクトルのうちの最大の確率値を決定するステップと、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含んでもよい。
言い換えれば、テキストが属する行動カテゴリを決定するとき、第1の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値
(外4)

Figure 2022531855000013
が所定の閾値よりも小さい場合、第1の分類ネットワークから出力された行動予測結果の信頼度は低いと考えられる。この場合、第1の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値
(外5)

Figure 2022531855000014
が所定の閾値よりも大きい場合、第1の分類ネットワークから出力された行動予測結果の信頼度は高いと考えられる。この場合、第1の分類ネットワークの予測結果を採用する。
S503:少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、前記特定の行動マッピングは、行動マッピングテーブルを含む。予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。具体的には、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む。
前記特定の行動マッピングは、前記アバターの適用場面によって異なる。例えば、ニュースの場面に対応するマッピングテーブルは、誇張された行動内容をトリガーしない。
上記では、第1の符号化ネットワークにテキストを提供し、第1の符号化ネットワークのアテンションメカニズムに基づいて行動トリガー位置を推定するステップについて詳細に説明した。また、第1の符号化ネットワークの出力ベクトルがさらに第1の分類ネットワークに入力され、第1の分類ネットワークからテキストが属する行動カテゴリの予測結果が得られる。例えば、BERTモデルを使用して、前記第1の符号化ネットワークを実現することができる。
上記の第1の符号化ネットワーク及び第1の分類ネットワークはいずれもトレーニングが必要である。
BERTモデルは、通常、特定のNLPタスクに関連しない大規模なテキストコーパスを使用して事前トレーニングを行い、言語自体がどのようなものであるべきかを学習することを目的とするものである。これは、国語や英語などの言語科目を学ぶ際に、習得した単語を選択して組み合わせ、流暢な文章を作る方法を学ぶ必要があるのと同じである。BERTモデルの場合、その事前トレーニングプロセスにおいて、モデルから出力されるテキストのセマンティクス表現が、言語の本質を描き出すことができ、その後の特定のNLPタスクのファインチューニングを容易にするように、モデルのパラメーターが徐々に調整される。例えば、約200Gの中国語ニュースコーパスを使用して、文字ベースの中国語BERTモデルの事前トレーニングを行うことができる。
本開示において、特定のNLPタスクは、テキスト分類タスクである。この場合、事前トレーニング済みのBERTモデルと第1の分類ネットワークとが共同でトレーニングされる。該共同トレーニング段階では、第1の分類ネットワークのトレーニングに重点が置かれ、BERTモデルの変更は非常に僅かであり、このトレーニングプロセスはファインチューニング(fine-tuning)と呼ばれる。第1の分類ネットワークのトレーニングプロセスにおいて、機械学習における教師あり学習が行われる。すなわち、このようなモデルをトレーニングするには、ラベル付きデータセットが必要となる。1つの可能な実施形態として、絵文字(Emoji)マークの付いたウェイボーデータをラベル付きデータセットとしてクローリングすることができる。具体的には、ウェイボーデータでは、ユーザーが投稿したテキストには通常、対応する絵文字表情が含まれる。例えば、テキストに「微笑」の絵文字表情がある場合、「微笑」の絵文字表情カテゴリを該テキストの正しい表情カテゴリとすることができる。また、テキストに「拱手」の絵文字動作がある場合、「拱手」の絵文字動作カテゴリを該テキストの正しい表情カテゴリとすることができる。さらに、他の分類ネットワークのトレーニングと同様に、第1の分類ネットワークは、クロスエントロピー損失関数を最小化することによって最適化することができる。
なお、ここで、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。
前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第1の符号化ネットワークは、動作に対応する第3の符号化サブネットワークと、表情に対応する第4の符号化サブネットワークとをさらに含んでいてもよい。前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む。
これら2つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第1の分類ネットワークは、動作に対応する第3の分類サブネットワーク、及び表情に対応する第4の分類サブネットワークもさらに含む。これら2つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の分類ネットワークと同様であるため、ここでは繰り返さない。
また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。
さらに、行動カテゴリに加えて、テキストに基づいて、該テキストが属する感情カテゴリをさらに決定することもできる。この場合、本開示による方法は、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する操作と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する操作と、前記第2の分類ネットワークの出力に基づいて、感情カテゴリを決定する操作と、をさらに含んでいてもよい。例えば、感情カテゴリは、「怒り」、「喜び」などを含んでもよいが、これらに限定されない。ここで、第2の符号化ネットワークは第1の符号化ネットワークに類似するものであり、また、これら2つのネットワークは、パラメーターの数が同じであるが、パラメーターの値が、場合によって同じであってもよく、異なっていてもよい。例えば、行動内容が表情内容のみを含む場合、第1の符号化ネットワーク及び第2の符号化ネットワークのパラメーターは同じであってもよい。あるいは、行動内容が動作内容のみを含む場合、第1の符号化ネットワーク及び第2の符号化ネットワークのパラメーターが異なってもよい。
上述した第1の符号化ネットワーク及び第1の分類ネットワークと同様に、前記第2の符号化ネットワーク及び第2の分類ネットワークもトレーニングが必要である。そのトレーニング方法は上述したトレーニング方法と同様である。絵文字表情の付いたウェイボーデータを、感情カテゴリをトレーニングするためのラベル付きデータとして使用できる。
この場合、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む。
行動カテゴリを独立変数と見なし、行動内容を従属変数と見なすと、感情カテゴリは、最終的な行動内容を決定するために行動カテゴリにさらなる次元を追加した独立変数と見なすことができる。
図6は、本開示の一実施形態によるアバターの行動制御の製品フローチャートを示す。図6に示す実施形態において、行動内容は動作内容及び表情内容の両方を含んでいてもよく、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。
まず、テキストをアルゴリズムによって処理し、各テキストに対応する表情、動作、及び感情を取得する。例えば、表情及び動作としては、現在広く使用されている絵文字の表情及び動作から選択することができる。もちろん、通常の表情や動作をさらに追加することによって、より正確な表情や動作を出力することもできる。感情は、怒り、喜びなど、テキストに含まれる感情のカテゴリである。表情及び動作は、文字又は単語の単位で正確にトリガーされる。つまり、テキストにおけるある特定の文字又は単語は、指定された動作及び表情をトリガーする。
そして、アルゴリズムに基づいて初期の表情及び動作を決定した後、動作マッピングテーブル及び表情マッピングテーブルを用いて、現在のテキストにおいてトリガーされるべき表情内容及び動作内容をそれぞれ決定する。各テキストから、必ずしも動作、表情、及び感情の3つのパラメーターを取得できないため、動作のみ、表情のみ、感情のみ、動作及び表情の両方、動作及び感情の両方、表情及び感情の両方、ならびに3つ全部ある、という7つの状況が生じる可能性がある。図7は、表情マッピングテーブルの一例を示す。図7に示す例は、動作、表情、及び感情の3つのパラメーターを有する場合に対応する。図7における「対応する既存の生放送表情ID」は、アバターが提示する表情を表し、動作ID、表情ID、及び感情IDは、それぞれ、テキストに基づいて決定される動作、表情、及び感情に対応する。
図8は、本開示の一実施形態による行動生成プロセスの模式図を示す。図8に示す実施形態において、行動は動作及び表情の両方を含み、また、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。そして、動作カテゴリ、表情カテゴリ及び感情カテゴリに基づいて、特定のマッピングルールにより、アバターが提示すべき動作内容及び表情内容を決定する。図8における動作モデル及び表情モデルは、いずれも上述した第1の符号化ネットワーク及び第1の分類ネットワークによって実現することができる。ただし、具体的な動作モデル、表情モデル及び感情モデルによっては、対応する具体的なネットワークパラメーターは異なる。
なお、本明細書に記載されるマッピングルールは、アバターの存在する現在の場面に合わせてさらにスクリーニングすることができる。例えば、ニュース場面に対応するマッピングルールは、誇張された動作や表情をトリガーしない。
また、図8には、動作モデル、表情モデル及び感情モデルが示されているが、前述のように、本開示では、これに限定されない。例えば、テキストに基づく動作カテゴリのみの抽出、表情カテゴリのみの抽出、動作カテゴリ及び感情カテゴリの抽出、表情カテゴリ及び感情カテゴリの抽出、動作カテゴリ及び表情カテゴリの抽出、などの組み合わせの変形も、すべて本開示の範囲に含まれる。
図1に戻り、最後に、行動内容及び行動トリガー位置を決定した後、S104に進み、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。
ここで、実在の人が話すときの行動(例えば、表情)が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、トリガーされる行動をさらにファインチューニングしてもよい。
具体的には、前記行動内容を提示するように前記アバターを制御するステップは、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む。例えば、各行動変化パラメーターを調整できる。調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。以下は、行動変化パラメーターを調整するためのプログラムコードの例である。該コードでは、表情を例にして、表情を作る前の所定の時間の待機、表情のフェードイン、表情の保持期間、表情のフェードアウトなどを含む具体的なパラメーター調整設定が示されている。これによって、すべての表情変化が自然で一貫性があり、擬人化されるものであることを確保する。
private static readonly double [] DefaultRandomRanges = {
0,0.5 /*0秒~0.5秒待ってから表情を作る*/,
0.3,0.5 /*0.3秒から0.5秒以内に表情をフェードインさせる(無から有へ)*/,
0.75,1 /*作られた表情の係数に対する表情の最終的な度合いの割合は0.75~1である*/,
0.5,1 /*表情の保持時間は0.5秒~1秒である*/,
0.3,0.5 /*0.15秒から0.3秒以内に表情をフェードアウトさせる(有から無へ)*/,
0.1,0.25 /*作られた表情の係数に対する表情の回復度合いの割合は0.1~0.3である*/,
2,4 /*次のマイクロエクスプレッション(存在する場合)が現れるまでの保持時間は2秒~4秒である*/
};
private static readonly double [] BlinkEyesDefaultRandomRanges = {
0,0.5 /*0秒~0.5秒待ってから表情を作る*/,
0.167,0.167 /*表情のフェードイン(無から有へ)時間は0.167秒間である*/,
1,1 /*表情のフェードインレベルは100%である*/,
0,0 /*表情を保持しない*/,
0.167,0.167 /*表情のフェードアウト(有から無へ)時間は0.167秒間である*/,
0,0 /*表情が完全に消えるまでフェードアウトする*/,
2,4 /*次のマイクロエクスプレッション(存在する場合)が現れるまでの保持時間は2秒~4秒である*/
};
以上では、図1から図8を参照して本開示によるテキストに基づくアバターの行動制御方法について詳細に説明した。図1~図8から分かるように、本開示による方法において、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
さらに、本開示において、BERTモデルを使用して第1の符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。以下の表1は、BERTモデルに基づくテキスト分類モデルとCNNに基づくテキスト分類モデルの動作、表情、及び感情カテゴリにおける精度をそれぞれ示す。
Figure 2022531855000015
次に、図9を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスについて説明する。図9に示すように、前記デバイス1000は、ベクトル化装置1001と、行動トリガー位置決定装置1002と、行動内容決定装置1003と、行動提示装置1004とを含む。
ベクトル化装置1001は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するために用いられる。前記特定のシンボルは、テキストの分類を表すものである。
ここで、テキストは、通常、1つの文である。また、例えば、前記特定のシンボルは、テキストの分類を表すためのCLS(Classification、分類)シンボルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。
特定のシンボルを挿入した後、ベクトル化装置1001は、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、ベクトル化装置1001は、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。
行動トリガー位置決定装置1002は、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するために用いられる。ここで、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。例えば、第1の符号化ネットワークはBERTモデルによって実現することができる。
前述のように、アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素(文字/単語)に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。
BERTモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字/単語情報を用いて対象とする文字/単語のセマンティクス表現を強化する。また、本開示によるBERTモデルにおいて、テキストの分類を表すためのCLS(Classification、分類)シンボルがさらに挿入されている。テキストに含まれている他の文字/単語と比較して、挿入されたCLSシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字/単語のセマンティクス情報をより「公正」に統合することができる。したがって、CLSシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字/単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字/単語の重要性が高くなる。
本開示による方法において、テキストにおける最も重要な文字/単語の位置で、アバターを対応する行動を提示するように制御することが好適であると考えられる。したがって、行動トリガー位置決定装置1002は、テキストにおける最も重要な文字/単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルがテキストにおける各文字/単語の重要性を反映できるため、行動トリガー位置決定装置1002は、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。
具体的には、第1の符号化ネットワークがネットワークノードを1層のみ有する場合、前記行動トリガー位置決定装置1002は、さらに、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するように配置される。
第1の符号化ネットワークが多層のネットワークノードを有する場合、前記行動トリガー位置決定装置1002は、さらに、前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。
行動内容決定装置1003は、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するために用いられる。
前述のように、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。第1の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルCLSが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字/単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する、出力の第1の符号化ベクトルをテキスト全体のセマンティクス表現とする。
前記行動内容決定装置1003は、さらに、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力する処理と、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。
前記第1の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第1の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、softmax関数により0~1の範囲内の値に正規化することができる。具体的には、前記第1の分類ネットワークの出力は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。前記行動内容決定装置1003は、行動予測ベクトルのうちの最大の確率値に対応するカテゴリを、テキストが属する行動カテゴリとする。
あるいは、別の可能な実施形態として、前記行動内容決定装置1003は、さらに、前記第1の分類ネットワークの出力に基づいて、行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。
言い換えれば、テキストが属する行動カテゴリを決定するとき、前記行動内容決定装置1003は、第1の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値が所定の閾値よりも小さい場合、前記行動内容決定装置1003は、第1の分類ネットワークから出力された行動予測結果の信頼度は低いと見なす。この場合、前記行動内容決定装置1003は、第1の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値が所定の閾値よりも大きい場合、前記行動内容決定装置1003は、第1の分類ネットワークから出力された行動予測結果の信頼度は高いと見なす。この場合、前記行動内容決定装置1003は、第1の分類ネットワークの予測結果を採用する。
最後に、前記行動内容決定装置1003は、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。
前述のように、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。
前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第1の符号化ネットワークは、動作に対応する第3の符号化サブネットワークと、表情に対応する第4の符号化サブネットワークとをさらに含んでいてもよい。これら2つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第1の分類ネットワークは、動作に対応する第3の分類サブネットワーク、及び表情に対応する第4の分類サブネットワークもさらに含む。これら2つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の分類ネットワークと同様であるため、ここでは繰り返さない。
また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、前記行動内容決定装置1003は、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。
さらに、行動カテゴリに加えて、テキストに基づいて、前記テキストが属する感情カテゴリをさらに決定することもできる。この場合、前記行動内容決定装置1003は、さらに、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する処理と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する処理と、前記第2の分類ネットワークの出力に基づいて、前記テキストが属する感情カテゴリを決定する処理とを実行するように配置される。
前記行動内容決定装置1003は、さらに、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するために、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行するように配置される。
行動カテゴリを独立変数と見なし、行動内容を従属変数と見なすと、感情カテゴリは、最終的な行動内容を決定するために行動カテゴリにさらなる次元を追加した独立変数と見なすことができる。
最後に、前記行動トリガー位置決定装置1002が行動トリガー位置を決定し、前記行動内容決定装置1003が行動内容を決定した後、前記行動提示装置1004を用いて、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。
ここで、実在の人が話すときの行動(例えば、表情)が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、前記行動提示装置1004は、トリガーされる行動をさらにファインチューニングしてもよい。
具体的には、前記行動提示装置1004は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置されてもよい。例えば、調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。
上記のことから分かるように、本開示によるデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
さらに、本開示において、BERTモデルを使用して符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。
本開示の実施形態によるアバターの行動制御デバイスは、上述したアバターの行動制御方法に完全に対応しているため、アバターの行動制御デバイスの説明において、多くの細部は省略される。上述したアバターの行動制御方法のすべての細部がアバターの行動制御デバイスに同様に適用できることは、当業者に理解されるであろう。
さらに、本開示の実施形態による方法又はデバイスは、図10に示すコンピューティングデバイス1100のアーキテクチャによって実現することができる。図10に示すように、コンピューティングデバイス1100は、バス1110、1つ又は複数のCPU1120、リードオンリーメモリ(ROM)1130、ランダムアクセスメモリ(RAM)1140、ネットワークに接続された通信ポート1150、入力/出力コンポーネント1160、ハードディスク1170などを含んでいてもよい。ROM1130やハードディスク1170などのコンピューティングデバイス1100内の記憶デバイスには、本開示によって提供されるアバターの行動制御方法の処理及び/又は通信に使用される各種のデータやファイル、及びCPUによって実行されるプログラム命令が格納されてもよい。もちろん、図10に示すアーキテクチャは例示的なものに過ぎず、別のデバイスを実現するとき、実際の必要性に応じて、図10に示すコンピューティングデバイス内の1つ又は複数のコンポーネントを省略してもよい。
また、本開示の実施形態は、コンピュータ読み取り可能な記憶媒体として実現されてもよい。本開示の実施形態によるコンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が格納されている。前記コンピュータ読み取り可能な命令がプロセッサによって実行されると、上記の添付図面を参照して説明された本開示の実施形態によるアバターの行動制御方法を実行することができる。前記コンピュータ読み取り可能な記憶媒体は、例えば、揮発性メモリ及び/又は不揮発性メモリを含むが、これらに限定されない。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)を含んでいてもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでいてもよい。
以上、図1から図10を参照して本開示の各実施形態によるアバターの行動制御方法及びデバイスについて詳細に説明した。本開示の各実施形態によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
なお、本明細書において、「含む」、「有する」という用語、又はその他のいかなる変形は、非排他的な「含む」をカバーすることを意図しているため、一連の要素を含むプロセス、方法、物品又はデバイスは、それらの要素を含むだけでなく、明記されていない他の要素、あるいは、そのようなプロセス、方法、物品、又はデバイスに固有の要素も含む。これ以上の制限がない場合、「・・・を含む」という記述により限定される要素は、前記要素を含むプロセス、方法、物品又はデバイス内の別の同じ要素の存在を排除しない。
最後に、上記の一連の処理は、本明細書に記載されている順序で時系列に行われる処理を含むだけでなく、時系列ではなく並行して行われる処理又は別々に行われる処理も含むことに注意されたい。
以上の実施形態の説明により、本出願がソフトウェア及び必要なハードウェアプラットフォームによって実現できるだけでなく、ソフトウェアのみによって実施することも可能であることは、当業者に明らかであろう。このような理解を踏まえ、背景技術に対する本出願の技術的解決手段の効果のすべて又は一部をソフトウェア製品として具体化することができる。該コンピュータソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納することができ、コンピュータデバイス(パーソナルコンピュータ、サーバー、又はネットワークデバイスなどであってもよい)に、本出願の各実施形態又は実施形態の一部に記載されている方法を実行させるための複数の命令を含む。
上記では、本出願について詳細に説明した。本明細書において、具体的な例を挙げて本出願の原理と実施形態を説明した。上記の実施形態の説明は、本出願の方法やその趣旨への理解に役立つためのものに過ぎない。また、当業者は、本出願の趣旨に則して、発明を実施するための形態とその適用範囲の変更を行うことができる。要するに、本明細書の内容は、本出願を限定するものとして解釈されるべきではない。

Claims (15)

  1. 電子デバイスによって実行される、テキストに基づくアバターの行動制御方法であって、
    テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものであるステップと、
    前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものであるステップと、
    前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、
    前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む方法。
  2. 前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
    前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するネットワークノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得するステップと、
    前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップと、を含む請求項1に記載の方法。
  3. 前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力し、
    前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定する前記ステップは、
    前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力するステップと、
    前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定するステップと、
    少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップと、を含む請求項1又は2に記載の方法。
  4. 前記特定の行動マッピングは、行動マッピングテーブルを含み、
    少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
    前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む、請求項3に記載の方法。
  5. 前記特定の行動マッピングは、前記アバターの適用場面によって異なる、請求項3に記載の方法。
  6. 前記第1の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す、請求項3に記載の方法。
  7. 前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する前記ステップは、
    前記行動予測ベクトルのうちの最大の確率値を決定するステップと、
    前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含む請求項6に記載の方法。
  8. 前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力するステップと、
    前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力するステップと、
    前記第2の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定するステップと、をさらに含み、
    少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
    前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む、請求項3に記載の方法。
  9. 前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記行動内容が動作内容と表情内容の両方を含む場合、前記第1の符号化ネットワークは、第3の符号化サブネットワークと第4の符号化サブネットワークとを含み、
    前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
    前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、
    前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む請求項9に記載の方法。
  11. 前記行動内容を提示するように前記アバターを制御する前記ステップは、
    前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む、請求項1から10のいずれか一項に記載の方法。
  12. 前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも1つを含む、請求項11に記載の方法。
  13. テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、前記ベクトル化装置と、
    前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、前記行動トリガー位置決定装置と、
    前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、
    前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するようにアバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイス。
  14. プロセッサと、
    前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、請求項1から12のいずれか一項に記載の方法を実行する、コンピュータデバイス。
  15. コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサは、請求項1から12のいずれか一項に記載の方法を実行する、コンピュータプログラム。
JP2021564427A 2019-09-23 2020-09-03 テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム Active JP7210774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910898521.6A CN110598671B (zh) 2019-09-23 2019-09-23 基于文本的虚拟形象行为控制方法、设备和介质
CN201910898521.6 2019-09-23
PCT/CN2020/113147 WO2021057424A1 (zh) 2019-09-23 2020-09-03 基于文本的虚拟形象行为控制方法、设备和介质

Publications (2)

Publication Number Publication Date
JP2022531855A true JP2022531855A (ja) 2022-07-12
JP7210774B2 JP7210774B2 (ja) 2023-01-23

Family

ID=68862313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564427A Active JP7210774B2 (ja) 2019-09-23 2020-09-03 テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11714879B2 (ja)
EP (1) EP3926525A4 (ja)
JP (1) JP7210774B2 (ja)
CN (1) CN110598671B (ja)
WO (1) WO2021057424A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US11593984B2 (en) 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113194350B (zh) * 2021-04-30 2022-08-19 百度在线网络技术(北京)有限公司 推送待播报数据、播报数据的方法和装置
CN114936283B (zh) * 2022-05-18 2023-12-26 电子科技大学 一种基于Bert的网络舆情分析方法
CN116168134B (zh) * 2022-12-28 2024-01-02 北京百度网讯科技有限公司 数字人的控制方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048379A (ja) * 2004-08-04 2006-02-16 Ntt Docomo Hokuriku Inc コンテンツ生成装置
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
US20160300379A1 (en) * 2014-11-05 2016-10-13 Intel Corporation Avatar video apparatus and method

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4726065A (en) * 1984-01-26 1988-02-16 Horst Froessl Image manipulation by speech signals
US5151998A (en) * 1988-12-30 1992-09-29 Macromedia, Inc. sound editing system using control line for altering specified characteristic of adjacent segment of the stored waveform
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
JP2000167244A (ja) * 1998-12-11 2000-06-20 Konami Computer Entertainment Osaka:Kk ビデオゲーム装置、ビデオキャラクタに対する疑似チームへの入部勧誘処理制御方法及びビデオキャラクタに対する疑似チームへの入部勧誘処理制御プログラムを記録した可読記録媒体
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
TWI453628B (zh) * 2012-01-12 2014-09-21 Amtran Technology Co Ltd 適應性調整虛擬按鍵尺寸的方法及其顯示裝置
CN102737397B (zh) * 2012-05-25 2015-10-07 北京工业大学 基于运动偏移映射的有韵律头部运动合成方法
US9691296B2 (en) * 2013-06-03 2017-06-27 Massachusetts Institute Of Technology Methods and apparatus for conversation coach
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
CN104866101B (zh) * 2015-05-27 2018-04-27 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
US10546015B2 (en) * 2015-12-01 2020-01-28 Facebook, Inc. Determining and utilizing contextual meaning of digital standardized image characters
US11314951B2 (en) * 2016-11-28 2022-04-26 Samsung Electronics Co., Ltd. Electronic device for performing translation by sharing context of utterance and operation method therefor
CN106653052B (zh) * 2016-12-29 2020-10-16 Tcl科技集团股份有限公司 虚拟人脸动画的生成方法及装置
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
WO2019011968A1 (en) * 2017-07-11 2019-01-17 Deepmind Technologies Limited LEARNING VISUAL CONCEPTS THROUGH NEURONAL NETWORKS
CN108304388B (zh) * 2017-09-12 2020-07-07 腾讯科技(深圳)有限公司 机器翻译方法及装置
US20190220474A1 (en) * 2018-01-16 2019-07-18 Entigenlogic Llc Utilizing multiple knowledge bases to form a query response
CN109885842B (zh) * 2018-02-22 2023-06-20 谷歌有限责任公司 处理文本神经网络
US10642939B2 (en) * 2018-02-24 2020-05-05 Twenty Lane Media, LLC Systems and methods for generating jokes
US10878817B2 (en) * 2018-02-24 2020-12-29 Twenty Lane Media, LLC Systems and methods for generating comedy
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
US20210365643A1 (en) * 2018-09-27 2021-11-25 Oracle International Corporation Natural language outputs for path prescriber model simulation for nodes in a time-series network
CN109377797A (zh) * 2018-11-08 2019-02-22 北京葡萄智学科技有限公司 虚拟人物教学方法及装置
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
US11790171B2 (en) * 2019-04-16 2023-10-17 Covera Health Computer-implemented natural language understanding of medical reports
CN110013671B (zh) * 2019-05-05 2020-07-28 腾讯科技(深圳)有限公司 动作执行方法和装置、存储介质及电子装置
US11170774B2 (en) * 2019-05-21 2021-11-09 Qualcomm Incorproated Virtual assistant device
US11604981B2 (en) * 2019-07-01 2023-03-14 Adobe Inc. Training digital content classification models utilizing batchwise weighted loss functions and scaled padding based on source density
CN112487182B (zh) * 2019-09-12 2024-04-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning
US20210344798A1 (en) * 2020-05-01 2021-11-04 Walla Technologies Llc Insurance information systems
US11023688B1 (en) * 2020-05-27 2021-06-01 Roblox Corporation Generation of text tags from game communication transcripts
US11386625B2 (en) * 2020-09-30 2022-07-12 Snap Inc. 3D graphic interaction based on scan
US11620829B2 (en) * 2020-09-30 2023-04-04 Snap Inc. Visual matching with a messaging application
US11077367B1 (en) * 2020-10-09 2021-08-03 Mythical, Inc. Systems and methods for using natural language processing (NLP) to control automated gameplay
TWI746214B (zh) * 2020-10-19 2021-11-11 財團法人資訊工業策進會 機器閱讀理解方法、機器閱讀理解裝置及非暫態電腦可讀取媒體

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048379A (ja) * 2004-08-04 2006-02-16 Ntt Docomo Hokuriku Inc コンテンツ生成装置
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
US20160300379A1 (en) * 2014-11-05 2016-10-13 Intel Corporation Avatar video apparatus and method

Also Published As

Publication number Publication date
CN110598671B (zh) 2022-09-27
JP7210774B2 (ja) 2023-01-23
CN110598671A (zh) 2019-12-20
WO2021057424A1 (zh) 2021-04-01
EP3926525A1 (en) 2021-12-22
US11714879B2 (en) 2023-08-01
EP3926525A4 (en) 2022-06-29
US20220004825A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
JP7210774B2 (ja) テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
Chiu et al. How to train your avatar: A data driven approach to gesture generation
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
Nyatsanga et al. A Comprehensive Review of Data‐Driven Co‐Speech Gesture Generation
CN111831798A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
WO2021174898A1 (zh) 合成虚拟对象的动作序列的方法及设备
WO2023284435A1 (zh) 生成动画的方法及装置
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN115293132B (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
CN113779224A (zh) 一种基于用户对话历史的个性化对话生成方法与系统
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
Huang et al. Recent advances in artificial intelligence for video production system
CN114743056A (zh) 一种基于动态早退的图像描述生成模型及模型训练方法
Zhao et al. Generating Diverse Gestures from Speech Using Memory Networks as Dynamic Dictionaries
Teshima et al. Integration of gesture generation system using gesture library with DIY robot design kit
Pari et al. SLatAR-A Sign Language Translating Augmented Reality Application
WO2024066549A1 (zh) 一种数据处理方法及相关设备
KR102370993B1 (ko) 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템
Yu A Novel Framework and Design Methodologies for Optimal Animation Production Using Deep Learning
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211104

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230111

R150 Certificate of patent or registration of utility model

Ref document number: 7210774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150