JP2022531855A

JP2022531855A - テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム

Info

Publication number: JP2022531855A
Application number: JP2021564427A
Authority: JP
Inventors: シエ，ジン; リ，ピジ; ドアン，ホォン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-09-23
Filing date: 2020-09-03
Publication date: 2022-07-12
Anticipated expiration: 2040-09-03
Also published as: CN110598671B; JP7210774B2; CN110598671A; WO2021057424A1; EP3926525A1; US11714879B2; EP3926525A4; US20220004825A1

Abstract

本開示は、テキストに基づくアバターの行動制御方法、デバイス及び媒体を開示する。前記方法は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップと、前記複数の入力ベクトルの各々を第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップと、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む。

Description

［関連出願の相互参照］
本出願は、２０１９年９月２３日に「テキストに基づくアバターの行動制御方法、デバイス及び媒体」との発明の名称で中国特許庁に提出された中国特許出願第２０１９１０８９８５２１．６号の優先権を主張し、その全ての内容は参照により本出願に援用される。

［技術分野］
本開示は、人工知能の技術分野に関し、より具体的には、テキストに基づくアバターの行動制御方法、デバイス及び媒体に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）の様々な方向での様々な機能の開発に伴い、実際の場面では、もはや単一のＡＩ機能だけの適用に満足できなくなっている。このため、ＡＩの包括的な機能を発揮する適用場面への検討も進められている。近年、ＡＩの包括的な機能の表現形式として、アバターが大きな話題を呼んでいる。アバターとは、コンピュータ技術を用いて人体構造をデジタル化することにより、コンピュータの画面に表示される可視的で制御可能なアバター形態を指す。アバターは、実在の人に基づくキャラクターであってもよく、漫画のキャラクターに基づくキャラクターであってもよい。学界及び産業界の両方で、様々な方法を使用して、人々にサービスや娯楽を２４時間提供することができるアバターを作る試みが行われている。

本出願の実施形態は、実在の人によって駆動されることなく、テキストに適応し、かつ実在の人に似た表情や動作をするようにアバターを制御することが可能なテキストに基づくアバターの行動制御方法、デバイス及び媒体を提供する。

本開示の一態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものである、ステップと、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、ステップと、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含むテキストに基づくアバターの行動制御方法を提供する。

本開示の別の態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、ベクトル化装置と、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、行動トリガー位置決定装置と、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイスを提供する。

また、本開示によるデバイスにおいて、前記行動トリガー位置決定装置は、さらに、前記第１の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。

また、本開示によるデバイスにおいて、前記第１の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第１の符号化ベクトルを出力する。前記行動内容決定装置は、さらに、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルを第１の分類ネットワークに入力する処理と、前記第１の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。

また、本開示によるデバイスにおいて、前記特定の行動マッピングは、行動マッピングテーブルを含み、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理は、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定する処理をさらに含む。

また、本開示によるデバイスにおいて、前記特定の行動マッピングは、前記アバターの適用場面によって異なる。

また、本開示によるデバイスにおいて、前記第１の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。

また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記第１の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。

また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記複数の入力ベクトルをそれぞれ第２の符号化ネットワークに入力する処理と、前記第２の符号化ネットワークから出力された、前記特定のシンボルに対応する第２の符号化ベクトルを第２の分類ネットワークに入力する処理と、前記第２の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定する処理とを実行するように配置される。前記行動内容決定装置は、さらに、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行することによって、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するように配置される。

また、本開示によるデバイスにおいて、前記行動内容は、動作内容及び表情内容のうちの少なくとも１つを含む。

また、本開示によるデバイスにおいて、前記行動内容が動作内容及び表情内容の両方を含む場合、前記第１の符号化ネットワークは、第３の符号化サブネットワークと第４の符号化サブネットワークとを含む。前記行動トリガー位置決定装置は、さらに、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第３の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第３の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定する処理と、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第４の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第４の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定する処理とを実行するように配置される。

また、本開示によるデバイスにおいて、前記行動提示装置は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置される。

また、本開示によるデバイスにおいて、前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも１つを含む。

本開示のまた別の態様によると、
プロセッサと、
前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータデバイスを開示する。

本開示のさらに別の態様によると、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータ読み取り可能な記憶媒体を開示する。

本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスを示すフローチャートである。本出願のいくつかの実施形態に記載される第１の符号化ネットワークの内部構造の模式図である。本出願のいくつかの実施形態におけるアテンションメカニズムの模式図である。本出願のいくつかの実施形態における第１の符号化ネットワーク及び第１の分類ネットワークの入出力を示す模式図である。図１におけるＳ１０３の具体的なプロセスを示すフローチャートである。本開示の一実施形態によるアバターの行動制御を示す製品フローチャートである。本出願のいくつかの実施形態における表情マッピングテーブルの一例を示す。本開示の一実施形態による行動生成プロセスを示す模式図である。本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスの構成を示す機能ブロック図である。本開示の一実施形態による例示的なコンピューティングデバイスのアーキテクチャを示す模式図である。

以下、添付の図面を参照して本出願の各実施形態について説明する。添付の図面を参照した以下の説明は、特許請求の範囲及びその等価物によって限定される本出願の例示的な実施形態を理解しやすくするために提供され、理解に役立つ様々な詳細を含むが、あくまでも例示的なものと考えられる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載される実施形態に対して様々な変更及び修正を行うことができることを認識するであろう。さらに、本明細書をより明確かつ簡潔にするために、当技術分野でよく知られている機能や構成の詳細な説明を省略する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）とは、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して、人間の知能のシミュレーション、延長、及び拡張を行い、環境を感知し、知識を獲得して利用し、最適な結果を得るための理論、方法、技術、及び応用システムのことである。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術、機械学習／深層学習などの幾つかの分野が含まれる。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な学問に関わる学際的な学問である。新しい知識やスキルを身につけ、既存の知識構造を再編成して自身の性能を継続的に向上させるために、コンピュータがどのように人間の学習行動をシミュレート又は実現するかを専門に研究している。機械学習は、人工知能の中核をなすものとして、コンピュータを知能化するための基本的な方法であり、人工知能のあらゆる分野に応用できる。機械学習及び深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術が含まれる。

本出願の実施形態により提供される技術方案は、人工知能の機械学習などの技術に関わる。具体的には、以下の実施形態によって説明する。

通常、アバターを作るための技術方案は、主に２つの方法に大別される。１つ目の方法としては、実在の人による駆動方法である。具体的には、モーションキャプチャデバイスを介して、実際の俳優の体及び表情のデータをキャプチャし、そして、該データを使用してこれらの動作や表情を提示するように３Ｄ又は２Ｄアバターを駆動する方法である。２つ目の方法としては、データによる駆動方法である。具体的には、入力されたテキスト内容をＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキストツースピーチ）によってアバターに読み上げさせる方法である。しかし、アバターは何の表情も動作も提示しないため、ニュースアナウンスなど、表情や動作をほとんど必要としない場面にしか適用できない。

これらのアバターの駆動方法は、人間によって駆動される形跡が明らかであったり、動作や表情などのパーソナライズされた行動要素が回避されていたりして、実在の人によって駆動されずにテキストに基づいて実在の人に似た行動を提示するようにアバターを制御することは困難である。

本開示によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いて、アバターを、対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。

図１を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスについて説明する。アバターは、例えば、実在の人を忠実に再現したキャラクターであってもよく、完全に仮想化されたマンガのキャラクターであってもよい。一例として、ニュース放送の適用場面では、アバターは実際のアナウンサーを忠実に再現したキャラクターである。ニュースキャスターとしてのアバターは、テキストに基づいてニュース放送ビデオを短時間で生成できるだけでなく、放送されるニュース内容の「ゼロエラー」を確保することができる。また、場面を問わずに仕事に迅速に取り組み、２４時間途切れなく放送でき、メディア業界における効率化に寄与する。別の例として、仮想ゲームの適用場面では、様々なゲームキャラクターとしてのマンガのキャラクターは、テキストに基づいて豊富な行動を提示するとともに、ゲームの解説やチャットサービスなどの役割タスクを２４時間途切れなく実行することができる。

図１に示すように、前記方法は電子デバイスによって実行することができ、以下の操作を含む。

Ｓ１０１において、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成する。

ここで、テキストは、通常、１つの文である。いくつかの実施形態では、前記特定のシンボルは、テキストの分類を表すためのＣＬＳ（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ、分類）シンボルであってもよい。ここで、Ｓ１０１において挿入される特定のシンボルは、ＣＬＳシンボルに対応するオリジナルベクトルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。

特定のシンボルを挿入した後、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。

Ｓ１０２において、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。

図２は、本出願のいくつかの実施形態に記載される第１の符号化ネットワークの内部構造の模式図を示す。前記第１の符号化ネットワークの入力は、Ｓ１０１で取得した各文字／単語／特定のシンボルのオリジナルベクトルであり、前記第１の符号化ネットワークの出力は、各文字／単語／特定のシンボルが全文のセマンティクス情報と統合されたベクトル表現である。例えば、第１の層にある１番目のネットワークノードの場合、該ネットワークノードに対応する第１の要素の入力ベクトルとそのコンテキストにおける各要素の入力ベクトルとの加重和を該ネットワークノードの符号化ベクトルとして計算する。また、該符号化ベクトルを入力として第２の層にある１番目のネットワークノードから最後の層にある１番目のネットワークノードまで提供し、全文のセマンティクス情報を統合した最終的な第１の符号化出力を取得する。図２では、前記第１の符号化ネットワークは多層のネットワークノードを含む。もちろん、本開示では、これに限定されない。前記第１の符号化ネットワークはネットワークノードを１層のみ含んでいてもよい。

例えば、１つの可能な実施形態としては、前記第１の符号化ネットワークは、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒ、トランスフォーマーによる双方向のエンコード表現）モデルによって実現することができる。ＢＥＲＴモデルは、大規模なラベルなしコーパスを用いてトレーニングを行い、豊富なセマンティクス情報を含むテキストのセマンティクス表現（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を取得した後、特定の自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）においてテキストのセマンティクス表現をファインチューニングし、最終的に該ＮＬＰタスクに適用するために使用される。

したがって、ＢＥＲＴモデルの入力は、Ｓ１０１で取得したテキストにおける各文字／単語のオリジナル単語ベクトルであり、ＢＥＲＴモデルの出力は、テキストにおける各文字／単語が全文のセマンティクス情報と統合されたベクトル表現である。

ＢＥＲＴモデルは、アテンション（ａｔｔｅｎｔｉｏｎ）メカニズムに基づくモデルである。アテンションメカニズムの主な機能は、ニューラルネットワークが「アテンション」を入力の一部に集中できるようにする、つまり、入力の異なる部分が出力に与える影響を区別することである。ここで、アテンションメカニズムは、文字／単語のセマンティクス表現を強化する観点から理解される。

文中の文字／単語の意味は、通常、そのコンテキストに関連する。例えば、「鵠」という文字は、一見して理解できないが、「鴻鵠の志」というコンテキストを見ると、すぐに理解できるようになる。したがって、文字／単語に関するコンテキスト情報は、該文字／単語のセマンティクス表現の強化に役立つ。また、コンテキスト中の異なる文字／単語は、セマンティクス表現を強化する上で異なる役割を果たす傾向がある。例えば、上記の例では、「鴻」という文字は「鵠」への理解に最も有用であるが、「の」という文字は比較的に理解に有用ではない。コンテキスト中の文字／単語情報を区別して使用することで対象とする文字／単語のセマンティクス表現を強化するには、アテンションメカニズムを使用することができる。

図３は、本出願のいくつかの実施形態におけるアテンションメカニズムの模式図を示す。図３では、入力の第１の要素（文字、単語、又は特定のシンボル）を例として、アテンションメカニズムの計算プロセスについて説明する。

図３に示すように、入力の第１の要素を対象要素とし、第１の要素に対応する第１の層の符号化ネットワークにおける１番目のネットワークノードを対象ネットワークノードとする。アテンションメカニズムは、対象要素とコンテキストにおける各要素のセマンティクスベクトル表現とを入力とし、まず特定の行列変換によって対象要素のＱｕｅｒｙベクトルと、コンテキストにおける各要素のＫｅｙベクトルと、対象要素及びコンテキストにおける各要素のオリジナルなＶａｌｕｅとを取得する。具体的には、対象要素について、トレーニング後の変換行列Ｗ^Ｑに基づいてＱｕｅｒｙベクトルを作成し、対象要素及びコンテキストにおける各要素について、トレーニング後の変換行列W^K及びW^Vに基づいてＫｅｙベクトル及びＶａｌｕｅベクトルをそれぞれ作成する。例えば、これらのベクトルは、入力ベクトルと３つのトレーニング後の変換行列W^Q、W^K、W^Vとを乗算することによって得られる。第１の符号化ネットワークに提供される入力をＸ＝（x₁、x₂、・・・、x_n）（ただし、第１の要素のベクトルがx₁である）とすると、x₁に対応するＱｕｅｒｙベクトルｑ_１と、コンテキストにおける各要素のＫｅｙベクトルｋ_ｉと、対象要素及びコンテキストにおける各要素のオリジナルなＶａｌｕｅベクトルｖ_ｉとは、下記の式で算出できる。

ここで、ｉは１～ｎの整数である。

次に、Ｑｕｅｒｙベクトル及びＫｅｙベクトルに基づいて、第１の層の符号化ネットワークにおける１番目のネットワークノード（すなわち、対象ネットワークノード）のアテンションベクトル

を計算する。ここで、対象ネットワークノードのアテンションベクトルＡ^１ _１における各要素は、対象ネットワークノードからコンテキストにおける各ネットワークノード（つまり、同じ層にある各ネットワークノード）までのアテンション重みをそれぞれ示すものである。例えば、ａ^１ _１ｉは、第１の層の符号化ネットワークにおける１番目のネットワークノードから同じ層にあるｉ番目のネットワークノードまでのアテンション重みを表す。ａ^１ _１ｉは、q₁にk_iを乗じてから、ｓｏｆｔｍａｘ関数で正規化することで得られる。最後に、アテンションベクトルＡ^１ _１及びＶａｌｕｅベクトルＶに基づいて、対象要素のアテンション出力を得る。例えば、対象ネットワークノードのアテンション出力は、下記の式で算出できる。

つまり、対象ネットワークノードに対応するアテンションベクトルを重みとし、前記対象ネットワークノードに入力された対象要素のＶａｌｕｅベクトルとコンテキストにおける各要素のＶａｌｕｅベクトルとを重み付き統合し、得られた結果を対象ネットワークノードの符号化出力、すなわち、対象要素の強化されたセマンティクスベクトル表現とする。

図３に示すアテンション出力は、図２の第１の層の符号化ネットワークにおける１番目のネットワークノードの符号化出力に対応する。前記第１の符号化ネットワークがネットワークノードを１層のみ有する場合、図３に示すアテンション出力は、入力の第１の要素に対応する最終的な符号化出力である。前記第１の符号化ネットワークが多層のネットワークノードを有する場合、図３に示す第１の層にある１番目のネットワークノードのアテンション出力を入力として第２の層の符号化ネットワークの１番目のネットワークノードに提供して、同様の方法で第２の層の符号化ネットワークの１番目のネットワークノードの符号化出力を得る。続いて、最後の層に至るまで、層ごとに同様の処理を繰り返す。最後の層の符号化ネットワークにおける１番目のネットワークノードの符号化出力は、入力の第１の要素に対応する最終的な符号化出力である。

以上のことから分かるように、前記第１の符号化ネットワークが多層のネットワークノードを有する場合、入力の対象要素は、対象要素に対応するネットワークノードのアテンションベクトルが層ごとに計算される。現在の層では、対象要素に対応するネットワークノードのアテンションベクトルを重みとし、該層に入力されたすべてのベクトルの加重和を求め、得られた加重和を、コンテキストのセマンティクスを統合した現在の層の出力符号化ベクトルとする。次に、現在の層の出力をさらに次の層の入力とし、同じ処理を繰り返す。つまり、第１の符号化ネットワークが計Ｌ層あり、対象要素が入力の第１の要素であると仮定した場合、対象要素に対応するＬ個のアテンションベクトルＡ^１ _１、Ａ^２ _１、・・・、Ａ^Ｌ _１が得られ、前記Ｌ個のアテンションベクトルは、それぞれＬ層の符号化ネットワークに対応する。

続いて、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。

例えば、前記特定のシンボルが前記テキストの前に挿入されると仮定した場合、前記特定のシンボルに対応するネットワークノードは、各層の符号化ネットワークにおける１番目のネットワークノードであり、前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、各層における１番目のネットワークノードのアテンションベクトルを含む。

なお、ここで、行動は、後述するように、動作及び表情のうちの少なくとも１つを含み得る。アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素（文字／単語）に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。

前述のように、ＢＥＲＴモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字／単語情報を用いて対象とする文字／単語のセマンティクス表現を強化する。また、本開示によるＢＥＲＴモデルにおいて、テキストの分類を表すためのＣＬＳ（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ、分類）シンボルがさらに挿入されている。テキストに含まれている他の文字／単語と比較して、挿入されたＣＬＳシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字／単語のセマンティクス情報をより「公正」に統合することができる。したがって、ＣＬＳシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字／単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字／単語の重要性が高くなる。

本開示による方法において、テキストにおける最も重要な文字／単語の位置で、アバターを、対応する行動を提示するように制御することが好適であると考えられる。したがって、テキストにおける最も重要な文字／単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、テキストにおける各文字／単語の重要性を反映できるため、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。

具体的には、第１の符号化ネットワークがネットワークノードを１層のみ有する場合、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。前記特定のシンボルが１番目の入力ベクトルに対応すると仮定した場合、前記特定のシンボルに対応するネットワークノードが１番目のネットワークノードである。そして、１番目のネットワークノードのアテンションベクトルをＡ^１ _１＝（ａ^１ _１１、ａ^１ _１２、・・・、ａ^１ _１ｎ）とする場合、行動トリガー位置pは下記の式で算出できる。

ここで、該式は、ａ_１ｉが最大値をとるときのインデックスiがpに割り当てられることを示す。

第１の符号化ネットワークが多層のネットワークノードを有する場合、Ｓ１０２における、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記第１の符号化ネットワークの全ての層における前記特定のシンボルに対応するノードから各ノードまでのアテンションベクトルの平均値を計算し、平均アテンションベクトルを取得するステップと、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップとをさらに含む。

具体的には、前述のように、第１の符号化ネットワークが多層のネットワークノードを有する場合、各層には、前記特定のシンボルに対応する１つのネットワークノードが存在し、また、各層において前記特定のシンボルに対応するネットワークノードのアテンションベクトルが計算される。第１の符号化ネットワークが計Ｌ層あると仮定した場合、前記特定のシンボルに対応するＬ個のネットワークノードのＬ個のアテンションベクトルＡ^１ _１、Ａ^２ _１、・・・、Ａ^Ｌ _１が取得される。この場合、まずこれらのＬ個のアテンションベクトルの平均値を求め、平均アテンションベクトルＡ^ａｖｅ _１を取得する。

次に、下記の式により行動トリガー位置を決定する。

ここで、該式は、ａ^ａｖｅ _１ｉが最大値をとるときのインデックスiがpに割り当てられることを示す。

上記では、第１の符号化ネットワークに基づいてアバターの行動トリガー位置を決定する方法について説明した。アバターの行動トリガー位置を決定した後、さらにアバターが提示すべき行動内容も決定する必要がある。

Ｓ１０３において、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する符号化ベクトルに基づいて、前記テキストに対応する行動内容を決定する。

前述のように、前記第１の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第１の符号化ベクトルを出力する。第１の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルＣＬＳが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字／単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する第１の符号化ベクトルをテキスト全体のセマンティクス表現とする。

図４は、本出願のいくつかの実施形態における第１の符号化ネットワーク及び第１の分類ネットワークの入出力の模式図を示す。さらに、図５は、図１におけるＳ１０３の具体的なプロセスを示す。

図５に示すように、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するステップは、以下の操作をさらに含む。

Ｓ５０１：図４に示すように、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルｈ^ＣＬＳを第１の分類ネットワーク（順伝播型ニューラルネットワーク＋ｓｏｆｔｍａｘ）に入力する。前記第１の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第１の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、ｓｏｆｔｍａｘ関数により０～１の範囲内の値に正規化することができる。具体的には、前記第１の分類ネットワークの出力
（外１）

は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。

テキストシーケンスをＸ＝（ｘ_１、ｘ_２、・・・、ｘ_ｎ）（ここで、ｘ_ｉが文Ｘにおけるｉ番目の要素（文字／単語）である）とし、ＣＬＳシンボルをテキストの前に挿入すると、ＣＬＳシンボル及びテキストに対応するベクトルをＢＥＲＴモデルに入力することにより、ＣＬＳシンボルに対応する出力ベクトルを取得できる。

Ｓ５０２：前記第１の分類ネットワークの出力
（外２）

に基づいて、行動カテゴリを決定する。具体的には、ｈ^ＣＬＳを入力ベクトルとして第１の分類ネットワークに提供し、第１の分類ネットワークは、テキストが各行動カテゴリに対応する確率値を出力することができる。

ここで、Wは第１の分類ネットワークにおけるネットワークノードの重みを表し、bはオフセット定数を表す。
（外３）

のうちの最大の確率値に対応するカテゴリｉは、テキストが属する行動カテゴリである。図４には、５番目の要素が最大の確率値を有する場合、すなわち、ｉ＝５の場合が示されている。

あるいは、別の可能な実施形態として、前記第１の分類ネットワークの出力に基づいて、行動カテゴリを決定するステップは、前記行動予測ベクトルのうちの最大の確率値を決定するステップと、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含んでもよい。

言い換えれば、テキストが属する行動カテゴリを決定するとき、第１の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値
（外４）

が所定の閾値よりも小さい場合、第１の分類ネットワークから出力された行動予測結果の信頼度は低いと考えられる。この場合、第１の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値
（外５）

が所定の閾値よりも大きい場合、第１の分類ネットワークから出力された行動予測結果の信頼度は高いと考えられる。この場合、第１の分類ネットワークの予測結果を採用する。

Ｓ５０３：少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、前記特定の行動マッピングは、行動マッピングテーブルを含む。予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。具体的には、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む。

前記特定の行動マッピングは、前記アバターの適用場面によって異なる。例えば、ニュースの場面に対応するマッピングテーブルは、誇張された行動内容をトリガーしない。

上記では、第１の符号化ネットワークにテキストを提供し、第１の符号化ネットワークのアテンションメカニズムに基づいて行動トリガー位置を推定するステップについて詳細に説明した。また、第１の符号化ネットワークの出力ベクトルがさらに第１の分類ネットワークに入力され、第１の分類ネットワークからテキストが属する行動カテゴリの予測結果が得られる。例えば、ＢＥＲＴモデルを使用して、前記第１の符号化ネットワークを実現することができる。

上記の第１の符号化ネットワーク及び第１の分類ネットワークはいずれもトレーニングが必要である。

ＢＥＲＴモデルは、通常、特定のＮＬＰタスクに関連しない大規模なテキストコーパスを使用して事前トレーニングを行い、言語自体がどのようなものであるべきかを学習することを目的とするものである。これは、国語や英語などの言語科目を学ぶ際に、習得した単語を選択して組み合わせ、流暢な文章を作る方法を学ぶ必要があるのと同じである。ＢＥＲＴモデルの場合、その事前トレーニングプロセスにおいて、モデルから出力されるテキストのセマンティクス表現が、言語の本質を描き出すことができ、その後の特定のＮＬＰタスクのファインチューニングを容易にするように、モデルのパラメーターが徐々に調整される。例えば、約２００Ｇの中国語ニュースコーパスを使用して、文字ベースの中国語ＢＥＲＴモデルの事前トレーニングを行うことができる。

本開示において、特定のＮＬＰタスクは、テキスト分類タスクである。この場合、事前トレーニング済みのＢＥＲＴモデルと第１の分類ネットワークとが共同でトレーニングされる。該共同トレーニング段階では、第１の分類ネットワークのトレーニングに重点が置かれ、ＢＥＲＴモデルの変更は非常に僅かであり、このトレーニングプロセスはファインチューニング（ｆｉｎｅ－ｔｕｎｉｎｇ）と呼ばれる。第１の分類ネットワークのトレーニングプロセスにおいて、機械学習における教師あり学習が行われる。すなわち、このようなモデルをトレーニングするには、ラベル付きデータセットが必要となる。１つの可能な実施形態として、絵文字（Ｅｍｏｊｉ）マークの付いたウェイボーデータをラベル付きデータセットとしてクローリングすることができる。具体的には、ウェイボーデータでは、ユーザーが投稿したテキストには通常、対応する絵文字表情が含まれる。例えば、テキストに「微笑」の絵文字表情がある場合、「微笑」の絵文字表情カテゴリを該テキストの正しい表情カテゴリとすることができる。また、テキストに「拱手」の絵文字動作がある場合、「拱手」の絵文字動作カテゴリを該テキストの正しい表情カテゴリとすることができる。さらに、他の分類ネットワークのトレーニングと同様に、第１の分類ネットワークは、クロスエントロピー損失関数を最小化することによって最適化することができる。

なお、ここで、前記行動内容は、動作内容及び表情内容のうちの少なくとも１つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。

前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第１の符号化ネットワークは、動作に対応する第３の符号化サブネットワークと、表情に対応する第４の符号化サブネットワークとをさらに含んでいてもよい。前記複数の入力ベクトルの各々を第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第３の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第３の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第４の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第４の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む。

これら２つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第１の符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第１の分類ネットワークは、動作に対応する第３の分類サブネットワーク、及び表情に対応する第４の分類サブネットワークもさらに含む。これら２つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第１の分類ネットワークと同様であるため、ここでは繰り返さない。

また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。

さらに、行動カテゴリに加えて、テキストに基づいて、該テキストが属する感情カテゴリをさらに決定することもできる。この場合、本開示による方法は、前記複数の入力ベクトルをそれぞれ第２の符号化ネットワークに入力する操作と、前記第２の符号化ネットワークから出力された、前記特定のシンボルに対応する第２の符号化ベクトルを第２の分類ネットワークに入力する操作と、前記第２の分類ネットワークの出力に基づいて、感情カテゴリを決定する操作と、をさらに含んでいてもよい。例えば、感情カテゴリは、「怒り」、「喜び」などを含んでもよいが、これらに限定されない。ここで、第２の符号化ネットワークは第１の符号化ネットワークに類似するものであり、また、これら２つのネットワークは、パラメーターの数が同じであるが、パラメーターの値が、場合によって同じであってもよく、異なっていてもよい。例えば、行動内容が表情内容のみを含む場合、第１の符号化ネットワーク及び第２の符号化ネットワークのパラメーターは同じであってもよい。あるいは、行動内容が動作内容のみを含む場合、第１の符号化ネットワーク及び第２の符号化ネットワークのパラメーターが異なってもよい。

上述した第１の符号化ネットワーク及び第１の分類ネットワークと同様に、前記第２の符号化ネットワーク及び第２の分類ネットワークもトレーニングが必要である。そのトレーニング方法は上述したトレーニング方法と同様である。絵文字表情の付いたウェイボーデータを、感情カテゴリをトレーニングするためのラベル付きデータとして使用できる。

この場合、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む。

行動カテゴリを独立変数と見なし、行動内容を従属変数と見なすと、感情カテゴリは、最終的な行動内容を決定するために行動カテゴリにさらなる次元を追加した独立変数と見なすことができる。

図６は、本開示の一実施形態によるアバターの行動制御の製品フローチャートを示す。図６に示す実施形態において、行動内容は動作内容及び表情内容の両方を含んでいてもよく、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。

まず、テキストをアルゴリズムによって処理し、各テキストに対応する表情、動作、及び感情を取得する。例えば、表情及び動作としては、現在広く使用されている絵文字の表情及び動作から選択することができる。もちろん、通常の表情や動作をさらに追加することによって、より正確な表情や動作を出力することもできる。感情は、怒り、喜びなど、テキストに含まれる感情のカテゴリである。表情及び動作は、文字又は単語の単位で正確にトリガーされる。つまり、テキストにおけるある特定の文字又は単語は、指定された動作及び表情をトリガーする。

そして、アルゴリズムに基づいて初期の表情及び動作を決定した後、動作マッピングテーブル及び表情マッピングテーブルを用いて、現在のテキストにおいてトリガーされるべき表情内容及び動作内容をそれぞれ決定する。各テキストから、必ずしも動作、表情、及び感情の３つのパラメーターを取得できないため、動作のみ、表情のみ、感情のみ、動作及び表情の両方、動作及び感情の両方、表情及び感情の両方、ならびに３つ全部ある、という７つの状況が生じる可能性がある。図７は、表情マッピングテーブルの一例を示す。図７に示す例は、動作、表情、及び感情の３つのパラメーターを有する場合に対応する。図７における「対応する既存の生放送表情ＩＤ」は、アバターが提示する表情を表し、動作ＩＤ、表情ＩＤ、及び感情ＩＤは、それぞれ、テキストに基づいて決定される動作、表情、及び感情に対応する。

図８は、本開示の一実施形態による行動生成プロセスの模式図を示す。図８に示す実施形態において、行動は動作及び表情の両方を含み、また、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。そして、動作カテゴリ、表情カテゴリ及び感情カテゴリに基づいて、特定のマッピングルールにより、アバターが提示すべき動作内容及び表情内容を決定する。図８における動作モデル及び表情モデルは、いずれも上述した第１の符号化ネットワーク及び第１の分類ネットワークによって実現することができる。ただし、具体的な動作モデル、表情モデル及び感情モデルによっては、対応する具体的なネットワークパラメーターは異なる。

なお、本明細書に記載されるマッピングルールは、アバターの存在する現在の場面に合わせてさらにスクリーニングすることができる。例えば、ニュース場面に対応するマッピングルールは、誇張された動作や表情をトリガーしない。

また、図８には、動作モデル、表情モデル及び感情モデルが示されているが、前述のように、本開示では、これに限定されない。例えば、テキストに基づく動作カテゴリのみの抽出、表情カテゴリのみの抽出、動作カテゴリ及び感情カテゴリの抽出、表情カテゴリ及び感情カテゴリの抽出、動作カテゴリ及び表情カテゴリの抽出、などの組み合わせの変形も、すべて本開示の範囲に含まれる。

図１に戻り、最後に、行動内容及び行動トリガー位置を決定した後、Ｓ１０４に進み、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。

ここで、実在の人が話すときの行動（例えば、表情）が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、トリガーされる行動をさらにファインチューニングしてもよい。

具体的には、前記行動内容を提示するように前記アバターを制御するステップは、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む。例えば、各行動変化パラメーターを調整できる。調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。以下は、行動変化パラメーターを調整するためのプログラムコードの例である。該コードでは、表情を例にして、表情を作る前の所定の時間の待機、表情のフェードイン、表情の保持期間、表情のフェードアウトなどを含む具体的なパラメーター調整設定が示されている。これによって、すべての表情変化が自然で一貫性があり、擬人化されるものであることを確保する。

private static readonly double [] DefaultRandomRanges = {
0,0.5 /*０秒～０．５秒待ってから表情を作る*/,
0.3,0.5 /*０．３秒から０．５秒以内に表情をフェードインさせる（無から有へ）*/,
0.75,1 /*作られた表情の係数に対する表情の最終的な度合いの割合は０．７５～１である*/,
0.5,1 /*表情の保持時間は０．５秒～１秒である*/,
0.3,0.5 /*０．１５秒から０．３秒以内に表情をフェードアウトさせる（有から無へ）*/,
0.1,0.25 /*作られた表情の係数に対する表情の回復度合いの割合は０．１～０．３である*/,
2,4 /*次のマイクロエクスプレッション（存在する場合）が現れるまでの保持時間は２秒～４秒である*/
};
private static readonly double [] BlinkEyesDefaultRandomRanges = {
0,0.5 /*０秒～０．５秒待ってから表情を作る*/,
0.167,0.167 /*表情のフェードイン（無から有へ）時間は０．１６７秒間である*/,
1,1 /*表情のフェードインレベルは１００％である*/,
0,0 /*表情を保持しない*/,
0.167,0.167 /*表情のフェードアウト（有から無へ）時間は０．１６７秒間である*/,
0,0 /*表情が完全に消えるまでフェードアウトする*/,
2,4 /*次のマイクロエクスプレッション（存在する場合）が現れるまでの保持時間は２秒～４秒である*/
};

以上では、図１から図８を参照して本開示によるテキストに基づくアバターの行動制御方法について詳細に説明した。図１～図８から分かるように、本開示による方法において、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。

さらに、本開示において、ＢＥＲＴモデルを使用して第１の符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。以下の表１は、ＢＥＲＴモデルに基づくテキスト分類モデルとＣＮＮに基づくテキスト分類モデルの動作、表情、及び感情カテゴリにおける精度をそれぞれ示す。

次に、図９を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスについて説明する。図９に示すように、前記デバイス１０００は、ベクトル化装置１００１と、行動トリガー位置決定装置１００２と、行動内容決定装置１００３と、行動提示装置１００４とを含む。

ベクトル化装置１００１は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するために用いられる。前記特定のシンボルは、テキストの分類を表すものである。

ここで、テキストは、通常、１つの文である。また、例えば、前記特定のシンボルは、テキストの分類を表すためのＣＬＳ（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ、分類）シンボルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。

特定のシンボルを挿入した後、ベクトル化装置１００１は、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、ベクトル化装置１００１は、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。

行動トリガー位置決定装置１００２は、前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するために用いられる。ここで、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。例えば、第１の符号化ネットワークはＢＥＲＴモデルによって実現することができる。

前述のように、アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素（文字／単語）に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。

ＢＥＲＴモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字／単語情報を用いて対象とする文字／単語のセマンティクス表現を強化する。また、本開示によるＢＥＲＴモデルにおいて、テキストの分類を表すためのＣＬＳ（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ、分類）シンボルがさらに挿入されている。テキストに含まれている他の文字／単語と比較して、挿入されたＣＬＳシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字／単語のセマンティクス情報をより「公正」に統合することができる。したがって、ＣＬＳシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字／単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字／単語の重要性が高くなる。

本開示による方法において、テキストにおける最も重要な文字／単語の位置で、アバターを対応する行動を提示するように制御することが好適であると考えられる。したがって、行動トリガー位置決定装置１００２は、テキストにおける最も重要な文字／単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルがテキストにおける各文字／単語の重要性を反映できるため、行動トリガー位置決定装置１００２は、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。

具体的には、第１の符号化ネットワークがネットワークノードを１層のみ有する場合、前記行動トリガー位置決定装置１００２は、さらに、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するように配置される。

第１の符号化ネットワークが多層のネットワークノードを有する場合、前記行動トリガー位置決定装置１００２は、さらに、前記第１の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。

行動内容決定装置１００３は、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するために用いられる。

前述のように、前記第１の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第１の符号化ベクトルを出力する。第１の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルＣＬＳが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字／単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する、出力の第１の符号化ベクトルをテキスト全体のセマンティクス表現とする。

前記行動内容決定装置１００３は、さらに、前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルを第１の分類ネットワークに入力する処理と、前記第１の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。

前記第１の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第１の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、ｓｏｆｔｍａｘ関数により０～１の範囲内の値に正規化することができる。具体的には、前記第１の分類ネットワークの出力は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。前記行動内容決定装置１００３は、行動予測ベクトルのうちの最大の確率値に対応するカテゴリを、テキストが属する行動カテゴリとする。

あるいは、別の可能な実施形態として、前記行動内容決定装置１００３は、さらに、前記第１の分類ネットワークの出力に基づいて、行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。

言い換えれば、テキストが属する行動カテゴリを決定するとき、前記行動内容決定装置１００３は、第１の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値が所定の閾値よりも小さい場合、前記行動内容決定装置１００３は、第１の分類ネットワークから出力された行動予測結果の信頼度は低いと見なす。この場合、前記行動内容決定装置１００３は、第１の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値が所定の閾値よりも大きい場合、前記行動内容決定装置１００３は、第１の分類ネットワークから出力された行動予測結果の信頼度は高いと見なす。この場合、前記行動内容決定装置１００３は、第１の分類ネットワークの予測結果を採用する。

最後に、前記行動内容決定装置１００３は、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。

前述のように、前記行動内容は、動作内容及び表情内容のうちの少なくとも１つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。

前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第１の符号化ネットワークは、動作に対応する第３の符号化サブネットワークと、表情に対応する第４の符号化サブネットワークとをさらに含んでいてもよい。これら２つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第１の分類ネットワークは、動作に対応する第３の分類サブネットワーク、及び表情に対応する第４の分類サブネットワークもさらに含む。これら２つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第１の分類ネットワークと同様であるため、ここでは繰り返さない。

また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、前記行動内容決定装置１００３は、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。

さらに、行動カテゴリに加えて、テキストに基づいて、前記テキストが属する感情カテゴリをさらに決定することもできる。この場合、前記行動内容決定装置１００３は、さらに、前記複数の入力ベクトルをそれぞれ第２の符号化ネットワークに入力する処理と、前記第２の符号化ネットワークから出力された、前記特定のシンボルに対応する第２の符号化ベクトルを第２の分類ネットワークに入力する処理と、前記第２の分類ネットワークの出力に基づいて、前記テキストが属する感情カテゴリを決定する処理とを実行するように配置される。

前記行動内容決定装置１００３は、さらに、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するために、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行するように配置される。

最後に、前記行動トリガー位置決定装置１００２が行動トリガー位置を決定し、前記行動内容決定装置１００３が行動内容を決定した後、前記行動提示装置１００４を用いて、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。

ここで、実在の人が話すときの行動（例えば、表情）が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、前記行動提示装置１００４は、トリガーされる行動をさらにファインチューニングしてもよい。

具体的には、前記行動提示装置１００４は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置されてもよい。例えば、調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。

上記のことから分かるように、本開示によるデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。

さらに、本開示において、ＢＥＲＴモデルを使用して符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。

本開示の実施形態によるアバターの行動制御デバイスは、上述したアバターの行動制御方法に完全に対応しているため、アバターの行動制御デバイスの説明において、多くの細部は省略される。上述したアバターの行動制御方法のすべての細部がアバターの行動制御デバイスに同様に適用できることは、当業者に理解されるであろう。

さらに、本開示の実施形態による方法又はデバイスは、図１０に示すコンピューティングデバイス１１００のアーキテクチャによって実現することができる。図１０に示すように、コンピューティングデバイス１１００は、バス１１１０、１つ又は複数のＣＰＵ１１２０、リードオンリーメモリ（ＲＯＭ）１１３０、ランダムアクセスメモリ（ＲＡＭ）１１４０、ネットワークに接続された通信ポート１１５０、入力／出力コンポーネント１１６０、ハードディスク１１７０などを含んでいてもよい。ＲＯＭ１１３０やハードディスク１１７０などのコンピューティングデバイス１１００内の記憶デバイスには、本開示によって提供されるアバターの行動制御方法の処理及び／又は通信に使用される各種のデータやファイル、及びＣＰＵによって実行されるプログラム命令が格納されてもよい。もちろん、図１０に示すアーキテクチャは例示的なものに過ぎず、別のデバイスを実現するとき、実際の必要性に応じて、図１０に示すコンピューティングデバイス内の１つ又は複数のコンポーネントを省略してもよい。

また、本開示の実施形態は、コンピュータ読み取り可能な記憶媒体として実現されてもよい。本開示の実施形態によるコンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が格納されている。前記コンピュータ読み取り可能な命令がプロセッサによって実行されると、上記の添付図面を参照して説明された本開示の実施形態によるアバターの行動制御方法を実行することができる。前記コンピュータ読み取り可能な記憶媒体は、例えば、揮発性メモリ及び／又は不揮発性メモリを含むが、これらに限定されない。前記揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）を含んでいてもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでいてもよい。

以上、図１から図１０を参照して本開示の各実施形態によるアバターの行動制御方法及びデバイスについて詳細に説明した。本開示の各実施形態によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。

なお、本明細書において、「含む」、「有する」という用語、又はその他のいかなる変形は、非排他的な「含む」をカバーすることを意図しているため、一連の要素を含むプロセス、方法、物品又はデバイスは、それらの要素を含むだけでなく、明記されていない他の要素、あるいは、そのようなプロセス、方法、物品、又はデバイスに固有の要素も含む。これ以上の制限がない場合、「・・・を含む」という記述により限定される要素は、前記要素を含むプロセス、方法、物品又はデバイス内の別の同じ要素の存在を排除しない。

最後に、上記の一連の処理は、本明細書に記載されている順序で時系列に行われる処理を含むだけでなく、時系列ではなく並行して行われる処理又は別々に行われる処理も含むことに注意されたい。

以上の実施形態の説明により、本出願がソフトウェア及び必要なハードウェアプラットフォームによって実現できるだけでなく、ソフトウェアのみによって実施することも可能であることは、当業者に明らかであろう。このような理解を踏まえ、背景技術に対する本出願の技術的解決手段の効果のすべて又は一部をソフトウェア製品として具体化することができる。該コンピュータソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなどの記憶媒体に格納することができ、コンピュータデバイス（パーソナルコンピュータ、サーバー、又はネットワークデバイスなどであってもよい）に、本出願の各実施形態又は実施形態の一部に記載されている方法を実行させるための複数の命令を含む。

上記では、本出願について詳細に説明した。本明細書において、具体的な例を挙げて本出願の原理と実施形態を説明した。上記の実施形態の説明は、本出願の方法やその趣旨への理解に役立つためのものに過ぎない。また、当業者は、本出願の趣旨に則して、発明を実施するための形態とその適用範囲の変更を行うことができる。要するに、本明細書の内容は、本出願を限定するものとして解釈されるべきではない。

Claims

電子デバイスによって実行される、テキストに基づくアバターの行動制御方法であって、
テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものであるステップと、
前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものであるステップと、
前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するステップと、
前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む方法。
前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
前記第１の符号化ネットワークの各層における前記特定のシンボルに対応するネットワークノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得するステップと、
前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップと、を含む請求項１に記載の方法。
前記第１の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第１の符号化ベクトルを出力し、
前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定する前記ステップは、
前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルを第１の分類ネットワークに入力するステップと、
前記第１の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定するステップと、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップと、を含む請求項１又は２に記載の方法。
前記特定の行動マッピングは、行動マッピングテーブルを含み、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む、請求項３に記載の方法。
前記特定の行動マッピングは、前記アバターの適用場面によって異なる、請求項３に記載の方法。
前記第１の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す、請求項３に記載の方法。
前記第１の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する前記ステップは、
前記行動予測ベクトルのうちの最大の確率値を決定するステップと、
前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含む請求項６に記載の方法。
前記複数の入力ベクトルをそれぞれ第２の符号化ネットワークに入力するステップと、
前記第２の符号化ネットワークから出力された、前記特定のシンボルに対応する第２の符号化ベクトルを第２の分類ネットワークに入力するステップと、
前記第２の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定するステップと、をさらに含み、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む、請求項３に記載の方法。
前記行動内容は、動作内容及び表情内容のうちの少なくとも１つを含む、請求項１から８のいずれか一項に記載の方法。
前記行動内容が動作内容と表情内容の両方を含む場合、前記第１の符号化ネットワークは、第３の符号化サブネットワークと第４の符号化サブネットワークとを含み、
前記複数の入力ベクトルの各々を第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第３の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第３の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、
前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第４の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第４の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む請求項９に記載の方法。
前記行動内容を提示するように前記アバターを制御する前記ステップは、
前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む、請求項１から１０のいずれか一項に記載の方法。
前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも１つを含む、請求項１１に記載の方法。
テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、前記ベクトル化装置と、
前記複数の入力ベクトルの各々を少なくとも１層のネットワークノードを含む第１の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、前記行動トリガー位置決定装置と、
前記第１の符号化ネットワークから出力された、前記特定のシンボルに対応する第１の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、
前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するようにアバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイス。
プロセッサと、
前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、請求項１から１２のいずれか一項に記載の方法を実行する、コンピュータデバイス。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサは、請求項１から１２のいずれか一項に記載の方法を実行する、コンピュータプログラム。