JP2024506171A

JP2024506171A - Ｃａｓａ：対話理解のための会話態様の感情分析のための方法、装置およびプログラム

Info

Publication number: JP2024506171A
Application number: JP2023547681A
Authority: JP
Inventors: リンフェン・ソン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-10-18
Filing date: 2022-08-25
Publication date: 2024-02-09
Also published as: KR20230104983A; WO2023069194A1; US20230118506A1; CN116391188A

Abstract

入力された対話を取得するステップと、入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、入力された対話に対応する文の埋め込みに基づいて極性値を生成するステップと、感情表現および文の埋め込みに基づいて感情表現のうちの少なくとも１つに関連付けられたターゲット言及を決定するステップであって、ターゲット言及を決定するステップは、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成するステップと、計算された境界に基づいてターゲット言及を決定するステップであって、計算された境界がリッチコンテキスト表現を使用して生成される、ステップとを含むコンピュータコードを含む、マルチターン会話のための感情分析のための方法および装置が含まれる。

Description

関連出願の相互参照
本願は、２０２１年１０月１８日に米国特許商標庁に出願された米国出願第１７／５０３，５８４号の優先権を主張し、その開示の全体は参照により本明細書に組み込まれる。

本開示の実施形態は、感情分析の分野に関する。より具体的には、本開示は、対話応答生成および会話型質問応答などの対話理解に関する。

チャットの対話をモデル化することは、人間－コンピュータ通信を容易にするその可能性のために重要な分野である。これまでのほとんどの研究は、表面特徴のみを消費するエンドツーエンドのニューラルネットワークの設計に焦点を当ててきた。しかしながら、これらのモデルは、マルチターン会話のシナリオでは満足のいくものではない。具体的には、これらのモデルは、会話中での受動的な挙動、および往々にして互いに一貫性がないマルチターン応答などの問題を抱えている。

意味のある応答を生成するために、知識グラフ（ＫＧ）、常識的知識、性格および感情の影響が調査されている。しかしながら、そのような知識、例えば関連するＫＧは、通常、対話で明示的に表現されず、したがって、意味のあるものとするために、人間の注釈がベンチマークデータセットと共に必要とされる。さらに、ＫＧは現実世界のシナリオでは取得が困難であり、多くの場合、必要なステップとしてエンティティリンクを必要とするため、関連するＫＧを利用すると付加的なエラーが発生する可能性がある。

本開示は１つ以上の技術的課題に対処する。本開示は、きめ細かい感情の情報を理解し、対話の理解を助けるために使用することができる、対話から内部知識を抽出するための方法および／または装置を提案する。本開示は、アスペクトベースの感情分析を会話シナリオの感情分析に適合させる。例として、本開示の実施形態によれば、会話態様感情分析は、対話からユーザの意見、極性、および対応する言及を抽出することができる。人間は、自分が話しているエンティティに関連して自分の感情を表現することが多いという理解に基づくと、感情、極性、および言及を抽出することは、有用な特徴および一般的なドメイン理解をもたらすことができる。より具体的には、対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。感情および言及を明示的に抽出する別の利点は、同じ感情および言及のペアが様々なテキストに現れる可能性があり、モデルの解釈性を高め、この知識を他の知識（例えば、ＫＧ）と組み合わせることをより容易にするため、データのスパース性の緩和を含む。

本開示は、コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されると動作するように構成された１つまたは複数のプロセッサとを備えるマルチターン会話のための感情分析用の方法および装置を含む。コンピュータプログラムコードは、少なくとも１つのプロセッサに、入力された対話を取得させるように構成された、第１の取得コードと、入力された対話に対応する文の埋め込みに基づいて感情表現を少なくとも１つのプロセッサに抽出させるように構成された第１の抽出コードと、少なくとも１つのプロセッサに、入力された対話に対応する文の埋め込みに基づいて極性値を生成させるように構成された第１の生成コードと、少なくとも１つのプロセッサに、感情表現および文の埋め込みに基づいて感情表現のうちの少なくとも１つに関連付けられたターゲット言及を決定させるように構成された第１の決定コードとを含み、第１の決定コードは、少なくとも１つのプロセッサに、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成させるように構成された第２の生成コードと、少なくとも１つのプロセッサに、計算された境界に基づいてターゲット言及を決定させるように構成された第２の決定コードであって、計算された境界は、リッチコンテキスト表現を使用して生成される、第２の決定コードとを含む。

実施形態によれば、第２の生成コードは、少なくとも１つのプロセッサに、文の埋め込みに基づいてターンワイズ距離を生成させるように構成された第３の生成コード、少なくとも１つのプロセッサに、文の埋め込みに基づいて話者情報を生成させるように構成された第４の生成コードであって、話者情報は、入力された対話が同じ話者からのものであるかどうかを示す、第４の生成コード、および少なくとも１つのプロセッサに、ターンワイズ距離、話者情報、および感情表現を連結させるように構成された第１の連結コード、を含む。

実施形態によれば、第２の決定コードは、少なくとも１つのプロセッサに、１つまたは複数の注意層を使用してリッチコンテキスト表現および感情表現に基づいて分布を生成させるように構成された第５の生成コード、および少なくとも１つのプロセッサに、分布の境界に基づいてターゲット言及を決定させるように構成された第３の決定コードを含む。

実施形態によれば、分布を生成するステップが、１つまたは複数の注意層の各々の分布の積を決定するステップを含む。

実施形態によれば、分布の境界に基づいてターゲット言及を決定するステップは、複数のスコアから最高スコアに基づいて分布の境界を選択するステップを含み、複数のスコアは、１つまたは複数の注意層の各々の分布の積を決定することによって生成される。

実施形態によれば、第１の抽出コードは、少なくとも１つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第６の生成コードと、少なくとも１つのプロセッサに、複数のタグに基づいて感情表現を推測させるように構成された第１の推測コードを含む。

実施形態によれば、第１の生成コードは、少なくとも１つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第６の生成コードと、少なくとも１つのプロセッサに、複数のタグに基づいて感情表現を推測させるように構成された第１の推測コードを含む。

実施形態によれば、極性値は、正、負、または中性のうちの１つである。

実施形態によれば、文の埋め込みは、入力された対話に基づいて生成される。

［１］本開示の主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。図１の１つまたは複数のデバイスの例示的な構成要素の図である。本開示の実施形態による、感情抽出のためのモデルを示す簡略ブロック図である。本開示の実施形態による、言及抽出のためのモデルを示す簡略ブロック図である。本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。

本開示は、きめ細かい感情の情報を理解し、対話の理解を助けるために使用することができる、対話からの内部知識の抽出に関する。本開示は、アスペクトベースの感情分析を会話シナリオの感情分析に適合させる。例として、本開示の実施形態によれば、会話態様感情分析は、対話からユーザの意見、極性、および対応する言及を抽出することができる。人間は、自分が話しているエンティティに関連して自分の感情を表現することが多いという理解に基づくと、感情、極性、および言及を抽出することは、有用な特徴および一般的なドメイン理解をもたらすことができる。より具体的には、対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。感情および言及を明示的に抽出する別の利点は、同じ感情および言及のペアが様々なテキストに現れる可能性があり、モデルの解釈性を高め、この知識を他の知識（例えば、ＫＧ）と組み合わせることをより容易にするため、データのスパース性の緩和を含む。

表１のマルチターン会話の例を考える。

対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。例として、ユーザが自分が「リオネル・メッシ」というサッカー選手の熱狂的なファンであることを言及する場合、チャットボットはメッシの最近のニュースに言及することができる。さらに、明示的な感情、極性、および／または言及抽出は、対話履歴全体を理解することを含むことができるので、抽出を他の知識（例えば、外部ＫＧ）と組み合わせることをより容易にし、モデルをより解釈可能にすることができる。「リオネル・メッシ」の例を続けると、感情およびモデル抽出の解析結果を外部のＫＧと組み合わせることによって、チャットボットは、メッシのサッカークラブ「フットボールクラブバルセロナ」の最近の試合を推奨することさえできる。

利用可能なデータセットでは、感情分析は非常に限られた数のインスタンスを含み、それらは少数のドメイン（ホテルやレストランのレビューなど）しかカバーしないが、毎日の会話はオープンドメインである。さらに、これらのデータセットでは、感情表現は通常、その対応する態様に近いか、または短い文の中で言及される。しかしながら、実際には、感情表現およびそれらの言及または態様は、乖離しているいくつかの記述であり、省略符号および照応がより複雑な推論を導入していてもよい。例として、表１からの文を考えてみる：「メッシ」という言及は第３の発話に現れるが、対応する感情語「すごい」は第５の発話にある。さらに、「ネイマール」は、非常に紛らわしい候補者の言及としてさらなる課題を取り込む。これは、より多くい回数での内的折り目付けの複雑さは言うまでもなく、単なる３ターンの例である。

実施形態によれば、感情抽出は、最後のユーザ発話からすべての感情表現を見つけ、抽出された各感情表現の極性を判定することができる。実施形態によれば、言及抽出は、各感情表現について対話履歴から対応する言及を抽出することができる。言及抽出は、長距離依存性のモデリングを支援するために文毎の話者および話者ＩＤに関する情報などの豊富な特徴を使用して、対話履歴全体を理解することを含むことができる。

いくつかの実施形態では、例示的または訓練データセットに手動で注釈を付けることができる。例として、データセットは、複数のデータセットからの多くの対話を含むことができ、各対話は複数の文を含むことができる。最初のパスとして、人間および／または専門家のアノテータは、各対話に注釈付けおよび／またはラベル付けするように求められてもよい。いくつかの実施形態では、彼らは最新技術によるガイドラインに基づいて注釈を付けるように求められてもよい。注釈は、文での感情表現だけでなく、各言及の極性値も含むことができる。注釈は、他のガイドラインに従うことができる。例として、注釈付きの言及は具体的でなければならない。同じエンティティに対応する複数の言及については、最も具体的なもののみが注釈付けされなければならない；明示的なユーザの意見に対してモデルを訓練するために、対応する感情表現に関わる言及のみに注釈を付けることができる。

以下で説明される提案された機能は、別々に使用されるか、または任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路（例えば、１つ以上のプロセッサまたは１つ以上の集積回路）によって実施されてもよい。一例では、１つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

図１は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境１００の図である。

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、およびネットワーク１３０を含んでもよい。環境１００のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせによって相互接続できる。

ユーザデバイス１１０は、プラットフォーム１２０に関連する情報を受信、生成、保管、処理、および／または提供できる１つ以上のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、スマートグラスもしくはスマートウォッチ）、または同様のデバイスを含んでもよい。いくつかの実装において、ユーザデバイス１１０はプラットフォーム１２０から情報を受信でき、および／またはプラットフォームへ情報を送信できる。

プラットフォーム１２０は本書の他所で説明されている１つ以上のデバイスを含む。いくつかの実装形態では、プラットフォーム１２０は、クラウドサーバまたは一群のクラウドサーバを含んでもよい。いくつかの実装形態では、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム１２０は、異なる用途向けに、容易かつ／または迅速に復元されてもよい。

いくつかの実装では、図示されているように、プラットフォーム１２０がクラウドコンピューティング環境１２２でホストされてよい。特に、本書で説明されている実装は、プラットフォーム１２０をクラウドコンピューティング環境１２２でホストされているものとして説明しているが、いくつかの実装において、プラットフォーム１２０はクラウドベースでなくてよく（すなわち、クラウドコンピューティング環境の外で実装されてよい）、または部分的にクラウドベースであってよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホスティングによって提供する１つ以上のシステムおよび／または１つ以上のデバイスの物理的な位置および構成についてのエンドユーザ（例えばユーザデバイス１１０）による認識を必要としない計算サービス、ソフトウェアサービス、データアクセスサービス、記憶サービスなどを提供してもよい。図示されたように、クラウドコンピューティング環境１２２は、（まとめて「コンピューティングリソース１２４」と呼ばれ、個別に「コンピューティングリソース１２４」と呼ばれる）コンピューティングリソース１２４のグループを含んでもよい。

コンピューティングリソース１２４は、１つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他の種類の計算および／または通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース１２４は、プラットフォーム１２０をホストしてもよい。クラウドリソースは、コンピューティングリソース１２４で実行する計算インスタンス、コンピューティングリソース１２４内に設けられるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含み得る。いくつかの実装において、コンピューティングリソース１２４は、有線接続、無線接続、または有線接続と無線接続との組み合わせを通じて他のコンピューティングリソース１２４と通信できる。

図１にさらに示されているように、コンピューティングリソース１２４は、１つ以上のアプリケーション（「ＡＰＰ」）１２４－１、１つ以上の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つ以上のハイパーバイザ（「ＨＹＰ」）１２４－４など、１群のクラウドリソースを含む。

アプリケーション１２４－１は、ユーザデバイス１１０および／またはプラットフォーム１２０に提供され得る、またはユーザデバイス１１０および／またはプラットフォーム１２０によってアクセスされ得る、１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０にソフトウェアアプリケーションをインストールして実行する必要性を排除してもよい。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連付けられたソフトウェア、および／またはクラウドコンピューティング環境１２２を介して提供することができる他の任意のソフトウェアを含んでもよい。いくつかの実装では、ある１つのアプリケーション１２４－１が仮想マシン１２４－２を通じて１つ以上の他のアプリケーション１２４－１との間で情報を送受信できる。

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装形態を含む。仮想マシン１２４－２は、仮想マシン１２４－２による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたは処理仮想マシンのいずれかとすることができる。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供することができる。処理仮想マシンは、単一のプログラムを実行し、単一の処理をサポートすることができる。いくつかの実装形態では、仮想マシン１２４－２は、ユーザ（例えば、ユーザデバイス１１０）の代わりに動作することができ、データ管理、同期、または長期データ転送などのクラウドコンピューティング環境１２２の基盤を管理することができる。

仮想化ストレージ１２４－３は、コンピューティングリソース１２４のストレージシステムまたはデバイス内で仮想化技術を使用する１つ以上のストレージシステムおよび／または１つ以上のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージまたは異種構造に関係なくストレージシステムがアクセスされ得るように、物理ストレージからの論理ストレージの抽象化（または分離）を指すことができる。分離は、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法における柔軟性を可能にし得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶されている場所との間の依存関係を排除し得る。これは、ストレージ使用、サーバ統合、および／または中断しないファイル移行の性能の最適化を可能にすることができる。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）をコンピューティングリソース１２４などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供することができる。ハイパーバイザ１２４－４は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示し得、ゲストオペレーティングシステムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスが仮想化ハードウェアリソースを共有できる。

ネットワーク１３０は、１つまたは複数の有線および／または無線のネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多元接続（ＣＤＭＡ）ネットワークなど）、公的地域モバイルネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および／またはそれらもしくは他のタイプのネットワークの組み合わせを含んでもよい。

図１に示されているデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図１に示すものに比べて、追加のデバイスおよび／もしくはネットワーク、少ないデバイスおよび／もしくはネットワーク、異なるデバイスおよび／もしくはネットワーク、または異なる配置のデバイスおよび／もしくはネットワークがあってもよい。さらに、図１に示される２つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図１に示される単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境１００のデバイスのセット（例えば、１つまたは複数のデバイス）は、環境１００のデバイスの別のセットによって実行されるものとして記載された１つまたは複数の機能を実行することができる。

図２は、図１の１つまたは複数のデバイスの例示的な構成要素のブロック図である。

デバイス２００は、ユーザデバイス１１０および／またはプラットフォーム１２０に対応してもよい。図２に示すように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、記憶構成要素２４０、入力構成要素２５０、出力構成要素２６０、および通信インターフェース２７０を含んでもよい。

バス２１０は、デバイス２００の構成要素間の通信を可能にする構成要素を含む。プロセッサ２２０は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ２２０は、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、加速処理装置（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、または別のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ２２０は、機能を実施するようにプログラムすることができる１つまたは複数のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、ならびに／またはプロセッサ２２０が使用するための情報および／もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、および／もしくは光メモリ）を含む。

記憶構成要素２４０は、デバイス２００の動作および使用に関連する情報および／またはソフトウェアを記憶する。例えば、記憶構成要素２４０は、対応するドライブとともに、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／もしくはソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、ならびに／または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。

入力構成要素２５０は、デバイス２００がユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイクロフォン）などを介して情報を受信することを可能にする構成要素を含む。追加または代替として、入力構成要素２５０は、情報を検知するためのセンサ（例えば、全地球測位システム（ＧＰＳ）構成要素、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含んでもよい。出力構成要素２６０は、デバイス２００（例えば、ディスプレイ、スピーカ、および／または１つもしくは複数の発光ダイオード（ＬＥＤ））からの出力情報を提供する構成要素を含む。

通信インターフェース２７０は、デバイス２００が有線接続、無線接続、または有線接続と無線接続の組み合わせなどを介して他のデバイスと通信することを可能にする、トランシーバ様の構成要素（例えば、トランシーバならびに／または別個の受信機および送信機）を含む。通信インターフェース２７０は、デバイス２００が別のデバイスから情報を受信し、かつ／または別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェース２７０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラーネットワークインターフェースなどを含んでもよい。

デバイス２００は、本明細書に記載された１つまたは複数の処理を実行することができる。デバイス２００は、プロセッサ２２０がメモリ２３０および／または記憶構成要素２４０などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行したことに応答して、これらのプロセスを実行し得る。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース２７０を介して別のデバイスから、メモリ２３０および／または記憶構成要素２４０に読み込まれてもよい。メモリ２３０および／または記憶構成要素２４０に記憶されたソフトウェア命令は、実行されると、本明細書に記載された１つまたは複数のプロセスをプロセッサ２２０に実行させ得る。追加的または代替的に、本明細書に記載された１つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。このように、本明細書に記載された実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されない。

図２に示す構成要素の数および配置は、一例として提供されている。実際には、デバイス２００は、図２に示された構成要素に比べて、追加の構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加または代替として、デバイス２００の構成要素のセット（例えば、１つまたは複数の構成要素）は、デバイス２００の構成要素の別のセットによって実行されるものとして記載された１つまたは複数の機能を実行することができる。

図３は、本開示の実施形態による、感情抽出のための例示的なモデル３００を示す簡略図である。

実施形態によれば、マルチターン会話を理解するための会話態様感情分析のための入力は、１つまたは複数の入力された対話であってもよい。マルチターン会話は、１人以上の話者からの１つ以上の文を含む対話の発話であってもよい。例として、マルチターン会話は、前の質問および／または文のコンテキストが応答または次の質問および／または文に影響を与える前後の会話であってもよい。入力された対話は、１つまたは複数の文を含むことができる。いくつかの実施形態では、マルチターン会話を理解するための会話態様の感情分析のための入力は、単語に分解された１つまたは複数の入力された対話および／または文であってもよい。例として、対話の発話のリストは、Ｘ_１，Ｘ_２，．．．，Ｘ_ｉ、ここで、Ｘ_ｉは、対話の発話の文であり、および
ここで、
は、最新の対話のターンにおける入力される単語（３１０）を表し、Ｎ_ｉは、Ｘ_ｉの長さを表す、を含むことができる。

感情抽出は、入力された対話から全感情表現を抽出することを含んでもよい。極性抽出は、各感情に対応する極性値を抽出することを含み得る。例として、感情および／または極性抽出（３６０）は、すべての感情表現｛ｓ_１，．．．，ｓ_Ｍ｝およびＸ_ｉからのそれらの極性値｛ｐ_１，．．．，ｐ_Ｍ｝（感情抽出、ＳＥ）を抽出することを含むことができる。いくつかの実施形態では、各感情表現は、入力された対話の単語および／または句であってもよい。例として、感情表現ｓ_ｊは、順番Ｘ_ｉの中の単語または句とすることができ、その極性値ｐ_ｊは、３つの可能な値：－１（負）、０（中性）、および＋１（正）から選択される。

いくつかの実施形態では、センテンスエンコーダ（３２０）を使用して、入力された対話から感情表現および極性値を特定することができる。例として、センテンスエンコーダ（３２０）を使用することができ、センテンスエンコーダ（３２０）は、感情表現の抽出およびそれらの極性の検出をシーケンスラベリングタスクとして扱うようにモデル化することができる。いくつかの実施形態では、センテンスエンコーダ（３２０）は、予め訓練されたＢＥＲＴモデルなどの予め訓練されたモデルを採用して、入力される単語（３１０）
に対するコンテキスト依存埋め込みを生成することができる。いくつかの実施形態では、センテンスエンコーダ（３２０）は、入力された文
のためのコンテキスト依存埋め込み（３３０）を生成するために、複数の自己注意層を採用することができる。コンテキスト依存の文の埋め込み（３３０）の生成は、以下のようになり得る式（１）を使用して表すことができる。

いくつかの実施形態では、コンテキスト依存の文の埋め込み（３３０）は、入力される単語、文、および／または対話ごとに複数のタグを生成するために、中性ネットワークおよび／または機械学習済みモデル（３４０）に入力されてもよい。例として、コンテキスト依存の文の埋め込み（３３０）
は、入力される単語（３１０）（例えば、
）ごとに１つまたは複数のタグ（３５０）を予測するために、複数の出力ユニットおよびソフトマックス活性化に関する多層パーセプトロン（ＭＬＰ）に入力されてもよい。次いで、文の表現およびそれらの極性を、１つまたは複数のタグから推測することができる。例として、モデルは、表１の文「彼の総合成績はすごい！」に対してタグ「○○○○Ｐｏｓ－Ｂ○」を生成すると仮定され、次いで、それらのタグから肯定的な感情表現「すごい」が検出される。

図４は、本開示の実施形態による、言及抽出のための例示的なモデル４００を示す簡略図である。

いくつかの実施形態では、感情表現およびそれらの極性を言及抽出器モデルに入力して、少なくとも１つの感情表現について対応する言及を抽出することができる。いくつかの実施形態では、各感情表現ｓ_ｊについて対応する言及ｍ_ｊを抽出するために言及エンコーダ（４２０）を採用することができる。いくつかの実施形態では、言及抽出は、感情表現およびコンテキスト依存の文の埋め込みに基づいてもよい。いくつかの実施形態では、言及抽出は、感情表現およびコンテキスト埋め込みに基づく入力連結（４１０）に基づいてもよい。例として、すべての対話のターン
と関連表現ｓ_ｊとの連結は、言及エンコーダ（４２０）への入力として使用されてもよい。いくつかの実施形態では、言及エンコーダ（４２０）は、コンテキスト埋め込みを取得するために、自己注意および／または予め訓練されたＢＥＲＴに基づく１つまたは複数のエンコーダを使用して実装され得る。コンテキスト埋め込みの生成は、以下の式（２）を使用して表すことができる。
ここで、
は感情表現ｓ_ｊのトークンを表し、［ＳＥＰ］は文脈と感情表現とを分離する人工的なトークンとすることができる。いくつかの実施形態では、最後のサブ単語単位のベクトルを使用して単語レベル表現を取得することができる。

言及抽出は、対話全体を通してより長距離の推論を必要とする場合がある。いくつかの実施形態では、クロスセンテンス相関をモデル化するためのターンワイズ距離および話者情報を含む豊富な特徴を使用することができる。いくつかの実施形態では、特徴抽出器（４３０）を使用して、ターンワイズ距離および話者情報を含む豊富な特徴を生成し、クロスセンテンス相関をモデル化することができる。いくつかの実施形態では、ターンワイズ距離は、［０，１，２，３，４，５＋，８＋，１０＋］にバケットした現在のターンに対する相対距離であってもよい。話者情報は、対話履歴のトークンが現在のターンと同じ話者からのものであるかどうかを示すバイナリ特徴であってもよい。両方のタイプの情報は、埋め込みによって表されてもよい。例として、
および
は、トークン
に対する距離埋め込み（ターンワイズ距離）および話者埋め込み（話者情報）に対応することができる。距離埋め込み、話者埋め込み、文の埋め込み、および／またはコンテキスト埋め込みは、エンコーダ出力（すなわち、
）と連結されて、リッチコンテキスト表現（４４０）を取得することができる；
ここで、
は連結操作を表す。いくつかの実施形態では、連結された対話履歴表現は、リッチコンテキスト表現（４４０）を使用して生成され得る。連結された対話履歴表現は、入力された対話のすべての文のリッチコンテキスト表現の連結として表現されてもよい。

いくつかの実施形態では、感情表現ｓ_ｊ全体を表す平均ベクトル表現（４５０）は、その中のすべてのトークンのコンテキスト表現を平均化することによって生成することができる。平均ベクトル表現（４５０）は、式（５）を使用して表すことができる。
ここで、Ｌはｓ_ｊの長さである。感情表現の平均ベクトル表現（４５０）（
）およびクエリおよびメモリとしての連結された対話履歴表現（
）を使用し、１つまたは複数の注意モデル（４６０）を使用して、ターゲット言及の開始（ｓｔ）および終了（ｅｄ）境界の分布（４７０）をそれぞれ計算することができる。２つの注意モデルが使用される場合、ターゲット言及の全体分布（４７０）は、両方の分布の積として定義され得る：
φ＝φ_ｓｔφ_ｅｄ．．．．．．．．．．．．式（８）

実施形態によれば、ターゲット言及（ｓｔ，ｅｄ）は、φ［ｓｔ，ｅｄ］から最高スコアをもたらす境界ｓｔおよびｅｄの両方を選択することによって生成され得、ここでｓｔ≦ｅｄであり、ｓｔおよびｅｄは同じ発話にあってもよい。

図５は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス５００を示す簡略化されたフローチャートである。

動作５１０において、感情表現は、入力された対話、文、および／または単語に対応する文の埋め込みから抽出され得る。例として、入力される単語（３１０）を使用して感情表現を抽出することができる。いくつかの例では、感情表現は、エンコーダを使用して入力された対話、文、および／または単語から抽出されてもよい。例として、センテンスエンコーダ（３２０）を使用して感情表現を抽出することができる。いくつかの実施形態では、特定のセンテンスエンコーダを使用することができる。いくつかの実施形態では、任意の方法および／またはモデルをエンコーダとして使用することができる。

いくつかの実施形態では、入力された対話、文、および／または単語を取得することを含む感情表現を抽出する前に実行される先行動作があり得る。いくつかの実施形態では、感情表現を抽出することは、予め訓練された機械学習済みモデルを使用して複数のタグを生成し、複数のタグに基づいて感情表現を推測することを含むことができる。例として、感情表現を抽出することは、予め訓練された機械学習済みモデル（３４０）を使用して１つまたは複数のタグ（３５０）を生成すること、および複数のタグに基づいて感情表現を推測することを含むことができる。例として、予め訓練されたＢＥＲＴモデルおよび／または注意層を使用して、複数のタグを生成し、タグから感情表現を推測することができる。

動作５２０において、極性値は、入力された対話、文、および／または単語に対応する文の埋め込みから抽出され得る。例として、入力される単語（３１０）を使用して極性値を抽出することができる。極性値は、１つまたは複数の感情表現に関連付けられ得る。いくつかの実施形態では、各極性値は感情表現と関連付けられ得る。いくつかの例では、極性値は、エンコーダを使用して入力された対話、文、および／またはワードから抽出されてもよい。例として、センテンスエンコーダ（３２０）を使用して極性値を抽出することができる。いくつかの実施形態では、特定のセンテンスエンコーダを使用することができる。いくつかの実施形態では、任意の方法および／またはモデルをエンコーダとして使用することができる。

動作５３０において、感情表現、極性値、および／または文の埋め込みに基づいてターゲット言及を決定することができる。いくつかの実施形態では、ターゲット言及は、少なくとも１つの感情表現に関連付けられ得る。感情表現のターゲット言及を決定することは、５４０において、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成することを含むことができる。感情表現のターゲット言及を決定することはまた、５５０において、計算された境界に基づいてターゲット言及を決定することを含むことができ、計算された境界は、リッチコンテキスト表現を使用して生成される。例として、言及エンコーダ（４２０）および／または特徴抽出器（４３０）によって生成された距離埋め込み、話者埋め込み、文の埋め込み、および／またはコンテキスト埋め込みを使用して、リッチコンテキスト表現（４４０）を生成することができる。いくつかの実施形態では、境界を計算するために、リッチコンテキスト表現（４４０）および平均ベクトル表現（４５０）が、１つ以上の注意モデル（４６０）への入力として使用されてもよい。

図６は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス６００を示す簡略化されたフローチャートである。

動作６１０において、入力された対話を取得することができる。入力された対話は、１つまたは複数の文および／または単語を含むことができる。いくつかの実施形態では、入力された対話は、１人以上の話者とのマルチターン会話を含むことができる。

動作６２０において、センテンスエンコーダを使用して文の埋め込みを生成することができる。例として、センテンスエンコーダ（３２０）を使用して文の埋め込みを生成することができる。例として、センテンスエンコーダ（３２０）を使用することができ、センテンスエンコーダ（３２０）は、感情表現の抽出およびそれらの極性の検出をシーケンスラベリングタスクとして扱うようにモデル化することができる。いくつかの実施形態では、センテンスエンコーダ（３２０）は、予め訓練されたＢＥＲＴモデルなどの予め訓練されたモデルを採用して、入力される単語（３１０）
に対するコンテキスト依存埋め込みを生成することができる。いくつかの実施形態では、センテンスエンコーダ（３２０）は、入力センテンス
のためのコンテキスト依存埋め込み（３３０）を生成するために、複数の自己注意層を採用することができる。

いくつかの実施形態では、動作６３０において、予め訓練モデルを使用して文の埋め込みに基づいて１つまたは複数のタグを生成することができる。例として、コンテキスト依存の文の埋め込み（３３０）は、入力される単語、文、および／または対話ごとに複数のタグを生成するために、中性ネットワークおよび／または機械学習済みモデル（３４０）に入力されてもよい。いくつかの実施形態では、コンテキスト依存の文の埋め込み（３３０）は、入力される単語（３１０）（例えば、
）ごとに１つまたは複数のタグ（３５０）を予測するために、複数の出力ユニットおよびソフトマックス活性化に関する多層パーセプトロン（ＭＬＰ）に入力されてもよい。次に、動作６４０および６５０において、文の表現およびそれらの極性を、それぞれ、１つ以上のタグから推測することができる。

図７は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス７００を示す簡略化されたフローチャートである。

動作７１０において、感情表現および文の埋め込みを、１つまたは複数のモデルに入力することができる。例として、感情表現および文の埋め込みは、言及エンコーダ（４２０）および／または特徴抽出器（４３０）に入力されてもよい。

動作７２０において、感情表現および文の埋め込みを使用してリッチコンテキスト表現を生成することができる。いくつかの実施形態では、１つまたは複数のモデルを使用して、感情表現および文の埋め込みに基づいてリッチコンテキスト表現を生成することができる。例として、言及エンコーダ（４２０）および／または特徴抽出器（４３０）を使用して、感情表現および文の埋め込みに基づいてリッチコンテキスト表現を生成することができる。

いくつかの実施形態では、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成することは、文の埋め込みに基づいてターンワイズ距離を生成すること、文の埋め込みに基づいて話者情報を生成すること、リッチコンテキスト表現を生成するためにターンワイズ距離、話者情報、および感情表現を連結することを含むことができる。いくつかの実施形態では、話者情報は、入力された対話が同じ話者からのものであるかどうかを示すことができる。いくつかの実施形態では、リッチコンテキスト情報の生成はまた、その中のすべてのトークンのコンテキスト表現を平均化することによって感情表現全体を表す平均ベクトル表現を生成することを含むことができる。

いくつかの実施形態では、言及エンコーダ（４２０）は、コンテキスト埋め込みを取得するために、自己注意および／または予め訓練されたＢＥＲＴに基づく１つまたは複数のエンコーダを使用して実装され得る。いくつかの実施形態では、特徴抽出器（４３０）は、コンテキスト埋め込みを取得するために、自己注意および／または予め訓練されたＢＥＲＴに基づく１つまたは複数のエンコーダを使用して実装され得る。

動作７３０において、リッチコンテキスト情報に基づいて、少なくとも２つの注意層および／または注意モデルを使用して分布を生成することができる。例として、リッチコンテキスト表現（４４０）および平均ベクトル表現（４５０）は、１つ以上の分布を取得するために１つ以上の注意モデル（４６０）に入力されてもよい。

動作７４０において、１つ以上の注意層のそれぞれから生成された分布の積が決定され得る。いくつかの実施形態では、生成された分布の積を決定することは、複数のスコアを生成することを含むことができる。

動作７５０において、少なくとも１つの感情表現言及に関連付けられたターゲットが、分布の境界に基づいて決定され得る。いくつかの実施形態では、ターゲット言及を決定することは、複数のスコアから最高スコアに基づいて分布の境界を選択することを含むことができる。いくつかの実施形態では、ターゲット言及を決定することは、複数のスコアから最高スコアに基づいて分布の境界を選択することを含むことができ、複数のスコアは、１つまたは複数の注意層の各々の分布の積を決定することによって生成される。例として、ターゲット言及は、分布の積から最高スコアをもたらす各注意モデルから境界を選択することによって生成されてもよい。いくつかの実施形態では、一方の注意モデルから選択された境界は、他方の注意モデルから選択された境界より小さくてもよい。いくつかの実施形態では、両方の境界は同じ発話に属し得る。

本開示の例示的な利点は、以下のように説明することができる。

表２は、本開示の実施形態の成績を示す。表２に見られるように、ＢＥＲＴモデルを使用する本開示は、マルチターン会話における感情および言及の識別において最良のスコアを提示する。

表３は、本開示の実施形態の成績を示す。表３に見られるように、１つまたは複数の変換器を使用する本開示は、マルチターン会話における感情および言及の識別において最良のスコアをもたらす。

表３に見られるような、列「Ａｖｇ．ＫＮＬｅｎ．」に実証されるものとしての、利用された知識の平均的な長さ。完全なニュース文書を使用すると、ＢＬＥＵスコアはわずかに増加するが、Ｄｉｓｔｉｎｃｔスコアによって示されるように出力の多様性は減少する。本開示の実施形態による選択されたセグメントのみを取ることは、Ｄｉｓｔｉｎｃｔスコアに関する多様性を改善し、同等のＢＬＥＵスコアを示す。より重要なことに、本開示の実施形態では平均して２９文字の漢字しか選択されないが、文書全体のベースラインは７６５文字を使用する。これは、本開示の実施形態が、関連する知識を表すために９６％のメモリ使用量を節約することができることを示している。

図５から図７はプロセス５００、６００、７００の例示的なブロックを示しているが、実装形態では、プロセス５００、６００、７００は、図５から図７に示されるものに比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。実施形態では、プロセス５００、６００、７００の任意のブロックは、必要に応じて、任意の量または順序で組み合わされまたは配置され得る。実施形態では、プロセス５００、６００、７００のブロックのうちの２つ以上が並列に実行されてもよい。

前述した技術は、コンピュータ可読命令を使用し、１つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして、または具体的に構成される１つ以上のハードウェアプロセッサによって実装され得る。例えば、図１は、様々な実施形態の実施に適した環境１００を示している。

コンピュータソフトウェアは、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接に、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用して符号化されることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、および様々な代替均等例がある。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

１００環境
１１０ユーザデバイス
１２０プラットフォーム
１２２クラウドコンピューティング環境
１２４コンピューティングリソース
１２４－１アプリケーション
１２４－２仮想マシン
１２４－３仮想化ストレージ
１２４－４ハイパーバイザ
１３０ネットワーク
２００デバイス
２１０バス
２２０プロセッサ
２３０メモリ
２４０記憶構成要素
２５０入力構成要素
２６０出力構成要素
２７０通信インターフェース
３００モデル
３１０入力される単語
３２０センテンスエンコーダ
３３０コンテキスト依存埋め込み
３３０コンテキスト依存の文の埋め込み
３４０機械学習済みモデル
３５０タグ
３６０感情および／または極性抽出
４００モデル
４１０コンテキスト埋め込みに基づく入力連結
４２０言及エンコーダ
４３０特徴抽出器
４４０リッチコンテキスト表現
４５０平均ベクトル表現
４６０注意モデル
４７０分布

Claims

マルチターン会話のための感情分析のための方法であって、前記方法は、
入力された対話を取得するステップと、
前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、
前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成するステップと、
前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも１つに関連付けられたターゲット言及を決定するステップであって、
前記ターゲット言及を決定する前記ステップは、
前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成するステップと、
計算された境界に基づいて前記ターゲット言及を決定するステップであって、前記計算された境界が前記リッチコンテキスト表現を使用して生成される、ステップとを含む、ステップと
を含む、方法。
前記文の埋め込みおよび前記感情表現に基づいて前記リッチコンテキスト表現を生成する前記ステップは、
前記文の埋め込みに基づいてターンワイズ距離を生成するステップと、
前記文の埋め込みに基づいて話者情報を生成するステップであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、ステップと、
前記ターンワイズ距離、前記話者情報、および前記感情表現を連結するステップと
を含む、請求項１に記載の方法。
計算された境界に基づいて前記ターゲット言及を決定する前記ステップは、
１つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成するステップと、
前記分布の境界に基づいて前記ターゲット言及を決定するステップと
を含む、請求項１に記載の方法。
前記分布を生成する前記ステップが、前記１つまたは複数の注意層の各々の分布の積を決定するステップを含む、請求項３に記載の方法。
前記ターゲット言及を決定する前記ステップは、複数のスコアから最高スコアに基づいて前記分布の境界を選択するステップであって、前記複数のスコアは、前記１つまたは複数の注意層の各々の分布の積を決定することによって生成される、ステップを含む、請求項３に記載の方法。
前記文の埋め込みは、前記入力された対話に基づいて生成される、請求項１に記載の方法。
前記文の埋め込みから前記感情表現を抽出する前記ステップは、
予め訓練された機械学習済みモデルを使用して複数のタグを生成するステップと、
前記複数のタグに基づいて前記感情表現を推測するステップと
を含む、請求項１に記載の方法。
前記文の埋め込みから前記極性値を生成する前記ステップは、
予め訓練された機械学習済みモデルを使用して複数のタグを生成するステップと、
前記複数のタグに基づいて前記極性値を推測するステップと
を含む、請求項１に記載の方法。
前記極性値が、正、負、または中性のうちの１つである、請求項１に記載の方法。
マルチターン会話のための感情分析のための装置であって、前記装置は、
コンピュータプログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも１つのプロセッサであって、前記コンピュータプログラムコードは、
前記少なくとも１つのプロセッサに、入力された対話を取得させるように構成された第１の取得コードと、
前記少なくとも１つのプロセッサに、前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出させるように構成された第１の抽出コードと、
前記少なくとも１つのプロセッサに、前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成させるように構成された第１の生成コードと、
前記少なくとも１つのプロセッサに、前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも１つに関連付けられたターゲット言及を決定させるように構成された第１の決定コードとを含み、前記第１の決定コードは、
前記少なくとも１つのプロセッサに、前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成させるように構成された第２の生成コードと、
前記少なくとも１つのプロセッサに、計算された境界に基づいて前記ターゲット言及を決定させるように構成された第２の決定コードであって、前記計算された境界は、前記リッチコンテキスト表現を使用して生成される、第２の決定コードと
を含む、少なくとも１つのプロセッサと
を備える、装置。
前記第２の生成コードは、
前記少なくとも１つのプロセッサに、前記文の埋め込みに基づいてターンワイズ距離を生成させるように構成された第３の生成コードと、
前記少なくとも１つのプロセッサに、前記文の埋め込みに基づいて話者情報を生成させるように構成された第４の生成コードであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、第４の生成コードと、
前記少なくとも１つのプロセッサに、前記ターンワイズ距離、前記話者情報、および前記感情表現を連結させるように構成された第１の連結コードと
を含む、請求項１０に記載の装置。
前記第２の決定コードは、
前記少なくとも１つのプロセッサに、１つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成させるように構成された第５の生成コードと、
前記少なくとも１つのプロセッサに、前記分布の境界に基づいて前記ターゲット言及を決定させるように構成された第３の決定コードと
を含む、請求項１０に記載の装置。
前記分布を生成する前記ステップが、前記１つまたは複数の注意層の各々の分布の積を決定するステップを含む、請求項１２に記載の装置。
前記分布の前記境界に基づいて前記ターゲット言及を決定する前記ステップは、複数のスコアから最高スコアに基づいて前記分布の境界を選択するステップを含み、前記複数のスコアは、前記１つまたは複数の注意層の各々の分布の積を決定することによって生成される、請求項１２に記載の装置。
前記第１の抽出コードは、
前記少なくとも１つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第６の生成コードと、
前記少なくとも１つのプロセッサに、前記複数のタグに基づいて前記感情表現を推測させるように構成された第１の推測コードと
を含む、請求項１０に記載の装置。
前記第１の生成コードは、
前記少なくとも１つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第６の生成コードと、
前記少なくとも１つのプロセッサに、前記複数のタグに基づいて前記感情表現を推測させるように構成された第１の推測コードと
を含む、請求項１０に記載の装置。
前記極性値は、正、負、または中性のうちの１つである、請求項１０に記載の装置。
コンピュータに処理を実行させるプログラムを格納した非一時的なコンピュータ可読媒体であって、前記処理は、
入力された対話を取得するステップと、
前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、
前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成するステップと、
前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも１つに関連付けられたターゲット言及を決定するステップであって、
前記ターゲット言及を決定する前記ステップは、
前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成するステップと、
計算された境界に基づいて前記ターゲット言及を決定するステップであって、前記計算された境界が前記リッチコンテキスト表現を使用して生成される、ステップと
を含む、ステップと
を含む、非一時的なコンピュータ可読媒体。
前記文の埋め込みおよび前記感情表現に基づいて前記リッチコンテキスト表現を生成する前記ステップは、
前記文の埋め込みに基づいてターンワイズ距離を生成するステップと、
前記文の埋め込みに基づいて話者情報を生成するステップであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、ステップと、
前記ターンワイズ距離、前記話者情報、および前記感情表現を連結するステップと
を含む、請求項１８に記載の非一時的なコンピュータ可読媒体。
計算された境界に基づいて前記ターゲット言及を決定する前記ステップは、
１つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成するステップと、
前記分布の境界に基づいて前記ターゲット言及を決定するステップと
を含む、請求項１８に記載の非一時的なコンピュータ可読媒体。