JP2024506171A - Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム - Google Patents

Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム Download PDF

Info

Publication number
JP2024506171A
JP2024506171A JP2023547681A JP2023547681A JP2024506171A JP 2024506171 A JP2024506171 A JP 2024506171A JP 2023547681 A JP2023547681 A JP 2023547681A JP 2023547681 A JP2023547681 A JP 2023547681A JP 2024506171 A JP2024506171 A JP 2024506171A
Authority
JP
Japan
Prior art keywords
sentence
processor
embedding
generating
emotional expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023547681A
Other languages
English (en)
Inventor
リンフェン・ソン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2024506171A publication Critical patent/JP2024506171A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

入力された対話を取得するステップと、入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、入力された対話に対応する文の埋め込みに基づいて極性値を生成するステップと、感情表現および文の埋め込みに基づいて感情表現のうちの少なくとも1つに関連付けられたターゲット言及を決定するステップであって、ターゲット言及を決定するステップは、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成するステップと、計算された境界に基づいてターゲット言及を決定するステップであって、計算された境界がリッチコンテキスト表現を使用して生成される、ステップとを含むコンピュータコードを含む、マルチターン会話のための感情分析のための方法および装置が含まれる。

Description

関連出願の相互参照
本願は、2021年10月18日に米国特許商標庁に出願された米国出願第17/503,584号の優先権を主張し、その開示の全体は参照により本明細書に組み込まれる。
本開示の実施形態は、感情分析の分野に関する。より具体的には、本開示は、対話応答生成および会話型質問応答などの対話理解に関する。
チャットの対話をモデル化することは、人間-コンピュータ通信を容易にするその可能性のために重要な分野である。これまでのほとんどの研究は、表面特徴のみを消費するエンドツーエンドのニューラルネットワークの設計に焦点を当ててきた。しかしながら、これらのモデルは、マルチターン会話のシナリオでは満足のいくものではない。具体的には、これらのモデルは、会話中での受動的な挙動、および往々にして互いに一貫性がないマルチターン応答などの問題を抱えている。
意味のある応答を生成するために、知識グラフ(KG)、常識的知識、性格および感情の影響が調査されている。しかしながら、そのような知識、例えば関連するKGは、通常、対話で明示的に表現されず、したがって、意味のあるものとするために、人間の注釈がベンチマークデータセットと共に必要とされる。さらに、KGは現実世界のシナリオでは取得が困難であり、多くの場合、必要なステップとしてエンティティリンクを必要とするため、関連するKGを利用すると付加的なエラーが発生する可能性がある。
本開示は1つ以上の技術的課題に対処する。本開示は、きめ細かい感情の情報を理解し、対話の理解を助けるために使用することができる、対話から内部知識を抽出するための方法および/または装置を提案する。本開示は、アスペクトベースの感情分析を会話シナリオの感情分析に適合させる。例として、本開示の実施形態によれば、会話態様感情分析は、対話からユーザの意見、極性、および対応する言及を抽出することができる。人間は、自分が話しているエンティティに関連して自分の感情を表現することが多いという理解に基づくと、感情、極性、および言及を抽出することは、有用な特徴および一般的なドメイン理解をもたらすことができる。より具体的には、対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。感情および言及を明示的に抽出する別の利点は、同じ感情および言及のペアが様々なテキストに現れる可能性があり、モデルの解釈性を高め、この知識を他の知識(例えば、KG)と組み合わせることをより容易にするため、データのスパース性の緩和を含む。
本開示は、コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されると動作するように構成された1つまたは複数のプロセッサとを備えるマルチターン会話のための感情分析用の方法および装置を含む。コンピュータプログラムコードは、少なくとも1つのプロセッサに、入力された対話を取得させるように構成された、第1の取得コードと、入力された対話に対応する文の埋め込みに基づいて感情表現を少なくとも1つのプロセッサに抽出させるように構成された第1の抽出コードと、少なくとも1つのプロセッサに、入力された対話に対応する文の埋め込みに基づいて極性値を生成させるように構成された第1の生成コードと、少なくとも1つのプロセッサに、感情表現および文の埋め込みに基づいて感情表現のうちの少なくとも1つに関連付けられたターゲット言及を決定させるように構成された第1の決定コードとを含み、第1の決定コードは、少なくとも1つのプロセッサに、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成させるように構成された第2の生成コードと、少なくとも1つのプロセッサに、計算された境界に基づいてターゲット言及を決定させるように構成された第2の決定コードであって、計算された境界は、リッチコンテキスト表現を使用して生成される、第2の決定コードとを含む。
実施形態によれば、第2の生成コードは、少なくとも1つのプロセッサに、文の埋め込みに基づいてターンワイズ距離を生成させるように構成された第3の生成コード、少なくとも1つのプロセッサに、文の埋め込みに基づいて話者情報を生成させるように構成された第4の生成コードであって、話者情報は、入力された対話が同じ話者からのものであるかどうかを示す、第4の生成コード、および少なくとも1つのプロセッサに、ターンワイズ距離、話者情報、および感情表現を連結させるように構成された第1の連結コード、を含む。
実施形態によれば、第2の決定コードは、少なくとも1つのプロセッサに、1つまたは複数の注意層を使用してリッチコンテキスト表現および感情表現に基づいて分布を生成させるように構成された第5の生成コード、および少なくとも1つのプロセッサに、分布の境界に基づいてターゲット言及を決定させるように構成された第3の決定コードを含む。
実施形態によれば、分布を生成するステップが、1つまたは複数の注意層の各々の分布の積を決定するステップを含む。
実施形態によれば、分布の境界に基づいてターゲット言及を決定するステップは、複数のスコアから最高スコアに基づいて分布の境界を選択するステップを含み、複数のスコアは、1つまたは複数の注意層の各々の分布の積を決定することによって生成される。
実施形態によれば、第1の抽出コードは、少なくとも1つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第6の生成コードと、少なくとも1つのプロセッサに、複数のタグに基づいて感情表現を推測させるように構成された第1の推測コードを含む。
実施形態によれば、第1の生成コードは、少なくとも1つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第6の生成コードと、少なくとも1つのプロセッサに、複数のタグに基づいて感情表現を推測させるように構成された第1の推測コードを含む。
実施形態によれば、極性値は、正、負、または中性のうちの1つである。
実施形態によれば、文の埋め込みは、入力された対話に基づいて生成される。
[1]本開示の主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。 図1の1つまたは複数のデバイスの例示的な構成要素の図である。 本開示の実施形態による、感情抽出のためのモデルを示す簡略ブロック図である。 本開示の実施形態による、言及抽出のためのモデルを示す簡略ブロック図である。 本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。 本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。 本開示の実施形態による会話態様の感情分析のための簡略化されたフローチャートである。
本開示は、きめ細かい感情の情報を理解し、対話の理解を助けるために使用することができる、対話からの内部知識の抽出に関する。本開示は、アスペクトベースの感情分析を会話シナリオの感情分析に適合させる。例として、本開示の実施形態によれば、会話態様感情分析は、対話からユーザの意見、極性、および対応する言及を抽出することができる。人間は、自分が話しているエンティティに関連して自分の感情を表現することが多いという理解に基づくと、感情、極性、および言及を抽出することは、有用な特徴および一般的なドメイン理解をもたらすことができる。より具体的には、対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。感情および言及を明示的に抽出する別の利点は、同じ感情および言及のペアが様々なテキストに現れる可能性があり、モデルの解釈性を高め、この知識を他の知識(例えば、KG)と組み合わせることをより容易にするため、データのスパース性の緩和を含む。
表1のマルチターン会話の例を考える。
対話から人々の感情および対応するエンティティを正確に抽出することは、チャットボットが後続のトピックを計画し、マルチターン会話においてチャットボットをより積極的にするのに役立ち得る。例として、ユーザが自分が「リオネル・メッシ」というサッカー選手の熱狂的なファンであることを言及する場合、チャットボットはメッシの最近のニュースに言及することができる。さらに、明示的な感情、極性、および/または言及抽出は、対話履歴全体を理解することを含むことができるので、抽出を他の知識(例えば、外部KG)と組み合わせることをより容易にし、モデルをより解釈可能にすることができる。「リオネル・メッシ」の例を続けると、感情およびモデル抽出の解析結果を外部のKGと組み合わせることによって、チャットボットは、メッシのサッカークラブ「フットボールクラブバルセロナ」の最近の試合を推奨することさえできる。
利用可能なデータセットでは、感情分析は非常に限られた数のインスタンスを含み、それらは少数のドメイン(ホテルやレストランのレビューなど)しかカバーしないが、毎日の会話はオープンドメインである。さらに、これらのデータセットでは、感情表現は通常、その対応する態様に近いか、または短い文の中で言及される。しかしながら、実際には、感情表現およびそれらの言及または態様は、乖離しているいくつかの記述であり、省略符号および照応がより複雑な推論を導入していてもよい。例として、表1からの文を考えてみる:「メッシ」という言及は第3の発話に現れるが、対応する感情語「すごい」は第5の発話にある。さらに、「ネイマール」は、非常に紛らわしい候補者の言及としてさらなる課題を取り込む。これは、より多くい回数での内的折り目付けの複雑さは言うまでもなく、単なる3ターンの例である。
実施形態によれば、感情抽出は、最後のユーザ発話からすべての感情表現を見つけ、抽出された各感情表現の極性を判定することができる。実施形態によれば、言及抽出は、各感情表現について対話履歴から対応する言及を抽出することができる。言及抽出は、長距離依存性のモデリングを支援するために文毎の話者および話者IDに関する情報などの豊富な特徴を使用して、対話履歴全体を理解することを含むことができる。
いくつかの実施形態では、例示的または訓練データセットに手動で注釈を付けることができる。例として、データセットは、複数のデータセットからの多くの対話を含むことができ、各対話は複数の文を含むことができる。最初のパスとして、人間および/または専門家のアノテータは、各対話に注釈付けおよび/またはラベル付けするように求められてもよい。いくつかの実施形態では、彼らは最新技術によるガイドラインに基づいて注釈を付けるように求められてもよい。注釈は、文での感情表現だけでなく、各言及の極性値も含むことができる。注釈は、他のガイドラインに従うことができる。例として、注釈付きの言及は具体的でなければならない。同じエンティティに対応する複数の言及については、最も具体的なもののみが注釈付けされなければならない;明示的なユーザの意見に対してモデルを訓練するために、対応する感情表現に関わる言及のみに注釈を付けることができる。
以下で説明される提案された機能は、別々に使用されるか、または任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路(例えば、1つ以上のプロセッサまたは1つ以上の集積回路)によって実施されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
図1は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境100の図である。
図1に示すように、環境100は、ユーザデバイス110、プラットフォーム120、およびネットワーク130を含んでもよい。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせによって相互接続できる。
ユーザデバイス110は、プラットフォーム120に関連する情報を受信、生成、保管、処理、および/または提供できる1つ以上のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、スマートグラスもしくはスマートウォッチ)、または同様のデバイスを含んでもよい。いくつかの実装において、ユーザデバイス110はプラットフォーム120から情報を受信でき、および/またはプラットフォームへ情報を送信できる。
プラットフォーム120は本書の他所で説明されている1つ以上のデバイスを含む。いくつかの実装形態では、プラットフォーム120は、クラウドサーバまたは一群のクラウドサーバを含んでもよい。いくつかの実装形態では、プラットフォーム120は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム120は、異なる用途向けに、容易かつ/または迅速に復元されてもよい。
いくつかの実装では、図示されているように、プラットフォーム120がクラウドコンピューティング環境122でホストされてよい。特に、本書で説明されている実装は、プラットフォーム120をクラウドコンピューティング環境122でホストされているものとして説明しているが、いくつかの実装において、プラットフォーム120はクラウドベースでなくてよく(すなわち、クラウドコンピューティング環境の外で実装されてよい)、または部分的にクラウドベースであってよい。
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホスティングによって提供する1つ以上のシステムおよび/または1つ以上のデバイスの物理的な位置および構成についてのエンドユーザ(例えばユーザデバイス110)による認識を必要としない計算サービス、ソフトウェアサービス、データアクセスサービス、記憶サービスなどを提供してもよい。図示されたように、クラウドコンピューティング環境122は、(まとめて「コンピューティングリソース124」と呼ばれ、個別に「コンピューティングリソース124」と呼ばれる)コンピューティングリソース124のグループを含んでもよい。
コンピューティングリソース124は、1つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他の種類の計算および/または通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120をホストしてもよい。クラウドリソースは、コンピューティングリソース124で実行する計算インスタンス、コンピューティングリソース124内に設けられるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含み得る。いくつかの実装において、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続との組み合わせを通じて他のコンピューティングリソース124と通信できる。
図1にさらに示されているように、コンピューティングリソース124は、1つ以上のアプリケーション(「APP」)124-1、1つ以上の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つ以上のハイパーバイザ(「HYP」)124-4など、1群のクラウドリソースを含む。
アプリケーション124-1は、ユーザデバイス110および/またはプラットフォーム120に提供され得る、またはユーザデバイス110および/またはプラットフォーム120によってアクセスされ得る、1つ以上のソフトウェアアプリケーションを含む。アプリケーション124-1は、ユーザデバイス110にソフトウェアアプリケーションをインストールして実行する必要性を排除してもよい。例えば、アプリケーション124-1は、プラットフォーム120に関連付けられたソフトウェア、および/またはクラウドコンピューティング環境122を介して提供することができる他の任意のソフトウェアを含んでもよい。いくつかの実装では、ある1つのアプリケーション124-1が仮想マシン124-2を通じて1つ以上の他のアプリケーション124-1との間で情報を送受信できる。
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装形態を含む。仮想マシン124-2は、仮想マシン124-2による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたは処理仮想マシンのいずれかとすることができる。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供することができる。処理仮想マシンは、単一のプログラムを実行し、単一の処理をサポートすることができる。いくつかの実装形態では、仮想マシン124-2は、ユーザ(例えば、ユーザデバイス110)の代わりに動作することができ、データ管理、同期、または長期データ転送などのクラウドコンピューティング環境122の基盤を管理することができる。
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技術を使用する1つ以上のストレージシステムおよび/または1つ以上のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージまたは異種構造に関係なくストレージシステムがアクセスされ得るように、物理ストレージからの論理ストレージの抽象化(または分離)を指すことができる。分離は、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法における柔軟性を可能にし得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶されている場所との間の依存関係を排除し得る。これは、ストレージ使用、サーバ統合、および/または中断しないファイル移行の性能の最適化を可能にすることができる。
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲストオペレーティングシステム」)をコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供することができる。ハイパーバイザ124-4は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示し得、ゲストオペレーティングシステムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスが仮想化ハードウェアリソースを共有できる。
ネットワーク130は、1つまたは複数の有線および/または無線のネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公的地域モバイルネットワーク(PLMN)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話ネットワーク(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および/またはそれらもしくは他のタイプのネットワークの組み合わせを含んでもよい。
図1に示されているデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図1に示すものに比べて、追加のデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークがあってもよい。さらに、図1に示される2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図1に示される単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境100のデバイスのセット(例えば、1つまたは複数のデバイス)は、環境100のデバイスの別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。
図2は、図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。
デバイス200は、ユーザデバイス110および/またはプラットフォーム120に対応してもよい。図2に示すように、デバイス200は、バス210、プロセッサ220、メモリ230、記憶構成要素240、入力構成要素250、出力構成要素260、および通信インターフェース270を含んでもよい。
バス210は、デバイス200の構成要素間の通信を可能にする構成要素を含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ220は、中央処理装置(CPU)、グラフィック処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、または別のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ220は、機能を実施するようにプログラムすることができる1つまたは複数のプロセッサを含む。メモリ230は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、ならびに/またはプロセッサ220が使用するための情報および/もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、および/もしくは光メモリ)を含む。
記憶構成要素240は、デバイス200の動作および使用に関連する情報および/またはソフトウェアを記憶する。例えば、記憶構成要素240は、対応するドライブとともに、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/もしくはソリッドステートディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。
入力構成要素250は、デバイス200がユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)などを介して情報を受信することを可能にする構成要素を含む。追加または代替として、入力構成要素250は、情報を検知するためのセンサ(例えば、全地球測位システム(GPS)構成要素、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含んでもよい。出力構成要素260は、デバイス200(例えば、ディスプレイ、スピーカ、および/または1つもしくは複数の発光ダイオード(LED))からの出力情報を提供する構成要素を含む。
通信インターフェース270は、デバイス200が有線接続、無線接続、または有線接続と無線接続の組み合わせなどを介して他のデバイスと通信することを可能にする、トランシーバ様の構成要素(例えば、トランシーバならびに/または別個の受信機および送信機)を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信し、かつ/または別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、Wi-Fiインターフェース、セルラーネットワークインターフェースなどを含んでもよい。
デバイス200は、本明細書に記載された1つまたは複数の処理を実行することができる。デバイス200は、プロセッサ220がメモリ230および/または記憶構成要素240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行したことに応答して、これらのプロセスを実行し得る。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。
ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース270を介して別のデバイスから、メモリ230および/または記憶構成要素240に読み込まれてもよい。メモリ230および/または記憶構成要素240に記憶されたソフトウェア命令は、実行されると、本明細書に記載された1つまたは複数のプロセスをプロセッサ220に実行させ得る。追加的または代替的に、本明細書に記載された1つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。このように、本明細書に記載された実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されない。
図2に示す構成要素の数および配置は、一例として提供されている。実際には、デバイス200は、図2に示された構成要素に比べて、追加の構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加または代替として、デバイス200の構成要素のセット(例えば、1つまたは複数の構成要素)は、デバイス200の構成要素の別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。
図3は、本開示の実施形態による、感情抽出のための例示的なモデル300を示す簡略図である。
実施形態によれば、マルチターン会話を理解するための会話態様感情分析のための入力は、1つまたは複数の入力された対話であってもよい。マルチターン会話は、1人以上の話者からの1つ以上の文を含む対話の発話であってもよい。例として、マルチターン会話は、前の質問および/または文のコンテキストが応答または次の質問および/または文に影響を与える前後の会話であってもよい。入力された対話は、1つまたは複数の文を含むことができる。いくつかの実施形態では、マルチターン会話を理解するための会話態様の感情分析のための入力は、単語に分解された1つまたは複数の入力された対話および/または文であってもよい。例として、対話の発話のリストは、X,X,...,X、ここで、Xは、対話の発話の文であり、および
ここで、
は、最新の対話のターンにおける入力される単語(310)を表し、Nは、Xの長さを表す、を含むことができる。
感情抽出は、入力された対話から全感情表現を抽出することを含んでもよい。極性抽出は、各感情に対応する極性値を抽出することを含み得る。例として、感情および/または極性抽出(360)は、すべての感情表現{s,...,s}およびXからのそれらの極性値{p,...,p}(感情抽出、SE)を抽出することを含むことができる。いくつかの実施形態では、各感情表現は、入力された対話の単語および/または句であってもよい。例として、感情表現sは、順番Xの中の単語または句とすることができ、その極性値pは、3つの可能な値:-1(負)、0(中性)、および+1(正)から選択される。
いくつかの実施形態では、センテンスエンコーダ(320)を使用して、入力された対話から感情表現および極性値を特定することができる。例として、センテンスエンコーダ(320)を使用することができ、センテンスエンコーダ(320)は、感情表現の抽出およびそれらの極性の検出をシーケンスラベリングタスクとして扱うようにモデル化することができる。いくつかの実施形態では、センテンスエンコーダ(320)は、予め訓練されたBERTモデルなどの予め訓練されたモデルを採用して、入力される単語(310)
に対するコンテキスト依存埋め込みを生成することができる。いくつかの実施形態では、センテンスエンコーダ(320)は、入力された文
のためのコンテキスト依存埋め込み(330)を生成するために、複数の自己注意層を採用することができる。コンテキスト依存の文の埋め込み(330)の生成は、以下のようになり得る式(1)を使用して表すことができる。
いくつかの実施形態では、コンテキスト依存の文の埋め込み(330)は、入力される単語、文、および/または対話ごとに複数のタグを生成するために、中性ネットワークおよび/または機械学習済みモデル(340)に入力されてもよい。例として、コンテキスト依存の文の埋め込み(330)
は、入力される単語(310)(例えば、
)ごとに1つまたは複数のタグ(350)を予測するために、複数の出力ユニットおよびソフトマックス活性化に関する多層パーセプトロン(MLP)に入力されてもよい。次いで、文の表現およびそれらの極性を、1つまたは複数のタグから推測することができる。例として、モデルは、表1の文「彼の総合成績はすごい!」に対してタグ「○○○○Pos-B○」を生成すると仮定され、次いで、それらのタグから肯定的な感情表現「すごい」が検出される。
図4は、本開示の実施形態による、言及抽出のための例示的なモデル400を示す簡略図である。
いくつかの実施形態では、感情表現およびそれらの極性を言及抽出器モデルに入力して、少なくとも1つの感情表現について対応する言及を抽出することができる。いくつかの実施形態では、各感情表現sについて対応する言及mを抽出するために言及エンコーダ(420)を採用することができる。いくつかの実施形態では、言及抽出は、感情表現およびコンテキスト依存の文の埋め込みに基づいてもよい。いくつかの実施形態では、言及抽出は、感情表現およびコンテキスト埋め込みに基づく入力連結(410)に基づいてもよい。例として、すべての対話のターン
と関連表現sとの連結は、言及エンコーダ(420)への入力として使用されてもよい。いくつかの実施形態では、言及エンコーダ(420)は、コンテキスト埋め込みを取得するために、自己注意および/または予め訓練されたBERTに基づく1つまたは複数のエンコーダを使用して実装され得る。コンテキスト埋め込みの生成は、以下の式(2)を使用して表すことができる。
ここで、
は感情表現sのトークンを表し、[SEP]は文脈と感情表現とを分離する人工的なトークンとすることができる。いくつかの実施形態では、最後のサブ単語単位のベクトルを使用して単語レベル表現を取得することができる。
言及抽出は、対話全体を通してより長距離の推論を必要とする場合がある。いくつかの実施形態では、クロスセンテンス相関をモデル化するためのターンワイズ距離および話者情報を含む豊富な特徴を使用することができる。いくつかの実施形態では、特徴抽出器(430)を使用して、ターンワイズ距離および話者情報を含む豊富な特徴を生成し、クロスセンテンス相関をモデル化することができる。いくつかの実施形態では、ターンワイズ距離は、[0,1,2,3,4,5+,8+,10+]にバケットした現在のターンに対する相対距離であってもよい。話者情報は、対話履歴のトークンが現在のターンと同じ話者からのものであるかどうかを示すバイナリ特徴であってもよい。両方のタイプの情報は、埋め込みによって表されてもよい。例として、
および
は、トークン
に対する距離埋め込み(ターンワイズ距離)および話者埋め込み(話者情報)に対応することができる。距離埋め込み、話者埋め込み、文の埋め込み、および/またはコンテキスト埋め込みは、エンコーダ出力(すなわち、
)と連結されて、リッチコンテキスト表現(440)を取得することができる;
ここで、
は連結操作を表す。いくつかの実施形態では、連結された対話履歴表現は、リッチコンテキスト表現(440)を使用して生成され得る。連結された対話履歴表現は、入力された対話のすべての文のリッチコンテキスト表現の連結として表現されてもよい。
いくつかの実施形態では、感情表現s全体を表す平均ベクトル表現(450)は、その中のすべてのトークンのコンテキスト表現を平均化することによって生成することができる。平均ベクトル表現(450)は、式(5)を使用して表すことができる。
ここで、Lはsの長さである。感情表現の平均ベクトル表現(450)(
)およびクエリおよびメモリとしての連結された対話履歴表現(
)を使用し、1つまたは複数の注意モデル(460)を使用して、ターゲット言及の開始(st)および終了(ed)境界の分布(470)をそれぞれ計算することができる。2つの注意モデルが使用される場合、ターゲット言及の全体分布(470)は、両方の分布の積として定義され得る:
φ=φstφed............式(8)
実施形態によれば、ターゲット言及(st,ed)は、φ[st,ed]から最高スコアをもたらす境界stおよびedの両方を選択することによって生成され得、ここでst≦edであり、stおよびedは同じ発話にあってもよい。
図5は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス500を示す簡略化されたフローチャートである。
動作510において、感情表現は、入力された対話、文、および/または単語に対応する文の埋め込みから抽出され得る。例として、入力される単語(310)を使用して感情表現を抽出することができる。いくつかの例では、感情表現は、エンコーダを使用して入力された対話、文、および/または単語から抽出されてもよい。例として、センテンスエンコーダ(320)を使用して感情表現を抽出することができる。いくつかの実施形態では、特定のセンテンスエンコーダを使用することができる。いくつかの実施形態では、任意の方法および/またはモデルをエンコーダとして使用することができる。
いくつかの実施形態では、入力された対話、文、および/または単語を取得することを含む感情表現を抽出する前に実行される先行動作があり得る。いくつかの実施形態では、感情表現を抽出することは、予め訓練された機械学習済みモデルを使用して複数のタグを生成し、複数のタグに基づいて感情表現を推測することを含むことができる。例として、感情表現を抽出することは、予め訓練された機械学習済みモデル(340)を使用して1つまたは複数のタグ(350)を生成すること、および複数のタグに基づいて感情表現を推測することを含むことができる。例として、予め訓練されたBERTモデルおよび/または注意層を使用して、複数のタグを生成し、タグから感情表現を推測することができる。
動作520において、極性値は、入力された対話、文、および/または単語に対応する文の埋め込みから抽出され得る。例として、入力される単語(310)を使用して極性値を抽出することができる。極性値は、1つまたは複数の感情表現に関連付けられ得る。いくつかの実施形態では、各極性値は感情表現と関連付けられ得る。いくつかの例では、極性値は、エンコーダを使用して入力された対話、文、および/またはワードから抽出されてもよい。例として、センテンスエンコーダ(320)を使用して極性値を抽出することができる。いくつかの実施形態では、特定のセンテンスエンコーダを使用することができる。いくつかの実施形態では、任意の方法および/またはモデルをエンコーダとして使用することができる。
動作530において、感情表現、極性値、および/または文の埋め込みに基づいてターゲット言及を決定することができる。いくつかの実施形態では、ターゲット言及は、少なくとも1つの感情表現に関連付けられ得る。感情表現のターゲット言及を決定することは、540において、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成することを含むことができる。感情表現のターゲット言及を決定することはまた、550において、計算された境界に基づいてターゲット言及を決定することを含むことができ、計算された境界は、リッチコンテキスト表現を使用して生成される。例として、言及エンコーダ(420)および/または特徴抽出器(430)によって生成された距離埋め込み、話者埋め込み、文の埋め込み、および/またはコンテキスト埋め込みを使用して、リッチコンテキスト表現(440)を生成することができる。いくつかの実施形態では、境界を計算するために、リッチコンテキスト表現(440)および平均ベクトル表現(450)が、1つ以上の注意モデル(460)への入力として使用されてもよい。
図6は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス600を示す簡略化されたフローチャートである。
動作610において、入力された対話を取得することができる。入力された対話は、1つまたは複数の文および/または単語を含むことができる。いくつかの実施形態では、入力された対話は、1人以上の話者とのマルチターン会話を含むことができる。
動作620において、センテンスエンコーダを使用して文の埋め込みを生成することができる。例として、センテンスエンコーダ(320)を使用して文の埋め込みを生成することができる。例として、センテンスエンコーダ(320)を使用することができ、センテンスエンコーダ(320)は、感情表現の抽出およびそれらの極性の検出をシーケンスラベリングタスクとして扱うようにモデル化することができる。いくつかの実施形態では、センテンスエンコーダ(320)は、予め訓練されたBERTモデルなどの予め訓練されたモデルを採用して、入力される単語(310)
に対するコンテキスト依存埋め込みを生成することができる。いくつかの実施形態では、センテンスエンコーダ(320)は、入力センテンス
のためのコンテキスト依存埋め込み(330)を生成するために、複数の自己注意層を採用することができる。
いくつかの実施形態では、動作630において、予め訓練モデルを使用して文の埋め込みに基づいて1つまたは複数のタグを生成することができる。例として、コンテキスト依存の文の埋め込み(330)は、入力される単語、文、および/または対話ごとに複数のタグを生成するために、中性ネットワークおよび/または機械学習済みモデル(340)に入力されてもよい。いくつかの実施形態では、コンテキスト依存の文の埋め込み(330)は、入力される単語(310)(例えば、
)ごとに1つまたは複数のタグ(350)を予測するために、複数の出力ユニットおよびソフトマックス活性化に関する多層パーセプトロン(MLP)に入力されてもよい。次に、動作640および650において、文の表現およびそれらの極性を、それぞれ、1つ以上のタグから推測することができる。
図7は、本開示の実施形態による会話態様の感情分析のための例示的なプロセス700を示す簡略化されたフローチャートである。
動作710において、感情表現および文の埋め込みを、1つまたは複数のモデルに入力することができる。例として、感情表現および文の埋め込みは、言及エンコーダ(420)および/または特徴抽出器(430)に入力されてもよい。
動作720において、感情表現および文の埋め込みを使用してリッチコンテキスト表現を生成することができる。いくつかの実施形態では、1つまたは複数のモデルを使用して、感情表現および文の埋め込みに基づいてリッチコンテキスト表現を生成することができる。例として、言及エンコーダ(420)および/または特徴抽出器(430)を使用して、感情表現および文の埋め込みに基づいてリッチコンテキスト表現を生成することができる。
いくつかの実施形態では、文の埋め込みおよび感情表現に基づいてリッチコンテキスト表現を生成することは、文の埋め込みに基づいてターンワイズ距離を生成すること、文の埋め込みに基づいて話者情報を生成すること、リッチコンテキスト表現を生成するためにターンワイズ距離、話者情報、および感情表現を連結することを含むことができる。いくつかの実施形態では、話者情報は、入力された対話が同じ話者からのものであるかどうかを示すことができる。いくつかの実施形態では、リッチコンテキスト情報の生成はまた、その中のすべてのトークンのコンテキスト表現を平均化することによって感情表現全体を表す平均ベクトル表現を生成することを含むことができる。
いくつかの実施形態では、言及エンコーダ(420)は、コンテキスト埋め込みを取得するために、自己注意および/または予め訓練されたBERTに基づく1つまたは複数のエンコーダを使用して実装され得る。いくつかの実施形態では、特徴抽出器(430)は、コンテキスト埋め込みを取得するために、自己注意および/または予め訓練されたBERTに基づく1つまたは複数のエンコーダを使用して実装され得る。
動作730において、リッチコンテキスト情報に基づいて、少なくとも2つの注意層および/または注意モデルを使用して分布を生成することができる。例として、リッチコンテキスト表現(440)および平均ベクトル表現(450)は、1つ以上の分布を取得するために1つ以上の注意モデル(460)に入力されてもよい。
動作740において、1つ以上の注意層のそれぞれから生成された分布の積が決定され得る。いくつかの実施形態では、生成された分布の積を決定することは、複数のスコアを生成することを含むことができる。
動作750において、少なくとも1つの感情表現言及に関連付けられたターゲットが、分布の境界に基づいて決定され得る。いくつかの実施形態では、ターゲット言及を決定することは、複数のスコアから最高スコアに基づいて分布の境界を選択することを含むことができる。いくつかの実施形態では、ターゲット言及を決定することは、複数のスコアから最高スコアに基づいて分布の境界を選択することを含むことができ、複数のスコアは、1つまたは複数の注意層の各々の分布の積を決定することによって生成される。例として、ターゲット言及は、分布の積から最高スコアをもたらす各注意モデルから境界を選択することによって生成されてもよい。いくつかの実施形態では、一方の注意モデルから選択された境界は、他方の注意モデルから選択された境界より小さくてもよい。いくつかの実施形態では、両方の境界は同じ発話に属し得る。
本開示の例示的な利点は、以下のように説明することができる。
表2は、本開示の実施形態の成績を示す。表2に見られるように、BERTモデルを使用する本開示は、マルチターン会話における感情および言及の識別において最良のスコアを提示する。
表3は、本開示の実施形態の成績を示す。表3に見られるように、1つまたは複数の変換器を使用する本開示は、マルチターン会話における感情および言及の識別において最良のスコアをもたらす。
表3に見られるような、列「Avg.KN Len.」に実証されるものとしての、利用された知識の平均的な長さ。完全なニュース文書を使用すると、BLEUスコアはわずかに増加するが、Distinctスコアによって示されるように出力の多様性は減少する。本開示の実施形態による選択されたセグメントのみを取ることは、Distinctスコアに関する多様性を改善し、同等のBLEUスコアを示す。より重要なことに、本開示の実施形態では平均して29文字の漢字しか選択されないが、文書全体のベースラインは765文字を使用する。これは、本開示の実施形態が、関連する知識を表すために96%のメモリ使用量を節約することができることを示している。
図5から図7はプロセス500、600、700の例示的なブロックを示しているが、実装形態では、プロセス500、600、700は、図5から図7に示されるものに比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。実施形態では、プロセス500、600、700の任意のブロックは、必要に応じて、任意の量または順序で組み合わされまたは配置され得る。実施形態では、プロセス500、600、700のブロックのうちの2つ以上が並列に実行されてもよい。
前述した技術は、コンピュータ可読命令を使用し、1つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして、または具体的に構成される1つ以上のハードウェアプロセッサによって実装され得る。例えば、図1は、様々な実施形態の実施に適した環境100を示している。
コンピュータソフトウェアは、コンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって、直接に、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用して符号化されることができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、および様々な代替均等例がある。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
100 環境
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション
124-2 仮想マシン
124-3 仮想化ストレージ
124-4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
300 モデル
310 入力される単語
320 センテンスエンコーダ
330 コンテキスト依存埋め込み
330 コンテキスト依存の文の埋め込み
340 機械学習済みモデル
350 タグ
360 感情および/または極性抽出
400 モデル
410 コンテキスト埋め込みに基づく入力連結
420 言及エンコーダ
430 特徴抽出器
440 リッチコンテキスト表現
450 平均ベクトル表現
460 注意モデル
470 分布

Claims (20)

  1. マルチターン会話のための感情分析のための方法であって、前記方法は、
    入力された対話を取得するステップと、
    前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、
    前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成するステップと、
    前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも1つに関連付けられたターゲット言及を決定するステップであって、
    前記ターゲット言及を決定する前記ステップは、
    前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成するステップと、
    計算された境界に基づいて前記ターゲット言及を決定するステップであって、前記計算された境界が前記リッチコンテキスト表現を使用して生成される、ステップとを含む、ステップと
    を含む、方法。
  2. 前記文の埋め込みおよび前記感情表現に基づいて前記リッチコンテキスト表現を生成する前記ステップは、
    前記文の埋め込みに基づいてターンワイズ距離を生成するステップと、
    前記文の埋め込みに基づいて話者情報を生成するステップであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、ステップと、
    前記ターンワイズ距離、前記話者情報、および前記感情表現を連結するステップと
    を含む、請求項1に記載の方法。
  3. 計算された境界に基づいて前記ターゲット言及を決定する前記ステップは、
    1つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成するステップと、
    前記分布の境界に基づいて前記ターゲット言及を決定するステップと
    を含む、請求項1に記載の方法。
  4. 前記分布を生成する前記ステップが、前記1つまたは複数の注意層の各々の分布の積を決定するステップを含む、請求項3に記載の方法。
  5. 前記ターゲット言及を決定する前記ステップは、複数のスコアから最高スコアに基づいて前記分布の境界を選択するステップであって、前記複数のスコアは、前記1つまたは複数の注意層の各々の分布の積を決定することによって生成される、ステップを含む、請求項3に記載の方法。
  6. 前記文の埋め込みは、前記入力された対話に基づいて生成される、請求項1に記載の方法。
  7. 前記文の埋め込みから前記感情表現を抽出する前記ステップは、
    予め訓練された機械学習済みモデルを使用して複数のタグを生成するステップと、
    前記複数のタグに基づいて前記感情表現を推測するステップと
    を含む、請求項1に記載の方法。
  8. 前記文の埋め込みから前記極性値を生成する前記ステップは、
    予め訓練された機械学習済みモデルを使用して複数のタグを生成するステップと、
    前記複数のタグに基づいて前記極性値を推測するステップと
    を含む、請求項1に記載の方法。
  9. 前記極性値が、正、負、または中性のうちの1つである、請求項1に記載の方法。
  10. マルチターン会話のための感情分析のための装置であって、前記装置は、
    コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、前記コンピュータプログラムコードは、
    前記少なくとも1つのプロセッサに、入力された対話を取得させるように構成された第1の取得コードと、
    前記少なくとも1つのプロセッサに、前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出させるように構成された第1の抽出コードと、
    前記少なくとも1つのプロセッサに、前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成させるように構成された第1の生成コードと、
    前記少なくとも1つのプロセッサに、前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも1つに関連付けられたターゲット言及を決定させるように構成された第1の決定コードとを含み、前記第1の決定コードは、
    前記少なくとも1つのプロセッサに、前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成させるように構成された第2の生成コードと、
    前記少なくとも1つのプロセッサに、計算された境界に基づいて前記ターゲット言及を決定させるように構成された第2の決定コードであって、前記計算された境界は、前記リッチコンテキスト表現を使用して生成される、第2の決定コードと
    を含む、少なくとも1つのプロセッサと
    を備える、装置。
  11. 前記第2の生成コードは、
    前記少なくとも1つのプロセッサに、前記文の埋め込みに基づいてターンワイズ距離を生成させるように構成された第3の生成コードと、
    前記少なくとも1つのプロセッサに、前記文の埋め込みに基づいて話者情報を生成させるように構成された第4の生成コードであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、第4の生成コードと、
    前記少なくとも1つのプロセッサに、前記ターンワイズ距離、前記話者情報、および前記感情表現を連結させるように構成された第1の連結コードと
    を含む、請求項10に記載の装置。
  12. 前記第2の決定コードは、
    前記少なくとも1つのプロセッサに、1つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成させるように構成された第5の生成コードと、
    前記少なくとも1つのプロセッサに、前記分布の境界に基づいて前記ターゲット言及を決定させるように構成された第3の決定コードと
    を含む、請求項10に記載の装置。
  13. 前記分布を生成する前記ステップが、前記1つまたは複数の注意層の各々の分布の積を決定するステップを含む、請求項12に記載の装置。
  14. 前記分布の前記境界に基づいて前記ターゲット言及を決定する前記ステップは、複数のスコアから最高スコアに基づいて前記分布の境界を選択するステップを含み、前記複数のスコアは、前記1つまたは複数の注意層の各々の分布の積を決定することによって生成される、請求項12に記載の装置。
  15. 前記第1の抽出コードは、
    前記少なくとも1つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第6の生成コードと、
    前記少なくとも1つのプロセッサに、前記複数のタグに基づいて前記感情表現を推測させるように構成された第1の推測コードと
    を含む、請求項10に記載の装置。
  16. 前記第1の生成コードは、
    前記少なくとも1つのプロセッサに、予め訓練された機械学習済みモデルを使用して複数のタグを生成させるように構成された第6の生成コードと、
    前記少なくとも1つのプロセッサに、前記複数のタグに基づいて前記感情表現を推測させるように構成された第1の推測コードと
    を含む、請求項10に記載の装置。
  17. 前記極性値は、正、負、または中性のうちの1つである、請求項10に記載の装置。
  18. コンピュータに処理を実行させるプログラムを格納した非一時的なコンピュータ可読媒体であって、前記処理は、
    入力された対話を取得するステップと、
    前記入力された対話に対応する文の埋め込みに基づいて感情表現を抽出するステップと、
    前記入力された対話に対応する前記文の埋め込みに基づいて極性値を生成するステップと、
    前記感情表現および前記文の埋め込みに基づいて前記感情表現のうちの少なくとも1つに関連付けられたターゲット言及を決定するステップであって、
    前記ターゲット言及を決定する前記ステップは、
    前記文の埋め込みおよび前記感情表現に基づいてリッチコンテキスト表現を生成するステップと、
    計算された境界に基づいて前記ターゲット言及を決定するステップであって、前記計算された境界が前記リッチコンテキスト表現を使用して生成される、ステップと
    を含む、ステップと
    を含む、非一時的なコンピュータ可読媒体。
  19. 前記文の埋め込みおよび前記感情表現に基づいて前記リッチコンテキスト表現を生成する前記ステップは、
    前記文の埋め込みに基づいてターンワイズ距離を生成するステップと、
    前記文の埋め込みに基づいて話者情報を生成するステップであって、前記話者情報は、前記入力された対話が同じ話者からのものであるかどうかを示す、ステップと、
    前記ターンワイズ距離、前記話者情報、および前記感情表現を連結するステップと
    を含む、請求項18に記載の非一時的なコンピュータ可読媒体。
  20. 計算された境界に基づいて前記ターゲット言及を決定する前記ステップは、
    1つまたは複数の注意層を使用して前記リッチコンテキスト表現および前記感情表現に基づいて分布を生成するステップと、
    前記分布の境界に基づいて前記ターゲット言及を決定するステップと
    を含む、請求項18に記載の非一時的なコンピュータ可読媒体。
JP2023547681A 2021-10-18 2022-08-25 Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム Pending JP2024506171A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/503,584 US20230118506A1 (en) 2021-10-18 2021-10-18 Conversational aspect sentiment analysis for dialogue understanding
US17/503,584 2021-10-18
PCT/US2022/041515 WO2023069194A1 (en) 2021-10-18 2022-08-25 Casa: conversational aspect sentiment analysis for dialogue understanding

Publications (1)

Publication Number Publication Date
JP2024506171A true JP2024506171A (ja) 2024-02-09

Family

ID=85980909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023547681A Pending JP2024506171A (ja) 2021-10-18 2022-08-25 Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム

Country Status (5)

Country Link
US (1) US20230118506A1 (ja)
JP (1) JP2024506171A (ja)
KR (1) KR20230104983A (ja)
CN (1) CN116391188A (ja)
WO (1) WO2023069194A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392260B (zh) * 2022-10-31 2023-04-07 暨南大学 一种面向特定目标的社交媒体推文情感分析方法
CN117114695B (zh) * 2023-10-19 2024-01-26 本溪钢铁(集团)信息自动化有限责任公司 基于钢铁行业智能客服的交互方法及装置
CN117131182A (zh) * 2023-10-26 2023-11-28 江西拓世智能科技股份有限公司 一种基于ai的对话回复生成方法及系统
CN117787293B (zh) * 2024-02-27 2024-05-24 南京信息工程大学 一种基于大语言模型的个性化对话生成方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
US9864743B2 (en) * 2016-04-29 2018-01-09 Fujitsu Limited Textual emotion detection
US11010561B2 (en) * 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11151328B2 (en) * 2019-08-01 2021-10-19 Oracle International Corporation Using neural network and score weighing to incorporate contextual data in sentiment analysis

Also Published As

Publication number Publication date
KR20230104983A (ko) 2023-07-11
WO2023069194A1 (en) 2023-04-27
US20230118506A1 (en) 2023-04-20
CN116391188A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
JP2024506171A (ja) Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム
US10705795B2 (en) Duplicate and similar bug report detection and retrieval using neural networks
TWI684881B (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體
US11394799B2 (en) Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data
US20200342056A1 (en) Method and apparatus for natural language processing of medical text in chinese
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US10810374B2 (en) Matching a query to a set of sentences using a multidimensional relevancy determination
US20190236135A1 (en) Cross-lingual text classification
WO2016092406A1 (en) Inferred facts discovered through knowledge graph derived contextual overlays
US11586689B2 (en) Electronic apparatus and controlling method thereof
KR102569760B1 (ko) 온라인 게이밍을 위한 사용자 입력 텍스트의 언어 감지
JP2021111367A (ja) Api評価のための自動パラメータ値解決
US10943673B2 (en) Method and apparatus for medical data auto collection segmentation and analysis platform
CN111274397B (zh) 建立实体关系检测模型的方法以及装置
Doumbouya et al. Using radio archives for low-resource speech recognition: towards an intelligent virtual assistant for illiterate users
US11481599B2 (en) Understanding a query intention for medical artificial intelligence systems using semi-supervised deep learning
JP2023552137A (ja) ダイアログモデルを生成する方法、デバイス及びコンピュータプログラム
WO2021200200A1 (ja) 情報処理装置及び情報処理方法
US20240078393A1 (en) Search-engine-augmented dialogue response generation with cheaply supervised query production
US20240078230A1 (en) System, method, and computer program for augmenting multi-turn text-to-sql datasets with self-play
US20230386507A1 (en) Conditional factorization for jointly modeling code-switched and monolingual asr
US20230162055A1 (en) Hierarchical context tagging for utterance rewriting
WO2024054253A1 (en) Friend-training: methods, systems, and apparatus for learning from models of different but related tasks
JP2020187729A (ja) テキスト処理方法、装置、デバイス、及び記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230807