JP2023005289A - Dialogue support server, dialogue support system, dialogue support method, and program - Google Patents
Dialogue support server, dialogue support system, dialogue support method, and program Download PDFInfo
- Publication number
- JP2023005289A JP2023005289A JP2021107082A JP2021107082A JP2023005289A JP 2023005289 A JP2023005289 A JP 2023005289A JP 2021107082 A JP2021107082 A JP 2021107082A JP 2021107082 A JP2021107082 A JP 2021107082A JP 2023005289 A JP2023005289 A JP 2023005289A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- charge
- person
- emotion
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、対話支援サーバ、対話支援システム、対話支援方法、及びプログラムに関する。 The present invention relates to a dialogue support server, a dialogue support system, a dialogue support method, and a program.
従来から音声や画像を用いて、顧客が持つ感情の状態を検出する技術が利用されている。例えば、特許文献1には、提案時のみならず、日々の感情分析結果も含めることにより、顧客が商品に興味があるか否かを、より精度で判定することができる技術が開示されている。
Conventionally, technology has been used to detect the emotional state of customers using voice and images. For example,
しかしながら、顧客の感情の状態を検出できたとしても、その感情に寄り添うことができるとは限らない。特に、経験の浅い担当者は、顧客が悩んでいることに気づいたとしても、どう対応してよいのか判らない場合がある。このために顧客から信頼を得ることができず、機会損失が発生する可能性があった。 However, even if the customer's emotional state can be detected, it is not always possible to get close to the customer's emotions. In particular, even if an inexperienced person in charge notices that a customer is worried, he or she may not know how to respond. As a result, the customer's trust could not be obtained, and there was a possibility of opportunity loss.
本発明は、このような事情に鑑みてなされたもので、その目的は、顧客と担当者の対話において、担当者が顧客の感情に寄り添うことができる対話支援サーバ、対話支援システム、対話支援方法、及びプログラムを提供することにある。 The present invention has been made in view of such circumstances, and its object is to provide a dialogue support server, a dialogue support system, and a dialogue support method that enable the person in charge to be close to the customer's feelings in the dialogue between the customer and the person in charge. , and to provide a program.
上述した課題を解決するために、本発明に係る対話支援サーバは、顧客と担当者の対話時における前記顧客の顔が撮像された第1画像データ、及び前記対話時における前記担当者の顔が撮像された第2画像データを取得する取得部と、前記第1画像データに示されている顔が示す第1感情を推定し、前記第2画像データに示されている顔が示す第2感情を推定し、前記第1感情と前記第2感情とが類似する度合を、前記対話時における共感度として算出する画像処理部と、前記画像処理部によって算出された前記共感度を、前記担当者の端末装置に送信する通信部とを備える。 In order to solve the above-described problems, a dialogue support server according to the present invention provides first image data in which the customer's face is imaged during the dialogue between the customer and the person in charge, and the face of the person in charge during the dialogue. an acquisition unit for acquiring imaged second image data; and a first emotion indicated by the face indicated by the first image data, and estimating the second emotion indicated by the face indicated by the second image data. and calculating the degree of similarity between the first emotion and the second emotion as a degree of empathy during the dialogue; and a communication unit that transmits to the terminal device.
また、本発明は、上述の対話支援サーバにおいて、前記画像処理部は、前記顧客の顔が特定の対象感情を示している第1度合を前記第1感情として推定し、前記担当者の顔が前記対象感情を示している第2度合を前記第2感情として推定し、前記第1度合と前記第2度合の差分の絶対値に基づいて前記共感度を算出する。 Further, according to the present invention, in the above-described dialogue support server, the image processing unit estimates, as the first emotion, a first degree to which the face of the customer indicates a specific target emotion, and the face of the person in charge A second degree indicating the target emotion is estimated as the second emotion, and the degree of empathy is calculated based on an absolute value of a difference between the first degree and the second degree.
また、本発明は、上述の対話支援サーバにおいて、前記画像処理部は、前記第1画像データから抽出された特徴点と悩み度推定モデルに基づいて、前記顧客が悩んでいる度合を、悩み度として推定し、前記通信部は、前記画像処理部によって算出された前記共感度と前記悩み度を前記担当者の端末装置に送信し、前記悩み度推定モデルは、学習用の顔画像に当該学習用の顔画像が悩んでいる顔であるか否かを示すラベルが対応付けられた学習用データセットを用いて、顔画像と悩んでいる顔との対応関係を機械学習したモデルであり、入力された顔画像が悩んでいる顔である度合を推定するモデルである。 Further, in the above-described dialogue support server, the image processing unit calculates the degree of concern of the customer based on the feature points extracted from the first image data and the concern level estimation model. and the communication unit transmits the level of empathy and the level of worry calculated by the image processing unit to the terminal device of the person in charge, and the level of worry estimation model uses the facial image for learning as the learning It is a model that machine-learned the correspondence relationship between the face image and the worried face using a training data set that has a label indicating whether the face image for the target is a worried face. It is a model that estimates the degree to which a given face image is a distressed face.
また、本発明において、上述の対話支援サーバは、音声処理部を更に備え、前記取得部は、前記対話時の音声を集音するマイクによって集音された音声データを取得し、前記音声処理部は、前記音声データに含まれる音声をテキスト化し、前記テキスト化した音声から出現頻度が閾値以上であるキーワードを抽出し、前記通信部は、前記音声処理部によって抽出された前記キーワードを、前記担当者の端末装置に送信する。 Further, in the present invention, the above-described dialogue support server further comprises a speech processing unit, the acquisition unit acquires audio data collected by a microphone that collects the speech during the dialogue, and the speech processing unit converts the speech contained in the speech data into text, extracts a keyword having a frequency of occurrence equal to or higher than a threshold value from the text-converted speech, and the communication unit transfers the keyword extracted by the speech processing unit to the person in charge to the terminal device of the other party.
また、本発明は、上述の対話支援サーバにおいて、前記音声処理部は、前記キーワードに基づいて、対話が記憶された対話データベースを参照し、前記対話データベースから前記キーワードの出現頻度が閾値以上である対話を、類似ケースとして抽出し、前記通信部は、前記音声処理部によって抽出された前記類似ケースを、前記担当者の端末装置に送信する。 Further, according to the present invention, in the above-described dialogue support server, the speech processing unit refers to a dialogue database in which dialogues are stored based on the keyword, and the appearance frequency of the keyword from the dialogue database is equal to or higher than a threshold. A dialogue is extracted as a similar case, and the communication unit transmits the similar case extracted by the speech processing unit to the terminal device of the person in charge.
また、本発明に係る対話支援システムは、顧客と担当者の対話時における前記顧客の顔を撮像する第1カメラと、前記対話時における前記担当者の顔を撮像する第2カメラと、前記担当者の端末装置と、上記に記載の対話支援サーバであって、前記第1カメラによって撮像された第1画像データ、及び前記第2カメラによって撮像された第2画像データを取得し、前記共感度を前記端末装置に送信する対話支援サーバと、を備える。 Further, the dialogue support system according to the present invention includes a first camera that captures the face of the customer during the dialogue between the customer and the person in charge, a second camera that captures the face of the person in charge during the dialogue, and a terminal device of a person, and the dialogue support server described above, which obtains first image data captured by the first camera and second image data captured by the second camera, and obtains the empathy level to the terminal device.
また、本発明に係る対話支援方法は、コンピュータ装置が行う対話支援方法であって、取得部が、顧客と担当者の対話時における前記顧客の顔が撮像された第1画像データ、及び前記対話時における前記担当者の顔が撮像された第2画像データを取得し、画像処理部が、前記第1画像データに示されている顔が示す第1感情を推定し、前記第2画像データに示されている顔が示す第2感情を推定し、前記第1感情と前記第2感情とが類似する度合を、前記対話時における共感度として算出し、通信部が、前記画像処理部によって算出された前記共感度を、前記担当者の端末装置に送信する。 Further, a dialogue support method according to the present invention is a dialogue support method performed by a computer device, wherein an acquisition unit obtains first image data in which the customer's face is imaged during a dialogue between the customer and the person in charge, and the dialogue acquires second image data in which the face of the person in charge is imaged at the time, an image processing unit estimates a first emotion indicated by the face indicated in the first image data, and calculates the first emotion in the second image data estimating a second emotion indicated by the indicated face, calculating a degree of similarity between the first emotion and the second emotion as a degree of empathy during the dialogue, and calculating by the communication unit by the image processing unit The degree of empathy obtained is transmitted to the terminal device of the person in charge.
また、上述した課題を解決するために、本発明は、コンピュータを、上記に記載の対話支援サーバとして動作させるためのプログラムであって、前記コンピュータを前記対話支援サーバが備える各部として機能させるためのプログラムである。 Further, in order to solve the above-described problems, the present invention provides a program for causing a computer to operate as the dialogue support server described above, comprising: It's a program.
本発明によれば、共感度を、担当者の端末装置に送信することができる。このため、担当者は顧客との対話における共感度を知ることができ、共感度に応じて対話を行うことにより顧客の感情に寄り添うことが可能となる。 According to the present invention, the empathy level can be transmitted to the terminal device of the person in charge. Therefore, the person in charge can know the degree of sympathy in the dialogue with the customer, and by conducting dialogue according to the degree of sympathy, it becomes possible to get close to the customer's feelings.
以下、本発明の一実施形態について図面を参照して説明する。 An embodiment of the present invention will be described below with reference to the drawings.
(対話支援システム1について)
図1は、実施形態に係る対話支援システム1の適用例を示す図である。図1に示すように、対話支援システム1は、顧客Uと担当者Tが対話を行う場合に適用される。
(Regarding Dialogue Support System 1)
FIG. 1 is a diagram showing an application example of a
対話支援システム1では、対話時において、カメラC1が顧客Uの顔を撮像し、撮像した画像を、画像データD1として、サーバ装置10に送信する。カメラC2が担当者Tの顔を撮像し、撮像した画像を、画像データD2として、サーバ装置10に送信する。また、マイクMが顧客Uと担当者Tの対話に係る音声を集音し、集音した音声を、音声データVとして、サーバ装置10に送信する。サーバ装置10は、画像データD1、画像データD2、及び音声データVを用いて、対話の解析を行い、その解析の処理結果Kを、端末装置20に送信する。
In the
ここで、サーバ装置10が、対話を解析する方法について説明する。サーバ装置10は、対話の解析の一例として、対話時における顧客Uの感情を推定する。サーバ装置10は、画像データD1に示されている顧客Uの顔画像の特徴から、複数の感情、例えば、喜び、悲しみ、驚き、怒り、恐れ、中立などの度合いを推定し、推定結果を端末装置20に送信する。これにより、担当者Tは、対話しながら、顧客Uの感情を把握することができる。
Here, the method by which the
また、サーバ装置10は、共感度を算出する。共感度は、対話において顧客Uと担当者Tが共感している度合である。本実施形態では、顧客Uの感情と担当者Tの感情が似ている場合に、顧客Uと担当者Tが共感しているとみなす。一方、顧客Uの感情と担当者Tの感情が似ていない場合に、顧客Uと担当者Tが共感していないとみなす。例えば、サーバ装置10は、画像データD1に示されている顧客Uの顔画像の特徴から顧客Uの感情を推定する。また、サーバ装置10は、画像データD2に示されている担当者Tの顔画像の特徴から担当者Tの感情を推定する。そして、サーバ装置10は、推定した顧客Uの感情と担当者Tの感情が似ている度合を、共感度として算出する。これにより、担当者Tは、対話しながら、顧客Uの感情に共有できているか、すなわち顧客Uに寄り添っているかを認識することができる。
The
また、サーバ装置10は、対話時における顧客Uが悩んでいる度合(悩み度合)を推定する。本実施形態では、機械学習の手法を用いて、顧客Uの悩み度合を推定する。具体的には、本実施形態では、予め、悩み度推定モデルを生成する。悩み度推定モデルは、例えば、顔画像から抽出される特徴点に基づいて、その顔画像に示されている顔の悩み度を推定するモデルである。この場合、悩み度推定モデルは、学習用の顔画像とその特徴点、及び、その画像が悩んでいる顔か否かを示すラベルが対応付けられた学習用データセットを学習することによって、顔画像の特徴点と悩み度との対応関係を学習したモデルである。サーバ装置10が顧客Uの悩み度を推定することより、担当者Tは、対話しながら、顧客Uが悩んでいるかどうかを把握することができる。
In addition, the
また、サーバ装置10は、共感度と悩み度とを、対話の経過時間と対応づけて、端末装置20に送信する。これにより、担当者Tは、対話の経過に応じて、顧客Uの悩み度がどのように変化しているのか、共感度がどのように変化しているのかを把握することができる。
In addition, the
また、サーバ装置10は、対話において頻出するキーワード(頻出キーワード)を抽出する。サーバ装置10は、音声データVとして集音された音声を、音声認識技術を用いてテキスト化し、テキスト化された文字情報に含まれる名詞のうち、例えば、閾値以上の個数存在する名詞を、頻出キーワードとして抽出し、抽出した頻出キーワードを端末装置20に送信する。これにより、担当者Tは、対話にて頻繁に登場しているキーワードを把握することができる。
The
また、サーバ装置10は、類似ケースを抽出する。類似ケースは、現在行われている対話と類似する対話である。類似ケースは、例えば過去に行われた対話のデータベースから抽出される。サーバ装置10は、対話から抽出した頻出キーワードを用いて、過去に行われた対話のデータベースを検索し、頻出キーワードと同等なキーワードが対応づけられている対話を、類似ケースとして抽出する。サーバ装置10は、抽出した類似ケースを端末装置20に送信する。これにより、担当者Tは、過去に似たような対話が行われていた場合に、その対話の内容を参考にすることができる。
The
また、サーバ装置10は、顧客Uのアセスメントデータを、端末装置20に送信する。アセスメントデータは、顧客Uに対する事前の調査結果であり、例えば、対話の前に行った顧客Uへのアンケート結果である。これにより、担当者Tは、対話を行う前や、対話を行っている途中において、顧客Uのアセスメントデータを確認することができる。
The
図2は、実施形態に係る対話支援システム1の構成例を示すブロック図である。対話支援システム1は、例えば、二台のカメラC(カメラC1、及びカメラC2)と、マイクMと、サーバ装置10と、端末装置20とを備える。これら対話支援システム1の構成要素(カメラC、マイクM、サーバ装置10、及び端末装置20)は、通信ネットワークNWを介して通信可能に接続されている。
FIG. 2 is a block diagram showing a configuration example of the
サーバ装置10は、例えば、通信部11と、記憶部12と、制御部13とを備える。通信部11は、カメラCと、マイクMと、端末装置20と通信する。例えば、通信部11は、カメラCから画像データDを取得する。通信部11は、マイクMから音声データVを取得する。通信部11は、端末装置20に、対話の解析結果を、処理結果Kとして送信する。
The
記憶部12は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、または、これらの記憶媒体の任意の組み合わせによって構成される。記憶部12は、サーバ装置10の各種の処理を実行するためのプログラム、及び各種の処理を行う際に利用される一時的なデータを記憶する。
The
記憶部12は、例えば、アセスメントデータ120と、感情データ121と、共感度データ123と、キーワードデータ124と、ケーステキストデータ125と、学習済モデル126とを記憶する。アセスメントデータ120は、事前に行った顧客Uへのアンケート結果を示す情報である。感情データ121は、対話における顧客Uの感情を示す情報である。悩み度データ122は、対話における顧客Uの悩み度を示す情報である。共感度データ123は、対話における顧客Uと担当者Tの共感度を示す情報である。キーワードデータ124は、対話における頻出キーワードを示す情報である。ケーステキストデータ125は、類似ケースを示す情報である。学習済モデル126は、悩み度推定モデルの構成を示す情報である。
The
制御部13は、サーバ装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、サーバ装置10を統括的に制御する。制御部13は、例えば、取得部130と、アンケート処理部131と、画像処理部132と、音声処理部133と、装置制御部134とを備える。
The
取得部130は、事前に行った顧客Uへのアンケートを取得する。アンケートは、例えば、顧客Uが、自身のスマートフォンなどの端末装置(不図示)に表示されたアンケートに回答を入力し、「回答を送信する」などと記載されたボタンを押下する操作を行うことによって、端末装置からサーバ装置10に送信される。取得部130は、取得したアンケートを、アンケート処理部131に出力する。
Acquisition unit 130 acquires a questionnaire to customer U conducted in advance. For the questionnaire, for example, the customer U inputs an answer to a questionnaire displayed on a terminal device (not shown) such as his/her own smartphone, and presses a button such as "send answer". is transmitted from the terminal device to the
アンケート処理部131は、アンケートから得られた回答に基づいて、アセスメントデータ120を生成する。アンケート処理部131は、例えば、アンケートで得られた、顧客Uの性別や年齢、及び家族関係などを取得し、エラーチェックを行う。アンケート処理部131は、例えば、年齢が極端に若すぎたり、100歳を超えるような高齢であったりする場合などをエラーとして抽出する。アンケート処理部131は、エラーチェック後のアンケート結果を、アセスメントデータ120として、記憶部12に記憶させる。
The
取得部130は、画像データD1、D2を取得し、取得した画像データD1、D2を、画像処理部132に出力する。
Acquisition unit 130 acquires image data D<b>1 and D<b>2 and outputs the acquired image data D<b>1 and D<b>2 to
画像処理部132は、画像データD1に基づいて、感情データ121を生成する。画像処理部132は、画像データD1にて示される顔画像から、特徴点を抽出する。特徴点は、感情或いは悩み度合を推定する際に、特徴となり得る点である。特徴点は、例えば、眉や目、及び口唇の形状や、目じり、口角の位置などを示す点群である。画像処理部132は、抽出した特徴点に基づいて、顧客Uの感情を推定する。例えば、画像処理部132は、眉の形状が眉尻に向かう方向に下がる傾向にあり、口角の位置が口唇の中央部より下にある場合には、悲しみの感情が高く、喜びの感情が低いと推定する。一方、画像処理部132は、眉の形状が眉尻に向かう方向に下がる傾向にはなく、口角の位置が口唇の中央部より上にある場合には、悲しみの感情が低く、喜びの感情が高いと推定する。画像処理部132は、その他の感情、例えば、驚き、怒り、恐れ、及び中立などの感情についても同様な方法で推定する。例えば、画像処理部132は、喜び、悲しみ、驚き、怒り、恐れ、中立などの度合いを割合で推定する。画像処理部132は、推定した感情を、感情データ121として、記憶部12に記憶させる。
画像処理部132は、画像データD1に基づいて、悩み度データ122を生成する。画像処理部132は、画像データD1にて示される顔画像から、特徴点を抽出し、抽出した特徴点を示す情報を、悩み度推定モデルに入力する。悩み度推定モデルは、入力された特徴点から推定される悩み度を出力する。画像処理部132は、悩み度推定モデルから出力された悩み度を、その顔画像における悩み度として推定する。画像処理部132は、推定した悩み度を、悩み度データ122として、記憶部12に記憶させる。
The
画像処理部132は、画像データD1、D2に基づいて、共感度データ123を生成する。画像処理部132は、画像データD1、D2にて示される顔画像から、顧客U及び担当者Tの感情をそれぞれ推定する。画像処理部132が、顧客U及び担当者Tそれぞれの感情を推定する方法は、画像処理部132が感情データ121を生成する際に用いた方法と同様であるため、その説明を省略する。
The
画像処理部132は、顧客U及び担当者Tそれぞれの感情の近さに基づいて、共感度データ123を生成する。画像処理部132は、例えば、それぞれの感情をベクトルとみなした多次元の感情のベクトル空間における、顧客Uの位置、及び担当者Tの位置を算出する。画像処理部132は、顧客Uの位置から担当者Tまでの距離を算出し、算出した距離の大きさに応じた値を共感度とする。例えば、画像処理部132は、下記の(1)式を用いて、共感度を算出する。(1)式におけるaiは顧客Uの、i番目の種別の感情(i)の推定値を示す。biは顧客Uの、i番目の種別の感情(i)の推定値を示す。iは、i=1~nの自然数であり、nは画像処理部132が推定した感情の数である。感情(i)を何れの感情の種別とするかは、任意に設定されてよいが、例えば、感情(1)は喜び、感情(2)は悲しみ、などに設定される。
The
(1)式に示すように、顧客Uと担当者Tの互いの感情(i)の推定値が近く、その差分が0(ゼロ)に近い場合、共感度は1に近づく。一方、顧客Uと担当者Tの互いの感情(i)の推定値の差分が大きい場合、共感度は0に近づく。この場合、共感度が大きいほど、顧客Uと担当者Tが共感していることを示し、共感度が小さいほど、顧客Uと担当者Tが共感していないことを示している。画像処理部132は、算出した共感度を、共感度データ123として、記憶部12に記憶させる。
As shown in the formula (1), when the estimated values of the feelings (i) of the customer U and the person in charge T are close to each other and the difference is close to 0 (zero), the degree of empathy approaches 1. On the other hand, when the difference between the estimated values of feelings (i) of the customer U and the person in charge T is large, the degree of empathy approaches zero. In this case, a higher degree of empathy indicates that the customer U and the person in charge T are in empathy, and a smaller degree of empathy indicates that the customer U and the person in charge T are less empathetic. The
取得部130は、音声データVを取得し、取得した音声データVを、音声処理部133に出力する。
Acquisition unit 130 acquires audio data V and outputs acquired audio data V to
音声処理部133は、音声データVに基づいて、キーワードデータ124を生成する。音声処理部133は、音声データVにおける音声を、音声認識技術を用いてテキスト化する。ここで用いる音声認識技術は任意の技術であってよい。例えば、音声処理部133は、音素ごとの音響モデルを用いて音声を音素に変換し、変換した音素をつなげた音素群を単語に変換して出力することにより音声認識を行い、音声認識した結果をテキスト化する。音声処理部133は、テキスト化したデータに含まれる単語を検索し、対話開始から現時点までの間に、所定の回数以上、出現する単語を抽出する。音声処理部133は、抽出した単語を、キーワードデータ124として、記憶部12に記憶させる。
The
音声処理部133は、音声データVに基づいて、ケーステキストデータ125を生成する。音声処理部133は、例えば、音声データVをテキスト化した文章(以下、第1文章という)を、その文章の内容に基づいてベクトル表現する。例えば、音声処理部133は、Doc2Vecを用いて、文章をベクトル表現する。文章を、Doc2Vecを用いてベクトル表現すると、例えば介護や家族の話題など、対話の内容が似ているものが、似たようなベクトル値をもつベクトルに数値化される。
The
音声処理部133は、過去の対話がテキスト化された文章(以下、第2文章という)をベクトル表現したデータベースを参照する。音声処理部133は、第1文章をベクトル表現した場合におけるベクトル空間上の位置座標(以下、第1位置という)と、第2文章をベクトル表現した場合におけるベクトル空間上の位置座標(以下、第2位置という)が、所定の距離以内となる第2文章を、類似ケースとして抽出する。画像処理部132は、抽出した類似ケースを、ケーステキストデータ125として、記憶部12に記憶させる。
The
装置制御部134は、サーバ装置10を統括的に制御する。装置制御部134は、例えば、通信部11がアンケートの回答を受信した場合に、そのアンケートの回答を取得部130に出力する。装置制御部134は、画像処理部132が感情データ121などのデータを生成すると、そのデータを通信部11に出力して端末装置20に通知する。装置制御部134は、音声処理部133がキーワードデータ124などのデータを生成すると、そのデータを通信部11に出力して端末装置20に通知する。
The device control unit 134 controls the
図3は、実施形態に係るアセスメントデータ120の例を示す図である。アセスメントデータ120は、例えば、アセスメントNo、顧客U、入居希望者などの項目を備える。ここでは対話の内容が、顧客Uの家族を入居させる介護施設について相談する内容である場合を例示している。このため、アンケートに、介護施設に入居させる家族、すなわち、入居希望者についての項目があり、この項目から得られた回答が、アセスメントデータ120における入居希望者の項目に記憶される。
FIG. 3 is a diagram showing an example of
アセスメントNoは、アセスメントデータ120を一意に特定する番号などの識別情報である。顧客Uの項目には、アンケートの回答から得られた顧客に関する情報、例えば、氏名、及び住所などを示す情報が記憶される。入居希望者は、アンケートの回答から得られた入居希望者に関する情報、例えば、入居希望者の氏名、及び住所などを示す情報が記憶される。
The assessment number is identification information such as a number that uniquely identifies the
図4は、実施形態に係る顧客Uの感情データ121Aの例を示す図である。感情データ121Aは、例えば、顧客U顔画像No、時間、喜び、悲しみ、驚き、怒り、などの項目を備える。顧客U顔画像Noは、画像データD1から得られた顧客Uの顔画像を一意に特定する番号などの識別情報である。時間は、顔画像が撮像された時刻を示す情報である。時間は、例えば、対話開始時刻を基準に設定される。喜び、悲しみ、驚き、怒り、などの項目には、それぞれの感情について音声処理部133によって推定された、その感情を示す割合が記憶される。
FIG. 4 is a diagram showing an example of customer
図5は、実施形態に係る担当者Tの感情データ121Bの例を示す図である。感情データ121Bの構成は、感情データ121Aと同様であるため、その説明を省略する。担当者Tの顔画像から推定した感情についても、感情データ121Ato同様に、記憶部12に記憶されてよい。
FIG. 5 is a diagram showing an example of the
図6は、実施形態に係る悩み度データ122の例を示す図である。悩み度データ122は、例えば、顧客U顔画像No、時間、悩み度などの項目を備える。顧客U顔画像No、及び時間については、感情データ121Aと同様であるため、その説明を省略する。悩み度の項目には、音声処理部133によって推定された、悩み度が記憶される。
FIG. 6 is a diagram showing an example of the
図7は、実施形態に係る共感度データ123の例を示す図である。共感度データ123は、例えば、時間と、共感度などの項目を備える。時間は、感情データ121Aにおける時間と同様であるため、その説明を省略する。共感度の項目には、音声処理部133によって算出された共感度が記憶される。
FIG. 7 is a diagram showing an example of
図8は、実施形態に係るキーワードデータ124の例を示す図である。キーワードデータ124は、例えば、テキストデータと、頻出キーワードなどの項目を備える。テキストデータは、音声データVがテキスト化された情報である。テキストデータは、例えば、対話の時間経過に伴って更新される。頻出キーワードは、対話において所定の回数以上登場する単語であり、例えば、キーワード1、キーワード2のように、複数の単語が記憶されてよい。
FIG. 8 is a diagram showing an example of
図9は、実施形態に係るケーステキストデータ125の例を示す図である。ケーステキストデータ125は、例えば、テキストデータと類似ケースなどの項目を備える。テキストデータは、キーワードデータ124におけるテキストデータと同様であるため、その説明を省略する。類似ケースは、音声処理部133によって抽出された類似ケースであり、例えば、ケース1、ケース2のように、複数の類似ケースが記憶されてよい。また、ケーステキストデータ125に、類似ケースの類似度合いを示す「類似スコア」が記憶されてもよい。類似スコアは、例えば、ベクトル空間における文章同士の距離の近さに応じて算出される。
FIG. 9 is a diagram showing an example of
なお、学習済モデル126は、悩み度推定モデルを構築するために必要な情報が記憶される。モデルを構築するために必要な情報とは、具体的には、モデルの構成や、使用するパラメータの設定値等である。例えば、モデルが、CNN(Convolutional Neural Network)である場合、モデルの構成は、CNNの入力層、中間層、出力層の各層のユニット数、中間層の層数、活性化関数などを示す情報である。使用するパラメータは、各階層のノードを結合する結合係数や重みを示す情報である。 Note that the learned model 126 stores information necessary for constructing a worry level estimation model. The information necessary for constructing the model is, specifically, the configuration of the model, the set values of the parameters to be used, and the like. For example, if the model is a CNN (Convolutional Neural Network), the configuration of the model is information indicating the number of units in each layer of the CNN input layer, intermediate layer, and output layer, the number of intermediate layers, the activation function, and so on. be. The parameters to be used are information indicating coupling coefficients and weights for coupling nodes in each hierarchy.
ここで、端末装置20に表示される画像の例について説明する。図10及び図11は、実施形態に係る端末装置20に表示される画像の例を示す図である。
Here, examples of images displayed on the
図10に示すように、端末装置20のディスプレイには、例えば、画像200~207が表示される。画像200~202は、担当者Tが操作するボタン画像の例を示している。例えば、画像200は、対話においてリアルタイムに進行する状況を表示させるためのボタン画像である。画像201は、顧客Uのアセスメントデータを表示させるためのボタン画像である。画像202は、画像の表示を終了させる場合に選択されるボタン画像である。なお、図10の例では、画像200が選択され、対話においてリアルタイムに進行する状況が表示された場合の例が示されている。
As shown in FIG. 10,
画像203は、顧客Uと担当者Tの顔画像を示している。画像203は、例えば、対話の進行に応じて、リアルタイムに変化する。画像203における顧客Uと担当者Tの顔画像のそれぞれに、特徴点が示されていてもよい。
An
画像204は、頻出キーワードを示している。画像204は、サーバ装置10から通知されるキーワードデータ124に基づいて表示され、例えば、対話の進行に応じて、リアルタイムに変化する。
The
画像205は、顧客Uの感情分析の結果を示している。画像205は、サーバ装置10から通知される感情データ121に基づいて表示され、例えば、対話の進行に応じて、リアルタイムに変化する。
画像206は、類似ケースを示している。画像206は、サーバ装置10から通知されるケーステキストデータ125に基づいて表示され、例えば、対話の進行に応じて、リアルタイムに変化する。
画像207は、寄り添い状態を示している。図11には、画像207を拡大させた例が示されている。図11に示すように、画像207には、上側に悩み度、下側に共感度がそれぞれ、時系列で示されている。この図の例では、悩み度が低い場合には緩和状態にあり、悩み度が高い場合には深刻な状態にあることを示している。また、共感度が低い場合には不協和であることを示し、共感度が高い場合には伴走しており、担当者Tが顧客Uの感情に寄り添えていることを示している。
An
ここで、サーバ装置10が行う処理の流れについて説明する。図12及び図13は、実施形態に係るサーバ装置10が行う処理の流れを示すフローチャートである。
Here, the flow of processing performed by the
図12には、画像データD1、D2を用いて行う処理の流れが示されている。図13には、音声データVを用いて行う処理の流れが示されている。 FIG. 12 shows the flow of processing performed using the image data D1 and D2. FIG. 13 shows the flow of processing performed using the voice data V. As shown in FIG.
図12に示すように、サーバ装置10は、時刻tにおける画像データD1を取得する(ステップS10)。サーバ装置10は、取得した画像データD1から、顔の特徴点を抽出する(ステップS11)。サーバ装置10は、抽出した特徴点に基づいて、顧客Uの感情を推定し、推定した感情を感情データ121Aとして記憶させる(ステップS12)。また、サーバ装置10は、ステップS11で抽出した特徴点と悩み度推定モデルに基づいて、顧客Uの悩み度を推定し、推定した悩み度を悩み度データ122として記憶させる(ステップS13)。
As shown in FIG. 12, the
一方、サーバ装置10は、時刻tにおける画像データD2を取得する(ステップS14)。サーバ装置10は、取得した画像データD2から、顔の特徴点を抽出する(ステップS15)。サーバ装置10は、抽出した特徴点に基づいて、担当者Tの感情を推定し、推定した感情を感情データ121Bとして記憶させる(ステップS16)。
On the other hand, the
サーバ装置10は、ステップS12で推定した顧客Uの感情と、ステップS16で推定した担当者Tの感情とに基づいて、顧客Uと担当者Tの共感度を推定し、推定した共感度を、共感度データ123として記憶させる(ステップS17)。
The
サーバ装置10は、時刻をtから、t+Δtに進め(ステップS18)、対話が終了するなどして、画像データD1、D2の取得が終了するまで、ステップS10~ステップS17に示す処理を繰り返し行う。なお、感情を推定する処理については、顧客Uと担当者Tのどちらを先に推定してもよい。具体的には、ステップS10~S12に示す処理を行う前に、ステップS14~S16に示す処理が行われてもよい。
The
図13に示すように、サーバ装置10は、時刻tにおける音声データVを取得する(ステップS20)。サーバ装置10は、取得した音声データVを、音声認識技術を用いてテキスト化し、キーワードデータ124のテキストデータとして記憶させる(ステップS21)。サーバ装置10は、テキストデータから、頻出キーワードを抽出し、抽出した頻出キーワードをキーワードデータ124に記憶させる(ステップS22)。
As shown in FIG. 13, the
また、サーバ装置10は、類似ケースを抽出し、抽出した類似ケースをケーステキストデータ125として記憶させる(ステップS23)。サーバ装置10は、ステップS21でテキスト化した文章を、Doc2Vecなどを用いてベクトル表現する。サーバ装置10は、過去の対話などのデータベースを参照し、ベクトル空間において、今回の対話と近いベクトル値をもつ対話を、類似ケースとして抽出する。サーバ装置10は、時刻をtから、t+Δtに進め(ステップS24)、対話が終了するなどして、音声データVの取得が終了するまで、ステップS20~ステップS23に示す処理を繰り返し行う。
The
サーバ装置10は、上記のフローチャートで記憶させた感情データ121~ケーステキストデータ125(以下、感情データ121等という)を、定期的に端末装置20に送信する。サーバ装置10は、感情データ121等を生成する度に、端末装置20に感情データ121等を送信するようにしてもよいし、ある程度まとめて端末装置20に感情データ121等を送信してもよい。
The
以上説明した通り、実施形態のサーバ装置10は、取得部130と、画像処理部132と、通信部11とを備える。取得部130は、画像データD1と、画像データD2を取得する。画像処理部132は、画像データD1が示す顧客Uの顔の感情を推定する。画像処理部132は、画像データD2が示す担当者Tの顔の感情を推定する。画像処理部132は、推定した顧客Uの感情と、担当者Tの感情とが類似する度合を、対話における共感度として算出する。通信部11は、画像処理部132によって算出された共感度を、端末装置20に送信する。
As described above, the
ここで、サーバ装置10は、「対話支援サーバ」の一例である。カメラC1は、「第1カメラ」の一例である。カメラC2は、「第2カメラ」の一例である。画像データD1は、「第1画像データ」の一例である。画像データD2は、「第2画像データ」の一例である。画像データD1が示す顧客Uの顔の感情は、「第1感情」の一例である。画像データD2が示す担当者Tの顔の感情は、「第2感情」の一例である。
Here, the
これにより、実施形態のサーバ装置10では、対話における共感度を推定し、推定した共感度を担当者Tに提示することができる。共感度は、顧客Uの感情と担当者Tの感情とか類似する度合である。このため、担当者Tは、顧客との対話において、顧客Uに共感しているか確認することができる。仮に共感度が低い場合には、担当者Tは、自身の顔の表情を変化させて、顧客Uの感情に近づけるなどして、共感度を高めるように対応することが可能である。したがって、担当者が顧客の感情に寄り添うことができる。
As a result, the
顧客Uと信頼関係を構築するためには、感情的に受容され共感されることの有用性が指摘されている(例えば、「今井、雄西、坂東、”納得の概念分析”、日本看護研究学会雑誌 Vol. 39 No. 2 2016」、「今井、雄西、坂東、”転移のある高齢がん患者の治療に対する納得の要素”、日本がん看護学会誌、30巻(2016)、3号 p.19-28」などを参照)。また、信頼関係の構築のテクニックとして、ミラーリングが有用であることが示唆されている。本実施形態では、顔画像から、顧客Uと担当者Tの感情が似ている度合(シンクロ率)を共感度として算出して、担当者に提示する。これにより、経験の少ない担当者であっても、顧客の感情を受容して共感を得られるように対話を進めることができ、顧客Uと信頼関係を構築することが可能となる。 In order to build a relationship of trust with the customer U, the usefulness of being emotionally accepted and sympathetic has been pointed out Academic Journal Vol. 39 No. 2 2016", "Imai, Yusai, Bando, ``Convincing Factors for Treatment of Elderly Cancer Patients with Metastasis'', Journal of Japanese Society of Cancer Nursing, Vol. 30 (2016), No. 3 pp.19-28”). It is also suggested that mirroring is useful as a technique for building trusting relationships. In this embodiment, the degree of similarity (synchronization rate) between the emotions of the customer U and the person in charge T is calculated from the face image as the degree of empathy, and is presented to the person in charge. As a result, even an inexperienced person in charge can accept the customer's feelings and proceed with the dialogue so as to gain sympathy, making it possible to build a relationship of trust with the customer U.
また、実施形態のサーバ装置10では、画像処理部132は、顧客Uの顔が特定の対象感情(例えば、喜びや悲しみなどの感情)を示す度合(第1度合)を推定する。画像処理部132は、担当者Tの顔についても、その特定の対象感情を示す度合(第2度合)を推定する。画像処理部132は、例えば、(1)式に示すように、第1度合と第2度合の差分の絶対値に基づいて共感度を算出する。これにより、実施形態のサーバ装置10では、定量的に、共感度を算出することができる。
Further, in the
また、実施形態のサーバ装置10では、画像処理部132は、顧客Uの悩み度を推定する。画像処理部132は、画像データD1が示す顧客Uの顔の特徴点を悩み度推定モデルに入力して得られた出力を、悩み度として推定する。悩み度推定モデルは、学習用データセットを用いて、顔画像と、その顔が悩んでいるか否かとの対応関係を機械学習したモデルである。学習用データセットは、学習用の顔画像に当該学習用の顔画像が悩んでいる顔であるか否かを示すラベルが対応付けられてペアとなったデータセットである。悩み度推定モデルは、入力された顔画像が前記悩んでいる顔である度合を推定するモデルである。これにより、実施形態のサーバ装置10では、機械学習の手法を用いて、悩み度を算出することができる。
Further, in the
また、実施形態のサーバ装置10では、音声処理部133を更に備える。取得部130は音声データVを取得する。音声処理部133は、音声データVから頻出キーワードを抽出する。音声処理部133は、音声データVに含まれる音声をテキスト化し、テキスト化した音声から出現頻度が閾値以上であるキーワードを、頻出キーワードとして抽出する。通信部11は、音声処理部133によって抽出された頻出キーワードを、端末装置20に送信する。これにより、実施形態のサーバ装置10では、対話において頻繁に登場する単語を、担当者Tに提示することができる。したがって、担当者Tは、対話において顧客Uが繰り返し発言する単語を認識することができ、顧客Uが関心を持つ事項に沿って対話を進めることが可能となる。
Further, the
また、実施形態のサーバ装置10では、音声処理部133は、音声データVから抽出した頻出キーワードに基づいて、類似ケースを抽出する。音声処理部133は、音声データVに含まれる音声をテキスト化した文章を、Doc2Vecなどを用いて、その内容に応じたベクトル空間上の位置を算出し、ベクトル表現する。音声処理部133は、ベクトル空間において、近い位置にある対話を、類似ケースとして抽出する。通信部11は、音声処理部133によって抽出された類似ケースを、端末装置20に送信する。これにより、実施形態のサーバ装置10では、今回行われている対話と、似た対話を、担当者Tに提示することができる。したがって、担当者Tは、今回の対話と似た対話のケースを認識することができ、類似ケースを参考にしながら対話を進めることが可能となる。
In addition, in the
なお、上述した実施例においては、顧客Uと担当者Tとが、対面にて、対話を行う場合を例示して説明した。しかしながら、これに限定されない。顧客Uと担当者Tとが、リモートにて、対話を行う場合にも、対話支援システム1を適用することができる。この場合、対話支援システム1は、2つのマイクM(以下、マイクM1、M2という)を備える。マイクM1は、顧客Uの音声を集音し、集音した音声である第1音声データをサーバ装置10に送信する。マイクM2は、担当者Tの音声を集音し、集音した音声である第2音声データをサーバ装置10に送信する。サーバ装置10は、マイクM1から通知された第1音声データ、マイクM2から通知された第2音声データに基づいて、キーワードデータ124を生成する。また、サーバ装置10は、第1音声データ、第2音声データに基づいて、ケーステキストデータ125を生成する。
In the above-described embodiment, the case where the customer U and the person in charge T have a face-to-face conversation has been exemplified and explained. However, it is not limited to this. The
また、上述した実施例においては、図12のフローにおいて、ステップS11~S13を順に実行する場合を例示して説明した。しかしながら、これに限定されない。ステップS12、S13は、共に、ステップS11にて抽出された顔の特徴点を用いた処理である。このため、ステップS12、S13のうち何れを先に実行してもよい。すなわち、ステップS11の次に、ステップS13を実行してもよい。 Further, in the above-described embodiment, the case in which steps S11 to S13 are sequentially executed in the flow of FIG. 12 has been exemplified and explained. However, it is not limited to this. Both steps S12 and S13 are processes using the facial feature points extracted in step S11. Therefore, either of steps S12 and S13 may be executed first. That is, step S13 may be executed after step S11.
また、述した実施例においては、(1)式を用いて共感度を算出する場合を例示して説明した。しかしながら、これに限定されない。共感度を算出する数式は、少なくとも顧客Uと担当者Tの感情が類似する度合を算出することができれば、任意の数式であってよい。また、共感度を算出するためのテーブルや、計算モデル、学習モデルなどが用いられてもよい。 Moreover, in the above-described embodiment, the case where the degree of empathy is calculated using the formula (1) has been exemplified and explained. However, it is not limited to this. The formula for calculating the degree of empathy may be any formula as long as it can at least calculate the degree of similarity between the emotions of the customer U and the person in charge T. Also, a table for calculating empathy, a calculation model, a learning model, or the like may be used.
(1)式以外に、共感度を算出する数式として、例えば、下記の(2)式が用いられてもよい。(2)式におけるai、及びbiは(1)式におけるai、及びbiと同様である。 In addition to formula (1), for example, formula (2) below may be used as a formula for calculating the degree of empathy. a i and b i in formula (2) are the same as a i and b i in formula (1).
(2)式を用いた場合、所定の範囲(ここでは、0~1の範囲)に収まるように、共感度を算出することができる。これにより、例えば、図11のように、端末装置20のディスプレイに、共感度を時系列のグラフにて表示させる場合に、極端に低い値や極端に大きな値が表示されてしまうことがない。このため、担当者Tが画面を見た場合に、共感度のグラフの表示分解能が粗なっていて共感度の変化が把握し難くなってしまうような事態を回避することができる。
When using formula (2), the degree of empathy can be calculated so as to fall within a predetermined range (here, the range of 0 to 1). As a result, for example, as shown in FIG. 11, when the degree of empathy is displayed as a time-series graph on the display of the
上述した実施形態における対話支援システム1、及びサーバ装置10の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
All or part of the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and design and the like are included within the scope of the gist of the present invention.
1…対話支援システム、10…サーバ装置(対話支援サーバ)、12…記憶部、120…アセスメントデータ、121…感情データ、122…悩み度データ、123…共感度データ、124…キーワードデータ、125…ケーステキストデータ、13…制御部、130…取得部、131…アンケート処理部、132…画像処理部、133…音声処理部、20…端末装置
DESCRIPTION OF
Claims (8)
前記第1画像データに示されている顔が示す第1感情を推定し、前記第2画像データに示されている顔が示す第2感情を推定し、前記第1感情と前記第2感情とが類似する度合を、前記対話時における共感度として算出する画像処理部と、
前記画像処理部によって算出された前記共感度を、前記担当者の端末装置に送信する通信部と、
を備える対話支援サーバ。 an acquisition unit that acquires first image data in which the customer's face is imaged during the dialogue between the customer and the person in charge, and second image data in which the face of the person in charge is imaged during the dialogue;
estimating a first emotion indicated by the face indicated by the first image data, estimating a second emotion indicated by the face indicated by the second image data, and calculating the first emotion and the second emotion; an image processing unit that calculates the degree of similarity as the degree of empathy during the dialogue;
a communication unit that transmits the empathy level calculated by the image processing unit to the terminal device of the person in charge;
A dialogue support server comprising:
請求項1に記載の対話支援サーバ。 The image processing unit estimates a first degree that the face of the customer indicates the specific target emotion as the first emotion, and estimates a second degree that the face of the person in charge indicates the target emotion as the first emotion. 2 estimating as emotion, and calculating the empathy level based on the absolute value of the difference between the first degree and the second degree;
A dialogue support server according to claim 1.
前記通信部は、前記画像処理部によって算出された前記共感度と前記悩み度を前記担当者の端末装置に送信し、
前記悩み度推定モデルは、学習用の顔画像に当該学習用の顔画像が悩んでいる顔であるか否かを示すラベルが対応付けられた学習用データセットを用いて、顔画像と悩んでいる顔との対応関係を機械学習したモデルであり、入力された顔画像が悩んでいる顔である度合を推定するモデルである、
請求項1又は請求項2に記載の対話支援サーバ。 The image processing unit estimates, as a degree of concern, the degree of concern of the customer based on the feature points extracted from the first image data and the concern degree estimation model,
The communication unit transmits the empathy level and the distress level calculated by the image processing unit to the terminal device of the person in charge,
The worry level estimation model uses a learning data set in which a label indicating whether or not the learning face image is a face that the user is worried about is associated with the learning face image. It is a model that performs machine learning of the correspondence relationship with the face that is in question, and is a model that estimates the degree to which the input face image is the face that worries.
3. A dialogue support server according to claim 1 or 2.
前記取得部は、前記対話時の音声を集音するマイクによって集音された音声データを取得し、
前記音声処理部は、前記音声データに含まれる音声をテキスト化し、前記テキスト化した音声から出現頻度が閾値以上であるキーワードを抽出し、
前記通信部は、前記音声処理部によって抽出された前記キーワードを、前記担当者の端末装置に送信する、
請求項1から請求項3のいずれか一項に記載の対話支援サーバ。 further comprising an audio processing unit,
The acquisition unit acquires audio data collected by a microphone that collects audio during the dialogue,
The speech processing unit converts the speech contained in the speech data into text, extracts a keyword having a frequency of appearance equal to or higher than a threshold from the textualized speech,
The communication unit transmits the keyword extracted by the voice processing unit to the terminal device of the person in charge.
A dialogue support server according to any one of claims 1 to 3.
前記通信部は、前記音声処理部によって抽出された前記類似ケースを、前記担当者の端末装置に送信する、
請求項4に記載の対話支援サーバ。 The speech processing unit refers to a dialogue database in which dialogues are stored based on the keywords, extracts dialogues in which the appearance frequency of the keywords is equal to or higher than a threshold value from the dialogue database as similar cases,
The communication unit transmits the similar case extracted by the speech processing unit to the terminal device of the person in charge.
5. A dialogue support server according to claim 4.
前記対話時における前記担当者の顔を撮像する第2カメラと、
前記担当者の端末装置と、
請求項1から請求項5のいずれか一項に記載の対話支援サーバであって、前記第1カメラによって撮像された第1画像データ、及び前記第2カメラによって撮像された第2画像データを取得し、前記共感度を前記端末装置に送信する対話支援サーバと、
を備える対話支援システム。 a first camera that captures the face of the customer during conversation between the customer and the person in charge;
a second camera that captures the face of the person in charge during the dialogue;
a terminal device of the person in charge;
6. The dialogue support server according to any one of claims 1 to 5, wherein first image data captured by said first camera and second image data captured by said second camera are acquired. and a dialogue support server that transmits the empathy level to the terminal device;
A dialogue support system.
取得部が、顧客と担当者の対話時における前記顧客の顔が撮像された第1画像データ、及び前記対話時における前記担当者の顔が撮像された第2画像データを取得し、
画像処理部が、前記第1画像データに示されている顔が示す第1感情を推定し、前記第2画像データに示されている顔が示す第2感情を推定し、前記第1感情と前記第2感情とが類似する度合を、前記対話時における共感度として算出し、
通信部が、前記画像処理部によって算出された前記共感度を、前記担当者の端末装置に送信する、
対話支援方法。 A dialogue support method performed by a computer device,
An acquisition unit acquires first image data in which the customer's face is imaged during the dialogue between the customer and the person in charge, and second image data in which the face of the person in charge is imaged during the dialogue,
An image processing unit estimates a first emotion indicated by the face indicated by the first image data, estimates a second emotion indicated by the face indicated by the second image data, and calculates the first emotion. calculating the degree of similarity with the second emotion as the degree of empathy during the dialogue;
The communication unit transmits the empathy level calculated by the image processing unit to the terminal device of the person in charge;
Dialogue support method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021107082A JP2023005289A (en) | 2021-06-28 | 2021-06-28 | Dialogue support server, dialogue support system, dialogue support method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021107082A JP2023005289A (en) | 2021-06-28 | 2021-06-28 | Dialogue support server, dialogue support system, dialogue support method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023005289A true JP2023005289A (en) | 2023-01-18 |
Family
ID=85107218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021107082A Pending JP2023005289A (en) | 2021-06-28 | 2021-06-28 | Dialogue support server, dialogue support system, dialogue support method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023005289A (en) |
-
2021
- 2021-06-28 JP JP2021107082A patent/JP2023005289A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marechal et al. | Survey on AI-Based Multimodal Methods for Emotion Detection. | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
Narayanan et al. | Behavioral signal processing: Deriving human behavioral informatics from speech and language | |
US20210191506A1 (en) | Affective interaction systems, devices, and methods based on affective computing user interface | |
Busso et al. | Iterative feature normalization scheme for automatic emotion detection from speech | |
Kim et al. | ISLA: Temporal segmentation and labeling for audio-visual emotion recognition | |
WO2015198317A1 (en) | Method and system for analysing subjects | |
CA3175428A1 (en) | Multimodal analysis combining monitoring modalities to elicit cognitive states and perform screening for mental disorders | |
JP2007507784A (en) | Audio-visual content composition system and method | |
Stewart et al. | Multimodal modeling of collaborative problem-solving facets in triads | |
Ben-Youssef et al. | On-the-fly detection of user engagement decrease in spontaneous human–robot interaction using recurrent and deep neural networks | |
Ondras et al. | Audio-driven robot upper-body motion synthesis | |
McDuff et al. | A multimodal emotion sensing platform for building emotion-aware applications | |
Metcalf et al. | Mirroring to build trust in digital assistants | |
JP2016177483A (en) | Communication support device, communication support method, and program | |
Shanthi et al. | An integrated approach for mental health assessment using emotion analysis and scales | |
JP2023005289A (en) | Dialogue support server, dialogue support system, dialogue support method, and program | |
Lahiri et al. | Interpersonal synchrony across vocal and lexical modalities in interactions involving children with autism spectrum disorder | |
Nakamura et al. | LSTM‐based japanese speaker identification using an omnidirectional camera and voice information | |
CN114627898A (en) | Voice conversion method, apparatus, computer device, storage medium and program product | |
Shashidhar et al. | Audiovisual speech recognition for Kannada language using feed forward neural network | |
El Haddad et al. | End-to-end listening agent for audiovisual emotional and naturalistic interactions | |
JP5931021B2 (en) | Personal recognition tendency model learning device, personal recognition state estimation device, personal recognition tendency model learning method, personal recognition state estimation method, and program | |
Woo | Development of an interactive human/agent loop using multimodal recurrent neural networks | |
Ohba et al. | Multimodal Analysis for Communication Skill and Self-Efficacy Level Estimation in Job Interview Scenario |