JP2018169506A - 会話満足度推定装置、音声処理装置および会話満足度推定方法 - Google Patents
会話満足度推定装置、音声処理装置および会話満足度推定方法 Download PDFInfo
- Publication number
- JP2018169506A JP2018169506A JP2017066848A JP2017066848A JP2018169506A JP 2018169506 A JP2018169506 A JP 2018169506A JP 2017066848 A JP2017066848 A JP 2017066848A JP 2017066848 A JP2017066848 A JP 2017066848A JP 2018169506 A JP2018169506 A JP 2018169506A
- Authority
- JP
- Japan
- Prior art keywords
- satisfaction
- conversation
- utterance
- speaker
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】会話における満足度を、簡易な構成によって精度良く推定する。【解決手段】会話満足度推定装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、を備える。【選択図】図1
Description
本発明は、複数人による会話における満足度を推定する技術に関する。
近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、複数の人間が会話している状況において意思決定を支援するためにコンピュータが介入する技術が存在する。特許文献1は、複数の参加者の間で複数の選択要素を含む意思決定の支援を行うものであり、グループ全体での会話に対する満足度が高くなるように意見を引き出す参加者の優先度を決定することを開示する。
特許文献1では、参加者が意見を表明できることや意見が採用されることが、満足度の向上につながるとみなしている。しかしながら、より汎用的に利用できる満足度推定方法が望まれる。会話における満足度を推定する他の従来技術として次のようなものがある。
特許文献2は、あらかじめ対話行為ごとの満足度をラベリングしたデータを用意することなく、対話における対話行為ごとの満足度を評価する技術を開示する。この技術では、対話内容のテキスト(質問に対する対話行為、相槌に対する対話行為など)を利用して、満足度を推定している。したがって、発話のテキストが得られない場合には、満足度を推定できない。また、発話のテキストが得られた場合であっても、話者が正直に自分の気持ちを言葉で表していない場合には、真の満足度を評価できない。
また、発話における音響特徴量(音声特徴量)から満足度を推定する技術も存在する。特許文献3−5は、話者のストレスを音響特徴量から推定している。しかしながら、音響特徴量に基づく感情(ストレスなど)の推定は、精度が低いのが現状である。また、そもそも発話を行っていないユーザの満足度は推定できないという問題もある。
特許文献6および非特許文献1は、簡易型の脳波計を用いてストレス度等の感性を測定することを開示する。脳波計を用いた感性測定は比較的精度よく行える。しかしながら、頭部に器具を装着して測定を行う必要があり、ユーザにとって負担がかかるとともに、脳波計が利用できない場面では満足度の推定が行えないという問題がある。
荻野 幹人. 満倉 靖恵. スマートフォンを用いた脳波解析システムの構築. 電気学会研究会資料. PI = The papers of Technical Meeting on "Perception Information", IEE Japan, / 知覚情報研究会 [編]. 2013(8-22):2013.4.26. PI-13-10. 13-16
上述のように、従来技術に係る会話満足度推定は、精度が低いという問題や、利用できる場面が限られるという問題がある。
上記のような問題を考慮して、本発明は、複数人による会話における満足度を、簡易な構成によって精度良く推定できる技術を提供することを目的とする。
上記目的を達成するために、本発明の第一の態様に係る会話満足度推定装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、を備えることを特徴とする。
本開示において、「発話」とは言語を音声として発声すること、およびその結果として発声された音声を意味する。「発話意図」には、話題切り出し、提案、肯定、否定、質問、回答、集約が含まれる。なお、発話意図は、発話の言語的な特徴量(言語特徴量)と称することもできる。発話の他の特徴量として音響的な特徴量(音響特徴量)があり、その具体例として、発話の音圧レベル、基本周波数、発話長、発話速度、間隔または重なりが挙げられる。言語特徴量と音響特徴量を総称して発話特徴量と称することもある。
本態様における満足度推定手段として、機械学習処理によって作成された識別器を利用できる。機械学習処理では、複数人の会話における発話意図の推移と、正解として与えられる会話満足度とを学習データとして用いればよい。正解となる会話満足度の取得方法の一例として、脳波計から得られる脳波測定データに基づいて算出される感性が挙げられる。感性には、好き・興味・集中・眠気・ストレスが含まれるが、このうちのストレスの度合い(ストレス度)を会話満足度の指標として用いることが考えられる。また、正解となる会話満足度は、顔の表情やジェスチャーに基づいて決定したり、話者本人からの主観的な申告や第三者による評価によって決定したりしてもよい。
また、本態様における満足度推定手段はルールベースの判定によって会話満足度を推定するように構成されてもよい。具体的には、複数人の会話における発話意図の推移から当該会話における満足度を算出する計算式をあらかじめ用意し、この計算式を用いて満足度を推定することもできる。
また、本態様における満足度推定手段は、発話の音響特徴量も考慮して会話満足度を推定するように構成されてもよい。このためには、本態様に係る会話満足度推定装置は、音声データから発話の音響的な特徴量を抽出する音響特徴量抽出手段をさらに備える必要がある。音響特徴量を利用する場合も、満足度推定手段は、識別器として構成されてもよいし、ルールベースの判定器として構成されてもよい。
本態様における満足度推定手段は、推定した満足度の要因も併せて出力するように構成されてもよい。会話の満足度が高くなる要因として、自分の希望を述べることができた・自分の希望に対して好意的な応答が得られた、などが考えられる。一方、会話の満足度が低くなる要因として、自分の希望意見が発言できない・自分の希望意見が反対された・自分の希望意見に対して応答が得られない、などが考えられる。このような要因出力を可能とするために、満足度推定手段を要因ごとの識別器として構成したり、要因を判定するための判別手段をさらに備えるように構成したりすればよい。
発話意図や音響特徴量の推移と会話満足度の関係は、話者の性別や年齢によって異なる
ことが想定される。そこで、本態様に係る会話満足度推定装置は、発話者の性別および年齢層を特定する話者識別手段をさらに備え、前記満足度推定手段は、発話者の性別および年齢層に応じて複数種類の識別器または計算式を有しており、前記満足度推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器または計算式を用いて、前記満足度を推定することも好ましい。
ことが想定される。そこで、本態様に係る会話満足度推定装置は、発話者の性別および年齢層を特定する話者識別手段をさらに備え、前記満足度推定手段は、発話者の性別および年齢層に応じて複数種類の識別器または計算式を有しており、前記満足度推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器または計算式を用いて、前記満足度を推定することも好ましい。
本態様における話者識別手段はどのようにして話者の性別や年齢層を特定してもよいが、例えば、話者の顔を撮影した顔画像を用いて特定してもよいし、音声データから取得される音響特徴量に基づいて特定してもよい。
また、本態様における満足度推定手段は、会話を行っているグループ間の関係性や親密度も利用して、会話の満足度を推定するように構成されてもよい。会話の満足度が高くなる要因として、自分の意見を表明できた回数や同意が得られた回数があるが、その回数と会話満足度の関係はグループの状態によって変化する。例えば、上下関係があり親密度が低いグループにおける下位メンバーは、少ない発言機会であっても満足度が高くなると考えられる。それに対して、フラットな関係で親密度が高いグループでは、単に意見が述べられただけでは満足度の向上にはつながりにくいと考えられる。そこで、前記満足度推定手段は、グループ状態に応じて複数種類の識別器または計算式を有しており、前記満足度推定手段は、現在のグループ状態に対応する識別器または計算式を用いて、前記満足度を推定することも好ましい。グループ状態は、話者の性別や年齢、発話の発生状況や言葉遣いから求めることができる。
このような構成によれば、会話の満足度をより精度良く推定することができる。
本発明の第二の態様は、上述した満足度推定を行う識別器を生成するための会話処理装置(学習装置)としてとらえることもできる。具体的には、本態様に係る会話処理装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記会話における前記特定話者の満足度を取得する満足度取得手段と、前記意図推定手段によって推定された前記複数人の発話の発話意図の推移と、前記満足度取得手段によって取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習手段と、を備えることを特徴とする。
なお、本発明は、上記手段の少なくとも一部を備える会話満足度推定装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話満足度推定装置による会話満足度推定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、簡単な構成によって、複数人による会話における話者の満足度を精度良く推定できる。
(第1の実施形態)
本実施形態は、複数人による会話をモニタして、各話者の会話における満足度を推定する音声処理装置(会話満足度推定装置)である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは会話満足度推定処理に焦点を当てて説明する。
本実施形態は、複数人による会話をモニタして、各話者の会話における満足度を推定する音声処理装置(会話満足度推定装置)である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは会話満足度推定処理に焦点を当てて説明する。
<システム構成>
図1は本実施形態に係る音声処理装置100の機能ブロック図である。音声処理装置100は、CPUなどの演算装置、RAMやROMなどの記憶装置、キーボードやマイクなどの入力装置、ディスプレイやスピーカーなどの出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図1に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置100は、1台の装置として構成する必要はなく、通信回線を介して結合された複数の装置(コンピュータ)を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。
図1は本実施形態に係る音声処理装置100の機能ブロック図である。音声処理装置100は、CPUなどの演算装置、RAMやROMなどの記憶装置、キーボードやマイクなどの入力装置、ディスプレイやスピーカーなどの出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図1に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置100は、1台の装置として構成する必要はなく、通信回線を介して結合された複数の装置(コンピュータ)を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。
図1に示すように、音声処理装置100は、マイク(音声入力部)101、雑音除去部102、音源分離部(話者分離部)103、発話区間検出部104、音声認識部105、音響特徴量抽出部106、発話意図推定部107、コーパス辞書108、満足度推定部109をその機能部として含む。
マイク101は、複数のユーザによる会話音声を取得する。使用するマイク101の数や配置は特に限定されないが、複数のマイクやアレイマイクを用いて音源の方向を特定できるように構成することが好ましい。
雑音除去部102は、マイク101から取得される音声データから雑音を除去する機能部である。雑音除去部102は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去するように構成される。雑音除去部102は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去するよう構成されてもよい。
音源分離部103は、雑音除去部102によって雑音が除去された音声データを対象として、それぞれの音声の音源(話者)を特定する機能部である。音源分離部103は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出することによって、話者を特定するように構成される。
発話区間検出部104は、音源分離部103によって分離された音声データを対象に、一人のユーザによるひとまとまりの発話を発話区間として検出する機能部である。発話区間検出には、音声モデルやスペクトラムエントロピーを用いた手法など既存の任意の手法を利用できる。以下では、ひとまとまりの発話の音声データを発話データとも称する。
音声認識部105は、発話区間検出部104によって検出されたそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する機能部である。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部105は、音声認識の結果(テキスト)とともに、音声認識結果の信頼度も計算する。
発話意図推定部107は、音声認識部105による音声認識結果(テキスト)に基づいて、話者の発話意図を推定する機能部である。発話意図推定部107は、意図推定用のコーパス辞書108を参照して発話テキストに基づいて発話意図の推定を行う。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。発話意図推定用のコーパス辞書108には、発話意図を推定するための判別用のキーワード(単語や言い回し)が格納される。図2は、コーパス辞書108に含まれるキーワードの一例を示す。このようなキーワードは、実際の会話に現れる語彙等からあらかじめ生成しておけばよい。発話意図推定部107は、発話テキストをコーパス辞書108と照合して、発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。
音響特徴量抽出部106は、発話区間検出部104によって検出されたそれぞれの発話データについて、その発話の音響的な特徴量(音響特徴量)を計算する機能部である。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度,平均モーラ長、発話の重なりまたは間隔などが挙げられる。
満足度推定部109は、会話における発話意図および音響特徴量の時系列データ(推移)を入力として、特定話者の会話満足度を推定する機能部である。満足度推定部109が用いる発話意図と音響特徴量は、直近の所定期間(例えば、1分、2分、5分、10分など)のデータとする。満足度推定部109は、機械学習処理によって生成される識別器として構成することができる。満足度推定部109は、例えば、0(不満足)から100(満足)までの間の数値として会話満足度を出力する。
<学習処理>
ここで図3および図4を参照して、満足度推定部109の生成処理について説明する。図3は、満足度推定部109を生成するための学習装置150の構成を示す。学習装置150は、音声処理装置100と共通する機能部を多く有するので、共通する機能部については同一の符号を付してその説明を省略する。音声処理装置100と比較すると、学習装置150は、脳波計151と学習部152を備える点が相違する。
ここで図3および図4を参照して、満足度推定部109の生成処理について説明する。図3は、満足度推定部109を生成するための学習装置150の構成を示す。学習装置150は、音声処理装置100と共通する機能部を多く有するので、共通する機能部については同一の符号を付してその説明を省略する。音声処理装置100と比較すると、学習装置150は、脳波計151と学習部152を備える点が相違する。
脳波計151は、ユーザの頭部に装着する電極を備えるヘッドセットと、電極から得られる脳波信号を解析してユーザの感性を取得する脳波解析部とを備える。ヘッドセットは、特許文献6や非特許文献1に記載されているように国際10−20法のFp1箇所のみを計測個所とする簡易的なものであってもよいし、より多くの箇所を計測個所とするもの
であってもよい。脳波解析部は、ヘッドセットから得られた脳波信号から特徴量抽出を行い、ユーザの感性(例えば、好き度、興味度、集中度、眠気度、ストレス度)を求める。このような感性の求め方は既存の任意の手法、例えば機械学習ベースの手法が利用できる。なお、会話における満足度はそのストレス度に現れることが知られている。後述するように、満足度推定部の学習処理ではストレス度を用いるので、脳波計測データからストレス度のみを求めてその他の感性は求めてなくてもよい。
であってもよい。脳波解析部は、ヘッドセットから得られた脳波信号から特徴量抽出を行い、ユーザの感性(例えば、好き度、興味度、集中度、眠気度、ストレス度)を求める。このような感性の求め方は既存の任意の手法、例えば機械学習ベースの手法が利用できる。なお、会話における満足度はそのストレス度に現れることが知られている。後述するように、満足度推定部の学習処理ではストレス度を用いるので、脳波計測データからストレス度のみを求めてその他の感性は求めてなくてもよい。
図4は、学習装置150による満足度推定部の学習処理の流れを示すフローチャートである。ステップS101では、複数人による会話における各話者の会話音声データをマイク101から取得し、脳波計データを脳波計151から取得する。なお、音声データは会話参加者全員分のデータを取得する必要があるが、脳波データは少なくとも一人の参加者のデータを取得すればよい。もっとも、脳波データを取得する参加者の数が多いほど、学習データが増えるので有利である。
ステップS102では、取得された音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。前処理は、具体的には、雑音除去部102による雑音除去処理、音源分離部103による音源(話者)分離処理、発話区間検出部104による発話区間検出処理を含む。
ステップS103では、音響特徴量抽出部106を用いて、発話データから発話の音響特徴量を抽出する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。
ステップS104では、音声認識部105がそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する。ステップS105では、発話意図推定部107が、音声認識結果(発話テキスト)に基づいて、発話の意図を推定する。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。
ステップS106では、脳波計151が、測定された脳波データに基づいて話者のストレス度を算出する。
上記のステップS102からS106の処理の順序はここで説明したものに限られず、実行順序を変更したり、あるいは複数の処理を並行に行ったりしてもよい。最終的に、発話意図、音響特徴量、およびストレス度の時系列データ(推移)が得られる。
ステップS107では、ステップS106で得られたストレス度を会話満足度とみなして、発話意図と音響特徴量の推移から会話満足度を推定するための識別器を、機械学習処理により生成する。機械学習アルゴリズムは特に限定されず、SVM(サポートベクタマシーン)、決定木、ランダムフォレスト、ニューラルネットワーク、ロジスティック回帰などの任意の教師あり学習アルゴリズムを採用可能である。
以上の処理によって、満足度推定部(識別器)109が生成できる。
なお、複数人の脳波(ストレス度)が得られる場合には、脳波計測対象者ごとに学習データを作成できる。すなわち、特定の参加者(本人と称する)のストレス度と、本人による発話の発話意図および音響特徴量と、本人以外の参加者(他人と称する)による発話の発話意図および音響特徴量の推移を、この特定参加者の満足度を利用した学習データとする。ここで、他人同士の会話は必ずしも学習データに含めなくてもよく、また、複数の他人を区別しなくてもよい。
ここでは、脳波計から得られるストレス度を正解の会話満足度とみなしているが、脳波計から得られるその他の感性も利用して、正解の会話満足度を決定してもよい。また、脳波計以外に、顔の表情から正解の話満足度を決定してもよい。さらには、会話後に参加者本人から得た主観的な満足度や第三者が評価した満足度を正解データとして用いてもかまわない。
<会話満足度推定処理>
図5は、本実施形態に係る音声処理装置100が行う会話満足度推定処理の流れを示すフローチャートである。
図5は、本実施形態に係る音声処理装置100が行う会話満足度推定処理の流れを示すフローチャートである。
ステップS201では、複数人による会話における各話者の会話音声データをマイク101から取得する。ステップS202では、取得された音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。ステップS203では、音響特徴量抽出部106を用いて、発話データから発話の音響特徴量を抽出する。ステップS204では、音声認識部105がそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する。ステップS205では、発話意図推定部107が、音声認識結果(発話テキスト)に基づいて、発話の意図を推定する。
ステップS206では、上記の処理で得られた発話意図と音響特徴量の時系列データを入力として、満足度推定部109を用いて会話満足度を推定する。なお、入力データは、会話満足度の対象者(本人と称する)の発話意図および音響特徴量の時系列データと、本人以外の発話意図および音響特徴量の時系列データに区別する。対象者(本人)を変えながら参加者全員について処理を行うことで、会話参加者全員の会話満足度が得られる。ステップS206では、会話参加者全員についてそれぞれ会話満足度を推定することが望ましいが、参加者の一部のみについて会話満足度を推定するようにしてもかまわない。
<本実施形態の有利な効果>
本実施形態によれば、ユーザが脳波計を装着することなく、音声データのみからユーザの会話満足度を精度よく推定することができる。このように本実施形態は、音声データのみから会話満足度を推定できるため、様々な場面に適用することができる。また、参加者が発話を行っていない状況においてもその会話満足度を推定することができる点でも、適用範囲が広い。また、本実施形態の処理は高速に行えるため、リアルタイムに会話満足度を推定でき、音声処理システムによる会話への介入目的に使える。
本実施形態によれば、ユーザが脳波計を装着することなく、音声データのみからユーザの会話満足度を精度よく推定することができる。このように本実施形態は、音声データのみから会話満足度を推定できるため、様々な場面に適用することができる。また、参加者が発話を行っていない状況においてもその会話満足度を推定することができる点でも、適用範囲が広い。また、本実施形態の処理は高速に行えるため、リアルタイムに会話満足度を推定でき、音声処理システムによる会話への介入目的に使える。
(変形例1)
上記の説明において、満足度推定部109は、発話意図および音響特徴量に基づいて発話意図を推定している。しかしながら、音響特徴量を用いずに発話意図のみを用いて会話満足度を推定するようにしてもよい。あるいは、発話意図および音響特徴量以外の要素を考慮して会話満足度を推定するようにしてもよい。
上記の説明において、満足度推定部109は、発話意図および音響特徴量に基づいて発話意図を推定している。しかしながら、音響特徴量を用いずに発話意図のみを用いて会話満足度を推定するようにしてもよい。あるいは、発話意図および音響特徴量以外の要素を考慮して会話満足度を推定するようにしてもよい。
図6は、上記第1の実施形態の変形例に係る音声処理装置200の機能ブロック図である。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ201、表情抽出部202、およびジェスチャー抽出部203が追加されている点で異なる。また、満足度推定部109の構成も変更されている。
カメラ201は、ユーザ(話者)の顔および身体を含む全身を撮影する。表情抽出部202は、カメラ201の撮影画像に含まれる顔画像から、話者の表情を抽出する。ジェスチャー抽出部203は、カメラ201の撮影画像に含まれる身体画像から、話者のジェスチャーを抽出する。表情抽出やジェスチャー抽出には、既存の任意の手法が適用できる。
満足度推定部109は、発話意図と音響特徴量に加えて表情とジェスチャーも入力として、会話満足度を識別する識別器である。満足度推定部109の生成(学習)方法は、上記で図4を参照して説明した方法とほぼ同様であり、学習データとして発話データだけでなく表情やジェスチャーに関するデータも利用すればよい。
ここでは、表情やジェスチャーを利用する例を説明したが、それ以外にも、脳波・心拍・脈拍などの生体データを用いてもよい。
(変形例2)
第1の実施形態では、満足度推定部109として機械学習処理により生成した識別器を利用している。しかしながら、満足度推定部109は、機械学習により生成される必要はなく、設計者によって定められた計算式にしたがって入力データから会話満足度を推定するように構成してもかまわない。
第1の実施形態では、満足度推定部109として機械学習処理により生成した識別器を利用している。しかしながら、満足度推定部109は、機械学習により生成される必要はなく、設計者によって定められた計算式にしたがって入力データから会話満足度を推定するように構成してもかまわない。
(変形例3)
第1の実施形態の構成に加えて、満足度推定部109による満足度の推定結果が高かったり低かったりする場合に、その要因を出力可能に構成することもできる。会話の満足度が高くなる要因として、自分の希望を述べることができた・自分の希望に対して好意的な応答が得られた、などが考えられる。一方、会話の満足度が低くなる要因として、自分の希望意見が発言できない・自分の希望意見が反対された・自分の希望意見に対して応答が得られない、などが考えられる。
第1の実施形態の構成に加えて、満足度推定部109による満足度の推定結果が高かったり低かったりする場合に、その要因を出力可能に構成することもできる。会話の満足度が高くなる要因として、自分の希望を述べることができた・自分の希望に対して好意的な応答が得られた、などが考えられる。一方、会話の満足度が低くなる要因として、自分の希望意見が発言できない・自分の希望意見が反対された・自分の希望意見に対して応答が得られない、などが考えられる。
このような要因を求める方法はいくつか考えられる。一つの手法は、要因ごとに識別器を用意する方法である。すなわち、学習データに対して満足度が高い/低い要因をラベル付けしておき、それぞれの要因に反応する識別器を生成すれば要因を求めることができる。別の手法として、要因を求める条件式(判別式)を用意する方法も考えられる。すなわち、それぞれの要因について該当するか否かを示す入力データ(発話意図や音響特徴量など)の条件式を決定すれば、この条件式に従っていずれの要因に該当するかを判断することができる。
(変形例4)
第1の実施形態では、満足度推定部109を1種類のみ用いている。しかしながら、発話意図や音響特徴量の時系列パターンと会話満足度の関係は、話者の性別や年齢によって異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる満足度推定部109(識別器)を生成して用いることが会話満足度推定精度の向上につながる。
第1の実施形態では、満足度推定部109を1種類のみ用いている。しかしながら、発話意図や音響特徴量の時系列パターンと会話満足度の関係は、話者の性別や年齢によって異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる満足度推定部109(識別器)を生成して用いることが会話満足度推定精度の向上につながる。
図7は、本変形例に係る音声処理装置300の機能ブロックを示す図である。本変形例では、会話満足度推定時において話者の性別および年齢層を特定することが必要となる。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ301、および性別年齢層特定部302が追加されている点で異なる。また、満足度推定部109が話者の性別および年齢層ごとに複数用意されている。
カメラ301は、少なくとも話者の顔を撮影するように設置される。性別年齢層特定部302は、カメラ301が撮影した顔画像に基づいて、話者の性別と年齢層を特定する。なお、年齢層の定義は適宜行えばよい。例えば、10代未満、10代、20代、30代、40代、50代、60代以上の7区分を利用できる。もちろん、より細かく分類してもよいし、より粗く分類してもよい。顔画像から性別および年齢を推定するためには、既存の顔認識技術が利用可能である。
満足度推定部109は、性別および年齢層グループごとの学習データを用いて、第1の実施形態で説明した方法と同様の方法によって生成すればよい。
本変形例において、満足度推定部109に、発話意図推定部107が推定した発話意図および音響特徴量抽出部106が抽出した音響特徴量の時系列パターンと、性別年齢層特定部302が特定した話者の性別および年齢層が入力される。満足度推定部109は、話者の性別および年齢層に対応した識別器を選択し、選択された識別器に発話意図および音響特徴量を入力して、対象者の会話満足度を推定する。
図8は、さらなる変形例に係る音声処理装置400の機能ブロックを示す図である。図7では、顔画像に基づいて話者の性別および年齢層を特定しているが、本構成例では、性別・年齢層特定部401を利用して、音響特徴量に基づいて話者の性別および年齢層を特定する。性別・年齢層特定部401は音響特徴量抽出部106から音響特徴量を取得して、話者の性別および年齢層を特定する。発話特徴量から話者の性別および年齢を推定するためには、既存の音声処理技術が利用可能である。
(変形例5)
本変形例では、会話満足度を推定するために、会話を行うグループのメンバー間の関係性や親密度を利用する。グループ間の関係性の例として、上下関係があるか否か、フラットな関係か否かがあげられる。グループ間の関係性や親密度は、グループを構成するメンバーの年齢層(年齢差があるのか、同年代なのかなど)、発話の発生状況(特定のメンバーの発言が多いのか、皆が同じように発言しているのかなど)、言葉使い(「敬語」、「丁寧語」、「命令語」、「親密な間柄で使わるような言葉」などがどのように使われているのか)から、把握できる。本変形例における会話満足度推定部は、このようにして把握されるグループ間の関係性や親密度を前提として、ベースとなるグループ状態を把握し、そのベースとなるグループ状態(たとえば、意見が言いやすい状態であったのか、意見が言いづらい状態であったのかなど)をふまえて、満足度の変化を測ることが考えられる。
本変形例では、会話満足度を推定するために、会話を行うグループのメンバー間の関係性や親密度を利用する。グループ間の関係性の例として、上下関係があるか否か、フラットな関係か否かがあげられる。グループ間の関係性や親密度は、グループを構成するメンバーの年齢層(年齢差があるのか、同年代なのかなど)、発話の発生状況(特定のメンバーの発言が多いのか、皆が同じように発言しているのかなど)、言葉使い(「敬語」、「丁寧語」、「命令語」、「親密な間柄で使わるような言葉」などがどのように使われているのか)から、把握できる。本変形例における会話満足度推定部は、このようにして把握されるグループ間の関係性や親密度を前提として、ベースとなるグループ状態を把握し、そのベースとなるグループ状態(たとえば、意見が言いやすい状態であったのか、意見が言いづらい状態であったのかなど)をふまえて、満足度の変化を測ることが考えられる。
たとえば、上下関係があり親密度が低いグループでは下位メンバーは少ない発言機会であっても意見が言えることによって満足度が高まるようなことがあるかもしれないが、フラットな関係で親密度が高いグループでは、メンバーが意見を述べられただけでは満足度は高まらず、意見交換の内容に応じて満足度が変化する傾向が強いことが想定される。
図9は、本変形例に係る音声処理装置450の機能ブロックを示す図である。本変形例では、会話満足推定時においてグループの状態を推定することが必要となる。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ451、性別年齢層特定部452、およびグループ状態推定部453が追加されている点で異なる。また、満足度推定部109がグループ状態ごとに複数用意されている。なお、本変形例においてもコーパス辞書108は存在するが図示を省略している。
カメラ451および性別年齢層特定部452は、変形例4(図7)と同様である。グループ状態推定部453は、性別・年齢層特定部452から得られるメンバーの年齢層の情報や、音声認識部105や発話意図推定部107から得られる発話の発生状況や言葉使いを集計し、メンバーの関係性や親密度を推定して、ベースとなるグループ状態を定める。そして、会話満足度推定部109は、そのベースとなるグループ状態に応じて複数種類の識別器または計算式を有するように構成され、現在のグループ状態に応じた識別器または計算式を用いて会話満足度を推定する。
ここでは、顔画像に基づいて話者の性別や年齢層を特定しているが、図8の構成と同様に音響特徴量に基づいて話者の性別や年齢層を特定してもよい。また、満足度推定部109は、グループ状態ごとおよび話者の性別・年齢層ごとに用意されてもよい。
(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態に係る音声処理装置(発話意図推定装置)を利用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。
本発明の第2の実施形態は、第1の実施形態に係る音声処理装置(発話意図推定装置)を利用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。
図10は本実施形態に係る会話介入支援システム500の構成の一例を示す図である。ナビゲーション装置511がマイクを介して取得した乗員の会話音声は、通信装置514を経由して会話支援サーバ520に送られる。会話支援サーバ520は、車両510から送信された会話音声を分析して、グループの状態や各話者の会話満足度を推定し、状況に応じて適切な情報提供や意思決定支援などの介入を行う。会話支援サーバ520は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム531、店舗広告情報DB532、関連情報WEBサイト540から取得する。この際に、会話支援サーバ520は、ユーザ情報・利用履歴DB533に格納されているユーザの嗜好や店舗等の利用履歴も考慮して、ユーザに合った情報を取得する。会話支援サーバ520は介入指示を車両510に送信し、車両510はナビゲーション装置511のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両510は、現在位置を取得するGPS装置512および乗員(話者)の顔や体を撮影するカメラ513も備える。
会話満足度推定処理に関して説明すると、第1の実施形態で説明した会話満足度推定のための各機能部(図1参照)は、車両510と会話支援サーバ520に適宜分散して実装することができる。例えば、雑音除去、音源分離、発話区間検出、発話特徴量抽出を車両510で実施し、音声認識、発話意図推定および会話満足度推定を会話支援サーバ520で行うように実装できる。ただしこれは機能分担の一例であり、これとは異なるように機能分担してもよい。また、会話支援サーバ520が、複数のコンピュータ(例えば、音声認識サーバ、意図抽出サーバ、会話分析サーバ、会話エージェントサーバ)によって実現されてもよい。
会話支援サーバ520は、発話意図推定結果も用いながら、会話内容や会話状況の分析、グループ状態の分析、各話者の会話における満足度の推定などの処理を行う。また、会話エージェントを用いて、どのようなシステム発話を行うかを決定する。例えば、ユーザが話題としている事物に関する情報を検索して提供したり、会話に参加できず満足度が低いユーザに対して意見提示の機械を与えるように介入したりすることが考えられる。会話エージェントがシステム発話の内容(テキスト)を決定して、車両510に送信すると、車両510は音声合成処理によってそのテキストを音声化して、スピーカーから出力する。
本実装例では、車両内のカメラ513を用いて、上記変形例で説明した表情やジェスチャーを用いた発話意図推定や表情やジェスチャーに基づく性別および年齢層の推定を行うこともできる。
本実装例では、会話満足度がリアルタイムかつ高精度で推定できるので、会話の内容や状況をより適確に分析できるようになり、より適確な介入が実現できるようになる。
本実装例は、車両とサーバ装置とが連携するテレマティクスサービスとして構成する会話介入支援システムであるが、具体的なシステムの形態はこれに限られない。例えば、会
議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
101:マイク
102:雑音除去部
103:音源(話者)分離部
104:発話区間検出部
105:音声認識部
106:音響特徴量抽出部
107:発話意図推定部
108:コーパス辞書
109:満足度推定部
102:雑音除去部
103:音源(話者)分離部
104:発話区間検出部
105:音声認識部
106:音響特徴量抽出部
107:発話意図推定部
108:コーパス辞書
109:満足度推定部
Claims (14)
- 複数人による会話における特定話者の満足度を推定する会話満足度推定装置であって、
前記会話における発話の音声データを取得する音声取得手段と、
前記音声データから前記発話のテキストを抽出する音声認識手段と、
前記発話のテキストから発話意図を推定する意図推定手段と、
前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、
を備える、会話満足度推定装置。 - 前記発話意図は、話題切り出し、提案、肯定、否定、質問、回答、集約、の少なくともいずれかを含む、
請求項1に記載の会話満足度推定装置。 - 前記満足度推定手段は、複数人の会話における発話意図の推移と当該会話における満足度とを元に学習処理によってあらかじめ作成された識別器である、
請求項1または2に記載の会話満足度推定装置。 - 前記満足度推定手段は、複数人の会話における発話意図の推移から当該会話における満足度を算出する計算式を用いて、前記満足度を推定する、
請求項1または2に記載の会話満足度推定装置。 - 前記音声データから、発話の音響的な特徴量である音響特徴量を抽出する音響特徴量抽出手段をさらに含み、
前記満足度推定手段は、前記複数人の発話の発話意図および音響特徴量の推移から、前記特定話者の会話における満足度を推定する、
請求項1から4のいずれか1項に記載の会話満足度推定装置。 - 前記満足度推定手段は、推定した満足度の要因も併せて出力する、
請求項1から5のいずれか1項に記載の会話満足度推定装置。 - 発話者の性別および年齢層を特定する話者識別手段をさらに備え、
前記満足度推定手段は、発話者の性別および年齢層に応じて複数種類の識別器または計算式を有しており、
前記満足度推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器または計算式を用いて、前記満足度を推定する、
請求項1から6のいずれか1項に記載の会話満足度推定装置。 - 前記話者識別手段は、発話者の顔画像を用いて発話者の性別および年齢層を特定する、
請求項7に記載の会話満足度推定装置。 - 前記音声データから、発話の音響的な特徴量である音響特徴量を抽出する音響特徴量抽出手段をさらに含み、
前記話者識別手段は、前記音響特徴量に基づいて発話者の性別および年齢層を特定する、
請求項7または8に記載の会話満足度推定装置。 - 複数人による会話における特定話者の満足度を推定する識別器を生成するための会話処理装置であって、
前記会話における発話の音声データを取得する音声取得手段と、
前記音声データから前記発話のテキストを抽出する音声認識手段と、
前記発話のテキストから発話意図を推定する意図推定手段と、
前記会話における前記特定話者の満足度を取得する満足度取得手段と、
前記意図推定手段によって推定された前記複数人の発話の発話意図の推移と、前記満足度取得手段によって取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習手段と、
を備える会話処理装置。 - 前記満足度取得手段は、前記特定話者から取得される脳波データまたは当該特定話者の顔を撮影した顔画像に基づいて当該特定話者の満足度を求める、
請求項10に記載の会話処理装置。 - 複数人による会話における特定話者の満足度を推定する会話満足度推定方法であって、
コンピュータが、
前記会話における発話の音声データを取得する音声取得ステップと、
前記音声データから前記発話のテキストを抽出する音声認識ステップと、
前記発話のテキストから発話意図を推定する意図推定ステップと、
前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定ステップと、
を実行する、会話満足度推定方法。 - 複数人による会話における特定話者の満足度を推定する識別器を生成するための学習方法であって、
コンピュータが、
前記会話における発話の音声データを取得する音声取得ステップと、
前記音声データから前記発話のテキストを抽出する音声認識ステップと、
前記発話のテキストから発話意図を推定する意図推定ステップと、
前記会話における前記特定話者の満足度を取得する満足度取得ステップと、
前記意図推定ステップにおいて推定された前記複数人の発話の発話意図の推移と、前記満足度取得ステップにおいて取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習ステップと、
を実行する、学習方法。 - 請求項12または13に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017066848A JP2018169506A (ja) | 2017-03-30 | 2017-03-30 | 会話満足度推定装置、音声処理装置および会話満足度推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017066848A JP2018169506A (ja) | 2017-03-30 | 2017-03-30 | 会話満足度推定装置、音声処理装置および会話満足度推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018169506A true JP2018169506A (ja) | 2018-11-01 |
Family
ID=64018768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017066848A Pending JP2018169506A (ja) | 2017-03-30 | 2017-03-30 | 会話満足度推定装置、音声処理装置および会話満足度推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018169506A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102075506B1 (ko) * | 2019-07-17 | 2020-03-02 | 주식회사 리논 | 화상 기반의 전문가 매칭 플랫폼 제공 시스템 |
JP2020152605A (ja) * | 2019-03-19 | 2020-09-24 | 日本碍子株式会社 | セラミックスハニカム構造体の製造方法 |
JP2020157944A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 車両機器制御装置、車両機器制御方法、およびプログラム |
WO2020246600A1 (ja) * | 2019-06-07 | 2020-12-10 | 国立大学法人電気通信大学 | 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム |
CN113205356A (zh) * | 2020-02-03 | 2021-08-03 | Gn股份公司 | 以现场空间中的动作识别为基础的满意度调查系统 |
JP7370521B2 (ja) | 2020-01-29 | 2023-10-30 | ベルフェイス株式会社 | 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム |
-
2017
- 2017-03-30 JP JP2017066848A patent/JP2018169506A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020152605A (ja) * | 2019-03-19 | 2020-09-24 | 日本碍子株式会社 | セラミックスハニカム構造体の製造方法 |
JP2020157944A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 車両機器制御装置、車両機器制御方法、およびプログラム |
JP7286368B2 (ja) | 2019-03-27 | 2023-06-05 | 本田技研工業株式会社 | 車両機器制御装置、車両機器制御方法、およびプログラム |
WO2020246600A1 (ja) * | 2019-06-07 | 2020-12-10 | 国立大学法人電気通信大学 | 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム |
KR102075506B1 (ko) * | 2019-07-17 | 2020-03-02 | 주식회사 리논 | 화상 기반의 전문가 매칭 플랫폼 제공 시스템 |
JP7370521B2 (ja) | 2020-01-29 | 2023-10-30 | ベルフェイス株式会社 | 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム |
CN113205356A (zh) * | 2020-02-03 | 2021-08-03 | Gn股份公司 | 以现场空间中的动作识别为基础的满意度调查系统 |
CN113205356B (zh) * | 2020-02-03 | 2024-02-20 | Gn股份公司 | 以现场空间中的动作识别为基础的满意度调查系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018169506A (ja) | 会話満足度推定装置、音声処理装置および会話満足度推定方法 | |
JP6263308B1 (ja) | 認知症診断装置、認知症診断方法、及び認知症診断プログラム | |
JP6617053B2 (ja) | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 | |
JP6755304B2 (ja) | 情報処理装置 | |
Lee et al. | Modeling mutual influence of interlocutor emotion states in dyadic spoken interactions. | |
US20160379643A1 (en) | Group Status Determining Device and Group Status Determining Method | |
TWI403304B (zh) | 隨身語能偵知方法及其裝置 | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
JP5602653B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、およびプログラム | |
JP6251145B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
CN110634472B (zh) | 一种语音识别方法、服务器及计算机可读存储介质 | |
JP2017009825A (ja) | 会話状況分析装置および会話状況分析方法 | |
US20200237290A1 (en) | System and method for detection of cognitive and speech impairment based on temporal visual facial feature | |
JP2017010309A (ja) | 意思決定支援装置および意思決定支援方法 | |
Baird et al. | An evaluation of the effect of anxiety on speech-computational prediction of anxiety from sustained vowels | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
JP2024020321A (ja) | 精神・神経系疾患を推定する装置 | |
JP2008146268A (ja) | 映像を用いた発音の推定方法 | |
Zhang et al. | Multimodal emotion recognition integrating affective speech with facial expression | |
JP2023015068A (ja) | 感情解析システムおよび感情解析装置 | |
JP2020067562A (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
JP6285377B2 (ja) | コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム | |
Singh et al. | Automatic articulation error detection tool for Punjabi language with aid for hearing impaired people | |
Kowalczyk et al. | Detecting changing emotions in natural speech |