JP2018169506A

JP2018169506A - 会話満足度推定装置、音声処理装置および会話満足度推定方法

Info

Publication number: JP2018169506A
Application number: JP2017066848A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 健郎相原; Tateo Aihara; 河野　進; Susumu Kono; 進河野
Original assignee: Research Organization of Information and Systems; Toyota Motor Corp
Current assignee: Research Organization of Information and Systems; Toyota Motor Corp
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2018-11-01

Abstract

【課題】会話における満足度を、簡易な構成によって精度良く推定する。【解決手段】会話満足度推定装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、を備える。【選択図】図１

Description

本発明は、複数人による会話における満足度を推定する技術に関する。

近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、複数の人間が会話している状況において意思決定を支援するためにコンピュータが介入する技術が存在する。特許文献１は、複数の参加者の間で複数の選択要素を含む意思決定の支援を行うものであり、グループ全体での会話に対する満足度が高くなるように意見を引き出す参加者の優先度を決定することを開示する。

特許文献１では、参加者が意見を表明できることや意見が採用されることが、満足度の向上につながるとみなしている。しかしながら、より汎用的に利用できる満足度推定方法が望まれる。会話における満足度を推定する他の従来技術として次のようなものがある。

特許文献２は、あらかじめ対話行為ごとの満足度をラベリングしたデータを用意することなく、対話における対話行為ごとの満足度を評価する技術を開示する。この技術では、対話内容のテキスト（質問に対する対話行為、相槌に対する対話行為など）を利用して、満足度を推定している。したがって、発話のテキストが得られない場合には、満足度を推定できない。また、発話のテキストが得られた場合であっても、話者が正直に自分の気持ちを言葉で表していない場合には、真の満足度を評価できない。

また、発話における音響特徴量（音声特徴量）から満足度を推定する技術も存在する。特許文献３−５は、話者のストレスを音響特徴量から推定している。しかしながら、音響特徴量に基づく感情（ストレスなど）の推定は、精度が低いのが現状である。また、そもそも発話を行っていないユーザの満足度は推定できないという問題もある。

特許文献６および非特許文献１は、簡易型の脳波計を用いてストレス度等の感性を測定することを開示する。脳波計を用いた感性測定は比較的精度よく行える。しかしながら、頭部に器具を装着して測定を行う必要があり、ユーザにとって負担がかかるとともに、脳波計が利用できない場面では満足度の推定が行えないという問題がある。

特開２０１７−１０３０９号公報特開２０１１−２５３０５３号公報特公昭５２−３３４３７号公報特開２０１０−２５９６９１号公報特表２００３−５０８８０５号公報特開２０１５−２２９０４０号公報

荻野幹人. 満倉靖恵. スマートフォンを用いた脳波解析システムの構築. 電気学会研究会資料. PI = The papers of Technical Meeting on "Perception Information", IEE Japan, / 知覚情報研究会 [編]. 2013(8-22):2013.4.26. PI-13-10. 13-16

上述のように、従来技術に係る会話満足度推定は、精度が低いという問題や、利用できる場面が限られるという問題がある。

上記のような問題を考慮して、本発明は、複数人による会話における満足度を、簡易な構成によって精度良く推定できる技術を提供することを目的とする。

上記目的を達成するために、本発明の第一の態様に係る会話満足度推定装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、を備えることを特徴とする。

本開示において、「発話」とは言語を音声として発声すること、およびその結果として発声された音声を意味する。「発話意図」には、話題切り出し、提案、肯定、否定、質問、回答、集約が含まれる。なお、発話意図は、発話の言語的な特徴量（言語特徴量）と称することもできる。発話の他の特徴量として音響的な特徴量（音響特徴量）があり、その具体例として、発話の音圧レベル、基本周波数、発話長、発話速度、間隔または重なりが挙げられる。言語特徴量と音響特徴量を総称して発話特徴量と称することもある。

本態様における満足度推定手段として、機械学習処理によって作成された識別器を利用できる。機械学習処理では、複数人の会話における発話意図の推移と、正解として与えられる会話満足度とを学習データとして用いればよい。正解となる会話満足度の取得方法の一例として、脳波計から得られる脳波測定データに基づいて算出される感性が挙げられる。感性には、好き・興味・集中・眠気・ストレスが含まれるが、このうちのストレスの度合い（ストレス度）を会話満足度の指標として用いることが考えられる。また、正解となる会話満足度は、顔の表情やジェスチャーに基づいて決定したり、話者本人からの主観的な申告や第三者による評価によって決定したりしてもよい。

また、本態様における満足度推定手段はルールベースの判定によって会話満足度を推定するように構成されてもよい。具体的には、複数人の会話における発話意図の推移から当該会話における満足度を算出する計算式をあらかじめ用意し、この計算式を用いて満足度を推定することもできる。

また、本態様における満足度推定手段は、発話の音響特徴量も考慮して会話満足度を推定するように構成されてもよい。このためには、本態様に係る会話満足度推定装置は、音声データから発話の音響的な特徴量を抽出する音響特徴量抽出手段をさらに備える必要がある。音響特徴量を利用する場合も、満足度推定手段は、識別器として構成されてもよいし、ルールベースの判定器として構成されてもよい。

本態様における満足度推定手段は、推定した満足度の要因も併せて出力するように構成されてもよい。会話の満足度が高くなる要因として、自分の希望を述べることができた・自分の希望に対して好意的な応答が得られた、などが考えられる。一方、会話の満足度が低くなる要因として、自分の希望意見が発言できない・自分の希望意見が反対された・自分の希望意見に対して応答が得られない、などが考えられる。このような要因出力を可能とするために、満足度推定手段を要因ごとの識別器として構成したり、要因を判定するための判別手段をさらに備えるように構成したりすればよい。

発話意図や音響特徴量の推移と会話満足度の関係は、話者の性別や年齢によって異なる
ことが想定される。そこで、本態様に係る会話満足度推定装置は、発話者の性別および年齢層を特定する話者識別手段をさらに備え、前記満足度推定手段は、発話者の性別および年齢層に応じて複数種類の識別器または計算式を有しており、前記満足度推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器または計算式を用いて、前記満足度を推定することも好ましい。

本態様における話者識別手段はどのようにして話者の性別や年齢層を特定してもよいが、例えば、話者の顔を撮影した顔画像を用いて特定してもよいし、音声データから取得される音響特徴量に基づいて特定してもよい。

また、本態様における満足度推定手段は、会話を行っているグループ間の関係性や親密度も利用して、会話の満足度を推定するように構成されてもよい。会話の満足度が高くなる要因として、自分の意見を表明できた回数や同意が得られた回数があるが、その回数と会話満足度の関係はグループの状態によって変化する。例えば、上下関係があり親密度が低いグループにおける下位メンバーは、少ない発言機会であっても満足度が高くなると考えられる。それに対して、フラットな関係で親密度が高いグループでは、単に意見が述べられただけでは満足度の向上にはつながりにくいと考えられる。そこで、前記満足度推定手段は、グループ状態に応じて複数種類の識別器または計算式を有しており、前記満足度推定手段は、現在のグループ状態に対応する識別器または計算式を用いて、前記満足度を推定することも好ましい。グループ状態は、話者の性別や年齢、発話の発生状況や言葉遣いから求めることができる。

このような構成によれば、会話の満足度をより精度良く推定することができる。

本発明の第二の態様は、上述した満足度推定を行う識別器を生成するための会話処理装置（学習装置）としてとらえることもできる。具体的には、本態様に係る会話処理装置は、会話における発話の音声データを取得する音声取得手段と、前記音声データから前記発話のテキストを抽出する音声認識手段と、前記発話のテキストから発話意図を推定する意図推定手段と、前記会話における前記特定話者の満足度を取得する満足度取得手段と、前記意図推定手段によって推定された前記複数人の発話の発話意図の推移と、前記満足度取得手段によって取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習手段と、を備えることを特徴とする。

なお、本発明は、上記手段の少なくとも一部を備える会話満足度推定装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話満足度推定装置による会話満足度推定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、簡単な構成によって、複数人による会話における話者の満足度を精度良く推定できる。

図１は、実施形態に係る音声処理装置（会話満足度推定装置）の機能ブロック図である。図２は、コーパス辞書に含まれる発話意図判別用のキーワードの例を示す。図３は、満足度推定部（識別器）を学習するための学習装置の機能ブロック図である。図４は、満足度推定部（識別器）の学習方法の流れを示すフローチャートである。図５は、実施形態に係る会話満足度推定処理の流れを示すフローチャートである。図６は、変形例に係る音声処理装置（会話満足度推定装置）の機能ブロック図である。図７は、変形例に係る音声処理装置（会話満足度推定装置）の機能ブロック図である。図８は、変形例に係る音声処理装置（会話満足度推定装置）の機能ブロック図である。図９は、変形例に係る音声処理装置（会話満足度推定装置）の機能ブロック図である。図１０は、音声処理装置（会話満足度推定装置）を含む会話介入支援システムの構成例を示す図である。

（第１の実施形態）
本実施形態は、複数人による会話をモニタして、各話者の会話における満足度を推定する音声処理装置（会話満足度推定装置）である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは会話満足度推定処理に焦点を当てて説明する。

＜システム構成＞
図１は本実施形態に係る音声処理装置１００の機能ブロック図である。音声処理装置１００は、ＣＰＵなどの演算装置、ＲＡＭやＲＯＭなどの記憶装置、キーボードやマイクなどの入力装置、ディスプレイやスピーカーなどの出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図１に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置１００は、１台の装置として構成する必要はなく、通信回線を介して結合された複数の装置（コンピュータ）を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。

図１に示すように、音声処理装置１００は、マイク（音声入力部）１０１、雑音除去部１０２、音源分離部（話者分離部）１０３、発話区間検出部１０４、音声認識部１０５、音響特徴量抽出部１０６、発話意図推定部１０７、コーパス辞書１０８、満足度推定部１０９をその機能部として含む。

マイク１０１は、複数のユーザによる会話音声を取得する。使用するマイク１０１の数や配置は特に限定されないが、複数のマイクやアレイマイクを用いて音源の方向を特定できるように構成することが好ましい。

雑音除去部１０２は、マイク１０１から取得される音声データから雑音を除去する機能部である。雑音除去部１０２は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去するように構成される。雑音除去部１０２は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去するよう構成されてもよい。

音源分離部１０３は、雑音除去部１０２によって雑音が除去された音声データを対象として、それぞれの音声の音源（話者）を特定する機能部である。音源分離部１０３は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出することによって、話者を特定するように構成される。

発話区間検出部１０４は、音源分離部１０３によって分離された音声データを対象に、一人のユーザによるひとまとまりの発話を発話区間として検出する機能部である。発話区間検出には、音声モデルやスペクトラムエントロピーを用いた手法など既存の任意の手法を利用できる。以下では、ひとまとまりの発話の音声データを発話データとも称する。

音声認識部１０５は、発話区間検出部１０４によって検出されたそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する機能部である。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部１０５は、音声認識の結果（テキスト）とともに、音声認識結果の信頼度も計算する。

発話意図推定部１０７は、音声認識部１０５による音声認識結果（テキスト）に基づいて、話者の発話意図を推定する機能部である。発話意図推定部１０７は、意図推定用のコーパス辞書１０８を参照して発話テキストに基づいて発話意図の推定を行う。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。発話意図推定用のコーパス辞書１０８には、発話意図を推定するための判別用のキーワード（単語や言い回し）が格納される。図２は、コーパス辞書１０８に含まれるキーワードの一例を示す。このようなキーワードは、実際の会話に現れる語彙等からあらかじめ生成しておけばよい。発話意図推定部１０７は、発話テキストをコーパス辞書１０８と照合して、発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。

音響特徴量抽出部１０６は、発話区間検出部１０４によって検出されたそれぞれの発話データについて、その発話の音響的な特徴量（音響特徴量）を計算する機能部である。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度，平均モーラ長、発話の重なりまたは間隔などが挙げられる。

満足度推定部１０９は、会話における発話意図および音響特徴量の時系列データ（推移）を入力として、特定話者の会話満足度を推定する機能部である。満足度推定部１０９が用いる発話意図と音響特徴量は、直近の所定期間（例えば、１分、２分、５分、１０分など）のデータとする。満足度推定部１０９は、機械学習処理によって生成される識別器として構成することができる。満足度推定部１０９は、例えば、０（不満足）から１００（満足）までの間の数値として会話満足度を出力する。

＜学習処理＞
ここで図３および図４を参照して、満足度推定部１０９の生成処理について説明する。図３は、満足度推定部１０９を生成するための学習装置１５０の構成を示す。学習装置１５０は、音声処理装置１００と共通する機能部を多く有するので、共通する機能部については同一の符号を付してその説明を省略する。音声処理装置１００と比較すると、学習装置１５０は、脳波計１５１と学習部１５２を備える点が相違する。

脳波計１５１は、ユーザの頭部に装着する電極を備えるヘッドセットと、電極から得られる脳波信号を解析してユーザの感性を取得する脳波解析部とを備える。ヘッドセットは、特許文献６や非特許文献１に記載されているように国際１０−２０法のＦｐ１箇所のみを計測個所とする簡易的なものであってもよいし、より多くの箇所を計測個所とするもの
であってもよい。脳波解析部は、ヘッドセットから得られた脳波信号から特徴量抽出を行い、ユーザの感性（例えば、好き度、興味度、集中度、眠気度、ストレス度）を求める。このような感性の求め方は既存の任意の手法、例えば機械学習ベースの手法が利用できる。なお、会話における満足度はそのストレス度に現れることが知られている。後述するように、満足度推定部の学習処理ではストレス度を用いるので、脳波計測データからストレス度のみを求めてその他の感性は求めてなくてもよい。

図４は、学習装置１５０による満足度推定部の学習処理の流れを示すフローチャートである。ステップＳ１０１では、複数人による会話における各話者の会話音声データをマイク１０１から取得し、脳波計データを脳波計１５１から取得する。なお、音声データは会話参加者全員分のデータを取得する必要があるが、脳波データは少なくとも一人の参加者のデータを取得すればよい。もっとも、脳波データを取得する参加者の数が多いほど、学習データが増えるので有利である。

ステップＳ１０２では、取得された音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。前処理は、具体的には、雑音除去部１０２による雑音除去処理、音源分離部１０３による音源（話者）分離処理、発話区間検出部１０４による発話区間検出処理を含む。

ステップＳ１０３では、音響特徴量抽出部１０６を用いて、発話データから発話の音響特徴量を抽出する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。

ステップＳ１０４では、音声認識部１０５がそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する。ステップＳ１０５では、発話意図推定部１０７が、音声認識結果（発話テキスト）に基づいて、発話の意図を推定する。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。

ステップＳ１０６では、脳波計１５１が、測定された脳波データに基づいて話者のストレス度を算出する。

上記のステップＳ１０２からＳ１０６の処理の順序はここで説明したものに限られず、実行順序を変更したり、あるいは複数の処理を並行に行ったりしてもよい。最終的に、発話意図、音響特徴量、およびストレス度の時系列データ（推移）が得られる。

ステップＳ１０７では、ステップＳ１０６で得られたストレス度を会話満足度とみなして、発話意図と音響特徴量の推移から会話満足度を推定するための識別器を、機械学習処理により生成する。機械学習アルゴリズムは特に限定されず、ＳＶＭ（サポートベクタマシーン）、決定木、ランダムフォレスト、ニューラルネットワーク、ロジスティック回帰などの任意の教師あり学習アルゴリズムを採用可能である。

以上の処理によって、満足度推定部（識別器）１０９が生成できる。

なお、複数人の脳波（ストレス度）が得られる場合には、脳波計測対象者ごとに学習データを作成できる。すなわち、特定の参加者（本人と称する）のストレス度と、本人による発話の発話意図および音響特徴量と、本人以外の参加者（他人と称する）による発話の発話意図および音響特徴量の推移を、この特定参加者の満足度を利用した学習データとする。ここで、他人同士の会話は必ずしも学習データに含めなくてもよく、また、複数の他人を区別しなくてもよい。

ここでは、脳波計から得られるストレス度を正解の会話満足度とみなしているが、脳波計から得られるその他の感性も利用して、正解の会話満足度を決定してもよい。また、脳波計以外に、顔の表情から正解の話満足度を決定してもよい。さらには、会話後に参加者本人から得た主観的な満足度や第三者が評価した満足度を正解データとして用いてもかまわない。

＜会話満足度推定処理＞
図５は、本実施形態に係る音声処理装置１００が行う会話満足度推定処理の流れを示すフローチャートである。

ステップＳ２０１では、複数人による会話における各話者の会話音声データをマイク１０１から取得する。ステップＳ２０２では、取得された音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。ステップＳ２０３では、音響特徴量抽出部１０６を用いて、発話データから発話の音響特徴量を抽出する。ステップＳ２０４では、音声認識部１０５がそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する。ステップＳ２０５では、発話意図推定部１０７が、音声認識結果（発話テキスト）に基づいて、発話の意図を推定する。

ステップＳ２０６では、上記の処理で得られた発話意図と音響特徴量の時系列データを入力として、満足度推定部１０９を用いて会話満足度を推定する。なお、入力データは、会話満足度の対象者（本人と称する）の発話意図および音響特徴量の時系列データと、本人以外の発話意図および音響特徴量の時系列データに区別する。対象者（本人）を変えながら参加者全員について処理を行うことで、会話参加者全員の会話満足度が得られる。ステップＳ２０６では、会話参加者全員についてそれぞれ会話満足度を推定することが望ましいが、参加者の一部のみについて会話満足度を推定するようにしてもかまわない。

＜本実施形態の有利な効果＞
本実施形態によれば、ユーザが脳波計を装着することなく、音声データのみからユーザの会話満足度を精度よく推定することができる。このように本実施形態は、音声データのみから会話満足度を推定できるため、様々な場面に適用することができる。また、参加者が発話を行っていない状況においてもその会話満足度を推定することができる点でも、適用範囲が広い。また、本実施形態の処理は高速に行えるため、リアルタイムに会話満足度を推定でき、音声処理システムによる会話への介入目的に使える。

（変形例１）
上記の説明において、満足度推定部１０９は、発話意図および音響特徴量に基づいて発話意図を推定している。しかしながら、音響特徴量を用いずに発話意図のみを用いて会話満足度を推定するようにしてもよい。あるいは、発話意図および音響特徴量以外の要素を考慮して会話満足度を推定するようにしてもよい。

図６は、上記第１の実施形態の変形例に係る音声処理装置２００の機能ブロック図である。第１の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第１の実施形態と比較して、カメラ２０１、表情抽出部２０２、およびジェスチャー抽出部２０３が追加されている点で異なる。また、満足度推定部１０９の構成も変更されている。

カメラ２０１は、ユーザ（話者）の顔および身体を含む全身を撮影する。表情抽出部２０２は、カメラ２０１の撮影画像に含まれる顔画像から、話者の表情を抽出する。ジェスチャー抽出部２０３は、カメラ２０１の撮影画像に含まれる身体画像から、話者のジェスチャーを抽出する。表情抽出やジェスチャー抽出には、既存の任意の手法が適用できる。

満足度推定部１０９は、発話意図と音響特徴量に加えて表情とジェスチャーも入力として、会話満足度を識別する識別器である。満足度推定部１０９の生成（学習）方法は、上記で図４を参照して説明した方法とほぼ同様であり、学習データとして発話データだけでなく表情やジェスチャーに関するデータも利用すればよい。

ここでは、表情やジェスチャーを利用する例を説明したが、それ以外にも、脳波・心拍・脈拍などの生体データを用いてもよい。

（変形例２）
第１の実施形態では、満足度推定部１０９として機械学習処理により生成した識別器を利用している。しかしながら、満足度推定部１０９は、機械学習により生成される必要はなく、設計者によって定められた計算式にしたがって入力データから会話満足度を推定するように構成してもかまわない。

（変形例３）
第１の実施形態の構成に加えて、満足度推定部１０９による満足度の推定結果が高かったり低かったりする場合に、その要因を出力可能に構成することもできる。会話の満足度が高くなる要因として、自分の希望を述べることができた・自分の希望に対して好意的な応答が得られた、などが考えられる。一方、会話の満足度が低くなる要因として、自分の希望意見が発言できない・自分の希望意見が反対された・自分の希望意見に対して応答が得られない、などが考えられる。

このような要因を求める方法はいくつか考えられる。一つの手法は、要因ごとに識別器を用意する方法である。すなわち、学習データに対して満足度が高い／低い要因をラベル付けしておき、それぞれの要因に反応する識別器を生成すれば要因を求めることができる。別の手法として、要因を求める条件式（判別式）を用意する方法も考えられる。すなわち、それぞれの要因について該当するか否かを示す入力データ（発話意図や音響特徴量など）の条件式を決定すれば、この条件式に従っていずれの要因に該当するかを判断することができる。

（変形例４）
第１の実施形態では、満足度推定部１０９を１種類のみ用いている。しかしながら、発話意図や音響特徴量の時系列パターンと会話満足度の関係は、話者の性別や年齢によって異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる満足度推定部１０９（識別器）を生成して用いることが会話満足度推定精度の向上につながる。

図７は、本変形例に係る音声処理装置３００の機能ブロックを示す図である。本変形例では、会話満足度推定時において話者の性別および年齢層を特定することが必要となる。第１の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第１の実施形態と比較して、カメラ３０１、および性別年齢層特定部３０２が追加されている点で異なる。また、満足度推定部１０９が話者の性別および年齢層ごとに複数用意されている。

カメラ３０１は、少なくとも話者の顔を撮影するように設置される。性別年齢層特定部３０２は、カメラ３０１が撮影した顔画像に基づいて、話者の性別と年齢層を特定する。なお、年齢層の定義は適宜行えばよい。例えば、１０代未満、１０代、２０代、３０代、４０代、５０代、６０代以上の７区分を利用できる。もちろん、より細かく分類してもよいし、より粗く分類してもよい。顔画像から性別および年齢を推定するためには、既存の顔認識技術が利用可能である。

満足度推定部１０９は、性別および年齢層グループごとの学習データを用いて、第１の実施形態で説明した方法と同様の方法によって生成すればよい。

本変形例において、満足度推定部１０９に、発話意図推定部１０７が推定した発話意図および音響特徴量抽出部１０６が抽出した音響特徴量の時系列パターンと、性別年齢層特定部３０２が特定した話者の性別および年齢層が入力される。満足度推定部１０９は、話者の性別および年齢層に対応した識別器を選択し、選択された識別器に発話意図および音響特徴量を入力して、対象者の会話満足度を推定する。

図８は、さらなる変形例に係る音声処理装置４００の機能ブロックを示す図である。図７では、顔画像に基づいて話者の性別および年齢層を特定しているが、本構成例では、性別・年齢層特定部４０１を利用して、音響特徴量に基づいて話者の性別および年齢層を特定する。性別・年齢層特定部４０１は音響特徴量抽出部１０６から音響特徴量を取得して、話者の性別および年齢層を特定する。発話特徴量から話者の性別および年齢を推定するためには、既存の音声処理技術が利用可能である。

（変形例５）
本変形例では、会話満足度を推定するために、会話を行うグループのメンバー間の関係性や親密度を利用する。グループ間の関係性の例として、上下関係があるか否か、フラットな関係か否かがあげられる。グループ間の関係性や親密度は、グループを構成するメンバーの年齢層（年齢差があるのか、同年代なのかなど）、発話の発生状況（特定のメンバーの発言が多いのか、皆が同じように発言しているのかなど）、言葉使い（「敬語」、「丁寧語」、「命令語」、「親密な間柄で使わるような言葉」などがどのように使われているのか）から、把握できる。本変形例における会話満足度推定部は、このようにして把握されるグループ間の関係性や親密度を前提として、ベースとなるグループ状態を把握し、そのベースとなるグループ状態（たとえば、意見が言いやすい状態であったのか、意見が言いづらい状態であったのかなど）をふまえて、満足度の変化を測ることが考えられる。

たとえば、上下関係があり親密度が低いグループでは下位メンバーは少ない発言機会であっても意見が言えることによって満足度が高まるようなことがあるかもしれないが、フラットな関係で親密度が高いグループでは、メンバーが意見を述べられただけでは満足度は高まらず、意見交換の内容に応じて満足度が変化する傾向が強いことが想定される。

図９は、本変形例に係る音声処理装置４５０の機能ブロックを示す図である。本変形例では、会話満足推定時においてグループの状態を推定することが必要となる。第１の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第１の実施形態と比較して、カメラ４５１、性別年齢層特定部４５２、およびグループ状態推定部４５３が追加されている点で異なる。また、満足度推定部１０９がグループ状態ごとに複数用意されている。なお、本変形例においてもコーパス辞書１０８は存在するが図示を省略している。

カメラ４５１および性別年齢層特定部４５２は、変形例４（図７）と同様である。グループ状態推定部４５３は、性別・年齢層特定部４５２から得られるメンバーの年齢層の情報や、音声認識部１０５や発話意図推定部１０７から得られる発話の発生状況や言葉使いを集計し、メンバーの関係性や親密度を推定して、ベースとなるグループ状態を定める。そして、会話満足度推定部１０９は、そのベースとなるグループ状態に応じて複数種類の識別器または計算式を有するように構成され、現在のグループ状態に応じた識別器または計算式を用いて会話満足度を推定する。

ここでは、顔画像に基づいて話者の性別や年齢層を特定しているが、図８の構成と同様に音響特徴量に基づいて話者の性別や年齢層を特定してもよい。また、満足度推定部１０９は、グループ状態ごとおよび話者の性別・年齢層ごとに用意されてもよい。

（第２の実施形態）
本発明の第２の実施形態は、第１の実施形態に係る音声処理装置（発話意図推定装置）を利用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。

図１０は本実施形態に係る会話介入支援システム５００の構成の一例を示す図である。ナビゲーション装置５１１がマイクを介して取得した乗員の会話音声は、通信装置５１４を経由して会話支援サーバ５２０に送られる。会話支援サーバ５２０は、車両５１０から送信された会話音声を分析して、グループの状態や各話者の会話満足度を推定し、状況に応じて適切な情報提供や意思決定支援などの介入を行う。会話支援サーバ５２０は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム５３１、店舗広告情報ＤＢ５３２、関連情報ＷＥＢサイト５４０から取得する。この際に、会話支援サーバ５２０は、ユーザ情報・利用履歴ＤＢ５３３に格納されているユーザの嗜好や店舗等の利用履歴も考慮して、ユーザに合った情報を取得する。会話支援サーバ５２０は介入指示を車両５１０に送信し、車両５１０はナビゲーション装置５１１のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両５１０は、現在位置を取得するＧＰＳ装置５１２および乗員（話者）の顔や体を撮影するカメラ５１３も備える。

会話満足度推定処理に関して説明すると、第１の実施形態で説明した会話満足度推定のための各機能部（図１参照）は、車両５１０と会話支援サーバ５２０に適宜分散して実装することができる。例えば、雑音除去、音源分離、発話区間検出、発話特徴量抽出を車両５１０で実施し、音声認識、発話意図推定および会話満足度推定を会話支援サーバ５２０で行うように実装できる。ただしこれは機能分担の一例であり、これとは異なるように機能分担してもよい。また、会話支援サーバ５２０が、複数のコンピュータ（例えば、音声認識サーバ、意図抽出サーバ、会話分析サーバ、会話エージェントサーバ）によって実現されてもよい。

会話支援サーバ５２０は、発話意図推定結果も用いながら、会話内容や会話状況の分析、グループ状態の分析、各話者の会話における満足度の推定などの処理を行う。また、会話エージェントを用いて、どのようなシステム発話を行うかを決定する。例えば、ユーザが話題としている事物に関する情報を検索して提供したり、会話に参加できず満足度が低いユーザに対して意見提示の機械を与えるように介入したりすることが考えられる。会話エージェントがシステム発話の内容（テキスト）を決定して、車両５１０に送信すると、車両５１０は音声合成処理によってそのテキストを音声化して、スピーカーから出力する。

本実装例では、車両内のカメラ５１３を用いて、上記変形例で説明した表情やジェスチャーを用いた発話意図推定や表情やジェスチャーに基づく性別および年齢層の推定を行うこともできる。

本実装例では、会話満足度がリアルタイムかつ高精度で推定できるので、会話の内容や状況をより適確に分析できるようになり、より適確な介入が実現できるようになる。

本実装例は、車両とサーバ装置とが連携するテレマティクスサービスとして構成する会話介入支援システムであるが、具体的なシステムの形態はこれに限られない。例えば、会
議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。

１０１：マイク
１０２：雑音除去部
１０３：音源（話者）分離部
１０４：発話区間検出部
１０５：音声認識部
１０６：音響特徴量抽出部
１０７：発話意図推定部
１０８：コーパス辞書
１０９：満足度推定部

Claims

複数人による会話における特定話者の満足度を推定する会話満足度推定装置であって、
前記会話における発話の音声データを取得する音声取得手段と、
前記音声データから前記発話のテキストを抽出する音声認識手段と、
前記発話のテキストから発話意図を推定する意図推定手段と、
前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定手段と、
を備える、会話満足度推定装置。
前記発話意図は、話題切り出し、提案、肯定、否定、質問、回答、集約、の少なくともいずれかを含む、
請求項１に記載の会話満足度推定装置。
前記満足度推定手段は、複数人の会話における発話意図の推移と当該会話における満足度とを元に学習処理によってあらかじめ作成された識別器である、
請求項１または２に記載の会話満足度推定装置。
前記満足度推定手段は、複数人の会話における発話意図の推移から当該会話における満足度を算出する計算式を用いて、前記満足度を推定する、
請求項１または２に記載の会話満足度推定装置。
前記音声データから、発話の音響的な特徴量である音響特徴量を抽出する音響特徴量抽出手段をさらに含み、
前記満足度推定手段は、前記複数人の発話の発話意図および音響特徴量の推移から、前記特定話者の会話における満足度を推定する、
請求項１から４のいずれか１項に記載の会話満足度推定装置。
前記満足度推定手段は、推定した満足度の要因も併せて出力する、
請求項１から５のいずれか１項に記載の会話満足度推定装置。
発話者の性別および年齢層を特定する話者識別手段をさらに備え、
前記満足度推定手段は、発話者の性別および年齢層に応じて複数種類の識別器または計算式を有しており、
前記満足度推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器または計算式を用いて、前記満足度を推定する、
請求項１から６のいずれか１項に記載の会話満足度推定装置。
前記話者識別手段は、発話者の顔画像を用いて発話者の性別および年齢層を特定する、
請求項７に記載の会話満足度推定装置。
前記音声データから、発話の音響的な特徴量である音響特徴量を抽出する音響特徴量抽出手段をさらに含み、
前記話者識別手段は、前記音響特徴量に基づいて発話者の性別および年齢層を特定する、
請求項７または８に記載の会話満足度推定装置。
複数人による会話における特定話者の満足度を推定する識別器を生成するための会話処理装置であって、
前記会話における発話の音声データを取得する音声取得手段と、
前記音声データから前記発話のテキストを抽出する音声認識手段と、
前記発話のテキストから発話意図を推定する意図推定手段と、
前記会話における前記特定話者の満足度を取得する満足度取得手段と、
前記意図推定手段によって推定された前記複数人の発話の発話意図の推移と、前記満足度取得手段によって取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習手段と、
を備える会話処理装置。
前記満足度取得手段は、前記特定話者から取得される脳波データまたは当該特定話者の顔を撮影した顔画像に基づいて当該特定話者の満足度を求める、
請求項１０に記載の会話処理装置。
複数人による会話における特定話者の満足度を推定する会話満足度推定方法であって、
コンピュータが、
前記会話における発話の音声データを取得する音声取得ステップと、
前記音声データから前記発話のテキストを抽出する音声認識ステップと、
前記発話のテキストから発話意図を推定する意図推定ステップと、
前記複数人の発話の発話意図の推移から、前記特定話者の会話における満足度を推定する満足度推定ステップと、
を実行する、会話満足度推定方法。
複数人による会話における特定話者の満足度を推定する識別器を生成するための学習方法であって、
コンピュータが、
前記会話における発話の音声データを取得する音声取得ステップと、
前記音声データから前記発話のテキストを抽出する音声認識ステップと、
前記発話のテキストから発話意図を推定する意図推定ステップと、
前記会話における前記特定話者の満足度を取得する満足度取得ステップと、
前記意図推定ステップにおいて推定された前記複数人の発話の発話意図の推移と、前記満足度取得ステップにおいて取得された前記特定話者の満足度の推移とを学習データとして、複数人の発話の発話意図の推移から特定話者の満足度を求める識別器を学習処理により生成する学習ステップと、
を実行する、学習方法。
請求項１２または１３に記載の方法の各ステップをコンピュータに実行させるためのプログラム。