JP2017009826A - グループ状態判定装置およびグループ状態判定方法 - Google Patents
グループ状態判定装置およびグループ状態判定方法 Download PDFInfo
- Publication number
- JP2017009826A JP2017009826A JP2015125632A JP2015125632A JP2017009826A JP 2017009826 A JP2017009826 A JP 2017009826A JP 2015125632 A JP2015125632 A JP 2015125632A JP 2015125632 A JP2015125632 A JP 2015125632A JP 2017009826 A JP2017009826 A JP 2017009826A
- Authority
- JP
- Japan
- Prior art keywords
- group
- conversation
- utterance
- speakers
- intervention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
【課題】会話を行っている複数の話者からなるグループに対して適切な介入を行えるように、当該グループの状態を判定する。【解決手段】会話を行っている複数の話者からなるグループの状態を判定するグループ状態判定装置は、複数の話者によって行われている同一の会話テーマと推定される一連の発話群に関するデータである会話状況データを取得する取得手段と、複数のグループ種別について、前記会話状況データに基づく判定基準を記憶した記憶手段と、前記複数の話者からなるグループのグループ状態として、前記会話状況データと前記判定基準に基づいて前記複数の話者からなるグループの種別及びグループ状態を取得する判定手段と、を備える。【選択図】図10
Description
本発明は、会話を行っている複数の話者からなるグループの状態を判定する技術に関する。
近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、特許文献1,2では、会話データからユーザが発話中のキーワードを選出して発話の内容を把握し、発話内容に応じた応答をすることを開示する。その他にも、個人の状態や嗜好に応じた情報を提供するシステムも知られている。
特許文献1,2の手法は、一人の話者とコンピュータによる対話を想定しており、複数の話者からなるグループの会話に対して介入することは想定されていない。
グループの会話では、行き先を決めるなどの意思決定のための会話が行われることがある。このような会話に対して、個人の状態や嗜好に着目して介入するとしても、各メンバーの意見が異なる場合に誰の意見を尊重すべきなのかが分からない。発話内容のみに基づいて介入内容を決定すると、提案内容が明確でより具体的な主張をしているメンバーの意見が優先される傾向があるが、そうすると明確な意見が述べられない人は不満を募らせることになる。
上記のような問題を考慮して、本発明は、会話を行っている複数の話者からなるグループに対して適切な介入を行えるように、当該グループの状態を判定することを目的とする。本発明は、このように判定されたグループ状態に応じて適切な介入を行うことを目的とする。
上記目的を達成するために、本発明の第一の態様は、会話を行っている複数の話者からなるグループの状態を判定するグループ状態判定装置であって、複数の話者によって行われている同一の会話テーマと推定される一連の発話群に関するデータである会話状況データを取得する取得手段と、複数のグループ種別について、前記会話状況データに基づく判定基準を記憶した記憶手段と、前記複数の話者からなるグループのグループ状態として、前記会話状況データと前記判定基準に基づいて前記複数の話者からなるグループの種別を取得する判定手段と、を備える。
グループ種別は、グループを構成するメンバーがどのような関係性を有するかを示す類型である。グループ種別の定義は任意に行われてよいが、例えば、「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定
を主導しているようなグループ」などが挙げられる。記憶手段には、会話状況データに基づいて、グループがどのグループ種別に該当するのかを判定するための判定基準が記憶される。
を主導しているようなグループ」などが挙げられる。記憶手段には、会話状況データに基づいて、グループがどのグループ種別に該当するのかを判定するための判定基準が記憶される。
ここで、会話状況データは、一連の発話群に関するデータとして、例えば、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、各話者の発話頻度、各話者の発話特徴量、話者間の関係などを含むことができる。
例えば、会話状況データに一連の発話群における各話者の発話特徴量が含まれる場合は、判定基準として、発話特徴量に基づいてグループ種別を判定する基準を採用することができる。この場合、判定手段は、会話状況データに含まれる発話特徴量と記憶手段に記憶されている判定基準に基づいて、グループがどのグループ種別に該当するかを判定することができる。
また、会話状況データに一連の発話群における発話間の関係性と発話の意図がさらに含まれる場合には、判定手段は、これらの情報からグループにおける意見交換状況を推定し、意見交換状況も考慮してグループ種別を判定することも好ましい。ここで、判定手段は、意見交換状況として、グループ内における意見交換の活発さ、提案に対する賛成と反対の比率、意思決定における主導者の有無の少なくともいずれかを判定するとよい。
本発明において、判定手段は、発話間の関係性と発話の意図に基づいて、グループに含まれる複数の話者の関係性をさらにグループ状態として判定することも好ましい。話者の関係性とは、意思決定における主導者と追従者、上位者と下位者、親と子、友人同士、などが挙げられる。話者の関係性は、グループ内における各話者の役割を表すとも捉えることができる。
話者の関係性は、発話における言葉づかいに基づいて判定することができる。例えば、グループ内に命令調で話す人とそれに対して敬語等で返答する人がいれば、これらの話者は上位者と下位者であると判断できる。また、お互いにくだけた語を使っている話者同士は、対等な関係の話者であると判断できる。また、一方が子供が使う語で話し、他方が子供に対する語で話す場合には、大人と子供あるいは親と子であると判断できる。
本発明において、判定手段は、グループ状態として、グループの状態変化を取得することができる。グループの状態変化として、発話の停滞発生が挙げられる。発話の停滞発生は、発話特徴量に基づいて判定することができる。なお、発話の停滞には、特定の話者の発話停滞と、グループ全体での発話停滞の両方が含まれる。
本態様に係るグループ状態判定装置によれば、複数の話者からなるグループがどのような状態にあるのかを適確に判定することができる。
本発明の第二の態様は、複数の話者からなるグループによって行われる会話に介入して支援を行う支援装置である。本態様に係る支援装置は、上述したグループ状態判定装置と、グループ状態と介入ポリシーの対応を記憶する介入ポリシー記憶手段と、前記グループ状態判定装置から得られるグループ状態に対応する介入ポリシーに基づいて、前記グループの会話への介入の内容を決定し、前記会話への介入を行う介入手段と、を備える。
本態様において、介入ポリシーには、グループの種別ごとに、グループ内のいずれのメンバーを優先的に支援するかが定義されることが好ましい。ここで、グループ内のメンバーの特定は、グループ内におけるメンバーの関係性または役割に基づいて行われることができる。例えば、介入ポリシーとして、グループ内の主導者を優先的に支援したり、追従
者を優先的に支援したりするものとして定義できる。また、優先的に支援するメンバーを、ある状態変化が生じたメンバーとして特定することもできる。例えば、介入ポリシーとして、発話頻度が低下したメンバーを優先的に支援するものとして定義できる。
者を優先的に支援したりするものとして定義できる。また、優先的に支援するメンバーを、ある状態変化が生じたメンバーとして特定することもできる。例えば、介入ポリシーとして、発話頻度が低下したメンバーを優先的に支援するものとして定義できる。
本態様に係る支援装置によれば、グループ状態に応じて適確な支援を行うことができる。
なお、本発明は、上記手段の少なくとも一部を備えるグループ状態判定装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話状況分析方法あるいは支援方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、複数の話者からなるグループがどのような状態にあるのかを適確に判定することができる。また、本発明によれば、このように適確に判定されたグループ状態に基づいて、適切な支援を行うことができる。
(第1の実施形態)
<システム構成>
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に3人以上の会話に対しても適切な介入を行えるように構成される。
<システム構成>
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に3人以上の会話に対しても適切な介入を行えるように構成される。
図1は本実施形態に係る会話介入支援システムの構成の一例を示す図である。ナビゲーション装置111がマイクを介して取得した乗員の会話音声は、通信装置114を経由してサーバ装置120に送られる。サーバ装置120は、車両110から送信された会話音声を分析して、状況に応じて適切な情報提供や意思決定支援などの介入を行う。サーバ装置120は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム121、店舗広告情報DB122、関連情報WEBサイト130から取得する。サーバ装置120は介入指示を車両110に送信し、車両110はナビゲーション装置111のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両110は、現在位置を取得するGPS装置112および乗員(話者)の顔や体を撮影するカメラ113も備える。
図2は本実施形態に係る会話介入支援システムの機能ブロック図である。会話介入支援システムは、マイク(音声入力部)201、雑音除去部202、音源分離部(話者分離部)203、会話状況分析部204、音声認識用コーパス・辞書205、語彙意図理解用コーパス・辞書206、グループ状態判定部207、グループモデル定義記憶部208、介入・調停部209、介入ポリシー定義記憶部210、関連情報DB211、出力制御部212、スピーカー(音声出力部)213、ディスプレイ(画像表示部)214を含む。これらの各機能部が行う処理の詳細は、以下でフローチャートともに説明する。
本実施形態では、図2で示す各機能のうち、マイク201による音声入力と、出力制御部212、スピーカー213、ディスプレイ214による介入内容の出力を車両110にて行う。その他の機能は、サーバ装置120で行うように構成する。しかしながら、これらの機能を車両110とサーバ装置120でどのように分担するかは特に限定されない。例えば、車両110で、雑音除去や音源分離などを行ってもよいし、さらに音声認識処理まで行ってもよい。また、サーバ装置120は介入ポリシーの決定までを行い、決定された介入ポリシーに従ってどのような情報を提示するかは車両110で決定してもよい。さらには、全ての機能を車両110内で実現しても構わない。
なお、ナビゲーション装置111およびサーバ装置120は、いずれも、CPUなどの演算装置、RAMやROMなどの記憶装置、入力装置、出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、上記の各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、サーバ装置120は、1台の装置である必要はなく、通信回線を介して結合された複数の装置(コンピュータ)から構成されそれぞれの装置間で機能を分担しても構わない。
<全体処理>
図3は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図3を参照しながら、会話介入支援方法の全体について説明する。
図3は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図3を参照しながら、会話介入支援方法の全体について説明する。
ステップS301において、ナビゲーション装置111が、マイク201を介して車両110内の複数の乗員による会話音声を取得する。本実施形態では、取得された音声に対する以降の処理はサーバ装置120において行われるので、ナビゲーション装置111は取得した会話音声を、通信装置114を介してサーバ装置120へ送信する。なお、使用するマイクの数や配置は特に限定されないが、マイクあるいはマイクアレイを複数用いることが好ましい。
ステップS302において、サーバ装置120は、雑音除去部202と音源分離部20
3を用いて、会話音声から話者ごとのそれぞれの発話を抽出する。なお、「発話」とは言語を音声として発生すること、およびその結果として発生された音声を意味する。ここでの処理は、雑音除去部202による雑音除去と、音源分離部203による音源分離(話者分離)が含まれる。雑音除去部202は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去する。雑音除去部202は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去する。音源分離部203は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出して、話者を特定する。
3を用いて、会話音声から話者ごとのそれぞれの発話を抽出する。なお、「発話」とは言語を音声として発生すること、およびその結果として発生された音声を意味する。ここでの処理は、雑音除去部202による雑音除去と、音源分離部203による音源分離(話者分離)が含まれる。雑音除去部202は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去する。雑音除去部202は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去する。音源分離部203は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出して、話者を特定する。
ステップS303において、会話状況分析部204が、複数人による会話の状況を分析する。複数人、特に3人以上の会話の状況を分析するためには、それぞれの話者による発話に相関があるか、また、相関がある場合にはどのような関係があるか、などを認識する必要がある。そこで、会話状況分析部204は、同一の会話テーマに関する発話群を一連の発話群として抽出し、さらにその発話群の中での発話間の関係性を把握して、発話間の関係性を考慮して会話の状況や話者間の関係を分析する。会話状況分析部204による具体的な処理内容については、後述する。
ステップS304において、グループ状態判定部207は、会話状況分析部204による会話状況データをもとに、同一の会話に参加している話者グループがどのようなグループであるかあるいはこのグループがどのような状態にあるかを判定する。グループの例として、例えば、「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが挙げられる。また、グループの状態変化の例として、特定のメンバーの発話頻度が低下した、グループ全体の発話頻度が低下した、特定のメンバーの感情が変化した、グループの主導者が変化した、などが挙げられる。グループ状態判定部207による具体的な処理内容については後述する。
ステップS305において、介入・調停部209は、グループ状態判定部207によるグループ状態に応じて介入ポリシーを決定し、介入ポリシーと現在の会話の内容にしたがって具体的な介入のタイミングと内容を決定する。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループであれば、全員に対してほぼ均等に詳しい参考情報を提示して活発な討議を促すという介入ポリシーを採用することが考えられる。また、例えば、特定の話者あるいはグループ全体の発話頻度が低下した場合には、会話を活発化させるような話題に誘導する介入ポリシーを採用することが考えられる。介入・調停部209は、介入ポリシーを決定したら、現在の話題にしたがって、レコメンドシステム121、店舗広告情報DB122、あるいは関連情報WEBサイト130から提示すべき情報を取得して、介入指示を行う。介入・調停部209による具体的な処理内容については後述する。
ステップS306では、出力制御部212が、介入・調停部209から出力される介入指示に従って、出力すべき合成音声あるいはテキストを生成して、スピーカー213やディスプレイ214において再生する。
以上のようにして、車両110内の複数の話者による会話に対する介入が行える。なお、図3のフローチャートに示す処理は繰り返し実行される。会話介入支援システムは、会話音声を随時取得して、会話状況や話者間の関係やグループ状態を監視し続け、介入が必要と判断した場合に介入を行う。
<会話状況分析処理>
次に、ステップS303における会話状況分析処理の詳細について説明する。図4は、会話状況分析処理の流れを示すフローチャートである。なお、図4に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。
次に、ステップS303における会話状況分析処理の詳細について説明する。図4は、会話状況分析処理の流れを示すフローチャートである。なお、図4に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。
ステップS401において、会話状況分析部204は、音源分離された音声データから発話区間を検出し、発話区間ごとに区間IDとタイムスタンプを付加する。なお、発話区間は音声が発話されている1連続の区間である。発話区間の終了は、例えば、1500ミリ秒以上の無発話が生じる前までとする。この処理により、会話音声を、話者ごとおよび発話区間ごとに複数の音声データに分離できる。以下では、1つの発話区間における発話の音声のことを、単に発話とも称する。図5は、ステップS401において分離されたそれぞれの発話を示す。
ステップS402では、会話状況分析部204が、それぞれの発話について発話特徴量(音声特徴量)を算出する。発話特徴量として、発話音量、ピッチ、トーン、持続時間、発話速度(平均モーラ長)が挙げられる。発話音量は、発話の音圧レベルである。トーンは、音の高低や音そのものであり、音の高低は音波の1秒間あたりの振動回数(周波数)によって特定される。ピッチは、知覚される音の高さであり、音の物理的な高さ(基本周波数)によって特定される。平均モーラ長は、1モーラあたりの発話の長さ(時間)として算出される。なお、モーラは拍数である。ここで、発話音量、ピッチ、トーン、発話速度については、発話区間内の平均値、最大値、最小値、変動幅、標準偏差などを求めるとよい。本実施形態ではこれらの発話特徴量を算出するが、ここで例示した発話特徴量の全てを算出しなくてもよいし、ここで例示した以外の発話特徴量を算出してもよい。
ステップS403において、会話状況分析部204は、それぞれの発話についての話者の感情を、発話特徴量の変化から求める。求める感情の例として、満足、不満足、興奮、怒り、悲しみ、期待、安心、不安などが挙げられる。感情は、例えば、発声の音量、ピッチ、トーンの平常時からの変化に基づいて求めることができる。各話者の平常時の発話特徴量は、これまでに得られた発話特徴量から求めてもよいし、あるいはユーザ情報・利用履歴DB123に格納されている情報を用いてもよい。なお、話者の感情は、発話(音声データ)のみに基づいて決定する必要はない。話者の感情は発話の内容(テキスト)からも求めることができる。また、話者の感情は、例えば、カメラ113から撮影される話者の顔画像から顔特徴量を算出し、顔特徴量の変化に基づいて求めることもできる。
ステップS404において、会話状況分析部204は、それぞれの発話について、音声認識コーパス用・辞書205を用いた音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術を適用すればよい。図5に示す発話内容(テキスト)は、ステップS404の処理によって求められる。
ステップS405において、会話状況分析部204は、それぞれの発話の内容(テキスト)から、語彙意図理解用コーパス・辞書206を参照して、発話の意図および話題を推定する。発話の意図は、例えば、話題の切り出し、提案、提案への賛成・反対、意見の集約などを含む。発話の話題は、例えば、発話のジャンル、場所、ものなどを含む。発話のジャンルは、例えば、飲食、旅行、音楽、天候などを含む。話題となっている場所は、例えば、地名、ランドマーク、店舗名、施設名などが含まれる。語彙意図理解用コーパス・辞書206は、「話題を切り出す、提案する、質問する、賛成する、反対する、物事を集約する」といった場合にそれぞれ使われる語彙や、発話のジャンルを特定するための「飲食、旅行、音楽、天候など」に関する語彙や、話題となっている場所を特定するための「地名、ランドマーク、店舗名、施設名など」に関する語彙の辞書を含む。なお、発話意図
の推定においては、テキストだけでなく話者の感情を考慮することも好ましい。例えば、発話内容(テキスト)は提案に対する同意を示している場合に、話者の感情を考慮することで、喜んで同意しているのか渋々同意しているのかなどをより詳細な発話意図を推定することができる。
の推定においては、テキストだけでなく話者の感情を考慮することも好ましい。例えば、発話内容(テキスト)は提案に対する同意を示している場合に、話者の感情を考慮することで、喜んで同意しているのか渋々同意しているのかなどをより詳細な発話意図を推定することができる。
ステップS405の処理の結果、各発話について、「何をどうしたいか」といった話者の意図と、話題となっているジャンルを推定することができる。例えば、図5における発話ID2の「北鎌倉のイタリアンはどぉー」というテキストについては、辞書との照合により、「イタリアン」という語からジャンルが「飲食(料理)」であること、「北鎌倉」という語から話題の場所が「鎌倉」であること、「どぉー」という語から発話の意図が「提案」であることが推定できる。
図6は、図5に示すそれぞれの発話に対する、話題となっているジャンル、話題となっている場所、および発話の意図の抽出結果を示す。本実施形態において、意図等を推定した「発話n(S)」は、例えば、以下のような式で示される。
発話n(S)=(Gn,Pn,In)
ここで、nは発話ID(1〜k)であり、発話の発生順に発話IDを付与するとする。Sは話者(A、B、C...)であり、Gn、Pn、Inは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。
発話n(S)=(Gn,Pn,In)
ここで、nは発話ID(1〜k)であり、発話の発生順に発話IDを付与するとする。Sは話者(A、B、C...)であり、Gn、Pn、Inは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。
例えば、話者Aの発話1を語彙意図理解用コーパス・辞書206と照合し、「G1:飲食」、「P1:鎌倉」、「I1:話題の切り出し」とマッチした場合は、次のように示す。
発話1(A)=("飲食","鎌倉","話題の切り出し")
発話1(A)=("飲食","鎌倉","話題の切り出し")
なお、それぞれの発話に対する、話題となっているジャンル、話題の場所、および発話の意図といった情報は、発話の内容(テキスト)以外の情報を考慮して求めることも好ましい。特に、発話の意図は、発話特徴量から求められる話者の感情を考慮して求めることも好ましい。発話内容が提案への賛成を表している場合であっても、発話特徴量から喜んで同意しているのか、渋々同意しているのかを判別できる。また、発話によっては、発話内容(テキスト)から上記の情報を抽出できない場合もある。このような場合には、会話状況分析部204は、時系列で発生している前後の発話意図の抽出結果あるいは発話内容(テキスト)を考慮して、当該発話の意図を推定するとよい。
ステップS406において、会話状況分析部204は、ステップS405にて得られた各発話のジャンルと発話の時系列的な結果を考慮して、同一テーマと推定される発話を抽出し、その結果得られた発話群を一連の会話に含まれる発話群であると特定する。この処理により、1つの会話の開始から終了までに含まれる発話を特定することができる。
会話テーマの同一性判定では、発話のジャンルや話題の場所の類似性が考慮される。例えば、発話ID5は抽出語「魚」からジャンルが「飲食」で、抽出語「海」から話題の場所が「海」であると判定されているが、いずれもジャンルが「飲食」であり、同一の会話テーマを有すると判定できる。また、発話には発話ID1のように「話題の切り出し」を判定する語(「決めよう」)や、発話ID9のように「集約」を判定する語(「決まり」)が含まれている場合があり、それぞれの発話を、同じテーマの会話の開始時あるいは終了時の発話と推定することもできる。また、発話の時間的関係も考慮して、発話のジャン
ルや話題の場所などが同一であったとしても、発話間の時間間隔が長すぎる場合には異なる会話テーマと判断してもよい。また、発話の中には、意図やジャンルなどを抽出できる語彙を含まない発話もある。このような場合は、時系列的な発話の流れを考慮し、同一の会話の開始と終了の間に発生している同じ話者の発話は同じ会話に含まれるとみなすとよい。
ルや話題の場所などが同一であったとしても、発話間の時間間隔が長すぎる場合には異なる会話テーマと判断してもよい。また、発話の中には、意図やジャンルなどを抽出できる語彙を含まない発話もある。このような場合は、時系列的な発話の流れを考慮し、同一の会話の開始と終了の間に発生している同じ話者の発話は同じ会話に含まれるとみなすとよい。
図7は、図6に示した各発話のジャンル、話題の場所、および発話意図から、一連の発話群を特定した結果を示す図である。ここでは、3つの会話が抽出されている。会話1は、「飲食(昼食)」「飲食(料理)」「鎌倉」に関する会話であり、発話ID1,2,3,5,7,9が含まれる。会話2は、「天候」「スポーツ(運動会)」に関する会話であり、発話ID4,6,8が含まれる。なお、「天候」と「スポーツ(運動会)」は異なるジャンルであるが、「天候」に関する発話の直後に「スポーツ(運動会)」に関する発話が連続して発生する場合、それらの発話は「天候」に関する会話に含まれると判断する。会話3は、「音楽」に関する会話であり、発話ID10,11が含まれる。
図5に示す発話は、話者A〜Eの合計5人によって行われているが、全員が同じ会話に参加しているわけではない。ここでは、話者A〜Cの3人が飲食に関する会話1を行っており、話者D,Eが天候に関する会話2を行っている。本実施形態における会話状況分析部204は、各発話のジャンルや、話題となっている場所(もの)や、発話の意図に着目しているので、複数の会話が同時に進行している場合であっても、適切に一連の会話に含まれる発話群を特定できる。
本実施形態において、このようにして特定された一連の「会話m」は、例えば、以下のような式で示される。
会話m(SA,SB,SC… )
={発話1(SA),発話2(SB),発話3(SC)… }
=Tm{(GA,PA,IA),(GB,PB,IB),(GC,PC,IC)… }
ここで、mは会話ID(1〜k)、であり、会話の発生順に会話IDを付与するとする。SA,B,C…は話者(A、B、C...)であり、Tm、Gn、Pn、Inは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。
会話m(SA,SB,SC… )
={発話1(SA),発話2(SB),発話3(SC)… }
=Tm{(GA,PA,IA),(GB,PB,IB),(GC,PC,IC)… }
ここで、mは会話ID(1〜k)、であり、会話の発生順に会話IDを付与するとする。SA,B,C…は話者(A、B、C...)であり、Tm、Gn、Pn、Inは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。
例えば,話者A、B、Cのテーマ「飲食」の発話群が会話1に特定された場合は、次のように示される。
会話1(A,B,C)
=T"食事"{("飲食(昼食)","鎌倉","話題の切り出し"),
("飲食(料理)","鎌倉","提案"),
("飲食(料理)","na","否定/提案")… }
会話1(A,B,C)
=T"食事"{("飲食(昼食)","鎌倉","話題の切り出し"),
("飲食(料理)","鎌倉","提案"),
("飲食(料理)","na","否定/提案")… }
ステップS407において、会話状況分析部204は、上記の分析結果を統合した会話状況データを生成して出力する。例えば、会話状況データは、直近の所定期間(例えば、3分間)における同一会話内の発話について、図8に示すような情報を含む。発話が多い話者は、期間内における発話回数と発話時間の両方が所定値以上(例えば、1回と10秒)の話者である。発話が少ない話者は、期間内における発話回数が発話時間の両方が所定値未満の話者である。話者間の平均発話間隔あるいは重なりは、話者ペアごとに発話区間の間の無音期間の時間または発話区間が重なっている時間である。発話音量、トーン、ピ
ッチ、発話速度は、話者別と全話者について求められる。それぞれ、期間内の平均値、最大値、最小値、変動幅、標準偏差のいずれかまたは複数によって表し、特に変動が顕著に測定された場合には該当する発話内容などの情報と結び付けて示す。また、会話状況データは、期間内の各発話について、発話内容のテキスト、会話テーマ、推定話者名、発話の意図、発話の話題(ジャンル、場所、ものなど)、話者の感情も含む。また、会話状況データは、発話間の対応関係や話者間の関係も含む。
ッチ、発話速度は、話者別と全話者について求められる。それぞれ、期間内の平均値、最大値、最小値、変動幅、標準偏差のいずれかまたは複数によって表し、特に変動が顕著に測定された場合には該当する発話内容などの情報と結び付けて示す。また、会話状況データは、期間内の各発話について、発話内容のテキスト、会話テーマ、推定話者名、発話の意図、発話の話題(ジャンル、場所、ものなど)、話者の感情も含む。また、会話状況データは、発話間の対応関係や話者間の関係も含む。
図9(A)は、発話間の対応関係と、各発話の会話テーマ・発話の意図・話者の感情を表示した例である。図9(A)では、話者A〜Eについてそれぞれ発話区間が時系列に示されており、発話間の対応関係が矢印で示されている。また、発話ごとに、発話の意図と話者の感情が示されている(利用可能な場合)。例えば、話者Aによる話題の切り出し(発話ID1)に対し、話者Bが提案(発話ID2)を行い、これら両方の発話を受けて話者Cが提案への反対と再提案(発話ID3)をしていることなどが分かる。なお、発話間の対応関係は、必ずしも発話(音声データ)のみに基づいて決定する必要はない。例えば、カメラ113から取得される話者の視線や顔や体の向きから、ある発話が特定のメンバーに対するものであるか否かを判定し、この判定結果を基に発話間の対応関係を求めてもよい。
図9(B)では、話者A〜Eの会話において、どのような発話がどの程度発生していて、当該話者間の上下関係や親密性がどのように推定されるかなどを示している。任意の2人の話者間の発話において、発話の意図や、発話特徴量(発話回数、発話時間、発話の重なり、テンションレベル)、言葉づかい(丁寧度)から、2話者間の親密度や関係性(フラットであるか上下関係があるか)を求めることができる。なお、図9(B)には示していないが、話者間に上下関係などがある場合には、どちらが上位者でありどちらが下位者であるかも求めることができる。
会話状況分析部204は上述のような会話状況データをグループ状態判定部207へ出力する。会話状況データを用いることで、会話の流れと各発話の特徴量変化を紐付けることが可能となり、会話を行っているグループの状態を適確に推定できる。
<グループ状態判定処理>
次に、図3のステップS304におけるグループ状態判定処理の詳細について説明する。図10は、グループ状態判定処理の流れを示すフローチャートである。
次に、図3のステップS304におけるグループ状態判定処理の詳細について説明する。図10は、グループ状態判定処理の流れを示すフローチャートである。
ステップS1001において、グループ状態判定部207は、会話状況分析部204が出力した会話状況データを取得する。グループ状態判定部207は、この会話状況データに基づく以下の処理によって、グループ種別、各メンバーの役割(関係性)、グループの状態変化などを含むグループ状態を分析する。
ステップS1002において、グループ状態判定部207は、会話における話者間のつながりを判定する。会話状況データには、各発話の話者と、発話間のつながり、発話の意図(提案、賛成、反対など)が含まれる。したがって、会話状況データに基づいて、話者ペアの間の会話の頻度(例えば「話者Aと話者Bは頻繁に直接会話している」、「話者Aと話者Bの間では直接の会話がない」など)や、話者ペアの間でどの程度、提案・賛成・反対の発話がなされているか(「話者Aは話者Bに対して提案をX回、賛成意見をY回、反対意見をZ回述べている」など)を把握することができる。グループ状態判定部207は、グループ内のそれぞれの話者ペアについて、これらの情報を求める。
ステップS1003において、グループ状態判定部207は、メンバー間の意見交換状況を判定する。意見交換状況には、グループ内における意見交換の活発さ、提案に対する
賛成と反対の比率、意思決定における主導者の有無などの情報が含まれる。意見交換の活発さは、例えば、提案から最終的な意思決定までの間の発話回数または賛成意見あるいは反対意見の数などによって評価できる。また、意思決定における主導者の有無は、特定の話者の提案に対して反対意見が少なく同意や賛成意見のみが発生しているか否か、特定の話者の提案や意見が高い割合で最終的な意見として採用されるか否か、などによって評価できる。会話状況データには、各発話の話者と、発話間のつながり、発話の意図、発話の内容などが含まれるので、グループ状態判定部207は会話状況データに基づいてこれらの意見交換状況を判定できる。
賛成と反対の比率、意思決定における主導者の有無などの情報が含まれる。意見交換の活発さは、例えば、提案から最終的な意思決定までの間の発話回数または賛成意見あるいは反対意見の数などによって評価できる。また、意思決定における主導者の有無は、特定の話者の提案に対して反対意見が少なく同意や賛成意見のみが発生しているか否か、特定の話者の提案や意見が高い割合で最終的な意見として採用されるか否か、などによって評価できる。会話状況データには、各発話の話者と、発話間のつながり、発話の意図、発話の内容などが含まれるので、グループ状態判定部207は会話状況データに基づいてこれらの意見交換状況を判定できる。
ステップS1004において、グループ状態判定部207は、会話状況データに含まれる発話特徴量および発話内容の言葉づかいと、ステップS1002において求めた話者間のつながり、ステップS1003において求めた話者間の意見交換状況に基づいて、グループ種別(グループモデル)を推定する。グループ種別はあらかじめ定義されており、例えば図11(A)に示すような、グループ種別A:「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、グループ種別B:「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、グループ種別C:「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが例として挙げられる。グループ種別Aは、親友同士のような全員がフラットに繋がっているグループを想定したものである。グループ種別Aには、主導者(特に意思決定への影響力を持つメンバー)が含まれる場合も含まれない場合もある。グループ種別Bは、家族のような、メンバー間のつながりが強く上下関係を持つグループを想定したものである。グループ種別Bには、主導者(例えば親)がいる。グループ種別Cは、職場の上司と部下のような、比較的ドライなつながりで上下関係を持つグループを想定している。グループ種別Cには、主導者(最上位者)がいる。ここでは例として3つのみ挙げているが、グループ種別の数はいくつであってもよい。
グループモデル定義記憶部208には、それぞれのグループ種別の判定基準が格納される。グループモデル定義記憶部208には、発話特徴量、発話内容の言葉づかい、話者間のつながり、意見交換情報などに基づく、複数個の判定基準が格納される。図11(B)は、発話特徴量に基づく判定基準の例を示す。グループ種別Aは「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」なので、例えば、「全話者が活発に発話している」、「発話が重なる傾向にある」、「各発話のトーンやピッチの変動が大きい」、「発話音量の変動が大きい」、「提案に対して反対意見がある程度発生する」という特徴を有することが多い。そこで、グループモデル定義記憶部208には、発話特徴量に基づくグループ種別Aの判定基準として、例えば、「発話回数が3分間に3回以上または合計20秒以上発話している話者が全体の60%以上である」、「発話の重なりが3分間に3回以上または合計5秒以上」、「各話者のトーン、ピッチまたは音圧レベルの変動幅が所定の閾値以上」などの判定基準を含む。グループ状態判定部207は、現在のグループがこれらの判定基準をどの程度満たすかを評価し、現在のグループがグループ種別Aである確からしさを示す評価値を求める。その他のグループ種別B,Cについても同様に評価値が求められる。
グループ状態判定部207は、ここで求めた評価値のみを用いて、すなわち発話特徴量のみに基づいてグループの種別を判定してもよいが、判定精度をより向上させるためにその他の要素も考慮してグループ種別を判定する。
グループ状態判定部207は、例えば、会話における発話内容(テキスト)を解析し、各話者の発話に含まれる命令語、敬語・丁寧語・謙譲語、くだけた語(親しい間柄で使う言葉)、子供が使う語、子供に対して使う語などをどの程度の頻度で現れるかを取得する
。これにより、会話における各話者の言葉づかいが分かる。グループ状態判定部207は、言葉づかいも考慮してグループ種別を推定する。例えば、「グループ内に命令調で話す人がいて、それに対して敬語・丁寧語・謙譲語で返答する人がいる」場合は、グループ種別Cである可能性が高いと判断できる。また、「グループ内に命令調で話す人がいるが、それに対してくだけた言葉で返答する人がいる」場合は、グループ種別Aの可能性が高いと判断できる。また、「グループ内のほとんど話者がくだけた言葉を多く使う」場合は、グループ種別AまたはBの可能性が高いと判断できる。また、「グループ内に親(大人)が子供に対して使う言葉づかいで話す人と、子供が使う言葉づかいで話す人がいる」場合には、グループ種別Bの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と言葉づかいの関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
。これにより、会話における各話者の言葉づかいが分かる。グループ状態判定部207は、言葉づかいも考慮してグループ種別を推定する。例えば、「グループ内に命令調で話す人がいて、それに対して敬語・丁寧語・謙譲語で返答する人がいる」場合は、グループ種別Cである可能性が高いと判断できる。また、「グループ内に命令調で話す人がいるが、それに対してくだけた言葉で返答する人がいる」場合は、グループ種別Aの可能性が高いと判断できる。また、「グループ内のほとんど話者がくだけた言葉を多く使う」場合は、グループ種別AまたはBの可能性が高いと判断できる。また、「グループ内に親(大人)が子供に対して使う言葉づかいで話す人と、子供が使う言葉づかいで話す人がいる」場合には、グループ種別Bの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と言葉づかいの関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
また、グループ状態判定部207は、会話における意見交換状況からもグループ種別を判断できる。例えば、グループ内において意見交換が活発な場合や、提案に対して拒否や反対意見が比較的多く発生している場合は、グループ種別AまたはBの可能性が高いと判断できる。また、グループ内において意見交換が活発でない場合や、グループ内に主導者が存在する場合は、グループ種別Cの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と意見交換状況の関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
グループ状態判定部207は、上記のように、発話特徴量、言葉づかい、意見交換状況、話者間のつながりに基づいて推定されるグループ種別を統合して、最も良く合致するグループ種別を、現在のグループの種別として決定する。
ステップS1005において、グループ状態判定部207は、ステップS1002,S1003などの解析結果やその他の会話状況データを用いて、グループにおける各メンバーの役割を推定する。グループにおける役割として、意思決定における主導者、主導者に対する追従者が挙げられる。また、役割として、上位者、下位者、親、子、などを推定してもよい。メンバーの役割推定において、ステップS1004において決定したグループ種別を考慮することも好ましい。
ステップS1006において、グループ状態判定部207は、グループの状態変化を推定する。グループの状態には、発話の頻度、会話への参加者、会話における主導者が誰であるかなどが含まれる。ステップS1006において推定される状態変化は、例えば、特定話者の発話頻度の低下、全体的な発話頻度の低下、会話グループの分離、主導者の変化などが挙げられる。
ステップS1007において、グループ状態判定部207は、ステップS1004において推定したグループ種別、ステップS1005において推定した各メンバーの役割、およびステップS1006に推定したグループの状態変化をまとめてグループ状態データとして、介入・調停部209へ出力する。介入・調停部209は、グループ状態データを参照することで、会話中のグループがどのような状態であるのかを把握でき、それにしたがった適切な介入が行える。
<介入/調停処理>
次に、図3のステップS305における介入内容決定処理の詳細について説明する。図12は、介入内容決定処理の流れを示すフローチャートである。
次に、図3のステップS305における介入内容決定処理の詳細について説明する。図12は、介入内容決定処理の流れを示すフローチャートである。
ステップS1201において、介入・調停部209は、会話状況分析部204が出力し
た会話状況データとグループ状態判定部207が出力したグループ状態データを取得する。介入・調停部209は、これらのデータに基づく以下の処理によって、介入や調停を行う際に提示する情報の内容を決定する。
た会話状況データとグループ状態判定部207が出力したグループ状態データを取得する。介入・調停部209は、これらのデータに基づく以下の処理によって、介入や調停を行う際に提示する情報の内容を決定する。
ステップS1202において、介入・調停部209は、グループ状態データに含まれるグループ種別やグループ状態変化に応じた介入ポリシーを、介入ポリシー定義記憶部210から取得する。介入ポリシーとは、グループ状態に応じて、グループ内のどのメンバーを優先的に支援するか、また、どのように支援するかを表す情報である。介入ポリシー定義記憶部210に定義される介入ポリシーの例を、図13(A)(B)に示す。
図13(A)は、グループ種別に応じた介入ポリシーの例である。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ種別Aに対する介入ポリシーの一例として、メンバー間で討議して決められるように促すために、「メンバー全員に対して、選択要素(例えば、食事場所を決める場合は、その候補となる店舗など)に関する情報を提示する」というポリシーが定義される。また、上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Bに対する介入ポリシーの一例として、意見の表明ができないような弱い立場にあるメンバーの意見を引き出して採用されるように促すために、「ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。また、上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Cに対する介入ポリシーの一例として、特定のメンバーの意見ばかりが採用されないように支援するために、「1番目の意思決定事項では上位メンバーの意見を優先扱いするが、2番目以降では、ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、順次、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。なお、これらのポリシーにおけるファシリティター的なメンバーとは、特に意見の表明ができないような弱い立場にあるメンバーに寄り添って、該当メンバーの意見を引き出し、該当意見が採用されるように支援できるような人を意図する。また、図13(A)では、グループ種別ごとに1つの介入ポリシーが定義されるように記載しているが、グループ種別ごとに複数の介入ポリシーが定義されてもよい。
図13(B)は、グループの状態変化に応じた介入ポリシーの例である。例えば、特定話者の発話停滞(発話頻度の低下)が発生している場合は、それが話題の変化に伴って発生していれば、停滞前の話題に関連する情報を提示する。また、全体的な発話の停滞が発生している場合には、停滞前の話題に関連する情報を提示する。また、グループが2つのサブグループに分離してそれぞれが異なる会話をしている場合には、いずれかのサブグループでの話題に関連する情報を、他のグループの人にも興味を持ってもらえるように提示する。また、主導者が変化した場合には、新しい主導者が話題を先導できるように情報提供を行う。なお、図13(B)では、グループの状態変化ごとに1つの介入ポリシーが定義されているように記載しているが、状態変化ごとに複数の介入ポリシーが定義されてもよい。
上記のような介入ポリシーは、グループの種別やグループの状態変化に応じて、グループ内の各メンバーに対する介入の優先度と、どのような介入を行うかを定義した情報といえる。ここで、介入の優先度の設定は、メンバー個人に対して行われるというよりは、グループ内における役割(主導者など)を有するメンバーに対して設定されたり、特定の条件(発話頻度低下)を満たすメンバーに対して設定されたりする。ただし、全ての介入ポリシーが介入優先度を含んでいる必要はない。
ステップS1203において、介入・調停部209は、ステップS1202において取得された介入ポリシーに基づいて介入対象メンバーと介入方法を決定する。例えば、介入・調停部209は、主導者に対してその他のメンバーの嗜好にあった情報を提供するように決定したり、発話が停滞した話者が好む話題に関連する情報を提供するように決定したりする。なお、ステップS1203では、現時点では介入を行わないという決定がされることもある。ステップS1203の決定は、介入ポリシーのみに基づいて行う必要はなく、会話状況データなどその他の情報に基づいて行うことも好ましい。例えば、会話状況データに含まれる発話の意図などからグループ内で意思決定のための意見交換がされていると判断した場合に、意思決定を支援する介入ポリシーに基づいて介入対象と介入方法を決定するとよい。
ステップS1204において、介入・調停部209は、介入対象メンバーおよび介入方法に応じた提示情報を生成・取得する。例えば、主導者に対してその他のメンバーの嗜好にあった情報を提供する場合には、まず、他のメンバーの嗜好を、それまでの会話テーマおよび当該メンバーの感情(興奮度など)に基づいて取得したり、あるいはユーザ情報・利用履歴DB123から取得したりして決定する。昼食の場所についての会話をしているときに、当該メンバーがイタリアン料理を好む場合には、イタリアン料理店についての情報を関連情報WEBサイト130などから取得する。この際、車両110のGPS装置112から得られる位置情報も考慮して提示する店舗を絞り込むとよい。
ステップS1205において、介入・調停部209は、ステップS1204にて生成・取得した提示情報を含む介入指示データを生成して、出力する。本実施形態では、サーバ装置120から車両110のナビゲーション装置111に対して、介入指示データが送信される。ナビゲーション装置111の出力制御部212は、介入指示データに基づいて、合成音声や表示テキストを生成して、スピーカー213やディスプレイ214から情報の提示を行う(S306)。
上記で説明した一連の会話介入支援処理(図3)は繰り返し実行される。発話に対して適切なタイミングで介入が行えるように、繰り返し間隔は短いことが好ましい。ただし、繰り返し処理において全ての処理を毎回行う必要はない。例えば、会話状況分析S303やグループ状態判定S304はある程度の間隔(例えば3分)を空けて行うようにしてもよい。また、グループ状態の判定においても、グループ種別の判定とグループの状態変化の判定を異なる実行間隔で行ってもよい。
<本実施形態の有利な効果>
本実施形態においては、会話状況分析部204が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。
本実施形態においては、会話状況分析部204が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。
また、本実施形態では、グループ状態判定部207が、会話状況データなどに基づいて、会話を行っているグループの種別や状態変化、あるいはグループ内の各話者の役割や互いの関係性などを把握することができる。このような把握ができることによって、システムが会話に介入する際に、どの話者をより優先的に支援するかを決定したり、グループの状態に応じた適切な介入が行えたりする。
<変形例>
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
201:マイク 202:雑音除去部 203:音源分離部 204:会話状況分析部 205:音声認識用コーパス・辞書 206:語彙意図理解用コーパス・辞書
207:グループ状態判定部 208グループモデル定義記憶部 209:介入・調停部 210:介入ポリシー定義記憶部 211:関連情報データベース 212:出力制御部 213:スピーカー 214:ディスプレイ
207:グループ状態判定部 208グループモデル定義記憶部 209:介入・調停部 210:介入ポリシー定義記憶部 211:関連情報データベース 212:出力制御部 213:スピーカー 214:ディスプレイ
Claims (12)
- 会話を行っている複数の話者からなるグループの状態を判定するグループ状態判定装置であって、
複数の話者によって行われている同一の会話テーマと推定される一連の発話群に関するデータである会話状況データを取得する取得手段と、
複数のグループ種別について、前記会話状況データに基づく判定基準を記憶した記憶手段と、
前記複数の話者からなるグループのグループ状態として、前記会話状況データと前記判定基準に基づいて前記複数の話者からなるグループの種別を取得する判定手段と、
を備える、グループ状態判定装置。 - 前記会話状況データには、発話特徴量が含まれており、
前記判定基準は、前記発話特徴量に基づくグループ種別の判定基準であり、
前記判定手段は、前記会話状況データに含まれる発話特徴量と前記判定基準に基づいて、前記グループの種別を判定する、
請求項1に記載のグループ状態判定装置。 - 前記会話状況データには、発話間の関係性と発話の意図が含まれており、
前記判定手段は、前記会話状況データに含まれる発話間の関係性と発話の意図を考慮して前記グループにおける意見交換状況を推定し、当該意見交換状況も考慮して前記グループの種別を判定する、
請求項2に記載のグループ状態判定装置。 - 前記判定手段は、前記意見交換状況として、グループ内における意見交換の活発さ、提案に対する賛成と反対の比率、意思決定における主導者の有無の少なくともいずれかを判定する、
請求項3に記載のグループ状態判定装置。 - 前記判定手段は、グループ状態として、発話間の関係性と発話の意図に基づいて、前記グループに含まれる複数の話者の関係性をさらに判定する、
請求項3または4に記載のグループ状態判定装置。 - 前記判定手段は、発話における言葉づかいも考慮して、前記グループの種別を判定する、
請求項2から5のいずれか1項に記載のグループ状態判定装置。 - 前記判定手段は、グループ状態として、発話における言葉づかいに基づいて、前記グループに含まれる複数の話者の関係性をさらに取得する、
請求項6に記載のグループ状態判定装置。 - 前記判定手段は、前記グループに含まれる複数の話者の関係性として、前記グループにおける上位者または意思決定の主導者を推定する、
請求項5または7に記載のグループ状態判定装置。 - 前記判定手段は、グループ状態として、前記発話特徴量に基づいて、発話の停滞の発生有無を取得する、
請求項2から8のいずれか1項に記載のグループ状態判定装置。 - 複数の話者からなるグループによって行われる会話に介入して支援を行う支援装置であ
って、
請求項1から9のいずれか1項に記載のグループ状態判定装置と、
グループ状態と介入ポリシーの対応を記憶する介入ポリシー記憶手段と、
前記グループ状態判定装置から得られるグループ状態に対応する介入ポリシーに基づいて、前記グループの会話への介入の内容を決定し、前記会話への介入を行う介入手段と、
を備える、支援装置。 - 前記グループ状態には、グループの種別と、グループのメンバー間の関係性が含まれ、
前記介入ポリシー記憶手段には、グループの種別ごとに、グループ内のいずれのメンバーをより優先的に支援するかが定義される、
請求項10に記載の支援装置。 - 会話を行っている複数の話者からなるグループの状態を判定するグループ状態判定方法であって、コンピュータが、
複数の話者によって行われている同一の会話テーマと推定される一連の発話群に関するデータである会話状況データを取得する取得ステップと、
前記複数の話者からなるグループのグループ状態として、前記会話状況データと、記憶手段に記憶されている複数のグループ種別についての前記会話状況データに基づく判定基準に基づいて前記複数の話者からなるグループの種別を取得する判定ステップと、
を実行する、グループ状態判定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015125632A JP2017009826A (ja) | 2015-06-23 | 2015-06-23 | グループ状態判定装置およびグループ状態判定方法 |
US15/190,193 US20160379643A1 (en) | 2015-06-23 | 2016-06-23 | Group Status Determining Device and Group Status Determining Method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015125632A JP2017009826A (ja) | 2015-06-23 | 2015-06-23 | グループ状態判定装置およびグループ状態判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017009826A true JP2017009826A (ja) | 2017-01-12 |
Family
ID=57602664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015125632A Pending JP2017009826A (ja) | 2015-06-23 | 2015-06-23 | グループ状態判定装置およびグループ状態判定方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160379643A1 (ja) |
JP (1) | JP2017009826A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018190413A (ja) * | 2017-05-02 | 2018-11-29 | ネイバー コーポレーションNAVER Corporation | ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム |
JP2019060990A (ja) * | 2017-09-25 | 2019-04-18 | Kddi株式会社 | 議論が活発でないグループの発話音声を逐次優先的に分析する発話分析装置、システム及びプログラム |
WO2019097674A1 (ja) * | 2017-11-17 | 2019-05-23 | 日産自動車株式会社 | 車両用操作支援装置 |
JP2019104354A (ja) * | 2017-12-12 | 2019-06-27 | 日産自動車株式会社 | 情報処理方法及び情報処理装置 |
JP2019158975A (ja) * | 2018-03-08 | 2019-09-19 | トヨタ自動車株式会社 | 発話システム |
JP2020030231A (ja) * | 2018-08-20 | 2020-02-27 | Zホールディングス株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
WO2020116531A1 (ja) * | 2018-12-05 | 2020-06-11 | 株式会社 東芝 | 会話分析システム、方法及びプログラム |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
JP7117801B1 (ja) | 2021-03-03 | 2022-08-15 | リープ株式会社 | スキル評価プログラム及びスキル評価装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018986A1 (en) * | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for measuring length of utterance |
JP6731326B2 (ja) * | 2016-10-31 | 2020-07-29 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
DE102017213246A1 (de) * | 2017-08-01 | 2019-02-07 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren, Vorrichtung und Computerprogramm zum Erzeugen auditiver Meldungen |
WO2019133689A1 (en) | 2017-12-29 | 2019-07-04 | DMAI, Inc. | System and method for selective animatronic peripheral response for human machine dialogue |
WO2019133698A1 (en) * | 2017-12-29 | 2019-07-04 | DMAI, Inc. | System and method for personalizing dialogue based on user's appearances |
US11024294B2 (en) | 2017-12-29 | 2021-06-01 | DMAI, Inc. | System and method for dialogue management |
US11222632B2 (en) * | 2017-12-29 | 2022-01-11 | DMAI, Inc. | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs |
WO2019160613A1 (en) | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for dynamic program configuration |
JP7053325B2 (ja) * | 2018-03-19 | 2022-04-12 | 本田技研工業株式会社 | 情報提供装置およびその制御方法 |
JP7080078B2 (ja) * | 2018-03-19 | 2022-06-03 | 本田技研工業株式会社 | 情報提供システム、情報提供方法、及びプログラム |
US10685075B2 (en) * | 2018-04-11 | 2020-06-16 | Motorola Solutions, Inc. | System and method for tailoring an electronic digital assistant query as a function of captured multi-party voice dialog and an electronically stored multi-party voice-interaction template |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
US10834767B2 (en) | 2018-11-27 | 2020-11-10 | International Business Machines Corporation | Dynamic communication group device pairing based upon discussion contextual analysis |
JP7392259B2 (ja) * | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
CN110211578B (zh) * | 2019-04-16 | 2022-01-04 | 百度在线网络技术(北京)有限公司 | 音箱控制方法、装置及设备 |
US11393462B1 (en) * | 2020-05-13 | 2022-07-19 | Amazon Technologies, Inc. | System to characterize vocal presentation |
US11741965B1 (en) * | 2020-06-26 | 2023-08-29 | Amazon Technologies, Inc. | Configurable natural language output |
CN112270168B (zh) * | 2020-10-14 | 2023-11-24 | 北京百度网讯科技有限公司 | 对白情感风格预测方法、装置、电子设备及存储介质 |
US20230230577A1 (en) * | 2022-01-04 | 2023-07-20 | Capital One Services, Llc | Dynamic adjustment of content descriptions for visual components |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7023979B1 (en) * | 2002-03-07 | 2006-04-04 | Wai Wu | Telephony control system with intelligent call routing |
JP4662861B2 (ja) * | 2006-02-07 | 2011-03-30 | 日本電気株式会社 | モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム |
WO2010041507A1 (ja) * | 2008-10-10 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 会話における特定状況を抽出するシステムおよび方法 |
US9424579B2 (en) * | 2011-03-22 | 2016-08-23 | Fmr Llc | System for group supervision |
JP6358093B2 (ja) * | 2012-10-31 | 2018-07-18 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
JP2017010309A (ja) * | 2015-06-23 | 2017-01-12 | トヨタ自動車株式会社 | 意思決定支援装置および意思決定支援方法 |
-
2015
- 2015-06-23 JP JP2015125632A patent/JP2017009826A/ja active Pending
-
2016
- 2016-06-23 US US15/190,193 patent/US20160379643A1/en not_active Abandoned
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018190413A (ja) * | 2017-05-02 | 2018-11-29 | ネイバー コーポレーションNAVER Corporation | ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム |
JP2019060990A (ja) * | 2017-09-25 | 2019-04-18 | Kddi株式会社 | 議論が活発でないグループの発話音声を逐次優先的に分析する発話分析装置、システム及びプログラム |
WO2019097674A1 (ja) * | 2017-11-17 | 2019-05-23 | 日産自動車株式会社 | 車両用操作支援装置 |
JP7024799B2 (ja) | 2017-11-17 | 2022-02-24 | 日産自動車株式会社 | 車両用操作支援装置 |
JPWO2019097674A1 (ja) * | 2017-11-17 | 2020-12-03 | 日産自動車株式会社 | 車両用操作支援装置 |
JP2019104354A (ja) * | 2017-12-12 | 2019-06-27 | 日産自動車株式会社 | 情報処理方法及び情報処理装置 |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
US11373641B2 (en) | 2018-01-26 | 2022-06-28 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
JP2019158975A (ja) * | 2018-03-08 | 2019-09-19 | トヨタ自動車株式会社 | 発話システム |
JP7192222B2 (ja) | 2018-03-08 | 2022-12-20 | トヨタ自動車株式会社 | 発話システム |
JP2020030231A (ja) * | 2018-08-20 | 2020-02-27 | Zホールディングス株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP7187212B2 (ja) | 2018-08-20 | 2022-12-12 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JPWO2020116531A1 (ja) * | 2018-12-05 | 2021-09-30 | 株式会社東芝 | 会話分析システム、方法及びプログラム |
WO2020116531A1 (ja) * | 2018-12-05 | 2020-06-11 | 株式会社 東芝 | 会話分析システム、方法及びプログラム |
JP7305678B2 (ja) | 2018-12-05 | 2023-07-10 | 株式会社東芝 | 会話分析システム、方法及びプログラム |
JP7117801B1 (ja) | 2021-03-03 | 2022-08-15 | リープ株式会社 | スキル評価プログラム及びスキル評価装置 |
JP2022135881A (ja) * | 2021-03-03 | 2022-09-15 | リープ株式会社 | スキル評価プログラム及びスキル評価装置 |
Also Published As
Publication number | Publication date |
---|---|
US20160379643A1 (en) | 2016-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017009826A (ja) | グループ状態判定装置およびグループ状態判定方法 | |
JP2017009825A (ja) | 会話状況分析装置および会話状況分析方法 | |
JP6755304B2 (ja) | 情報処理装置 | |
US10706873B2 (en) | Real-time speaker state analytics platform | |
US11417343B2 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
US10637898B2 (en) | Automatic speaker identification in calls | |
US10592997B2 (en) | Decision making support device and decision making support method | |
JP7192222B2 (ja) | 発話システム | |
US11545174B2 (en) | Emotion detection using speaker baseline | |
US11574637B1 (en) | Spoken language understanding models | |
JP6429706B2 (ja) | 音声対話装置、音声対話方法及びプログラム | |
JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
JP2018169506A (ja) | 会話満足度推定装置、音声処理装置および会話満足度推定方法 | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
JP7160778B2 (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
Park et al. | Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles | |
van Turnhout et al. | Identifying the intended addressee in mixed human-human and human-computer interaction from non-verbal features | |
Johar | Paralinguistic profiling using speech recognition | |
WO2020196743A1 (ja) | 評価システム及び評価方法 | |
Chen et al. | Inference of conversation partners by cooperative acoustic sensing in smartphone networks | |
JP2021111239A (ja) | 提供システム、提供方法、提供装置、及びコンピュータプログラム | |
WO2020189340A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
Uemura et al. | Suppressed negative-emotion-detecting method by using transitions in facial expressions and acoustic features | |
WO2024013977A1 (ja) | 意見出力装置、意見出力方法及びプログラム | |
WO2022049613A1 (ja) | 情報処理装置、推定方法、及び推定プログラム |