JP6335157B2

JP6335157B2 - 会話支援システム、会話支援装置及び会話支援プログラム

Info

Publication number: JP6335157B2
Application number: JP2015252447A
Authority: JP
Inventors: 石井　亮; 亮石井; 大塚　和弘; 和弘大塚; 史朗熊野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2018-05-30
Anticipated expiration: 2035-12-24
Also published as: JP2017117236A

Description

本発明は、会話支援システム、会話支援装置及び会話支援プログラムに関する。

会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、必ずしも誰もが適切なタイミングで発話を行えるわけではない。

一方、会議において次話者に発話を行わせる技術がある。この技術では、多人数ＴＶ（テレビ）会議において、身体動作や発話情報から各参加者の発話欲求を推定し、その欲求に基づいて次の次話者を決定する。そして、その次話者に確実に発話を行わせるために、その人物のフィラーなどを他の参加者に聞かせる制御を行う。また、多人数ＴＶ会議において、万人が隔たりなく発話できるように、発言が多い人物を検出し、その人物の発話を抑制するように音声を生成する技術がある（例えば、特許文献２参照）。さらには、会話を活性するために、映像投影装置や椅子回転装置により視線方向を誘導する技術がある（例えば、特許文献３参照）。

特開２０１２−１４６０７２号公報特開２００７−１５８５２６号公報特開２００７−３３６４４５号公報

会話の流れにおいて発話に適切なタイミングであるか否かを判断できるようなコミュニケーションスキルを習得することは容易ではない。そのため、適切なタイミングでの発話を支援することが求められていた。しかし、特許文献１の技術は、システムが次話者にしようとした参加者以外の発話開始を阻止するものであり、特許文献２の技術は、特定の参加者の発話を阻止（妨害）することで、他の参加者の発話を促進するものである。また、特許文献３の技術は、視線を誘導するものである。このように、これらの従来技術は、次話者になるべき人物が適切なタイミングで発話できるように支援するものではない。

上記事情に鑑み、本発明は、会話の参加者が適切なタイミングで発話するよう支援することができる会話支援システム、会話支援装置及び会話支援プログラムを提供することを目的としている。

本発明の一態様は、会話の参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置と、会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定部と、推定された前記次話者が装着している前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御部と、を備える会話支援システムである。

本発明の一態様は、上述した会話支援システムであって、前記呼吸制御部は、推定された前記タイミングの経過後、推定された前記次話者が装着している前記呼吸補助装置に対して、圧迫を増加させるよう制御する。

本発明の一態様は、上述した会話支援システムであって、前記呼吸制御部は、推定された前記タイミングに基づいて、発話前に行われる吸気の開始時刻及び終了時刻を算出し、推定された前記次話者が装着している前記呼吸補助装置に対して、算出した吸気の開始時刻から終了時刻にかけて圧迫を緩めるよう制御する。

本発明の一態様は、上述した会話支援システムであって、前記呼吸制御部は、推定された前記次話者以外の参加者が装着している前記呼吸補助装置に対して、所定の強さの圧迫を継続するよう制御する。

本発明の一態様は、会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定部と、各参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置のうち、推定された前記次話者に装着された前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御部と、を備える会話支援装置である。

本発明の一態様は、コンピュータに、会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定ステップと、各参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置のうち、推定された前記次話者に装着された前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御ステップと、を実行させるための会話支援プログラムである。

本発明により、会話の参加者が適切なタイミングで発話するよう支援することが可能となる。

本発明の一実施形態による会話支援システムの構成を示す機能ブロック図である。同実施形態による会話支援システムの動作を示すフロー図である。同実施形態による会話支援システムの呼吸制御の例を示す図である。同実施形態による会話支援システムに適用可能な推定システムの構成を示す機能ブロック図である。注視対象遷移パターンを例示した図である。時間構造情報を例示した図である。息の吸い込み区間の例を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
一般的に、人間は発話を開始する直前に、発話を行うために、安静時の吸気よりもより大きく吸気を行うことが知られている（例えば、参考文献１参照）。そこで、本実施形態の会話支援システムは、会話の各参加者が適切なタイミングで発話ができるように、発話の直前に行うべき呼吸を、次話者に対しては誘発し、次話者以外に対しては抑制するよう制御する。この呼吸の制御は、会話の参加者の胸部又は腹部を圧迫又は解放することにより行う。胸部又は腹部を圧迫又は解放するデバイスとして、例えば、ベルトタイプのバンドを用いる。

（参考文献１）：石井亮，外３名，「複数人対話での話者交替に関する呼吸動作の分析〜次話者と発話開始タイミングの予測モデルの構築に向けて〜」，社団法人電子情報通信学会，信学技報，vol. 114，no. 189，HCS2014-49，p.35-40，2014年8月

なお、本実施形態で取り扱う会話は、参加者が対面して行う会話でもよく、テレビ電話やビデオチャットなど映像を用いた会話でもよい。また、対面で会話する参加者と映像を用いて会話する参加者とが存在してもよい。

図１は、本発明の一実施形態による会話支援システム１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。
同図に示すように、会話支援システム１は、音声入力装置２、計測装置３、呼吸補助装置４、及び、会話支援装置５を備えて構成される。

音声入力装置２は、例えばマイクロホンであり、各参加者の音声を入力する。計測装置３は、各参加者の非言語行動を計測する。計測する非言語行動は、視線、頭部の動き、及び、呼吸のうち１以上を含む。音声入力装置２及び計測装置３はそれぞれ、複数台であってもよい。例えば、各参加者に音声入力装置２及び計測装置３が装着され得る。

呼吸補助装置４は、測定者の呼吸の誘発及び抑制を行うデバイスである。呼吸補助装置４は、例えば、測定者の胸部又は腹部、あるいは、その両方など、参加者の体幹の一部に装着されるベルトである。呼吸補助装置４には、気体などにより膨らむ圧迫帯と、圧迫帯の制御装置が取り付けられている。圧迫帯に対して気体を送気又は排気することにより、圧迫量を調節することができる。呼吸補助装置４の制御装置は、会話支援装置５から指示された圧迫量となるように、圧迫帯に気体の送気又は排気を行う。あるいは、呼吸補助装置４には、ベルト状の圧迫帯と、圧迫帯の巻きとり量を調整する制御装置とが取り付けられてもよい。制御部が圧迫帯を巻き取る量を調節することで圧迫帯の長さを調整し、これにより圧迫量を調節することができる。なお、呼吸補助装置４には、測定者の胸部や腹部の圧迫の程度を調節できれば、任意のデバイスを使用することが可能である。以下では、会話の参加者の数をｍ人（ｍは２以上の整数）、ｉ番目の参加者（ｉは１以上ｍ以下の整数）を参加者Ｕ_ｉとするとき、参加者Ｕ_ｉの呼吸補助装置４を、呼吸補助装置４−ｉとも記載する。

会話支援装置５は、受信部５１、記憶部５２、次話者推定部５３、及び、呼吸制御部５４を備える。
受信部５１は、音声入力装置２から会話中の参加者の音声データを受信し、参加者の識別情報と、その参加者の音声データとを対応付けた音声情報を記憶部５２に書き込む。音声データには、音声が得られた時刻の情報が含まれる。また、受信部５１は、計測装置３から会話中の各参加者の非言語行動に関する計測結果を示すデータを受信し、参加者の識別情報と、その参加者の時系列の非言語行動の計測結果のデータとを対応付けた計測情報を記憶部５２に書き込む。

次話者推定部５３は、既存の任意の技術により、会話中の各参加者の非言語行動の計測値に基づいて、次に発話を行うべき次話者を推定する。本実施形態では、次話者推定部５３は、記憶部５２に記憶された音声情報に基づき発話末を検出すると、発話末において、記憶部５２に記憶された計測情報を用いて、各参加者が次話者となる確率及び発話開始タイミングを予測する。会話におけるｎ回目の発話をＩＰＵ_ｎ、発話ＩＰＵ_ｎの発話末において参加者Ｕ_ｉが時刻ｔにおいて次話者となる確率をＰ_ｉ ^{（ｎ＋１）}（ｔ）とする。次話者推定部５３は、推定結果を示す情報を呼吸制御部５４に出力する。

呼吸制御部５４は、次話者推定部５３による推定結果に基づいて、各参加者が装着している呼吸補助装置４を制御する。呼吸制御部５４は、平常状態において、ある程度、参加者の胸部・腹部を圧迫するよう呼吸補助装置４を制御する。以下では、平常状態における圧迫量を定常圧迫量とする。定常圧迫量の上限Ｃ_ｍａｘは、人が息苦しさを感じることがない程度の圧迫量とする。呼吸制御部５４は、次話者推定部５３から発話ＩＰＵ_ｎの発話末における推定結果を示す情報を入力すると、次話者となる確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が最も高い参加者を予測次話者として選択し、予測次話者以外の参加者を予測非次話者とする。呼吸制御部５４は、選択した予測次話者の確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が最も高い時刻を予測発話開始時刻ｔ_ｄｕｓとする。呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓから所定時間ａだけ遡った時刻を吸気開始時刻ｔ_ｉｎｓとし、吸気開始時刻ｔ_ｉｎｓから所定時間ｂ（ａ＞ｂ）だけ経過した時刻を吸気終了時刻ｔ_ｉｎｅとして算出する。なお、所定時間ａ及びｂは、予め一般的に求めた平均値を利用してもよく、予め参加者ごとに求めた平均値を利用してもよい。呼吸制御部５４は、予測次話者に発話前に吸気をさせるように、吸気開始時刻ｔ_ｉｎｓから吸気終了時刻ｔ_ｉｎｅにかけて、徐々に呼吸補助装置４の圧迫量を減少させ、締め付けを緩める。そして、呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓに予測次話者の発話開始を誘発するために、予測発話開始時刻ｔ_ｄｕｓ経過後、予測次話者の呼吸補助装置４の圧迫量を徐々に増加させ、締め付けを開始する。呼吸制御部５４は、予測非次話者の呼吸補助装置４に対しては、定常圧迫量による圧迫を継続する。

なお、会話支援装置５は、１台のコンピュータ装置により実現してもよく、ネットワークにより接続される複数のコンピュータ装置により実現してもよい。会話支援装置５を複数のコンピュータ装置により実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。

図２は、会話支援システム１の動作を示すフロー図である。
音声入力装置２は、会話中の各参加者の音声データをリアルタイムで送信している。同様に、計測装置３は、会話中に計測した各参加者の非言語行動の情報をリアルタイムで送信している。受信部５１は、音声入力装置２から受信した参加者の音声のデータに基づいて音声情報を記憶部５２に書き込む。さらに、受信部５１は、計測装置３から受信した各参加者の非言語行動を示すデータに基づいて非言語行動情報を記憶部５２に書き込む。

次話者推定部５３は、ｎに初期値１を設定する（ステップＳ１０５）。記憶部５２に記憶された音声情報に基づき、発話ＩＰＵ_ｎの発話末を検出したか否かを判断する（ステップＳ１０５）。次話者推定部５３は、１つの発話の区間を、２つの所定時間連続した無音区間で囲まれた、同一の参加者の発話成分が存在する少なくとも１つの区間を含む時間区間とする。すなわち、いずれの話者も発話していない無音区間が所定時間経過した場合に、その無音区間の開始を発話末と判断する。次話者推定部５３は、発話末ではないと判断した場合（ステップＳ１１０：ＮＯ）、ステップＳ１１０の処理を繰り返す。

次話者推定部５３は、発話ＩＰＵ_ｎの発話末を検出したと判断すると（ステップＳ１１０：ＹＥＳ）、記憶部５２に記憶された非言語行動情報に基づいて、各参加者Ｕ_ｉ（ｉは１以上ｍ以下の整数）が時刻ｔにおいて次話者となる確率をＰ_ｉ ^{（ｎ＋１）}（ｔ）を算出する（ステップＳ１１５）。次話者推定部５３は、算出結果を呼吸制御部５４に出力する。

呼吸制御部５４は、次話者推定部５３が算出した各参加者Ｕ_ｉが時刻ｔにおいて次話者となる確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）に基づき予測次話者を選択する（ステップＳ１２０）。例えば、呼吸制御部５４は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が高い順にＱ人（Ｑは１以上ｍ以下の整数）の参加者Ｕ_ｉを予測次話者として選択する。また、例えば、呼吸制御部５４は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が所定の閾値よりも高い参加者Ｕ_ｉを全て予測次話者に選択する。またあるいはそれらを組み合わせ、呼吸制御部５４は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が所定の閾値よりも高い参加者Ｕ_ｉを全て予測次話者に選択し、選択された参加者がいない場合は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が高い順にＱ人の参加者Ｕ_ｉを予測次話者として選択してもよい。このように、呼吸制御部５４は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が予測次話者となる条件を満たしている場合、参加者Ｕ_ｉを予測次話者として選択する。ここでは、呼吸制御部５４は、確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が最も高い参加者Ｕ_ｉを予測次話者として選択する。

呼吸制御部５４は、予測次話者の確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）が最も高い時刻を予測発話開始時刻ｔ_ｄｕｓとする。呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓから所定時間ａだけ遡った時刻を吸気開始時刻ｔ_ｉｎｓとし、吸気開始時刻ｔ_ｉｎｓから所定時間ｂ（ａ＞ｂ）だけ経過した時刻を吸気終了時刻ｔ_ｉｎｅとして算出する（ステップＳ１２５）。なお、所定時間ａ及びｂは、予め一般的に求めた平均値を利用してもよく、予め参加者ごとに求めた平均値を利用してもよい。

呼吸制御部５４は、算出結果に基づいて、各参加者の呼吸補助装置４を制御する（ステップＳ１３０）。呼吸制御部５４は、予測次話者に発話前に吸気をさせるように、吸気開始時刻ｔ_ｉｎｓから吸気終了時刻ｔ_ｉｎｅにかけて、予測次話者が装着している呼吸補助装置４の圧迫量を徐々に減少させ、締め付けを緩める。呼吸制御部５４は、吸気終了時刻ｔ_ｉｎｅになると、予測次話者が装着している呼吸補助装置４の圧迫量をそのまま維持し、締め付けを緩めたままとする。一方、呼吸制御部５４は、予測非次話者の呼吸補助装置４に対しては、定常圧迫量による圧迫を継続する。

呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓになったか、又は、次話者推定部５３が記憶部５２に記憶された音声情報に基づき次の発話の開始を検出したか否かを判断する（ステップＳ１３５）。次話者推定部５３は、予測発話開始時刻ｔ_ｄｕｓになっておらず、次の発話の開始も検出されていないと判断した場合（ステップＳ１３５：ＮＯ）、ステップＳ１２５の制御を継続する。次話者推定部５３は、予測発話開始時刻ｔ_ｄｕｓになった、又は、次の発話の開始を検出したと判断した場合（ステップＳ１３５：ＹＥＳ）、予測次話者の呼吸補助装置４の圧迫量を、定常圧迫量まで徐々に増加させる（ステップＳ１４０）。次話者推定部５３は、予測非次話者の呼吸補助装置４に対しては、定常圧迫量による圧迫を継続する。次話者推定部５３は、ｎに１を加算し（ステップＳ１４５）、ステップＳ１１０からの処理を繰り返す。

なお、上記においては、ステップＳ１１５において、次話者推定部５３が、各参加者Ｕ_ｉが時刻ｔにおいて次話者となる確率Ｐ_ｉ ^{（ｎ＋１）}（ｔ）を推定しているが、次話者、及び、次話者の発話開始タイミングを推定し、呼吸制御部５４に出力してもよい。この場合、呼吸制御部５４は、ステップＳ１２０の処理を省略することができる。呼吸制御部５４は、次話者推定部５３により推定された発話開始タイミングを、予測発話開始時刻ｔ_ｄｕｓとする。

図３は、会話支援システム１による呼吸制御の例を示す図である。同図においては、参加者が、参加者Ｕ_１〜Ｕ_４の４人である場合の例を示している。
発話ＩＰＵ_ｎの発話者は、参加者Ｕ_１である。呼吸制御部５４は、発話ＩＰＵ_ｎの間、参加者Ｕ_１の呼吸補助装置４−１の圧迫量を、定常圧迫量Ｃ_ｍａｘまで徐々に増加させ、参加者Ｕ_２〜Ｕ_４の呼吸補助装置４−２〜４−４の圧迫量を、一定の定常圧迫量Ｃ_ｍａｘとするよう制御する。

発話ＩＰＵ_ｎが発話終了時刻ｔ_ｂｕｅにおいて終了すると、次話者推定部５３は、各参加者Ｕ_１〜Ｕ_４が時刻ｔにおいて次話者となる確率をＰ_ｉ ^{（ｎ＋１）}（ｔ）を算出する。
呼吸制御部５４は、次話者推定部５３による算出結果から、参加者Ｕ_２が予測次話者であり、予測発話開始時刻がｔ_ｄｕｓであると判断する。呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓに基づいて吸気開始時刻ｔ_ｉｎｓ及び吸気終了時刻ｔ_ｉｎｅを算出する。

呼吸制御部５４は、吸気開始時刻ｔ_ｉｎｓから吸気終了時刻ｔ_ｉｎｅにかけて、吸気を促すため、参加者Ｕ_２の呼吸補助装置４−２の圧迫量を定常圧迫量Ｃ_ｍａｘから徐々に減少させ、締め付けを緩める。呼吸制御部５４は、吸気終了時刻ｔ_ｉｎｅから予測発話開始時刻ｔ_ｄｕｓまでは、参加者Ｕ_２の呼吸補助装置４−２の圧迫量を減らしたままとする。呼吸制御部５４は、予測発話開始時刻ｔ_ｄｕｓになったところで、参加者Ｕ_２の発話開始を誘発するために、呼吸補助装置４−２の圧迫量を定常圧迫量Ｃ_ｍａｘまで徐々に増加させ、発話ＩＰＵ_ｎ＋１の終了を検出するまで、定常圧迫量Ｃ_ｍａｘによる圧迫を継続する。一方、呼吸制御部５４は、参加者Ｕ_１、Ｕ_３、Ｕ_４の呼吸補助装置４−２に対しては、発話終了時刻ｔ_ｂｕｅ以降、発話ＩＰＵ_ｎ＋１の終了を検出するまで、定常圧迫量Ｃ_ｍａｘによる圧迫を継続する。

以上説明したように、本実施形態の会話支援システムは、会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する。会話の参加者にはそれぞれ、体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置が装着されており、会話支援システムは、推定された次話者が装着している呼吸補助装置に対して、推定された発話開始のタイミングより前に圧迫を緩めるよう制御する。

以上説明した実施形態によれば、会話中に、適切なタイミングで適切な参加者が発話するよう支援することができる。この支援により、スムーズに会話が進行する。

会話支援システム１の音声入力装置２、計測装置３、受信部５１、記憶部５２、及び、次話者推定部５３には、従来技術による次話者推定装置を適用することができる。例えば、参加者の発話及び視線の計測データに基づいて、発話終了時点において次話者及び発話開始タイミングを推定する技術として、以下の参考文献２、３の技術などを適用することができる。参考文献２、３では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者（次話者）および発話のタイミングを予測している。

（参考文献２）特開２０１４−２３８５２５公報
（参考文献３）石井亮，外４名，“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”，人工知能学会研究会資料，SIG-SLUD-B301-06, pp.27-34, 2013．

以下に、本実施形態に適用可能な参考文献２，３以外の次話者推定技術の例を示す。
（第１の次話者推定技術の例）
この次話者推定技術では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の視線行動と次に話し始める参加者や話し始めるタイミングに強い関連性があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象を表す注視対象ラベルから、注視対象の移り変わり（遷移）を表す注視対象遷移パターンと、視線行動の時間的な関係を表す時間構造情報とを生成する。その注視対象遷移パターンと時間構造情報とを用いて次に発話を開始する参加者およびタイミングの少なくとも一方を推定する。

この次話者推定技術では、参加者の視線行動の情報として、（１）参加者の注視対象の移り変わりを表す遷移パターン、（２）視線行動と前の発話者との時間的な関係や、視線行動の持続時間、複数人の視線行動の時間的な関係、などに着目する。以下では、上記（２）の情報を視線行動のタイミング構造情報もしくは時間構造情報と呼ぶ。例えば、タイミング構造情報のうち、ある視線行動の組でどちらが先に行動を開始もしくは終了したかという情報は、次発話者を決めるうえで非常に有用な情報となる。具体的には、ある参加者が話者と視線交差をしたときに、その参加者が先に話者から視線を外した場合、その参加者が次発話者となる確率が非常に高くなる。逆に、その参加者よりも先に話者が視線を外した場合は、その参加者が次発話者となる確率は低くなる。このように、視線行動および視線行動の移り変わり（遷移）だけでなく、視線行動の時間的な関係は次発話者や次発話開始のタイミングを予測する上で有用な情報である。

以下では、会話の参加者がＵ_１〜Ｕ_ＮのＮ人（Ｎ≧２）である場合について説明する。
図４は、本実施形態に適用可能な次話者推定システムの構成を示す図である。
注視対象検出装置９１１−ｊ（ただし、ｊ＝１，…，Ｎ）は、参加者Ｕ_ｊが誰を注視しているか（注視対象）を検出し、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報を推定装置９０に送る。ただし、ｔは離散時間を表す。例えば、注視対象検出装置９１１−ｊは、公知の視線計測装置などを用い、参加者Ｕ_ｊが誰を注視しているかを検出する。
音声情報取得装置９１２−ｓ（ただし、ｓ＝１，…，Ｎ）は、例えば、マイクロホンを使用して、参加者Ｕ_ｓ（ただし、ｓ＝１，…，Ｎ）の音声情報を取得し、取得した音声情報Ｘ_ｓ（ｔ）を表す情報を推定装置９０に送る。ただし、ｔは離散時間を表す。

発話単位抽出部９１は、音声情報Ｘ_ｓから雑音成分を除去して発話成分のみを抽出し、それから発話区間Ｔ_ｓを取得する。本次話者推定技術では、１つの発話区間Ｔ_ｓを、２つのＴｄミリ秒連続した無音区間で囲まれた、発話成分が存在する少なくとも１つの区間を含む時間区間と定義する。本次話者推定技術では、この発話区間Ｔ_ｓを参加者Ｕ_ｓの発話の１つの単位と規定し、ある発話区間Ｔ_ｓの終了時に、同じ参加者Ｕ_ｓが続けて発話をするか（すなわち継続するか）、あるいは他の参加者の誰が発話をするのか（すなわち発話交替するか）を判定する。

また、発話単位抽出部９１は、抽出した発話区間Ｔ_ｓに対して誰が発話者であるのかを示す話者情報Ｕ_ｓを取得する。話者情報は、複数のマイクロホンを用いて、マイクロホンごとに収音される音声の時間差や、音の大きさ、音声的特徴などを使って抽出可能であり、一般的に考えられるあらゆる手段を用いてよい。発話単位抽出部９１は、発話区間Ｔ_ｓとそれに対応する参加者Ｕ_ｓを表す情報（誰が発話したかを表す話者情報）を注視対象ラベル生成部９２へ出力する。

注視対象ラベル生成部９２は、注視対象情報Ｇ_１（ｔ），…，Ｇ_Ｎ（ｔ）、発話区間Ｔ_ｓ、および話者情報Ｕ_ｓを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｋ（ただし、ｋ＝１，…，Ｋ、Ｋは注視対象ラベルの総数）を生成して出力する。注視対象ラベル情報は、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。本次話者推定技術では、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｕ_ｊの注視対象をラベル付けした注視対象ラベル情報θ_ｋを例示する。例えば、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

注視対象ラベル生成部９２は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。
・ラベルＳ：話者（すなわち、話者である参加者Ｕ_ｓを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ｎ−１である。例えば、ある参加者が、非話者Ｕ_２、非話者Ｕ_３、の順に注視をしていたとき、非話者Ｕ_２にＬ_１というラベル、非話者Ｕ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本次話者推定技術では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図５に注視対象ラベルの具体例を示す。図５はＮ＝４の例であり、発話区間Ｔ_ｓ，Ｔ_ｓ＋１と各参加者の注視対象が時系列に示されている。図５の例では、参加者Ｕ_１が発話した後、発話交替が起き、新たに参加者Ｕ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｕ_１が参加者Ｕ_４を注視した後、参加者Ｕ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｕ_１が参加者Ｕ_２を見ていたとき、参加者Ｕ_２は参加者Ｕ_１を見ている。これは、参加者Ｕ_１と参加者Ｕ_２とで相互注視が起きていることを表す。この場合、参加者Ｕ_１の注視対象情報Ｇ_１（ｔ）から生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｕ_２は参加者Ｕ_４を注視した後、話者である参加者Ｕ_１を注視している。この場合、参加者Ｕ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｕ_３は話者である参加者Ｕ_１を注視している。この場合、参加者Ｕ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｕ_４は誰も見ていない。この場合、参加者Ｕ_４の注視対象ラベルはＸとなる。したがって、図５の例では、Ｋ＝６である。

注視対象ラベル生成部９２は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図５の例において、参加者Ｕ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

注視対象ラベル生成部９２は、以上のように得た注視対象ラベル情報θ_ｋを注視対象遷移パターン生成部９３および時間構造情報生成部９４へ出力する。

注視対象遷移パターン生成部９３は、注視対象ラベル情報θ_ｋを入力とし、各参加者Ｕ_ｊの注視対象遷移パターンｆ_ｊを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図５の例を考えると、参加者Ｕ_１の注視対象ラベルＬ_１とＬ_２Ｍとから生成される注視対象遷移パターンｆ_１はＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｕ_２の注視対象遷移パターンｆ_２はＬ_１−Ｓ_Ｍ、参加者Ｕ_３の注視対象遷移パターンｆ_３はＳ、参加者Ｕ_４の注視対象遷移パターンｆ_４はＸとなる。

注視対象遷移パターン生成部９３は、以上のように得た注視対象遷移パターンｆ_ｊを推定部９５へ出力する。注視対象遷移パターンｆ_ｊを、例えば発話区間Ｔ_ｓ＋１が開始された後に、発話区間Ｔ_ｓおよびその発話者Ｕ_ｓ、発話区間Ｔ_ｓ＋１に該当する発話を行う次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂを表す情報とともに学習データ記憶部９５１に送られる。

時間構造情報生成部９４は、注視対象ラベル情報θ_ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

時間構造情報の具体的なパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図５の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｋは注視対象ラベル情報θ_ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。図６を用いて時間構造情報Θ_ｋを構成する上記の各パラメータを具体的に示す。図６は、話者である参加者Ｕ_１（Ｒ＝Ｓ）の注視対象ラベルＬ_１についての時間構造情報を示したものである。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｕ_２の注視対象ラベルＬ_１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図６の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報生成部９４は、以上のように時間構造情報Θ_ｋを推定部９５へ出力する。時間構造情報Θ_ｋは、例えば次の発話区間Ｔ_ｓ＋１が開始された後に、発話区間Ｔ_ｓおよびその発話者Ｕ_ｓ、発話区間Ｔ_ｓ＋１に該当する発話を行う次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂを表す情報とともに学習データ記憶部９５１に送られる。学習データ記憶部９５１では、注視対象遷移パターン生成部９３から送られた注視対象遷移パターンｆ_ｊと併合され、Θ_ｋ，ｆ_ｊ，Ｔ_ｓ，Ｕ_ｓ，Ｕ_ｓ＋１，Ｔ_ｕｂを表す情報の一部またはすべてが学習データ記憶部９５１に保持される。また、次発話者算出部９５２、次発話開始タイミング算出部９５３には、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａで、θ_ｋ，ｆ_ｊ，Ｔ_ｓ，Ｕ_ｓが送られる。

学習データ記憶部９５１には、発話者Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、時間構造情報Θ_ｋ、次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂがセットとなったデータセットが複数保持されている。これらの情報は、事前に複数の参加者間で行われるコミュニケーションを収録したものを収集して、上述の方法により生成したものである。あるいは、注視対象遷移パターン生成部９３から送られてきた注視対象遷移パターンｆ_ｊ，時間構造情報生成部９４から送られてきた時間構造情報Θ_ｋ，発話区間Ｔ_ｓ，発話者Ｕ_ｓ，次発話者Ｕ_ｓ＋１，および次発話タイミングＴ_ｕｂを表す情報の一部またはすべてが逐次記憶される。

次発話者算出部９５２は、発話単位抽出部９１で得られた話者情報Ｕ_ｓ、注視対象遷移パターン生成部９３で得られた注視対象遷移パターンｆ_ｊ、時間構造情報生成部９４で得られた時間構造情報Θ_ｋを入力とし、これらを用いて次発話者となる参加者Ｕ_ｓ＋１を算出する。

次発話者の算出方法としては、例えば、（１）注視対象遷移パターンｆ_ｊと、時間構造情報Θ_ｋのパラメータＩＮＴ１〜ＩＮＴ９のうち少なくとも一つとを用いて、ある注視対象遷移パターンｆ_ｊが出現した際にあらかじめ定められた次発話者Ｕ_ｓ＋１を決定するような条件判定、（２）時間構造情報Θ_ｋのパラメータＩＮＴ１〜ＩＮＴ９のいずれかがあらかじめ定めた閾値を超えた際に次発話者Ｕ_ｓ＋１を決定するなどの閾値判定、または、（３）サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話者Ｕ_ｓ＋１を予測する判定手法、などを用いることができる。

（２）閾値判定を用いる手法の具体例としては、以下のとおりである。ここでは、話者である参加者Ｕ_１の注視対象ラベルがＬ_１Ｍ（非話者と相互注視）であり、非話者である参加者Ｕ_２の注視対象ラベルがＳ_Ｍ（話者と相互注視）であるときを考える。このとき、話者の注視対象ラベルＳ_Ｌ１Ｍ（下付き添え字の「_Ｌ１Ｍ」はＬ_１Ｍを表し、下付き添え字の「_１Ｍ」は１_Ｍを表す）の終了時刻ＥＴ＿Ｓ_Ｌ１Ｍが非話者の注視対象ラベルＬ_ＳＭ（下付き添え字の「Ｓ_Ｍ」はＳ_Ｍを表す）の終了時刻ＥＴ＿Ｌ_ＳＭよりもどれくらい後であったかを示すパラメータＩＮＴ９は、次発話者が非話者である参加者Ｕ_２になるとき（すなわち発話交替が起きるとき）は正の値を取り、次発話者が話者である参加者Ｕ_１であるとき（すなわち発話継続するとき）は負の値を取る傾向にある。この性質を利用して、ＩＮＴ９＜α（αは任意の閾値）が成り立つときに、次発話者は現在の話者である参加者Ｕ_１と判定する。

（３）機械学習を用いる判定手法の具体例を図５の注視対象データを用いて以下に示す。次発話者算出部９５２は、学習データ記憶部９５１に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話者の予測モデルを学習する。
・話者情報Ｕ_ｓ
・各参加者Ｕ_１，…，Ｕ_４の注視対象遷移パターンｆ_１，…，ｆ_４
・各注視対象ラベル情報θ_１，…，θ_６の時間構造情報Θ_１，…，Θ_６
このとき、目的変数は、
・次発話者となる参加者Ｕ_ｓ＋１（Ｕ_１，…，Ｕ_４のいずれか）
である。

機械学習手法はどのようなものを利用してもよい。例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等の一般的な手法を用いればよい。

次発話者算出部９５２は、話者情報Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、および時間構造情報Θ_ｋを、上記のように学習した予測モデルに入力して次発話者Ｕ_ｓ＋１を得、その次発話者Ｕ_ｓ＋１を表す推定情報を予測結果として出力する。

次発話開始タイミング算出部９５３は、次発話者算出部９５２で得られた次発話者Ｕ_ｓ＋１、発話単位抽出部９１で得られた話者情報Ｕ_ｓ、注視対象遷移パターン生成部９３で得られた注視対象遷移パターンｆ_ｊ、時間構造情報生成部９４で得られた時間構造情報Θ_ｋを入力とし、これらを用いて次発話の開始するタイミングＴ_ｕｂを算出する。話者情報Ｕ_ｓは注視対象遷移パターン生成部９３もしくは時間構造情報生成部９４のいずれから受け取ってもよい。次発話の開始するタイミングＴ_ｕｂは、ある時点を起点とした次の発話の開始時刻ＳＴ＿Ｕまでの時間間隔である。例えば、ある時点の絶対時点（実時刻）をαとし、次の発話開始時点の絶対時点をβとすると、次発話開始タイミングＴ_ｕｂはβ−αである。

次発話開始タイミングの算出方法としては、例えば、（１）注視対象遷移パターンｆ_ｊと、時間構造情報Θ_ｋのパラメータＩＮＴ１〜ＩＮＴ９のうち少なくとも一つとを用いて、ある注視対象遷移パターンｆ_ｊが出現した際にあらかじめ定められた発話開始タイミングＴ_ｕｂを決定するような条件判定、（２）時間構造情報Θ_ｋのパラメータＩＮＴ１〜ＩＮＴ９に対応した、次発話開始タイミングの関数式（例えば、ＩＮＴ１を引数としてタイミングＴを出力するＴ＝Ｆ（ＩＮＴ１）などの関数）を、あらかじめ一般的な会話データを利用して作成しておき利用する算出手法、または、（３）サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話開始タイミングＴ_ｕｂを予測する算出手法、などを用いることができる。

（３）機械学習を用いる算出手法の具体例を図５の注視対象データを用いて以下に示す。次発話開始タイミング算出部９５３は、学習データ記憶部９５１に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話開始タイミングの予測モデルを学習する。
・話者情報Ｕ_ｓ
・次発話者情報Ｕ_ｓ＋１
・各参加者Ｕ_１，…，Ｕ_４の注視対象遷移パターンｆ_１，…，ｆ_４
・各注視対象ラベル情報θ_１，…，θ_６の時間構造情報Θ_１，…，Θ_６
このとき、目的変数は、
・次発話者情報Ｕ_ｓ＋１が発話を開始するタイミングＴ_ｕｂ（次の発話の開始時刻ＳＴ＿Ｕを任意の時刻を基点とした時間間隔）
である。

機械学習手はどのようなものを利用してもよい。例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等の一般的な手法を用いればよい。

次発話開始タイミング算出部９５３は、話者情報Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、および時間構造情報Θ_ｋを、上記のように学習した予測モデルに入力して次発話開始タイミングＴ_ｕｂを得、その次発話開始タイミングＴ_ｕｂを表す推定情報を予測結果として出力する。また、次発話開始タイミング算出部９５３は、発話者Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、時間構造情報Θ_ｋ、次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂをセットにして学習データ記憶部９５１に記憶し、以降に行われる予測モデルの学習に利用できるようにする。

（第２の次話者推定技術の例）
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置および音声情報取得装置が装着される。呼吸動作計測装置は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、推定装置に出力する。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして推定装置に送る。

さらに、音声情報取得装置は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声情報Ｖ_ａ，ｔを得て、推定装置に出力する。推定装置は、入力された音声情報Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。本次話者推定技術では、１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、推定装置は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

推定装置は、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図７は、息の吸い込み区間の例を示す図である。図７を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図７に例示するように、例えば、

が成り立つとき、離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに

が成り立つとき、離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

推定装置は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

推定装置は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

推定装置は、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、推定装置が発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

推定装置による次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

推定装置は、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

推定装置は、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。推定装置は、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態の会話支援装置５の次話者推定部５３により推定される参加者Ｕ_ｉが時刻ｔにおいて次話者となる確率をＰ_ｉ ^{（ｎ＋１）}（ｔ）は、参加者Ｕ_ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

本次話者推定技術の推定装置は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置がさらに装着される。注視対象検出装置は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を推定装置に送る。推定装置は、上述した第１の次話者推定技術の例における次話者推定システムと同様の処理により、参加者Ｐ_ａの発話区間Ｕ_ｋにおける注視対象遷移パターンＥ_ａ，ｋ及び時間構造情報Θ_ｖ，ｋを算出し、データベースに保持する。

推定装置は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、この学習したモデルを用いて特徴量に対する推定情報を得て出力する。
なお、この例では、発話終了後の呼吸動作を用いてモデルを機械学習し、推定情報を得ているが、発話終了前の呼吸動作をさらに用いてもよい。

以上、本発明の実施形態を説明したが、上述した会話支援装置５の機能をコンピュータで実現するようにしてもよい。その場合、会話支援装置５の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

複数の参加者が会話を行う場合に適用可能である。

１会話支援システム
２音声入力装置
３計測装置
４、４−１〜４−ｎ呼吸補助装置
５会話支援装置
５１受信部
５２記憶部
５３次話者推定部
５４呼吸制御部

Claims

会話の参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置と、
会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定部と、
推定された前記次話者が装着している前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御部と、
を備えることを特徴とする会話支援システム。
前記呼吸制御部は、推定された前記タイミングの経過後、推定された前記次話者が装着している前記呼吸補助装置に対して、圧迫を増加させるよう制御する、
ことを特徴とする請求項１に記載の会話支援システム。
前記呼吸制御部は、推定された前記タイミングに基づいて、発話前に行われる吸気の開始時刻及び終了時刻を算出し、推定された前記次話者が装着している前記呼吸補助装置に対して、算出した吸気の開始時刻から終了時刻にかけて圧迫を緩めるよう制御する、
ことを特徴とする請求項１又は請求項２に記載の会話支援システム。
前記呼吸制御部は、推定された前記次話者以外の参加者が装着している前記呼吸補助装置に対して、所定の強さの圧迫を継続するよう制御する、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の会話支援システム。
会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定部と、
各参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置のうち、推定された前記次話者に装着された前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御部と、
を備えることを特徴とする会話支援装置。
コンピュータに、
会話中の各参加者の非言語行動の計測結果に基づいて、次に発話を行うべき参加者である次話者及び次の発話の開始のタイミングを推定する次話者推定ステップと、
各参加者に装着され、前記参加者の体幹の一部の圧迫の程度を変えて呼吸を誘発又は抑制する呼吸補助装置のうち、推定された前記次話者に装着された前記呼吸補助装置に対して、推定された前記タイミングより前に圧迫を緩めるよう制御する呼吸制御ステップと、
を実行させるための会話支援プログラム。