JP2010266722A

JP2010266722A - 会話グループ把握装置、会話グループ把握方法、及びプログラム

Info

Publication number: JP2010266722A
Application number: JP2009118464A
Authority: JP
Inventors: Atsushi Yoshimoto; 淳善本
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2009-05-15
Filing date: 2009-05-15
Publication date: 2010-11-25
Anticipated expiration: 2029-05-15
Also published as: JP5267995B2

Abstract

【課題】どの構成員同士で会話を行っているのかを把握する会話グループ把握装置を提供する。
【解決手段】組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付部１１と、受付部１１が受け付けた音データを蓄積する音データ蓄積部１２と、音データ蓄積部１２が蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出部１５と、類似情報算出部１５が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積部１６と、を備える。
【選択図】図１

Description

本発明は、組織の各構成員の位置で取得された音データを用いて、会話している構成員のグループ等を把握する会話グループ把握装置等に関する。

従来、組織の構成員の関係を把握する方法として、ソシオメトリーが知られている。ソシオメトリーでは通常、組織の各構成員から直接、誰が好きか、誰が嫌いか等を聞くことになるが、その回答は、回答に対する周囲の影響とか対面とかを考慮して回答者の真意を反映したものとは限らず、回答に偽りが含まれているおそれがあった。また、その回答が構成員間の人間関係に悪影響を及ぼすおそれもあった。そのため、構成員の関係を、ロボットを介して自動的に把握するための関係検知システムが開発されている（例えば、特許文献１参照）。

特開２００５−１３１７４８号公報

しかしながら、この先行技術文献に示された従来の関係検知システムにおいては、ロボットに対する興味にばらつきのある大人には有効でないという問題がある。例えば、ロボットに興味のある構成員はロボットの近くに来るため、その構成員と他の構成員との関係を把握することができるが、ロボットに興味のない構成員はロボットの近くに来ないため、その構成員と他の構成員との関係を把握することができないという問題がある。
したがって、ロボット等を介することなく、直接、構成員の関係を正確に把握したいという要望があった。

本発明は、上記事情に応じてなされたものであり、ロボット等を介さないで、構成員の関係、特に会話をしているグループを把握することができる会話グループ把握装置等を提供することを目的とする。

上記目的を達成するため、本発明による会話グループ把握装置は、組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付部と、受付部が受け付けた音データを蓄積する音データ蓄積部と、音データ蓄積部が蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出部と、類似情報算出部が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積部と、を備えたものである。

このような構成により、会話グループ情報を用いて、どの構成員同士で会話を行っているのかを知ることができる。その結果、例えば、ロボット等を用いる間接的な方法ではなく、直接、組織において各構成員がどのようなグループを構成しているのかを知ることができる。また、その会話グループ情報を自動的に蓄積することができるため、客観的な情報となる。

また、本発明による会話グループ把握装置では、音データ蓄積部は、受付部が受け付けた音データのうち、処理の単位となる時間である処理単位時間ごとに、所定の割合の時間の音データを蓄積してもよい。

このような構成により、すべての音データを蓄積するのではないため、セキュリティーを向上させることができる。例えば、蓄積した音データが悪意のある第三者によって窃取されたとしても、会話の内容等を知られないようにすることができうる。また、保持する音データの容量を少なくすることができるメリットもある。

また、本発明による会話グループ把握装置では、音データ蓄積部が蓄積した音データから、所定の音圧を超える音圧の音データを抽出する音データ抽出部をさらに備え、類似情報算出部は、音データ抽出部が抽出した音データを用いて類似情報を算出してもよい。

会話をしている場合の音圧は、あるレベルの音圧を超えていると考えられるため、このような構成により、会話をしている音データのみを抽出して、適切に会話グループ情報を蓄積することができるようになると考えられる。

また、本発明による会話グループ把握装置では、類似情報算出部は、処理の単位となる時間である処理単位時間ごとに、音データの音圧の増減を求め、音圧の増減の類似性に関する類似情報を算出してもよい。

このような構成により、処理単位時間ごとの音データの音圧の増減パターンを用いて、２以上の音データが類似しているかどうかを把握することができる。したがって、類似情報を算出する際に、音のレベルの違いや、音の変化の大きさに影響されないことになる。

また、本発明による会話グループ把握装置では、会話グループ情報に含まれる構成員識別情報で識別される複数の構成員にそれぞれ対応する音データのうち、大きい音圧の音データに対応する構成員の構成員識別情報を有する話者情報を蓄積する話者情報蓄積部をさらに備えてもよい。
このような構成により、どの構成員が話者であるのかも知ることができるようになる。

また、本発明による会話グループ把握装置では、会話グループ情報蓄積部が蓄積した会話グループ情報を用いて、構成員の関係を示す関係情報を生成する関係情報生成部と、関係情報生成部が生成した関係情報を出力する関係情報出力部と、をさらに備えてもよい。
このような構成により、構成員間の関係について知ることができるようになる。

また、本発明による会話グループ把握装置では、関係情報は、一の構成員が他の構成員と会話している時間に関する情報であってもよい。
このような構成により、構成員間の会話時間について知ることができるようになる。

また、本発明による会話グループ把握装置では、関係情報は、会話グループ情報に含まれる構成員識別情報の時間的な遷移を示す情報であってもよい。
このような構成により、会話しているグループを構成する構成員の遷移について知ることができるようになる。

本発明による会話グループ把握装置等によれば、どの構成員同士で会話を行っているのかを知ることができる。その結果、構成員の関係を正確に把握することができる。

本発明の実施の形態１による会話グループ把握装置の構成を示すブロック図同実施の形態による会話グループ把握装置の動作を示すフローチャート同実施の形態による会話グループ把握装置の動作を示すフローチャート同実施の形態による会話グループ把握装置の動作を示すフローチャート同実施の形態による会話グループ把握装置の動作を示すフローチャート同実施の形態による会話グループ把握装置の動作を示すフローチャート同実施の形態における類似情報の算出について説明するための図同実施の形態における蓄積された音データの一例を示す図同実施の形態における算出された類似情報の一例を示す図同実施の形態における会話グループ情報の一例を示す図同実施の形態における話者情報の一例を示す図同実施の形態における関係情報の一例を示す図上記実施の形態におけるコンピュータシステムの外観一例を示す模式図上記実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、本発明による会話グループ把握装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による会話グループ把握装置１について、図面を参照しながら説明する。本実施の形態による会話グループ把握装置１は、各構成員の位置で取得された音データを用いて、どの構成員同士で会話を行っているのかを把握するものである。

図１は、本実施の形態による会話グループ把握装置１の構成を示すブロック図である。本実施の形態による会話グループ把握装置１は、受付部１１と、音データ蓄積部１２と、音データ記憶部１３と、音データ抽出部１４と、類似情報算出部１５と、会話グループ情報蓄積部１６と、会話グループ情報記憶部１７と、会話グループ情報出力部１８と、話者情報蓄積部１９と、話者情報記憶部２０と、話者情報出力部２１と、関係情報生成部２２と、関係情報出力部２３とを備える。

受付部１１は、組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける。組織は、例えば、学校や職場、サークル、あるいは、その他の何らかの団体やグループ等である。構成員は、その組織を構成する人や動物等である。本実施の形態では、構成員が人間である場合について説明する。また、その音データは、構成員に装着されたマイク（例えば、ハンズフリーマイクや、ヘッドセットのマイク、クリップマイク、タイピンマイク等）や、構成員の移動に応じて移動するようにされたマイクによって集音されたものである。そのマイクは、構成員の発話や、その構成員と会話をしている他の構成員の発話を効率よく取得することができる位置（例えば、構成員の口元や襟元等）に配置されることが好適である。また、受付部１１は、マイクで集音された音データを、リアルタイムで受け付けてもよく、あるいは、マイクで集音され、録音された音データを一括して受け付けてもよい。また、受付部１１が受け付ける音データは、デジタルデータであることが好適である。テープに録音されたアナログデータのように、テープの伸び等に起因する変化が起こらないからである。本実施の形態では音データがデジタルデータである場合について説明する。また、音データを構成員ごとに受け付けるとは、音データを構成員ごとに区別可能に受け付けることである。例えば、受付部１１は、構成員を識別する構成員識別情報と一緒に、その構成員識別情報で識別される構成員の位置で取得された音データを受け付けてもよく、あるいは、構成員ごとに異なるチャンネルで入力された音データを受け付けてもよい。本実施の形態では、前者の場合について説明する。

受付部１１は、例えば、マイクから入力された音データを受け付けてもよく、有線もしくは無線の通信回線を介して送信された音データを受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリ等）から読み出された音データを受け付けてもよい。なお、受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカード等）を含んでもよく、あるいは含まなくてもよい。また、受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

音データ蓄積部１２は、受付部１１が受け付けた音データを音データ記憶部１３に蓄積する。音データ蓄積部１２が音データを蓄積する際にも、構成員ごとに区別可能に蓄積することが好適である。また、音データ蓄積部１２は、受付部１１が受け付けたすべての音データを蓄積してもよく、あるいは、受付部１１が受け付けた音データのうち、処理の単位となる時間である処理単位時間（例えば、０．５秒や１秒等）ごとに、所定の割合（例えば、１割や２割等）の時間の音データを蓄積してもよい。

音データ記憶部１３では、音データが構成員ごとに記憶される。この音データは、前述の音データ蓄積部１２によって蓄積されたものである。この音データ記憶部１３で記憶されている音データには、タイムコードが対応付けられていることが好適である。そのタイムコードは、受付部１１が受け付けた音データにあらかじめ設定されていてもよく、あるいは、音データ蓄積部１２が音データを音データ記憶部１３に蓄積する際に設定してもよい。また、そのタイムコードは、音データのすべての時間帯にわたって設定されていてもよく、あるいは、始点や終点等の一部についてのみ設定されていてもよい。後者の場合であっても、そのタイムコードの設定されている位置からの差分の時間を算出することによって、音データのすべての時間帯についてタイムコードを知ることができる。また、タイムコードは、絶対的な日時を示すものであってもよく、相対的な時間を示すものであってもよい。前者の場合には、例えば、電波時計等から取得された日時を用いたものであってもよい。また、そのタイムコードは、複数の構成員に対応する音データの間で同期している（音データの同じ時間的な位置に、同じタイムコードが対応付けられている）ことが好適である。

音データ記憶部１３での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音データ記憶部１３は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

音データ抽出部１４は、音データ蓄積部１２が音データ記憶部１３に蓄積した音データから、所定の音圧を超える音圧の音データを抽出する。この所定の音圧は、あらかじめ設定されたものであってもよく、あるいは、音データごとに設定されるものであってもよい。後者の場合には、その所定の音圧は、例えば、その音データの最も大きい音圧に１より小さい値（例えば、０．７や０．８等）を掛けた値であってもよい。また、その所定の音圧よりも大きい音圧の音データは、会話の音データとなることが好適である。このようにすることで、会話の音データを抽出することができるようになる。なお、この会話の音データは、例えば、音データを取得する対象となる構成員の発話の音データであってもよく、あるいは、その構成員と会話を行っている他の構成員の発話の音データであってもよい。また、音データ抽出部１４が抽出した音データは、図示しない記録媒体で一時的に記憶されてもよい。

類似情報算出部１５は、音データ蓄積部１２が音データ記憶部１３に蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する。また、類似情報算出部１５は、音データ抽出部１４が抽出した音データをも用いて、構成員ごとの音データ間の類似情報をも算出する。本実施の形態では、音データ記憶部１３で記憶されている音データを用いて類似情報を算出する際には、音データ抽出部１４によって抽出されなかった音データを用いて類似情報を算出するものとする。前述のように、音データ抽出部１４は、会話の音データを抽出することになるため、本実施の形態では、会話の音データに関する類似情報（音データ抽出部１４によって抽出された音データを用いて算出された類似情報）と、会話以外の音データに関する類似情報（音データ抽出部１４によって抽出されなかった音データを用いて算出された類似情報）とが算出されることになる。

類似情報算出部１５は、例えば、一定の時間間隔ごとに、類似情報を算出してもよく、そうでなくてもよい。前者の場合には、例えば、５秒ごとや１０秒ごと等に類似情報を算出することになる。後者の場合には、可変長の時間に対応する類似情報を算出することになる。本実施の形態では、前者の場合について説明する。この類似情報は、類似の程度が分かる情報であれば、その内容を問わない。類似情報は、例えば、類似性が高いほど大きい値となる情報であってもよく、あるいは、類似性が低いほど大きい値となる情報であってもよい。また、類似情報算出部１５は、タイムコードを用いることによって、同じ時間的位置の音データ間の類似情報を算出するものとする。また、類似情報算出部１５は、通常、２個の音データ間の類似情報を算出するものとする。

また、類似情報算出部１５は、例えば、音データの波形の間の類似性に関する類似情報を算出してもよく、あるいは、処理の単位となる時間である処理単位時間ごとに、音データの音圧の増減（この増減は、通常、時間の経過にともなって音圧が増えているか減っているかを示すものである。ただし、時間をさかのぼる方向に音圧が増えているか減っているかを示すものであってもよい）を求め、音圧の増減のパターンの類似性に関する類似情報を算出してもよい。後者の場合には、音圧のレベルの差や、音圧の変化の程度の差（例えば、１０だけ増えているのか、５だけ増えているのかの差）に依存しない類似情報を算出することができるようになる。マイクの特性や、音源とマイクとの距離等に起因して、たとえ同じ音が取得されていたとしても、音圧のレベルや音圧の変化の程度に差の生じることがありうる。そのような場合であっても、音圧の増減の変化のパターンを用いて類似情報を算出することによって、それらの差の影響を受けないようにすることができる。なお、音データの波形の類似性に関する類似情報を算出する場合であっても、そのような音圧のレベルや音圧の変化の程度の差に影響されないように類似情報を算出してもよい。そのため、例えば、一方の波形の全体を定数倍して音圧のレベルを調整した後に、類似情報を算出してもよい。
また、類似情報算出部１５が算出した類似情報は、図示しない記録媒体で一時的に記憶されてもよい。

会話グループ情報蓄積部１６は、類似情報算出部１５が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を会話グループ情報記憶部１７に蓄積する。類似性の高い複数の音データとは、類似情報によって示される類似性がしきい値以上である複数の音データである。そのしきい値は、あらかじめ設定されたものであってもよく、あるいは、そうでなくてもよい。後者の場合には、そのしきい値は、例えば、最も高い類似性の値に１より小さい値（例えば、０．７や０．８等）を掛けた値であってもよい。

また、会話グループ情報蓄積部１６は、音データ抽出部１４によって抽出された音データを用いて算出された類似情報を用いて会話グループ情報を蓄積すると共に、その音データ抽出部１４によって抽出されなかった音データを用いて算出された類似情報を用いて会話グループ情報を蓄積するものとする。前者の場合には、会話をしている構成員のグループ（このグループを「会話グループ」と呼ぶことにする）に関する情報が蓄積されることになる。後者の場合には、会話をしていないが近い位置にいる構成員のグループ（このグループを「集合グループ」と呼ぶことにする）に関する情報が蓄積されることになる。会話グループ情報は、会話グループや、集合グループを構成する構成員の構成員識別情報を示す情報である。会話グループや集合グループが２以上存在してもよいことは言うまでもない。

会話グループ情報記憶部１７では、会話グループ情報が記憶される。この会話グループ情報は、会話グループ情報蓄積部１６によって蓄積されたものである。会話グループ情報記憶部１７での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。会話グループ情報記憶部１７は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

会話グループ情報出力部１８は、会話グループ情報蓄積部１６が会話グループ情報記憶部１７に蓄積した会話グループ情報を出力する。この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイ等）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、会話グループ情報出力部１８は、出力を行うデバイス（例えば、表示デバイスやプリンタ等）を含んでもよく、あるいは含まなくてもよい。また、会話グループ情報出力部１８は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

話者情報蓄積部１９は、会話グループ情報に含まれる構成員識別情報で識別される複数の構成員（この構成員は会話グループの構成員である）にそれぞれ対応する音データのうち、大きい音圧の音データに対応する構成員の構成員識別情報を有する話者情報を蓄積する。その話者情報に含まれる構成員識別情報は、話者である構成員を識別する構成員識別情報である。話者情報蓄積部１９は、会話グループごとに、その話者である構成員を識別する構成員識別情報を蓄積することが好適である。なお、この話者情報の生成で用いられる会話グループ情報は、会話グループに関する部分の情報である。すなわち、集合グループに関する部分の情報は用いられない。大きい音圧の音データとは、最も大きい音圧の音データであってもよく、しきい値以上の音圧の音データであってもよい。前者の場合には、単一の話者のみが特定されることになり、後者の場合には、２以上の話者も特定可能である。しきい値は、あらかじめ設定されたものであってもよく、あるいは、そうでなくてもよい。後者の場合には、そのしきい値は、例えば、最大の音圧に１より小さい値（例えば、０．７や０．８等）を掛けた値であってもよい。また、音圧の比較は、音圧の絶対値を用いて行われてもよく、あるいは、音データごとの最大の音圧に対する比を用いて行われてもよい。

話者情報記憶部２０では、話者情報が記憶される。この話者情報は、話者情報蓄積部１９によって蓄積されたものである。話者情報記憶部２０での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。話者情報記憶部２０は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

話者情報出力部２１は、話者情報蓄積部１９が話者情報記憶部２０に蓄積した話者情報を出力する。この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイ等）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、話者情報出力部２１は、出力を行うデバイス（例えば、表示デバイスやプリンタ等）を含んでもよく、あるいは含まなくてもよい。また、話者情報出力部２１は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

関係情報生成部２２は、会話グループ情報蓄積部１６が蓄積した会話グループ情報を用いて、構成員の関係を示す関係情報を生成する。なお、関係情報生成部２２は、話者情報蓄積部１９が蓄積した話者情報をも用いて、関係情報を生成してもよい。この関係情報は、一の構成員が他の構成員と会話している時間に関する情報（例えば、会話時間を示す情報（＝発話している時間＋発話を聞いている時間）、発話時間を示す情報、発話比（＝発話時間／会話時間）を示す情報等）であってもよく、会話グループ情報に含まれる構成員識別情報の時間的な遷移を示す情報であってもよく、その他の構成員の関係を示す情報（例えば、構成員がハブ傾向であるかどうか、孤立傾向であるかどうか、橋傾向であるかどうか、連絡係傾向であるかどうか等を示す情報）であってもよい。

関係情報出力部２３は、関係情報生成部２２が生成した関係情報を出力する。この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイ等）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、関係情報出力部２３は、出力を行うデバイス（例えば、表示デバイスやプリンタ等）を含んでもよく、あるいは含まなくてもよい。また、関係情報出力部２３は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、音データ記憶部１３と、会話グループ情報記憶部１７と、話者情報記憶部２０との任意の２以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音データを記憶している領域が音データ記憶部１３となり、会話グループ情報を記憶している領域が会話グループ情報記憶部１７となる。

次に、本実施の形態による会話グループ把握装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）受付部１１は、音データを受け付けたかどうか判断する。そして、音データを受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０３に進む。

（ステップＳ１０２）音データ蓄積部１２は、受付部１１が受け付けた音データを音データ記憶部１３に蓄積する。この蓄積の際に、構成員ごとに区別可能に音データを蓄積することが好適である。そして、ステップＳ１０１に戻る。

（ステップＳ１０３）類似情報算出部１５は、音データ記憶部１３で記憶されている音データに関する一連の解析の処理（例えば、類似情報の算出や会話グループ情報の蓄積、話者情報の蓄積等の処理）を開始するかどうか判断する。そして、開始する場合には、ステップＳ１０４に進み、そうでない場合には、ステップＳ１０１に戻る。なお、本実施の形態では、この判断を類似情報算出部１５が行う場合について説明するが、それ以外の構成要素、あるいは、図示しない制御部等がこの判断を行ってもよいことは言うまでもない。

（ステップＳ１０４）音データ抽出部１４は、音データ記憶部１３で記憶されている音データを読み出し、所定の音圧を超える音圧の音データを抽出する。

（ステップＳ１０５）類似情報算出部１５は、音データ記憶部１３で記憶されている音データと、音データ抽出部１４が抽出した音データとを用いて、類似情報を算出する。なお、この処理の詳細については、図３のフローチャートを用いて後述する。

（ステップＳ１０６）会話グループ情報蓄積部１６は、類似情報算出部１５によって算出された類似情報を用いて、会話グループ情報を生成する。この処理の詳細については、図４のフローチャートを用いて後述する。

（ステップＳ１０７）会話グループ情報蓄積部１６は、生成した会話グループ情報を会話グループ情報記憶部１７に蓄積する。

（ステップＳ１０８）会話グループ情報出力部１８は、会話グループ情報蓄積部１６が会話グループ情報記憶部１７に蓄積した会話グループ情報を出力する。

（ステップＳ１０９）話者情報蓄積部１９は、音データ記憶部１３で記憶されている音データと、会話グループ情報記憶部１７で記憶されている会話グループ情報とを用いて、話者情報を生成する。この処理の詳細については、図５のフローチャートを用いて後述する。

（ステップＳ１１０）話者情報蓄積部１９は、生成した話者情報を話者情報記憶部２０に蓄積する。

（ステップＳ１１１）話者情報出力部２１は、話者情報蓄積部１９が話者情報記憶部２０に蓄積した話者情報を出力する。

（ステップＳ１１２）関係情報生成部２２は、会話グループ情報記憶部１７で記憶されている会話グループ情報と、話者情報記憶部２０で記憶されている話者情報とを用いて、関係情報を生成する。この処理の詳細については、図６のフローチャートを用いて後述する。

（ステップＳ１１３）関係情報出力部２３は、関係情報生成部２２が生成した関係情報を出力する。そして、ステップＳ１０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図２のフローチャートでは、類似情報の算出や会話グループ情報の蓄積、話者情報の蓄積、関係情報の生成と出力等の処理が連続して行われる場合について示しているが、そうでなくてもよい。例えば、類似情報の算出や、会話グループ情報の蓄積等の処理が、ユーザからの指示に応じて開始されるようにしてもよい。

図３は、図２のフローチャートにおける類似情報の算出の処理（ステップＳ１０５）の詳細を示すフローチャートである。なお、この図３のフローチャートにおいて、類似情報の算出の処理は、時間的な区間ごとに実行されるものとする。例えば、その区間は、５秒ごと、１０秒ごと、１５秒ごと等の区間であってもよい。

（ステップＳ２０１）類似情報算出部１５は、カウンタｉを１に設定する。

（ステップＳ２０２）類似情報算出部１５は、カウンタｊをｉ＋１に設定する

（ステップＳ２０３）類似情報算出部１５は、カウンタｋを１に設定する。

（ステップＳ２０４）類似情報算出部１５は、ｉ番目の構成員に対応する音データのｋ番目の区間と、ｊ番目の構成員に対応する音データのｋ番目の区間とに、抽出された音データがあるかどうか判断する。すなわち、両構成員のｋ番目の区間がそれぞれ音データ抽出部１４によって抽出されたかどうか判断する。そして、両方の音データが抽出されたものである場合には、ステップＳ２０５に進み、そうでない場合には、ステップＳ２０７に進む。

（ステップＳ２０５）類似情報算出部１５は、ｉ番目の構成員に対応する抽出された音データのｋ番目の区間と、ｊ番目の構成員に対応する抽出された音データのｋ番目の区間とに対する類似情報を算出する。この類似情報は、抽出された音データ間の類似情報であるため、会話に関する類似情報となる。すなわち、この類似情報によって類似性の高いことが示される場合には、ｉ番目の構成員とｊ番目の構成員とは、ｋ番目の区間において会話をしていることになる。

（ステップＳ２０６）類似情報算出部１５は、その算出した類似情報を図示しない記録媒体で一時的に記憶しておく。その記憶の際に、ｉ番目の構成員とｊ番目の構成員とのｋ番目の区間に関する類似情報である旨を対応付けて記憶することが好適である。

（ステップＳ２０７）類似情報算出部１５は、ｉ番目の構成員に対応する音データのｋ番目の区間と、ｊ番目の構成員に対応する音データのｋ番目の区間とに対する類似情報を算出する。なお、その音データの少なくとも一方は、抽出された音データではなく、音データ記憶部１３から受け取った音データである。この類似情報は、少なくとも一方が抽出されなかった音データである音データ間の類似情報であるため、会話以外の音に関する類似情報となる。すなわち、この類似情報によって類似性の高いことが示される場合には、ｉ番目の構成員とｊ番目の構成員とは、ｋ番目の区間において、会話をしていないが環境音が同じであるほど近い位置にいることになる。

（ステップＳ２０８）類似情報算出部１５は、その算出した類似情報を図示しない記録媒体で一時的に記憶しておく。その際に、ｉ番目の構成員とｊ番目の構成員とのｋ番目の区間に関する類似情報である旨を対応付けて記憶することが好適である。
また、ステップＳ２０６で一時的に記憶される類似情報と、ステップＳ２０８で一時的に記憶される類似情報とは、区別可能に記憶されることが好適である。

（ステップＳ２０９）類似情報算出部１５は、カウンタｋを１だけインクリメントする。

（ステップＳ２１０）類似情報算出部１５は、ｋ番目の区間が存在するかどうか判断する。そして、存在する場合には、ステップＳ２０４に戻り、そうでない場合には、ステップＳ２１１に進む。

（ステップＳ２１１）類似情報算出部１５は、カウンタｊを１だけインクリメントする。

（ステップＳ２１２）類似情報算出部１５は、ｊ番目の構成員に対応する音データが存在するかどうか判断する。そして、ｊ番目の構成員に対応する音データが存在する場合には、ステップＳ２０３に戻り、そうでない場合には、ステップＳ２１３に進む。

（ステップＳ２１３）類似情報算出部１５は、カウンタｉを１だけインクリメントする。

（ステップＳ２１４）類似情報算出部１５は、ｉ＋１番目の構成員に対応する音データが存在するかどうか判断する。そして、ｉ＋１番目の構成員に対応する音データが存在する場合には、ステップＳ２０２に戻り、そうでない場合には、図２のフローチャートに戻る。

なお、図３のフローチャートにおけるステップＳ２０４において、ｉ番目の構成員とｊ番目の構成員との少なくとの一方に対応する音データが抽出されたものである場合には、ステップＳ２０５に進むようにしてもよい。また、ｋ番目の区間の音データに抽出されたものと、抽出されなかったものとが混在する場合（例えば、前半の４割が抽出されたもので、後半の６割が抽出されなかったものである場合等）には、抽出された音データの割合が設定されたしきい値を超えているかどうかによって、そのｋ番目の区間の音データを抽出されたものとするかどうか決めてもよい。そのしきい値は、例えば、５割であってもよい。

図４は、図２のフローチャートにおける会話グループ情報の生成の処理（ステップＳ１０６）の詳細を示すフローチャートである。
（ステップＳ３０１）会話グループ情報蓄積部１６は、カウンタｉを１に設定する。

（ステップＳ３０２）会話グループ情報蓄積部１６は、カウンタｊをｉ＋１に設定する。

（ステップＳ３０３）会話グループ情報蓄積部１６は、カウンタｋを１に設定する。

（ステップＳ３０４）会話グループ情報蓄積部１６は、ｉ番目の構成員に対応するｋ番目の区間の抽出された音データと、ｊ番目の構成員に対応するｋ番目の区間の抽出された音データとが類似するかどうかを、両構成員のｋ番目の区間に対応する類似情報を用いて判断する。そして、両構成員のｋ番目の区間に対応する音データが抽出されたものでない場合や、両構成員のｋ番目の区間に対応する音データが抽出されたものであるが、両構成員のｋ番目の区間に対応する類似情報の示す類似性が高くない場合には、ステップＳ３０６に進み、そうでない場合、すなわち、両構成員のｋ番目の区間に対応する音データが抽出されたものであり、両構成員のｋ番目の区間に対応する類似情報の示す類似性が高い場合には、ステップＳ３０５に進む。具体的には、ｉ番目の構成員に対応するｋ番目の区間の音データと、ｊ番目の構成員に対応するｋ番目の区間の音データとについて、ステップＳ２０５で算出された類似情報が存在し、かつ、その類似情報によって類似性が高いことが示される場合に、ステップＳ３０５に進み、そうでない場合には、ステップＳ３０６に進む。なお、ステップＳ３０５に進む場合には、ｉ番目の構成員とｊ番目の構成員とは会話をしていることになる。

（ステップＳ３０５）会話グループ情報蓄積部１６は、ｋ番目の区間において、ｉ番目の構成員とｊ番目の構成員とを同じ会話グループに追加する。具体的には、会話グループ情報蓄積部１６は、ｋ番目の区間において、ｉ番目の構成員とｊ番目の構成員とのいずれかがすでに会話グループに所属しているかどうか検索し、所属している場合には、そのグループに、所属していない方の構成員を追加する。なお、両方とも所属している場合には、構成員の追加を行わない。一方、両方の構成員がいずれの会話グループにも所属していない場合には、両方の構成員を含む新たな会話グループを追加する。「構成員を会話グループに追加する」とは、その構成員の構成員識別情報を、その会話グループに対応付けて蓄積することであってもよい。

（ステップＳ３０６）会話グループ情報蓄積部１６は、ｉ番目の構成員に対応するｋ番目の区間の音データと、ｊ番目の構成員に対応するｋ番目の区間の音データとが類似するかどうかを、両構成員のｋ番目の区間に対応する類似情報を用いて判断する。ただし、両音データの少なくとも一方は、抽出されたものではないものとする。そして、両構成員のｋ番目の区間に対応する音データが抽出されたものである場合や、両構成員のｋ番目の区間に対応する音データの少なくとも一方が抽出されたものでないが、両構成員のｋ番目の区間に対応する類似情報の示す類似性が高くない場合には、ステップＳ３０８に進み、そうでない場合、すなわち、両構成員のｋ番目の区間に対応する音データの少なくとも一方が抽出されたものでなく、両構成員のｋ番目の区間に対応する類似情報の示す類似性が高い場合には、ステップＳ３０７に進む。具体的には、ｉ番目の構成員に対応するｋ番目の区間の音データと、ｊ番目の構成員に対応するｋ番目の区間の音データとについて、ステップＳ２０７で算出された類似情報が存在し、かつ、その類似情報によって類似性が高いことが示される場合に、ステップＳ３０７に進み、そうでない場合には、ステップＳ３０８に進む。なお、ステップＳ３０７に進む場合には、ｉ番目の構成員とｊ番目の構成員とは会話をしていないが、近い位置にいることになる。

（ステップＳ３０７）会話グループ情報蓄積部１６は、ｋ番目の区間において、ｉ番目の構成員とｊ番目の構成員とを同じ集合グループに追加する。具体的には、会話グループ情報蓄積部１６は、ｋ番目の区間において、ｉ番目の構成員とｊ番目の構成員とのいずれかがすでに集合グループに所属しているかどうか検索し、所属している場合には、そのグループに、所属していない方の構成員を追加する。なお、両方とも所属している場合には、構成員の追加を行わない。一方、両方の構成員がいずれの集合グループにも所属していない場合には、両方の構成員を含む新たな集合グループを追加する。

（ステップＳ３０８）会話グループ情報蓄積部１６は、カウンタｋを１だけインクリメントする。

（ステップＳ３０９）会話グループ情報蓄積部１６は、ｋ番目の区間が存在するかどうか判断する。そして、存在する場合には、ステップＳ３０４に戻り、そうでない場合には、ステップＳ３１０に進む。

（ステップＳ３１０）会話グループ情報蓄積部１６は、カウンタｊを１だけインクリメントする。

（ステップＳ３１１）会話グループ情報蓄積部１６は、ｊ番目の構成員に対応する音データが存在するかどうか判断する。そして、ｊ番目の構成員に対応する音データが存在する場合には、ステップＳ３０３に戻り、そうでない場合には、ステップＳ３１２に進む。

（ステップＳ３１２）会話グループ情報蓄積部１６は、カウンタｉを１だけインクリメントする。

（ステップＳ３１３）会話グループ情報蓄積部１６は、ｉ＋１番目の構成員に対応する音データが存在するかどうか判断する。そして、ｉ＋１番目の構成員に対応する音データが存在する場合には、ステップＳ３０２に戻り、そうでない場合には、図２のフローチャートに戻る。

図５は、図２のフローチャートにおける話者情報の生成の処理（ステップＳ１０９）の詳細を示すフローチャートである。
（ステップＳ４０１）話者情報蓄積部１９は、カウンタｋを１に設定する。

（ステップＳ４０２）話者情報蓄積部１９は、カウンタｉを１に設定する。

（ステップＳ４０３）話者情報蓄積部１９は、会話グループ情報を参照し、ｋ番目の区間のｉ番目の会話グループを構成する構成員を特定するための情報を読み出す。構成員を特定するための情報は、例えば、構成員識別情報であってもよい。

（ステップＳ４０４）話者情報蓄積部１９は、ステップＳ４０３で読み出した構成員を特定するための情報で特定される構成員に対応する音データを用いて、話者を決定する。例えば、話者情報蓄積部１９は、ステップＳ４０３で読み出した構成員識別情報に対応する音データのうち、大きい音圧の音データに対応する構成員を話者に決定する。

（ステップＳ４０５）話者情報蓄積部１９は、ステップＳ４０４で決定した話者を、ｋ番目の区間のｉ番目の会話グループに対応する話者として、話者情報記憶部２０に蓄積する。例えば、話者情報蓄積部１９は、その話者の構成員識別情報を、ｋ番目の区間のｉ番目の会話グループに対応する話者として、話者情報記憶部２０に蓄積してもよい。

（ステップＳ４０６）話者情報蓄積部１９は、カウンタｉを１だけインクリメントする。

（ステップＳ４０７）話者情報蓄積部１９は、ｋ番目の区間にｉ番目の会話グループが存在するかどうか判断する。そして、存在する場合には、ステップＳ４０３に戻り、そうでない場合には、ステップＳ４０８に進む。

（ステップＳ４０８）話者情報蓄積部１９は、カウンタｋを１だけインクリメントする。

（ステップＳ４０９）話者情報蓄積部１９は、ｋ番目の区間が存在するかどうか判断する。そして、存在する場合には、ステップＳ４０２に戻り、そうでない場合には、図２のフローチャートに戻る。

図６は、図２のフローチャートにおける関係情報の生成の処理（ステップＳ１１２）の詳細を示すフローチャートである。
（ステップＳ５０１）関係情報生成部２２は、カウンタｉを１に設定する。

（ステップＳ５０２）関係情報生成部２２は、会話グループ情報と、話者情報とを用いて、ｉ番目の会話グループの構成員の遷移と、各区間における話者の特定とを行う。例えば、ｉ番目の会話グループの最初の区間から順番に、隣接する区間の間で同一あるいは類似する会話グループを特定し、その同一あるいは類似する会話グループがなくなった時点でその処理を終了する。このようにして、ｉ番目の会話グループの構成員の遷移を知ることができる。なお、隣接する区間において、あらかじめ設定された割合以上の構成員が一致する場合に、会話グループが類似すると判断してもよい。また、そのようにして特定したｉ番目の会話グループの構成員の遷移と、話者情報とを用いることによって、各区間における話者を特定することが可能となる。

（ステップＳ５０３）関係情報生成部２２は、そのｉ番目の会話グループについて、各構成員の会話時間（会話グループに存在していた時間）や、発話時間（話者であった時間）等を算出する。

（ステップＳ５０４）関係情報生成部２２は、その算出した会話時間等を一時的に記憶する。

（ステップＳ５０５）関係情報生成部２２は、カウンタｉを１だけインクリメントする。

（ステップＳ５０６）関係情報生成部２２は、ｉ番目の会話グループが存在するかどうか判断する。そして、存在する場合には、ステップＳ５０２に戻り、そうでない場合には、図２のフローチャートに戻る。なお、ステップＳ５０２において、会話グループの構成員の遷移を調べる際に、特定されなかった会話グループが会話グループ情報に存在する場合には、ｉ番目の会話グループが存在することになる。そして、その特定されていない会話グループのうち、最も早い区間の会話グループから順番にたどることによって、会話グループの構成員の遷移を調べることになる。

ここで、処理単位時間ごとに音データの音圧の増減を求め、その増減のパターンの類似性に関する類似情報を算出する方法について説明する。図７は、ある区間における構成員Ａと、構成員Ｂとの音データの一例を示す図である。縦方向の帯は、１個の処理単位時間に対応する音圧を示すものである。その音圧は、例えば、その処理単位時間のある時点（始点や終点等）における音圧そのものであってもよく、その処理単位時間の全体の音圧を積分したものや、その全体の音圧の平均であってもよい。また、その処理単位時間ごとの音圧の下側に記載されている「Ｐ（プラス）」「Ｍ（マイナス）」は、その時点の音圧が、１個前の処理単位時間に対応する音圧に対して、増加したかどうかを示すものである。増加した場合には「Ｐ」が表示され、減少した場合には「Ｍ」が表示されている。図７で示される区間には、２４個の処理単位時間が含まれており、それらの区間のうち、１個の区間のみが異なっているため、構成員Ａの音データと、構成員Ｂの音データとの類似度は、約９６％となる。したがって、類似情報算出部１５は、類似情報「９６％」を生成することになる。このように、音圧の増減のパターンを用いて類似情報を算出する場合には、まず、ある区間における処理単位時間ごとの音圧の増減（前述の「Ｐ」「Ｍ」）を求め、次式によって類似情報を算出してもよい。

類似情報＝（音圧の増減の一致している処理単位時間の数）／（その区間の処理単位時間の総数）

また、図７で示されるように、表示されている区間の前半では、構成員Ａの音データのレベルの方が大きく、後半では、構成員Ｂの音データのレベルの方が大きくなっている。したがって、前半では、構成員Ａが話者であり、後半では、構成員Ｂが話者であることが分かる。

次に、本実施の形態による会話グループ把握装置１の動作について、具体例を用いて説明する。この具体例で、各構成員はある会社の社員であり、その職場での会話グループ情報を取得する場合について説明する。また、この具体例において、１個の区間は５秒であるとする。また、この具体例において、類似情報は、類似度そのものであるとする。

まず、各構成員である社員が職場に到着すると、襟元にワイヤレスマイクを装着する。そして、そのワイヤレスマイクによって取得され、送信された音データは、受付部１１で受信される（ステップＳ１０１）。そして、音データ蓄積部１２は、その受信された音データを順次、音データ記憶部１３に蓄積していく（ステップＳ１０２）。音データ蓄積部１２は、ワイヤレスマイクから送信されてくる音データのチャンネルと、構成員識別情報との対応を示す図示しない情報にアクセスすることができ、その情報を用いて、ワイヤレスマイクから送信された音データを、その音データに応じた構成員識別情報に対応付けて蓄積する。その結果、図８で示される情報が音データ記憶部１３に蓄積される。図８において、構成員識別情報と、音データとが対応付けられている。例えば、構成員識別情報Ｕ００１で識別される構成員（この構成員のことを、「構成員Ｕ００１」と呼ぶことがある。他の構成員についても同様であるとする）の装着したワイヤレスマイクで集音された音データは、「Ｍ００１．ｗａｖ」である。なお、各音データは、音データ記憶部１３に蓄積される際に、タイムコードが対応付けられているものとする。そのタイムコードは、相対的なもの、すなわち、録音開始からの時間を示すものであるとする。

夕方になり、録音が終了したタイミングで、類似情報算出部１５は、音データに関する解析を開始すると判断し（ステップＳ１０３）、音データ抽出部１４に音データの抽出をする旨を指示する。すると、音データ抽出部１４は、その指示に応じて、音データ記憶部１３から音データ「Ｍ００１．ｗａｖ」等を読み出して、あらかじめ決められた音圧を超える音圧の音データを抽出して類似情報算出部１５に渡す（ステップＳ１０４）。類似情報算出部１５は、そのようにして受け取った、抽出後の音データを、図示しない記録媒体で一時的に記憶する。

次に、類似情報算出部１５は、類似情報の算出を開始する（ステップＳ１０５）。まず、類似情報算出部１５は、構成員Ｕ００１の音データと、構成員Ｕ００２の音データとの１番目の区間であるタイムコード００：００：００〜００：００：０５の部分が、音データ抽出部１４から受け取った抽出後の音データにそれぞれ含まれるかどうか判断する（ステップＳ２０１〜Ｓ２０４）。この場合には、両者は抽出後の音データに含まれていたとする。すると、類似情報算出部１５は、それらの音データを読み出して、図７で説明したようにして類似情報を算出する（ステップＳ２０５）。その類似情報である類似度は、９２％であったとする。類似情報算出部１５は、その類似情報「９２％」を、タイムコード００：００：００〜００：００：０５と、構成員識別情報Ｕ００１、Ｕ００２とに対応付けて一時的に記憶する（ステップＳ２０６）。その後、類似情報算出部１５は、最後の区間まで、構成員識別情報Ｕ００１、Ｕ００２の音データの類似情報を算出すると共に、他の構成員間の類似情報も算出する（ステップＳ２０２〜Ｓ２１４）。その結果、一時的に記憶されている類似情報は、図９で示されるようになったとする。図９において、タイムコードごとに、２人の構成員間の類似情報が示されている。なお、類似情報において、「抽出」の列に含まれるものは、抽出後の音データを用いて算出された類似情報（すなわち、ステップＳ２０５で算出された類似情報）であり、「オリジナル」の列に含まれるものは、抽出前の音データを用いて算出された類似情報（すなわち、ステップＳ２０７で算出された類似情報）である。また、図９において、図面の表記上、タイムコードを「００：００」等と示しているが、本来は「００：００：００」等である。他のタイムコードについても同様であるとする。

次に、会話グループ情報蓄積部１６は、会話グループ情報の生成を開始する（ステップＳ１０６）。なお、この具体例において、類似情報が９０％以上である場合に、類似であると判断されるものとする。その会話グループ情報の生成において、まず、会話グループ情報蓄積部１６は、１番目の区間であるタイムコード００：００：００〜００：００：０５の部分の構成員Ｕ００１、Ｕ００２の抽出後の音データの類似情報が９０％以上かどうか判断する（ステップＳ３０１〜Ｓ３０４）。この場合には、図９で示されるように、９０％以上であるため、会話グループ情報蓄積部１６は、構成員識別情報Ｕ００１、Ｕ００２を対応付けて、会話グループに追加する（ステップＳ３０５）。具体的には、会話グループ情報蓄積部１６は、「（Ｕ００１、Ｕ００２）」を、会話グループ情報のタイムコード００：００：００〜００：００：０５の箇所であって、会話グループを示す箇所に蓄積する。その後、会話グループ情報蓄積部１６は、最後の区間まで、構成員Ｕ００１、Ｕ００２に関する類似情報を用いた会話グループ情報の生成を行い、また、他の構成員間の類似情報を用いた会話グループ情報の生成をも行う（ステップＳ３０２〜Ｓ３１３）。なお、例えば、１番目の区間において、構成員Ｕ００１、Ｕ００８の抽出後の音データの類似情報も９０％以上である場合には、会話グループ情報蓄積部１６は、その構成員識別情報Ｕ００１を検索キーとして、会話グループ情報の会話グループの箇所であって、１番目の区間に対応する箇所を検索する。すると、「（Ｕ００１、Ｕ００２）」がヒットするため、そのグループに、構成員識別情報Ｕ００８を追加する。その結果、その会話グループは、「（Ｕ００１、Ｕ００２、Ｕ００８）」となる。その後、構成員Ｕ００２、Ｕ００８に関する類似情報を用いた会話グループ情報の生成が行われる際には、新たな構成員識別情報の追加は行われない。すでに、構成員識別情報Ｕ００２、Ｕ００８が同じ会話グループとして蓄積されているからである。

その後、会話グループ情報蓄積部１６は、生成した会話グループ情報を会話グループ情報記憶部１７に蓄積する（ステップＳ１０７）。図１０は、そのようにして蓄積された会話グループ情報の一例を示す図である。図１０において、タイムコードごとに、会話グループと、集合グループとが示されている。各グループにおいて、括弧で括られた構成員識別情報が、１個の会話グループまたは集合グループに対応し、その各構成員識別情報が、その各グループに含まれる構成員に対応する構成員識別情報である。

会話グループ情報出力部１８は、会話グループ情報記憶部１７に蓄積された図１０で示される会話グループ情報をディスプレイに表示する（ステップＳ１０８）。その結果、会話グループ把握装置１の操作者は、会話グループ情報の内容について知ることができるようになる。

次に、話者情報蓄積部１９は、話者情報の生成を開始する（ステップＳ１０９）。具体的には、話者情報蓄積部１９は、図１０で示される会話グループ情報を参照し、１番目の区間であるタイムコード００：００：００〜００：００：０５の部分の１番目の会話グループ「（Ｕ００１、Ｕ００２、Ｕ００８）」を読み出す（ステップＳ４０１〜Ｓ４０３）。そして、各構成員識別情報に対応する１番目の区間の音データを読み出して、しきい値以上の音圧の音データを特定する。この場合には、構成員Ｕ００１の音データの音圧がしきい値以上であったとする。すると、その会話グループの話者は、構成員Ｕ００１となる（ステップＳ４０４）。そして、話者情報蓄積部１９は、１番目の区間の１番目の会話グループの話者に対応する構成員識別情報Ｕ００１を含む「（Ｕ００１）」を、その区間に対応付けて一時的に記憶する（ステップＳ４０５）。その後、話者情報蓄積部１９は、他の会話グループの話者の特定を行うと共に、最後の区間までその各会話グループの話者の特定を行うものとする（ステップＳ４０２〜Ｓ４０９）。

その後、話者情報蓄積部１９は、生成した話者情報を話者情報記憶部２０に蓄積する（ステップＳ１１０）。図１１は、そのようにして蓄積された話者情報の一例を示す図である。図１１において、タイムコードごとに、話者を識別する構成員識別情報である話者ＩＤが示されている。話者ＩＤにおいて、各グループが括弧で区別されている。また、通常、１個のグループに話者が一人であるため、１個の括弧には１個の構成員識別情報が含まれているだけである。一方、例えば、「（Ｕ００１、Ｕ００２）」のように、１個の括弧に２個以上の構成員識別情報が含まれている場合には、その構成員識別情報に対応する構成員による同時発話が行われていることになる。

話者情報出力部２１は、話者情報記憶部２０に蓄積された図１１で示される話者情報をディスプレイに表示する（ステップＳ１１１）。その結果、会話グループ把握装置１の操作者は、話者情報の内容について知ることができるようになる。

次に、関係情報生成部２２は、関係情報の生成を開始する（ステップＳ１１２）。具体的には、関係情報生成部２２は、図１０の会話グループ情報を参照し、１番目の会話グループ（Ｕ００１、Ｕ００２、Ｕ００８）を特定し、その会話グループが消滅するまで、タイムコードごとに、その会話グループを特定していく。その際に、会話グループに含まれる構成員識別情報がどれだけ変化したら同じグループと判断しないのかのしきい値があらかじめ決まっているものとする。この具体例では、６割以上の構成員識別情報が変化した場合には、同じグループではないと判断するものとする。例えば、会話グループ（Ｕ００１、Ｕ００２）が、（Ｕ００１、Ｕ００３）となった場合には、変化は５０％であるため、同じグループと判断されるものとする。一方、会話グループ（Ｕ００１、Ｕ００２、Ｕ００３）が、（Ｕ００１、Ｕ００４、Ｕ００５）となった場合には、変化は６７％であるため、同じグループと判断されないものとする。

また、関係情報生成部２２は、話者情報を参照し、特定した会話グループのタイムコードごとに、話者に対して、アスタリスク「＊」を付与していく。その結果、１番目の会話グループに関する情報は、図１２で示されるようになる。図１２において、タイムコードごとに、１番目の会話グループを構成する構成員の構成員識別情報が示されている。また、話者には、アスタリスクが付与されている。この情報によって、会話グループの構成員や話者の遷移を知ることができるようになる。また、関係情報生成部２２は、この情報を用いて、１番目の会話グループに関する各構成員の会話時間と、発話時間とを算出する。ある構成員の会話時間は、図１２のテーブルにおいて、その構成員の構成員識別情報が含まれるレコード数をカウントし、そのレコード数に５秒を掛けた値である。また、ある構成員の発話時間は、図１２のテーブルにおいて、その構成員の構成員識別情報にアスタリスクが付与されているものが含まれるレコード数をカウントし、そのレコード数に５秒を掛けた値である。構成員Ｕ００１の会話時間は１５分２５秒であり、発話時間は７分４５秒であったとする。すると、関係情報生成部２２は、それらの情報を用いて、構成員Ｕ００１の発話比０．５０を算出する。また、関係情報生成部２２は、同様にして、他の構成員の会話時間や発話時間、発話比も算出し（ステップＳ５０３）、それらの情報を図示しない記録媒体で一時的に記憶する（ステップＳ５０４）。その後、関係情報生成部２２は、２番目以降の他の会話グループについても、会話グループの遷移の特定や、話者の特定、各構成員の会話時間等の算出を行う（ステップＳ５０２〜Ｓ５０６）。そして、関係情報出力部２３は、そのようにして生成された関係情報を、ディスプレイに表示する（ステップＳ１１３）。その結果、会話グループ把握装置１の操作者は、どのようなグループが構成されているのか、各グループで主体的に発話しているのは誰か等について知ることができるようになる。

なお、この具体例において、関係情報生成部２２が、会話グループごとに会話時間や発話時間等を算出する場合について説明したが、関係情報生成部２２は、会話グループごとの会話時間や発話時間を用いて、構成員の傾向（例えば、ハブ傾向、スター傾向、孤立傾向、排斥傾向等）を示す関係情報を生成してもよい。具体的には、その傾向を識別する情報である傾向識別情報と、その傾向識別情報で識別される傾向に対応する会話時間や発話時間の条件を示す条件情報とを対応付ける情報が図示しない記録媒体で記憶されており、関係情報生成部２２は、ある構成員について、その構成員の会話時間等が満たす条件情報を特定し、その構成員が、その特定した条件情報に対応する傾向識別情報で識別される傾向を有する旨の関係情報を生成してもよい。そして、関係情報生成部２２は、その処理を、すべての構成員について行ってもよい。例えば、孤立傾向に対応する条件情報は、「他の多くの構成員（例えば、８割以上の構成員等）と、短い会話時間（例えば、平均の会話時間の３割以下等）しか会話していない」であってもよい。

また、この具体例では、会話グループ情報の会話グループに関する情報のみを用いて関係情報を生成する場合について説明したが、そうでなくてもよい。会話グループ情報の集合グループに関する情報をも用いて、関係情報を生成してもよい。その関係情報は、例えば、集合グループの構成員の遷移を示すものであってもよく、集合時間（構成員がある集合に属していた時間）であってもよく、その他の情報であってもよい。また、会話グループ情報の集合グループに関する情報が、前述の構成員の傾向を示す関係情報の生成の際に用いられてもよい。

以上のように、本実施の形態による会話グループ把握装置１によれば、会話グループ情報によって、どの構成員同士で会話を行っているのかを容易に知ることができるようになる。また、話者情報によって、各グループにおいて、どの構成員が話者であるのかを容易に知ることができるようになる。また、関係情報によって、グループを構成する構成員の遷移や、構成員ごとの会話時間、発話時間、発話比等について知ることができるようになる。また、会話グループ情報等を自動的に生成することができるため、その情報が客観的なものとなると共に、構成員間の人間関係に悪影響を及ぼすことなく、会話グループ情報等を取得することができる。さらに、ロボットを用いなくても、構成員間の関係について知ることができるため、ロボットに興味のない構成員についても、関係情報等を取得することができることになる。

なお、本実施の形態では、構成員の位置において取得された音データが音データ記憶部１３に蓄積され、継続して記憶される場合について説明したが、そうでなくてもよい。例えば、構成員の位置において取得された音データが、あらかじめ外部の録音機器等で録音され、その録音された音データが受付部１１で受け付けられた場合には、音データ記憶部１３での音データの記憶は、類似情報の算出や、話者情報の生成がなされるまでの一時的な記憶であってもよい。

また、本実施の形態では、会話グループ情報を用いて、あるいは、会話グループ情報と話者情報とを用いて、関係情報を生成する場合について説明したが、関係情報生成部２２は、話者情報を用いて関係情報を生成してもよい。

また、本実施の形態では、関係情報を生成し、出力する場合について説明したが、そうでなくてもよい。関係情報の生成や出力を行わない場合には、会話グループ把握装置１は、関係情報生成部２２や関係情報出力部２３を備えていなくてもよい。

また、本実施の形態では、話者情報を蓄積する場合について説明したが、そうでなくてもよい。話者情報の蓄積を行わない場合には、会話グループ把握装置１は、話者情報蓄積部１９や、話者情報記憶部２０、話者情報出力部２１を備えていなくてもよい。

また、本実施の形態では、音データ抽出部１４が抽出しなかった音データをも用いて、集合グループを特定する場合について説明したが、集合グループの特定を行わなくてもよい。その場合には、抽出されなかった音データを用いた類似情報の算出を行わなくてもよい。

また、本実施の形態では、音データ抽出部１４が抽出した音データについて類似情報を算出する場合について説明したが、そうでなくてもよい。音データ抽出部１４が抽出した音データについて類似情報を算出しない場合には、会話グループ把握装置１は、音データ抽出部１４を備えていなくてもよい。その場合には、類似情報算出部１５は、音データ記憶部１３で記憶されている音データのみから類似情報を算出することになる。

また、上記実施の形態では、会話グループ把握装置１がスタンドアロンである場合について説明したが、会話グループ把握装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、受付部や出力部は、通信回線を介して入力を受け付けたり、情報を出力したりしてもよい。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記実施の形態において、会話グループ把握装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における会話グループ把握装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付部、受付部が受け付けた音データを蓄積する音データ蓄積部、音データ蓄積部が蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出部、類似情報算出部が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積部、として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバ等からダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭ等の光ディスクや磁気ディスク、半導体メモリ等）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１３は、上記プログラムを実行して、上記実施の形態による会話グループ把握装置１を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１３において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１４は、コンピュータシステム９００の内部構成を示す図である。図１４において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態による会話グループ把握装置１の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態による会話グループ把握装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による会話グループ把握装置等によれば、どの構成員同士で会話を行っているのかを知ることができ、その結果、構成員の関係を正確に把握することができるという効果が得られ、そのような情報を自動的に取得する装置等として有用である。

１会話グループ把握装置
１１受付部
１２音データ蓄積部
１３音データ記憶部
１４音データ抽出部
１５類似情報算出部
１６会話グループ情報蓄積部
１７会話グループ情報記憶部
１８会話グループ情報出力部
１９話者情報蓄積部
２０話者情報記憶部
２１話者情報出力部
２２関係情報生成部
２３関係情報出力部

Claims

組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付部と、
前記受付部が受け付けた音データを蓄積する音データ蓄積部と、
前記音データ蓄積部が蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報算出部が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積部と、を備えた会話グループ把握装置。
前記音データ蓄積部は、前記受付部が受け付けた音データのうち、処理の単位となる時間である処理単位時間ごとに、所定の割合の時間の音データを蓄積する、請求項１記載の会話グループ把握装置。
前記音データ蓄積部が蓄積した音データから、所定の音圧を超える音圧の音データを抽出する音データ抽出部をさらに備え、
前記類似情報算出部は、前記音データ抽出部が抽出した音データを用いて類似情報を算出する、請求項１または請求項２記載の会話グループ把握装置。
前記類似情報算出部は、処理の単位となる時間である処理単位時間ごとに、音データの音圧の増減を求め、当該音圧の増減の類似性に関する類似情報を算出する、請求項１から請求項３のいずれか記載の会話グループ把握装置。
会話グループ情報に含まれる構成員識別情報で識別される複数の構成員にそれぞれ対応する音データのうち、大きい音圧の音データに対応する構成員の構成員識別情報を有する話者情報を蓄積する話者情報蓄積部をさらに備えた、請求項１から請求項４のいずれか記載の会話グループ把握装置。
前記会話グループ情報蓄積部が蓄積した会話グループ情報を用いて、構成員の関係を示す関係情報を生成する関係情報生成部と、
前記関係情報生成部が生成した関係情報を出力する関係情報出力部と、をさらに備えた、請求項１から請求項５のいずれか記載の会話グループ把握装置。
前記関係情報は、一の構成員が他の構成員と会話している時間に関する情報である、請求項６記載の会話グループ把握装置。
前記関係情報は、会話グループ情報に含まれる構成員識別情報の時間的な遷移を示す情報である、請求項６記載の会話グループ把握装置。
受付部と、音データ蓄積部と、類似情報算出部と、会話グループ情報蓄積部とを用いて処理される会話グループ把握方法であって、
前記受付部が、組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付ステップと、
前記音データ蓄積部が、前記受付ステップで受け付けた音データを蓄積する音データ蓄積ステップと、
前記類似情報算出部が、前記音データ蓄積ステップで蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出ステップと、
前記会話グループ情報蓄積部が、前記類似情報算出ステップで算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積ステップと、を備えた会話グループ把握方法。
コンピュータを、
組織を構成する構成員の位置において取得された音データを、構成員ごとに受け付ける受付部、
前記受付部が受け付けた音データを蓄積する音データ蓄積部、
前記音データ蓄積部が蓄積した構成員ごとの音データ間の類似性に関する情報である類似情報を算出する類似情報算出部、
前記類似情報算出部が算出した類似情報を用い、類似性の高い複数の音データにそれぞれ対応する複数の構成員の構成員識別情報を有する会話グループ情報を蓄積する会話グループ情報蓄積部、として機能させるためのプログラム。