JP2008242318A

JP2008242318A - 対話を検出する装置、方法およびプログラム

Info

Publication number: JP2008242318A
Application number: JP2007085983A
Authority: JP
Inventors: Masayuki Okamoto; 昌之岡本; Naoki Iketani; 直紀池谷; Hideo Umeki; 秀雄梅木; Sougo Tsuboi; 創吾坪井; Kenta Cho; 健太長; Yoshiaki Nishimura; 圭亮西村; Masanori Hattori; 正典服部
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-09
Anticipated expiration: 2027-03-28
Also published as: US8306823B2; US20080243494A1; JP4364251B2

Abstract

【課題】音声情報を用いてユーザ間の対話を検出する対話検出装置を提供する。
【解決手段】ユーザを識別するユーザＩＤと、端末２００で取得された音声と、音声の発話期間とを端末２００から受付ける音声受付部１０３と、複数の端末２００から受付けた音声間の相関関係を表す相関値を算出して予め定められた第１閾値と比較し、相関値が第１閾値より大きい場合に、相関値を算出した音声を受付けた複数の端末２００が互いに近接すると判定する近接判定部１０４と、対話の検出対象とする任意の対象期間内における、近接すると判定された複数の端末２００から受付けた発話期間の関係が、予め定められた規則に適合するか否かを判定し、規則に適合すると判定されたときの対象期間と、近接すると判定された複数の端末２００から受付けたユーザＩＤとを含む対話情報を検出する対話検出部１０５と、を備えた。
【選択図】図１

Description

この発明は、複数の入力音声から対話を検出する装置、方法およびプログラムに関するものである。

近年、ユーザ間の会話や多数のユーザが参加する会議などを含むコミュニケーションで、音声・画像・映像の入力機器・センサやディスプレイ機器、またはパーソナルコンピュータ等の電子情報操作機器を活用する機会が増加している。例えば、プロジェクターやパーソナルコンピュータのモニターなどを用いてプレゼンテーションデータを投影し、説明や議論で参照するような利用形態が挙げられる。また、電子ホワイトボードを利用する形態では、電子ホワイトボード上で操作されたペンや指先の位置を検出することでプレゼンテーション情報に対して書き込みを行うこともできる。

このようなコミュニケーション活動の後、またはコミュニケーション活動中に、ある日時に誰と会話したか、前回ある人と会話したのはいつだったか、またはある資料を誰に対して見せたかなどのように、過去のコミュニケーション内容を手掛かりに資料を探すことや、会話・コミュニケーション自体の有無を振り返ったりすることが必要となる場合がある。

このような作業を行うためには、まずコミュニケーションの発生自体を検出する必要がある。これに対して、例えば、互いに通信する機能を備えた端末を用いて、通信可能となったか否かを検出する方法の適用が考えられる。しかし、この方法では、端末同士が近くに存在することは検出できるが、端末を用いて実際にコミュニケーションを行っているか否かは判別できない。

すなわち、この方法では「ある日時に誰が近くにいたか」、「ある人が前回近くにいたのはいつだったか」、または「ある資料を開いた時近くにいたのは誰だったか」という情報は検出可能だが、本来の目的であるコミュニケーションの検出は実現できない。また、居室や会議室などの設備が整っている環境ではなく、廊下での立ち話といった場合には、通信機能を有する設備や端末が存在するとは限らないため、コミュニケーションの検出だけでなく、近くにいることも検出できない。

一方、コミュニケーション状況の管理方法に関しては、主に会議などのコミュニケーションの後で、そのコミュニケーションに関連する資料・オブジェクトを管理する技術や、資料の容易な検索を目指した技術が多数提案されている。

例えば、特許文献１では、作業やコミュニケーション中に利用された情報と関連されたデータをまとめて管理する技術が提案されている。特許文献１の方法では、業務に関連する当事者の位置、時刻、業務内容、情報保管先などのさまざまな情報を関連づけてワークヒストリとして記録することにより、業務に関連する情報の内容を把握するときの操作性の向上等を実現している。

特開２００４−３０２９３号公報

しかしながら、特許文献１の方法では、多数の情報を入力して関連づける必要があるため処理負担が大きいという問題があった。また、音声を入力しているが、単に他の情報と関連づけて記録するのみであるため、音声から対話を検出することができないという問題があった。その結果、対話状況を手がかりに情報の検索を行うことができなかった。

本発明は、上記に鑑みてなされたものであって、各ユーザが所有する端末で容易に取得可能な音声情報を用いてユーザ間の対話を検出することができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、ユーザの音声を取得可能な複数の端末に接続され、前記端末を利用するユーザ間の対話に関する対話情報を検出する対話検出装置であって、前記端末を識別する端末ＩＤと、前記端末で取得された音声および前記音声の発話期間とを複数の前記端末から受付ける音声受付部と、複数の前記端末から受付けた音声間の相関関係を表す相関値を算出して予め定められた第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した複数の音声を受付けた複数の前記端末が互いに近接すると判定する近接判定部と、対話の検出対象とする任意の対象期間内における、近接すると判定された複数の前記端末から受付けた発話期間の関係が、予め定められた規則に適合するか否かを判定し、前記規則に適合すると判定されたときの前記対象期間と、近接すると判定された複数の前記端末から受付けた前記端末ＩＤとを含む前記対話情報を検出する対話検出部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、各ユーザが所有する端末で容易に取得可能な情報である音声情報を用いてユーザ間の対話を検出することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる対話検出する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる対話検出装置は、各ユーザが利用する端末それぞれで取得された音声を入力し、入力した音声間の関係を解析することにより、ユーザ間の対話を検出するものである。

図１は、第１の実施の形態にかかる対話検出装置１００の構成を示すブロック図である。図１に示すように、対話検出装置１００は、インターネット、ＬＡＮ（Local Area Network）などのネットワーク３００を介して、複数の端末２００ａ、２００ｂ（以下、端末２００という）と接続されている。なお、ネットワーク３００の形態は上記に限られず、また、有線、無線を問わない。

端末２００は、図示しないマイクなどによりユーザの音声を入力し、入力した音声を対話検出装置１００に送信する機能を備えている。端末２００は、例えば、マイクなどの音声取得部を備えた携帯型のＰＣ（Personal Computer）、携帯電話、ボイスレコーダなどのモバイル・ハンドヘルド機器により構成することができる。

第１の実施の形態の対話検出装置１００は、各端末２００から入力された音声を元に対話を検出する機能を備えたサーバ装置である。対話検出装置１００は、スケジュール記憶部１３１と、音声記憶部１３２と、対話記憶部１３３と、通信部１２１と、スケジュール受付部１０１と、操作受付部１０２と、音声受付部１０３と、近接判定部１０４と、対話検出部１０５とを備えている。

スケジュール記憶部１３１は、各端末２００から入力されたユーザの行動の予定を表すスケジュール情報を記憶するものである。図２は、スケジュール記憶部１３１に記憶されるスケジュール情報のデータ構造の一例を示す説明図である。図２に示すように、スケジュール情報は、会議の開始日時と、会議の終了日時と、会議名称と、会議が実施される場所と、会議の参加者であるユーザを識別するユーザＩＤのリストとを含む。

なお、同図では会議に関する予定をスケジュール情報として記憶した例を示したが、ユーザの行動の予定を表すものであればスケジュール情報としてあらゆる情報を利用できる。スケジュール記憶部１３１は、後述する近接判定部１０４が、相互相関値の算出対象とするユーザを決定するときに参照される。

音声記憶部１３２は、音声受付部１０３から受付けた音声に関連する音声情報を格納するものである。本実施の形態では、音声記憶部１３２は、さらに操作受付部１０２から受付けた操作情報を音声情報に対応づけて格納する。

図３は、音声記憶部１３２に格納される音声情報のデータ構造の一例を示す説明図である。図３に示すように、音声情報は、音声を入力した端末２００を利用するユーザのユーザＩＤと、音声の発話期間の開始日時と、発話期間の終了日時と、音声の電気信号である音声データと、会議名称と、音声に関連して参照された資料を識別する資料ＩＤと、参照資料名とを含む。なお、入力元を特定する情報として、ユーザＩＤの代わりに端末を識別する端末ＩＤを用いるように構成してもよい。

音声データとしては、発話期間中の音声レベル（音量）の変化を表すデータを記憶する。なお、音声データとして、音声信号自体、またはその他の音声に関する特徴量を入力して音声記憶部１３２に記憶するように構成してもよい。

本実施の形態では、各端末２００から対話検出装置１００への各種情報の入力が同時に行われるとは限らないため、情報を一時的に格納する構成部として音声記憶部１３２を用いる。端末２００から情報がリアルタイムに入力される場合は、音声記憶部１３２を備えないように構成してもよい。

対話記憶部１３３は、対話検出部１０５によって検出された対話に関する対話情報を格納するものである。図４は、対話記憶部１３３に格納される対話情報のデータ構造の一例を示す説明図である。図４に示すように、対話情報は、対話の開始日時と、対話の終了日時と、対話に参加したユーザのユーザＩＤのリストである対話参加者と、資料を利用したユーザのユーザＩＤである資料利用者と、参照資料名とを含む。なお、資料利用者および参照資料名は、資料が参照されなかった場合には設定されない。また、その他の操作情報を対話情報にさらに含むように構成してもよい。

スケジュール記憶部１３１、音声記憶部１３２、および対話記憶部１３３は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

図１に戻り、通信部１２１は、端末２００との間の情報の送受信を行うものである。通信部１２１は、有線ＬＡＮ、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈなどの利用するネットワーク形態に応じたインタフェース機能を備えている。

スケジュール受付部１０１は、通信部１２１を介して、端末２００からスケジュール情報の入力を受付けるものである。本実施の形態では、装置起動直後など、コミュニケーション開始前までにスケジュール情報の入力を受付ける。なお、入力タイミングはこれに限られず、任意のタイミングでスケジュール情報を入力するように構成してもよい。

操作受付部１０２は、ユーザによる端末２００上の操作内容を表す操作情報の入力を、通信部１２１を介して端末２００から受付けるものである。操作受付部１０２は、例えば、端末２００で実行中のアプリケーション上で検出されたキーイベント等によって表される操作情報や当該アプリケーションで表示している資料に関する情報の入力を受付ける。また、操作受付部１０２は、例えば、端末２００に備えられた図示しないキーボード・マウスなどのヒューマンインタフェースデバイスによる操作内容を表す操作情報の入力を受付ける。操作情報には、入力元を特定するためのユーザＩＤおよび操作日時も含まれる。

音声受付部１０３は、一定以上の音声が発生した区間（発話期間）における音声データを含む音声情報を各端末２００から受付けるものである。なお、音声情報は、音声データと、音声データの発話期間と、入力元を特定する情報として端末２００を利用するユーザのユーザＩＤとが含まれる。なお、操作受付部１０２で操作情報を受付ける代わりに、操作情報を事前に対応づけた音声情報を音声受付部１０３が受付けるように構成してもよい。

近接判定部１０４は、各端末２００から受付けられた音声データを解析することにより、各端末２００が互いに近接するか否かを判定するものである。具体的には、近接判定部１０４は、任意の２つの端末２００から受付けた音声データ間の相関関係を表す相互相関値を算出し、相互相関値が予め定められた閾値より大きい場合に、当該２つの端末２００が相互に近接すると判定する。ここで、近接するとは、物理的に近接する場合だけでなく、遠隔会議のように実際の距離は離れていても会話可能な距離にいる場合も含む。なお、音声データ間の相関関係を表す指標は相互相関値に限られるものではなく、従来から用いられているあらゆる相関関係の算出指標を適用できる。相互相関値の算出方法については後述する。

対話検出部１０５は、互いに近接すると判定された端末２００から受付けた音声を対象として、当該音声が対話を構成しているか否かを検出するものである。対話検出部１０５は、複数の音声の発話期間相互の関係が、対話を構成する音声の発話期間の発生パターンを表す所定の規則を満たすか否かを判断することにより、複数の音声が対話を構成するか否かを判定する。対話を検出した場合、対話検出部１０５は、検出した対話の期間（開始日時、終了日時）と、対話を構成する音声を発話したユーザのユーザＩＤのリストである対話参加者とを含む対話情報を生成して、対話記憶部１３３に保存する。

次に、このように構成された第１の実施の形態にかかる対話検出装置１００による対話検出処理について図５を用いて説明する。図５は、第１の実施の形態における対話検出処理の全体の流れを示すフローチャートである。

なお、以下では、コミュニケーション中に継続的に各端末２００から音声情報等が入力されることを前提として説明する。これに対し、コミュニケーション中にはネットワーク３００に接続されず、音声情報は各端末２００上に記録し、後で端末２００がネットワーク３００に接続された時にタイムスタンプと合わせて対話検出装置１００に音声情報を送信することにより、事後的に対話検出処理を行うように構成してもよい。

まず、装置の起動開始とともに、スケジュール受付部１０１が通信部１２１を介して端末２００からスケジュール情報の入力を受付ける（ステップＳ５０１）。また、起動開始とともに、音声の入力および操作情報の入力も開始される。

すなわち、操作受付部１０２が通信部１２１を介して端末２００から操作情報の入力を受付ける（ステップＳ５０２）。また、音声受付部１０３が通信部１２１を介して端末２００から音声情報の入力を受付ける（ステップＳ５０３）。

次に、近接判定部１０４が、複数の端末２００が近接するか否かを判定する近接判定処理を実行する。まず、近接判定部１０４は、スケジュール記憶部１３１を参照し、スケジュールが共通するユーザとして、会議参加者のユーザＩＤリストから各ユーザＩＤを取得する。そして、近接判定部１０４は、受付けた音声情報のうち、スケジュールが共通するユーザのユーザＩＤに対応する音声情報について、音声データの相互相関値を算出する（ステップＳ５０４）。

以下に、相互相関値の算出方法について図６を用いて説明する。以下では、ユーザＡとユーザＢとがコミュニケーションを行っている場合を例に説明する。図６は、音声の相関関係の算出方法を概念的に示した説明図である。

同図に示すように、時刻ｔ_ＡにユーザＡがユーザＢに話しかけた場合、ユーザＡが所有する端末２００にはユーザＡの音声６０１が入力される。このとき、ユーザＢが近くにいる場合は、時刻ｔ_Ａ+ｄ_ＡＢ／ｖ（ｄ_ＡＢはユーザＡとユーザＢとの間の距離、ｖは音速）後に、ユーザＢが所有する端末２００にもユーザＡの音声６０２が距離や入力角度などによる減衰を経て入力される。

同様に、ユーザＢがユーザＡに話しかける場合にも、ユーザＢ、ユーザＡそれぞれの所有する端末２００に音声が入力される。この場合は、ユーザＡ側の端末２００に減衰したユーザＢの音声が入力される。

このとき、ユーザＡおよびユーザＢが所有する端末２００間の距離が近ければ、それぞれの端末２００に入力される音声レベルには相関関係が生じる。したがって、それぞれの端末２００に入力される音声の相互相関値（同図ではｒ_Ａ→Ｂ）を算出し、算出した相互相関値が所定の閾値ｒ_ｔｈより大きい場合に、ユーザＡおよびユーザＢが所有する端末２００は近くに存在する可能性が高いと判定することができる。

次に、相互相関値の算出方法の詳細について説明する。音声レベルの変化を表す２つの波形ｆ（ｔ）およびｇ（ｔ）について、波形ｇが波形ｆより時刻ｍだけ遅れる場合の、区間Ｎにおける両波形間の相関の強さを表す相互相関値Ｃ_ｆｔ（ｍ）は以下のように算出される。

まず、区間Ｎ全体における波形ｆおよび波形ｇの平均値を表す平均ｆ_ａｖｅおよびｇ_ａｖｅはそれぞれ以下の（１）式および（２）式によって表される。

次に、算出した平均で補正した波形をそれぞれｆ’（ｔ）=ｆ（ｔ）−ｆ_ａｖｅおよびｇ’（ｔ）＝ｇ（ｔ）−ｇ_ａｖｅと表すと、相互相関値Ｃ_ｆｔ（ｍ）は、以下の（３）式によって求めることができる。

さらに、区間を−１から１の範囲で扱うために、規格化相互相関Ｒ_ｆｔ（ｍ）を以下の（４）式によって算出する。ここで、（４）式中のＣ_ｆｆ（０）およびＣ_ｇｇ（０）はそれぞれ（５）式および（６）式で表される。

このとき、例えばＮを５秒とし、Ｒ_ｆｔ（ｍ）を最大化するようなｍを算出し、その時のＲ_ｆｔ（ｍ）が所定の閾値として例えば０．５より大きい場合に、同じ音声が２つの端末２００に入力されたと判断することができる。そして、この場合に当該２つの端末２００が近接すると判定することができる。なお、Ｎ（５秒）や閾値（０．５）の値は一例であり、この数値に限られるものではない。

このような相関関係の算出を全てのユーザの組合せに対して行うのでは組み合わせの数が大きくなるおそれがある。このため、本実施の形態では、ステップＳ５０４で説明したように、スケジュール情報を活用することにより組合せの範囲を限定している。すなわち、スケジュール情報の会議参加者として記録されているユーザ間で音声の相関関係を算出する。

なお、組合せの範囲の限定方法はこれに限られず、同一ネットワーク内のユーザ、同一部署のユーザの組合せに限定する方法など、近接する可能性があるユーザの組合せに限定する方法であればあらゆる方法を適用できる。また、組合せを限定するだけでなく、所定の条件を満たすユーザに対して優先順位を付与して優先順位にしたがって音声間の相関関係を算出するように構成してもよい。

図５に戻り、ステップＳ５０４で上記のような方法で相互相関値を算出した後、近接判定部１０４は、端末２００間の距離が近いか否かを、相互相関値が所定の閾値（例えば０．５）より大きいか否かによって判断する（ステップＳ５０５）。

端末２００間の距離が近くない場合は（ステップＳ５０５：ＮＯ）、操作情報の受付処理に戻って処理を繰り返す（ステップＳ５０２）。なお、近接判定部１０４は、すべてのユーザの組合せについて相互相関値を算出して対応する端末２００間の距離を判定し、いずれの端末２００間についても距離が近いと判定されない場合に、ステップＳ５０２に戻って処理を繰り返す。

端末２００間の距離が近い場合は（ステップＳ５０５：ＹＥＳ）、対話検出部１０５が、近いと判断された端末２００それぞれから入力された音声が対話を構成するか否かを判定する（ステップＳ５０６〜ステップＳ５０９）。

ここで、対話検出部１０５による判定処理の詳細について説明する。上述のように、ユーザＡがユーザＢに話しかける場合はユーザＢの端末２００に入力される音声はユーザＡの端末２００に入力される音声よりも音量の減衰が大きく、ユーザＢがユーザＡに話しかける場合はその逆となる。これにより、対話検出部１０５は、相関のある音声のうち、いずれがユーザＡによる発話でどちらがユーザＢによる発話かを識別することができる。

図７は、このようにして得られたユーザごとの発話期間の一例を示す模式図である。図７は、互いに近接するユーザＡ、ユーザＢおよびユーザＣのうち、ユーザＡおよびユーザＢが対話しているが、ユーザＣは、ユーザＡおよびユーザＢのいずれとも対話していない場合の各ユーザの発話期間の関係を表している。

本実施の形態では、対話検出部１０５は、一定時間内に発話が所定値（例えば８０％）以上の割合で発生し、また発話期間全体のうち、ユーザＡの発話またはユーザＢの発話に分類できる期間が所定値（例えば８０％）以上の割合である場合に、ユーザＡとユーザＢとがコミュニケーションを行っていると判定する。

言い換えると、対話検出部１０５は、一定時間内に発話が存在しない期間である無発話期間の割合が所定値（例えば２０％）未満であり、ユーザＡおよびユーザＢの総発話期間に対するユーザＡおよびユーザＢの発話が重複する重複期間の割合が所定値（例えば２０％）未満の場合に、ユーザＡとユーザＢとがコミュニケーションを行っていると判定する。

図７の例では、ユーザＣの発話期間と、ユーザＡまたはユーザＢの発話期間とは、上記条件を満たさないため、ユーザＣとユーザＡとの間、およびユーザＣとユーザＢとの間ではコミュニケーションが行われていないと判定される。例えば、ユーザＡとユーザＣとが偶発的に近い距離にいるが、会話は行っていない場合に、このような状況が生じうる。

なお、上記所定値の数値は一例であり、用途に応じて他の数値を設定するように構成してもよい。また、対話を検出するための規則は上記に限られるものではなく、対話を構成する音声の発話期間の発生パターンを判定するものであれば、あらゆる規則を用いることができる。

例えば、上記条件のうち、発話の発生割合、または発話の分類の条件のいずれか一方だけを用いてもよい。また、それぞれの端末２００に入力される音声が一定以上離れた場所からは入力されないことが期待できる場合、上述の発話の発生割合や発話の分類に関する条件を利用せずに、相関関係が閾値以上であるという条件だけで対話の有無を判定するように構成してもよい。

図５に戻り、対話検出部１０５による判定処理の処理フローを説明する。まず、対話検出部１０５は、近接すると判定された端末２００に対応するユーザのうち、任意の２ユーザ（ユーザＡ、ユーザＢとする）について、対話の検出対象である任意の対象期間内の無発話期間の割合を算出する（ステップＳ５０６）。

次に、対話検出部１０５は、ユーザＡおよびユーザＢのいずれかの発話が存在する期間を表す総発話期間に対する、ユーザＡおよびユーザＢの発話の重複期間の割合を算出する（ステップＳ５０７）。

次に、対話検出部１０５は、無発話期間の割合が所定値２０％より小さく、かつ、重複期間の割合が所定値２０％より小さいか否かを判断する（ステップＳ５０８）。無発話期間の割合が所定値２０％より小さく、かつ、重複期間の割合が所定値２０％より小さい場合以外は（ステップＳ５０８：ＮＯ）、操作情報の受付処理に戻って処理を繰り返す（ステップＳ５０２）。

無発話期間の割合が所定値２０％より小さく、かつ、重複期間の割合が所定値２０％より小さい場合は（ステップＳ５０８：ＹＥＳ）、対話検出部１０５は、対象期間にユーザＡおよびユーザＢが対話していると判定し、対話情報を生成する（ステップＳ５０９）。

対話情報には、対象期間の開始日時、対象期間の終了日時、および対話参加者（ユーザＡおよびユーザＢ）を少なくとも含む。対話検出部１０５は、ステップＳ５０２で受付けた操作情報内の操作日時が対象期間内に含まれる場合は、操作情報を対応づけた対話情報を生成するように構成してもよい。

次に、対話検出部１０５は、生成した対話情報を対話記憶部１３３に保存する（ステップＳ５１０）。なお、対話検出部１０５が操作情報を含む対話情報を検出するのではなく、任意のタイミングで、例えば操作受付部１０２により、受付けた操作情報を対話情報に対応づけて保存するように構成してもよい。

次に、図示しない制御部によって装置の終了指示があったか否かが判断され（ステップＳ５１１）、終了指示がない場合は（ステップＳ５１１：ＮＯ）、操作情報の受付処理に戻って処理を繰り返す（ステップＳ５０２）。終了指示があった場合は（ステップＳ５１１：ＹＥＳ）、対話検出処理が終了される。

このような処理により、各端末２００で容易に取得することのできる音声情報を用いて、各端末２００を利用するユーザ間のコミュニケーション（対話）を検出し、履歴として対話記憶部１３３に保存することができる。また、関連する資料名等の操作情報が存在する場合は、操作情報も対応づけて対話記憶部１３３に保存することができる。このためユーザは、コミュニケーション状況の検索や、コミュニケーション状況を手がかりとした関連情報の検索を行うことが可能となる。

図８は、保存された対話情報を利用して資料等を検索する場合の検索画面の一例を示す説明図である。図８に示すように、本実施の形態では、会議等の場所、コミュニケーションの相手、コミュニケーションの状況、およびコミュニケーションが行われた日時などを検索キーとして資料を検索することができる。なお、検索キーはこれに限られるものではなく、会議名称、資料ＩＤなど、対話記憶部１３３に記憶されるその他の項目を検索キーとして指定するように構成してもよい。

同図では、あるユーザが、対話相手であるユーザのユーザ名８０１と、「資料を提示された」に対応する状況８０２とを入力し、検索ボタン８０３を押下して検索した場合の検索結果の一例が示されている。これにより、ユーザは、コミュニケーションで参照されたファイルを特定するＩＤ「abc」を取得し、取得したＩＤを用いて対話相手のユーザに問い合わせを行うことが可能となる。

図９は、問い合わせを行うための問い合わせ画面の一例を示す説明図である。図９は、電子メールを用いた問い合わせを行う問い合わせ画面の例を示している。同図では、ファイルのＩＤを「docid:」というプレフィックスの後に示すことで、ファイルへの参照であることを伝達可能としている。

なお、ここまでは２ユーザ（ユーザＡおよびユーザＢ）間の対話の検出を例に説明したが、３人以上のユーザ間の対話の有無を検出することも可能である。例えば、上述の図７の例では、ユーザＡ、ユーザＢ、およびユーザＣのそれぞれの組み合わせを総合することで、当該３ユーザのコミュニケーションの有無を検出可能である。また、任意の２ユーザの組み合わせで判定すると発話期間の割合が少ない場合であっても、３人以上のユーザの発話期間を対象として、総発話期間に対する発生比率と発話期間の重なりの比率を算出することで、３人以上のユーザ間のコミュニケーション状態を検出することができる。

このように、第１の実施の形態にかかる対話検出装置では、各ユーザが利用する各端末で容易に取得可能な音声間の関係を解析することにより、ユーザ間の対話を検出することができる。これにより、通信設備が充分な会議室での会話だけでなく、通信設備が充分でない場所で偶発的に行われる会話のように小規模な会話も検出することができる。また、音声情報の関係から会話を検出可能であるため、音声情報から音声認識を行い、認識結果を解析して会話を検出する方法と比較して処理負担を軽減できる。

（第２の実施の形態）
第１の実施の形態では、サーバ装置である対話検出装置内で対話検出処理に関するすべての処理を実行していた。これに対し、第２の実施の形態にかかる対話検出装置は、各端末内に対話検出機能を備え、端末間で送受信した音声情報を元に各端末内で個別に対話検出処理を実行可能とするものである。

図１０は、第２の実施の形態にかかる対話検出装置１０００の構成を示すブロック図である。なお、本実施の形態では、対話検出装置１０００は、第１の実施の形態の端末２００のように、マイクなどを備えた携帯型のＰＣ（Personal Computer）などのモバイル・ハンドヘルド機器により構成される。端末２００は、第１の実施の形態と同様に音声を入力して送信する機能のみを有するものであってもよいし、対話検出装置１０００と同様に対話検出機能を備えるものであってもよい。

図１０に示すように、対話検出装置１０００は、スケジュール記憶部１３１と、音声記憶部１３２と、対話記憶部１３３と、通信部１２１と、マイク１０２２と、スケジュール受付部１０１と、操作受付部１０２と、音声受付部１００３と、近接判定部１０４と、対話検出部１０５と、ユーザ情報受付部１００６と、を備えている。

第２の実施の形態では、マイク１０２２およびユーザ情報受付部１００６を追加したことと、音声受付部１００３の機能とが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる対話検出装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

マイク１０２２は、ユーザの音声を入力するものである。音声受付部１００３は、他の端末２００から音声情報を受付けるとともに、マイク１０２２から入力された、自装置を利用するユーザの音声を受付ける点が、第１の実施の形態の音声受付部１０３と異なっている。

このため、音声受付部１００３は、マイク１０２２から入力された音声を電気信号（音声データ）に変換した後、音声データをＡ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換して出力する機能を有する。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

ユーザ情報受付部１００６は、対話検出装置１０００を利用するユーザを特定するためのユーザＩＤの入力を受付けるものである。ユーザ情報受付部１００６は、例えば、装置利用開始時の認証のためにパスワードとともに入力されたユーザＩＤを受付けるように構成することができる。

次に、このように構成された第２の実施の形態にかかる対話検出装置１０００による対話検出処理について図１１を用いて説明する。図１１は、第２の実施の形態における対話検出処理の全体の流れを示すフローチャートである。

ステップＳ１１０１からステップＳ１１０２までの、スケジュール情報受付処理および操作情報受付処理は、第１の実施の形態にかかる対話検出装置１００におけるステップＳ５０１からステップＳ５０２までと同様の処理なので、その説明を省略する。

次に、音声受付部１００３は、各端末２００だけでなく、マイク１０２２から音声情報を受付ける。なお、マイク１０２２から音声データを受付けた場合は、音声受付部１００３は、受付けた期間を発話期間とする。また、ユーザ情報受付部１００６によって受付けられたユーザＩＤを音声データに対応づけることで、端末２００から受信する音声情報と同等の情報を得ることができる。

ステップＳ１１０４からステップＳ１１１１までの、相関値算出処理、近接判定処理、および対話判定処理は、第１の実施の形態にかかる対話検出装置１００におけるステップＳ５０４からステップＳ５１１までと同様の処理なので、その説明を省略する。

なお、本実施の形態では、上述のように自装置の利用ユーザの音声を入力可能であるため、自装置の利用ユーザの音声と、他の端末２００の利用ユーザの音声との間で相関値を算出し、対話の有無を検出することができる。通常は自身が関連する対話の検出を望むと考えられるため、自装置の利用ユーザと他の端末２００の利用ユーザとの間の対話のみを検出するように構成してもよい。

このように、第２の実施の形態にかかる対話検出装置では、対話検出処理および検出した対話情報をサーバ装置上に集約するのではなく、各端末間のピア・ツー・ピア型通信により音声を送受信して各端末内で対話検出処理を行うことができる。

上記各実施の形態では、ユーザ情報としてはユーザＩＤを用いていたが、ユーザを特定可能な情報であれば、生体情報などの他の情報を用いるように構成してもよい。

また、一定の音声レベル以上で入力された音声データを利用するものとしたが、任意の音声レベルの音声データを利用してもよい。また、入力された音声から、ユーザの音声以外の環境音を検出し、または／および音声を認識して発話内容を検出し、検出した情報を対話情報に対応づけて検索可能に格納するように構成してもよい。また、カメラなどの撮像装置を用いて撮影したユーザの映像情報または画像情報、ＧＰＳ（Global Positioning System）によって取得された位置情報など、各種センサによる入力情報をさらに入力して、対話情報に関連づけて格納するように構成してもよい。

次に、第１または第２の実施の形態にかかる対話検出装置のハードウェア構成について図１２を用いて説明する。図１２は、第１または第２の実施の形態にかかる対話検出装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる対話検出装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

第１または第２の実施の形態にかかる対話検出装置で実行される対話検出プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、第１または第２の実施の形態にかかる対話検出装置で実行される対話検出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる対話検出装置で実行される対話検出プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、第１または第２の実施の形態の対話検出プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１または第２の実施の形態にかかる対話検出装置で実行される対話検出プログラムは、上述した各部（スケジュール受付部、操作受付部、音声受付部、近接判定部、対話検出部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から対話検出プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる対話を検出する装置、方法およびプログラムは、非定型の会議や打合せなどのコミュニケーションを検出し、検出したコミュニケーションに関する情報を検索可能に管理する装置、方法およびプログラムに適している。

第１の実施の形態にかかる対話検出装置の構成を示すブロック図である。スケジュール情報のデータ構造の一例を示す説明図である。音声情報のデータ構造の一例を示す説明図である。対話情報のデータ構造の一例を示す説明図である。第１の実施の形態における対話検出処理の全体の流れを示すフローチャートである。音声の相関関係の算出方法を概念的に示した説明図である。発話期間の一例を示す模式図である。検索画面の一例を示す説明図である。問い合わせ画面の一例を示す説明図である。第２の実施の形態にかかる対話検出装置の構成を示すブロック図である。第２の実施の形態における対話検出処理の全体の流れを示すフローチャートである。第１または第２の実施の形態にかかる対話検出装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００対話検出装置
１０１スケジュール受付部
１０２操作受付部
１０３音声受付部
１０４近接判定部
１０５対話検出部
１２１通信部
１３１スケジュール記憶部
１３２音声記憶部
１３３対話記憶部
２００ａ、２００ｂ端末
３００ネットワーク
６０１、６０２音声
８０１ユーザ名
８０２状況
８０３検索ボタン
１０００対話検出装置
１００３音声受付部
１００６ユーザ情報受付部
１０２２マイク

Claims

ユーザの音声を取得可能な複数の端末に接続され、前記端末を利用するユーザ間の対話に関する対話情報を検出する対話検出装置であって、
前記端末を識別する端末ＩＤと、前記端末で取得された音声および前記音声の発話期間とを複数の前記端末から受付ける音声受付部と、
複数の前記端末から受付けた音声間の相関関係を表す相関値を算出して予め定められた第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した複数の音声を受付けた複数の前記端末が互いに近接すると判定する近接判定部と、
対話の検出対象とする任意の対象期間内における、近接すると判定された複数の前記端末から受付けた発話期間の関係が、予め定められた規則に適合するか否かを判定し、前記規則に適合すると判定されたときの前記対象期間と、近接すると判定された複数の前記端末から受付けた前記端末ＩＤとを含む前記対話情報を検出する対話検出部と、
を備えたことを特徴とする対話検出装置。
前記対話検出部は、複数の前記端末から受付けた発話期間が重複する重複期間の前記対象期間に対する割合が予め定められた第２閾値より小さいことを表す前記規則に適合するか否かを判定すること、
を特徴とする請求項１に記載の対話検出装置。
前記対話検出部は、前記重複期間の前記対象期間に対する割合が前記第２閾値より小さく、かつ、前記対象期間内で前記発話期間が存在しない無発話期間の前記対象期間に対する割合が予め定められた第３閾値より小さいことを表す前記規則に適合するか否かを判定すること、
を特徴とする請求項２に記載の対話検出装置。
ユーザの行動の予定と、前記行動に関連するユーザが利用する前記端末の前記端末ＩＤとを含むスケジュール情報の入力を受付けるスケジュール受付部をさらに備え、
前記近接判定部は、複数の前記端末から受付けた音声のうち、受付けた前記スケジュール情報に含まれる前記端末ＩＤに対応する音声間の前記相関値を算出すること、
を特徴とする請求項１に記載の対話検出装置。
受付けた前記端末ＩＤ、前記音声、および前記発話期間を対応づけて記憶する音声記憶部をさらに備え、
前記近接判定部は、前記音声記憶部に記憶された前記音声間の相関値を算出して前記第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した音声を受付けた複数の前記端末が互いに近接すると判定し、
前記対話検出部は、近接すると判定された複数の前記端末から受付けた発話期間を前記音声記憶部から取得し、前記対象期間内における取得した前記発話期間の関係が前記規則に適合するか否かを判定すること、
を特徴とする請求項１に記載の対話検出装置。
検出された前記対話情報を記憶する対話記憶部をさらに備えたこと、
を特徴とする請求項１に記載の対話検出装置。
前記端末に対する操作内容と操作日時とを対応づけた操作情報を受付ける操作受付部をさらに備え、
前記対話記憶部は、受付けた前記操作情報の前記操作日時を含む前記対話期間の前記対話情報に、受付けた前記操作情報の前記操作内容をさらに対応づけて記憶すること、
を特徴とする請求項６に記載の対話検出装置。
前記操作受付部は、前記操作内容として前記端末で利用された資料を識別する資料ＩＤを対応づけた前記操作情報を受付け、
前記対話記憶部は、受付けた前記操作情報の前記操作日時を含む前記対話期間の前記対話情報に、受付けた前記操作情報の前記資料ＩＤをさらに対応づけて記憶すること、
を特徴とする請求項７に記載の対話検出装置。
ユーザの音声を入力する音声受付部と、
前記端末ＩＤを受付けるユーザ情報受付部と、をさらに備え、
前記近接判定部は、さらに、前記音声受付部から入力された音声と、前記端末から受付けた音声との間の前記相関値を算出して前記第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した音声を受付けた前記端末と前記対話検出装置とが互いに近接すると判定し、
前記対話検出部は、さらに、近接すると判定された前記端末から受付けた発話期間と前記音声受付部から入力された音声の発話期間との間の前記対象期間内での関係が前記規則に適合するか否かを判定し、前記規則に適合すると判定されたときの前記対象期間と、近接すると判定された前記端末から受付けた端末ＩＤと、前記ユーザ情報受付部によって受付けられた端末ＩＤとを含む前記対話情報を検出すること、
を特徴とする請求項１に記載の対話検出装置。
ユーザの音声を取得可能な複数の端末に接続され、前記端末を利用するユーザ間の対話に関する対話情報を検出する対話検出装置における対話検出方法であって、
音声受付部によって、前記端末を識別する端末ＩＤと、前記端末で取得された音声および前記音声の発話期間とを複数の前記端末から受付ける音声受付ステップと、
近接判定部によって、複数の前記端末から受付けた音声間の相関関係を表す相関値を算出して予め定められた第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した複数の音声を受付けた複数の前記端末が互いに近接すると判定する近接判定ステップと、
対話検出部によって、対話の検出対象とする任意の対象期間内における、近接すると判定された複数の前記端末から受付けた発話期間の関係が、予め定められた規則に適合するか否かを判定し、前記規則に適合すると判定されたときの前記対象期間と、近接すると判定された複数の前記端末から受付けた前記端末ＩＤとを含む前記対話情報を検出する対話検出ステップと、
を備えたことを特徴とする対話検出方法。
ユーザの音声を取得可能な複数の端末に接続され、前記端末を利用するユーザ間の対話に関する対話情報を検出する対話検出装置における対話検出プログラムであって、
前記端末を識別する端末ＩＤと、前記端末で取得された音声および前記音声の発話期間とを複数の前記端末から受付ける音声受付手順と、
複数の前記端末から受付けた音声間の相関関係を表す相関値を算出して予め定められた第１閾値と比較し、前記相関値が前記第１閾値より大きい場合に、前記相関値を算出した複数の音声を受付けた複数の前記端末が互いに近接すると判定する近接判定手順と、
対話の検出対象とする任意の対象期間内における、近接すると判定された複数の前記端末から受付けた発話期間の関係が、予め定められた規則に適合するか否かを判定し、前記規則に適合すると判定されたときの前記対象期間と、近接すると判定された複数の前記端末から受付けた前記端末ＩＤとを含む前記対話情報を検出する対話検出手順と、
をコンピュータに実行させる対話検出プログラム。