JP2005202035A

JP2005202035A - 対話情報分析装置

Info

Publication number: JP2005202035A
Application number: JP2004006790A
Authority: JP
Inventors: Masaru Suzuki; 優鈴木; Miyoshi Fukui; 美佳福井; Hideki Tsutsui; 秀樹筒井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2005-07-28
Anticipated expiration: 2024-01-14
Also published as: JP3940723B2

Abstract

【課題】会話の内容を知識として蓄積し再利用できるシンプルな装置を提供する。
【解決手段】複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部１０１と、前記音声データのそれぞれを強度に応じて少なくとも３段階に量子化して量子化音声データを生成し、これら量子化音声データ間のパターンの対応関係に基づいて少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部１０２と、前記対話情報を記憶する対話情報記憶部１０３とを備える。
【選択図】図１

Description

本発明は、組織のメンバー間でなされる対話の情報を蓄積することで、組織における知識の共有を促進する対話情報分析装置に関する。

近年、オフィスにおける生産性、創造性を向上させる手法としてナレッジマネジメントと呼ばれる方法論が注目されている．ナレッジマネジメントは個人の持つ知恵を組織の財産として共有・管理していくための、組織文化・風土の改革までを含めた考え方である。情報技術による知識共有の支援ツールとしてナレッジマネジメント支援ツールと呼ばれるソフトウェアも開発・販売されている。

現在販売されているナレッジマネジメント支援ツールの多くはオフィスで生産された文書を効率的に管理する機能が中心であるが、オフィス内の知識の多くがメンバ間のコミュニケーションの中に存在することに注目し、電子的なコミュニケーションの場を提供することで知識の表出化を促進するツールも販売されるようになってきた。

オフィスでのコミュニケーションは未だ電子的なメディアを介さないフェイス・トゥ・フェイスでの会話が中心である。会話に伴って生成・伝達される知識は組織の財産として共有されること無く消失する。

会話によって生成される知識を蓄積する手法として例えば特許文献１の手法が提案されている。
特開２００１−４５４５４公報

しかし、特許文献１の手法は話者の位置を判定する手段を設ける必要があるなど、構成が大規模かつ複雑になるという問題がある。

本発明の目的は、会話の内容を知識として蓄積し再利用できるシンプルな構成の装置を提供することである。

上記課題を解決するため、本発明の対話情報分析装置は、複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部と、前記音声データのそれぞれを強度に応じて少なくとも３段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部と、前記対話情報を記憶する対話情報記憶部とを備える。

本発明によれば、シンプルな構成の装置により、会話の内容を知識として蓄積し組織の財産として共有することができるようになる。

（第１の実施形態）以下、図面を参照しながら本発明の第１の実施形態について説明する。この実施形態は、オフィスの構成メンバ間の会話を常時記録し、後に対話が為された時刻や対話相手の情報を基に記録された音声を検索することのできる会話音声蓄積・検索装置について説明したものである。

図１は本実施形態の会話音声蓄積・検索装置のブロック図である。本装置は音声情報を入力する音声情報入力部１００と、音声情報を記憶する音声情報記憶部１０１と、音声情報間の対応関係を解析して対話情報を生成する対話情報生成部１０２と、対話情報を記憶する対話情報記憶部１０３と、対話情報の検索を行う対話情報検索部１０４と、音声を再生する際にノイズを軽減させるノイズキャンセル部１０６とを備える。また、利用者によって装着され、利用者の音声情報を収集する音声情報収集端末１０５を備える。

各利用者は音声情報収集端末１０５を一台装着する。音声情報収集端末１０５によって収集された利用者の音声情報は、音声情報入力部１００に入力される。音声情報記憶部１０１は、音声情報入力部１００に入力された音声情報を記憶する。

対話情報生成部１０２は、音声情報記憶部１０１に記憶されている利用者の音声情報を読みだし、後述するフローチャートに従って各音声情報間の関係、すなわちある音声情報のどの部分が他の音声情報のどの部分と対話を構成しているか、を解析し、対話情報記憶部１０３に解析結果を格納する。

対話情報検索部１０４は、対話情報生成部１０２の解析結果を手がかりとして対話情報蓄積部１０３に記憶された対話情報を検索する。また、対話情報に含まれる音声情報を再生する。

ノイズキャンセル部１０６は、対話情報検索部１０４が対話情報中の音声情報を再生するする際に、複数の音声情報をもとに各音声情報に含まれるノイズを軽減させる。

尚、本装置はその一部あるいは全部をコンピュータ上で動作するプログラムとして実現しても構わない。すなわち、パーソナルコンピュータ或いはワークステーション等のコンピュータを上述の音声情報入力部１００、音声情報記憶部１０１、対話情報生成部１０２、対話情報記憶部１０３及び対話情報検索部１０４として機能させるためのプログラムとして実現しても構わない。また、音声情報収集端末１０５に関しても同様である。例えば、ノートパソコン、ＰＤＡ（Personal Digital Assistants）或いは携帯電話等の携帯端末を音声情報収集端末１０５として機能させるためのプログラムとして実現しても構わない。

図１６は本装置の全部をプログラムとして実現する場合に用いるコンピュータの例である。磁気ディスクドライブ１６０３はプログラムや音声情報を格納する。メモリ１６０２は実行中のプログラム及び実行中のプログラムが扱うデータを一時記憶する。中央演算処理装置１６０１はメモリ１６０２に記憶されたプログラムを実行する。このコンピュータは画像出力部１６０５を介して表示装置１６０８にＧＵＩ等の画面を表示させる。このコンピュータは入力受付部１６０６を介してマウスやキーボード等の入力装置１６０９から利用者の操作を受け付ける。このコンピュータは出入力部１６０７を介して再生対象の音声情報を外部装置１６１０に出力して音を出力する。

以下、本実施形態について具体的に説明する。

本実施形態では、音声情報収集端末１０５として半導体メモリ付き音声録音装置が利用される。各利用者は就業開始と共に音声情報収集端末１０５を装着する。音声情報収集端
末１０５はオフィス内での各利用者の発話を半導体メモリに常時記憶する。終業時に各利用者は半導体メモリに記憶された音声原データを音声情報入力部１００を介して音声情報記憶部１０１に転送する。この時、音声原データとともに、発話された時刻に関する情報並びに利用者の情報を含んだ音声情報も音声情報記憶部１０１に転送される。

音声情報入力部１００は音声情報収集端末１０５から音声原データと音声情報とを受け取る。音声情報入力部１００は各音声情報に識別子を与える。音声情報記憶部１０１は識別子を付与された音声情報を記憶する。図２は音声情報記憶部１０１に記憶された音声情報の例を示す。音声情報２０１、２０２、２０３はいずれもユーザ名、開始時刻、継続時間及び識別子（音声原データＩＤ）を含んでいる。各音声情報は音声原データ自体を記憶したバイナリファイルへのリンク情報（図示せず）も含む。

対話情報生成部１０２は終夜通電された計算機上で実現される。対話情報生成部１０２は各利用者の音声情報が音声情報記憶部１０１に転送された後に処理を開始する。

図３は対話情報生成部１０２の処理フローを示す。

（Ｓ３０１）対話情報生成部１０２は音声情報記憶部１０１から一人分の音声情報を取り出す。ここでは図２に示した例のうち音声情報２０１が取り出されたとする。

（Ｓ３０２）対話情報生成部１０２は取り出された音声情報に記述された音声原データＩＤに対応する音声原データを音声情報記憶部１０１から取り出す。音声原データは音声情報と同様に音声情報記憶部１０１に必ずしも記憶されている必要はなく、例えば、音声原データＩＤを例えばファイル名あるいはＵＲＬとして、図１には含まれない他のファイルシステムに保存されていても構わない。

音声原データの例を図４（ａ）に示す。図４（ａ）は、音声原データを、横軸を時刻、縦軸を記録された音声の強度として図示している。ここでは音声原データの一部として、時刻１４時１０分００秒から約１分３０秒間のデータが示されている。

各音声原データ４０１、４０２及び４０３にはそれぞれ音声原データＩＤで識別される。例えば、図４（ａ）の音声原データ４０１はこの音声原データＩＤ「ｓａｔｏ２００３０４０２」で識別される。尚、図４（ａ）では音声原データ４０１の符号「４０１」が音声原データＩＤを指しているが、本明細書では音声原データ４０１そのものを指しているものとする。音声原データ４０２及び４０３についても同様である。

（Ｓ３０３）対話情報生成部１０２は、音声原データの時間および強度を予め定めた基準で量子化する。本実施形態では量子化の単位時間を２秒とし、強度を音声原データ４０１に点線４２１及び４２２で示した基準値で３段階に量子化した例を考える。すなわち、音声データの振幅が点線４２１より低い場合と、点線４２１と点線４２２との間にある場合と、点線４２２より高い場合との３段階で分ける。

単に発話の有無を検出するだけなら２段階の量子化でも十分である。３段階以上の量子化を行うことには次のような利点がある。音声原データにおいて主たる発話者の音声と、背景に含まれる対話相手の音声とを照合することにより、異なる地点で偶然同時に行われた発話を排除することができる。

すなわち、対話の場合であれば音声原データ上では自分の声は強いレベルのデータとして現れ、対話相手の声は弱いレベルのデータとして現れるはずである。独り言の場合は自分の声だけが音声原データ上に現れ、弱いレベルのデータが現れないと考えられる。また
、異なる地点で同時に行われた発話ならば、弱いレベルのデータと強いレベルのデータとがかみ合わないはずである。

従って、３段階以上の量子化を行うことにより、異なる地点で偶然同時に行われた発話、例えば独り言、を効率良く排除できる。また、異なる地点で偶然同時に行なわれた発話を排除するために話者の位置を判定する手段を設ける必要がない。

図４（ｂ）は量子化された音声原データの例を示す。音声原データ４０１に対応する量子化音声原データは４０４である。図４（ｂ）では量子化音声原データ４０４の符号「４０４」が音声原データＩＤを指しているが、音声原データ４０１と同様、本明細書では量子化音声原データ４０４そのものを指しているものとする。量子化音声原データ４０５及び４０６についても同様である。

（Ｓ３０４）対話情報生成部１０２は量子化音声原データから発話部分のグループを検出する。対話情報生成部１０２は量子化音声原データから予め定められた長さの無音部分（量子化された音声強度が０となる部分）を検出する。対話情報生成部１０２は量子化音声原データを発話部分で分割してグループ化する。例えば量子化音声原データ４０４では点線の四角で囲われた発話部分グループ４０７、４０８の二つのグループが生成される。

（Ｓ３０５）対話情報生成部１０２は、ステップＳ３０１からステップＳ３０４の処理を、音声情報記憶部１０１に記憶された全ての音声情報に対して繰り返す。ここでは音声原データ４０２、４０３からそれぞれ量子化音声原データ４０５、４０６が求められ、さらに発話部分グループ４０９〜４１２が生成される。

生成されたグループは図５のように表現されることができる。図４（ｂ）の発話部分グループ４０７は〜４１２がそれぞれ図５の発話グループデータ５０１〜５０６に対応している。

図５の強度パタンとは、量子化された音声強度を開始時刻から単位時間毎に順に整数値で表現した数値列になっている。本実施形態では音声強度が３段階に量子化され、無音を０、弱音を１、強音を２と表現している。

（Ｓ３０６）対話情報生成部１０２はＳ３０４で生成されたグループをひとつずつ取り出す。ここでは量子化された音声原データのグループとして発話グループデータ５０１が取り出されたとする。

（Ｓ３０７）対話情報生成部１０２は、他者のデータすなわち音声原データＩＤが異なるグループから現在注目しているグループと時間的に重なるデータを順に取り出す。

例えば、発話グループデータ５０１の場合、開始時刻が１４時１０分０２秒、終了時刻が１４時１０分２６秒なので、時間的に重なるグループとして発話グループデータ５０３、５０５が順に取り出される。

（Ｓ３０８）対話情報生成部１０２は、ステップＳ３０７で得られたグループ(グループａとする)とステップＳ３０６で得られたグループ(グループｂとする)とが同一の対話によるものか調べる。そのために、対話尤度を計算する。本実施形態では、対話尤度の一例として以下の計算式を利用する。
（対話尤度）＝（ｎ＿ａ＋ｎ＿ｂ）÷（Ｎ＿ａ＋Ｎ＿ｂ）
この数式において、Ｎ＿ａはグループａの強度パタンに現れる強度２の数、Ｎ＿ｂはグループｂの強度パタンに現れる強度２の数、ｎ＿ａはグループａの強度パタンで強度が２
である時刻にグループｂの強度パタンの強度が１となる回数、ｎ＿ｂはグループｂの強度パタンで強度が２である時刻にグループａの強度パタンの強度が１となる回数である。

例えばグループａが発話グループデータ５０１に対応し、グループｂが発話グループデータ５０３に対応する場合、
Ｎ＿ａ＝５、
Ｎ＿ｂ＝７、
ｎ＿ａ＝５、
ｎ＿ｂ＝７、
であるから、
（対話尤度）＝（５＋７）÷（５＋７）＝１
である。

同様にグループａが発話グループデータ５０１に対応し、グループｂが発話グループデータ５０５に対応する場合、
Ｎ＿ａ＝５、
Ｎ＿ｂ＝１０、
ｎ＿ａ＝０、
ｎ＿ｂ＝３、
であるから、
（対話尤度）＝（０＋３）÷（５＋１０）＝０．２
となる。同様にして発話グループデータ５０１〜５０６のそれぞれの組合せについて計算した対話尤度の値を図６の表に示した。

なお、ここで利用した対話尤度の計算式は、対話は発話の交換によって成立し、お互いが同時に発話を行なうことは稀である、という仮説に基づいた計算方法と言える。

この計算方法は、グループａの強度２とグループｂの強度１、あるいはグループｂの強度２とグループａの強度１の同時発生を考慮している点、すなわち、主たる話者の音声の背景に含まれる対話相手の音声情報をも利用している点が特開２００１−４５４５４公報に開示されている技術と異なる。

（Ｓ３０９）対話情報生成部１０２は、対話尤度が予め与えられた閾値(ここではαとする)を越えた場合に、そのグループａとグループｂの組合せが同一の対話を構成すると判定する。

例えばαが０．７に設定されているとすると、対話情報生成部１０２は、グループ１とグループ３、グループ２とグループ４、グループ２とグループ６、グループ４とグループ６の組合せが同一の対話を構成すると判定する。組み合わせで決まるので、逆の順番、例えばグループ１とグループ３に対してグループ３とグループ１、でも同じ判定になる。

一方、対話情報生成部１０２は、グループ１とグループ５、グループ３とグループ５の組合せに関しては、発話時間に重なりはあるものの無関係な発話と判定する。

（Ｓ３１０）対話情報生成部１０２は、ステップＳ３０９で同一の対話を構成すると判定したグループの組合せを、対話データとして対話情報蓄積部１０３に登録する。

ステップＳ３０９で同一の対話を構成すると判定された二つのグループのいずれか一方が既に対話情報蓄積部１０３に登録されている場合、対話情報生成部１０２は、まだ登録されていなかった方のグループが既に登録されている組合せに追加されるように登録する
。

ステップＳ３０９で同一の対話を構成すると判定された二つのグループのいずれもが同一の対話として既に対話情報蓄積部１０３に登録されている場合、対話情報生成部１０２は新たな登録を行わない。

（Ｓ３１１）対話情報生成部１０２は、ステップＳ３０８からステップＳ３１０の処理を、ステップＳ３０８で得られた全てのグループについて繰り返す。

（Ｓ３１２）対話情報生成部１０２は、ステップＳ３０４で生成された全てのグループについてステップＳ３０７からステップＳ３１０の処理を繰り返す。

図７は、対話情報生成部１０２による解析結果の例を示す。この解析結果は対話情報蓄積部１０３に蓄積されている。

図７の解析結果例には、発話リストに含まれる各グループについて発話者の名前(ユーザ名)が含まれている。このユーザ名は対話情報生成部１０２が音声情報記憶部１０１に記憶された音声情報を参照することによって得られる。

また図７の解析結果例には、各対話毎の開始時刻および終了時刻が含まれている。これらの時刻には、各対話に含まれるグループの中で最も早い開始時刻および最も遅い開始時刻が用いられる。図７の例では、各対話に含まれるグループの開始時刻および終了時刻がそれぞれ同一となっているが、もちろん各グループの開始時刻および終了時刻はそれぞれ異なる場合があっても構わない。

次に、対話情報検索部１０４の動作について説明する。対話情報検索部１０４はディスプレイとマウス（ポインティングデバイス）を備えるコンピュータである。利用者はマウスを用いてディスプレイに表示されたＧＵＩを操作することで検索を行うことができる。

今、利用者「佐藤一郎」が、２００３年４月１７日の１６時２５分に対話情報検索部１０４にアクセスした場合を考える。この時、対話情報検索部１０４が表示したＧＵＩの初期画面例を図８の画面例８０１に示した。

図８の話者指定フォーム８１１を操作して検索対象とする対話の話者を指定できる。ここでは初期設定として利用者自身である「佐藤一郎」が設定されている。

話者指定フォーム８１１は選択式のインタフェースになっており、予め設定されたオフィスの構成員リストから任意の話者を指定できる。画面例８０２では利用者本人である「佐藤一郎」に加えて「中村二郎」を話者に指定している。つまり、少なくとも「佐藤一郎」と「中村二郎」が加わっていた対話が検索対象となる。同様に画面例８０３では「佐藤一郎」と「小林弘」が話者として指定されている。

話者指定フォーム８１１では話者を３名までしか指定できないが、もちろんもっと多くの話者を指定できるようにＧＵＩを構成してもよい。また話者の指定のために、選択式ではなく名前を直接記入するフィールドを用意してもよい。

話者として利用者本人を含む必要はなく、利用者本人とは無関係な対話を検索することもできるが、逆に発話者として利用者本人を含む対話以外は検索できないように制限してもよい。例えば一般の社員は自身の対話だけが検索でき、課長以上の役職者については全ての対話が検索できるようにする、などが考えられる。

また日付フォーム８１２および時刻フォーム８１３によって、検索対象とする対話の為された日付と時間を指定できる。画面例８０１では初期設定として、現在時刻(２００３年４月１７日１６時２５分)の一日前の日時が設定されている。

画面例８０２では、２００３年４月２日の１２：００から１７：００の間に為された対話を検索するよう指定している。また画面例８０３では開始日の年月しか指定されておらず、２００３年３月以降に為された対話が検索対象となる。本実施形態では、対話の開始時刻から終了時刻までの時間の一部でも指定された時間に含まれれば検索対象とする。

ここでは例として画面例８０２に示した条件によって対話情報検索部１０４が検索を行なう場合を考える。利用者がマウスで検索ボタン８１４を押すと対話情報検索部１０４が検索を開始する。

対話情報検索部１０４が行なう検索処理は従来のＲＤＢＭＳなどによる検索処理と同様であるので、ここでは詳細は説明しない。

図９は対話情報検索部１０４の検索結果を表示した画面の例である。ここでは「佐藤一郎」と「中村二郎」が参加した対話であって、２００３年４月２日の１２：００から１７：００の間に為された対話として、４件の対話情報が検索された。

図９では検索結果として対話が為された日時と話者が一覧表示されている。ここでは検索結果が日時によってソートされているが、話者名や対話の長さなど日時以外の基準によってソートして表示してもよい。

提示された対話のリストのうち、いずれかが選択されると対話情報検索部１０４は選択された対話情報を提示する。ここでは４件目の対話情報９０１が選択されたものとする。

図１０は対話情報検索部１０４による対話情報提示画面の例である。画面例１００１は、図９で選択された対話情報９０１の提示画面の例である。

画面上部に、対話情報の日付１０５１、開始時刻１０５２、終了時刻１０５３、再生中の時刻１０５４、再生中の時刻を示すスライダ１０５５、再生／停止／一時停止／巻戻し／早送りなどの制御を行なうボタン１０６０が配置されている。また画面下部には対話に参加している人物のリスト１０７０が表示されている。

再生ボタン１０６１が押されると、対話情報検索部１０４は選択された対話情報９０１の音声原データを再生する。本実施形態では音声原データは発話者毎に別のバイナリファイルとして保存されているので、対話情報検索部１０４は開始時刻を調整して各発話者の音声原データを同時に再生する。

この時、対話情報検索部１０４は上述したノイズキャンセル部１０６を用いて、各音声原データに含まれるノイズを軽減させる。ここでノイズとは、各音声原データに含まれる対話相手による発話の音声と、それ以外の環境音の両方を含む。複数のマイクを用いることによる音声情報からのノイズ軽減の手法としては、例えば「電子情報通信学会技術研究報告 SP99-70, pp.57-62」などに述べられている、既知の技術によって行なうことができる。本実施形態では話し手と聞き手との両方がマイクを装着しているので、この手法を用いることができる。

対話に参加している人物のうち、ある人物の音声だけを聞きたい、あるいはある人物の
音声だけを省いて聞きたい、という場合には人物リスト中にあるチェックボックスを操作する。例えば「田中正人」の音声を省く場合はチェックボックス１０１０を外せばよい。画面例１００２は「田中正人」を省いた状態の画面である。画面例１００２で対話の再生を行なうと「佐藤一郎」「中村二郎」「柴田三朗」の三人分の音声原データが再生される。

「対話から削除」ボタン１０１１を押すと、対話情報記憶部１０３に記憶された対話情報から特定の人物を外すことができる。例えば、ボタン１０１１を押すと「田中正人」がこの対話情報から削除される。これは対話情報生成部１０２の解析に誤りがあった場合などに必要となる処理である。

画面例１００３は「田中正人」を対話情報から削除した後の画面である。この状態で再生を行なうと、再生されるデータは画面例１００２の状態と同様である。

また、対話情報生成部１０２の解析誤りなどにより、含まれるべき人物が対話情報に含まれていない場合には、次のようにして追加することができる。画面例１００３において、話者セレクタ１０１２で該当する人物を選択して「話者の追加」ボタン１０１３を押す。すると、話者セレクタ１０１２で選択した人物が現在提示されている対話データに話者として追加される。

話者セレクタ１０１２には、現在提示している対話情報の開始時刻および終了時刻の間に発話のあった(量子化された強度が１以上の値をもつ)人物のみが表示される。

追加された話者の音声原データによっては、対話情報の開始時刻または終了時刻が変更されることがある。例えば、追加前の開始時刻よりも早い時刻から発話していた人を追加した場合である。この場合、新たに追加された人の発話開始時刻が対話情報の開始時刻となる。

画面例１００４は、新たな話者として「山本太郎」が追加された状態である。この状態で再生を行なうと「佐藤一郎」「中村二郎」「柴田三朗」に「山本太郎」を加えた４名分の音声原データが再生される。

尚、本実施形態では、音声情報収集端末１０５として半導体メモリ付き音声録音装置を利用するとしたが、例えばワイヤレスマイクでも構わない。この場合、音声情報入力部１００は各ワイヤレスマイクを識別し、音声原データに識別情報と時刻情報とを付加して音声情報を生成する。ワイヤレスマイクを用い音声情報入力部１００側で時刻情報を付加することにより、時刻の同期ズレが発生しないという利点がある。

（第２の実施形態）次に、本発明の第２の実施形態について説明する。

本実施形態は、オフィスにおけるコミュニケーションの実態を把握するために、一定期間オフィスの構成メンバ間の会話を記録し、メンバ間においてどの程度の頻度で対話が為されたか、などの情報を分析する音声コミュニケーション分析装置について説明したものである。

図１１は本実施形態の音声コミュニケーション分析装置のブロック図である。音声入力部１１０１は利用者の音声を入力として受け付け、入力された音声を音声情報記憶部１０１に伝達する。音声情報記憶部１０１、対話情報生成部１０２、対話情報記憶部１０３は本発明の第１の実施形態と同様である。

対話情報分析部１１０２は、対話情報記憶部１０３に記憶された対話情報を統計的に分析する。分析結果提示部１１０３は、対話情報分析部１１０２による分析結果を利用者に提示する。

以下、本実施形態について具体的に説明する。

本実施形態では、音声情報入力部１１０１としてヘッドセットとＰＤＡ（Personal Digital Assistants）を組み合わせたものを利用する。これらの機器を各人が携帯し、ヘッドセットに入力された音声を、ヘッドセットに接続されたＰＤＡが一時的に記録する。終業時に利用者がＰＤＡをネットワークに接続することで、ＰＤＡに一時記憶された各音声データをネットワーク経由で音声情報記憶部１０１に記憶する。

もちろん、無線通信によってＰＤＡを常時ネットワークに接続し、音声データを直接音声情報記憶部１０１に送信してもよいし、さらには例えばＢｌｕｅｔｏｏｔｈ（Ｒ）内蔵のヘッドセットによってヘッドセットからネットワーク経由で音声データを音声情報記憶部１０１に送信してもよい。

これらネットワーク接続の方法等については既存の技術で実現されるので、ここでは詳細は説明しない。

音声情報記憶部１０１、対話情報生成部１０２、対話情報記憶部１０３の動作については本発明の第１の実施の形態と同様である。

図１２は、対話情報記憶部１０３に記憶される対話情報生成部１０２の解析結果の例である。図１２には図７と同様の解析結果に加え、対話情報生成部１０２が求めた強度パタンが記述されている。

対話情報分析部１１０２は、対話情報記憶部１０３に記憶された対話情報を分析する。分析方法の例として、ある期間におけるユーザ毎の対話の回数、対話の総時間、対話の平均時間、あるユーザと他のあるユーザが共に参加した対話の回数、対話における各ユーザによる発話時間の比較、全対話の時間的な分布、などが考えられる。

図１３（ａ）、図１３（ｂ）、図１４（ｃ）、図１４（ｄ）及び図１５（ｅ）は分析結果提示部１１０３が利用者に提示する画面の例である。利用者は分析種類セレクタ１３０１を操作して、表示したい分析結果の種類を選択することができる。

分析種類セレクタ１３０１で選択された分析結果の種類が利用者によって変更されると、分析結果提示部１１０３は対話情報分析部１１０２に新たに選択された分析結果の種類を通知する。対話情報分析部１１０２は通知された種類の分析結果を生成して分析結果提示部１１０３に出力する。そして、分析結果提示部１１０３は新たな種類の分析結果を利用者に提示する。

図１３（ａ）はユーザ毎の対話回数を表示した画面の例である。期間セレクタ１３０２で期間を選択すると、その期間に各ユーザが行なった対話の回数が棒グラフで表示される。横軸はユーザ名の五十音順になっているが、これを対話回数の多い順に表示してもよい。またユーザ数が多い場合には対象とするユーザを選択するセレクタを別途用意してもよい。

図１３（ｂ）はユーザ毎の対話時間を表示した画面の例である。図１３（ａ）と同様に期間セレクタ１３０２で期間を選択して各ユーザが参加した対話の合計時間が棒グラフで
表示される。対話の合計時間とはそのユーザの発話の時間ではなく、他のユーザの発話を聞いている時間も含む。

図１４（ｃ）は指定された期間に各ユーザが共に参加した対話の回数を行列形式で表示した画面の例である。各ユーザが１対１で対話した場合だけではなく、３人以上で行なった対話の回数も含む。

図１４（ｄ）は指定された期間に、指定された二人のユーザが参加した対話において、それぞれのユーザが発話した時間の合計の比をグラフで表示した画面の例である。

図１５（ｅ）は一日のうちでどの時刻に多くの対話が為されたかを指定された期間の平均として折れ線グラフで表示した画面の例である。

図１３（ａ）、図１３（ｂ）、図１４（ｃ）、図１４（ｄ）及び図１５（ｅ）に示した分析結果は、対話情報分析部１１０２による分析の例である。もちろんこれら以外の分析を行なってもよい。

本発明の第１の実施形態の会話音声蓄積・検索装置のブロック図。音声情報記憶部１０１に記憶された音声情報の一例。対話情報生成部１０２の処理のフローチャート。（ａ）音声原データの一例。（ｂ）量子化された音声原データの一例。発話グループデータの一例。対話尤度の一例。解析結果の一例。対話情報検索部１０４が表示したＧＵＩの初期画面の一例。対話情報検索部１０４の検索結果を表示した画面の一例。対話情報検索部１０４による対話情報提示画面の一例。本発明の第２の実施形態の音声コミュニケーション分析装置のブロック図。対話情報生成部１０２の解析結果の一例。（ａ）ユーザ毎の対話回数を表示した画面の一例。（ｂ）ユーザ毎の対話時間を表示した画面の一例。（ｃ）対話回数を行列形式で表示した画面の一例。（ｄ）発話時間の合計の比をグラフで表示した画面の一例。（ｅ）平均対話量の時間変化表示した画面の一例。コンピュータのブロック図。

符号の説明

１００音声情報入力部
１０１音声情報記憶部
１０２対話情報生成部
１０３対話情報記憶部
１０４対話情報検索部
１０５音声情報収集端末
１１０１音声入力部
１１０２対話情報分析部
１１０３分析結果提示部

Claims

複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部と、
前記音声データのそれぞれを強度に応じて少なくとも３段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部と、
前記対話情報を記憶する対話情報記憶部と、
を備える対話情報分析装置。
前記対話情報生成部は、
前記音声データを、強度が第１閾値未満となる第１強度音、前記第１閾値以上で前記第１閾値より大きい第２閾値未満となる第２強度音、及び、前記第２閾値以上となる第３強度音との３段階で量子化する量子化手段と、
異なる人によって発せられた前記量子化音声データ同士を比較し、同じ時間帯で第２強度音部分と第３強度音部分とのパターンが第３閾値以上の割合で逆位相で一致している場合に対話がなされたと判定する判定手段と、
判定結果に基づいて対話情報を生成する生成手段とを備える、
請求項１に記載の対話情報分析装置。
前記対話情報生成部は、
さらに、前記量子化音声データを所定の時間長以上の第１強度音で区切って発話部分を抽出する抽出手段を備え、
前記判定手段は、
異なる人によって重複する時間帯に発せられた前記量子化音声データの発話部分同士を比較し、同じ時間帯で第２強度音部分と第３強度音部分とのパターンが第３閾値以上の割合で逆位相で一致している場合に対話がなされたと判定し、対話情報を生成する、
請求項２に記載の対話情報分析装置。
音声情報記憶部に記憶させる音声情報を入力する複数の音声入力部を備える
請求項１から請求項３までのいずれかに記載の対話情報分析装置。
さらに、対話に参加した人の識別情報と対話の行われた時刻情報とのいずれか又は両方を用いて、前記対話情報記憶部に記憶された対話情報を検索する対話情報検索部を備える、
請求項１から請求項３までのいずれかに記載の対話情報分析装置。
さらに、前記対話情報記憶部に記憶された対話情報を利用者に提示する対話情報提示部を備える、
請求項１から請求項３までのいずれかに記載の対話情報分析装置。
コンピュータを、
複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶手段、
前記音声データのそれぞれを強度に応じて少なくとも３段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成手段、及び、
前記対話情報を記憶する対話情報記憶手段、
として機能させるためのプログラム。
前記対話情報生成手段は、
前記音声データを、強度が第１閾値未満となる第１強度音、前記第１閾値以上で前記第１閾値より大きい第２閾値未満となる第２強度音、及び、前記第２閾値以上となる第３強度音との３段階で量子化する量子化手段と、
異なる人によって発せられた前記量子化音声データ同士を比較し、同じ時間帯で第２強度音部分と第３強度音部分とのパターンが第３閾値以上の割合で逆位相で一致している場合に対話がなされたと判定する判定手段と、
判定結果に基づいて対話情報を生成する生成手段とを備える、
請求項７に記載のプログラム。
前記対話情報生成手段は、
さらに、前記量子化音声データを所定の時間長以上の第１強度音毎で区切って発話部分を抽出する抽出手段を備え、
前記判定手段は、
異なる人によって重複する時間帯に発せられた前記量子化音声データの発話部分同士を比較し、同じ時間帯で第２強度音部分と第３強度音部分とのパターンが第３閾値以上の割合で逆位相で一致している場合に対話がなされたと判定し、対話情報を生成する、
請求項８に記載のプログラム。