JP2005202035A - 対話情報分析装置 - Google Patents

対話情報分析装置 Download PDF

Info

Publication number
JP2005202035A
JP2005202035A JP2004006790A JP2004006790A JP2005202035A JP 2005202035 A JP2005202035 A JP 2005202035A JP 2004006790 A JP2004006790 A JP 2004006790A JP 2004006790 A JP2004006790 A JP 2004006790A JP 2005202035 A JP2005202035 A JP 2005202035A
Authority
JP
Japan
Prior art keywords
information
dialogue
voice
intensity
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004006790A
Other languages
English (en)
Other versions
JP3940723B2 (ja
Inventor
Masaru Suzuki
優 鈴木
Miyoshi Fukui
美佳 福井
Hideki Tsutsui
秀樹 筒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004006790A priority Critical patent/JP3940723B2/ja
Publication of JP2005202035A publication Critical patent/JP2005202035A/ja
Application granted granted Critical
Publication of JP3940723B2 publication Critical patent/JP3940723B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 会話の内容を知識として蓄積し再利用できるシンプルな装置を提供する。
【解決手段】 複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部101と、前記音声データのそれぞれを強度に応じて少なくとも3段階に量子化して量子化音声データを生成し、これら量子化音声データ間のパターンの対応関係に基づいて少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部102と、前記対話情報を記憶する対話情報記憶部103とを備える。
【選択図】 図1

Description

本発明は、組織のメンバー間でなされる対話の情報を蓄積することで、組織における知識の共有を促進する対話情報分析装置に関する。
近年、オフィスにおける生産性、創造性を向上させる手法としてナレッジマネジメントと呼ばれる方法論が注目されている.ナレッジマネジメントは個人の持つ知恵を組織の財産として共有・管理していくための、組織文化・風土の改革までを含めた考え方である。情報技術による知識共有の支援ツールとしてナレッジマネジメント支援ツールと呼ばれるソフトウェアも開発・販売されている。
現在販売されているナレッジマネジメント支援ツールの多くはオフィスで生産された文書を効率的に管理する機能が中心であるが、オフィス内の知識の多くがメンバ間のコミュニケーションの中に存在することに注目し、電子的なコミュニケーションの場を提供することで知識の表出化を促進するツールも販売されるようになってきた。
オフィスでのコミュニケーションは未だ電子的なメディアを介さないフェイス・トゥ・フェイスでの会話が中心である。会話に伴って生成・伝達される知識は組織の財産として共有されること無く消失する。
会話によって生成される知識を蓄積する手法として例えば特許文献1の手法が提案されている。
特開2001−45454公報
しかし、特許文献1の手法は話者の位置を判定する手段を設ける必要があるなど、構成が大規模かつ複雑になるという問題がある。
本発明の目的は、会話の内容を知識として蓄積し再利用できるシンプルな構成の装置を提供することである。
上記課題を解決するため、本発明の対話情報分析装置は、複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部と、前記音声データのそれぞれを強度に応じて少なくとも3段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部と、前記対話情報を記憶する対話情報記憶部とを備える。
本発明によれば、シンプルな構成の装置により、会話の内容を知識として蓄積し組織の財産として共有することができるようになる。
(第1の実施形態)以下、図面を参照しながら本発明の第1の実施形態について説明する。この実施形態は、オフィスの構成メンバ間の会話を常時記録し、後に対話が為された時刻や対話相手の情報を基に記録された音声を検索することのできる会話音声蓄積・検索装置について説明したものである。
図1は本実施形態の会話音声蓄積・検索装置のブロック図である。本装置は音声情報を入力する音声情報入力部100と、音声情報を記憶する音声情報記憶部101と、音声情報間の対応関係を解析して対話情報を生成する対話情報生成部102と、対話情報を記憶する対話情報記憶部103と、対話情報の検索を行う対話情報検索部104と、音声を再生する際にノイズを軽減させるノイズキャンセル部106とを備える。また、利用者によって装着され、利用者の音声情報を収集する音声情報収集端末105を備える。
各利用者は音声情報収集端末105を一台装着する。音声情報収集端末105によって収集された利用者の音声情報は、音声情報入力部100に入力される。音声情報記憶部101は、音声情報入力部100に入力された音声情報を記憶する。
対話情報生成部102は、音声情報記憶部101に記憶されている利用者の音声情報を読みだし、後述するフローチャートに従って各音声情報間の関係、すなわちある音声情報のどの部分が他の音声情報のどの部分と対話を構成しているか、を解析し、対話情報記憶部103に解析結果を格納する。
対話情報検索部104は、対話情報生成部102の解析結果を手がかりとして対話情報蓄積部103に記憶された対話情報を検索する。また、対話情報に含まれる音声情報を再生する。
ノイズキャンセル部106は、対話情報検索部104が対話情報中の音声情報を再生するする際に、複数の音声情報をもとに各音声情報に含まれるノイズを軽減させる。
尚、本装置はその一部あるいは全部をコンピュータ上で動作するプログラムとして実現しても構わない。すなわち、パーソナルコンピュータ或いはワークステーション等のコンピュータを上述の音声情報入力部100、音声情報記憶部101、対話情報生成部102、対話情報記憶部103及び対話情報検索部104として機能させるためのプログラムとして実現しても構わない。また、音声情報収集端末105に関しても同様である。例えば、ノートパソコン、PDA(Personal Digital Assistants)或いは携帯電話等の携帯端末を音声情報収集端末105として機能させるためのプログラムとして実現しても構わない。
図16は本装置の全部をプログラムとして実現する場合に用いるコンピュータの例である。磁気ディスクドライブ1603はプログラムや音声情報を格納する。メモリ1602は実行中のプログラム及び実行中のプログラムが扱うデータを一時記憶する。中央演算処理装置1601はメモリ1602に記憶されたプログラムを実行する。このコンピュータは画像出力部1605を介して表示装置1608にGUI等の画面を表示させる。このコンピュータは入力受付部1606を介してマウスやキーボード等の入力装置1609から利用者の操作を受け付ける。このコンピュータは出入力部1607を介して再生対象の音声情報を外部装置1610に出力して音を出力する。
以下、本実施形態について具体的に説明する。
本実施形態では、音声情報収集端末105として半導体メモリ付き音声録音装置が利用される。各利用者は就業開始と共に音声情報収集端末105を装着する。音声情報収集端
末105はオフィス内での各利用者の発話を半導体メモリに常時記憶する。終業時に各利用者は半導体メモリに記憶された音声原データを音声情報入力部100を介して音声情報記憶部101に転送する。この時、音声原データとともに、発話された時刻に関する情報並びに利用者の情報を含んだ音声情報も音声情報記憶部101に転送される。
音声情報入力部100は音声情報収集端末105から音声原データと音声情報とを受け取る。音声情報入力部100は各音声情報に識別子を与える。音声情報記憶部101は識別子を付与された音声情報を記憶する。図2は音声情報記憶部101に記憶された音声情報の例を示す。音声情報201、202、203はいずれもユーザ名、開始時刻、継続時間及び識別子(音声原データID)を含んでいる。各音声情報は音声原データ自体を記憶したバイナリファイルへのリンク情報(図示せず)も含む。
対話情報生成部102は終夜通電された計算機上で実現される。対話情報生成部102は各利用者の音声情報が音声情報記憶部101に転送された後に処理を開始する。
図3は対話情報生成部102の処理フローを示す。
(S301)対話情報生成部102は音声情報記憶部101から一人分の音声情報を取り出す。ここでは図2に示した例のうち音声情報201が取り出されたとする。
(S302)対話情報生成部102は取り出された音声情報に記述された音声原データIDに対応する音声原データを音声情報記憶部101から取り出す。音声原データは音声情報と同様に音声情報記憶部101に必ずしも記憶されている必要はなく、例えば、音声原データIDを例えばファイル名あるいはURLとして、図1には含まれない他のファイルシステムに保存されていても構わない。
音声原データの例を図4(a)に示す。図4(a)は、音声原データを、横軸を時刻、縦軸を記録された音声の強度として図示している。ここでは音声原データの一部として、時刻14時10分00秒から約1分30秒間のデータが示されている。
各音声原データ401、402及び403にはそれぞれ音声原データIDで識別される。例えば、図4(a)の音声原データ401はこの音声原データID「sato20030402」で識別される。尚、図4(a)では音声原データ401の符号「401」が音声原データIDを指しているが、本明細書では音声原データ401そのものを指しているものとする。音声原データ402及び403についても同様である。
(S303)対話情報生成部102は、音声原データの時間および強度を予め定めた基準で量子化する。本実施形態では量子化の単位時間を2秒とし、強度を音声原データ401に点線421及び422で示した基準値で3段階に量子化した例を考える。すなわち、音声データの振幅が点線421より低い場合と、点線421と点線422との間にある場合と、点線422より高い場合との3段階で分ける。
単に発話の有無を検出するだけなら2段階の量子化でも十分である。3段階以上の量子化を行うことには次のような利点がある。音声原データにおいて主たる発話者の音声と、背景に含まれる対話相手の音声とを照合することにより、異なる地点で偶然同時に行われた発話を排除することができる。
すなわち、対話の場合であれば音声原データ上では自分の声は強いレベルのデータとして現れ、対話相手の声は弱いレベルのデータとして現れるはずである。独り言の場合は自分の声だけが音声原データ上に現れ、弱いレベルのデータが現れないと考えられる。また
、異なる地点で同時に行われた発話ならば、弱いレベルのデータと強いレベルのデータとがかみ合わないはずである。
従って、3段階以上の量子化を行うことにより、異なる地点で偶然同時に行われた発話、例えば独り言、を効率良く排除できる。また、異なる地点で偶然同時に行なわれた発話を排除するために話者の位置を判定する手段を設ける必要がない。
図4(b)は量子化された音声原データの例を示す。音声原データ401に対応する量子化音声原データは404である。図4(b)では量子化音声原データ404の符号「404」が音声原データIDを指しているが、音声原データ401と同様、本明細書では量子化音声原データ404そのものを指しているものとする。量子化音声原データ405及び406についても同様である。
(S304)対話情報生成部102は量子化音声原データから発話部分のグループを検出する。対話情報生成部102は量子化音声原データから予め定められた長さの無音部分(量子化された音声強度が0となる部分)を検出する。対話情報生成部102は量子化音声原データを発話部分で分割してグループ化する。例えば量子化音声原データ404では点線の四角で囲われた発話部分グループ407、408の二つのグループが生成される。
(S305)対話情報生成部102は、ステップS301からステップS304の処理を、音声情報記憶部101に記憶された全ての音声情報に対して繰り返す。ここでは音声原データ402、403からそれぞれ量子化音声原データ405、406が求められ、さらに発話部分グループ409〜412が生成される。
生成されたグループは図5のように表現されることができる。図4(b)の発話部分グループ407は〜412がそれぞれ図5の発話グループデータ501〜506に対応している。
図5の強度パタンとは、量子化された音声強度を開始時刻から単位時間毎に順に整数値で表現した数値列になっている。本実施形態では音声強度が3段階に量子化され、無音を0、弱音を1、強音を2と表現している。
(S306)対話情報生成部102はS304で生成されたグループをひとつずつ取り出す。ここでは量子化された音声原データのグループとして発話グループデータ501が取り出されたとする。
(S307)対話情報生成部102は、他者のデータすなわち音声原データIDが異なるグループから現在注目しているグループと時間的に重なるデータを順に取り出す。
例えば、発話グループデータ501の場合、開始時刻が14時10分02秒、終了時刻が14時10分26秒なので、時間的に重なるグループとして発話グループデータ503、505が順に取り出される。
(S308)対話情報生成部102は、ステップS307で得られたグループ(グループaとする)とステップS306で得られたグループ(グループbとする)とが同一の対話によるものか調べる。そのために、対話尤度を計算する。本実施形態では、対話尤度の一例として以下の計算式を利用する。
(対話尤度)=(n_a+n_b)÷(N_a+N_b)
この数式において、N_aはグループaの強度パタンに現れる強度2の数、N_bはグループbの強度パタンに現れる強度2の数、n_aはグループaの強度パタンで強度が2
である時刻にグループbの強度パタンの強度が1となる回数、n_bはグループbの強度パタンで強度が2である時刻にグループaの強度パタンの強度が1となる回数である。
例えばグループaが発話グループデータ501に対応し、グループbが発話グループデータ503に対応する場合、
N_a = 5、
N_b = 7、
n_a = 5、
n_b = 7、
であるから、
(対話尤度)=(5+7)÷(5+7)=1
である。
同様にグループaが発話グループデータ501に対応し、グループbが発話グループデータ505に対応する場合、
N_a = 5、
N_b = 10、
n_a = 0、
n_b = 3、
であるから、
(対話尤度)=(0+3)÷(5+10)=0.2
となる。同様にして発話グループデータ501〜506のそれぞれの組合せについて計算した対話尤度の値を図6の表に示した。
なお、ここで利用した対話尤度の計算式は、対話は発話の交換によって成立し、お互いが同時に発話を行なうことは稀である、という仮説に基づいた計算方法と言える。
この計算方法は、グループaの強度2とグループbの強度1、あるいはグループbの強度2とグループaの強度1の同時発生を考慮している点、すなわち、主たる話者の音声の背景に含まれる対話相手の音声情報をも利用している点が特開2001−45454公報に開示されている技術と異なる。
(S309)対話情報生成部102は、対話尤度が予め与えられた閾値(ここではαとする)を越えた場合に、そのグループaとグループbの組合せが同一の対話を構成すると判定する。
例えばαが0.7に設定されているとすると、対話情報生成部102は、グループ1とグループ3、グループ2とグループ4、グループ2とグループ6、グループ4とグループ6の組合せが同一の対話を構成すると判定する。組み合わせで決まるので、逆の順番、例えばグループ1とグループ3に対してグループ3とグループ1、でも同じ判定になる。
一方、対話情報生成部102は、グループ1とグループ5、グループ3とグループ5の組合せに関しては、発話時間に重なりはあるものの無関係な発話と判定する。
(S310)対話情報生成部102は、ステップS309で同一の対話を構成すると判定したグループの組合せを、対話データとして対話情報蓄積部103に登録する。
ステップS309で同一の対話を構成すると判定された二つのグループのいずれか一方が既に対話情報蓄積部103に登録されている場合、対話情報生成部102は、まだ登録されていなかった方のグループが既に登録されている組合せに追加されるように登録する
ステップS309で同一の対話を構成すると判定された二つのグループのいずれもが同一の対話として既に対話情報蓄積部103に登録されている場合、対話情報生成部102は新たな登録を行わない。
(S311)対話情報生成部102は、ステップS308からステップS310の処理を、ステップS308で得られた全てのグループについて繰り返す。
(S312)対話情報生成部102は、ステップS304で生成された全てのグループについてステップS307からステップS310の処理を繰り返す。
図7は、対話情報生成部102による解析結果の例を示す。この解析結果は対話情報蓄積部103に蓄積されている。
図7の解析結果例には、発話リストに含まれる各グループについて発話者の名前(ユーザ名)が含まれている。このユーザ名は対話情報生成部102が音声情報記憶部101に記憶された音声情報を参照することによって得られる。
また図7の解析結果例には、各対話毎の開始時刻および終了時刻が含まれている。これらの時刻には、各対話に含まれるグループの中で最も早い開始時刻および最も遅い開始時刻が用いられる。図7の例では、各対話に含まれるグループの開始時刻および終了時刻がそれぞれ同一となっているが、もちろん各グループの開始時刻および終了時刻はそれぞれ異なる場合があっても構わない。
次に、対話情報検索部104の動作について説明する。対話情報検索部104はディスプレイとマウス(ポインティングデバイス)を備えるコンピュータである。利用者はマウスを用いてディスプレイに表示されたGUIを操作することで検索を行うことができる。
今、利用者「佐藤一郎」が、2003年4月17日の16時25分に対話情報検索部104にアクセスした場合を考える。この時、対話情報検索部104が表示したGUIの初期画面例を図8の画面例801に示した。
図8の話者指定フォーム811を操作して検索対象とする対話の話者を指定できる。ここでは初期設定として利用者自身である「佐藤一郎」が設定されている。
話者指定フォーム811は選択式のインタフェースになっており、予め設定されたオフィスの構成員リストから任意の話者を指定できる。画面例802では利用者本人である「佐藤一郎」に加えて「中村二郎」を話者に指定している。つまり、少なくとも「佐藤一郎」と「中村二郎」が加わっていた対話が検索対象となる。同様に画面例803では「佐藤一郎」と「小林弘」が話者として指定されている。
話者指定フォーム811では話者を3名までしか指定できないが、もちろんもっと多くの話者を指定できるようにGUIを構成してもよい。また話者の指定のために、選択式ではなく名前を直接記入するフィールドを用意してもよい。
話者として利用者本人を含む必要はなく、利用者本人とは無関係な対話を検索することもできるが、逆に発話者として利用者本人を含む対話以外は検索できないように制限してもよい。例えば一般の社員は自身の対話だけが検索でき、課長以上の役職者については全ての対話が検索できるようにする、などが考えられる。
また日付フォーム812および時刻フォーム813によって、検索対象とする対話の為された日付と時間を指定できる。画面例801では初期設定として、現在時刻(2003年4月17日16時25分)の一日前の日時が設定されている。
画面例802では、2003年4月2日の12:00から17:00の間に為された対話を検索するよう指定している。また画面例803では開始日の年月しか指定されておらず、2003年3月以降に為された対話が検索対象となる。本実施形態では、対話の開始時刻から終了時刻までの時間の一部でも指定された時間に含まれれば検索対象とする。
ここでは例として画面例802に示した条件によって対話情報検索部104が検索を行なう場合を考える。利用者がマウスで検索ボタン814を押すと対話情報検索部104が検索を開始する。
対話情報検索部104が行なう検索処理は従来のRDBMSなどによる検索処理と同様であるので、ここでは詳細は説明しない。
図9は対話情報検索部104の検索結果を表示した画面の例である。ここでは「佐藤一郎」と「中村二郎」が参加した対話であって、2003年4月2日の12:00から17:00の間に為された対話として、4件の対話情報が検索された。
図9では検索結果として対話が為された日時と話者が一覧表示されている。ここでは検索結果が日時によってソートされているが、話者名や対話の長さなど日時以外の基準によってソートして表示してもよい。
提示された対話のリストのうち、いずれかが選択されると対話情報検索部104は選択された対話情報を提示する。ここでは4件目の対話情報901が選択されたものとする。
図10は対話情報検索部104による対話情報提示画面の例である。画面例1001は、図9で選択された対話情報901の提示画面の例である。
画面上部に、対話情報の日付1051、開始時刻1052、終了時刻1053、再生中の時刻1054、再生中の時刻を示すスライダ1055、再生/停止/一時停止/巻戻し/早送りなどの制御を行なうボタン1060が配置されている。また画面下部には対話に参加している人物のリスト1070が表示されている。
再生ボタン1061が押されると、対話情報検索部104は選択された対話情報901の音声原データを再生する。本実施形態では音声原データは発話者毎に別のバイナリファイルとして保存されているので、対話情報検索部104は開始時刻を調整して各発話者の音声原データを同時に再生する。
この時、対話情報検索部104は上述したノイズキャンセル部106を用いて、各音声原データに含まれるノイズを軽減させる。ここでノイズとは、各音声原データに含まれる対話相手による発話の音声と、それ以外の環境音の両方を含む。複数のマイクを用いることによる音声情報からのノイズ軽減の手法としては、例えば「電子情報通信学会技術研究報告 SP99-70, pp.57-62」などに述べられている、既知の技術によって行なうことができる。本実施形態では話し手と聞き手との両方がマイクを装着しているので、この手法を用いることができる。
対話に参加している人物のうち、ある人物の音声だけを聞きたい、あるいはある人物の
音声だけを省いて聞きたい、という場合には人物リスト中にあるチェックボックスを操作する。例えば「田中正人」の音声を省く場合はチェックボックス1010を外せばよい。画面例1002は「田中正人」を省いた状態の画面である。画面例1002で対話の再生を行なうと「佐藤一郎」「中村二郎」「柴田三朗」の三人分の音声原データが再生される。
「対話から削除」ボタン1011を押すと、対話情報記憶部103に記憶された対話情報から特定の人物を外すことができる。例えば、ボタン1011を押すと「田中正人」がこの対話情報から削除される。これは対話情報生成部102の解析に誤りがあった場合などに必要となる処理である。
画面例1003は「田中正人」を対話情報から削除した後の画面である。この状態で再生を行なうと、再生されるデータは画面例1002の状態と同様である。
また、対話情報生成部102の解析誤りなどにより、含まれるべき人物が対話情報に含まれていない場合には、次のようにして追加することができる。画面例1003において、話者セレクタ1012で該当する人物を選択して「話者の追加」ボタン1013を押す。すると、話者セレクタ1012で選択した人物が現在提示されている対話データに話者として追加される。
話者セレクタ1012には、現在提示している対話情報の開始時刻および終了時刻の間に発話のあった(量子化された強度が1以上の値をもつ)人物のみが表示される。
追加された話者の音声原データによっては、対話情報の開始時刻または終了時刻が変更されることがある。例えば、追加前の開始時刻よりも早い時刻から発話していた人を追加した場合である。この場合、新たに追加された人の発話開始時刻が対話情報の開始時刻となる。
画面例1004は、新たな話者として「山本太郎」が追加された状態である。この状態で再生を行なうと「佐藤一郎」「中村二郎」「柴田三朗」に「山本太郎」を加えた4名分の音声原データが再生される。
尚、本実施形態では、音声情報収集端末105として半導体メモリ付き音声録音装置を利用するとしたが、例えばワイヤレスマイクでも構わない。この場合、音声情報入力部100は各ワイヤレスマイクを識別し、音声原データに識別情報と時刻情報とを付加して音声情報を生成する。ワイヤレスマイクを用い音声情報入力部100側で時刻情報を付加することにより、時刻の同期ズレが発生しないという利点がある。
(第2の実施形態)次に、本発明の第2の実施形態について説明する。
本実施形態は、オフィスにおけるコミュニケーションの実態を把握するために、一定期間オフィスの構成メンバ間の会話を記録し、メンバ間においてどの程度の頻度で対話が為されたか、などの情報を分析する音声コミュニケーション分析装置について説明したものである。
図11は本実施形態の音声コミュニケーション分析装置のブロック図である。音声入力部1101は利用者の音声を入力として受け付け、入力された音声を音声情報記憶部101に伝達する。音声情報記憶部101、対話情報生成部102、対話情報記憶部103は本発明の第1の実施形態と同様である。
対話情報分析部1102は、対話情報記憶部103に記憶された対話情報を統計的に分析する。分析結果提示部1103は、対話情報分析部1102による分析結果を利用者に提示する。
以下、本実施形態について具体的に説明する。
本実施形態では、音声情報入力部1101としてヘッドセットとPDA(Personal Digital Assistants)を組み合わせたものを利用する。これらの機器を各人が携帯し、ヘッドセットに入力された音声を、ヘッドセットに接続されたPDAが一時的に記録する。終業時に利用者がPDAをネットワークに接続することで、PDAに一時記憶された各音声データをネットワーク経由で音声情報記憶部101に記憶する。
もちろん、無線通信によってPDAを常時ネットワークに接続し、音声データを直接音声情報記憶部101に送信してもよいし、さらには例えばBluetooth(R)内蔵のヘッドセットによってヘッドセットからネットワーク経由で音声データを音声情報記憶部101に送信してもよい。
これらネットワーク接続の方法等については既存の技術で実現されるので、ここでは詳細は説明しない。
音声情報記憶部101、対話情報生成部102、対話情報記憶部103の動作については本発明の第1の実施の形態と同様である。
図12は、対話情報記憶部103に記憶される対話情報生成部102の解析結果の例である。図12には図7と同様の解析結果に加え、対話情報生成部102が求めた強度パタンが記述されている。
対話情報分析部1102は、対話情報記憶部103に記憶された対話情報を分析する。分析方法の例として、ある期間におけるユーザ毎の対話の回数、対話の総時間、対話の平均時間、あるユーザと他のあるユーザが共に参加した対話の回数、対話における各ユーザによる発話時間の比較、全対話の時間的な分布、などが考えられる。
図13(a)、図13(b)、図14(c)、図14(d)及び図15(e)は分析結果提示部1103が利用者に提示する画面の例である。利用者は分析種類セレクタ1301を操作して、表示したい分析結果の種類を選択することができる。
分析種類セレクタ1301で選択された分析結果の種類が利用者によって変更されると、分析結果提示部1103は対話情報分析部1102に新たに選択された分析結果の種類を通知する。対話情報分析部1102は通知された種類の分析結果を生成して分析結果提示部1103に出力する。そして、分析結果提示部1103は新たな種類の分析結果を利用者に提示する。
図13(a)はユーザ毎の対話回数を表示した画面の例である。期間セレクタ1302で期間を選択すると、その期間に各ユーザが行なった対話の回数が棒グラフで表示される。横軸はユーザ名の五十音順になっているが、これを対話回数の多い順に表示してもよい。またユーザ数が多い場合には対象とするユーザを選択するセレクタを別途用意してもよい。
図13(b)はユーザ毎の対話時間を表示した画面の例である。図13(a)と同様に期間セレクタ1302で期間を選択して各ユーザが参加した対話の合計時間が棒グラフで
表示される。対話の合計時間とはそのユーザの発話の時間ではなく、他のユーザの発話を聞いている時間も含む。
図14(c)は指定された期間に各ユーザが共に参加した対話の回数を行列形式で表示した画面の例である。各ユーザが1対1で対話した場合だけではなく、3人以上で行なった対話の回数も含む。
図14(d)は指定された期間に、指定された二人のユーザが参加した対話において、それぞれのユーザが発話した時間の合計の比をグラフで表示した画面の例である。
図15(e)は一日のうちでどの時刻に多くの対話が為されたかを指定された期間の平均として折れ線グラフで表示した画面の例である。
図13(a)、図13(b)、図14(c)、図14(d)及び図15(e)に示した分析結果は、対話情報分析部1102による分析の例である。もちろんこれら以外の分析を行なってもよい。
本発明の第1の実施形態の会話音声蓄積・検索装置のブロック図。 音声情報記憶部101に記憶された音声情報の一例。 対話情報生成部102の処理のフローチャート。 (a)音声原データの一例。(b)量子化された音声原データの一例。 発話グループデータの一例。 対話尤度の一例。 解析結果の一例。 対話情報検索部104が表示したGUIの初期画面の一例。 対話情報検索部104の検索結果を表示した画面の一例。 対話情報検索部104による対話情報提示画面の一例。 本発明の第2の実施形態の音声コミュニケーション分析装置のブロック図。 対話情報生成部102の解析結果の一例。 (a)ユーザ毎の対話回数を表示した画面の一例。(b)ユーザ毎の対話時間を表示した画面の一例。 (c)対話回数を行列形式で表示した画面の一例。(d)発話時間の合計の比をグラフで表示した画面の一例。 (e)平均対話量の時間変化表示した画面の一例。 コンピュータのブロック図。
符号の説明
100 音声情報入力部
101 音声情報記憶部
102 対話情報生成部
103 対話情報記憶部
104 対話情報検索部
105 音声情報収集端末
1101 音声入力部
1102 対話情報分析部
1103 分析結果提示部

Claims (9)

  1. 複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶部と、
    前記音声データのそれぞれを強度に応じて少なくとも3段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成部と、
    前記対話情報を記憶する対話情報記憶部と、
    を備える対話情報分析装置。
  2. 前記対話情報生成部は、
    前記音声データを、強度が第1閾値未満となる第1強度音、前記第1閾値以上で前記第1閾値より大きい第2閾値未満となる第2強度音、及び、前記第2閾値以上となる第3強度音との3段階で量子化する量子化手段と、
    異なる人によって発せられた前記量子化音声データ同士を比較し、同じ時間帯で第2強度音部分と第3強度音部分とのパターンが第3閾値以上の割合で逆位相で一致している場合に対話がなされたと判定する判定手段と、
    判定結果に基づいて対話情報を生成する生成手段とを備える、
    請求項1に記載の対話情報分析装置。
  3. 前記対話情報生成部は、
    さらに、前記量子化音声データを所定の時間長以上の第1強度音で区切って発話部分を抽出する抽出手段を備え、
    前記判定手段は、
    異なる人によって重複する時間帯に発せられた前記量子化音声データの発話部分同士を比較し、同じ時間帯で第2強度音部分と第3強度音部分とのパターンが第3閾値以上の割合で逆位相で一致している場合に対話がなされたと判定し、対話情報を生成する、
    請求項2に記載の対話情報分析装置。
  4. 音声情報記憶部に記憶させる音声情報を入力する複数の音声入力部を備える
    請求項1から請求項3までのいずれかに記載の対話情報分析装置。
  5. さらに、対話に参加した人の識別情報と対話の行われた時刻情報とのいずれか又は両方を用いて、前記対話情報記憶部に記憶された対話情報を検索する対話情報検索部を備える、
    請求項1から請求項3までのいずれかに記載の対話情報分析装置。
  6. さらに、前記対話情報記憶部に記憶された対話情報を利用者に提示する対話情報提示部を備える、
    請求項1から請求項3までのいずれかに記載の対話情報分析装置。
  7. コンピュータを、
    複数の音声データのそれぞれを、当該音声を発した人の識別情報及び音声が発せられた時刻情報と関連付けて記憶する音声情報記憶手段、
    前記音声データのそれぞれを強度に応じて少なくとも3段階に量子化して量子化音声データを生成し、これら量子化音声データ間の強度パターンの対応関係に基づいて、少なくとも二人によってなされた対話を検出し、対話時刻及び対話に参加した人の識別情報とを含む対話情報を生成する対話情報生成手段、及び、
    前記対話情報を記憶する対話情報記憶手段、
    として機能させるためのプログラム。
  8. 前記対話情報生成手段は、
    前記音声データを、強度が第1閾値未満となる第1強度音、前記第1閾値以上で前記第1閾値より大きい第2閾値未満となる第2強度音、及び、前記第2閾値以上となる第3強度音との3段階で量子化する量子化手段と、
    異なる人によって発せられた前記量子化音声データ同士を比較し、同じ時間帯で第2強度音部分と第3強度音部分とのパターンが第3閾値以上の割合で逆位相で一致している場合に対話がなされたと判定する判定手段と、
    判定結果に基づいて対話情報を生成する生成手段とを備える、
    請求項7に記載のプログラム。
  9. 前記対話情報生成手段は、
    さらに、前記量子化音声データを所定の時間長以上の第1強度音毎で区切って発話部分を抽出する抽出手段を備え、
    前記判定手段は、
    異なる人によって重複する時間帯に発せられた前記量子化音声データの発話部分同士を比較し、同じ時間帯で第2強度音部分と第3強度音部分とのパターンが第3閾値以上の割合で逆位相で一致している場合に対話がなされたと判定し、対話情報を生成する、
    請求項8に記載のプログラム。
JP2004006790A 2004-01-14 2004-01-14 対話情報分析装置 Expired - Fee Related JP3940723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004006790A JP3940723B2 (ja) 2004-01-14 2004-01-14 対話情報分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004006790A JP3940723B2 (ja) 2004-01-14 2004-01-14 対話情報分析装置

Publications (2)

Publication Number Publication Date
JP2005202035A true JP2005202035A (ja) 2005-07-28
JP3940723B2 JP3940723B2 (ja) 2007-07-04

Family

ID=34820653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004006790A Expired - Fee Related JP3940723B2 (ja) 2004-01-14 2004-01-14 対話情報分析装置

Country Status (1)

Country Link
JP (1) JP3940723B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JP2012103726A (ja) * 2012-01-26 2012-05-31 Yamaha Corp 演奏記録装置及びプログラム
US8290776B2 (en) 2007-04-12 2012-10-16 Hitachi, Ltd. Meeting visualization system
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013164468A (ja) * 2012-02-09 2013-08-22 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013181899A (ja) * 2012-03-02 2013-09-12 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013195823A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 対話支援装置、対話支援方法および対話支援プログラム
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2017062307A (ja) * 2015-09-24 2017-03-30 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290776B2 (en) 2007-04-12 2012-10-16 Hitachi, Ltd. Meeting visualization system
JP5387416B2 (ja) * 2008-02-19 2014-01-15 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP5607627B2 (ja) * 2010-02-25 2014-10-15 パナソニック株式会社 信号処理装置及び信号処理方法
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
US8644534B2 (en) 2010-02-25 2014-02-04 Panasonic Corporation Recording medium
US8682012B2 (en) 2010-02-25 2014-03-25 Panasonic Corporation Signal processing method
US8498435B2 (en) 2010-02-25 2013-07-30 Panasonic Corporation Signal processing apparatus and signal processing method
JP5740575B2 (ja) * 2010-09-28 2015-06-24 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
CN103155036B (zh) * 2010-09-28 2015-01-14 松下电器产业株式会社 语音处理装置及语音处理方法
US9064501B2 (en) 2010-09-28 2015-06-23 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
CN103155036A (zh) * 2010-09-28 2013-06-12 松下电器产业株式会社 语音处理装置及语音处理方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JPWO2012042768A1 (ja) * 2010-09-28 2014-02-03 パナソニック株式会社 音声処理装置および音声処理方法
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2012103726A (ja) * 2012-01-26 2012-05-31 Yamaha Corp 演奏記録装置及びプログラム
JP2013164468A (ja) * 2012-02-09 2013-08-22 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013181899A (ja) * 2012-03-02 2013-09-12 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013195823A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 対話支援装置、対話支援方法および対話支援プログラム
JP2013200423A (ja) * 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2017062307A (ja) * 2015-09-24 2017-03-30 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
JP3940723B2 (ja) 2007-07-04

Similar Documents

Publication Publication Date Title
JP3940723B2 (ja) 対話情報分析装置
US7848493B2 (en) System and method for capturing media
CN104252464B (zh) 信息处理方法和装置
US8270587B2 (en) Method and arrangement for capturing of voice during a telephone conference
JP2010078979A (ja) 音声録音装置、録音音声検索方法及びプログラム
JP2012018412A (ja) 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム
JP2001013978A (ja) 情報選択装置、情報選択方法及び記録媒体
JP5206553B2 (ja) 閲覧システム、方法、およびプログラム
US11664017B2 (en) Systems and methods for identifying and providing information about semantic entities in audio signals
CN104898821B (zh) 一种信息处理的方法及电子设备
CN107609034A (zh) 一种智能音箱的音频播放方法、音频播放装置及存储介质
US20080126087A1 (en) Method and systems for information retrieval during communication
JP4787048B2 (ja) 携帯電話機
JP2010078926A (ja) デュエット相手抽出システム
TWI297123B (en) Interactive entertainment center
JP2013092912A (ja) 情報処理装置、情報処理方法、並びにプログラム
JP7180747B2 (ja) 編集支援プログラム、編集支援方法、及び編集支援装置
JP5034111B2 (ja) データ蓄積システム、データ蓄積再生方法及びプログラム
JP2010219969A (ja) 検索機能を有する通話録音装置および電話機
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP3927155B2 (ja) 対話記録装置および対話記録プログラム
JP7172299B2 (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
JP2011082659A (ja) 録音再生装置
JP2006165846A (ja) 携帯電話装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100406

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees