JP2006208482A

JP2006208482A - 会議の活性化を支援する装置，方法，プログラム及び記録媒体

Info

Publication number: JP2006208482A
Application number: JP2005017275A
Authority: JP
Inventors: Masafumi Nagai; 雅文永易; Hideharu Fujiyama; 英春藤山; Akira Masuda; 彰増田; Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-25
Filing date: 2005-01-25
Publication date: 2006-08-10

Abstract

【課題】声紋認証を応用して、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供する。
【解決手段】会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する。この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる。この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況Ｍ１〜Ｍ１０を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる。
【選択図】図９

Description

本発明は、会議を行っている最中に、会議の円滑な進行や議論の活性化を支援するための装置，方法等に関する。

企業等においては、各種の議題について討論や意思決定を行うために、関係者が集まって会議を開くことが日常的になっている。こうした会議では、円滑な進行を図ったり議論を活性化することにより、限られた時間内にある程度の成果を得ることが望まれる。

こうした会議において、議論の行き詰まり・発言者の偏りといったような十分な成果が得られなくなる要因を排除するための手法やツールとしては、従来から、会議の準備段階や会議の結果の集約段階で用いるためのさまざま手法やツールが提供されている。

しかし、会話を行っている最中に会議の円滑な進行や議論の活性化を促すための手法やツールは、提案されていない。このため、従来は、会議の進行役の個人的な議事運営能力によって会議の成果が左右されることが少なくなかった。例えば、会議中に会議の進行を支援するためのシステムとしては、各会議参加者が、着席のまま、ほぼ同時に共用表示装置に書き込みを行うことができるとともに、これが即座に表示されるようにし、これによって各会議参加者に協調作業環境を与えるようにしたものが従来から提案されている（例えば、特許文献１参照）。しかし、このシステムでも、書き込みを行う参加者が少なくなった（すなわち議論が行き詰まった）ときや書き込みを行う参加者が偏っている（すなわち発言者が偏っている）ときには、やはり会議の進行役の個人的な議事運営能力によって会議の成果が左右されてしまう。

他方、音声データを処理する技術としては、声紋認証が存在している。声紋認証は、音声から発話者を特定する技術であり、主にバイオメトリック認証（人体の特徴に基づく個人の認証）の一種として利用されている（本特許出願の出願時には未公開であるが、例えば、出願番号特願２００４−１４３９５２号の特許出願）。

特開２００４−２１５９５号公報（段落番号００１６〜１８、図５）

しかし、こうした声紋認証を、会議の円滑な進行や議論の活性化のために応用する技術は、いまだ提案されるに至っていない。声紋認証に利用するデータは人間の発話であるから、会話音声を利用しているし、認証の結果、誰が話したデータかを特定しているので、一定時間の会話を解析するデータとして十分有効である。また、発話直後に認証がされるため、リアルタイムにそれらを利用することも可能である。

本発明は、上述の点に鑑み、声紋認証を応用して、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供することを課題としてなされたものである。

この課題を解決するために、本発明に係る会議活性化支援装置は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段とを備えたことを特徴とする。

また、本発明に係る会議活性化支援方法は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、この声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させるためのプログラムを記録したことを特徴とする。

これらの発明では、会議中の発話者の音声データから、現在発話している会議参加者が声紋認証によりリアルタイムに特定され、この声紋認証の結果が、会議開始からの経過時間と関連させて記憶手段に順次記憶される。そして、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況が、会議開始からの時間の経過に応じて更新されながら表示手段に表示される。

これにより、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。会議の進行役は、この表示手段の表示内容から、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。

なお、会議参加者毎の発話状況の表示態様としては、一例として、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させることが好適である。

それにより、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるようになる。

また、その場合において、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させて記憶手段に記憶させ、この時間軸上で位置を指定する操作が行われたことに応じて、この記憶手段に記憶された音声データを、その指定された位置に対応する部分から再生させることが好適である。

それにより、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。

さらに、このように音声データを再生させる場合において、発話者の発言内容を肯定的に捉えた場合に操作するための操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて記憶手段に記憶させ、各会議参加者が発話した時間帯のうち、この操作手段が操作された時間帯を識別表示させることが好適である。

それにより、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。

また、会議参加者毎の発話状況の表示態様としては、各会議参加者の累積発話時間の比率を表示させることや、各会議参加者の累積発話時間の比率の推移を表示させることも好適である。

それにより、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるようになる。

さらに、それらの場合において、声紋認証の結果が不明であった累積時間の比率やその比率の推移をさらに表示させることが好適である。

それにより、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる（過度に大きな声で発言している）など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。

さらに、それらの場合において、所定のサンプリング周期でサンプリングされた会議中の発話者の音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類し、このサンプリング周期よりも長い所定の時間間隔を単位としてこの分類結果を集計し、この集計結果に基づき、会議中の発話者の音声データを声紋認証の対象とするか否かを、この所定時間間隔分の音声データ毎に決定し、声紋認証の対象とすることを決定した各々のこの所定時間間隔分の音声データからのみ声紋認証によって会議参加者を特定するとともに、声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態（誰も発言していない状態）であることを示す情報として記憶手段に記憶させ、この無音状態であった累積時間の比率やその比率の推移をさらに表示させることが好適である。

それにより、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるようになる。

本発明によれば、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。これにより、会議の進行役が、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができるという効果が得られる。

また、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるという効果が得られる。

また、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。

また、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。

また、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるという効果が得られる。

また、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる（過度に大きな声で発言している）など、冷静な議論を行えない状況に陥っていることを迅速に把握して、会議の進行に配慮することができるという効果が得られる。

また、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるという効果が得られる。

以下、本発明を図面を用いて具体的に説明する。図１は、本発明を実施するためのシステム構成例を示す。会議室内で、会議を行っている最中の各会議参加者Ａ１〜Ａ１０（このうちＡ１は会議の進行役）の音声が、集音装置１で集音されてアナログ音声信号に変換される。集音装置１としては、例えば無指向性マイクロフォンを用いるか、あるいは、それぞれ特定の会議参加者のほうに向けた複数の指向性マイクロフォンと、それらの指向性マイクロフォンを切り替える切り替え回路とを設けた装置を用いる。集音装置１からは、パーソナルコンピュータ２に音声信号が送られる。パーソナルコンピュータ２は、進行役Ａ１に操作してもらう。

また、各会議参加者Ａ１〜Ａ１０の手元にはそれぞれワイヤレス入力装置３が用意されている。ワイヤレス入力装置３は、例えば、１個の押し釦と、その押し釦が操作されたことを示す信号をワイヤレスで送信するための送信ユニット（例えば赤外線送信ユニット）とが設けられたものである。各会議参加者Ａ１〜Ａ１０には、現在の発話者の発言内容を聴いて、感銘を受けたり賛同するなど肯定的かつ発展的に捉えた場合に、このワイヤレス入力装置３の押し釦を操作してもらう。

図２は、パーソナルコンピュータ２の構成を、本発明の説明上必要な範囲で示すブロック図である。ＣＰＵ１１と、表示装置（例えば液晶ディスプレイ）１２と、外部記憶装置（ＨＤＤ）１３と、メモリ１４と、サウンドインタフェース（サウンドカード）１５と、ワイヤレスインタフェース（例えば赤外線受光ユニット）１６と、ポインティングデバイス（例えばマウス）１７とが、バス１８に接続されている。

外部記憶装置１３には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ（サウンドドライバ，ポインティングデバイス用ドライバ，ワイヤレスインタフェース用ドライバ等）がインストールされている。

各種デバイスドライバは、パーソナルコンピュータ２の電源投入時にメモリ１４上にロードされる。図１の集音装置１からの音声信号は、サウンドインタフェース１５に入力し、サウンドドライバにより、ＣＰＵ１１で処理可能な所定のサンプリング周波数のデジタルデータに変換される。

また、図１のワイヤレス入力装置３からの信号は、ワイヤレスインタフェース１６に受信され、ワイヤレスインタフェース用ドライバにより、ＣＰＵ１１で処理可能な形式の信号に変換される。

また、パーソナルコンピュータ２内で再生された音声データは、サウンドインタフェース１５においてサウンドドライバによってアナログ信号に変換され、サウンドインタフェース１５から出力してパーソナルコンピュータ２の付属スピーカに送られる。

外部記憶装置１３には、さらに、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとがインストールされている。これらのプログラムは、例えばＣＤ−ＲＯＭ等の記録媒体として提供してもよいし、あるいはＷｅｂサイトからダウンロードさせるようにしてもよい。

声紋認証対象決定アプリケーションは、声紋認証エンジンが声紋認証の対象とする音声データを決定するためのアプリケーションソフトウェアである。この声紋認証対象決定アプリケーションは、パーソナルコンピュータ２の電源投入時にメモリ１４上にロードされる。

図３は、声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。声紋認証対象決定アプリケーションでは、声紋認証エンジンにおいて声紋認証可能な単位時間である声紋認証単位時間（本実施形態では３秒間とする）と同じ時間間隔の音声データを、一つの処理単位とする。

図４は、この声紋認証単位時間（３秒間）分の音声データ毎の、声紋認証対象決定アプリケーションの処理内容を示すフローチャートである。最初に、ＣＰＵ１１内のカウンターである有音カウンターＹ，無音カウンターＭ，有音連続カウンターＹＲ，無音カウンターＭ，無音連続カウンターＭＲをそれぞれ０にリセットする（ステップＳ１）。

続いて、供給された当該声紋認証単位時間分の音声データのうちの最初のサンプリングタイミングのデータの値Ｎ（８ビット）を、所定の閾値（０に近い低い値）Ａと比較する（ステップＳ２）。そして、その値Ｎが閾値Ａよりも大きかったか否か（有音データであったか否か）を判断する（ステップＳ３）。

イエスであれば、有音カウンターＹを１だけインクリメントする（ステップＳ４）。続いて、前回のサンプリングタイミングのデータについてもステップＳ３でイエスであったか否かを判断する（ステップＳ５）。

イエスであれば、有音連続カウンターＹＲを１だけインクリメントし（ステップＳ６）、ステップＳ１０に進む。他方ノーであれば、ステップＳ５からそのままステップＳ１０に進む。

ステップＳ３でノーであれば（無音データであれば）、無音カウンターＭを１だけインクリメントする（ステップＳ７）。続いて、前回のサンプリングタイミングのデータについてもステップＳ３でノーであったか否かを判断する（ステップＳ８）。

イエスであれば、無音連続カウンターＭＲを１だけインクリメントし（ステップＳ９）、ステップＳ１０に進む。他方ノーであれば、ステップＳ８からそのままステップＳ１０に進む。

ステップＳ１０では、当該声紋認証単位時間分内の最後のサンプリングタイミングのデータについてステップＳ３以下の処理を終えたか否かを判断する。ノーであれば、当該声紋認証単位時間分内の次のサンプリングタイミングのデータの値Ｎを前述の閾値Ａと比較する（ステップＳ１１）。そして、ステップＳ３に戻ってステップＳ３以下の処理を繰り返す。

ステップＳ１０でイエスになると、有音カウンターＹの現在のカウント値にサウンドインタフェース１５でのサンプリング周期を掛けた値である時間数が２秒以上であるか否かを判断する（ステップＳ１２）。イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象とすることを決定する（ステップＳ１５）。そして当該声紋認証単位時間分の音声データについての処理を終了する（その後、引き続き供給される次の声紋認証単位時間分の音声データについて図４の処理が開始される）。

ステップＳ１２でノーであれば、有音連続カウンターＹＲの現在のカウント値に上記サンプリング周期を掛けた値である時間数が２秒以上であるか否かを判断する（ステップＳ１３）。イエスであれば、ステップＳ１５に進む。他方、ノーであれば、無音連続カウンターＭＲの現在のカウント値に上記サンプリング周期を掛けた値である時間数が１秒以上であるか否かを判断する（ステップＳ１４）。

イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象としないことを決定する（ステップＳ１６）。そして当該声紋認証単位時間分の音声データについての処理を終了する。他方、ノーであれば、ステップＳ１５に進む。

この処理により、声紋認証エンジンにおける声紋認証単位時間（３秒間）分の音声データ毎に、有音データ部分の時間の長さ，有音データが連続した時間の長さまたは無音データが連続した時間の長さに基いて、声紋認証の対象とするか否かが決定される。

なお、図５は、会議参加者の発話に基づく声紋認証単位時間分の音声データ内の、想定される有音データ，無音データの分布パターン（パターン１〜パターン８）を例示する図である。それ以外のパターンも考えられるが、大きく分類すると、この８パターンに集約されると考えられる。

声紋認証エンジンで声紋認証を実行する前にこの認声紋認証対象決定アプリケーションの処理を実行すれば、入力音声データの全てを対象として声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行うことができる。

これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない（無音データの割合が多い）声紋認証単位時間の音声データを、声紋認証の対象から除外することができるので、声紋認証の誤認証率を下げて発話者特定の精度を高めることができる。

図２の外部記憶装置１３内の声紋認証エンジンは、声紋認証による発話者の特定を行うためのアプリケーションソフトウェアである。この声紋認証エンジンは、パーソナルコンピュータ２の電源投入時にメモリ１４上にロードされる。

この声紋認証エンジンの声紋認証処理は、以下の（１）乃至（３）の処理から成っている。
（１）声紋モデルの生成
供給される音声データを声紋認証単位時間（３秒間）分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋モデルを生成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。

（２）声紋データの照合
生成した声紋モデルと、予め各発話者のＩＤと対応付けて登録（外部記憶装置１３に記憶）された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、登録された声紋データのうち、生成した声紋モデルに最も近似する声紋モデルに対応するＩＤを特定する。なお、ここでは、図１の各会議参加者Ａ１〜Ａ１０の声紋モデルが予め登録されているとともに、ＩＤとして各会議参加者Ａ１〜Ａ１０の氏が用いられている。

（３）照合スコアと閾値との比較
上記（２）の処理で算出した照合スコアＳＣＲを順次閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、上記（２）の処理で特定したＩＤを有効なものと判断する。

声紋認証技術としては、すでに公知の技術をこの声紋認証処理に適用してよい。こうした声紋認証処理によれば、無音状態及び複数人が同時に発話している状態を除いて、認証率８０％以上、誤認証１０％未満、不明率１０％程度の認証精度を確保することができる。

図２の外部記憶装置１３内の会議活性化アプリケーションは、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供するためのアプリケーションソフトウェアである。会議活性化アプリケーションは、会議の開始時にユーザの操作によって起動されてメモリ１４上にロードされる。

図６及び図７は、この会議活性化アプリケーションの処理内容を示すフローチャートである。最初に、図６に示すように、サウンドインタフェース１５（図２）においてデジタル変換された音声データを、サウンドドライバから受け取って蓄積していく（ステップＳ２１）。そして、声紋認証単位時間（３秒間）分の音声データが蓄積されると、その声紋認証単位時間分の音声データを前述の声紋認証対象決定アプリケーションに渡して、図４に示した処理によって声紋認証の対象とするか否かを決定させる（ステップＳ２２）。

続いて、声紋認証対象決定アプリケーションの決定結果を受け取り、声紋認証の対象とすることが決定されたか否かを判断する（ステップＳ２３）。ノーであれば、その決定結果を、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング（起動時すなわち会議開始時からの経過時間）と関連付けて、無音状態（誰も発言していない状態）であることを示す情報としてメモリ１４（図２）に記憶する（ステップＳ２４）。

他方、イエスであれば、その声紋認証単位時間分の音声データを声紋認証エンジンに渡して、声紋認証を行わせる（ステップＳ２５）。そして、声紋認証エンジンから認証結果を受け取り、発話者のＩＤ（ここでは前述のように図１の各会議参加者Ａ１〜Ａ１０の氏）が特定されたか否かを判断する（ステップＳ２６）。

イエスであれば、ＩＤが特定されたその声紋認証単位時間分の音声データを、ＩＤ毎に分類して、その音声データをサウンドドライバから受け取ったタイミング（会議開始時からの経過時間）と関連付けてメモリ１４に記憶する（ステップＳ２７）。他方、ノーであれば（発話者が不明であれば）、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング（会議開始時からの経過時間）と関連付けて、発話者が不明であることを示す情報をメモリ１４に記憶する（ステップＳ２８）。

ステップＳ２７，Ｓ２８またはＳ２４を終えると、それまでにステップＳ２４，Ｓ２７及びＳ２８で記憶した情報に基づき、会議開始時から現在までの、会議参加者毎の累積発話時間（当該会議参加者が発話者として認証された回数×声紋認証単位時間）と、発話者が不明の累積時間（発話者が不明であった回数×声紋認証単位時間）と、無音状態の累積時間（声紋認証対象決定アプリケーションで声紋認証の対象としないことが決定された回数×声紋認証単位時間）とを計算する。そして、それらの累積時間の比率を計算し、その比率を会議開始時からの経過時間別にメモリ１４に記憶する（ステップＳ２９）。

続いて、その声紋認証単位時間分の音声データを蓄積している間に、ワイヤレス入力装置３（図１）からの信号が、ワイヤレスインタフェース１６（図２）に入力して前述のワイヤレスインタフェース用ドライバによって変換されたか否かを判断する（ステップＳ３０）。

イエスであれば、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング（会議開始時からの経過時間）と関連付けて、発言内容が肯定的に捉えられたことを示す情報をメモリ１４に記憶する（ステップＳ３１）。そして図７のステップＳ３２に進む。他方、ノーであれば、ステップＳ３０からそのままステップＳ３２に進む。

ステップＳ３２では、それまでにステップＳ２４，Ｓ２７，Ｓ２８及びＳ３１で記憶した情報に基づき、会議開始時から現在までに各会議参加者が発話した時間帯等を時系列に表すグラフ（以下「時間帯グラフ」と呼ぶ）を、表示装置１２（図２）に表示させる。そして、ステップＳ３３〜Ｓ３６を経て（ステップＳ３３〜Ｓ３６についいては後述する）ステップＳ２２に戻り、声紋認証単位時間分の時間が経過する毎にステップＳ２２以下を繰り返す。

図８は、会議開始時から３００秒程度経過した時点での、ステップＳ３２での時間帯グラフの表示例を示す図である。また、図９は、図８の表示状態の後、会議開始時から６００秒余り経過した時点でのこの時間帯グラフの表示例を示す図である。

この時間帯グラフは、会議開始時から現在までの経過時間を示す時間軸２１を横軸にとり、図１の各会議参加者Ａ１〜Ａ１０の氏（「佐藤」，「鈴木」，「高橋」，…）及び「不明」，「無音」の文字を縦軸にとったものである。そして、それまでにステップＳ２４，Ｓ２７及びＳ２８で記憶した情報に基づき、時間軸２１に沿って、各会議参加者Ａ１〜Ａ１０が発話した時間帯がそれぞれ棒状のマークＭ１〜Ｍ１０（声紋認証単位時間分の長さを最小単位とするマーク）によって時系列に表されるとともに、発話者不明の時間帯，無音状態の時間帯がそれぞれ棒状のマークＭ１１，Ｍ１２によって時系列に表される。図では表現されていないが、このマークＭ１〜Ｍ１２は、各会議参加者や「不明」，「無音」毎に異なる１２種類の色（朱色を除く）で表示される。（図８，図９の例では、高橋氏，伊藤氏，中村氏は未発言なので、マークＭ３，Ｍ６，Ｍ８は表示されていない）

また、図８や図９に示しているように、この時間帯グラフでは、それまでにステップＳ３１で記憶した情報に基づき、各会議参加者が発話した時間帯（マークＭ１〜Ｍ１０の表示範囲）のうち、その発言内容を他の会議参加者が肯定的に捉えた時間帯が、マーク２２で識別表示される。図では表現されていないが、このマーク２２は朱色で表示される。

そして、図８と図９との対比からも明らかなように、この時間帯グラフは、ステップＳ２２〜Ｓ３２を繰り返すことにより、リアルタイムに（声紋認証単位時間分の時間が経過する毎に）時間軸２１が延びていき、新たな表示内容が追加される。（なお、時間軸２１が画面いっぱいにまで延びた以降は、例えば時間軸２１のスケールを圧縮するか、あるいは画面を横方向にスクロール可能にする。）

図７のステップＳ３３では、ポインティングデバイス１７（図２）の現在の操作内容の情報を前述のポインティングデバイス用ドライバから受け取り、この時間帯グラフの時間軸２１上においていずれかの会議参加者が発話した時間帯内の時間位置がポインティングデバイス１７で指定されているか否かを判断する。

ノーであれば、そのままステップＳ３４に進む。他方、イエスであれば、それまでにステップＳ２７で記憶した音声データの再生を、その指定された時間位置の部分から開始し、再生した音声データをサウンドドライバに渡してサウンドインタフェース１５（図２）から出力させる（但し、再生中にイエスとなった場合には、逆に再生を終了する）（ステップＳ３７）。そしてステップＳ３４に進む。

図８や図９に示しているように、時間帯グラフの下側には、比率釦２３，比率推移釦２４及び終了釦２５も表示される。図７のステップＳ３４では、それまでにこの比率釦２３がポインティングデバイス１７で指定されたか否かを判断する。

ノーであれば、そのままステップＳ３５に進む。他方、イエスであれば、ステップＳ２９で記憶した最新の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率を表すグラフ（以下「比率グラフ」と呼ぶ）を、表示装置１２に別ウィンドウで表示させる（既にこの比率グラフが表示されている場合には、その後ステップＳ２９で記憶した最新の情報によってその表示内容を更新する）（ステップＳ３８）。そしてステップＳ３５に進む。

図１０は、この比率グラフの表示例（図９に示した表示状態において比率釦２３が指定された場合の例）を示す。比率グラフは、各会議参加者（「佐藤」，「鈴木」，「高橋」，…）の累積発話時間と発話者不明の累積時間と無音状態の累積時間との比率を、円グラフで表したものである。図では表現されていないが、この円グラフは、各会議参加者や「不明」，「無音」毎に異なる１２種類の色（図８，図９のマークＭ１〜Ｍ１２に対応する色）で色分けして表示される。

この比率グラフで表示される各累積時間の比率は、ステップＳ２２〜Ｓ３４，Ｓ３８を繰り返すことによってリアルタイムに（声紋認証単位時間分の時間が経過する毎に）更新される。

なお、図１１に例示するように、時間帯グラフ（図８，図９）の時間軸２１上において、現在の時間位置（時間軸の右端）の直近の一部の時間範囲２６がポインティングデバイス１７のドラッグ＆ドロップ操作によって指定され、その後比率釦２３がポインティングデバイス１７で指定された場合には、ステップＳ３８では、それまでにステップＳ２４，Ｓ２７及びＳ２８で記憶した情報に基づき、この時間範囲２１での会議参加者毎の累積発話時間と発話者不明の累積時間と無音状態の累積時間とを、ステップＳ２９と同様にして計算する。そして、それらの累積時間の比率を計算し、その比率を表す円グラフを表示させる。

図７のステップＳ３５では、それまでに比率推移釦２４（図８，図９）がポインティングデバイス１７で指定されたか否かを判断する。

ノーであれば、そのままステップＳ３６に進む。他方、イエスであれば、ステップＳ２９で記憶した各経過時間毎の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率の推移を表すグラフ（以下「推移グラフ」と呼ぶ）を、表示装置１２に別ウィンドウで表示させる（既にこの推移グラフが表示されている場合には、その後ステップＳ２９で記憶した最新の情報によってその表示内容を更新する）（ステップＳ３９）。そしてステップＳ３６に進む。

図１２は、この推移グラフの表示例（図９に示した表示状態において比率推移釦２４が指定された場合の例）を示す。推移グラフは、会議開始時からの現在までの経過時間を示す時間軸４１を横軸にとり、比率を縦軸にとったものである。そして、この時間軸４１に沿って、会議開始時から現在までの各タイミング（声紋認証単位時間分ずつの時間）での各会議参加者Ａ１〜Ａ１０の累積発話時間がそれぞれ線Ｌ１〜Ｌ１０（通常は時間の経過につれて折れ線になる）によって表されるとともに、この各タイミングでの発話者不明の累積時間，無音状態の累積時間の比率がそれぞれ線Ｌ１１，Ｌ１２によって表される。図では表現されていないが、この線分Ｌ１〜Ｌ１２も、会議参加者や「不明」，「無音」の文字毎に異なる１２種類の色（図８，図９のマークＭ１〜Ｍ１２に対応する色）で表示される。

この推移グラフは、ステップＳ２２〜Ｓ３５，Ｓ３９を繰り返すことにより、リアルタイムに（声紋認証単位時間分の時間が経過する毎に）時間軸４１が延びていき、新たな表示内容が追加される。

図７のステップＳ３６では、終了釦２５（図８，図９）がポインティングデバイス１７で指定されたか否かを判断する。ノーであれば、前述のようにステップＳ２２に戻ってステップＳ２２以下を繰り返す。他方、イエスであれば、処理を終了する。

次に、図１に示したシステムにおいて、進行役Ａ１が会議を進行させる様子について説明する。進行役Ａ１は、会議が開始する前にパーソナルコンピュータ２の電源を投入しておき、会議が開始すると同時に会議活性化アプリケーションを起動する。

すると、集音装置１で集音された会議中の各会議参加者Ａ１〜Ａ１０の音声データから、声紋認証対象決定アプリケーションの処理を経た後、声紋認証エンジンでの声紋認証（図６のステップＳ２５）によって、現在発話している会議参加者がリアルタイムに特定される。そして、この声紋認証の結果が、会議開始からの経過時間と関連させて図２のメモリ１４に順次記憶され（図６のステップＳ２６，Ｓ２７）、メモリ１４に記憶された情報に基づき、図８，図９に例示したように、図２の表示装置１２に、会議開始時からの経過時間を示す時間軸２１に沿って、各会議参加者が発話した時間帯等がマークＭ１〜Ｍ１２で時系列に表示される（図７のステップＳ３２）。

これにより、進行役Ａ１は、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができる。

また、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させてメモリ１４に記憶され（図６のステップＳ２７）、図８，図９の時間軸上２１で位置を指定する操作が行われたことに応じて、メモリ１４に記憶された音声データが、その指定された位置に対応する部分から再生される（図７のステップＳ３３，Ｓ３７）。

これにより、進行役Ａ１は、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直す（他の会議参加者Ａ２〜Ａ１０にも聴かせる）ことができるようになる。

さらに、いずれかの会議参加者Ａ１〜Ａ１０がワイヤレス入力装置３を操作した（すなわち現在の発話者の発言内容を肯定的に捉えた）ことによって発生したデータが、会議開始からの経過時間と関連させてメモリ１４に記憶され（図６のステップＳ３０，Ｓ３１）、図８，図９に示したように、各会議参加者Ａ１〜Ａ１０が発話した時間帯のうち、このワイヤレス入力装置３が操作された時間帯がマーク２２で識別表示される。

これにより、進行役Ａ１は、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができる。

また、図１０に例示したように、各会議参加者の累積発話時間の比率が表示されたり（図７のステップＳ３８）、図１２に例示したように、各会議参加者の累積発話時間の比率の推移が表示される（図７のステップＳ３９）。

これにより、進行役Ａ１は、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができる。

さらに、図１０や図１２に例示したように、声紋認証の結果が不明であった累積時間の比率やその比率の推移も画面表示される。

これにより、進行役Ａ１は、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる（例えば図１２で丸４２で囲んだ部分）ときには、会議参加者Ａ１〜Ａ１０のうちの複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる（過度に大きな声で発言している）など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。

さらに、声紋認証対象決定アプリケーションによる決定結果（声紋認証の対象としないという決定結果）が、会議開始からの経過時間と関連させて、無音状態であることを示す情報としてメモリ１４に記憶され（図６のステップＳ２２〜Ｓ２４）、図１０や図１２に例示したように、この無音状態の累積時間の比率やその比率の推移も画面表示される。

これにより、進行役Ａ１は、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる（例えば図１２で丸４３で囲んだ部分）ときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができる。

以上のようにして、会議中に、会議参加者Ａ１〜Ａ１０毎の発話状況が、会議開始からの時間の経過に応じて更新されながらパーソナルコンピュータ２に画面表示される。進行役Ａ１は、この表示内容から、各会議参加者Ａ１〜Ａ１０の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。

なお、以上の例では、各会議参加者Ａ１〜Ａ１０が現在の発話者の発言内容を肯定的に捉えたことを、ワイヤレス入力装置３からの信号によって判別するようにしている。しかし、別の例として、集音装置１からパーソナルコンピュータ２に送られた音声データに音声認識処理を施すことによって拍手の音声を抽出し、この拍手の音声が送られたタイミングで、現在の発話者の発言内容が肯定的に捉えられたと判別するようにしてもよい。

また、以上の例において、パーソナルコンピュータ２内の外部記憶装置１３に音声合成アプリケーション（文字データを音声データに変換するためのアプリケーションソフトウェア）をさらにインストールするとともに、会議活性化アプリケーションにおいて、図１０や図１２のグラフで発話者不明の時間や無音状態の時間の比率が急激に大きくなったような場合に、この音声合成アプリケーションを用いて‘一人ずつしゃべりましょう’，‘休憩をとりましょう’等の音声を合成させて、その音声をサウンドドライバに渡してサウンドインタフェース１５から出力させるようにしてもよい。それにより、会議の進行を自動化することもできるようになる。

また、以上の例では、声紋認証対象決定アプリケーション，声紋認証エンジン，会議活性化アプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしてもよい。

また、以上の例では、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、声紋認証対象決定アプリケーション，声紋認証エンジン及び会議活性化アプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。

本発明を実施するためのシステム構成例を示す図である。図１のパーソナルコンピュータの構成を示すブロック図である。声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。声紋認証対象決定アプリケーションの処理内容を示すフローチャートであ声紋認証単位時間分の音声データ内の有音データ，無音データの分布パターンを例示する図である。会議活性化アプリケーションの処理内容を示すフローチャートである。会議活性化アプリケーションの処理内容を示すフローチャートである。会議活性化アプリケーションによる画面表示例を示す図である。会議活性化アプリケーションによる画面表示例を示す図である。会議活性化アプリケーションによる画面表示例を示す図である。会議活性化アプリケーションによる画面表示例を示す図である。会議活性化アプリケーションによる画面表示例を示す図である。

符号の説明

１集音装置、２パーソナルコンピュータ、３ワイヤレス入力装置、１１ＣＰＵ、１２表示装置、１３外部記憶装置、１４メモリ、１５サウンドインタフェース、１６ワイヤレスインタフェース、１７ポインティングデバイス、１８バス

Claims

会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段と
を備えたことを特徴とする会議活性化支援装置。
請求項１に記載の会議活性化支援装置において、
前記表示処理手段は、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させる
ことを特徴とする会議活性化支援装置。
請求項２に記載の会議活性化支援装置において、
前記記憶処理手段は、さらに、前記音声データを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記時間軸上で位置を指定する操作が行われたことに応じて、前記記憶手段に記憶された前記音声データを、前記指定された位置に対応する部分から再生させる再生処理手段
をさらに備えたことを特徴とする会議活性化支援装置。
請求項３に記載の会議活性化支援装置において、
発話者の発言内容を肯定的に捉えた場合に操作するための操作手段
をさらに備え、
前記記憶処理手段は、さらに、前記操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記表示処理手段は、各会議参加者が発話した時間帯のうち、前記操作手段が操作された時間帯を識別表示させる
ことを特徴とする会議活性化支援装置。
請求項１に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率を表示させる
ことを特徴とする会議活性化支援装置。
請求項５に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
請求項５に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
請求項１に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率の推移を表示させる
ことを特徴とする会議活性化支援装置。
請求項８に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
請求項８に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、
前記声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップと
を有することを特徴とする会議活性化支援方法。
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラム。
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。