JP2006229356A

JP2006229356A - 音声会議用の通信制御装置，通信制御方法，プログラム及び記録媒体

Info

Publication number: JP2006229356A
Application number: JP2005038246A
Authority: JP
Inventors: Akira Masuda; 彰増田; Hideharu Fujiyama; 英春藤山; Masafumi Nagai; 雅文永易; Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-02-15
Filing date: 2005-02-15
Publication date: 2006-08-31
Anticipated expiration: 2025-02-15
Also published as: JP4507905B2

Abstract

【課題】音声会議において、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易に相手の場所との通信を開始して会議を行えるようにする。
【解決手段】マイクロフォンからの音声信号を音声認識し（Ｓ２，Ｓ５）、認識した音声に少なくともいずれかの会議出席者の名称が含まれているか否かを、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して判別する（Ｓ６）。含まれている場合には、その含まれている名称の会議出席者に対応する場所をスケジュールデータから確認する（Ｓ９）とともに、確認した場所の通信手段の識別情報を、これらの複数の場所における通信手段の識別情報を記憶した記憶手段から取得する（Ｓ１０）。そして、通信回線を介して通信を行うための通信手段を制御して、その取得した識別情報宛ての通信を開始させる（Ｓ１１）。
【選択図】図７

Description

本発明は、音声会議を行う際に相手との通信を開始するための装置，方法等に関する。

互いに離れた２以上の場所にいる者同士が会議を行う方法の一つに、音声会議と呼ばれるものがある。これは、各場所にマイクロフォンやスピーカや通信機器を用意し、マイクロフォンへの入力音声を通信機器から通信回線を介して相手の場所に送信するとともに、通信機器で受信した相手の場所からの音声信号をスピーカに送って音声出力するものである。通信回線としては公衆電話回線を利用することがあり、その場合には電話会議とも呼ばれている。

こうした音声会議を開始する際には、いずれか一つの場所から、相手の場所の通信機器の識別情報（例えば電話会議では相手の場所の電話番号）に基づいて、当該相手の場所との通信を開始するための処理を行う（例えば電話会議では相手の場所の電話番号を発呼する）ことが必要である。

従来、電話会議用の端末装置（マイクロフォン及びスピーカを有するとともに電話機機能を備えた端末装置）としては、各端末装置に固有の識別番号データを記憶した端末番号発生部や、接続する相手の設定等の各種操作を行うキーを設けたものが提案されていた（例えば、特許文献１参照）。
特開平１１−２１５２４０号公報（段落番号０００９、図１）

しかし、こうした従来の電話会議用の端末装置では、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合（例えば、複数の会議室のうちの空いている会議室を予約して使用する場合）には、会議出席者が、その都度相手の現在の場所を調べて、その場所の端末装置を選択する操作を行わなければならないので、たいへん不便である。

本発明は、上述の点に鑑み、電話会議等の音声会議において、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易に相手の場所との通信を開始して会議を行えるようにすることを課題としてなされたものである。

この課題を解決するために、本発明に係る音声会議用の通信制御装置は、マイクロフォンからの音声信号を音声認識する音声認識手段と、会議に使用される複数の場所における通信手段の識別情報を記憶した記憶手段と、この複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報をこの記憶手段から取得する処理手段と、通信回線を介して通信を行うための通信手段を制御して、この処理手段によって取得された識別情報宛ての通信を開始させる制御手段とを備えたことを特徴とする。

また、本発明に係る音声会議用の通信制御方法は、マイクロフォンからの音声信号を音声認識する第１のステップと、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２のステップと、通信回線を介して通信を行うための通信手段を制御して、この第２のステップで取得した識別情報宛ての通信を開始させる第３のステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータに、マイクロフォンからの音声信号を音声認識する第１の手順と、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２の手順と、通信回線を介して通信を行うための通信手段を制御して、この第２の手順で取得した識別情報宛ての通信を開始させる第３の手順とを実行させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、マイクロフォンからの音声信号を音声認識する第１の手順と、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２の手順と、通信回線を介して通信を行うための通信手段を制御して、この第２の手順で取得した識別情報宛ての通信を開始させる第３の手順とを実行させるプログラムを記録したことを特徴とする。

これらの発明では、マイクロフォンからの音声信号が音声認識され、その認識された音声少なくともいずれかの会議出席者の名称が含まれているか否かが、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して判別される。

そして、含まれている場合に、その含まれている名称の会議出席者に対応する場所がこのスケジュールデータから確認されるとともに、その確認した場所の通信手段の識別情報が、それらの複数の場所における通信手段の識別情報を記憶した記憶手段から取得される。

そして、通信回線を介して通信を行うための通信手段が制御されて、その取得された識別情報宛ての通信が開始される。

したがって、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合（例えば、複数の会議室のうちの空いている会議室を予約して使用する場合）にも、その相手の名称をマイクロフォンに向けて発話するだけで、自動的にその相手の場所との通信が開始される。

これにより、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易にその相手の場所との通信を開始して会議を行うことができる。

なお、一例として、認識された音声に少なくともいずれかの場所の名称が含まれているか否かをこのスケジュールデータを参照して判別し、含まれている場合に、その含まれている名称の場所の通信手段の識別情報をこの記憶手段から取得する処理をさらに行い、通信手段を制御して、その取得した識別情報宛ての通信を開始させることが好適である。

それにより、会議の相手の場所は分かっているが相手方の出席者が分からないような場合にも、その相手の場所をマイクロフォンに向けて発話するだけで自動的にその相手の場所との通信が開始されるので、容易に相手の場所との通信を開始して会議を行うことができるようになる。

また、一例として、マイクロフォンからの音声信号から声紋データを抽出し、その抽出した声紋データを、予め登録された声紋データと比較照合して発話者を特定する声紋認証手段をさらに備え、スケジュールデータを参照して、この声紋認証手段によって特定された発話者が、自己の側の場所を使用する予定の会議出席者であるか否かを判別し、その場所を使用する予定の会議出席者でない場合には、記憶手段から識別情報を取得しないことが好適である。

それにより、自己の側の場所で会議に出席する予定の者が会議の相手の名称を発話した場合にのみ相手の場所との通信が開始されるので、部外者によって相手の場所との通信が開始されることを防止できるようになる。

また、一例として、音声認識によって認識された音声に含まれている名称の会議出席者がスケジュールデータにおいて複数の場所に対応している場合に、場所を選択させる音声を音声合成によって合成して出力し、その後音声認識によって認識した音声から選択結果を判別して、選択された場所の通信手段の識別情報を記憶手段から取得し、通信手段を制御して、その取得した識別情報宛ての通信を開始させることが好適である。

それにより、スケジュールデータ上で同じ名称の相手に対応する場所が複数存在する場合（例えば、名称が同じ複数の人物が別々の場所で会議に出席する予定になっている場合）に、場所を選択させる合成音声が出力される。そして、その合成音声に応答するようにして選択結果をマイクロフォンに向けて発話すると、自動的にその選択した場所との通信が開始される。したがって、スケジュールデータ上で同じ名称の相手に対応する場所が複数存在する場合にも、本来の相手が今回使用する場所を適確に選択して、その場所との通信を開始することができるようになる。

本発明によれば、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、その相手の名称をマイクロフォンに向けて発話するだけで自動的にその相手の場所との通信が開始されるので、容易にその相手の場所との通信を開始して会議を行えるという効果が得られる。

以下、本発明を図面を用いて具体的に説明する。図１は、本発明を適用した或る会社Ｘ内の電話会議システムの全体構成例を示す図である。会社Ｘの本社や支社や事業所に、複数の会議室（Ａ会議室，Ｂ会議室，Ｃ会議室，Ｄ会議室，Ｅ会議室，…）が存在している。各会議室には、それぞれ回線接続装置１，全方位音声入力装置２及びパーソナルコンピュータ３が設置されている（Ｄ会議室以降の会議室についてはこれらの装置の図示を省略している）。

回線接続装置１は、公衆電話回線４を介した発呼・着呼の処理及び信号送受信処理を行う回路（すなわち電話機と同じ発呼・着呼機能及び信号送受信機能を有する回路）を設けた装置であり、公衆電話回線４に接続されている。

また、回線接続装置１は、アナログ音声信号の入力端子１ａと、アナログ音声信号の出力端子１ｂ及び１ｃと、制御信号の入力端子１ｄとを有しており、入力端子１ａに入力したアナログ音声信号を常時出力端子１ｃからそのまま出力する。また、入力端子１ｄに入力した制御信号に基づいて発呼を行い、電話がつながった状態では、入力端子１ａに入力したアナログ音声信号を公衆電話回線４を介して送信するとともに、公衆電話回線４を介して受信した音声信号を出力端子１ｂから出力する。

回線接続装置１の入力端子１ａ及び出力端子１ｂは全方位音声入力装置２に接続されており、回線接続装置１の出力端子１ｃ及び入力端子１ｄはパーソナルコンピュータ３に接続されている。

全方位音声入力装置２は、音声会議用にマイクロフォンとスピーカとを一体化させた装置である。図２は、全方位音声入力装置２の外観構成例を示す図であり、図２（ａ）は斜視図、図２（ｂ）は図２（ａ）のマイクロフォン収容部１１の内部の上面図である。

全方位音声入力装置２は、図２（ａ）に示すように、マイクロフォンを収容するためのマイクロフォン収容部１１と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部１２と、操作部１３とを含んでいる。

図２（ｂ）に示すように、マイクロフォン収容部１１の内部には、６本のマイクロフォンＭＣ１〜ＭＣ６が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。

スピーカ収容部１２に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンＭＣ１〜ＭＣ６に対してほぼ同音量・同位相で届くように構成されている。

各会議室の会議出席者は、この全方位音声入力装置２を取り囲むようにして着席して、いずれかのマイクロフォンＭＣ１〜ＭＣ６に向かって発話する。

図３は、全方位音声入力装置２の回路構成例を示すブロック図である。全方位音声入力装置２は、Ａ／Ｄ変換器ブロック５１と、Ａ／Ｄ変換器５１７と、ＤＳＰ５２と、ＤＳＰ５３と、ＣＰＵ５４と、Ｄ／Ａ変換器５５１，５５２と、増幅器５６１，５６２と、スピーカ５７とを含んでいる。図３においては、Ａ／Ｄ変換器ブロック５１の一例として、各マイクロフォンＭＣ１〜ＭＣ６に対応する６個のＡ／Ｄ変換器５１１〜５１６を示している。

全方位音声入力装置２は、これらの回路を実装した基板を、例えば、図２（ａ）に示すマイクロフォン収容部１１の内部に設置したものである。

ＣＰＵ５４は、全方位音声入力装置２の全体制御処理を行う。
ＤＳＰ５２は、Ａ／Ｄ変換器５１１〜５１６によりディジタル信号に変換された６本のマイクロフォンＭＣ１〜ＭＣ６からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理（マイクロフォン選択処理）等の各種の信号処理を行う。ＤＳＰ５２の内部処理については後述する。

ＤＳＰ５３は、エコーキャンセラーとして機能する。すなわち、Ａ／Ｄ変換器５１７を介して入力する相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、ＤＳＰ５２を介して入力する音声信号から減じる処理を行うことにより、エコー消去処理を行う。

ＤＳＰ５３の処理結果は、Ｄ／Ａ変換器５５１，５５２によってアナログ信号に変換される。Ｄ／Ａ変換器５５２からのアナログ音声信号は、増幅器５６２で増幅された後、出力端子５７１から出力して図１の回線接続装置１の入力端子１ａに送られる。

図１の回線接続装置１の出力端子１ｂから出力されたアナログ音声信号は、全方位音声入力装置２の入力端子５７２に入力し、Ａ／Ｄ変換器５１７によってデジタル変換され、ＤＳＰ５３に入力されてエコーキャンセル処理に使用されるとともに、Ｄ／Ａ変換器５５１及び増幅器５６１を介し、スピーカ５７から音として出力される。

一方、ＤＳＰ５２により選択されたマイクロフォンの音声信号も、ＤＳＰ５３を介してスピーカ５７から音として出力される。すなわち、各会議室の会議出席者は、相手の会議室に配置された全方位音声入力装置２によって選択された話者の音声に加えて、自分の会議室にいる発言者が発した音声をもスピーカ５７を介して聞くことができる。

全方位音声入力装置２に内蔵された６本のマイクロフォンＭＣ１〜ＭＣ６は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるために、全方位音声入力装置２では、指向性マイクロフォンで集音することにより、周辺のノイズとのＳ／Ｎを改善している。

次に、ＤＳＰ５２で行う処理内容について述べる。
ＤＳＰ５２で行われる主な処理は、マイクロフォン（以下、単にマイクと称する場合もある）の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、全方位音声入力部３を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。

本処理を正確に行うため、ＤＳＰ５２は、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とピークホールド処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
（ｄ）マイク信号の選択切替え処理

図４は、ＤＳＰ５２において実行される処理を示す機能ブロック図である。
図４に示すように、ＤＳＰ５２は、各マイク信号に対してＢＰＦ処理を行い、音圧レベルデータを生成するＢＰＦ５２１１〜５２１６からなるＢＰＦブロック５２１と、ＢＰＦ処理された各マイクの音圧レベルデータに対してＰＨ処理を行い、後述するピーク値を生成するＰＨ５２２１〜５２２６からなるＰＨブロック５２２と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部５２３と、を含んで構成される。

かかる構成を有するＤＳＰ５２による上述した各信号処理（ａ）〜（ｄ）について、以下に述べる。
（ａ）マイク信号の帯域分離とピ−クホールド処理
本処理は、図４に示すＢＰＦブロック５２１及びＰＨブロック５２２によって行われる。
ＢＰＦブロック５２１の各ＢＰＦ処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性（例えば、１００〜６００Ｈｚ）に基づいて行われる。
ＰＨ処理は、ＢＰＦ処理された音圧レベルデータ（マイク信号）の最大値を保持（ピークホールド）する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記（ｂ）〜（ｄ）の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部５２３により実行される。

（ｂ）発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始／終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
ＤＳＰ５２は、例えば、マイクロフォンＭＣ１の発言の開始を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを増加させる。逆に、マイクロフォンＭＣ１の発言の終了を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを減少させる。

（ｃ）発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、１人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図４に示すように、各マイクを通して入力する音圧レベルデータに対して、バンドパス・フィルタ（ＢＰＦ）処理及びピークホールド（ＰＨ）処理を行うことにより得られるピーク値である。

（ｄ）マイク信号の選択切替え処理
本処理では、（ｃ）発言者方向マイクの検出処理により選択されたマイクにＤＳＰ５２の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図５に示すように、マイク信号の選択切替え処理は、６回路の乗算器と６入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を「１」に、その他の乗算器のチャンネルゲインを「０」とすることにより、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算される。これにより、選択されたマイク信号（選択マイク信号）が後段のＤＳＰ５３（図３）に送出される。

図１の各会議室のパーソナルコンピュータ３は、会社Ｘ内の専用線（図示略）に接続されている。会社ＸにはＷｅｂベースのグループウェアが導入されており、各会議室のパーソナルコンピュータ３のＷｅｂブラウザでは、会社Ｘ内のサーバー（図示略）から社員のスケジュールデータをダウンロードすることができる。

また、パーソナルコンピュータ３内には、図６に示すような、各会議室の名称とその会議室に設置された回線接続装置１の電話番号とを対応させた電話番号表のデータが予め記憶されている。

また、パーソナルコンピュータ３には、音声認識プログラムと、音声合成プログラムと、声紋認証プログラムと、通信制御プログラムとがインストールされている。これらのプログラムは、例えばＣＤ−ＲＯＭ等の記録媒体として提供してもよいし、あるいはＷｅｂサイトからダウンロードさせるようにしてもよい。

音声認識プログラムは、不特定話者の音声認識を行うためのプログラムであり、音声データ（ここでは、全方位音声入力装置２から回線接続装置１を経由してパーソナルコンピュータ３に送られて、パーソナルコンピュータ３内のサウンドボードでデジタル変換された音声データ）の音響的な特徴を抽出し、抽出した特徴を、予め登録した音声モデルと照合して、最も近似する候補を音声認識結果として出力する。音声認識技術としては、すでに公知の技術をこの音声認識プログラムに適用してよい。

音声合成プログラムは、文字データを音声データに変換するためのプログラムである。音声合成技術としては、すでに公知の技術をこの音声合成プログラムに適用してよい。

声紋認証プログラムは、音声データ（ここでは、全方位音声入力装置２から回線接続装置１を経由してパーソナルコンピュータ３に送られて、パーソナルコンピュータ３内のサウンドボードでデジタル変換された音声データ）を単位時間（例えば３秒間）毎に声紋認証して、発話者を特定するためのプログラムである。声紋認証技術としては、すでに公知の技術をこの声紋認証プログラムに適用してよい。
なお、この単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、パーソナルコンピュータ３のＣＰＵの処理能力が許せば、極力短い時間が望ましい。

声紋認証プログラムの声紋認証処理は、以下の（１）乃至（３）の処理から成っている。
（１）声紋モデルの生成
音声データを単位時間分毎にスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。

（２）声紋モデルの照合
上記（１）の処理で生成した声紋モデルと、予め声紋レジスタ（パーソナルコンピュータ３内の記憶領域）に声紋認証対象者のＩＤとともに登録されている声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。そして、声紋レジスタ内の声紋モデルのうち、上記（１）の処理で生成した声紋モデルに最も近似する声紋モデルに対応するＩＤを特定する。

（３）照合スコアと閾値との比較
上記（２）の処理で算出した照合スコアＳＣＲを所定の閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、上記（２）の処理で特定したＩＤを有効なものと判断する。

なお、各会議室に設置されたパーソナルコンピュータ３内の声紋レジスタには、予め、声紋認証対象者として会社Ｘの社員（少なくとも会議に出席する機会のある社員）の声紋モデルが登録されており、ＩＤとしては社員の氏名が登録されている。

通信制御プログラムは、会議を開始する前に、以上の音声認識プログラム，音声合成プログラム及び声紋認証プログラムと、Ｗｅｂブラウザと、図６に示した電話番号表とを用いて、回線接続装置１を制御するためのプログラムである。

図７は、この通信制御プログラムの処理内容を示すフローチャートである。最初に、Ｗｅｂブラウザを呼び出して、前述のグループウェアによって作成された当日の社員の会議室の使用予定に関するスケジュールデータをダウンロードさせ、そのスケジュールデータを取得する（ステップＳ１）。

図８は、このスケジュールデータを例示する図である。１０時〜１２時の時間帯には、田中一郎・本田二郎・鈴木三郎の３名がＡ会議室を使用し、伊藤六郎・坂田花子・佐々木七郎の３名がＣ会議室を使用し、坂田太郎・鶴牧四郎・戸田五郎の３名がＥ会議室を使用する予定になっている。

１３時〜１５時の時間帯には、田中一郎・本田二郎の２名がＢ会議室を使用し、香川八郎・佐藤九郎・新内よし子の３名がＥ会議室を使用する予定になっている。

１５時〜１７時の時間帯には、坂田花子・佐々木七郎の２名がＡ会議室を使用し、坂田太郎・戸田五郎の２名がＤ会議室を使用する予定になっている。

図７に示すように、ステップＳ１に続き、声紋認証プログラムを呼び出して前述の声紋認証処理を実行させるとともに、音声認識プログラムを呼び出して音声認識を行わせる（ステップＳ２）。そして、声紋認証プログラムによって発話者が特定される（特定したＩＤが有効と判断される）まで待機する（ステップＳ３）。

発話者が特定されると、ステップＳ１でダウンロードさせたスケジュールデータを参照して、その特定された発話者が、当該パーソナルコンピュータ３が設置されている会議室を現在の時間帯に使用する予定になっている社員であるか（すなわち会議出席者であるか）否かを判断する（ステップＳ４）。

ノーであれば、ステップＳ３に戻る。他方イエスであれば、音声認識プログラムによる当該発話者の音声の認識結果を取得する（ステップＳ５）。そして、ステップＳ１でダウンロードさせたスケジュールデータを参照して、音声認識された音声に、現在の時間帯にいずれかの会議室を使用する予定の社員の氏と、“つないで”という語とが含まれているか否かを判断する（ステップＳ６）。

ノーであれば、このスケジュールデータを参照して、音声認識された音声に、現在の時間帯に使用される予定のいずれかの会議室の名称と、“つないで”という語とが含まれているか否かを判断する（ステップＳ７）。ここでもノーであれば、ステップＳ３に戻る。

ステップＳ６でイエスであれば、その認識された氏が、スケジュールデータ内の現在の時間帯の欄に複数存在しているか否かを判断する（ステップＳ８）。

ノーであれば（１箇所にしか存在していなければ）、スケジュールデータから、その氏の社員が使用する会議室を確認する（ステップＳ９）。続いて、その確認した会議室の回線接続装置１の電話番号を、図６に示した電話番号表から取得する（ステップＳ１０）。

そして、その取得した電話番号を発呼させる制御信号を、回線接続装置１（図１）に送り（ステップＳ１１）、処理を終了する。

ステップＳ８でイエスであれば、その氏の社員が使用する複数の会議室をスケジュールデータから確認する（ステップＳ１２）。そして、音声合成プログラムを呼び出して、会議室を選択させる音声を合成させ、その合成音声を、パーソナルコンピュータ３の内蔵スピーカ（またはパーソナルコンピュータ３本体に接続された付属スピーカ）から出力させる（ステップＳ１３）。

続いて、この合成音声出力後の音声認識プログラムによる当該発話者の音声の認識結果を取得する（ステップＳ１４）。そして、その認識結果から、会議室の選択結果を判別する（ステップＳ１５）。

なお、ステップＳ１３では、例えば、“〇〇□□さん（〇〇はステップＳ５で音声認識された氏、□□は名前）は、××時から××時まで×会議室にいます。つなぎますか。”という問合せの合成音声を、その氏の社員が使用する各会議室について、一定の時間（例えば数秒間）をあけながら出力する。

そして、ステップＳ１５では、一つの会議室についてこの問合せの音声が出力された直後に音声認識プログラムによって認識された言葉に、“はい”という語が含まれていれば、その会議室が選択されたと判別する。

ステップＳ１５に続き、その判別した会議室の回線接続装置１の電話番号を、図６に示した電話番号表から取得する（ステップＳ１６）。そして、前述のステップＳ１１に進む。

ステップＳ７でイエスであれば、その認識された名称の会議室の回線接続装置１の電話番号を、図６に示した電話番号表から取得する（ステップＳ１７）。そして、前述のステップＳ１１に進む。

次に、この電話会議システムにおける会議の開始の様子（一つの会議室から相手の会議室の電話番号を発呼する様子）を、図８に示したスケジュールデータ上の１０時〜１２時のＡ会議室を例にとって説明する。

図８のスケジュールデータでは、１０時〜１２時に、田中一郎・本田二郎・鈴木三郎の３名がＡ会議室を使用し、坂田太郎・鶴牧四郎・戸田五郎の３名がＥ会議室を使用する予定になっている。

ここでは、Ａ会議室及びＥ会議室を使用して、或る部署の田中一郎・本田二郎・鈴木三郎の３名と、別の部署の坂田太郎・鶴牧四郎・戸田五郎の３名とが電話会議を行う予定であるものとして説明を行う。

図９は、Ａ会議室の側から、会議の相手の氏を発話して会議を開始する様子を例示する図である。Ａ会議室を使用する３名は、会議の相手として少なくとも坂田氏が出席する予定であることを知っているが、相手がどの会議室を使用するかは知らないものとする。

そこで、Ａ会議室を使用する会議出席者のうちの例えば田中一郎が、１０時になったので、パーソナルコンピュータ３で音声制御プログラムを起動させた後、全方位音声入力装置２のうちのいずれかのマイクロフォンに向けて“坂田さん、つないで”と発話する。

すると、その音声を入力したマイクロフォンからの音声信号が、全方位音声入力装置２から回線接続装置１を経由してパーソナルコンピュータ３に送られる。

パーソナルコンピュータ３では、その発話者が田中一郎であることが声紋認証によって特定される（図７のステップＳ２，Ｓ３）。そして、この田中一郎は、スケジュールデータ上、会議室Ａを現在の時間帯（１０時〜１２時）に使用する予定であることが確認される（図７のステップＳ４）。

さらに、音声認識された“坂田さん、つないで”の音声には、“坂田”という社員の氏と“つないで”という語とが含まれていることが確認される（図７のステップＳ２，Ｓ５，Ｓ６）。

しかし、図８に示したように、スケジュールデータ内の現在の時間帯（１０時〜１２時）の欄には、坂田花子（Ｃ会議室を使用予定），坂田太郎（Ｅ会議室を使用予定）というように、坂田という氏が２つ存在していることが確認される（図７のステップＳ８）。

そこで、図１０に示すように、まず、“坂田花子さんは、１０時から１２時までＣ会議室にいます。つなぎますか。”という問合せの合成音声が、パーソナルコンピュータ３から出力される（図７のステップＳ１２，Ｓ１３）。

この合成音声を聴いた田中一郎は、会議の相手は坂田花子ではないので、図１０に示すように、“いいえ”と応答する（あるいは、無言のままでいる）。すると、今度は、図１０に示すように、“坂田太郎さんは、１０時から１２時までＥ会議室にいます。つなぎますか。”という問合せの合成音声が出力される（図７のステップＳ１３）。

この合成音声を聴いた田中一郎は、会議の相手は坂田太郎なので、図１０に示すように、“はい”と応答する。すると、Ｅ会議室が選択されたと判別されて（図７のステップＳ１４，Ｓ１５）、このＥ会議室の回線接続装置１の電話番号が図６に示した電話番号表から取得される（図７のステップＳ１６）。

そして、このＥ会議室の回線接続装置１の電話番号を発呼させる制御信号が、パーソナルコンピュータ３から回線接続装置１に送られる（図７のステップＳ１１）。

Ａ会議室の回線接続装置１は、この制御信号に基づき、Ｅ会議室の回線接続装置１の電話番号を発呼する。これにより、Ａ会議室の回線接続装置１とＥ会議室の回線接続装置１とで電話がつながるので、Ａ会議室・Ｅ会議室間で電話会議を開始することができる。

なお、図９の例では会議の相手のうちの坂田太郎の氏を発話しているが、鶴牧四郎や戸田五郎の氏を発話した場合には、スケジュールデータ内の現在の時間帯（１０時〜１２時）の欄には鶴牧や戸田という氏はそれぞれ１つしか存在しない（図７のステップＳ８）ので、問合せの合成音声が出力されることなく、直ちにＥ会議室の回線接続装置１の電話番号が取得されて（図７のステップＳ９，Ｓ１０）、Ｅ会議室の回線接続装置１の電話番号を発呼させる制御信号が回線接続装置１に送られる（図７のステップＳ１１）。

また、図９の例では会議の相手の氏を発話しているが、会議の相手の場所がＥ会議室であることは分かっているが相手方の出席者が分からない（会議の相手の部署は決まっているものの誰が出席するか分からない）ような場合には、“Ｅ会議室、つないで”と発話すれば、やはり、直ちにＥ会議室の回線接続装置１の電話番号が取得されて（図７のステップＳ７，Ｓ１７）、Ｅ会議室の回線接続装置１の電話番号を発呼させる制御信号が回線接続装置１に送られる（図７のステップＳ１１）。

また、図９の例ではＡ会議室を使用する会議出席者が発話しているが、この会議出席者以外の者が発話した場合には、その発話者が会議室Ａを現在の時間帯（１０時〜１２時）に使用する予定であることが確認されない（図７のステップＳ４）ので、Ａ会議室の回線接続装置１からＥ会議室の回線接続装置１の電話番号が発呼されることはない。

また、図９の例ではＡ会議室を使用する会議出席者が発話しているが、Ｅ会議室を使用する会議出席者のほうが発話した場合にも、全く同様にして、Ｅ会議室の回線接続装置１がＡ会議室の回線接続装置１の電話番号を発呼して、Ｅ会議室の回線接続装置１とＡ会議室の回線接続装置１とで電話がつながる。

以上のように、この電話会議システムによれば、会議の相手は同じであるが相手の会議室が会議のたびに一定していない場合（複数の会議室のうちの空いている会議室を予約して使用する場合）にも、相手の今回の会議室を調べることなく、その相手の名称をマイクロフォンに向けて発話するだけで、自動的にその相手の会議室との通信が開始される。

これにより、会議の相手は同じであるが相手の会議室が会議のたびに一定していない場合にも、容易にその相手の会議室との通信を開始して会議を行うことができる。

また、会議の相手の会議室は分かっているが相手方の出席者が分からないような場合にも、その相手の会議室をマイクロフォンに向けて発話するだけで自動的にその相手の会議室との通信が開始されるので、やはり容易に相手の会議室との通信を開始して会議を行うことができる。

また、自己の側の会議室で会議に出席する予定の者が会議の相手の氏（または相手の会議室名）を発話した場合にのみ相手の会議室との通信が開始されるので、部外者によって相手の会議室との通信が開始されることを防止できる。したがって、会議運営上のセキュリティを高めることができる。

また、スケジュールデータ上で同じ名称の相手に対応する会議室が複数存在する場合にも、会議室を選択させる合成音声が出力され、その合成音声に応答するようにして選択結果を発話すると自動的にその選択した会議室との通信が開始されるので、本来の相手が今回使用する会議室を適確に選択してその会議室との通信を開始することができる。

なお、以上の例では、会議出席者の名称として個人の氏を発話することにより、会議の相手の会議室との通信が開始されるようにしている。しかし、スケジュールデータに会議の相手の部署の名称が掲載される場合や、社外と会議を行う場合であってスケジュールデータに会議の相手の社名が掲載されるような場合には、会議出席者の名称として相手の部署の名称や相手の社名を発話することにより、その相手の会議室との通信が開始されるようにしてもよい。

また、以上の例では電話会議に本発明を適用しているが、電話会議以外の音声会議（例えば、各会議室間でＬＡＮや専用線を介して音声を送受信する会議）にも本発明を適用してよい。その場合にも、パーソナルコンピュータ３が、その音声会議において使用される通信機器を図１の回線接続装置１と同様にして制御するようにすればよい。

また、以上の例では、音声認識プログラム，音声合成プログラム，声紋認証プログラム，通信制御プログラムをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータ３にインストールしてもよい。

また、以上の例では、音声認識プログラム，音声合成プログラム，声紋認証プログラム，通信制御プログラムというアプリケーションソフトウェアをインストールしたパーソナルコンピュータ３を設けている。しかし、別の例として、これらのアプリケーションソフトウェアと同一の処理内容のファームウェアを実行するとともにＷｅｂブラウザ機能を有する専用プロセッサを設けた装置を、パーソナルコンピュータ３に代えて設けるようにしてもよい。

また、以上の例では、回線接続装置１，全方位音声入力装置２，パーソナルコンピュータ３という３台の装置を各会議室に設置している。しかし、これに限らず、回線接続装置１と全方位音声入力装置２とを一体化して１台の装置にしたり、さらには、その１台の装置に上記のような専用プロセッサを搭載することによって全体を１台の装置にしてもよい。

また、以上の例では１つの会社内の会議システムに本発明を適用しているが、それ以外の会議システム（例えば、複数の会社間の会議システム）にも本発明を適用してよい。

本発明を適用した電話会議システムの全体構成例を示す図である。全方位音声入力装置の外観構成例を示す図である。全方位音声入力装置の回路構成例を示すブロック図である。図３のＤＳＰ５２の機能ブロック図である。ＤＳＰ５２のマイク信号選択切替え処理を示す機能ブロック図である。パーソナルコンピュータ内の電話番号表を示す図である。通信制御プログラムの処理内容を示すフローチャートである。スケジュールデータを例示する図である。会議の相手の氏を発話して会議を開始する様子を例示する図である。会議室を選択させる合成音声等を例示する図である。

符号の説明

１回線接続装置、２全方位音声入力装置、３パーソナルコンピュータ、４公衆電話回線、１１マイクロフォン収容部、１２スピーカ収容部、１３操作部、ＭＣ１〜ＭＣ６マイクロフォン、５１１〜５１６Ａ／Ｄ変換器、５２，５３ＤＳＰ、５４ＣＰＵ、５７スピーカ

Claims

マイクロフォンからの音声信号を音声認識する音声認識手段と、
会議に使用される複数の場所における通信手段の識別情報を記憶した記憶手段と、
前記複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を前記記憶手段から取得する処理手段と、
通信回線を介して通信を行うための通信手段を制御して、前記処理手段によって取得された識別情報宛ての通信を開始させる制御手段と
を備えたことを特徴とする音声会議用の通信制御装置。
請求項１に記載の音声会議用の通信制御装置において、
前記処理手段は、前記スケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの前記場所の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の場所の通信手段の識別情報を前記記憶手段から取得する処理をさらに行う
ことを特徴とする音声会議用の通信制御装置。
請求項１に記載の音声会議用の通信制御装置において、
前記マイクロフォンからの音声信号から声紋データを抽出し、該抽出した声紋データを、予め登録された声紋データと比較照合して発話者を特定する声紋認証手段
をさらに備え、
前記処理手段は、前記スケジュールデータを参照して、前記声紋認証手段によって特定された発話者が、当該通信制御装置が設置されている場所を使用する予定の会議出席者であるか否かを判別し、該場所を使用する予定の会議出席者でない場合には、前記記憶手段から前記識別情報を取得しないことを特徴とする音声会議用の通信制御装置。
請求項１に記載の音声会議用の通信制御装置において、
音声合成手段をさらに備え、
前記処理手段は、前記音声認識手段によって認識された音声に含まれている名称の会議出席者が前記スケジュールデータにおいて複数の場所に対応している場合に、場所を選択させる音声を前記音声合成手段で合成させて出力させ、その後前記音声認識手段によって認識された音声から選択結果を判別して、選択された場所の通信手段の識別情報を前記記憶手段から取得することを特徴とする音声会議用の通信制御装置。
マイクロフォンからの音声信号を音声認識する第１のステップと、
会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２のステップと、
通信回線を介して通信を行うための通信手段を制御して、前記第２のステップで取得した識別情報宛ての通信を開始させる第３のステップと
を有することを特徴とする音声会議用の通信制御方法。
コンピュータに、
マイクロフォンからの音声信号を音声認識する第１の手順と、
会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２の手順と、
通信回線を介して通信を行うための通信手段を制御して、前記第２の手順で取得した識別情報宛ての通信を開始させる第３の手順と
を実行させるためのプログラム。
コンピュータに、
マイクロフォンからの音声信号を音声認識する第１の手順と、
会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第２の手順と、
通信回線を介して通信を行うための通信手段を制御して、前記第２の手順で取得した識別情報宛ての通信を開始させる第３の手順と
を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。