JP2006229356A - 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体 - Google Patents

音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP2006229356A
JP2006229356A JP2005038246A JP2005038246A JP2006229356A JP 2006229356 A JP2006229356 A JP 2006229356A JP 2005038246 A JP2005038246 A JP 2005038246A JP 2005038246 A JP2005038246 A JP 2005038246A JP 2006229356 A JP2006229356 A JP 2006229356A
Authority
JP
Japan
Prior art keywords
communication
voice
meeting
identification information
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005038246A
Other languages
English (en)
Other versions
JP4507905B2 (ja
Inventor
Akira Masuda
彰 増田
Hideharu Fujiyama
英春 藤山
Masafumi Nagai
雅文 永易
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005038246A priority Critical patent/JP4507905B2/ja
Publication of JP2006229356A publication Critical patent/JP2006229356A/ja
Application granted granted Critical
Publication of JP4507905B2 publication Critical patent/JP4507905B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract


【課題】 音声会議において、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易に相手の場所との通信を開始して会議を行えるようにする。
【解決手段】 マイクロフォンからの音声信号を音声認識し(S2,S5)、認識した音声に少なくともいずれかの会議出席者の名称が含まれているか否かを、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して判別する(S6)。含まれている場合には、その含まれている名称の会議出席者に対応する場所をスケジュールデータから確認する(S9)とともに、確認した場所の通信手段の識別情報を、これらの複数の場所における通信手段の識別情報を記憶した記憶手段から取得する(S10)。そして、通信回線を介して通信を行うための通信手段を制御して、その取得した識別情報宛ての通信を開始させる(S11)。
【選択図】 図7

Description

本発明は、音声会議を行う際に相手との通信を開始するための装置,方法等に関する。
互いに離れた2以上の場所にいる者同士が会議を行う方法の一つに、音声会議と呼ばれるものがある。これは、各場所にマイクロフォンやスピーカや通信機器を用意し、マイクロフォンへの入力音声を通信機器から通信回線を介して相手の場所に送信するとともに、通信機器で受信した相手の場所からの音声信号をスピーカに送って音声出力するものである。通信回線としては公衆電話回線を利用することがあり、その場合には電話会議とも呼ばれている。
こうした音声会議を開始する際には、いずれか一つの場所から、相手の場所の通信機器の識別情報(例えば電話会議では相手の場所の電話番号)に基づいて、当該相手の場所との通信を開始するための処理を行う(例えば電話会議では相手の場所の電話番号を発呼する)ことが必要である。
従来、電話会議用の端末装置(マイクロフォン及びスピーカを有するとともに電話機機能を備えた端末装置)としては、各端末装置に固有の識別番号データを記憶した端末番号発生部や、接続する相手の設定等の各種操作を行うキーを設けたものが提案されていた(例えば、特許文献1参照)。
特開平11−215240号公報(段落番号0009、図1)
しかし、こうした従来の電話会議用の端末装置では、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合(例えば、複数の会議室のうちの空いている会議室を予約して使用する場合)には、会議出席者が、その都度相手の現在の場所を調べて、その場所の端末装置を選択する操作を行わなければならないので、たいへん不便である。
本発明は、上述の点に鑑み、電話会議等の音声会議において、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易に相手の場所との通信を開始して会議を行えるようにすることを課題としてなされたものである。
この課題を解決するために、本発明に係る音声会議用の通信制御装置は、マイクロフォンからの音声信号を音声認識する音声認識手段と、会議に使用される複数の場所における通信手段の識別情報を記憶した記憶手段と、この複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報をこの記憶手段から取得する処理手段と、通信回線を介して通信を行うための通信手段を制御して、この処理手段によって取得された識別情報宛ての通信を開始させる制御手段とを備えたことを特徴とする。
また、本発明に係る音声会議用の通信制御方法は、マイクロフォンからの音声信号を音声認識する第1のステップと、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2のステップと、通信回線を介して通信を行うための通信手段を制御して、この第2のステップで取得した識別情報宛ての通信を開始させる第3のステップとを有することを特徴とする。
また、本発明に係るプログラムは、コンピュータに、マイクロフォンからの音声信号を音声認識する第1の手順と、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2の手順と、通信回線を介して通信を行うための通信手段を制御して、この第2の手順で取得した識別情報宛ての通信を開始させる第3の手順とを実行させることを特徴とする。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、マイクロフォンからの音声信号を音声認識する第1の手順と、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して、この音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、その含まれている名称の会議出席者に対応する場所をこのスケジュールデータから確認するとともに、その確認した場所の通信手段の識別情報を、この複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2の手順と、通信回線を介して通信を行うための通信手段を制御して、この第2の手順で取得した識別情報宛ての通信を開始させる第3の手順とを実行させるプログラムを記録したことを特徴とする。
これらの発明では、マイクロフォンからの音声信号が音声認識され、その認識された音声少なくともいずれかの会議出席者の名称が含まれているか否かが、会議に使用される複数の場所のうち会議出席者が使用する予定の場所とその会議出席者の名称とを対応させたスケジュールデータを参照して判別される。
そして、含まれている場合に、その含まれている名称の会議出席者に対応する場所がこのスケジュールデータから確認されるとともに、その確認した場所の通信手段の識別情報が、それらの複数の場所における通信手段の識別情報を記憶した記憶手段から取得される。
そして、通信回線を介して通信を行うための通信手段が制御されて、その取得された識別情報宛ての通信が開始される。
したがって、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合(例えば、複数の会議室のうちの空いている会議室を予約して使用する場合)にも、その相手の名称をマイクロフォンに向けて発話するだけで、自動的にその相手の場所との通信が開始される。
これにより、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、容易にその相手の場所との通信を開始して会議を行うことができる。
なお、一例として、認識された音声に少なくともいずれかの場所の名称が含まれているか否かをこのスケジュールデータを参照して判別し、含まれている場合に、その含まれている名称の場所の通信手段の識別情報をこの記憶手段から取得する処理をさらに行い、通信手段を制御して、その取得した識別情報宛ての通信を開始させることが好適である。
それにより、会議の相手の場所は分かっているが相手方の出席者が分からないような場合にも、その相手の場所をマイクロフォンに向けて発話するだけで自動的にその相手の場所との通信が開始されるので、容易に相手の場所との通信を開始して会議を行うことができるようになる。
また、一例として、マイクロフォンからの音声信号から声紋データを抽出し、その抽出した声紋データを、予め登録された声紋データと比較照合して発話者を特定する声紋認証手段をさらに備え、スケジュールデータを参照して、この声紋認証手段によって特定された発話者が、自己の側の場所を使用する予定の会議出席者であるか否かを判別し、その場所を使用する予定の会議出席者でない場合には、記憶手段から識別情報を取得しないことが好適である。
それにより、自己の側の場所で会議に出席する予定の者が会議の相手の名称を発話した場合にのみ相手の場所との通信が開始されるので、部外者によって相手の場所との通信が開始されることを防止できるようになる。
また、一例として、音声認識によって認識された音声に含まれている名称の会議出席者がスケジュールデータにおいて複数の場所に対応している場合に、場所を選択させる音声を音声合成によって合成して出力し、その後音声認識によって認識した音声から選択結果を判別して、選択された場所の通信手段の識別情報を記憶手段から取得し、通信手段を制御して、その取得した識別情報宛ての通信を開始させることが好適である。
それにより、スケジュールデータ上で同じ名称の相手に対応する場所が複数存在する場合(例えば、名称が同じ複数の人物が別々の場所で会議に出席する予定になっている場合)に、場所を選択させる合成音声が出力される。そして、その合成音声に応答するようにして選択結果をマイクロフォンに向けて発話すると、自動的にその選択した場所との通信が開始される。したがって、スケジュールデータ上で同じ名称の相手に対応する場所が複数存在する場合にも、本来の相手が今回使用する場所を適確に選択して、その場所との通信を開始することができるようになる。
本発明によれば、会議の相手は同じであるが相手の場所が会議のたびに一定していない場合にも、その相手の名称をマイクロフォンに向けて発話するだけで自動的にその相手の場所との通信が開始されるので、容易にその相手の場所との通信を開始して会議を行えるという効果が得られる。
以下、本発明を図面を用いて具体的に説明する。図1は、本発明を適用した或る会社X内の電話会議システムの全体構成例を示す図である。会社Xの本社や支社や事業所に、複数の会議室(A会議室,B会議室,C会議室,D会議室,E会議室,…)が存在している。各会議室には、それぞれ回線接続装置1,全方位音声入力装置2及びパーソナルコンピュータ3が設置されている(D会議室以降の会議室についてはこれらの装置の図示を省略している)。
回線接続装置1は、公衆電話回線4を介した発呼・着呼の処理及び信号送受信処理を行う回路(すなわち電話機と同じ発呼・着呼機能及び信号送受信機能を有する回路)を設けた装置であり、公衆電話回線4に接続されている。
また、回線接続装置1は、アナログ音声信号の入力端子1aと、アナログ音声信号の出力端子1b及び1cと、制御信号の入力端子1dとを有しており、入力端子1aに入力したアナログ音声信号を常時出力端子1cからそのまま出力する。また、入力端子1dに入力した制御信号に基づいて発呼を行い、電話がつながった状態では、入力端子1aに入力したアナログ音声信号を公衆電話回線4を介して送信するとともに、公衆電話回線4を介して受信した音声信号を出力端子1bから出力する。
回線接続装置1の入力端子1a及び出力端子1bは全方位音声入力装置2に接続されており、回線接続装置1の出力端子1c及び入力端子1dはパーソナルコンピュータ3に接続されている。
全方位音声入力装置2は、音声会議用にマイクロフォンとスピーカとを一体化させた装置である。図2は、全方位音声入力装置2の外観構成例を示す図であり、図2(a)は斜視図、図2(b)は図2(a)のマイクロフォン収容部11の内部の上面図である。
全方位音声入力装置2は、図2(a)に示すように、マイクロフォンを収容するためのマイクロフォン収容部11と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部12と、操作部13とを含んでいる。
図2(b)に示すように、マイクロフォン収容部11の内部には、6本のマイクロフォンMC1〜MC6が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。
スピーカ収容部12に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンMC1〜MC6に対してほぼ同音量・同位相で届くように構成されている。
各会議室の会議出席者は、この全方位音声入力装置2を取り囲むようにして着席して、いずれかのマイクロフォンMC1〜MC6に向かって発話する。
図3は、全方位音声入力装置2の回路構成例を示すブロック図である。全方位音声入力装置2は、A/D変換器ブロック51と、A/D変換器517と、DSP52と、DSP53と、CPU54と、D/A変換器551,552と、増幅器561,562と、スピーカ57とを含んでいる。図3においては、A/D変換器ブロック51の一例として、各マイクロフォンMC1〜MC6に対応する6個のA/D変換器511〜516を示している。
全方位音声入力装置2は、これらの回路を実装した基板を、例えば、図2(a)に示すマイクロフォン収容部11の内部に設置したものである。
CPU54は、全方位音声入力装置2の全体制御処理を行う。
DSP52は、A/D変換器511〜516によりディジタル信号に変換された6本のマイクロフォンMC1〜MC6からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理(マイクロフォン選択処理)等の各種の信号処理を行う。DSP52の内部処理については後述する。
DSP53は、エコーキャンセラーとして機能する。すなわち、A/D変換器517を介して入力する相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、DSP52を介して入力する音声信号から減じる処理を行うことにより、エコー消去処理を行う。
DSP53の処理結果は、D/A変換器551,552によってアナログ信号に変換される。D/A変換器552からのアナログ音声信号は、増幅器562で増幅された後、出力端子571から出力して図1の回線接続装置1の入力端子1aに送られる。
図1の回線接続装置1の出力端子1bから出力されたアナログ音声信号は、全方位音声入力装置2の入力端子572に入力し、A/D変換器517によってデジタル変換され、DSP53に入力されてエコーキャンセル処理に使用されるとともに、D/A変換器551及び増幅器561を介し、スピーカ57から音として出力される。
一方、DSP52により選択されたマイクロフォンの音声信号も、DSP53を介してスピーカ57から音として出力される。すなわち、各会議室の会議出席者は、相手の会議室に配置された全方位音声入力装置2によって選択された話者の音声に加えて、自分の会議室にいる発言者が発した音声をもスピーカ57を介して聞くことができる。
全方位音声入力装置2に内蔵された6本のマイクロフォンMC1〜MC6は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるために、全方位音声入力装置2では、指向性マイクロフォンで集音することにより、周辺のノイズとのS/Nを改善している。
次に、DSP52で行う処理内容について述べる。
DSP52で行われる主な処理は、マイクロフォン(以下、単にマイクと称する場合もある)の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、全方位音声入力部3を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。
本処理を正確に行うため、DSP52は、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とピークホールド処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
(d)マイク信号の選択切替え処理
図4は、DSP52において実行される処理を示す機能ブロック図である。
図4に示すように、DSP52は、各マイク信号に対してBPF処理を行い、音圧レベルデータを生成するBPF5211〜5216からなるBPFブロック521と、BPF処理された各マイクの音圧レベルデータに対してPH処理を行い、後述するピーク値を生成するPH5221〜5226からなるPHブロック522と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部523と、を含んで構成される。
かかる構成を有するDSP52による上述した各信号処理(a)〜(d)について、以下に述べる。
(a)マイク信号の帯域分離とピ−クホールド処理
本処理は、図4に示すBPFブロック521及びPHブロック522によって行われる。
BPFブロック521の各BPF処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性(例えば、100〜600Hz)に基づいて行われる。
PH処理は、BPF処理された音圧レベルデータ(マイク信号)の最大値を保持(ピークホールド)する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記(b)〜(d)の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部523により実行される。
(b)発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始/終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
DSP52は、例えば、マイクロフォンMC1の発言の開始を判定すると、マイクロフォンMC1に設定された出力ゲインを増加させる。逆に、マイクロフォンMC1の発言の終了を判定すると、マイクロフォンMC1に設定された出力ゲインを減少させる。
(c)発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、1人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図4に示すように、各マイクを通して入力する音圧レベルデータに対して、バンドパス・フィルタ(BPF)処理及びピークホールド(PH)処理を行うことにより得られるピーク値である。
(d)マイク信号の選択切替え処理
本処理では、(c)発言者方向マイクの検出処理により選択されたマイクにDSP52の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図5に示すように、マイク信号の選択切替え処理は、6回路の乗算器と6入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン(CH Gain)を「1」に、その他の乗算器のチャンネルゲインを「0」とすることにより、加算器には〔選択されたマイク信号×1〕と〔他のマイク信号×0〕の処理結果が加算される。これにより、選択されたマイク信号(選択マイク信号)が後段のDSP53(図3)に送出される。
図1の各会議室のパーソナルコンピュータ3は、会社X内の専用線(図示略)に接続されている。会社XにはWebベースのグループウェアが導入されており、各会議室のパーソナルコンピュータ3のWebブラウザでは、会社X内のサーバー(図示略)から社員のスケジュールデータをダウンロードすることができる。
また、パーソナルコンピュータ3内には、図6に示すような、各会議室の名称とその会議室に設置された回線接続装置1の電話番号とを対応させた電話番号表のデータが予め記憶されている。
また、パーソナルコンピュータ3には、音声認識プログラムと、音声合成プログラムと、声紋認証プログラムと、通信制御プログラムとがインストールされている。これらのプログラムは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。
音声認識プログラムは、不特定話者の音声認識を行うためのプログラムであり、音声データ(ここでは、全方位音声入力装置2から回線接続装置1を経由してパーソナルコンピュータ3に送られて、パーソナルコンピュータ3内のサウンドボードでデジタル変換された音声データ)の音響的な特徴を抽出し、抽出した特徴を、予め登録した音声モデルと照合して、最も近似する候補を音声認識結果として出力する。音声認識技術としては、すでに公知の技術をこの音声認識プログラムに適用してよい。
音声合成プログラムは、文字データを音声データに変換するためのプログラムである。音声合成技術としては、すでに公知の技術をこの音声合成プログラムに適用してよい。
声紋認証プログラムは、音声データ(ここでは、全方位音声入力装置2から回線接続装置1を経由してパーソナルコンピュータ3に送られて、パーソナルコンピュータ3内のサウンドボードでデジタル変換された音声データ)を単位時間(例えば3秒間)毎に声紋認証して、発話者を特定するためのプログラムである。声紋認証技術としては、すでに公知の技術をこの声紋認証プログラムに適用してよい。
なお、この単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、パーソナルコンピュータ3のCPUの処理能力が許せば、極力短い時間が望ましい。
声紋認証プログラムの声紋認証処理は、以下の(1)乃至(3)の処理から成っている。
(1)声紋モデルの生成
音声データを単位時間分毎にスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
上記(1)の処理で生成した声紋モデルと、予め声紋レジスタ(パーソナルコンピュータ3内の記憶領域)に声紋認証対象者のIDとともに登録されている声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。そして、声紋レジスタ内の声紋モデルのうち、上記(1)の処理で生成した声紋モデルに最も近似する声紋モデルに対応するIDを特定する。
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを所定の閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したIDを有効なものと判断する。
なお、各会議室に設置されたパーソナルコンピュータ3内の声紋レジスタには、予め、声紋認証対象者として会社Xの社員(少なくとも会議に出席する機会のある社員)の声紋モデルが登録されており、IDとしては社員の氏名が登録されている。
通信制御プログラムは、会議を開始する前に、以上の音声認識プログラム,音声合成プログラム及び声紋認証プログラムと、Webブラウザと、図6に示した電話番号表とを用いて、回線接続装置1を制御するためのプログラムである。
図7は、この通信制御プログラムの処理内容を示すフローチャートである。最初に、Webブラウザを呼び出して、前述のグループウェアによって作成された当日の社員の会議室の使用予定に関するスケジュールデータをダウンロードさせ、そのスケジュールデータを取得する(ステップS1)。
図8は、このスケジュールデータを例示する図である。10時〜12時の時間帯には、田中一郎・本田二郎・鈴木三郎の3名がA会議室を使用し、伊藤六郎・坂田花子・佐々木七郎の3名がC会議室を使用し、坂田太郎・鶴牧四郎・戸田五郎の3名がE会議室を使用する予定になっている。
13時〜15時の時間帯には、田中一郎・本田二郎の2名がB会議室を使用し、香川八郎・佐藤九郎・新内よし子の3名がE会議室を使用する予定になっている。
15時〜17時の時間帯には、坂田花子・佐々木七郎の2名がA会議室を使用し、坂田太郎・戸田五郎の2名がD会議室を使用する予定になっている。
図7に示すように、ステップS1に続き、声紋認証プログラムを呼び出して前述の声紋認証処理を実行させるとともに、音声認識プログラムを呼び出して音声認識を行わせる(ステップS2)。そして、声紋認証プログラムによって発話者が特定される(特定したIDが有効と判断される)まで待機する(ステップS3)。
発話者が特定されると、ステップS1でダウンロードさせたスケジュールデータを参照して、その特定された発話者が、当該パーソナルコンピュータ3が設置されている会議室を現在の時間帯に使用する予定になっている社員であるか(すなわち会議出席者であるか)否かを判断する(ステップS4)。
ノーであれば、ステップS3に戻る。他方イエスであれば、音声認識プログラムによる当該発話者の音声の認識結果を取得する(ステップS5)。そして、ステップS1でダウンロードさせたスケジュールデータを参照して、音声認識された音声に、現在の時間帯にいずれかの会議室を使用する予定の社員の氏と、“つないで”という語とが含まれているか否かを判断する(ステップS6)。
ノーであれば、このスケジュールデータを参照して、音声認識された音声に、現在の時間帯に使用される予定のいずれかの会議室の名称と、“つないで”という語とが含まれているか否かを判断する(ステップS7)。ここでもノーであれば、ステップS3に戻る。
ステップS6でイエスであれば、その認識された氏が、スケジュールデータ内の現在の時間帯の欄に複数存在しているか否かを判断する(ステップS8)。
ノーであれば(1箇所にしか存在していなければ)、スケジュールデータから、その氏の社員が使用する会議室を確認する(ステップS9)。続いて、その確認した会議室の回線接続装置1の電話番号を、図6に示した電話番号表から取得する(ステップS10)。
そして、その取得した電話番号を発呼させる制御信号を、回線接続装置1(図1)に送り(ステップS11)、処理を終了する。
ステップS8でイエスであれば、その氏の社員が使用する複数の会議室をスケジュールデータから確認する(ステップS12)。そして、音声合成プログラムを呼び出して、会議室を選択させる音声を合成させ、その合成音声を、パーソナルコンピュータ3の内蔵スピーカ(またはパーソナルコンピュータ3本体に接続された付属スピーカ)から出力させる(ステップS13)。
続いて、この合成音声出力後の音声認識プログラムによる当該発話者の音声の認識結果を取得する(ステップS14)。そして、その認識結果から、会議室の選択結果を判別する(ステップS15)。
なお、ステップS13では、例えば、“〇〇□□さん(〇〇はステップS5で音声認識された氏、□□は名前)は、××時から××時まで×会議室にいます。つなぎますか。”という問合せの合成音声を、その氏の社員が使用する各会議室について、一定の時間(例えば数秒間)をあけながら出力する。
そして、ステップS15では、一つの会議室についてこの問合せの音声が出力された直後に音声認識プログラムによって認識された言葉に、“はい”という語が含まれていれば、その会議室が選択されたと判別する。
ステップS15に続き、その判別した会議室の回線接続装置1の電話番号を、図6に示した電話番号表から取得する(ステップS16)。そして、前述のステップS11に進む。
ステップS7でイエスであれば、その認識された名称の会議室の回線接続装置1の電話番号を、図6に示した電話番号表から取得する(ステップS17)。そして、前述のステップS11に進む。
次に、この電話会議システムにおける会議の開始の様子(一つの会議室から相手の会議室の電話番号を発呼する様子)を、図8に示したスケジュールデータ上の10時〜12時のA会議室を例にとって説明する。
図8のスケジュールデータでは、10時〜12時に、田中一郎・本田二郎・鈴木三郎の3名がA会議室を使用し、坂田太郎・鶴牧四郎・戸田五郎の3名がE会議室を使用する予定になっている。
ここでは、A会議室及びE会議室を使用して、或る部署の田中一郎・本田二郎・鈴木三郎の3名と、別の部署の坂田太郎・鶴牧四郎・戸田五郎の3名とが電話会議を行う予定であるものとして説明を行う。
図9は、A会議室の側から、会議の相手の氏を発話して会議を開始する様子を例示する図である。A会議室を使用する3名は、会議の相手として少なくとも坂田氏が出席する予定であることを知っているが、相手がどの会議室を使用するかは知らないものとする。
そこで、A会議室を使用する会議出席者のうちの例えば田中一郎が、10時になったので、パーソナルコンピュータ3で音声制御プログラムを起動させた後、全方位音声入力装置2のうちのいずれかのマイクロフォンに向けて“坂田さん、つないで”と発話する。
すると、その音声を入力したマイクロフォンからの音声信号が、全方位音声入力装置2から回線接続装置1を経由してパーソナルコンピュータ3に送られる。
パーソナルコンピュータ3では、その発話者が田中一郎であることが声紋認証によって特定される(図7のステップS2,S3)。そして、この田中一郎は、スケジュールデータ上、会議室Aを現在の時間帯(10時〜12時)に使用する予定であることが確認される(図7のステップS4)。
さらに、音声認識された“坂田さん、つないで”の音声には、“坂田”という社員の氏と“つないで”という語とが含まれていることが確認される(図7のステップS2,S5,S6)。
しかし、図8に示したように、スケジュールデータ内の現在の時間帯(10時〜12時)の欄には、坂田花子(C会議室を使用予定),坂田太郎(E会議室を使用予定)というように、坂田という氏が2つ存在していることが確認される(図7のステップS8)。
そこで、図10に示すように、まず、“坂田花子さんは、10時から12時までC会議室にいます。つなぎますか。”という問合せの合成音声が、パーソナルコンピュータ3から出力される(図7のステップS12,S13)。
この合成音声を聴いた田中一郎は、会議の相手は坂田花子ではないので、図10に示すように、“いいえ”と応答する(あるいは、無言のままでいる)。すると、今度は、図10に示すように、“坂田太郎さんは、10時から12時までE会議室にいます。つなぎますか。”という問合せの合成音声が出力される(図7のステップS13)。
この合成音声を聴いた田中一郎は、会議の相手は坂田太郎なので、図10に示すように、“はい”と応答する。すると、E会議室が選択されたと判別されて(図7のステップS14,S15)、このE会議室の回線接続装置1の電話番号が図6に示した電話番号表から取得される(図7のステップS16)。
そして、このE会議室の回線接続装置1の電話番号を発呼させる制御信号が、パーソナルコンピュータ3から回線接続装置1に送られる(図7のステップS11)。
A会議室の回線接続装置1は、この制御信号に基づき、E会議室の回線接続装置1の電話番号を発呼する。これにより、A会議室の回線接続装置1とE会議室の回線接続装置1とで電話がつながるので、A会議室・E会議室間で電話会議を開始することができる。
なお、図9の例では会議の相手のうちの坂田太郎の氏を発話しているが、鶴牧四郎や戸田五郎の氏を発話した場合には、スケジュールデータ内の現在の時間帯(10時〜12時)の欄には鶴牧や戸田という氏はそれぞれ1つしか存在しない(図7のステップS8)ので、問合せの合成音声が出力されることなく、直ちにE会議室の回線接続装置1の電話番号が取得されて(図7のステップS9,S10)、E会議室の回線接続装置1の電話番号を発呼させる制御信号が回線接続装置1に送られる(図7のステップS11)。
また、図9の例では会議の相手の氏を発話しているが、会議の相手の場所がE会議室であることは分かっているが相手方の出席者が分からない(会議の相手の部署は決まっているものの誰が出席するか分からない)ような場合には、“E会議室、つないで”と発話すれば、やはり、直ちにE会議室の回線接続装置1の電話番号が取得されて(図7のステップS7,S17)、E会議室の回線接続装置1の電話番号を発呼させる制御信号が回線接続装置1に送られる(図7のステップS11)。
また、図9の例ではA会議室を使用する会議出席者が発話しているが、この会議出席者以外の者が発話した場合には、その発話者が会議室Aを現在の時間帯(10時〜12時)に使用する予定であることが確認されない(図7のステップS4)ので、A会議室の回線接続装置1からE会議室の回線接続装置1の電話番号が発呼されることはない。
また、図9の例ではA会議室を使用する会議出席者が発話しているが、E会議室を使用する会議出席者のほうが発話した場合にも、全く同様にして、E会議室の回線接続装置1がA会議室の回線接続装置1の電話番号を発呼して、E会議室の回線接続装置1とA会議室の回線接続装置1とで電話がつながる。
以上のように、この電話会議システムによれば、会議の相手は同じであるが相手の会議室が会議のたびに一定していない場合(複数の会議室のうちの空いている会議室を予約して使用する場合)にも、相手の今回の会議室を調べることなく、その相手の名称をマイクロフォンに向けて発話するだけで、自動的にその相手の会議室との通信が開始される。
これにより、会議の相手は同じであるが相手の会議室が会議のたびに一定していない場合にも、容易にその相手の会議室との通信を開始して会議を行うことができる。
また、会議の相手の会議室は分かっているが相手方の出席者が分からないような場合にも、その相手の会議室をマイクロフォンに向けて発話するだけで自動的にその相手の会議室との通信が開始されるので、やはり容易に相手の会議室との通信を開始して会議を行うことができる。
また、自己の側の会議室で会議に出席する予定の者が会議の相手の氏(または相手の会議室名)を発話した場合にのみ相手の会議室との通信が開始されるので、部外者によって相手の会議室との通信が開始されることを防止できる。したがって、会議運営上のセキュリティを高めることができる。
また、スケジュールデータ上で同じ名称の相手に対応する会議室が複数存在する場合にも、会議室を選択させる合成音声が出力され、その合成音声に応答するようにして選択結果を発話すると自動的にその選択した会議室との通信が開始されるので、本来の相手が今回使用する会議室を適確に選択してその会議室との通信を開始することができる。
なお、以上の例では、会議出席者の名称として個人の氏を発話することにより、会議の相手の会議室との通信が開始されるようにしている。しかし、スケジュールデータに会議の相手の部署の名称が掲載される場合や、社外と会議を行う場合であってスケジュールデータに会議の相手の社名が掲載されるような場合には、会議出席者の名称として相手の部署の名称や相手の社名を発話することにより、その相手の会議室との通信が開始されるようにしてもよい。
また、以上の例では電話会議に本発明を適用しているが、電話会議以外の音声会議(例えば、各会議室間でLANや専用線を介して音声を送受信する会議)にも本発明を適用してよい。その場合にも、パーソナルコンピュータ3が、その音声会議において使用される通信機器を図1の回線接続装置1と同様にして制御するようにすればよい。
また、以上の例では、音声認識プログラム,音声合成プログラム,声紋認証プログラム,通信制御プログラムをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータ3にインストールしてもよい。
また、以上の例では、音声認識プログラム,音声合成プログラム,声紋認証プログラム,通信制御プログラムというアプリケーションソフトウェアをインストールしたパーソナルコンピュータ3を設けている。しかし、別の例として、これらのアプリケーションソフトウェアと同一の処理内容のファームウェアを実行するとともにWebブラウザ機能を有する専用プロセッサを設けた装置を、パーソナルコンピュータ3に代えて設けるようにしてもよい。
また、以上の例では、回線接続装置1,全方位音声入力装置2,パーソナルコンピュータ3という3台の装置を各会議室に設置している。しかし、これに限らず、回線接続装置1と全方位音声入力装置2とを一体化して1台の装置にしたり、さらには、その1台の装置に上記のような専用プロセッサを搭載することによって全体を1台の装置にしてもよい。
また、以上の例では1つの会社内の会議システムに本発明を適用しているが、それ以外の会議システム(例えば、複数の会社間の会議システム)にも本発明を適用してよい。
本発明を適用した電話会議システムの全体構成例を示す図である。 全方位音声入力装置の外観構成例を示す図である。 全方位音声入力装置の回路構成例を示すブロック図である。 図3のDSP52の機能ブロック図である。 DSP52のマイク信号選択切替え処理を示す機能ブロック図である。 パーソナルコンピュータ内の電話番号表を示す図である。 通信制御プログラムの処理内容を示すフローチャートである。 スケジュールデータを例示する図である。 会議の相手の氏を発話して会議を開始する様子を例示する図である。 会議室を選択させる合成音声等を例示する図である。
符号の説明
1 回線接続装置、 2 全方位音声入力装置、 3 パーソナルコンピュータ、 4 公衆電話回線、 11 マイクロフォン収容部、 12 スピーカ収容部、 13 操作部、 MC1〜MC6 マイクロフォン、 511〜516 A/D変換器、 52,53 DSP、 54 CPU、 57 スピーカ

Claims (7)

  1. マイクロフォンからの音声信号を音声認識する音声認識手段と、
    会議に使用される複数の場所における通信手段の識別情報を記憶した記憶手段と、
    前記複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を前記記憶手段から取得する処理手段と、
    通信回線を介して通信を行うための通信手段を制御して、前記処理手段によって取得された識別情報宛ての通信を開始させる制御手段と
    を備えたことを特徴とする音声会議用の通信制御装置。
  2. 請求項1に記載の音声会議用の通信制御装置において、
    前記処理手段は、前記スケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの前記場所の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の場所の通信手段の識別情報を前記記憶手段から取得する処理をさらに行う
    ことを特徴とする音声会議用の通信制御装置。
  3. 請求項1に記載の音声会議用の通信制御装置において、
    前記マイクロフォンからの音声信号から声紋データを抽出し、該抽出した声紋データを、予め登録された声紋データと比較照合して発話者を特定する声紋認証手段
    をさらに備え、
    前記処理手段は、前記スケジュールデータを参照して、前記声紋認証手段によって特定された発話者が、当該通信制御装置が設置されている場所を使用する予定の会議出席者であるか否かを判別し、該場所を使用する予定の会議出席者でない場合には、前記記憶手段から前記識別情報を取得しないことを特徴とする音声会議用の通信制御装置。
  4. 請求項1に記載の音声会議用の通信制御装置において、
    音声合成手段をさらに備え、
    前記処理手段は、前記音声認識手段によって認識された音声に含まれている名称の会議出席者が前記スケジュールデータにおいて複数の場所に対応している場合に、場所を選択させる音声を前記音声合成手段で合成させて出力させ、その後前記音声認識手段によって認識された音声から選択結果を判別して、選択された場所の通信手段の識別情報を前記記憶手段から取得することを特徴とする音声会議用の通信制御装置。
  5. マイクロフォンからの音声信号を音声認識する第1のステップと、
    会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2のステップと、
    通信回線を介して通信を行うための通信手段を制御して、前記第2のステップで取得した識別情報宛ての通信を開始させる第3のステップと
    を有することを特徴とする音声会議用の通信制御方法。
  6. コンピュータに、
    マイクロフォンからの音声信号を音声認識する第1の手順と、
    会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2の手順と、
    通信回線を介して通信を行うための通信手段を制御して、前記第2の手順で取得した識別情報宛ての通信を開始させる第3の手順と
    を実行させるためのプログラム。
  7. コンピュータに、
    マイクロフォンからの音声信号を音声認識する第1の手順と、
    会議に使用される複数の場所のうち会議出席者が使用する予定の場所と該会議出席者の名称とを対応させたスケジュールデータを参照して、前記音声認識手段によって認識された音声に少なくともいずれかの会議出席者の名称が含まれているか否かを判別し、含まれている場合に、該含まれている名称の会議出席者に対応する場所を前記スケジュールデータから確認するとともに、該確認した場所の通信手段の識別情報を、前記複数の場所における通信手段の識別情報を記憶した記憶手段から取得する第2の手順と、
    通信回線を介して通信を行うための通信手段を制御して、前記第2の手順で取得した識別情報宛ての通信を開始させる第3の手順と
    を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005038246A 2005-02-15 2005-02-15 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体 Expired - Fee Related JP4507905B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005038246A JP4507905B2 (ja) 2005-02-15 2005-02-15 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005038246A JP4507905B2 (ja) 2005-02-15 2005-02-15 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2006229356A true JP2006229356A (ja) 2006-08-31
JP4507905B2 JP4507905B2 (ja) 2010-07-21

Family

ID=36990354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005038246A Expired - Fee Related JP4507905B2 (ja) 2005-02-15 2005-02-15 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4507905B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013546282A (ja) * 2010-12-03 2013-12-26 クゥアルコム・インコーポレイテッド 会議情報を提供するためのシステムおよび方法
US9143571B2 (en) 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832949A (ja) * 1994-07-20 1996-02-02 Fujitsu Ltd 多地点テレビ会議システム
JP2004146999A (ja) * 2002-10-23 2004-05-20 Osaka Gas Co Ltd 電話転送システムおよびプログラム
JP2004185088A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd マルチチャネル会話システム
JP2006524962A (ja) * 2003-04-16 2006-11-02 モトローラ・インコーポレイテッド 動的カスタマイズ可能なスマート電話帳のための方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832949A (ja) * 1994-07-20 1996-02-02 Fujitsu Ltd 多地点テレビ会議システム
JP2004146999A (ja) * 2002-10-23 2004-05-20 Osaka Gas Co Ltd 電話転送システムおよびプログラム
JP2004185088A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd マルチチャネル会話システム
JP2006524962A (ja) * 2003-04-16 2006-11-02 モトローラ・インコーポレイテッド 動的カスタマイズ可能なスマート電話帳のための方法および装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013546282A (ja) * 2010-12-03 2013-12-26 クゥアルコム・インコーポレイテッド 会議情報を提供するためのシステムおよび方法
US9143571B2 (en) 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
JP4507905B2 (ja) 2010-07-21

Similar Documents

Publication Publication Date Title
KR102223017B1 (ko) 공유된 음성 작동 디바이스상의 호출 핸들링
JP5134876B2 (ja) 音声通信装置及び音声通信方法並びにプログラム
JP4085924B2 (ja) 音声処理装置
US5594784A (en) Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
JP5533854B2 (ja) 音声認識処理システム、および音声認識処理方法
US20070263823A1 (en) Automatic participant placement in conferencing
JP2008061241A (ja) 周囲情報を連続的に記録する方法及び通信システム
EP1170932B1 (en) Audible identification of caller and callee for mobile communication device
US6563911B2 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
US11516599B2 (en) Personal hearing device, external acoustic processing device and associated computer program product
US6671354B2 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
JP4507905B2 (ja) 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体
JP2019184809A (ja) 音声認識装置、音声認識方法
JP4640801B2 (ja) 電話機
JPH11112672A (ja) 多地点通話装置
JP2006201496A (ja) フィルタリング装置
CN111800700B (zh) 环境中对象提示方法、装置、耳机设备及存储介质
JP2005055667A (ja) 音声処理装置
JP2005055666A (ja) 音声処理装置
JP2008124597A (ja) 音声会議システム
JP2006171226A (ja) 音声処理装置
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
JP2007259427A (ja) 携帯端末装置
JP3828185B2 (ja) 会議支援システムおよび会議支援システムの制御方法
JP6392161B2 (ja) 音声会議システム、音声会議装置、その方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100426

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees