JP2009302804A

JP2009302804A - 音声処理装置および音声処理方法

Info

Publication number: JP2009302804A
Application number: JP2008153759A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-06-12
Filing date: 2008-06-12
Publication date: 2009-12-24

Abstract

【課題】テレビ会議システム等における音響系の接続状態を自動で検出して、誤接続を的確に知らせることができる技術を提供すること。
【解決手段】本発明は、音声を取り込むマイク入力端子Ｔ１と、相手方から送られてきた音声を出力するスピーカ出力端子Ｔ２と、マイク入力端子Ｔ１で取り込んだ音声および相手方から送られてきた音声の合成を出力する録音用出力端子Ｔ３と、スピーカ出力端子Ｔ２に第１の波形から成る音声を送り、録音用出力端子Ｔ３に第１の波形とは異なる第２の波形から成る音声を送り、マイク入力端子Ｔ１で取り込んだ音声の波形から、マイク入力端子Ｔ１およびスピーカ出力端子Ｔ２ならびに録音用出力端子Ｔ３に対する機器の接続状態を判断する信号処理部１０とを有する音声処理装置である。
【選択図】図１

Description

本発明は、テレビ会議やハンズフリー電話などの拡声通話系で、音声関係の機器の接続状態を自動で検出する音声処理装置および音声処理方法に関する。

テレビ会議システムなどの拡声通話系では、遠端装置のマイクで収音された音声が、近端装置に送られ、近端装置のスピーカから放音される。近端装置にもマイクが装備されており、近端話者の音声を遠端装置へ送るように構成されている。テレビ会議システムには、複数のマイク入力端子や音声出力端子がある（例えば、特許文献１参照。）。

ここで、音声出力端子には、遠端装置のマイクで収音された音声を出力するためのスピーカを接続する出力端子や、遠端装置のマイクで収音された音声と遠端装置へ送る音声（近端話者の音声）とをミックスして録音（録画）するための録音用の出力端子とがある。

また、テレビ会議システムでは、ＧＵＩ（Graphical User Interface）によって利用する入力を選択できるものが多い。利用者は、ＧＵＩによってマイクが挿されている端子を選択するといった設定が必要となっている。

特開２００５−０８６３６５号公報

しかしながら、従来の機器では、音声入力端子や音声出力端子に正確に対応する機器が接続されているか否かを容易に判断することができず、誤接続を的確に知らせることができないという問題が生じている。

本発明は、テレビ会議システム等における音響系の接続状態を自動で検出して、誤接続を的確に知らせることができる技術を提供することを目的とする。

本発明は、音声を取り込む音声入力部と、相手方から送られてきた音声を出力する第１音声出力部と、音声入力部で取り込んだ音声および前記相手方から送られてきた音声の合成を出力する第２音声出力部と、第１音声出力部に第１の波形から成る音声を送り、第２音声出力部に第１の波形とは異なる第２の波形から成る音声を送り、音声入力部で取り込んだ音声の波形から音声入力部および第１音声出力部ならびに第２音声出力部に対する機器の接続状態を判断する信号処理部とを有する音声処理装置である。

ここで、信号処理部は、音声入力部で取り込んだ音声から第１の波形から成る音声を認識し、第２の波形から音声を認識しなかった場合、音声入力部および第１音声出力部ならびに第２音声出力部に対する機器の接続状態が全て正常であると判断する。また、信号処理部は、音声入力部で取り込んだ音声が無信号であった場合、音声入力部に対する機器の接続状態が不良であると判断する。また、信号処理部は、音声入力部で取り込んだ音声が雑音のみであった場合、音声入力部に対する機器の接続状態は正常であるが、第１音声出力部に対する機器の接続が不良であると判断する。また、信号処理部は、音声入力部で取り込んだ音声から第２の波形から成る音声を認識した場合、音声入力部に対する機器の接続状態は正常であるが、第２音声出力部に対する機器の接続状態が不良であると判断する。

このような本発明では、第１音声出力部に送った第１の波形から成る音声と、第２音声出力部に送った第１の波形とは異なる第２の波形から成る音声との戻り、すなわち、これらの音声の音声入力部での取り込み状態によって機器の接続状態を自動判別できるようになる。

また、本発明は、相手方から送られてきた音声を出力する第１音声出力部に第１の波形から成る音声を送り、音声入力部で取り込んだ音声および前記相手方から送られてきた音声の合成を出力する第２音声出力部に第１の波形とは異なる第２の波形から成る音声を送る工程と、音声入力部で取り込んだ音声の波形から音声入力部および第１音声出力部ならびに第２音声出力部に対する機器の接続状態を判断する工程とを有する音声処理方法である。

ここで、機器の接続状態の判断としては、音声入力部で取り込んだ音声から第１の波形から成る音声を認識し、第２の波形から音声を認識しなかった場合、音声入力部および第１音声出力部ならびに第２音声出力部に対する機器の接続状態が全て正常であると判断する。また、音声入力部で取り込んだ音声が無信号であった場合、音声入力部に対する機器の接続状態が不良であると判断する。また、音声入力部で取り込んだ音声が雑音のみであった場合、音声入力部に対する機器の接続状態は正常であるが、第１音声出力部に対する機器の接続が不良であると判断する。また、音声入力部で取り込んだ音声から第２の波形から成る音声を認識した場合、音声入力部に対する機器の接続状態は正常であるが、第２音声出力部に対する機器の接続状態が不良であると判断する。

本発明によれば、音声入力部や音声出力部に対して接続する機器の接続状態を自動的に検出でき、誤接続があった場合には利用者に的確に通知することが可能となる。

以下、本発明の実施の形態を図に基づき説明する。

＜音声処理装置の構成＞
図１は、本実施形態に係る音声処理装置の構成を説明するブロック図である。なお、図１に示す音声処理装置は、テレビ会議システムで適用される近端装置や遠端装置に用いられている。

本実施形態に係る音声処理装置は、音声を取り込むマイクＭを接続するマイク入力端子（音声入力部）Ｔ１と、相手方（遠端装置）から送られてきた音声を出力するスピーカＳＰを接続するスピーカ出力端子（第１音声出力部）Ｔ２と、録音（録画）機器Ｒを接続するための録音用出力端子Ｔ３と、音声信号に対する各種処理を行う信号処理部１０とを備えている。

また、近端装置は、上記構成のほか、相手方に送る音声を符号化する処理および相手方から送られてきた音声を復号化する処理を行う音声コーデック部１１と、通信回線Ｎを介して遠端装置と信号の入出力を行う通信部１２とを備えている。

本実施形態では、マイク入力端子Ｔ１が複数設けられている。図１に示す例では２つのマイク入力端子Ｔ１が設けられているが、１つのマイク入力端子Ｔ１だけでも、また、さらに多くのマイク入力端子Ｔ１を備えていてもよい。

マイク入力端子Ｔ１にマイクＭを接続した場合、利用者はどのマイク入力端子Ｔ１にマイクＭを接続したかをＧＵＩ（Graphical User Interface）によって設定する。どのマイク入力端子Ｔ１が有効になっているかを信号処理部１０に伝えるためである。

マイク入力端子Ｔ１の後段には、Ａ／Ｄ変換器２１が設けられている。Ａ／Ｄ変換器２１は、マイクＭで取り込み、アンプ（図示せず）で増幅された音声のアナログ信号を所定のサンプリングレートによってデジタル信号に変換する処理を行う。Ａ／Ｄ変換器２１で変換された音声のデジタル信号は信号処理部１０に送られる。

スピーカ出力端子Ｔ２は、相手方（遠端装置）から通信回線Ｎを介して送られてきた音声をスピーカＳＰに出力する部分である。スピーカ端子Ｔ２としてはモノラル、ステレオいずれであってもよい。

スピーカ出力端子Ｔ２の前段には、Ｄ／Ａ変換器２２が設けられている。Ｄ／Ａ変換器２２は、信号処理部１０から出力された相手方からの音声のデジタル信号をアナログ信号に変換する処理を行う。Ｄ／Ａ変換器２２で変換された音声のアナログ信号はスピーカ出力端子Ｔ２へ送られ、ここに接続されるスピーカＳＰから音声として出力されることになる。

録音用出力端子Ｔ３は、近端装置および遠端装置での会話の音声を録音するための音声を出力する部分である。すなわち、録音用出力端子Ｔ３は、近端装置側のマイクＭで取り込んだ音声と、遠端装置から送られてきた相手方の音声（スピーカＳＰから出力する音声）との合成を出力する。

録音用出力端子Ｔ３に接続された録音（録画）機器ＲＤは、録音用出力端子Ｔ３から出力される音声を所定の記録媒体に記録する。これにより、マイクＭで取り込んだ近端装置側の音声と、送られてきた相手方の音声とを録音でき、会話（会議）の内容を記録することができる。

録音用出力端子Ｔ３の前段には、Ｄ／Ａ変換器２３が設けられている。Ｄ／Ａ変換器２３は、信号処理部１０から出力された音声（マイクで取り込んだ音声と、相手方から送られてきた音声との合成音声）のデジタル信号をアナログ信号に変換する処理を行う。Ｄ／Ａ変換器２３で変換された音声のアナログ信号は録音用出力端子Ｔ３へ送られ、ここに接続される録音（録画）機器ＲＤで記録されることになる。

音声コーデック部１１は、相手方に送る音声のデジタル信号を符号化する処理および相手方から送られてきた音声のデジタル信号を復号化する処理を行う。

通信部１２は、インターネットやＬＡＮ（Local Area Network）等の通信回線Ｎを介して遠端装置との間で信号入出力を行う部分であり、符号化された音声のデジタル信号の送受信を行う。

信号処理部１０は、デジタルシグナルプロセッサ（ＤＳＰ）で構成され、入力および出力の音声データを所望のデータへ変換する処理を行う。

特に、本実施形態における信号処理部１０は、スピーカ出力端子Ｔ２に第１の波形から成る音声を送り、録音用出力端子ＲＤに第１の波形とは異なる第２の波形から成る音声を送り、マイク入力端子Ｔ１を介して取り込んだ音声の波形から、マイク入力端子Ｔ１およびスピーカ出力端子Ｔ２ならびに録音用出力端子Ｔ３に対する各機器の接続状態を判断する処理を行う。

ここで、第１の波形と第２の波形とは、マイク入力端子Ｔ１を介して取り込んだ音声の両波形を信号処理部１０で分離して処理できる相違となっている。具体的には、第１の波形と第２の波形とで各々周波数の異なる正弦波となっている。例えば、数倍から数百倍（好ましくは数１０倍）の周波数差となる正弦波を用いる。本実施形態では、第１の波形として１００Ｈｚの正弦波、第２の波形として１０００Ｈｚ（１ｋＨｚ）の正弦波を用いることとする。

信号処理部１０は、第１の波形として１００Ｈｚの正弦波をスピーカ出力端子Ｔ２に送り、スピーカＳＰから１００Ｈｚの正弦波による音を出力させる。また、信号処理部１０は、第２の波形として１ｋＨｚの正弦波を録音用出力端子Ｔ３に送る。

信号処理部１０は、上記のように第１の波形の音声および第２の波形の音声の信号を出力した状態で、マイクＭからマイク入力端子Ｔ１を介して取り込んだ音声の波形から第１の波形と第２の波形との認識を行う。そして、この認識結果に基づいてスピーカ出力端子Ｔ２にスピーカＳＰが正しく接続されているか、録音用出力端子Ｔ３に誤ってスピーカＳＰが接続されていないか、マイク入力端子Ｔ１にマイクＭが正しく接続されているかを判断する。

ここで、判断の基準について説明する。先ず、マイク入力端子Ｔ１にマイクＭが正確に接続され、スピーカ出力端子Ｔ２にスピーカＳＰが正確に接続され、録音用出力端子Ｔ３に録音（録画）機器ＲＤが正確に接続されている場合、判断は次のようになる。

この場合には、スピーカＳＰから１００Ｈｚの正弦波による音声が出力され、これがマイクＭを介して取り込まれて信号処理部１０に送られる。録音用出力端子Ｔ３に送った１ｋＨｚの正弦波による音声は録音（録画）機器ＲＤに入力されることから、外部に音声として放出されない。したがって、１ｋＨｚの正弦波による音声がマイクＭから取り込まれることはない。このことから、信号処理部１０では、マイクＭで取り込んだ音声の信号成分から１００Ｈｚの正弦波を抽出し、１ｋＨｚの正弦波を抽出しなかった場合、全ての機器が正常に接続されていると判断する。

次に、マイク入力端子Ｔ１にマイクＭが接続されていない場合、または接続不良の場合、または接続されているがＧＵＩによる設定がされていない場合、判断は次のようになる。

この場合には、マイク入力端子Ｔ１から信号処理部１０に送られる信号が無い状態（無信号）となる。したがって、信号処理部１０では、マイク入力端子Ｔ１から送られる信号が無信号であると認識した場合、マイク入力端子Ｔ１にマイクが接続されていないか、接続不良であるか、設定不良であると判断する。

次に、マイク入力端子Ｔ１にマイクＭが正確に接続されており、スピーカ出力端子Ｔ２にスピーカＳＰが接続されていないか、接続不良であるか、設定不良である場合、判断は次のようになる。

この場合には、スピーカ出力端子Ｔ２に１００Ｈｚの正弦波による音声信号が送られているものの、スピーカＳＰから出力されないため、マイクＭによって取り込む音声信号は雑音のみとなる。したがって、信号処理部１０では、マイク入力端子Ｔ１から送られる信号が雑音のみであると認識した場合、マイク入力端子Ｔ１にマイクＭは正確に接続されているものの、スピーカ出力端子Ｔ２にスピーカＳＰが接続されていないか、接続不良であるか、設定不良であると判断する。

次に、マイク入力端子Ｔ１にマイクＭが正確に接続されており、スピーカ出力端子Ｔ２にスピーカＳＰが接続されていないか、接続不良であるか、設定不良であり、録音用出力端子Ｔ３にスピーカＳＰが誤って接続されている場合、判断は次のようになる。

この場合には、スピーカ出力端子Ｔ２に送った１００Ｈｚの正弦波から成る音声はスピーカＳＰから出力されず、録音用出力端子Ｔ３に送った１ｋＨｚの正弦波から成る音声が誤接続されたスピーカＳＰから出力される。このため、マイクＭは、誤接続されたスピーカＳＰから出力される１ｋＨｚの正弦波から成る音声を取り込むことになる。信号処理部１０では、マイクＭで取り込んだ音声の信号成分から１ｋＨｚの正弦波を抽出し、１００Ｈｚの正弦波を抽出しなかった場合、マイク入力端子Ｔ１にマイクＭは正確に接続されていると判断する。さらに、信号処理部１０は、スピーカ出力端子Ｔ２にスピーカＳＰが接続されていないか、接続不良であるか、設定不良であるとともに、録音用出力端子Ｔ３にスピーカＳＰが誤接続されていると判断する。

次に、マイク入力端子Ｔ１にマイクＭが正確に接続され、スピーカ出力端子Ｔ２にスピーカＳＰが正確に接続されており、録音用出力端子Ｔ２にスピーカＳＰが誤って接続されている場合、判断は次のようになる。

この場合、スピーカ出力端子Ｔ２に送った１００Ｈｚの正弦波から成る音声がスピーカＳＰから出力され、録音用出力端子Ｔ３に送った１ｋＨｚの正弦波から成る音声も誤接続されたスピーカＳＰから出力される。このため、マイクＭは、スピーカＳＰから出力される１００Ｈｚの正弦波から成る音声と、誤接続されたスピーカＳＰから出力される１ｋＨｚの正弦波から成る音声との両方を取り込むことになる。信号処理部１０では、マイクＭで取り込んだ音声の信号成分から１００Ｈｚの正弦波と１ｋＨｚの正弦波との両方を抽出した場合、マイク入力端子Ｔ１にマイクＭは正確に接続され、スピーカ出力端子Ｔ２にスピーカＳＰが正確に接続されていると判断する。さらに、信号処理部１０は、録音用出力端子Ｔ３にスピーカＳＰが誤接続されていると判断する。

なお、上記の判断において、複数のマイクＭが各マイク入力端子Ｔ１に接続されている場合には、マイク１つに対して上記の判断を行い、これを複数のマイクＭについて繰り返し行うようにする。これにより、複数のマイクＭについてどのマイクＭが正常に接続されているか、接続、設定不良であるかを検出できることになる。

＜音声処理方法＞
図２は、本実施形態に係る音声処理方法の流れを説明するフローチャートである。なお、以下の説明で図２に示されない符号は図１を参照するものとする。

ここで、通常の音声処理は次のようになる。先ず、入力としてあるマイク入力端子Ｔ１を選択した場合、信号処理部１０では、音声コーデック部１１から送られてきた音と、Ａ／Ｄ変換器２１から送られてきた信号を用いてエコーキャンセル処理を行う。

次に、本実施形態の音声処理方法の特徴部分である接続確認の動作について説明する。先ず、接続を確認するモードに移行する。これは、例えば利用者がＧＵＩで接続確認モードを選択することで行う。

接続確認モードでは、スピーカ出力端子Ｔ２と録音用出力端子Ｔ３とにそれぞれ異なる音（第１の波形から成る音声と第２の波形から成る音声）を出力する（ステップＳ１）。異なる音としては、マイク入力端子Ｔ１を介してこれらの音を取り込んだ際、音声の波形から信号処理部１０によってこれらを分離して処理できる程度の相違となっている。具体的には、各々周波数の異なる正弦波となっている。本実施形態では、例えば、スピーカ出力端子Ｔ２に１００Ｈｚの正弦波を、録音用出力端子Ｔ３に１ｋＨｚの正弦波を出力する。

次に、選択したマイクＭの入力パワー値を計算する（ステップＳ２）。マイクＭが正しく接続されていれば、わずかな雑音を収音し、０より十分大きな値を取る。そのため、パワー値が０に近い場合（無信号の状態）は、マイクが正しく接続されていないと判断し（ステップＳ３）、警告メッセージを出して終了する。

図３は、マイクで取り込んだ信号の波形の例を示す図である。各図とも、横軸が時間、縦軸がマイクの入力パワー値である。無信号の状態は図３（ａ）に示すようにパワー値がほぼ０となる。パワー値がほぼ０であるか否かの判断は、後述する雑音のパワー値未満の閾値を設定し、この閾値を超えなければパワー値がほぼ０であると判断する。

マイクＭの入力パワー値が上記閾値以上である場合は、スピーカ出力がマイクＭに入力されているかを計算で求める（ステップＳ４）。ここで、スピーカ出力とは、正規にスピーカ出力端子Ｔ２に接続されたスピーカＳＰから出力される１００Ｈｚの正弦波による音声と、誤って録音用出力端子Ｔ３に接続されたスピーカＳＰから出力される１ｋＨｚの正弦波による音声とのいずれか、または両方をいう。さらに、スピーカ出力には雑音が含まれている場合もある。

マイクＭに入力された音声の成分における周波数の計算には、例えばスピーカ出力とマイク入力との相互相関の値を用いる。相互相関の値は、スピーカ出力がマイクＭに全く入力されない場合（相関がない場合）は０に近く、スピーカ出力がマイクＭに入力される場合は１に近くなる性質を持つ。具体的には、スピーカ出力として１００Ｈｚの正弦波を音声、１ｋＨｚの正弦波の音声、もしくはこれらを合成した音声が考えられることから、これらの波形のパターンとマイクＭで取り込んだ音声の波形のパターンとの相互相関を各々求めることになる。この相互相関の値によってスピーカ出力がマイクＭに入力されているか否かを区別することができる。

実際には、残響やノイズの影響で中間的な値をとることがあるため、閾値Ｔを用いて以下のように実現する。

相互相関の値＞Ｔの場合、スピーカ出力がマイクに入力されている。
相互相関の値＜Ｔの場合、スピーカ出力がマイクに入力されていない。

この閾値Ｔには、例えば０．３を用いる。スピーカＳＰの音がマイクＭに入力されているかの判定には、相互相関の他に、コヒーレンスを用いる手法や、マイク入力のパワースペクトルのピークを推定する手法などがあるが、どの手法を用いてもかまわない。

ここで、スピーカ出力端子Ｔ２に送った１００Ｈｚの信号とマイク入力の信号とに相関があれば、１００Ｈｚの音がマイクに入力されていると判断できる。同様に、録音用出力端子Ｔ３に送った１ｋＨｚの信号とマイク入力の信号とに相関があれば、１ｋＨｚの音がマイクに入力されていると判断できる。

相互相関の値を計算した後は、この計算結果に基づきマイク入力に含まれる信号の周波数について判断する（ステップＳ５）。そして、計算したマイク入力の有意な周波数成分が雑音のみ（１００Ｈｚの音も１ｋＨｚの音も入力されていない）であれば、スピーカが接続されていないと判断し（ステップＳ６）、警告メッセージを出して終了する。このマイク入力の有意な周波数成分が雑音のみであるとの判断は、マイクＭの入力パワー値がほぼ０ではないが、相互相関の値が閾値Ｔより小さい場合である。

図３（ｂ）は、マイクＭの入力パワー値が雑音のみの場合を示している。なお、雑音であるか否かの判断は、上記のほか、例えば一定時間の入力パワー値の平均を計算し、この平均がほぼ０ではなく、所定の閾値に収まっていれば雑音であると判断してもよい。

また、計算したマイク入力の有意な周波数成分が１００Ｈｚの音のみであれば、マイクＭもスピーカＳＰも正しく接続されていると判断し（ステップＳ７）、正常に接続されている旨のメッセージを出力して終了する。このマイク入力の有意な周波数成分が１００Ｈｚの音のみであるとの判断は、マイクＭの入力パワー値がほぼ０ではなく、１００Ｈｚの正弦波に対するマイク入力の波形パターンの相互相関の値が閾値Ｔより大きい場合である。図３（ｃ）は、マイクの入力パワー値に１００Ｈｚの音が含まれている場合を示している。

また、計算したマイク入力の有意な周波数成分が１ｋＨｚの音のみ、もしくは１００Ｈｚと１ｋＨｚの音両方であれば、スピーカＳＰが録音用出力端子Ｔ３に誤接続されていると判断し（ステップＳ８）、警告メッセージを出して終了する。このマイク入力の有意な周波数成分が１ｋＨｚの音のみであるとの判断は、マイクＭの入力パワー値がほぼ０ではなく、１ｋＨｚの正弦波に対するマイク入力の波形パターンの相互相関の値が閾値Ｔより大きい場合である。

また、マイク入力の有意な周波数成分が１００Ｈｚと１ｋＨｚの音両方であるとの判断は、マイクＭの入力パワー値がほぼ０ではなく、１００Ｈｚの正弦波と１ｋＨｚの正弦波の合成パターンに対するマイク入力の波形パターンの相互相関の値が閾値Ｔより大きい場合である。図３（ｄ）は、マイクの入力パワー値に１ｋＨｚの音が含まれている場合を示している。

図２に示すフローチャートは、予め選択された１つのマイクについての接続検査となっているが、複数のマイクが接続されている場合には、図２に示すステップの処理の各マイクについて各々選択した状態で行えばよい。

図４は、マイクに含まれる周波数成分と、接続の正誤についてまとめた図である。図４に示すように、マイクで取り込んだ信号に含まれる周波数成分がほぼ０である場合、スピーカ接続は不明であるが、マイク接続が不良（接続されていない場合、接続不良の場合、設定不良の場合を含む。以下、同様。）であると判断できる。

また、マイクで取り込んだ信号に含まれる周波数成分が雑音のみの場合、マイク接続は良好であるが、スピーカ接続が不良であると判断できる。

また、マイクで取り込んだ信号に含まれる周波数成分が１００Ｈｚの音を含み、１ｋＨｚの音を含まない場合、マイクおよびスピーカとも接続が良好であると判断できる。

また、マイクで取り込んだ信号に含まれる周波数成分が１ｋＨｚの音を含み、１００Ｈｚの音を含まない場合、マイク接続は良好であるが、スピーカが録音用出力端子に誤接続されていると判断できる。

また、マイクで取り込んだ信号に含まれる周波数成分が１００Ｈｚの音と１ｋＨｚの音との両方を含む場合、マイク接続は良好であるが、スピーカが録音用出力端子に誤接続されていると判断できる。

上記説明した音声処理方法の接続確認は、例えば利用者がＧＵＩで接続確認モードを選択することで開始されたが、このような接続確認モードでの開始のほか、近端装置を起動する際に自動的に行うようにしてもよい。

また、近端装置の起動時に接続確認を行う際、近端装置のシステム起動で出力される音（いわゆる起動音）を接続確認用の音として兼用してもよい。すなわち、いわゆる起動音の周波数成分に、スピーカ出力端子に送る第１の波形から成る音声の成分と、録音用出力端子に送る第２の波形から成る音声の成分とを含ませるようにする。これにより、システム起動でスピーカ出力されるいわゆる起動音をマイクで取り込み、先に説明したマイク入力の周波数成分の計算結果に基づき、スピーカやマイクの接続確認を自動的に行うようにする。

＜実施形態の効果＞
本実施形態によれば、マイクやスピーカが正しく接続されていないことを自動的に検出でき、接続不良や誤接続があった場合に迅速に通知することが可能となる。これにより、例えば録音用出力端子にスピーカが誤接続されることで発生するエコーやハウリングの問題を解消できる。

テレビ会議システムでは、複数のマイク入力端子が設けられていることから、ＧＵＩを用いて利用する入力を選択できるものがほとんどである。しかし、マイクが挿されていない入力をＧＵＩで選択してしまうと、近端話者の音声を遠端装置に送ることができない。本実施形態の接続確認を用いれば、選択されたマイク入力端子にマイクが正確に接続されているかを迅速に検査でき、配線や設定の確認に多くの時間を費やすことがなくなる。

なお、本実施形態では、主としてテレビ会議システムにおいて本発明の音声処理装置および音声処理方法が適用される例を説明したが、ハンズフリーマイク、ネットワークを介したパーソナルコンピュータ間で行う音声通信システムなど、自装置側の音声を送信し、相手方の音声を出力するシステムであれば適用可能である。

本実施形態に係る音声処理装置の構成を説明するブロック図である。本実施形態に係る音声処理方法の流れを説明するフローチャートである。マイクで取り込んだ信号の波形の例を示す図である。マイクに含まれる周波数成分と、接続の正誤についてまとめた図である。

符号の説明

１０…信号処理部、１１…音声コーデック部、１２…通信部、２１…Ａ／Ｄ変換器、２２…Ｄ／Ａ変換器、２３…Ｄ／Ａ変換器、Ｎ…通信回線、Ｍ…マイク、ＲＤ…録音（録画）機器、ＳＰ…スピーカ、Ｔ１…マイク入力端子、Ｔ２…スピーカ出力端子、Ｔ３…録音用出力端子

Claims

音声を取り込む音声入力部と、
相手方から送られてきた音声を出力する第１音声出力部と、
前記音声入力部で取り込んだ音声および前記相手方から送られてきた音声の合成を出力する第２音声出力部と、
前記第１音声出力部に第１の波形から成る音声を送り、前記第２音声出力部に前記第１の波形とは異なる第２の波形から成る音声を送り、前記音声入力部で取り込んだ音声の波形から、前記音声入力部および前記第１音声出力部ならびに前記第２音声出力部に対する機器の接続状態を判断する信号処理部と
を有する音声処理装置。
前記信号処理部は、前記音声入力部で取り込んだ音声から前記第１の波形から成る音声を認識し、前記第２の波形から音声を認識しなかった場合、前記音声入力部および前記第１音声出力部ならびに前記第２音声出力部に対する機器の接続状態が全て正常であると判断し、
前記音声入力部で取り込んだ音声が無信号であった場合、前記音声入力部に対する機器の接続状態が不良であると判断し、
前記音声入力部で取り込んだ音声が雑音のみであった場合、前記音声入力部に対する機器の接続状態は正常であるが、前記第１音声出力部に対する機器の接続が不良であると判断し、
前記音声入力部で取り込んだ音声から前記第２の波形から成る音声を認識した場合、前記音声入力部に対する機器の接続状態は正常であるが、前記第２音声出力部に対する機器の接続状態が不良であると判断する
請求項１記載の音声処理装置。
前記第１の波形と前記第２の波形とは、前記音声入力部で取り込んだ音声の両波形を分離して処理できる相違となっている
請求項１または２記載の音声処理装置。
前記第１の波形と前記第２の波形とは、各々周波数の異なる正弦波となっている
請求項１から３のうちいずれか１項に記載の音声処理装置。
相手方から送られてきた音声を出力する第１音声出力部に第１の波形から成る音声を送り、音声入力部で取り込んだ音声および前記相手方から送られてきた音声の合成を出力する第２音声出力部に前記第１の波形とは異なる第２の波形から成る音声を送る工程と、
前記音声入力部で取り込んだ音声の波形から、前記音声入力部および前記第１音声出力部ならびに前記第２音声出力部に対する機器の接続状態を判断する工程と
を有する音声処理方法。
前記機器の接続状態の判断では、
前記音声入力部で取り込んだ音声から前記第１の波形から成る音声を認識し、前記第２の波形から音声を認識しなかった場合、前記音声入力部および前記第１音声出力部ならびに前記第２音声出力部に対する機器の接続状態が全て正常であると判断し、
前記音声入力部で取り込んだ音声が無信号であった場合、前記音声入力部に対する機器の接続状態が不良であると判断し、
前記音声入力部で取り込んだ音声が雑音のみであった場合、前記音声入力部に対する機器の接続状態は正常であるが、前記第１音声出力部に対する機器の接続が不良であると判断し、
前記音声入力部で取り込んだ音声から前記第２の波形から成る音声を認識した場合、前記音声入力部に対する機器の接続状態は正常であるが、前記第２音声出力部に対する機器の接続状態が不良であると判断する
請求項５記載の音声処理方法。
前記第１の波形から成る音声および前記第２の波形から成る音声として、前記音声入力部および前記第１音声出力部ならびに前記第２音声出力部を備える装置の起動時の音声と兼用する
請求項５または６記載の音声処理方法。