JP2008304498A - 音声検出装置、音声会議システムおよび遠隔会議システム - Google Patents

音声検出装置、音声会議システムおよび遠隔会議システム Download PDF

Info

Publication number
JP2008304498A
JP2008304498A JP2007148764A JP2007148764A JP2008304498A JP 2008304498 A JP2008304498 A JP 2008304498A JP 2007148764 A JP2007148764 A JP 2007148764A JP 2007148764 A JP2007148764 A JP 2007148764A JP 2008304498 A JP2008304498 A JP 2008304498A
Authority
JP
Japan
Prior art keywords
signal
sound
voice
input
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007148764A
Other languages
English (en)
Other versions
JP4867798B2 (ja
Inventor
Kosuke Saito
康祐 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007148764A priority Critical patent/JP4867798B2/ja
Publication of JP2008304498A publication Critical patent/JP2008304498A/ja
Application granted granted Critical
Publication of JP4867798B2 publication Critical patent/JP4867798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ノイズの大小にかかわらず、ノイズに反応せず発話音声を正確に検出することができる音声検出装置を提供する。
【解決手段】指向性マイクを2つ設置し、環境ノイズは両方のマイクにほぼ均等に入力され、目的音声信号(話者の発話音声)は、一方のマイクのみに入力されるようにする。両方のマイクが収音した音声信号(収音信号)のレベル差Dを算出するとともに、パワー比Pを算出する。レベル差Dに、しきい値DT1、DT2(DT1<DT2)を設定するとともに、パワー比Pに、しきい値PT1、PT2(PT1>PT2)を設定する。そして、D>DT1且つP>PT1、または、D>DT2且つP>PT2のいずれか一方が満たされたとき、目的音声信号が入力されたと判定する。
【選択図】図5

Description

この発明は、話者の発話音声等の目的音声をノイズと識別して検出する音声検出装置に関し、また、この音声検出装置を用いた音声会議システムおよび遠隔会議システムに関する。
拡声装置や、遠隔会議装置等の収音装置には、会議出席者(話者)が発言したことを検出する機能、すなわち発話検出機能を備えたものがある(たとえば特許文献1)。この特許文献1の装置では、複数の話者に対して、その話者よりも少ない数のマイクを設置し、各マイクが収音した音声信号(収音信号)のうち、しきい値を超えたものの位置および数に基づいてどの話者が発言したかを検出するものである。
特開平01−162465号公報
しかし、上記特許文献1の話者検出装置では、マイクによって収音される音声信号が話者の発言を収音したか否かを判定するためのしきい値が固定的な値であった。すなわち、収音信号がこのしきい値を超えると話者の発言を収音したと判定していた。
しかし、このような構成で、小さい発話音声を検出しようとすると、しきい値を低く設定しなければならない。しきい値を低く設定すると、ノイズが大きい環境では、ノイズがしきい値を超える場合があり、誤検出が発生する問題点があった。また、ノイズが大きい環境にあわせてしきい値を高く設定すると、ノイズの小さい環境での小さい発話音声を検出することができないという問題点があった。
この発明は、ノイズの大小にかかわらず、ノイズに反応せず発話音声を正確に検出することができる音声検出装置、音声会議システムおよび遠隔会議システムを提供することを目的とする。
請求項1の発明は、それぞれ異なる方向に向けて設置された複数の指向性マイクと、前記複数の指向性マイクのうち少なくとも2つのマイクによって収音された音声信号である収音信号の大きさの差Dを検出する差検出部と、前記収音信号の大きさの比Pを検出する比検出部と、検出された差Dおよび比Pに基づいて、前記指向性マイクに目的となる音声信号である目的音声信号が入力されたか否かを判定する目的音声判定部と、を備えた音声検出装置である。
この発明では、収音信号の大きさの差Dおよび収音信号の大きさの比Pの両方に基づいて目的音声信号が入力されたか否かを判定する。環境ノイズは、上記少なくとも2つのマイクにほぼ同じレベルで入力されるが、目的音声信号は、上記少なくとも2つのマイクに対して不均等に(一方のみに)入力される。そして、目的音声信号が入力されたときの差Dの変化および比Pの変化は、ノイズの大小によりそれぞれ異なる態様である。これにより、どちらか一方のみを用いて判定する場合に比べて高精度に目的音声信号の入力を判定することができる。
請求項2の発明は、請求項1の発明において、前記目的音声判定部は、前記差Dに、複数のしきい値DT1、DT2、・・・、DTn(DT1<DT2<・・・<DTn)を設定するとともに、前記比Pに、複数のしきい値PT1、PT2、・・・、PTn(PT1>PT2>・・・>PTn)を設定し、前記差Dおよび比Pが、i=1〜nの少なくとも1つのiにおいて、D>DTiまたはD≧DTi、且つ、P>PTiまたはP≧PTiを満たすとき、目的音声信号が入力されたと判定することを特徴とする。
この発明では、ノイズが大きくなるほど、差Dのしきい値DTを大きくし、比Pのしきい値PTを小さくするというルールに基づいて、複数のしきい値を設定した。これにより、環境のノイズレベルがどのようであっても、高精度に発話を検出することができる。
請求項3の発明は、請求項1の発明において、前記目的音声判定部は、「ノイズが大きいほど、目的音声信号が入力されない場合でも差Dが大きい。」、「ノイズが大きいほど、目的音声信号が収音されたときのパワー比Pの変化が小さい。」という特性を反映した条件式が特定のしきい値TH以上になったとき、目的音声信号が入力されたと判定することを特徴とする。
この発明では、「ノイズが大きいほど、目的音声信号が入力されない場合でも差Dが大きい。」、「ノイズが大きいほど、目的音声信号が収音されたときのパワー比Pの変化が小さい。」という特性を反映した条件式を用いて目的音声信号の入力の有無を判定する。条件式としては、たとえば、aD+bP>THまたはaD+bP≧TH等がある。これにより、高精度に発話を検出することができる。
請求項4の発明は、請求項1〜3の発明において、前記複数の指向性マイクに代えて、複数のマイクをアレイ状に配置したマイクアレイと、前記マイクアレイの各マイクによって収音された音声信号を遅延させて合成することにより、前記複数の指向性マイクの設置方向に指向性を有する複数の収音ビームを形成する収音ビーム形成部と、を備えたことを特徴とする。
請求項5の発明は、請求項1乃至4のいずれかに記載の音声検出装置と、前記音声検出装置によって目的音声信号が入力されたことが判定されたとき、前記指向性マイクによって収音された音声信号を外部に出力する音声出力部と、外部から入力された音声信号を放音する放音部と、を備えた放収音装置を、複数接続した音声会議システムである。
請求項6の発明は、請求項1乃至4のいずれかに記載の音声検出装置と、前記音声検出装置によって目的音声信号が入力されたことが判定されたとき、前記指向性マイクによって収音された音声信号を外部に出力する音声出力部と、外部から入力された音声信号を放音する放音部と、を備えた放収音装置を、ネットワークまたは通信回線を介して複数接続した遠隔会議システムである。
この発明によれば、ノイズの大小にかかわらず、目的音声信号の入力の有無を誤判定なく、高精度に検出することが可能になる。
≪基本構成の説明≫
図面を参照してこの発明の実施形態である収音装置について説明する。
図1は、同収音装置の概略構成を示す図である。収音装置100は、2つの指向性マイク101L,101Rを備えている。各マイクは、それぞれ異なる方向に向けて設置されている。マイク101Lは、装置正面(同図下方向)から左45度に向けて設置され、マイク101Rは、装置正面から右45度に向けて設置されている。
空調音等の環境ノイズ(以下、単に「ノイズ」と呼ぶ。)は、両マイク101L,Rに、ほぼ均等であるが、若干のレベル差で収音される。また、この収音装置を使用する発話者110は、この収音装置100の略正面に着席している。発話者110が発する発話音声(目的音声)は、マイク101L,Rの一方または両方に入力する。発話音声は、マイク101L,Rの両方に入力する場合でも、両マイク101L,Rに不均等に、すなわち大きなレベル差で入力されるものとする。以下の実施形態では、目的音声が左側のマイク101Lのみに入力するものとして説明する。
マイク101Lには、A/Dコンバータ102Lが接続されている。マイク101Rには、A/Dコンバータ102Rが接続されている。A/Dコンバータ102L,Rには発話検出部103および音声出力部104が接続されている。A/Dコンバータ102L,Rは、それぞれマイク101L,Rが収音した音声信号をデジタル信号に変換して、発話検出部103および音声出力部104に入力する。
発話検出部103は、マイク101Lが収音した音声信号SLとマイク101Rが収音した音声信号SRの各信号レベルの差であるレベル差Dおよび各信号パワーの比であるパワー比Pに基づいて発話の有無を検出する。発話検出部103は、検出した発話の有無を音声出力部104に通知する。音声出力部104は、発話検出部103から発話を検出した旨の通知を受けたとき、マイク101Lおよび/またはマイク101Rが収音した音声信号を後段に出力する。
≪発話検出方式の説明≫
図2〜図4を参照して、発話検出部103が行う発話検出のアルゴリズムについて説明する。
図2は、ノイズが小さい環境における収音信号、ノイズ、レベル差D、パワー比Pの関係を説明する図である。また、図3は、ノイズが大きい環境における収音信号、レベル差D、パワー比Pの関係を説明する図である。
すなわち、図2(A)は、左側のマイク101Lによって収音されるノイズ(ノイズL)、右側のマイク101Rによって収音されるノイズ(ノイズR)、および、左側のマイク101Lによって収音される目的音声信号のレベルを示す図である。同図の目的音声信号は、話者が小声で話した場合の信号レベルを示している。同図(B)は、左側のマイク101Lの収音信号と右側のマイク101Rの収音信号のレベル差(V)を示す図である。この図において、d0は、目的音声信号が収音されない場合のレベル差の推移を示す曲線である。また、d1は、マイク101Lによって目的音声信号が収音された場合のレベル差の推移を示す曲線である。同図(C)は、左側のマイク101Lの収音信号と右側のマイク101Rの収音信号のパワー比(dB)を示す図である。この図において、p0は、目的音声信号が収音されない場合のパワー比の推移を示す曲線である。また、p1は、マイク101Lによって目的音声信号が収音された場合のパワー比の推移を示す曲線である。
また、図3も同様に、図3(A)は、左側のマイク101Lによって収音されるノイズ(ノイズL)、右側のマイク101Rによって収音されるノイズ(ノイズR)、および、左側のマイク101Lによって収音される目的音声信号のレベルを示す図である。同図の目的音声信号は、話者が小声で話した場合の信号レベルを示している。同図(B)は、左側のマイク101Lの収音信号と右側のマイク101Rの収音信号のレベル差(V)を示す図である。この図において、d0は、目的音声信号が収音されない場合のレベル差の推移を示す曲線である。また、d1は、マイク101Lによって目的音声信号が収音された場合のレベル差の推移を示す曲線である。同図(C)は、左側のマイク101Lの収音信号と右側のマイク101Rの収音信号のパワー比(dB)を示す図である。この図において、p0は、目的音声信号が収音されない場合のパワー比の推移を示す曲線である。また、p1は、マイク101Lによって目的音声信号が収音された場合のパワー比の推移を示す曲線である。
図2(A)に示すように、ノイズが小さい環境下では、左右のマイク101L,Rに収音されるノイズ(ノイズL,ノイズR)のレベルは、目的音声信号のレベルに比べて十分に小さく、また、両ノイズ間のレベル差も小さい。
また、図3(A)に示すように、ノイズが大きい環境下では、左右のマイク101L,Rに収音されるノイズ(ノイズL,ノイズR)のレベルは、(小さい)目的音声信号のレベルに近いレベルであり、また、レベルが大きいため、両ノイズ間のレベル差も大きい。
このように、ノイズが小さい環境下では、左右のマイク101L,Rで収音されるノイズのレベル差が小さいうえに、目的音声信号のレベルがノイズに比べて十分に大きいため、図2(B)に示すように、小さい値のレベル差しきい値DT1を設定し、左右の収音信号のレベル差Dの、このしきい値DT1に対する大小を判定することで目的音声信号が収音されているか否かを推定することができる。
また、ノイズが大きい環境下では、左右のマイク101L,Rで収音されるノイズのレベル差が大きく、目的音声信号のレベルとノイズのレベルに大きな差がないため、図3(B)に示すように、
(上記DT1よりも)大きい値のレベル差しきい値DT2を設定し、左右の収音信号のレベル差Dの、このしきい値DT2に対する大小を判定することで目的音声信号が収音されているか否かを推定することができる。
パワー比について見ると、ノイズが小さい環境下でもノイズが大きい環境下でも、左右のマイク101L,Rで収音されるノイズのパワー比には大差がない。ノイズが小さい環境下のほうが、ノイズのレベル変化がパワー比の変動に与える影響が大きいため、ノイズが小さい環境下のノイズのみのパワー比変動曲線である図2(C)の曲線p0のほうが、ノイズが大きい環境下のノイズのみのパワー比変動曲線である図3(C)の曲線p0に比べて変動が大きく、若干値も大きい程度である。
一方、目的音声信号がパワー比に与える影響は、ノイズが小さい環境下のほうがノイズが大きい環境下よりも圧倒的に大きいため、ノイズが小さい環境下における目的音声信号が収音された場合のパワー比変動曲線である図2(C)の曲線p1は、ノイズが大きい環境下における目的音声信号が収音された場合のパワー比変動曲線である図3(C)の曲線p1よりもはるかに値が大きくなっている。
したがって、ノイズの小さい環境下では、図2(C)に示すように、大きい値のパワー比しきい値PT1を設定し、左右の収音信号のパワー比Pの、このしきい値PT1に対する大小を判定することで目的音声信号が収音されているか否かを推定することができる。
また、ノイズが大きい環境下では、図3(C)に示すように、(上記PT1よりも)小さい値のパワー比しきい値PT2を設定し、左右の収音信号のパワー比Pの、このしきい値PT2に対する大小を判定することで目的音声信号が収音されているか否かを推定することができる。
以上のレベル差に基づく推定とパワー比に基づく推定を複合して行うことにより、より高精度に目的音声信号入力の有無の検出、すなわち発話検出を行うことができる。
すなわち、レベル差Dに、2つのしきい値DT1、DT2(DT1<DT2)を設定するとともに、パワー比Pに、2つのしきい値PT1、PT2(PT1>PT2)を設定し、レベル差D>DT1且つパワー比P>PT1を満たすときは、ノイズの小さい環境下で目的音声信号が入力されたと推定することができ、レベル差D>DT2且つパワー比P>PT2を満たすときは、ノイズの大きい環境下で目的音声信号が入力されたと推定することができる。
図4は、発話検出部103の機能ブロック図である。この機能ブロック図は、上記発話検出のアルゴリズムを論理回路図で表した図である。
同図において、レベル差計算部201が、左側のマイク101Lが収音した音声信号(収音信号L)と右側のマイク101Rが収音した音声信号(収音信号R)とのレベル差を計算する。また、パワー比計算部202が、収音信号Lと収音信号Rとのパワー比を計算する。
レベル差計算部201によって計算されたレベル差Dは、レベル差判定部211、213に入力される。レベル差判定部211は、レベル差Dがしきい値DT1よりも大きいか否かを判定する。レベル差判定部213は、レベル差Dがしきい値DT2よりも大きいか否かを判定する。パワー比計算部202によって計算されたパワー比Pは、パワー比判定部212、214に入力される。パワー比判定部212は、パワー比Pがしきい値PT1よりも大きいか否かを判定する。パワー比判定部214は、パワー比Pがしきい値PT2よりも大きいか否かを判定する。レベル差判定部211,213、パワー比判定部212,214は、その判定結果が肯定的であったとき、判定結果信号としてTrue(1)を出力する。
レベル差判定部211の判定結果信号およびパワー比判定部212の判定結果信号は、AND回路215に入力される。レベル差判定部213の判定結果信号およびパワー比判定部214の判定結果信号は、AND回路216に入力される。また、AND回路215、216の出力はOR回路217に入力される。この接続により、レベル差判定部211の判定結果が肯定的(D>DT1)且つパワー比判定部212の判定結果が肯定的(P>PT1)の場合、または、レベル差判定部213の判定結果が肯定的(D>DT2)且つパワー比判定部214の判定結果が肯定的(P>PT2)の場合にOR回路217から(1)が出力される。このOR回路217からの(1)の出力を話者検出信号として用いることができる。
なお、この図では、発話検出部103の機能を複数の論理回路からなるブロック図で表しているが、この発話検出処理をソフトウェアによる順次処理で実現することも可能である。この場合、発話検出部103の機能は、図9,図10に示すようなフローチャートで表される。
なお、上記判定において、レベル差Dとしきい値DT1,DT2との比較、および、パワー比Pとしきい値PT1,PT2の比較を「>」で行っているが、等号を含む不等号「≧」で行ってもよい。また、レベル差D、パワー比Pに設定するしきい値は2段階に限定されず、より多段階に設定することも可能である。
また、この実施形態では、左右のマイク101L,Rの収音信号のリニアな値(V)の差をレベル差Dとし、収音信号の二乗値の対数値(dB)をパワー比としているが、発話検出に用いる差Dおよび比Pはこれに限定されない。たとえば、比Pとして(二乗しない)電圧値の比を用いてもよく、また、その対数値を用いてもよい。
さらに、図2〜図4では、レベル差とパワー比のしきい値をノイズレベルに応じて複数段階に設定する方式について説明したが、図2、図3の説明で明らかなように、「ノイズが大きくなるほど、目的音声信号が無い場合のレベル差Dが大きく、且つ、目的音声信号が収音されたときのパワー比Pの変化が小さい。」という特性がある。このため、各しきい値は、「ノイズが大きくなるほど、レベル差Dのしきい値DTを大きくし、パワー比Pのしきい値PTを小さくする。」というルールに基づいて設定される。したがって、レベル差Dのしきい値DTを単調増加関数fd(x);(xはノイズレベル)で表し、パワー比Pのしきい値PTを単調減少関数fp(x)で表すことも可能である。
すなわち、所定のノイズレベル(x)の範囲で、レベル差DがDT(=fd(x))を超え、且つ、パワー比PがPT(=fp(x))を超えるxが存在するか否かを演算し、xが存在する場合には発話有りと判定し、無い場合には発話無しと判定する。
また、レベル差Dとパワー比Pについて別々のしきい値を設定せずにこれらを複合した関数g(D,P)が複合したしきい値THを超えるか否かで発話を検出するようにしてもよい。複合した関数としてはたとえば、一次関数aD+bPがある。
≪変形例の説明≫
図5(A)、(B)は、図1に示した収音装置の変形例を示す図である。
同図(A)は、左右のマイク101L,Rに加えて、目的音声収音用のセンタマイク101Cを設けた例である。この構成では、センタマイク101Cが、音声出力部104に接続されている。発話検出部103が発話を検出すると、音声出力部104は、センタマイク101Cが収音した音声信号を後段に出力する。センタマイク101Cは、装置の真正面ではなく、左30度等の若干斜めの方向に設置される。これは、発話音声等の目的音声信号が、左右のマイク101L,Rに対して異なるレベルで収音されるようにするため、話者が装置の真正面から外れた位置に着席するためである。
また、同図(B)は、図1、図5(A)に示した指向性マイク101L,R,Cに代えて、マイクアレイ101Aを設けた例を示す図である。この構成の収音装置では、マイクアレイ101Aの各マイクが収音した音声信号を遅延合成することによって、上記101L,Rさらには101Cと同じ方向に指向性を有する収音ビームBL,BR,BCを形成する。
≪マイクアレイを用いた放収音装置の説明≫
図5(B)にマイクアレイを用いた収音装置の概略構成を示したが、図6以下の図面を参照して、このマイクアレイおよびスピーカアレイを用いた放収音装置についてさらに詳細に説明する。
図6は、同放収音装置の外観斜視図、図7(A),(B),(C)は、同放収音装置のそれぞれ正面図,底面図,背面図である。この放収音装置は、筐体の前後側面にそれぞれ16個ずつの2列のマイクアレイを備えているとともに(図7(A)、(C)参照)、筐体の底面に1列(16個)のスピーカアレイを備えている(図7(B)参照)。
なお、この実施形態の説明において、図7(A)に示す面(図6に図示されている長手側面)を音声会議装置(筐体)の正面、前面または前側面と呼び、図7(C)に示す面を音声会議装置(筐体)の背面、後面または後側面と呼ぶ。したがって、図7(A)の右端が右側面であり、左端が左側面である。なお、右側面は図6に図示されている短手側面である。
図6において、この放収音装置1は、筐体112、脚部113、操作部114を備えている。筐体112は左右方向に長尺の略直方体形状からなり、左右両端部には、脚部113が設置されている。脚部113は、筐体112を会議机等の設置面から所定高さ持ち上げた状態で支持する。なお、以下の説明では、筐体112の四側面のうち、前後側面を長尺面、左右側面を短尺面と称する。
筐体112の上面の右端部には、LCDディスプレイ41や複数のボタン42からなる操作部114が設置されている。操作部114は筐体112内に設置されたメイン制御部10に接続されている。操作ボタン42は、会議出席者の操作入力を受け付けてメイン制御部10に伝達する。LCDディスプレイは、その操作内容や実行モード等を表示する。
筐体112の右側面には、入出力端子群が埋め込まれている。すなわち、ネットワークケーブルが接続されるネットワーク接続端子61、オーディオ入出力端子であるライン出力端子62L,R(OutL,R)、ライン入力端子63L,R(InL,R)が埋め込まれている。ライン出力端子62L,R(OutL,R)、ライン入力端子63L,R(InL,R)は、ピンジャック等のアナログ信号端子であってもよく光ファイバ等のデジタルオーディオ端子であってもよい。なお、図示はしないが電源に接続するための電源端子もこの右側面に埋め込まれている。
筐体112の下面には、同一仕様のスピーカSP1〜SP16が設置されている。これらスピーカSP1〜SP16は長尺方向に沿って一定の間隔で直線状に設置されており、これによりスピーカアレイSPAが構成される。筐体112の前側面には、同一仕様のマイクMIC101〜MIC116が設置されている。これらマイクMIC101〜MIC116は長尺方向に沿って所定の間隔で直線状に設置されており、これにより前面側のマイクアレイMAFが構成される。また、筐体112の後側面にも、同一仕様のマイクMIC201〜MIC216が設置されている。これらマイクMIC201〜MIC216も長尺方向に沿って所定の間隔で直線状に設置されており、これにより背面側のマイクアレイMARが構成される。そして、筐体112の下面、前側面、後側面には、上記スピーカアレイおよびマイクアレイを覆うように、ネット状の下面グリル121が設置されている。
なお、本実施形態では、スピーカアレイのスピーカ数を16本とし、各マイクアレイのマイク数をそれぞれ16本としたが、これに限ることなく、仕様に応じてスピーカ数およびマイク数は適宜設定すればよい。また、本実施形態では、スピーカアレイとマイクアレイの配置を等間隔にしたが、仕様に応じて適宜配置してもよい。例えば、長尺方向に沿って中央部で密に配置され、両端部に向かうに従って疎に配置されるような態様でもよい。
図8は、同放収音装置1の音声信号処理系統のブロック図である。放収音装置1は、メイン制御部10、ミキシング部11、放音制御部12、D/Aコンバータ13、放音アンプ(AMP)14、収音アンプ(AMP)15、A/Dコンバータ16、収音制御部17、ハウリングキャンセル部18、通信制御部19、操作部114、スピーカSP1〜SP16、マイクMIC101〜MIC116、MIC201〜MIC216を備えている。
マイクMIC101〜MIC116、MIC201〜MIC216は、到来する音声を収音して電気的な収音信号に変換し、収音アンプ15に入力する。各マイクが収音する音声には、装置の周囲に在席する発話者からの発話音声が含まれる。収音アンプ15は収音信号を増幅してA/Dコンバータ16に入力する。A/Dコンバータ16は、アナログの収音信号をデジタル信号に変換して、収音制御部17に入力する。
収音制御部17は、各マイクMIC101〜MIC116,MIC201〜MIC216の収音信号を用いて、図5(B)に示す複数の収音ビームを並列に形成する。収音ビームBCは装置の左30度に向けて形成される。収音ビームBLは装置の左約45度の方向に向けて形成される。収音ビームBRは装置の右約45度の方向に向けて形成される。焦点は、いずれの収音ビームも装置長手方向の中心軸から約1メートル程度の距離になるように設定される。なお、図5(B)は、装置前面側の収音ビームのみ図示しているが、この放収音装置は、装置後面側にも同様に収音ビームを形成することができる。収音制御部17は、左右の収音ビームBL,BRで収音した収音ビーム信号のレベルを逐次メイン制御部10に通知する。
メイン制御部10は、左右の収音ビーム信号レベル値に基づき、レベル差Dおよびパワー比Pを算出し、図2〜図4に示した手法で発話を検出する。メイン制御部10が、発話を検出すると、発話検出信号を収音制御部17に対して出力する。収音制御部17は、中央の収音ビームBCで収音した音声信号を発話音声信号Ssとしてミキシング部11に出力する(マイクオン)。
収音制御部17から出力された発話音声信号Ssは、ミキシング部11の処理により、ライン出力端子に出力されるとともに、ハウリングキャンセル部18に入力されて、ハウリング検出部により、ノッチフィルタを制御する。
放音制御部12は、スピーカアレイの各スピーカSP1〜SP16に供給する音声信号Sdを、各スピーカごとに個別の遅延時間だけ遅延させる。各スピーカSP1〜SP16に供給する音声信号をそれぞれどの時間だけ遅延させるかはメイン制御部10によって設定される。メイン制御部10は、装置の正面に仮想焦点を設定して各スピーカSP1〜SP16に供給する音声信号の遅延時間を、放音制御部12に設定する。
放音制御部12は、遅延処理を行った音声信号Sdを各D/Aコンバータ13に入力する。各D/Aコンバータ13は、入力された放音信号をアナログ信号に変換して、各放音アンプ14に与え、各放音アンプ14はアナログ化された放音信号を増幅して、各スピーカSP1〜SP16に与える。各スピーカSP1〜SP16は、入力された音声信号を放音する。
上記のように、スピーカアレイによる放音は、装置の真正面方向に行われる。このため、放音された音声は、左右の収音ビームBL,BRに均等に収音され、左右の収音信号のレベル差に影響を及ぼさない(パワー比に与える影響も僅かである)。したがって、スピーカアレイからの放音により、発話検出部103において、レベル差D、パワー比Pがしきい値を超えることはなく、この放音音声が目的音声信号と誤認されることはない。
ミキシング部11において、ミキサ111Lは、ライン入力端子InR(63R)からライン入力された音声信号SdRに収音した発話音声信号Ssを重畳してライン出力端子OutL(62L)に出力し、ミキサ111Rは、ライン入力端子InL(63L)からライン入力された音声信号SdLに収音した発話音声信号Ssを重畳してライン出力端子OutR(62R)に出力する。加算器502は、外部から入力された音声信号SdR、音声信号SdLおよび収音した発話音声信号Ssを加算して音声信号Sdを生成し、これを放音制御部12に出力する。
加算器502と放音制御部12の間には、ハウリングキャンセル部18のノッチフィルタ181が挿入されている。ハウリングキャンセル部18は、ハウリング検出部182およびノッチフィルタ181からなる。ハウリング検出部182は、収音制御部17が出力した音声信号をFFTして、急峻なピークが一定時間以上持続していないかを監視する。急峻なピークが一定時間以上持続している場合には、そのピーク成分をハウリング音であると判定し、その周波数成分を除去するべくノッチフィルタ181を設定する。ノッチフィルタ181は、ろ波する音声信号のうち特定の周波数成分のみを狭帯域に急峻に減衰させるフィルタであり、ノッチ周波数はハウリング検出部182によって設定される。なお、ハウリング検出部182がハウリングを検出していない場合、ノッチフィルタ181は機能しないよう設定される。
また、通信制御部19は、ネットワーク接続端子61を介して他の放収音装置等とデータ通信を行うための制御部である。
ライン入力端子およびライン出力端子は、この放収音装置を複数台接続して遠隔会議装置または音声会議装置を構成する場合に使用される。ここで、遠隔会議装置は、図11に示すように、別室または遠隔の複数の会議室にそれぞれ放収音装置1を設置し、各放収音装置1をネットワーク2を介して接続することにより、通信による音声会議を可能にしたシステムである。音声会議装置は、図12に示すように、同じ会議室に複数台の放収音装置1を設置して、会議における発話音声の拡声を行うものである。
ネットワーク等に接続して遠隔会議装置を構成する場合、または、2台の放収音装置を相互に接続して音声会議装置を構成する場合には、ライン入力端子としてInR,Lのどちらを用いてもよく、ライン出力端子としてOutR,Lのどちらを用いてもよい。
また、図12に示すように、3台以上の放収音装置をラダー状に接続して音声会議装置を構成する場合、ライン入力端子InL(63L)およびライン出力端子OutL(62L)は、この装置の左側に連結される他の放収音装置に接続され、ライン入力端子InR(63R)およびライン出力端子OutR(62R)は、この装置の右側に連結される他の放収音装置に接続される。なお、図12のようにラダー接続した音声会議装置を別々の会議室にそれぞれ設置し、これらの音声会議装置をネットワーク等で接続して遠隔会議装置を構成するようにしてもよい。
≪メイン制御部10の動作の説明≫
図9、図10は、前記メイン制御部10による発話検出動作を示すフローチャートである。
図9は、レベル差D、パワー比PにN段階のしきい値を設定した場合の動作を示すフローチャートである。すなわち、図2〜4の説明では、2段階のしきい値を設定しているが、このフローチャートでは、このしきい値をN段階に拡張した動作を示している。この処理動作は、話者の発言の頭切れが生じない程度に短い周期で繰り返し実行される。
メイン制御部10は、収音制御部17から入力された収音ビームBL,BRの信号レベルに基づき以下の処理を行う。まずレベル差Dを算出し(S11)、パワー比Pを算出する(S12)。次に、しきい値の番号を指定する引数であるiに0をセットする(S13)。
引数iに1を加算し(S14)、i番目のしきい値セットDTi,PTiを読み出す(S15)。そして、S11で算出したレベル差Dがしきい値DTiよりも大きく(S16)、且つ、S12で算出したパワー比がしきい値PTiよりも大きい(S17)か否かを判定する。S16,S17の判定が両方とも肯定的(YES)であった場合には、発話を検出したとして発話検出信号を出力する(S18)。S16,S17の判定の少なくとも一方が否定的(NO)であった場合には、iがN未満であることを条件に(S19)、S14に戻り、次のしきい値セットに対するレベル差D、パワー比Pの大小を判定する。
S19において、iがN以上になっている場合には、今回発話は検出されなかったとして動作を終了する。
図10は、レベル差Dとパワー比Pを変数とする所定の条件式を特定のしきい値THと比較することによって発話を検出する場合のメイン制御部10の動作を示すフローチャートである。条件式としては、たとえば「aD+bP」を用いることができる。この処理動作は、話者の発言の頭切れが生じない程度に短い周期で繰り返し実行される。
メイン制御部10は、収音制御部17から入力された収音ビームBL,BRの信号レベルに基づき、レベル差Dを算出し(S21)、パワー比Pを算出する(S22)。そして、このレベル差Dおよびパワー比Pを上記条件式に当てはめて値を求め、この値が所定のしきい値THを超えているかを判定する(S23)。S23の判定が肯定的(YES)であった場合には、発話を検出したとして発話検出信号を出力する(S24)。S23の判定が否定的(NO)であった場合には、今回発話は検出されなかったとして動作を終了する。
なお、この実施形態では、人間の発話を例にあげて説明したが、検出対象は人間の発話に限定されない。
本発明の実施形態である収音装置の基本構成を示す図 ノイズが小さい環境下におけるレベル差D、パワー比Pおよびしきい値の関係を説明する図 ノイズが大きい環境下におけるレベル差D、パワー比Pおよびしきい値の関係を説明する図 発話検出のアルゴリズムの例を示す図 収音装置の変形例を示す図 マイクアレイ、スピーカアレイを用いた放収音装置の外観斜視図 同放収音装置の底面図および前後側面図 同放収音装置のブロック図 同放収音装置のメイン制御部の発話検出動作を示すフローチャート 同放収音装置のメイン制御部の発話検出動作を示すフローチャート 同放収音装置をネットワークを介して複数台接続した遠隔会議システムを示す図 同放収音装置を複数接続して構成した音声会議システムを示す図
符号の説明
1 放収音装置
2 ネットワーク
100 収音装置
101L,101R,101C 指向性マイク
101A マイクアレイ
102L,102R,102C A/Dコンバータ
103 発話検出部
104 音声出力部
110 話者
201 レベル差計算部
202 パワー比計算部
211,213 レベル差判定部
212,214 パワー比判定部
215,216 AND回路
217 OR回路

Claims (6)

  1. それぞれ異なる方向に向けて設置された複数の指向性マイクと、
    前記複数の指向性マイクのうち少なくとも2つのマイクによって収音された音声信号である収音信号の大きさの差Dを検出する差検出部と、
    前記収音信号の大きさの比Pを検出する比検出部と、
    検出された前記差Dおよび前記比Pに基づいて、前記指向性マイクに目的となる音声信号である目的音声信号が入力されたか否かを判定する目的音声判定部と、
    を備えた音声検出装置。
  2. 前記目的音声判定部は、
    差Dに、複数のしきい値DT1、DT2、・・・、DTn(DT1<DT2<・・・<DTn)を設定するとともに、比Pに、複数のしきい値PT1、PT2、・・・、PTn(PT1>PT2>・・・>PTn)を設定し、
    前記差Dおよび比Pが、i=1〜nの少なくとも1つのiにおいて、D>DTiまたはD≧DTi、且つ、P>PTiまたはP≧PTiを満たすとき、目的音声信号が入力されたと判定する請求項1に記載の音声検出装置。
  3. 前記目的音声判定部は、「ノイズが大きいほど、目的音声信号が入力されない場合でも差Dが大きい。」、「ノイズが大きいほど、目的音声信号が収音されたときのパワー比Pの変化が小さい。」という特性を反映した条件式が特定のしきい値TH以上になったとき、目的音声信号が入力されたと判定する請求項1に記載の音声検出装置。
  4. 前記複数の指向性マイクに代えて、
    複数のマイクをアレイ状に配置したマイクアレイと、
    前記マイクアレイの各マイクによって収音された音声信号を遅延させて合成することにより、前記複数の指向性マイクの設置方向に指向性を有する複数の収音ビームを形成する収音ビーム形成部と、を備えた請求項1乃至3のいずれかに記載の音声検出装置。
  5. 請求項1乃至4のいずれかに記載の音声検出装置と、
    前記音声検出装置によって目的音声信号が入力されたことが判定されたとき、前記指向性マイクによって収音された音声信号を外部に出力する音声出力部と、
    外部から入力された音声信号を放音する放音部と、
    を備えた放収音装置を、複数接続した音声会議システム。
  6. 請求項1乃至4のいずれかに記載の音声検出装置と、
    前記音声検出装置によって目的音声信号が入力されたことが判定されたとき、前記指向性マイクによって収音された音声信号を外部に出力する音声出力部と、
    外部から入力された音声信号を放音する放音部と、
    を備えた放収音装置を、ネットワークまたは通信回線を介して複数接続した遠隔会議システム。
JP2007148764A 2007-06-05 2007-06-05 音声検出装置、音声会議システムおよび遠隔会議システム Expired - Fee Related JP4867798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007148764A JP4867798B2 (ja) 2007-06-05 2007-06-05 音声検出装置、音声会議システムおよび遠隔会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007148764A JP4867798B2 (ja) 2007-06-05 2007-06-05 音声検出装置、音声会議システムおよび遠隔会議システム

Publications (2)

Publication Number Publication Date
JP2008304498A true JP2008304498A (ja) 2008-12-18
JP4867798B2 JP4867798B2 (ja) 2012-02-01

Family

ID=40233315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007148764A Expired - Fee Related JP4867798B2 (ja) 2007-06-05 2007-06-05 音声検出装置、音声会議システムおよび遠隔会議システム

Country Status (1)

Country Link
JP (1) JP4867798B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101103794B1 (ko) 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
JP2013142843A (ja) * 2012-01-12 2013-07-22 Fuji Xerox Co Ltd 動作解析装置、音声取得装置、および、動作解析システム
CN105321528A (zh) * 2014-06-27 2016-02-10 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN110491376A (zh) * 2018-05-11 2019-11-22 北京国双科技有限公司 一种语音处理方法及装置
CN111540365A (zh) * 2020-07-10 2020-08-14 北京声智科技有限公司 语音信号确定方法、装置、服务器及存储介质
CN111919253A (zh) * 2018-03-29 2020-11-10 3M创新有限公司 用于头戴式受话器的使用麦克风信号频域表示的声控声音编码

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6242197A (ja) * 1985-08-20 1987-02-24 松下電器産業株式会社 音声区間検出方法
JPS632500A (ja) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd 収音装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JPH03147000A (ja) * 1989-11-02 1991-06-21 Ricoh Co Ltd 音声入力装置
JP2007129486A (ja) * 2005-11-02 2007-05-24 Yamaha Corp 音声信号送受信装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6242197A (ja) * 1985-08-20 1987-02-24 松下電器産業株式会社 音声区間検出方法
JPS632500A (ja) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd 収音装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JPH03147000A (ja) * 1989-11-02 1991-06-21 Ricoh Co Ltd 音声入力装置
JP2007129486A (ja) * 2005-11-02 2007-05-24 Yamaha Corp 音声信号送受信装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101103794B1 (ko) 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
WO2012057589A2 (ko) * 2010-10-29 2012-05-03 주식회사 마이티웍스 멀티 빔 음향시스템
WO2012057589A3 (ko) * 2010-10-29 2012-06-21 주식회사 마이티웍스 멀티 빔 음향시스템
US9521484B2 (en) 2010-10-29 2016-12-13 Mightyworks Co., Ltd. Multi-beam sound system
JP2013142843A (ja) * 2012-01-12 2013-07-22 Fuji Xerox Co Ltd 動作解析装置、音声取得装置、および、動作解析システム
CN105321528A (zh) * 2014-06-27 2016-02-10 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN111919253A (zh) * 2018-03-29 2020-11-10 3M创新有限公司 用于头戴式受话器的使用麦克风信号频域表示的声控声音编码
CN110491376A (zh) * 2018-05-11 2019-11-22 北京国双科技有限公司 一种语音处理方法及装置
CN111540365A (zh) * 2020-07-10 2020-08-14 北京声智科技有限公司 语音信号确定方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
JP4867798B2 (ja) 2012-02-01

Similar Documents

Publication Publication Date Title
EP2007168B1 (en) Voice conference device
JP3972921B2 (ja) 音声集音装置とエコーキャンセル処理方法
JP5050616B2 (ja) 放収音装置
EP2026598B1 (en) Voice conference device
JP5028944B2 (ja) 音声会議装置及び音声会議システム
KR101761312B1 (ko) 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
JP3891153B2 (ja) 通話装置
JP4867798B2 (ja) 音声検出装置、音声会議システムおよび遠隔会議システム
WO2008001659A1 (fr) Dispositif d&#39;émission/réception de son
EP1564980A1 (en) Acoustic echo canceller
JP4894353B2 (ja) 放収音装置
JP2007181099A (ja) 放収音装置
JP2008294690A (ja) 音声会議装置および音声会議システム
JP5167706B2 (ja) 放収音装置
JP4967575B2 (ja) 音声会議装置
JP2009212927A (ja) 収音装置
JP2007329753A (ja) 音声通信装置および音声通信システム
JP5028833B2 (ja) 放収音装置
JP2008017126A (ja) 音声会議システム
JP4269854B2 (ja) 通話装置
JP5055987B2 (ja) 音声会議装置および音声会議システム
JP5141442B2 (ja) 収音装置、及び放収音装置
JP4470413B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置
JP2009010808A (ja) 拡声装置
JP2007258951A (ja) 通信会議装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees