JP3537962B2 - 音声収集装置及び音声収集方法 - Google Patents

音声収集装置及び音声収集方法

Info

Publication number
JP3537962B2
JP3537962B2 JP20621096A JP20621096A JP3537962B2 JP 3537962 B2 JP3537962 B2 JP 3537962B2 JP 20621096 A JP20621096 A JP 20621096A JP 20621096 A JP20621096 A JP 20621096A JP 3537962 B2 JP3537962 B2 JP 3537962B2
Authority
JP
Japan
Prior art keywords
person
voice
input
filter
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20621096A
Other languages
English (en)
Other versions
JPH1051889A (ja
Inventor
仁史 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP20621096A priority Critical patent/JP3537962B2/ja
Priority to US08/905,387 priority patent/US6157403A/en
Publication of JPH1051889A publication Critical patent/JPH1051889A/ja
Application granted granted Critical
Publication of JP3537962B2 publication Critical patent/JP3537962B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声収集装置及び音
声収集方法に関し、特に、音声認識装置やテレビ会議シ
ステムなどにおいて、雑音を取り除いて目的の音声を取
り出す雑音抑圧技術に関する。
【0002】
【従来の技術】音声認識装置やテレビ会議システムにお
いては、高品質な音声の収録のため、指向性マイクロホ
ンやマイクロホンアレイを使った雑音抑圧技術が提案さ
れている。特に、テレビ会議システムの分野では、複数
の会議参加者の中から発言者の音声と画像を自動的に得
るため、ビデオカメラの画像を処理して得られた移動物
体の位置に基づいて複数のマイクロホンの信号を処理す
る方法が例えば特開平5−227531号公報に開示さ
れている。
【0003】しかしながら、この方法ではマイクロホン
アレイからの信号を、一つの目的の人物位置からの音声
に対して位相が一致するようにした遅延和法により処理
しているため、他の方向から到来した雑音に対する抑圧
性能は十分でないという問題があった。
【0004】一方、マイクロホンアレイの出力を処理し
て効果的に雑音を抑圧する技術としては、適応フィルタ
を指向性制御に用いた適応マイクロホンアレイ技術が従
来より知られており、例えば文献(電子情報通信学会編
音響システムとデジタル処理 pp.171−21
8)に詳述されている。適応マイクロホンアレイ処理で
は、雑音の到来方向を知る必要はないが、目的とする音
波の到来方向は既知として処理するのが一般的である。
音波の到来方向は、マイクロホンアレイからの信号を処
理して推定することもできるが、発声中のみしか検出で
きないため処理の安定性に問題がある。
【0005】これに対し、画像を処理して得られた人物
位置を目的音の到来方向として用いる方法が知られてお
り、この場合は、発声していないときにも位置が推定で
きるため安定であり、例えば文献(ICASSP '95
「Knowing Who to Listen toin Special Recognition V
isually Guided Beamforming」pp848−851)に
開示されている。
【0006】
【発明が解決しようとする課題】しかしながら、上記文
献をはじめとする従来の開示技術においては、画像の処
理により人物位置が複数検出された場合に対する対処方
法がないため、目的としない人物から発声があった場合
はそれを除くような適応処理を行っていた。ところが、
この適応処理が完了するまでに妨害音が混入してしまっ
たり、複数の話者が同時に発声した場合に、注目してい
る一人の音声以外はクリアに入力できない、という問題
があった。
【0007】本発明はこのような課題に着目してなされ
たものであり、その目的とするところは、複数の人物位
置からの音声に対して、背景雑音を抑えてすべての音声
を同時に抽出するかあるいは、特定の人物位置からの音
声のみを抽出することが可能な音声収集装置及び音声収
集方法を提供することにある。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明に係る音声収集装置は、複数の人物の
少なくとも一部を撮影して得られた画像を入力する画像
入力手段と、複数のチャネルを介して個々に音声を入力
する音声入力手段と、前記画像入力手段によって入力さ
れた画像情報を処理して複数の人物位置を求める人物位
置検出手段と、この人物位置検出手段によって検出され
た複数の人物位置から、処理対象となる人物位置を少な
くとも一人選択する人物位置選択手段と、任意に生成し
た音源信号を、前記人物位置選択手段によって選択され
た人物位置に配置したものとしたときに観測して得られ
る第1の信号と、前記選択された人物位置からのすべて
の音声に対する感度を、選択されなかった人物位置と比
較して同時に高くするモードと、前記選択された人物位
置のうち、特定の目的位置からの音声のみを、選択され
なかった人物位置と比較して高くするモードのうちいず
れかの選択に応じて前記音源信号から生成される第2の
信号とに基づいて、フィルタ係数を決定するフィルタ係
数決定手段と、このフィルタ係数決定手段によって決定
されたフィルタ係数を用いて、前記音声入力手段によっ
て入力された音声のうち、前記選択されたモードに対応
する音声のみを抽出する音声抽出手段とを具備する。
【0009】また、第2の発明に係る音声収集装置は、
第1の発明において、前記選択された人物位置のうち、
前記特定の目的位置からの音声のみを高くするモードに
おいて、複数の目的位置に対応して前記フィルタ係数決
定手段及び音声抽出手段を複数個設け、複数の人物位置
からの音声を分離して抽出する。
【0010】また、第3の発明に係る音声収集装置は、
第1または第2の発明において、テスト発声データの入
力と前記音声入力手段を介して入力される通常の音声入
力の切り替えを指示する入力モード切り替え手段と、入
力モードがテスト発声データ入力であるときに、取り込
んだテスト発声データのレベルを求めるテスト発声レベ
ル計算手段とをさらに具備する。
【0011】また、第4の発明に係る音声収集装置は、
第1乃至第3の発明のいずれかにおいて、前記画像入力
手段によって入力された画像から人物の発声動作に関す
る情報を位置別に検出する位置別発声動作情報検出手段
をさらに具備し、前記フィルタ係数決定手段は、検出し
た位置別の発声動作に関する情報と、入力された音声か
ら求めた位置別到来パワーの少なくとも一方に基づい
て、前記第1の信号である入力信号と前記第2の信号で
ある希望応答信号とを生成する。
【0012】また、第5の発明の係る音声収集装置は、
複数の人物の少なくとも一部を撮影して得られた画像を
入力する画像入力手段と、複数のチャネルを介して個々
に音声を入力する音声入力手段と、前記画像入力手段に
よって入力された画像情報を処理して複数の人物位置を
求める人物位置検出手段と、この人物位置検出手段によ
って検出された複数の人物位置から、処理対象となる人
物位置を少なくとも一人選択する人物位置選択手段と、
この人物位置選択手段によって選択された人物位置に基
づいて、前記少なくとも一人の人物位置からの音声に対
する感度を同時に一定の値にする制約をフィルタ処理の
制約として設定するフィルタ制約設定手段と、このフィ
ルタ制約設定手段の制約に基づいてフィルタ係数を決定
し、このフィルタ係数を用いて前記音声入力手段によっ
て入力される音声にフィルタ処理を施して音声を抽出す
る音声抽出手段とを具備する。
【0013】また、第6の発明に係る音声収集装置は、
第5の発明において、前記フィルタ制約設定手段は、前
記選択された人物位置の数が複数の場合に、この複数の
人物位置の中の一つの位置を目的位置とし、該目的位置
からの音声に対する感度を、選択されなかった人物位置
と比較して高くする第1の制約と、前記目的位置以外の
人物位置からの音声に対しては、選択されなかった人物
位置と比較して感度を低くする第2の制約をフィルタ処
理の制約として設定し、前記音声抽出手段は、前記第
1、第2の制約の基にフィルタ出力を最小化してフィル
タ係数を決定する。
【0014】また、第7の発明に係る音声収集装置は、
複数の人物を撮影して得られた画像を入力する画像入力
手段と、この画像入力手段によって入力された画像情報
を処理して複数の人物位置を求める人物位置検出手段
と、この人物位置検出手段によって検出された複数の人
物位置から、処理対象となる人物位置を少なくとも一人
選択する人物位置選択手段と、複数のチャネルを介して
個々に音声を入力する音声入力手段と、前記人物位置選
択手段によって選択された少なくとも一つの人物位置の
中の一つの位置を目的位置とし、この目的位置からの音
声に対する感度を、選択されなかった人物位置と比較し
て高くする制約を設定するフィルタ制約設定手段と、任
意に作成した音源信号を、前記目的位置以外の人物位置
に配置したものとしたときに観測される信号を生成する
入力信号生成手段と、前記制約のもとで前記入力信号に
基づき目的位置以外の人物位置からの音声に対して感度
を低くするようにフィルタを決定するフィルタ決定手段
と、このフィルタ決定手段によって求められたフィルタ
係数を用いて、前記音声入力手段によって入力された音
声にフィルタ処理を施して音声を抽出する音声抽出手段
とを具備する。
【0015】また、第8の発明に係る音声収集装置は、
第7の発明において、前記フィルタ制約設定手段は、前
記選択された人物位置の中から複数の目的位置を設定し
た場合に、この複数の目的位置の一つからの音声に対す
る感度を、選択されなかった人物位置と比較して高くす
る制約をフィルタ処理の制約として設定し、前記目的位
置以外の人物位置に音源があるものとしたときに観測さ
れる入力信号に基づき、前記目的位置以外の人物位置か
らの音声に対しては感度を、選択されなかった人物位置
と比較して低くするようにフィルタを設定するフィルタ
設定手段と音声抽出手段とを、前記目的位置の変更に対
応して複数個設け、複数の人物位置からの音声を分離し
て抽出する。
【0016】また、第9の発明に係る音声収集方法は、
複数の人物の少なくとも一部を撮影して得られた画像を
入力する画像入力工程と、複数のチャネルを介して個々
に音声を入力する音声入力工程と、前記画像入力工程に
おいて入力された画像情報を処理して複数の人物位置を
求める人物位置検出工程と、この人物位置検出工程にお
いて検出された複数の人物位置から、処理対象となる人
物位置を少なくとも一人選択する人物位置選択工程と、
任意に生成した音源信号を、前記人物位置選択工程で選
択された人物位置に配置したものとしたときに観測して
得られる第1の信号と、前記選択された人物位置からの
すべての音声に対する感度を、選択されなかった人物位
置と比較して同時に高くするモードと、前記選択された
人物位置のうち、特定の目的位置からの音声のみを、選
択されなかった人物位置と比較して高くするモードのう
ちいずれかの選択に応じて前記音源信号から生成される
第2の信号とに基づいて、フィルタ係数を決定するフィ
ルタ係数決定工程と、このフィルタ係数決定工程におい
て決定されたフィルタ係数を用いて、前記音声入力工程
において入力された音声のうち、前記選択されたモード
に対応する音声のみを抽出する音声抽出工程とを具備す
る。
【0017】また、第10の発明に係る音声収集方法
は、複数の人物の少なくとも一部を撮影して得られた画
像を入力する画像入力工程と、複数のチャネルを介して
個々に音声を入力する音声入力工程と、前記画像入力工
程において入力された画像情報を処理して複数の人物位
置を求める人物位置検出工程と、この人物位置検出工程
において検出された複数の人物位置から、処理対象とな
る人物位置を少なくとも一人選択する人物位置選択工程
と、この人物位置選択工程において選択された人物位置
に基づいて、前記少なくとも一人の人物位置からの音声
に対する感度を同時に一定の値にする制約をフィルタ処
理の制約として設定するフィルタ制約設定工程と、この
フィルタ制約設定工程における制約に基づいてフィルタ
係数を決定し、このフィルタ係数を用いて前記音声入力
工程において入力される音声にフィルタ処理を施して音
声を抽出する音声抽出工程とを具備する。
【0018】
【発明の実施の形態】まず、本実施形態の概略を説明す
る。本実施形態では画像から人物位置を検出し、その人
物位置に基づいて適応マイクロホンアレイにより雑音を
抑圧して音声を抽出するシステムにおいて、特に、複数
の人物位置が検出された場合に対処するため、以下の方
法を用いる。
【0019】すなわち、第1の概略においては、雑音を
抑圧するフィルタの決定に適応フィルタの処理方式の一
つであるパイロット信号法を利用し、画像の処理により
得られた複数の人物の位置に基づき適応フィルタの学習
信号である入力信号と希望応答信号を人工的に生成し、
複数の人物位置から到来する音波に対して同時に感度を
一定に保つように制御を行なうことにより背景雑音を抑
えてすべての話者の音声を同時に取り出すことを可能に
するものである。
【0020】また、同じ構成により、目的の人物位置か
ら到来する音波については感度が高く、他の人物位置か
ら到来する音波については感度が低くなるように制御を
行なうことにより、特定の人物のみの音声を取り出すこ
とも可能にしている。パイロット信号法に関しては、上
記文献(音響システムとデジタル処理)または文献(P
ROC.IEEE Vol.55,No12(196
7)、B Widraw: 「Adaptive Antenna systems」に詳述
されている。
【0021】また、第2の概略においては、適応フィル
タによる雑音抑圧のフィルタ係数の学習の際、人物位置
から到来する音波のパワーを推定し、このパワーに基づ
いて適応フィルタの入力信号の振幅と適応フィルタの収
束速度を決定しているため、人工的に生成する信号を実
際の環境に忠実に合わせることができ、精度良く雑音抑
圧のフィルタを学習することができる。
【0022】また、第3の概略においては、適応フィル
タによる雑音抑圧のフィルタ係数の学習の際、人物位置
から到来する音波のパワーに加え、人物の画像から発声
動作を表す情報を抽出しており、これらの位置ごとのパ
ワーと位置ごとの発声動作に関する情報から、適応フィ
ルタの入力信号の振幅と適応フィルタの収束速度を決定
しているため、背景雑音が大きく、到来パワーの推定精
度が低い場合でも精度良く雑音抑圧のフィルタを学習す
ることができる。
【0023】また、第4の概略においては、テスト発声
を収集するための入力モード切り替え手段を具備するこ
とにより、テスト発声データを入力し、その入力レベル
からパイロット信号法によって適応フィルタ処理を行う
際の学習信号の振幅を正確に決定して適応フィルタの学
習を行うことにより、高精度な雑音抑圧を可能としてい
る。
【0024】また、第5の概略においては、目的の人物
から到来する音に対しては感度を一定に保ち、他の人物
から到来する音に対しては感度を低くするように適応フ
ィルタの学習信号を生成してフィルタ係数を学習し、人
物ごとにこのようなフィルタを用意することにより、複
数の人物が発声した場合に、各人物ごとの発声を別個に
取り出すことを可能にしている。
【0025】また、第6の概略においては、パイロット
信号法による適応フィルタ処理の代わりに、拘束条件付
き適応フィルタ処理を用い、画像の処理により得られた
複数の人物の位置に対してマイクロホンアレイの感度を
一定に保つという拘束条件のもとで適応フィルタの係数
を決定することにより、背景雑音を抑えてすべての話者
の音声を同時に取り出すことを可能にしている。この方
式では、パイロット信号法で必要だった発声区間に応じ
た適応の制御が不要であり、より少ない構成要素で実現
できる。
【0026】同概略においては、目的の人物から到来す
る音に対しては感度を一定に保ち、他の人物から到来す
る音に対しては感度を低くするという制約のもとで雑音
抑圧のフィルタを決定することにより、特定の人物の音
声だけを取り出すことも可能である。
【0027】また、第7の概略においては、第6の概略
において用いた拘束条件付き適応フィルタ処理を用い、
目的の人物から到来する音に対しては感度を一定に保
ち、他の人物から到来する音に対しては感度を低くする
という制約のもとで雑音抑圧のフィルタの係数を決定
し、人物ごとにこのようなフィルタを用意することによ
り、複数の人物が発声した場合に、各人物ごとの発声を
別個に取り出すことを可能にしている。
【0028】また、第8の概略においては、第6、第7
の概略で用いた拘束条件付き適応フィルタ処理と第1か
ら第5の概略で用いたパイロット信号法を組み合わせ、
目的の人物から到来する音に対しては感度を一定に保
ち、制約のもとで雑音抑圧のフィルタの係数を決定し、
他の人物位置から到来する音に対しては感度が低くなる
ように学習信号を生成し、この学習信号により拘束条件
付き適応フィルタによりフィルタ係数を決定することに
より、拘束条件が多くなることによる雑音抑圧性能の低
下を抑え、また学習信号生成の演算量を減らして同等の
性能を実現している。
【0029】また、第9の概略においては、第8の概略
において雑音抑圧のフィルタを人物ごとに複数用意する
ことにより、複数の人物が発声した場合に、各人物ごと
の発声を別個に取り出すことを可能にしている。
【0030】以下に図面を参照して上記した実施形態を
詳細に説明する。
【0031】まず、図1を参照しながら、第1実施形態
について説明する。本実施形態は、画像を処理して検出
した人物位置に基づいて適応フィルタの学習信号を生成
し、学習したフィルタにより雑音抑圧処理を行うもので
ある。本実施形態では、複数の人物位置を対象として適
応フィルタ学習の制御を行えるようにしているため、従
来1個の対象にしか考えられてこなかった雑音抑圧処理
を、複数の対象に対して行え、会話や複数話者の同時発
声の場合の音声入力を自動的に安定して高対雑音比で行
うことが可能である。
【0032】図1において、1はビデオカメラなどから
画像を入力する画像入力部、2は入力した画像を処理し
て人物の位置を検出する人物位置検出部、3は複数のマ
イクロホンからの音声を並列に入力する音声入力部、4
は画像処理により検出された人物位置に基づいて複数の
マイクロホンからの入力音声から雑音を抑圧して音声を
取り出す雑音抑圧部であり、その内部構成は、人物位置
検出部2により検出された人物位置の中から処理対象と
する人物位置を選択する人物位置選択部4−1と、選択
された人物位置に基づいて適応フィルタの学習を行う環
境適応部(フィルタ係数決定手段)4−2と、決定され
たフィルタ係数により雑音抑圧処理を行う雑音除去部4
−3とからなる。
【0033】この構成において、画像入力部1より入力
した画像を人物位置検出部2に送り、人物位置検出部2
において人物の方向または位置を画像から検出する。検
出した人物位置の中から処理対象とする人物位置を人物
位置選択部4−1において選択し、環境適応部4−2に
おいて、前記選択された人物位置に基づいて適応フィル
タの学習信号を生成して適応フィルタの係数を決定し、
雑音除去部4−3において決定したフィルタ係数を用い
て入力音声にフィルタ処理を行って雑音を抑圧する。
【0034】以下に上記した処理をさらに詳細に説明す
る。まず、画像からの人物位置の検出について説明す
る。画像からの人物位置の検出は、テンプレートマッチ
ングに基づいた顔領域の抽出処理などにより行なうこと
ができ、テンプレートマッチングについては例えば「画
像解析ハンドブック」(東京大学出版会)に詳述されて
いる。さらに、テンプレートマッチングを用いて画像中
の物体の動きを追跡することができ、例えば情報処理学
会技術報告CV76−7,pp.49−56(199
2),小杉他:「シーンの中の顔の探索と認識」に詳述
されている。これらの開示技術により、同じ人物の座標
を時間ごとに特定し追跡できることが知られている。な
お、これらの技術では、人物の顔を含む小領域の画像を
扱うため、人物位置の検出とともにこれらの画像も得る
ことができる。
【0035】画像による人物位置の検出では、一般に、
画像入力に1個のビデオカメラを用いた場合、人物のカ
メラに対する方向は十分な精度で特定することができる
が、カメラと人物の間の距離方向の測定は誤差が大き
い。それでも、人物の大きさの比較により、距離方向に
関しておおまかな相対関係を得ることは可能である。ス
テレオカメラを用いた場合は、距離に関しても高精度に
測定できるが、本実施形態では、人物の方向とおおまか
な距離関係がわかれば十分であるため、カメラ1個によ
る人物位置の抽出手法を用いればよく、ステレオカメラ
は必ずしも必要ない。もちろんステレオカメラあるいは
多数のカメラを用いても差し支えない。人物位置の検出
方法は本実施形態の本質に関わりがないので詳しい説明
は省略するが、現状で利用可能な技術であることは言う
までもない。
【0036】ビデオカメラとマイクロホンを組み合わせ
て処理を行う際、ビデオカメラとマイクロホンの位置の
設定は種々考えられるが、ビデオカメラが1個の場合、
例えば図2(a)に示すように設定する。ビデオカメラ
5とマイクロホンアレイ6は人物から見て同じ方向にあ
るように設置し、マイクロホンアレイ6の処理とビデオ
カメラ5とで共通の方位座標を使うようにするのが望ま
しい。
【0037】なお、図2(b)に示すように、ビデオカ
メラ5を複数使う場合は、人物位置が3次元座標として
得られるので、先のようにカメラ位置とマイクロホン位
置を利用者から見て同じ方向に設定する必要はなく、マ
イクロホンアレイ処理の際、ビデオカメラ5から得られ
た人物座標をマイクロホンアレイ6からみた角度に変換
して用いることもできる。
【0038】以上の処理により人物位置が得られた後、
雑音抑圧部4においては、人物位置選択部4−1により
人物位置の中から処理対象とする人物位置を予め決めた
数だけ選択し、該選択した人物位置に基づき、環境適応
部4−2により適応フィルタの学習信号を生成して適応
フィルタに入力し、フィルタ係数を決定する。そして、
決定したフィルタ係数を用い、雑音除去部4−3で複数
のマイクロホンからの入力音声に上記のフィルタによる
フィルタ処理を行って出力音声を取り出す。
【0039】複数のマイクロホンから入力した音声を処
理して雑音を抑圧するための適応フィルタとしては種々
のものが知られており、例えば文献(Haykin著:Adapti
ve Filter Theory)に詳述されているが、本実施形態で
は、複数の任意の方向あるいは位置から到来する音に対
するアレイの応答を比較的簡単に設定できるパイロット
信号法を用いている。
【0040】以下に、雑音抑圧部4の詳細を説明する。
まず、雑音抑圧部4では、人物位置選択部4−1におい
て複数の人物位置の中から、音声の抽出処理を行う対象
の人物位置を選択する。この選択においては、選択する
人物位置の最大数をN、例えばN=3とし、人物位置検
出部2で特定された人物位置の数がNより大きい場合
に、特定された人物位置の中からN個の位置を選択し、
小さい場合はすべてを選択する。選択の方法に関して
は、例えば、カメラと人物の距離を基準とし、この距離
が小さい順にN個の位置を用いるようにしてもよいし、
カメラの中心方向と人物方向の角度差を基準とし、この
角度差が小さい順にN個の位置を用いてもよい。
【0041】また、上記2つの選択基準を組み合わせた
値を基準としてもよい。すでに述べたように、使用する
カメラが1個の場合で、カメラと人物の間の距離の値を
得ることが困難な場合は、人物の大きさまたは人物の顔
の大きさを人物位置とカメラとの距離の目安として使う
ことが可能である。
【0042】例えば、図3に示すような画像データから
図4に示すような人物位置の方向(X,Y)と顔の大き
さ(A)、および人物方向から計算されるカメラ中心線
方向と人物方向との角度差(B)が得られた場合、顔部
分の面積が大きいほどカメラに近いとしてこの面積が大
きい順に人物の番号6,4,3の3人を選択してもよい
し、カメラ中心線方向と人物方向との角度差が小さい順
に人物番号4,2,5を選択してもよいし、上記A,B
を組み合わせた値、例えばA/Bの値の大きい順に人物
番号4,3,6を選択してもよい。
【0043】次に、パイロット信号法による適応フィル
タ処理を行うため、環境適応部4−2は、図5に示すよ
うな構成としている。図5において、4−2aは入力信
号生成部、4−2dは希望応答生成部、4−2eは適応
処理部、4−2cは学習信号レベル計算部、4−2bは
音源信号生成部である。
【0044】この構成において、まず、音源信号生成部
4−2bにより、選択された人物位置ごとに音源がある
ものと仮定してその発生信号を生成し、学習信号レベル
計算部4−2cにより、入力音声に基づいて入力信号生
成の際の音源信号のレベルを決定する。次に、求められ
た学習信号レベルと音源信号とから、入力信号生成部4
−2aにより、選択された人物位置に基づき、適応フィ
ルタの入力信号を生成すると同時に、学習信号レベルと
音源信号とから、希望応答生成部4−2dにより適応フ
ィルタの希望応答を生成し、生成した入力信号と希望応
答を適応処理部4−2eに入力し、適応フィルタの適応
処理を行う。適応フィルタの処理方式は、よく知られた
LMSでもまた、RLSでもよく、文献(ヘイキン著:
適応フィルタ入門)に詳述されている。ここでは、LM
S適応フィルタにより説明する。
【0045】適応フィルタの処理は、複数チャネルの入
力各々に対し、図6に示すような遅延線タップ付きフィ
ルタから構成されるユニバーサル型フィルタを用いて行
うようにしている。図6において、フィルタのタップ数
をJ、i番目のマイクロホンのフィルタ係数をwij
(1≦i≦N,1≦j≦J)としており、Jは例えば2
00を用いる。この構成において、i番目のマイクロホ
ンの波形をxi (n) とし、時刻nにおいてJサンプル過
去から時刻nまでの各マイクロホンの波形サンプルの系
列xi =(xi(n-J+1 ) ,xi(n-J+2),…,xi(n-1)
i(n))を全マイクロホンについて並べ、 X=(x1 ,x2 ,…,xN T (1) と、ベクトルで表す。また、i番目のマイクロホンのフ
ィルタ係数wijを並べてベクトルで表して wi =(wi1,wi2,…,wiJ) (2) とし、さらに全マイクロホンについて並べて W=(w1 ,w2 ,…,wJ T (3) と表す。式(1)、(3)から、フィルタの出力は、 Y=WH X (4) と表される。ここでフィルタ係数Wの要素は複素数と
し、Hはベクトルの複素共役転置を表すものとする。X
は一般にスナップショットと呼ばれる。
【0046】LMS適応フィルタ(Normalized LM
S)による適応処理部4−2eでは、上記のフィルタ構
造において次式に従ってフィルタ係数を更新し、フィル
タ係数の学習を行う。
【0047】 Wj =Wj-1 −a*e*X/2p (5) ここで、Wj はj回の更新後のフィルタ係数、eは誤差
信号e=d−WH X、dは希望応答、pは希望応答のパ
ワー、aはステップサイズであり、0<a<1.0の範
囲で実験的に決められるが、例えば0.1などが用いら
れる。
【0048】上記のフィルタ更新に用いる入力信号Xと
希望応答dは、人物位置に基づき入力信号生成部4−2
aと希望応答生成部4−2dで音源信号から各々生成す
る。これらの信号は人工的に生成するものであり、信号
の内容によって雑音抑圧の仕方を制御することができ
る。例えば、選択された人物位置すべてから到来する音
波に対して感度を高くする(A)ことや、選択された人
物位置のうち、ある人物位置からの音波に対しては感度
を高くするが、それ以外に対しては抑圧する(B)など
のように制御できる。
【0049】今後、上記2つの抑圧処理の仕方を、抑圧
処理のモード(A),(B)と呼ぶことにする。特にモ
ード(B)は、妨害音の発生する可能性の大きい方向に
対して事前に感度を低くする方法であり、従来の適応マ
イクロホン処理で行われていたように、妨害音が発生し
てからその環境に適応して抑圧する手法よりも大幅に高
品質な音声入力が行える。抑圧処理モードの設定は、初
期設定の際に環境適応部4−2において設定するように
する。
【0050】フィルタ更新に用いる入力信号Xと希望応
答dの生成の前段階として、まず、音源信号生成部4−
2bにおいて、人物位置の数の信号系列である音源信号
を発生する。発生した音源信号の内容は人工的なもので
よく、例えば、ランダム雑音でもよい。このとき、ラン
ダム雑音は人物位置ごとに無相関となるようにするた
め、人物位置ごとに独立な乱数系列から生成するように
する。また、周波数特性は、例えば平均的な音声のスペ
クトルの傾きと同じになるようにフィルタをかけてもよ
い。
【0051】次に、入力信号生成部4−2aでは、生成
した音源信号が空中を伝播してマイクロホン位置に到達
すると仮定したときのマイクロホンで観測される信号を
計算する。マイクロホン位置で観測される信号は、音源
信号の伝搬時間差と伝搬に伴う振幅変化から計算でき
る。
【0052】例えば、マイクロホンと人物位置が図7の
ような設定であるとして、図7を参照して次のように行
う。図7(a)のように、1番目のマイクロホンの座標
を(x1 ,y1 )、i番目のマイクロホンの座標を(x
i ,yi )とすると、平面波を仮定した場合、θ方向か
ら音波が入射する際のi番目のマイクロホンと1番目の
マイクロホンに入射する音波の伝搬時間差τi は、 τi (θ)=((xi −x1 2 +(yi −y1 2 1/2 × cos(θ−tan -1((yi −y1 )/(xi −x1 ))) (6) 振幅はa1 =a2 =…aN =1 (7) とおくことができ、点音源を仮定した場合、図7(b)
のように仮想音源位置θを(xs ,ys )とおくと τi =(((xi −xs 2 +(yi −ys 2 1/2 −((x1 −xs 2 +(y1 −ys 2 1/2 )/c (8) 振幅はai =((xi −xs 2 +(yi −ys 2 1/2 /((x1 −xs 2 +(y1 −ys 2 1/2 (9) となる。ただし、cは音速である。なお、ここでは簡略
化のため2次元平面上で説明したが、3次元空間への拡
張は容易である。
【0053】上のようにして求めた遅延時間τi を用
い、i番目のマイクロホンの観測信号のうち、k番目の
人物位置から到来する成分xi (n) は、Sk (n) をk番
目の人物位置から到来する音波の波形、または音源信号
として、 xi (n) =Sk (n−τi ′) (10) とできる。ここで、τi ′はτi を四捨五入した値であ
る。また、信号の遅延をもっと精度よく行うため、四捨
五入する代わりに、上記した音響システムとデジタル処
理(pp.215)に述べられているようにデジタルフ
ィルタを畳み込んでもよいし、フーリエ変換により周波
数領域に変換して位相回転により遅延を与えた後、逆フ
ーリエ変換してもよい。
【0054】次に、学習信号レベル計算部4−2cにお
いて音源信号のレベルを決め、以上のようにして求めた
マイクロホン位置での音源信号の観測値が、決定したレ
ベルと一致するようにして、実際にマイクロホンから入
力する信号とこの音源信号を加算し、適応フィルタの入
力信号として出力するようにする。音源信号レベルの計
算のため、学習信号レベル計算部4−2cにおいては、
入力音声の背景雑音パワーの音声区間の平均値を計算し
て保持するようにする。入力音声の背景雑音パワーは、
例えば複数ある中の1番目のマイクロホンのパワーを逐
次計算して音声区間を検出し、音声区間として検出され
なかった区間の平均パワーを求めるようにする。パワー
に基づいた音声区間検出はよく知られているように、例
えば文献(新美著:音声認識)に詳述されている。
【0055】このようにして求めた背景雑音パワーに対
して一定値v、例えば、v=7dB高い値を音源信号レ
ベルとし、このパワーの平方根の値を音源信号の振幅と
するようにする。すなわち、 Ak =(PN *10v/10) 1/2 (11) により計算する。ここで、Ak は音源信号の振幅、PN
は背景雑音のパワーである。
【0056】次に、希望応答生成部4−2dでは、前記
の2つの抑圧処理モード(A),(B)に応じて、別の
方法で希望応答を生成する。選択された人物位置すべて
から到来する音波を収集する場合(A)は、選択された
すべての人物位置から音波が到来すると仮定したときの
マイクロホン位置での観測信号を希望応答として出力す
るようにする。この場合、例えば、1番目のマイクロホ
ン位置で観測される信号を希望応答として使うようにす
る。ただし、マイクロホン位置で観測される信号よりも
遅延させたものとするようにする。遅延の大きさは、例
えばタップ数の半分とする。
【0057】選択された人物位置のうち、ある人物位置
からの音波について抑圧したい場合(B)では、人物位
置から音波が到来すると仮定したときのマイクロホン位
置での観測信号作成の際に、その人物位置からの音波に
相当する信号は加算しないようにする。例えば、選択し
た人物位置が3個で、入力したい人物位置がその中の1
個の場合は、入力したい1個の人物位置からの到来だけ
を仮定してマイクロホンで観測される信号を希望応答と
する。
【0058】以上に述べた環境適応部4−2を含む雑音
抑圧部4における音声など連続信号の処理は例えば、1
chあたり1024点を1ブロックとし、ブロック単位
で行うようにする。すなわち、音声入力部3における音
声データの読み込み、環境適応部4−2における音源信
号と学習信号の生成、適応フィルタ処理、雑音除去処理
などは、すべて1chあたり1024点を1ブロックと
してブロック単位で行うものとする。
【0059】ここで、以上に述べた環境適応部4−2の
処理の流れについて図8を参照しながら説明する。
【0060】まず、環境適応部4−2の音源信号生成部
4−2bにおいて、選択人物位置の数の系列の音源信号
を生成する(ステップS1)。音源信号は音源ごとに無
相関な系列とし、分散は1に正規化しておくようにす
る。次に、学習信号レベル計算部4−2cにおいて、複
数チャネルで入力した入力音声の中から、例えば1ch
目の信号のパワーを、例えば波形128点の小セグメン
トごとに計算し、音声検出を行って音声部分と非音声部
分とを決め、非音声部分の平均パワーを求め、これを背
景雑音パワーPN とする(ステップS2)。背景雑音パ
ワーは、それまでに求まっていた値との間で平均化して
もよく、その場合、次式により平均化する 。 PN =γ*PN +(1−γ)PN ′ (12) ここで、PN ′は、それまでに求まっていた背景雑音パ
ワー、γは忘却係数であり、例えば、γ=0.1であ
る。
【0061】次に、学習信号レベル計算部4−2cにお
いて、音源信号が伝播してマイクロホン位置で観測され
ると仮定したときの信号を計算し、式(11)により音
源信号の振幅Ak を計算する(ステップS3)。次に、
入力信号生成部4−2aにおいて、実際の入力音声と加
算して適応フィルタの入力信号を生成する。すなわち、
ich目の入力音声をri (n) とすると、ich目の適
応フィルタの入力信号xi (n) は、 xi (n) =ri (n) +ΣAk k (n−τk ′) (13) により計算する(ステップS4)。 次に、希望応答生
成部4−2dにおいて、音源信号と音源信号の振幅から
希望応答を生成する。式で表すと、 d(n) =ΣAk k (n−τk ′−no ) (14) となる。ここで、no は適当な遅延、例えば、no =1
0である。ただし、抑圧処理のモードがAの場合、kは
すべての人物位置について変化させ、モードがBの場
合、kは感度を高く設定する人物位置について変化させ
る。式(12)(13)のように、音源信号の遅延をサ
ンプリング周期で四捨五入した値τk ′により遅延を与
えるかわりに、もっと精度よく遅延させることも可能で
あることはすでに述べた(ステップS5)。
【0062】次に、生成した入力信号と希望応答を適応
フィルタに入力し、フィルタ係数を得る(ステップS
6)。得られたフィルタは、雑音除去部4−3に送り、
入力音声を処理して音声を抽出する。雑音除去部4−3
におけるフィルタ処理は、式(4)に従って行う。
【0063】次に、図9を参照しながら本実施形態全体
の処理の流れを説明する。
【0064】まず、初期設定を行い、選択する人物位置
の数Nと雑音抑圧処理のモードAかBかを設定する(ス
テップS31)。
【0065】画像の処理の方では、画像データをビデオ
カメラ5から、例えば毎秒5フレームで取り込み(ステ
ップS32)、フレームごとに人物位置を特定して出力
し(ステップS33)、このステップS32とS33を
繰り返す。画像から人物位置を特定する画像の処理は、
音声の雑音抑圧処理とは独立に、並列に処理するように
する。
【0066】音声処理の方では、まず、音声データを、
例えばサンプリング12kHzでAD変換し、1チャネ
ルあたり、例えば1024サンプルを1ブロックとして
1ブロック分のデータを取り込む(ステップS34)。
次に、人物位置が特定されているか否かを判定し(ステ
ップS35)、人物位置が特定されていない場合は、何
もせずにこのステップS34とS35を繰り返し、特定
された場合は次のステップS36に進む。人物位置は、
処理開始直後で画像処理結果が出ていない場合や人物が
いない場合に特定されない。位置画像に関する処理と音
声に関する処理とは独立しているため、例えば、一つの
計算機上で全処理を行う場合、よく知られているよう
に、ソケットを用いたプロセス間通信やシェアドメモ
リ、あるいはファイルを通じて人物位置のデータのやり
取りを行うことができる。
【0067】次に、ステップS36では、人物位置選択
部4−1において、処理対象とする人物位置を選択す
る。次に、環境適応部4−2において、人物位置選択部
4−1で選択された人物位置または方向と距離を用いて
適応フィルタの学習信号を生成し、フィルタ係数を更新
する(ステップS37)。学習信号の長さは、取り込ん
だ音声データの長さと同じく1chあたり1024点に
する。
【0068】次に、ステップS37で更新されたフィル
タ係数を雑音除去部4−3にコピーし、このフィルタと
入力音声との畳み込み演算を行って音声を出力する(ス
テップS38)。以上のステップS31からS32の処
理とS33からS38までの処理を並列に繰り返す。
【0069】以上に述べた処理により、画像処理により
特定された複数の人物位置各々から到来する音声の感度
を設定できるように雑音抑圧処理を行うフィルタの係数
を学習しているため、複数の人物が同時に発声した場合
に、その人物すべての音声を背景雑音を抑圧して取り出
したり、一人だけの人物の音声のみを他の人物の音声を
抑圧して取り出すことが可能となる。
【0070】また、逐次人物位置を特定し、その人物位
置に応じてフィルタ処理の学習信号を生成しているた
め、複数の人物が各々動いた場合でも追随して雑音抑圧
処理を行うことが可能である。
【0071】以下に本発明の第2実施形態を説明する。
第2実施形態では、音声処理の対象として選択された人
物各々からの発声音を検出し、この検出情報に基づいて
学習信号の生成を制御することによって、学習を高精度
に行う。
【0072】第1実施形態で述べたパイロット信号法に
よる適応フィルタの学習では、人物が発声中であるか否
かに関わらず学習を行っていたが、感度を高くして入力
したい人物が発声している間は適応を止めることによ
り、また、抑圧したい人物の発声中は、その人物方向か
らの到来を仮定した音源信号を使わずに入力信号と希望
信号を生成することにより、より環境に適応した高精度
な雑音抑圧の学習が行える。このため、本実施形態で
は、人物位置ごとに発声中であるかどうかの目安となる
位置別の到来パワーを推定する位置別到来パワー推定部
4−4をさらに具備しており、これを含んだ全体構成を
図10に示す。図10において、4−1は人物位置選択
部、4−2は環境適応部、4−3は雑音除去部である。
【0073】また、推定した位置別到来パワーに基づい
てフィルタ学習の制御を行うため、環境適応部4−2は
図11のような構成を具備している。図11において、
4−2aは適応フィルタの入力信号生成部、4−2dは
適応フィルタの希望応答生成部、4−2eは適応フィル
タによる適応処理部、4−2bは入力信号と希望応答生
成の際に用いる人工的な波形である音源信号を発生する
音源信号生成部、4−2cは入力信号と希望応答の生成
の際、人物位置ごとの音源信号の振幅を位置別到来パワ
ーに基づいて決定する学習信号レベル計算部、4−2f
は位置別到来パワーからフィルタ学習の際の適応速度を
制御するパラメータを決定する適応制御信号制御部であ
る。
【0074】位置別到来パワー推定部4−4では、マイ
クロホンアレイ6に入力した音声から、人物位置ごとの
到来パワーを求める。マイクロホンアレイ6によって位
置あるいは方向ごとの到来パワーを計算する方法として
は、文献(音響システムとデジタル処理)に詳述されて
いるように、遅延和法、最小分散法、MUSIC法など
種々の方法があるが、ここでは、少ない計算量で実現可
能な遅延和法による方法を説明する他の方法も計算量が
多くなるだけで適用可能であることは言うまでもない。
【0075】上述の文献にも詳述されているように、遅
延和法は、各マイクロホンからの信号を対象とする方向
または位置から到来する音波の位相が揃うように遅延さ
せてから和をとるものである。図2に示すようなマイク
ロホンと到来位置の関係の場合、i番目のマイクロホン
と1番目のマイクロホンに入射する音波の伝搬時間差τ
i は、平面波が入射する場合は式(6)により、球面波
が入射する場合は式(8)により計算できる。このと
き、i番目のマイクロホンの波形をxi (n) とし、時刻
nにおいてJサンプル過去から時刻nまでの各マイクロ
ホンの波形サンプルの系列xi =(xi(n-J+1),x
i(n-J+2),…,xi(n-1),xi(n))をτi 遅延させた場
合の全マイクロホンについての平均パワーは、 p=|Σxi (n−τi )|2 /M (15) であり、この値は、対象とする方向または位置から音波
が到来している場合には音源のパワーに比例することが
知られているので、式(15)により、各人物位置から
到来するパワーが推定できる。なお、球面波の場合は音
源とマイクロホンとの距離により補正係数が必要になる
が、容易に補正できる。詳細は多数センサによる音源波
形推定に関する文献(日本音響学会誌、47、4、pp
268−273、1991)に述べられている。
【0076】次に、学習信号レベル計算部4−2cにつ
いて説明する。ここでは、求められた位置別到来パワー
から、適応フィルタの入力信号と希望応答の生成の際
の、各々の人物位置の音源信号の振幅を決定する。この
ため、学習信号レベル計算部4−2cでは、入力音声の
背景雑音パワーと位置別到来パワーの音声区間の平均値
を計算して保持するようにする。入力音声の背景雑音レ
ベルは、複数のマイクロホン中の、例えば1番目のマイ
クロホンのパワーを逐次計算して音声区間を検出し、音
声区間として検出されなかった区間の平均パワーを求め
るようにする。パワーに基づいた音声区間検出はよく知
られているように、例えば文献(新美著:音声認識)に
詳述されている。また、位置別到来パワーに関しても同
様に位置ごとに音声区間の検出を行い、こちらは音声区
間の平均パワーを求めるようにする。
【0077】このようにして求めた位置別到来パワーと
背景雑音パワーから、音源信号の振幅を計算する。この
とき、人物位置が、感度を高く設定した位置であるか、
低く設定した位置であるかに応じて振幅の計算方法を変
えるようにする。
【0078】感度を高くするように設定した位置の場合
は、上記のように求めた位置別到来パワーの位置ごとの
平均値の平方根の値を音源信号の振幅とするようにす
る。なお、発声がない場合は、位置別到来パワーは小さ
い値となるため、位置別到来パワーが背景雑音に対して
ある値v、例えば、v=7dBを上回る時だけ位置別到
来パワーの平方根の値に設定するようにする。すなわ
ち、Ak をk番目の位置の音源信号の振幅とすると、 Ak =(PN *10v/10) 1/2 (16) (位置別到来パワーが背景雑音+vdBより小さいと
き) Ak =Ako=(Pk 1/2 (17) (位置別到来パワーが背景雑音+7dBより大きいと
き)のように計算する。ここで、PN は背景雑音のパワ
ー、Pk はk番目の位置の位置別到来パワーである。
【0079】感度を低くするように設定した位置の場
合、位置別到来パワーが大きいほど小さい振幅となるよ
うにする。例えば、k番目の位置の音源信号の振幅を、 Ak =Ako*(PN /Pk 1/2 (18) によって計算する。以上のようにして求めた音源振幅と
入力音声とを加算し、適応フィルタの入力信号を生成す
る。
【0080】例えば、選択された人物位置がaとbの2
個であり、aが音声入力の対象とする目的の人物位置で
あり感度を高く設定する位置、bが感度を低く設定する
妨害音の位置であるとする。図12の(1)、(2)に
示すようにa,bの位置ごとの到来パワーが推定された
場合、1,2で示した区間では、(3)に示すように入
力信号中のaに関する成分を大きくし、3で示した区間
では(4)に示すようにbに関する成分を小さくする。
また、希望応答は、入力信号中のaに関する成分と同じ
とし、bに関する成分はすべて0とするか加算しないよ
うにする。
【0081】次に、位置別到来パワーに基づいた適応フ
ィルタの適応速度の制御について説明する。適応フィル
タの学習は、よく知られているように、式(5)のステ
ップSサイズの値aにより制御できる。ここでは、音声
入力の対象となる位置からの到来パワーが大きい場合
は、入力信号の中の抽出すべき信号があるにも関わらず
希望応答の中にその信号がないため、抑圧の対象となっ
てしまう。そこで、この到来パワーの値が大きいときは
適応を遅くあるいは停止し、小さいときは適応を早くす
るように適応速度を制御する。
【0082】このため、例えば、式(5)で固定してい
たステップサイズ(式(5)のa)の値を次式により逐
次計算して可変とするようにする。
【0083】 a=C/(αB k /pN +1) (抑圧モードBのとき) (19) a=C/(αA Σ(pk /pN )/M+1) (20) (抑圧モードAのとき) ここで、PN は背景雑音のパワー、Pk はk番目の位置
の位置別到来パワー、CαA 、αB は定数、例えば、C
=2.0、αA =αB =1である。ステップサイズの計
算式として挙げた上式は一例であり、他の方法も使用可
能である。
【0084】ここで、図13を参照しながら第2実施形
態の環境適応部全体の処理の流れを説明する。
【0085】まず、環境適応部4−2の音源信号生成部
4−2bにおいて、選択人物位置の数の系列の音源信号
を生成する(ステップS11)。 次に、学習信号レベ
ル計算部4−2cにおいて、複数チャネルで入力した入
力音声のパワーを計算し、音声検出を行って音声部分と
非音声部分とを決め、非音声部分の平均パワーから背景
雑音パワーPN を求める(ステップS12)。このと
き、式(12)により平均化してもよい。次に、複数チ
ャネルの入力音声から式(15)により位置別到来パワ
ーを計算する(ステップS13)。
【0086】次に、学習信号レベル計算部4−2cにお
いて、式(16)から式(18)により音源信号の振幅
k を計算する(ステップS14)。次に、入力信号生
成部4−2aにおいて、式(13)により、実際の入力
音声と加算して適応フィルタの入力信号を生成する(ス
テップS15)。 次に、希望応答生成部4−2dにお
いて、式(14)により、音源信号と音源信号の振幅か
ら希望応答を生成する(ステップS16)。次に、適応
制御信号生成部4−2fにおいて、式(19)または
(20)により、背景雑音パワーと位置別到来パワーか
らステップサイズの系列である適応制御信号を生成する
(ステップS17)。
【0087】次に、生成した入力信号と希望応答と適応
制御信号を適応フィルタに入力し、フィルタ係数を得る
(ステップS18)。得られたフィルタは、雑音除去部
4−3に送り、入力音声とフィルタを畳み込んで音声を
抽出する。雑音除去部4−3におけるフィルタ処理は、
式(4)に従って行う。
【0088】第2実施形態の全体の処理の流れは第1実
施形態と同じであるので改めて述べない。
【0089】以上に述べたように、画像処理により特定
された複数の人物位置各々から到来する音声に対し、適
応フィルタにより感度を設定して雑音抑圧を行う際、人
物位置からの到来音のパワーに応じて適応フィルタの適
応処理を制御しているため、実環境に応じた高精度な適
応が行え、雑音抑圧性能を大幅に高くしながら、複数の
人物が同時に発声した場合に、その人物すべての音声を
背景雑音を抑圧して取り出したり、一人だけの人物の音
声のみを他の人物の音声を抑圧して取り出すことが可能
となる。
【0090】また、画像から逐次人物位置を特定し、そ
の人物位置に応じてフィルタ処理の学習信号を生成して
いるため、複数の人物が各々動く場合でも追随して雑音
抑圧処理を行うことができる。
【0091】以下に、音声パワー検出と画像からの発声
動作検出を行なう第3実施形態について説明する。第3
実施形態は、第2実施形態において行っていた人物位置
ごとの到来パワー推定に加え、画像データに基づいた発
声動作の検出を行い、これら2つの情報に基づいて学習
信号の生成と適応速度の制御を行うことにより、音の環
境をより正確に反映して適応フィルタの学習を行うよう
にする。本実施形態では画像から発声動作を検出してい
るため、高雑音下でも人物が発声中かどうかを精度よく
検出でき、高精度な適応フィルタの学習の制御が行え
る。
【0092】画像に基づいた発声動作の検出と位置別到
来パワーに基づいて適応フィルタの学習を制御するた
め、本実施形態の雑音抑圧部は、第2実施形態の雑音抑
圧部の構成にさらに画像から発声動作に関する情報を検
出する発声動作情報検出部を追加し、図14のような構
成としている。
【0093】図14において、1はビデオカメラなどか
ら画像を入力する画像入力部、2は入力した画像を処理
して人物の位置を特定する人物位置検出部、3は複数の
マイクロホンからの音声を並列に入力する音声入力部、
4は画像処理により検出された人物位置に基づいて複数
のマイクロホンからの入力音声から雑音を抑圧して音声
を取り出す雑音抑圧部である。
【0094】雑音抑圧部4は、人物位置検出部2により
特定された人物位置の中から処理対象とする人物位置を
選択する人物位置選択部4−1と、選択された人物位置
に基づいて適応フィルタの学習を行う環境適応部4−2
と、決定されたフィルタ係数により雑音抑圧処理を行う
雑音除去部4−3と、人物位置ごとに到来パワーを検出
する位置別到来パワー推定部4−4と、人物位置ごとに
画像から発声動作に関する情報を検出する位置別発声動
作情報検出部4−5とからなる。
【0095】画像による音声区間の検出は、口元の画像
の時間変化から行う方法が知られており、簡単には、口
元画像全体の輝度変化を時刻ごとに計算し、その変化が
大きい時刻を発声中であるとして検出できる。ここで
は、正確な口元画像の代わりに人物位置検出部2で特定
した人物の顔を含む画像において、例えばその下半分に
ついての画面全体にわたる輝度の時間変化を求めて発声
動作の目安とするようにする。画像データのフレームの
番号をi、縦横位置x,yにおける人物位置の顔を含む
顔周辺画像データをG(i,x,y)とすると、フレー
ムiとi−1の間の輝度変化は、 と計算でき、このK(i) の値を発声動作があるか否かの
目安とする。人物の顔周辺画像は、人物位置検出部2か
ら、特定した位置とともに入力するようにする。人物位
置特定の処理では、全体画像中から顔の部分の画像を切
り出す処理を含むのが一般的であるため、顔周辺画像は
容易に取り出せる。画像からの発声動作の検出方法は輝
度変化の計算に限るものではなく、他の方法も使用可能
である。以降上の輝度変化K(i) を含め、画像から抽出
した発声動作の目安となる情報を便宜上発声動作情報と
呼ぶことにする。
【0096】画像からの人物位置検出処理の速さは、画
像の入力レート、例えば、5フレーム/秒で行うので、
音声処理をブロック単位で行う場合の処理速度とは一致
せず音声処理より遅いのが普通である。従って、位置別
発声動作情報検出部4−5に入力する画像は、音声処理
に関する1ブロック前と同じものを使う場合があること
になるが、その場合、同じ画像間の輝度変化を求めるこ
とになるので輝度変化は0になる。この状況を避けるた
め、輝度変化の計算の結果、値が0のときは1ブロック
前の輝度変化の値をそのまま出力するようにする。
【0097】発声動作情報は、位置別到来パワーと並列
に使うようにしており、環境適応部4−2の学習信号レ
ベル計算部4−2cと、適応制御信号生成部4−2fに
おいて用いている。本実施形態の他の部分は第2実施形
態と同じであり、環境適応部4−2の構成も同じである
ので、学習信号レベル計算部4−2cと適応制御信号生
成部6についてのみ述べる。
【0098】まず、学習信号レベル計算部4−2cで
は、適応フィルタの入力信号と希望応答の生成の際の、
到来を仮定する人物位置各々の音源信号の振幅を決定す
る。このため、第2実施形態と同様、学習信号レベル計
算部4−2cでは、入力音声の背景雑音パワーと位置別
到来パワーの音声区間の平均値を計算して保持し、上述
の発声動作情報と、求めた位置別到来パワーと背景雑音
パワーとから、音源信号の振幅を計算する。このとき、
音源の存在を仮定する人物位置が、感度を高く設定した
位置であるか、低く設定した位置であるかに応じて振幅
の計算方法を変えるようにする。
【0099】感度を高くするように設定した位置の場
合、第2実施形態と同様、位置別到来パワーの平均値の
平方根の値を音源信号の振幅とするようにする。なお、
発声がない場合は、位置別到来パワーは小さい値となっ
てしまうため、背景雑音に対してある値v、例えばv=
5dB高い値を最小値として設定し、位置別到来パワー
がこれを上回る時だけ検出した値に設定するようにす
る。すなわち、 Ak =(PN *10v/101/2 (21) (位置別到来パワーが背景雑音+vdBより小さいと
き) Ak =(Pk 1/2 (22) (位置別到来パワーが背景雑音+vdBより大きいと
き)のように計算する。ここで、PN は背景雑音パワー
の平均値、Pk は位置別到来パワー、vは最小値5であ
る。
【0100】感度を低くするように設定した位置の場
合、位置別到来パワーと発声動作情報が大きいほど音源
信号が小さい振幅となるようにして、人工的な学習信号
への適応を弱めるようにする。例えば、k番目の音源信
号の振幅を、 Ak =Ak *γ(PN /Pk 1/2 *(1−γ)(Ko /(Kk +Ko ))1/2 (23) によって計算する。ここで、Kk は式(20)によって
計算したk番目の位置の顔周辺画像のフレーム間の輝度
変化、Ko は同輝度変化の平均値、γは定数、例えば、
γ=0.5とする。以上のようにして求めた音源振幅と
入力音声とを加算し、適応フィルタの入力信号を生成す
る。
【0101】次に、適応制御信号生成部4−2fは、位
置別到来パワーと発声動作情報に基づいてフィルタ学習
のステップサイズの制御を行う。ここでは、実施例2と
同様、この到来パワーの値が大きいときは適応を遅く、
小さいときは適応を早くするようにステップサイズを制
御する。
【0102】このため、例えば、式(5)で固定してい
たステップサイズ(式(5)のa)の値を次式により逐
次計算して可変とすることにより、適応の速度を調整す
るようにする。
【0103】 a=C/(αB k /pN +βB k +1)(抑圧モードB)(24) a=C/(αA Σ(pk /pN )+βA Σ(Kk /Ko )+1) (抑圧モードA)(25) ここで、pk は感度を高くするように設定した位置kか
らの位置別到来音パワー、C、αA 、αB 、βA 、βB
は定数、例えばC=2.0、αA =αB =0.5、βA
=βB =0.5である。ステップサイズの計算式として
挙げた上式は一例であり、例えば、位置別到来パワーと
輝度変化の値に対して各々しきい値を定め、どちらか一
方がこれを越えた場合に、適応を止める(a=0とす
る)など、他の方法も使用可能である。
【0104】ここで、図15を参照しながら第3実施形
態の環境適応部全体の処理の流れを説明する。
【0105】まず、環境適応部4−2の音源信号生成部
4−2bにおいて、選択人物位置の数の系列の音源信号
を生成する(ステップS21)。
【0106】次に、学習信号レベル計算部4−2cにお
いて、複数チャネルで入力した入力音声のパワーを計算
し、音声検出を行って音声部分と非音声部分とを決め、
非音声部分の平均パワーから背景雑音パワーPN を求め
る。このとき、式(12)により平均化してもよい(ス
テップS22)。
【0107】次に、複数チャネルの入力音声から式(1
5)により位置別到来パワーを計算する(ステップS2
3)。次に、位置別発声動作情報検出部4−5におい
て、人物位置ごとの顔周辺画像を人物位置検出部2から
入力し、発声動作情報を検出する。輝度変化の計算の結
果、値が0ならば1ブロック前の値をこのブロックの輝
度変化の値とし、0以外なら計算結果をこのブロックの
輝度変化の値とし、この値を記憶する(ステップS2
4)。
【0108】次に、学習信号レベル計算部4−2cにお
いて、式(21)から(23)により音源信号の振幅A
k を計算する(ステップS25)。次に、入力信号生成
部4−2aにおいて、式(13)により、実際の入力音
声と加算して適応フィルタの入力信号を生成する(ステ
ップS26)。次に、希望応答生成部4−2dにおい
て、式(14)により、音源信号と音源信号の振幅から
希望応答を生成する(ステップS27)。
【0109】次に、適応制御信号生成部4−2fにおい
て、式(24)または(25)により、背景雑音パワー
と位置別到来パワーと位置別発声動作情報とからステッ
プサイズの系列である適応制御信号を生成する(ステッ
プS28)。次に、生成した入力信号と希望応答と適応
制御信号を適応フィルタに入力し、フィルタ係数を得る
(ステップS29)。得られたフィルタは、雑音除去部
4−3に送り、入力音声とフィルタを畳み込んで音声を
抽出する。
【0110】第3実施形態の全体の処理の流れは第1実
施形態と同じであるので改めて述べない。以上に述べた
ように、画像処理により特定された複数の人物位置各々
から到来する音声に対し、適応フィルタにより感度を設
定して雑音抑圧を行う際、人物位置からの到来音のパワ
ーと画像から求めた発声動作情報に応じて適応フィルタ
の適応処理を制御しているため、雑音が大きく、位置別
到来パワーの推定が低い場合でも、雑音抑圧性能を大幅
に高くしながら、複数の人物が同時に発声した場合に、
その人物すべての音声を背景雑音を抑圧して取り出した
り、一人だけの人物の音声のみを他の人物の音声を抑圧
して取り出したりできる。
【0111】以下にテスト発声モードを備えた第4実施
形態について説明する。第4実施形態は、音声収集装置
の動作中に、一時、通常の音声入力処理を停止し、テス
ト発声を入力してレベル計算を行うための、入力モード
切り替え部を具備することにより、音源信号のレベルを
実環境の値に合わせ、高精度の適応処理を行うものであ
る。
【0112】これまでに述べた実施形態では、適応フィ
ルタの学習信号の生成に用いる音源信号は、背景雑音レ
ベルと経験的に決めたデフォルトの音声のレベル値を用
いてその振幅を計算してきたが、本実施形態では、さら
に現実の音場に正確に合わせるため、テスト発声を行っ
て音源のレベルを決めるようにしている。このため、テ
スト発声か、通常の音声入力かを動作中に切り替える入
力モード切り替え部7を追加し、図16に示すような構
成としている。図において、1は画像入力部、2は人物
位置検出部、3は音声入力部、4は雑音抑圧部、5は入
力モード切り替え部である。
【0113】この構成において、通常は入力モード切替
部には、通常の音声入力処理であることを設定してお
き、テスト発声時には入力モード切替部から、テスト発
声であることを入力する。入力モードをテスト発声に設
定した場合、通常行っている適応フィルタ処理は止め、
学習信号レベル計算部4−2cにおいて、入力音声のレ
ベルを計算し、保持するようにする。テスト発声を終了
して通常の入力モードに戻った際は、学習信号レベル計
算の際、デフォルトで例えば5dBなどと決めてきた音
源信号の最小値を使わず、ここで求めたテスト発声のレ
ベルから音源信号の振幅を計算するようにする。
【0114】ここで、図17を参照しながら第4実施形
態の全体の処理の流れを説明する。
【0115】まず、初期設定を行い、選択する人物位置
の数Nと雑音抑圧処理のモードAかBかを設定する(ス
テップS41)。
【0116】画像の処理の方では、画像データをビデオ
カメラから、例えば毎秒5フレームで取り込み(ステッ
プS42)、フレームごとに人物位置を特定して出力し
(ステップS43)、このステップS42とS43を繰
り返す。画像から人物位置を特定する画像の処理は、音
声の雑音抑圧処理とは独立に、並列に処理するようにす
る。
【0117】音声処理の方では、まず、音声データを、
例えばサンプリング12kHzでAD変換し、1チャネ
ルあたり、例えば1024サンプルを1ブロックとして
1ブロック分のデータを取り込む(ステップS44)。
【0118】次に、ステップS45で入力モードがテス
ト発声か通常入力かを検査し、テスト発声であればステ
ップS46に進み、通常入力であればステップS47に
進む。ステップS46では、学習信号レベル計算部4−
2cにおいて、入力音声のレベルを計算して保持する。
入力音声のレベルは、ある番号、例えば1ch目のマイ
クロホンからの入力のパワーに基づいて音声検出を行
い、音声区間として検出された部分の平均値を用いるよ
うにする。この後、ステップS44に戻る。
【0119】次に、ステップS47では人物位置が特定
されているか否かを判定し、人物位置が特定されていな
い場合は、何もせずにこのステップS44乃至S47を
繰り返し、特定された場合は次のステップS48に進
む。人物位置は、処理開始直後で画像処理結果が出てい
ない場合や人物がいない場合に特定されない。位置画像
に関する処理と音声に関する処理とは独立しているた
め、例えば、一つの計算機上で全処理を行う場合、よく
知られているように、ソケットを用いたプロセス間通信
やシェアドメモリ、あるいはファイルを通じて人物位置
のデータのやり取りを行うことができる。
【0120】次のステップS48では、人物位置選択部
4−1において、処理対象とする人物位置を選択する。
次に、環境適応部4−2において、人物位置選択部4−
1で選択された人物位置または方向と距離を用いて適応
フィルタの学習信号を生成し、フィルタ係数を更新する
(ステップS49)。次に、ステップS49で更新され
たフィルタ係数を雑音除去部4−3にコピーし、このフ
ィルタと入力音声との畳み込み演算を行って音声を出力
する(ステップS50)。
【0121】以上のステップS41からS42の処理と
ステップSS43からS50までの処理を並列に繰り返
す。
【0122】なお、本実施例で述べたテスト発声モード
は、第1実施形態に追加する形で述べたが、第2、第3
実施形態に述べた構成に追加して併用することも可能で
ある。
【0123】次に、本発明の第5実施形態について説明
する。本実施形態では、人物ごとの音声を他の人物の音
声と分離して取り出すため、第1乃至第4実施形態の雑
音除去部と、環境適応部における適応処理部各々を複数
のフィルタから構成するようにしている。これを、図1
8に示す。この部分以外については第1乃至第4実施形
態と同様の構成である。なお、この実施形態は、第3実
施形態の拡張として説明するが、第2、第4実施形態に
も適用可能であり、また、環境適応部の適応制御信号生
成部を取り去るだけで第1実施形態を拡張した場合にも
なっている。図18において、環境適応部4−2におけ
る適応処理部4−2eと雑音除去部4−3におけるフィ
ルタは各々複数個(N個)づつ、例えば、3個づつ用意
し、雑音除去部4−3のフィルタは環境適応部4−2の
適応フィルタの係数のコピーである。また、環境適応部
4−2の適応フィルタには、すべて同じ入力信号を入力
するが、希望応答と適応制御信号は、フィルタの番号k
により異なった内容のものを入力するようにする。
【0124】この適応処理部4−2eを含む環境適応部
4−2の処理について、次に説明する。まず、環境適応
部4−2では、画像により検出され選択された人物位置
各々から音波が到来すると仮定し、その音波の信号を音
源信号生成部4−2bで生成する。この信号の内容は、
人工的なもの、例えば音源間で無相関なランダム雑音で
良いことは、第1実施形態で述べた。この音源信号をも
とに、適応処理を行うための入力信号と希望応答を生成
する。その際、学習信号レベル計算部4−2cにおい
て、位置別到来パワー、発声動作情報のいずれか又は両
方と観測した背景雑音レベルとに基づいて音源信号の振
幅を決定する。
【0125】また、適応処理の際の適応速度の制御を行
う適応制御信号を適応制御信号生成部4−2fにおいて
生成する。適応処理部4−2eでは、上記3つの信号を
入力として適応フィルタにより雑音抑圧のためのフィル
タ係数を決定する。なお、適応制御信号は必ずしも必要
でなく、また、学習信号レベルの計算には、位置別到来
パワーと発声動作情報は必ずしも必要でない。
【0126】人物位置検出部2により複数検出され、そ
の中から人物位置選択部4−1により選択された複数の
人物位置各々から到来する音声の抽出を、構成図で示し
たように、複数個のフィルタを使って行う。フィルタの
数は選択人物位置の数と一致するようにし、フィルタの
番号kは人物位置の番号に対応させるようにする。
【0127】各フィルタが各人物の音声を抽出するよう
にするため、k番目の適応フィルタによる適応の際の希
望応答の内容は、k番目の人物位置から到来することを
仮定する1個の音源の信号と同じになるようにし、式
(14)により計算される。また、各適応フィルタの入
力信号は、N個の人物位置から各々に対応する音源信号
が伝搬してマイクロホン位置で観測されるときの信号を
すべて重ね合わせたものに実際に入力した音声を加算し
たものであり、式(13)により、マイクロホン位置ご
とに計算されてNチャネルの信号が生成される。入力信
号はすべての適応フィルタで共通に使われる。
【0128】一方、適応フィルタの収束速度を制御する
適応制御信号は、適応フィルタの番号ごとに異なった信
号内容のものを生成するようにし、k番目のフィルタに
は、k番目の人物位置からの位置別到来パワーまたは発
声動作情報に基づいて式(19)、(20)または式
(24)、(25)により計算されたステップサイズの
値の系列を入力するようにする。位置別到来パワーまた
は発声動作情報が得られない第1実施形態を拡張する場
合は、適応制御信号は生成せず、ステップサイズは一定
値とする。
【0129】上記のようにして生成した入力信号、希望
応答、適応制御信号を適応フィルタに入力して複数組の
フィルタ係数を決定した後、これらの係数を雑音除去部
4−3に送り、入力音声をフィルタ処理して雑音を除去
し、各人物の音声を別々に抽出するk番目の人物位置の
音声はk番目のフィルタから出力されることになる。
【0130】以上のように、人物位置に対応した複数の
フィルタを用いることにより、各人物位置からの到来音
を別々に分離して取り出すことが可能となる。
【0131】次に、本発明の第6実施形態について説明
する。第6実施形態はパイロット信号法による適応フィ
ルタでなく、線形拘束条件付き適応フィルタにより、雑
音抑圧処理を行って音声収集するものである。この種類
の適応フィルタにより計算量の多い学習信号の生成処理
を省いた処理が可能である。
【0132】図19は第6実施形態の全体構成を示す図
である。図19において、1は画像を入力する画像入力
部、2は入力した画像を処理して人物の位置を特定する
人物位置検出部、3は複数のマイクロホンからの音声を
並列に入力する音声入力部、4は画像処理により検出さ
れた人物位置に基づいて複数のマイクロホンからの入力
音声から雑音を抑圧して音声を取り出す雑音抑圧部であ
る。この雑音抑圧部4の内部構成は、人物位置検出部2
により特定された人物位置の中から処理対象とする人物
位置を選択する人物位置選択部4−1と、選択された人
物位置に基づいて適応フィルタの拘束条件の設定を行う
拘束条件設定部4−2と、設定された拘束条件のもとで
適応フィルタにより雑音抑圧処理を行う雑音除去部4−
3とからなる。
【0133】人物位置選択部4−1では、第1実施形態
において述べたように、画像から得られた複数の人物位
置から定めた数の人物位置の選択を行い、拘束条件設定
部4−2ではこの人物位置に基づき、線形拘束条件付き
適応フィルタの拘束条件を設定する。拘束条件によっ
て、任意の人物位置から到来する音波に対する感度を設
定できるようになる。雑音除去部4−3では、設定され
た拘束条件のもとで適応フィルタにより雑音抑圧処理を
行う。
【0134】線形拘束条件付き適応フィルタの詳細は、
例えば、文献(Heykin著:AdaptiveFilter Theory)に
詳述されているが、一応、処理方法を述べる。
【0135】式(1)から(4)を参照し、マイクロホ
ンアレイの出力をX、フィルタ係数をW、フィルタの出
力をy=WH Xとすると、拘束条件付き最小分散適応フ
ィルタのフィルタ係数は、次式によるフィルタの出力パ
ワーy2 の期待値 E[y2 ]=E[wH XXH w]=wH Rw (E[ ]は期待値) (26) を、目的の方向または位置に対する応答を一定に保つと
いう拘束条件下で最小にすることにより得られる。ここ
で、R=E[XXH ]はXの自己相関行列である。ま
た、拘束条件は、 WH A=g (26−1) と表される。ここで、gは拘束条件の数Gの大きさの定
数値の列ベクトルで、例えば[1,1,…,1]であ
り、Aは異なった周波数に関する方向制御ベクトルam
を列ベクトルとする行列であり、 A=[a1 ,…,aL ] (27) と表される。上式(6)の成分の各方向制御ベクトルa
m (m=1,…,L)は
【数1】
【0136】である。ここで、τ2 ,…,τN は1番目
のマイクロホンを基準としたときの各マイクロホンに入
射する音波の伝搬時間差、ωm は角周波数、a2 ,…,
N は1番目のマイクロホンを基準としたときの各マイ
クロホンに入射する音波の振幅比である。Gは例えば1
0を用い、ωm は例えばωm =((ωa −ωb )/(G
−1))*m+ωb とする。ここでωa は帯域の上限、
ωb は下限の角周波数である。
【0137】式(26−1)の拘束条件として、一つの
方向または位置から到来する音波に関する応答を一定に
するだけでなく、複数の方向または位置から到来する音
波に対する応答を同時に一定にするようにする。例え
ば、θ1 ,θ2 の2つの到来角度に関する時間遅れτi
(θ1 ),τi (θ2 )(式(6))を用いた方向制御
ベクトルam (θ1 ),am (θ2 )(m=0,1,
…,L)、
【数2】
【0138】を用いて、 A=[a0 (θ1 ),a1 (θ1 ),…,aL (θ1 )、a0 (θ2 ), a1 (θ2 ),…,aL (θ2 )] (30) とすることで、複数の到来方向に対するアレイの応答の
拘束条件を設定することができる。
【0139】ここで、式(4)と(5)による最小化問
題を反復的に求める場合、j回めの反復による更新後の
フィルタ係数は、次式のように表される。
【0140】 Wj =P[Wj-1 −μyj X]+F (31) ここで、PとFは、 P=I−A(AH A)-1H 、F=A(AH A)-1g (32) である。式(8)により、雑音を抑圧して目的の音声を
取り出すフィルタ係数が得られるとともに、雑音を抑圧
した音声出力yj が同時に得られることになる。次に、
雑音抑圧のための拘束条件の設定について説明する。複
数の人物位置が得られた場合の雑音抑圧の仕方は、第1
実施形態で述べたように、処理対象として選択されたす
べての人物位置からの到来音波を高い感度で得るように
する抑圧処理モードAと、選択された人物位置の中の一
つから到来する音波のみ高い感度にし他の人物位置から
の音波に対しては感度を低くする抑圧処理モードBがあ
る。他にも、AとBの中間の方法として、所定の複数の
人物位置に対して感度を高くしその他に対しては低くす
るなどが考えられるが、AとBの組み合わせで実現でき
る。
【0141】雑音抑圧の拘束条件は、拘束条件を表す式
(25)において、行列Aの要素と定数ベクトルgを与
えることにより設定する。処理モードAもBも、行列A
の内容は同じであり、選択した人物位置に関する方向制
御ベクトル式(30)である。定数ベクトルgの内容は
抑圧処理モードに応じて変えるようにし、選択した人物
位置すべてに対して感度を高くする抑圧モードAの場
合、gの要素はすべて1とし、抑圧処理モードBの場
合、高い感度に設定する人物位置に関するgの要素は1
とし、低い感度に設定する人物位置に関するgの要素は
0にする。
【0142】例えば、方向θ1 ,θ2 に関する方向制御
ベクトルの行列Aが、次に示す式(30)の内容の場
合、 A=[a0 (θ1 ),a1 (θ1 ),…,a
L (θ1 )、a0 (θ2 ),a1 (θ2 ),…,a
L (θ2 )] 方向θ1 に対して感度を高くし、θ2 に対して感度を低
くする場合の定数ベクトルgの内容は、 g=[1,1,…,1、0,0,…,0] とする。
【0143】次に、以上の処理の流れについて図20を
参照しながら説明する。
【0144】第1実施形態で述べたように、画像から人
物位置を特定する画像の処理と、音声の雑音抑圧処理と
は、並列に処理するようにし、画像処理の方は第1実施
形態と同じである。
【0145】まず、初期設定を行い、選択する人物位置
の数Nと雑音抑圧処理のモードAかBかを設定する(ス
テップS51)。
【0146】画像の処理の方では、画像データを、例え
ば毎秒5フレームで取り込み(ステップS52)、フレ
ームごとに人物位置を特定する(ステップS53)。
【0147】音声処理の方では、まず、音声データを例
えばサンプリング12kHz、1チャネルあたり102
4サンプルを1ブロックとして1ブロック分取り込む
(ステップS54)。
【0148】次に、人物位置が特定されているか否かを
判定し(ステップS55)、人物位置が特定されていな
い場合は、ステップS54に戻り、特定されている場合
は次のステップS56に進む。
【0149】次のステップS56では、人物位置選択部
4−1において、処理対象とする人物位置を選択する。
次に、選択された人物位置に基づいてフィルタ処理の拘
束条件を式(26)、(30)に従って設定する(ステ
ップS57)。
【0150】次に、ステップS57で設定した拘束条件
のもとに適応フィルタの演算を行って音声を出力する
(ステップS58)。以上ステップS52からS53の
処理とS54からS58までの処理とを並列に繰り返
す。
【0151】以下に、拘束条件付きと複数のフィルタを
備えた第7実施形態を詳細に説明する。第7実施形態
は、拘束条件付き適応フィルタを使った場合に、複数の
人物位置各々からの到来音を分離して取り出すものであ
る。複数の人物位置からの到来音を分離して取り出すた
め、全体構成図の雑音除去部4−3を複数の適応フィル
タにより図21に示すように構成する。
【0152】図21において、適応フィルタの数は人物
位置選択部4−1において選択する人物位置の数と一致
させてN個、例えば3とし、適応フィルタごとに異なっ
た内容で拘束条件を設定する。拘束条件は、拘束条件設
定部4−2において行い、k番目の適応フィルタには、
選択された人物位置の中のk番目の位置に対して感度を
高くし、他の人物位置に対しては感度を低くするように
設定した拘束条件を入力する。
【0153】以上のように、複数の適応フィルタを用
い、各々に異なった拘束条件を設定することにより、人
物位置ごとの到来音を他の位置からの到来音と分離して
抽出することが可能となる。
【0154】以下に、拘束条件付き適応フィルタとパイ
ロット信号法を組み合わせた第8実施形態を説明する。
第8実施形態の構成を図22に示す。図22において、
1は画像入力部、2は人物位置検出部、3は音声入力
部、4は雑音抑圧部であり、雑音抑制部4の内部は、人
物位置選択部4−1と、環境適応部4−2と、雑音除去
部4−3と、拘束条件設定部4−5とからなる。
【0155】この構成において、画像から検出して人物
位置の中から人物位置選択部4−1により複数を選択
し、これに基づいて拘束条件設定部4−5において線形
拘束条件付き適応フィルタの拘束条件を設定し、環境適
応部4−2においてこの適応フィルタの学習信号である
入力信号と希望応答を生成して適応フィルタに入力して
雑音抑圧のためのフィルタ係数を決定し、決定したフィ
ルタ係数を雑音除去部4−3に送り、入力音声をフィル
タ処理して雑音を除去する。
【0156】拘束条件と学習信号の作成方法は種々考え
られるが、ここでは、抑圧処理のモードBの場合につい
て説明する。この場合、一つの人物位置に対して感度を
高くなるように拘束条件を設定し、他の人物位置に対し
ては感度が低くなるように学習信号を生成して適応フィ
ルタの係数を決定する。
【0157】例えば、方向θ1 に関して感度を高く設定
する場合、方向制御ベクトルの行列Aを、次に示す内容
にし、 A=[a0 (θ1 ),a1 (θ1 ),…,a
L (θ1 )] 定数ベクトルgの内容は、 g=[1,1,…,1] とする。
【0158】また、学習信号のうち、入力信号は、感度
を低く設定する人物位置からのみの音波の到来を仮定
し、マイクロホン位置で観測される信号を第1実施形態
の式(13)により求める。この場合、希望応答は使わ
ないので生成しない。従って、環境適応部は、第1、第
2実施形態の環境適応部における希望応答生成部を除い
た図23に示すような構成により実現可能である。
【0159】図23において、4−2cは学習信号レベ
ル計算部、4−2aは入力信号生成部、4−2bは音源
信号生成部、4ー2eは適応処理部である。この構成に
より、拘束条件付き適応フィルタの拘束条件を設定した
後、入力信号を適応フィルタに入力してフィルタ係数の
更新を行う。
【0160】上述の環境適応部4−2の処理の流れを図
24を参照しながら説明する。
【0161】まず、環境適応部4−2の音源信号生成部
4−2bにおいて、選択人物位置の数の系列の音源信号
を生成する(ステップS61)。
【0162】次に、学習信号レベル計算部4−2cにお
いて、複数チャネルで入力した入力音声のパワーを計算
し、音声検出を行って音声部分と非音声部分とを決め、
非音声部分の平均パワーから背景雑音パワーPN を求め
る。このとき、式(12)により平均化してもよい(ス
テップS62)。
【0163】次に、学習信号レベル計算部4−2cにお
いて、式(11)により音源信号の振幅Ak を計算する
(ステップS63)。次に、入力信号生成部4−2aに
おいて、式(13)により、実際の入力音声と加算して
適応フィルタの入力信号を生成する(ステップS6
4)。次に、生成した入力信号を適応制御信号として適
応フィルタに入力し、フィルタ係数を得る(ステップS
65)。
【0164】得られたフィルタは、雑音除去部4−3に
送り、入力音声とフィルタを畳み込んで音声を抽出す
る。雑音除去部4−3におけるフィルタ処理は、式
(4)に従って行う。
【0165】次に、本実施例全体の処理の流れについ
て、図25を参照して説明する。
【0166】第1実施形態で述べたように、画像から人
物位置を特定する画像の処理と、音声の雑音抑圧処理と
は、並列に処理するようにし、画像処理の方は第1実施
形態と同じである。
【0167】まず、初期設定を行い、選択する人物位置
の数Nと雑音抑圧処理のモードAかBかを設定する(ス
テップS71)。
【0168】画像の処理の方では、画像データを、例え
ば毎秒5フレームで取り込み(ステップS72)、フレ
ームごとに人物位置を特定する(ステップS73)。
【0169】音声処理の方では、まず、音声データを例
えばサンプリング12kHz、1チャネルあたり102
4サンプルを1ブロックとして1ブロック分取り込む
(ステップS74)。
【0170】次に、人物位置が特定されているか否かを
判定し(ステップS75)、人物位置が特定されていな
い場合は、ステップS74に戻り、特定されている場合
は次のステップS76に進む。
【0171】次のステップS76では、人物位置選択部
において、処理対象とする人物位置を選択する。
【0172】次に、選択された人物位置に基づいてフィ
ルタ処理の拘束条件を式(26)、(30)に従って設
定する(ステップS77)。
【0173】次に、環境適応部4−2において、人物位
置選択部4−1で選択された人物位置または方向と距離
を用いて適応フィルタの学習信号を生成する(ステップ
S78)。
【0174】ステップS77で設定した拘束条件のもと
に適応フィルタの演算を行ってフィルタ係数を更新し、
雑音除去部4−3にフィルタ係数を転送する(ステップ
S79)。
【0175】次に、雑音除去部4−3において、ステッ
プS79で転送されたフィルタと入力音声との畳み込み
演算を行って音声を出力する(ステップS80)。
【0176】以上のステップS72からS73の処理
と、S74からS80までの処理を並列に繰り返す。
【0177】以上に述べたように、拘束条件付き適応フ
ィルタにパイロット信号法を適用することにより、パイ
ロット信号法で必要な学習信号生成のための処理量を減
らし、また、拘束条件付き適応フィルタにおいて、拘束
条件が多い場合のフィルタの自由度低下による性能低下
を避けることができるため、少ない処理量で精度よく実
環境に適応して雑音抑圧処理を行うことができる。
【0178】以下に第9実施形態を説明する。第9実施
形態は、拘束条件付き適応フィルタとパイロット信号法
を組み合わせた場合に、複数の人物位置からの音声を分
離して取り出すものである。複数の人物位置からの音声
を分離して取り出すため、雑音除去部4−3と環境適応
部4−2の適応処理部4−2eとを、図26に示すよう
に複数のフィルタから構成するようにしている。
【0179】図26において、適応処理部4−2eの適
応フィルタと雑音除去部4−2のフィルタはN個、例え
ば3個づつ用意し、適応処理部4−2eで決定した適応
フィルタの係数を雑音除去部4−3に送るようにしてい
る。適応処理部4−2eの各適応フィルタの入力には、
入力信号生成部4−2aで生成した入力信号を共通に入
力し、拘束条件は適応フィルタごとに異なったものを入
力する。
【0180】拘束条件は拘束条件設定部4−5において
設定し、k番目の適応フィルタには、人物位置選択部4
−1において選択されたk番目の人物位置から到来する
音波に対して感度を高くなるようにした拘束条件が入力
される。拘束条件の設定方法は第8実施形態で述べたの
と同じであり、また、適応フィルタの入力信号の生成方
法も同じである。
【0181】以上に述べたように、拘束条件付き適応フ
ィルタとパイロット信号法を組み合わせた場合に、複数
のフィルタにより適応処理を行っているため、人物位置
ごとの到来音を分離して抽出することができ、且つ、パ
イロット信号法で必要な学習信号生成のための処理量を
減らし、また、拘束条件付き適応フィルタにおいて、拘
束条件が多い場合のフィルタの自由度低下による性能低
下を避けることができるため、少ない処理量で精度よく
実環境に適応して雑音抑圧処理を行うことができる。
【0182】なお、上記した人物位置決定工程と、人物
位置選択工程と、フィルタ係数決定工程と、音声抽出工
程とはコンピュータプログラムとして、ハードディス
ク、フロッピーディスク、CD−ROMなどの記憶媒体
に記憶し、この記憶媒体を適当な計算機に搭載して実行
することができる。
【0183】
【発明の効果】本発明によれば、複数の人物位置からの
音声に対して、背景雑音を抑えてすべての音声を同時に
抽出するかあるいは、特定の人物位置からの音声のみを
抽出することができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る音声収集装置の構
成を示す図である。
【図2】カメラとマイクの配置を示す図である。
【図3】画面上の人物データの一例を示す図である。
【図4】人物位置データの一例を示す図である。
【図5】環境適応部の構成を示す図である。
【図6】フィルタの構成を示す図である。
【図7】マイクロホンと人物位置の設定を示す図であ
る。
【図8】環境適応部の処理の流れを示すフローチャート
である。
【図9】第1実施形態全体の処理の流れを示すフローチ
ャートである。
【図10】第2実施形態における雑音抑圧部の構成を示
す図である。
【図11】環境適応部の構成を示す図である。
【図12】位置別到来パワーに基づく学習信号の生成に
ついて説明するための図である。
【図13】環境適応部の処理の流れを示すフローチャー
トである。
【図14】第3実施形態の全体構成を示す図である。
【図15】環境適応部の処理の流れを示すフローチャー
トである。
【図16】第4実施形態の全体構成を示す図である。
【図17】第4実施形態の全体処理の流れを示すフロー
チャートである。
【図18】第5実施形態における雑音除去部と環境適応
部の構成を示す図である。
【図19】第6実施形態の全体構成を示す図である。
【図20】第6実施形態の処理の流れを示すフローチャ
ートである。
【図21】第7実施形態の雑音除去部の構成を示す図で
ある。
【図22】第8実施形態の全体構成を示す図である。
【図23】第8実施形態における環境適応部の構成を示
す図である。
【図24】環境適応部の処理の流れを示すフローチャー
トである。
【図25】第8実施形態の処理の流れを示すフローチャ
ートである。
【図26】第9実施形態における雑音除去部と環境適応
部の構成を示す図である。
【符号の説明】
1…画像入力部、2…人物位置検出部、3…音声入力
部、4…雑音抑圧部、4−1…人物位置検出部、4−2
…環境適応部、4−3…雑音除去部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) H04R 3/00 320 H03H 17/00 601 H03H 21/00

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の人物の少なくとも一部を撮影して
    得られた画像を入力する画像入力手段と、 複数のチャネルを介して個々に音声を入力する音声入力
    手段と、 前記画像入力手段によって入力された画像情報を処理し
    て複数の人物位置を求める人物位置検出手段と、 この人物位置検出手段によって検出された複数の人物位
    置から、処理対象となる人物位置を少なくとも一人選択
    する人物位置選択手段と、 任意に生成した音源信号を、前記人物位置選択手段によ
    って選択された人物位置に配置したものとしたときに観
    測して得られる第1の信号と、前記選択された人物位置
    からのすべての音声に対する感度を、選択されなかった
    人物位置と比較して同時に高くするモードと、前記選択
    された人物位置のうち、特定の目的位置からの音声のみ
    を、選択されなかった人物位置と比較して高くするモー
    ドのうちいずれかの選択に応じて前記音源信号から生成
    される第2の信号とに基づいて、フィルタ係数を決定す
    るフィルタ係数決定手段と、 このフィルタ係数決定手段によって決定されたフィルタ
    係数を用いて、前記音声入力手段によって入力された音
    声のうち、前記選択されたモードに対応する音声のみを
    抽出する音声抽出手段と、 を具備することを特徴とする音声収集装置。
  2. 【請求項2】 前記選択された人物位置のうち、前記特
    定の目的位置からの音声のみを高くするモードにおい
    て、複数の目的位置に対応して前記フィルタ係数決定手
    段及び音声抽出手段を複数個設け、複数の人物位置から
    の音声を分離して抽出するようにしたことを特徴とする
    請求項1記載の音声収集装置。
  3. 【請求項3】 テスト発声データの入力と前記音声入力
    手段を介して入力される通常の音声入力の切り替えを指
    示する入力モード切り替え手段と、入力モードがテスト
    発声データ入力であるときに、取り込んだテスト発声デ
    ータのレベルを求めるテスト発声レベル計算手段とをさ
    らに具備することを特徴とする請求項1または2記載の
    音声収集装置。
  4. 【請求項4】 前記画像入力手段によって入力された画
    像から人物の発声動作に関する情報を位置別に検出する
    位置別発声動作情報検出手段をさらに具備し、前記フィ
    ルタ係数決定手段は、検出した位置別の発声動作に関す
    る情報と、入力された音声から求めた位置別到来パワー
    の少なくとも一方に基づいて、前記第1の信号である入
    力信号と前記第2の信号である希望応答信号とを生成す
    ることを特徴とする請求項1乃至3のいずれかに記載の
    音声収集装置。
  5. 【請求項5】 複数の人物の少なくとも一部を撮影して
    得られた画像を入力する画像入力手段と、 複数のチャネルを介して個々に音声を入力する音声入力
    手段と、 前記画像入力手段によって入力された画像情報を処理し
    て複数の人物位置を求める人物位置検出手段と、 この人物位置検出手段によって検出された複数の人物位
    置から、処理対象となる人物位置を少なくとも一人選択
    する人物位置選択手段と、 この人物位置選択手段によって選択された人物位置に基
    づいて、前記少なくとも一人の人物位置からの音声に対
    する感度を同時に一定の値にする制約をフィルタ処理の
    制約として設定するフィルタ制約設定手段と、 このフィルタ制約設定手段の制約に基づいてフィルタ係
    数を決定し、このフィルタ係数を用いて前記音声入力手
    段によって入力される音声にフィルタ処理を施して音声
    を抽出する音声抽出手段と、 を具備することを特徴とする音声収集装置。
  6. 【請求項6】 前記フィルタ制約設定手段は、前記選択
    された人物位置の数が複数の場合に、この複数の人物位
    置の中の一つの位置を目的位置とし、該目的位置からの
    音声に対する感度を、選択されなかった人物位置と比較
    して高くする第1の制約と、前記目的位置以外の人物位
    置からの音声に対しては、選択されなかった人物位置と
    比較して感度を低くする第2の制約をフィルタ処理の制
    約として設定し、前記音声抽出手段は、前記第1、第2
    の制約の基にフィルタ出力を最小化してフィルタ係数を
    決定することを特徴とする請求項5記載の音声収集装
    置。
  7. 【請求項7】 複数の人物を撮影して得られた画像を入
    力する画像入力手段と、 この画像入力手段によって入力された画像情報を処理し
    て複数の人物位置を求める人物位置検出手段と、 この人物位置検出手段によって検出された複数の人物位
    置から、処理対象となる人物位置を少なくとも一人選択
    する人物位置選択手段と、 複数のチャネルを介して個々に音声を入力する音声入力
    手段と、 前記人物位置選択手段によって選択された少なくとも一
    つの人物位置の中の一つの位置を目的位置とし、この目
    的位置からの音声に対する感度を、選択されなかった人
    物位置と比較して高くする制約を設定するフィルタ制約
    設定手段と、 任意に作成した音源信号を、前記目的位置以外の人物位
    置に配置したものとしたときに観測される信号を生成す
    る入力信号生成手段と、 前記制約のもとで前記入力信号に基づき目的位置以外の
    人物位置からの音声に対して感度を低くするようにフィ
    ルタを決定するフィルタ決定手段と、 このフィルタ決定手段によって求められたフィルタ係数
    を用いて、前記音声入力手段によって入力された音声に
    フィルタ処理を施して音声を抽出する音声抽出手段と、 を具備することを特徴とする音声収集装置。
  8. 【請求項8】 前記フィルタ制約設定手段は、前記選択
    された人物位置の中から複数の目的位置を設定した場合
    に、この複数の目的位置の一つからの音声に対する感度
    を、選択されなかった人物位置と比較して高くする制約
    をフィルタ処理の制約として設定し、前記目的位置以外
    の人物位置に音源があるものとしたときに観測される入
    力信号に基づき、前記目的位置以外の人物位置からの音
    声に対しては感度を、選択されなかった人物位置と比較
    して低くするようにフィルタを設定するフィルタ設定手
    段と音声抽出手段とを、前記目的位置の変更に対応して
    複数個設け、複数の人物位置からの音声を分離して抽出
    するようにしたことを特徴とする請求項7記載の音声収
    集装置。
  9. 【請求項9】 複数の人物の少なくとも一部を撮影して
    得られた画像を入力する画像入力工程と、 複数のチャネルを介して個々に音声を入力する音声入力
    工程と、 前記画像入力工程において入力された画像情報を処理し
    て複数の人物位置を求める人物位置検出工程と、 この人物位置検出工程において検出された複数の人物位
    置から、処理対象となる人物位置を少なくとも一人選択
    する人物位置選択工程と、 任意に生成した音源信号を、前記人物位置選択工程で選
    択された人物位置に配置したものとしたときに観測して
    得られる第1の信号と、前記選択された人物位置からの
    すべての音声に対する感度を、選択されなかった人物位
    置と比較して同時に高くするモードと、前記選択された
    人物位置のうち、特定の目的位置からの音声のみを、選
    択されなかった人物位置と比較して高くするモードのう
    ちいずれかの選択に応じて前記音源信号から生成される
    第2の信号とに基づいて、フィルタ係数を決定するフィ
    ルタ係数決定工程と、 このフィルタ係数決定工程において決定されたフィルタ
    係数を用いて、前記音声入力工程において入力された音
    声のうち、前記選択されたモードに対応する音声のみを
    抽出する音声抽出工程と、 を具備することを特徴とする音声収集方法。
  10. 【請求項10】 複数の人物の少なくとも一部を撮影し
    て得られた画像を入力する画像入力工程と、 複数のチャネルを介して個々に音声を入力する音声入力
    工程と、 前記画像入力工程において入力された画像情報を処理し
    て複数の人物位置を求める人物位置検出工程と、 この人物位置検出工程において検出された複数の人物位
    置から、処理対象となる人物位置を少なくとも一人選択
    する人物位置選択工程と、 この人物位置選択工程において選択された人物位置に基
    づいて、前記少なくとも一人の人物位置からの音声に対
    する感度を同時に一定の値にする制約をフィルタ処理の
    制約として設定するフィルタ制約設定工程と、 このフィルタ制約設定工程における制約に基づいてフィ
    ルタ係数を決定し、このフィルタ係数を用いて前記音声
    入力工程において入力される音声にフィルタ処理を施し
    て音声を抽出する音声抽出工程と、 を具備することを特徴とする音声収集方法。
JP20621096A 1996-08-05 1996-08-05 音声収集装置及び音声収集方法 Expired - Fee Related JP3537962B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP20621096A JP3537962B2 (ja) 1996-08-05 1996-08-05 音声収集装置及び音声収集方法
US08/905,387 US6157403A (en) 1996-08-05 1997-08-04 Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20621096A JP3537962B2 (ja) 1996-08-05 1996-08-05 音声収集装置及び音声収集方法

Publications (2)

Publication Number Publication Date
JPH1051889A JPH1051889A (ja) 1998-02-20
JP3537962B2 true JP3537962B2 (ja) 2004-06-14

Family

ID=16519600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20621096A Expired - Fee Related JP3537962B2 (ja) 1996-08-05 1996-08-05 音声収集装置及び音声収集方法

Country Status (1)

Country Link
JP (1) JP3537962B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
JP4515005B2 (ja) * 2001-09-27 2010-07-28 オリンパス株式会社 電子カメラ
KR100491886B1 (ko) * 2002-08-16 2005-05-30 엘지전자 주식회사 휴대단말기의 등화필터 장치 및 그 운용방법
JP4934968B2 (ja) * 2005-02-09 2012-05-23 カシオ計算機株式会社 カメラ装置、カメラ制御プログラム及び記録音声制御方法
EP1736964A1 (en) * 2005-06-24 2006-12-27 Nederlandse Organisatie voor toegepast-natuurwetenschappelijk Onderzoek TNO System and method for extracting acoustic signals from signals emitted by a plurality of sources
JP2007251355A (ja) * 2006-03-14 2007-09-27 Fujifilm Corp 対話システム用中継装置、対話システム、対話方法
JP5029986B2 (ja) * 2007-05-07 2012-09-19 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置、プログラム
JP5197481B2 (ja) * 2009-05-15 2013-05-15 三菱電機株式会社 テレビジョン装置
JP5435221B2 (ja) * 2009-09-25 2014-03-05 日本電気株式会社 音源信号分離装置、音源信号分離方法及びプログラム
JP2011114769A (ja) * 2009-11-30 2011-06-09 Nikon Corp 撮像装置
JP5060631B1 (ja) * 2011-03-31 2012-10-31 株式会社東芝 信号処理装置及び信号処理方法
JP2012234150A (ja) 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2014143678A (ja) 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
JP5866504B2 (ja) * 2012-12-27 2016-02-17 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
EP2958339B1 (en) * 2013-02-15 2019-09-18 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and directionality control method
JP2014219467A (ja) 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9516412B2 (en) 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
JPWO2015151130A1 (ja) * 2014-03-31 2017-04-13 パナソニックIpマネジメント株式会社 音声処理方法、音声処理システム、及び記憶媒体
JP6145736B2 (ja) * 2014-03-31 2017-06-14 パナソニックIpマネジメント株式会社 指向性制御方法、記憶媒体及び指向性制御システム
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
EP3131311B1 (en) 2015-08-14 2019-06-19 Nokia Technologies Oy Monitoring
JP6670224B2 (ja) * 2016-11-14 2020-03-18 株式会社日立製作所 音声信号処理システム
WO2021019717A1 (ja) * 2019-07-31 2021-02-04 三菱電機株式会社 情報処理装置、制御方法、及び制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及系统

Also Published As

Publication number Publication date
JPH1051889A (ja) 1998-02-20

Similar Documents

Publication Publication Date Title
JP3537962B2 (ja) 音声収集装置及び音声収集方法
US6157403A (en) Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor
KR100499124B1 (ko) 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
EP2748817B1 (en) Processing signals
EP1658751B1 (en) Audio input system
JP3672320B2 (ja) 音源位置づけ方法と装置
JP3522954B2 (ja) マイクロホンアレイ入力型音声認識装置及び方法
US10939202B2 (en) Controlling the direction of a microphone array beam in a video conferencing system
US9232309B2 (en) Microphone array processing system
EP1592282B1 (en) Teleconferencing method and system
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
CN110140359B (zh) 使用波束形成的音频捕获
CN110120217B (zh) 一种音频数据处理方法及装置
Doclo Multi-microphone noise reduction and dereverberation techniques for speech applications
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP2003271191A (ja) 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
CN108109617A (zh) 一种远距离拾音方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
JP2022062875A (ja) 音信号処理方法および音信号処理装置
González-Rodríguez et al. Increasing robustness in GMM speaker recognition systems for noisy and reverberant speech with low complexity microphone arrays
EP1057291A4 (en) SYSTEM AND METHOD FOR FACTORING A MERGED WAVE FIELD IN INDEPENDENT COMPONENTS
Huang Real-time acoustic source localization with passive microphone arrays
JP2007093630A (ja) 音声強調装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040318

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20090326

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20100326

LAPS Cancellation because of no payment of annual fees