JP2008064892A - 音声認識方法およびそれを用いた音声認識装置 - Google Patents

音声認識方法およびそれを用いた音声認識装置 Download PDF

Info

Publication number
JP2008064892A
JP2008064892A JP2006240721A JP2006240721A JP2008064892A JP 2008064892 A JP2008064892 A JP 2008064892A JP 2006240721 A JP2006240721 A JP 2006240721A JP 2006240721 A JP2006240721 A JP 2006240721A JP 2008064892 A JP2008064892 A JP 2008064892A
Authority
JP
Japan
Prior art keywords
signal
sound
voice
arrival direction
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006240721A
Other languages
English (en)
Inventor
Akira Saso
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006240721A priority Critical patent/JP2008064892A/ja
Publication of JP2008064892A publication Critical patent/JP2008064892A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】マイクロフォンアレイ処理で除去しきれない残留雑音を補正する機能を持った音声認識手段とマイクロフォンアレイを組み合わせることで、静止または移動している指向性雑音源や無指向性雑音源を含む一般的な雑音環境下でも高精度に音声認識を実現する音声認識方法およびそれを用いた音声認識装置を提供すること。
【解決手段】音声認識方法は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順1、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順2、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順3、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声を検出・分離して出力する手順4、前記ユーザの音声信号の特徴を補正処理する手順5、前記補正処理した音声信号を音声認識する手順6とからなる。
【選択図】図1

Description

本発明は、様々な環境騒音や他人の音声などが存在する雑音環境下において、ユーザの発話を検出し、ユーザの音声と雑音を分離し、分離したユーザの音声を認識する音声認識方法およびそれを用いた音声認識装置に関する。
様々な環境騒音や他人の音声などが存在する雑音環境下において高いSNRでユーザ音声を録音するために(例えば、特許文献1参照)、口元近くにマイクロフォンを1つ配置する接話型のヘッドセットマイクロフォン(例えば、特許文献2参照)が用いられている。音声認識を行う場合、雑音に対して頑健な音声認識の実現が必要不可欠である。従来、雑音の混入を抑えるためにヘッドセットマイクロフォンなどの接話型マイクが広く用いられている。
特開2003−076393号公報 特開2002−152365号公報
しかし、例えば、券売機などに音声認識を組み込む場合、券売機を使用する度にヘッドセットマイクを装着する必要があるため、券売機のユーザにとってその作業は煩わしく実用的ではないという問題が起こる。この問題を避けるためには、マイクを券売機に固定し、ユーザはマイクを一切身に付けずに券売機を使用できるようにする必要がある。しかし、ユーザとマイクの間の距離が広がると周囲雑音が混入し易くなり音声認識精度が劣化する問題、周囲雑音により引き起こされる券売機の誤動作などが問題となる。また、ユーザ音声以外に複数の周囲雑音が存在する場合に、どの音が認識すべき音声なのか判断が難しい問題などがある。
一方、指向性を持った静止雑音源は、マイクロフォンアレイを用いることで十分に抑圧できるが、実環境下では、例えば、歩行中の話者やクラクションを鳴らしながら走行している車など移動雑音源も少なくない。このような指向性を持った移動雑音源の場合、特に移動速度が速い時に、マイクロフォンアレイを用いたとしても、十分な抑圧効果が得られず、残留雑音の影響が無視できなくなる。更に、マイクロフォンアレイ処理では、指向性雑音はある程度抑圧が得られるが、無指向性雑音に対しては十分な抑圧効果が得られないという問題もある。
本発明の目的は、マイクロフォンアレイを用いた処理で除去しきれない残留雑音を補正する機能を持った音声認識手段と、マイクロフォンアレイを組み合わせることで、静止または移動している指向性雑音源や無指向性雑音源などが混在するより一般的な雑音環境下でも高精度に音声認識を実現する音声認識方法およびそれを用いた音声認識装置を提供することである。
本発明の音声認識装置は、静止または移動している雑音源を含む入力音声信号から認識対象となる音声信号のみを分離するマイクロフォンアレイ処理部と、前記分離した音声信号に残留している雑音歪を補正しながら音声認識をする音声認識処理部を有する。
マイクロフォンアレイ処理部は、音声入力手段と、周囲雑音を抑圧しユーザの音声だけを強調する音源分離処理手段を有する。
音声認識処理部は、前記分離音声に残留する雑音歪を補正する機能を持った音声認識手段を有する。
音声認識装置は、マイクロフォンアレイ処理部と、音声認識処理部から構成される。
マイクロフォンアレイ処理部は、入力音声(ユーザの音声等)をマイクロフォンアレイで受音するマイクロフォンアレイ音声入力装置と、この音声入力装置のマルチチャネル音声データから、ユーザの音声と周囲にいる他人の音声や雑音(以後、周囲雑音)の音源位置や到来方向の推定処理手段と、遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段と、近距離にある音源の位置を推定する近距離にある音源の位置推定手段と、音源の位置推定手段の音源位置情報に基づいて認識対象の音声を分離する音源分離処理手段と、音源位置情報に基づいてユーザの発話を検出するユーザの発話検出手段と、ユーザの発話検出手段からの検出信号に応じて音源分離処理手段からの音声信号を切換出力する切換手段から構成される。
音声認識処理部は、切換手段からの音声信号に対して特徴を補正処理する特徴補正処理手段と、特徴補正処理手段からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段から構成される。
具体的には以下のようになる。
(1)音声認識方法は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順1、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順2、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順3、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力する手順4、前記ユーザの音声信号の特徴を補正処理する手順5、前記補正処理した音声信号を音声認識する手順6とからなることを特徴とする。
(2)上記(1)記載の音声認識方法は、前記集音した入力音声からユーザの音声のみを分離して出力する手順4における出力する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出した信号により行う手順としたことを特徴とする。
(3)上記(1)記載の音声認識方法は、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいて予め想定されているユーザ発声領域に入る音源を選択する手順としたことを特徴とする。
(4)上記(1)乃至(3)のいずれか1項記載の音声認識方法は、前記マイクロフォンアレイにより入力音声を集音する手順1で指向性雑音を抑圧し、前記ユーザの音声信号の特徴を補正処理する手順5でマイクロフォンアレイ処理で除去できない無指向性雑音や突発性雑音による歪を除去することを特徴とする。
(5)音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力するマイクロフォンアレイ処理部と、前記ユーザの音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする。
(6)上記(5)記載の音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声から分離音声を分離し、該分離音声を前記音波到来方向推定信号と前記位置推定信号に基づいて求めたユーザの発話検出信号に応じて伝送切換えするマイクロフォンアレイ処理部と、前記切換えされた分離音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする。
(7)上記(5)又は(6)記載の音声認識装置は、マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音するマイクロフォンアレイ音声入力装置と、前記マイクロフォンアレイ音声入力装置の出力信号を受け遠距離にある音源の音波到来方向を推定する音波到来方向推定手段と、前記マイクロフォンアレイ音声入力装置の出力信号を受け近距離にある音源の位置を推定する位置推定手段と、前記音波到来方向推定手段の出力信号と前記位置推定手段の出力信号に基づき前記マイクロフォンアレイ音声入力装置の出力信号から音源の音声信号を分離する音源分離処理手段と、前記音波到来方向推定手段と前記位置推定手段の出力信号に基づいてユーザの発話状態を検出する発話検出手段と、前記発話検出手段の出力信号に基づいて前記音源分離処理手段の分離音声を伝送又は非伝送にする開閉器と、前記開閉器からの分離音声信号を取り込み、該分離音声信号の特徴を補正する特徴補正処理手段と、前記特徴補正処理手段からの特徴を補正した音声信号に基づき音声を認識する音声認識手段とからなることを特徴とする。
本発明は、マイクロフォンアレイを用いることで、ユーザの音声と周囲雑音の音源位置や音波到来方向の推定が可能になる。システムに対するユーザの相対的な位置や方向を予め決めておくことで、ユーザの音声以外に複数の周囲雑音が存在していたとしても、マイクロフォンアレイを用いて各音源の位置や方向を推定することにより、ユーザの発声の有無を正しく検出でき、また周囲雑音によるシステムの誤動作を回避することができるようになる。また、ユーザの音声と周囲雑音が同時に発生している場合でも、ユーザの音声と周囲雑音の音源位置や音波到来方向の情報に基づいて、ユーザの音声だけを強調する音源分離処理を施すことが可能で、様々な雑音がある雑音環境下で、頑健な音声認識が実現される。
また、本発明の音声認識装置は、音声入力手段としてマイクロフォンアレイを用いることで、ユーザの音声と周囲雑音の音源位置や音波到来方向の推定が可能になる。システムに対するユーザの相対的な位置や音波到来方向を予め決めておくことで、ユーザの音声以外に複数の周囲雑音が存在していたとしても、各音源の推定された位置や音波到来方向に基づいて、ユーザの発話の有無を正しく検出でき、また周囲雑音によるシステムの誤動作を回避することができるようになる。また、ユーザの音声と周囲雑音が同時に発生している場合でも、ユーザの音声と周囲雑音の音源位置や音波到来方向の情報に基づいて、ユーザの音声だけを強調する音源分離処理を施すことが可能で、様々な雑音がある雑音環境下で、頑健な音声認識が実現される。
本発明において、マイクロフォンは任意の位置に配置できるが、以下では、図6に示すヘッドセットマイクロフォンアレイ音声入力装置を例に説明する。しかし、本発明のマイクロフォンアレイの形状は、図6のヘッドセットマイクロフォンアレイに限定されるものではない。
従来のヘッドセットマイクロフォンはヘッドセットの左右のどちらか一方だけに支柱が固定され、その先端に1つのマイクロフォンが配置される構造を持っている。これに対し、本発明のヘッドセットマイクロフォンアレイ音声入力装置は、ヘッドセットマイクロフォンがヘッドセットの左右両側に支柱が固定され、その先端に1つのマイクロフォンが配置される構造を持っている。
本発明のヘッドセット1は、頭に装着するためのヘッドバンド3と、ヘッドバンド3の両端にそれぞれ取り付けられるイヤーパッド付き収容ケース2Rおよび2Lと、イヤーパッド付き収納ケース2Rに設けた略棒状の支柱4Rおよびイヤーパッド付き収納ケース2Lに設けた略棒状の支柱4Lとからなる。イヤーパッド付き収容ケース2Rおよび2Lは、それぞれケース本体2Raおよび2Laとイヤーパッド2Rbおよび2Lbから構成する。
支柱4Rおよび4Lには、それぞれ同じ数の1以上の任意数のマイクロフォン5を離間して配置してある。好ましくは、支柱4Rと4L毎に同じ3個のマイクロフォン5をそれぞれ設ける。
ヘッドバンド3は、長さの調節を可能とするために下記のようにスライド調節可能に構成することができる。
イヤーパッド付き収納ケース2Rおよび2Lのケース本体2Raおよび2Laには、電池ボックス、無線の送受信回路、マイクロフォンアレイ6の各マイクロフォン5からの入力信号を必要な処理を行う処理回路等を必要に応じて収納する。ケース本体2Raおよび2Laとイヤーパッド2Rbおよび2Lbは、例えばイヤーパッドに設けた中空のボルトとケースと一体になったナットとの螺合により互いの間隔を調節する。他の手段によって互いの間隔を調節するようにしてもよい。
本発明は、イヤーパッド付き収容ケース2Rおよび2Lのケース本体2Raおよび2Laの両方にそれぞれ支柱4Rと4Lが固定され、その支柱上に複数のマイクロフォン5を配置することにより、マイクロフォンアレイ6を形成する。実装に用いるマイクロフォン5は、シリコンマイクロフォンなど1つの大きさが5mm×3mm程度のごく小さなものを用いる。支柱4Rおよび4L上に配置するマイクロフォンの個数や配置する間隔は、ソフトウエアで調整可能であるので、任意である。マイクロフォンアレイ6では、マイクロフォン5間の相対的な位置関係が常に保たれていることが必要な場合が多くある。しかし、ヘッドセットの場合、頭部の大きさによって左右のマイクロフォンアレイ6間の距離が変化する場合がある。これに対処するために、図2に示すように、左右のマイクロフォンアレイ6、6間の距離は支柱4Rと4Lを取り付けた収納ケース2Rおよび2Lのケース本体2Raおよび2Laとイヤーパッド2Rbおよび2Lbとの間隔を調節することにより調節する。
(平行マイクロフォンアレイ音声入力装置)
音声入力手段は、ユーザ音声を受音するために相互に離間して配置した複数のマイクロフォンアレイ6からなる受音手段を備える。
図6に示した平行マイクロフォンアレイ音声入力装置の構成について、以下に説明する。図6に示すように、マイクロフォンを取り付ける2本の金具は、一端をヘッドバンドに固定し、例えば20cmの間隔で平行にユーザの口元より先まで達する程度の長さを持ち、左右それぞれの金具上に任意数、例えば2つのマイクロフォン(計4個)を任意の間隔、例えば3cm間隔で配置している。
図7はケース本体に収納される処理回路のブロック図である。
図7に示すように、音声入力手段は、平行マイクロフォンアレイ30a、30bと、マイクロフォンアンプとADC(アナログ/デジタルコンバータ)32を有する。
受音手段は、少なくとも複数のマイクロフォンを備え、好ましくは多数個のマイクロフォンをアレイ状に配置したマイクロフォンアレイが好ましい。また、マイクロフォンの配置方向は、少なくとも相互に離間して、音源からのベクトルが異なるようにする。さらに好ましくは、マイクロフォンがユーザの口元先の両側に配置されていることが好ましい。このようにユーザの口元先の両側に配置されることにより、ユーザの音声入力が容易に且つ明瞭になる。
図7は本発明のケース本体に収納される処理回路のブロック図である。特にマイクロフォンアレイの各マイクロフォンからの入力信号を必要な処理を行う処理回路の例である。
本発明の処理回路は、平行マイクロフォンアレイ30a、30bはマイクロフォンアンプとADC32を介してCPU(中央演算処理装置)ボード33に接続され、CPU(中央演算処理装置)ボード33は記憶装置34にバスで接続される。CPU(中央演算処理装置)ボード33は、出力表示するためにディスプレイ31に接続され、また、イヤーパッド内のイヤホーンスピーカ35に接続され、更に、ケース本体2Raおよび2La内の送信装置36に接続される。送受信装置36は、有線、無線に限らず、任意の通信手段を採用できる。
CPU(中央演算処理装置)ボード33は、CPUを搭載したボードからなり、音声認識装置および制御手段を含む。音声認識装置および制御手段は、CPUボード33とそれに接続される記憶装置34により構成される。
音声認識装置は、平行マイクロフォンアレイ30a、30bで受音したマルチチャネル音声データに基づきユーザの音声信号を推定し認識結果を出力する。
平行マイクロフォンアレイ30a、30bでのサンプリングレートは任意に設定でき、例えば8kHzとし、量子化ビット数は任意に設定でき、例えば16bitとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。
(画像表示手段)
ヘッドセット型マイクロフォンアレイ音声入力装置は、画像表示手段として、小型で薄型のディスプレイ(例えば、液晶、EL(エレクトロルミネッセンス、プラズマディスプレイ等))やヘッドマウンテッドディスプレイ等を備えることができ、前記発声位置推定処理の結果等を視覚的に示す。
(音声認識装置)
図1は本発明の音声認識装置のブロック構成図である。この音声認識装置は図7においてCPUボード33と記憶装置34とから構成される。
音声認識装置40は、マイクロフォンアレイ処理部41と、音声認識処理部42から構成される。
マイクロフォンアレイ処理部41は、入力音声をひろうマイクロフォンアレイ音声入力装置43と、装置43の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段45と、装置43の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段46と、手段45および46の音源位置情報に基づいて装置43の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段44と、手段45および46の音源位置情報に基づいてユーザ(ヘッドセット型マイクロフォンアレイ音声入力装置装着者)の発話を検出するユーザの発話検出手段47と、ユーザの発話検出手段47からの検出信号に応じて音源分離処理手段44からの音声信号を切換出力する切換手段48から構成される。
音声認識処理部42は、切換手段48からの音声信号に対して特徴を補正処理する特徴補正処理手段49と、手段49からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段50から構成される。
本発明のマイクロフォンアレイを用いる音声認識装置は、図4にも示すように下記の5つの要素技術から構成される。
1.マイクロフォンアレイから近距離にある音源の位置推定
2.マイクロフォンアレイから遠距離にある音源の音波到来方向の推定
3.ユーザの発話検出
4.音源分離処理
5.音声認識処理(特願2003−320183)
これらの要素技術の詳細について以下で説明する。
(音源位置推定)
図8は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォン1、2、3、4と、マイクロフォン5、6、7、8は、図8に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の任意の位置
Figure 2008064892
に置かれた音源から出力された音響信号を、3次元空間中の任意の位置
Figure 2008064892
に配置されたQ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Rqは次式で求められる。
Figure 2008064892
音源から各マイクロフォンまでの伝播時間τqは、音速をvとすると、次式で求められる。
Figure 2008064892
各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得gqは、一般的に、音源とマイクロフォン間の距離Rqと中心周波数ωの関数として定義される。
Figure 2008064892
例えば、利得を距離Rqだけの関数として、実験的に求めた次式のような関数を用いる。
Figure 2008064892
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
Figure 2008064892
と表される。そして、位置P0にある音源を表す位置ベクトルa(ω,P0)を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
Figure 2008064892
音源位置の推定はMUSIC法(相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法)を用いて、以下の手順で行う。q番目のマイクロフォン入力の短時間フーリエ変換を
Figure 2008064892
で表し、これを要素として観測ベクトルを次のように定義する。
Figure 2008064892
ここで、nはフレーム時刻のインデックスである。連続するN個の観測ベクトルから相関行列を次式により求める。
Figure 2008064892
この相関行列の大きい順に並べた固有値を
Figure 2008064892
とし、それぞれに対応する固有ベクトルを
Figure 2008064892
とする。そして、音源数Sを次式により推定する。
Figure 2008064892
もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとすることも可能である。
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
Figure 2008064892
周波数帯域
Figure 2008064892
および音源位置推定の探索領域Uを
Figure 2008064892
として、
Figure 2008064892
を計算する。そして、関数F(P)が極大値をとる座標ベクトルを求める。ここでは仮にS個の極大値を与える座標ベクトルがP1,P2,・・・,Psが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
Figure 2008064892
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
Figure 2008064892
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(30)の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
(周囲雑音の音波到来方向推定)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。
図2は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図2は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図2で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図2で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
Figure 2008064892
3次元空間中の音源の音波到来方向は2つのパラメータ(θ,φ)で表される。方向(θ,φ)から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向(θ,φ)から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。q番目のマイクロフォンと平面sの間の距離rqを次式により求める。
Figure 2008064892
距離rqは平面sに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をvとするとマイクロフォンと平面s間の伝播時間Tqは次式で表される。
Figure 2008064892
平面sでの振幅を基準としてそこから距離rq離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離rqの関数として次のように定義する。
Figure 2008064892
平面sでの位相を基準としてそこから距離rq離れた位置の位相差は、次式で表される。
Figure 2008064892
以上より、平面sを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
Figure 2008064892
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式(26)に従い求めた値を要素とするベクトルとして次式のように定義される。
Figure 2008064892
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。式(15)で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
Figure 2008064892
として、
Figure 2008064892
を計算する。そして、関数J(θ、φ)が極大値を与える方向(θ、φ)を求める。ここでは仮にK個の音源が存在し、極大値を与えるK個の音波到来方向((θ1、φ1),・・・,(θK、φK))が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
Figure 2008064892
そして、2つの閾値Jthr, Qthrを用意し、各到来方向におけるJ(θk,φk)とQ(θk,φk)が次の条件を満足するときに、
Figure 2008064892
連続するN個のフレーム時間内の到来方向(θk,φk)において発声があったと判断する。音波の到来方向の推定処理は連続するN個のフレームを1つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(31)の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
(発話検出処理)
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
式(20)や式(31)の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
例えば、図3に示すようなユーザの発声領域を定義することができる。
図3は本発明による発話検出処理の機能説明図である。
この図では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができる。図3では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザの発声領域と定義している。従って、式(20)により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザの発声領域と定義している。従って、式(31)により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
(音源分離処理)
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式(8)と式(27)の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
Figure 2008064892
この相関行列の大きい順に並べた固有値を
Figure 2008064892
とし、それぞれに対応する固有ベクトルを
Figure 2008064892
とする。
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
Figure 2008064892
そして、近距離の座標ベクトルPに居るユーザの音声を強調する分離フィルタW(ω)は、次式で与えられる。
Figure 2008064892
式(36)の分離フィルタに式(10)の観測ベクトルを乗じることで座標ベクトルPに居るユーザの音声v(ω)が得られる。
Figure 2008064892
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
Figure 2008064892
式(38)の分離フィルタに式(10)の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
Figure 2008064892
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。
(音声認識処理)
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
以下では、図8において、8個のマイクロフォンをX軸上で点Cを中心に左右対称になるように2cm間隔で直線状に配置したマイクロフォンアレイを用いて行った雑音環境下における音声認識実験の実施例について述べる。この実施例では、全ての音源は遠距離に位置すると仮定し、到来方向の探索領域はθL=0°、θH=180°、そしてユーザの発声領域はθTL1=70°、θTH1=110°と設定した。ユーザはマイクロフォンアレイの正面(θ=90°)1.5mの位置から5種類の簡単なコマンド音声を19回発声する。周囲雑音としてそれぞれθ=20°とθ=160°の方向1.5mの位置に置かれた2つのスピーカから異なるテレビ音声を流している。その他に、マイクロフォンアレイから約5m離れた場所に置かれている数台のコンピュータのファンの回る雑音や反射などの雑音が存在している。
図4は8個のマイクロフォンの中の1つで受音した波形信号を示している。横軸は時間軸、縦軸は振幅値を表す。
図5は音源の音波到来方向処理、発話検出処理そして音源分離処理を施して強調されたユーザ音声の波形信号を示している。横軸は時間軸、縦軸は振幅値を表す。
音声特徴量の補正処理を含まない通常の音声認識デコーダで、その強調音声を認識すると19回の発声の内正しく認識されたのは11回のみであった。これは、主に、マイクロフォンアレイ処理では除去しきれない、無指向性雑音が図5の強調音声に残留していることが影響している。一方、発話検出処理により得られる発話検出信号と前述の特徴補正を組み込んだ音声認識デコーダで、再度、強調音声を認識すると19回全ての発話を正しく認識することができた。
券売機や様々な自動販売機における音声認識、家電製品に組み込むことによる音声リモコンの実現、カーナビにおける音声認識、電動車椅子などの車両の音声による制御、プラントなど雑音環境での音声による機器の制御など。
本発明の音声認識装置のブロック構成図である。 本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。 本発明による発話検出処理の機能説明図である。 8個のマイクロフォンの中の1つで受音した波形信号を示している。 音源の音波到来方向処理、発話検出処理そして音源分離処理を施して強調されたユーザ音声の波形信号を示している。 本発明のヘッドセットマイクロフォンアレイ音声入力装置の概略図である。 本発明のケース本体に収納される処理回路のブロック図である。 本発明のマイクロフォンアレイの機能説明図である。
符号の説明
1 ヘッドセット
2R、2L イヤーパッド付き収納ケース
3 ヘッドバンド
4R、4L 支柱
5 マイクロフォン
6 マイクロフォンアレイ
30a、30b 平行マイクロフォンアレイ
31 ディスプレイ
32 マイクロフォンアンプとADC
33 CPUボード
34 記憶装置
35 イヤホーンスピーカ
36 送受信装置
40 音声認識装置
41 マイクロフォンアレイ処理部
42 音声認識処理部
43 マイクロフォンアレイ音声入力装置
44 音源分離処理手段
45 遠距離にある音源の音波到来方向推定手段
46 近距離にある音源の位置推定手段
47 ユーザの発話検出手段
48 切換器
49 特徴補正処理手段
50 音声認識手段
m1、m2、m3、m4、m5、m6、m7、m8 マイクロフォン

Claims (7)

  1. マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音する手順1、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成する手順2、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成する手順3、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力する手順4、前記ユーザの音声信号の特徴を補正処理する手順5、前記補正処理した音声信号を音声認識する手順6とからなることを特徴とする音声認識方法。
  2. 前記集音した入力音声からユーザの音声のみを分離して出力する手順4における出力する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出した信号により行う手順としたことを特徴とする請求項1記載の音声認識方法。
  3. 前記音波到来方向推定信号と前記位置推定信号に基づいてユーザの発話状態を検出する手順を、前記音波到来方向推定信号と前記位置推定信号に基づいて予め想定されているユーザ発声領域に入る音源を選択する手順としたことを特徴とする請求項2記載の音声認識方法。
  4. 前記マイクロフォンアレイにより入力音声を集音する手順1で指向性雑音を抑圧し、前記ユーザの音声信号の特徴を補正処理する手順5でマイクロフォンアレイ処理で除去できない無指向性雑音や突発性雑音による歪を除去することを特徴とする請求項1乃至3のいずれか1項記載の音声認識方法。
  5. マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声からユーザの音声のみを分離して出力するマイクロフォンアレイ処理部と、前記ユーザの音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする音声認識装置。
  6. マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音し、前記集音した入力音声信号から遠距離にある音源の音波到来方向を推定した音波到来方向推定信号を作成すると供に、前記集音した入力音声信号から近距離にある音源の位置を推定する位置推定信号を作成し、前記音波到来方向推定信号と前記位置推定信号に基づき前記集音した入力音声から分離音声を分離し、該分離音声を前記音波到来方向推定信号と前記位置推定信号に基づいて求めたユーザの発話検出信号に応じて伝送切換えするマイクロフォンアレイ処理部と、前記切換えされた分離音声信号の特徴を補正処理し、その補正処理した音声信号を音声認識する音声認識処理部とからなることを特徴とする請求項5記載の音声認識装置。
  7. マイクロフォンを複数個配置したマイクロフォンアレイにより入力音声を集音するマイクロフォンアレイ音声入力装置と、前記マイクロフォンアレイ音声入力装置の出力信号を受け遠距離にある音源の音波到来方向を推定する音波到来方向推定手段と、前記マイクロフォンアレイ音声入力装置の出力信号を受け近距離にある音源の位置を推定する位置推定手段と、前記音波到来方向推定手段の出力信号と前記位置推定手段の出力信号に基づき前記マイクロフォンアレイ音声入力装置の出力信号から音源の音声信号を分離する音源分離処理手段と、前記音波到来方向推定手段と前記位置推定手段の出力信号に基づいてユーザの発話状態を検出する発話検出手段と、前記発話検出手段の出力信号に基づいて前記音源分離処理手段の分離音声を伝送又は非伝送にする開閉器と、前記開閉器からの分離音声信号を取り込み、該分離音声信号の特徴を補正する特徴補正処理手段と、前記特徴補正処理手段からの特徴を補正した音声信号に基づき音声を認識する音声認識手段とからなることを特徴とする請求項5又は6記載の音声認識装置。
JP2006240721A 2006-09-05 2006-09-05 音声認識方法およびそれを用いた音声認識装置 Pending JP2008064892A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006240721A JP2008064892A (ja) 2006-09-05 2006-09-05 音声認識方法およびそれを用いた音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006240721A JP2008064892A (ja) 2006-09-05 2006-09-05 音声認識方法およびそれを用いた音声認識装置

Publications (1)

Publication Number Publication Date
JP2008064892A true JP2008064892A (ja) 2008-03-21

Family

ID=39287683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006240721A Pending JP2008064892A (ja) 2006-09-05 2006-09-05 音声認識方法およびそれを用いた音声認識装置

Country Status (1)

Country Link
JP (1) JP2008064892A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282644A (ja) * 2008-05-20 2009-12-03 National Institute Of Advanced Industrial & Technology インターフェイス装置とインターフェイス方法
EP2133707A2 (en) 2008-06-11 2009-12-16 Sony Corporation Signal processing apparatus, signal processing method, and program
WO2010067976A2 (ko) * 2008-12-12 2010-06-17 Shin Ho Joon 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
KR101396633B1 (ko) * 2008-06-10 2014-05-16 삼성전자주식회사 소리 신호를 이용한 영상 출력 기능 제어 장치 및 방법
JP2014098573A (ja) * 2012-11-13 2014-05-29 Jvc Kenwood Corp 音声情報報知装置、音声情報報知方法およびプログラム
CN106898360A (zh) * 2017-04-06 2017-06-27 北京地平线信息技术有限公司 音频信号处理方法、装置和电子设备
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
CN107909715A (zh) * 2017-09-29 2018-04-13 嘉兴川森智能科技有限公司 自动售货机中的语音识别系统及方法
US9972338B2 (en) 2016-05-30 2018-05-15 Fujitsu Limited Noise suppression device and noise suppression method
CN108377605A (zh) * 2018-04-03 2018-08-07 海盐瑞科光电科技有限公司 一种浴室语音控制智能开关
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
US10540972B2 (en) 2017-03-27 2020-01-21 Casio Computer Co., Ltd. Speech recognition device, speech recognition method, non-transitory recording medium, and robot
CN111429916A (zh) * 2020-02-20 2020-07-17 西安声联科技有限公司 一种声音信号记录系统
US11087755B2 (en) 2016-08-26 2021-08-10 Samsung Electronics Co., Ltd. Electronic device for voice recognition, and control method therefor
CN113490979A (zh) * 2020-01-17 2021-10-08 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN113795881A (zh) * 2019-03-10 2021-12-14 卡多姆科技有限公司 使用线索的聚类的语音增强

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084653A (ja) * 2003-09-11 2005-03-31 National Institute Of Advanced Industrial & Technology 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084653A (ja) * 2003-09-11 2005-03-31 National Institute Of Advanced Industrial & Technology 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282644A (ja) * 2008-05-20 2009-12-03 National Institute Of Advanced Industrial & Technology インターフェイス装置とインターフェイス方法
KR101396633B1 (ko) * 2008-06-10 2014-05-16 삼성전자주식회사 소리 신호를 이용한 영상 출력 기능 제어 장치 및 방법
EP2133707A2 (en) 2008-06-11 2009-12-16 Sony Corporation Signal processing apparatus, signal processing method, and program
WO2010067976A2 (ko) * 2008-12-12 2010-06-17 Shin Ho Joon 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
WO2010067976A3 (ko) * 2008-12-12 2010-08-12 Shin Ho Joon 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
JP2014098573A (ja) * 2012-11-13 2014-05-29 Jvc Kenwood Corp 音声情報報知装置、音声情報報知方法およびプログラム
US9972338B2 (en) 2016-05-30 2018-05-15 Fujitsu Limited Noise suppression device and noise suppression method
US11087755B2 (en) 2016-08-26 2021-08-10 Samsung Electronics Co., Ltd. Electronic device for voice recognition, and control method therefor
US10540972B2 (en) 2017-03-27 2020-01-21 Casio Computer Co., Ltd. Speech recognition device, speech recognition method, non-transitory recording medium, and robot
CN106898360A (zh) * 2017-04-06 2017-06-27 北京地平线信息技术有限公司 音频信号处理方法、装置和电子设备
CN106898360B (zh) * 2017-04-06 2023-08-08 北京地平线信息技术有限公司 音频信号处理方法、装置和电子设备
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN107909715A (zh) * 2017-09-29 2018-04-13 嘉兴川森智能科技有限公司 自动售货机中的语音识别系统及方法
CN108377605A (zh) * 2018-04-03 2018-08-07 海盐瑞科光电科技有限公司 一种浴室语音控制智能开关
CN113795881A (zh) * 2019-03-10 2021-12-14 卡多姆科技有限公司 使用线索的聚类的语音增强
JP2022533300A (ja) * 2019-03-10 2022-07-22 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN113490979A (zh) * 2020-01-17 2021-10-08 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN113490979B (zh) * 2020-01-17 2024-02-27 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN111429916A (zh) * 2020-02-20 2020-07-17 西安声联科技有限公司 一种声音信号记录系统
CN111429916B (zh) * 2020-02-20 2023-06-09 西安声联科技有限公司 一种声音信号记录系统

Similar Documents

Publication Publication Date Title
JP2008064892A (ja) 音声認識方法およびそれを用いた音声認識装置
CN107221336B (zh) 一种增强目标语音的装置及其方法
JP4982807B2 (ja) 操作方法およびそのための操作装置、プログラム
US7613310B2 (en) Audio input system
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
CN110379439B (zh) 一种音频处理的方法以及相关装置
US20080175408A1 (en) Proximity filter
CN108630222B (zh) 信号处理系统以及信号处理方法
US10339949B1 (en) Multi-channel speech enhancement
JP5841986B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US20100098266A1 (en) Multi-channel audio device
JP2016042132A (ja) 音声処理装置、音声処理方法、並びにプログラム
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
US10015592B2 (en) Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
JP4552034B2 (ja) ヘッドセット型マイクロフォンアレイ音声入力装置
Okuno et al. Robot audition: Missing feature theory approach and active audition
JP4660740B2 (ja) 電動車椅子搭載用音声入力装置
CN116343808A (zh) 柔性麦克风阵列语音增强方法及装置、电子设备、介质
JP4822458B2 (ja) インターフェイス装置とインターフェイス方法
US10880642B2 (en) Sound pick-up apparatus, medium, and method
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110412