JP2011257627A - 音声認識装置と認識方法 - Google Patents

音声認識装置と認識方法 Download PDF

Info

Publication number
JP2011257627A
JP2011257627A JP2010132785A JP2010132785A JP2011257627A JP 2011257627 A JP2011257627 A JP 2011257627A JP 2010132785 A JP2010132785 A JP 2010132785A JP 2010132785 A JP2010132785 A JP 2010132785A JP 2011257627 A JP2011257627 A JP 2011257627A
Authority
JP
Japan
Prior art keywords
signal
omnidirectional
speech
unit
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010132785A
Other languages
English (en)
Inventor
Osamu Oshima
修 大島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Original Assignee
Murata Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd filed Critical Murata Machinery Ltd
Priority to JP2010132785A priority Critical patent/JP2011257627A/ja
Publication of JP2011257627A publication Critical patent/JP2011257627A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract


【構成】
複数個の無指向性信号を増幅器で増幅し、無指向性信号を駆動回路で組み合わせて、音源の方向への指向性の有る指向性信号を求め、前記指向性信号あるいは前記無指向性信号に対して発話の有無を検出し、指向性信号を音声認識部で音声認識する。モード切替部により、無指向性信号中あるいは指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、無指向性信号を音声認識部で音声認識するようにモードを切り替える。
【効果】 ノイズが少ない際に、音声認識部への入力信号の質を向上できる。
【選択図】 図1

Description

この発明は音声認識に関し、特にノイズの抑制に関する。
発明者らは、無指向性のマイクロホンの信号を合成することにより、音源の方向への指向性の有る信号を得る技術を開発した。またこの信号を音声認識し、キーワードを抽出することを検討している。例えば4個の無指向性のマイクロホンを正4面体の4頂点に配置しマイクロホンアレイとすると、12個の仮想的な指向性マイクロホンが得られる。発話が行われると、話者の方向を向く指向性マイクロホンの信号を用いて、キーワードを認識する。ここで発明者は、無指向性マイクロホンの信号を合成する過程で、信号に歪みが発生することに着目した。信号に歪みが発生することを考慮すると、周囲のノイズ(雑音)が小さい環境では、指向性マイクロホンよりも無指向性マイクロホンの方が有利である。
ここで関連する先行技術を示す。特許文献1(特開2005-20355)はビデオカメラに内臓のマイクロホンについて、指向性マイクロホンよりも無指向性マイクロホンの方が風雑音が小さいことと、風雑音が大きい環境で指向性マイクロホンを無指向性マイクロホンとして用いることとを開示している。また風雑音の大小は、高周波帯のパワーと低周波帯のパワーとの比較、あるいは2個のマイクロホンの信号の相互相関の強弱で判別できるとされている。しかしながら特許文献1では、ノイズが大きい際に指向性マイクロホンを無指向性マイクロホンとして使用する。
特開2005-20355
この発明の課題は、マイクロホンアレイを用いた音声認識での、無指向性マイクロホンからの信号を合成する過程でのノイズを避けることにある。
この発明は、複数個の無指向性のマイクロホンから成るマイクロホンアレイと、
前記無指向性のマイクロホンからの無指向性信号を増幅する増幅器と、
前記無指向性信号を組み合わせて、音源の方向への指向性の有る指向性信号を出力するための駆動回路と、
前記指向性信号あるいは前記無指向性信号に対して発話の有無を検出する発話検出部と、
前記指向性信号を音声認識するための音声認識部と、
前記無指向性信号中あるいは前記指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、前記無指向性信号を音声認識部で音声認識するようにモードを切り替えるモード切替部を備えていることを特徴とする。ノイズレベルは、マイクロホンへの入力ノイズとマイクロホン及び増幅器内で発生するノイズの程度を意味する。
またこの発明は、複数個の無指向性信号を増幅器で増幅し、前記無指向性信号を駆動回路で組み合わせて、音源の方向への指向性の有る指向性信号を求め、前記指向性信号あるいは前記無指向性信号に対して発話検出部で発話の有無を検出し、前記指向性信号を音声認識部で音声認識する音声認識方法であって、
モード切替部により、前記無指向性信号中あるいは前記指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、前記無指向性信号を音声認識部で音声認識するようにモードを切り替えることを特徴とする。
この発明では、ノイズレベルが低い際に、無指向性マイクロホンからの信号を用いて音声認識するので、指向性信号を得る過程での信号の歪みが生じない。またノイズレベルが低い過程では、話者の方向に指向した信号を用いてノイズを避ける必要性も低い。従って、ノイズの小さな環境で、より精度の高い音声認識ができる。
好ましくは、モードの切り替え時に、増幅器のゲインあるいは発話検出部での発話検出の閾値を現在値から新たな値へ変換するパラメータ変換部をさらに設ける。このようにすると、パラメータを新たなモードに合わせて自動的に変換できる。
また好ましくは、外部サーバとの通信部をさらに備えて、モードの切り替え時に、増幅器のゲインあるいは発話検出部での発話検出の閾値を、外部サーバからダウンロードする。このようにすると、パラメータを多くの要素により決定している場合でも、最適なパラメータを取得できる。
好ましくは、前記モード切替部は、前記ノイズレベルが高い際に、前記指向性信号に対して発話検出部で発話を検出し、かつ前記指向性信号を音声認識部で音声認識するようにモードを切り替える。このようにするとノイズレベルが増すと話者の方向に指向した信号を用いて音声認識し、ノイズの影響を小さくできる。
実施例の音声認識装置のブロック図 実施例での音声認識アルゴリズムを示すフローチャート 実施例でのマイクロホンアレイの切替アルゴリズムを示すフローチャート 実施例でのノイズの大小の識別を模式的に示す図
以下に本発明を実施するための最適実施例を示す。
図1〜図4に、実施例の音声認識装置2と音声認識方法とを示す。なお音声認識装置2に関する記載は、そのまま音声認識方法にも当てはまり、逆に音声認識方法に関する記載は、そのまま音声認識装置2にも当てはまる。図1において、4はマイクロホンアレイで、例えばm1〜m4の4個の無指向性のマイクロホンを正4面体の4頂点に配置し、マイクロホンアレイ4は仮想的に12個の指向性のマイクロホンとなる。A1〜A4は増幅器で、マイクロホンm1〜m4からの出力信号を増幅し、増幅ゲインは後述のパラメータ変換部16から入力する。6は遅延部で、適宜のメモリからなり、増幅器A1〜A4からの出力信号をΔt時間分遅延させて出力する。8は差分部で、増幅器A1〜A4からの信号を遅延させずに入力した信号と、遅延部6でΔtだけ遅延させた信号との差分を出力し、12個の仮想的な無指向性マイクロホンに対応する指向性信号を出力する。Δtは、正4面体の1辺を音波が進行するのに必要な時間に相当する。
図1の左下に、信号合成のモデルを示す。2個の無指向性マイクロホンmi,mjの組合せに対し、マイクロホンmiの信号をメモリからなる遅延器32でΔtだけ遅延させ、差分器34へ入力する。差分器34の他方の入力には、マイクロホンmjからの信号を遅延させずに入力する。このため出力はmj(t)−mi(t−Δt)となる。マイクロホンmiの側へ先に到達する音波は時間Δtだけ遅れて、マイクロホンmjに到達する。その結果、時刻tでのマイクロホンmjからの信号と、時刻t−Δtでのマイクロホンmiからの信号の差分を求めると、音響信号はほぼ打ち消されて0となる。逆にマイクロホンmjに時刻tに先に到達した音波は、マイクロホンmiに時刻t+Δtに到達するので、マイクロホンmjへの音響信号は打ち消されることはない。このため、マイクロホンmi,mjを結ぶ軸に沿って、マイクロホンmj側から入力する音波に対して選択的な指向性マイクロホンが得られる。
しかしながら2つの信号の合成によって歪みが生じる。音響信号が単純な正弦波で有れば、信号を合成しても位相が変化するだけである。しかし音響信号は正弦波ではない。またマイクロホンmj,mi間の距離が波長の1/2に近づくと、単なる位相の変化というよりも 信号の打ち消し合いが生じる。さらにマイクロホンmi,mjを結ぶ線に直角な方向から到達するノイズは、差分器34では相殺されない。そこでこの発明では、指向性マイクロホンとして使用するか否か、言い換えると差分器34での信号合成を行うか否かを切り替えることにより、ノイズを抑制する。
差分部8からは例えば仮想的な12個の指向性マイクロホンの信号が得られ、これをメモリ10で一旦記憶する。また無指向性マイクロホンとして使用する場合、増幅器A1〜A4のいずれかからの信号、例えば増幅器A4からの信号をメモリ10に一旦記憶する。そしてメモリ10に記憶した信号を、短時間FFT(短時間高速フーリエ変換部)で、例えば10ms幅の区間毎に、短時間フーリエ変換する。特徴抽出部20は短時間フーリエ変換した信号から音声信号としての特徴を抽出し、例えば短時間フーリエ変換信号からケプストラムあるいはΔケプストラムなどを求めて、10〜15次元程度のベクトルから成る特徴ベクトルを出力する。
モード切替部14はノイズの小さい環境と大きい環境とを識別し、識別は例えば1秒に1回程度ずつ間欠的に行う。識別は周期的に行っても、非周期的に行っても良く、また発話検出区間では識別を省略しても良い。ノイズが小さい環境の特徴は、マイクロホンm1〜m4からの出力が小さいこと、及び短時間FFT12からの出力パワー中の、音声以外に対応する周波数帯、例えば100Hz以下と8kHz以上、より好ましくは60Hz以下と20kHz以上の周波数帯でのパワーが小さいこと、などが有る。これに対してノイズが大きい環境では、非発話区間であるにもかかわらず、増幅器A1〜A4からの信号が大きい、短時間FFT12からの信号で、音声以外の信号の周波数帯のパワーが大きい、などの特徴がある。
モード切替部14は例えば1秒に1回などの周期でノイズの大小を識別し、ノイズが小さい場合、マイクロホンアレイ4を無指向性マイクロホンとして使用する。ここで複数のマイクロホンからの信号を平均して用いると、ノイズが大きくなる。このためマイクロホンm1〜m4のうち適宜の1個を選び、例えばマイクロホンm4を選び、対応する増幅器A4からの信号を用いる。マイクロホンアレイ4を無指向性マイクロホンとして用いるモード(無指向性モード)では、遅延部6及び差分部8での信号の合成は不要で、メモリ10に例えば増幅器A4からの信号を記憶させ、短時間FFT12以降の処理は指向性マイクロホンとして使用するモード(指向性モード)と同様にする。ノイズの大小の識別には、上記の2種類の要素を共に用いても、あるいはその一方のみを用いても良い。
パラメータ変換部16は、増幅器A1〜A4での増幅ゲイン及び発話検出部18での発話検出用の閾値などを記憶している。なおゲインは周波数によって変化するゲインでも、周波数に依存しないゲインでも良い。これらのゲイン及び閾値の最適値は無指向性モードと指向性モードとで異なるので、モードに合わせて切り替える。例えば現在のモードでのゲインと閾値を記憶し、モードが変更されると、新たなモードに適合した値にゲインと閾値とを変換する。変換は計算によって行っても、あるいは参照表等によって行っても良い。ゲインと閾値を、モードと作業者の組合せ毎、あるいはモードと、音声認識装置を装着している作業者と、環境条件との組合せ毎に記憶して切り替えても良い。この場合、切り替えに伴う処理量が増すので、例えば後述の外部サーバ30が現在のゲインと閾値とを記憶し、モードを切り替えると、作業者及び環境条件を加味した新たなゲインと閾値とを演算し、音声認識装置2へダウンロードするようにしても良い。
発話検出部18は、発話の有無、即ち増幅器A1〜A4からの信号に音声信号が含まれているか否かを検出する。この検出は、無指向性モードでは、例えば増幅器A4からの出力信号に対して行い、指向性モードでは差分部8からの例えば12個の信号のそれぞれに対して行うが、常に無指向性のマイクロホンからの信号に対して行うようにしても良い。発話の検出では、例えば無指向性あるいは指向性のマイクロホンからの信号の強弱と、0付近に設けた+側と−側の2つの閾値を信号が単位時間当たりにクロスする回数などを用いる。しかし短時間FFT12での音声に対応する周波数帯、例えば100Hz〜8kHzでの信号の強弱、などからも発話の有無を検出できる。発話区間でマイクロホンm4などから大きな信号が得られることは、必ずしもノイズが大きいことを意味しないので、発話検出部18の出力はモード切替部14へも入力する。また発話の検出時以外は、短時間FFT12〜音声認識部22での処理を中止しても良い。
音声認識部22は特徴抽出部20からの一連の特徴ベクトルを用いて音声認識を行い、少なくともキーワードの認識を行う。具体的には、認識対象となるキーワード毎に隠れマルコフモデル(HMM)を記憶し、特徴ベクトルの列がどのキーワードに対するHMMと最も良く合致するかを求めて、最も良く合致するHMMに対するキーワードを出力する。通信部24は図示しない外部サーバ30と通信し、音声認識結果を報告すると共に、外部サーバ30から指令を受信し、スピーカ26で指令を音声出力する。
実施例の音声認識装置2は、例えばピッキング、即ち指定された物品を指定された個数だけ倉庫内から取り出す作業などに用いる。そして音声認識装置2は、作業者からの作業結果の報告などを音声認識し、外部サーバ30へと伝える。また外部サーバ30は次のピッキングの指令などを出力し、スピーカ26から作業者に伝える。音声認識装置2の用途は任意で、例えば両手が塞がり、キーボードなどを操作することが難しい環境下で、コンピュータと人とが対話するために音声認識装置2を用いる。
図2,図3に実施例の動作アルゴリズムを示す。音声認識の全体的アルゴリズムは、図2に示すように、マイクロホンアレイの切替サブルーチン(r1)と、発話の検出サブルーチン(r2)、及び音声認識のサブルーチン(r3)から成る。なおここでは短時間FFT12〜音声認識部22での処理をサブルーチンr3での音声認識とする。またサブルーチンr1の目的は、マイクロホンアレイ4を無指向性マイクロホンとして用いるか、指向性のマイクロホンのアレイとして用いるかを切り替えることである。
図3にマイクロホンアレイの切替サブルーチンを示し、このサブルーチンは例えば1秒に1回程度の割合で周期的に実行される。ステップ1はマイクロホンアレイを無指向性マイクロホンとして使用するための処理を示し、ステップ2は指向性マイクロホンとして使用するための処理を示す。指向性マイクロホンを無指向性マイクロホンに変更するための条件は満たさないが、逆に無指向性マイクロホンを指向性マイクロホンとして使用するための条件も満たさない場合、モードは例えば現状維持とする。
図4にノイズの大小を識別するためのルールを模式的に示し、マイクロホンの出力パワーが小さいことは、発話区間あるいは非発話区間を問わず、ノイズが小さいことを表している。逆に非発話区間でマイクロホンの出力パワーが大きいことは、ノイズが大きいことを表している。着目するマイクロホンは、マイクロホンアレイ4中の任意の無指向性マイクロホンもしくは任意の指向性マイクロホンとする。次に音声以外の周波数帯でのパワーが大きいことはノイズが大きいことを示し、小さいことはノイズが小さいことを意味する。そこで例えばこれらの2つの要素の組み合わせ論理で、指向性のマイクロホンアレイとするか、無指向性の1個のマイクロホンとするかを切り替える。
無指向性モードでは、マイクロホンm1〜m4中の1個、例えばマイクロホンm4を用いて音声認識を行う。指向性モードでは、例えば12個の指向性マイクロホン中の発話を検出したマイクロホンの中から発話検出前の信号(ノイズ)が小さかったマイクロホンを1個選択し、その信号に対し音声認識を施す。もしくはマイクロホンm1〜m4から発話検出前のノイズが最も小さかった2個のマイクロホンを選択し、選択した2個のマイクロホンの信号を合成して、仮想的な1個の指向性マイクロホンの信号とする。
実施例では音声認識装置2内で、マイクロホンm1〜m4の信号の増幅から音声認識までの処理を行った。しかし遅延部6での遅延から音声認識部22での音声認識までの処理を、外部サーバ30側で行っても良い。この場合、無指向性モードと指向性モードとのモードの切替、ゲインの変更、及び発話の検出閾値の変更も、外部サーバ30側で行う。またこれらの中間的な処理として、増幅器A1〜A4の増幅ゲイン及び発話の検出閾値を、無指向性モードと指向性モードのモード、作業者、及び環境条件の組合せ毎に決定し、外部サーバ30が記憶しても良い。この場合、モードの切替は音声認識装置2の側で行い、モードを切り替える都度、必要なゲインと閾値を通信部24を介して外部サーバ30から音声認識装置2が取得する。外部サーバ30は、モードの切り替え時に、作業者、環境条件を加味して現在のゲインと閾値を新たな値に変換する。
実施例では以下の効果が得られる。
(1) ノイズの小さな環境では無指向性マイクロホンとし、ノイズの大きな環境では指向性マイクロホンとするので、ノイズの小さな環境ではマイクロホンからの信号の合成に伴う歪みが無い。またノイズの大きな環境では、話者に対して指向性のある指向性マイクロホンからの信号により、周囲のノイズの影響を小さくする。
(2) ノイズの大小は、増幅器A4などからの出力の大小、あるいは短時間FFT12からの音声以外の周波数帯での出力の大小、などで識別できる。従って自動的にモードを変更できる。
(3) 短時間FFT12からの音声以外の周波数帯での出力の大小を用いると、発話区間でもノイズの大小を識別できる。従って発話中にノイズが小さくなった場合、無指向性モードに変更でき、また発話中にノイズが増加した場合、話者の側を向いた指向性マイクロホンに切り替え、ノイズの影響を小さくできる。
(4) モードの切替に必要な増幅ゲイン及び発話検出の閾値を、パラメータ変換部16もしくは外部サーバ30などから供給するので、モードの切替時に音声認識の環境が不連続に変化しない。
(5) 無指向性モードでは、4個の無指向性マイクロホンm1〜m4の1個を選択して用いる。即ち複数のマイクロホンからの信号を平均しないので、平均化に伴うノイズがない。
実施例では音声中のキーワードを検出する例を示したが、音声を文として連続的に認識する際にこの発明を適用しても良い。
2 音声認識装置
4 マイクロホンアレイ
6 遅延部
8 差分部
10 メモリ
12 短時間FFT
14 モード切替部
16 パラメータ変換部
18 発話検出部
20 特徴抽出部
22 音声認識部
24 通信部
26 スピーカ
30 外部サーバ
32 遅延器
34 差分器

m1〜m4 マイクロホン
A1〜A4 増幅器

Claims (5)

  1. 複数個の無指向性のマイクロホンから成るマイクロホンアレイと、
    前記無指向性のマイクロホンからの無指向性信号を増幅する増幅器と、
    前記無指向性信号を組み合わせて、音源の方向への指向性の有る指向性信号を出力するための駆動回路と、
    前記指向性信号あるいは前記無指向性信号に対して発話の有無を検出する発話検出部と、
    前記指向性信号を音声認識するための音声認識部と、
    前記無指向性信号中あるいは前記指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、前記無指向性信号を音声認識部で音声認識するようにモードを切り替えるモード切替部を備えていることを特徴とする、音声認識装置。
  2. モードの切り替え時に、増幅器のゲインあるいは発話検出部での発話検出の閾値を現在値から新たな値へ変換するパラメータ変換部をさらに設けたことを特徴とする、請求項1の音声認識装置。
  3. 外部サーバとの通信部をさらに備えて、モードの切り替え時に、増幅器のゲインあるいは発話検出部での発話検出の閾値を、外部サーバからダウンロードするようにしたことを特徴とする、請求項1の音声認識装置。
  4. 前記モード切替部は、前記ノイズレベルが高い際に、前記指向性信号に対して発話検出部で発話を検出し、かつ前記指向性信号を音声認識部で音声認識するようにモードを切り替えることを特徴とする、請求項1〜3のいずれかの音声認識装置。
  5. 複数個の無指向性信号を増幅器で増幅し、前記無指向性信号を駆動回路で組み合わせて、音源の方向への指向性の有る指向性信号を求め、前記指向性信号あるいは前記無指向性信号に対して発話検出部で発話の有無を検出し、前記指向性信号を音声認識部で音声認識する音声認識方法であって、
    モード切替部により、前記無指向性信号中あるいは前記指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、前記無指向性信号を音声認識部で音声認識するようにモードを切り替えることを特徴とする、音声認識方法。
JP2010132785A 2010-06-10 2010-06-10 音声認識装置と認識方法 Pending JP2011257627A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010132785A JP2011257627A (ja) 2010-06-10 2010-06-10 音声認識装置と認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010132785A JP2011257627A (ja) 2010-06-10 2010-06-10 音声認識装置と認識方法

Publications (1)

Publication Number Publication Date
JP2011257627A true JP2011257627A (ja) 2011-12-22

Family

ID=45473850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010132785A Pending JP2011257627A (ja) 2010-06-10 2010-06-10 音声認識装置と認識方法

Country Status (1)

Country Link
JP (1) JP2011257627A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847584A (zh) * 2016-05-12 2016-08-10 歌尔声学股份有限公司 一种智能设备识别悄悄话的方法
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
JP2018129678A (ja) * 2017-02-08 2018-08-16 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム
JP2021509963A (ja) * 2018-11-20 2021-04-08 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. マルチビーム選定方法及び装置
CN113628638A (zh) * 2021-07-30 2021-11-09 深圳海翼智新科技有限公司 音频处理方法、装置、设备及存储介质
CN113628638B (zh) * 2021-07-30 2024-05-28 深圳海翼智新科技有限公司 音频处理方法、装置、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847584A (zh) * 2016-05-12 2016-08-10 歌尔声学股份有限公司 一种智能设备识别悄悄话的方法
CN105847584B (zh) * 2016-05-12 2019-03-05 歌尔股份有限公司 一种智能设备识别悄悄话的方法
JP2018129678A (ja) * 2017-02-08 2018-08-16 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
JP2021500634A (ja) * 2017-10-23 2021-01-07 アイフライテック カンパニー,リミテッド マイク・アレイに基づく対象音声取得方法及び装置
US11081123B2 (en) 2017-10-23 2021-08-03 Iflytek Co., Ltd. Microphone array-based target voice acquisition method and device
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
JP7011075B2 (ja) 2017-10-23 2022-01-26 アイフライテック カンパニー,リミテッド マイク・アレイに基づく対象音声取得方法及び装置
JP2021509963A (ja) * 2018-11-20 2021-04-08 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. マルチビーム選定方法及び装置
CN113628638A (zh) * 2021-07-30 2021-11-09 深圳海翼智新科技有限公司 音频处理方法、装置、设备及存储介质
CN113628638B (zh) * 2021-07-30 2024-05-28 深圳海翼智新科技有限公司 音频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3185243B1 (en) Voice processing device, voice processing method, and program
KR102352927B1 (ko) 상관 기반 근접장 검출기
JP4910568B2 (ja) 紙擦れ音除去装置
JP5328744B2 (ja) 音声認識装置及び音声認識方法
KR20030077797A (ko) 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
JP2010121975A (ja) 音源定位装置
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
JP2011257627A (ja) 音声認識装置と認識方法
JP2007248534A (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP5007400B2 (ja) 点音源検出方法
JP2005303574A (ja) 音声認識ヘッドセット
JP6515591B2 (ja) 音声解析装置、音声解析システムおよびプログラム
JP6361360B2 (ja) 残響判定装置及びプログラム
JP2022544065A (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
JP2002031674A (ja) 発音体指向性補正方法およびその装置
US11483644B1 (en) Filtering early reflections
Kowalczyk et al. Embedded system for acquisition and enhancement of audio signals
Gomez et al. Speech-based human-robot interaction robust to acoustic reflections in real environment
KR101152345B1 (ko) 2개의 무지향마이크로폰을 이용한 지향성조절장치
JP6226065B2 (ja) ソーナー装置、信号処理方法及びプログラム
JP2010181467A (ja) 複数信号強調装置とその方法と、プログラム
Krikke et al. Who Said That? A Comparative Study of Non-Negative Matrix Factorisation and Deep Learning Techniques
Wang et al. FPGA implementation of a novel far-field sound localization system
Jeon et al. Dual-channel acoustic event detection in multisource environments using nonnegative tensor factorization and hidden markov model