JP2019020678A - ノイズ低減装置および音声認識装置 - Google Patents
ノイズ低減装置および音声認識装置 Download PDFInfo
- Publication number
- JP2019020678A JP2019020678A JP2017141592A JP2017141592A JP2019020678A JP 2019020678 A JP2019020678 A JP 2019020678A JP 2017141592 A JP2017141592 A JP 2017141592A JP 2017141592 A JP2017141592 A JP 2017141592A JP 2019020678 A JP2019020678 A JP 2019020678A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- voice
- unit
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】音声出力部からの音声出力中における発話音声の認識精度を向上させること。【解決手段】ノイズ低減装置(20)の第1の音声入力部(23)には、ユーザの発話音声(sk)に、出力音声(nk)が混在した入力音声信号(dk)が入力され、第2の音声入力部(24)には、音声出力部から出力される出力音声(nk)の元の音声信号(xk)が入力される。ノイズ低減装置(20)は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号(sk1)を生成する第1のノイズ減算部(21)と、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号(sk2)を生成する第2のノイズ減算部(22)とを備え、第1のノイズ減算部(21)および第2のノイズ減算部(22)は、異なるパラメータを用いて、元の音声信号(xk)からノイズ成分を推定する。【選択図】図2
Description
本発明は、ノイズ低減装置および音声認識装置に関し、特に、音声を出力する音声出力機器に搭載されるノイズ低減装置および音声認識装置に関する。
テレビ、カーオーディオ、またはコミュニケーションロボットなどの音声出力機器に音声認識装置を搭載する場合、当該機器から出力されるスピーカ音がノイズとなるため、音声認識を正しく行うことが困難である。
たとえば特開平5−22779号公報(特許文献1)に開示されたノイズ低減装置は、スピーカ音に相当する音声出力回路からの音声信号に基づいて適応フィルタでフィルタ処理した出力を加算器(減算手段)に送って、加算器において、マイクロフォンからの主要入力(ユーザの発話音声)からフィルタ処理後の出力を減算することで、ノイズ成分を除去している。適応フィルタは、加算器の出力(残差)を最小にするようにフィルタ特性が制御される。
音声認識装置を搭載した市販の音声出力機器の多くは、音声出力(再生)中には音声認識機能を無効とし、音声出力中でない場合にのみ音声認識機能を有効としている。しかし、音声出力期間が長い場合にはユーザの待機時間が増えるため、音声の出力中においても音声認識機能を有効にできる技術が望まれている。
上記特許文献1では、音声認識部の前段において、音声出力回路からの音声信号(再生音声)をフィルタ処理することでノイズ成分を減算しているため、音声出力中においても音声認識可能とされる。しかしながら、適応フィルタによりノイズ成分が減算された音声信号(加算器の出力)は、発話音声の認識処理に使用されることから、発話音声を極力残した上で、ノイズ成分を除去する必要がある。そのため、発話音声に混在したスピーカ音(ノイズ)を完全に除去することができない。したがって、加算器からの出力音声は、スピーカ音の引き残し成分を含むことになる。
特許文献1においては、この、スピーカ音の引き残し成分を含む音声信号が、音声認識部において音声区間の検出にも用いられている。そのため、特許文献1の技術によれば、音声区間を誤検出する可能性がある。したがって、ユーザの発話音声を正しく認識できない可能性がある。
本発明は、上記のような課題を解決するためになされたものであって、その目的は、音声出力部からの音声出力中における発話音声の認識精度を向上させることのできるノイズ低減装置および音声認識装置を提供することである。
この発明のある局面に従うノイズ低減装置は、音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、第1の音声入力部と、第2の音声入力部と、第1のノイズ減算部と、第2のノイズ減算部とを備える。音声認識装置が備えるマイクロフォンは、ユーザの発話音声を入力するが、実際には、ユーザの発話音声のみを入力することができず、音声出力部からの出力音声が混在する。そのため、ノイズ低減装置が備える第1の音声入力部は、ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する。第2の音声入力部は、音声出力部から出力される出力音声の元の音声信号を入力する。
音声認識(認識処理)に用いる音声信号は、発話音声を極力残す必要がある。また、出力音声の消し残しによる誤区間検出を防ぐには、出力音声を極力消す必要がある。しかし、発話音声を残すことと出力音声を消すことはトレードオフの関係にあり、両立が困難である。この発明では、認識処理用と音声区間検出用の2種類のノイズ減算部、すなわち第1のノイズ低減部および第2の低減部を設けることで課題解決を図っている。
第1のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第1のノイズ低減音声信号を生成する。第2のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第2のノイズ低減音声信号を生成する。第1のノイズ減算部および第2のノイズ減算部は、異なるパラメータを用いて、元の音声信号からノイズ成分を推定する。
好ましくは、第1のノイズ減算部は、第1のパラメータを用いてノイズ成分を推定する第1の適応フィルタを含み、第1の適応フィルタによる推定結果としての第1のノイズ成分を、入力音声信号から減算する。同様に、第2のノイズ減算部は、第2のパラメータを用いてノイズ成分を推定する第2の適応フィルタを含み、第2の適応フィルタによる推定結果としての第2のノイズ成分を、入力音声信号から減算することが望ましい。
第1および第2のパラメータは、たとえば、それぞれの適応フィルタにおけるステップサイズに対応し、ステップサイズによってフィルタ係数の収束速度が決定される。この場合、第2の適応フィルタにおけるフィルタ係数の収束速度の方が、第1の適応フィルタにおけるフィルタ係数の収束速度よりも速くなるように、パラメータを定めることが望ましい。
あるいは、第1および第2のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、入力音声信号および元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成してもよい。この場合、第1および第2のノイズ減算部においてノイズ成分の推定に用いるパラメータは、元の音声信号のパワースペクトルに適用する乗数に対応し、第2のノイズ減算部において用いられる乗数の方が、第1のノイズ減算部において用いられる乗数よりも大きいことが望ましい。
このノイズ低減装置は、第2の減算部により生成された第2のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備えていてもよい。
この発明の他の局面に従う音声認識装置は、上記のようなノイズ低減装置を備える。
本発明によれば、音声出力部からの音声出力中における発話音声の認識精度を向上させることができる。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
以下に、本実施の形態に係る音声認識装置を搭載した音声出力機器について説明する。音声出力機器は、音声を出力(再生)する装置であり、たとえば、コミュニケーションロボット、テレビ、カーナビゲーション、翻訳装置などが想定される。
(音声出力機器の概略構成について)
図1は、本実施の形態における音声出力機器1の概略構成を示すブロック図である。音声出力機器1は、たとえば対話型コミュニケーションロボットであり、マイクロフォン(以下「マイク」と略す)11と、音声認識装置12と、音声再生装置13と、スピーカ14とを備えている。
図1は、本実施の形態における音声出力機器1の概略構成を示すブロック図である。音声出力機器1は、たとえば対話型コミュニケーションロボットであり、マイクロフォン(以下「マイク」と略す)11と、音声認識装置12と、音声再生装置13と、スピーカ14とを備えている。
マイク11は、ユーザからの発話音声skを受け付けて、音波を電気信号に変換する。マイク11には、発話音声skの他、環境雑音bkおよびスピーカ14からの出力音声nkも入力される。つまり、音声出力機器1が音声出力(再生)中である場合、マイク11から音声認識装置12への入力音声dkは、発話音声skと環境雑音bkと出力音声nkとが混在した音声となる。
音声認識装置12は、マイク11からの入力音声dkに基づいて、発話音声skを認識し、ユーザが発話したフレーズ(たとえば「こんにちは」など)を推定する。音声認識装置12での認識結果Resultは音声再生装置13に出力される。音声認識装置12の構成例については図2を挙げて後述する。
音声再生装置13は、音声認識装置12から得られる認識結果Resultに基づいて、音声xkの再生制御を行う。音声xkは、スピーカ14からの出力音声nkの元の音声に相当する。以下の説明において、出力音声nkを「スピーカ音nk」、元の音声xkを「再生音声xk」という。音声再生装置13の構成例が図3に示されている。
図3を参照して、音声再生装置13は、音声認識装置12での認識結果Resultに基づいて各種制御を行う制御部41と、メモリ42と、アンプ43とを含む。メモリ42には、複数のフレーズ(認識結果)に関連付けて、音声データが予め記憶されている。メモリ42には、複数のフレーズに関連付けて、動作内容(アクション)を示す情報がさらに記憶されていてもよい。
制御部41は、たとえば、認識結果Resultが示す発話フレーズに対応する音声データをメモリ42から読み出し、読み出した音声データを音声信号としてアンプ43に送信する。アンプ43において増幅された音声信号は、再生音声xkとしてスピーカ14に送られる。スピーカ14は、音声出力部であって、音声再生装置13から受信した再生音声xkの電気信号エネルギーを音波に変換して出力する。
あるいは、制御部41は、認識結果Result(発話フレーズ)に対応する動作内容情報をメモリ42から読み出し、音声出力機器1が備える駆動系(図示せず)を駆動制御することによって音声再生以外のアクションを実行する。
ここで、このような音声再生装置と一体的に設けられる一般的な音声認識装置では、図11(A)に示されるように、スピーカからの音声出力中、音声認識機能は無効とされる。再生音声xkに対応したスピーカ音nkが、ノイズとしてマイクに入力されるからである。
これに対し、本実施の形態では、図11(B)に示されるように、スピーカ14からの音声出力中か否かに関わらず、音声認識機能が有効とされる。つまり、音声認識装置12は、スピーカ音nkが出力されている期間においても、ユーザが発話したフレーズ(発話音声sk)を認識することができる。
(音声認識装置の機能構成について)
図2は、音声認識装置12の機能構成を示すブロック図である。
図2は、音声認識装置12の機能構成を示すブロック図である。
音声認識装置12は、ノイズ低減部20と、音声認識部30とを含む。本実施の形態における音声認識部30は、たとえばHMM(Hidden Markov Model)法に基づいて、フレーズ単位で音声を認識する。音声認識部30は、主に、音声信号から音声区間を検出する区間検出部31と、区間検出部31で検出された音声区間内の音声信号から発話フレーズを認識する認識処理部32とで構成される。
ノイズ低減部20は、音声認識部30の前段に配置され、入力音声dkから、再生音声(すなわち、スピーカ音nkの元の音声)xkに基づくノイズ成分を減算することによって、ノイズを低減する。なお、ノイズ低減部20において利用される再生音声xkは、アンプ43を通る前の音声信号であってもよい。
本実施の形態におけるノイズ低減部20は、第1および第2の入力端子23,24と、第1および第2のノイズ減算部21,22と、第1および第2の出力端子25,26とを含む。なお、本実施の形態において、「第1のノイズ減算部21」を「第1の減算部21」、「第2のノイズ減算部22」を「第2の減算部22」と略す。
第1の入力端子23は、第1の音声入力部として機能し、マイク11から入力音声dkを入力する。入力音声dkは、上述のように、発話音声skと環境雑音bkとスピーカ音nkとが混在した音声(dk=sk+bk+nk)である。第1の入力端子23に入力された入力音声dkは、第1および第2の減算部21,22の双方に送られる。
第2の入力端子24は、第2の音声入力部として機能し、音声再生装置13からスピーカ14に出力される再生音声xkを入力する。第2の入力端子24に入力された再生音声xkもまた、第1および第2の減算部21,22の双方に送られる。
入力音声dkに含まれるスピーカ音nkは、この再生音声xkと相関があるが、周囲の空間特性Wkによって変化する。そのため、スピーカ音nkは次の式で表される。
nk=Wk・Xk
ここで、「Wk」および「Xk」は、ベクトル値を表わしている。また、入力ベクトルXkは、次のように定義できる。
Xk=[xk xk−1 ・・・xk−L+1]T
なお、「L」は、適応フィルタが有する遅延素子の個数に相当し、「T」は、転置記号を示す。
nk=Wk・Xk
ここで、「Wk」および「Xk」は、ベクトル値を表わしている。また、入力ベクトルXkは、次のように定義できる。
Xk=[xk xk−1 ・・・xk−L+1]T
なお、「L」は、適応フィルタが有する遅延素子の個数に相当し、「T」は、転置記号を示す。
第1の減算部21は、第2の入力端子24から得られる再生音声xkから第1のパラメータを用いてノイズ成分を推定し、第1の入力端子23から得られる入力音声dkから、推定結果としての第1のノイズ成分を減算する。第1の減算部21による減算後の残差が、第1のノイズ低減音声sk1として第1の出力端子25へ送られる。第1のノイズ低減音声sk1は、音声認識部30の認識処理部32にのみ送信され、認識処理部32において発話フレーズの認識処理に用いられる。つまり、第1のノイズ低減音声sk1は、認識処理用のノイズ低減音声である。
第2の減算部22は、第2の入力端子24から得られる再生音声xkから第2のパラメータを用いてノイズ成分を推定し、第1の入力端子23から得られる入力音声dkから、推定結果としての第2のノイズ成分を減算する。第2の減算部22による減算後の残差が、第2のノイズ低減音声sk2として第2の出力端子26へ送られる。第2のノイズ低減音声sk2は、音声認識部30の区間検出部31にのみ送信され、区間検出部31において音声区間の検出処理に用いられる。つまり、第2のノイズ低減音声sk2は、区間検出用のノイズ低減音声である。
このように、発話フレーズの認識処理には、第1のノイズ低減音声sk1だけが利用され、第1のノイズ低減音声sk1はユーザの発話音声skを引きすぎないようにしている。これに対して、第2のノイズ低減音声sk2は、発話音声の音声区間の検出にのみ使用するため、ユーザの発話音声skが多少消されたとしてもスピーカ音nkの引き残し成分を極力含まない(無くす)ようにすることで、スピーカ音nkの引き残し成分による誤区間検出を防ぐことができる。つまり、第1のノイズ減算部21は、ユーザの発話音声skを極力残し、第2のノイズ減算部22は、スピーカ音nkを極力消すことで認識処理および区間検出処理の双方に適したノイズ低減音声を得ることができる。
図12(A)〜(D)には、ノイズ低減処理が必要となる、スピーカ音nkおよび発話音声skの入力タイミングのパターン例が示されている。図12(D)のパターン例では、発話音声skの音声区間内にスピーカ音nkの音声区間が完全に含まれているため、スピーカ音nkの音声区間の外に、発話音声skの音声区間の始端および終端がある。この例では、スピーカ音nkの引き残し成分を含む第1のノイズ低減音声sk1を用いて音声区間を検出したとしても支障が少ない。
これに対し、図12(A)〜(C)のパターン例では、発話音声skの音声区間の始端および終端の少なくともいずれか一方が、スピーカ音nkの音声区間内に位置している。この例では、スピーカ音nkの引き残し成分を含む第1のノイズ低減音声sk1を用いて音声区間を検出しようとすると、スピーカ音nkの引き残し成分の影響を受けるため、正しい音声区間を検出できない可能性がある。
本実施の形態におけるノイズ低減部20は、別途、音声区間検出用に第2の減算部22を備え、第2の減算部22において、極力、スピーカ音nkの引き残し成分を無くすようにしている。そのため、図12(A)〜(C)に示すようなパターン例においても、音声認識部30の区間検出部31は、スピーカ音nkの引き残し成分が抑制された第2のノイズ低減音声sk2に基づいて、音声区間を精度良く検出することができる。
ノイズ低減部20および音声認識部30の具体的な構成例について、以下に説明する。
(ノイズ低減部の構成例について)
図4は、ノイズ低減部20の構成例を示すブロック図である。
図4は、ノイズ低減部20の構成例を示すブロック図である。
ノイズ低減部20の第1の減算部21は、第1の推定部210と、第1の加算器212とを含む。第1の推定部210は、第2の入力端子24に入力された再生音声xkから、第1のパラメータを用いてスピーカ音nkを推定し、推定結果として第1のノイズ成分nk1を得る。第1の加算器212は、第1の入力端子23に入力された入力音声dkから、第1の推定部210で推定された第1のノイズ成分nk1を減算することで、第1のノイズ低減音声sk1を生成する。
第1の推定部210は、可変フィルタ211と、可変フィルタ211のフィルタ係数Wk1を随時更新する更新アルゴリズム213とを含む、適応フィルタで構成される。可変フィルタ211は、第1の加算器212から出力される第1のノイズ低減音声sk1のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム213は、第1のノイズ低減音声sk1に応じて可変フィルタ211のフィルタ係数Wk1を更新し、学習によってフィルタ特性を変化させる。
ノイズ低減部20の第2の減算部22も同様に、第2の推定部220と、第2の加算器222とを含む。第2の推定部220は、第2の入力端子24に入力された再生音声xkから、第2のパラメータを用いてスピーカ音nkを推定し、推定結果として第2のノイズ成分nk2を得る。第2の加算器222は、第1の入力端子23に入力された入力音声dkから、第2の推定部220で推定された第2のノイズ成分nk2を減算することで、第2のノイズ低減音声sk2を生成する。
第2の推定部220は、可変フィルタ221と、可変フィルタ221のフィルタ係数Wk2を随時更新する更新アルゴリズム223とを含む、適応フィルタで構成される。可変フィルタ221は、第2の加算器222から出力される第2のノイズ低減音声sk2のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム223は、第2のノイズ低減音声sk2に応じて可変フィルタ221のフィルタ係数Wk2を更新し、学習によってフィルタ特性を変化させる。
本実施の形態においてノイズ成分(スピーカ音)nkの推定に用いるパラメータは、たとえば、可変フィルタ211,221のフィルタ係数の収束速度を決定するステップサイズである。つまり、第1の推定部210の可変フィルタ211と第2の推定部220の可変フィルタ221とで、相異なるステップサイズを用いて、空間特性Wkに対する追従速度を変えている。
それぞれのフィルタ係数Wk1,Wk2の更新アルゴリズムは、たとえば次のように表される。
Wk+1,1=Wk1+2μ1sk1Xk
Wk+1,2=Wk2+2μ2sk2Xk
上記式中の「μ1」、「μ2」は、適応の速度と安定性を制御するステップサイズである。なお、係数μ1,μ2は、可変であってもよいが、少なくともフィルタ係数Wk1,Wk2が収束するまで間、次のような関係が成り立つ。
μ1<μ2
Wk+1,1=Wk1+2μ1sk1Xk
Wk+1,2=Wk2+2μ2sk2Xk
上記式中の「μ1」、「μ2」は、適応の速度と安定性を制御するステップサイズである。なお、係数μ1,μ2は、可変であってもよいが、少なくともフィルタ係数Wk1,Wk2が収束するまで間、次のような関係が成り立つ。
μ1<μ2
つまり、第2の推定部220の可変フィルタ221のフィルタ係数Wk2の収束速度の方が、第1の推定部210の可変フィルタ211のフィルタ係数Wk1の収束速度よりも速い。これにより、第2の減算部22は、スピーカ音nkを極力消すことが可能となり、区間検出処理に適したノイズ低減音声(第2のノイズ低減音声)を得ることができる。また、第1のノイズ減算部21は、ユーザの発話音声skを極力残すことが可能となり、認識処理に適したノイズ低減音声(第1のノイズ低減音声)を得ることができる。
なお、可変フィルタ211,221としては、たとえばFIRフィルタ(有限インパルス応答)が用いられる。また、更新アルゴリズム213,223としては、たとえばLMS(最小平均自乗)アルゴリズムが挙げられるが、限定的ではなく、様々な手法のアルゴリズムが採用され得る。
(音声認識部の構成例について)
図5は、音声認識部30の構成例を示すブロック図である。
図5は、音声認識部30の構成例を示すブロック図である。
音声認識部30は、ノイズ低減部20から第1のノイズ低減音声sk1を入力する第1の入力端子33と、ノイズ低減部20から第2のノイズ低減音声sk2を入力する第2の入力端子34とを含み、第1の入力端子33に入力された第1のノイズ低減音声sk1は認識処理部32にのみ送られ、第2の入力端子34に入力された第2のノイズ低減音声sk2は区間検出部31にのみ送られる。音声認識部30は、認識処理部32による認識結果Resultを出力する出力端子35をさらに含む。
なお、ノイズ低減部20の第1の出力端子25と音声認識部30の第1の入力端子33とは、たとえばケーブルを介して電気的に接続されている。同様に、ノイズ低減部20の第2の出力端子26と音声認識部30の第2の入力端子34とは、たとえばケーブルを介して電気的に接続されている。
区間検出部31は、第2のノイズ低減音声sk2に基づいて、発話音声skの音声区間を検出する。音声区間の検出は公知の手法により行われてよい。たとえば、特開2009−294537号公報または特開2008−170789号公報に開示された音声区間検出方法を採用することができる。区間検出部31は、検出した音声区間の始端と終端を示すタイミング信号VADを認識処理部32に出力する。
認識処理部32は、分析部51と、音響モデル等を予め記憶したメモリ52と、マッチング処理部53と、棄却処理部54とを含む。
分析部51は、第1のノイズ低減音声sk1と区間検出部31からのタイミング信号VADとを受信し、音声区間内の第1のノイズ低減音声sk1を切り出した後で、第1のノイズ低減音声sk1を分析する。具体的には、音声区間内の第1のノイズ低減音声sk1を所定の時間長のフレーム単位で切り出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、フレーム単位で切り出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。
マッチング処理部53は、分析部51において抽出された特徴列に基づく音声パターンと、メモリ52に記憶された音響モデル(たとえばHMMモデル)の音声パターンとをマッチング(照合)して、最も尤度の高いフレーズを発話フレーズの候補として選出する。
棄却処理部54は、マッチング処理部53において選出された発話フレーズの候補の受理/棄却を判定する。棄却処理部54において受理された発話フレーズを示す情報が、認識結果Resultとして、出力端子35を介して音声再生装置13に出力される。
なお、図4に示したノイズ低減部20の機能構成および図5に示した音声認識部30の機能構成は、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよい。
(動作について)
本実施の形態における音声認識装置12の動作について説明する。図6は、音声認識装置12の基本動作を示すフローチャートである。
本実施の形態における音声認識装置12の動作について説明する。図6は、音声認識装置12の基本動作を示すフローチャートである。
図6を参照して、マイク11からノイズ低減部20の第1の入力端子23に音声(入力音声dk)が入力されると(ステップS1)、ノイズ低減部20によるノイズ低減、および、音声認識部30による音声認識が順に実行される(ステップS2,S3)。その後、音声の認識結果に応じて、音声再生装置13が音声を再生する(ステップS4)。この音声再生装置13による再生音声xkは、ノイズ低減部20の第2の入力端子24に入力され、ステップS2のノイズ低減処理において参照信号(リファレンス)として用いられる。
図7は、図6のステップS2において実行されるノイズ低減処理の流れを示すフローチャートである。
図7を参照して、ノイズ低減部20の第1および第2の入力端子23,24それぞれに入力音声dkおよび再生音声xkが入力されると(ステップS21)、これら入力音声dkおよび再生音声xkを用いて、第1の減算部21による第1のノイズ低減音声sk1の生成(ステップS22)と、第2の減算部22による第2のノイズ低減音声sk2の生成(ステップS23)とが並行して行われる。
つまり、ステップS22においては、発話音声skの認識処理に適したフィルタ処理が行われ、ステップS23においては、発話音声skの音声区間の検出に適したフィルタ処理が行われる。
ステップS22で生成された第1のノイズ低減音声sk1は第1の出力端子25から音声認識部30の第1の入力端子33に送られる。ステップS23で生成された第2のノイズ低減音声sk2は第2の出力端子26から音声認識部30の第2の入力端子34に送られる。
図8は、図6のステップS3において実行される音声認識処理の流れを示すフローチャートである。
図8を参照して、音声認識部30の第1および第2の入力端子33,34それぞれに第1および第2のノイズ低減音声sk1,sk2が入力されると(ステップS31)、区間検出部31は、第2のノイズ低減音声sk2から音声区間を検出する(ステップS32)。つまり、区間検出部31は、音声区間の始端および終端を検出する。
次に、認識処理部32の分析部51が、ステップS32で検出された音声区間の始端と終端との間に位置する第1のノイズ低減音声sk1を切り出して、第1のノイズ低減音声sk1を分析する(ステップS33)。第1のノイズ低減音声sk1の分析によって、第1のノイズ低減音声sk1の特徴量が抽出されると、マッチング処理部53が、抽出された特徴列に基づく音声パターンと、メモリ52に記憶された音響モデルの音声パターンとをマッチング処理する(ステップS34)。マッチング処理部53は、マッチング処理の結果、最も尤度の高いフレーズを発話フレーズの候補として選出する。
その後、棄却処理部54が、発話フレーズの候補の棄却処理を行って(ステップS35)、発話フレーズが受理されると、その発話フレーズを示す情報を認識結果Resultとして出力する(ステップS36)。
このように、本実施の形態では、分析部51が、音声区間内の第1のノイズ低減音声sk1を切り出してから第1のノイズ低減音声sk1の分析を行うため、音声認識に必要な区間の音声信号だけを分析することができる。したがって、分析部51における処理負荷を軽減することができる。
なお、分析部51において第1のノイズ低減音声sk1の分析を行った後、マッチング処理部53において音声区間内の特徴量列を切り出すこととしてもよい。つまり、音声区間の始端および終端を示すタイミング信号VADは、分析部51ではなくマッチング処理部53に送信されてもよい。
以上説明したように、本実施の形態に係る音声認識装置12によれば、ノイズ低減部20において、発話音声skの認識処理用のノイズ低減音声(sk1)とは別に、発話音声skの音声区間検出用のノイズ低減音声(sk2)を生成するため、音声区間の誤検出を低減させることができる。その結果、本実施の形態によれば、スピーカ14からの音声出力中における発話音声skの認識精度を向上させることができる。
また、本実施の形態において、音声認識部30の認識処理部32は、フレーズ単位で音声を認識するため、音素単位で音声を認識する連続音声認識方法に比べて環境雑音bkに強い。そのため、再生音声xkに基づくノイズ成分だけを除去するだけで(つまり、環境雑音bkが残っていたとしても)、精度良く発話音声skを認識することができる。
なお、空間特性Wkが既知の場合には、フィルタ係数Wk1,Wk2を固定値としてもよい。
(変形例1)
上記実施の形態では、第2のノイズ低減音声sk2から音声区間を検出する区間検出部が、音声認識部30に設けられることとしたが、ノイズ低減部20に設けられてもよい。
上記実施の形態では、第2のノイズ低減音声sk2から音声区間を検出する区間検出部が、音声認識部30に設けられることとしたが、ノイズ低減部20に設けられてもよい。
図9は、本実施の形態の変形例1における音声認識装置12Aの機能構成を示すブロック図である。音声認識装置12Aにおいては、ノイズ低減部20Aに区間検出部27が含まれ、音声認識部30Aに区間検出部が含まれていない。
区間検出部27は、第2の減算部22からの出力、すなわち第2のノイズ低減音声sk2を入力し、上記と同様に音声区間を検出する。区間検出部27により検出された音声区間の始端および終端を示すタイミング信号VADが、ノイズ低減部20Aの第2の出力端子26から出力される。
音声認識部30Aの第2の入力端子34は、ノイズ低減部20Aから出力されるタイミング信号VADを入力し、認識処理部32に送信する。
(変形例2)
上記実施の形態では、ノイズ低減部20に含まれる各減算部21,22は、適応フィルタを用いてノイズ低減を行う構成としたが、限定的ではない。たとえば、ノイズ低減部の各ノイズ減算部は、スペクトル・サブトラクション法に基づいてノイズ低減を行ってもよい。
上記実施の形態では、ノイズ低減部20に含まれる各減算部21,22は、適応フィルタを用いてノイズ低減を行う構成としたが、限定的ではない。たとえば、ノイズ低減部の各ノイズ減算部は、スペクトル・サブトラクション法に基づいてノイズ低減を行ってもよい。
図10は、ノイズ減算部の他の構成例を模式的に示すブロック図である。図10に示すノイズ減算部21Aは、入力音声dkおよび再生音声xkのパワースペクトルを用いてノイズ低減音声(sk1またはsk2)を生成する。
すなわち、ノイズ減算部21Aは、入力音声dkを高速フーリエ変換するFFT(Fast Fourier Transform)部(第1の変換部)231と、入力音声dkのパワースペクトルを算出するパワースペクトル算出部(|Z|2)233と、再生音声xkからノイズ成分を推定するノイズ推定部240と、入力音声dkのパワースペクトルから、ノイズ推定部240で推定されたノイズ成分を減算してノイズ低減音声のパワースペクトルを算出する加算器244と、ノイズ低減音声のパワースペクトルを音声信号に復元する復元部250とを含む。
ノイズ推定部240は、再生音声xkを高速フーリエ変換するFFT部(第2の変換部)241と、再生音声xkのパワースペクトルを算出するパワースペクトル算出部(|Z|2)242と、パワースペクトル算出部242の出力を所定倍する乗算器243とを含む。
復元部250は、ノイズ低減音声のパワースペクトルから振幅スペクトルを算出する振幅スペクトル算出部(√)251と、ノイズ低減音声の振幅スペクトルと、予め位相算出部232において算出された(FFT後の)入力音声dkの位相スペクトルとを用いて、ノイズ低減音声の複素スペクトルを算出する位相復元部252と、ノイズ低減音声の複素スペクトルを逆高速フーリエ変換し、音声信号に変換するIFFT(Inverse Fast Fourier Transform)部(逆変換部)253とを含む。
この例では、認識処理用である第1のノイズ推定部と音声区間検出用である第2のノイズ推定部とにおいて、乗算器243での乗数(α)が異なる。つまり、乗算器243での乗数、すなわち再生音声xkのパワースペクトルに適用する乗数が、ノイズ成分(スピーカ音)nkの推定に用いられるパラメータに対応し、第2のノイズ推定部における乗数α2は第1のノイズ推定部における乗数α1よりも大きい。
(他の変形例)
上記実施の形態では、音声認識装置が音声出力機器に組み込まれた例を示したが限定的ではない。たとえば、音声出力機器のスピーカの近傍にマイクが配置されるような場合であれば、音声認識装置単体で利用され得る。
上記実施の形態では、音声認識装置が音声出力機器に組み込まれた例を示したが限定的ではない。たとえば、音声出力機器のスピーカの近傍にマイクが配置されるような場合であれば、音声認識装置単体で利用され得る。
また、2種類のノイズ低減音声を生成するノイズ低減部を、ノイズ低減装置として単体で提供することもできる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 音声出力機器、11 マイクロフォン、12,12A 音声認識装置、13 音声再生装置、14 スピーカ、20,20A ノイズ低減部、21,22,21A ノイズ減算部、210,220 推定部、23,24,33,34 入力端子、25,26,35 出力端子、27,31 区間検出部、30,30A 音声認識部、32 認識処理部、41 制御部、42,52 メモリ、43 アンプ、51 分析部、53 マッチング処理部、54 棄却処理部、211,221 可変フィルタ、212,222 加算器、213,223 更新アルゴリズム、231,241 FFT部、232 位相算出部、233,242 パワースペクトル算出部、240 ノイズ推定部、243 乗算器、244 加算器、250 復元部、251 振幅スペクトル算出部、252 位相復元部、253 IFFT部。
Claims (6)
- 音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、
ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する第1の音声入力部と、
前記音声出力部から出力される出力音声の元の音声信号を入力する第2の音声入力部と、
前記入力音声信号と前記元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第1のノイズ低減音声信号を生成する第1のノイズ減算部と、
前記入力音声信号と前記元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第2のノイズ低減音声信号を生成する第2のノイズ減算部とを備え、
前記第1のノイズ減算部および前記第2のノイズ減算部は、異なるパラメータを用いて、前記元の音声信号からノイズ成分を推定する、ノイズ低減装置。 - 前記第1のノイズ減算部は、第1のパラメータを用いてノイズ成分を推定する第1の適応フィルタを含み、前記第1の適応フィルタによる推定結果としての第1のノイズ成分を、前記入力音声信号から減算し、
前記第2のノイズ減算部は、第2のパラメータを用いてノイズ成分を推定する第2の適応フィルタを含み、前記第2の適応フィルタによる推定結果としての第2のノイズ成分を、前記入力音声信号から減算する、請求項1に記載のノイズ低減装置。 - 前記第1および第2のパラメータは、それぞれの適応フィルタにおけるフィルタ係数の収束速度を決定し、
前記第2の適応フィルタにおけるフィルタ係数の収束速度の方が、前記第1の適応フィルタにおけるフィルタ係数の収束速度よりも速い、請求項2に記載のノイズ低減装置。 - 前記第1および第2のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、前記入力音声信号および前記元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成し、
前記第1および第2のノイズ減算部においてノイズ成分の推定に用いるパラメータは、前記元の音声信号のパワースペクトルに適用する乗数に対応し、前記第2のノイズ減算部において用いられる乗数の方が、前記第1のノイズ減算部において用いられる乗数よりも大きい、請求項1に記載のノイズ低減装置。 - 前記第2のノイズ減算部により生成された前記第2のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備える、請求項1〜4のいずれかに記載のノイズ低減装置。
- 請求項1〜5のいずれかに記載のノイズ低減装置を備えた、音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141592A JP2019020678A (ja) | 2017-07-21 | 2017-07-21 | ノイズ低減装置および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141592A JP2019020678A (ja) | 2017-07-21 | 2017-07-21 | ノイズ低減装置および音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019020678A true JP2019020678A (ja) | 2019-02-07 |
Family
ID=65352902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017141592A Pending JP2019020678A (ja) | 2017-07-21 | 2017-07-21 | ノイズ低減装置および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019020678A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105808A (zh) * | 2019-12-27 | 2020-05-05 | 上海联影医疗科技有限公司 | 语音降噪系统 |
CN111462772A (zh) * | 2020-03-31 | 2020-07-28 | 歌尔科技有限公司 | 一种语音降噪方法、系统及其相关设备 |
JP2020173290A (ja) * | 2019-04-08 | 2020-10-22 | パナソニックIpマネジメント株式会社 | 音響ノイズ抑圧装置及び音響ノイズ抑圧方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03274099A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | 音声認識装置 |
JPH0522779A (ja) * | 1991-07-09 | 1993-01-29 | Sony Corp | 音声認識遠隔制御装置 |
JPH06118967A (ja) * | 1992-09-30 | 1994-04-28 | Sony Corp | 適応型雑音低減装置 |
JPH09252268A (ja) * | 1996-03-15 | 1997-09-22 | Nec Corp | 音声および雑音の除去装置、音声認識装置 |
JP2004333704A (ja) * | 2003-05-02 | 2004-11-25 | Alpine Electronics Inc | 音声認識装置および方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
-
2017
- 2017-07-21 JP JP2017141592A patent/JP2019020678A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03274099A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | 音声認識装置 |
JPH0522779A (ja) * | 1991-07-09 | 1993-01-29 | Sony Corp | 音声認識遠隔制御装置 |
JPH06118967A (ja) * | 1992-09-30 | 1994-04-28 | Sony Corp | 適応型雑音低減装置 |
JPH09252268A (ja) * | 1996-03-15 | 1997-09-22 | Nec Corp | 音声および雑音の除去装置、音声認識装置 |
JP2004333704A (ja) * | 2003-05-02 | 2004-11-25 | Alpine Electronics Inc | 音声認識装置および方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020173290A (ja) * | 2019-04-08 | 2020-10-22 | パナソニックIpマネジメント株式会社 | 音響ノイズ抑圧装置及び音響ノイズ抑圧方法 |
US11152010B2 (en) | 2019-04-08 | 2021-10-19 | Panasonic Intellectual Property Management Co., Ltd. | Acoustic noise suppressing apparatus and acoustic noise suppressing method |
US11676617B2 (en) | 2019-04-08 | 2023-06-13 | Panasonic Intellectual Property Management Co., Ltd. | Acoustic noise suppressing apparatus and acoustic noise suppressing method |
CN111105808A (zh) * | 2019-12-27 | 2020-05-05 | 上海联影医疗科技有限公司 | 语音降噪系统 |
CN111462772A (zh) * | 2020-03-31 | 2020-07-28 | 歌尔科技有限公司 | 一种语音降噪方法、系统及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5848163A (en) | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer | |
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
JP2005084253A (ja) | 音響処理装置、方法、プログラム及び記憶媒体 | |
JP5649488B2 (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
JP2012037603A (ja) | 雑音推定装置、雑音推定方法および雑音推定プログラム | |
JP2011203700A (ja) | 音声判別装置 | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP2020160319A (ja) | 音声合成装置、方法及びプログラム | |
JP6878776B2 (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
JP2006234888A (ja) | 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体 | |
JP2007093635A (ja) | 既知雑音除去装置 | |
JP2005338454A (ja) | 音声対話装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
JP4313728B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4408205B2 (ja) | 話者認識装置 | |
US20220189498A1 (en) | Signal processing device, signal processing method, and program | |
JP2010164992A (ja) | 音声対話装置 | |
JP2005157086A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211116 |