JP2019020678A - ノイズ低減装置および音声認識装置 - Google Patents

ノイズ低減装置および音声認識装置 Download PDF

Info

Publication number
JP2019020678A
JP2019020678A JP2017141592A JP2017141592A JP2019020678A JP 2019020678 A JP2019020678 A JP 2019020678A JP 2017141592 A JP2017141592 A JP 2017141592A JP 2017141592 A JP2017141592 A JP 2017141592A JP 2019020678 A JP2019020678 A JP 2019020678A
Authority
JP
Japan
Prior art keywords
noise
speech
voice
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017141592A
Other languages
English (en)
Inventor
満次 吉田
Mitsuji Yoshida
満次 吉田
和也 角野
Kazuya Sumino
和也 角野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2017141592A priority Critical patent/JP2019020678A/ja
Publication of JP2019020678A publication Critical patent/JP2019020678A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声出力部からの音声出力中における発話音声の認識精度を向上させること。【解決手段】ノイズ低減装置(20)の第1の音声入力部(23)には、ユーザの発話音声(sk)に、出力音声(nk)が混在した入力音声信号(dk)が入力され、第2の音声入力部(24)には、音声出力部から出力される出力音声(nk)の元の音声信号(xk)が入力される。ノイズ低減装置(20)は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号(sk1)を生成する第1のノイズ減算部(21)と、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号(sk2)を生成する第2のノイズ減算部(22)とを備え、第1のノイズ減算部(21)および第2のノイズ減算部(22)は、異なるパラメータを用いて、元の音声信号(xk)からノイズ成分を推定する。【選択図】図2

Description

本発明は、ノイズ低減装置および音声認識装置に関し、特に、音声を出力する音声出力機器に搭載されるノイズ低減装置および音声認識装置に関する。
テレビ、カーオーディオ、またはコミュニケーションロボットなどの音声出力機器に音声認識装置を搭載する場合、当該機器から出力されるスピーカ音がノイズとなるため、音声認識を正しく行うことが困難である。
たとえば特開平5−22779号公報(特許文献1)に開示されたノイズ低減装置は、スピーカ音に相当する音声出力回路からの音声信号に基づいて適応フィルタでフィルタ処理した出力を加算器(減算手段)に送って、加算器において、マイクロフォンからの主要入力(ユーザの発話音声)からフィルタ処理後の出力を減算することで、ノイズ成分を除去している。適応フィルタは、加算器の出力(残差)を最小にするようにフィルタ特性が制御される。
特開平5−22779号公報
音声認識装置を搭載した市販の音声出力機器の多くは、音声出力(再生)中には音声認識機能を無効とし、音声出力中でない場合にのみ音声認識機能を有効としている。しかし、音声出力期間が長い場合にはユーザの待機時間が増えるため、音声の出力中においても音声認識機能を有効にできる技術が望まれている。
上記特許文献1では、音声認識部の前段において、音声出力回路からの音声信号(再生音声)をフィルタ処理することでノイズ成分を減算しているため、音声出力中においても音声認識可能とされる。しかしながら、適応フィルタによりノイズ成分が減算された音声信号(加算器の出力)は、発話音声の認識処理に使用されることから、発話音声を極力残した上で、ノイズ成分を除去する必要がある。そのため、発話音声に混在したスピーカ音(ノイズ)を完全に除去することができない。したがって、加算器からの出力音声は、スピーカ音の引き残し成分を含むことになる。
特許文献1においては、この、スピーカ音の引き残し成分を含む音声信号が、音声認識部において音声区間の検出にも用いられている。そのため、特許文献1の技術によれば、音声区間を誤検出する可能性がある。したがって、ユーザの発話音声を正しく認識できない可能性がある。
本発明は、上記のような課題を解決するためになされたものであって、その目的は、音声出力部からの音声出力中における発話音声の認識精度を向上させることのできるノイズ低減装置および音声認識装置を提供することである。
この発明のある局面に従うノイズ低減装置は、音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、第1の音声入力部と、第2の音声入力部と、第1のノイズ減算部と、第2のノイズ減算部とを備える。音声認識装置が備えるマイクロフォンは、ユーザの発話音声を入力するが、実際には、ユーザの発話音声のみを入力することができず、音声出力部からの出力音声が混在する。そのため、ノイズ低減装置が備える第1の音声入力部は、ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する。第2の音声入力部は、音声出力部から出力される出力音声の元の音声信号を入力する。
音声認識(認識処理)に用いる音声信号は、発話音声を極力残す必要がある。また、出力音声の消し残しによる誤区間検出を防ぐには、出力音声を極力消す必要がある。しかし、発話音声を残すことと出力音声を消すことはトレードオフの関係にあり、両立が困難である。この発明では、認識処理用と音声区間検出用の2種類のノイズ減算部、すなわち第1のノイズ低減部および第2の低減部を設けることで課題解決を図っている。
第1のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第1のノイズ低減音声信号を生成する。第2のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第2のノイズ低減音声信号を生成する。第1のノイズ減算部および第2のノイズ減算部は、異なるパラメータを用いて、元の音声信号からノイズ成分を推定する。
好ましくは、第1のノイズ減算部は、第1のパラメータを用いてノイズ成分を推定する第1の適応フィルタを含み、第1の適応フィルタによる推定結果としての第1のノイズ成分を、入力音声信号から減算する。同様に、第2のノイズ減算部は、第2のパラメータを用いてノイズ成分を推定する第2の適応フィルタを含み、第2の適応フィルタによる推定結果としての第2のノイズ成分を、入力音声信号から減算することが望ましい。
第1および第2のパラメータは、たとえば、それぞれの適応フィルタにおけるステップサイズに対応し、ステップサイズによってフィルタ係数の収束速度が決定される。この場合、第2の適応フィルタにおけるフィルタ係数の収束速度の方が、第1の適応フィルタにおけるフィルタ係数の収束速度よりも速くなるように、パラメータを定めることが望ましい。
あるいは、第1および第2のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、入力音声信号および元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成してもよい。この場合、第1および第2のノイズ減算部においてノイズ成分の推定に用いるパラメータは、元の音声信号のパワースペクトルに適用する乗数に対応し、第2のノイズ減算部において用いられる乗数の方が、第1のノイズ減算部において用いられる乗数よりも大きいことが望ましい。
このノイズ低減装置は、第2の減算部により生成された第2のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備えていてもよい。
この発明の他の局面に従う音声認識装置は、上記のようなノイズ低減装置を備える。
本発明によれば、音声出力部からの音声出力中における発話音声の認識精度を向上させることができる。
本発明の実施の形態における音声出力機器の概略構成を示すブロック図である。 本発明の実施の形態における音声認識装置の機能構成を示すブロック図である。 本発明の実施の形態における音声再生装置の機能構成を示すブロック図である。 本発明の実施の形態におけるノイズ低減部の構成例を示すブロック図である。 本発明の実施の形態における音声認識部の構成例を示すブロック図である。 本発明の実施の形態における音声認識装置の基本動作を示すフローチャートである。 図6のステップS2において実行されるノイズ低減処理の流れを示すフローチャートである。 図6のステップS3において実行される音声認識処理の流れを示すフローチャートである。 本発明の実施の形態の変形例1における音声認識装置の機能構成を示すブロック図である。 本発明の実施の形態の変形例2におけるノイズ減算部の構成を示すブロック図である。 (A),(B)は、音声再生装置と一体的に設けられる音声認識装置において音声認識機能が有効となる期間を、一般的な音声認識装置と本発明の実施の形態に係る音声認識装置とで比較して示すタイミングチャートである。 (A)〜(D)は、ノイズ低減処理が必要となる、スピーカ音(出力音声)および発話音声の入力タイミングのパターン例を示すタイミングチャートである。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
以下に、本実施の形態に係る音声認識装置を搭載した音声出力機器について説明する。音声出力機器は、音声を出力(再生)する装置であり、たとえば、コミュニケーションロボット、テレビ、カーナビゲーション、翻訳装置などが想定される。
(音声出力機器の概略構成について)
図1は、本実施の形態における音声出力機器1の概略構成を示すブロック図である。音声出力機器1は、たとえば対話型コミュニケーションロボットであり、マイクロフォン(以下「マイク」と略す)11と、音声認識装置12と、音声再生装置13と、スピーカ14とを備えている。
マイク11は、ユーザからの発話音声sを受け付けて、音波を電気信号に変換する。マイク11には、発話音声sの他、環境雑音bおよびスピーカ14からの出力音声nも入力される。つまり、音声出力機器1が音声出力(再生)中である場合、マイク11から音声認識装置12への入力音声dは、発話音声sと環境雑音bと出力音声nとが混在した音声となる。
音声認識装置12は、マイク11からの入力音声dに基づいて、発話音声sを認識し、ユーザが発話したフレーズ(たとえば「こんにちは」など)を推定する。音声認識装置12での認識結果Resultは音声再生装置13に出力される。音声認識装置12の構成例については図2を挙げて後述する。
音声再生装置13は、音声認識装置12から得られる認識結果Resultに基づいて、音声xの再生制御を行う。音声xは、スピーカ14からの出力音声nの元の音声に相当する。以下の説明において、出力音声nを「スピーカ音n」、元の音声xを「再生音声x」という。音声再生装置13の構成例が図3に示されている。
図3を参照して、音声再生装置13は、音声認識装置12での認識結果Resultに基づいて各種制御を行う制御部41と、メモリ42と、アンプ43とを含む。メモリ42には、複数のフレーズ(認識結果)に関連付けて、音声データが予め記憶されている。メモリ42には、複数のフレーズに関連付けて、動作内容(アクション)を示す情報がさらに記憶されていてもよい。
制御部41は、たとえば、認識結果Resultが示す発話フレーズに対応する音声データをメモリ42から読み出し、読み出した音声データを音声信号としてアンプ43に送信する。アンプ43において増幅された音声信号は、再生音声xとしてスピーカ14に送られる。スピーカ14は、音声出力部であって、音声再生装置13から受信した再生音声xの電気信号エネルギーを音波に変換して出力する。
あるいは、制御部41は、認識結果Result(発話フレーズ)に対応する動作内容情報をメモリ42から読み出し、音声出力機器1が備える駆動系(図示せず)を駆動制御することによって音声再生以外のアクションを実行する。
ここで、このような音声再生装置と一体的に設けられる一般的な音声認識装置では、図11(A)に示されるように、スピーカからの音声出力中、音声認識機能は無効とされる。再生音声xに対応したスピーカ音nが、ノイズとしてマイクに入力されるからである。
これに対し、本実施の形態では、図11(B)に示されるように、スピーカ14からの音声出力中か否かに関わらず、音声認識機能が有効とされる。つまり、音声認識装置12は、スピーカ音nが出力されている期間においても、ユーザが発話したフレーズ(発話音声s)を認識することができる。
(音声認識装置の機能構成について)
図2は、音声認識装置12の機能構成を示すブロック図である。
音声認識装置12は、ノイズ低減部20と、音声認識部30とを含む。本実施の形態における音声認識部30は、たとえばHMM(Hidden Markov Model)法に基づいて、フレーズ単位で音声を認識する。音声認識部30は、主に、音声信号から音声区間を検出する区間検出部31と、区間検出部31で検出された音声区間内の音声信号から発話フレーズを認識する認識処理部32とで構成される。
ノイズ低減部20は、音声認識部30の前段に配置され、入力音声dから、再生音声(すなわち、スピーカ音nの元の音声)xに基づくノイズ成分を減算することによって、ノイズを低減する。なお、ノイズ低減部20において利用される再生音声xは、アンプ43を通る前の音声信号であってもよい。
本実施の形態におけるノイズ低減部20は、第1および第2の入力端子23,24と、第1および第2のノイズ減算部21,22と、第1および第2の出力端子25,26とを含む。なお、本実施の形態において、「第1のノイズ減算部21」を「第1の減算部21」、「第2のノイズ減算部22」を「第2の減算部22」と略す。
第1の入力端子23は、第1の音声入力部として機能し、マイク11から入力音声dを入力する。入力音声dは、上述のように、発話音声sと環境雑音bとスピーカ音nとが混在した音声(d=s+b+n)である。第1の入力端子23に入力された入力音声dは、第1および第2の減算部21,22の双方に送られる。
第2の入力端子24は、第2の音声入力部として機能し、音声再生装置13からスピーカ14に出力される再生音声xを入力する。第2の入力端子24に入力された再生音声xもまた、第1および第2の減算部21,22の双方に送られる。
入力音声dに含まれるスピーカ音nは、この再生音声xと相関があるが、周囲の空間特性Wによって変化する。そのため、スピーカ音nは次の式で表される。
=W・X
ここで、「W」および「X」は、ベクトル値を表わしている。また、入力ベクトルXは、次のように定義できる。
=[xk−1 ・・・xk−L+1
なお、「L」は、適応フィルタが有する遅延素子の個数に相当し、「T」は、転置記号を示す。
第1の減算部21は、第2の入力端子24から得られる再生音声xから第1のパラメータを用いてノイズ成分を推定し、第1の入力端子23から得られる入力音声dから、推定結果としての第1のノイズ成分を減算する。第1の減算部21による減算後の残差が、第1のノイズ低減音声sk1として第1の出力端子25へ送られる。第1のノイズ低減音声sk1は、音声認識部30の認識処理部32にのみ送信され、認識処理部32において発話フレーズの認識処理に用いられる。つまり、第1のノイズ低減音声sk1は、認識処理用のノイズ低減音声である。
第2の減算部22は、第2の入力端子24から得られる再生音声xから第2のパラメータを用いてノイズ成分を推定し、第1の入力端子23から得られる入力音声dから、推定結果としての第2のノイズ成分を減算する。第2の減算部22による減算後の残差が、第2のノイズ低減音声sk2として第2の出力端子26へ送られる。第2のノイズ低減音声sk2は、音声認識部30の区間検出部31にのみ送信され、区間検出部31において音声区間の検出処理に用いられる。つまり、第2のノイズ低減音声sk2は、区間検出用のノイズ低減音声である。
このように、発話フレーズの認識処理には、第1のノイズ低減音声sk1だけが利用され、第1のノイズ低減音声sk1はユーザの発話音声sを引きすぎないようにしている。これに対して、第2のノイズ低減音声sk2は、発話音声の音声区間の検出にのみ使用するため、ユーザの発話音声sが多少消されたとしてもスピーカ音nの引き残し成分を極力含まない(無くす)ようにすることで、スピーカ音nの引き残し成分による誤区間検出を防ぐことができる。つまり、第1のノイズ減算部21は、ユーザの発話音声sを極力残し、第2のノイズ減算部22は、スピーカ音nを極力消すことで認識処理および区間検出処理の双方に適したノイズ低減音声を得ることができる。
図12(A)〜(D)には、ノイズ低減処理が必要となる、スピーカ音nおよび発話音声sの入力タイミングのパターン例が示されている。図12(D)のパターン例では、発話音声sの音声区間内にスピーカ音nの音声区間が完全に含まれているため、スピーカ音nの音声区間の外に、発話音声sの音声区間の始端および終端がある。この例では、スピーカ音nの引き残し成分を含む第1のノイズ低減音声sk1を用いて音声区間を検出したとしても支障が少ない。
これに対し、図12(A)〜(C)のパターン例では、発話音声sの音声区間の始端および終端の少なくともいずれか一方が、スピーカ音nの音声区間内に位置している。この例では、スピーカ音nの引き残し成分を含む第1のノイズ低減音声sk1を用いて音声区間を検出しようとすると、スピーカ音nの引き残し成分の影響を受けるため、正しい音声区間を検出できない可能性がある。
本実施の形態におけるノイズ低減部20は、別途、音声区間検出用に第2の減算部22を備え、第2の減算部22において、極力、スピーカ音nの引き残し成分を無くすようにしている。そのため、図12(A)〜(C)に示すようなパターン例においても、音声認識部30の区間検出部31は、スピーカ音nの引き残し成分が抑制された第2のノイズ低減音声sk2に基づいて、音声区間を精度良く検出することができる。
ノイズ低減部20および音声認識部30の具体的な構成例について、以下に説明する。
(ノイズ低減部の構成例について)
図4は、ノイズ低減部20の構成例を示すブロック図である。
ノイズ低減部20の第1の減算部21は、第1の推定部210と、第1の加算器212とを含む。第1の推定部210は、第2の入力端子24に入力された再生音声xから、第1のパラメータを用いてスピーカ音nを推定し、推定結果として第1のノイズ成分nk1を得る。第1の加算器212は、第1の入力端子23に入力された入力音声dから、第1の推定部210で推定された第1のノイズ成分nk1を減算することで、第1のノイズ低減音声sk1を生成する。
第1の推定部210は、可変フィルタ211と、可変フィルタ211のフィルタ係数Wk1を随時更新する更新アルゴリズム213とを含む、適応フィルタで構成される。可変フィルタ211は、第1の加算器212から出力される第1のノイズ低減音声sk1のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム213は、第1のノイズ低減音声sk1に応じて可変フィルタ211のフィルタ係数Wk1を更新し、学習によってフィルタ特性を変化させる。
ノイズ低減部20の第2の減算部22も同様に、第2の推定部220と、第2の加算器222とを含む。第2の推定部220は、第2の入力端子24に入力された再生音声xから、第2のパラメータを用いてスピーカ音nを推定し、推定結果として第2のノイズ成分nk2を得る。第2の加算器222は、第1の入力端子23に入力された入力音声dから、第2の推定部220で推定された第2のノイズ成分nk2を減算することで、第2のノイズ低減音声sk2を生成する。
第2の推定部220は、可変フィルタ221と、可変フィルタ221のフィルタ係数Wk2を随時更新する更新アルゴリズム223とを含む、適応フィルタで構成される。可変フィルタ221は、第2の加算器222から出力される第2のノイズ低減音声sk2のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム223は、第2のノイズ低減音声sk2に応じて可変フィルタ221のフィルタ係数Wk2を更新し、学習によってフィルタ特性を変化させる。
本実施の形態においてノイズ成分(スピーカ音)nの推定に用いるパラメータは、たとえば、可変フィルタ211,221のフィルタ係数の収束速度を決定するステップサイズである。つまり、第1の推定部210の可変フィルタ211と第2の推定部220の可変フィルタ221とで、相異なるステップサイズを用いて、空間特性Wに対する追従速度を変えている。
それぞれのフィルタ係数Wk1,Wk2の更新アルゴリズムは、たとえば次のように表される。
k+1,1=Wk1+2μk1
k+1,2=Wk2+2μk2
上記式中の「μ」、「μ」は、適応の速度と安定性を制御するステップサイズである。なお、係数μ1,μは、可変であってもよいが、少なくともフィルタ係数Wk1,Wk2が収束するまで間、次のような関係が成り立つ。
μ<μ
つまり、第2の推定部220の可変フィルタ221のフィルタ係数Wk2の収束速度の方が、第1の推定部210の可変フィルタ211のフィルタ係数Wk1の収束速度よりも速い。これにより、第2の減算部22は、スピーカ音nを極力消すことが可能となり、区間検出処理に適したノイズ低減音声(第2のノイズ低減音声)を得ることができる。また、第1のノイズ減算部21は、ユーザの発話音声sを極力残すことが可能となり、認識処理に適したノイズ低減音声(第1のノイズ低減音声)を得ることができる。
なお、可変フィルタ211,221としては、たとえばFIRフィルタ(有限インパルス応答)が用いられる。また、更新アルゴリズム213,223としては、たとえばLMS(最小平均自乗)アルゴリズムが挙げられるが、限定的ではなく、様々な手法のアルゴリズムが採用され得る。
(音声認識部の構成例について)
図5は、音声認識部30の構成例を示すブロック図である。
音声認識部30は、ノイズ低減部20から第1のノイズ低減音声sk1を入力する第1の入力端子33と、ノイズ低減部20から第2のノイズ低減音声sk2を入力する第2の入力端子34とを含み、第1の入力端子33に入力された第1のノイズ低減音声sk1は認識処理部32にのみ送られ、第2の入力端子34に入力された第2のノイズ低減音声sk2は区間検出部31にのみ送られる。音声認識部30は、認識処理部32による認識結果Resultを出力する出力端子35をさらに含む。
なお、ノイズ低減部20の第1の出力端子25と音声認識部30の第1の入力端子33とは、たとえばケーブルを介して電気的に接続されている。同様に、ノイズ低減部20の第2の出力端子26と音声認識部30の第2の入力端子34とは、たとえばケーブルを介して電気的に接続されている。
区間検出部31は、第2のノイズ低減音声sk2に基づいて、発話音声sの音声区間を検出する。音声区間の検出は公知の手法により行われてよい。たとえば、特開2009−294537号公報または特開2008−170789号公報に開示された音声区間検出方法を採用することができる。区間検出部31は、検出した音声区間の始端と終端を示すタイミング信号VADを認識処理部32に出力する。
認識処理部32は、分析部51と、音響モデル等を予め記憶したメモリ52と、マッチング処理部53と、棄却処理部54とを含む。
分析部51は、第1のノイズ低減音声sk1と区間検出部31からのタイミング信号VADとを受信し、音声区間内の第1のノイズ低減音声sk1を切り出した後で、第1のノイズ低減音声sk1を分析する。具体的には、音声区間内の第1のノイズ低減音声sk1を所定の時間長のフレーム単位で切り出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、フレーム単位で切り出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。
マッチング処理部53は、分析部51において抽出された特徴列に基づく音声パターンと、メモリ52に記憶された音響モデル(たとえばHMMモデル)の音声パターンとをマッチング(照合)して、最も尤度の高いフレーズを発話フレーズの候補として選出する。
棄却処理部54は、マッチング処理部53において選出された発話フレーズの候補の受理/棄却を判定する。棄却処理部54において受理された発話フレーズを示す情報が、認識結果Resultとして、出力端子35を介して音声再生装置13に出力される。
なお、図4に示したノイズ低減部20の機能構成および図5に示した音声認識部30の機能構成は、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよい。
(動作について)
本実施の形態における音声認識装置12の動作について説明する。図6は、音声認識装置12の基本動作を示すフローチャートである。
図6を参照して、マイク11からノイズ低減部20の第1の入力端子23に音声(入力音声d)が入力されると(ステップS1)、ノイズ低減部20によるノイズ低減、および、音声認識部30による音声認識が順に実行される(ステップS2,S3)。その後、音声の認識結果に応じて、音声再生装置13が音声を再生する(ステップS4)。この音声再生装置13による再生音声xは、ノイズ低減部20の第2の入力端子24に入力され、ステップS2のノイズ低減処理において参照信号(リファレンス)として用いられる。
図7は、図6のステップS2において実行されるノイズ低減処理の流れを示すフローチャートである。
図7を参照して、ノイズ低減部20の第1および第2の入力端子23,24それぞれに入力音声dおよび再生音声xが入力されると(ステップS21)、これら入力音声dおよび再生音声xを用いて、第1の減算部21による第1のノイズ低減音声sk1の生成(ステップS22)と、第2の減算部22による第2のノイズ低減音声sk2の生成(ステップS23)とが並行して行われる。
つまり、ステップS22においては、発話音声sの認識処理に適したフィルタ処理が行われ、ステップS23においては、発話音声sの音声区間の検出に適したフィルタ処理が行われる。
ステップS22で生成された第1のノイズ低減音声sk1は第1の出力端子25から音声認識部30の第1の入力端子33に送られる。ステップS23で生成された第2のノイズ低減音声sk2は第2の出力端子26から音声認識部30の第2の入力端子34に送られる。
図8は、図6のステップS3において実行される音声認識処理の流れを示すフローチャートである。
図8を参照して、音声認識部30の第1および第2の入力端子33,34それぞれに第1および第2のノイズ低減音声sk1,sk2が入力されると(ステップS31)、区間検出部31は、第2のノイズ低減音声sk2から音声区間を検出する(ステップS32)。つまり、区間検出部31は、音声区間の始端および終端を検出する。
次に、認識処理部32の分析部51が、ステップS32で検出された音声区間の始端と終端との間に位置する第1のノイズ低減音声sk1を切り出して、第1のノイズ低減音声sk1を分析する(ステップS33)。第1のノイズ低減音声sk1の分析によって、第1のノイズ低減音声sk1の特徴量が抽出されると、マッチング処理部53が、抽出された特徴列に基づく音声パターンと、メモリ52に記憶された音響モデルの音声パターンとをマッチング処理する(ステップS34)。マッチング処理部53は、マッチング処理の結果、最も尤度の高いフレーズを発話フレーズの候補として選出する。
その後、棄却処理部54が、発話フレーズの候補の棄却処理を行って(ステップS35)、発話フレーズが受理されると、その発話フレーズを示す情報を認識結果Resultとして出力する(ステップS36)。
このように、本実施の形態では、分析部51が、音声区間内の第1のノイズ低減音声sk1を切り出してから第1のノイズ低減音声sk1の分析を行うため、音声認識に必要な区間の音声信号だけを分析することができる。したがって、分析部51における処理負荷を軽減することができる。
なお、分析部51において第1のノイズ低減音声sk1の分析を行った後、マッチング処理部53において音声区間内の特徴量列を切り出すこととしてもよい。つまり、音声区間の始端および終端を示すタイミング信号VADは、分析部51ではなくマッチング処理部53に送信されてもよい。
以上説明したように、本実施の形態に係る音声認識装置12によれば、ノイズ低減部20において、発話音声sの認識処理用のノイズ低減音声(sk1)とは別に、発話音声sの音声区間検出用のノイズ低減音声(sk2)を生成するため、音声区間の誤検出を低減させることができる。その結果、本実施の形態によれば、スピーカ14からの音声出力中における発話音声sの認識精度を向上させることができる。
また、本実施の形態において、音声認識部30の認識処理部32は、フレーズ単位で音声を認識するため、音素単位で音声を認識する連続音声認識方法に比べて環境雑音bに強い。そのため、再生音声xに基づくノイズ成分だけを除去するだけで(つまり、環境雑音bが残っていたとしても)、精度良く発話音声sを認識することができる。
なお、空間特性Wが既知の場合には、フィルタ係数Wk1,Wk2を固定値としてもよい。
(変形例1)
上記実施の形態では、第2のノイズ低減音声sk2から音声区間を検出する区間検出部が、音声認識部30に設けられることとしたが、ノイズ低減部20に設けられてもよい。
図9は、本実施の形態の変形例1における音声認識装置12Aの機能構成を示すブロック図である。音声認識装置12Aにおいては、ノイズ低減部20Aに区間検出部27が含まれ、音声認識部30Aに区間検出部が含まれていない。
区間検出部27は、第2の減算部22からの出力、すなわち第2のノイズ低減音声sk2を入力し、上記と同様に音声区間を検出する。区間検出部27により検出された音声区間の始端および終端を示すタイミング信号VADが、ノイズ低減部20Aの第2の出力端子26から出力される。
音声認識部30Aの第2の入力端子34は、ノイズ低減部20Aから出力されるタイミング信号VADを入力し、認識処理部32に送信する。
(変形例2)
上記実施の形態では、ノイズ低減部20に含まれる各減算部21,22は、適応フィルタを用いてノイズ低減を行う構成としたが、限定的ではない。たとえば、ノイズ低減部の各ノイズ減算部は、スペクトル・サブトラクション法に基づいてノイズ低減を行ってもよい。
図10は、ノイズ減算部の他の構成例を模式的に示すブロック図である。図10に示すノイズ減算部21Aは、入力音声dおよび再生音声xのパワースペクトルを用いてノイズ低減音声(sk1またはsk2)を生成する。
すなわち、ノイズ減算部21Aは、入力音声dを高速フーリエ変換するFFT(Fast Fourier Transform)部(第1の変換部)231と、入力音声dのパワースペクトルを算出するパワースペクトル算出部(|Z|)233と、再生音声xからノイズ成分を推定するノイズ推定部240と、入力音声dのパワースペクトルから、ノイズ推定部240で推定されたノイズ成分を減算してノイズ低減音声のパワースペクトルを算出する加算器244と、ノイズ低減音声のパワースペクトルを音声信号に復元する復元部250とを含む。
ノイズ推定部240は、再生音声xを高速フーリエ変換するFFT部(第2の変換部)241と、再生音声xのパワースペクトルを算出するパワースペクトル算出部(|Z|)242と、パワースペクトル算出部242の出力を所定倍する乗算器243とを含む。
復元部250は、ノイズ低減音声のパワースペクトルから振幅スペクトルを算出する振幅スペクトル算出部(√)251と、ノイズ低減音声の振幅スペクトルと、予め位相算出部232において算出された(FFT後の)入力音声dの位相スペクトルとを用いて、ノイズ低減音声の複素スペクトルを算出する位相復元部252と、ノイズ低減音声の複素スペクトルを逆高速フーリエ変換し、音声信号に変換するIFFT(Inverse Fast Fourier Transform)部(逆変換部)253とを含む。
この例では、認識処理用である第1のノイズ推定部と音声区間検出用である第2のノイズ推定部とにおいて、乗算器243での乗数(α)が異なる。つまり、乗算器243での乗数、すなわち再生音声xのパワースペクトルに適用する乗数が、ノイズ成分(スピーカ音)nの推定に用いられるパラメータに対応し、第2のノイズ推定部における乗数αは第1のノイズ推定部における乗数αよりも大きい。
(他の変形例)
上記実施の形態では、音声認識装置が音声出力機器に組み込まれた例を示したが限定的ではない。たとえば、音声出力機器のスピーカの近傍にマイクが配置されるような場合であれば、音声認識装置単体で利用され得る。
また、2種類のノイズ低減音声を生成するノイズ低減部を、ノイズ低減装置として単体で提供することもできる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 音声出力機器、11 マイクロフォン、12,12A 音声認識装置、13 音声再生装置、14 スピーカ、20,20A ノイズ低減部、21,22,21A ノイズ減算部、210,220 推定部、23,24,33,34 入力端子、25,26,35 出力端子、27,31 区間検出部、30,30A 音声認識部、32 認識処理部、41 制御部、42,52 メモリ、43 アンプ、51 分析部、53 マッチング処理部、54 棄却処理部、211,221 可変フィルタ、212,222 加算器、213,223 更新アルゴリズム、231,241 FFT部、232 位相算出部、233,242 パワースペクトル算出部、240 ノイズ推定部、243 乗算器、244 加算器、250 復元部、251 振幅スペクトル算出部、252 位相復元部、253 IFFT部。

Claims (6)

  1. 音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、
    ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する第1の音声入力部と、
    前記音声出力部から出力される出力音声の元の音声信号を入力する第2の音声入力部と、
    前記入力音声信号と前記元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第1のノイズ低減音声信号を生成する第1のノイズ減算部と、
    前記入力音声信号と前記元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第2のノイズ低減音声信号を生成する第2のノイズ減算部とを備え、
    前記第1のノイズ減算部および前記第2のノイズ減算部は、異なるパラメータを用いて、前記元の音声信号からノイズ成分を推定する、ノイズ低減装置。
  2. 前記第1のノイズ減算部は、第1のパラメータを用いてノイズ成分を推定する第1の適応フィルタを含み、前記第1の適応フィルタによる推定結果としての第1のノイズ成分を、前記入力音声信号から減算し、
    前記第2のノイズ減算部は、第2のパラメータを用いてノイズ成分を推定する第2の適応フィルタを含み、前記第2の適応フィルタによる推定結果としての第2のノイズ成分を、前記入力音声信号から減算する、請求項1に記載のノイズ低減装置。
  3. 前記第1および第2のパラメータは、それぞれの適応フィルタにおけるフィルタ係数の収束速度を決定し、
    前記第2の適応フィルタにおけるフィルタ係数の収束速度の方が、前記第1の適応フィルタにおけるフィルタ係数の収束速度よりも速い、請求項2に記載のノイズ低減装置。
  4. 前記第1および第2のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、前記入力音声信号および前記元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成し、
    前記第1および第2のノイズ減算部においてノイズ成分の推定に用いるパラメータは、前記元の音声信号のパワースペクトルに適用する乗数に対応し、前記第2のノイズ減算部において用いられる乗数の方が、前記第1のノイズ減算部において用いられる乗数よりも大きい、請求項1に記載のノイズ低減装置。
  5. 前記第2のノイズ減算部により生成された前記第2のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備える、請求項1〜4のいずれかに記載のノイズ低減装置。
  6. 請求項1〜5のいずれかに記載のノイズ低減装置を備えた、音声認識装置。
JP2017141592A 2017-07-21 2017-07-21 ノイズ低減装置および音声認識装置 Pending JP2019020678A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017141592A JP2019020678A (ja) 2017-07-21 2017-07-21 ノイズ低減装置および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017141592A JP2019020678A (ja) 2017-07-21 2017-07-21 ノイズ低減装置および音声認識装置

Publications (1)

Publication Number Publication Date
JP2019020678A true JP2019020678A (ja) 2019-02-07

Family

ID=65352902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017141592A Pending JP2019020678A (ja) 2017-07-21 2017-07-21 ノイズ低減装置および音声認識装置

Country Status (1)

Country Link
JP (1) JP2019020678A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105808A (zh) * 2019-12-27 2020-05-05 上海联影医疗科技有限公司 语音降噪系统
CN111462772A (zh) * 2020-03-31 2020-07-28 歌尔科技有限公司 一种语音降噪方法、系统及其相关设备
JP2020173290A (ja) * 2019-04-08 2020-10-22 パナソニックIpマネジメント株式会社 音響ノイズ抑圧装置及び音響ノイズ抑圧方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03274099A (ja) * 1990-03-23 1991-12-05 Ricoh Co Ltd 音声認識装置
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
JPH06118967A (ja) * 1992-09-30 1994-04-28 Sony Corp 適応型雑音低減装置
JPH09252268A (ja) * 1996-03-15 1997-09-22 Nec Corp 音声および雑音の除去装置、音声認識装置
JP2004333704A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識装置および方法
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03274099A (ja) * 1990-03-23 1991-12-05 Ricoh Co Ltd 音声認識装置
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
JPH06118967A (ja) * 1992-09-30 1994-04-28 Sony Corp 適応型雑音低減装置
JPH09252268A (ja) * 1996-03-15 1997-09-22 Nec Corp 音声および雑音の除去装置、音声認識装置
JP2004333704A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識装置および方法
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173290A (ja) * 2019-04-08 2020-10-22 パナソニックIpマネジメント株式会社 音響ノイズ抑圧装置及び音響ノイズ抑圧方法
US11152010B2 (en) 2019-04-08 2021-10-19 Panasonic Intellectual Property Management Co., Ltd. Acoustic noise suppressing apparatus and acoustic noise suppressing method
US11676617B2 (en) 2019-04-08 2023-06-13 Panasonic Intellectual Property Management Co., Ltd. Acoustic noise suppressing apparatus and acoustic noise suppressing method
CN111105808A (zh) * 2019-12-27 2020-05-05 上海联影医疗科技有限公司 语音降噪系统
CN111462772A (zh) * 2020-03-31 2020-07-28 歌尔科技有限公司 一种语音降噪方法、系统及其相关设备

Similar Documents

Publication Publication Date Title
US5848163A (en) Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JP2012037603A (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP2011203700A (ja) 音声判別装置
CN111883135A (zh) 语音转写方法、装置和电子设备
JP2019020678A (ja) ノイズ低減装置および音声認識装置
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2020160319A (ja) 音声合成装置、方法及びプログラム
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP2007093635A (ja) 既知雑音除去装置
JP2005338454A (ja) 音声対話装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP4313728B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4408205B2 (ja) 話者認識装置
US20220189498A1 (en) Signal processing device, signal processing method, and program
JP2010164992A (ja) 音声対話装置
JP2005157086A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211116