JP2018205512A - 電子機器及び雑音抑圧プログラム - Google Patents

電子機器及び雑音抑圧プログラム Download PDF

Info

Publication number
JP2018205512A
JP2018205512A JP2017110377A JP2017110377A JP2018205512A JP 2018205512 A JP2018205512 A JP 2018205512A JP 2017110377 A JP2017110377 A JP 2017110377A JP 2017110377 A JP2017110377 A JP 2017110377A JP 2018205512 A JP2018205512 A JP 2018205512A
Authority
JP
Japan
Prior art keywords
recognition
noise suppression
unit
noise
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017110377A
Other languages
English (en)
Inventor
遠藤 香緒里
Kaori Endo
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017110377A priority Critical patent/JP2018205512A/ja
Publication of JP2018205512A publication Critical patent/JP2018205512A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声認識処理の内容に応じて音声信号に含まれるノイズを適切に抑圧する。【解決手段】電子機器は、ノイズ抑圧部と、音声認識部と、更新部とを備える。ノイズ抑圧部は、複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧する。音声認識部は、音声信号に対する音声認識を行う。更新部は、ノイズを抑圧した音声信号に対する音声認識の結果に基づいて、複数のノイズ抑圧パラメータのそれぞれと対応付けられた音声認識の結果の正しさを示す認識確率のいずれかを更新する。当該電子機器におけるノイズ抑圧部は、複数のノイズ抑圧パラメータのそれぞれと対応付けられた認識確率に基づいて、使用するノイズ抑圧パラメータを決定する。【選択図】図1

Description

本発明は、電子機器及び雑音抑圧プログラムに関する。
近年、音声による操作や各種情報の入力等が可能な電子機器が増えている。この種の電子機器では、入力された音声信号に含まれるノイズを抑圧してから音声認識処理を行うことで誤認識を抑制し、電子機器の誤動作等を防止している。
音声信号に含まれるノイズを抑圧する技術として、電子機器の周囲の状況に応じて非定常雑音の抑圧方法を制御する技術がある(例えば、特許文献1を参照)。この種の技術では、電子機器の周囲の雑音状況に基づいて、非定常雑音を抑圧する場合と抑圧しない場合とのどちらが抑圧後の音声歪が少なくなるかを判定し、非定常雑音を抑圧しないほうが音声歪が少なくなる場合には非定常雑音の抑圧を行わないようにする。これにより、抑圧後の音声に過剰な歪が発生することによる音声認識性能の低下を防止することが可能となる。
特開2000−321080号公報
しかしながら、音声認識性能は、音声認識処理の内容(アルゴリズム)に依存している。例えば、あるノイズ抑圧方法に従ってノイズを抑圧した音声信号を、アルゴリズムが異なる複数の音声認識処理のそれぞれで認識した場合、認識結果には差異が生じる。すなわち、ある音声信号に含まれるノイズを抑圧する際にどの程度抑圧すればよいかは音声認識処理の内容に応じて異なり、ノイズが適切に抑圧されていないと誤認識が発生して音声認識性能が低下する。
1つの側面において、本発明は、音声認識処理の内容に応じて音声信号に含まれるノイズを適切に抑圧することを目的とする。
1つの態様の電子機器は、ノイズ抑圧部と、音声認識部と、更新部とを備える。ノイズ抑圧部は、複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧する。音声認識部は、音声信号に対する音声認識を行う。更新部は、ノイズを抑圧した音声信号に対する音声認識の結果に基づいて、複数のノイズ抑圧パラメータのそれぞれと対応付けられた音声認識の結果の正しさを示す認識確率のいずれかを更新する。当該電子機器におけるノイズ抑圧部は、複数のノイズ抑圧パラメータのそれぞれと対応付けられた認識確率に基づいて、使用するノイズ抑圧パラメータを決定する。
上述の態様によれば、音声認識処理の内容に応じて音声信号に含まれるノイズを適切に抑圧することが可能となる。
第1の実施形態に係る電子機器の機能的構成を示す図である。 抑圧係数の例を示すグラフ図である。 パラメータリストの例を示す図である。 第1の実施形態に係る電子機器が行う処理を説明するフローチャートである。 ノイズ抑圧パラメータの更新処理を含まない音声認識処理の内容を説明するフローチャートである。 第1の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。 ノイズ抑圧処理の内容を説明するフローチャートである。 ノイズ抑圧パラメータ更新処理の内容を説明するフローチャートである。 パラメータリストの別の例を示す図である。 第2の実施形態に係る電子機器の機能的構成を示す図である。 単語リストの例を示す図である。 第2の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。 第3の実施形態に係る電子機器の機能的構成を示す図である。 クリーン音声リストの例を示す図である。 第3の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。 判定用音声信号を生成する処理の内容を説明するフローチャートである。 コンピュータのハードウェア構成を示す図である。
[第1の実施形態]
図1は、第1の実施形態に係る電子機器の機能的構成を示す図である。
図1に示すように、本実施形態の電子機器1は、認識処理制御部110と、認識性能観測部120と、ノイズ抑圧部130と、音声認識部140と、リスト更新部150と、情報処理部160とを備える。また、電子機器1は、観測値191及びパラメータリスト192を含む各種情報を記憶する記憶部(図示せず)を備える。
認識処理制御部110は、収音装置2から入力された音声信号に対する音声認識処理の制御を行う。認識処理制御部110は、例えば、まず、情報処理部160に含まれる第1の情報処理部161及び第2の情報処理部162のいずれによる処理を行うかに基づいて、音声認識部140の第1の認識部141及び第2の認識部142のいずれによる音声認識処理を行うかを決定する。例えば、認識処理制御部110は、第1の情報処理部161による処理を行う場合には音声認識処理を行う認識部を第1の認識部141に決定し、第2の情報処理部162による処理を行う場合には音声認識処理を行う認識部を第2の認識部142に決定する。
また、認識処理制御部110は、先に決定した第1の認識部141及び第2の認識部142のいずれかの音声認識性能を認識性能観測部120に観測させ、音声認識性能が閾値以上であるか否かを判定する。また、認識処理制御部110は、ノイズ抑圧部130に音声信号に含まれるノイズ(雑音)を抑圧させるとともに、先に決定した第1の認識部141及び第2の認識部142のいずれかに、ノイズを抑圧した音声信号に対する音声認識処理を行わせる。更に、本実施形態の電子機器1における認識処理制御部110は、音声認識性能が閾値よりも低い場合に、リスト更新部150にパラメータリスト192を更新させる。パラメータリスト192を更新した場合、ノイズ抑圧部130は、更新後のパラメータリスト192に基づいて、ノイズの抑圧に使用するパラメータを決定する。以下の説明では、ノイズ抑圧部130においてノイズの抑圧に使用するパラメータのことをノイズ抑圧パラメータという。
認識性能観測部120は、音声認識部140における音声認識処理の結果が蓄積された観測値191を参照し、音声信号のうちの処理対象となっている区間に対する音声認識性能を観測する。観測値191は、第1の認識部141による音声認識処理の結果が蓄積された第1の観測値191Aと、第2の認識部142による音声認識処理の結果が蓄積された第2の観測値191Bとを含む。第1の認識部141により音声認識処理を行う場合、認識性能観測部120は、第1の観測値191Aを参照して第1の認識部141の音声認識性能を観測する。一方、第2の認識部142により音声認識処理を行う場合、認識性能観測部120は、第2の観測値191Bを参照して第2の認識部142の音声認識性能を観測する。認識性能観測部120は、例えば、過去の音声認識処理の結果における複数の単語のそれぞれが観測される確率に基づいて音声認識性能を算出する。
ノイズ抑圧部130は、パラメータリスト192から選出したノイズ抑圧パラメータを使用して、音声信号に含まれるノイズ成分を抑圧する。パラメータリスト192は、第1の認識部141と対応付けられた第1のリスト192Aと、第2の認識部142と対応付けられた第2のリスト192Bとを含む。ノイズ抑圧パラメータは、音声信号に適用する抑圧係数の最小値CL及び最大値CH、並びに抑圧係数を最小値CLから最大値CHまでの間で変化させる区間を指定する信号対ノイズ比を示す第1の閾値SNR_L及び第2の閾値SNR_H(>SNR_L)を含む。第1のリスト192A及び第2のリスト192Bには、それぞれ、4個のノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを含むパラメータセットが複数組登録されている。第1の認識部141で音声認識を行う場合、ノイズ抑圧部130は、第1のリスト192Aの複数組のパラメータセットのうちの1組のパラメータセットにおけるノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを使用してノイズ成分を抑圧する。一方、第2の認識部142で音声認識を行う場合、ノイズ抑圧部130は、第2のリスト192Bの複数組のパラメータセットのうちの1組のパラメータセットにおけるノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを使用してノイズ成分を抑圧する。ノイズ抑圧部130は、ノイズ抑圧パラメータを利用した既知の抑圧方法に従って、音声信号に含まれるノイズ成分を抑圧する。
音声認識部140は、収音装置2から入力された音声信号、或いは該音声信号に含まれるノイズ成分を抑圧した音声信号に対する音声認識処理を行う。音声認識部140は、上記のように、第1の情報処理部161と対応付けられた第1の認識部141と、第2の情報処理部162と対応付けられた第2の認識部142とを含む。第1の認識部141及び第2の認識部142は、それぞれ、既知の認識方法に従って、音声信号における発話区間の発話内容を認識してテキスト化する。なお、第1の認識部141と第2の認識部142とは、例えば、アルゴリズムが異なっており、同一の音声信号に対する音声認識処理の結果から算出される音声認識性能が同一であるとは限らない。
リスト更新部150は、音声認識性能が閾値よりも低い場合に音声認識性能が向上する方向にノイズ抑圧パラメータが更新されるよう、パラメータリスト192の情報を更新する。第1の認識部141による音声認識処理を行っている場合、リスト更新部150は、パラメータリスト192の第1のリスト192Aに含まれる情報を更新する。一方、第2の認識部142による音声認識処理を行っている場合、リスト更新部150は、パラメータリスト192の第2のリスト192Bに含まれる情報を更新する。リスト更新部150は、1個のパラメータリストに含まれる複数組のパラメータセットのなかから1組のパラメータセットを選出し、当該パラメータセットに基づいてノイズを抑圧して音声認識を行った場合の音声認識結果の正しさを示す確率情報を更新する。以下の説明では、音声認識結果の正しさを示す確率情報を、認識確率或いは単に「確率」という。認識確率は、音声認識処理の結果として出力された単語について、与えられた入力の音響モデルと言語モデルとを照合し、該入力が出力された単語である確率とする。
情報処理部160は、音声認識部140における音声認識処理の結果に基づいて所定の処理を行い、該所定の処理の結果を表示装置3や外部装置4等に出力する。例えば、情報処理部160は、音声認識処理の結果を示す画像データを生成して表示装置3に出力する。また、例えば、情報処理部160は、音声認識テキストに含まれる所定の単語と関連する情報を外部装置4から取得し、取得した情報を表示装置3に出力する。なお、第1の認識部141で音声認識を行っている場合、情報処理部160は、第1の情報処理部161において、第1の認識部141での音声認識処理の結果に基づいた処理を行う。一方、第2の認識部142で音声認識を行っている場合、情報処理部160は、第2の情報処理部162において、第2の認識部142での音声認識処理の結果に基づいた処理を行う。
このように、本実施形態の電子機器1は、アルゴリズムが異なる2種類の音声認識処理のいずれかを選択して音声信号に対する音声認識処理を行うことが可能となっている。また、本実施形態の電子機器1は、入力された音声信号に含まれるノイズを抑圧してから音声認識処理を行うことが可能となっている。ノイズを抑圧する際、電子機器1は、選択した音声認識処理と対応付けられたパラメータリスト(第1のリスト192A及び192Bのいずれか)に基づいて、音声信号に適用する抑圧係数を決定する。
図2は、抑圧係数の例を示すグラフ図である。
本実施形態の電子機器1におけるノイズ抑圧部130は、処理対象となる音声信号を周波数解析し、周波数帯域毎に、信号対ノイズ比に基づいて適用する抑圧係数を決定する。ノイズ抑圧部130は、例えば、図2のグラフに示した信号対ノイズ比SNRと、抑圧係数SUPとの関係を示す関数G(SNR)に基づいて、周波数帯域iの入力スペクトルF(i,t)に適用する抑圧係数SUP(i,t)を決定する。ここで、変数tは音声信号における周波数解析の単位となる区間(フレーム)を識別する識別子であり、変数iは、周波数帯域を識別する識別子である。
入力スペクトルF(i,t)の信号対ノイズ比SNR(i,t)が第1の閾値SNR_L以下である場合、ノイズ抑圧部130は、該入力スペクトルF(i,t)に適用する抑圧係数SUP(i,t)を最小値CLに決定する。また、入力スペクトルF(i,t)の信号対ノイズ比SNR(i,t)が第2の閾値SNR_H以上である場合、ノイズ抑圧部130は、該入力スペクトルF(i,t)に適用する抑圧係数SUP(i,t)を最大値CHに決定する。更に、ノイズ抑圧部130は、信号対ノイズ比SNR(i,t)がSNR_L<SNR(i,t)<SNR_Hである入力スペクトルF(i,t)に適用する抑圧係数SUP(i,t)を、CL<SUP(i,t)<CHであり、かつSNR(i,t)に比例した値に決定する。
なお、本実施形態の電子機器1では、複数組のパラメータセットのそれぞれについての認識確率に基づいて、図2のグラフにおける抑圧係数の最小値CL及び最大値CHと、信号対ノイズ比の閾値SNR_L及びSNR_Hとを決定する。
図3は、パラメータリストの例を示す図である。
パラメータリスト192には、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hと、確率(認識確率)とを含むパラメータセットが複数組登録されている。図3には、パラメータリスト192に含まれる第1のリスト192Aの例を示している。図3の第1のリスト192Aには、5組のパラメータセットが登録されている。
本実施形態の電子機器1では、まず、音声認識部140における第1の認識部141及び第2の認識部142のどちらで音声認識処理を行うかを決定する。第1の認識部141で音声認識処理を行う場合、電子機器1は、第1のリスト192Aに登録された複数組のパラメータセットのうちの確率が最大値であるパラメータセットを選択する。その後、電子機器1は、選択したパラメータセットにおけるノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを使用して、入力された音声信号に含まれるノイズ成分を抑圧する。一方、第2の認識部142で音声認識処理を行う場合、電子機器1は、第2のリスト192Bに登録された複数組のパラメータセットのうちの確率が最大値であるパラメータセットを選択する。その後、電子機器1は、選択したパラメータセットにおけるノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを使用して、入力された音声信号に含まれるノイズ成分を抑圧する。
本実施形態の電子機器1は、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを使用して音声信号に含まれるノイズを抑圧する処理を含む処理として、例えば、図4のフローチャートに沿った処理を行う。
図4は、第1の実施形態に係る電子機器が行う処理を説明するフローチャートである。
本実施形態の電子機器1は、まず、入力される音声信号(入力音声)に対する音声認識処理を第1の認識部141及び第2の認識部142のどちらで行うかを決定し、ノイズ抑圧パラメータを設定する(ステップS1)。ステップS1の処理は、認識処理制御部110と、ノイズ抑圧部130とが行う。認識処理制御部110は、例えば、電子機器1の利用者(オペレータ)が電子機器1に対して行った入力操作に基づいて、第1の情報処理部161及び第2の情報処理部162のどちらで音声認識処理の結果に応じた処理を行うかを特定する。その後、認識処理制御部110は、入力される音声信号に対する音声認識処理を行う認識部を、特定した情報処理部と対応付けられた第1の認識部141又は第2の認識部142に決定する。音声認識処理を行う認識部を決定した後、認識処理制御部110は、決定した認識部(第1の認識部141又は第2の認識部142)を示す情報をノイズ抑圧部130に通知する。ノイズ抑圧部130は、認識処理制御部110からの通知に基づいて、パラメータリスト(第1のリスト192A又は第2のリスト192B)において確率が最大値であるパラメータセットを読み出し、該パラメータセットをノイズ抑圧パラメータに設定する。
例えば、図1の電子機器1における第1の情報処理部161で音声認識処理の結果に応じた処理を行う場合、認識処理制御部110は、音声認識処理を第1の認識部141で行うと決定する。この場合、ノイズ抑圧部130は、第1の認識部141と対応付けられた第1のリスト192Aにおいて確率が最大値であるパラメータセットCL,CH,SNR_L,及びSNR_Hを読み出してノイズ抑圧パラメータに設定する。
次に、電子機器1は、入力音声における処理対象のフレームを取得する(ステップS2)。ステップS2の処理は、例えば、認識処理制御部110が行う。認識処理制御部110は、収音装置2から入力される音声信号を所定の時間長(例えば20ms)毎の複数のフレームに分割し、所定の選択規則に従って複数のフレームのうちのいずれかを処理対象のフレームに選択する。選択規則は、例えば、複数のフレームの音声信号内での時間による並び順とする。
次に、電子機器1は、ステップS1で決定した第1の認識部141又は第2の認識部142で行う音声認識処理についての音声認識性能を観測する(ステップS3)。ステップS3の処理は、認識性能観測部120が行う。認識性能観測部120は、ステップS1で決定した第1の認識部141又は第2の認識部142と対応付けられた観測値を参照して、音声認識性能の観測値を算出する。音声認識性能の観測値として、認識性能観測部120は、例えば、下記式(1)により現時点における認識確率の長期平均Ave(t)を算出する。
Ave(t)=α×Rate+(1−α)×Ave(t-1) (1)
式(1)における変数tは、入力音声についての複数のフレームを識別する識別子である。また、式(2)におけるαは、現フレームに対する認識確率が長期平均に与える影響を示す寄与係数である。寄与係数αは、0<α<1の範囲で適宜設定すればよく、例えばα=0.01とする。
次に、電子機器1は、音声認識性能が閾値よりも低いか否かを判定する(ステップS4)。ステップS4の判定は、例えば、認識処理制御部110が行う。認識処理制御部110は、例えば、認識性能観測部120で算出した認識確率の長期平均Ave(t)が閾値よりも低いか否かを判定する。音声認識性能が閾値以上である場合(ステップS4;NO)、認識処理制御部110は、ノイズ抑圧パラメータの更新処理を含まない音声認識処理(ステップS5)を行うと決定する。ステップS5の音声認識処理において、認識処理制御部110は、ノイズ抑圧部130に処理対象のフレームに含まれるノイズ成分を抑圧させた後、音声認識部140(第1の認識部141又は第2の認識部142)に処理対象のフレームに対する音声認識処理を行わせる。以下の説明では、ステップS5のノイズ抑圧パラメータの更新処理を含まない音声認識処理を、第1の音声認識処理、或いは単に「更新処理を含まない音声認識処理」ともいう。
一方、音声認識性能が閾値よりも低い場合(ステップS4;YES)、認識処理制御部110は、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を行うと決定する。ステップS6の音声認識処理において、認識処理制御部110は、ノイズ抑圧部130に処理対象のフレームに含まれるノイズ成分を抑圧させた後、音声認識部140(第1の認識部141又は第2の認識部142)に処理対象のフレームに対する音声認識処理を行わせる。更に、ステップS6の音声認識処理において、認識処理制御部110は、リスト更新部150にパラメータリスト(第1のリスト192A又は第2のリスト192B)の確率を更新させるとともに、ノイズ抑圧部130にノイズ抑圧パラメータを更新させる。以下の説明では、ステップS6のノイズ抑圧パラメータの更新処理を含む音声認識処理を、第2の音声認識処理、或いは単に「更新処理を含む音声認識処理」ともいう。
第1の音声認識処理及び第2の音声認識処理のいずれかを行った後、電子機器1は、入力音声に対する音声認識処理を終了するか否かを判定する(ステップS7)。ステップS7の判定は、例えば、認識処理制御部110が行う。認識処理制御部110は、例えば、入力音声の発話区間を含むフレームに対する音声認識処理が終了したか否か、発話区間が終了してから所定の時間が経過したか否か等に基づいて、音声認識処理を終了するか否かを判定する。音声認識処理を続ける場合(ステップS7;NO)、認識処理制御部110は、ステップS2の処理を行う。その後、電子機器1は、ステップS3以降の処理を行う。
一方、音声認識処理を終了する場合(ステップS7;YES)、認識処理制御部110は、次に、情報処理部160(第1の情報処理部161又は第2の情報処理部162)に音声認識処理の結果に応じた処理を行わせる(ステップS8)。ステップS8の処理は、第1の情報処理部161及び第2の情報処理部162のうちの、ステップS1で決定した認識部(第1の認識部141又は第2の認識部142)と対応した情報処理部が行う。第1の情報処理部161又は第2の情報処理部162は、音声認識処理の結果を示す音声認識テキストにより示される発話内容に応じた所定の処理を行う。例えば、発話内容がある単語の意味を調べる内容である場合、第1の情報処理部161又は第2の情報処理部162は、外部装置4にアクセスして該当する単語の意味を含む情報を取得し、取得した情報を表示装置3に出力する。
本実施形態の電子機器1は、例えば、入力音声における音声認識の単位となる区間(例えば、発話区間)のそれぞれに対し、図4のフローチャートにおけるステップS1〜S8の処理を行う。なお、本実施形態の電子機器1は、例えば、ステップS1〜S7までの処理と、ステップS8の処理とを並行して行ってもよい。ステップS1〜S7までの処理と、ステップS8の処理とを並行して行う場合、電子機器1は、ステップS5又はS6での音声認識の結果を順次情報処理部160に出力する。
このように、本実施形態の電子機器1は、入力音声に対する音声認識処理における音声認識性能が閾値以上である場合には、ノイズ抑圧パラメータの更新処理を含まない音声認識処理を行う。一方、本実施形態の電子機器1では、入力音声に対する音声認識処理における音声認識性能が閾値よりも低い場合には、ノイズ抑圧パラメータの更新処理を含む音声認識処理を行う。なお、電子機器1が行う更新処理を含まない音声認識処理及び構成処理を含む音声認識処理は、いずれも、入力音声に含まれるノイズ成分を抑圧するノイズ抑圧処理を含む。
図5は、ノイズ抑圧パラメータの更新処理を含まない音声認識処理の内容を説明するフローチャートである。
ステップS5の更新処理を含まない音声認識処理を行う場合、電子機器1は、図5に示すように、まず、ノイズ抑圧処理(ステップS11)を行う。ステップS11のノイズ抑圧処理は、ノイズ抑圧部130が行う。ノイズ抑圧部130は、処理対象のフレームを時間領域の波形から周波数領域のスペクトルに変換し、該スペクトルとノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hとに基づいて、処理対象のフレームにおけるノイズ成分を抑圧する。ここで、ノイズ抑圧パラメータは、ステップS1で設定したノイズ抑圧パラメータ、或いはステップS6の更新処理を含む音声認識処理において更新したノイズ抑圧パラメータである。また、ノイズ抑圧部130は、ノイズ成分を抑圧した周波数領域のスペクトルを時間領域の波形に逆変換する。
ステップS11のノイズ抑圧処理を終えると、電子機器1は、次に、ノイズを抑圧したフレームの音声認識を行う(ステップS12)。ステップS12の処理は、第1の認識部141又は第2の認識部142が行う。第1の認識部141又は第2の認識部142は、ノイズ成分を抑圧した処理対象のフレームに対する音声認識処理を行う。第1の認識部141及び第2の認識部142は、それぞれのアルゴリズム(認識方法)に従って、処理対象のフレームに対する音声認識処理を行う。
ステップS12の音声認識処理を終えると、電子機器1は、更新処理を含まない音声認識処理(ステップS5)を終了する。
図6は、第1の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。
ステップS6の更新処理を含む音声認識処理を行う場合、本実施形態の電子機器1は、図6に示すように、まず、ノイズ抑圧処理(ステップS11)を行う。ステップS11のノイズ抑圧処理は、ノイズ抑圧部130が行う。すなわち、本実施形態の電子機器1は、ステップS5の音声認識処理と、ステップS6の音声認識処理とで同じ内容のノイズ抑圧処理を行う。
ステップS11のノイズ抑圧処理を終えると、電子機器1は、次に、ノイズを抑圧したフレームの音声認識を行う(ステップS12)。ステップS12の音声認識処理は、第1の認識部141又は第2の認識部142が行う。すなわち、本実施形態の電子機器1は、ステップS5の音声認識処理と、ステップS6の音声認識処理とで同じ内容の音声認識処理を行う。
ステップS12の音声認識処理を終えると、本実施形態の電子機器1は、次に、ノイズ抑圧パラメータ更新処理(ステップS13)を行う。ノイズ抑圧パラメータ更新処理では、パラメータリスト(第1のリスト192A又は第2のリスト192B)から選出した1組のパラメータセットについての認識確率を更新し、更新後の確率に基づいて、ノイズ抑圧パラメータの設定を更新する。ステップS13のノイズ抑圧パラメータ更新処理は、リスト更新部150、ノイズ抑圧部130、及び音声認識部140(第1の認識部141又は第2の認識部142)が連携して行う。
ステップS13のノイズ抑圧パラメータ更新処理を終えると、電子機器1は、更新処理を含む音声認識処理(ステップS6)を終了する。
更新処理を含まない音声認識処理、及び更新処理を含む音声認識処理のそれぞれにおけるノイズ抑圧処理(ステップS11)は、ノイズ抑圧部130が行う。ノイズ抑圧処理として、例えば、図7のフローチャートに沿った処理を行う。
図7は、ノイズ抑圧処理の内容を説明するフローチャートである。
ノイズ抑圧部130は、まず、処理対象のフレームの周波数分析を行う(ステップS1101)。ステップS1101において、ノイズ抑圧部130は、高速フーリエ変換(Fast Fourier Transform:FFT)等の既知の分析方法に従って、時間領域の波形である処理対象のフレームを周波数領域のスペクトルに変換する。
次に、ノイズ抑圧部130は、周波数分析の結果に基づいて、処理対象のフレームにおけるノイズモデルを推定する処理を行う。本実施形態のノイズ抑圧部130は、ノイズモデルを推定する処理として、図7のステップS1102〜S1104の処理を行う。
ステップS1101の処理を終えると、ノイズ抑圧部130は、次に、処理対象のフレームにおけるピッチ周波数Pを算出する(ステップS1102)。ノイズ抑圧部130は、既知の算出方法に従って、ピッチ周波数Pを算出する。例えば、ノイズ抑圧部130は、まず、下記式(2)により、処理対象のフレームの自己相関corr(j)を算出する。
Figure 2018205512
式(2)の変数jは、自己相関を算出する際の2つの波形のずれ量を示す値である。
ノイズ抑圧部130は、変数jの値が異なる複数の自己相関corr(j)を算出し、自己相関corr(j)が最大値となる変数jの値max_jを決定する。その後、ノイズ抑圧部130は、下記式(3)によりピッチ周波数P(Hz)を算出する。
P=f/max_j (3)
式(3)の変数fは、サンプリング周波数である。
ピッチ周波数Pを算出した後、ノイズ抑圧部130は、算出したピッチ周波数Pが所定の範囲内(PL≦P≦PH)であるか否かを判定する(ステップS1103)。例えば、ピッチ周波数Pの範囲を指定する最小値PL及び最大値PHは、それぞれ、PL=60(Hz)及びPH=400(Hz)とする。
ピッチ周波数PがP<PL又はPH<Pである場合(ステップS1103;NO)、ノイズ抑圧部130は、次に、ノイズの周波数特性を更新する(ステップS1104)。ステップS1104において、ノイズ抑圧部130は、例えば、下記式(4)により、処理対象のフレームtにおけるノイズの周波数特性N(i,t)を算出して更新する。
N(i,t)=β×N(i,t-1)+(1−β)×P(i,t) (4)
式(4)の変数iは、処理対象のフレームtについての周波数スペクトルにおける周波数帯域を識別する識別子である。また、式(4)におけるP(i,t)は、処理対象のフレームtについての周波数スペクトルにおける周波数帯域iのパワーである。また、式(4)のβは、更新係数である。更新係数βは、0<β<1の範囲で適宜設定すればよく、例えばβ=0.99とする。
ステップS1104の処理を終えると、ノイズ抑圧部130は、次に、処理対象のフレームについての周波数スペクトルにおける各周波数帯域の信号対ノイズ比SNRを算出する(ステップS1105)。また、ステップS1102で算出したピッチ周波数PがPL≦P≦PHである場合(ステップS1103;YES)、ノイズ抑圧部130は、ステップS1104の処理を省略し、次にステップS1105の処理を行う。ステップS1105において、ノイズ抑圧部130は、下記式(5)により、処理対象のフレームtの周波数スペクトルにおける周波数帯域i毎に、信号対ノイズ比SNR(i,t)を算出する。
SNR(i,t)=P(i,t)−N(i,t) (5)
信号対ノイズ比を算出した後、ノイズ抑圧部130は、ノイズ抑圧パラメータに基づいて、フレームtの周波数帯域iのスペクトルに適用する抑圧係数SUPを算出する(ステップS1106)。ノイズ抑圧部130は、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの設定時又は更新時に、各パラメータの値に基づいて、例えば、図2のグラフ5における関数G(SNR)を生成しておく。ステップS16において、ノイズ抑圧部130は、関数G(SNR)と、フレームtにおける周波数帯域iの信号対ノイズ比SNR(i,t)とに基づいて、周波数帯域iのスペクトルに適用する抑圧係数SUP(i,t)を算出する。
抑圧係数を算出すると、ノイズ抑圧部130は、次に、周波数帯域i毎に、算出した抑圧係数SUP(i,t)を適用する(ステップS1107)。ステップS1107において、ノイズ抑圧部130は、下記式(6−1)及び式(6−2)により、抑圧係数を適用した抑圧信号の複素スペクトルにおける実部RP_re(i,t)及び虚部PR_im(i,t)を算出する。
RP_re(i,t)=P_re(i,t)×SUP(i,t) (6−1)
RP_im(i,t)=P_im(i,t)×SUP(i,t) (6−2)
式(6−1)のP_re(i,t)は、抑圧係数を適用する前の音声信号の複素スペクトルにおける実部である。また、式(6−2)のP_im(i,t)は、抑圧係数を適用する前の音声信号の複素スペクトルにおける虚部である。
抑圧係数を適用した後、ノイズ抑圧部130は、抑圧係数適用後の周波数スペクトル(抑圧信号の複素スペクトル)を時間領域の波形に変換する(ステップS1108)。ステップS1108において、ノイズ抑圧部130は、ステップS1101で時間領域の波形を周波数領域のスペクトルに変換する際の変換処理に対する逆変換処理を行う。ステップS1101において高速フーリエ変換により時間領域の波形を周波数領域のスペクトルに変換した場合、ステップS1108では、該高速フーリエ変換に対する逆高速フーリエ変換を行う。
ステップS1108の処理を終えると、ノイズ抑圧部130は、ノイズを抑圧したフレームtの音声信号を認識処理制御部110に送信し、ノイズ抑圧処理を終了する。
本実施形態の電子機器1は、更新処理を含まない音声認識処理におけるノイズ抑圧処理、及び更新処理を含む音声認識処理におけるノイズ抑圧処理として、それぞれ、上記のノイズ抑圧処理(ステップS1101〜S1108)を行う。更新処理を含まない音声認識処理(ステップS5)を行っている場合、電子機器1は、ノイズ抑圧処理の後、ノイズを抑圧した音声信号に対する音声認識を行い(ステップS12)、音声認識処理を終了する。これに対し、更新処理を含む音声認識処理(ステップS6)を行っている場合、電子機器1は、ノイズ抑圧処理の後、ノイズを抑圧した音声信号に対する音声認識(ステップS12)と、ノイズ抑圧パラメータ更新処理(ステップS13)とを行う。電子機器1は、ノイズ抑圧パラメータ更新処理として、例えば、図8のフローチャートに沿った処理を行う。
図8は、ノイズ抑圧パラメータ更新処理の内容を説明するフローチャートである。
ノイズ抑圧パラメータ更新処理は、認識処理制御部110による制御のもと、リスト更新部150、ノイズ抑圧部130、及び音声認識部140が連携して行う。
ノイズ抑圧パラメータ更新処理では、電子機器1は、まず、パラメータリストから1組のパラメータセットをランダムに読み出す(ステップS1301)。ステップS1301の処理は、リスト更新部150が行う。リスト更新部150は、現在行っている一連の処理において選択されている音声認識部と対応付けられたパラメータリストに登録されたN組のパラメータセットのうちの1組のパラメータセットをランダムに選出する。例えば、第1の認識部141により音声認識処理を行っており、かつ第1のリスト192Aに登録されたパラメータセットが5組である場合、ステップS1301において、リスト更新部150は、まず、1〜5の整数のうちの1個の整数をランダムに発生させる。その後、リスト更新部150は、第1のリスト192Aにおけるセット番号が発生させた整数値であるパラメータセットを読み出す。ステップS1301で読み出したパラメータセットは、認識確率を更新する更新対象のパラメータセットとなる。なお、ステップS1301では、例えば、現在ノイズ抑圧部130に設定されているパラメータセットを除く他のパラメータセットのなかから更新対象のパラメータセットをランダムに決定して読み出してもよい。
次に、電子機器1は、ステップS1301で読み出したパラメータセットに基づいて処理対象のフレームのノイズを抑圧する(ステップS1302)。ステップS1302の処理は、ノイズ抑圧部130が行う。ステップS1302の処理として、ノイズ抑圧部130は、例えば、図7のノイズ抑圧処理(ステップS1101〜S1108)と同様の処理を行う。なお、ステップS1302の処理として図7のノイズ抑圧処理を行う場合、ステップS1106において、ノイズ抑圧部130は、現在設定されているノイズ抑圧パラメータではなく、更新対象のパラメータセットに基づいて抑圧係数を決定する。
ステップS1302の処理が終わると、電子機器1は、次に、ステップS1302でノイズを抑圧したフレームの音声認識を行う(ステップS1303)。ステップS1303の処理は、現在行っている一連の処理において選択されている音声認識部(第1の認識部141又は第2の認識部142)が行う。
ステップS1303の処理が終わると、電子機器1は、ステップS1303の音声認識の結果に基づいて、更新対象のパラメータセットについての認識確率を算出して更新する(ステップS1304)。ステップS1304の処理は、リスト更新部150が行う。リスト更新部150は、例えば、下記式(7)により、更新対象のパラメータセットについての認識確率LQ(t)を算出する。
LQ(t)=γ×LQ(t-1)+(1−γ)×L_cur (7)
式(7)のLQ(t-1)は、現在行っているノイズ抑圧パラメータ更新処理において更新対象のパラメータセットを読み出したときの、該パラメータセットについての認識確率である。式(7)のL_curは、現在行っているノイズ抑圧パラメータ更新処理における音声認識の結果に基づいて算出される認識確率である。また、式(7)におけるγは、更新係数である。更新係数γは、0<γ<1の範囲で適宜設定可能であり、例えばγ=0.999とする。
確率LQ(t)を算出した後、リスト更新部150は、パラメータリスト(第1のリスト192A又は第2のリスト192B)における更新対象のパラメータセットについての確率を、算出した確率LQ(t)に更新する。例えば、更新対象のパラメータセットが、図2の第1のリスト192Aにおけるセット番号が3番のパラメータセットである場合、リスト更新部150は、3番のパラメータセットについての確率を示す値L3を算出した確率LQ(t)に更新する。
ステップS1304の処理が終わると、電子機器1は、確率を更新したパラメータリストにおいて確率が最大値となるパラメータセットにノイズ抑圧パラメータを更新する(ステップS1305)。ステップS1305の処理は、ノイズ抑圧部130が行う。ノイズ抑圧部130は、現在行っている一連の処理において選択されている音声認識部(第1の認識部141又は第2の認識部142)と対応したパラメータリストを参照し、確率が最大値であるパラメータセットを特定する。その後、ノイズ抑圧部130は、確率が最大値であるパラメータセットにおける4個のパラメータCL,CH,SNR_L,及びSNR_Hの値を読み出し、読み出した各値を新たなノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hに設定する。
ステップS1305の処理を終えると、電子機器1は、ノイズ抑圧パラメータ更新処理を終了する。
ノイズ抑圧パラメータ更新処理によりノイズ抑圧パラメータを更新した後、ノイズ抑圧部130は、更新後のノイズ抑圧パラメータに基づいて処理対象のフレームに含まれるノイズを抑圧する。
このように、ノイズ抑圧パラメータ更新処理では、ランダムに選択した更新対象のパラメータセットに基づいてノイズを抑圧して音声認識を行った場合の認識結果に基づいて、該パラメータセットについての認識確率を更新する。
図4のフローチャートにおけるステップS3の処理により得られる音声認識性能は、上記のように、認識確率の長期平均である。認識確率は、音声信号に含まれるノイズ成分が少ないほど高くなる。しかしながら、音声信号には定常的なノイズ(定常雑音)だけでなく、非定常的なノイズ(非定常雑音)も含まれるため、音声信号に含まれるノイズ成分は常に一定量であるとは限らない。よって、同一のノイズ抑圧パラメータを使用して長期間音声信号のノイズを抑圧した場合、認識確率は、音声信号に含まれるノイズ成分の量(割合)に応じて変動する。このため、認識確率が高いノイズ抑圧パラメータは、認識確率が低いノイズ抑圧パラメータと比べて、音声信号に含まれるノイズ成分をより適切に抑圧することが可能であるといえる。すなわち、認識確率は、ノイズ抑圧パラメータに基づいて入力音声のノイズが適切に抑制されている場合には大きな値となり、ノイズの抑圧が不十分である場合には小さな値となる。したがって、入力音声に対するノイズの抑圧が不十分である場合(言い換えるとノイズ抑圧パラメータが不適切な場合)には、音声認識性能が低くなる。本実施形態の電子機器1では、音声認識性能が低下した場合に、ノイズ抑圧パラメータ更新処理を行い、ノイズ抑圧パラメータを認識確率が最大値となるパラメータセットに更新する。これにより、本実施形態の電子機器1では、音声信号に含まれるノイズを該電子機器1の周囲における騒音状況に応じて適切に抑圧することが可能となる。よって、本実施形態によれば、音声信号に含まれるノイズによる音声認識性能の低下を抑制し、更には音声認識性能の向上(回復)させることが可能となる。
また、本実施形態の電子機器1のように、第1の情報処理部161と対応付けられた第1の認識部141と、第2の情報処理部162と対応付けられた第2の認識部142とで認識処理のアルゴリズムが異なる場合、認識部毎に特性が異なる。このため、第1の認識部141及び第2の認識部142のそれぞれで、同じノイズ抑圧パラメータに基づいてノイズを抑圧した音声信号に対する音声認識処理を行ったとしても、認識確率は、認識部毎に異なる値となる。この点を踏まえ、本実施形態の電子機器1では、音声認識処理を行う認識部毎にパラメータリストを用意し、選択した認識部についてのパラメータリストにおいて認識確率が最大値となるパラメータセットに従って入力音声のノイズを抑圧する。よって、本実施形態によれば、アルゴリズムが異なる複数種類の音声認識部(第1の認識部141及び第2の認識部142)のうちの選択した音声認識部による音声認識の特性に応じて、入力音声のノイズをより適切に抑圧することが可能となる。
なお、本実施形態では、音声認識処理のアルゴリズムが異なる2つの認識部(第1の認識部141及び第2の認識部142)を含む電子機器1を例示したが、認識部の数は3個以上であってもよい。また、電子機器1における音声認識の結果に応じた処理を行う情報処理部の数は、音声認識を行う認識部の数と一致していなくてもよい。例えば、電子機器1の情報処理部160は、第1の情報処理部161及び第2の情報処理部162の他に、第1の認識部141による音声認識の結果に応じた処理を行う第3の情報処理部(図示せず)を含んでいてもよい。更に、電子機器1の機能的構成は、図1の構成に限らず、本実施形態の要旨を逸脱しない範囲において変更可能である。
また、図4〜図8のフローチャートは、本実施形態に係る電子機器1が行う処理の一例に過ぎない。本実施形態に係る電子機器1が行う処理は、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。例えば、ノイズ抑圧パラメータを設定する処理は、ステップS1の代わりに、ステップS11のノイズ抑圧処理に含めてもよい。すなわち、ノイズ抑圧部130は、ステップS11のノイズ抑圧処理を行う際に、都度パラメータリススト192を参照して確率が最大値となるパラメータセットを読み出し、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hを設定してもよい。更に、本実施形態のノイズ抑圧パラメータ更新処理において複数のパラメータセットの中からランダムに選択するパラメータセットは、1組に限らず、複数組であってもよい。
また、図2の第1のリスト192Aは、パラメータリストの一例に過ぎない。第1のリスト192A等のパラメータリストに登録するパラメータセットの組数や、各パラメータセットにおけるノイズ抑圧パラメータの値の組み合わせは、適宜設定すればよい。更に、パラメータリストに登録するパラメータセットは、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの代わりに、ノイズ抑圧パラメータの値を調整する係数D1,D2,D3,及びD4を含むものであってもよい。
図9は、パラメータリストの別の例を示す図である。
図9には、パラメータリスト192における第1のリスト192Aについての別の例を示している。図9の第1のリスト192Aには、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの値を調整する係数D1,D2,D3,及びD4と、認識確率とを含むパラメータセットが登録されている。
図9の第1のリスト192Aにおいて、D1はパラメータCLの値を調整する係数であり、D2はパラメータCHの値を調節する係数である。例えば、パラメータCLは下記式(8−1)により算出し、パラメータCHは下記式(8−2)により算出する。
CL=D1×CLmin+(1−D1)×CLmax (8−1)
CH=D2×CHmin+(1−D2)×CHmax (8−2)
式(8−1)におけるCLmin及びCLmaxは、それぞれ、パラメータCLの最小値及び最大値である。パラメータCLの最小値CLmin及び最大値CLmaxは、それぞれ、適宜設定する。例えば、CLmin=0、及びCLmax=0.5に設定すると、係数D1の値が0.2である場合のパラメータCLの値は0.5となる。
一方、式(8−2)におけるCHmin及びCHmaxは、それぞれ、パラメータCHの最小値及び最大値である。パラメータCHの最小値CHmin及び最大値CHmaxは、それぞれ、適宜設定する。例えば、CHmin=0.5、及びCHmax=1とすると、係数D2の値が0.2である場合のパラメータCHの値は0.9となる。
また、図9の第1のリスト192Aにおいて、D3はパラメータSNR_Lを調整する係数であり、D4はパラメータSNR_Hを調節する係数である。例えば、パラメータSNR_Lは下記式(8−3)により算出し、パラメータSNR_Hは下記式(8−4)により算出する。
SNR_L=D3×SNR_Lmin+(1−D3)×SNR_Lmax (8−3)
SNR_H=D4×SNR_Hmin+(1−D4)×SNR_Hmax (8−4)
式(8−3)におけるSNR_Lmin及びSNR_Lmaxは、それぞれ、パラメータSNR_Lの最小値及び最大値である。パラメータSNR_Lの最小値SNR_Lmin及び最大値SNR_Lmaxは、それぞれ、適宜設定する。例えば、SNR_Lmin=−15、及びSNR_Lmax=10に設定すると、係数D3の値が0.2である場合のパラメータSNR_Lの値は5となる。
一方、式(8−4)におけるSNR_Hmin及びSNR_Hmaxは、それぞれ、パラメータSNR_Hの最小値及び最大値である。パラメータSNR_Hの最小値SNR_Hmin及び最大値SNR_Hmaxは、それぞれ、適宜設定する。例えば、SNR_Hmin=15、及びSNR_Hmax=30に設定すると、係数D4が0.2である場合のパラメータSNR_Hは、27となる。
係数D1,D2,D3,及びD4をパラメータリストに登録した場合、ノイズ抑圧部130は、ステップS1及びS1305において、式(8−1)〜式(8−4)によりノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの値を算出して設定する。
なお、図9の第1のリスト192Aは、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの値を調整する係数D1,D2,D3,及びD4を登録したパラメータリストの一例に過ぎない。パラメータリストに登録するパラメータセット(係数D1,D2,D3,及びD4の組)の組数や、各パラメータセットにおける係数D1,D2,D3,及びD4の組み合わせは、適宜設定すればよい。例えば、1組のパラメータセットにおける係数D1,D2,D3,及びD4の値は、全てが同じ値(D1=D2=D3=D4)である必要はない。そのため、第1のリスト192A等の各パラメータリストには、例えば、係数D1,D2,及びD4の値が同一であり、係数D3の値のみが異なる複数のパラメータセットが登録されていてもよい。
[第2の実施形態]
図10は、第2の実施形態に係る電子機器の機能的構成を示す図である。
図10に示すように、本実施形態の電子機器1は、認識処理制御部110と、認識性能観測部120と、ノイズ抑圧部130と、音声認識部140と、リスト更新部150と、情報処理部160と、特定単語検索部170とを備える。また、本実施形態の電子機器1は、観測値191と、パラメータリスト192と、単語リスト193とを含む各種情報を記憶させる記憶部(図示せず)を備える。
なお、図10では省略しているが、音声認識部140は、第1の実施形態に係る電子機器1の音声認識部140と同様、音声認識処理の内容(アルゴリズム)が異なる複数の認識部(例えば、第1の認識部141及び第2の認識部142)を含む。また、情報処理部160は、第1の実施形態に係る電子機器1の情報処理部160と同様、音声認識処理の結果に応じた処理を行う複数の情報処理部(例えば、第1の情報処理部161及び第2の情報処理部162)を含む。ここで、複数の情報処理部は、それぞれ、アルゴリズムが異なる複数の認識部のいずれかと対応付けられており、対応付けられた認識部による音声認識の結果に基づいて所定の処理を行う。
観測値191には、音声認識部140に含まれる認識部毎の認識結果の確率についての情報が格納される。また、パラメータリスト192は、音声認識部140に含まれる複数の認識部のそれぞれと対応した複数のパラメータリスト(例えば、第1のリスト192A及び第2のリスト192B)を含む。複数のパラメータリストは、それぞれ、図2の第1のリスト192Aのように、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの値と、認識確率とを含むパラメータセットが複数組登録されている。なお、複数のパラメータリストは、それぞれ、図9の第1のリスト192Aのように、ノイズ抑圧パラメータの値を調整する係数D1,D2,D3,及びD4と、認識確率とを含むパラメータセットが複数組登録されているリストであってもよい。
更に、本実施形態の電子機器1が備える特定単語検索部170は、単語リスト193を参照して、音声認識部140の所定の認識部における音声認識処理の結果(音声認識テキスト)に含まれる特定単語を検索する。そして、本実施形態の電子機器1におけるリスト更新部150は、音声認識処理の結果に特定単語が含まれる場合にのみ、ノイズ抑圧部130及び音声認識部140と連携してノイズ抑圧パラメータ更新処理を行う。
図11は、単語リストの例を示す図である。
図11には、M個の特定単語が登録された単語リスト193を示している。単語リスト193に登録する特定単語は、例えば、電子機器1において音声認識処理の結果に基づいた処理を開始する際に発話する単語等の、音声認識処理の結果に含まれる頻度が高い単語とする。図11の単語リスト193における「教えて」という特定単語は、例えば、情報検索処理(サービス)により各種情報を調べる際に音声認識処理の結果に含まれる頻度が高い単語である。また、単語リスト193に登録する特定単語は、音声認識処理における認識精度の高い単語であることが好ましい。
本実施形態の電子機器1は、例えば、図4のフローチャートに沿った処理を行う。図4のフローチャートに沿った処理を行う場合、本実施形態の電子機器1は、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を除くステップS1〜S5,S7,及びS8の各処理として、それぞれ、第1の実施形態で説明した処理を行う。また、本実施形態の電子機器1は、ステップS6の更新処理を含む音声認識処理として、例えば、図12のフローチャートに沿った処理を行う。
図12は、第2の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。
ノイズ抑圧パラメータの更新処理を含む音声認識処理は、第1の実施形態で説明したように、音声認識性能が低下して所定の閾値よりも低くなった場合に行われる。更新処理を含む音声認識処理を行う場合、本実施形態の電子機器1は、まず、ノイズ抑圧処理(ステップS11)と、ノイズを抑圧したフレームの音声認識(ステップS12)とを行う。ステップS11のノイズ抑圧処理は、ノイズ抑圧部130が行う。ノイズ抑圧部130は、ステップS11のノイズ抑圧処理として、例えば、図7のフローチャートに沿った処理を行う。また、ステップS12の処理は、現在行っている一連の処理において選択されている第1の認識部141又は第2の認識部142が行う。第1の認識部141又は第2の認識部142は、所定のアルゴリズムに従って、ステップS11でノイズを抑圧したフレームに対する音声認識処理を行う。
ステップS12の音声認識処理を終えると、本実施形態の電子機器1は、次に、音声認識の結果に含まれる単語と単語リスト193の特定単語とを照合し(ステップS21)、音声認識の結果に特定単語が含まれるか否かを判定する(ステップS22)。ステップS21の処理は、特定単語検索部170が行う。特定単語検索部170は、既知の検索方法に従って、音声認識の結果に含まれる単語と単語リスト193の特定単語とを照合し、音声認識の結果に含まれる特定単語を検索する。単語の照合を終えると、特定単語検索部170は、照合結果(検索結果)を認識処理制御部110に通知する。認識処理制御部110は、照合結果に基づいて、音声認識の結果に特定単語が含まれるか否かを判定する(ステップS22)。音声認識の結果に特定単語が含まれる場合(ステップS22;YES)、認識処理制御部110は、リスト更新部150等にノイズ抑圧パラメータ更新処理(ステップS13)を行わせる。この場合、認識処理制御部110(電子機器1)は、リスト更新部150、ノイズ抑圧部130、及び音声認識部140を連携させて、例えば、図8のフローチャートに沿ったノイズ抑圧パラメータ更新処理を行う。ノイズ抑圧パラメータ更新処理を終えると、認識処理制御部110は、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を終了する。
一方、音声認識の結果に特定単語が含まれない場合(ステップS22;NO)、認識処理制御部110は、ノイズ抑圧パラメータ更新処理を省略し、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を終了する。
このように、本実施形態の電子機器1では、音声認識性能が閾値よりも低く、かつ音声認識の結果に特定単語が含まれる場合に、ノイズ抑圧パラメータ更新処理(ステップS13)を行う。特定単語は、入力音声に含まれる頻度が高く、しかも認識精度が高い単語である。このため、ノイズ抑圧パラメータ更新処理においてランダムに読み出したパラメータセットに基づいてノイズを抑圧して音声認識を行った場合の認識結果が正しいか否かを正確に判定することが可能となる。よって、パラメータリストにおける各パラメータセットについての認識確率の信頼度が高くなり、より適切なパラメータセット(ノイズ抑圧パラメータ)を選出してノイズを抑圧することが可能となる。
[第3の実施形態]
図13は、第3の実施形態に係る電子機器の機能的構成を示す図である。
図13に示すように、本実施形態の電子機器1は、認識処理制御部110と、認識性能観測部120と、ノイズ抑圧部130と、音声認識部140と、リスト更新部150と、情報処理部160と、音声生成部180とを備える。また、本実施形態の電子機器1は、観測値191と、パラメータリスト192と、クリーン音声リスト194と、ノイズ情報195とを含む各種情報を記憶させる記憶部(図示せず)を備える。
なお、図13では省略しているが、音声認識部140は、第1の実施形態に係る電子機器1の音声認識部140と同様、音声認識処理の内容(アルゴリズム)が異なる複数の認識部(例えば、第1の認識部141及び第2の認識部142)を含む。また、情報処理部160は、第1の実施形態に係る電子機器1の情報処理部160と同様、音声認識処理の結果に応じた処理を行う複数の情報処理部(例えば、第1の情報処理部161及び第2の情報処理部162)を含む。ここで、複数の情報処理部は、それぞれ、アルゴリズムが異なる複数の認識部のいずれかと対応付けられており、対応付けられた認識部による音声認識の結果に基づいて所定の処理を行う。
観測値191には、音声認識部140に含まれる認識部毎の認識結果の確率についての情報が格納される。また、パラメータリスト192は、音声認識部140の複数の認識部のそれぞれと対応した複数のパラメータリスト(例えば、第1のリスト192A及び第2のリスト192B)を含む。複数のパラメータリストは、それぞれ、図2の第1のリスト192Aのように、ノイズ抑圧パラメータCL,CH,SNR_L,及びSNR_Hの値と、認識確率とを含むパラメータセットが複数組登録されている。なお、複数のパラメータリストは、それぞれ、図9の第1のリスト192Aのように、ノイズ抑圧パラメータの値を調整する係数D1,D2,D3,及びD4と、認識確率とを含むパラメータセットが複数組登録されているリストであってもよい。
更に、本実施形態の電子機器1が備える音声生成部180は、クリーン音声リスト194に登録されたクリーン音声にノイズを重畳した音声信号を生成する。音声生成部180は、例えば、入力音声から抽出して保持しているノイズ情報195に基づいて、クリーン音声にノイズを重畳する。そして、本実施形態の電子機器1は、クリーン音声にノイズを重畳した音声信号に対する音声認識処理の結果が正しい場合にのみ、ノイズ抑圧パラメータ更新処理(ステップS13)を行う。
図14は、クリーン音声リストの例を示す図である。
図14には、M個のクリーン音声が登録されたクリーン音声リスト194を示している。クリーン音声リスト194に登録するクリーン音声は、例えば、電子機器1において音声認識処理の結果に基づいた処理を行う際に出現する頻度が高い単語を低雑音環境下で発話して収音した、ノイズ成分の非常に少ない音声データ(波形データ)とする。また、クリーン音声は、例えば、音声合成ソフトウェアにより作成したノイズ成分を含まない音声データ(波形データ)であってもよい。クリーン音声リスト194には、クリーン音声の波形データと、該クリーン音声の発話内容(単語)を示すテキスト情報とを対応付けて登録しておく。
本実施形態の電子機器1は、例えば、図4のフローチャートに沿った処理を行う。図4のフローチャートに沿った処理を行う場合、本実施形態の電子機器1は、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を除くステップS1〜S5,S7,及びS8の各処理として、それぞれ、第1の実施形態で説明した処理を行う。また、本実施形態の電子機器1は、ステップS6の更新処理を含む音声認識処理として、例えば、図15のフローチャートに沿った処理を行う。
図15は、第3の実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理の内容を説明するフローチャートである。
ノイズ抑圧パラメータの更新処理を含む音声認識処理は、第1の実施形態で説明したように、音声認識性能が低下して所定の閾値よりも低くなった場合に行われる。更新処理を含む音声認識処理を行う場合、本実施形態の電子機器1は、まず、判定用音声信号を生成する(ステップS31)。ステップS31の処理は、音声生成部180が行う。音声生成部180は、クリーン音声リスト194に登録された複数のクリーン音声のうちの1個のクリーン音声を選択し、該クリーン音声にノイズを重畳した判定用音声信号を生成する。音声生成部180は、生成した判定用音声信号と、クリーン音声の発話内容を示すテキスト情報とを認識処理制御部110に送信する。
次に、電子機器1は、判定用音声信号のノイズを抑圧し(ステップS32)、ノイズを抑圧した判定用音声信号の音声認識(ステップS33)を行う。ステップS32の処理はノイズ抑圧部130が行う。ノイズ抑圧部130は、現在設定されているノイズ抑圧パラメータに基づいて、判定用音声信号に含まれるノイズを抑圧する。ステップS32において、ノイズ抑圧部130は、例えば、入力音声における処理対象のフレームの代わりに判定用音声信号をノイズ抑圧の対象として、図7のフローチャートに沿った処理を行う。一方、ステップS33の処理は、音声認識部140に含まれる認識部のうちの、現在行っている一連の処理において選択されている認識部(例えば、第1の認識部141及び第2の認識部141のいずれか)が行う。
ステップS32及びS33の処理を終えると、電子機器1は、次に、ステップS33の音声認識処理の結果(認識結果)が正しいか否かを判定する(ステップS34)。ステップS34の判定は、認識処理制御部110が行う。認識処理制御部110は、ステップS33の音声認識結果に含まれる単語と、判定用音声信号を生成する際に選択したクリーン音声の発話内容を示すテキスト情報とを比較して、認識結果が正しいか否かを判定する。認識結果が正しい場合(ステップS34;YES)、認識処理制御部110は、リスト更新部150等にノイズ抑圧パラメータ更新処理(ステップS13)を行わせる。この場合、リスト更新部150は、ノイズ抑圧部130及び音声認識部140と連携して、例えば、図8のフローチャートに沿ったノイズ抑圧パラメータ更新処理を行う。
ノイズ抑圧パラメータ更新処理を行った場合、該更新処理を終えると、電子機器1は、次に、入力音声のフレームに対するノイズ抑圧処理を行う(ステップS11)。一方、判定用音声信号に対する認識結果が誤っている場合(ステップS34;NO)、電子機器1は、ステップS13のノイズ抑圧パラメータ更新処理を省略して、ステップS11のノイズ抑圧処理を行う。ステップS11の処理は、ノイズ抑圧部130が行う。ノイズ抑圧部130は、入力音声のフレームに対するノイズ抑圧処理として、例えば、図7のフローチャートに沿った処理を行う。
ステップS11の処理を終えると、電子機器1は、次に、ノイズを抑圧した処理対象のフレームの音声認識を行う(ステップS12)。ステップS12の処理は、音声認識部140の認識部のうちの、現在行っている一連の処理において選択されている認識部(第1の認識部141又は第2の認識部141)が行う。ステップS12の処理を終えると、電子機器1は、ノイズ抑圧パラメータの更新処理を含む音声認識処理(ステップS6)を終了する。
このように、本実施形態に係るノイズ抑圧パラメータの更新処理を含む音声認識処理では、電子機器1で判定用音声信号を生成し、該判定用音声信号に対する音声認識の結果に基づいてノイズ抑圧パラメータ更新処理を行うか否かを判定する。電子機器1で生成する判定用音声信号は、上記のように、発話内容が既知でありかつノイズが非常に少ないクリーン音声に現在の現在の電子機器1の周囲における雑音状況と対応したノイズを重畳して生成する。判定用音声信号を生成する処理(ステップS31)は、電子機器1の音声生成部180が行う。ステップS31の処理として、音声生成部180は、例えば、図16のフローチャートに沿った処理を行う。
図16は、判定用音声信号を生成する処理の内容を説明するフローチャートである。
判定用音声信号を生成する処理において、音声生成部180は、まず、クリーン音声リスト194に登録された複数のクリーン音声のなかから1個のクリーン音声を選択する(ステップS3101)。ステップS3101において、音声生成部180は、例えば、クリーン音声リスト194に登録されたクリーン音声の総数Mに基づいて、1〜Mまでの整数のいずれかをランダムに生成し、生成した整数値を登録番号とするクリーン音声を選択する。
次に、音声生成部180は、入力音声における処理対象のフレームに対する音声検出処理(ステップS3102)を行い、有意な音声を検出したか否かを判定する(ステップS3103)。ステップS3102において、音声生成部180は、既知の音声検出処理に従って、処理対象のフレームに含まれる有意な音声(すなわち話者が発話していることを示す音声)を検出する。例えば、音声生成部180は、処理対象のフレームについてのパワーを算出し、該パワーが閾値よりも大きい場合には該フレームに有意な音声が含まれると判定する。
処理対象のフレームから音声が検出されなかった場合(ステップS3103;NO)、音声生成部180は、次に、ノイズ情報195を更新する(ステップS3104)。ノイズ情報195は、例えば、現在処理対象となっているフレームよりも時間的に前であり、かつ直近のフレームにおけるノイズ成分を示す情報が格納されている。現在処理対象のフレームに有意な音声が含まれない場合、音声生成部180は、例えば、該処理対象のフレームの波形に基づいてノイズ成分を抽出し、ノイズ情報195に格納したノイズ情報を抽出したノイズ成分を示す情報に更新する。
ステップS3104においてノイズ情報195を更新した場合、ノイズ情報の更新を終えると、音声生成部180は、次に、ノイズ情報195に基づいて、選択したクリーン音声にノイズを重畳して判定用音声信号を生成する(ステップS3105)。一方、処理対象のフレームから音声が検出された場合(ステップS3103;YES)、音声生成部180は、ステップS3104の処理を省略し、ステップS3105の処理を行う。判定用音声信号を生成すると、音声生成部180は、生成した判定用音声信号と、ステップS3101で選択したクリーン音声の発話内容を示す情報とを認識処理制御部110に送信して判定用音声信号を生成する処理を終了する。
判定用音声信号を生成する処理を終えると、電子機器1は、図15のステップS32以降の処理を行う。
このように、本実施形態の電子機器1では、音声認識性能が閾値よりも低く、かつ音声生成部180で生成した判定用音声信号に対する音声認識の結果が正しい場合に、ノイズ抑圧パラメータ更新処理(ステップS13)を行う。判定用に生成した音声信号は、入力音声に含まれる頻度が高く、しかも認識精度が高い単語を低雑音環境下で発話して収音したクリーン音声に、現在の電子機器1の周囲における雑音状況と対応したノイズを重畳して生成した音声信号である。すなわち、判定用音声信号は、発話内容が既知であり、かつ現在の電子機器1の周囲における雑音状況と対応したノイズを含む音声信号である。このため、ノイズ抑圧パラメータ更新処理においてランダムに読み出したパラメータセットに基づいて判定用音声信号のノイズを抑圧して音声認識を行うと、認識結果が正しいか否かを正確に判定することが可能となる。したがって、本実施形態のノイズパラメータ更新処理では、例えば、式(7)により算出される、ランダムに読み出したパラメータセットについての認識確率LQ(t)の精度がより一層高くなる。よって、本実施形態によれば、パラメータリストにおける各パラメータセットについての認識確率の信頼度が高くなり、より適切なパラメータセット(ノイズ抑圧パラメータ)を選出してノイズを抑圧することが可能となる。
上記の各実施形態に係る電子機器1は、それぞれ、コンピュータと、該コンピュータに実行させるプログラムとにより実現可能である。以下、図17を参照して、コンピュータとプログラムとにより実現される電子機器1について説明する。
図17は、コンピュータのハードウェア構成を示す図である。
図17に示すように、コンピュータ9は、プロセッサ901と、主記憶装置902と、補助記憶装置903と、入力装置904と、出力装置905と、入出力インタフェース906と、通信制御装置907と、媒体駆動装置908と、を備える。コンピュータ9におけるこれらの要素901〜908は、バス910により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
プロセッサ901は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ901は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ9の全体の動作を制御する。また、プロセッサ901は、例えば、図5及び図6のフローチャートにおけるノイズ抑圧処理(ステップS11)、及び図6のノイズ抑圧パラメータ更新処理(ステップS13)を含む雑音抑圧プログラムを実行することにより、入力音声に含まれるノイズを適切に抑圧する。雑音抑圧プログラムにおけるノイズ抑圧処理は、例えば、図7のフローチャートの各処理を含む。雑音抑圧プログラムにおけるノイズ抑圧パラメータ更新処理は、例えば、図8のフローチャートの各処理を含む。更に、プロセッサ901は、例えば、図5及び図6の音声認識処理(ステップS12)、及び図4の音声認識の結果に基づいた処理を実行して該処理の結果を出力する処理(ステップS8)を含むアプリケーションプログラムを実行する。
主記憶装置902は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置902のROMには、例えば、コンピュータ9の起動時にプロセッサ901が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置902のRAMは、プロセッサ901が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置902のRAMは、例えば、音声認識結果の観測値191、パラメータリスト192、及び入力音声に対する音声認識処理の結果を記憶する電子機器1の記憶部として利用可能である。また、コンピュータ9を第2の実施形態に係る電子機器1として動作させる場合、主記憶装置902のRAMは、単語リスト193の記憶にも利用可能である。更に、コンピュータ9を第3の実施形態に係る電子機器1として動作させる場合、主記憶装置902のRAMは、クリーン音声リスト194及びノイズ情報195の記憶にも利用可能である。
補助記憶装置903は、例えば、Hard Disk Drive(HDD)や、フラッシュメモリ等の不揮発性メモリ(Solid State Drive(SSD)を含む)等の、主記憶装置902のRAMと比べて容量の大きい記憶装置である。補助記憶装置903は、プロセッサ901によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置903は、例えば、ノイズ抑圧処理(ステップS11)、及びノイズ抑圧パラメータ更新処理(ステップS13)を含む雑音抑圧プログラムの記憶に利用可能である。また、補助記憶装置903は、例えば、音声認識処理(ステップS12)、及び音声認識の結果に基づいた処理を実行して該処理の結果を出力する処理(ステップS8)を含むアプリケーションプログラムの記憶に利用可能である。更に、例えば、音声認識結果の観測値191、及びパラメータリスト192を含む各種情報を記憶する電子機器1の記憶部として利用可能である。また、コンピュータ9を第2の実施形態に係る電子機器1として動作させる場合、補助記憶装置903は、単語リスト193の記憶にも利用可能である。また、コンピュータ9を第3の実施形態に係る電子機器1として動作させる場合、補助記憶装置903は、クリーン音声リスト194及びノイズ情報195の記憶にも利用可能である。
入力装置904は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ9のオペレータ(利用者)が入力装置904に対して所定の操作を行うと、入力装置904は、その操作内容に対応付けられている入力情報をプロセッサ901に送信する。入力装置904としてのキーボード装置やタッチパネル装置は、例えば、音声認識の結果に基づいた処理を行うアプリケーションプログラムの選択に利用可能である。また、入力装置904は、マイクロフォン等の収音装置2を含んでもよい。入力装置904にマイクロフォンが含まれる場合、例えば、該マイクロフォンから入力される音声信号を入力音声(ノイズの抑圧及び音声認識の対象)とすることが可能である。
出力装置905は、例えば、液晶表示装置等の表示装置3やスピーカ等の音声再生装置である。出力装置905は、例えば、入力音声に対する音声認識の結果に基づいてアプリケーションプログラムにより実行された処理の結果等を出力に利用可能である。
入出力インタフェース906は、コンピュータ9と、他の電子装置等とを接続する。入出力インタフェース906は、例えば、Universal Serial Bus(USB)規格のコネクタ等を備える。入出力インタフェース906は、例えば、コンピュータ9と収音装置2との接続、及びコンピュータ9と表示装置3との接続等に利用可能である。
通信制御装置907は、コンピュータ9をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ9と他の通信可能な電子装置との各種通信を制御する装置である。通信制御装置907は、例えば、コンピュータ9と、外部装置4との間での通信の制御等に利用可能である。
媒体駆動装置908は、可搬型記憶媒体10に記録されているプログラムやデータの読み出しや、補助記憶装置903に記憶されたデータ等の可搬型記憶媒体10への書き込みを行う。媒体駆動装置908には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置908としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体10としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体10としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ9が媒体駆動装置908として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体10として利用可能である。可搬型記録媒体10として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(登録商標)等がある。可搬型記録媒体10は、例えば、例えば、ノイズ抑圧処理(ステップS11)、及びノイズ抑圧パラメータ更新処理(ステップS13)を含む雑音抑圧プログラムの記憶に利用可能である。また、可搬型記録媒体10は、例えば、音声認識処理(ステップS12)、及び音声認識の結果に基づいた処理を実行して該処理の結果を出力する処理(ステップS8)を含むアプリケーションプログラムの記憶に利用可能である。更に、可搬型記録媒体10は、例えば、音声認識結果の観測値191、及びパラメータリスト192を含む各種情報を記憶する電子機器1の記憶部として利用可能である。また、コンピュータ9を第2の実施形態に係る電子機器1として動作させる場合、可搬型記録媒体10は、単語リスト193の記憶にも利用可能である。また、コンピュータ9を第3の実施形態に係る電子機器1として動作させる場合、可搬型記録媒体10は、クリーン音声リスト194及びノイズ情報195の記憶にも利用可能である。
コンピュータ9を電子機器1として動作させる場合、オペレータは、入力装置904等を利用して音声認識処理を含むアプリケーションプログラムの実行開始命令をコンピュータ9に入力する。実行開始命令の入力を受け付けると、コンピュータ9のプロセッサ901は、補助記憶装置903等の非一時的な記録媒体に記憶させたアプリケーションプログラム及び雑音抑圧プログラムを読み出して実行する。このとき、コンピュータ9のプロセッサ901は、例えば、図4〜図8のフローチャートに沿った処理を実行する。
アプリケーションプログラム及び雑音抑圧プログラムを実行している間、プロセッサ901は、電子機器1における認識処理制御部110、認識性能観測部120、ノイズ抑圧部130、音声認識部140、リスト更新部150、及び情報処理部160として機能する(動作する)。また、例えば、図12のステップS21及びS22の処理を含む雑音抑圧プログラムを実行している場合、プロセッサ901は、特定単語検索部170としても機能する(動作する)。また、図15のステップS31〜S34の処理を含む雑音抑圧プログラムを実行している場合、プロセッサ901は、音声生成部180としても機能する(動作する)。
なお、電子機器1として動作させるコンピュータ9は、図17に示した要素901〜908を全て含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ9は、媒体駆動装置908が省略されたものであってもよい。
また、コンピュータ9は、例えば、スマートフォン等の通話機能を備えた装置であってもよい。
以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧するノイズ抑圧部と、
前記音声信号に対する音声認識を行う音声認識部と、
前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果に基づいて、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記音声認識の結果の正しさを示す認識確率のいずれかを更新する更新部と、を備え、
前記ノイズ抑圧部は、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて、使用するノイズ抑圧パラメータを決定する、
ことを特徴とする電子機器。
(付記2)
前記音声認識部は、処理内容が異なる複数通りの音声認識処理のうちのいずれか1つを選択して前記音声信号に対する音声認識を行い、
前記ノイズ抑圧部は、前記音声認識部で選択した前記音声認識処理と対応付けられた前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて決定された前記ノイズ抑圧パラメータを使用して、前記音声信号に含まれる前記ノイズを抑圧する、
ことを特徴とする付記1に記載の電子機器。
(付記3)
前記更新部は、
前記音声認識部で選択した前記音声認識処理と対応付けられた前記複数のノイズ抑圧パラメータのなかから前記認識確率を更新するノイズ抑圧パラメータを選択し、
選択した前記ノイズ抑圧パラメータにより前記音声認識の対象である前記音声信号のノイズを抑圧して前記音声認識を行った場合の認識結果に基づいて、選択した前記ノイズ抑圧パラメータと対応付けられた前記認識確率を更新する、
ことを特徴とする付記1に記載の電子機器。
(付記4)
前記更新部は、前記複数のノイズ抑圧パラメータのなかから前記認識確率を更新するノイズ抑圧パラメータをランダムに選択する、
ことを特徴とする付記3に記載の電子機器。
(付記5)
前記電子機器は、前記音声認識の結果に基づいて音声認識性能を観測する認識性能観測部、を更に備え、
前記更新部は、前記ノイズを抑圧した音声信号に対する前記音声認識性能が所定の閾値よりも低くなった場合に、前記認識確率を更新する処理を行う、
ことを特徴とする付記1に記載の電子機器。
(付記6)
前記電子機器は、前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果から所定の単語を検索する単語検索部、を更に備え、
前記更新部は、前記音声認識の結果に前記所定の単語が含まれる場合に、前記認識確率を更新する処理を行う、
ことを特徴とする付記1に記載の電子機器。
(付記7)
前記電子機器は、ノイズレベルが閾値以下であり、かつ発話内容が既知であるクリーン音声にノイズを重畳した判定用音声信号を生成する音声生成部、を更に備え、
前記更新部は、前記ノイズ抑圧パラメータを使用して前記ノイズを抑圧した前記判定用音声信号に対する前記音声認識の結果が前記発話内容と一致した場合に、前記認識確率を更新する処理を行う、
ことを特徴とする付記1に記載の電子機器。
(付記8)
前記電子機器は、前記音声信号に対する前記音声認識の結果に応じた処理を行う情報処理部、を更に備える、
ことを特徴とする付記1に記載の電子機器。
(付記9)
複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧し、
前記音声信号に対する音声認識を行い、
前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果に基づいて、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記音声認識の結果の正しさを示す認識確率のいずれかを更新し、
前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて、前記ノイズの抑圧に使用する前記ノイズ抑圧パラメータに決定する、
処理をコンピュータに実行させる雑音抑圧プログラム。
1 電子機器
110 認識処理制御部
120 認識性能観測部
130 ノイズ抑圧部
140 音声認識部
141 第1の認識部
142 第2の認識部
150 リスト更新部
160 情報処理部
161 第1の情報処理部
162 第2の情報処理部
170 特定単語検索部
180 音声生成部
191 観測値
191A 第1の観測値
191B 第2の観測値
192 パラメータリスト
192A 第1のリスト
192B 第2のリスト
193 単語リスト
194 クリーン音声リスト
2 収音装置
3 表示装置
4 外部装置
9 コンピュータ
901 プロセッサ
902 主記憶装置
903 補助記憶装置
904 入力装置
905 出力装置
906 入出力インタフェース
907 通信制御装置
908 媒体駆動装置
10 可搬型記録媒体

Claims (8)

  1. 複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧するノイズ抑圧部と、
    前記音声信号に対する音声認識を行う音声認識部と、
    前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果に基づいて、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記音声認識の結果の正しさを示す認識確率のいずれかを更新する更新部と、を備え、
    前記ノイズ抑圧部は、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて、使用するノイズ抑圧パラメータを決定する、
    ことを特徴とする電子機器。
  2. 前記音声認識部は、処理内容が異なる複数通りの音声認識処理のうちのいずれか1つを選択して前記音声信号に対する音声認識を行い、
    前記ノイズ抑圧部は、前記音声認識部で選択した前記音声認識処理と対応付けられた前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて決定された前記ノイズ抑圧パラメータを使用して、前記音声信号に含まれる前記ノイズを抑圧する、
    ことを特徴とする請求項1に記載の電子機器。
  3. 前記更新部は、
    前記音声認識部で選択した前記音声認識処理と対応付けられた前記複数のノイズ抑圧パラメータのなかから前記認識確率を更新するノイズ抑圧パラメータを選択し、
    選択した前記ノイズ抑圧パラメータにより前記音声認識の対象である前記音声信号のノイズを抑圧して前記音声認識を行った場合の認識結果に基づいて、選択した前記ノイズ抑圧パラメータと対応付けられた前記認識確率を更新する、
    ことを特徴とする請求項1に記載の電子機器。
  4. 前記電子機器は、前記音声認識の結果に基づいて音声認識性能を観測する認識性能観測部、を更に備え、
    前記更新部は、前記ノイズを抑圧した音声信号に対する前記音声認識性能が所定の閾値よりも低くなった場合に、前記認識確率を更新する処理を行う、
    ことを特徴とする請求項1に記載の電子機器。
  5. 前記電子機器は、前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果から所定の単語を検索する単語検索部、を更に備え、
    前記更新部は、前記音声認識の結果に前記所定の単語が含まれる場合に、前記認識確率を更新する処理を行う、
    ことを特徴とする請求項1に記載の電子機器。
  6. 前記電子機器は、ノイズレベルが閾値以下であり、かつ発話内容が既知であるクリーン音声にノイズを重畳した判定用音声信号を生成する音声生成部、を更に備え、
    前記更新部は、前記ノイズ抑圧パラメータを使用して前記ノイズを抑圧した前記判定用音声信号に対する前記音声認識の結果が前記発話内容と一致した場合に、前記認識確率を更新する処理を行う、
    ことを特徴とする請求項1に記載の電子機器。
  7. 前記電子機器は、前記音声信号に対する前記音声認識の結果に応じた処理を行う情報処理部、を更に備える、
    ことを特徴とする請求項1に記載の電子機器。
  8. 複数のノイズ抑圧パラメータのうちの1つのノイズ抑圧パラメータを使用して、音声信号に含まれるノイズを抑圧し、
    前記音声信号に対する音声認識を行い、
    前記ノイズを抑圧した前記音声信号に対する前記音声認識の結果に基づいて、前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記音声認識の結果の正しさを示す認識確率のいずれかを更新し、
    前記複数のノイズ抑圧パラメータのそれぞれと対応付けられた前記認識確率に基づいて、前記ノイズの抑圧に使用する前記ノイズ抑圧パラメータに決定する、
    処理をコンピュータに実行させる雑音抑圧プログラム。
JP2017110377A 2017-06-02 2017-06-02 電子機器及び雑音抑圧プログラム Pending JP2018205512A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017110377A JP2018205512A (ja) 2017-06-02 2017-06-02 電子機器及び雑音抑圧プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017110377A JP2018205512A (ja) 2017-06-02 2017-06-02 電子機器及び雑音抑圧プログラム

Publications (1)

Publication Number Publication Date
JP2018205512A true JP2018205512A (ja) 2018-12-27

Family

ID=64957671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017110377A Pending JP2018205512A (ja) 2017-06-02 2017-06-02 電子機器及び雑音抑圧プログラム

Country Status (1)

Country Link
JP (1) JP2018205512A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022020060A (ja) * 2020-12-15 2022-01-31 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッド ノイズ除去アルゴリズムのデバッグ方法、装置及び電子機器
WO2022249302A1 (ja) * 2021-05-25 2022-12-01 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022020060A (ja) * 2020-12-15 2022-01-31 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッド ノイズ除去アルゴリズムのデバッグ方法、装置及び電子機器
JP7312229B2 (ja) 2020-12-15 2023-07-20 阿波▲羅▼智▲聯▼(北京)科技有限公司 ノイズ除去アルゴリズムのデバッグ方法、装置及び電子機器
US11804236B2 (en) 2020-12-15 2023-10-31 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method for debugging noise elimination algorithm, apparatus and electronic device
WO2022249302A1 (ja) * 2021-05-25 2022-12-01 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Similar Documents

Publication Publication Date Title
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
CN109616098B (zh) 基于频域能量的语音端点检测方法和装置
JP6004792B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
CN110797039B (zh) 语音处理方法、装置、终端及介质
JP2018205512A (ja) 電子機器及び雑音抑圧プログラム
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
WO2015084658A1 (en) Systems and methods for enhancing an audio signal
JP2020134887A (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2021217750A1 (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端系统
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质