JP6289774B2

JP6289774B2 - 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム

Info

Publication number: JP6289774B2
Application number: JP2017553538A
Authority: JP
Inventors: 勇気太刀岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2018-03-07
Anticipated expiration: 2035-12-01
Also published as: WO2017094121A1; US20180350358A1; JPWO2017094121A1; KR102015742B1; CN108292501A; TW201721631A; KR20180063341A; DE112015007163B4; DE112015007163T5

Description

この発明は、音声認識技術および音声強調技術に関し、特に多様な騒音環境下における使用に対応した技術に関するものである。

騒音が重畳した音声を用いて音声認識を行う場合、音声認識処理を行う前に重畳した騒音を抑圧する処理（以下、騒音抑圧処理と称する）を行うのが一般的である。騒音抑圧処理の特性により、騒音抑圧処理に対して効果的な騒音と効果的でない騒音が存在する。例えば、騒音抑圧処理が定常騒音に対して強いスペクトル引き去り処理である場合には、非定常騒音に対する引き去り処理が弱くなる。一方、騒音抑圧処理が非定常騒音に追従性が高い処理である場合には、定常騒音に対する追従性が低い処理となる。このような問題を解決する手法として、従来音声認識結果の統合、あるいは音声認識結果の選択が用いられている。

当該従来の手法は、騒音が重畳された音声が入力された場合に、例えば定常騒音に追従性が高い抑圧処理と非定常騒音に追従性が高い抑圧処理とを行う２つの騒音抑圧部により騒音を抑圧して２つの音声を取得し、取得した２つの音声に対して２つの音声認識部で音声の認識を行う。音声認識によって得られた２つの音声認識結果をＲＯＶＥＲ（Recognition Output Voting Error Reduction）などの音声結合手法を用いて統合する、あるいは２つの音声認識結果のうち尤度の高い音声認識結果を選択し、統合あるいは選択した音声認識結果を出力する。しかし、当該従来の手法では、認識精度の改善程度は大きいが、音声認識のための処理が増加するという問題があった。

当該問題を解決する手法とし、例えば特許文献１には、入力騒音の音響特徴パラメータの各確率音声モデルに対する尤度を算出し、当該尤度から音確率音響モデルを選択する音声認識装置が開示されている。また、特許文献２には、入力された対象信号からノイズを除去し、対象信号の特徴を表す特徴量データを抽出する前処理を行った後、競合型ニューラルネットワークのクラスタリングマップの形状により対象信号を複数のカテゴリに分類し、処理内容を自動的に選択する信号識別装置が開示されている。

特開２０００−１９４３９２号公報特開２００５−１１５５６９号公報

しかしながら、上述した特許文献１に開示された技術では、入力騒音の音響特徴パラメータの各確率音声モデルに対する尤度を用いているため、良好な音声認識率または音響指標が得られる騒音抑圧処理が選択されない場合があるという課題があった。また、特許文献２に開示された技術では、対象信号のクラスタリングが行われているものの、音声認識率または音響指標に紐付けたクラスタリングは行われていないため、良好な音声認識率または音響指標が得られる騒音抑圧処理が選択されない場合がある課題があった。また上記の２手法は共通して、性能予測のために騒音抑圧処理を行った音声が必要となるため、学習時・使用時ともに、一度すべての候補となる騒音抑圧処理を行わなければならないという課題があった。

この発明は、上記のような課題を解決するためになされたもので、騒音抑圧手法を選択するために使用時に騒音抑圧処理を行うことなく、騒音音声データだけから良好な音声認識率または音響指標が得られる騒音抑圧処理を高精度に選択することを目的とする。

この発明に係る音声認識装置は、入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、騒音抑圧部により騒音信号が抑圧された音声データの音声認識を行う音声認識部と、入力された騒音音声データの音響特徴量から、騒音音声データを複数の騒音抑圧部によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測する予測部と、予測部が予測した音声認識率に基づいて、複数の騒音抑圧部から騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えるものである。

この発明によれば、騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、良好な音声認識率または音響指標が得られる騒音抑圧処理を選択することができる。

実施の形態１に係る音声認識装置の構成を示すブロック図である。図２Ａ、図２Ｂは実施の形態１に係る音声認識装置のハードウェア構成を示す図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。実施の形態２に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。実施の形態３に係る音声認識装置の構成を示すブロック図である。実施の形態３に係る音声認識装置の認識率データベースの構成例を示す図である。実施の形態３に係る音声認識装置の動作を示すフローチャートである。実施の形態４に係る音声強調装置の構成を示すブロック図である。実施の形態４に係る音声強調装置の動作を示すフローチャートである。実施の形態５に係るナビゲーションシステムの構成を示す機能ブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
まず、図１は、実施の形態１に係る音声認識装置１００の構成を示すブロック図である。
音声認識装置１００は、第１の予測部１、抑圧手法選択部２、騒音抑圧部３および音声認識部４を備えて構成されている。
第１の予測部１は、回帰器で構成される。回帰器としては、例えばNeural network（以下、ＮＮと称する）を構築して適用する。ＮＮの構築では、Mel-frequency Cepstral Coefficient（ＭＦＣＣ）またはフィルタバンク特徴利用など、一般的に利用される音響特徴量を利用し、回帰器として０以上１以下となる音声認識率を直接算出するＮＮを、例えば誤差逆伝搬法などを用いて構築する。誤差逆伝搬法とは、ある学習データが与えられた時に、当該学習データとＮＮの出力の誤差が小さくなるように各層の間の結合荷重・バイアス等を修正する学習法である。第１の予測部１は、例えば入力を音響特徴量とし、出力を音声認識率とするＮＮにより、入力された音響特徴量の音声認識率を予測する。

抑圧手法選択部２は、第１の予測部１が予測した音声認識率を参照し、複数の騒音抑圧部３ａ，３ｂ，３ｃから騒音抑圧を行う騒音抑圧部３を選択する。抑圧手法選択部２は、選択した騒音抑圧部３に対して騒音抑圧処理を行うように制御指示を出力する。騒音抑圧部３は、複数の騒音抑圧部３ａ，３ｂ，３ｃで構成され、各騒音抑圧部３ａ，３ｂ，３ｃは入力された騒音音声データに対してそれぞれ異なる騒音抑圧処理を行う。それぞれ異なる騒音抑圧処理として、例えばスペクトル引き去り法（ＳＳ）、学習同定法（Normalized Least Mean Square Algorithm；ＮＬＭＳアルゴリズム）などを適用した適応フィルタ法、Denoising auto encoderなどのＮＮを用いた手法などが適用可能である。また、騒音抑圧部３ａ，３ｂ，３ｃのいずれにおいて騒音抑圧処理を行うかは、抑圧手法選択部２から入力される制御指示に基づいて決定される。なお、図１の例では、３つの騒音抑圧部３ａ，３ｂ，３ｃで構成する例を示したが、構成数は３つに限定されるものではなく、適宜変更可能である。

音声認識部４は、騒音抑圧部３で騒音信号が抑圧された音声データに対して音声認識を行い、音声認識結果を出力する。音声認識は、例えばGaussian mixture modelまたはDeep neural networkによる音響モデルと、n-gramによる言語モデルとを用いて音声認識処理を行う。なお、音声認識処理については、公知の技術を適用して構成することが可能であるため、詳細な説明を省略する。

音声認識装置１００の第１の予測部１、抑圧手法選択部２、騒音抑圧部３および音声認識部４は、処理回路により実現される。処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するＣＰＵ（Central Processing Unit）、処理装置およびプロセッサなどであってもよい。
図２Ａは、実施の形態１に係る音声認識装置１００のハードウェア構成を示し、処理回路がハードウェアで実行される場合のブロック図を示す。図２Ａに示すように、処理回路１０１が専用のハードウェアである場合、第１の予測部１、抑圧手法選択部２、騒音抑圧部３および音声認識部４の各機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて処理回路で実現してもよい。

図２Ｂは、実施の形態１に係る音声認識装置１００のハードウェア構成を示し、処理回路がソフトウェアで実行される場合のブロック図を示す。
図２Ｂに示すように、処理回路がプロセッサ１０２である場合、第１の予測部１、抑圧手法選択部２、騒音抑圧部３および音声認識部４の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアやファームウェアはプログラムとして記述され、メモリ１０３に格納される。プロセッサ１０２はメモリ１０３に記憶されたプログラムを読み出して実行することにより、各部の機能を実行する。ここで、メモリ１０３とは、例えばＲＡＭ、ＲＯＭ、フラッシュメモリーなどの不揮発性または揮発性の半導体メモリや、磁気ディスク、光ディスクなどが該当する。

このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって上述の各機能を実現することができる。

次に、第１の予測部１および抑圧手法選択部２の詳細な構成について説明する。
まず、回帰器を適用した第１の予測部１は、音響特徴量を入力とし、出力を音声認識率とするＮＮで構成されている。第１の予測部１は、音響特徴量が短時間フーリエ変換のフレーム毎に入力されると、ＮＮにより各騒音抑圧部３ａ，３ｂ，３ｃのそれぞれが音声認識率を予測する。即ち、第１の予測部１は、それぞれ異なる騒音抑圧処理を適用した場合の音声認識率を音響特徴量のフレーム毎に算出する。抑圧手法選択部２は、第１の予測部１が算出した各騒音抑圧部３ａ，３ｂ，３ｃを適用した場合の音声認識率を参照し、最も音声認識率が高い音声認識結果を導く騒音抑圧部３を選択し、選択した騒音抑圧部３に対して制御指示を出力する。

図３は、実施の形態１に係る音声認識装置１００の動作を示すフローチャートである。
音声認識装置１００には、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。なお、騒音音声データの音響特徴量は、外部の特徴量算出手段により算出されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると（ステップＳＴ１）、第１の予測部１は入力された音響特徴量の短時間フーリエ変換のフレーム単位で、ＮＮにより各騒音抑圧部３ａ，３ｂ，３ｃで騒音抑圧処理を行った場合の音声認識率を予測する（ステップＳＴ２）。なお、ステップＳＴ２の処理は、設定された複数のフレームに対して処理が繰り返し行われる。第１の予測部１は、ステップＳＴ２においてフレーム単位且つ複数のフレームについて予測した音声認識率の平均、最大値、または最小値を求め、各騒音抑圧部３ａ，３ｂ，３ｃで処理を行った場合のそれぞれの予測認識率を算出する（ステップＳＴ３）。第１の予測部１は算出した予測認識率を各騒音抑圧部３ａ，３ｂ，３ｃと紐付けて抑圧手法選択部２に出力する（ステップＳＴ４）。

抑圧手法選択部２は、ステップＳＴ４で出力された予測認識率を参照し、最も高い予測認識率を示す騒音抑圧部３を選択し、選択した騒音抑圧部３に対して騒音抑圧処理を行うように制御指示を出力する（ステップＳＴ５）。ステップＳＴ５で制御指示が入力された騒音抑圧部３は、ステップＳＴ１で入力された実際の騒音音声データに対して騒音信号を抑圧する処理を行う（ステップＳＴ６）。音声認識部４は、ステップＳＴ６で騒音信号が抑圧された音声データに対して音声認識を行って音声認識結果を取得し、出力する（ステップＳＴ７）。その後、フローチャートはステップＳＴ１の処理に戻り、上述した処理を繰り返す。

以上のように、この実施の形態１によれば、回帰器で構成され、音響特徴量を入力とし、出力を音声認識率とするＮＮで構成された第１の予測部１と、第１の予測部１が予測した音声認識率を参照して複数の騒音抑圧部３から最も音声認識率の高い音声認識結果を導く騒音抑圧部３を選択し、選択した騒音抑圧部３に対して制御指示を出力する抑圧手法選択部２と、複数の騒音抑圧手法を適用した複数の処理部を備え、抑圧手法選択部２の制御指示に基づいて騒音音声データの騒音抑圧処理を行う騒音抑圧部３と、騒音抑圧処理が行われた音声データの音声認識を行う音声認識部４とを備えるように構成したので、音声認識の処理量を増加させることなく、また騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、有効な騒音抑圧手法を選択することができる。
例えば従来の技術では、３つ候補となる騒音抑圧手法があった場合には、３つの手法すべてで騒音抑圧処理を行いその結果に基づいて最もよい騒音抑圧処理を選んでいたが、この実施の形態１によれば、候補となる騒音抑圧手法が３つあった場合にも、あらかじめ最も性能がよいであろう手法が予測できるので、その選ばれた手法でのみ騒音抑圧処理を行うことで騒音抑圧処理にかかる計算量を削減することができるという利点が得られる。

実施の形態２．
上述した実施の形態１では、回帰器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部３を選択する構成を示したが、この実施の形態２では識別器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部３を選択する構成を示す。
図４は、実施の形態２に係る音声認識装置１００ａの構成を示すブロック図である。
実施の形態２の音声認識装置１００ａは、実施の形態１で示した音声認識装置１００の第１の予測部１および抑圧手法選択部２に替えて第２の予測部１ａおよび抑圧手法選択部２ａを設けて構成している。なお、以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

第２の予測部１ａは、識別器で構成される。識別器としては、例えばＮＮを構築して適用する。ＮＮの構築では、ＭＦＣＣまたはフィルタバンク特徴利用など、一般的に利用される音響特徴量を利用し、識別器として２クラス分類または多クラス分類などの分類処理を行い、最も認識率の高い抑圧手法の識別子を選択するＮＮを、誤差逆伝搬法を用いて構築する。第２の予測部１ａは、例えば入力を音響特徴量とし、最終的な出力層をsoftmax層として２クラスまたは多クラス分類を行い、出力を最も音声認識率の高い音声認識結果を導く抑圧手法ＩＤ（identification）とするＮＮで構成される。ＮＮの教師データは、音声認識率の最も高い音声認識結果を導く抑圧手法のみを「１」とし、他の手法を「０」としたベクトルや、認識率に対して、Sigmoidなどを掛けて、重みづけしたデータ(Sigmoid((当該システムの認識率-(max(認識率)-min(認識率)/2))/σ)を用いることができる。ここで、σはスケーリング係数である。
もちろんＳＶＭ（support vector machine）などの他の分類器を使うことも考えられる。

抑圧手法選択部２ａは、第２の予測部１ａが予測した抑圧手法ＩＤを参照し、複数の騒音抑圧部３ａ，３ｂ，３ｃから騒音抑圧を行う騒音抑圧部３を選択する。騒音抑圧部３には、実施の形態１と同様に、スペクトル引き去り法（ＳＳ）、適応フィルタ法、ＮＮを用いた手法などが適用可能である。抑圧手法選択部２ａは、選択した騒音抑圧部３に対して騒音抑圧処理を行うように制御指示を出力する。

次に、音声認識装置１００ａの動作について説明する。
図５は、実施の形態２に係る音声認識装置１００ａの動作を示すフローチャートである。なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置１００ａには、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると（ステップＳＴ１）、第２の予測部１ａは入力された音響特徴量の短時間フーリエ変換のフレーム単位で、ＮＮにより最も音声認識率の高い音声認識結果を導く騒音抑圧手法の抑圧手法ＩＤを予測する（ステップＳＴ１１）。

第２の予測部１ａは、ステップＳＴ１１においてフレーム単位で予測した抑圧手法ＩＤの最頻値または平均値を求め、当該最頻値又は平均値の抑圧手法ＩＤを予測抑圧手法ＩＤとして取得する（ステップＳＴ１２）。抑圧手法選択部２ａは、ステップＳＴ１２で取得した予測抑圧手法ＩＤを参照し、取得した予測抑圧手法ＩＤに対応する騒音抑圧部３を選択し、選択した騒音抑圧部３に対して騒音抑圧処理を行うように制御指示を出力する（ステップＳＴ１３）。その後、実施の形態１で示したステップＳＴ６およびステップＳＴ７と同一の処理を行う。

以上のように、この実施の形態２によれば、識別器が適用され、音響特徴量を入力とし、出力を最も音声認識率が高い音声認識結果を導く抑圧手法のＩＤとするＮＮで構成された第２の予測部１ａと、第２の予測部１ａが予測した抑圧手法ＩＤを参照して複数の騒音抑圧部３から最も音声認識率の高い音声認識結果を導く騒音抑圧部３を選択し、選択した騒音抑圧部３に対して制御指示を出力する抑圧手法選択部２ａと、複数の騒音抑圧処理それぞれに対応した複数の処理部を備え、抑圧手法選択部２ａの制御指示に基づいて騒音音声データの騒音抑圧を行う騒音抑圧部３と、騒音抑圧処理が行われた音声データの音声認識を行う音声認識部４とを備えるように構成したので、音声認識の処理量を増加させることなく、また騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、有効な騒音抑圧手法を選択することができる。

実施の形態３．
上述した実施の形態１，２では、音響特徴量を短時間フーリエ変換のフレーム毎に第１の予測部１または第２の予測部１ａに入力し、入力されたフレーム毎に音声認識率または抑圧手法ＩＤを予測する構成を示した。一方、この実施の形態３では、発話単位の音響特徴量を用いて、予め学習したデータの中から、実際に音声認識装置に入力される騒音音声データの音響特徴量に最も近い発話を選択し、選択した発話の音声認識率に基づいて騒音抑圧部の選択を行う構成を示す。

図６は、実施の形態３に係る音声認識装置１００ｂの構成を示すブロック図である。
実施の形態３の音声認識装置１００ｂは、実施の形態１で示した音声認識装置１００の第１の予測部１および抑圧手法選択部２に替えて、特徴量算出部５、類似度算出部６、認識率データベース７を備える第３の予測部１ｃおよび抑圧手法選択部２ｂを設けて構成している。
なお、以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

第３の予測部１ｃを構成する特徴量算出部５は、入力された騒音音声データから、発話単位で音響特徴量を算出する。なお、発話単位の音響特徴量の算出手法の詳細については後述する。類似度算出部６は、認識率データベース７を参照し、特徴量算出部５が算出した発話単位の音響特徴量と、認識率データベース７に格納された音響特徴量とを照合し、音響特徴量の類似度を算出する。類似度算出部６は、算出した類似度のうち最も高い類似度を有する音響特徴量に対応付けられた各騒音抑圧部３ａ，３ｂ，３ｃで騒音抑圧した場合の音声認識率の組を取得し、抑圧手法選択部２ｂに出力する。音声認識率の組とは、例えば「音声認識率_１−１，音声認識率_１−２，音声認識率_１−３」および「音声認識率_２−１，音声認識率_２−２，音声認識率_２−３」などである。抑圧手法選択部２ｂは、類似度算出部６から入力された音声認識率の組を参照し、複数の騒音抑圧部３ａ，３ｂ，３ｃから騒音抑圧を行う騒音抑圧部３を選択する。

認識率データベース７は、複数の学習データの音響特徴量と、当該音響特徴量を各騒音抑圧部３ａ，３ｂ，３ｃで騒音抑圧した場合の音声認識率とを対応付けて記憶した記憶領域である。
図７は、実施の形態３に係る音声認識装置１００ｂの認識率データベース７の構成例を示す図である。
認識率データベース７は、学習データの音響特徴量と、各学習データを各騒音抑圧部（図７の例では、第１，第２，第３の騒音抑圧部）により騒音抑圧処理を行った音声データの音声認識率とを対応付けて格納している。図７において、例えば、第１の音響特徴量Ｖ^（ｒ１）の学習データに対して、第１の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が８０％であり、第２の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が７５％であり、第３の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が７８％であることを示している。なお、認識率データベース７は、学習データをクラスタリングし、クラスタリングした学習データの認識率と、音響特徴量とを対応付けて記憶し、データ量を抑制して格納するように構成してもよい。

次に、特徴量算出部５による発話単位の音響特徴量の算出の詳細について説明する。
発話単位の音響特徴量としては、音響特徴量の平均ベクトル、Universal background model（ＵＢＭ）による平均尤度ベクトル、i-vectorなどが適用可能である。特徴量算出部５は、上述した音響特徴量を、認識対象の騒音音声データそれぞれに対して、発話単位で算出する。例えば音響特徴量としてi-vectorを適用する場合には、Gaussian mixture model （ＧＭＭ）を発話ｒに対して適応し、得られたスーパーベクトルＶ^(r)を、あらかじめ求めておいたＵＢＭのスーパーベクトルｖと低ランクの全変数平面を張る基底ベクトルから成る行列Ｔにより、以下の式（１）に基づいて因子分解する。
Ｖ^（ｒ）＝ｖ＋Ｔｗ^（ｒ）（１）
上述した式（１）により得られるｗ^（ｒ）がi-vectorである。

発話単位の音響特徴量の間の類似性を、以下の式（２）に示すように、Euclid距離またはcosine類似度を用いて測り、学習データｒ_ｔ中から今の評価データｒ_ｅに最も近い発話ｒ´_ｔを選択する。類似度をｓｉｍで表した場合、以下の式（３）で表される発話が選択される。

学習データｒ_ｔに対して、あらかじめi番目の騒音抑圧部３および音声認識部４を利用して得られた単語誤り率Ｗ_ｔｒ（ｉ, ｒ_ｔ）を求めておけば、ｒｅに対して最適なシステムｉ´が以下の式（４）で示すように、認識性能に基づいて選択される。

なお、上述した説明では、騒音抑圧手法が２つの場合を例に説明を行ったが、騒音抑圧手法が３つ以上の場合にも適用可能である。

次に、音声認識装置１００ｂの動作について説明する。
図８は、実施の形態３に係る音声認識装置１００ｂの動作を示すフローチャートである。なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置１００ｂには、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると（ステップＳＴ２１）、特徴量算出部５は入力された騒音音声データから音響特徴量を算出する（ステップＳＴ２２）。類似度算出部６は、ステップＳＴ２２で算出された音響特徴量と、認識率データベース７に格納された学習データの音響特徴量とを比較し、類似度を算出する（ステップＳＴ２３）。類似度算出部６は、ステップＳＴ２３で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、認識率データベース７を参照して選択した音響特徴量に対応付けられた認識率の組を取得する（ステップＳＴ２４）。ステップＳＴ２４において、音響特徴量間の類似性としてEuclid距離を用いた場合には、最も距離の短い認識率の組を取得する。

抑圧手法選択部２ｂは、ステップＳＴ２４で取得した認識率の組の中で最も高い認識率を示す騒音抑圧部３を選択し、選択した騒音抑圧部３に対して、騒音抑圧処理を行うように制御指示を出力する（ステップＳＴ２５）。その後、上述したステップＳＴ６およびステップＳＴ７と同一の処理を行う。

以上のように、この実施の形態３によれば、騒音音声データから音響特徴量を算出する特徴量算出部５と、認識率データベース７を参照し、算出した音響特徴量と学習データの音響特徴量との類似度を算出し、最も高い類似度を示す音響特徴量に対応付けられた音声認識率の組を取得する類似度算出部６と、取得した音声認識率の組の中で最も高い音声認識率を示す騒音抑圧部３を選択する抑圧手法選択部２ｂとを備えるように構成したので、発話単位で音声認識性能の予測を行うことができ、音声認識性能を高度に予測し、固定次元の特徴量を用いることにより類似性の算出が容易になるという効果がある。

なお、上述した実施の形態３では、音声認識装置１００ｂが認識率データベース７を備える構成を示したが、外部のデータベースを参照して類似度算出部６が音響特徴量との類似度の算出および認識率の取得を行うように構成してもよい。

なお、上述した実施の形態３において、発話単位で音声認識を行った場合に遅延が生じるが、当該遅延を許容できない場合には、発話開始後の初めの数秒の発話を用いて音響特徴量を参照するように構成してもよい。また、音声認識の対象となる発話の前に行われた発話との環境が変化しない場合には、前の発話での騒音抑圧部３の選択結果を用いて音声認識を行うように構成してもよい。

実施の形態４．
上述した実施の形態３では、学習データの音響特徴量と音声認識率とを対応付けた認識率データベース７を参照して騒音抑圧手法を選択する構成を示したが、この実施の形態４では学習データの音響特徴量と音響指標とを対応付けた音響指標データベースを参照して騒音抑圧手法を選択する構成を示す。
図９は、実施の形態４に係る音声強調装置２００の構成を示すブロック図である。
実施の形態４の音声強調装置２００は、実施の形態３で示した音声認識装置１００ｂの特徴量算出部５、類似度算出部６および認識率データベース７を備えた第３の予測部１ｃおよび抑圧手法選択部２ｂに替えて、特徴量算出部５、類似度算出部６ａおよび音響指標データベース８を備えた第４の予測部１ｄおよび抑圧手法選択部２ｃを設けて構成している。また、音声認識部４を備えていない。
なお、以下では、実施の形態３に係る音声認識装置１００ｂの構成要素と同一または相当する部分には、実施の形態３で使用した符号と同一の符号を付して説明を省略または簡略化する。

音響指標データベース８は、複数の学習データの音響特徴量と、各学習データを各騒音抑圧部３ａ，３ｂ，３ｃで騒音抑圧した場合の音響指標とを対応付けて記憶した記憶領域である。ここで、音響指標とは、騒音を抑圧した強調音声と、騒音を抑圧する前の騒音音声から算出されるＰＥＳＱまたはＳＮＲ／ＳＤＲなどである。なお、音響指標データベース８は、学習データをクラスタリングし、クラスタリングした学習データの音響指標と、音響特徴量とを対応付けて記憶し、データ量を抑制して格納するように構成してもよい。

類似度算出部６ａは、音響指標データベース８を参照し、特徴量算出部５が算出した発話単位の音響特徴量と、音響指標データベース８に格納された音響特徴量とを照合し、音響特徴量の類似度を算出する。類似度算出部６ａは、算出した類似度のうち最も高い類似度を有する音響特徴量に対応付けられた音響指標の組を取得し、抑圧手法選択部２ｃに出力する。音響指標の組とは、例えば「ＰＥＳＱ_１−１，ＰＥＳＱ_１−２，ＰＥＳＱ_１−３」および「ＰＥＳＱ_２−１，ＰＥＳＱ_２−２，ＰＥＳＱ_２−３」などである。
抑圧手法選択部２ｃは、類似度算出部６ａから入力された音響指標の組を参照し、複数の騒音抑圧部３ａ，３ｂ，３ｃから騒音抑圧を行う騒音抑圧部３を選択する。

次に、音声強調装置２００の動作について説明する。
図１０は、実施の形態４に係る音声強調装置２００の動作を示すフローチャートである。音声強調装置２００には、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると（ステップＳＴ３１）、特徴量算出部５は入力された騒音音声データから音響特徴量を算出する（ステップＳＴ３２）。類似度算出部６ａは、ステップＳＴ３２で算出された音響特徴量と、音響指標データベース８に格納された学習データの音響特徴量とを比較し、類似度を算出する（ステップＳＴ３３）。類似度算出部６ａは、ステップＳＴ３３で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、選択した音響特徴量に対応付けられた音響指標の組を取得する（ステップＳＴ３４）。

抑圧手法選択部２ｃは、ステップＳＴ３４で取得した音響指標の組の中で最も高い音響指標を示す騒音抑圧部３を選択し、選択した騒音抑圧部３に対して、騒音抑圧処理を行うように制御指示を出力する（ステップＳＴ３５）。ステップＳＴ３５で制御指示が入力された騒音抑圧部３は、ステップＳＴ３１で入力された実際の騒音音声データに対して騒音信号を抑圧する処理を行って強調音声を取得し、出力する（ステップＳＴ３６）。その後、フローチャートはステップＳＴ３１の処理に戻り、上述した処理を繰り返す。

以上のように、この実施の形態４によれば、騒音音声データから音響特徴量を算出する特徴量算出部５と、音響指標データベース８を参照し、算出した音響特徴量と学習データの音響特徴量との類似度を算出し、最も高い類似度を示す音響特徴量に対応付けられた音響指標の組を取得する類似度算出部６ａと、取得した音響指標の組の中で最も高い音響指標を示す騒音抑圧部３を選択する抑圧手法選択部２ｃとを備えるように構成したので、発話単位で音声認識性能の予測を行うことができ、音声認識性能を高度に予測し、固定次元の特徴量を用いることにより類似性の算出が容易になるという効果がある。

なお、上述した実施の形態４では、音声強調装置２００が音響指標データベース８を備える構成を示したが、外部のデータベースを参照して類似度算出部６ａが音響特徴量との類似度の算出および音響指標の取得を行うように構成してもよい。

なお、上述した実施の形態４において、発話単位で音声認識を行った場合に遅延が生じるが、当該遅延を許容できない場合には、発話開始後の初めの数秒の発話を用いて音響特徴量を参照するように構成してもよい。また、強調音声取得の対象となる発話の前に行われた発話との環境が変化しない場合には、前の発話での騒音抑圧部３の選択結果を用いて強調音声の取得を行うように構成してもよい。

実施の形態５．
上述した実施の形態１−３の音声認識装置１００，１００ａ，１００ｂおよび実施の形態４の音声強調装置２００は、例えば音声による通話機能を備えたナビゲーションシステム、電話対応システム、エレベータなどに適用することができる。この実施の形態５では、実施の形態１の音声認識装置をナビゲーションシステムに適用した場合について示す。
図１１は、実施の形態５に係るナビゲーションシステム３００の構成を示す機能ブロック図である。
ナビゲーションシステム３００は、例えば車両に搭載されて目的地までの経路案内を実行する装置であり、情報取得装置３０１、制御装置３０２、出力装置３０３、入力装置３０４、音声認識装置１００、地図データベース３０５、経路算出装置３０６および経路案内装置３０７を備える。ナビゲーションシステム３００の各装置の動作は、制御装置３０２によって統括的に制御される。

情報取得装置３０１は、例えば現在位置検出手段、無線通信手段および周囲情報検出手段などを備え、自車の現在位置、自車周囲、他車で検出された情報を取得する。出力装置３０３は、例えば表示手段、表示制御手段、音声出力手段および音声制御手段などを備え、ユーザに情報を通知する。入力装置３０４は、マイクなどの音声入力手段、ボタン、タッチパネルなどの操作入力手段によって実現され、ユーザからの情報入力を受け付ける。音声認識装置１００は、実施の形態１で示した構成および機能を備えた音声認識装置であり、入力装置３０４を介して入力された騒音音声データに対して音声認識を行い、音声認識結果を取得し、制御装置３０２に出力する。

地図データベース３０５は、地図データを記憶する記憶領域であり、例えば、ＨＤＤ（Hard Disk Drive）、ＲＡＭ（Random Access Memory）などの記憶装置として実現される。経路算出装置３０６は、情報取得装置３０１が取得した自車の現在位置を出発地とし、音声認識装置１００の音声認識結果を目的地とし、地図データベース３０５に記憶された地図データに基づいて出発地から目的地までの経路を算出する。経路案内装置３０７は、経路算出装置３０６により算出された経路に従って自車両を案内する。

ナビゲーションシステム３００は、入力装置３０４を構成するマイクからユーザの発話を含む騒音音声データが入力されると、音声認識装置１００は当該騒音音声データに対して上述した図３のフローチャートで示した処理を行い、音声認識結果を取得する。経路算出装置３０６は、制御装置３０２および情報取得装置３０１から入力される情報に基づいて、情報取得装置３０１が取得した自車の現在位置を出発地とし、音声認識結果が示す情報を目的地とし、地図データに基づいて出発地から目的地までの経路を算出する。経路案内装置３０７は、経路算出部３０６が算出した経路に従って算出した経路案内の情報を出力装置３０３を介して出力し、ユーザに対して経路案内を行う。

以上のように、この実施の形態５によれば、入力装置３０４に入力されたユーザの発話を含む騒音音声データに対して、音声認識装置１００が、良好な音声認識率を示す音声認識結果を導くと予測された騒音抑圧部３により騒音抑圧処理を行い、音声認識を行うように構成したので、音声認識率が良好な音声認識結果に基づいて経路算出を行うことができ、ユーザの希望に合った経路案内を行うことができる。

なお、上述した実施の形態５では、ナビゲーションシステム３００に実施の形態１で示した音声認識装置１００を適用する構成を示したが、実施の形態２で示した音声認識装置１００ａ、実施の形態３で示した音声認識装置１００ｂまたは実施の形態４で示した音声強調装置２００を適用して構成してもよい。ナビゲーションシステム３００に音声強調装置２００を適用する場合には、ナビゲーションシステム３００側が強調音声を音声認識する機能を備えるものとする。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る音声認識装置および音声強調装置は、良好な音声認識率または音響指標が得られる騒音抑圧手法を選択することができるので、ナビゲーションシステム、電話対応システムおよびエレベータなど通話機能を備えた装置に適用することができる。

１第１の予測部、１ａ第２の予測部、２，２ａ，２ｂ抑圧手法選択部、３，３ａ，３ｂ，３ｃ騒音抑圧部、４音声認識部、５特徴量算出部、６，６ａ類似度算出部、７認識率データベース、８音響指標データベース、１００，１００ａ，１００ｂ音声認識装置、２００音声強調装置、３００ナビゲーションシステム、３０１情報取得装置、３０２制御装置、３０３出力装置、３０４入力装置、３０５地図データベース、３０６経路算出装置、３０７経路案内装置。

Claims

入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
前記騒音抑圧部により騒音信号が抑圧された音声データの音声認識を行う音声認識部と、
前記入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧部によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測する予測部と、
前記予測部が予測した音声認識率に基づいて、前記複数の騒音抑圧部から前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声認識装置。
前記予測部は、前記音響特徴量の短時間フーリエ変換のフレーム毎に、前記音声認識率の予測を行うこと特徴とする請求項１記載の音声認識装置。
前記予測部は、前記音響特徴量を入力とし、前記音響特徴量の音声認識率を出力とするニューラルネットワークで構成されることを特徴とする請求項１記載の音声認識装置。
前記予測部は、前記音響特徴量を入力として分類処理を行い、音声認識率の高い前記騒音抑圧部を示す情報を出力とするニューラルネットワークで構成されることを特徴とする請求項１記載の音声認識装置。
前記予測部は、前記騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、予め蓄積された音声認識率を取得する類似度算出部とを備えたことを特徴とする請求１記載の音声認識装置。
入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
前記入力された騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得する類似度算出部とを有する予測部と、
前記類似度算出部が取得した音響指標に基づいて、前記複数の騒音抑圧部から前記騒音音声データの騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声強調装置。
予測部が、入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧手法によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測するステップと、
抑圧手法選択部が、前記予測された音声認識率に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップと、
音声認識部が、前記騒音抑圧処理により騒音信号が抑圧された音声データの音声認識を行うステップとを備えた音声認識方法。
予測部の特徴量算出部が、入力された騒音音声データから発話単位で音響特徴量を算出するステップと、
予測部の類似度算出部が、前記算出された音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得するステップと、
抑圧手法選択部が、前記取得された音響指標に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップとを備えた音声強調装置。
請求項１記載の音声認識装置と、
移動体の現在位置を当該移動体の出発地とし、前記音声認識装置の出力である音声認識結果を前記移動体の目的地とし、地図データを参照して、前記出発地から前記目的地までの経路を算出する経路算出装置と、
前記経路算出部が算出した経路に従って前記移動体の移動を案内する経路案内装置とを備えたナビゲーション装置。