JP2015069063A

JP2015069063A - 音声認識システム、音声認識方法、及び音声認識プログラム

Info

Publication number: JP2015069063A
Application number: JP2013204277A
Authority: JP
Inventors: 伸二吉木; Shinji Yoshiki; 裕史須藤; Yasushi Sudo; 伊藤　彰則; Akinori Ito; 彰則伊藤; 晃平町田; Kohei Machida
Original assignee: Tohoku University NUC; NEC Communication Systems Ltd
Current assignee: Tohoku University NUC; NEC Communication Systems Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2015-04-13

Abstract

【課題】マイクロホンによる非同期観測若しくは間欠観測を前提とした環境雑音の影響を良好に取り除く音声認識システムを提供する。【解決手段】音声認識システムとして、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部とを設ける。【選択図】図１

Description

本発明は、音声認識技術に関し、詳しくは雑音耐性を強固にした音声認識システム、音声認識方法および音声認識用プログラムに関する。

情報処理システムを用いる音声認識技術は、入力された音声データに含まれる言語情報を取り出す技術である。音声認識技術を用いたシステムは、音声データすべてをテキストに変換すれば音声ワープロとして利用でき、音声データに含まれるキーワードを抽出すれば音声コマンド入力装置などとして利用できる。

音声認識技術では、被解析音響信号に含まれる環境雑音を低減させることで良い結果を得られる。このため、多くの研究者がこの問題に取り組んでいる。

環境雑音に強い音声認識手法は数多く提案されている。これらの方法を幾つか例示すれば、以下の３つの方法が含まれる。

（１）複数のマイクロホンから入力音声信号を同時に受け付けて、信号処理により入力音声の雑音成分を低減する。

（２）入力音声信号から所望する音声区間を特定すると共に、その直前に含まれていた雑音を用いて、音声区間からその雑音を除去する。

（３）所望する音声と雑音とが合さった音響をモデル化し、雑音が重畳した音声をこのモデルを用いて認識する。

これら音声認識技術の雑音対策に関連する技術を例示すれば、特許文献１や２、非特許文献１ないし３に記載されている。

特許文献１と非特許文献１は、マイクロホンアレイによる雑音低減を図っている。上記（１）に当たる。

非特許文献２は、スペクトル減算法による雑音低減を図っている。上記（２）に当たる。

非特許文献３と非特許文献４は、HMMモデル合成法による雑音低減を図っている。上記（３）に当たる。

また、発明者は、過去に非特許文献５の雑音除去手法を提案している。当該手法では、複数のマイクによる音響の非同期・間欠観測によって環境雑音を予め標本として収集し、その雑音影響を被解析音響信号（発話区間）からスペクトル減算する。換言すれば、音声認識システムは、音声に重畳している雑音のパワースペクトルを、非同期・間欠観測で収集してある標本に基づいて推定し、被解析音響信号から除去する。また、スペクトル減算に用いる標本について、被解析音響信号を受け付けるマイクから取得する雑音と、他のマイクから取得する雑音との相違を補正する一手法を開示している。

特開２００８−７９２５６号公報

騒音下音声認識のためのマイクロホンアレー技術, 金田豊, 日本音響学会誌, vol.53, no.11, pp.872-876, 1997. Suppression of acoustic noise in speech using spectral subtraction, S.F.Boll, IEEE Trans.Acoust.Speech Signal Process., vol.ASSP-27, no.2, pp.113-120, 1979. Robust continuous speech recognition using parallel model combination, M.J.F.Gales, S.J.Young, IEEE Trans. Speech and Audio Process., vol.4, pp.352-359, 1996. Recognition of noisy speech by composition of speech and noise, F.Martin, K.Shikano, Y.Minami, Proc. European Conference on Speech Communication and Technology, pp.1031-1034, 1993. 非同期・間欠観測型複数マイクロホンを用いたスペクトル減算による雑音除去の検討, 町田晃平, 伊藤彰則，日本音響学会講演論文集．1-Q-30b, 2013-3.

音声認識技術では、雑音対策を行うことによって認識精度の向上が図れる。また、雑音対策に要する様々なコストの低減が望まれる。

雑音対策手法では、同期した複数のマイクロホンを用いた手法が数多く提案されている（マイクロホンアレイを用いた特許文献１や非特許文献１など）。

マイクロホンアレイは、同期した複数のマイクロホンを間隔をおいて設置することで、それぞれのマイクロホンが観測した音響信号の位相差を求めることができる。この位相差や音響強度を利用することによって、音声認識システムは音源方向の推定や特定方向の音の強調などが識別可能となる。また、この手法では一般的に、システム内のマイクロホン（アレイ化されたマイクロホン）全てが音声を待つ間常時的に音響信号を観測している。

同期した複数のマイクロホンを利用することで、良好な耐雑音性能が得られる。
他方、このような手法には、複数のマイクロホンのサンプリングを同期させる必要がある。また、マイクロホンを３入力や４入力と増やした際に、処理リソースが指数的に増加しやすい特性がある。また多くの手法は、マイクロホン自体の特性も揃える必要がある。

より具体的に問題点を例示すれば以下のことが挙げられる。
上記（１）の手法では、アレイ化したマイクロホン数と同数の多チャンネルＡＤコンバータが必要となり、機器のコストが高くなりやすい。
また上記（２）の手法では、雑音が定常であることが求められる。テレビの音や話し声などの非定常雑音が重畳する利用環境には適さない傾向がある。
また上記（３）の手法では、音声認識に要する計算量が大きくなり、また作成される音声認識モデルが複雑になる。組み込み機器や携帯電話などでの音声認識に適さない側面を有する。

発明者は、自身の知見によって、音響の間欠観測によって環境雑音を除去することが有益であると考える。
また、複数のマイクロホンを使用する際にも非同期で動作させて利用できる手法が望ましいと考える。非同期観測や間欠観測では、上記手法（１）（２）（３）と比較して、例えば、演算処理リソースの低減や、処理に要する電力の低減が図れ、また他にも装置の簡単化などの様々な利点がある。

そこで、本発明の目的は、マイクロホンの非同期観測及び／又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供することである。

本発明に係る音声認識システムは、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部とを含むことを特徴とする。

本発明に係る音声認識方法は、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、音声認識対象とする音声区間の音響信号（被解析音響）を取得する工程と、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、導出した前記音声情報を所要形態で出力する工程と、を含むことを特徴とする。

本発明に係る音声認識プログラムは、情報処理システムを、音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、として動作させることを特徴とする。

本発明によれば、マイクロホンの非同期観測及び／又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供できる。

第１の実施形態に係る音声認識システムを示した構成図である。複数のマイクロホンの非同期／間欠観測を例示する説明図である。音声認識システムの音声認識処理例を示したフローチャートである。第２の実施形態に係る音声認識システムを示した構成図である。集合雑音モデルの生成処理を示した説明図である。一実施例に係る音声認識システムを示した構成図である。

次に、発明の実施形態について図面を参照して詳細に説明する。尚、説明を明瞭とするため、本発明と関係の少ない入力や制御処理、表示、必要な通信などに関する説明は、簡略化又は省力する。

ここで、発明の理解を容易にするために、実施形態にかかる前提を説明する。なお、以下の条件に限定される分けではない。

・生活環境中の雑音や音声が混ざった音響を観測してシステムが音声認識を行う。
・雑音観測は環境雑音を複数のマイクロホンで間欠的に収録する。
・音声認識エンジンはシステムに内在する。若しくは外部音声認識エンジンにネットワークを介して問い合わせて応答を受ける。
・システムは、マイクロホン間の同期もしくは常時観測の何れかが少なくとも行わない。

・観測した複数の音響標本を用いて雑音をモデル化して記憶する。運用後にも雑音観測を間欠的に実施して各モデルを適宜学習させる。
・認識すべき音声が入力されている期間（有音声区間）の音響について、音声認識する。

［第１の実施形態］
次に、第１の実施形態を図面を参照して説明する。
図１は、第１の実施形態に係る音声認識システム１０を示した構成図である。
音声認識システム１０は、ノイズ除去音声認識処理部１００とノイズモデル記憶部２００を含み、任意の音声認識エンジンと通信して音声認識結果を得る。各部は以下の処理を行える構成を有する。

ノイズ除去音声認識処理部１００は、音声認識対象とする音声区間の音響信号を被解析音響として取得する。この被解析音響には、話者の音声と環境雑音が混じっている。

ノイズ除去音声認識処理部１００は、ノイズモデル記憶部２００に記憶されている複数の雑音モデルの一つずつを用いて、取得した被解析音響からそれぞれの雑音モデルが表す雑音成分を除去若しくは低減した仮想ノイズ除去音響信号を複数生成処理する。雑音成分の除去は、所望する音声と雑音の音圧差や、音声帯域特性等を踏まえて行えばよい。

本仮想ノイズ除去音響信号の生成処理（仮想ノイズ除去音響信号生成工程）では、ノイズモデル記憶部２００に格納されている複数の雑音モデルを必ずしも全て使用する必要は無い。例えば、出現確率の低いノイズは、後述する結果選定処理において、良好な結果が得られない際に追加的に用いることとしてもよい。また、出現確率の高い常時的なノイズは、他の１つの雑音モデルと共に仮想ノイズ除去音響信号の生成処理に用いてもよい。出現確率の高低は、リソース量や認識精度に合せて、所要に閾値を設定すればよい。

各仮想ノイズ除去音響信号は、ノイズ除去に用いた雑音モデルに応じて、被解析音響に含まれていた環境雑音が低減された信号と、環境雑音の影響が低減されなかった信号が生成されることになる。

なお、本ノイズ除去音声認識処理では、被解析音響を所要に特徴量列に変換して各種処理を行う構成としてもよい。特徴量列を用いた際には、スペクトログラムやＦＢＡＮＫ（フィルタバンク対数パワー）などを用いた処理が容易になる。

ノイズ除去音声認識処理部１００は、複数のノイズ除去音響信号をそれぞれ音声認識エンジン（音声認識処理工程）に送り、その各認識結果をそれぞれ受け付けて記憶する。

ノイズ除去音声認識処理部１００は、各認識結果を入力情報として結果選定処理（結果選定処理工程）を実施することによって、入力された音響信号に含まれていた音声情報を最終的に尤度算定処理によって導出処理する。この出力としては、音声解析結果として所望される内容を適宜出力すればよい。例えば、音声の内容を示すテキストや、音声に含まれていた単語列、音声コマンド信号である。また、音声の特徴量列なども合わせて出力するようにしてもよい。
結果選定処理では、音声認識処理工程で得られた各認識結果について、各認識結果のスコアや信頼度から尤もらしい結果もしくは結果候補を最終出力として導出する。この際、各認識結果に含まれていた候補の多数決を採ってもよい。また、多数決を採る際に、スコア値や信頼度値を踏まえることとしてもよい。

ノイズモデル記憶部２００は、使用環境下で標本としてマイクロホンによって観測された音響信号群を用いて生成された雑音分類結果毎の雑音モデルを保持する。
保持する雑音モデルは、後述する実施例のように自システムで生成してもよいし、他のシステムによって生成されたモデルを利用してもよい。また、既存のモデルや音響標本と共に、自システムで観測した雑音を加えて雑音モデルを学習してもよい。

家庭内で観測される雑音は、一般的に、テレビの音，エアコンの音，会話の音，風切り音、家庭外の音など、その環境によって様々な種類がある程度限定される。すなわち、家庭内で音声認識を行う際にはこれらの雑音に対応できるようにしたい。そこで、予めこれらの雑音をそれぞれ雑音モデルとして保持する。なお、家庭外で観測される雑音を例示すれば、工事現場の任意機械，任意工具が発する音響や、コンプレッサ音、警笛、任意の電子音などがある。これらの雑音も、マイクロホンによる間欠的、非同期に標本を収集してモデル化できる。

図２は、使用環境下で３台のマイクロホンが間欠的に標本とする音響信号を観測するタイミングを示した説明図である。図２では、異なる位置に配置された３台のマイクロホンを用いてそれぞれ異なる期間（t₀〜t₃）を間欠観測する。なお、この３台のマイクロホンから受ける音響信号を取得する際に、同期させたサンプリング処理を行う必要はない。
このように観測した雑音を収集して、雑音の種類毎にモデル化する。雑音観測は、１台のマイクロホンで部屋内の異なる箇所で雑音収集を行ってもよく、また、異なる位置、異なる時間の標本が取れることが望ましい。また、雑音観測は、異なるマイクロホンで必ずしも異なる期間で観測する必要は無く、観測期間がオーバラップしていたとしても構わない。

なお、雑音の種類によっては、実環境で収集せずとも、モデル化済みのデータを利用することもできる。例えば、所定種類の家電（冷蔵庫、洗濯機、ＤＶＤプレイヤーなど）による雑音モデルや、特定の騒音が生じる地域（電車や飛行機、高速道路など）の騒音モデルなどを音圧調整や通過周波数帯を踏まえた帯域ファイルタを通すことで、使用環境に適応させて利用することもできる。また、このモデルの調整には、使用環境下で観測された間欠観測された音響信号も利用できる。

次に、音声認識システム１０の処理動作例を説明する。
図３は、音声認識システム１０の音声認識処理を示したフローチャートである。
音声認識システム１０は、予めノイズモデル記憶部２００に雑音低減に用いる雑音モデル群を保持する。また、必要に応じて、用いる音声認識エンジンや、出力結果の種別などの選択を受け付ける。本処理例では、４つの雑音モデルを保持している。後述するＧＭＭ（Gaussian Mixture Model）であれば混合数４の集合雑音モデルを１つ保持している。

音声認識システム１０（ノイズ除去音声認識処理部１００）は、被解析信号（音声認識用音響信号）を受け付ける（ステップＳ１０１）。被解析信号は、必要に応じてメモリー等に一時記憶される。

次に、音声認識システム１０は、被解析信号を雑音モデルの数（＝４）となるようにコピーして、各コピー被解析信号と各々の雑音モデルとを用いて、並列的にノイズ低減処理を実施する（ステップＳ１０２）。すなわち、４つ有る雑音モデルの１つ毎にノイズ低減処理を行う。

次に、音声認識システム１０は、生成された各仮想ノイズ除去音響信号をそれぞれ音声認識エンジンに送り、その各認識結果をそれぞれ受け付けてメモリー等に記憶する（ステップＳ１０３）。

次に、音声認識システム１０は、各々の雑音モデルで処理された仮想ノイズ除去音響信号に対して行われた各々の認識結果を総合的に比較処理して、最終的に出力する尤もらしい結果を選定する（ステップＳ１０４）。

次に、音声認識システム１０は、選定した結果を、モニターやプリンタ、他の装置、他のプログラムなどに所要形態で出力する（ステップＳ１０５）。

このように音声認識システム１０を動作させることで、マイクロホンの非同期観測や間欠観測を前提とした雑音観測でも、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除くことができる。

［第２の実施形態］
次に、本発明の第２の実施形態を説明する。
図４は、第２の実施形態に係る音声認識システム２０を示した構成図である。
音声認識システム２０は、ノイズ除去音声認識処理部１００とノイズモデル記憶部２００と音声認識エンジン３００と音響受付部４００と雑音モデル生成部５００を有している。各部は以下の処理を行える構成を有する。

ノイズ除去音声認識処理部１００は、第１の実施形態で説明したように動作する。また、本実施形態では、被解析音響は前処理で特徴量列に変換されるシステムを説明する。

ノイズモデル記憶部２００には、複数の雑音モデルが蓄積されている。また、各雑音モデルは演算を容易化可能に１つの集合雑音モデルとして蓄積される。また、音声認識環境に合せて複数保持されている。ここでの音声認識環境とは、利用者や部屋の違いなどである。

音声認識エンジン３００は、公知の音声認識エンジンであり、本システムではシステム内に内在させている。なお、外部音声認識エンジンを用いるようにしてもよい。

音響受付部４００は、様々な位置やタイミングで複数のマイクロホンから音響信号（観測雑音）を受け付ける。また、音響受付部４００は、被解析音響信号も受け付ける。音響受付部４００は、受け付けた各音響信号を特徴量列に変換する。被解析音響信号は、音響受付部４００によって、音声認識対象とする音声区間に切り出されてもよいし、例えば発話周波数帯域の所定音圧を検知時のみに音響受付部４００が音響信号を受け付けるようにしてもよい。

雑音モデル生成部５００は、音響受付部４００によって取得された多くの観測雑音を逐次的に受け付けて、任意タイミングで、観測雑音群に含まれていた雑音分類毎の雑音を表した雑音モデルを生成処理する。生成する雑音モデルの数は任意数である。システム構成や被解析音声の目的に応じて適宜設定すればよい。例えば、固定数を予め与えてもよい。また、最大数を与え、それ以下を維持するように運用すればよい。また、仮想ノイズ除去音響信号生成工程で用いる数よりも多めに生成してもよい。この際、雑音の発生頻度などから生成したモデル間の順位（使用優先度）を定めて、どの雑音モデルを用いるか自動的／半自動的に選定される仕組みを有することが望ましい。例えば、時間帯や利用者などの差による採用すべき雑音モデルが導出される。

このように、雑音分類毎に雑音モデルを生成するため、非同期観測や間欠観測の結果からでも本システムに即した雑音モデルを適切に取得できる。また、異なる不定位置に置かれたマイクロホンから得た雑音標本でも有効に利用できる。また、複数のマイクロホン間で観測結果を得る際に、同期していることを必要としない。

また、本実施形態では、各雑音モデルは１つの集合雑音モデルとして生成する。
図５は、１つの集合雑音モデルを生成処理する処理動作を示した説明図である。
まずは、音響受付部４００は標本となる音響信号を収集して、特徴量列に変換する（ステップＳ２０１、Ｓ２０２）。
次に、雑音モデル生成部５００は、標本の特徴量列を用いて各雑音をモデル化する（ステップＳ２０３）。
雑音毎のモデル化には、ガウス混合モデル(Gaussian Mixture Model: ＧＭＭ) を集合雑音モデルとして用いる。ＧＭＭにおいて、特徴ベクトルx の音が発生する尤度p(x) は下記式１で表される。

ここで、多次元混合ガウス分布N(x;μ_m,Σ_m) は混合要素である。
この多次元混合ガウス分布は、それぞれに平均ベクトルμ_mと共分散行列Σ_m を有する。M は混合数，λ_i は重み係数である。
λ_i，μ_m，Σ_m はＥＭアルゴリズムを用いて学習データを基に推定すればよい。
ＧＭＭの学習の結果得られた各ガウス分布が個々の雑音モデルであることして用いる。この際、混合数Mは、設定値を用いればよい。

このように作成した集合雑音モデルをノイズモデル記憶部２００に出力して逐次格納する（ステップ２０４）。

ノイズ除去音声認識処理部１００は、ノイズモデル記憶部２００に格納されている集合雑音モデルを用いて、第１の実施形態と同様の処理ルーチンで音声認識処理を実施する。この際、例えば部屋や操作者など毎に集合雑音モデルを選択できる構成で、認識の正答率の向上を図ってもよい。

［実施例］
ここで、一つの実施例を説明する。
音声認識システムの構成は第２の実施形態の構成を用いる。本実施例では、各音響信号をＦＢＡＮＫに変換して扱う。
また、本方式の雑音の間欠観測や非同期観測の特徴によって、具現化した際の装置構成が簡単化でき、またエネルギー消費を常時観測や同期観測のシステムに対して削減できる。

まず、音声認識システムは、ＧＭＭを準備する。任意数のマイクロホンで非定期に収集した／された音響信号（雑音又は音声＋雑音）は、音響信号データとして音響受付部４００に送られる。音響受付部４００では、取得した音響信号について解析対象音響か否かを判定して、音声の場合は音声データとしてノイズ除去音声認識処理部１００に送る。音響信号が音声でない場合、音響受付部４００は、雑音データとして雑音モデル生成部５００に送る。

雑音モデル生成部５００では、逐次送られてくる各雑音データをフィルタバンク特徴量に変換処理する。次に、ある程度標本数が蓄積した時点で、ガウス混合モデルによって雑音データをＮ個のガウス分布にモデル化して記録する。標本１つ毎に学習を行ってもよいものの、ある程度標本数が変化したら学習モデルを変更することとすればよい。

一方、受け付けた音響信号を解析する場合、ノイズ除去音声認識処理部１００は、送られてきた被解析信号（入力音声＋雑音）をフィルタバンク特徴量系列に変換した後にコピーして、コピーされた各特徴量系列からＮ個あるガウス分布の平均ベクトルのそれぞれを減算処理する。この際、FBANK特徴量をいったん指数関数によって真数領域に変換して減算を行ったのち、再び対数関数によって対数領域に変換する。この減算処理によって、各雑音モデルを反映したフィルタバンク特徴量系列を生成する。結果、Ｎ種類の特徴量系列を得る。

次に、ノイズ除去音声認識処理部１００は、このＮ種類の特徴量系列に離散コサイン変換を施すことによって、Ｎ種類のMFCC特徴量系列を得る。Ｎ種類のMFCC特徴量系列をそれぞれ独立させて音声認識エンジン３００に送り、Ｎ種類の認識結果を得る。それぞれの認識結果では、付随する情報として認識スコアおよび信頼度を得る。

次に、ノイズ除去音声認識処理部１００は、Ｎ種類の認識結果の認識スコア及び信頼度を必要に応じて組み合わせて、多数決等を用いて最終的に出力する尤もらしい認識候補を得る。

このように、観測した音響を、予めＧＭＭによりモデル化しておき、入力音声に対してモデル内に含まれた各雑音クラスで雑音除去処理を実行して、その後音声認識処理を並列的に実行する。次に、得られた様々な認識結果を統合的に選定処理することで最終的な認識結果を導出する。

また、ガウス混合モデルによる雑音の学習を行えば、通常の音声認識のモデル学習よりも格段に計算量を少なく学習が行える。

さらに、雑音が重畳した音声を入力として、且つ最適な雑音除去の結果を選定するので、非定常的なノイズであっても低減効果を得られやすい。換言すれば、例え音声に重畳した雑音が発話の直前や直後と一致していなくても雑音影響を低減できる。

このように、非定常雑音が多い環境下でも様々な雑音を自律的に学習でき、さらにこの学習結果を反映させて音声認識を行うことが可能になる。また、装置のハードウェア構成が簡単化できる。加えて、比較的少ない計算リソースにおいて高精度な認識を実現ができる。

尚、音声認識システムの各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、図６に示すように、ＲＡＭに音声認識プログラムが展開され、このプログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させて各種手段として実現する。また、前記プログラムは、記憶媒体に固定的に記録されて頒布されてもよい。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施の形態を別の表現で説明すれば、音声認識システムとして動作させる情報処理装置を、ＲＡＭに展開された音声認識プログラムに基づき、ノイズ除去音声認識処理手段、ノイズモデル記憶手段、音声認識手段、音響受付手段、雑音モデル生成手段として制御部を動作させることで実現することが可能である。

また、環境雑音の観測は、間欠的に行えばよく、またマイクロホン間の観測間隔を必ずしも一定にする必要もあるわけではない。他方、マイクロホン間で観測区間を共通にしていたとしても処理に影響を及ぼすわけではない。

音を観測していないマイクロホンは省電力の待機状態にすることが望ましい。

また、各マイクロホンに一定以上のパワーの音が入力されたときに機器が動作して、音響観測状態にする構成でもよい。

雑音観測の間隔は、任意である。一定間隔で起動して雑音観測してもよいし、ランダムに起動して雑音観測を行ってもよい。また、ある程度のトレーニング後は、音声認識用区間の取得後の無音区間を用いてもよい。

最終的な音声認識結果の導出処理では、仮設探索手法を用いればよい。複数の認識結果から尤もスコアや信頼度が高い候補を最終的な認識結果として選択したり、複数の認識結果の上位候補内で，多く出現した候補を有力候補として選択すればよい。また、出力する結果候補が予め限定されているシステム（例えば音声コマンド入力装置など）では、最終候補を踏まえて、候補の絞込みを行えばよい。

以上に実施形態及び実施例を図示して説明するが、そのブロック構成の分離併合、手順の入れ替えなどの変更は本発明の趣旨および説明される機能を満たせば自由であり、上記説明が本発明を限定するものではない。

以上説明したように、本発明によれば、マイクロホンの非同期観測及び／又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供できる。

また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
［付記１］
一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
を含みなることを特徴とする音声認識システム。

［付記２］
一ないし複数のマイクロホンから受け付けた非同期観測及び／又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする上記付記記載の音声認識システム。

［付記３］
前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識システム。

［付記４］
前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識システム。

［付記５］
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識システム。

［付記６］
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識システム。

［付記７］
前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号（被解析音響）をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの１つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識システム。

［付記８］
前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識システム。

［付記９］
任意の音声認識エンジンをシステム内に含み、
前記ノイズモデル記憶部は、雑音分類結果毎の複数の雑音モデルを保持し、
前記ノイズ除去音声認識処理部は、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記ノイズ除去音声認識処理部は、前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識システム。

［付記１０］
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号（被解析音響）から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
を有することを特徴とする音声認識システム。

［付記１１］
一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
音声認識対象とする音声区間の音響信号（被解析音響）を取得する工程と、
該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
導出した前記音声情報を所要形態で出力する工程と、
を含みなることを特徴とする情報処理システムによる音声認識方法。

［付記１２］
一ないし複数のマイクロホンから受け付けた非同期観測及び／又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成工程を含むことを特徴とする上記付記記載の音声認識方法。

［付記１３］
前記雑音モデル生成工程は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識方法。

［付記１４］
前記雑音モデル生成工程は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識方法。

［付記１５］
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識方法。

［付記１６］
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識方法。

［付記１７］
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記仮想ノイズ除去音響信号を生成処理する工程では、音声認識対象とする音声区間の音響信号（被解析音響）をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの雑音ガウス分布の平均ベクトルの１つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識方法。

［付記１８］
前記仮想ノイズ除去音響信号を生成処理する工程では、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識方法。

［付記１９］
任意の音声認識エンジンをシステム内に含み、
該システムは、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識方法。

［付記２０］
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付け、この複数の間欠音響信号から雑音モデルを生成して、複数の雑音モデルを準備し、
音声認識対象とする音声区間の音響信号（被解析音響）から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理する
ことを特徴とする音声認識方法。

［付記２１］
情報処理システムを、
音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。

［付記２２］
前記情報処理システムを、
一ないし複数のマイクロホンから受け付けた非同期観測及び／又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部として更に動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２３］
前記雑音モデル生成部を、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理するように動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２４］
前記雑音モデル生成部を、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出するように動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２５］
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないように動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２６］
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２７］
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記ノイズ除去音声認識処理部を、音声認識対象とする音声区間の音響信号（被解析音響）をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの前記雑音ガウス分布の平均ベクトルの１つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ように動作させることを特徴とする上記付記記載の音声認識プログラム。

［付記２８］
前記ノイズ除去音声認識処理部を、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択するように動作させることを特徴とすることを特徴とする上記付記記載の音声認識プログラム。

［付記２９］
任意の音声認識エンジンを含み、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識プログラム。

［付記３０］
情報処理システムを、
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号（被解析音響）から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。

［付記３１］
情報処理システムを、
音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラムを固定的に記録した記録媒体。

本発明は、電池駆動デバイスのような間欠観測を行いたい機器や、装置構成を簡略化した機器を用いた音声認識に適している。例えば、スマートフォンやゲーム機，ゲーム機コントローラ、マイクロホンを搭載したＩＣレコーダ，リモコンなどが挙げられる。また、音響観測は、ゲーム機本体とゲーム機コントローラのように物理的位置が異なるマイクロホンで採ることがよい。

また、ＰＣやゲーム機などでの音声認識処理にあたり、ネットワーク接続したスマートフォンのマイクロホンでサンプリングされた音響を利用するようにも構成できる。

１０音声認識システム
２０音声認識システム
１００ノイズ除去音声認識処理部（ノイズ除去音声認識処理手段）
２００ノイズモデル記憶部（ノイズモデル記憶手段）
３００音声認識エンジン（音声認識手段）
４００音響受付部（音響受付手段）
５００雑音モデル生成部（雑音モデル生成手段）

Claims

一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
を含みなることを特徴とする音声認識システム。
一ないし複数のマイクロホンから受け付けた非同期観測及び／又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする請求項１記載の音声認識システム。
前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする請求項２に記載の音声認識システム。
前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする請求項２に記載の音声認識システム。
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする請求項１ないし４の何れか一項に記載の音声認識システム。
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする請求項１ないし５の何れか一項に記載の音声認識システム。
前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号（被解析音響）をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの１つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする請求項４記載の音声認識システム。
前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする請求項７記載の音声認識システム。
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号（被解析音響）から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
を有することを特徴とする音声認識システム。
一ないし複数のマイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
音声認識対象とする音声区間の音響信号（被解析音響）を取得する工程と、
該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
導出した前記音声情報を所要形態で出力する工程と、
を含みなることを特徴とする情報処理システムによる音声認識方法。
情報処理システムを、
音声認識対象とする音声区間の音響信号（被解析音響）を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び／又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。