JP6751322B2

JP6751322B2 - 音響モデル生成装置及び方法、音声認識装置及び方法

Info

Publication number: JP6751322B2
Application number: JP2016175350A
Authority: JP
Inventors: 鎬式李; 喜烈崔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-09-10
Filing date: 2016-09-08
Publication date: 2020-09-02
Anticipated expiration: 2036-09-08
Also published as: CN106531155B; JP2017054122A; EP3142106B1; CN106531155A; EP3142106A1; US20170076719A1; US10127905B2; KR102209689B1; KR20170030923A

Description

本発明は、音声認識技術に関し、特に、音響モデル生成装置及び方法、音声認識装置及び方法に関する。

最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスするか、事務やその他のサービスを利用できて、ユーザの多様なニーズ（ｎｅｅｄｓ）を充足させるためである。

音声認識技術で重要な問題の１つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、訓練環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識性能を低下させる主要原因の１つである。

したがって、多様なノイズを含む実際の音声認識環境で使われるノイズに頑健な（ｒｏｂｕｓｔ）音響モデル生成技術の必要性が台頭している。

本発明が解決しようとする課題は、音響モデル生成装置及び方法、音声認識装置及び方法を提供するところにある。

ノイズに頑健な音響モデル生成装置及び方法と、ノイズに頑健な音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。

一態様による音響モデル生成装置は、ノイズモデルを用いてノイズデータを代表するノイズ表現（ｎｏｉｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を算出し、音声（ｓｐｅｅｃｈ）データと前記ノイズデータとを含む訓練用ノイジー音声（ｔｒａｉｎｉｎｇｎｏｉｓｙｓｐｅｅｃｈ）データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するプロセッサを含み得る。

音響モデル生成装置は、命令（ｉｎｓｔｒｕｃｔｉｏｎｓ）を保存するメモリをさらに含み、前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するように、前記プロセッサを構成する命令を実行することができる。

前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、を含み得る。

前記ノイズ表現算出部は、前記ノイズデータの特徴（ｆｅａｔｕｒｅ）を抽出する特徴抽出部と、前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、を含み得る。

前記ノイズモデルは、訓練用ノイズ（ｔｒａｉｎｉｎｇｎｏｉｓｅ）データを用いてオートエンコーダ（Ａｕｔｏ−ｅｎｃｏｄｅｒ）を通じてあらかじめ生成され得る。
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。

前記プロセッサは、マルチタスクラーニング（Ｍｕｌｔｉ−ＴａｓｋＬｅａｒｎｉｎｇ）技法を用いて前記音響モデルを生成することができる。

前記プロセッサは、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成し、前記第１目的関数は、音素確率の推定に用いられ、前記第２目的関数は、ノイズ表現の推定に用いられ得る。

前記音響モデル生成部は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み得る。

他の態様による音響モデル生成方法は、ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて音響モデルを生成する段階と、を含み得る。

前記ノイズ表現を算出する段階は、前記ノイズデータの特徴を抽出する段階と、前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、を含み得る。

前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。

前記生成された音響モデルは、神経網基盤の音響モデルであり得る。

前記音響モデルを生成する段階は、マルチタスクラーニング技法を用いて前記音響モデルを生成することができる。

前記音響モデルを生成する段階は、第１目的関数と第２目的関数との加重和から獲得される第３目的関数を用いて、前記音響モデルを生成する段階を含み、前記第１目的関数は、音素確率の推定に用いられ、前記第２目的関数は、前記ノイズ表現の推定に用いられ得る。

前記音響モデルを生成する段階は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、を含み得る。

さらに他の態様による音声認識装置は、音響モデルを保存する保存部と、前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。

前記算出部は、前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み得る。

前記ノイズ表現は、ノイズモデルを用いて算出される。

前記音響モデルは、神経網基盤の音響モデルであり得る。

前記音響モデルは、マルチタスクラーニング技法を用いて生成され得る。
前記音響モデルは、第１目的関数と第２目的関数との加重和から獲得された第３目的関数を用いて生成され、前記第１目的関数は、音素確率の推定に用いられ、前記第２目的関数は、前記ノイズ表現の推定に用いられ得る。

前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答（ｔａｒｇｅｔ）データとして、学習を通じて生成され得る。

さらに他の態様による音声認識方法は、入力されたノイジー音声（ｎｏｉｓｙｓｐｅｅｃｈ）データの特徴を抽出する段階と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。

前記ノイズ表現は、ノイズモデルを用いて算出される。

前記音響モデルは、神経網基盤の音響モデルであり得る。

前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成され得る。

さらに他の態様による音響モデル生成装置は、音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、音素分類（ｐｈｏｎｅｍｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）とノイズ表現の抽出が同時に行われる。

音響モデル生成装置は、特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダをさらに含み得る。

前記オートエンコーダは、訓練用ノイズデータを用いて前記ノイズモデルをあらかじめ生成することができる。

音響モデル生成装置の一実施形態を示すブロック図である。ノイズモデルの生成を説明する例示図である。音響モデルの生成を説明する例示図である。音声認識装置の一実施形態を示すブロック図である。音響モデル生成方法の一実施形態を示すフローチャートである。図５のノイズ表現を算出する方法の例を示すフローチャートである。図５の音響モデルを生成する方法の例を示すフローチャートである。音声認識方法の一実施形態を示すフローチャートである。ノイズモデル生成装置の一実施形態を示す図面である。ノイズモデル生成方法の一実施形態を示すフローチャートである。

以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するにあたり、関連した公知機能または構成についての具体的な説明が、本発明の要旨を不明にするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わり得る。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。

図１は、音響モデル生成装置の一実施形態を示すブロック図である。

図１を参照すれば、音響モデル生成装置１００は、入力部１１０、ノイズ表現算出部１２０、及び音響モデル生成部１３０を含み得る。

入力部１１０は、音響モデル生成のための訓練用音声データ（ｔｒａｉｎｉｎｇｓｐｅｅｃｈｄａｔａ）（以下、音響モデル訓練用音声データ）及び訓練用ノイズデータ（ｔｒａｉｎｉｎｇｎｏｉｓｅｄａｔａ）（以下、音響モデル訓練用ノイズデータ）を入力され得る。

ノイズ表現算出部１２０は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。このために、ノイズ表現算出部１２０は、特徴抽出部１２１、ノイズモデル保存部１２２、及びノイズモデリング部１２３を含み得る。

特徴抽出部１２１は、抽出アルゴリズムを実行して音響モデル訓練用ノイズデータの特徴を抽出することができる。この際、抽出アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

ノイズモデル保存部１２２は、ノイズモデルを保存することができる。一実施形態によれば、ノイズモデルは、多様な訓練用ノイズデータ（以下、ノイズモデル訓練用ノイズデータ）を用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるノイズデータを含み得る。

ノイズモデル保存部１２２は、フラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えば、ＳＤまたはＸＤメモリなど）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも１つのタイプの記録媒体を含み得る。

一方、図１は、ノイズモデル保存部１２２が、ノイズ表現算出部１２０の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、ノイズモデル保存部１２２は、ノイズ表現算出部１２０の内部に具現されてもよく、ノイズ表現算出部１２０の外部の別個の構成要素として具現されてもよい。

ノイズモデリング部１２３は、ノイズモデル保存部１２２に保存されたノイズモデルを用いて、特徴抽出部１２１から抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。

ノイズモデルの生成及び利用に関する説明は、図２を参照して後述する。

音響モデル生成部１３０は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成することができる。一実施形態によれば、音響モデル生成部１３０は、マルチタスクラーニング技法を用いて音響モデルを生成することができる。このために、音響モデル生成部１３０は、混合部１３１、特徴抽出部１３２、及び音響モデル学習部１３３を含み得る。

混合部１３１は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して訓練用ノイジー音声データ（ｔｒａｉｎｉｎｇｎｏｉｓｙｓｐｅｅｃｈｄａｔａ）（以下、音響モデル訓練用ノイジー音声データ）を生成することができる。

特徴抽出部１３２は、他のノイズデータから音響モデル訓練用ノイジー音声データを区別するために、アルゴリズムを用いて音響モデル訓練用ノイジー音声データから特徴を抽出することができる。前述したように、アルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

音響モデル学習部１３３は、特徴抽出部１３２から抽出された音響モデル訓練用ノイジー音声データの特徴、音響モデル訓練用音声データに対応する音素列、及びノイズモデリング部１２３から算出された音響モデル訓練用ノイズデータのノイズ表現に基づいて音響モデルを学習することができる。言い換えれば、音響モデル学習部１３３は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。

この際、音響モデルは、神経網（ＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の音響モデルであり得るが、これに限定されるものではない。

一方、神経網基盤の音響モデルの場合、複数の隠れ層を含み、典型的な誤謬逆伝播技法を用いて学習され得る。

一実施形態によれば、音響モデル学習部１３３は、数式（１）の目的関数（ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ）を用いて音響モデルを学習することができる。

ここで、Ｌ_Ａは、音素確率を推定するために、音響モデルの学習に使われる目的関数（以下、第１目的関数）であり、Ｌ_Ｎは、ノイズ表現を推定するために、音響モデルの学習に使われる目的関数（以下、第２目的関数）である。

数式（１）から分かるように、音響モデル学習に用いられる目的関数は、第１目的関数と第２目的関数との加重和（ｗｅｉｇｈｔｅｄｓｕｍ）から獲得される。

一実施形態によれば、第１目的関数Ｌ_Ａは、マルチクラス分類（ｍｕｌｔｉ−ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）に主に使われるクロスエントロピー（ｃｒｏｓｓ−ｅｎｔｒｏｐｙ）を利用できる。それを数式で表現すれば、数式（２）のようである。

ここで、Ｋは、出力クラス（ｏｕｔｐｕｔｃｌａｓｓ）の個数（例えば、音素の個数）を示す。ｔ_ｋは、正答クラスである場合、１を、正答クラスではない場合、０の値を有する。

一実施形態によれば、第２目的関数Ｌ_Ｎは、回帰（ｒｅｇｒｅｓｓｉｏｎ）に主に使われるユークリッド距離（Ｅｕｃｌｉｄｉａｎｄｉｓｔａｎｃｅ）を利用できる。それを数式で表現すれば、数式（３）のようである。

ここで、Ｐは、入力（出力）特徴の次元（ｔｈｅｄｉｍｅｎｓｉｏｎｏｆｉｎｐｕｔ（ｏｕｔｐｕｔ）ｆｅａｔｕｒｅ）を示し、ｆ_ｐは、ｐ番目の入力ノードの活性化値（ａｃｔｉｖａｔｉｏｎｖａｌｕｅｏｆｐ_ｔｈｉｎｐｕｔｎｏｄｅｓ）を示し、ｇ_ｐは、ｐ番目の出力ノードの活性化値（ａｃｔｉｖａｔｉｏｎｖａｌｕｅｏｆｐ_ｔｈｏｕｔｐｕｔｎｏｄｅｓ）を示す。

一方、図１は、音響モデル生成装置１００が、入力部１１０及びノイズモデル保存部１２２を含むものと示されているが、入力部１１０及びノイズモデル保存部１２２は、必須構成ではなく、システムの性能及び用途によって省略可能である。

図２は、ノイズモデルの生成を説明する例示図である。示された例のノイズモデルは、オートエンコーダ基盤のノイズモデルを示す。

一実施形態によれば、ノイズモデルは、オートエンコーダを通じて学習され得る。オートエンコーダは、複数個の隠れ層（ｈｉｄｄｅｎｌａｙｅｒ）を含み、フィルターバンク（ｆｉｌｔｅｒｂａｎｋ）のような特徴を入力として受けて、入力から入力の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）２１０を算出し、表現２１０から入力と最も類似した出力を再構成するように学習される。

一実施形態によれば、オートエンコーダ基盤のノイズモデルは、数式（４）のような目的関数を用いて学習され得る。

ここで、ｘ_ｋは、入力を示し、ｚ_ｋは、出力を示す。Ｋは、音響モデル訓練用ノイズデータサンプルインデックスを示す。すなわち、オートエンコーダ基盤のノイズモデルは、出力が入力を再構成するように訓練される。

一実施形態によれば、オートエンコーダは、中間の隠れ層のノードの個数が入力／出力の次元（ｄｉｍｅｎｓｉｏｎ）よりも小さいか、またはＬ１ノルム（Ｌ１ｎｏｒｍ）のように希少性（ｓｐａｒｓｅｎｅｓｓ）を与える制約（ｃｏｎｓｔｒａｉｎｔ）が必要である。例えば、１２３個のフィルターバンク（４１ｄｉｍｓｔａｔｉｃｆｉｌｔｅｒｂａｎｋ＋ｄｅｌｔａ＋ｄｅｌｔａ−ｄｅｌｔａ）が入力される場合、オートエンコーダの中間の隠れ層（特に、ノイズ表現部分のレイヤ）のノードの個数は、これよりも小さな４０個とすることができる。このようなオートエンコーダを通じて、次元縮小（ｄｉｍｅｎｓｉｏｎｒｅｄｕｃｔｉｏｎ）と同じ効果が得られ、入力から入力を代表する表現を算出できるように学習する。

オートエンコーダは、入力を表現に変えるエンコーダ部分２２０と表現を再び出力に変えるデコーダ部分２３０とを含む。エンコーダ部分２２０及びデコーダ部分２３０は、それぞれプロセッサ、コントローラまたは回路などを含む構造的装置であり得るが、これに限定されるものではない。ノイズモデルは、学習されたオートエンコーダでデコーダ部分２３０を除去することで生成され得る。すなわち、ノイズモデルは、学習されたオートエンコーダのエンコーダ部分２２０のみで構成することができる。

図３は、音響モデルの生成を説明する例示図である。

図１及び図３を参照すれば、特徴抽出部１２１は、音響モデル訓練用ノイズデータ３１０を受信して音響モデル訓練用ノイズデータ３１０の特徴（ｆｂａｎｋ＿ｎｏｉｓｅ）を抽出する。

ノイズモデリング部１２３は、あらかじめ生成されたノイズモデル３４０を用いて特徴（ｆｂａｎｋ＿ｎｏｉｓｅ）から音響モデル訓練用ノイズデータ３１０に対応するノイズ表現３５０を算出する。

混合部１３１は、音響モデル訓練用音声データ３２０と音響モデル訓練用ノイズデータ３１０とを混合して音響モデル訓練用ノイジー音声データ３３０を生成する。

特徴抽出部１３２は、音響モデル訓練用ノイジー音声データ３３０を受信して音響モデル訓練用ノイジー音声データ３３０の特徴（ｆｂａｎｋ＿ｎｏｉｓｙ＿ｓｐｅｅｃｈ）を抽出する。

音響モデル学習部１３３は、特徴（ｆｂａｎｋ＿ｎｏｉｓｙ＿ｓｐｅｅｃｈ）を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現３５０を正答データとして、音響モデル３７０を学習する。言い換えれば、音響モデル学習部１３３は、マルチタスクラーニング技法を用いて音響モデル３７０が音素分類３６０とノイズ表現３５０の抽出を同時に行うように音響モデル３７０を学習する。

図４は、音声認識装置の一実施形態を示すブロック図である。図４を参照すれば、一実施形態による音声認識装置４００は、入力部４１０、音響モデル保存部４２０、及び算出部４３０を含み得る。

入力部４１０は、音声認識の対象となる音声データとノイズデータとが混合されたノイジー音声データを入力され得る。

音響モデル保存部４２０は、あらかじめ学習されて生成された音響モデルを保存することができる。この際、音響モデルは、図１の音響モデル生成装置１００から生成された音響モデルであり得る。

例えば、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多様なタイプのノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。

音響モデルは、神経網基盤の音響モデルであって、マルチタスクラーニング技法を用いて生成された音響モデルであり得る。言い換えれば、音響モデルは、音響モデル訓練用音声データと音響モデル訓練用ノイズデータとが混合された音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、学習を通じて生成された音響モデルであり得る。この際、音響モデルは、数式（１）ないし数式（３）の目的関数を用いて学習され得る。

音響モデル保存部４２０は、フラッシュメモリタイプ、ハードディスクタイプ、マルチメディアカードマイクロタイプ、カードタイプのメモリ（例えば、ＳＤまたはＸＤメモリなど）、ＲＡＭ、ＳＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＰＲＯＭ、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも１つのタイプの記録媒体を含み得る。

算出部４３０は、音響モデル保存部４２０に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部４３０は、特徴抽出部４３１及び音素確率算出部４３２を含み得る。

特徴抽出部４３１は、アルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

音素確率算出部４３２は、音響モデル保存部４２０に保存された音響モデルを用いて特徴抽出部４３１から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。

一方、図４は、音声認識装置４００が、入力部４１０及び音響モデル保存部４２０を含むものと示されているが、入力部４１０及び音響モデル保存部４２０は、必須構成ではなくて、システムの性能及び用途によって省略可能である。

図５は、音響モデル生成方法の一実施形態を示すフローチャートである。

図１及び図５を参照すれば、音響モデル生成装置１００は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出する（５１０）。

ここで、ノイズモデルは、多様なノイズモデル訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるタイプのノイズデータを含み得る。

ノイズモデルの生成に関する具体的な内容は、図２を参照して前述したので、その詳細な説明は省略する。

音響モデル生成装置１００は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成する（５２０）。

図６は、図５のノイズ表現を算出する段階（５１０）の詳細フローチャートである。

図１及び図６を参照すれば、音響モデル生成装置１００は、アルゴリズムを用いて音響モデル訓練用ノイズデータの特徴を抽出する（６１０）。この際、アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

音響モデル生成装置１００は、抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出する（６２０）。

図７は、図５の音響モデルを生成する段階（５２０）の詳細フローチャートである。

図１及び図７を参照すれば、音響モデル生成装置１００は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して音響モデル訓練用ノイジー音声データを生成する（７１０）。

音響モデル生成装置１００は、アルゴリズムを用いて音響モデル訓練用ノイジー音声データの特徴を抽出する（７２０）。前述したように、所定のアルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

音響モデル生成装置１００は、音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、音響モデルを学習する（７３０）。言い換えれば、音響モデル生成装置１００は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。

この際、音響モデルは、神経網基盤の音響モデルであり得るが、これに限定されるものではない。

一実施形態によれば、音響モデル生成装置１００は、数式（１）ないし数式（３）の目的関数を用いて音響モデルを学習することができる。

図８は、音声認識方法の一実施形態を示すフローチャートである。

図４及び図８を参照すれば、音声認識装置４００は、アルゴリズムを用いて入力されたノイジー音声データから特徴を抽出する（８１０）。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。

音声認識装置４００は、音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出する（８２０）。

ここで、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多数のノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。

図９は、ノイズモデル生成装置の一実施形態を示す図面である。図９を参照すれば、ノイズモデル生成装置９００は、学習部９１０及び生成部９２０を含み得る。

学習部９１０は、多数の訓練用ノイズデータを用いてオートエンコーダを学習することができる。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。

一実施形態によれば、学習部９１０は、数式（４）の目的関数を用いてオートエンコーダを学習することができる。

生成部９２０は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成することができる。

図１０は、ノイズモデル生成方法の一実施形態を示すフローチャートである。

図９及び図１０を参照すれば、ノイズモデル生成装置９００は、多様な訓練用ノイズデータを用いてオートエンコーダを学習する（１０１０）。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。

一実施形態によれば、ノイズモデル生成装置９００は、数式（４）の目的関数を用いてオートエンコーダを学習することができる。

ノイズモデル生成装置９００は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成する（１０２０）。

図１、図４及び図９の入力部１１０、ノイズ表現算出部１２０、特徴抽出部１２１、ノイズモデリング部１２３、ノイズモデル保存部１２２、音響モデル生成部１３０、混合部１３１、特徴抽出部１３２、音響モデル学習部１３３、入力部４１０、特徴抽出部４３１、音響モデル保存部４２０、音素確率算出部４３２、学習部９１０、生成部９２０は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含み得る。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような１つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する１つ以上のメモリを含むか、１つ以上のメモリに連結され得る。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制（ＯＳ）及び運用体制上で動作する１つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データに接近、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含み得る。例えば、１つのハードウェアコンポーネントまたは２つ以上のハードウェアコンポーネントは、１つのプロセッサ、２つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラとして具現可能である。１つ以上のハードウェアコンポーネントは、１つ以上のプロセッサ、１つのプロセッサ及び１つのコントローラとして具現可能であり、１つ以上の他のプロセッサは、１つ以上の他のプロセッサ、１つの他のプロセッサ及び１つの他のコントローラとして具現可能である。１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラは、１つのハードウェアコンポーネントまたは２つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、１つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ（ＳＩＳＤ）マルチプロセッシング、シングルインストラクションマルチプルデータ（ＳＩＭＤ）マルチプロセッシング、マルチプルインストラクションシングルデータ（ＭＩＳＤ）マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ（ＭＩＭＤ）マルチプロセッシングなどを含む１つ以上の互いに異なるプロセッシング構成を有し得る。

本明細書に開示された動作を行い、図５ないし図８及び図１０に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータによって行われる。例えば、１つの動作または２つ以上の動作は、１つのプロセッサ、２つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラによって行われる。１つ以上の動作は、１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラによって行われ、１つ以上の他の動作は、１つ以上の他のプロセッサ、または１つの他のプロセッサ及び１つの他のコントローラによって行われる。１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラは、１つの動作、または２つ以上の動作を行うことができる。

ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、１つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて１つ以上のプロセッサまたはコンピュータによって実行されるハイレベル（ｈｉｇｈｅｒ−ｌｅｖｅｌ）コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述され得る。

命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、１つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、Ｒａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＦｌａｓｈＭｅｍｏｒｙ、ＣＤ−ＲＯＭｓ、ＣＤ−Ｒｓ、ＣＤ＋Ｒｓ、ＣＤ−ＲＷｓ、ＣＤ＋ＲＷｓ、ＤＶＤ−ＲＯＭｓ、ＤＶＤ−Ｒｓ、ＤＶＤ＋Ｒｓ、ＤＶＤ−ＲＷｓ、ＤＶＤ＋ＲＷｓ、ＤＶＤ−ＲＡＭｓ、ＢＤ−ＲＯＭｓ、ＢＤ−Ｒｓ、ＢＤ−ＲＬＴＨｓ、ＢＤ−ＲＥｓ、ｍａｇｎｅｔｉｃｔａｐｅｓ、ｆｌｏｐｐｙｄｉｓｋｓ、ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｄａｔａｓｔｏｒａｇｅｄｅｖｉｃｅｓ、ｏｐｔｉｃａｌｄａｔａｓｔｏｒａｇｅｄｅｖｉｃｅｓ、ｈａｒｄｄｉｓｋｓ、ｓｏｌｉｄ−ｓｔａｔｅｄｉｓｋｓ、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、１つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含み得る。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、１つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。

以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。

本発明は、音響モデル生成装置及び方法、音声認識装置及び方法関連の技術分野に適用可能である。

Claims

ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する、プロセッサ、
を含む、音響モデル生成装置。
命令を保存するメモリをさらに含み、
前記プロセッサは、
前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する、ように構成された命令を実行する、
請求項１に記載の音響モデル生成装置。
前記プロセッサは、
前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、
前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、
を含む、請求項１または２に記載の音響モデル生成装置。
前記ノイズ表現算出部は、
前記ノイズデータの特徴を抽出する特徴抽出部と、
前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、
を含む、請求項３に記載の音響モデル生成装置。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項１乃至４いずれか一項に記載の音響モデル生成装置。
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項３に記載の音響モデル生成装置。
前記プロセッサは、第１目的関数と第２目的関数との加重和から獲得される第３目的関数を用いて、前記音響モデルを生成し、
前記第１目的関数は、音素確率の推定に用いられ、
前記第２目的関数は、ノイズ表現の推定に用いられる、
請求項１に記載の音響モデル生成装置。
前記音響モデル生成部は、
前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、
を含む、請求項３に記載の音響モデル生成装置。
ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、
音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する段階と、
を含む、音響モデル生成方法。
前記ノイズ表現を算出する段階は、
前記ノイズデータの特徴を抽出する段階と、
前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、
を含む、請求項９に記載の音響モデル生成方法。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項９または１０に記載の音響モデル生成方法。
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項９に記載の音響モデル生成方法。
前記音響モデルを生成する段階は、
第１目的関数と第２目的関数との加重和から獲得される第３目的関数を用いて、前記音響モデルを生成する段階を含み、
前記第１目的関数は、音素確率の推定に用いられ、
前記第２目的関数は、前記ノイズ表現の推定に用いられる、
請求項９に記載の音響モデル生成方法。
前記音響モデルを生成する段階は、
前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、
前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、
を含む、請求項９に記載の音響モデル生成方法。
音響モデルを保存する保存部と、
前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、
前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、生成される、音声認識装置。
前記算出部は、
前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、
前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、
を含む、請求項１５に記載の音声認識装置。
前記ノイズ表現は、ノイズモデルを用いて算出される、
請求項１５に記載の音声認識装置。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項１７に記載の音声認識装置。
前記音響モデルは、神経網基盤の音響モデルである、
請求項１５に記載の音声認識装置。
前記音響モデルは、第１目的関数と第２目的関数との加重和から獲得された第３目的関数を用いて生成され、
前記第１目的関数は、音素確率の推定に用いられ、
前記第２目的関数は、前記ノイズ表現の推定に用いられる、
請求項１５に記載の音声認識装置。
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
請求項１５に記載の音声認識装置。
入力されたノイジー音声データの特徴を抽出する段階と、
音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、
前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、生成される、音声認識方法。
前記ノイズ表現は、ノイズモデルを用いて算出される、
請求項２２に記載の音声認識方法。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項２３に記載の音声認識方法。
前記音響モデルは、神経網基盤の音響モデルである、
請求項２２に記載の音声認識方法。
前記音響モデルは、第１目的関数と第２目的関数との加重和から獲得された第３目的関数を用いて生成され、
前記第１目的関数は、音素確率の推定に用いられ、
前記第２目的関数は、前記ノイズ表現の推定に用いられる、
請求項２２に記載の音声認識方法。
前記音響モデルは、訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
請求項２２に記載の音声認識方法。
音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、
音素分類とノイズ表現の抽出が同時に行われるように音響モデルを学習し、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する、
音響モデル生成装置。
特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダを、
さらに含む、請求項２８に記載の音響モデル生成装置。
前記オートエンコーダは、訓練用ノイズデータを用いてノイズモデルをあらかじめ生成する請求項２９に記載の音響モデル生成装置。
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項２８に記載の音響モデル生成装置。