JP7426686B2

JP7426686B2 - 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法

Info

Publication number: JP7426686B2
Application number: JP2019114876A
Authority: JP
Inventors: 隆寛福森; 敬信西浦
Original assignee: Ritsumeikan Trust
Current assignee: Ritsumeikan Trust
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2024-02-02
Anticipated expiration: 2039-06-20
Also published as: JP2021001949A

Description

特許法第３０条第２項適用公開の事実１：２０１９年３月６日の「日本音響学会２０１９年春季研究発表会」にて発表公開の事実２：２０１９年２月１９日の「日本音響学会２０１９年春季研究発表会論文集」日本音響学会に掲載公開の事実３：２０１８年９月１２日の「日本音響学会２０１８年秋季研究発表会」にて発表公開の事実４：２０１８年８月２９日の「日本音響学会２０１８年秋季研究発表会論文集」日本音響学会に掲載

本開示は、音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法に関する。

マイクで入力された音声を認識して各種処理に用いるためには、音声認識性能が高い方がよい。音声認識性能には、マイクによる音声入力の際の環境が大きく影響する。残響が大きい環境や騒音がある環境ではマイクの入力音声の音質が低下し、音声認識性能の低下につながるためである。そのため、音声入力する環境に応じて音声認識性能を予測することが重要である。

この点、以下の特許文献１（特開２０１８－８４５９４号公報）は、ユーザ環境でインパルス応答を測定し、測定されたインパルス応答から得られた特徴量を用いるものである。

特開２０１８－８４５９４号公報

しかしながら、ユーザ環境のインパルス応答を測定するためには、測定のためにスピーカ及びマイクを含む録音再生機器が必要となり、計測の手間や計測コストが必要となる。そのため、計測の手間や計測コストを抑えて、精度よく音声認識性を予測することが望まれる。

ある実施の形態に従うと、音声認識性能の予測システムは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルを備える。

他の実施の形態に従うと、学習モデルの構築方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、残響音声に基づく値を入力層へ入力し、残響音声に基づく値から得られる、残響音声下での音声認識性能を表す値を出力層へ入力する、ことを備える。

他の実施の形態に従うと、音声認識性能の予測方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルに対して、残響を含むノイズのない環境における音声とインパルス応答とから生成された残響音声に基づく値を入力し、残響音声に基づく値が入力された学習モデルから、残響音声の得られた空間における音声認識性能の予測値を得る、ことを備える。

更なる詳細は、後述の実施形態として説明される。

図１は、本実施の形態に係る音声認識性能の予測システムの構成の一例を示した図である。図２は、予測システムでの予測方法を説明する図である。図３は、予測システムに搭載される学習モデルの構築方法を表したフローチャートである。図４は、図３の学習モデルの構築方法を説明するための図である。図５は、図３の学習モデルの構築方法を説明するための図である。図６は、図３の学習モデルの構築方法を説明するための図である。図７は、図３の学習モデルの構築方法の他の例を説明するための図である。図８は、発明者らによる予測実験の結果を示した図である。

＜１．音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法の概要＞

（１）本実施の形態に含まれる音声認識性能の予測システムは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルを備える。残響音声とは、残響のみからなる音声であってもよいし、残響に雑音が混入した音声であってもよい。学習モデルを用いることによって、残響音声に基づく値を入力することで音声認識性能の予測値が得られ、利用環境のインパルス応答を測定する必要がなくなる。そのため、計測の手間や計測コストを抑えて、精度よく音声認識性を予測することができる。

（２）好ましくは、残響音声に基づく値は、残響音声の音声特徴量を含む。これにより、残響音声を示す音声波形から容易に算出することができる。

（３）好ましくは、残響音声に基づく値は、区間ごとの残響音声の複数の音声特徴量を含む音響特徴フレームから構成され、残響音声に基づく値を入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む。音声認識性能の予測に複数フレームを用いることで、高精度で予測できる。

（４）好ましくは、残響音声に基づく値を入力することは、対象フレーム群と、予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む。これにより、フレームの近傍へ影響する要因も考慮して、高精度で音声認識性能を予測できる。

（５）好ましくは、音声認識性能の予測値を出力することは、対象フレーム群と他のフレーム群とのそれぞれについて得られた、複数の音声認識性能の予測値から、予測対象の区間についての１つの音声認識性能の予測値を算出すること、を含む。これにより、高精度で音声認識性能を予測することができる。

（６）本実施の形態に含まれる学習モデルの構築方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、残響音声に基づく値を入力層へ入力し、残響音声に基づく値から得られる、残響音声下での音声認識性能を表す値を出力層へ入力する、ことを備える。この機械学習が行われることで、学習モデルは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するようになる。その結果、（１）～（５）の予測システムを構築することができる。

（７）好ましくは、学習モデルの構築方法は、残響音声を、クリーン音声とインパルス応答とから生成することをさらに備える。これにより、予測のたびに利用環境におけるインパルス応答の測定を行う必要がなくなる。

（８）好ましくは、学習モデルの構築方法は、残響音声を、クリーン音声とインパルス応答とノイズとから生成することをさらに備える。これにより、さらに、ノイズも考慮して音声認識性能の予測値を出力するように機械学習させることができる。

（９）好ましくは、残響音声に基づく値は、残響音声の音声特徴量を含む。これにより、残響音声を示す音声波形から容易に算出することができる。

（１０）本実施の形態に含まれる音声認識性能の予測方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルに対して、クリーン音声とインパルス応答とから生成された残響音声に基づく値を入力し、残響音声に基づく値が入力された学習モデルから、残響音声の得られた空間における音声認識性能の予測値を得る、ことを備える。

（１１）好ましくは、残響音声に基づく値は、区間ごとの残響音声の複数の音声特徴量を含む音響特徴フレームから構成され、残響音声に基づく値を入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む。音声認識性能の予測に複数フレームを用いることで、高精度で予測できる。

（１２）好ましくは、残響音声に基づく値を入力することは、対象フレーム群と、予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む。これにより、フレームの近傍へ影響する要因も考慮して、高精度で音声認識性能を予測できる。

＜２．音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法の例＞

図１を参照して、音声認識性能の予測システム（以下、システムと略する）１００は、演算装置１を含む。演算装置１は、ＣＰＵ（Central Processing Unit）などのプロセッサ１０と、メモリ２０を含む一般的なコンピュータから構成される。演算装置１は、後述する残響音声に基づく値が入力されると、その残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデル１１を搭載している。

システム１００は、さらに、メモリ装置３を含む。また、システム１００は、さらに、出力装置５を含む。演算装置１は、メモリ装置３と通信可能である。また、演算装置１は、出力装置５と通信可能である。

メモリ２０は、プロセッサ１０で実行されるプログラムを記憶している。プロセッサ１０は、メモリ２０からプログラムを読み出して実行することで、音声認識性能を予測する処理を実行する。

図１及び図２を参照して、プロセッサ１０によって実行される音声認識性能を予測する処理は、音声入力処理（ステップＳ１１１）を含む。音声入力処理Ｓ１１１は、音声認識性能を予測する対象の環境（以下、利用環境と称する）で計測された音声を表す信号の入力を受け付ける処理である。利用環境で計測された音声は残響を含んだものであるため、残響等を含まない音声（以下、クリーン音声とも称する）と区別するために残響音声とも称する。ここでの残響音声は、残響のみからなる音声であってもよいし、残響に雑音が混入した音声であってもよい。以降の説明において、ノイズが０であるときには、残響音声は残響のみからなる音声となる。音声を表す信号は、例えば、振幅の時間変化を表した音声波形Ｗである。

利用環境でマイクロホンを用いて録音された残響音声を示す音声波形Ｗはメモリ装置３に記憶されており、音声入力処理Ｓ１１１は、メモリ装置３から指定された利用環境における音声波形Ｗを読み込む処理であってもよい。又は、音声入力処理Ｓ１１１は、利用環境において図示しないマイクロホンで音声を録音し、マイクロホンからの音声波形Ｗの入力を受け付ける処理であってもよい。

音声認識性能を予測する処理は、特徴量抽出処理（ステップＳ１１２）を含む。特徴量抽出処理Ｓ１１２は、音声入力処理Ｓ１１１によって入力された音声波形Ｗから残響音声に基づく値を抽出する処理である。残響音声に基づく値は、一例として音声特徴量である。

音声特徴量とは音声の特徴を表す値であって、音声解析を行うなどによって得られる値である。音声解析は、例えば、ＭＦＣＣ（メル周波数ケプストラム係数）などのスペクトル解析などである。すなわち、特徴量抽出処理Ｓ１１２は、一般的な音声の特徴量を抽出する処理でよく、例えば、所定期間の音声区間に対して行う、メルケプストラム分析などの一般的な周波数分析であってよい。この場合、分析条件は１６ｋＨｚサンプリング、分析フレーム長２５ｍｓｅｃ、及び、フレーム周期１０ｍｓｅｃとする。なお、音声特徴量は、パワーなどの音源情報を含んでもよい。

図２に示されるように、音声波形Ｗから得られる音声の特徴は、音声波形Ｗが測定された期間分の、特徴量抽出区間ごとの音声特徴量ＦＶが連続して表される。特徴量抽出区間は、音声波形Ｗが測定された期間内の極めて短い区間である。

音声波形Ｗのうちの１つの特徴量抽出区間からは、複数種類の音声特徴量が得られる。複数種類の音声特徴量は、例えば、ＭＦＣＣ（メル周波数ケプストラム係数）、ΔＭＦＣＣ（ＭＦＣＣの一次の回帰係数）、及び、パワー、などである。一例として、１つの特徴量抽出区間から、ＭＦＣＣが１２次元、ΔＭＦＣＣが１２次元、及び、パワーが１次元、が得られる。図２に示されるように、１つの特徴量抽出区間についてのこれら２５次元の音声特徴量ＦＶの組を、その特徴量抽出区間の音声特徴量を表すフレームＦとする。音声波形Ｗから得られる音声の特徴は、図２に示されるように、音声波形Ｗが測定された期間内の特徴量抽出区間ごとに時系列に並んだ複数のフレームＦによって表すことができる。

音声認識性能を予測する処理は、音声認識性能予測処理（ステップＳ１１３）を含む。音声認識性能予測処理Ｓ１１３は、学習モデル１１に特徴量抽出処理Ｓ１１２で抽出された音声特徴量ＦＶを入力する処理（ステップＳ１１３Ａ）と、学習モデル１１から出力される、残響音声の得られた空間における音声認識性能の予測値ＰＶを得る処理（ステップＳ１１３Ｂ）と、を含む。学習モデル１１は、後述する構築方法によって、予測対象とする特徴量抽出区間である予測区間ｔに関連した残響音声に基づく値が入力されると、その残響音声の得られた空間における予測区間ｔにおける音声認識性能の予測値を出力するよう機械学習されている。

音声特徴量を学習モデル１１に入力する処理Ｓ１１３Ａは、予測区間ｔの音声特徴量ＦＶを学習モデル１１の入力層に入力することを含む。好ましくは、予測区間ｔのフレームＦｔを学習モデル１１の入力層に入力する。

より好ましくは、予測区間ｔ近傍の他の特徴量抽出区間のフレームＦも入力層に入力することを含む。フレームＦｔを、対象フレームＦｔとも称する。すなわち、より好ましくは、対象フレームＦｔを含むＮフレーム（Ｎは２以上）を入力層に入力する。より好ましくは、Ｎフレームは、対象フレームＦｔと、対象フレームＦｔの時系列に前後それぞれに配置されたｎフレーム（ｎは１以上の規定数）と、を含む。Ｎフレームは、例えば、２４フレームである。対象フレームＦｔに対するＮフレームを、入力フレーム群とも称する。

学習モデル１１から予測値ＰＶを得る処理Ｓ１１３Ｂは、学習モデル１１の出力層から出力される予測値ＰＶを得ることであって、学習モデル１１の出力層からは、予測区間ｔについての予測値が出力される。これにより、予測区間ｔで利用環境において得られた音声に基づいて、その利用環境における音声認識性能の予測値を得ることができる。

好ましくは、音声特徴量を学習モデル１１に入力する処理Ｓ１１３Ａでは、対象フレームＦｔと、その近傍の複数のフレームＦとのそれぞれについての入力フレーム群を学習モデル１１の入力層に入力する。これにより、予測値ＰＶを得る処理Ｓ１１３Ｂでは、予測区間ｔと、その近傍の特徴量抽出区間とのそれぞれについての複数の予測値が得られる。この場合、音声認識性能予測処理Ｓ１１３は、さらに、複数の予測値から、予測区間ｔについての１つの予測値ＰＶを算出する処理Ｓ１１３Ｃを含む。１つの予測値ＰＶを算出する処理Ｓ１１３Ｃは、複数の予測値の代表値を算出することを含み、代表値は、例えば、平均値、メジアン、モードなどである。

対象フレームＦｔと、その近傍の複数のフレームＦとのそれぞれから得られた複数の予測値を用いて予測区間ｔについての予測値ＰＶを算出することによって、予測値の精度を向上させることができる。特に、残響は、予測対象とする予測区間ｔから遅れた時刻にマイクロホンに入力される音声に影響を及ぼす。そのため、対象フレームＦｔ前後の複数フレームを用いることで、残響の影響も考慮した高精度の予測値が得られる。

予測結果出力処理Ｓ１１４は、音声認識性能予測処理Ｓ１１３で得られた予測値に基づく情報を出力装置５に出力する処理である。出力装置５は、例えば、ディスプレイなどの結果を提示する装置である。この場合、予測結果出力処理Ｓ１１４は、例えば、予測値そのものを出力装置５に渡して、表示等の出力を指示する処理である。また、例えば、予測値に対応したメッセージ等の情報を予め記憶しておき、予測値に対応する情報を抽出して出力装置５に渡して、表示等の出力を指示する処理であってもよい。メッセージは、例えば、「もう少しマイクに近づいてください」などである。

出力装置５は、他の例として、利用環境に設置されている、残響を変化させる物の設置、解除を行う装置であってもよい。残響を変化させる物は、例えば、カーテンや窓などであって、設置、解除を行う装置は、その開閉やオンオフを行う装置である。この場合、予測結果出力処理Ｓ１１４は、音声認識性能予測処理Ｓ１１３で得られた予測値に基づく状態とするように制御信号を出力装置５に出力する。例えば、予測値が低い場合には、カーテンの開閉装置である出力装置５に対して、カーテンを開けるよう指示する制御信号を出力することが挙げられる。

［学習モデルの構築方法］

学習モデル１１は、図３～図６に示される方法によって構築される。すなわち、図３を参照して、初めに、残響音声を生成し（ステップＳ１０１）、生成された残響音声の特徴量を抽出する（ステップＳ１０３）。

図４を参照して、ステップＳ１０１で残響音声は、クリーン音声とインパルス応答とから生成される。クリーン音声は、ノイズのない環境においてマイクロホンによって測定された音声である。ここでのノイズは、利用環境における残響を含まず、利用環境内に設置された空調の機械音や利用環境外の車両の音などの雑音を指す。クリーン音声は、例えば単語ごとなどの音声ごとに測定される。図４の例では、音声１と音声２とを含む複数種類のクリーン音声が測定され、音声波形Ｗ１で示されている。

インパルス応答は、音源から測定するマイクロホンの設置位置までの音の伝わり方を示す値であって、マイクロホンに直接到達する音と、壁や床などに反射してマイクロホンに到達する音とから算出される。インパルス応答は、利用環境ごとに測定される。図４の例では、環境Ａと環境Ｂとを含む複数種類の環境のインパルス応答が測定され、音声波形Ｗ２で示されている。

ステップＳ１０１では、クリーン音声を表す音声波形Ｗ１と、インパルス応答を表す音声波形Ｗ２とが合成されることによって、残響音声を表す音声波形Ｗ３，Ｗ４を含む複数の音声波形が生成される。音声波形Ｗ３は、複数種類のクリーン音声それぞれを表す音声波形に対して環境Ａのインパルス応答を示す音声波形が合成された、環境Ａにおける各音声波形である。音声波形Ｗ４は、複数種類のクリーン音声それぞれを表す音声波形に対して環境Ｂのインパルス応答を示す音声波形が合成された、環境Ｂにおける各音声波形である。

図５を参照して、ステップＳ１０３では、音声波形Ｗ３，Ｗ４を含む複数の音声波形それぞれから特徴量が抽出される。すなわち、環境Ａにおける複数音声波形それぞれの特徴量ＦＶ１と、環境Ｂにおける複数音声波形それぞれの特徴量ＦＶ２と、を含む複数の特徴量が抽出される。

ステップＳ１０３で生成された特徴量は、学習モデル１１の入力層に入力される（ステップＳ１０５）。図６の例では、環境Ａにおける各音声波形から抽出された特徴量と、環境Ｂにおける各音声波形から抽出された特徴量と、を含む複数の特徴量が学習モデル１１の入力層に渡される。

一方、学習モデル１１の出力層には、ステップＳ１０１の残響音声生成に用いられたインパルス応答を示す利用環境に対応した音声認識性能値が入力される（ステップＳ１０７）。すなわち、教師データとして、入力値が利用環境下における音声の音声波形、及び、出力値がその利用環境に対応した音声認識性能値、の組が用いられる。図６の例では、環境Ａの音声認識性能値７０％、及び、環境Ｂの音声認識性能値６５％、を含む各環境の音声認識性能値が、学習モデル１１の出力層に渡される。これにより、学習モデル１１は、残響音声の特徴量が入力されると、その残響音声の得られた利用空間における音声認識性能値を音声認識性能の予測値として出力するように機械学習される。

なお、学習の際も、予測と同様に、特徴量を学習モデル１１の入力層に入力するときに、複数フレーム分の特徴量を入力する。そして、学習モデル１１の出力層に音声認識性能値を入力する際に、フレームごとの音声認識性能値を入力する。これにより、精度を向上させることができる。

学習モデル１１の入力層に入力する音声を、残響以外の影響を考慮したものとしてもよい。残響以外の影響は、例えば、ノイズである。残響以外の影響の他の例は、例えば、方言や、発話者の年齢、性別、などである。

残響以外の影響としてのノイズを考慮する場合、図７に示されたように、利用環境下での残響音声は、図６と同様にクリーン音声を示す音声波形Ｗ１にその利用環境で測定されたインパルス応答を示す音声波形Ｗ２を合成して得られる。さらに、その利用環境下でのノイズは、ノイズを示す音声波形Ｗ５に、同一のインパルス応答を示す音声波形Ｗ２を合成して得られる。そして、残響音声を示す音声波形とノイズにインパルス応答を合成して得られた音声波形と、を合成することによって、利用環境においてさらにノイズの影響も加えた音声の音声波形Ｗ７，Ｗ８，…が得られる。このように、学習モデル１１の入力層に入力する音声に様々な要素を示す音声波形を加えることで、学習モデル１１を利用環境に応じた学習モデルに機械学習できる。

なお、プロセッサ１０の実行する各処理は、複数の演算装置で分担して行われてもよい。その場合、その複数の演算装置が協働してシステム１００を構成する。

［予測実験］

発明者らは、実施の形態に係るシステム１００の予測精度を確認する実験を行った。実験で用いた学習モデルの構築条件は以下である。
構築：全結合の多層パーセプロトン
各層の素子数：
素子数入力層：６００素子（残響音声の音声特徴量入力用）
隠れ層：１００素子×１～３層
出力層：１素子（音声認識性能値出力用）
入力する音声特徴量（６００次元）：
ＭＦＣＣ（メル周波数ケプストラム係数）の次元数：１２次元
ΔＭＦＣＣ（ＭＦＣＣの一次の回帰係数）の次元数：１２次元
ΔＰｏｗｅｒ（パワーの一次の回帰係数）の次元数：１次元
合計フレーム数：２４フレーム（対象フレーム＋前後２３フレーム）
活性化関数：ＲｅＬＵ（Rectified Linear Unit, Rectifier：正規化線形関数）
評価関数：音声認識性能の真値と推定値との二乗誤差
パラメータ学習法：誤差逆伝搬法（学習率の調整にはAdamを採用）
評価音声と音声認識性能
クリーン音声：ＡＴＲ音素バランス文（１話者５０文×１０話者）
残響：距離や発話方位が異なる１２０カ所のインパルス応答
音声認識性能の数：１２００個（１０話者×１２０カ所）（なお、１０００個は学習用、２００個を試験に用いた）

また、音声を認識するために用いた音響モデル及び言語モデルの構築条件は以下である。
音声認識器：Julius（ver.4.4.2）、ディクテーションキット（ver.4.4）
言語モデル：語彙サイズ５９０８４の単語Trigramモデル（現代日本語書き言葉均衡コーパスの約1億語を用いて学習）
音響モデル：性別非依存のＤＮＮ－ＨＭＭ（JNASコーパス、CSJの計378時間の音声データで学習）
入力層：１３２０素子（１１フレームの音響特徴量を連結）
隠れ層：２０４８素子×７層
出力層：２００４素子
音響特徴量：フィルタバンク＋１次差分＋２次差分（４０次元×３＝１２０次元）

実験では、上記音響モデル及び言語モデルを用いた音声の認識結果を上記のように構築された学習モデル１１を搭載したシステム１００に入力することによって、真の音声認識性能を算出した。なお、上記の音響モデルの挙動として、以下の条件で、学習モデル１１の入力層に音声波形から抽出される音声特徴量を入力した。音声特徴量は隠れ層を通過し、最終的に出力層から各音素の生起確率が出力される。
音声特徴量：フィルタバンク＋１次差分＋２次差分（４０次元×３＝１２０次元）
入力層：１３２０素子（１１フレームの音声特徴量を連結）

また、システム１００での音声認識性能予測は、平均性能予測誤差を評価指標とした。平均性能予測誤差は、音声認識性能の真値と予測値との絶対誤差である。また、１回の予測に用いる文章数は、１文、５文、１０文、３０文、及び、５０文とした。

学習モデル１１の各隠れ層数での、１回の予測に用いた文章数ごとの平均性能予測誤差は図８のように得られた。なお、図８の括弧内の数は標準偏差を表している。

図８に示された結果より、本システム１００では、少ない文章数であっても予測に有効な特徴量が抽出されていることがわかる。このとき、学習モデル１１の隠れ層数が多くなるほど平均性能予測誤差が小さくなっているため、隠れ層数が多い方がよいことが確認された。

一方、文章数が多くなっても平均性能予測誤差は微減にすぎない。そのため、本システム１００では、数文程度の発話でも音声認識性能が予測可能であることが確認された。

＜３．付記＞
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。

１：演算装置
３：メモリ装置
５：出力装置
１０：プロセッサ
１１：学習モデル
２０：メモリ
１００：システム
Ｆ：フレーム
ＦＶ：特徴量
ＦＶ１：特徴量
ＦＶ２：特徴量
Ｆｔ：対象フレーム
ＰＶ：予測値
Ｓ１１１：音声入力処理
Ｓ１１２：特徴量抽出処理
Ｓ１１３：音声認識性能予測処理
Ｓ１１３Ａ：特徴量ＦＶを入力する処理
Ｓ１１３Ｂ：学習モデルから予測値を得る処理
Ｓ１１３Ｃ：１つの予測値を算出する処理
Ｓ１１４：予測結果出力処理
Ｗ：音声波形
Ｗ１：音声波形
Ｗ２：音声波形
Ｗ３：音声波形
Ｗ４：音声波形
Ｗ５：音声波形
Ｗ７：音声波形
Ｗ８：音声波形

Claims

残響音声の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する音声認識性能予測処理を実行するよう構成され、
前記学習モデルは、残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成され、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測システム。
各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含み、
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項１に記載の音声認識性能の予測システム。
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項２に記載の音声認識性能の予測システム。
前記音声認識性能の予測値を出力することは、前記対象フレーム群と前記他のフレーム群とのそれぞれについて得られた、複数の音声認識性能の予測値から、前記予測対象の区間についての１つの前記音声認識性能の予測値を算出すること、を含む
請求項３に記載の音声認識性能の予測システム。
残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、
残響音声の複数の音響特徴フレーム、及び、前記残響音声の得られた空間における音声認識性能の値の組である教師データのうち、複数の前記音響特徴フレームを学習モデルの入力層へ入力し、前記音声認識性能の値を学習モデルの出力層へ入力することで、前記教師データによる機械学習を行って、前記学習モデルを構築することを含み、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
学習モデルの構築方法。
前記残響音声を、クリーン音声とインパルス応答とから生成することをさらに備える
請求項５に記載の学習モデルの構築方法。
前記残響音声を、クリーン音声とインパルス応答とノイズとから生成することをさらに備える
請求項５に記載の学習モデルの構築方法。
コンピュータが、残響音声の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する、ことを実行することを含む方法であって、
前記学習モデルは、残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成され、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測方法。
各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含み、
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項８に記載の音声認識性能の予測方法。
前記残響音声の複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項９に記載の音声認識性能の予測方法。