JP6306528B2

JP6306528B2 - 音響モデル学習支援装置、音響モデル学習支援方法

Info

Publication number: JP6306528B2
Application number: JP2015041467A
Authority: JP
Inventors: 藤田　雄介; 雄介藤田; 本間　健; 健本間
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-03-03
Filing date: 2015-03-03
Publication date: 2018-04-04
Anticipated expiration: 2035-03-03
Also published as: JP2016161823A

Description

本発明は、ニューラルネットワークを用いて音声を識別する技術に関する。

現在、多くのコールセンタにおいて、オペレータと顧客が話している内容は通話録音装置で録音されており、通話録音データベースのサイズは年々増加を続けている。このような通話録音データベースから特定のキーワードを含む通話を自動的に抽出することができれば、コールセンタ業務の品質や効率の向上やマーケティングへの活用に繋がると期待される。

通話録音データベースから通話を自動的に抽出するためには、音声認識により当該音声の文字表現を識別する必要がある。そこで、音声とその識別結果との間の対応関係をニューラルネットワークなどの自動学習器によって学習することにより、音声認識の精度を向上させることが考えられる。

録音された音声は、その録音環境や対話内容に固有の特徴を有すると考えられる。例えばコールセンタにおけるオペレータと顧客との間の対話は、コールセンタ特有の音声品質の変動や劣化が生じ得る。音声品質が変動すると、先に自動学習した結果に基づき当該音声を識別しようとしても、入力された音声と学習済み音声が互いに乖離しているため、入力音声を精度よく識別することが困難であると考えられる。

音声識別の精度を向上させるためには、学習用音声データに音質変動を与えて多様な音声変動パターンを生成し、あらかじめこれら多様に変動した音声データとその識別結果との間の対応関係を学習しておくことが考えられる。下記特許文献１は、変動させたパラメータで計算された特徴量を用いてパターン認識モデルを学習する技術について開示している。

特開２００５−０３１２５８号公報

上記特許文献１記載の技術のように、認識モデルを学習する際に用いる学習データを変動させて多様な学習データを生成し、これら学習データを網羅的に全て学習すると、学習時間が多大になって学習効率が低下すると考えられる。また特徴量を変動させることによって生成した多様な学習データのなかには、必ずしも認識対象の特性に適していないものも含まれていると考えられ、このことも学習効率を低下させる要因となる。

本発明は、上記のような課題に鑑みてなされたものであり、音声の文字表現を識別する音響モデルを効率的に学習するとともに、音響モデルによる音声識別精度を向上させることを目的とする。

本発明に係る音響モデル学習支援装置は、学習音声データの音声品質を変化させた変化音声データを識別する過程において得られた中間層出力値と、前記学習音声データを識別する過程において得られた中間層出力値との間の距離が大きい場合は、前記変化音声データを用いて追加学習を実施する。

本発明に係る音響モデル学習支援装置によれば、音響モデルによる識別精度を向上させるとともに学習効率を高めることができる。

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされるであろう。

実施形態１に係る音響モデル学習支援装置１００の機能ブロック図である。音響モデル学習支援装置１００の動作を説明するフローチャートである。ステップＳ２０６の詳細を説明するフローチャートである。ステップＳ３０１〜Ｓ３０６の処理イメージを示す図である。音響モデル学習支援装置１００が提供する提示インターフェース５００の画面イメージである。

＜本発明の基本的な考え方について＞
以下では本発明の理解を容易にするため、まず本発明の基本的な考え方について説明する。その後、その考え方を実現する本発明の実施形態について説明する。

一般に音響モデルの学習は、音声品質が比較的良好な音声データを用いて実施される。例えば静かな環境下において１人の話者が一定の話速で明確に発声した音声を録音し、その音声データを用いて学習を実施する。一方でコールセンタなどの環境においては、以下のような要因によりオペレータと顧客との間の対話音声の品質は必ずしもよくない。

（要因１）コールセンタに着呼する音声は、例えば携帯電話網などの通信路を通過する過程において劣化する場合が多い。
（要因２）通話音声の話者が複数存在するので（例えばオペレータと顧客との間の対話においては２人の話者）、話速や音声区間長などの音声特徴量の変動が大きい。
（要因３）コールセンタに着呼する音声は、不特定多数者からのものであるため、話者（特に顧客側の話者）の音声品質が話者毎に大きく異なる。
（要因４）コールセンタの録音には、呼出音や保留音などの大音量の信号が混在し、相対的に小さい話し声の音量が、著しく小さく録音されることがしばしばある。

比較的音声品質の良好な学習音声データを用いて学習を実施した音響モデルを用いてこのような対話音声を識別したとしても、その識別精度は必ずしも良好ではない。これを解決するためには、最も単純には考え得る限り多様な音声品質の学習音声データを準備し、それらを網羅的に学習することが考えられる。しかしそのような多様な学習音声データのなかには、必ずしも運用環境（例えばコールセンタ）における音声を識別するのに適していないものも含まれていると考えられるので、学習時間が過大となり現実的でない。

そこで本発明においては、運用環境における音声を識別するのに適した学習音声データをあらかじめピックアップし、学習の多様性を確保するとともに学習効率を向上させることを図る。これにより、識別精度と学習効率を両立させることができると考えられる。

＜実施の形態１＞
図１は、本発明の実施形態１に係る音響モデル学習支援装置１００の機能ブロック図である。音響モデル学習支援装置１００は、音響モデルを学習することを支援する装置である。ここでいう音響モデルとは、音声の特徴量を入力することによりその音声の文字表現を識別するニューラルネットワークである。例えば音響モデルに対して「日立」と発話した音声から、一部分を切り出した特徴量を入力すると、切り出した箇所に応じて、その特徴量に対応する音素が「ｈ」「ｉ」「ｔ」「ａ」「ｃ」「ｈ」「ｉ」である確率が高くなるように、各音素の出力確率がニューラルネットワークの出力値として出力される。

音響モデル学習支援装置１００は、以下に説明するステップを実施する機能部として、劣化方式選択部１０１、劣化音声生成部１０２、学習効果計算部１０３、学習効果提示部１０４、追加学習指示部１０５、追加学習部１０６、音響モデル出力部１０７、サンプル音声入力部１０８、サンプル分析部１０９、劣化案提示部１１０を備える。これら機能部の詳細については後述する。

音響モデル学習支援装置１００はさらに、学習音声データベース（ＤＢ）１１１、追加学習音声ＤＢ１１２、音響モデル１１３を備える。学習音声ＤＢ１１１は、音響モデル１１３を学習する際に用いた学習音声データを格納するデータベースである。追加学習音声ＤＢ１１２は、後述する劣化音声データのうち、音響モデルの追加学習を実施するのに適したものを格納するデータベースである。音響モデル１１３は、学習音声データを用いてあらかじめ学習を実施済みの音響モデルである。

上記各機能部は、これらの機能を実現する回路デバイスなどのハードウェアを用いて構成することもできるし、これらの機能を実装したソフトウェアをＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置が実行することにより構成することもできる。上記各ＤＢおよび音響モデル１１３は、ハードディスクなどの記憶装置にデータを格納することにより構成することができる。

図２は、音響モデル学習支援装置１００の動作を説明するフローチャートである。以下図２の各ステップについて説明する。

（図２：ステップＳ２０１）
サンプル音声入力部１０８は、サンプル音声データを取得する。ここでいうサンプル音声データとは、学習音声データと比較して音声品質が劣化したものをいう。例えばコールセンタにおけるオペレータと顧客との間の実際の対話を録音したデータを、サンプル音声データとして用いることができる。本ステップにおけるサンプル音声データは、どの程度劣化した音声を音響モデルに追加学習させるとよいかについての指標を与える役割を有する。詳細は後述する。

（図２：ステップＳ２０２）
サンプル分析部１０９は、サンプル音声データを分析することによりその特徴量を取得する。特徴量の例については後述する。サンプル音声データの特徴量は、コールセンタにおいて実際にやり取りされる対話音声がどの程度劣化しているかの目安である。したがってその特徴量を分析することにより、どの程度劣化した音声を音響モデルに追加学習させればよいかを判断することができる。詳細は後述する。

（図２：ステップＳ２０３）
劣化案提示部１１０は、サンプル分析部１０９が取得したサンプル音声データの特徴量の一覧を、学習音声データに対して反映させる劣化量の候補として提示する。提示インターフェースの具体例については図５で改めて説明する。

（図２：ステップＳ２０４〜Ｓ２０５）
ユーザは、劣化案提示部１１０が提示する提示インターフェース上において、サンプル音声データのいずれの特徴量を学習音声データに対して反映するかを選択し、劣化方式選択部１０１はその選択を受け取る（Ｓ２０４）。劣化音声生成部１０２は、劣化方式選択部１０１が受け取った選択項目に対応する特徴量を、学習音声ＤＢ１１１が格納している学習音声データに対して反映することにより、学習音声データの音声品質を劣化させた劣化音声データを生成する（Ｓ２０５）。

（図２：ステップＳ２０６）
学習効果計算部１０３は、ステップＳ２０５において生成された劣化音声データを用いて音響モデルの追加学習を実施することによる効果を、計算する。本ステップの詳細については図３〜図４を用いて後述する。

（図２：ステップＳ２０７）
学習効果提示部１０４は、ステップＳ２０６において計算された学習効果を、提示インターフェースを介して提示する。本ステップの詳細については図５を用いて後述する。

（図２：ステップＳ２０８）
ユーザは、ステップＳ２０７において提示される学習効果が十分であると判断する場合は、学習効果提示部１０４が提示する提示インターフェース上において、劣化音声データを用いて音響モデルの追加学習を実施するよう指示する。追加学習指示部１０５はその指示を受け取り、当該劣化音声データを用いて追加学習を実施するよう追加学習部１０６に対して指示する。

（図２：ステップＳ２０９〜Ｓ２１０）
追加学習部１０６は、追加学習指示部１０５からの指示にしたがって、劣化音声データを用いて音響モデルの追加学習を実施する（Ｓ２０９）。ユーザは提示インターフェースを介して、追加学習が完了した音響モデルを送信するように音響モデル学習支援装置１００に対してリクエストし、音響モデル出力部１０７はそのリクエストにしたがって音響モデル１１３から音響モデルを取得して送信する（Ｓ２１０）。

図３は、ステップＳ２０６の詳細を説明するフローチャートである。以下図３の各ステップについて説明する。

（図３：ステップＳ３０１〜Ｓ３０２）
学習効果計算部１０３は、学習音声ＤＢ１１１が格納している学習音声データのうち、劣化音声生成部１０２が生成した劣化音声データと文字表現が同じものを取得する（Ｓ３０１）。学習効果計算部１０３は、学習音声データの特徴量を抽出し、音響モデル１１３が格納している音響モデルの入力層に対してその特徴量を入力する（Ｓ３０２）。

（図３：ステップＳ３０３）
音響モデル（およびこれを用いる識別器）は、入力された特徴量を用いて、学習音声データの音素の文字表現を識別する。音響モデルを用いた識別処理の過程において、音響モデルの中間層はそれぞれ出力値を出力する。学習効果計算部１０３は、その中間層出力値を取得する。

（図３：ステップＳ３０４〜Ｓ３０６）
学習効果計算部１０３は、劣化音声生成部１０２が生成した劣化音声データに対して、ステップＳ３０１〜Ｓ３０３と同様の処理を実施する。これにより、文字表現としては同一である２つの音声データ（学習音声データと劣化音声データ）それぞれについて、その特徴量を表す中間層出力が得られることになる。

（図３：ステップＳ３０７）
学習効果計算部１０３は、ステップＳ３０３とＳ３０６においてそれぞれ取得した２つの中間層出力間の距離を計算する。この距離としては、例えば特徴量ベクトル間のユークリッド距離を用いることができるが、その他適当な手法により距離を計算してもよい。

（図３：ステップＳ３０８〜Ｓ３０９）
ステップＳ３０７において計算した距離が所定閾値以上である場合（Ｓ３０８）、学習効果計算部１０３（または学習効果提示部１０４）はその劣化音声データを追加学習音声ＤＢ１１２に格納する（Ｓ３０９）。距離が閾値未満である場合（Ｓ３０８）、当該劣化音声データは音響モデルの追加学習の際に使用しないので、追加学習音声ＤＢ１１２には格納しない。追加学習音声ＤＢ１１２を設けることに代えて、例えば学習音声ＤＢ１１１が格納している学習音声データが追加学習に適しているか否かを示すフラグなどのフィールドを設けることにより、同様の動作を実現することもできる。

図４は、ステップＳ３０１〜Ｓ３０６の処理イメージを示す図である。音響モデルに対して学習音声データの特徴量が入力され、ニューラルネットワークの後段に進むにしたがってその特徴量が集約され、当該音声が表している音素の確率が識別結果として出力層から出力される。音響モデルが学習音声データの特徴量を集約する過程において、中間層は学習音声データの特徴量に対応する値を出力すると考えられる。一方、劣化音声データの音素表現を識別する過程においても同様の処理が実施され、中間層は劣化音声データの特徴量に対応する値を出力すると考えられる。

中間層出力値は、音響モデルが各音声データの特徴量をどのように処理したかを表していると考えられる。学習音声データから得られた中間層出力値と、劣化音声データから得られた中間層出力値との間の距離が小さい場合、これら音声データは音響モデルの内部的には概ね同様の処理過程を経て識別されたと考えられるので、そのような劣化音声データを追加学習しても、学習の多様性を確保する観点からは冗長であると思われる。

一方で中間層出力値間の距離が大きい場合、これら音声データは音響モデルの内部的に異なる処理過程を経て識別されたと考えられる。そのような劣化音声データを追加学習することにより、音響モデルは新たな内部状態を学習することになるので、学習の多様性を確保することができると考えられる。また劣化音声データは運用環境（例えばコールセンタ）における実際の音声データに与えられる劣化を模擬したものであるから、追加学習によって識別精度が向上すると考えられる。

そこで学習効果計算部１０３は、図４に示すように中間層出力値間の距離を計算し、これが基準閾値以上である場合はその劣化音声データが追加学習に適していると判断して、追加学習音声ＤＢ１１２に格納することとした。なお劣化音声データに対応する学習音声データが複数存在する場合、後述するように基準閾値を満たす距離の平均値を、学習効果とみなすことができる。

音響モデルが多段的に構成されている場合、各中間層の出力値はそれぞれ音声データの特徴量を表していると考えられるので、いずれの出力値を用いて距離を計算してもよい。ただしニューラルネットワークの出力層に近いほど、それより前段の情報が集約されて音声特徴量をより的確に反映していると考えられるので、出力層の１段前における中間層出力間の距離をＳ３０７において用いるのが望ましい。

図５は、音響モデル学習支援装置１００が提供する提示インターフェース５００の画面イメージである。図５に示す提示インターフェース５００は、例えば学習効果提示部１０４、劣化案提示部１１０、その他適当な機能部が、ディスプレイなどの表示装置を介してＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）として提供することができる。

ユーザはステップＳ２０１において、サンプル音声データ指定欄５０１においてサンプル音声データを指定し、分析ボタン５０２を押下する。サンプル音声入力部１０８は指定されたサンプル音声データを取得し、サンプル分析部１０９は分析を開始する。

サンプル分析部１０９は、ステップＳ２０２においてサンプル音声データの特徴量を抽出する。抽出する特徴量としては、（ａ）音量、（ｂ）コーデック、（ｃ）周波数、（ｄ）話速、（ｅ）音声区間長、（ｆ）声道長、などが考えられる。図５に示す例においては、（ａ）〜（ｃ）を抽出した例を示した。サンプル分析部１０９は、サンプル音声データの上記特徴量を抽出し、ステップＳ２０３において図５の＜パラメータ＞欄に表示する。

本実施形態１においてはコールセンタの対話を想定しているところ、コールセンタにおける顧客音声の劣化要因として最も顕著なのは、顧客音声の音量である。また顧客音声をコールセンタにおいて適当な符号化方式により符号化する際にも、その符号化方式に応じた劣化が生じ得る。そこで図５に示す例においては、これらをサンプル音声データの特徴量として抽出することとした。

さらに、サンプル音声データの周波数のうちある範囲を超える（または下回る）ものがカットされている場合、当該サンプル音声データに対して周波数フィルタが適用されていると考えられる。これも音声品質を劣化させる要因となるので、図５に示す例においてはこれらフィルタが適用されているか否かおよびそのカット周波数をサンプル音声データの特徴量として抽出することとした。

ユーザはステップＳ２０４において、サンプル分析部１０９が抽出した特徴量のうちいずれを学習音声データに対して反映するかを、劣化方法欄５０３のチェックボックスにより選択する。併せて適用順序欄５０４においてその適用順序を指定することもできる。

ステップＳ２０６においてユーザが学習効果測定ボタン５０５を押下すると、学習効果計算部１０３は図３〜図４で説明した中間層出力値間の距離を計算する。学習効果提示部１０４は、ステップＳ２０７においてその距離を学習効果として提示する。学習効果計算部１０３は、中間層出力値間の距離が基準閾値以上である劣化音声データを追加学習候補とみなすので、提示インターフェース５００が提示する距離は、計算した距離のうち基準閾値を満たすものの平均である。

学習効果計算部１０３はさらに、劣化音声データを用いて音響モデルの追加学習を実施する場合における学習データ量と所要追加学習時間を計算し、学習効果提示部１０４を介して提示することもできる。これらは基準閾値を満たす学習音声データおよび現在の音響モデルのサイズなどから計算することができる。

ユーザは、提示インターフェース５００が提示する学習効果が十分であると判断する場合は、追加学習実施ボタン５０６を押下する。追加学習指示部１０５はその指示を受け取り、追加学習部１０６は当該劣化音声データを用いて追加学習を開始する。追加学習完了後の音響モデルをダウンロードする場合、ユーザは音響モデルダウンロードボタン５０７を押下し、音響モデル出力部１０７はこれに応じて音響モデル１１３から音響モデルを取得して送信する。

＜実施の形態１：まとめ＞
以上のように、本実施形態１に係る音響モデル学習支援装置１００は、学習音声データを識別する過程において得られる中間層出力値と、劣化音声データを識別する過程において得られる中間層出力値との間の距離を計算し、この距離が大きい劣化音声データを用いて追加学習を実施する。これにより、劣化音声データのうち学習効果が大きいと想定されるものに絞って追加学習を実施することができるので、学習効率を高めることができる。

本実施形態１に係る音響モデル学習支援装置１００は、運用環境におけるサンプル音声データの音声品質を劣化させることにより劣化音声データを作成する。これにより、運用環境における音声識別に適した音声を学習することができるので、識別精度を向上させることができる。

本実施形態１に係る音響モデル学習支援装置１００は、サンプル音声データの特徴量を分析し、その特徴量を学習音声データに対して反映することにより、劣化音声データを生成する。これにより、運用環境における音声品質劣化を反映した追加学習を実施することができるので、識別精度を向上させることができる。

＜実施の形態２＞
実施形態１においては、１つの学習音声データに対して図５の適用順序欄５０４に示す順序にしたがって劣化特徴量を反映することを説明した。このとき劣化音声生成部１０２は、同一の学習音声データから複数の劣化音声データを生成することもできる。例えば適用順序１位の特徴量を反映した第１劣化音声データと、適用順序２位の特徴量を反映した第２劣化音声データとを生成することができる。

第１劣化音声データと第２劣化音声データそれぞれについての中間層出力値が基準閾値を満たしている場合、学習効果計算部１０３は原則としてこれら２つとも追加学習音声ＤＢ１１２に格納する。ただしこれら２つの中間層出力値が近接している場合、いずれか一方のみでも十分な学習効果が得られると考えられる。そこで学習効果計算部１０３は、第１劣化音声データについて取得した中間層出力値と、第２劣化音声データについて取得した中間層出力値との間の距離をさらに計算し、これらが第２基準閾値以上である場合に限り双方とも追加学習音声ＤＢ１１２に格納し、第２基準閾値未満であればいずれか一方のみを格納する（あるいはいずれも格納しない）ようにしてもよい。これにより、多様な劣化音声データを生成して学習の多様性を確保するとともに、冗長な追加学習を抑制することができる。

＜本発明の変形例について＞
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。

以上の実施形態においては、コールセンタにおける通話音声の品質が劣化することを想定し、劣化音声生成部１０２は学習音声データの音声品質を劣化させることを説明した。ただし運用環境によっては、音声品質以外の特徴量が識別精度に影響を与える可能性も考えられる。そこで運用環境によっては、劣化音声生成部１０２は運用環境の特性に応じて学習音声データの音声特徴量を変化させることにより変化音声データを生成し、学習効果計算部１０３は学習音声データの中間層出力値と変化音声データの中間層出力値との間の距離を計算する。これにより、コールセンタ以外の様々な運用環境において、識別精度を向上させるとともに学習効率を高めることができると考えられる。

上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

１００：音響モデル学習支援装置、１０１：劣化方式選択部、１０２：劣化音声生成部、１０３：学習効果計算部、１０４：学習効果提示部、１０５：追加学習指示部、１０６：追加学習部、１０７：音響モデル出力部、１０８：サンプル音声入力部、１０９：サンプル分析部、１１０：劣化案提示部、１１１：学習音声ＤＢ、１１２：追加学習音声ＤＢ、１１３：音響モデル。

Claims

音声の特徴量を入力することにより前記音声の文字表現を識別するニューラルネットワークである音響モデルを学習することを支援する音響モデル学習支援装置であって、
前記音響モデルを記述した音響モデルデータを格納する記憶部、
前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成部、
前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第１距離を算出する距離計算部、
前記第１距離が第１閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示部、
を備えることを特徴とする音響モデル学習支援装置。
前記音響モデル学習支援装置は、サンプル音声データの特徴量を分析するサンプル分析部を備え、
前記変化音声生成部は、前記サンプル分析部が取得した前記サンプル音声データの特徴量を前記学習音声データに対して反映することにより、前記学習音声データの特徴量を変化させる
ことを特徴とする請求項１記載の音響モデル学習支援装置。
前記距離計算部は、
前記音響モデルが前記学習音声データを識別した際に前記音響モデルの出力層の１つ前段の中間層出力値を取得するとともに、前記音響モデルが前記変化音声データを識別した際に前記出力層の１つ前段の中間層出力値を取得し、
取得した各前記中間層出力値間の距離を前記第１距離として算出する
ことを特徴とする請求項１記載の音響モデル学習支援装置。
前記変化音声生成部は、同一の前記学習音声データを用いて複数の前記変化音声データを生成し、
前記距離計算部は、前記音響モデルを用いて第１の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて第２の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第２距離を算出し、
前記学習効果提示部は、前記第１の変化音声データについて算出した前記第１距離が前記第１閾値以上であるとともに、前記第２距離が第２閾値以上である場合に限り、前記第１の変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する
ことを特徴とする請求項１記載の音響モデル学習支援装置。
前記音響モデル学習支援装置は、前記サンプル分析部が取得した前記サンプル音声データの特徴量を提示するとともに、前記学習音声データに対して反映すべき前記サンプル音声データの特徴量を指定する、操作インターフェースを備え、
前記変化音声生成部は、前記操作インターフェースを介して指定された前記サンプル音声データの特徴量を前記変化音声データに対して反映する
ことを特徴とする請求項２記載の音響モデル学習支援装置。
前記距離計算部は、複数の前記学習音声データについて前記第１距離を計算し、
前記音響モデル学習支援装置は、前記第１距離が前記第１閾値以上である場合、各前記学習音声データについての前記第１距離の平均を提示する、学習効果提示インターフェースを備える
ことを特徴とする請求項１記載の音響モデル学習支援装置。
前記サンプル分析部は、
前記サンプル音声データの音量、
前記サンプル音声データのコーデック、
前記サンプル音声データの周波数、
前記サンプル音声データの話速、
前記サンプル音声データの音声区間長、
前記サンプル音声データの声道長、
のうち少なくともいずれかを前記サンプル音声データの特徴量として分析する
ことを特徴とする請求項２記載の音響モデル学習支援装置。
前記変化音声生成部は、
前記学習音声データの音量を変更する、
前記学習音声データのコーデックを変更する、
前記学習音声データの周波数を変更する、
前記学習音声データの話速を変更する、
前記学習音声データの音声区間長を変更する、
前記学習音声データの声道長を変更する、
のうち少なくともいずれかを実施することにより、前記学習音声データの特徴量を変化させる
ことを特徴とする請求項１記載の音響モデル学習支援装置。
前記音響モデル学習支援装置は、
前記変化音声データを用いて前記音響モデルの追加学習を実施するよう前記音響モデル学習支援装置に対して指示する学習指示インターフェース、
前記学習指示インターフェースが受け取った指示に基づき前記変化音声データを用いて前記音響モデルの追加学習を実施する追加学習部、
を備えることを特徴とする請求項１記載の音響モデル学習支援装置。
音声の特徴量を入力することにより前記音声の文字表現を識別するニューラルネットワークである音響モデルを学習することを支援する音響モデル学習支援方法であって、
前記音響モデルを記述した音響モデルデータを記憶部に格納するステップ、
前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成ステップ、
前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第１距離を算出する距離計算ステップ、
前記第１距離が第１閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示ステップ、
を有することを特徴とする音響モデル学習支援方法。