JP6306528B2 - 音響モデル学習支援装置、音響モデル学習支援方法 - Google Patents

音響モデル学習支援装置、音響モデル学習支援方法 Download PDF

Info

Publication number
JP6306528B2
JP6306528B2 JP2015041467A JP2015041467A JP6306528B2 JP 6306528 B2 JP6306528 B2 JP 6306528B2 JP 2015041467 A JP2015041467 A JP 2015041467A JP 2015041467 A JP2015041467 A JP 2015041467A JP 6306528 B2 JP6306528 B2 JP 6306528B2
Authority
JP
Japan
Prior art keywords
learning
acoustic model
data
speech
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015041467A
Other languages
English (en)
Other versions
JP2016161823A (ja
Inventor
藤田 雄介
雄介 藤田
本間 健
健 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015041467A priority Critical patent/JP6306528B2/ja
Publication of JP2016161823A publication Critical patent/JP2016161823A/ja
Application granted granted Critical
Publication of JP6306528B2 publication Critical patent/JP6306528B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、ニューラルネットワークを用いて音声を識別する技術に関する。
現在、多くのコールセンタにおいて、オペレータと顧客が話している内容は通話録音装置で録音されており、通話録音データベースのサイズは年々増加を続けている。このような通話録音データベースから特定のキーワードを含む通話を自動的に抽出することができれば、コールセンタ業務の品質や効率の向上やマーケティングへの活用に繋がると期待される。
通話録音データベースから通話を自動的に抽出するためには、音声認識により当該音声の文字表現を識別する必要がある。そこで、音声とその識別結果との間の対応関係をニューラルネットワークなどの自動学習器によって学習することにより、音声認識の精度を向上させることが考えられる。
録音された音声は、その録音環境や対話内容に固有の特徴を有すると考えられる。例えばコールセンタにおけるオペレータと顧客との間の対話は、コールセンタ特有の音声品質の変動や劣化が生じ得る。音声品質が変動すると、先に自動学習した結果に基づき当該音声を識別しようとしても、入力された音声と学習済み音声が互いに乖離しているため、入力音声を精度よく識別することが困難であると考えられる。
音声識別の精度を向上させるためには、学習用音声データに音質変動を与えて多様な音声変動パターンを生成し、あらかじめこれら多様に変動した音声データとその識別結果との間の対応関係を学習しておくことが考えられる。下記特許文献1は、変動させたパラメータで計算された特徴量を用いてパターン認識モデルを学習する技術について開示している。
特開2005−031258号公報
上記特許文献1記載の技術のように、認識モデルを学習する際に用いる学習データを変動させて多様な学習データを生成し、これら学習データを網羅的に全て学習すると、学習時間が多大になって学習効率が低下すると考えられる。また特徴量を変動させることによって生成した多様な学習データのなかには、必ずしも認識対象の特性に適していないものも含まれていると考えられ、このことも学習効率を低下させる要因となる。
本発明は、上記のような課題に鑑みてなされたものであり、音声の文字表現を識別する音響モデルを効率的に学習するとともに、音響モデルによる音声識別精度を向上させることを目的とする。
本発明に係る音響モデル学習支援装置は、学習音声データの音声品質を変化させた変化音声データを識別する過程において得られた中間層出力値と、前記学習音声データを識別する過程において得られた中間層出力値との間の距離が大きい場合は、前記変化音声データを用いて追加学習を実施する。
本発明に係る音響モデル学習支援装置によれば、音響モデルによる識別精度を向上させるとともに学習効率を高めることができる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされるであろう。
実施形態1に係る音響モデル学習支援装置100の機能ブロック図である。 音響モデル学習支援装置100の動作を説明するフローチャートである。 ステップS206の詳細を説明するフローチャートである。 ステップS301〜S306の処理イメージを示す図である。 音響モデル学習支援装置100が提供する提示インターフェース500の画面イメージである。
<本発明の基本的な考え方について>
以下では本発明の理解を容易にするため、まず本発明の基本的な考え方について説明する。その後、その考え方を実現する本発明の実施形態について説明する。
一般に音響モデルの学習は、音声品質が比較的良好な音声データを用いて実施される。例えば静かな環境下において1人の話者が一定の話速で明確に発声した音声を録音し、その音声データを用いて学習を実施する。一方でコールセンタなどの環境においては、以下のような要因によりオペレータと顧客との間の対話音声の品質は必ずしもよくない。
(要因1)コールセンタに着呼する音声は、例えば携帯電話網などの通信路を通過する過程において劣化する場合が多い。
(要因2)通話音声の話者が複数存在するので(例えばオペレータと顧客との間の対話においては2人の話者)、話速や音声区間長などの音声特徴量の変動が大きい。
(要因3)コールセンタに着呼する音声は、不特定多数者からのものであるため、話者(特に顧客側の話者)の音声品質が話者毎に大きく異なる。
(要因4)コールセンタの録音には、呼出音や保留音などの大音量の信号が混在し、相対的に小さい話し声の音量が、著しく小さく録音されることがしばしばある。
比較的音声品質の良好な学習音声データを用いて学習を実施した音響モデルを用いてこのような対話音声を識別したとしても、その識別精度は必ずしも良好ではない。これを解決するためには、最も単純には考え得る限り多様な音声品質の学習音声データを準備し、それらを網羅的に学習することが考えられる。しかしそのような多様な学習音声データのなかには、必ずしも運用環境(例えばコールセンタ)における音声を識別するのに適していないものも含まれていると考えられるので、学習時間が過大となり現実的でない。
そこで本発明においては、運用環境における音声を識別するのに適した学習音声データをあらかじめピックアップし、学習の多様性を確保するとともに学習効率を向上させることを図る。これにより、識別精度と学習効率を両立させることができると考えられる。
<実施の形態1>
図1は、本発明の実施形態1に係る音響モデル学習支援装置100の機能ブロック図である。音響モデル学習支援装置100は、音響モデルを学習することを支援する装置である。ここでいう音響モデルとは、音声の特徴量を入力することによりその音声の文字表現を識別するニューラルネットワークである。例えば音響モデルに対して「日立」と発話した音声から、一部分を切り出した特徴量を入力すると、切り出した箇所に応じて、その特徴量に対応する音素が「h」「i」「t」「a」「c」「h」「i」である確率が高くなるように、各音素の出力確率がニューラルネットワークの出力値として出力される。
音響モデル学習支援装置100は、以下に説明するステップを実施する機能部として、劣化方式選択部101、劣化音声生成部102、学習効果計算部103、学習効果提示部104、追加学習指示部105、追加学習部106、音響モデル出力部107、サンプル音声入力部108、サンプル分析部109、劣化案提示部110を備える。これら機能部の詳細については後述する。
音響モデル学習支援装置100はさらに、学習音声データベース(DB)111、追加学習音声DB112、音響モデル113を備える。学習音声DB111は、音響モデル113を学習する際に用いた学習音声データを格納するデータベースである。追加学習音声DB112は、後述する劣化音声データのうち、音響モデルの追加学習を実施するのに適したものを格納するデータベースである。音響モデル113は、学習音声データを用いてあらかじめ学習を実施済みの音響モデルである。
上記各機能部は、これらの機能を実現する回路デバイスなどのハードウェアを用いて構成することもできるし、これらの機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することにより構成することもできる。上記各DBおよび音響モデル113は、ハードディスクなどの記憶装置にデータを格納することにより構成することができる。
図2は、音響モデル学習支援装置100の動作を説明するフローチャートである。以下図2の各ステップについて説明する。
(図2:ステップS201)
サンプル音声入力部108は、サンプル音声データを取得する。ここでいうサンプル音声データとは、学習音声データと比較して音声品質が劣化したものをいう。例えばコールセンタにおけるオペレータと顧客との間の実際の対話を録音したデータを、サンプル音声データとして用いることができる。本ステップにおけるサンプル音声データは、どの程度劣化した音声を音響モデルに追加学習させるとよいかについての指標を与える役割を有する。詳細は後述する。
(図2:ステップS202)
サンプル分析部109は、サンプル音声データを分析することによりその特徴量を取得する。特徴量の例については後述する。サンプル音声データの特徴量は、コールセンタにおいて実際にやり取りされる対話音声がどの程度劣化しているかの目安である。したがってその特徴量を分析することにより、どの程度劣化した音声を音響モデルに追加学習させればよいかを判断することができる。詳細は後述する。
(図2:ステップS203)
劣化案提示部110は、サンプル分析部109が取得したサンプル音声データの特徴量の一覧を、学習音声データに対して反映させる劣化量の候補として提示する。提示インターフェースの具体例については図5で改めて説明する。
(図2:ステップS204〜S205)
ユーザは、劣化案提示部110が提示する提示インターフェース上において、サンプル音声データのいずれの特徴量を学習音声データに対して反映するかを選択し、劣化方式選択部101はその選択を受け取る(S204)。劣化音声生成部102は、劣化方式選択部101が受け取った選択項目に対応する特徴量を、学習音声DB111が格納している学習音声データに対して反映することにより、学習音声データの音声品質を劣化させた劣化音声データを生成する(S205)。
(図2:ステップS206)
学習効果計算部103は、ステップS205において生成された劣化音声データを用いて音響モデルの追加学習を実施することによる効果を、計算する。本ステップの詳細については図3〜図4を用いて後述する。
(図2:ステップS207)
学習効果提示部104は、ステップS206において計算された学習効果を、提示インターフェースを介して提示する。本ステップの詳細については図5を用いて後述する。
(図2:ステップS208)
ユーザは、ステップS207において提示される学習効果が十分であると判断する場合は、学習効果提示部104が提示する提示インターフェース上において、劣化音声データを用いて音響モデルの追加学習を実施するよう指示する。追加学習指示部105はその指示を受け取り、当該劣化音声データを用いて追加学習を実施するよう追加学習部106に対して指示する。
(図2:ステップS209〜S210)
追加学習部106は、追加学習指示部105からの指示にしたがって、劣化音声データを用いて音響モデルの追加学習を実施する(S209)。ユーザは提示インターフェースを介して、追加学習が完了した音響モデルを送信するように音響モデル学習支援装置100に対してリクエストし、音響モデル出力部107はそのリクエストにしたがって音響モデル113から音響モデルを取得して送信する(S210)。
図3は、ステップS206の詳細を説明するフローチャートである。以下図3の各ステップについて説明する。
(図3:ステップS301〜S302)
学習効果計算部103は、学習音声DB111が格納している学習音声データのうち、劣化音声生成部102が生成した劣化音声データと文字表現が同じものを取得する(S301)。学習効果計算部103は、学習音声データの特徴量を抽出し、音響モデル113が格納している音響モデルの入力層に対してその特徴量を入力する(S302)。
(図3:ステップS303)
音響モデル(およびこれを用いる識別器)は、入力された特徴量を用いて、学習音声データの音素の文字表現を識別する。音響モデルを用いた識別処理の過程において、音響モデルの中間層はそれぞれ出力値を出力する。学習効果計算部103は、その中間層出力値を取得する。
(図3:ステップS304〜S306)
学習効果計算部103は、劣化音声生成部102が生成した劣化音声データに対して、ステップS301〜S303と同様の処理を実施する。これにより、文字表現としては同一である2つの音声データ(学習音声データと劣化音声データ)それぞれについて、その特徴量を表す中間層出力が得られることになる。
(図3:ステップS307)
学習効果計算部103は、ステップS303とS306においてそれぞれ取得した2つの中間層出力間の距離を計算する。この距離としては、例えば特徴量ベクトル間のユークリッド距離を用いることができるが、その他適当な手法により距離を計算してもよい。
(図3:ステップS308〜S309)
ステップS307において計算した距離が所定閾値以上である場合(S308)、学習効果計算部103(または学習効果提示部104)はその劣化音声データを追加学習音声DB112に格納する(S309)。距離が閾値未満である場合(S308)、当該劣化音声データは音響モデルの追加学習の際に使用しないので、追加学習音声DB112には格納しない。追加学習音声DB112を設けることに代えて、例えば学習音声DB111が格納している学習音声データが追加学習に適しているか否かを示すフラグなどのフィールドを設けることにより、同様の動作を実現することもできる。
図4は、ステップS301〜S306の処理イメージを示す図である。音響モデルに対して学習音声データの特徴量が入力され、ニューラルネットワークの後段に進むにしたがってその特徴量が集約され、当該音声が表している音素の確率が識別結果として出力層から出力される。音響モデルが学習音声データの特徴量を集約する過程において、中間層は学習音声データの特徴量に対応する値を出力すると考えられる。一方、劣化音声データの音素表現を識別する過程においても同様の処理が実施され、中間層は劣化音声データの特徴量に対応する値を出力すると考えられる。
中間層出力値は、音響モデルが各音声データの特徴量をどのように処理したかを表していると考えられる。学習音声データから得られた中間層出力値と、劣化音声データから得られた中間層出力値との間の距離が小さい場合、これら音声データは音響モデルの内部的には概ね同様の処理過程を経て識別されたと考えられるので、そのような劣化音声データを追加学習しても、学習の多様性を確保する観点からは冗長であると思われる。
一方で中間層出力値間の距離が大きい場合、これら音声データは音響モデルの内部的に異なる処理過程を経て識別されたと考えられる。そのような劣化音声データを追加学習することにより、音響モデルは新たな内部状態を学習することになるので、学習の多様性を確保することができると考えられる。また劣化音声データは運用環境(例えばコールセンタ)における実際の音声データに与えられる劣化を模擬したものであるから、追加学習によって識別精度が向上すると考えられる。
そこで学習効果計算部103は、図4に示すように中間層出力値間の距離を計算し、これが基準閾値以上である場合はその劣化音声データが追加学習に適していると判断して、追加学習音声DB112に格納することとした。なお劣化音声データに対応する学習音声データが複数存在する場合、後述するように基準閾値を満たす距離の平均値を、学習効果とみなすことができる。
音響モデルが多段的に構成されている場合、各中間層の出力値はそれぞれ音声データの特徴量を表していると考えられるので、いずれの出力値を用いて距離を計算してもよい。ただしニューラルネットワークの出力層に近いほど、それより前段の情報が集約されて音声特徴量をより的確に反映していると考えられるので、出力層の1段前における中間層出力間の距離をS307において用いるのが望ましい。
図5は、音響モデル学習支援装置100が提供する提示インターフェース500の画面イメージである。図5に示す提示インターフェース500は、例えば学習効果提示部104、劣化案提示部110、その他適当な機能部が、ディスプレイなどの表示装置を介してGUI(Graphical User Interface)として提供することができる。
ユーザはステップS201において、サンプル音声データ指定欄501においてサンプル音声データを指定し、分析ボタン502を押下する。サンプル音声入力部108は指定されたサンプル音声データを取得し、サンプル分析部109は分析を開始する。
サンプル分析部109は、ステップS202においてサンプル音声データの特徴量を抽出する。抽出する特徴量としては、(a)音量、(b)コーデック、(c)周波数、(d)話速、(e)音声区間長、(f)声道長、などが考えられる。図5に示す例においては、(a)〜(c)を抽出した例を示した。サンプル分析部109は、サンプル音声データの上記特徴量を抽出し、ステップS203において図5の<パラメータ>欄に表示する。
本実施形態1においてはコールセンタの対話を想定しているところ、コールセンタにおける顧客音声の劣化要因として最も顕著なのは、顧客音声の音量である。また顧客音声をコールセンタにおいて適当な符号化方式により符号化する際にも、その符号化方式に応じた劣化が生じ得る。そこで図5に示す例においては、これらをサンプル音声データの特徴量として抽出することとした。
さらに、サンプル音声データの周波数のうちある範囲を超える(または下回る)ものがカットされている場合、当該サンプル音声データに対して周波数フィルタが適用されていると考えられる。これも音声品質を劣化させる要因となるので、図5に示す例においてはこれらフィルタが適用されているか否かおよびそのカット周波数をサンプル音声データの特徴量として抽出することとした。
ユーザはステップS204において、サンプル分析部109が抽出した特徴量のうちいずれを学習音声データに対して反映するかを、劣化方法欄503のチェックボックスにより選択する。併せて適用順序欄504においてその適用順序を指定することもできる。
ステップS206においてユーザが学習効果測定ボタン505を押下すると、学習効果計算部103は図3〜図4で説明した中間層出力値間の距離を計算する。学習効果提示部104は、ステップS207においてその距離を学習効果として提示する。学習効果計算部103は、中間層出力値間の距離が基準閾値以上である劣化音声データを追加学習候補とみなすので、提示インターフェース500が提示する距離は、計算した距離のうち基準閾値を満たすものの平均である。
学習効果計算部103はさらに、劣化音声データを用いて音響モデルの追加学習を実施する場合における学習データ量と所要追加学習時間を計算し、学習効果提示部104を介して提示することもできる。これらは基準閾値を満たす学習音声データおよび現在の音響モデルのサイズなどから計算することができる。
ユーザは、提示インターフェース500が提示する学習効果が十分であると判断する場合は、追加学習実施ボタン506を押下する。追加学習指示部105はその指示を受け取り、追加学習部106は当該劣化音声データを用いて追加学習を開始する。追加学習完了後の音響モデルをダウンロードする場合、ユーザは音響モデルダウンロードボタン507を押下し、音響モデル出力部107はこれに応じて音響モデル113から音響モデルを取得して送信する。
<実施の形態1:まとめ>
以上のように、本実施形態1に係る音響モデル学習支援装置100は、学習音声データを識別する過程において得られる中間層出力値と、劣化音声データを識別する過程において得られる中間層出力値との間の距離を計算し、この距離が大きい劣化音声データを用いて追加学習を実施する。これにより、劣化音声データのうち学習効果が大きいと想定されるものに絞って追加学習を実施することができるので、学習効率を高めることができる。
本実施形態1に係る音響モデル学習支援装置100は、運用環境におけるサンプル音声データの音声品質を劣化させることにより劣化音声データを作成する。これにより、運用環境における音声識別に適した音声を学習することができるので、識別精度を向上させることができる。
本実施形態1に係る音響モデル学習支援装置100は、サンプル音声データの特徴量を分析し、その特徴量を学習音声データに対して反映することにより、劣化音声データを生成する。これにより、運用環境における音声品質劣化を反映した追加学習を実施することができるので、識別精度を向上させることができる。
<実施の形態2>
実施形態1においては、1つの学習音声データに対して図5の適用順序欄504に示す順序にしたがって劣化特徴量を反映することを説明した。このとき劣化音声生成部102は、同一の学習音声データから複数の劣化音声データを生成することもできる。例えば適用順序1位の特徴量を反映した第1劣化音声データと、適用順序2位の特徴量を反映した第2劣化音声データとを生成することができる。
第1劣化音声データと第2劣化音声データそれぞれについての中間層出力値が基準閾値を満たしている場合、学習効果計算部103は原則としてこれら2つとも追加学習音声DB112に格納する。ただしこれら2つの中間層出力値が近接している場合、いずれか一方のみでも十分な学習効果が得られると考えられる。そこで学習効果計算部103は、第1劣化音声データについて取得した中間層出力値と、第2劣化音声データについて取得した中間層出力値との間の距離をさらに計算し、これらが第2基準閾値以上である場合に限り双方とも追加学習音声DB112に格納し、第2基準閾値未満であればいずれか一方のみを格納する(あるいはいずれも格納しない)ようにしてもよい。これにより、多様な劣化音声データを生成して学習の多様性を確保するとともに、冗長な追加学習を抑制することができる。
<本発明の変形例について>
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。
以上の実施形態においては、コールセンタにおける通話音声の品質が劣化することを想定し、劣化音声生成部102は学習音声データの音声品質を劣化させることを説明した。ただし運用環境によっては、音声品質以外の特徴量が識別精度に影響を与える可能性も考えられる。そこで運用環境によっては、劣化音声生成部102は運用環境の特性に応じて学習音声データの音声特徴量を変化させることにより変化音声データを生成し、学習効果計算部103は学習音声データの中間層出力値と変化音声データの中間層出力値との間の距離を計算する。これにより、コールセンタ以外の様々な運用環境において、識別精度を向上させるとともに学習効率を高めることができると考えられる。
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。
100:音響モデル学習支援装置、101:劣化方式選択部、102:劣化音声生成部、103:学習効果計算部、104:学習効果提示部、105:追加学習指示部、106:追加学習部、107:音響モデル出力部、108:サンプル音声入力部、109:サンプル分析部、110:劣化案提示部、111:学習音声DB、112:追加学習音声DB、113:音響モデル。

Claims (10)

  1. 音声の特徴量を入力することにより前記音声の文字表現を識別するニューラルネットワークである音響モデルを学習することを支援する音響モデル学習支援装置であって、
    前記音響モデルを記述した音響モデルデータを格納する記憶部、
    前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成部、
    前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第1距離を算出する距離計算部、
    前記第1距離が第1閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示部、
    を備えることを特徴とする音響モデル学習支援装置。
  2. 前記音響モデル学習支援装置は、サンプル音声データの特徴量を分析するサンプル分析部を備え、
    前記変化音声生成部は、前記サンプル分析部が取得した前記サンプル音声データの特徴量を前記学習音声データに対して反映することにより、前記学習音声データの特徴量を変化させる
    ことを特徴とする請求項1記載の音響モデル学習支援装置。
  3. 前記距離計算部は、
    前記音響モデルが前記学習音声データを識別した際に前記音響モデルの出力層の1つ前段の中間層出力値を取得するとともに、前記音響モデルが前記変化音声データを識別した際に前記出力層の1つ前段の中間層出力値を取得し、
    取得した各前記中間層出力値間の距離を前記第1距離として算出する
    ことを特徴とする請求項1記載の音響モデル学習支援装置。
  4. 前記変化音声生成部は、同一の前記学習音声データを用いて複数の前記変化音声データを生成し、
    前記距離計算部は、前記音響モデルを用いて第1の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて第2の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第2距離を算出し、
    前記学習効果提示部は、前記第1の変化音声データについて算出した前記第1距離が前記第1閾値以上であるとともに、前記第2距離が第2閾値以上である場合に限り、前記第1の変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する
    ことを特徴とする請求項1記載の音響モデル学習支援装置。
  5. 前記音響モデル学習支援装置は、前記サンプル分析部が取得した前記サンプル音声データの特徴量を提示するとともに、前記学習音声データに対して反映すべき前記サンプル音声データの特徴量を指定する、操作インターフェースを備え、
    前記変化音声生成部は、前記操作インターフェースを介して指定された前記サンプル音声データの特徴量を前記変化音声データに対して反映する
    ことを特徴とする請求項2記載の音響モデル学習支援装置。
  6. 前記距離計算部は、複数の前記学習音声データについて前記第1距離を計算し、
    前記音響モデル学習支援装置は、前記第1距離が前記第1閾値以上である場合、各前記学習音声データについての前記第1距離の平均を提示する、学習効果提示インターフェースを備える
    ことを特徴とする請求項1記載の音響モデル学習支援装置。
  7. 前記サンプル分析部は、
    前記サンプル音声データの音量、
    前記サンプル音声データのコーデック、
    前記サンプル音声データの周波数、
    前記サンプル音声データの話速、
    前記サンプル音声データの音声区間長、
    前記サンプル音声データの声道長、
    のうち少なくともいずれかを前記サンプル音声データの特徴量として分析する
    ことを特徴とする請求項2記載の音響モデル学習支援装置。
  8. 前記変化音声生成部は、
    前記学習音声データの音量を変更する、
    前記学習音声データのコーデックを変更する、
    前記学習音声データの周波数を変更する、
    前記学習音声データの話速を変更する、
    前記学習音声データの音声区間長を変更する、
    前記学習音声データの声道長を変更する、
    のうち少なくともいずれかを実施することにより、前記学習音声データの特徴量を変化させる
    ことを特徴とする請求項1記載の音響モデル学習支援装置。
  9. 前記音響モデル学習支援装置は、
    前記変化音声データを用いて前記音響モデルの追加学習を実施するよう前記音響モデル学習支援装置に対して指示する学習指示インターフェース、
    前記学習指示インターフェースが受け取った指示に基づき前記変化音声データを用いて前記音響モデルの追加学習を実施する追加学習部、
    を備えることを特徴とする請求項1記載の音響モデル学習支援装置。
  10. 音声の特徴量を入力することにより前記音声の文字表現を識別するニューラルネットワークである音響モデルを学習することを支援する音響モデル学習支援方法であって、
    前記音響モデルを記述した音響モデルデータを記憶部に格納するステップ、
    前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成ステップ、
    前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第1距離を算出する距離計算ステップ、
    前記第1距離が第1閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示ステップ、
    を有することを特徴とする音響モデル学習支援方法。
JP2015041467A 2015-03-03 2015-03-03 音響モデル学習支援装置、音響モデル学習支援方法 Active JP6306528B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015041467A JP6306528B2 (ja) 2015-03-03 2015-03-03 音響モデル学習支援装置、音響モデル学習支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015041467A JP6306528B2 (ja) 2015-03-03 2015-03-03 音響モデル学習支援装置、音響モデル学習支援方法

Publications (2)

Publication Number Publication Date
JP2016161823A JP2016161823A (ja) 2016-09-05
JP6306528B2 true JP6306528B2 (ja) 2018-04-04

Family

ID=56846917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015041467A Active JP6306528B2 (ja) 2015-03-03 2015-03-03 音響モデル学習支援装置、音響モデル学習支援方法

Country Status (1)

Country Link
JP (1) JP6306528B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049974B2 (ja) * 2018-10-29 2022-04-07 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020183807A1 (ja) * 2019-03-14 2020-09-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、および、情報処理システム
US20200349425A1 (en) 2019-04-30 2020-11-05 Fujitsu Limited Training time reduction in automatic data augmentation
JP7298825B2 (ja) * 2019-12-24 2023-06-27 株式会社 東京ウエルズ 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
WO2021234905A1 (ja) * 2020-05-21 2021-11-25 日本電信電話株式会社 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
WO2021234904A1 (ja) * 2020-05-21 2021-11-25 日本電信電話株式会社 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム
WO2023281640A1 (ja) 2021-07-07 2023-01-12 三菱電機株式会社 データ処理装置及びデータ処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
JPH05181500A (ja) * 1991-11-26 1993-07-23 Sekisui Chem Co Ltd 単語認識システム
JP3322491B2 (ja) * 1994-11-25 2002-09-09 三洋電機株式会社 音声認識装置
JP3322536B2 (ja) * 1995-09-13 2002-09-09 三洋電機株式会社 ニューラルネットワークの学習方法および音声認識装置
JP2005031258A (ja) * 2003-07-09 2005-02-03 Canon Inc 認識モデル学習装置及び方法

Also Published As

Publication number Publication date
JP2016161823A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
KR20140025361A (ko) 위치-기반 대화 해석
JP2021099536A (ja) 情報処理方法、情報処理装置およびプログラム
CN110136715B (zh) 语音识别方法和装置
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
US8868419B2 (en) Generalizing text content summary from speech content
CN107680584B (zh) 用于切分音频的方法和装置
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
CN114663556A (zh) 数据交互方法、装置、设备、存储介质以及程序产品
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
US11037583B2 (en) Detection of music segment in audio signal
WO2014176489A2 (en) A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP7340630B2 (ja) ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション
CN112863496A (zh) 一种语音端点检测方法以及装置
CN113763968B (zh) 用于识别语音的方法、装置、设备、介质和产品
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN113051426A (zh) 音频信息分类方法、装置、电子设备及存储介质
US10930302B2 (en) Quality of text analytics
JP4877112B2 (ja) 音声処理装置およびプログラム
CN113689844B (zh) 语音合成模型的确定方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180308

R151 Written notification of patent or utility model registration

Ref document number: 6306528

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151