JP6699945B2 - 音響モデル学習装置、その方法、及びプログラム - Google Patents

音響モデル学習装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6699945B2
JP6699945B2 JP2017081080A JP2017081080A JP6699945B2 JP 6699945 B2 JP6699945 B2 JP 6699945B2 JP 2017081080 A JP2017081080 A JP 2017081080A JP 2017081080 A JP2017081080 A JP 2017081080A JP 6699945 B2 JP6699945 B2 JP 6699945B2
Authority
JP
Japan
Prior art keywords
acoustic model
acoustic
learning
learned
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017081080A
Other languages
English (en)
Other versions
JP2018180354A (ja
Inventor
太一 浅見
太一 浅見
哲 小橋川
哲 小橋川
山口 義和
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017081080A priority Critical patent/JP6699945B2/ja
Publication of JP2018180354A publication Critical patent/JP2018180354A/ja
Application granted granted Critical
Publication of JP6699945B2 publication Critical patent/JP6699945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識に用いる音響モデルを学習する音響モデル学習装置、音響モデル学習方法、およびプログラムに関する。
音声認識では、入力された音響特徴量がどのHMM状態に属するかを識別する音響モデルが利用される。ニューラルネットワーク型音響モデルを学習する従来の方法が非特許文献1に記載されている。なお、ニューラルネットワーク型音響モデルとは、音響特徴量を入力とし、入力された音響特徴量に対するHMM状態を出力とするニューラルネットワークからなる音響モデルである。
図1は従来の音響モデル学習装置の機能ブロック図を示す。音響モデル学習部91では、ニューラルネットワークの初期値となる初期音響モデルと、大量の(数百〜数千時間の)音声から抽出した学習用の音響特徴量と、各音響特徴量がどのHMM状態に対応するかを表す正解HMM状態番号とを入力とし、音響特徴量を適切に識別できるように学習されたニューラルネットワークである学習済み音響モデルを出力する。
George E. Dahl, Dong Yu, Senior Member, IEEE, Li Deng, Fellow, IEEE, and Alex Acero, Fellow, IEEE, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 20, NO. 1, JANUARY 2012, p.30- 42
しかしながら、従来技術では、音声に関する事前知識のない初期音響モデルから、直接HMM状態を識別する音響モデルを学習するため、ニューラルネットワークが適切なパラメータに収束せず、精度が低下する問題がある。
本発明は、音声に関する事前知識を備えた初期音響モデルから、HMM状態を識別する音響モデルを学習し、従来よりも精度の高い音声認識を行える音響モデルを作成することができる音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習部と、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換部と、学習用音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習ステップと、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換ステップと、学習用音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習ステップとを含み、音響モデル学習装置が実行する。
本発明によれば、従来よりも精度の高い音声認識を行える音響モデルを作成することができるという効果を奏する。
従来の音響モデル学習装置の機能ブロック図。 音響特徴量の階層的な分類構造を示す図。 第一実施形態に係る音響モデル学習装置の機能ブロック図。 第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。 簡易音響モデル学習部の機能ブロック図。 出力層置換部の処理内容を説明するための図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
本実施形態のポイントは、簡単な識別から徐々に難しい識別へと順次音響モデルを学習していく点である。音信号から得られる音響特徴量は図2に示すように階層的な分類構造を持つ。HMM状態は非常に詳細度の高いカテゴリであるため、音響特徴量がどのHMM状態かを識別するのは難易度の高い識別である。一方、より上位の階層での識別、例えば音響特徴量が音声か非音声かを識別するのは難易度の低い識別となる。また、隣接した階層の識別(例えば「音声か非音声かの識別」と「有声音か無声音か非音声かの識別」)は類似した問題なので、「音声か非音声か」を識別するニューラルネットワーク(音声/非音声NN)と、「有声音か無声音か非音声か」を識別するニューラルネットワーク(有声音/無声音/非音声NN)の差分は小さくなる。そのため、有声音/無声音/非音声NNを学習する際に、音声/非音声NNを初期値(初期音響モデルともいう)として用いると適切なパラメータに収束させることができる。本実施形態では、難易度の低い上位の階層での識別を行うニューラルネットワークから学習を開始し、学習したニューラルネットワークを次の段階の学習の初期値として、分類を段階的に詳細化させながら学習を行う。このような構成とすることで、最終的に従来技術よりも高精度にHMM状態を識別可能なニューラルネットワークを得る。なお、ある階層での学習が済んでいない音響モデルをその階層における未学習の音響モデルまたは初期音響モデルともいう。
具体的な学習手順は、以下の通りである。
(1)はじめに、音声に関する事前知識のない初期音響モデルを初期値として、入力音響特徴量が「音声か非音声か」を識別する音声/非音声音響モデルを学習する。音声に関する事前知識のない初期音響モデルとしては、例えば、パラメータを乱数により初期化したものを用いる。
(2)次に、学習済みの音声/非音声音響モデルを初期値として、入力音響特徴量が「有声音か無声音か非音声か」を識別する有声音/無声音/非音声音響モデルを学習する。
(3)次に、学習済みの有声音/無声音/非音声音響モデルを初期値として、入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する母音/有声子音/無声子音/非音声音響モデルを学習する。
(4)次に、学習済みの母音/有声子音/無声子音/非音声音響モデルを初期値として、入力音響特徴量が「(非音声を含む)どの音素か」(言い換えると、「どの音素か、または、非音声か」)を識別する音素音響モデルを学習する。
(5)次に、学習済みの音素音響モデルを初期値として、入力音響特徴量が「どのトライフォンか」を識別するトライフォン音響モデルを学習する。
(6)最後に、学習済みのトライフォン音響モデルを初期値として、入力音響特徴量が「どのHMM状態か」を識別する音響モデル(HMM状態音響モデル)を学習する。
従来技術では、音声に関する事前知識のない初期音響モデルからHMM状態音響モデルを学習していた。本実施形態の順序で学習を行うことにより、より適切な初期値からHMM状態音響モデルを学習できるようになる。そのため、従来技術よりも識別精度の高い音響モデルが得られ、音声認識の精度が向上する。
なお、学習の各段階の一部をスキップする構成としてもよいし、途中に中間的な段階を増やしても良い。例えば、「母音/有声子音/無声子音/非音声」と「音素」の間に、類似した有声子音と無声子音をグループ化した「音素グループ」を識別する段階を増やす等の構成が考えられる。
第一実施形態では、(i)音声に関する事前知識のない初期音響モデルから音声/非音声音響モデルを学習し、次に、(ii)音声/非音声音響モデルを初期値(初期音響モデル)として、HMM状態音響モデルを学習する最小の構成について説明する。
<第一実施形態>
図3は第一実施形態に係る音響モデル学習装置300の機能ブロック図を、図4はその処理フローを示す。
音響モデル学習装置300は、音声に関する事前知識のない初期音響モデルと、番号変換表と、学習用の音声データから得られる学習用の音響特徴量(以下、単に「音響特徴量」ともいう)と、音響特徴量に対応する正解HMM状態番号とを入力とし、これらの値を使って、音響モデルを学習し、学習済みの音響モデル(HMM状態音響モデル)を出力する。
音響モデル学習装置300は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
音響モデル学習装置300は、簡易音響モデル学習部301と、出力層置換部302と、音響モデル学習部303とを含む。
なお、図3には、上述の通り、はじめに音声/非音声音響モデルを学習し、次にHMM状態音響モデルを学習する2段階の学習を行う構成(最小構成)を示した。途中の学習段階を増やす場合でも、簡易音響モデル学習部301と出力層置換部302の処理を繰り返し行えばよく、新たに必要となる構成はない。その場合の詳細に関しては変形例で説明する。
<簡易音響モデル学習部301>
入力:初期音響モデル(音声/非音声)、音響特徴量、正解HMM状態番号、番号変換表
出力:学習済み音響モデル(音声/非音声)
処理:
入力された初期音響モデルを初期値として、音響特徴量と正解HMM状態番号と番号変換表とを用いて、学習し、学習済み音響モデルを求め(S301)、出力する。なお、初期音響モデルとは、未学習の音響モデルを意味し、初期音響モデル(音声/非音声)は、「音声か非音声か」を識別するニューラルネットワークからなる音響モデルの初期音響モデルを意味する。番号変換表は、音響特徴量に対する正解HMM状態番号と、音響モデルの出力である分類結果が取り得る値との対応関係を示すものである。例えば、番号変換表は、HMM状態番号(通常1〜3000程度)と音声か非音声かを表す番号(1または2)との対応関係を示す表である。この番号変換表に基づきHMM状態番号を、音声か非音声かを表す番号に変換することができる。なお、各HMM状態が音声か非音声かは、学習前に正解HMM状態番号を用意した時点で分かっている。
通常の(従来技術の)音響モデル学習部91との違いは、上述の番号変換表を用いる点である。簡易音響モデル学習部301の詳しい構成を図5に示す。
<正解HMM状態番号変換部301A>
入力:正解HMM状態番号、番号変換表
出力:変換正解番号
処理:
入力された正解HMM状態番号を、番号変換表にしたがって変換正解番号に変換し、変換後の変換正解番号を出力する。この例では、変換正解番号は、音声か非音声かを表す番号(1または2)である。正解HMM状態番号はある音響特徴量がどのHMM状態に対応するかを表す番号であり、変換正解番号はある音響特徴量がある階層のどのノード(図2参照)に対応するかを表す番号である。
<第二音響モデル学習部301B>
入力:変換正解番号、音響特徴量、初期音響モデル(音声/非音声)
出力:学習済み音響モデル(音声/非音声)
処理:
例えば、本実施形態のように第二音響モデル学習部301Bによって音声/非音声を識別する音響モデルを学習する場合、初期音響モデル(音声/非音声)として、出力ユニット数が2(音声 or 非音声)のニューラルネットワークを入力する。ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、音声か非音声かを示す情報であり、1または2)を出力とするものである。第二音響モデル学習部301Bは、初期音響モデル(音声/非音声)を初期値として、変換正解番号と音響特徴量とを用いて、学習し、学習済み音響モデル(音声/非音声)を求め、出力する。ニューラルネットワークからなる音響モデルの学習方法としては、如何なる方法を用いてもよい(例えば非特許文献1参照)。
また、HMM状態番号を、有声音か無声音か非音声かを表す番号(1または2または3)に変換する対応表を簡易音響モデル学習部301に入力すれば、有声音/無声音/非音声を識別する音響モデルを学習することができる。図2に示した識別の各階層に合わせた番号変換表(HMM状態番号と、各階層のノードとの対応関係を示す表)を用いることで、所望の階層の識別を行う音響モデルを学習することができる。
<出力層置換部302>
入力:学習済み音響モデル(音声/非音声)、次段階の出力ユニット数
出力:次段階の初期音響モデル(HMM状態音響モデル)
処理:
入力された学習済み音響モデル(音声/非音声)から出力層及び出力層と中間層との間の重みパラメータを除去する。さらに、次段階の音響モデル(HMM状態音響モデル)の出力ユニット数を持つ新たな出力層を付与して、次段階の初期音響モデルとして出力する。例えば、付与される出力層の重みパラメータは乱数により初期化する。処理内容のイメージを図6に示した。
この処理により、前段階で学習した隠れ層を保持しつつ、次段階の階層に適したユニット数の出力層を持つニューラルネットワークを作成できる。これを次段階の学習の初期音響モデルとして利用する。このような構成とすることで、音声に関する事前知識を備えた初期音響モデルを利用することができる。
<音響モデル学習部303>
入力:未学習の音響モデル(HMM状態音響モデル)、音響特徴量、正解HMM状態番号
出力:学習済みの音響モデル(HMM状態音響モデル)
音響モデル学習部303は、音響特徴量及び正解HMM状態番号を用いて、未学習の音響モデル(HMM状態音響モデル)を初期値として、学習し(S303)、学習済みの音響モデル(HMM状態音響モデル)を求め、出力する。ここでは、ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、HMM状態番号)を出力とするものである。
<効果>
以上の構成により、音響モデル学習部303において音声に関する事前知識を備えた初期音響モデルから、HMM状態を識別する音響モデルを学習し、従来よりも精度の高い音声認識を行える音響モデルを作成することができる。
<変形例>
本実施形態では、はじめに音声/非音声音響モデルを学習し、次にHMM状態音響モデルを学習する2段階の学習を行う構成(最小構成)を示したが、上述の通り、途中の学習段階を増やしてもよい。この場合、簡易音響モデル学習部301は、音響特徴量と、正解HMM状態番号と、番号変換表と、未学習の第n次音響モデルとを入力とする。簡易音響モデル学習部301は、音響特徴量と、正解HMM状態番号と、番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求め、出力する。ただし、Nを1以上の整数の何れか、n=1,2,…,Nとする。例えば、第(n+1)次音響モデルの出力ユニット数mn+1を第n次音響モデルの出力ユニット数mnよりも大きいものとすることで、分類を段階的に詳細化させることができる。なお、未学習の第1次音響モデルが、従来技術の初期音響モデルに相当する。出力層置換部302は、学習済みの第n次音響モデルを入力とし、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求め、出力する。なお、未学習の第1次〜第N次音響モデル(n=1,2,…,N)は簡易音響モデル学習部301に出力し(図3中、破線で示す)、未学習の第(N+1)次音響モデルは音響モデル学習部303に出力する。n=1,2,…,Nにおいて、簡易音響モデル学習部301及び出力層置換部302における処理S301,S302を繰り返す(図4中、ループ端を破線で示し、ループ端の上端内に「変数=初期値,終値、増分値」を示す)。音響モデル学習部303は、未学習の第(N+1)次音響モデルと、音響特徴量と、正解HMM状態番号と入力とし、音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求め、出力する。なお、N=1の場合に第一実施形態と同様の処理内容となるため、第一実施形態は、本変形例の一例と言える。
このような構成により、簡易音響モデル学習部301と出力層置換部302を用いて、難易度の低い音声/非音声を識別する音響モデルから学習をはじめ、次の段階の学習の初期音響モデルとして順次利用していく手順により、最終的に音響モデル学習部303に対して適切な初期音響モデルを入力することができるため、高精度にHMM状態を識別する学習済み音響モデルを得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習部と、
    学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換部と、
    前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習部とを含む、
    音響モデル学習装置。
  2. 請求項1の音響モデル学習装置であって、
    pを1,2,…,Nの何れかとし、前記簡易音響モデル学習部において学習する第p次音響モデルは、
    (1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
    (2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
    (3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
    (4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
    (5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
    の何れかであり、
    前記音響モデル学習部において学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
    音響モデル学習装置。
  3. 請求項1または請求項2の音響モデル学習装置であって、
    第(n+1)次音響モデルの出力ユニット数mn+1は第n次音響モデルの出力ユニット数mnよりも大きい、
    音響モデル学習装置。
  4. Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習ステップと、
    学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換ステップと、
    前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習ステップとを含む、
    音響モデル学習装置が実行する音響モデル学習方法。
  5. 請求項4の音響モデル学習方法であって、
    pを1,2,…,Nの何れかとし、前記簡易音響モデル学習ステップにおいて学習する第p次音響モデルは、
    (1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
    (2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
    (3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
    (4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
    (5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
    の何れかであり、
    前記音響モデル学習ステップにおいて学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
    音響モデル学習方法。
  6. 請求項4または請求項5の音響モデル学習方法であって、
    第(n+1)次音響モデルの出力ユニット数mn+1は第n次音響モデルの出力ユニット数mnよりも大きい、
    音響モデル学習方法。
  7. 請求項1から請求項3の何れかの音響モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2017081080A 2017-04-17 2017-04-17 音響モデル学習装置、その方法、及びプログラム Active JP6699945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017081080A JP6699945B2 (ja) 2017-04-17 2017-04-17 音響モデル学習装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017081080A JP6699945B2 (ja) 2017-04-17 2017-04-17 音響モデル学習装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018180354A JP2018180354A (ja) 2018-11-15
JP6699945B2 true JP6699945B2 (ja) 2020-05-27

Family

ID=64275242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017081080A Active JP6699945B2 (ja) 2017-04-17 2017-04-17 音響モデル学習装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6699945B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6827911B2 (ja) * 2017-11-22 2021-02-10 日本電信電話株式会社 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JP6164639B2 (ja) * 2013-05-23 2017-07-19 国立研究開発法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
JP6246636B2 (ja) * 2014-03-20 2017-12-13 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2018180354A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
US10249294B2 (en) Speech recognition system and method
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
US11132992B2 (en) On-device custom wake word detection
JP5768093B2 (ja) 音声処理システム
JP6437581B2 (ja) 話者適応型の音声認識
KR102094935B1 (ko) 음성 인식 시스템 및 방법
Lu et al. Automatic speech recognition
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Dua et al. Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling
WO2018192186A1 (zh) 语音识别方法及装置
Roger et al. Deep neural networks for automatic speech processing: a survey from large corpora to limited data
JP2018072697A (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Meyer Multi-task and transfer learning in low-resource speech recognition
CN116153296A (zh) 一种基于持续学习模型的语音唤醒方法、装置及存储介质
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
Nasr et al. End-to-end speech recognition for arabic dialects
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Coto‐Solano Computational sociophonetics using automatic speech recognition
Scharenborg et al. Building an ASR System for Mboshi Using A Cross-Language Definition of Acoustic Units Approach.
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP2017194510A (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200428

R150 Certificate of patent or registration of utility model

Ref document number: 6699945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150