JP6712540B2 - モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム - Google Patents

モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム Download PDF

Info

Publication number
JP6712540B2
JP6712540B2 JP2016229859A JP2016229859A JP6712540B2 JP 6712540 B2 JP6712540 B2 JP 6712540B2 JP 2016229859 A JP2016229859 A JP 2016229859A JP 2016229859 A JP2016229859 A JP 2016229859A JP 6712540 B2 JP6712540 B2 JP 6712540B2
Authority
JP
Japan
Prior art keywords
utterance
speech recognition
model parameter
model
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016229859A
Other languages
English (en)
Other versions
JP2018087842A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016229859A priority Critical patent/JP6712540B2/ja
Publication of JP2018087842A publication Critical patent/JP2018087842A/ja
Application granted granted Critical
Publication of JP6712540B2 publication Critical patent/JP6712540B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複数の発話を繰り返し音声認識する連続発話音声認識技術に関し、複数の言語モデルを使用する際の言語モデルごとの重みを決定するためのモデルパラメータ製造装置とモデルパラメータ製造方法、そのモデルパラメータを用いた音声認識装置、音声認識方法およびプログラムに関する。
講演や講義音声、また、コンタクトセンタの対話音声などは、音声検索などの単一発話音声認識ではなく、複数の発話を繰り返し音声認識する連続発話音声認識である。単一発話の音声認識では、発話間が独立であるが、連続発話音声認識では、発話間に強く依存関係がある。この連続発話音声認識で高い性能を実現するためには、発話を認識するたびに音声認識器を適応化し、次の発話に適した状態を作ることが重要といえる。
音声認識装置を少ないパラメータの制御のみで簡単に変更する枠組みとして、言語モデル混合に基づく音声認識装置がある。言語モデルは音声認識における言語な制約(単語の出現確率)を制御するものである。例えば、各言語モデルが単語wの確率をモデル化している場合、K個の言語モデルを混合するときは以下の式に従い単語wの確率を混合して算出する。
Figure 0006712540
ここで、Kは2以上の整数、kは1以上K以下の整数、λはk番目の言語モデルの重み、P(w|θ)はk番目の言語モデルによる単語wの確率である。つまり、重みλ,…, λを制御することで、P(w)を変えることができる。よって、連続発話音声認識では、発話を認識するたびに重みλ,…, λを変化させれば、音声認識装置を適応化できる。非特許文献1には、重みλ,…, λを決定する方法が示されている。
Mikolov Tomas, Deoras Anoop, Kombrink Stefan, Burget Lukas, Cernocky Jan, "Empirical Evaluation and Combination of Advanced Language Modeling Techniques", In Proceedings of the 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011, pp605-608.
しかしながら、非特許文献1に示された従来技術では、前の発話の音声認識結果、もしくはこれまですべての発話の認識結果に対して最尤となるように、EMアルゴリズムなどの再帰的な計算で重みλ,…, λを決定する。したがって、従来技術は、過去の発話の認識結果に対して最尤となる重みλ,…, λを決定する技術である。よって、従来技術は、これから音声認識を行う発話に対して最尤となる重みを決定する技術ではなかった。
本発明は、これから音声認識する発話に対して適切な重みλ,…, λを決定するためのモデルパラメータ製造装置、モデルパラメータ製造方法、および学習されたモデルパラメータを用いた音声認識装置、音声認識方法を提供することを目的とする。
本発明のモデルパラメータ製造装置は、K個の言語モデルを用いて音声認識を行う際に、言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行う。Kはあらかじめ定めた2以上の整数、nは正の整数とする。本発明のモデルパラメータ製造装置は、音声認識結果生成部、最適混合重み決定部、モデルパラメータ学習部を備える。音声認識結果生成部は、学習用連続発話の音声データが入力されると、あらかじめ定めた重みでK個の言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する。なお、モデルパラメータ製造装置が混合重み決定部も備える場合は、音声認識結果生成部は、n+1番目の発話の音声データが入力されると、K個の言語モデルと混合重み決定部が出力した重みを用いて、n+1番目の発話の音声認識結果を出力する。この混合重み決定部は、あらかじめ定めた初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いるK個の言語モデルごとの重みを出力する。最適混合重み決定部は、学習用連続発話の正解文を入力とし、発話ごとに、当該発話の正解文の単語列を用いて、当該発話の音声認識に適した言語モデルごとの重みを決定する。モデルパラメータ学習部は、音声認識結果と最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したn+1番目の発話の音声認識に適した言語モデルごとの重みを出力するようにモデルパラメータの学習を行う。
本発明の音声認識装置は、K個の言語モデルを用いて音声認識を行う。本発明の音声認識装置は、混合重み決定部と適応型音声認識部を備える。混合重み決定部は、モデルパラメータ製造装置によって学習されたモデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる言語モデルごとの重みを出力する。適応型音声認識部は、n+1番目の発話の音声データが入力されると、K個の言語モデルと混合重み決定部が出力した重みを用いて、n+1番目の発話の音声認識結果を出力する。
本発明のモデルパラメータ製造装置によれば、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、正解文の単語列から得られたn+1番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。したがって、本発明のモデルパラメータ製造装置は、過去の音声認識結果から、これから音声認識する発話に対して適切な重みλ,…, λを決定するためのモデルパラメータを製造できる。そして、本発明の音声認識装置は、そのモデルパラメータを用いて音声認識を行うことができる。
本発明のモデルパラメータ製造装置の機能構成例を示す図。 実施例1のモデルパラメータ製造方法の処理フローを示す図。 本発明の音声認識装置の機能構成例を示す図。 本発明の音声認識方法の処理フローを示す図。 変形例1のモデルパラメータ製造方法を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1に実施例1のモデルパラメータ製造装置の機能構成例を示す。図2に実施例1のモデルパラメータ製造方法の処理フローを示す。モデルパラメータ製造装置100は、K個の言語モデルを用いて音声認識を行う際に言語モデルごとの重みを決定する混合重み決定部210が用いるモデルパラメータの学習を行う。Kはあらかじめ定めた2以上の整数、nは正の整数とする。モデルパラメータ製造装置100は、音声認識結果生成部110、最適混合重み決定部120、モデルパラメータ学習部130、記録部190を備える。記録部190は、学習用連続発話の音声データとその正解文、およびモデルパラメータを記録する。
音声認識結果生成部110は、学習用連続発話の音声データを入力とし、あらかじめ定めた重みでK個の言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する(S110)。あらかじめ定めた重みとしては、すべての重みを1/Kにする例があるが、これに限定する必要はなく、言語モデルの特徴が分かっている場合はその特徴を考慮して適宜決めてもよい。なお、音声データには認識が難しい単語も含まれているので、出力される音声認識結果は誤りを含んでいる可能性もあることに注意されたい。
最適混合重み決定部120は、学習用連続発話の正解文を入力とし、発話ごとに、当該発話の正解文の単語列を用いて、当該発話の音声認識に適した言語モデルごとの重みλ,…, λを決定する(S120)。ある発話の単語列をw,…,wとする。Lはその発話に含まれる単語の数である。K個の言語モデルに対する最適な重みλ,…, λは、単語列w,…,wに対して最尤となる重みλ,…, λである。なお、「単語列w,…,wに対して最尤」とは、重みλ,…, λを決定した際の単語wの発生確率P(w)が、単語列w,…,wを最も生成しやすくなるように決定することを意味する。この決定には、例えばEMアルゴリズムを用いればよく、単語列w,…,wに対して最尤となる重みλは次式の再帰的な計算で求めることができる。ただし、kは1以上K以下の整数である。
Figure 0006712540
最適混合重み決定部120は、正解文の単語列を用いて発話ごとに重みλ,…, λを決定しているので、最適な重みλ,…, λを決定していると言える。
音声認識の際には、音声認識の対象となっている発話の単語列は未知である。そこで、モデルパラメータ学習部130は、n番目までの発話に対する音声認識結果に基づいて、正解文の単語列から得られたn+1番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。より具体的には、モデルパラメータ学習部130は、音声認識結果と最適混合重み決定部120が決定した重みを入力とし、混合重み決定部210が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、最適混合重み決定部120が決定したn+1番目の発話の音声認識に適した言語モデルごとの重みを出力するようにモデルパラメータの学習を行う(S130)。「n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例としては、n番目の発話に対する音声認識結果だけ、n−m+1番目からn番目までのm個の発話に対する音声認識結果、n番目までのすべての発話に対する音声認識結果などがある(ただし、mは2以上の整数)。多くの音声認識結果を用いれば、混合重み決定部210がより適切な重みλ,…, λを決定できるモデルパラメータを製造できると考えられるが、学習に要する処理量も増加する。音声認識結果を選定する方法は、これらのことを考慮して適宜決めればよい。なお、モデルパラメータのモデル構造は、ロジスティック回帰モデル、リカレントニューラルネットワークのような機械学習におけるモデルである。最終的には、記録部190には学習後のモデルパラメータ(製造されたモデルパラメータ)が記録される。
図3に本発明の音声認識装置の機能構成例を示す。図4に本発明の音声認識方法の処理フローを示す。音声認識装置200は、混合重み決定部210、適応型音声認識部220、記録部290を備え、K個の言語モデルを用いて音声認識を行う。記録部290は、モデルパラメータ製造装置100によって学習されたモデルパラメータを記録する。
混合重み決定部210は、モデルパラメータ製造装置100によって学習されたモデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる言語モデルごとの重みλ,…, λを出力する(S210)。上述のとおり、「n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例としては、n番目の発話に対する音声認識結果だけ、n−m+1番目からn番目までのm個の発話に対する音声認識結果、n番目までのすべての発話に対する音声認識結果などがある。1番目の発話に対する重みλ,…, λの決定では過去の音声認識結果が存在しないので、あらかじめ定めた重みにすればよい。例えばすべての重みを1/Kにすればよい。m個の発話に対する音声認識結果を用いる場合に、2番目からm番目までの発話に対する音声認識では音声認識結果の数が足りないが、存在する音声認識結果だけから言語モデルごとの重みλ,…, λを決定すればよい。
適応型音声認識部220は、n+1番目の発話の音声データが入力されると、K個の言語モデルと混合重み決定部が出力した重みλ,…, λを用いて、n+1番目の発話の音声認識結果を出力する(S220)。なお、適応型音声認識部220は、1番目の発話の音声データが入力されたときは、あらかじめ定めた重みλ,…, λ(例えばすべての重みが1/K)を用いて、1番目の発話の音声認識結果を出力すればよい。音声認識装置200は、発話が続いている場合はステップS210,S220を繰り返す(S230)。
本発明のモデルパラメータ製造装置100によれば、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、正解文の単語列から得られたn+1番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。したがって、本発明のモデルパラメータ製造装置100は、過去の音声認識結果から、これから音声認識する発話に対して適切な重みλ,…, λを決定するためのモデルパラメータを製造できる。本発明の音声認識装置200は、そのモデルパラメータを用いて音声認識を行うことができる。また、音声認識結果には誤りも含まれる可能性もあるが、従来技術では認識結果に誤りがあることは考慮されていなかった。一方、本発明では、モデルパラメータ学習部130には、誤りが含まれているかもしれない音声認識結果と最適混合重み決定部が決定した重みが入力されるので、音声認識結果に誤りが含まれている可能性も含めて適切な重みが決まるようにモデルパラメータの学習を行える。さらに、音声認識の際にはEMアルゴリズムのような再帰的な計算を用いないので、重みλ,…, λを決定するための計算時間を短縮できる。よって、リアルタイムな音声認識にも適用できる。
[変形例1]
図1に本変形例のモデルパラメータ製造装置の機能構成例を示す。図5に本変形例のモデルパラメータ製造方法を示す。本変形例のモデルパラメータ製造装置105も、K個の言語モデルを用いて音声認識を行う際に言語モデルごとの重みを決定する混合重み決定部210が用いるモデルパラメータの学習を行う。モデルパラメータ製造装置105は、混合重み決定部210、音声認識結果生成部115、最適混合重み決定部120、モデルパラメータ学習部130、記録部190を備える。記録部190は、学習用連続発話の音声データとその正解文、初期モデルパラメータおよびモデルパラメータを記録する。実施例1のモデルパラメータ製造装置100とは、混合重み決定部210を備えている点と、音声認識結果生成部115が異なる。実施例1の音声認識結果生成部110はあらかじめ定めた重み(例えばすべての重みが1/K)を用いていたが、本変形例の音声認識結果生成部115は混合重み決定部210が出力した重みλ,…, λを用いる点が異なっている。音声認識装置200は、実施例1と同じである。
混合重み決定部210は、音声認識装置200が備える混合重み決定部210と機能は同じであるが、初期モデルパラメータを用いる点だけ異なる。具体的には、混合重み決定部210は、初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる言語モデルごとの重みを出力する(S215)。初期モデルパラメータは、例えば、実施例1のモデルパラメータ製造装置で製造されたモデルパラメータとすればよい。「n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例は実施例1と同じであり、n番目の発話に対する音声認識結果だけ、n−m+1番目からn番目までのm個の発話に対する音声認識結果、n番目までのすべての発話に対する音声認識結果などがある。
音声認識結果生成部115は、n+1番目の発話の音声データが入力されると、K個の言語モデルと混合重み決定部210が出力した重みを用いて、n+1番目の発話の音声認識結果を出力する(S115)。なお、音声認識結果生成部115は、1番目の発話の音声データが入力されたときは、あらかじめ定めた重みλ,…, λ(例えばすべての重みが1/K)を用いて、1番目の発話の音声認識結果を出力すればよい。
最適混合重み決定部120とモデルパラメータ学習部130は、実施例1と同じである。ステップS210、S115,S120,S130の処理によって、初期モデルパラメータから新しいモデルパラメータを製造でき、その新しいモデルパラメータが記録部190に記録される。
本変形例のモデルパラメータ製造方法では、所定の条件を満たすかを確認し(S105)、満たさない場合は、記録部190に記録されている初期モデルパラメータを新しいモデルパラメータに変更した上で(S216)、ステップS215,S115,S130を繰り返してもよい。「所定の条件」とは、繰り返しの回数で定めてもよいし、初期モデルパラメータの変更前後での音声認識結果の違い(例えば、音声認識結果に含まれる誤りの違い)があらかじめ決めた範囲まで収束することを条件としてもよい。なお、所定の条件の確認(S105)、初期モデルパラメータの変更(S216)は、モデルパラメータ製造装置105が行ってもよいし、人や別の装置が行ってもよい。また、所定の条件が、1回だけステップS215,S115,S120,S130を行うという条件の場合は、繰り返し処理は行わない。
実施例1のモデルパラメータ製造装置100では、音声認識結果生成部110はあらかじめ定めた重みで音声認識を行うので、音声認識結果生成部110と音声認識装置200の音声認識結果には違い(例えば、音声認識結果に含まれる誤りの違い)がある可能性がある。モデルパラメータ製造装置105を用いたモデルパラメータ製造方法であれば、音声認識結果生成部115と音声認識装置200の音声認識結果の違いを小さくできる。よって、音声認識結果に誤りが含まれている可能性も考慮する必要がある場合には、より適切な重みが決まるようにモデルパラメータの学習を行える。その他の効果は実施例1と同じである。
[プログラム、記録媒体]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100,105 モデルパラメータ製造装置
110,115 音声認識結果生成部
120 最適混合重み決定部
130 モデルパラメータ学習部
190,290 記録部
200 音声認識装置
210 混合重み決定部
220 適応型音声認識部

Claims (7)

  1. K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
    Kはあらかじめ定めた2以上の整数、nは正の整数とし、
    学習用連続発話の音声データが入力されると、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成部と、
    前記学習用連続発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
    前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
    を備えたモデルパラメータ生成装置。
  2. K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
    Kはあらかじめ定めた2以上の整数、nは正の整数とし、
    あらかじめ定めた初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定部と、
    n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定部が出力した重みを用いて、n+1番目の発話の音声認識結果を出力する音声認識結果生成部と、
    前記n+1番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
    前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
    を備えたモデルパラメータ生成装置。
  3. K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップで用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
    Kはあらかじめ定めた2以上の整数、nは正の整数とし、
    学習用連続発話の音声データを入力とし、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成ステップと、
    前記学習用連続発話の正解文を入力とし、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記K個の言語モデルごとの重みを決定する最適混合重み決定ステップと、
    前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
    を実行するモデルパラメータ生成方法。
  4. K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップが用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
    Kはあらかじめ定めた2以上の整数、nは正の整数とし、
    あらかじめ定めた初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定ステップと、
    n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、n+1番目の発話の音声認識結果を出力する音声認識結果生成ステップと、
    前記n+1番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定ステップと、
    前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
    を実行するモデルパラメータ生成方法。
  5. 請求項記載のモデルパラメータ生成方法であって、
    所定の条件を満たすまで、前記初期モデルパラメータを前記モデルパラメータ学習ステップで学習したモデルパラメータに変更しながら、前記混合重み決定ステップ、前記音声認識結果生成ステップ、前記モデルパラメータ学習ステップを繰り返す
    ことを特徴とするモデルパラメータ生成方法。
  6. Kはあらかじめ定めた2以上の整数、nは正の整数とし、
    モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いるK個の言語モデルごとの重みを出力する混合重み決定部と、
    n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、n+1番目の発話の音声認識結果を出力する適応型音声認識部
    を備える音声認識装置の作成方法であって、
    前記モデルパラメータを生成するために、請求項3〜5のいずれかに記載のモデルパラメータ生成方法の各ステップを実行する
    ことを特徴とする音声認識装置の作成方法。
  7. 請求項3〜5のいずれかに記載のモデルパラメータ生成方法の各ステップ、または請求項記載の音声認識装置の作成方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016229859A 2016-11-28 2016-11-28 モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム Active JP6712540B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016229859A JP6712540B2 (ja) 2016-11-28 2016-11-28 モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016229859A JP6712540B2 (ja) 2016-11-28 2016-11-28 モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018087842A JP2018087842A (ja) 2018-06-07
JP6712540B2 true JP6712540B2 (ja) 2020-06-24

Family

ID=62493567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016229859A Active JP6712540B2 (ja) 2016-11-28 2016-11-28 モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6712540B2 (ja)

Also Published As

Publication number Publication date
JP2018087842A (ja) 2018-06-07

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US11798535B2 (en) On-device custom wake word detection
US11158305B2 (en) Online verification of custom wake word
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
US10032463B1 (en) Speech processing with learned representation of user interaction history
US9818409B2 (en) Context-dependent modeling of phonemes
US11462216B2 (en) Hybrid arbitration system
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
US11113596B2 (en) Select one of plurality of neural networks
KR20190136578A (ko) 음성 인식 방법 및 장치
CN113591462A (zh) 弹幕回复生成方法、装置及电子设备
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
US9892726B1 (en) Class-based discriminative training of speech models
JP6712540B2 (ja) モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
Chung et al. Rank‐weighted reconstruction feature for a robust deep neural network‐based acoustic model
US11804225B1 (en) Dialog management system
US11837229B1 (en) Interaction data and processing natural language inputs
JP7367609B2 (ja) 応答文生成装置、強化学習装置、応答文生成方法、モデル生成方法、プログラム
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
Raj Seq2Seq learning Chatbot with Attention Mechanism
Iglesias et al. Influence of the data codification when applying evolving classifiers to develop spoken dialog systems
JP2006098425A (ja) 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6712540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150