JP2023542057A - グラフベースの時間的分類を用いたニューラルネットワークの訓練 - Google Patents

グラフベースの時間的分類を用いたニューラルネットワークの訓練 Download PDF

Info

Publication number
JP2023542057A
JP2023542057A JP2023541142A JP2023541142A JP2023542057A JP 2023542057 A JP2023542057 A JP 2023542057A JP 2023541142 A JP2023541142 A JP 2023541142A JP 2023541142 A JP2023541142 A JP 2023541142A JP 2023542057 A JP2023542057 A JP 2023542057A
Authority
JP
Japan
Prior art keywords
label
sequence
neural network
directed graph
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023541142A
Other languages
English (en)
Other versions
JP7466784B2 (ja
Inventor
モーリッツ,ニコ
貴明 堀
ル・ルー,ジョナタン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023542057A publication Critical patent/JP2023542057A/ja
Application granted granted Critical
Publication of JP7466784B2 publication Critical patent/JP7466784B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフを用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するための方法が提供される。有向グラフは、ラベルシーケンスと確率分布シーケンスとの間の非単調な整列と、ラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定する。方法は、ニューラルネットワークを実行して、観測値シーケンスを確率分布シーケンスに変換することと、GTC目的関数に基づいて、ニューラルネットワークのパラメータを更新することとを備える。GTC目的関数は、有向グラフを観測値シーケンスの長さに展開し、かつノードとエッジとの各非展開シーケンスを可能なラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成される。

Description

本発明は、一般に、ニューラルネットワークの訓練に関し、より具体的には、グラフベースの時間的分類(graph-based temporal classification:GTC)目的関数を用いてニューラルネットワークを訓練する方法に関する。
ニューラルネットワークは、非線形プロセスを再現し、モデル化することができるため、過去数十年にわたってさまざまな分野の多くの用途で使用されてきた。その各々が既知の「入力」と「結果」とを含む例を処理し、両者の間に確率的な重み付けをした関連付けを形成し、それをネット自体のデータ構造に格納することで、ニューラルネットワークを学習させる(または訓練する)ことができる。所与の例からのニューラルネットワークの訓練は、通常、ネットワークの処理された出力(多くの場合、予測)と、本明細書では訓練ラベルとも呼ばれる目標出力との差を求めることによって行われる。この差は、訓練によって削減しようとする誤差を表す。したがって、ネットワークは次に、訓練規則に従って、この誤差の値を使用して、その重み付けされた関連付けを調整する。調整を繰返すことにより、ニューラルネットワークは、目標出力にますます類似した出力を生成するようになる。この調整を十分な回数行った後、特定の基準に基づいて訓練を終了することができる。
このタイプの訓練は通常、教師あり学習と呼ばれる。教師あり学習の間は、ニューラルネットワークは、通常、タスク固有の規則でプログラムされることなく、例を検討することでタスクを実行するように「学習」する。たとえば画像認識では、ニューラルネットワークは、「猫」または「猫なし」とラベル付けされた画像例を分析し、その結果を使って他の画像内の猫を識別することで、猫を含む画像を識別するように学習し得る。ニューラルネットワークは、たとえば、毛皮がある、しっぽがある、ひげがある、顔が猫っぽいといった、猫に関する予備知識なしでこれを行う。その代わりに、処理する例から識別特性を自動的に生成する。
しかしながら、このような教師あり学習を行うには、画像に猫または犬のラベル付けを行う必要がある。このようなラベル付けは、面倒で手間のかかるプロセスである。また、この画像認識の例では、ラベリングは曖昧でない。画像には、猫か犬か、または猫でも犬でもないかのどちらかが含まれる。このような曖昧でないラベリングが常に可能であるとは限らない。たとえば、訓練アプリケーションの中には、タイミングが変数であるシーケンス問題に取り組むものがある。入力のシーケンスの長さが出力のシーケンスの長さと異なるこのような訓練では、時間変数が一対多数または多数対一の曖昧さを作り出すことがある。
具体的には、ニューラルネットワークを訓練するいくつかの方法では、コネクショニスト時系列分類(connectionist temporal classification:CTC)目的関数アルゴリズムを用いる。CTCは、訓練ラベルシーケンスと、ニューラルネットワークが出力するより長いラベル確率シーケンスとの間に利用可能な時間的整列情報がない場合に、ニューラルネットワークを訓練するために使用される損失関数であり、ラベル確率シーケンスは、ニューラルネットワークに入力される観測値シーケンスから計算される。このように時間的整列情報がない場合、ニューラルネットワークが出力するラベル確率シーケンスと、CTC目的関数を用いて解決できる訓練ラベルシーケンスである訓練用の監視情報との間に、時間的曖昧さが生じる。
しかしながら、CTC目的関数は、ニューラルネットワークの訓練中の時間的曖昧さを解消するのに適しているに過ぎない。他の種類の曖昧さを考慮する必要がある場合、CTC目的関数は失敗することになる。
いくつかの実施形態は、CTC目的関数の原理が、ある状況にはよく適しているが、他の状況には適していないという認識に基づいている。具体的には、CTC目的関数は、訓練に使用される訓練ラベルシーケンスにおいて、各訓練ラベルの前後に挿入される追加の空白ラベルを使用している。また、CTCでは、ラベルの無限の繰返しは許容され、あるラベルから別のラベルへの遷移に特定の規則が使用される。CTCの規則に従うことによって、空白ラベルを含むラベルシーケンスを観測値シーケンスの長さまで拡張することが可能である。このように拡張することで、訓練中の時間整列を考慮することが可能になる。CTC規則を用いてラベルシーケンスを観測値シーケンスの長さに拡張する方法は、複数存在する。しかしながら、これらの方法はすべて、時間的にラベルの特定のシーケンスの整列にのみ有効であり、他の状況では失敗する可能性がある。
しかしながら、いくつかの実施形態は、現代のアプリケーションの複雑さが、時間的な曖昧さに対処する時間的整列だけに限定されないという認識に基づいている。たとえば、ある状況では、訓練ラベルの定義自体が曖昧であり、それゆえ、訓練は、時間だけでなくラベルの曖昧さも解消する必要がある。たとえば、訓練ラベルが自動的に生成される場合、ラベルの曖昧さが生じる可能性がある。確かに、訓練ラベルを人間のオペレータが手動で作成する場合、そのラベルは正確かつ精密に作ることができ、グラウンドトゥルースと見なすことができる。しかしながら、たとえば半教師付き学習などのように、ラベルを自動的に生成する場合、ラベルの精度は不確かである。また、人間のオペレータによるラベリングの間であっても、ラベリング処理は非常に手間がかかるため、たとえば弱ラベル状況のように部分的にしか行われないことがあり、それによってラベルの曖昧さが生じることがある。さらにまたは代替的に、人間のオペレータは、ラベルシーケンス内の1つまたは複数の特定のラベルについて確信が持てず、確信が持てないラベルごとに、単一のラベルの代わりにワイルドカードラベルまたは潜在的なラベルのセットを使用することもある。
そのため、いくつかの実施形態の目的は、CTC目的関数の原理を変換して、時間整列だけでなく、ラベル整列および/または他の目的にも適した異なる訓練目的関数を提供することである。
いくつかの実施形態は、CTC目的の規則によって、ニューラルネットワークが出力するラベル確率シーケンスとラベルシーケンスとの間の整列が単調になり、そのためラベル整列を妨げるという認識に基づいている。このことは、単調な整列は一次元の曖昧さ、すなわち時間領域の曖昧さの解消に対応するため、驚くには値しない。さらに、空白ラベルの挿入およびラベルシーケンスのあるラベルから別のラベルへの遷移に関する特定のCTC規則を、グラフとして表すことができる。CTCはグラフを考慮しないが、もし考慮するとすれば、CTCにとってそのようなグラフは、ニューラルネットワークが出力するラベル確率シーケンスとラベルシーケンスとの間の単調な整列のみが可能となるように、ラベルにアクセス可能な順番を固定する有向グラフ(directed graph)となる。CTC目的関数および/またはCTC規則の定義はグラフベースではないが、いくつかの実施形態は、CTC目的関数の問題または制限が有向グラフによって示され、グラフベースの定義を使用して解消され得るという認識に基づいている。
具体的には、CTC規則が、ニューラルネットワークによって生成されるラベル確率シーケンスと訓練ラベルシーケンスとの間の整列を単調にする有向グラフ上に、訓練ラベルシーケンスの監視情報を存在させる場合、いくつかの実施形態では、単調な整列規則を破る有向グラフによる訓練用の監視情報を使用することによって、この制限を変更する。単調な整列規則を有する有向グラフは、時間領域における変動のみを許容するが、有向グラフの非単調な特徴は、訓練中にラベルの異なるシーケンスを考慮するために、時間次元とラベル次元との両方における変動を許容する。したがって、訓練目的関数はもはやCTCではなく、本明細書ではグラフベースの時間的分類(GTC)目的関数と呼ばれる。
そのために、いくつかの実施形態は、非単調な整列特性を有する非単調な有向グラフ上に存在する監視情報を用いた、GTC目的関数によるニューラルネットワークの訓練を開示する。非単調な整列特性は、単調な整列特性に関して説明することができる。グラフの単調性または単調な整列特性は、ラベルの繰返しと空白ラベルとを削除した後、特定の開始ノードから特定の終了ノードに遷移することによってグラフから生成可能なラベルシーケンスの数によって定義される。
本明細書で定義されるように、CTC規則に従うグラフのような単調な整列特性を有するグラフは、単一のラベルシーケンスのみを出力し得るが、非単調な整列特性を有するグラフは、複数の異なるラベルシーケンスを出力し得る。本明細書でも定義され、当業者によって一般に理解されるように、時間的に異なって配列されたラベルの同じ順番を有する、または空白ラベルで異なるパディングを有するラベルシーケンスは、同じラベルシーケンスとみなされ、本開示では単一ラベルシーケンスとして扱われる。たとえば、CTCによって定義されるように、重複するラベルの繰返しを削除する折り畳み処理後のパディングされたラベルシーケンス、そして空白ラベルは、CTC目的関数に入力される訓練ラベルシーケンスであるラベルの単一シーケンスを生成する。非単調な整列のGTC設定では、このような折り畳みにより、複数のラベルシーケンスを生成することができる、および/または生成されるであろう。
そのために、いくつかの実施形態では、非単調な整列を有する有向グラフの構造によって、ラベルシーケンスを確率分布シーケンスとマッピングする複数の固有のラベルシーケンスが可能になる。このような非単調な整列を実現するために、有向グラフを形成するノードとエッジとの構造は、複数の非空白接続、および複数の非空白ノードを接続するエッジによって形成されるループのいずれかまたはその組合せを含む。複数の非空白接続においては、有向グラフの少なくとも1つのノードが、異なる非空白ラベルを表す複数の他のノードにエッジによって接続される。
いくつかの実施形態は、監視情報を有向グラフ上に提示することで、そのような訓練の原理と一致する態様でニューラルネットワークを訓練するための異なる規則を適用することができるという認識に基づいている。これは、有向グラフの構造が、訓練の前向き・後ろ向きアルゴリズムによって使用される微分可能なアプローチと一致するためである。したがって、訓練に課されることが望まれる規則を有向グラフの構造の一部として表す場合、そのような規則を、前向き・後ろ向きアルゴリズムと一致する微分可能な態様で訓練に課すことが可能である。
このような規則の例は、ラベルの繰返しに対する制約である。具体的には、CTC目的関数では、訓練ラベルシーケンスを観測値シーケンスの長さに展開するために、訓練ラベルシーケンスの長さと観測値シーケンスの長さとの差で許容される回数、ラベルを繰返すことができる。しかしながら、このような無制約な繰返し要求は、計算資源を浪費することがある。有向グラフを用いない場合、訓練に繰返し制約を課すことは困難である。しかしながら、有向グラフの助けを借りることで、繰返し制約を有向グラフの構造自体に組み込むことができる。
したがって、有向グラフの非単調な整列に追加的にまたは代替的に、いくつかの実施形態では、有向グラフの構造を使用して、ラベルの最小繰返し数、ラベルの最大繰返し数、またはその両方を特定する訓練中のラベルの繰返しに対して制約を課す。ラベルを表すノードのラベルの繰返しに対するこのような制約は、ノードの自己遷移を削除し、当該ノードに同じラベルを表す他のノードへの遷移を追加することによって、実現することができる。
したがって、ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を有することによって、ニューラルネットワークを訓練するための柔軟な規則を課すことが可能になる。たとえば、いくつかの実施形態は、すべての訓練ラベルの間に空白ラベルを挿入することなく、または複数の異なる空白ラベルを使用して、GTC目的関数でニューラルネットワークを訓練することを開示する。さらにまたは代替的に、いくつかの実施形態は、複数の状態を含み得るラベルの各々について隠れマルコフモデル(hidden Markov model:HMM)のようなトポロジーを用いて、GTC目的関数でニューラルネットワークを訓練することを開示する。さらにまたは代替的に、いくつかの実施形態は、コストまたは重み付け係数に関連付けられたノード間の遷移を有する有向グラフを使用して、GTC目的でニューラルネットワークを訓練することを開示する。
有向グラフ上に存在する監視情報を使用することに加えて、いくつかの実施形態では、ラベル整列に対応するためにGTC目的関数を修正した。たとえば、GTC目的関数は、特定の開始ノードおよび終了ノードを有するすべてのノードシーケンス経路の条件付き確率の合計を最大化することによって定義される。特定の開始ノードおよび終了ノードは、ニューラルネットワークが出力するラベル確率シーケンスの長さにグラフを展開することによって、所与の有向グラフから生成可能である。GTC訓練損失および勾配は、前向き変数および後ろ向き変数を計算し、両者をつなぎ合わせることに基づく動的計画アルゴリズムによって、効率的に計算することができる。
ニューラルネットワークのGTCベースの訓練は、ラベリング情報を符号化する有向グラフによってベストの全体的な予測ラベルシーケンスが生成されるようにニューラルネットワークのラベル予測を最適化し、訓練サンプルとグラフベースのラベリング情報の対とのセットに対するすべての可能なラベルシーケンス予測の誤差を最小化することによって、ニューラルネットワークの訓練可能なパラメータを更新することを目標とする。訓練可能なパラメータの例として、ニューラルネットワークのニューロンの重み、およびハイパーパラメータなどが挙げられる。
さらにまたは代替的に、いくつかの実施形態は、GTC目的関数および有向グラフによって、複数のラベルシーケンスだけでなく、複数のラベルシーケンスに対する異なる確率も考慮することが可能になるという認識に基づいている。このような考慮は、特定の状況について監視情報を適応させることができるため、GTC目的関数にとって有利である。そのために、いくつかの実施形態では、有向グラフは、少なくともいくつかのエッジまたは遷移について異なる重みで重み付けされる。これらの遷移の重みは、ラベルシーケンスの条件付き確率の計算において使用される。
したがって、一実施形態では、ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を使用して、グラフベースの時間的分類(graph-based temporal classification:GTC)目的関数を用いてニューラルネットワークを訓練する、コンピュータによって実現される方法を開示する。有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスとラベルとに対する可能な整列経路を表す。有向グラフの構造は、ラベルシーケンスと確率分布シーケンスとの間の非単調な整列と、ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定する。ニューラルネットワークへの入力が観測値シーケンスであり、ニューラルネットワークの出力がラベルのセット内のすべてのラベルにわたる確率分布シーケンスである。
方法は、ニューラルネットワークを実行して、観測値シーケンスを確率分布シーケンスに変換することと、GTC目的関数に基づいて、ニューラルネットワークのパラメータを更新することとを備える。GTC目的関数は、有向グラフを確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成される。すべてのラベルシーケンスの条件付き確率の合計が、ニューラルネットワークによって決定される確率分布シーケンスと、有向グラフのエッジに存在する重みとから推定される。
実施形態例に係る、グラフベースの時間的分類(GTC)目的関数を用いてニューラルネットワークを訓練するワークフローを示す模式図である。 実施形態例に係る、ニューラルネットワークが出力する確率分布シーケンスを示す図である。 実施形態例に係る例示的な非単調な有向グラフを示す図である。 実施形態例に係る、有向グラフの展開中にラベルの可能な無制約の繰返しの例を示す図である。 実施形態例に係る例示的な単調な有向グラフを示す図である。 実施形態例に係る、ラベルの繰返しに対する制約に基づいて修正された単調な有向グラフを示す図である。 実施形態例に係る、GTC目的関数を用いてニューラルネットワークを訓練するための方法のステップを示す図である。 実施形態例に係る、ノードシーケンスに対する条件付き確率の計算を示す図である。 実施形態例に係る、周辺確率を決定するための前向き・後ろ向きアルゴリズムの実現例を示す図である。 実施形態例に係る、複数のラベルシーケンスを、有向グラフを生成するために使用されるコンフュージョンネットワーク(confusion network)に変換する方法を示す図である。 実施形態例に係る、3つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワークを示す図である。 実施形態例に係る、3つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワークを示す図である。 実施形態例に係る、イプシロン削除操作によって最適化されたコンフュージョンネットワークを示す図である。 実施形態例に係る、最適化されたコンフュージョンネットワークから有向グラフを生成するための方法を示す図である。 実施形態例に係る、図5Eに示す方法のステップを用いて生成された有向グラフを示す図である。 実施形態例に係る、グラフベースの時間的分類(GTC)目的関数を用いて自動音声認識(automatic speech recognition:ASR)のためのニューラルネットワークを訓練するワークフローを示す模式図である。 実施形態例に係る、ニューラルネットワークを訓練する際にGTC目的関数によって使用される例示的な有向グラフを示す図である。 実施形態例に係る、GTC目的関数を用いて実装されたASRシステムのニューラルネットワークアーキテクチャを示す図である。 実施形態例に係る、異なるサイズNのN-bestリストについての、および発話ごとの20-best ASR仮説から生成されるCNについてのオラクルラベル誤り率(label error rates:LERs)を示す表1である。 実施形態例に係る、異なる擬似ラベル表現に対するGTCベースのASR結果を示す表2である。 実施形態例に係る、音響イベント検出(sound event detection:SED)システムに入力される複数の音を生成する複数のエンティティを含む音響シーンを示す図である。 実施形態例に係る、グラフベースの時間的分類(GTC)目的関数を用いて音響イベント検出(SED)システムに対応するニューラルネットワークを訓練するワークフローを示す模式図である。 実施形態例に係る、GTC目的関数を用いて訓練されたコンピュータベースのシステムを示すブロック図である。
以下の説明では、説明の目的で、本開示の完全な理解を提供するために多数の具体的な詳細が記載されている。しかしながら、当業者には、本開示がこれらの具体的な詳細なしに実施され得ることは明らかであろう。他の例では、本開示を不明瞭にしないために、装置および方法はブロック図の形態でのみ示されている。
本明細書および請求項で使用される、「たとえば(for example)」、「例として(for instance)」、および「~のような(such as)」という用語、ならびに「備える(comprising)」、「有する(having)」、「含む(including)」、およびこれらの動詞の他の形態は、1つ以上の構成要素またはその他のアイテムの列挙とともに使用される場合、オープンエンドと解釈され、その列挙がさらに他の構成要素またはアイテムを除外するとみなされてはならないことを意味するものとする。「に基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される文体および専門用語は、説明のためのものであって限定とみなされてはならないことを理解されたい。本明細書で使用されるいかなる見出しも、便宜的なものにすぎず、法的または限定効果を有するものではない。
図1Aは、実施形態例に係る、グラフベースの時間的分類(GTC)目的関数105を使用してニューラルネットワーク101を訓練するワークフローを示す模式図である。ニューラルネットワーク101は、観測値シーケンス103に対する確率分布シーケンス111を出力するように訓練され、確率分布シーケンス111は、各時間インスタンスにおけるラベル確率を示す。ニューラルネットワーク101に入力される観測値シーケンス103および複数のラベルシーケンス109aの種類は、ニューラルネットワーク101が使用されているアプリケーションの種類によって決まる。
たとえば、ASRシステムに関連するニューラルネットワーク101の場合、ニューラルネットワーク101の入力インターフェースにおいて提供される観測値シーケンス103は、音声発話に関連付けられ、複数のラベルシーケンス109aは、特定の言語のアルファベットからの単語、サブワード、および/または文字に対応してもよい。さらに、ニューラルネットワーク101が、音響シーンにおける特定のタイムスパンで発生した異なる音響イベントを検出するように訓練されてもよい音響イベント検出アプリケーションでは、観測値シーケンス103は、音響シーンにおける特定のタイムスパンで構成された音の異なる音響特性を含んでもよい。この場合、複数のラベルシーケンス109aは、音を生成する、または音響イベントを引き起こす異なるエンティティに対応するラベルを含んでもよい。たとえば、音響シーンにおける猫の鳴き声の場合は「猫音」というラベルが使用されてもよく、同様に、犬の吠え声の場合は「犬音」というラベルが使用されてもよい。このように、観測値シーケンス103と複数のラベルシーケンス109aとは、アプリケーションによって異なる。
ニューラルネットワーク101は、GTC目的関数105を用いて訓練され、GTC目的関数105は、有向グラフ107からの監視情報を用いる。有向グラフ107は、エッジによって接続された複数のノードを含み、エッジは、ラベルとラベル間の遷移とを表す。いくつかの実施形態は、有向グラフ107上に監視情報を提示することで、そのような訓練の原理と一致する態様でニューラルネットワークを訓練するための異なる規則を適用することが可能であるという認識に基づいている。これは、有向グラフ107の構造が、訓練の前向き・後ろ向きアルゴリズムによって使用される微分可能なアプローチと一致しているためである。したがって、訓練に課されることが望まれる規則が有向グラフ107の構造の一部として表される場合、そのような規則を、前向き・後ろ向きアルゴリズムと一致する微分可能な態様で、訓練に課すことが可能である。
たとえば、一実施形態では、有向グラフ107は、確率分布シーケンス111と複数のラベルシーケンス109aとに対して複数の可能な整列経路を表す。このような有向グラフによって、GTC目的関数を使用して、時間領域とラベル領域との両方においてその入力と出力との間の整列を実行するように、ニューラルネットワーク101を訓練することができる。このマルチ整列を実現するために、有向グラフ107の構造は、非単調である、すなわち、複数のラベルシーケンス109aのうちの1つのラベルシーケンスと確率分布シーケンス111との間の非単調な整列を特定する。
さらにまたは代替的に、一実施形態では、有向グラフ107は、ラベルの繰返しに対する制約109bを表す。ラベルの繰返しに対する制約109bは、ラベルの繰返しの最小数、ラベルの繰返しの最大数、またはその両方を特定する。ラベルの繰返しに対する制約109bは、時間整列のための有向グラフ107の展開中に生成され得る可能なラベルシーケンスの数を減らし、GTC損失の計算を高速化することができる。
観測値シーケンス103は、特徴抽出手法によって抽出された特徴に対応し得る。たとえば、観測値は、入力信号を重複するチャンクに分割し、チャンクの各々から特徴を抽出することによって得られてもよい。抽出される特徴の種類は、入力の種類に応じて異なってもよい。たとえば、音声発話の場合、音声サンプルのチャンク化されたシーケンスから抽出された特徴は、入力信号のスペクトル分解と、人間の耳の周波数分解能を模倣するための追加の信号処理ステップとを含んでもよい。たとえば、入力された音声発話から抽出された各特徴フレームは、観測値シーケンス103の時間インスタンスに対応してもよく、たとえば、音声発話の各フレームは、音声発話の前のフレームから時間的にさらに10ミリ秒シフトした25ミリ秒の音響サンプルに関連付けられる。音声発話の特徴フレームシーケンスにおける音声発話の各特徴フレームは、対応する時間ステップにおける発話の部分を特徴付ける音響情報を含んでもよい。たとえば、音声データの特徴フレームシーケンスは、フィルタバンクスペクトルエネルギーベクトルを含んでもよい。
ニューラルネットワークの入力および出力
さまざまな実施形態において、ニューラルネットワーク101への入力は観測値シーケンス103であり、ニューラルネットワーク101の出力は、ラベルのセットにわたる確率分布シーケンス111である。説明を明確にするために、ニューラルネットワーク101によって生成される確率分布111は、例示的な実施形態を用いて以下で説明される。例示的な実施形態においては、ニューラルネットワーク101が自動音声認識(ASR)のために訓練される、例示的な実施形態を用いて以下で説明される。しかしながら、この例は、本開示の実施形態の範囲、適用可能性、または構成を限定することを意図していない。
図1Bは、実施形態例に係る、ASRのために訓練されたニューラルネットワーク101によって複数の観測値シーケンス103から計算された確率分布シーケンス111を示す図である。図1Bは、図1Aに関連して説明される。ニューラルネットワーク101への入力は、音声発話から抽出された特徴を有する観測値シーケンス103を含む。ニューラルネットワーク101は、曖昧さをいくらか有する可能な音声認識を符号化する有向グラフ107を含む監視情報に基づいて訓練される。
有向グラフ107および確率分布シーケンス111は、GTC目的関数105によって処理されて、入力された観測値シーケンスに対する有向グラフ107内のラベルの時間的整列およびラベル整列を最適化するとともに、ニューラルネットワーク101のパラメータを更新するための勾配を決定する。GTC目的関数105を用いて訓練されたニューラルネットワーク101は、確率シーケンス111の行列を生成する。確率シーケンス111において、列がタイムステップに対応し、各行がラベル(ここでは、英語のアルファベットの文字)に対応する。
図1Bの例では、ニューラルネットワーク101は、D×T次元の行列(ここで、Dはラベル次元、Tは時間次元を示し、所与の例ではD=29およびT=30である)または確率分布シーケンス111を出力する。ここで、英語のアルファベットの文字および複数の特殊文字がD=29ラベルに相当する。D×T行列の各列(D次元)は、合計が1になる確率に対応する。すなわち、行列は、タイムステップごとの全ラベルにわたる確率分布を示す。この例では、ラベルは、A~Zまでの英語のアルファベットの文字に加えて、追加の記号「_」、「>」、および「-」に対応する。「-」は、空白トークンまたは空白記号を示す。確率分布シーケンス111は、タイムステップごとに異なるラベルの確率を定義し、これは、ニューラルネットワーク101によって観測値シーケンス103から計算される。たとえば、図1Bで観察されるように、ラベル「B」を観察する第4の時間ステップにおける確率は96%であり、ラベル「O」の確率は3%であり、残りのラベルの確率はゼロに近い。したがって、この例の出力において最も可能性の高いラベルシーケンスは、第4の時間位置で文字「B」または「O」のいずれかを有することになる。推論時に、最終ラベルシーケンスを、前置ビームサーチなどのさまざまな技術を使用して、ラベル上の確率分布シーケンス111から抽出し得る。
さらに、GTC目的関数を用いることにより、ニューラルネットワーク101は、有向グラフ107を構成するノードとエッジとのシーケンスに対応するラベルシーケンスの確率を、確率分布シーケンス111において最大化するように訓練される。たとえば、入力された音声発話のグラウンドトゥルーストランスクリプションが「BUGS_BUNNY」に対応するが、グラウンドトゥルーストランスクリプションが未知であるとする。このような場合、有向グラフ107は、「BUGS_BUNNY」に対応する音声発話に対するASR仮説のリストから生成されてもよい。たとえば、有向グラフ107が表すASR仮説のリストは、「BOX_BUNNY」、「BUGS_BUNNI」、「BOG_BUNNY」等でもよい(ここでは、英語のアルファベットの各文字がラベルに対応する)。いずれかの仮説が正しいか、または仮説のどの部分が正しいかは不明であるため、「BUGS_BUNNY」に対応する音声発話に対するこのような複数の仮説のリストには、「BUGS_BUNNY」のみというグラウンドトゥルース情報とは異なり、曖昧なラベル情報が含まれている。
GTC訓練中、有向グラフ107は、確率分布シーケンス111の長さに展開される。展開されたグラフの特定の開始ノードから特定の終了ノードまでの各経路は、整列経路およびラベルシーケンスを示す。このようなグラフは、ニューラルネットワーク101が出力する確率分布シーケンス111と、グラフにおいて符号化されたラベルシーケンス109aとの間の非単調な整列を構成することができる。有向グラフ107が構成する整列経路の1つは、「-BOOXXX_BBUUN-NI」、「B-OOX-_-BUNN-NY-」および「BU-GS-_-BUN-N-Y-」などのラベルシーケンスに対応し得る(「-」は空白記号を表す)。有向グラフ107の各ラベルシーケンスは、時間的整列およびラベル整列を含む。有向グラフ107のラベルと確率分布シーケンス111との時間的整列およびラベル整列は、GTC目的関数105によって、有向グラフ107を加工し、ニューラルネットワーク101を訓練することによって最適化される。GTC目的関数105は、有向グラフ107が構成するラベルシーケンスの確率を最大化するように、ニューラルネットワーク101を訓練するために用いられる。有向グラフ107のエッジ上に存在する遷移重みが、より可能性の高い整列経路を強調するために、訓練中に使用されてもよい。そのために、実施形態例では、ニューラルネットワーク101によって、各仮説にスコアが提供されてもよい。さらに、各仮説は、スコアに基づいてランク付けされてもよい。さらに、ランク付けに基づいて、N-best仮説の後続の仮説に対応する遷移の重みよりも、最初にランク付けされた仮説に対応する遷移の重みが大きくなるように、各仮説に対応する遷移に重みが割り当てられてもよい。たとえば、仮説「BOG」は、文脈情報に基づいて、他の仮説「BOX」と比較してランクが高い可能性がある。したがって、ラベル「O」および「G」を接続する重みは、「O」および「X」を接続する重みより大きくてもよい。そのため、遷移重みがより大きいラベルシーケンスは、より高い確率のスコアが割り当てられることになり、そのため、入力された音声発話を正しくトランスクリプションするために選択される。
非単調な整列の有向グラフ
いくつかの実施形態では、監視情報は有向グラフ107の構造によって構成され、監視情報は、GTC目的関数105によって、時間的曖昧さおよびラベル曖昧さなどの1つまたは複数の曖昧さを解消するために使用されて、ニューラルネットワーク101を訓練する。したがって、監視情報は、複数のラベルシーケンス109aと確率分布シーケンス111との間の非単調な整列の1つまたは組み合わせを特定する。非単調な整列に基づいて、有向グラフ107は、複数の固有のラベルシーケンスを出力することができる。
図1Cは、実施形態例に係る例示的な有向グラフ100cを示す図である。有向グラフ100cは、各ノードがラベルを表す複数のノード113a,113b,113cおよび113dを含む。たとえば、ノード113aはラベル「A」を表し、113bはラベル「B」を表し、ノード113cはラベル「C」を表し、ノード113dはラベル「D」を表す。有向グラフ100cは、開始ノード117aで開始し、終了ノード117bで終了する。図1Cでは、開始ノードおよび終了ノードは、図示を単純化し明確化するために示されていない他のノードが有向グラフ100cに存在し得ることを説明するために、破線でラベルに接続されている。
有向グラフ100cは、それによって、有向グラフ100cのラベルシーケンスと、訓練中にニューラルネットワーク101によって出力される確率分布シーケンス111との間の非単調な整列を提供する非単調な有向グラフである。異なる実施形態において、非単調な整列は、ラベルおよび時間の曖昧さを捉える有向グラフ100cのノードを通る複数の経路を可能にするために、異なる方法で実装することができる。
たとえば、図1Cに示すように、有向グラフ100cにおける非単調な整列は、少なくとも1つのノードを異なるラベルを表す異なるノードに接続することによって構造化することができる。たとえば、ラベルAを表すノード113aは、ラベルBを表すノード113bにエッジ115abで接続され、ラベルCを表すノード113cにエッジ115acで接続される。このような分割接続により、開始ノードと終了ノードとの間に挟まれたシーケンスABDおよびシーケンスACDなどの、グラフ内の複数の異なる経路で定義される複数の異なるラベルシーケンスを作成することができる。
有向グラフ100cの構造で符号化された非単調な整列の他の例は、複数の非空白ノードを接続するエッジによって形成されるループである。有向グラフ100cでは、ループは、ABACDまたはABABDなどの、グラフを通る複数の経路を作ることを可能にするエッジ115abおよび115baによって形成される。
いくつかの実施形態は、非単調な有向グラフ100cが異なるラベルシーケンスを符号化するため、すべてのシーケンスが等確率であるとは限らないという認識に基づいている。したがって、有向グラフ100cの構造に不均等な確率を課す必要がある。
Figure 2023542057000002

ラベルの繰返しに制約のある有向グラフ
図1Dは、実施形態例に係る、有向グラフ100dの展開中のラベルの繰返しを示す図である。図1Dは、左側に有向グラフ100dを含み、右側に展開された有向グラフ110dを有する。有向グラフ100dは、トランスクリプション「HELLO WORLD」に対応するラベルシーケンスを含む。ニューラルネットワーク101に提供される観測値シーケンス103の観測値が、ラベルシーケンスのラベルよりも多い、すなわちトランスクリプションがあるとする。たとえば、トランスクリプション「HELLO WORLD」の文字数は10であり、観測値数(および対応する条件付き確率)は30でもよい。したがって、ラベル数を観測値数に一致または整列させるために、トランスクリプションの一部のラベルは、グラフの展開中に繰り返される。たとえば、トランスクリプション「HELLO WORLD」の文字「E」は、数回繰り返されることがある。
しかしながら、ラベルの繰返し可能な回数に制約がないため、繰り返されるラベルの各々から可能な遷移を分析するためにGTC目的関数が必要となり、無駄な計算能力が発生してしまう。そのため、有向グラフ100dは、ラベルの繰返しに対する制約109bを含む。有向グラフ100dの制約109bは、ラベルシーケンスにおいてラベルの繰返しを許容する最小回数、またはラベルシーケンスにおいてラベルの繰返しを許容する最大回数、またはその両方を含んでもよい。これは、模範的な展開119のように、それほど多くの連続した時間枠にわたって文字「E」を観察する可能性が低いからである。
したがって、有向グラフ100dの非単調な整列に対して追加的または代替的に、いくつかの実施形態では、有向グラフ100dの構造を使用して、訓練中のラベルの繰返しに対して、ラベルの最小繰返し数、ラベルの最大繰返し数、またはその両方を指定する制約を課す。ラベルを表すノードのラベルの繰返しに対するこのような制約は、ノードの自己遷移を削除し、当該ノードに同じラベルを表す他のノードへの遷移を追加することによって、実現することができる。
図1Eは、実施形態例に係る、ラベルの繰返しに対する制約109bを有する例示的な有向グラフ100eを示す図である。有向グラフ100eは、開始ノード117aで開始し、終了ノード117bで終了する。単調な有向グラフ100eは、各ノードがラベルを表す複数のノード121x,121y,123yおよび121zを含む。たとえば、ノード121xはラベル「X」を表し、ノード121yはラベル「Y」を表し、ノード121zはラベル「Z」を表し、123yは別のラベル「Y」を表す。この例では、同じラベルを表す接続されたノードシーケンスが、ノード121yとノード123yとによって形成されている。
有向グラフ100eは、開始ノードと終了ノードとを接続するグラフのノードを通る経路が複数存在するものの、折り畳み手順の後にはラベルXYZの一つのシーケンスしか形成することができないため、単調である。
たとえば、単調な有向グラフ100eは、単調な有向グラフ100eの展開中に、X→X→X→Y→Z→ZまたはX→Y→Y→ZまたはX→Y→Zなどの、異なるラベルシーケンスを特定してもよい。しかしながら、これらのラベルシーケンスを折り畳んだ後、X→Y→Zである1つのラベルシーケンスのみが生成される。いくつかの実施形態では、複数の単調な有向グラフを組み合わせて、非単調な有向グラフ(非単調な有向グラフ100cなど)を形成してもよく、これはニューラルネットワーク101の訓練に用いられる。
さらに、単調な有向グラフ100eにおいて、特定のラベル、たとえばラベル「Y」を3回以上繰返すべきではなく、ラベル「X」および「Z」を複数回繰返すことができると定義してもよい。この情報は、グラフの構造で符号化され、展開の間に自動的に使用される。たとえば、ノード121xと121zとは自己遷移を有するので、展開で許容される回数だけ繰返すことができる。これに対して、ラベル「Y」に対応するノード121yと123yとは、自己遷移を有していない。したがって、開始ノードと終了ノードとの間のグラフを移動するには、経路は、ノード121yに対応するラベル「Y」が1回繰り返される121x-121y-121z、またはノード121yおよび123yに対応するラベル「Y」が2回繰り返される121x-121y-123y-121zでもよい。さらに、有向グラフ100eは、何の制約もなく現在複数回繰り返されているラベル「X」および「Z」等の他のラベルの繰返しを修正または制約することを許容する。有向グラフ100eを有向グラフ100fに修正して、他のラベル「X」および「Z」に制約を課してもよい。
図1Fは、実施形態例に係る、ラベルの繰返しに対する制約109bを有する別の例示的な有向グラフ100fを示す図である。図1Fにおいて、単調な有向グラフ100fの構造は、ラベル「X」をシーケンス内で3回だけ繰返すことができ、そのために、ラベル「X」を表すノード125xと、同じくラベル「X」を表すノード127xとが、元のノード121xに接続されてもよいと制約している。この例では、ノード121xと125xと127xとによって、同じラベルを表す接続されたノードシーケンスが形成される。
同様に、ラベル「Z」は常に2回繰り返される、などと制約されてもよい。そのために、ノード129zは、元のノード121zに接続されてもよい。このように、有向グラフ100fは、ニューラルネットワーク101の訓練を最適化するために大きな柔軟性をもたらす。
繰返しに対する制約109bは、音声関連のアプリケーションに有利である。たとえば、英語でのトランスクリプションを行うように構成されたASRシステムに対応するニューラルネットワーク101が使用する有向グラフ100fについては、ラベル「U」に対応する出力が複数の連続するフレームにわたって観測される可能性が低いと、あらかじめ分かっている場合がある。したがって、ラベル「U」は、計算複雑性を低減させ、GTC目的関数の計算を高速化するために、限られた回数だけ繰り返されるように制約されてもよい。
繰返しに対する制約109bの利点は、音声関連のアプリケーションに限定されない。たとえば、有向グラフ100fとニューラルネットワーク101とは、家庭環境における音響イベントを検出するために実装された音響イベント検出システムに対応可能である。「ドアをバタンと閉める」というような短いイベントは、多くの連続した観測フレームにわたって発生する可能性は低いかもしれない。したがって、有向グラフ100fの構造は、「ドアをバタンと閉める」というラベルの繰返しに対する制約109bを定義してもよい。
有向グラフを用いたGTC目的関数での訓練
さまざまな実施形態において、ニューラルネットワーク101は、観測値シーケンス103を確率分布シーケンス111に変換するように、GTC目的関数105に基づいて訓練される。さらに、ニューラルネットワーク101は、ラベルシーケンスの長さが確率分布シーケンス111の長さと一致するように、複数のラベルシーケンス109aからすべての可能なラベルシーケンスを生成するために有向グラフ107を展開するように構成されている。有向グラフ107を展開することは、確率分布シーケンス111の長さの有向グラフ107のノードとエッジとを通る開始ノードから終了ノードへの経路を見つけることによって、有向グラフ107の構造に従ってラベルシーケンスおよび整列経路を生成することを含む。展開されたグラフの各経路は、特定の開始ノードで開始し、特定の終了ノードで終了する、固定長のノードとエッジとのシーケンスに対応する。ノードとエッジとのシーケンスに対応する展開されたグラフ内の各可能な経路を、ラベルシーケンスにマッピングすることができる。
さらに、ニューラルネットワーク101は、GTC目的関数105に基づいて、ニューラルネットワーク101の1つ以上のパラメータを更新し、GTC目的関数105は、有向グラフ107を展開することによって生成されるラベル109aのすべての可能なシーケンスの条件付き確率の合計を最大化するように構成されている。ニューラルネットワーク101によって更新されるニューラルネットワーク101の1つ以上のパラメータは、ニューラルネットワークの重みおよびバイアスに加えて、埋め込みベクトル等の他の訓練可能なパラメータを含んでもよい。
いくつかの実施形態では、有向グラフ107は、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフである。さらに、GTC目的関数105は、時間的整列およびラベル整列を学習して、重み付き有向グラフ107から最適な疑似ラベルシーケンスを得るように構成されており、それによって、GTC目的関数105を用いたニューラルネットワーク101の訓練によって、ニューラルネットワーク101が更新されて最適な疑似ラベルシーケンスに関する損失を低減させる。GTC目的関数105を用いて訓練されたニューラルネットワーク101は、観測値シーケンス103を、各時間インスタンスにおけるすべての可能なラベルにわたる確率分布シーケンス111に変換する。さらに、訓練されたニューラルネットワーク101は、ニューラルネットワーク101の出力において、有向グラフ107に存在するノードとエッジとのシーケンスに対応するラベルシーケンスの確率を最大化する。
このように、提案するGTC目的関数105により、ニューラルネットワーク101は、グラフ形式のラベル情報を用いて、ニューラルネットワーク101のパラメータを学習および更新することが可能となる。
有向グラフ107は、GTC目的関数105がニューラルネットワーク101を訓練する際に使用する監視情報を提供する。有向グラフ107では、ラベルシーケンスが複数のノードとエッジとによって表現される。さらに、有向グラフ107は、確率分布シーケンス111と、有向グラフ107が表す複数のラベルシーケンス109aとの間に、非単調な整列を含んでいる場合がある。非単調な整列または単調な整列は、ラベルの繰返しおよび空白ラベルを削除した後、特定の開始ノードから特定の終了ノードへの遷移によって有向グラフ107から生成できるラベルシーケンスの数として定義される。単調なグラフでは単一のラベルシーケンスしか出力できないが、非単調な整列では、有向グラフ107が複数の固有のラベルシーケンスを出力することができる。
非単調な整列の特徴のため、有向グラフ107は、時間領域におけるラベルシーケンスの変化だけでなく、ラベル領域におけるラベルシーケンスの変化そのものにも関連する情報を含む。ラベル領域におけるラベルシーケンスの変化に起因して、有向グラフ107は、有向グラフ107の複数のノードとエッジとを通る複数の経路を含み、各経路は、複数のラベルシーケンス109aのうちのラベルの少なくとも1つのシーケンスに対応する。したがって、有向グラフ107の各エッジは、あるノードから別のノードに向かう方向を有する。
このように、非整列特徴により、有向グラフ107は、訓練中に異なるラベルシーケンスを考慮することが可能になり、訓練サンプルの正しいトランスクリプションに関する不確実性を考慮するために、曖昧なラベル情報でニューラルネットワーク101を訓練することができる。
さらに、有向グラフ107により、展開されたグラフから生成できる可能なラベル経路の数を減らし、GTC損失の計算を高速化するために、有向グラフ107の展開中にラベルシーケンスの少なくとも1つのラベルを特定の最小回数および特定の最大回数繰返すことが可能になる。
いくつかの実施形態において、非単調な有向グラフ107は、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフである。さらに、有向グラフ107における対応するエッジの重みに基づいて、ノードシーケンスの条件付き確率が、訓練中に計算されてもよい。
Figure 2023542057000003
Figure 2023542057000004
Figure 2023542057000005
Figure 2023542057000006
Figure 2023542057000007
Figure 2023542057000008
Figure 2023542057000009
Figure 2023542057000010
ニューラルネットワーク101は、GTC目的関数105を用いて訓練され、GTC目的関数105は、確率分布のシーケンス111と有向グラフ107で表すラベルのシーケンスとの最適な整列を学習するために、ニューラルネットワーク101がラベル整列またはラベルの曖昧さに加えて、時間的整列または時間的曖昧さを解消することを可能にする。
Figure 2023542057000011
Figure 2023542057000012
Figure 2023542057000013
Figure 2023542057000014
ステップ209で、ステップ207で計算された勾配に従って、ニューラルネットワーク101のパラメータが更新され得る。パラメータを更新するために、ニューラルネットワーク101のパラメータを更新するための規則を定義するニューラルネットワーク最適化関数を実装してもよい。ニューラルネットワーク最適化関数は、確率的勾配降下法(Stochastic Gradient Decent:SGD)、モーメンタム付きSGD,Adam,AdaGradおよびAdaDeltaなどのうちの少なくとも1つを含んでもよい。
Figure 2023542057000015
Figure 2023542057000016
Figure 2023542057000017
GTC損失の計算では、ノード間を接続する灰色の線で示されるすべての経路(303)の条件付き確率が計算され、合計される。すべての経路の条件付き確率の合計は、動的計画法法により効率的に計算することができる。
図4は、実施形態例に係る、周辺確率を求めるための前向き・後ろ向きアルゴリズムの実現例を示す図である。図3に示す有向グラフ305におけるすべての経路303の条件付き確率の合計を求めるために、まず、時間tごとにすべてのノードの周辺確率を計算することが重要である。たとえば、t=5におけるノード4の周辺確率を計算するために、t=5におけるノード4を通るすべての経路の条件付き確率の合計を、前向き・後ろ向きアルゴリズムおよび動的計画法を用いて効率的に計算可能である。
前向きステップでは、ノード0(t=0の場合)から開始し、時刻t=5にノード4で終了するすべての経路の条件付き確率の総和が計算され、前向き変数αに格納される。後ろ向きステップでは、ノード8(終了ノード)で開始し、t=5にノード4へ後ろに向かうすべての経路の条件付き確率の総和が計算され、後ろ向き変数βに格納される。最後に、t=5におけるノード4の周辺確率は、αとβの乗算によって導出され、これは、上記式(4)に従って、t=5においてノード4で発行されるラベルの事後確率で除算される。なぜなら、さもなければ事後確率が2回カウントされることになるからである。前向き変数と後ろ向き変数との両方は、動的計画法を使用して効率的に計算される。
有向グラフの生成
いくつかの実施形態では、有向グラフはコンフュージョンネットワークと関連付けられている。複数のラベルシーケンスは、有向グラフを生成するために、コンフュージョンネットワークに変換されている。コンフュージョンネットワークは、開始ノードから終了ノードへの各経路が他のすべてのノードを通過するという特性を有する単純な線形有向非循環グラフに相当する。このようなグラフの2つのノード間のエッジはラベルのセットを表し、ラベルのセットはコンフュージョンセットと呼ばれる。コンフュージョンネットワークに関する有向グラフの詳細な説明について、図5A~図5Fを参照してさらに説明する。
図5Aは、実施形態例に係る、複数のラベルシーケンスを、有向グラフを生成するために使用されるコンフュージョンネットワークに変換する方法500aを示す図である。
方法500aは、ステップ501で開始し、有向グラフの生成のために複数のラベルシーケンスを受信し得る。実施形態例では、ラベルは、任意の言語の文字、単語、サブワードに対応してもよい。別の実施形態では、ラベルは、音響イベント検出器システムによって検出された音生成エンティティ(猫、犬、人間、車、および同類のものなど)の名前に対応してもよい。
ステップ503で、複数のラベルシーケンスを使用して、コンフュージョンネットワークを構築し得る。コンフュージョンネットワーク(ソーセージとも呼ばれる)は、グラフのすべてのノードがエッジを介して接続され、ラベルがエッジ上にあるグラフである。したがって、コンフュージョンネットワークは、互いに整列した複数のラベルシーケンスのコンパクトな表現である。たとえば、英語の文字に対応するラベルが得られているとする。文字はA,B,C,D,EおよびXを含むとする。このとき、所与の2つのラベルシーケンスABCDおよびXBDEについて、2つのシーケンスの間の整列は次のように表現可能である。
A B C D ε
X B ε D E
ここで、εは、「ラベルがない」ことまたはイプシロンノードを示し、削除や挿入に対応する。
同様に、ラベルの2つのシーケンスは、音響イベント検出器によって検出された音源の名前、たとえば、「猫、犬、赤ちゃん、人間」および「牛、犬、人間、車」に対応し得る。したがって、これら2つのシーケンスの間の整列は、次のように表すことができる。
猫 犬 赤ちゃん 人間 ε
牛 犬 ε 人間 車
整列は、2つのラベルシーケンス間の編集距離を最小化する動的計画法によって得られてもよい。編集距離とは、ある文字列を他の文字列に変換するために必要な最小限の操作回数を数えることによって、2つの文字列(たとえば、ラベル)が互いにどの程度非類似であるかを定量化する方法である。たとえば、編集距離は、文字列中の文字の削除、挿入および置換の誤りを数えることができるレーベンシュタイン距離を用いて計算されてもよい。さらに、得られた整列について、図5Bに示すようなコンフュージョンネットワーク509を構築することができる。
図5Bは、実施形態例に係る、2つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワーク509を示す図である。2つのラベルシーケンスは、シーケンス「ABCDε」と「XBεDE」とを含む。図5Bにおいて、コンフュージョンネットワーク509は、515a,515b,515c,515d,515eおよび515fを含み、黒のノードは最終ノード515fを示す。さらに、コンフュージョンネットワーク509は、複数のアークを含み、各アークは、ラベル付アークまたはラベル無しアーク(またはイプシロンラベル、すなわちε)のいずれかに対応する。記号εは、イプシロンラベル(または無)ラベルを表す。たとえば、アーク509aおよび509bは、イプシロンラベル(ε)を有するアークに対応する。3つ以上のラベルシーケンスの場合、最初の2つのシーケンスを整列してコンフュージョンネットワークを構築し、次に、コンフュージョンネットワークと別のラベルシーケンスとを整列して、3つのラベルシーケンスのための新しいコンフュージョンネットワークを構築することができる。上記の2つの例示的なシーケンスに加えて、第3のシーケンスYBCDFがある場合、図5Cに示すように、コンフュージョンネットワーク509はコンフュージョンネットワーク511に修正される。
図5Cは、実施形態例に係る、3つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワーク511を示す図である。
Figure 2023542057000018
Figure 2023542057000019
さらに、ステップ505で、構築されたコンフュージョンネットワークを最適化し得る。そのために、イプシロン削除操作をコンフュージョンネットワークに適用して、εラベルを有するアーク(アーク509aおよび509bなど)を削除することができ、εは、イプシロン(または無)ラベルを表す。εラベルによって、同じ列の他のすべてのラベルをスキップすることができるので、GTC前向きおよび後ろ向きスコアの計算がより複雑になる。コンフュージョンネットワークからεラベルを削除することにより、GTC損失計算がより効率的になる。イプシロン削除操作では、εラベル(509aおよび509b)を有するアークを、εラベルのみで到達可能なすべてのノードへの新しいアークに加えて1つの非εラベルで置換することにより削除する。次の非εラベルがない場合、宛先ノードは最終ノードに変更される。図5Dに示すように、イプシロン削除操作により、コンフュージョンネットワーク511を最適化することができる。
図5Dは、実施形態例に係る、イプシロン削除操作によって最適化されたコンフュージョンネットワーク513を示す図である。コンフュージョンネットワーク511をさらに縮小するために、冗長なノードおよびアークを重み付き決定化および最小化操作によって削除して、最適化されたコンフュージョンネットワーク513をもたらすことができる。閾値未満の低いスコアを有するアークの刈り込み(プルーニング)も、イプシロン削除、重み付き決定、および最小化操作の前および/または後で、コンフュージョンネットワークに適用可能である。
最後に、ステップ507で、最適化されたコンフュージョンネットワーク513から有向グラフを生成し得る。有向グラフを生成するための規則が、図5Eを参照して以下に説明され、対応する例が、図5Fを参照して説明される。さらに、図5Eおよび図5Fは、図5Aおよび図5Dと関連して説明される。
図5Eは、実施形態例に係る、最適化されたコンフュージョンネットワーク513から有向グラフを生成するための方法500eを示す図である。図5Fは、実施形態例に係る、図5Eに示された方法500eのステップを使用して生成された有向グラフ500fを示す図である。
最適化されたコンフュージョンネットワーク513は、以下の手順を用いて、GTC訓練用の有向グラフ(またはラベルグラフ)に変換される。
ステップ517で、「<s>」および「</s>」がそれぞれラベル付けされた開始ノードおよび終了ノードを作成する。たとえば、図5Fでは、開始ノード529sおよび終了ノード529eが作成される。
ステップ519で、最適化されたコンフュージョンネットワーク内のノードおよびアークについて、各ノードは空白ノードに置き換えられ、各アークはアークラベルが割り当てられた非空白ノードに置き換えられる。複数のアークが最適化されたコンフュージョンネットワーク513において同じラベルおよび同じ宛先ノードを有する場合、そのアークはグラフ内の1つのノードに変換される。たとえば、最適化されたコンフュージョンネットワーク513におけるアークラベルA,XおよびYは、非空白ノードA,XおよびYに変換される。
Figure 2023542057000020
ステップ523で、空白ノードと非空白ノードとにそれぞれ対応する対にされたノードとアークとが、最適化されたコンフュージョンネットワーク513において接続されている場合、空白ノードと非空白ノードとの各ペアの間にエッジが作成される。たとえば、対応する最適化されたコンフュージョンネットワーク513において、空白ノード515aとラベルAを有するアークとが接続されているため、空白ノード515aと非空白ノードAとの間にエッジが作成されている。空白ノード515aは、ラベルAを有するアークのソースノードである。同様に、空白ノード515aと非空白ノードXおよび非空白ノードYとの間のエッジも作成される。そのため、非空白ノードAと空白ノード515b、非空白ノードXと空白ノード515b、および非空白ノードYと空白ノード515bとの間のエッジ等が生成される。
ステップ525で、最適化されたコンフュージョンネットワーク513において、空白ノードが元々初期ノードである場合、または非空白ノードが元々初期ノードからのアークである場合、開始ノードから空白ノードおよび非空白ノードにエッジがそれぞれ作成される。たとえば、空白ノード515aは、最適化されたコンフュージョンネットワーク513において元々初期ノードであるため、開始ノード529sと空白ノード515aとの間にエッジが作成される。同様に、対応する最適化されたコンフュージョンネットワーク513において、非空白ノードA,XおよびYは、初期ノード515aからの(ラベルA,XおよびYを有する)アークに対応するので、開始ノード529sと、非空白ノードA,XおよびYとの間にエッジが作成される。
ステップ527で、最適化されたコンフュージョンネットワーク513において、空白ノードが元々最終ノードである場合、または非空白ノードが元々最終ノードへのアークである場合、空白および非空白ノードから終了ノードにエッジが作成される。たとえば、対応する最適化されたコンフュージョンネットワーク513において空白ノード515fは最終ノードであるため、空白ノード515fから終了ノード529eへのエッジが作成される。同様に、対応する最適化されたコンフュージョンネットワーク513において、非空白ノードD,EおよびFは最終ノード515fへのアークに対応するので、エッジが非空白ノードD,EおよびFから作成される。
さらに、同じ順番のラベルが時間的に異なる態様で配置されたラベルシーケンス、または空白ラベルで異なるパディングを有するラベルシーケンスも、同じラベルシーケンスとみなされ、単一のラベルシーケンスとして扱われる。非単調な整列のGTC設定では、ラベルシーケンスを折り畳んだ後、折り畳みにより重複したラベルの繰返しが削除され、ラベルシーケンス内の空白ラベルにより、複数のラベルシーケンスが生成される。
この手順によれば、最適化されたコンフュージョンネットワークの上記の例は、図5Fに示す有向グラフ500fに変換される。
模範的な実施形態
GTC目的関数は、ASR、音響イベント検出、およびトランスクリプション(またはテキスト)認識といった、さまざまな用途のニューラルネットワークの訓練に使用することができる。
たとえば、ASRシステムでは、ニューラルネットワークは、半教師付き訓練法を用いて学習される場合があり、通常、訓練データセットは、少量のラベル付けされた訓練データと多量のラベル付けされていない訓練データとを含む。
Figure 2023542057000021
いくつかの実施形態では、N-best仮説から有向グラフを生成するために、N-best仮説は、ソーセージとしても知られているコンフュージョンネットワークに変換される。N-best仮説は、最小ベイズリスク(minimum Bayes risk:MBR)復号を使用して、ソーセージ形コンフュージョンネットワーク(CN)に変換される。MBR復号は、所与の確率モデルの下で最小の期待損失を有する候補仮説(またはN-best仮説)を見つけることを目的とする。
さらに、CNに対してイプシロン削除、決定化、および最小化操作を施すことで、CNを最適化された重み付き有限状態トランスデューサ(Weighted Finite State Transducers:WFST)に変換する。ここで、確実にWFSTが確率的のままであるように、アークの重みは対数半環で操作される。
いくつかの実施形態では、WFSTは、各状態を空白ノードで置き換え、各アークをアークラベルが割り当てられた非空白ノードで置き換えることによって(図5Eおよび図5Fを参照して先に説明したように)有向グラフに変換される。ここで、ノード間のエッジは、最適化WFST構造と、隣接非空白ノードが異なるラベルを有する場合に各空白ノードをスキップできる規則とに基づいている。
Figure 2023542057000022
いくつかの実施形態では、GTCは、ノードとラベルとの間の異なる遷移をモデル化するためのユーザ定義の遷移規則を有する。
いくつかの実施形態では、GTC遷移規則により、充てん文字記号として使用されるユーザ定義の空白ラベルが使用できる。
さらに、GTC目的関数を用いて、有向グラフから得られる監視情報に基づいて、ASRまたはコンピュータビジョンなどの異なる用途に対応するニューラルネットワークを訓練することもできる。以下に、これらの用途の一部のための有向グラフの生成と有向グラフに基づくニューラルネットワークの訓練とについて説明する。
図6は、実施形態例に係る、グラフベースの時間的分類(GTC)目的関数617を用いて自動音声認識(ASR)のためのニューラルネットワーク601を訓練するワークフローを示す模式図である。ニューラルネットワーク601は、第1の訓練段階605と第2の訓練段階619との2つの訓練段階で訓練される。
第1の訓練段階605(事前訓練段階とも呼ばれる)において、ニューラルネットワーク601は事前に訓練される。そのために、ニューラルネットワーク601は、第1の訓練セット603を使用して訓練される。第1の訓練セット603は、ラベル付けされた音声発話を示すデータを含む。第2の訓練セット609のラベル付けされていないデータを復号して第2の訓練セット609のデータサンプルごとの仮説のN-bestリスト611を得るために、事前訓練ニューラルネットワーク607が使用される。実施形態例において、第1の訓練セット603は、シードASRモデルを訓練するために使用されてもよい。第2の訓練セット609のラベル付けされていないデータを復号して第2の訓練セット609におけるデータサンプルごとの仮説のN-bestリスト611を得るために、シードASRモデルが使用される。各データサンプルに対応する仮説のN-bestリスト611は、(図5Eおよび図5Fを参照して)上述したように有向グラフ615に変換される。次に、有向グラフ615内のラベルの時間的整列およびラベル整列を学習して有向グラフ615内の異なるラベルシーケンスから最適な疑似ラベルシーケンスを得るために、有向グラフ615および第2の訓練セット609がGTC目的関数617によって使用される。さらに、第2の訓練段階619における訓練が、最適な疑似ラベルシーケンスに関する損失を低減させるようにニューラルネットワーク601を更新するために、第2の訓練段階619で、GTC目的関数617が、事前訓練ニューラルネットワーク607を微調整するか、またはニューラルネットワーク601を新たに訓練するために使用される。半教師付き学習および自己訓練のための有向グラフ615の生成に関する詳細な説明が、図7に関して以下に説明される。
図7は、実施形態例に係る、ニューラルネットワーク601を訓練する際にGTC目的関数617によって使用される例示的な有向グラフ615を示す図である。図7は、図6と関連して説明される。
図7は、左側に有向グラフ615を含み、右側に文字ベースのラベル記号を用いた擬似ラベルのリスト(または仮説のリスト)から生成された展開グラフを有する。説明を簡単にするために、文字ベースのラベル記号を用いた擬似ラベルのN-bestリストは、「HELOWORLD」、「HELLO WOLD」、「HELO WOLD」、「HELLOWLD」を含む。図7における丸印は、内部に対応するラベル記号の観測値を有するノードを示し、「-」は空白記号である。さらに、図7における黒の矢印は正しいラベル経路の遷移に対応し、黒の点線矢印は代替ラベル経路の遷移に対応する。正しいトランスクリプションは所与の例示的なN-bestリストに存在しないが、仮説のN-bestリストの各仮説に対応するラベルの遷移に対する遷移重みを提供することによって、有向グラフ615から回復可能である。
さらに、有向グラフ615から正しいトランスクリプションを回復するために、仮説のN-bestリストにおける各仮説は、スコアが提供され、最高スコアを有する仮説が最低ランクを有するように、スコアに従ってランク付けされてもよい。ランクおよびスコアに基づいて、有向グラフ615のエッジに遷移重みが割り当てられてもよい。たとえば、上位にランク付けされた仮説、すなわち、より可能性の高い仮説に対応するシーケンスの遷移には、後続のランク付けされた仮説と比較して、より高い遷移重みが割り当てられてもよい。遷移重みは、特定のノードシーケンスにおいて、あるノードから別のノードへの遷移の確率を増加または減少させてもよく、ノードシーケンスは、ラベルシーケンスに対応してもよい。たとえば、擬似ラベルシーケンス、たとえば「HELLO WOLD」と「HELLOWLD」との間では、ラベル「W」に対応するノードからラベル「O」に対応するノードへの遷移に対する遷移重みは1.0でもよいのに対し、ラベル「W」に対応するノードからラベル「L」に対応するノードへの遷移に対する遷移重みは0.5に対応してもよい。「HELLO WOLD」が「HELLOWLD」の前にランク付けされる可能性があるため、ラベル「W」に対応するノードからラベル「O」に対応するノードへの遷移に対する遷移重みがより高くなるように決定される。遷移重みは、ニューラルネットワーク601を訓練するための経路および関連するラベルシーケンスの確率を高めてもよい。遷移重みは、ニューラルネットワーク601の訓練中に、GTC目的関数によって説明されてもよい。
このように、所与のデータサンプルのラベリング情報を符号化する有向グラフ615によって最も確率の高い予測ラベルシーケンスが生成可能になるように、ニューラルネットワーク601にラベル予測を最適化させることによって、ニューラルネットワーク601のGTCベースの訓練でニューラルネットワーク601のパラメータを更新することが可能である。
図8Aは、実施形態例に係る、GTC目的関数617を使用して実装されたASRシステムのニューラルネットワークアーキテクチャ800を示す図である。図8Aは、図6と関連して説明される。
いくつかの実施形態において、ニューラルネットワークアーキテクチャ800は、ニューラルネットワーク(たとえば、ニューラルネットワーク101およびニューラルネットワーク601など)を訓練するために、提案されたGTC損失関数823を採用するトランスフォーマーベースのニューラルネットワークアーキテクチャに相当し、GTC損失関数823は、GTC目的関数617に相当する。ニューラルネットワークアーキテクチャ800では、80次元logmelスペクトルエネルギーに加えて、音響特徴としてのピッチ情報について3つの追加特徴を入力として使用する。ここで、音響特徴は、特徴抽出モジュール803を用いて音声入力801から導出される。
いくつかの実施形態では、ニューラルネットワークアーキテクチャ800は、2層畳み込みニューラルネットワーク(convolutional neural network:CNN)モジュール805と、それに続くE=12トランスフォーマーベースエンコーダ層のスタックと、最後に投影層とソフトマックス関数821とを含み、ニューラルネットワーク出力を事後確率分布にマッピングする。いくつかの実施形態例では、2層CNNモジュール805の各層は、2のストライド、3×3のカーネルサイズ、320チャネル、および整流線形ユニット(rectified linear unit:ReLU)活性化関数を使用してもよい。さらに、線形ニューラルネットワーク層819は、最後のCNN層の出力に適用される。正弦波位置符号化807が、トランスフォーマーベースのエンコーダ817に供給する前に、2層CNNモジュール805の出力に加えられる。各トランスフォーマー層は、4つのアテンションヘッドを有する320次元マルチヘッドセルフアテンション層809、層正規化811および815、ならびに内部次元1540のフィードフォワードニューラルネットワークモジュール813を採用する。残差接続が、マルチヘッドセルフアテンション809とフィードフォワードモジュール813の出力とに適用される。マルチヘッドセルフアテンション809の後およびフィードフォワードモジュール813の後、ならびにフィードフォワードモジュール813の内次元について、0.1の確率を有するドロップアウトが使用される。
Figure 2023542057000023
いくつかの実施形態では、言語モデル(language model:LM)が推論時に浅い融合を介して採用され、これは、確率的勾配降下を用いて各々訓練された1024個のユニットを有する2つの長短記憶(long short-term memory:LSTM)ニューラルネットワーク層と、860時間訓練データサブセットに現れる文が除外されたLibriSpeechの公式LM訓練テキストデータとから構成される。ASR復号化は時間同期型プリフィックスビーム探索アルゴリズムに基づいている。30の復号ビームサイズ、14.0のスコアベースのプルーニング閾値、0.8のLM重み、および2.0の挿入ボーナス係数が使用される。
さらに、ASRシステムに関連する実施形態について、提案されたGTC目的関数を用いたニューラルネットワークの訓練に関する詳細について、以下で説明する。さらに、訓練されたASRシステムの結果は、図8Bおよび図8Cに関して後述する。しかしながら、以下で説明する原理は、他のタイプのシステムにも適応可能である。
ASRシステムを訓練するために、いくつかの実施形態では、ASRベンチマークである英語のオーディオブックのLibriSpeechコーパスを使用してニューラルネットワークを訓練し、これは、約960時間の訓練データ、10.7時間の開発データ、および10.5時間のテストデータを提供する。開発用およびテスト用のデータセットは、いずれも「クリーン」および「その他」と名付けられた約2つの半分に分かれている。この分離は、ASRシステムを用いて評価された、録音された音声発話の品質に基づいている。訓練データも、「クリーン」な100時間、「クリーン」な360時間、および「その他」500時間の3つのサブセットに分割されている。「クリーン」な100時間のサブセットは教師付き訓練に使用され、残りの860時間はラベル付けされていないデータとみなされる。
Figure 2023542057000024
図8Bは、実施形態例に係る、異なるサイズNのN-bestリストについての、ならびに発話ごとの20-best ASR仮説から生成されるグラフについての、オラクルラベル誤り率(LER)を示す表1である。
図8Bでは、異なる擬似ラベル表現を用いた860時間の「ラベル付けされていない」訓練データサブセット「クリーン」および「その他」に対するオラクルLER[%]を示す。CN20は、発話ごとの20-best ASR仮説から生成されたコンフュージョンネットワーク型のグラフを示し、lowおよびhighは、低プルーニング設定および高プルーニング設定を示す。
N-bestリストのオラクルLERは、そのリストからベストの擬似ラベルシーケンス、すなわち、グラウンドトゥルーストランスクリプションと比較して編集距離が最小となるシーケンスを選択することにより得られる。グラフのオラクルLERは、有限状態トランスデューサ(finite-state transducer:FST)と、非周期的FSTと編集距離的FSTとの合成操作に続いて単一ソース最短経路アルゴリズムによって計算される参照シーケンス(グラウンドトゥルーストランスクリプション)との間の最小編集距離に相当する。図8Bに示すように、表1から、N-bestリストは、1-best仮説と比較してはるかに低いエラー率を有するASR仮説を含むと観察される。
例として、20-bestリストからオラクル仮説を選択すると、平均LERは絶対的な尺度で2.5%(クリーンな360時間)および3.0%(その他500時間)だけ減少する。グラフ形式のN-bestリストから計算されたオラクル擬似ラベルを使用すると、図7に示すように、N-bestリストのグラフ表現によってより柔軟なラベルの組み合わせが可能になるため、LERはさらに減少する。
図8Cは、実施形態例に係る、異なる擬似ラベル表現に対するGTCベースのASR結果を示す表2である。
表2は、異なる擬似ラベル表現で訓練したモデルの単語誤り率(word error rates:WERs)[%]を示す。「N/A」は、擬似ラベルの生成に用いるシードASRモデルを示す。さらに、「N/A」は、100時間のラベル付けされたクリーンなLibriSpeech訓練データのみを用いて訓練されるシードASRモデルの結果を示す。「1-best」は、ベストのASR仮説のみを用いた自己訓練結果を示す。W=1.0は、グラフCN20の遷移重みをすべて1に設定することを示し、W=pは確率的な遷移重みを使用することを示す。CN20は、860時間のラベル付けされていない訓練データの発話ごとに、シードモデルから得られた20-best ASR仮説から生成されるコンフュージョンネットワークを使用することを示す。
表2では、プルーニングを行わずすべての遷移重みを1.0に設定したCN、確率的遷移重みを有する低プルーニング設定のCN、および確率的遷移重みを有する高プルーニング設定のCNの3つの異なるCN設定が比較されている。また、20-bestリストから手動で選択したベストの擬似ラベルシーケンスで訓練した場合のASR結果を「オラクル20-best」として示し、グラウンドトゥルーストランスクリプションを用いた教師ありASRの結果を「グラウンドトゥルース」として示す。
表2より、1-best疑似ラベリングは、LibriSpeechテストデータセットのWERを大きく、たとえば、テスト-その他では21.2%から15.8%に改善することが分かる。グラフ形式で符号化された複数の擬似ラベルシーケンスでの訓練により、WERはさらに向上し、高いプルーニング設定で確率的遷移重みを有するCNを用いた場合にベストの結果が得られる。プルーニングされていないグラフは正しいトランスクリプションを含む可能性が高いが、そのようなグラフにおける大きな分散は、ラベルノイズが増えることによって、ベストなラベルシーケンスの学習を難しくすると考えられる。そこで、プルーニングと遷移重みの利用とにより、自己学習を誘導して、誤り率のより低い擬似ラベルシーケンスを見つけることができる。
ベストな設定では、提案されるGTCベースの半教師付き学習手法は、LibriSpeechの「開発-その他」および「テスト-その他」のテストセットについて、WERを1.0%および0.8%低下させたが、「オラクル20-best」ASR結果に対して、わずか0.3%および0.5%だけ高く、これは、N-bestリストから得られた複数の疑似ラベルで訓練した場合のWERの下限に相当する。
図9Aは、実施形態例に係る、音響イベント検出(SED)システム903に入力される複数の音を生成する複数のエンティティを含む音響シーン900を示す。音響シーン900の複数の音は、サウンドレコーダ、たとえばマイクロフォン901によって記録されてもよい。音響シーンに関連する記録データは、SEDシステム903に提供される。実施形態例において、音響シーン900を記録するためにビデオレコーダが使用されてもよく、ビデオデータがSEDシステム903に入力されてもよい。
記録データは、猫の鳴き声905、犬の吠え声907、赤ちゃんの泣き声909、人間の音声信号911aおよび911b、ならびに窓からの交通音913などの複数の音を含む。関心のある音の強度は低く、音の持続時間は短くてもよい。このような低強度の音に対応するエンティティを検出することは、困難なタスクである。椅子および調理器具などを動かす際に発生する音など、他の家庭環境音もあり得る。音響シーン900内の複数のエンティティに関連する異なる音響イベントを検出するために、SEDシステム903を、検出された音響イベントに対応する1つまたは複数のラベルを生成するように訓練する必要がある。
SEDシステム903は、検出された各音響イベントに対応するラベルを生成するように訓練されてもよく、ラベルは、検出された音響イベントに対応するエンティティの名前に対応する。たとえば、検出された猫の鳴き声の場合、SED903を、猫のラベルなどを生成するように訓練する必要がある。
音響イベント分類タスクでは、ラベリング処理のコストを削減するために、訓練データサンプルには弱くラベルが付けられることが多い。弱ラベルは、典型的には、訓練データサンプルにおけるラベルに関連するイベントの存在を示すだけであり、ラベル位置、ラベルの順序、およびラベル頻度、すなわち、イベントが訓練データサンプルにおいて何回発生したかはアノテーションが加えられない。たとえば、音響シーン900において、弱ラベルは、猫の鳴き声および犬の吠え声などの音響イベントに対応し得る。他方で、強ラベルは、イベントのタイミング情報を提供する、すなわち、各イベントの開始位置および終了位置に、訓練データにおいてアノテーションが加えられる。これに対して、順次ラベリング情報は、訓練データサンプル中のラベルに関する正確なタイミング情報を含まないが、イベントの順序は提供されている。たとえば、音響シーン900において、強ラベルは、赤ちゃんの泣き声、音声信号、交通音などの音響イベントに対応し得る。
さらに、音声記録における各音響イベントの開始位置および終了位置を検出しなければならないSEDシステム903を訓練するために、典型的には、強いラベリング情報を有する訓練データが必要である。しかしながら、実際には、アノテーションコストが小さくなるため、大量の訓練データは弱くラベル付けされるだけである。
いくつかの実施形態では、SEDシステム903は、提案されたGTC目的関数を用いて弱くラベル付けされた訓練データで訓練される。SEDシステム903の訓練は、タイミング情報を含まない可能性のある順次ラベリング情報のセットを弱ラベルから生成し得るため、タイミング曖昧性の問題だけでなくラベリング曖昧性の問題にも悩まされる可能性がある。可能な順次情報のセットは、ラベルの異なる可能な組み合わせのセットを含んでもよく、ラベルの各組み合わせは、ラベルの順番を示すラベルシーケンスに対応する。SEDでは、各ラベルは音響イベント、または音響イベントを生成するエンティティに対応し、たとえば、音響サンプルの弱ラベル情報は、「音声」、「交通」、「犬」、「猫」でもよく、これはこれらの音響イベントの各々の存在を示すだけで、タイミング情報または順序付け情報を示さない。この例からすると、弱ラベル情報から生成される可能なラベルシーケンスの1つ(または連続ラベル)は、ラベルシーケンス「猫」、「猫」、「猫」、「犬」、「犬」、「赤ちゃん」、「音声」、「音声」、「交通」、「交通」に対応してもよい。
しかしながら、弱ラベル情報から生成される可能性のあるラベルシーケンスの数は、比較的大きくなることがある。そこで、ラベル付けされたイベントに関する事前情報を利用して、生成されるラベルシーケンスのセットのサイズを制限することができる。たとえば、典型的なイベントの頻度、イベントの持続時間、およびイベントの組み合わせなどのラベル付けされたイベントに関する統計が、弱ラベル情報から生成される可能性の低いラベルシーケンスを除外するために利用され得る。このように、可能な順次ラベルの数を制限するために、文脈データを含む弱ラベル情報から順次ラベル情報のセットが生成される。すべての可能かつ有効なラベルシーケンスを含む、生成された順次ラベル情報のセットは、有向グラフを生成するために用いられ、有向グラフは、音響シーン900における異なる音響生成エンティティに対応するラベルを表す複数のノードとエッジとを含む。
さらにまたは代替的に、事前訓練されたSEDモデルによる復号ステップを弱ラベル情報と共に使用して、可能なラベルシーケンスの縮小セットを見つけることができる。可能なラベルシーケンスのセットが決定されると、それを使用して、GTC目的関数105を用いてSEDシステム903の訓練用の有向グラフを生成することができる。有向グラフは、図5A~図5Dに関して説明したプロセスに従って生成されてもよい。
図9Bは、実施形態例に係る、グラフベースの時間的分類(GTC)目的関数929で、音響イベント検出(SED)システム用のニューラルネットワーク915を訓練するワークフローを示す模式図である。ニューラルネットワーク915は、第1の訓練段階919と第2の訓練段階931との2つの訓練段階で訓練される。第1の訓練段階919(事前訓練段階とも呼ばれる)で、ニューラルネットワーク915は事前訓練される。そのために、ニューラルネットワーク915は、第1の訓練セット917を使用して訓練される。第1の訓練セット917は、音響イベントのタイミング情報を提供する強ラベルを示すデータを含み、すなわち、第1の訓練セット917で構成される訓練データにおいて、各音響イベントの開始位置および終了位置にアノテーションが加えられている。
さらに、事前訓練ニューラルネットワーク921は、第2の訓練セット923内の弱くラベル付けされたデータ(弱ラベルデータ)を復号するために用いられて、第2の訓練セット923内の弱くラベル付けされたデータサンプルごとに複数の可能なラベルシーケンス925を取得する。複数の可能なラベルシーケンス925は、(図5Eおよび図5Fを参照して)上述したように有向グラフ927に変換される。有向グラフ927および第2の訓練セット923は、次に、有向グラフ927におけるラベル情報の時間的整列およびラベル整列を学習するために、GTC目的関数929によって使用される。さらに、GTC目的関数929は、第2の訓練段階931で、事前訓練ニューラルネットワーク921を微調整するか、または新たにニューラルネットワーク915を訓練するために使用される。第2の訓練段階931における訓練は、ニューラルネットワーク915を更新してGTC目的および有向グラフ927に符号化されたラベル情報に関する損失を低減させる。
エンドツーエンドASRでは、ニューラルネットワークの出力ラベルが単語片である可能性があり、単語片のセットと単語分解とは、ASRタスクとは独立して、たとえば、バイトペア符号化を用いて最も一般的な書記素列を見つけることによって、学習される。しかしながら、学習された単語分解は、下流のASRタスクに対して最適でない場合がある。いくつかの実施形態では、有向グラフ107は、代替単語分解または代替文分解のうちの少なくとも1つによって形成され、代替単語分解および代替文分解は、バイトペア符号化に基づいてあらかじめ決定される。
代替文分解では、所与の文について、その文のある部分が特定される。文の各部分は、文の各部分が副文のセットに対応するように、同じ事実上の文脈に由来する単語のセットを含む。したがって、いくつかの実施形態では、有向グラフ107は、各ノードが文の各部分に対応するノードシーケンスを含んでもよい。さらに、GTC目的関数105を用いて訓練されたニューラルネットワーク101は、有向グラフ107に存在する、特定された部分に対応するノードシーケンスの確率を最大化してもよい。次に、最大確率を有する識別された部分に対応するノードシーケンスは、完全な意味文を得るために再結合されてもよい。
模範的な実現例
図10は、実施形態例に係る、GTC目的関数105を用いて訓練されたコンピュータベースのシステム1000を示すブロック図である。コンピュータベースのシステム1000は、ASRシステム、または音響イベント検出システムなどに相当し得る。
コンピュータベースのシステム1000は、システム1000を他のシステムおよびデバイスと接続する多数のインターフェースを備える。システム1000は、音声発話の特徴を表す音響フレームのストリームといった、複数の観測値シーケンス1009を受け付けるように構成された入力インターフェース1001を備える。さらにまたは代替的に、コンピュータベースのシステム1000は、さまざまな他のタイプの入力インターフェースから複数の観測値シーケンスを受信することができる。いくつかの実施形態では、システム1000は、音響入力デバイス1003から複数の観測値シーケンス1009(すなわち、音響フレームのストリーム)を取得するように構成された音声インターフェースを備える。たとえば、システム1000は、ASRアプリケーションまたは音響イベント検出アプリケーションにおいて、音響フレームを含む複数の観測値シーケンス1009を使用してもよい。
入力インターフェース1001はさらに、複数の観測値シーケンス1009の観測値シーケンスごとに複数の訓練ラベルシーケンス1025を取得するように構成される。ここで、複数の訓練ラベルシーケンス1025と、ニューラルネットワークに入力された観測値シーケンスに対応するニューラルネットワークによって出力される確率分布シーケンスとの間に、時間的整列は存在しない。
いくつかの実施形態では、入力インターフェース1001は、有線ネットワークと無線ネットワークとのうちの1つまたは組み合わせであり得るネットワーク1007を介して、複数の観測値シーケンス1009および複数の訓練ラベルシーケンス1025を取得するように構成されたネットワークインターフェースコントローラ(NIC)1005を備える。
ネットワークインターフェースコントローラ(NIC)1005は、バス1023を介して、システム1000を感知装置、たとえば、入力装置1003と接続するネットワーク1007に接続するように適合される。さらにまたは代替的に、システム1000は、ヒューマン・マシン・インターフェース(HMI)1011を備え得る。システム1000内のヒューマン・マシン・インターフェース1011は、システム1000をキーボード1013およびポインティングデバイス1015に接続する。ポインティングデバイス1015は、特にマウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。
システム1000は、格納された命令1017を実行するように構成されたプロセッサ1021、およびプロセッサ1021によって実行可能な命令を格納するメモリ1019を備える。プロセッサ1021は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ1019は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、または任意の他の適切なメモリシステムを含み得る。プロセッサ1021は、バス1023を介して1つ以上の入力および出力デバイスに接続可能である。
命令1017は、GTC目的関数105を使用してシステム1000に関連するニューラルネットワークを訓練するための方法を実現することができる。システム1000は、いくつかの実施形態に係る、エンドツーエンド音声認識、音響イベント検出および画像認識といった、ニューラルネットワークのさまざまなアプリケーションを実装するために使用され得る。そのために、コンピュータメモリ1019は、有向グラフ107、言語モデル1027、およびGTC目的関数105を格納する。GTC目的関数105を用いてシステム1000を訓練するために、最初に、得られた複数の訓練ラベルシーケンス1025に基づいて、有向グラフ107が生成される。有向グラフ107は、エッジで接続された複数のノードを含み、各ノードまたはエッジはラベルを表し、各ノードは有向グラフ107内の1つ以上のノードに向けられる。
さらに、訓練ラベルシーケンスを表す有向グラフ107のノードとエッジとのシーケンスを通る経路が生成され、ラベルの複数の訓練シーケンス1025に対応する複数の経路が、有向グラフ107を通るようになる。
いくつかの実施形態では、有向グラフ107は、ノードのトランスクリプション出力がある時間インスタンスにおける真のトランスクリプション出力である確率に対応する関連スコアで重み付けされたノードの重み付けグラフである。いくつかの実施形態では、あるノードから別のノードへの遷移が重み付けされ、重みは、強力言語モデル(LM)1027のスコアから推定され得る。有向グラフ107は、GTC目的関数105によって使用される。GTC目的関数105は、システム1000を訓練するために用いられる。システム1000の出力において、有向グラフ107によって構成されるノードとエッジとのシーケンスに対応するラベルシーケンスの確率を最大化することによって、複数の観測値シーケンス1009の各観測値シーケンスを各時間インスタンスにおけるすべての可能なラベルにわたる確率分布シーケンスに変換する。システム1000は、確率分布シーケンスを出力するように構成された出力インターフェース1035を備える。
いくつかの実施形態では、出力インターフェース1035は、表示デバイス1033上の各タイムスタンプで各ラベルに対応する確率分布シーケンスの各確率を出力してもよい。確率分布シーケンスは、図1Bに示すマトリックスとして表示されてもよい。表示デバイス1033の例としては、コンピュータモニタ、テレビ、プロジェクタ、またはモバイルデバイス等が挙げられる。また、システム1000は、音響イベント検出などのさまざまなタスクを実行するために、システム1000を外部デバイス1031に接続するように適合されたアプリケーションインターフェース1029に接続することもできる。
実施形態
本説明は、例示的な実施形態を提供するに過ぎず、本開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、例示的な実施形態例の以下の説明は、1つ以上の例示的な実施形態を実施するための可能な説明を当業者に提供するものである。添付の特許請求の範囲に説明されているように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行われ得るさまざまな変更が考えられる。具体的な詳細が、実施形態の完全な理解を提供するために、以下の説明で与えられる。しかしながら、当業者によって理解されるのは、実施形態がこれらの具体的な詳細なしに実施され得るということである。たとえば、開示された主題におけるシステム、プロセス、および他の要素は、不必要に詳細に実施形態を不明瞭にしないために、ブロック図の形態で構成要素として示されることがある。他の例では、周知のプロセス、構造および技術が、実施形態を不明瞭にしないために、不必要な詳細なしに示されることがある。さらに、さまざまな図面における同様の参照番号および呼称は、同様の要素を示した。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として描かれるプロセスとして記述されてもよい。フローチャートでは、動作を逐次処理として記述することができるが、動作の多くは、並列または同時進行で実行することができる。また、動作の順番を入れ替えてもよい。プロセスは、その動作が完了した時点で終了するが、議論されていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明されたプロセスにおけるすべての操作が、すべての実施形態で発生するわけではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数への関数の戻りに対応し得る。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実施されてもよい。手動または自動の実現例は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用によって実行されてもよい、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。
さらに、本開示の実施形態および本明細書に記載された機能的動作は、デジタル電子回路において、有形に具現化されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書に開示された構造およびそれらの構造的等価物を含むコンピュータハードウェアにおいて、またはそれらの1つ以上の組み合わせにおいて、実現が可能である。さらに、本開示のいくつかの実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置による実行、またはデータ処理装置の動作を制御するために有形の非一時的なプログラム担体に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実現可能である。さらに、プログラム命令は、データ処理装置による実行のために適切な受信装置に送信するための情報を符号化するために生成される人工的に生成された伝搬信号、たとえば機械的に生成された電気信号、光信号、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、機械読取可能ストレージデバイス、機械読取可能ストレージ基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの1つ以上の組合せとすることができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードとも呼ばれる、またはそのように説明される場合がある)は、コンパイル言語もしくは解釈言語、または宣言型言語もしくは手続き型言語を含む任意の形式のプログラミング言語で書くことができ、スタンドアロン・プログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピュータ環境での使用に適した他のユニットとしてなど、任意の形式で配備することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得るが、そうである必要はない。プログラムは、他のプログラムまたはデータ、たとえばマークアップ言語文書に格納された1つもしくは複数のスクリプトを保持するファイルの一部、当該プログラム専用の単一のファイル、または複数の調整ファイル、たとえば1つもしくは複数のモジュール、サブプログラム、またはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、1台のコンピュータで実行されるように配置することも、1つのサイトにある複数のコンピュータで実行されるように配置することも、複数のサイトに分散し通信ネットワークで相互接続されている複数のコンピュータで実行されるように配置することも可能である。
コンピュータプログラムの実行に適したコンピュータは、一例として、汎用もしくは特殊用途のマイクロプロセッサまたはその両方、または他の任意の種類の中央処理装置に基づいてもよい。一般に、中央処理装置は、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から命令およびデータを受け取る。コンピュータの本質的な要素は、命令を実行するための中央処理装置と、命令およびデータを格納するための1つ以上のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つ以上の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクからデータを受信するか、またはその両方にデータを転送するように動作可能に結合されるか、またはその両方を含むことになる。しかしながら、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータは、他のデバイス、たとえば、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯オーディオまたはビデオプレーヤー、ゲーム機、全地球測位システム(GPS)受信機、または携帯ストレージ装置、たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブに組み込むことができるが、これらはほんの数例である。
ユーザとの相互作用を提供するために、本明細書に記載の主題の実施形態は、ユーザに情報を表示するための表示デバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータで実施することができる。他の種類のデバイスも、ユーザとの対話を提供するために使用することができる。たとえば、ユーザに提供されるフィードバックは、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの任意の形式の感覚フィードバックとすることができ、ユーザからの入力は、音響、音声、または触覚入力などの任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスに文書を送信し、デバイスから文書を受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
本明細書に記載される主題の実施形態は、バックエンド構成要素、たとえば、データサーバとして、またはミドルウェア構成要素、たとえば、アプリケーションサーバを含む、またはフロントエンド構成要素、たとえば、ユーザが本明細書に記載の主題の実現例と対話できるグラフィカルユーザインターフェースまたはWebブラウザを有するクライアントコンピュータ、または1つもしくは複数のそのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実施することが可能である。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば、通信ネットワークによって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、たとえば、インターネットが挙げられる。
コンピューティングシステムは、クライアントとサーバとを含み得る。クライアントとサーバとは、一般に、互いに遠隔地にあり、通常、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント・サーバ関係を有するコンピュータプログラムによって生じる。
本開示は、特定の好ましい実施形態を参照して説明されてきたが、本開示の精神および範囲内でさまざまな他の適応および修正を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るようなすべてのそのような変形および修正をカバーすることが、添付の特許請求の範囲の態様である。

Claims (19)

  1. ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するためのコンピュータによって実現される方法であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
    前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
    前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
    前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
    前記すべての前記ラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、方法。
  2. 前記有向グラフの構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
    前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項1に記載の方法。
  3. 1つのラベルから複数の他の非空白ラベルへの遷移を可能にすることによって、1つのラベルから複数の他の空白ラベルへの遷移を可能にすることによって、またはその両方によって、前記非単調な整列は、前記有向グラフの構造において符号化される、請求項2に記載の方法。
  4. 前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項1に記載の方法。
  5. 前記有向グラフを展開することは、生成された前記ラベルシーケンスの各々の長さが前記確率分布シーケンスの長さと一致するように、前記有向グラフの前記構造に従って、異なるラベルシーケンスおよび異なる整列経路の異なるシーケンスを生成することを含む、請求項1に記載の方法。
  6. 前記GTC目的関数を用いた訓練は、前記条件付き確率に基づいて損失関数を定義し、
    前記GTC目的関数を用いた訓練は、勾配降下訓練を使用して前記ニューラルネットワークの前記パラメータを更新して、GTC損失を低減させる、請求項1に記載の方法。
  7. 前記GTC目的関数は、展開された前記有向グラフを通る前記ノードおよびエッジのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化し、
    展開された前記有向グラフは、前記有向グラフ内のすべての有効なラベル整列経路とすべての有効な時間的整列経路とを定義する、展開された前記有向グラフを通る前記ノードとエッジとのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化する、請求項6に記載の方法。
  8. 前記有向グラフは、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフであり、
    前記訓練は、前記有向グラフにおける対応する前記エッジの前記重みと、前記ニューラルネットワークによって推定された前記確率分布とを用いて、前記ノードシーケンスの前記条件付き確率を計算する、請求項1に記載の方法。
  9. 前記有向グラフは、あるノードのトランスクリプション出力がある時間インスタンスにおける真のトランスクリプション出力である確率に対応する数値が関連付けられた、前記ノード間を接続するエッジを有する重み付き有向グラフであり、
    前記GTC目的関数は、時間的整列およびラベル整列を学習して、前記重み付き有向グラフによって可能になる最適なラベルシーケンスを得るように構成され、
    前記GTC目的関数を用いた前記ニューラルネットワークの訓練は、前記ニューラルネットワークを更新して、グラフ形式の前記監視情報および関連する訓練サンプルに関する損失を低減させる、請求項8に記載の方法。
  10. 前記GTC目的関数は、勾配降下訓練のための前記ニューラルネットワークの出力に関して微分される、請求項9に記載の方法。
  11. 複数のラベルシーケンスを受信することと、
    前記複数のラベルシーケンスに基づいて、コンフュージョンネットワークを構築することとをさらに備え、前記コンフュージョンネットワークは、複数のアークを介して互いに接続された複数のノードを含み、前記複数のアークの各アークは、ラベルを有するアークまたはラベルを有さないアークのいずれかに対応し、前記方法はさらに、
    前記構築されたコンフュージョンネットワークを最適化して、最適化されたコンフュージョンネットワークを生成することと、
    最適化された前記コンフュージョンネットワークから前記有向グラフを生成することとをさらに備える、請求項1に記載の方法。
  12. 前記方法は、前記コンフュージョンネットワークを構築するために、動的計画法を用いて前記複数のラベルシーケンスを互いに整列させることをさらに備え、前記動的計画法は、前記複数のラベルシーケンス間の編集距離を最小化する、請求項11に記載の方法。
  13. 前記最適化されたコンフュージョンネットワークから前記有向グラフを生成するために、前記方法は、さらに、
    開始ノードと終了ノードとを作成することと、
    前記コンフュージョンネットワークの各ノードを空白ノードに、前記複数のノードの各アークを非空白ノードに置き換えることと、
    非空白ノードの各ペアの間にエッジを作成することと、
    前記空白ノードと前記非空白ノードとの各ペアの間にエッジを作成することと、
    前記開始ノードから、第1の空白ノードおよび第1の非空白ノードへのエッジを作成することと、
    最後の空白ノードと最後の非空白ノードとから、前記終了ノードへのエッジを作成することとを備える、請求項11に記載の方法。
  14. ラベル無し音声発話を示すデータを含む、ラベル無し訓練セットを受け付けることと、
    ラベル付音声発話で事前訓練された前記ニューラルネットワークまたはシードニューラルネットワークを使用して、前記ラベル付けされていない訓練セットを復号して、前記ラベル無し音声発話の各々をラベル付けするための仮説のリストを生成することと、
    各音声発話の前記仮説のリストから前記有向グラフを生成することと、
    前記ラベル無し音声発話と前記有向グラフとの対応するペアを用いて、前記ニューラルネットワークを訓練することとをさらに備える、請求項1に記載の方法。
  15. 弱ラベルを示すデータを含む訓練セットを受け付けることと、
    強ラベルで事前訓練されたニューラルネットワークを使用して前記訓練セットを復号して、前記複数の可能な弱ラベルシーケンスを生成することと、
    前記複数の可能な弱ラベルシーケンスの前記有向グラフを生成することと、
    前記有向グラフを用いて前記ニューラルネットワークを訓練することとをさらに備える、請求項1に記載の方法。
  16. ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するためのシステムであって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記システムは、少なくとも1つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記システムに、
    前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
    前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを行わせ、
    前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
    前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、システム。
  17. 前記有向グラフの前記構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
    前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項16に記載のシステム。
  18. 前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項16に記載のシステム。
  19. ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するための方法を実行するためにプロセッサによって実行可能なプログラムが埋め込まれた非一時的コンピュータ読取可能記憶媒体であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
    前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
    前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
    前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成されており、
    前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、非一時的コンピュータ読取可能記憶媒体。
JP2023541142A 2020-10-23 2021-07-02 グラフベースの時間的分類を用いたニューラルネットワークの訓練 Active JP7466784B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063104627P 2020-10-23 2020-10-23
US63/104,627 2020-10-23
US17/235,074 US20220129749A1 (en) 2020-10-23 2021-04-20 Training a Neural Network using Graph-Based Temporal Classification
US17/235,074 2021-04-20
PCT/JP2021/025874 WO2022085250A1 (en) 2020-10-23 2021-07-02 Training a neural network using graph-based temporal classification

Publications (2)

Publication Number Publication Date
JP2023542057A true JP2023542057A (ja) 2023-10-04
JP7466784B2 JP7466784B2 (ja) 2024-04-12

Family

ID=81257068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023541142A Active JP7466784B2 (ja) 2020-10-23 2021-07-02 グラフベースの時間的分類を用いたニューラルネットワークの訓練

Country Status (5)

Country Link
US (1) US20220129749A1 (ja)
EP (1) EP4073715B1 (ja)
JP (1) JP7466784B2 (ja)
CN (1) CN116547674A (ja)
WO (1) WO2022085250A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848838B2 (en) * 2021-06-24 2023-12-19 Hewlett Packard Enterprise Development Lp Communicating node events in network configuration
KR102478763B1 (ko) * 2022-06-28 2022-12-19 (주)액션파워 자소 정보를 이용한 음성 인식 방법

Also Published As

Publication number Publication date
EP4073715A1 (en) 2022-10-19
JP7466784B2 (ja) 2024-04-12
US20220129749A1 (en) 2022-04-28
CN116547674A (zh) 2023-08-04
EP4073715B1 (en) 2023-11-01
WO2022085250A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
CN109857845B (zh) 模型训练及数据检索方法、装置、终端及计算机可读存储介质
US11210475B2 (en) Enhanced attention mechanisms
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP7466784B2 (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練
JPWO2019167296A1 (ja) 自然言語処理のための装置、方法及びプログラム
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
CN109637527B (zh) 对话语句的语义解析方法及系统
JP2020042257A (ja) 音声認識方法及び装置
CN111814489A (zh) 口语语义理解方法及系统
McGraw et al. Automating Crowd-supervised Learning for Spoken Language Systems.
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
CN113628610A (zh) 一种语音合成方法和装置、电子设备
Wu et al. Dual-mode nam: Effective top-k context injection for end-to-end asr
KR102075796B1 (ko) 자동 음성인식 장치 및 방법
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
US20240153508A1 (en) End-to-End Speech Recognition Adapted for Multi-Speaker Applications
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Kheddar et al. Automatic speech recognition using advanced deep learning approaches: A survey
Ramadhelza et al. Indonesian Phonemicization Model Using N-Gram-Based Bidirectional Long Short-Term Memory

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240402

R150 Certificate of patent or registration of utility model

Ref document number: 7466784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150