JP2023542057A

JP2023542057A - グラフベースの時間的分類を用いたニューラルネットワークの訓練

Info

Publication number: JP2023542057A
Application number: JP2023541142A
Authority: JP
Inventors: モーリッツ，ニコ; 貴明堀; ル・ルー，ジョナタン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-10-23
Filing date: 2021-07-02
Publication date: 2023-10-04
Anticipated expiration: 2041-07-02
Also published as: EP4073715A1; JP7466784B2; US20220129749A1; CN116547674A; EP4073715B1; WO2022085250A1

Abstract

ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフを用いて、グラフベースの時間的分類（ＧＴＣ）目的関数でニューラルネットワークを訓練するための方法が提供される。有向グラフは、ラベルシーケンスと確率分布シーケンスとの間の非単調な整列と、ラベルの繰返しに対する制約とのうちの１つまたは組み合わせを特定する。方法は、ニューラルネットワークを実行して、観測値シーケンスを確率分布シーケンスに変換することと、ＧＴＣ目的関数に基づいて、ニューラルネットワークのパラメータを更新することとを備える。ＧＴＣ目的関数は、有向グラフを観測値シーケンスの長さに展開し、かつノードとエッジとの各非展開シーケンスを可能なラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成される。

Description

本発明は、一般に、ニューラルネットワークの訓練に関し、より具体的には、グラフベースの時間的分類（graph-based temporal classification：ＧＴＣ）目的関数を用いてニューラルネットワークを訓練する方法に関する。

ニューラルネットワークは、非線形プロセスを再現し、モデル化することができるため、過去数十年にわたってさまざまな分野の多くの用途で使用されてきた。その各々が既知の「入力」と「結果」とを含む例を処理し、両者の間に確率的な重み付けをした関連付けを形成し、それをネット自体のデータ構造に格納することで、ニューラルネットワークを学習させる（または訓練する）ことができる。所与の例からのニューラルネットワークの訓練は、通常、ネットワークの処理された出力（多くの場合、予測）と、本明細書では訓練ラベルとも呼ばれる目標出力との差を求めることによって行われる。この差は、訓練によって削減しようとする誤差を表す。したがって、ネットワークは次に、訓練規則に従って、この誤差の値を使用して、その重み付けされた関連付けを調整する。調整を繰返すことにより、ニューラルネットワークは、目標出力にますます類似した出力を生成するようになる。この調整を十分な回数行った後、特定の基準に基づいて訓練を終了することができる。

このタイプの訓練は通常、教師あり学習と呼ばれる。教師あり学習の間は、ニューラルネットワークは、通常、タスク固有の規則でプログラムされることなく、例を検討することでタスクを実行するように「学習」する。たとえば画像認識では、ニューラルネットワークは、「猫」または「猫なし」とラベル付けされた画像例を分析し、その結果を使って他の画像内の猫を識別することで、猫を含む画像を識別するように学習し得る。ニューラルネットワークは、たとえば、毛皮がある、しっぽがある、ひげがある、顔が猫っぽいといった、猫に関する予備知識なしでこれを行う。その代わりに、処理する例から識別特性を自動的に生成する。

しかしながら、このような教師あり学習を行うには、画像に猫または犬のラベル付けを行う必要がある。このようなラベル付けは、面倒で手間のかかるプロセスである。また、この画像認識の例では、ラベリングは曖昧でない。画像には、猫か犬か、または猫でも犬でもないかのどちらかが含まれる。このような曖昧でないラベリングが常に可能であるとは限らない。たとえば、訓練アプリケーションの中には、タイミングが変数であるシーケンス問題に取り組むものがある。入力のシーケンスの長さが出力のシーケンスの長さと異なるこのような訓練では、時間変数が一対多数または多数対一の曖昧さを作り出すことがある。

具体的には、ニューラルネットワークを訓練するいくつかの方法では、コネクショニスト時系列分類（connectionist temporal classification：ＣＴＣ）目的関数アルゴリズムを用いる。ＣＴＣは、訓練ラベルシーケンスと、ニューラルネットワークが出力するより長いラベル確率シーケンスとの間に利用可能な時間的整列情報がない場合に、ニューラルネットワークを訓練するために使用される損失関数であり、ラベル確率シーケンスは、ニューラルネットワークに入力される観測値シーケンスから計算される。このように時間的整列情報がない場合、ニューラルネットワークが出力するラベル確率シーケンスと、ＣＴＣ目的関数を用いて解決できる訓練ラベルシーケンスである訓練用の監視情報との間に、時間的曖昧さが生じる。

しかしながら、ＣＴＣ目的関数は、ニューラルネットワークの訓練中の時間的曖昧さを解消するのに適しているに過ぎない。他の種類の曖昧さを考慮する必要がある場合、ＣＴＣ目的関数は失敗することになる。

いくつかの実施形態は、ＣＴＣ目的関数の原理が、ある状況にはよく適しているが、他の状況には適していないという認識に基づいている。具体的には、ＣＴＣ目的関数は、訓練に使用される訓練ラベルシーケンスにおいて、各訓練ラベルの前後に挿入される追加の空白ラベルを使用している。また、ＣＴＣでは、ラベルの無限の繰返しは許容され、あるラベルから別のラベルへの遷移に特定の規則が使用される。ＣＴＣの規則に従うことによって、空白ラベルを含むラベルシーケンスを観測値シーケンスの長さまで拡張することが可能である。このように拡張することで、訓練中の時間整列を考慮することが可能になる。ＣＴＣ規則を用いてラベルシーケンスを観測値シーケンスの長さに拡張する方法は、複数存在する。しかしながら、これらの方法はすべて、時間的にラベルの特定のシーケンスの整列にのみ有効であり、他の状況では失敗する可能性がある。

しかしながら、いくつかの実施形態は、現代のアプリケーションの複雑さが、時間的な曖昧さに対処する時間的整列だけに限定されないという認識に基づいている。たとえば、ある状況では、訓練ラベルの定義自体が曖昧であり、それゆえ、訓練は、時間だけでなくラベルの曖昧さも解消する必要がある。たとえば、訓練ラベルが自動的に生成される場合、ラベルの曖昧さが生じる可能性がある。確かに、訓練ラベルを人間のオペレータが手動で作成する場合、そのラベルは正確かつ精密に作ることができ、グラウンドトゥルースと見なすことができる。しかしながら、たとえば半教師付き学習などのように、ラベルを自動的に生成する場合、ラベルの精度は不確かである。また、人間のオペレータによるラベリングの間であっても、ラベリング処理は非常に手間がかかるため、たとえば弱ラベル状況のように部分的にしか行われないことがあり、それによってラベルの曖昧さが生じることがある。さらにまたは代替的に、人間のオペレータは、ラベルシーケンス内の１つまたは複数の特定のラベルについて確信が持てず、確信が持てないラベルごとに、単一のラベルの代わりにワイルドカードラベルまたは潜在的なラベルのセットを使用することもある。

そのため、いくつかの実施形態の目的は、ＣＴＣ目的関数の原理を変換して、時間整列だけでなく、ラベル整列および／または他の目的にも適した異なる訓練目的関数を提供することである。

いくつかの実施形態は、ＣＴＣ目的の規則によって、ニューラルネットワークが出力するラベル確率シーケンスとラベルシーケンスとの間の整列が単調になり、そのためラベル整列を妨げるという認識に基づいている。このことは、単調な整列は一次元の曖昧さ、すなわち時間領域の曖昧さの解消に対応するため、驚くには値しない。さらに、空白ラベルの挿入およびラベルシーケンスのあるラベルから別のラベルへの遷移に関する特定のＣＴＣ規則を、グラフとして表すことができる。ＣＴＣはグラフを考慮しないが、もし考慮するとすれば、ＣＴＣにとってそのようなグラフは、ニューラルネットワークが出力するラベル確率シーケンスとラベルシーケンスとの間の単調な整列のみが可能となるように、ラベルにアクセス可能な順番を固定する有向グラフ（directed graph）となる。ＣＴＣ目的関数および／またはＣＴＣ規則の定義はグラフベースではないが、いくつかの実施形態は、ＣＴＣ目的関数の問題または制限が有向グラフによって示され、グラフベースの定義を使用して解消され得るという認識に基づいている。

具体的には、ＣＴＣ規則が、ニューラルネットワークによって生成されるラベル確率シーケンスと訓練ラベルシーケンスとの間の整列を単調にする有向グラフ上に、訓練ラベルシーケンスの監視情報を存在させる場合、いくつかの実施形態では、単調な整列規則を破る有向グラフによる訓練用の監視情報を使用することによって、この制限を変更する。単調な整列規則を有する有向グラフは、時間領域における変動のみを許容するが、有向グラフの非単調な特徴は、訓練中にラベルの異なるシーケンスを考慮するために、時間次元とラベル次元との両方における変動を許容する。したがって、訓練目的関数はもはやＣＴＣではなく、本明細書ではグラフベースの時間的分類（ＧＴＣ）目的関数と呼ばれる。

そのために、いくつかの実施形態は、非単調な整列特性を有する非単調な有向グラフ上に存在する監視情報を用いた、ＧＴＣ目的関数によるニューラルネットワークの訓練を開示する。非単調な整列特性は、単調な整列特性に関して説明することができる。グラフの単調性または単調な整列特性は、ラベルの繰返しと空白ラベルとを削除した後、特定の開始ノードから特定の終了ノードに遷移することによってグラフから生成可能なラベルシーケンスの数によって定義される。

本明細書で定義されるように、ＣＴＣ規則に従うグラフのような単調な整列特性を有するグラフは、単一のラベルシーケンスのみを出力し得るが、非単調な整列特性を有するグラフは、複数の異なるラベルシーケンスを出力し得る。本明細書でも定義され、当業者によって一般に理解されるように、時間的に異なって配列されたラベルの同じ順番を有する、または空白ラベルで異なるパディングを有するラベルシーケンスは、同じラベルシーケンスとみなされ、本開示では単一ラベルシーケンスとして扱われる。たとえば、ＣＴＣによって定義されるように、重複するラベルの繰返しを削除する折り畳み処理後のパディングされたラベルシーケンス、そして空白ラベルは、ＣＴＣ目的関数に入力される訓練ラベルシーケンスであるラベルの単一シーケンスを生成する。非単調な整列のＧＴＣ設定では、このような折り畳みにより、複数のラベルシーケンスを生成することができる、および／または生成されるであろう。

そのために、いくつかの実施形態では、非単調な整列を有する有向グラフの構造によって、ラベルシーケンスを確率分布シーケンスとマッピングする複数の固有のラベルシーケンスが可能になる。このような非単調な整列を実現するために、有向グラフを形成するノードとエッジとの構造は、複数の非空白接続、および複数の非空白ノードを接続するエッジによって形成されるループのいずれかまたはその組合せを含む。複数の非空白接続においては、有向グラフの少なくとも１つのノードが、異なる非空白ラベルを表す複数の他のノードにエッジによって接続される。

いくつかの実施形態は、監視情報を有向グラフ上に提示することで、そのような訓練の原理と一致する態様でニューラルネットワークを訓練するための異なる規則を適用することができるという認識に基づいている。これは、有向グラフの構造が、訓練の前向き・後ろ向きアルゴリズムによって使用される微分可能なアプローチと一致するためである。したがって、訓練に課されることが望まれる規則を有向グラフの構造の一部として表す場合、そのような規則を、前向き・後ろ向きアルゴリズムと一致する微分可能な態様で訓練に課すことが可能である。

このような規則の例は、ラベルの繰返しに対する制約である。具体的には、ＣＴＣ目的関数では、訓練ラベルシーケンスを観測値シーケンスの長さに展開するために、訓練ラベルシーケンスの長さと観測値シーケンスの長さとの差で許容される回数、ラベルを繰返すことができる。しかしながら、このような無制約な繰返し要求は、計算資源を浪費することがある。有向グラフを用いない場合、訓練に繰返し制約を課すことは困難である。しかしながら、有向グラフの助けを借りることで、繰返し制約を有向グラフの構造自体に組み込むことができる。

したがって、有向グラフの非単調な整列に追加的にまたは代替的に、いくつかの実施形態では、有向グラフの構造を使用して、ラベルの最小繰返し数、ラベルの最大繰返し数、またはその両方を特定する訓練中のラベルの繰返しに対して制約を課す。ラベルを表すノードのラベルの繰返しに対するこのような制約は、ノードの自己遷移を削除し、当該ノードに同じラベルを表す他のノードへの遷移を追加することによって、実現することができる。

したがって、ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を有することによって、ニューラルネットワークを訓練するための柔軟な規則を課すことが可能になる。たとえば、いくつかの実施形態は、すべての訓練ラベルの間に空白ラベルを挿入することなく、または複数の異なる空白ラベルを使用して、ＧＴＣ目的関数でニューラルネットワークを訓練することを開示する。さらにまたは代替的に、いくつかの実施形態は、複数の状態を含み得るラベルの各々について隠れマルコフモデル（hidden Markov model：ＨＭＭ）のようなトポロジーを用いて、ＧＴＣ目的関数でニューラルネットワークを訓練することを開示する。さらにまたは代替的に、いくつかの実施形態は、コストまたは重み付け係数に関連付けられたノード間の遷移を有する有向グラフを使用して、ＧＴＣ目的でニューラルネットワークを訓練することを開示する。

有向グラフ上に存在する監視情報を使用することに加えて、いくつかの実施形態では、ラベル整列に対応するためにＧＴＣ目的関数を修正した。たとえば、ＧＴＣ目的関数は、特定の開始ノードおよび終了ノードを有するすべてのノードシーケンス経路の条件付き確率の合計を最大化することによって定義される。特定の開始ノードおよび終了ノードは、ニューラルネットワークが出力するラベル確率シーケンスの長さにグラフを展開することによって、所与の有向グラフから生成可能である。ＧＴＣ訓練損失および勾配は、前向き変数および後ろ向き変数を計算し、両者をつなぎ合わせることに基づく動的計画アルゴリズムによって、効率的に計算することができる。

ニューラルネットワークのＧＴＣベースの訓練は、ラベリング情報を符号化する有向グラフによってベストの全体的な予測ラベルシーケンスが生成されるようにニューラルネットワークのラベル予測を最適化し、訓練サンプルとグラフベースのラベリング情報の対とのセットに対するすべての可能なラベルシーケンス予測の誤差を最小化することによって、ニューラルネットワークの訓練可能なパラメータを更新することを目標とする。訓練可能なパラメータの例として、ニューラルネットワークのニューロンの重み、およびハイパーパラメータなどが挙げられる。

さらにまたは代替的に、いくつかの実施形態は、ＧＴＣ目的関数および有向グラフによって、複数のラベルシーケンスだけでなく、複数のラベルシーケンスに対する異なる確率も考慮することが可能になるという認識に基づいている。このような考慮は、特定の状況について監視情報を適応させることができるため、ＧＴＣ目的関数にとって有利である。そのために、いくつかの実施形態では、有向グラフは、少なくともいくつかのエッジまたは遷移について異なる重みで重み付けされる。これらの遷移の重みは、ラベルシーケンスの条件付き確率の計算において使用される。

したがって、一実施形態では、ラベルとラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を使用して、グラフベースの時間的分類（graph-based temporal classification：ＧＴＣ）目的関数を用いてニューラルネットワークを訓練する、コンピュータによって実現される方法を開示する。有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスとラベルとに対する可能な整列経路を表す。有向グラフの構造は、ラベルシーケンスと確率分布シーケンスとの間の非単調な整列と、ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの１つまたは組み合わせを特定する。ニューラルネットワークへの入力が観測値シーケンスであり、ニューラルネットワークの出力がラベルのセット内のすべてのラベルにわたる確率分布シーケンスである。

方法は、ニューラルネットワークを実行して、観測値シーケンスを確率分布シーケンスに変換することと、ＧＴＣ目的関数に基づいて、ニューラルネットワークのパラメータを更新することとを備える。ＧＴＣ目的関数は、有向グラフを確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成される。すべてのラベルシーケンスの条件付き確率の合計が、ニューラルネットワークによって決定される確率分布シーケンスと、有向グラフのエッジに存在する重みとから推定される。

実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数を用いてニューラルネットワークを訓練するワークフローを示す模式図である。実施形態例に係る、ニューラルネットワークが出力する確率分布シーケンスを示す図である。実施形態例に係る例示的な非単調な有向グラフを示す図である。実施形態例に係る、有向グラフの展開中にラベルの可能な無制約の繰返しの例を示す図である。実施形態例に係る例示的な単調な有向グラフを示す図である。実施形態例に係る、ラベルの繰返しに対する制約に基づいて修正された単調な有向グラフを示す図である。実施形態例に係る、ＧＴＣ目的関数を用いてニューラルネットワークを訓練するための方法のステップを示す図である。実施形態例に係る、ノードシーケンスに対する条件付き確率の計算を示す図である。実施形態例に係る、周辺確率を決定するための前向き・後ろ向きアルゴリズムの実現例を示す図である。実施形態例に係る、複数のラベルシーケンスを、有向グラフを生成するために使用されるコンフュージョンネットワーク（confusion network）に変換する方法を示す図である。実施形態例に係る、３つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワークを示す図である。実施形態例に係る、３つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワークを示す図である。実施形態例に係る、イプシロン削除操作によって最適化されたコンフュージョンネットワークを示す図である。実施形態例に係る、最適化されたコンフュージョンネットワークから有向グラフを生成するための方法を示す図である。実施形態例に係る、図５Ｅに示す方法のステップを用いて生成された有向グラフを示す図である。実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数を用いて自動音声認識（automatic speech recognition：ＡＳＲ）のためのニューラルネットワークを訓練するワークフローを示す模式図である。実施形態例に係る、ニューラルネットワークを訓練する際にＧＴＣ目的関数によって使用される例示的な有向グラフを示す図である。実施形態例に係る、ＧＴＣ目的関数を用いて実装されたＡＳＲシステムのニューラルネットワークアーキテクチャを示す図である。実施形態例に係る、異なるサイズＮのＮ－ｂｅｓｔリストについての、および発話ごとの２０－ｂｅｓｔＡＳＲ仮説から生成されるＣＮについてのオラクルラベル誤り率（label error rates：ＬＥＲｓ）を示す表１である。実施形態例に係る、異なる擬似ラベル表現に対するＧＴＣベースのＡＳＲ結果を示す表２である。実施形態例に係る、音響イベント検出（sound event detection：ＳＥＤ）システムに入力される複数の音を生成する複数のエンティティを含む音響シーンを示す図である。実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数を用いて音響イベント検出（ＳＥＤ）システムに対応するニューラルネットワークを訓練するワークフローを示す模式図である。実施形態例に係る、ＧＴＣ目的関数を用いて訓練されたコンピュータベースのシステムを示すブロック図である。

以下の説明では、説明の目的で、本開示の完全な理解を提供するために多数の具体的な詳細が記載されている。しかしながら、当業者には、本開示がこれらの具体的な詳細なしに実施され得ることは明らかであろう。他の例では、本開示を不明瞭にしないために、装置および方法はブロック図の形態でのみ示されている。

本明細書および請求項で使用される、「たとえば（ｆｏｒｅｘａｍｐｌｅ）」、「例として（ｆｏｒｉｎｓｔａｎｃｅ）」、および「～のような（ｓｕｃｈａｓ）」という用語、ならびに「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、およびこれらの動詞の他の形態は、１つ以上の構成要素またはその他のアイテムの列挙とともに使用される場合、オープンエンドと解釈され、その列挙がさらに他の構成要素またはアイテムを除外するとみなされてはならないことを意味するものとする。「に基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される文体および専門用語は、説明のためのものであって限定とみなされてはならないことを理解されたい。本明細書で使用されるいかなる見出しも、便宜的なものにすぎず、法的または限定効果を有するものではない。

図１Ａは、実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数１０５を使用してニューラルネットワーク１０１を訓練するワークフローを示す模式図である。ニューラルネットワーク１０１は、観測値シーケンス１０３に対する確率分布シーケンス１１１を出力するように訓練され、確率分布シーケンス１１１は、各時間インスタンスにおけるラベル確率を示す。ニューラルネットワーク１０１に入力される観測値シーケンス１０３および複数のラベルシーケンス１０９ａの種類は、ニューラルネットワーク１０１が使用されているアプリケーションの種類によって決まる。

たとえば、ＡＳＲシステムに関連するニューラルネットワーク１０１の場合、ニューラルネットワーク１０１の入力インターフェースにおいて提供される観測値シーケンス１０３は、音声発話に関連付けられ、複数のラベルシーケンス１０９ａは、特定の言語のアルファベットからの単語、サブワード、および／または文字に対応してもよい。さらに、ニューラルネットワーク１０１が、音響シーンにおける特定のタイムスパンで発生した異なる音響イベントを検出するように訓練されてもよい音響イベント検出アプリケーションでは、観測値シーケンス１０３は、音響シーンにおける特定のタイムスパンで構成された音の異なる音響特性を含んでもよい。この場合、複数のラベルシーケンス１０９ａは、音を生成する、または音響イベントを引き起こす異なるエンティティに対応するラベルを含んでもよい。たとえば、音響シーンにおける猫の鳴き声の場合は「猫音」というラベルが使用されてもよく、同様に、犬の吠え声の場合は「犬音」というラベルが使用されてもよい。このように、観測値シーケンス１０３と複数のラベルシーケンス１０９ａとは、アプリケーションによって異なる。

ニューラルネットワーク１０１は、ＧＴＣ目的関数１０５を用いて訓練され、ＧＴＣ目的関数１０５は、有向グラフ１０７からの監視情報を用いる。有向グラフ１０７は、エッジによって接続された複数のノードを含み、エッジは、ラベルとラベル間の遷移とを表す。いくつかの実施形態は、有向グラフ１０７上に監視情報を提示することで、そのような訓練の原理と一致する態様でニューラルネットワークを訓練するための異なる規則を適用することが可能であるという認識に基づいている。これは、有向グラフ１０７の構造が、訓練の前向き・後ろ向きアルゴリズムによって使用される微分可能なアプローチと一致しているためである。したがって、訓練に課されることが望まれる規則が有向グラフ１０７の構造の一部として表される場合、そのような規則を、前向き・後ろ向きアルゴリズムと一致する微分可能な態様で、訓練に課すことが可能である。

たとえば、一実施形態では、有向グラフ１０７は、確率分布シーケンス１１１と複数のラベルシーケンス１０９ａとに対して複数の可能な整列経路を表す。このような有向グラフによって、ＧＴＣ目的関数を使用して、時間領域とラベル領域との両方においてその入力と出力との間の整列を実行するように、ニューラルネットワーク１０１を訓練することができる。このマルチ整列を実現するために、有向グラフ１０７の構造は、非単調である、すなわち、複数のラベルシーケンス１０９ａのうちの１つのラベルシーケンスと確率分布シーケンス１１１との間の非単調な整列を特定する。

さらにまたは代替的に、一実施形態では、有向グラフ１０７は、ラベルの繰返しに対する制約１０９ｂを表す。ラベルの繰返しに対する制約１０９ｂは、ラベルの繰返しの最小数、ラベルの繰返しの最大数、またはその両方を特定する。ラベルの繰返しに対する制約１０９ｂは、時間整列のための有向グラフ１０７の展開中に生成され得る可能なラベルシーケンスの数を減らし、ＧＴＣ損失の計算を高速化することができる。

観測値シーケンス１０３は、特徴抽出手法によって抽出された特徴に対応し得る。たとえば、観測値は、入力信号を重複するチャンクに分割し、チャンクの各々から特徴を抽出することによって得られてもよい。抽出される特徴の種類は、入力の種類に応じて異なってもよい。たとえば、音声発話の場合、音声サンプルのチャンク化されたシーケンスから抽出された特徴は、入力信号のスペクトル分解と、人間の耳の周波数分解能を模倣するための追加の信号処理ステップとを含んでもよい。たとえば、入力された音声発話から抽出された各特徴フレームは、観測値シーケンス１０３の時間インスタンスに対応してもよく、たとえば、音声発話の各フレームは、音声発話の前のフレームから時間的にさらに１０ミリ秒シフトした２５ミリ秒の音響サンプルに関連付けられる。音声発話の特徴フレームシーケンスにおける音声発話の各特徴フレームは、対応する時間ステップにおける発話の部分を特徴付ける音響情報を含んでもよい。たとえば、音声データの特徴フレームシーケンスは、フィルタバンクスペクトルエネルギーベクトルを含んでもよい。
ニューラルネットワークの入力および出力

さまざまな実施形態において、ニューラルネットワーク１０１への入力は観測値シーケンス１０３であり、ニューラルネットワーク１０１の出力は、ラベルのセットにわたる確率分布シーケンス１１１である。説明を明確にするために、ニューラルネットワーク１０１によって生成される確率分布１１１は、例示的な実施形態を用いて以下で説明される。例示的な実施形態においては、ニューラルネットワーク１０１が自動音声認識（ＡＳＲ）のために訓練される、例示的な実施形態を用いて以下で説明される。しかしながら、この例は、本開示の実施形態の範囲、適用可能性、または構成を限定することを意図していない。

図１Ｂは、実施形態例に係る、ＡＳＲのために訓練されたニューラルネットワーク１０１によって複数の観測値シーケンス１０３から計算された確率分布シーケンス１１１を示す図である。図１Ｂは、図１Ａに関連して説明される。ニューラルネットワーク１０１への入力は、音声発話から抽出された特徴を有する観測値シーケンス１０３を含む。ニューラルネットワーク１０１は、曖昧さをいくらか有する可能な音声認識を符号化する有向グラフ１０７を含む監視情報に基づいて訓練される。

有向グラフ１０７および確率分布シーケンス１１１は、ＧＴＣ目的関数１０５によって処理されて、入力された観測値シーケンスに対する有向グラフ１０７内のラベルの時間的整列およびラベル整列を最適化するとともに、ニューラルネットワーク１０１のパラメータを更新するための勾配を決定する。ＧＴＣ目的関数１０５を用いて訓練されたニューラルネットワーク１０１は、確率シーケンス１１１の行列を生成する。確率シーケンス１１１において、列がタイムステップに対応し、各行がラベル（ここでは、英語のアルファベットの文字）に対応する。

図１Ｂの例では、ニューラルネットワーク１０１は、Ｄ×Ｔ次元の行列（ここで、Ｄはラベル次元、Ｔは時間次元を示し、所与の例ではＤ＝２９およびＴ＝３０である）または確率分布シーケンス１１１を出力する。ここで、英語のアルファベットの文字および複数の特殊文字がＤ＝２９ラベルに相当する。Ｄ×Ｔ行列の各列（Ｄ次元）は、合計が１になる確率に対応する。すなわち、行列は、タイムステップごとの全ラベルにわたる確率分布を示す。この例では、ラベルは、Ａ～Ｚまでの英語のアルファベットの文字に加えて、追加の記号「＿」、「＞」、および「－」に対応する。「－」は、空白トークンまたは空白記号を示す。確率分布シーケンス１１１は、タイムステップごとに異なるラベルの確率を定義し、これは、ニューラルネットワーク１０１によって観測値シーケンス１０３から計算される。たとえば、図１Ｂで観察されるように、ラベル「Ｂ」を観察する第４の時間ステップにおける確率は９６％であり、ラベル「Ｏ」の確率は３％であり、残りのラベルの確率はゼロに近い。したがって、この例の出力において最も可能性の高いラベルシーケンスは、第４の時間位置で文字「Ｂ」または「Ｏ」のいずれかを有することになる。推論時に、最終ラベルシーケンスを、前置ビームサーチなどのさまざまな技術を使用して、ラベル上の確率分布シーケンス１１１から抽出し得る。

さらに、ＧＴＣ目的関数を用いることにより、ニューラルネットワーク１０１は、有向グラフ１０７を構成するノードとエッジとのシーケンスに対応するラベルシーケンスの確率を、確率分布シーケンス１１１において最大化するように訓練される。たとえば、入力された音声発話のグラウンドトゥルーストランスクリプションが「ＢＵＧＳ＿ＢＵＮＮＹ」に対応するが、グラウンドトゥルーストランスクリプションが未知であるとする。このような場合、有向グラフ１０７は、「ＢＵＧＳ＿ＢＵＮＮＹ」に対応する音声発話に対するＡＳＲ仮説のリストから生成されてもよい。たとえば、有向グラフ１０７が表すＡＳＲ仮説のリストは、「ＢＯＸ＿ＢＵＮＮＹ」、「ＢＵＧＳ＿ＢＵＮＮＩ」、「ＢＯＧ＿ＢＵＮＮＹ」等でもよい（ここでは、英語のアルファベットの各文字がラベルに対応する）。いずれかの仮説が正しいか、または仮説のどの部分が正しいかは不明であるため、「ＢＵＧＳ＿ＢＵＮＮＹ」に対応する音声発話に対するこのような複数の仮説のリストには、「ＢＵＧＳ＿ＢＵＮＮＹ」のみというグラウンドトゥルース情報とは異なり、曖昧なラベル情報が含まれている。

ＧＴＣ訓練中、有向グラフ１０７は、確率分布シーケンス１１１の長さに展開される。展開されたグラフの特定の開始ノードから特定の終了ノードまでの各経路は、整列経路およびラベルシーケンスを示す。このようなグラフは、ニューラルネットワーク１０１が出力する確率分布シーケンス１１１と、グラフにおいて符号化されたラベルシーケンス１０９ａとの間の非単調な整列を構成することができる。有向グラフ１０７が構成する整列経路の１つは、「－ＢＯＯＸＸＸ＿ＢＢＵＵＮ－ＮＩ」、「Ｂ－ＯＯＸ－＿－ＢＵＮＮ－ＮＹ－」および「ＢＵ－ＧＳ－＿－ＢＵＮ－Ｎ－Ｙ－」などのラベルシーケンスに対応し得る（「－」は空白記号を表す）。有向グラフ１０７の各ラベルシーケンスは、時間的整列およびラベル整列を含む。有向グラフ１０７のラベルと確率分布シーケンス１１１との時間的整列およびラベル整列は、ＧＴＣ目的関数１０５によって、有向グラフ１０７を加工し、ニューラルネットワーク１０１を訓練することによって最適化される。ＧＴＣ目的関数１０５は、有向グラフ１０７が構成するラベルシーケンスの確率を最大化するように、ニューラルネットワーク１０１を訓練するために用いられる。有向グラフ１０７のエッジ上に存在する遷移重みが、より可能性の高い整列経路を強調するために、訓練中に使用されてもよい。そのために、実施形態例では、ニューラルネットワーク１０１によって、各仮説にスコアが提供されてもよい。さらに、各仮説は、スコアに基づいてランク付けされてもよい。さらに、ランク付けに基づいて、Ｎ－ｂｅｓｔ仮説の後続の仮説に対応する遷移の重みよりも、最初にランク付けされた仮説に対応する遷移の重みが大きくなるように、各仮説に対応する遷移に重みが割り当てられてもよい。たとえば、仮説「ＢＯＧ」は、文脈情報に基づいて、他の仮説「ＢＯＸ」と比較してランクが高い可能性がある。したがって、ラベル「Ｏ」および「Ｇ」を接続する重みは、「Ｏ」および「Ｘ」を接続する重みより大きくてもよい。そのため、遷移重みがより大きいラベルシーケンスは、より高い確率のスコアが割り当てられることになり、そのため、入力された音声発話を正しくトランスクリプションするために選択される。
非単調な整列の有向グラフ

いくつかの実施形態では、監視情報は有向グラフ１０７の構造によって構成され、監視情報は、ＧＴＣ目的関数１０５によって、時間的曖昧さおよびラベル曖昧さなどの１つまたは複数の曖昧さを解消するために使用されて、ニューラルネットワーク１０１を訓練する。したがって、監視情報は、複数のラベルシーケンス１０９ａと確率分布シーケンス１１１との間の非単調な整列の１つまたは組み合わせを特定する。非単調な整列に基づいて、有向グラフ１０７は、複数の固有のラベルシーケンスを出力することができる。

図１Ｃは、実施形態例に係る例示的な有向グラフ１００ｃを示す図である。有向グラフ１００ｃは、各ノードがラベルを表す複数のノード１１３ａ，１１３ｂ，１１３ｃおよび１１３ｄを含む。たとえば、ノード１１３ａはラベル「Ａ」を表し、１１３ｂはラベル「Ｂ」を表し、ノード１１３ｃはラベル「Ｃ」を表し、ノード１１３ｄはラベル「Ｄ」を表す。有向グラフ１００ｃは、開始ノード１１７ａで開始し、終了ノード１１７ｂで終了する。図１Ｃでは、開始ノードおよび終了ノードは、図示を単純化し明確化するために示されていない他のノードが有向グラフ１００ｃに存在し得ることを説明するために、破線でラベルに接続されている。

有向グラフ１００ｃは、それによって、有向グラフ１００ｃのラベルシーケンスと、訓練中にニューラルネットワーク１０１によって出力される確率分布シーケンス１１１との間の非単調な整列を提供する非単調な有向グラフである。異なる実施形態において、非単調な整列は、ラベルおよび時間の曖昧さを捉える有向グラフ１００ｃのノードを通る複数の経路を可能にするために、異なる方法で実装することができる。

たとえば、図１Ｃに示すように、有向グラフ１００ｃにおける非単調な整列は、少なくとも１つのノードを異なるラベルを表す異なるノードに接続することによって構造化することができる。たとえば、ラベルＡを表すノード１１３ａは、ラベルＢを表すノード１１３ｂにエッジ１１５ａｂで接続され、ラベルＣを表すノード１１３ｃにエッジ１１５ａｃで接続される。このような分割接続により、開始ノードと終了ノードとの間に挟まれたシーケンスＡＢＤおよびシーケンスＡＣＤなどの、グラフ内の複数の異なる経路で定義される複数の異なるラベルシーケンスを作成することができる。

有向グラフ１００ｃの構造で符号化された非単調な整列の他の例は、複数の非空白ノードを接続するエッジによって形成されるループである。有向グラフ１００ｃでは、ループは、ＡＢＡＣＤまたはＡＢＡＢＤなどの、グラフを通る複数の経路を作ることを可能にするエッジ１１５ａｂおよび１１５ｂａによって形成される。

いくつかの実施形態は、非単調な有向グラフ１００ｃが異なるラベルシーケンスを符号化するため、すべてのシーケンスが等確率であるとは限らないという認識に基づいている。したがって、有向グラフ１００ｃの構造に不均等な確率を課す必要がある。

ラベルの繰返しに制約のある有向グラフ

図１Ｄは、実施形態例に係る、有向グラフ１００ｄの展開中のラベルの繰返しを示す図である。図１Ｄは、左側に有向グラフ１００ｄを含み、右側に展開された有向グラフ１１０ｄを有する。有向グラフ１００ｄは、トランスクリプション「ＨＥＬＬＯＷＯＲＬＤ」に対応するラベルシーケンスを含む。ニューラルネットワーク１０１に提供される観測値シーケンス１０３の観測値が、ラベルシーケンスのラベルよりも多い、すなわちトランスクリプションがあるとする。たとえば、トランスクリプション「ＨＥＬＬＯＷＯＲＬＤ」の文字数は１０であり、観測値数（および対応する条件付き確率）は３０でもよい。したがって、ラベル数を観測値数に一致または整列させるために、トランスクリプションの一部のラベルは、グラフの展開中に繰り返される。たとえば、トランスクリプション「ＨＥＬＬＯＷＯＲＬＤ」の文字「Ｅ」は、数回繰り返されることがある。

しかしながら、ラベルの繰返し可能な回数に制約がないため、繰り返されるラベルの各々から可能な遷移を分析するためにＧＴＣ目的関数が必要となり、無駄な計算能力が発生してしまう。そのため、有向グラフ１００ｄは、ラベルの繰返しに対する制約１０９ｂを含む。有向グラフ１００ｄの制約１０９ｂは、ラベルシーケンスにおいてラベルの繰返しを許容する最小回数、またはラベルシーケンスにおいてラベルの繰返しを許容する最大回数、またはその両方を含んでもよい。これは、模範的な展開１１９のように、それほど多くの連続した時間枠にわたって文字「Ｅ」を観察する可能性が低いからである。

したがって、有向グラフ１００ｄの非単調な整列に対して追加的または代替的に、いくつかの実施形態では、有向グラフ１００ｄの構造を使用して、訓練中のラベルの繰返しに対して、ラベルの最小繰返し数、ラベルの最大繰返し数、またはその両方を指定する制約を課す。ラベルを表すノードのラベルの繰返しに対するこのような制約は、ノードの自己遷移を削除し、当該ノードに同じラベルを表す他のノードへの遷移を追加することによって、実現することができる。

図１Ｅは、実施形態例に係る、ラベルの繰返しに対する制約１０９ｂを有する例示的な有向グラフ１００ｅを示す図である。有向グラフ１００ｅは、開始ノード１１７ａで開始し、終了ノード１１７ｂで終了する。単調な有向グラフ１００ｅは、各ノードがラベルを表す複数のノード１２１ｘ，１２１ｙ，１２３ｙおよび１２１ｚを含む。たとえば、ノード１２１ｘはラベル「Ｘ」を表し、ノード１２１ｙはラベル「Ｙ」を表し、ノード１２１ｚはラベル「Ｚ」を表し、１２３ｙは別のラベル「Ｙ」を表す。この例では、同じラベルを表す接続されたノードシーケンスが、ノード１２１ｙとノード１２３ｙとによって形成されている。

有向グラフ１００ｅは、開始ノードと終了ノードとを接続するグラフのノードを通る経路が複数存在するものの、折り畳み手順の後にはラベルＸＹＺの一つのシーケンスしか形成することができないため、単調である。

たとえば、単調な有向グラフ１００ｅは、単調な有向グラフ１００ｅの展開中に、Ｘ→Ｘ→Ｘ→Ｙ→Ｚ→ＺまたはＸ→Ｙ→Ｙ→ＺまたはＸ→Ｙ→Ｚなどの、異なるラベルシーケンスを特定してもよい。しかしながら、これらのラベルシーケンスを折り畳んだ後、Ｘ→Ｙ→Ｚである１つのラベルシーケンスのみが生成される。いくつかの実施形態では、複数の単調な有向グラフを組み合わせて、非単調な有向グラフ（非単調な有向グラフ１００ｃなど）を形成してもよく、これはニューラルネットワーク１０１の訓練に用いられる。

さらに、単調な有向グラフ１００ｅにおいて、特定のラベル、たとえばラベル「Ｙ」を３回以上繰返すべきではなく、ラベル「Ｘ」および「Ｚ」を複数回繰返すことができると定義してもよい。この情報は、グラフの構造で符号化され、展開の間に自動的に使用される。たとえば、ノード１２１ｘと１２１ｚとは自己遷移を有するので、展開で許容される回数だけ繰返すことができる。これに対して、ラベル「Ｙ」に対応するノード１２１ｙと１２３ｙとは、自己遷移を有していない。したがって、開始ノードと終了ノードとの間のグラフを移動するには、経路は、ノード１２１ｙに対応するラベル「Ｙ」が１回繰り返される１２１ｘ－１２１ｙ－１２１ｚ、またはノード１２１ｙおよび１２３ｙに対応するラベル「Ｙ」が２回繰り返される１２１ｘ－１２１ｙ－１２３ｙ－１２１ｚでもよい。さらに、有向グラフ１００ｅは、何の制約もなく現在複数回繰り返されているラベル「Ｘ」および「Ｚ」等の他のラベルの繰返しを修正または制約することを許容する。有向グラフ１００ｅを有向グラフ１００ｆに修正して、他のラベル「Ｘ」および「Ｚ」に制約を課してもよい。

図１Ｆは、実施形態例に係る、ラベルの繰返しに対する制約１０９ｂを有する別の例示的な有向グラフ１００ｆを示す図である。図１Ｆにおいて、単調な有向グラフ１００ｆの構造は、ラベル「Ｘ」をシーケンス内で３回だけ繰返すことができ、そのために、ラベル「Ｘ」を表すノード１２５ｘと、同じくラベル「Ｘ」を表すノード１２７ｘとが、元のノード１２１ｘに接続されてもよいと制約している。この例では、ノード１２１ｘと１２５ｘと１２７ｘとによって、同じラベルを表す接続されたノードシーケンスが形成される。

同様に、ラベル「Ｚ」は常に２回繰り返される、などと制約されてもよい。そのために、ノード１２９ｚは、元のノード１２１ｚに接続されてもよい。このように、有向グラフ１００ｆは、ニューラルネットワーク１０１の訓練を最適化するために大きな柔軟性をもたらす。

繰返しに対する制約１０９ｂは、音声関連のアプリケーションに有利である。たとえば、英語でのトランスクリプションを行うように構成されたＡＳＲシステムに対応するニューラルネットワーク１０１が使用する有向グラフ１００ｆについては、ラベル「Ｕ」に対応する出力が複数の連続するフレームにわたって観測される可能性が低いと、あらかじめ分かっている場合がある。したがって、ラベル「Ｕ」は、計算複雑性を低減させ、ＧＴＣ目的関数の計算を高速化するために、限られた回数だけ繰り返されるように制約されてもよい。

繰返しに対する制約１０９ｂの利点は、音声関連のアプリケーションに限定されない。たとえば、有向グラフ１００ｆとニューラルネットワーク１０１とは、家庭環境における音響イベントを検出するために実装された音響イベント検出システムに対応可能である。「ドアをバタンと閉める」というような短いイベントは、多くの連続した観測フレームにわたって発生する可能性は低いかもしれない。したがって、有向グラフ１００ｆの構造は、「ドアをバタンと閉める」というラベルの繰返しに対する制約１０９ｂを定義してもよい。
有向グラフを用いたＧＴＣ目的関数での訓練

さまざまな実施形態において、ニューラルネットワーク１０１は、観測値シーケンス１０３を確率分布シーケンス１１１に変換するように、ＧＴＣ目的関数１０５に基づいて訓練される。さらに、ニューラルネットワーク１０１は、ラベルシーケンスの長さが確率分布シーケンス１１１の長さと一致するように、複数のラベルシーケンス１０９ａからすべての可能なラベルシーケンスを生成するために有向グラフ１０７を展開するように構成されている。有向グラフ１０７を展開することは、確率分布シーケンス１１１の長さの有向グラフ１０７のノードとエッジとを通る開始ノードから終了ノードへの経路を見つけることによって、有向グラフ１０７の構造に従ってラベルシーケンスおよび整列経路を生成することを含む。展開されたグラフの各経路は、特定の開始ノードで開始し、特定の終了ノードで終了する、固定長のノードとエッジとのシーケンスに対応する。ノードとエッジとのシーケンスに対応する展開されたグラフ内の各可能な経路を、ラベルシーケンスにマッピングすることができる。

さらに、ニューラルネットワーク１０１は、ＧＴＣ目的関数１０５に基づいて、ニューラルネットワーク１０１の１つ以上のパラメータを更新し、ＧＴＣ目的関数１０５は、有向グラフ１０７を展開することによって生成されるラベル１０９ａのすべての可能なシーケンスの条件付き確率の合計を最大化するように構成されている。ニューラルネットワーク１０１によって更新されるニューラルネットワーク１０１の１つ以上のパラメータは、ニューラルネットワークの重みおよびバイアスに加えて、埋め込みベクトル等の他の訓練可能なパラメータを含んでもよい。

いくつかの実施形態では、有向グラフ１０７は、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフである。さらに、ＧＴＣ目的関数１０５は、時間的整列およびラベル整列を学習して、重み付き有向グラフ１０７から最適な疑似ラベルシーケンスを得るように構成されており、それによって、ＧＴＣ目的関数１０５を用いたニューラルネットワーク１０１の訓練によって、ニューラルネットワーク１０１が更新されて最適な疑似ラベルシーケンスに関する損失を低減させる。ＧＴＣ目的関数１０５を用いて訓練されたニューラルネットワーク１０１は、観測値シーケンス１０３を、各時間インスタンスにおけるすべての可能なラベルにわたる確率分布シーケンス１１１に変換する。さらに、訓練されたニューラルネットワーク１０１は、ニューラルネットワーク１０１の出力において、有向グラフ１０７に存在するノードとエッジとのシーケンスに対応するラベルシーケンスの確率を最大化する。

このように、提案するＧＴＣ目的関数１０５により、ニューラルネットワーク１０１は、グラフ形式のラベル情報を用いて、ニューラルネットワーク１０１のパラメータを学習および更新することが可能となる。

有向グラフ１０７は、ＧＴＣ目的関数１０５がニューラルネットワーク１０１を訓練する際に使用する監視情報を提供する。有向グラフ１０７では、ラベルシーケンスが複数のノードとエッジとによって表現される。さらに、有向グラフ１０７は、確率分布シーケンス１１１と、有向グラフ１０７が表す複数のラベルシーケンス１０９ａとの間に、非単調な整列を含んでいる場合がある。非単調な整列または単調な整列は、ラベルの繰返しおよび空白ラベルを削除した後、特定の開始ノードから特定の終了ノードへの遷移によって有向グラフ１０７から生成できるラベルシーケンスの数として定義される。単調なグラフでは単一のラベルシーケンスしか出力できないが、非単調な整列では、有向グラフ１０７が複数の固有のラベルシーケンスを出力することができる。

非単調な整列の特徴のため、有向グラフ１０７は、時間領域におけるラベルシーケンスの変化だけでなく、ラベル領域におけるラベルシーケンスの変化そのものにも関連する情報を含む。ラベル領域におけるラベルシーケンスの変化に起因して、有向グラフ１０７は、有向グラフ１０７の複数のノードとエッジとを通る複数の経路を含み、各経路は、複数のラベルシーケンス１０９ａのうちのラベルの少なくとも１つのシーケンスに対応する。したがって、有向グラフ１０７の各エッジは、あるノードから別のノードに向かう方向を有する。

このように、非整列特徴により、有向グラフ１０７は、訓練中に異なるラベルシーケンスを考慮することが可能になり、訓練サンプルの正しいトランスクリプションに関する不確実性を考慮するために、曖昧なラベル情報でニューラルネットワーク１０１を訓練することができる。

さらに、有向グラフ１０７により、展開されたグラフから生成できる可能なラベル経路の数を減らし、ＧＴＣ損失の計算を高速化するために、有向グラフ１０７の展開中にラベルシーケンスの少なくとも１つのラベルを特定の最小回数および特定の最大回数繰返すことが可能になる。

いくつかの実施形態において、非単調な有向グラフ１０７は、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフである。さらに、有向グラフ１０７における対応するエッジの重みに基づいて、ノードシーケンスの条件付き確率が、訓練中に計算されてもよい。

ニューラルネットワーク１０１は、ＧＴＣ目的関数１０５を用いて訓練され、ＧＴＣ目的関数１０５は、確率分布のシーケンス１１１と有向グラフ１０７で表すラベルのシーケンスとの最適な整列を学習するために、ニューラルネットワーク１０１がラベル整列またはラベルの曖昧さに加えて、時間的整列または時間的曖昧さを解消することを可能にする。

ステップ２０９で、ステップ２０７で計算された勾配に従って、ニューラルネットワーク１０１のパラメータが更新され得る。パラメータを更新するために、ニューラルネットワーク１０１のパラメータを更新するための規則を定義するニューラルネットワーク最適化関数を実装してもよい。ニューラルネットワーク最適化関数は、確率的勾配降下法（Stochastic Gradient Decent：ＳＧＤ）、モーメンタム付きＳＧＤ，Ａｄａｍ，ＡｄａＧｒａｄおよびＡｄａＤｅｌｔａなどのうちの少なくとも１つを含んでもよい。

ＧＴＣ損失の計算では、ノード間を接続する灰色の線で示されるすべての経路（３０３）の条件付き確率が計算され、合計される。すべての経路の条件付き確率の合計は、動的計画法法により効率的に計算することができる。

図４は、実施形態例に係る、周辺確率を求めるための前向き・後ろ向きアルゴリズムの実現例を示す図である。図３に示す有向グラフ３０５におけるすべての経路３０３の条件付き確率の合計を求めるために、まず、時間ｔごとにすべてのノードの周辺確率を計算することが重要である。たとえば、ｔ＝５におけるノード４の周辺確率を計算するために、ｔ＝５におけるノード４を通るすべての経路の条件付き確率の合計を、前向き・後ろ向きアルゴリズムおよび動的計画法を用いて効率的に計算可能である。

前向きステップでは、ノード０（ｔ＝０の場合）から開始し、時刻ｔ＝５にノード４で終了するすべての経路の条件付き確率の総和が計算され、前向き変数αに格納される。後ろ向きステップでは、ノード８（終了ノード）で開始し、ｔ＝５にノード４へ後ろに向かうすべての経路の条件付き確率の総和が計算され、後ろ向き変数βに格納される。最後に、ｔ＝５におけるノード４の周辺確率は、αとβの乗算によって導出され、これは、上記式（４）に従って、ｔ＝５においてノード４で発行されるラベルの事後確率で除算される。なぜなら、さもなければ事後確率が２回カウントされることになるからである。前向き変数と後ろ向き変数との両方は、動的計画法を使用して効率的に計算される。
有向グラフの生成

いくつかの実施形態では、有向グラフはコンフュージョンネットワークと関連付けられている。複数のラベルシーケンスは、有向グラフを生成するために、コンフュージョンネットワークに変換されている。コンフュージョンネットワークは、開始ノードから終了ノードへの各経路が他のすべてのノードを通過するという特性を有する単純な線形有向非循環グラフに相当する。このようなグラフの２つのノード間のエッジはラベルのセットを表し、ラベルのセットはコンフュージョンセットと呼ばれる。コンフュージョンネットワークに関する有向グラフの詳細な説明について、図５Ａ～図５Ｆを参照してさらに説明する。

図５Ａは、実施形態例に係る、複数のラベルシーケンスを、有向グラフを生成するために使用されるコンフュージョンネットワークに変換する方法５００ａを示す図である。

方法５００ａは、ステップ５０１で開始し、有向グラフの生成のために複数のラベルシーケンスを受信し得る。実施形態例では、ラベルは、任意の言語の文字、単語、サブワードに対応してもよい。別の実施形態では、ラベルは、音響イベント検出器システムによって検出された音生成エンティティ（猫、犬、人間、車、および同類のものなど）の名前に対応してもよい。

ステップ５０３で、複数のラベルシーケンスを使用して、コンフュージョンネットワークを構築し得る。コンフュージョンネットワーク（ソーセージとも呼ばれる）は、グラフのすべてのノードがエッジを介して接続され、ラベルがエッジ上にあるグラフである。したがって、コンフュージョンネットワークは、互いに整列した複数のラベルシーケンスのコンパクトな表現である。たとえば、英語の文字に対応するラベルが得られているとする。文字はＡ，Ｂ，Ｃ，Ｄ，ＥおよびＸを含むとする。このとき、所与の２つのラベルシーケンスＡＢＣＤおよびＸＢＤＥについて、２つのシーケンスの間の整列は次のように表現可能である。
ＡＢＣＤ ε
ＸＢ ε ＤＥ
ここで、εは、「ラベルがない」ことまたはイプシロンノードを示し、削除や挿入に対応する。

同様に、ラベルの２つのシーケンスは、音響イベント検出器によって検出された音源の名前、たとえば、「猫、犬、赤ちゃん、人間」および「牛、犬、人間、車」に対応し得る。したがって、これら２つのシーケンスの間の整列は、次のように表すことができる。
猫犬赤ちゃん人間 ε
牛犬 ε 人間車

整列は、２つのラベルシーケンス間の編集距離を最小化する動的計画法によって得られてもよい。編集距離とは、ある文字列を他の文字列に変換するために必要な最小限の操作回数を数えることによって、２つの文字列（たとえば、ラベル）が互いにどの程度非類似であるかを定量化する方法である。たとえば、編集距離は、文字列中の文字の削除、挿入および置換の誤りを数えることができるレーベンシュタイン距離を用いて計算されてもよい。さらに、得られた整列について、図５Ｂに示すようなコンフュージョンネットワーク５０９を構築することができる。

図５Ｂは、実施形態例に係る、２つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワーク５０９を示す図である。２つのラベルシーケンスは、シーケンス「ＡＢＣＤε」と「ＸＢεＤＥ」とを含む。図５Ｂにおいて、コンフュージョンネットワーク５０９は、５１５ａ，５１５ｂ，５１５ｃ，５１５ｄ，５１５ｅおよび５１５ｆを含み、黒のノードは最終ノード５１５ｆを示す。さらに、コンフュージョンネットワーク５０９は、複数のアークを含み、各アークは、ラベル付アークまたはラベル無しアーク（またはイプシロンラベル、すなわちε）のいずれかに対応する。記号εは、イプシロンラベル（または無）ラベルを表す。たとえば、アーク５０９ａおよび５０９ｂは、イプシロンラベル（ε）を有するアークに対応する。３つ以上のラベルシーケンスの場合、最初の２つのシーケンスを整列してコンフュージョンネットワークを構築し、次に、コンフュージョンネットワークと別のラベルシーケンスとを整列して、３つのラベルシーケンスのための新しいコンフュージョンネットワークを構築することができる。上記の２つの例示的なシーケンスに加えて、第３のシーケンスＹＢＣＤＦがある場合、図５Ｃに示すように、コンフュージョンネットワーク５０９はコンフュージョンネットワーク５１１に修正される。

図５Ｃは、実施形態例に係る、３つのラベルシーケンス間の整列に基づいて生成されたコンフュージョンネットワーク５１１を示す図である。

さらに、ステップ５０５で、構築されたコンフュージョンネットワークを最適化し得る。そのために、イプシロン削除操作をコンフュージョンネットワークに適用して、εラベルを有するアーク（アーク５０９ａおよび５０９ｂなど）を削除することができ、εは、イプシロン（または無）ラベルを表す。εラベルによって、同じ列の他のすべてのラベルをスキップすることができるので、ＧＴＣ前向きおよび後ろ向きスコアの計算がより複雑になる。コンフュージョンネットワークからεラベルを削除することにより、ＧＴＣ損失計算がより効率的になる。イプシロン削除操作では、εラベル（５０９ａおよび５０９ｂ）を有するアークを、εラベルのみで到達可能なすべてのノードへの新しいアークに加えて１つの非εラベルで置換することにより削除する。次の非εラベルがない場合、宛先ノードは最終ノードに変更される。図５Ｄに示すように、イプシロン削除操作により、コンフュージョンネットワーク５１１を最適化することができる。

図５Ｄは、実施形態例に係る、イプシロン削除操作によって最適化されたコンフュージョンネットワーク５１３を示す図である。コンフュージョンネットワーク５１１をさらに縮小するために、冗長なノードおよびアークを重み付き決定化および最小化操作によって削除して、最適化されたコンフュージョンネットワーク５１３をもたらすことができる。閾値未満の低いスコアを有するアークの刈り込み（プルーニング）も、イプシロン削除、重み付き決定、および最小化操作の前および／または後で、コンフュージョンネットワークに適用可能である。

最後に、ステップ５０７で、最適化されたコンフュージョンネットワーク５１３から有向グラフを生成し得る。有向グラフを生成するための規則が、図５Ｅを参照して以下に説明され、対応する例が、図５Ｆを参照して説明される。さらに、図５Ｅおよび図５Ｆは、図５Ａおよび図５Ｄと関連して説明される。

図５Ｅは、実施形態例に係る、最適化されたコンフュージョンネットワーク５１３から有向グラフを生成するための方法５００ｅを示す図である。図５Ｆは、実施形態例に係る、図５Ｅに示された方法５００ｅのステップを使用して生成された有向グラフ５００ｆを示す図である。

最適化されたコンフュージョンネットワーク５１３は、以下の手順を用いて、ＧＴＣ訓練用の有向グラフ（またはラベルグラフ）に変換される。

ステップ５１７で、「＜ｓ＞」および「＜／ｓ＞」がそれぞれラベル付けされた開始ノードおよび終了ノードを作成する。たとえば、図５Ｆでは、開始ノード５２９ｓおよび終了ノード５２９ｅが作成される。

ステップ５１９で、最適化されたコンフュージョンネットワーク内のノードおよびアークについて、各ノードは空白ノードに置き換えられ、各アークはアークラベルが割り当てられた非空白ノードに置き換えられる。複数のアークが最適化されたコンフュージョンネットワーク５１３において同じラベルおよび同じ宛先ノードを有する場合、そのアークはグラフ内の１つのノードに変換される。たとえば、最適化されたコンフュージョンネットワーク５１３におけるアークラベルＡ，ＸおよびＹは、非空白ノードＡ，ＸおよびＹに変換される。

ステップ５２３で、空白ノードと非空白ノードとにそれぞれ対応する対にされたノードとアークとが、最適化されたコンフュージョンネットワーク５１３において接続されている場合、空白ノードと非空白ノードとの各ペアの間にエッジが作成される。たとえば、対応する最適化されたコンフュージョンネットワーク５１３において、空白ノード５１５ａとラベルＡを有するアークとが接続されているため、空白ノード５１５ａと非空白ノードＡとの間にエッジが作成されている。空白ノード５１５ａは、ラベルＡを有するアークのソースノードである。同様に、空白ノード５１５ａと非空白ノードＸおよび非空白ノードＹとの間のエッジも作成される。そのため、非空白ノードＡと空白ノード５１５ｂ、非空白ノードＸと空白ノード５１５ｂ、および非空白ノードＹと空白ノード５１５ｂとの間のエッジ等が生成される。

ステップ５２５で、最適化されたコンフュージョンネットワーク５１３において、空白ノードが元々初期ノードである場合、または非空白ノードが元々初期ノードからのアークである場合、開始ノードから空白ノードおよび非空白ノードにエッジがそれぞれ作成される。たとえば、空白ノード５１５ａは、最適化されたコンフュージョンネットワーク５１３において元々初期ノードであるため、開始ノード５２９ｓと空白ノード５１５ａとの間にエッジが作成される。同様に、対応する最適化されたコンフュージョンネットワーク５１３において、非空白ノードＡ，ＸおよびＹは、初期ノード５１５ａからの（ラベルＡ，ＸおよびＹを有する）アークに対応するので、開始ノード５２９ｓと、非空白ノードＡ，ＸおよびＹとの間にエッジが作成される。

ステップ５２７で、最適化されたコンフュージョンネットワーク５１３において、空白ノードが元々最終ノードである場合、または非空白ノードが元々最終ノードへのアークである場合、空白および非空白ノードから終了ノードにエッジが作成される。たとえば、対応する最適化されたコンフュージョンネットワーク５１３において空白ノード５１５ｆは最終ノードであるため、空白ノード５１５ｆから終了ノード５２９ｅへのエッジが作成される。同様に、対応する最適化されたコンフュージョンネットワーク５１３において、非空白ノードＤ，ＥおよびＦは最終ノード５１５ｆへのアークに対応するので、エッジが非空白ノードＤ，ＥおよびＦから作成される。

さらに、同じ順番のラベルが時間的に異なる態様で配置されたラベルシーケンス、または空白ラベルで異なるパディングを有するラベルシーケンスも、同じラベルシーケンスとみなされ、単一のラベルシーケンスとして扱われる。非単調な整列のＧＴＣ設定では、ラベルシーケンスを折り畳んだ後、折り畳みにより重複したラベルの繰返しが削除され、ラベルシーケンス内の空白ラベルにより、複数のラベルシーケンスが生成される。

この手順によれば、最適化されたコンフュージョンネットワークの上記の例は、図５Ｆに示す有向グラフ５００ｆに変換される。
模範的な実施形態

ＧＴＣ目的関数は、ＡＳＲ、音響イベント検出、およびトランスクリプション（またはテキスト）認識といった、さまざまな用途のニューラルネットワークの訓練に使用することができる。

たとえば、ＡＳＲシステムでは、ニューラルネットワークは、半教師付き訓練法を用いて学習される場合があり、通常、訓練データセットは、少量のラベル付けされた訓練データと多量のラベル付けされていない訓練データとを含む。

いくつかの実施形態では、Ｎ－ｂｅｓｔ仮説から有向グラフを生成するために、Ｎ－ｂｅｓｔ仮説は、ソーセージとしても知られているコンフュージョンネットワークに変換される。Ｎ－ｂｅｓｔ仮説は、最小ベイズリスク（minimum Bayes risk：ＭＢＲ）復号を使用して、ソーセージ形コンフュージョンネットワーク（ＣＮ）に変換される。ＭＢＲ復号は、所与の確率モデルの下で最小の期待損失を有する候補仮説（またはＮ－ｂｅｓｔ仮説）を見つけることを目的とする。

さらに、ＣＮに対してイプシロン削除、決定化、および最小化操作を施すことで、ＣＮを最適化された重み付き有限状態トランスデューサ（Weighted Finite State Transducers：ＷＦＳＴ）に変換する。ここで、確実にＷＦＳＴが確率的のままであるように、アークの重みは対数半環で操作される。

いくつかの実施形態では、ＷＦＳＴは、各状態を空白ノードで置き換え、各アークをアークラベルが割り当てられた非空白ノードで置き換えることによって（図５Ｅおよび図５Ｆを参照して先に説明したように）有向グラフに変換される。ここで、ノード間のエッジは、最適化ＷＦＳＴ構造と、隣接非空白ノードが異なるラベルを有する場合に各空白ノードをスキップできる規則とに基づいている。

いくつかの実施形態では、ＧＴＣは、ノードとラベルとの間の異なる遷移をモデル化するためのユーザ定義の遷移規則を有する。

いくつかの実施形態では、ＧＴＣ遷移規則により、充てん文字記号として使用されるユーザ定義の空白ラベルが使用できる。

さらに、ＧＴＣ目的関数を用いて、有向グラフから得られる監視情報に基づいて、ＡＳＲまたはコンピュータビジョンなどの異なる用途に対応するニューラルネットワークを訓練することもできる。以下に、これらの用途の一部のための有向グラフの生成と有向グラフに基づくニューラルネットワークの訓練とについて説明する。

図６は、実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数６１７を用いて自動音声認識（ＡＳＲ）のためのニューラルネットワーク６０１を訓練するワークフローを示す模式図である。ニューラルネットワーク６０１は、第１の訓練段階６０５と第２の訓練段階６１９との２つの訓練段階で訓練される。

第１の訓練段階６０５（事前訓練段階とも呼ばれる）において、ニューラルネットワーク６０１は事前に訓練される。そのために、ニューラルネットワーク６０１は、第１の訓練セット６０３を使用して訓練される。第１の訓練セット６０３は、ラベル付けされた音声発話を示すデータを含む。第２の訓練セット６０９のラベル付けされていないデータを復号して第２の訓練セット６０９のデータサンプルごとの仮説のＮ－ｂｅｓｔリスト６１１を得るために、事前訓練ニューラルネットワーク６０７が使用される。実施形態例において、第１の訓練セット６０３は、シードＡＳＲモデルを訓練するために使用されてもよい。第２の訓練セット６０９のラベル付けされていないデータを復号して第２の訓練セット６０９におけるデータサンプルごとの仮説のＮ－ｂｅｓｔリスト６１１を得るために、シードＡＳＲモデルが使用される。各データサンプルに対応する仮説のＮ－ｂｅｓｔリスト６１１は、（図５Ｅおよび図５Ｆを参照して）上述したように有向グラフ６１５に変換される。次に、有向グラフ６１５内のラベルの時間的整列およびラベル整列を学習して有向グラフ６１５内の異なるラベルシーケンスから最適な疑似ラベルシーケンスを得るために、有向グラフ６１５および第２の訓練セット６０９がＧＴＣ目的関数６１７によって使用される。さらに、第２の訓練段階６１９における訓練が、最適な疑似ラベルシーケンスに関する損失を低減させるようにニューラルネットワーク６０１を更新するために、第２の訓練段階６１９で、ＧＴＣ目的関数６１７が、事前訓練ニューラルネットワーク６０７を微調整するか、またはニューラルネットワーク６０１を新たに訓練するために使用される。半教師付き学習および自己訓練のための有向グラフ６１５の生成に関する詳細な説明が、図７に関して以下に説明される。

図７は、実施形態例に係る、ニューラルネットワーク６０１を訓練する際にＧＴＣ目的関数６１７によって使用される例示的な有向グラフ６１５を示す図である。図７は、図６と関連して説明される。

図７は、左側に有向グラフ６１５を含み、右側に文字ベースのラベル記号を用いた擬似ラベルのリスト（または仮説のリスト）から生成された展開グラフを有する。説明を簡単にするために、文字ベースのラベル記号を用いた擬似ラベルのＮ－ｂｅｓｔリストは、「ＨＥＬＯＷＯＲＬＤ」、「ＨＥＬＬＯＷＯＬＤ」、「ＨＥＬＯＷＯＬＤ」、「ＨＥＬＬＯＷＬＤ」を含む。図７における丸印は、内部に対応するラベル記号の観測値を有するノードを示し、「－」は空白記号である。さらに、図７における黒の矢印は正しいラベル経路の遷移に対応し、黒の点線矢印は代替ラベル経路の遷移に対応する。正しいトランスクリプションは所与の例示的なＮ－ｂｅｓｔリストに存在しないが、仮説のＮ－ｂｅｓｔリストの各仮説に対応するラベルの遷移に対する遷移重みを提供することによって、有向グラフ６１５から回復可能である。

さらに、有向グラフ６１５から正しいトランスクリプションを回復するために、仮説のＮ－ｂｅｓｔリストにおける各仮説は、スコアが提供され、最高スコアを有する仮説が最低ランクを有するように、スコアに従ってランク付けされてもよい。ランクおよびスコアに基づいて、有向グラフ６１５のエッジに遷移重みが割り当てられてもよい。たとえば、上位にランク付けされた仮説、すなわち、より可能性の高い仮説に対応するシーケンスの遷移には、後続のランク付けされた仮説と比較して、より高い遷移重みが割り当てられてもよい。遷移重みは、特定のノードシーケンスにおいて、あるノードから別のノードへの遷移の確率を増加または減少させてもよく、ノードシーケンスは、ラベルシーケンスに対応してもよい。たとえば、擬似ラベルシーケンス、たとえば「ＨＥＬＬＯＷＯＬＤ」と「ＨＥＬＬＯＷＬＤ」との間では、ラベル「Ｗ」に対応するノードからラベル「Ｏ」に対応するノードへの遷移に対する遷移重みは１．０でもよいのに対し、ラベル「Ｗ」に対応するノードからラベル「Ｌ」に対応するノードへの遷移に対する遷移重みは０．５に対応してもよい。「ＨＥＬＬＯＷＯＬＤ」が「ＨＥＬＬＯＷＬＤ」の前にランク付けされる可能性があるため、ラベル「Ｗ」に対応するノードからラベル「Ｏ」に対応するノードへの遷移に対する遷移重みがより高くなるように決定される。遷移重みは、ニューラルネットワーク６０１を訓練するための経路および関連するラベルシーケンスの確率を高めてもよい。遷移重みは、ニューラルネットワーク６０１の訓練中に、ＧＴＣ目的関数によって説明されてもよい。

このように、所与のデータサンプルのラベリング情報を符号化する有向グラフ６１５によって最も確率の高い予測ラベルシーケンスが生成可能になるように、ニューラルネットワーク６０１にラベル予測を最適化させることによって、ニューラルネットワーク６０１のＧＴＣベースの訓練でニューラルネットワーク６０１のパラメータを更新することが可能である。

図８Ａは、実施形態例に係る、ＧＴＣ目的関数６１７を使用して実装されたＡＳＲシステムのニューラルネットワークアーキテクチャ８００を示す図である。図８Ａは、図６と関連して説明される。

いくつかの実施形態において、ニューラルネットワークアーキテクチャ８００は、ニューラルネットワーク（たとえば、ニューラルネットワーク１０１およびニューラルネットワーク６０１など）を訓練するために、提案されたＧＴＣ損失関数８２３を採用するトランスフォーマーベースのニューラルネットワークアーキテクチャに相当し、ＧＴＣ損失関数８２３は、ＧＴＣ目的関数６１７に相当する。ニューラルネットワークアーキテクチャ８００では、８０次元ｌｏｇｍｅｌスペクトルエネルギーに加えて、音響特徴としてのピッチ情報について３つの追加特徴を入力として使用する。ここで、音響特徴は、特徴抽出モジュール８０３を用いて音声入力８０１から導出される。

いくつかの実施形態では、ニューラルネットワークアーキテクチャ８００は、２層畳み込みニューラルネットワーク（convolutional neural network：ＣＮＮ）モジュール８０５と、それに続くＥ＝１２トランスフォーマーベースエンコーダ層のスタックと、最後に投影層とソフトマックス関数８２１とを含み、ニューラルネットワーク出力を事後確率分布にマッピングする。いくつかの実施形態例では、２層ＣＮＮモジュール８０５の各層は、２のストライド、３×３のカーネルサイズ、３２０チャネル、および整流線形ユニット（rectified linear unit：ＲｅＬＵ）活性化関数を使用してもよい。さらに、線形ニューラルネットワーク層８１９は、最後のＣＮＮ層の出力に適用される。正弦波位置符号化８０７が、トランスフォーマーベースのエンコーダ８１７に供給する前に、２層ＣＮＮモジュール８０５の出力に加えられる。各トランスフォーマー層は、４つのアテンションヘッドを有する３２０次元マルチヘッドセルフアテンション層８０９、層正規化８１１および８１５、ならびに内部次元１５４０のフィードフォワードニューラルネットワークモジュール８１３を採用する。残差接続が、マルチヘッドセルフアテンション８０９とフィードフォワードモジュール８１３の出力とに適用される。マルチヘッドセルフアテンション８０９の後およびフィードフォワードモジュール８１３の後、ならびにフィードフォワードモジュール８１３の内次元について、０．１の確率を有するドロップアウトが使用される。

いくつかの実施形態では、言語モデル（language model：ＬＭ）が推論時に浅い融合を介して採用され、これは、確率的勾配降下を用いて各々訓練された１０２４個のユニットを有する２つの長短記憶（long short-term memory：ＬＳＴＭ）ニューラルネットワーク層と、８６０時間訓練データサブセットに現れる文が除外されたＬｉｂｒｉＳｐｅｅｃｈの公式ＬＭ訓練テキストデータとから構成される。ＡＳＲ復号化は時間同期型プリフィックスビーム探索アルゴリズムに基づいている。３０の復号ビームサイズ、１４．０のスコアベースのプルーニング閾値、０．８のＬＭ重み、および２．０の挿入ボーナス係数が使用される。

さらに、ＡＳＲシステムに関連する実施形態について、提案されたＧＴＣ目的関数を用いたニューラルネットワークの訓練に関する詳細について、以下で説明する。さらに、訓練されたＡＳＲシステムの結果は、図８Ｂおよび図８Ｃに関して後述する。しかしながら、以下で説明する原理は、他のタイプのシステムにも適応可能である。

ＡＳＲシステムを訓練するために、いくつかの実施形態では、ＡＳＲベンチマークである英語のオーディオブックのＬｉｂｒｉＳｐｅｅｃｈコーパスを使用してニューラルネットワークを訓練し、これは、約９６０時間の訓練データ、１０．７時間の開発データ、および１０．５時間のテストデータを提供する。開発用およびテスト用のデータセットは、いずれも「クリーン」および「その他」と名付けられた約２つの半分に分かれている。この分離は、ＡＳＲシステムを用いて評価された、録音された音声発話の品質に基づいている。訓練データも、「クリーン」な１００時間、「クリーン」な３６０時間、および「その他」５００時間の３つのサブセットに分割されている。「クリーン」な１００時間のサブセットは教師付き訓練に使用され、残りの８６０時間はラベル付けされていないデータとみなされる。

図８Ｂは、実施形態例に係る、異なるサイズＮのＮ－ｂｅｓｔリストについての、ならびに発話ごとの２０－ｂｅｓｔＡＳＲ仮説から生成されるグラフについての、オラクルラベル誤り率（ＬＥＲ）を示す表１である。

図８Ｂでは、異なる擬似ラベル表現を用いた８６０時間の「ラベル付けされていない」訓練データサブセット「クリーン」および「その他」に対するオラクルＬＥＲ［％］を示す。ＣＮ^２０は、発話ごとの２０－ｂｅｓｔＡＳＲ仮説から生成されたコンフュージョンネットワーク型のグラフを示し、_ｌｏｗおよび_ｈｉｇｈは、低プルーニング設定および高プルーニング設定を示す。

Ｎ－ｂｅｓｔリストのオラクルＬＥＲは、そのリストからベストの擬似ラベルシーケンス、すなわち、グラウンドトゥルーストランスクリプションと比較して編集距離が最小となるシーケンスを選択することにより得られる。グラフのオラクルＬＥＲは、有限状態トランスデューサ（finite-state transducer：ＦＳＴ）と、非周期的ＦＳＴと編集距離的ＦＳＴとの合成操作に続いて単一ソース最短経路アルゴリズムによって計算される参照シーケンス（グラウンドトゥルーストランスクリプション）との間の最小編集距離に相当する。図８Ｂに示すように、表１から、Ｎ－ｂｅｓｔリストは、１－ｂｅｓｔ仮説と比較してはるかに低いエラー率を有するＡＳＲ仮説を含むと観察される。

例として、２０－ｂｅｓｔリストからオラクル仮説を選択すると、平均ＬＥＲは絶対的な尺度で２．５％（クリーンな３６０時間）および３．０％（その他５００時間）だけ減少する。グラフ形式のＮ－ｂｅｓｔリストから計算されたオラクル擬似ラベルを使用すると、図７に示すように、Ｎ－ｂｅｓｔリストのグラフ表現によってより柔軟なラベルの組み合わせが可能になるため、ＬＥＲはさらに減少する。

図８Ｃは、実施形態例に係る、異なる擬似ラベル表現に対するＧＴＣベースのＡＳＲ結果を示す表２である。

表２は、異なる擬似ラベル表現で訓練したモデルの単語誤り率（word error rates：ＷＥＲｓ）［％］を示す。「Ｎ／Ａ」は、擬似ラベルの生成に用いるシードＡＳＲモデルを示す。さらに、「Ｎ／Ａ」は、１００時間のラベル付けされたクリーンなＬｉｂｒｉＳｐｅｅｃｈ訓練データのみを用いて訓練されるシードＡＳＲモデルの結果を示す。「１－ｂｅｓｔ」は、ベストのＡＳＲ仮説のみを用いた自己訓練結果を示す。Ｗ＝１．０は、グラフＣＮ^２０の遷移重みをすべて１に設定することを示し、Ｗ＝ｐは確率的な遷移重みを使用することを示す。ＣＮ^２０は、８６０時間のラベル付けされていない訓練データの発話ごとに、シードモデルから得られた２０－ｂｅｓｔＡＳＲ仮説から生成されるコンフュージョンネットワークを使用することを示す。

表２では、プルーニングを行わずすべての遷移重みを１．０に設定したＣＮ、確率的遷移重みを有する低プルーニング設定のＣＮ、および確率的遷移重みを有する高プルーニング設定のＣＮの３つの異なるＣＮ設定が比較されている。また、２０－ｂｅｓｔリストから手動で選択したベストの擬似ラベルシーケンスで訓練した場合のＡＳＲ結果を「オラクル２０－ｂｅｓｔ」として示し、グラウンドトゥルーストランスクリプションを用いた教師ありＡＳＲの結果を「グラウンドトゥルース」として示す。

表２より、１－ｂｅｓｔ疑似ラベリングは、ＬｉｂｒｉＳｐｅｅｃｈテストデータセットのＷＥＲを大きく、たとえば、テスト－その他では２１．２％から１５．８％に改善することが分かる。グラフ形式で符号化された複数の擬似ラベルシーケンスでの訓練により、ＷＥＲはさらに向上し、高いプルーニング設定で確率的遷移重みを有するＣＮを用いた場合にベストの結果が得られる。プルーニングされていないグラフは正しいトランスクリプションを含む可能性が高いが、そのようなグラフにおける大きな分散は、ラベルノイズが増えることによって、ベストなラベルシーケンスの学習を難しくすると考えられる。そこで、プルーニングと遷移重みの利用とにより、自己学習を誘導して、誤り率のより低い擬似ラベルシーケンスを見つけることができる。

ベストな設定では、提案されるＧＴＣベースの半教師付き学習手法は、ＬｉｂｒｉＳｐｅｅｃｈの「開発－その他」および「テスト－その他」のテストセットについて、ＷＥＲを１．０％および０．８％低下させたが、「オラクル２０－ｂｅｓｔ」ＡＳＲ結果に対して、わずか０．３％および０．５％だけ高く、これは、Ｎ－ｂｅｓｔリストから得られた複数の疑似ラベルで訓練した場合のＷＥＲの下限に相当する。

図９Ａは、実施形態例に係る、音響イベント検出（ＳＥＤ）システム９０３に入力される複数の音を生成する複数のエンティティを含む音響シーン９００を示す。音響シーン９００の複数の音は、サウンドレコーダ、たとえばマイクロフォン９０１によって記録されてもよい。音響シーンに関連する記録データは、ＳＥＤシステム９０３に提供される。実施形態例において、音響シーン９００を記録するためにビデオレコーダが使用されてもよく、ビデオデータがＳＥＤシステム９０３に入力されてもよい。

記録データは、猫の鳴き声９０５、犬の吠え声９０７、赤ちゃんの泣き声９０９、人間の音声信号９１１ａおよび９１１ｂ、ならびに窓からの交通音９１３などの複数の音を含む。関心のある音の強度は低く、音の持続時間は短くてもよい。このような低強度の音に対応するエンティティを検出することは、困難なタスクである。椅子および調理器具などを動かす際に発生する音など、他の家庭環境音もあり得る。音響シーン９００内の複数のエンティティに関連する異なる音響イベントを検出するために、ＳＥＤシステム９０３を、検出された音響イベントに対応する１つまたは複数のラベルを生成するように訓練する必要がある。

ＳＥＤシステム９０３は、検出された各音響イベントに対応するラベルを生成するように訓練されてもよく、ラベルは、検出された音響イベントに対応するエンティティの名前に対応する。たとえば、検出された猫の鳴き声の場合、ＳＥＤ９０３を、猫のラベルなどを生成するように訓練する必要がある。

音響イベント分類タスクでは、ラベリング処理のコストを削減するために、訓練データサンプルには弱くラベルが付けられることが多い。弱ラベルは、典型的には、訓練データサンプルにおけるラベルに関連するイベントの存在を示すだけであり、ラベル位置、ラベルの順序、およびラベル頻度、すなわち、イベントが訓練データサンプルにおいて何回発生したかはアノテーションが加えられない。たとえば、音響シーン９００において、弱ラベルは、猫の鳴き声および犬の吠え声などの音響イベントに対応し得る。他方で、強ラベルは、イベントのタイミング情報を提供する、すなわち、各イベントの開始位置および終了位置に、訓練データにおいてアノテーションが加えられる。これに対して、順次ラベリング情報は、訓練データサンプル中のラベルに関する正確なタイミング情報を含まないが、イベントの順序は提供されている。たとえば、音響シーン９００において、強ラベルは、赤ちゃんの泣き声、音声信号、交通音などの音響イベントに対応し得る。

さらに、音声記録における各音響イベントの開始位置および終了位置を検出しなければならないＳＥＤシステム９０３を訓練するために、典型的には、強いラベリング情報を有する訓練データが必要である。しかしながら、実際には、アノテーションコストが小さくなるため、大量の訓練データは弱くラベル付けされるだけである。

いくつかの実施形態では、ＳＥＤシステム９０３は、提案されたＧＴＣ目的関数を用いて弱くラベル付けされた訓練データで訓練される。ＳＥＤシステム９０３の訓練は、タイミング情報を含まない可能性のある順次ラベリング情報のセットを弱ラベルから生成し得るため、タイミング曖昧性の問題だけでなくラベリング曖昧性の問題にも悩まされる可能性がある。可能な順次情報のセットは、ラベルの異なる可能な組み合わせのセットを含んでもよく、ラベルの各組み合わせは、ラベルの順番を示すラベルシーケンスに対応する。ＳＥＤでは、各ラベルは音響イベント、または音響イベントを生成するエンティティに対応し、たとえば、音響サンプルの弱ラベル情報は、「音声」、「交通」、「犬」、「猫」でもよく、これはこれらの音響イベントの各々の存在を示すだけで、タイミング情報または順序付け情報を示さない。この例からすると、弱ラベル情報から生成される可能なラベルシーケンスの１つ（または連続ラベル）は、ラベルシーケンス「猫」、「猫」、「猫」、「犬」、「犬」、「赤ちゃん」、「音声」、「音声」、「交通」、「交通」に対応してもよい。

しかしながら、弱ラベル情報から生成される可能性のあるラベルシーケンスの数は、比較的大きくなることがある。そこで、ラベル付けされたイベントに関する事前情報を利用して、生成されるラベルシーケンスのセットのサイズを制限することができる。たとえば、典型的なイベントの頻度、イベントの持続時間、およびイベントの組み合わせなどのラベル付けされたイベントに関する統計が、弱ラベル情報から生成される可能性の低いラベルシーケンスを除外するために利用され得る。このように、可能な順次ラベルの数を制限するために、文脈データを含む弱ラベル情報から順次ラベル情報のセットが生成される。すべての可能かつ有効なラベルシーケンスを含む、生成された順次ラベル情報のセットは、有向グラフを生成するために用いられ、有向グラフは、音響シーン９００における異なる音響生成エンティティに対応するラベルを表す複数のノードとエッジとを含む。

さらにまたは代替的に、事前訓練されたＳＥＤモデルによる復号ステップを弱ラベル情報と共に使用して、可能なラベルシーケンスの縮小セットを見つけることができる。可能なラベルシーケンスのセットが決定されると、それを使用して、ＧＴＣ目的関数１０５を用いてＳＥＤシステム９０３の訓練用の有向グラフを生成することができる。有向グラフは、図５Ａ～図５Ｄに関して説明したプロセスに従って生成されてもよい。

図９Ｂは、実施形態例に係る、グラフベースの時間的分類（ＧＴＣ）目的関数９２９で、音響イベント検出（ＳＥＤ）システム用のニューラルネットワーク９１５を訓練するワークフローを示す模式図である。ニューラルネットワーク９１５は、第１の訓練段階９１９と第２の訓練段階９３１との２つの訓練段階で訓練される。第１の訓練段階９１９（事前訓練段階とも呼ばれる）で、ニューラルネットワーク９１５は事前訓練される。そのために、ニューラルネットワーク９１５は、第１の訓練セット９１７を使用して訓練される。第１の訓練セット９１７は、音響イベントのタイミング情報を提供する強ラベルを示すデータを含み、すなわち、第１の訓練セット９１７で構成される訓練データにおいて、各音響イベントの開始位置および終了位置にアノテーションが加えられている。

さらに、事前訓練ニューラルネットワーク９２１は、第２の訓練セット９２３内の弱くラベル付けされたデータ（弱ラベルデータ）を復号するために用いられて、第２の訓練セット９２３内の弱くラベル付けされたデータサンプルごとに複数の可能なラベルシーケンス９２５を取得する。複数の可能なラベルシーケンス９２５は、（図５Ｅおよび図５Ｆを参照して）上述したように有向グラフ９２７に変換される。有向グラフ９２７および第２の訓練セット９２３は、次に、有向グラフ９２７におけるラベル情報の時間的整列およびラベル整列を学習するために、ＧＴＣ目的関数９２９によって使用される。さらに、ＧＴＣ目的関数９２９は、第２の訓練段階９３１で、事前訓練ニューラルネットワーク９２１を微調整するか、または新たにニューラルネットワーク９１５を訓練するために使用される。第２の訓練段階９３１における訓練は、ニューラルネットワーク９１５を更新してＧＴＣ目的および有向グラフ９２７に符号化されたラベル情報に関する損失を低減させる。

エンドツーエンドＡＳＲでは、ニューラルネットワークの出力ラベルが単語片である可能性があり、単語片のセットと単語分解とは、ＡＳＲタスクとは独立して、たとえば、バイトペア符号化を用いて最も一般的な書記素列を見つけることによって、学習される。しかしながら、学習された単語分解は、下流のＡＳＲタスクに対して最適でない場合がある。いくつかの実施形態では、有向グラフ１０７は、代替単語分解または代替文分解のうちの少なくとも１つによって形成され、代替単語分解および代替文分解は、バイトペア符号化に基づいてあらかじめ決定される。

代替文分解では、所与の文について、その文のある部分が特定される。文の各部分は、文の各部分が副文のセットに対応するように、同じ事実上の文脈に由来する単語のセットを含む。したがって、いくつかの実施形態では、有向グラフ１０７は、各ノードが文の各部分に対応するノードシーケンスを含んでもよい。さらに、ＧＴＣ目的関数１０５を用いて訓練されたニューラルネットワーク１０１は、有向グラフ１０７に存在する、特定された部分に対応するノードシーケンスの確率を最大化してもよい。次に、最大確率を有する識別された部分に対応するノードシーケンスは、完全な意味文を得るために再結合されてもよい。
模範的な実現例

図１０は、実施形態例に係る、ＧＴＣ目的関数１０５を用いて訓練されたコンピュータベースのシステム１０００を示すブロック図である。コンピュータベースのシステム１０００は、ＡＳＲシステム、または音響イベント検出システムなどに相当し得る。

コンピュータベースのシステム１０００は、システム１０００を他のシステムおよびデバイスと接続する多数のインターフェースを備える。システム１０００は、音声発話の特徴を表す音響フレームのストリームといった、複数の観測値シーケンス１００９を受け付けるように構成された入力インターフェース１００１を備える。さらにまたは代替的に、コンピュータベースのシステム１０００は、さまざまな他のタイプの入力インターフェースから複数の観測値シーケンスを受信することができる。いくつかの実施形態では、システム１０００は、音響入力デバイス１００３から複数の観測値シーケンス１００９（すなわち、音響フレームのストリーム）を取得するように構成された音声インターフェースを備える。たとえば、システム１０００は、ＡＳＲアプリケーションまたは音響イベント検出アプリケーションにおいて、音響フレームを含む複数の観測値シーケンス１００９を使用してもよい。

入力インターフェース１００１はさらに、複数の観測値シーケンス１００９の観測値シーケンスごとに複数の訓練ラベルシーケンス１０２５を取得するように構成される。ここで、複数の訓練ラベルシーケンス１０２５と、ニューラルネットワークに入力された観測値シーケンスに対応するニューラルネットワークによって出力される確率分布シーケンスとの間に、時間的整列は存在しない。

いくつかの実施形態では、入力インターフェース１００１は、有線ネットワークと無線ネットワークとのうちの１つまたは組み合わせであり得るネットワーク１００７を介して、複数の観測値シーケンス１００９および複数の訓練ラベルシーケンス１０２５を取得するように構成されたネットワークインターフェースコントローラ（ＮＩＣ）１００５を備える。

ネットワークインターフェースコントローラ（ＮＩＣ）１００５は、バス１０２３を介して、システム１０００を感知装置、たとえば、入力装置１００３と接続するネットワーク１００７に接続するように適合される。さらにまたは代替的に、システム１０００は、ヒューマン・マシン・インターフェース（ＨＭＩ）１０１１を備え得る。システム１０００内のヒューマン・マシン・インターフェース１０１１は、システム１０００をキーボード１０１３およびポインティングデバイス１０１５に接続する。ポインティングデバイス１０１５は、特にマウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。

システム１０００は、格納された命令１０１７を実行するように構成されたプロセッサ１０２１、およびプロセッサ１０２１によって実行可能な命令を格納するメモリ１０１９を備える。プロセッサ１０２１は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ１０１９は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、または任意の他の適切なメモリシステムを含み得る。プロセッサ１０２１は、バス１０２３を介して１つ以上の入力および出力デバイスに接続可能である。

命令１０１７は、ＧＴＣ目的関数１０５を使用してシステム１０００に関連するニューラルネットワークを訓練するための方法を実現することができる。システム１０００は、いくつかの実施形態に係る、エンドツーエンド音声認識、音響イベント検出および画像認識といった、ニューラルネットワークのさまざまなアプリケーションを実装するために使用され得る。そのために、コンピュータメモリ１０１９は、有向グラフ１０７、言語モデル１０２７、およびＧＴＣ目的関数１０５を格納する。ＧＴＣ目的関数１０５を用いてシステム１０００を訓練するために、最初に、得られた複数の訓練ラベルシーケンス１０２５に基づいて、有向グラフ１０７が生成される。有向グラフ１０７は、エッジで接続された複数のノードを含み、各ノードまたはエッジはラベルを表し、各ノードは有向グラフ１０７内の１つ以上のノードに向けられる。

さらに、訓練ラベルシーケンスを表す有向グラフ１０７のノードとエッジとのシーケンスを通る経路が生成され、ラベルの複数の訓練シーケンス１０２５に対応する複数の経路が、有向グラフ１０７を通るようになる。

いくつかの実施形態では、有向グラフ１０７は、ノードのトランスクリプション出力がある時間インスタンスにおける真のトランスクリプション出力である確率に対応する関連スコアで重み付けされたノードの重み付けグラフである。いくつかの実施形態では、あるノードから別のノードへの遷移が重み付けされ、重みは、強力言語モデル（ＬＭ）１０２７のスコアから推定され得る。有向グラフ１０７は、ＧＴＣ目的関数１０５によって使用される。ＧＴＣ目的関数１０５は、システム１０００を訓練するために用いられる。システム１０００の出力において、有向グラフ１０７によって構成されるノードとエッジとのシーケンスに対応するラベルシーケンスの確率を最大化することによって、複数の観測値シーケンス１００９の各観測値シーケンスを各時間インスタンスにおけるすべての可能なラベルにわたる確率分布シーケンスに変換する。システム１０００は、確率分布シーケンスを出力するように構成された出力インターフェース１０３５を備える。

いくつかの実施形態では、出力インターフェース１０３５は、表示デバイス１０３３上の各タイムスタンプで各ラベルに対応する確率分布シーケンスの各確率を出力してもよい。確率分布シーケンスは、図１Ｂに示すマトリックスとして表示されてもよい。表示デバイス１０３３の例としては、コンピュータモニタ、テレビ、プロジェクタ、またはモバイルデバイス等が挙げられる。また、システム１０００は、音響イベント検出などのさまざまなタスクを実行するために、システム１０００を外部デバイス１０３１に接続するように適合されたアプリケーションインターフェース１０２９に接続することもできる。
実施形態

本説明は、例示的な実施形態を提供するに過ぎず、本開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、例示的な実施形態例の以下の説明は、１つ以上の例示的な実施形態を実施するための可能な説明を当業者に提供するものである。添付の特許請求の範囲に説明されているように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行われ得るさまざまな変更が考えられる。具体的な詳細が、実施形態の完全な理解を提供するために、以下の説明で与えられる。しかしながら、当業者によって理解されるのは、実施形態がこれらの具体的な詳細なしに実施され得るということである。たとえば、開示された主題におけるシステム、プロセス、および他の要素は、不必要に詳細に実施形態を不明瞭にしないために、ブロック図の形態で構成要素として示されることがある。他の例では、周知のプロセス、構造および技術が、実施形態を不明瞭にしないために、不必要な詳細なしに示されることがある。さらに、さまざまな図面における同様の参照番号および呼称は、同様の要素を示した。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として描かれるプロセスとして記述されてもよい。フローチャートでは、動作を逐次処理として記述することができるが、動作の多くは、並列または同時進行で実行することができる。また、動作の順番を入れ替えてもよい。プロセスは、その動作が完了した時点で終了するが、議論されていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明されたプロセスにおけるすべての操作が、すべての実施形態で発生するわけではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数への関数の戻りに対応し得る。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実施されてもよい。手動または自動の実現例は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用によって実行されてもよい、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。

さらに、本開示の実施形態および本明細書に記載された機能的動作は、デジタル電子回路において、有形に具現化されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書に開示された構造およびそれらの構造的等価物を含むコンピュータハードウェアにおいて、またはそれらの１つ以上の組み合わせにおいて、実現が可能である。さらに、本開示のいくつかの実施形態は、１つまたは複数のコンピュータプログラム、すなわち、データ処理装置による実行、またはデータ処理装置の動作を制御するために有形の非一時的なプログラム担体に符号化されたコンピュータプログラム命令の１つまたは複数のモジュールとして実現可能である。さらに、プログラム命令は、データ処理装置による実行のために適切な受信装置に送信するための情報を符号化するために生成される人工的に生成された伝搬信号、たとえば機械的に生成された電気信号、光信号、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、機械読取可能ストレージデバイス、機械読取可能ストレージ基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの１つ以上の組合せとすることができる。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードとも呼ばれる、またはそのように説明される場合がある）は、コンパイル言語もしくは解釈言語、または宣言型言語もしくは手続き型言語を含む任意の形式のプログラミング言語で書くことができ、スタンドアロン・プログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピュータ環境での使用に適した他のユニットとしてなど、任意の形式で配備することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得るが、そうである必要はない。プログラムは、他のプログラムまたはデータ、たとえばマークアップ言語文書に格納された１つもしくは複数のスクリプトを保持するファイルの一部、当該プログラム専用の単一のファイル、または複数の調整ファイル、たとえば１つもしくは複数のモジュール、サブプログラム、またはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、１台のコンピュータで実行されるように配置することも、１つのサイトにある複数のコンピュータで実行されるように配置することも、複数のサイトに分散し通信ネットワークで相互接続されている複数のコンピュータで実行されるように配置することも可能である。

コンピュータプログラムの実行に適したコンピュータは、一例として、汎用もしくは特殊用途のマイクロプロセッサまたはその両方、または他の任意の種類の中央処理装置に基づいてもよい。一般に、中央処理装置は、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から命令およびデータを受け取る。コンピュータの本質的な要素は、命令を実行するための中央処理装置と、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つ以上の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクからデータを受信するか、またはその両方にデータを転送するように動作可能に結合されるか、またはその両方を含むことになる。しかしながら、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータは、他のデバイス、たとえば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、携帯オーディオまたはビデオプレーヤー、ゲーム機、全地球測位システム（ＧＰＳ）受信機、または携帯ストレージ装置、たとえば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに組み込むことができるが、これらはほんの数例である。

ユーザとの相互作用を提供するために、本明細書に記載の主題の実施形態は、ユーザに情報を表示するための表示デバイス、たとえばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ、ならびにユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータで実施することができる。他の種類のデバイスも、ユーザとの対話を提供するために使用することができる。たとえば、ユーザに提供されるフィードバックは、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの任意の形式の感覚フィードバックとすることができ、ユーザからの入力は、音響、音声、または触覚入力などの任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスに文書を送信し、デバイスから文書を受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

本明細書に記載される主題の実施形態は、バックエンド構成要素、たとえば、データサーバとして、またはミドルウェア構成要素、たとえば、アプリケーションサーバを含む、またはフロントエンド構成要素、たとえば、ユーザが本明細書に記載の主題の実現例と対話できるグラフィカルユーザインターフェースまたはＷｅｂブラウザを有するクライアントコンピュータ、または１つもしくは複数のそのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実施することが可能である。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば、通信ネットワークによって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、たとえば、インターネットが挙げられる。

コンピューティングシステムは、クライアントとサーバとを含み得る。クライアントとサーバとは、一般に、互いに遠隔地にあり、通常、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント・サーバ関係を有するコンピュータプログラムによって生じる。

本開示は、特定の好ましい実施形態を参照して説明されてきたが、本開示の精神および範囲内でさまざまな他の適応および修正を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るようなすべてのそのような変形および修正をカバーすることが、添付の特許請求の範囲の態様である。

Claims

ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類（ＧＴＣ）目的関数でニューラルネットワークを訓練するためのコンピュータによって実現される方法であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの１つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記ＧＴＣ目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
前記ＧＴＣ目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
前記すべての前記ラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、方法。
前記有向グラフの構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項１に記載の方法。
１つのラベルから複数の他の非空白ラベルへの遷移を可能にすることによって、１つのラベルから複数の他の空白ラベルへの遷移を可能にすることによって、またはその両方によって、前記非単調な整列は、前記有向グラフの構造において符号化される、請求項２に記載の方法。
前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項１に記載の方法。
前記有向グラフを展開することは、生成された前記ラベルシーケンスの各々の長さが前記確率分布シーケンスの長さと一致するように、前記有向グラフの前記構造に従って、異なるラベルシーケンスおよび異なる整列経路の異なるシーケンスを生成することを含む、請求項１に記載の方法。
前記ＧＴＣ目的関数を用いた訓練は、前記条件付き確率に基づいて損失関数を定義し、
前記ＧＴＣ目的関数を用いた訓練は、勾配降下訓練を使用して前記ニューラルネットワークの前記パラメータを更新して、ＧＴＣ損失を低減させる、請求項１に記載の方法。
前記ＧＴＣ目的関数は、展開された前記有向グラフを通る前記ノードおよびエッジのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化し、
展開された前記有向グラフは、前記有向グラフ内のすべての有効なラベル整列経路とすべての有効な時間的整列経路とを定義する、展開された前記有向グラフを通る前記ノードとエッジとのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化する、請求項６に記載の方法。
前記有向グラフは、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフであり、
前記訓練は、前記有向グラフにおける対応する前記エッジの前記重みと、前記ニューラルネットワークによって推定された前記確率分布とを用いて、前記ノードシーケンスの前記条件付き確率を計算する、請求項１に記載の方法。
前記有向グラフは、あるノードのトランスクリプション出力がある時間インスタンスにおける真のトランスクリプション出力である確率に対応する数値が関連付けられた、前記ノード間を接続するエッジを有する重み付き有向グラフであり、
前記ＧＴＣ目的関数は、時間的整列およびラベル整列を学習して、前記重み付き有向グラフによって可能になる最適なラベルシーケンスを得るように構成され、
前記ＧＴＣ目的関数を用いた前記ニューラルネットワークの訓練は、前記ニューラルネットワークを更新して、グラフ形式の前記監視情報および関連する訓練サンプルに関する損失を低減させる、請求項８に記載の方法。
前記ＧＴＣ目的関数は、勾配降下訓練のための前記ニューラルネットワークの出力に関して微分される、請求項９に記載の方法。
複数のラベルシーケンスを受信することと、
前記複数のラベルシーケンスに基づいて、コンフュージョンネットワークを構築することとをさらに備え、前記コンフュージョンネットワークは、複数のアークを介して互いに接続された複数のノードを含み、前記複数のアークの各アークは、ラベルを有するアークまたはラベルを有さないアークのいずれかに対応し、前記方法はさらに、
前記構築されたコンフュージョンネットワークを最適化して、最適化されたコンフュージョンネットワークを生成することと、
最適化された前記コンフュージョンネットワークから前記有向グラフを生成することとをさらに備える、請求項１に記載の方法。
前記方法は、前記コンフュージョンネットワークを構築するために、動的計画法を用いて前記複数のラベルシーケンスを互いに整列させることをさらに備え、前記動的計画法は、前記複数のラベルシーケンス間の編集距離を最小化する、請求項１１に記載の方法。
前記最適化されたコンフュージョンネットワークから前記有向グラフを生成するために、前記方法は、さらに、
開始ノードと終了ノードとを作成することと、
前記コンフュージョンネットワークの各ノードを空白ノードに、前記複数のノードの各アークを非空白ノードに置き換えることと、
非空白ノードの各ペアの間にエッジを作成することと、
前記空白ノードと前記非空白ノードとの各ペアの間にエッジを作成することと、
前記開始ノードから、第１の空白ノードおよび第１の非空白ノードへのエッジを作成することと、
最後の空白ノードと最後の非空白ノードとから、前記終了ノードへのエッジを作成することとを備える、請求項１１に記載の方法。
ラベル無し音声発話を示すデータを含む、ラベル無し訓練セットを受け付けることと、
ラベル付音声発話で事前訓練された前記ニューラルネットワークまたはシードニューラルネットワークを使用して、前記ラベル付けされていない訓練セットを復号して、前記ラベル無し音声発話の各々をラベル付けするための仮説のリストを生成することと、
各音声発話の前記仮説のリストから前記有向グラフを生成することと、
前記ラベル無し音声発話と前記有向グラフとの対応するペアを用いて、前記ニューラルネットワークを訓練することとをさらに備える、請求項１に記載の方法。
弱ラベルを示すデータを含む訓練セットを受け付けることと、
強ラベルで事前訓練されたニューラルネットワークを使用して前記訓練セットを復号して、前記複数の可能な弱ラベルシーケンスを生成することと、
前記複数の可能な弱ラベルシーケンスの前記有向グラフを生成することと、
前記有向グラフを用いて前記ニューラルネットワークを訓練することとをさらに備える、請求項１に記載の方法。
ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類（ＧＴＣ）目的関数でニューラルネットワークを訓練するためのシステムであって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの１つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記システムは、少なくとも１つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記システムに、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記ＧＴＣ目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを行わせ、
前記ＧＴＣ目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、システム。
前記有向グラフの前記構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項１６に記載のシステム。
前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項１６に記載のシステム。
ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類（ＧＴＣ）目的関数でニューラルネットワークを訓練するための方法を実行するためにプロセッサによって実行可能なプログラムが埋め込まれた非一時的コンピュータ読取可能記憶媒体であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの１つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記ＧＴＣ目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
前記ＧＴＣ目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成されており、
前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、非一時的コンピュータ読取可能記憶媒体。