JP2023541651A

JP2023541651A - 完全なトランスクリプトなしのエンドツーエンドの音声言語理解

Info

Publication number: JP2023541651A
Application number: JP2023516841A
Authority: JP
Inventors: クオ、ホン、グァン、ジェフ; トゥスケ、ゾルタン; トマス、サムエル; ファン、インフイ; キングスベリー、ブライアン、イー、ディー; アウドカシ、カールティク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-15
Filing date: 2021-07-28
Publication date: 2023-10-03
Also published as: GB202305141D0; WO2022057452A1; GB2614208A; US11929062B2; US20220084508A1; DE112021004829T5; CN116686045A

Abstract

音声言語理解（ＳＬＵ）モデルを訓練する方法およびシステムは、（ｉ）１つまたは複数の音声録音と、（ｉｉ）各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することを含む。各音声録音について、対応する意味的エンティティもしくは全体のインテントまたはその両方から１つまたは複数のエンティティラベルと、対応する値、および１つまたは複数のインテントラベルを抽出する。音声言語理解（ＳＬＵ）モデルは、対応する音声録音のトランスクリプトを必要とせずに、対応する音声録音の１つまたは複数のエンティティラベルと、対応する値、および１つまたは複数のインテントラベルに基づいて訓練される。

Description

本開示は、一般に、コンピュータシステムに関し、より詳細には、話された音声データから意味を抽出するように構成されたコンピュータシステムに関するものである。

近年、音声言語理解（ＳＬＵ）と自動音声認識（ＡＳＲ）は、エージェントと顧客の対話を理解する、対話型音声会話システムやコールセンター分析などを含む、様々なアプリケーションでますます重要視されるようになってきている。ＡＳＲはコンピュータサイエンスと計算言語学の学際的なサブフィールドで、コンピュータによる音声言語の認識を可能にする技術と方法を提供する。コンピュータサイエンス、言語学、コンピュータエンジニアリングの各分野の知識と研究を取り入れている。ＡＳＲは音声をテキスト（単語など）に変換する。これに対し、ＳＬＵは、音声を意味（例えば、意味的に注釈されたテキスト）に変換する。音声認識の訓練モデルには、一般的に、トランスクリプトを含む音声データのコーパスが必要である。

様々な実施形態によれば、音声言語理解（ＳＬＵ）モデルを訓練するためのコンピューティングデバイス、非一時的なコンピュータ可読記憶媒体、及び方法が提供される。訓練段階において、（ｉ）１つまたは複数の音声録音と、（ｉｉ）意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データが対応する各音声記録について受信される。各音声録音について、１つまたは複数のエンティティラベルおよび対応する値、および１つまたは複数のインテントラベルが、対応する意味的なエンティティもしくは全体のインテントまたはその両方から抽出される。意味的エンティティが対応する音声録音のトランスクリプトを必要とせずに、音声言語理解（ＳＬＵ）モデルは、対応する音声発話録音の１つまたは複数のエンティティラベルと、対応する値、および１つまたは複数のインテントラベルに基づいて訓練される。

一実施形態では、意味的エンティティは、話された順序ではない。意味的エンティティは、アルファベット順であることができる。

一実施形態では、抽出と訓練は、アテンションに基づくエンコーダ－デコーダのニューラルネットワークモデルに基づいて行われる。

一実施形態では、自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づく。

一実施形態では、意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することを含む動作を実行する。

一実施形態では、訓練データは、ユーザと、ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている。

一実施形態では、訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む。

一実施形態では、１つまたは複数のエンティティラベルと、対応する値、および１つまたは複数のインテントラベルの抽出は、ニューラルネットワーク処理によるものである。様々な実施形態において、コネクショニスト時間分類（ＣＴＣ）、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）、及びアテンションに基づくエンコーダ－デコーダニューラルネットワークモデルが使用されることができる。

一実施形態では、訓練は、音声言語（ＳＬＵ）モデルをＡＳＲモデルで初期化することを含む転移学習を含む。

一実施形態では、動作段階中に、音声発話録音のトランスクリプトなしで音声発話録音を含む生の音声言語データが受信される。訓練されたＳＬＵモデルは、生の音声言語データの意味を認識するために適用され、意味は、生の音声言語のインテントおよび意味的エンティティを含む。ＳＬＵモデルは、音声言語の全体的なインテントと意味的エンティティを認識するために適用される。

関連するデータのプールを減らして計算を制限することで、動作を実行するコンピューティング装置の計算負荷と、リポジトリ内の訓練データの量を節約し、より効率的な計算プラットフォームを提供する。

これらおよび他の特徴は、添付の図面と関連して読まれ、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

図面は、例示的な実施形態のものである。それらは、すべての実施形態を例示するものではない。他の実施形態が追加的にまたは代わりに使用されてもよい。スペースを節約するため、又はより効果的な説明のために、明白であるか又は不必要である可能性のある詳細が省略される場合がある。いくつかの実施形態は、追加の構成要素またはステップを使用して、もしくは図示されているすべての構成要素またはステップを使用せずにまたはこれらの組み合わせで実施され得る。同じ数字が異なる図面に現れるとき、それは同じまたは同様の構成要素またはステップを指す。

例示的な実施形態と一致する、完全なトランスクリプトなしでエンドツーエンドの音声言語理解のためのシステムの例示的なアーキテクチャを示す図である。発話の意味を判断するための訓練データの例を示す図である。図３Ａは、コネクショニスト時間的分類とアテンションに基づくモデルを使用した音声入力のためのエンティティのバッグのスロットフィリングＦ１スコアの評価の概要表を提供する。付加的な街路ノイズを伴う音声入力に対するエンティティのバッグのスロットフィリングＦ１スコアの概要表を提供する。ＳＬＵ訓練の初期化のためのＡＳＲモデルを訓練するために用いるデータ量が、最終的なＦ１スコアにどのように影響するかを示す表である。ＡＳＲモデルを使用して、発話のアテンションプロットを示す図である。ＳＬＵを使用して、発話に対するアテンションプロットを話された順序で示した図である。ＳＬＵを使用して、発話のアテンションプロットをアルファベット順に示した図である。例示的な実施形態と一致する、訓練段階およびアクティブ段階におけるエンドツーエンドの音声言語理解システムの例示的なプロセスを示している。例示的な実施形態と一致する、訓練段階およびアクティブ段階におけるエンドツーエンドの音声言語理解システムの例示的なプロセスを示している。意味的エンティティのアノテーションエンジンをホストすることができる特に構成されたコンピューティング装置を実装するために使用することができるコンピュータハードウェアプラットフォームの機能ブロック図を提供する。例示的な実施形態と一致する、クラウドコンピューティング環境を示す図である。例示的な実施形態と一致する、抽象化モデルレイヤを示す図である。

＜概要＞
以下の詳細な説明では、関連する教示の徹底的な理解を提供するために、多数の特定の詳細が例によって示されている。しかしながら、本教示は、そのような詳細なしに実施され得ることが明らかであるべきである。他の実施例では、周知の方法、手順、構成要素、もしくは回路またはこれらの組み合わせは、本教示の側面を不必要に不明瞭にしないように、詳細なしに、比較的高いレベルで説明されている。

本開示は、一般に、計算効率の良い方法で音声言語を理解するためのモデルを自動的に訓練するシステムおよびコンピュータ化された方法に関するものである。音声言語理解（ＳＬＵ）の顕著な態様は、意味的エンティティラベルを使用して音声発話の意味が表されるスロットフィリングの概念を含む。本明細書の教示は、音声入力を意味的エンティティに直接変換するエンドツーエンド（Ｅ２Ｅ）音声言語理解システムを提供する。一態様では、従来のアプローチとは対照的に、本明細書で論じるＥ２ＥＳＬＵモデルは、一語一句のトランスクリプトなしで、意味的エンティティのアノテーションで訓練することができる。このようなモデルを訓練することは、データ収集の計算複雑性を実質的に低減することができるため、非常に有用である。様々な実施形態において、音声認識のために元々訓練されたモデルを適応させることによって、２種類のそのような音声－エンティティモデル、すなわち、コネクショニスト時間分類（ＣＴＣ）モデルおよびアテンションに基づくエンコーダ－デコーダモデルが提供される。本明細書で論じた実験が音声入力を含むことを考慮すると、これらのシステムは、意味的エンティティラベルと意味的エンティティ値を表す単語の両方を正しく認識する。出願人は、完全なトランスクリプトに対してエンティティのみで訓練した場合、無視できるほどの劣化があることを判断した。一実施形態では、エンティティは並べ替えられ、それによって、スピーチトゥーエンティティのバッグＦ１スコアの約２％の劣化しか達成されない。

本明細書の教示は、エンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）フレームワークにおける音声入力を提供し、音声を入力として取り、エンティティラベル（本明細書では意味的エンティティのアノテーションと呼ぶことがある）および値を返す。一態様では、本システムの訓練されたＳＬＵモデルは、話されたことの意味を理解するために作動する。単語単位での正確さが求められる自動音声認識（ＡＳＲ）とは対照的に、本ＳＬＵは、発話の意味が保持される限り、すべての単語、さらには発話の仕方（例えば、エンティティの順序、単語の選択など）にはあまり敏感ではない。その結果、本ＳＬＵシステムは、新しいドメイン用に取得し処理するのに時間と計算コストがかかる単語単位のトランスクリプトの形の訓練データを必要としない場合がある。

従来、ＳＬＵシステムは、音声をテキストに変換する自動音声認識（ＡＳＲ）システムと、テキストの意味を解釈する自然言語理解（ＮＬＵ）システムのカスケードで構成されていた。対照的に、一実施形態では、Ｅ２ＥＳＬＵシステムは、中間テキストスクリプトを経由することなく、音声入力を直接意味にして処理する。一実施形態では、本明細書の教示は、発話の話された順序と一致しないエンティティのセット（またはバッグ）を使用して、Ｅ２ＥＳＬＵシステムを訓練することができる。エンティティの特定の順序からのそのような自由は、システムが、例えば、トランザクションデータとペアになった管理者との顧客の通話からの音声データで訓練することを可能にし得る。様々な実施形態において、トランザクションデータは、コンピューティング装置によって自動的に提供されてもよいし、人間のエージェントによって生成されてもよい。例えば、チャットボットまたは人間のエージェントが、フライト予約などのタスクでクライアントを支援し、エンティティのセットを含むトランザクション記録をもたらすことを考える。この記録は、発話の意味を理解するために動作するモデルを訓練するための軽い監督として機能することができる。人間が音声データを正確に逐語的に書き写す場合、エンティティのラベル付けに追加コストがかかるのはもちろん、一般に５～１０回の実時間作業が必要である。これに対し、エンティティのバッグを含むトランザクション記録は、人間またはチャットボットであっても、顧客を支援する過程で得られるものであり、追加コストは発生しない。トランスクリプトを必要とせずに訓練において音声録音及びエンティティのバッグを使用することによって、データ収集の計算複雑さ及びコストが大幅に低減される一方で、訓練データの量が向上し、それによって、音声言語の分析を行うコンピューティング装置の正確さが向上するという技術的改善がある。本明細書に記載される技術は、多くの方法で実装され得る。例示的な実装は、以下の図を参照して以下に提供される。

＜アーキテクチャ例＞
図１は、例示的な実施形態と一致する、完全なトランスクリプトなしでエンドツーエンドの音声言語理解のためのシステムの例示的なアーキテクチャ１００を示す。アーキテクチャ１００は、ネットワーク１０６を介して電子データパッケージ１０５（１）～１０５（Ｎ）を送受信する方法によって互いの会話に参加することができる１つまたは複数の会話エンティティ１０１（１）～１０１（Ｎ）を含んでもよい。会話エンティティは、典型的には個人（例えば、人間のユーザ）であるが、人間のユーザと通信するように構成されたチャットボットを含んでもよい。電子データパッケージ１０５（１）～１０５（Ｎ）は、本明細書において、音声言語データ又は単に音声入力と称されることがある。音声言語データは、生の音声データ（例えば、音声録音）を含む。いくつかの実施形態では、音声言語データはまた、後でより詳細に議論されるエンティティのセットを含む。

アーキテクチャ１００は、音声認識モデルを訓練するために使用され得る訓練データ１１３を提供するように動作する履歴データリポジトリ１１２をさらに含んでもよい。アーキテクチャ１００は、ＳＬＵ１０３をホストする音声言語理解（ＳＬＵ）サーバ１１６を含む。様々なユーザ装置１０２（１）～１０１（Ｎ）が互いに通信することを可能にし、また、音声言語データが採取されて履歴データリポジトリ１１２に保存されることを可能にするネットワーク１０６が存在する。ネットワーク１０６は、限定されないが、ローカルエリアネットワーク（「ＬＡＮ」）、仮想プライベートネットワーク（「ＶＰＮ」）、セルラーネットワーク、インターネット、またはそれらの組み合わせであってもよい。例えば、ネットワーク１０６は、様々なデータベース、潜在的参加者、インターネット、及びクラウド１２０との通信などの様々な補助的サービスを提供する、イントラネットと呼ばれることもあるプライベートネットワークに通信可能に結合されたモバイルネットワークを含んでもよい。

議論の目的のために、ユーザ（例えば、１０１（１）～１０２（Ｎ））がネットワーク１０６を介して通信するために使用することができるクライアント装置のいくつかの例を表すために、異なるユーザ／コンピューティング装置が図面に表示される。今日、ユーザ装置は、典型的には、携帯用ハンドセット、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、及びスマートウォッチの形態をとるが、それらは、消費者、医療、及びビジネス電子装置を含む他のフォームファクタで実施されてもよい。

履歴データリポジトリ１１２は、ＳＬＵエンジン１０３がそこから学習することができる、様々なユーザ間の以前の会話に関連するデータを含む、訓練データ１１３の大きなセットを格納および維持するように構成される。例えば、履歴データリポジトリ１１２は、正常にセグメント化され、その意味が特定され、ラベル付けされた会話に関連する訓練データを提供することができる。一実施形態では、訓練データ１１３は、ＳＬＵ１０３がそこから学習して音声言語理解モデルを作成もしくは訓練またはその両方をすることができるデータのコーパスとして機能し、その後、そのトランスクリプトを有することなく１つまたは複数のエンティティ１０２（１）～１０２（Ｎ）間の会話の意味を評価するために使用されることができる。

一実施形態では、音声言語理解システムの訓練段階の間、音声言語データ１０５（１）～１０５（Ｎ）は、ネットワーク１０６を介して１つまたは複数のユーザ装置１０２（１）～１０２（Ｎ）から採取される。様々な実施形態において、採取は、ＳＬＵサーバ１１６上で動作するＳＬＵエンジン１０３によって、または履歴データリポジトリ１１２によって直接実行されてもよい。一実施形態では、採取は、クラウド１２０上の分散コンピューティングアーキテクチャによって実行され得る。音声言語データ（例えば、１０５（１）～１０５（Ｎ））は、（ｉ）音声発話録音と、（ｉｉ）意味的エンティティのセットもしくはインテントまたはその両方から構成される。

一実施形態では、音声言語データの意味的エンティティもしくはインテントまたはその両方は、音声発話録音のトランスクリプトを含んでいない。他の実施形態では、トランスクリプトは、履歴データリポジトリ１１２に格納される前に、または履歴データリポジトリ１１２からのデータの受信の後で（例えば、ＳＬＵエンジン１０３によって）フィルタアウトされ得る。別の言い方をすれば、エンティティラベル／値及びインテントラベルは、音声録音の逐語的トランスクリプトなしで、意味的エンティティから抽出される。例えば、書かれたトランスクリプト（提供される場合）のエンティティラベル／値及びインテントラベルは、そこから抽出され、エンティティラベル／値及びインテントラベル以外の単語は、除去される。

所定の間隔で、またはトリガーイベント時に、ＳＬＵエンジン１０３は、訓練データ１１３を受信し、これを使用して、音声録音の逐語的トランスクリプトを必要とせずにＳＬＵモデルを訓練し、それによって、履歴データの量およびＳＬＵサーバ１１６の計算オーバーヘッドを大幅に低減させることができる。次いで、訓練されたＳＬＵモデルは、動作段階の間、ＳＬＵ１０３エンジンによって使用され、音声録音の意味の理解を促進することができる。これらの特徴の各々について、以下でより詳細に説明する。

ＳＬＵ１０３によって受信された訓練データ１１３及び電子データパッケージ１０５（１）～１０５（Ｎ）の膨大な量は、ＳＬＵ１０３をホストするＳＬＵサーバ１１６の処理時間及びメモリリソースを含むＳＬＵサーバ１１６のコンピューティングリソースに対して技術課題を提供し得ることは理解されよう。この点に関して、一実施形態では、ＳＬＵ１０３は、エンティティラベルおよびインテントラベルの範囲を超えている発話をフィルタリングするように構成される。例えば、本明細書において相互作用的に定義されていないと言及される、取るに足らないフレーズ（例えば、「うーん（uhm）」、「あー（ahh）」、「考えさせて（let me think）」、「えーと（like）」など）、ならびにエンティティラベルまたはインテントラベルに直ちに関連していない他の用語などの発話は、ＳＬＵエンジン１０３によって除去される。このようにして、ＳＬＵサーバ１１６もしくは履歴データベース１１２またはその両方の貴重なコンピューティングおよび記憶資源を保存するという技術的効果が達成される。計算を、関連するデータの減少したプールに制限することによって、ＳＬＵサーバ１１６の計算需要が節約され、それによって、より効率的な計算プラットフォームが提供される。

履歴データリポジトリ１１２及びＳＬＵサーバ１１６、およびコンピューティング装置１０２（１）～１０２（Ｎ）は、異なるプラットフォーム上にあるように例示されているが、異なる実施形態では、これらのプラットフォームが組み合わされてもよいことは理解されよう。他の実施形態では、これらのコンピューティングプラットフォームの１つまたは複数は、クラウド１２０でホストされる仮想マシンまたはソフトウェアコンテナの形態の仮想コンピューティング装置によって実装されてもよく、それによって、処理およびストレージ用の弾性アーキテクチャが提供される。クラウドについては、後でより詳細に説明する。

＜意味的エンティティの例＞
ここで、発話の意味（すなわち、インテントおよび意味的エンティティラベルおよび値）を判断するための訓練データ２００の例を示す図２を参照する。音声認識の場合、訓練データは通常、図２の例のトランスクリプト２１０に示されるように、発話（例えば、音声記録）と逐語的トランスクリプトのペアである。インテント分類および意味的スロットフィリングを行うことができるＳＬＵモデルを訓練するために、そのような文は、例２２０に示すように、通常、インテントおよび意味的エンティティでさらにラベル付けされる。別の言い方をすれば、既知のアプローチは、典型的には、トランスクリプトとインテントおよび意味的エンティティラベル２２０を使用する。

これに対して、ＳＬＵエンジン１０３は、意味的エンティティのみとペアになっている音声で訓練するように構成されている。本明細書で使用されるように、意味的エンティティは、ラベル－値のペアを含む。例えば、「ｔｏｌｏｃ．ｃｉｔｙ＿ｎａｍｅ」はラベルであり、「Ｂｏｓｔｏｎ」は意味的エンティティの値である。この点に関して、例２３０は、訓練のために自然な話し言葉の順序で提示された意味エンティティを示す。より詳細には、例２３０は、意味的エンティティの一部でない単語が除外されている点で、例２２０と異なっている。意味的エンティティは、より顕著なキーワードと考えることができる。これは、（除外された）他の単語が意味を持たないことを意味しないことに留意されたい。例えば、「to」と「from」は、ある都市が目的地なのか出発地なのかを判断するのに有効な言葉である。我々の訓練されたＳＬＵモデルでは、そのような単語は出力されないが、それらの単語に対応する音声信号は、モデルが正しい意味的エンティティラベルを出力するのに役立つ。同様に、例２３０は、インテントを決定するのに関連し得る特定の顕著な単語（例えば、「want a flight」）が存在しない点で、例２２０と異なっている。ＳＬＵエンジンは、インテントラベル（「Ｏ－ＩＮＴ－ｆｌｉｇｈｔ」）のみで訓練することができる。

一実施形態では、意味的エンティティは、話された順序で出力される必要はなく、恣意的または任意の所定の順序であってもよい。例２４０では、意味的エンティティは話された順序で与えられるのではなく、エンティティラベル名に従ってアルファベット順にソートされる。これは、エンティティの順序が意味に影響しない、意味的フレームまたはエンティティのバッグの概念をシミュレートするものである：｛｛ｆｒｏｍｌｏｃ．ｃｉｔｙｎａｍｅ：ＲＥＮＯ｝，｛ｓｔｏｐｌｏｃ．ｃｉｔｙｎａｍｅ：ＬＡＳＶＥＧＡＳ｝，｛ｔｏｌｏｃ．ｃｉｔｙｎａｍｅ：ＤＡＬＬＡＳ｝｝。

＜ＡＳＲモデルのＳＬＵシステムへの適用例＞
様々な実施形態において、ＳＬＵデータが転写され得る異なる方法があるので、ＳＬＵシステムを訓練するための異なる方法が本明細書に提示される。事前に訓練されたＡＳＲモデルから開始して、２つの異なる種類のＥ２Ｅモデルが、様々な種類のＳＬＵデータをモデル化するために使用されるときにどのように動くのかを説明するために、アーキテクチャを以下に説明する。各可能な訓練手順は、以下のモジュールのうちの１つまたは複数を採用することができる。

一実施形態では、ドメインデータへのＡＳＲモデル適応（ＡＳＲ－ＳＬＵ適応）モジュールが使用される。既製のＡＳＲモデルが、ＳＬＵデータとは音響的に異なるデータで訓練されている可能性が高いことを考えると、最初のステップは、ＡＳＲシステムを適応させることである。例えば、ＡＳＲのタスク（音声トランスクリプションを単語にする）において、ドメインデータ上でより良いパフォーマンスが得られるようにＡＳＲモデルのパラメータを適応させる。この動作は、逐語的トランスクリプトのみを使用し、ＳＬＵドメインデータに存在する新規の音響条件、単語、および言語構成にモデルを適応させるものである。モデル適応において、元の汎用ＡＳＲデータ（ＧＰ－ＡＳＲ）とドメインデータの両方を使用することで、ドメインデータのみで適応するよりもＡＳＲ出力単位のカバー率が向上する場合がある。例えば、このカバー率は、ＡＳＲによってモデル化されたユニットの語彙またはセット（例えば、電話、文字、単語など）に関連する場合があり、そのうちのいくつかはドメインデータに現れない場合がある。カバー率は、大量の一般的なデータを使用することによって向上する。

一実施形態では、ジョイントＡＳＲおよびＳＬＵモデル訓練（例えば、ジョイントＡＳＲ＋ＳＬＵ）が使用される。エンティティラベルは、完全なトランスクリプトとともに訓練パイプラインに導入される。このモジュールは、既製のＡＳＲモデルを本格的なＳＬＵモデルに徐々に修正するカリキュラム学習の一形態である。従来のアプローチとは異なり、通常の文字または音声出力トークンに加えて、非音響エンティティトークンを出力するようにモデルを訓練させる。ＧＰ－ＡＳＲのデータでは、ターゲットは文字／音声トークンのみであるが、ＳＬＵドメインのデータでは、ターゲットにはエンティティラベルも含まれる。このモジュールは最終的なＳＬＵモデルの訓練において自然な流れであるが、十分なＳＬＵリソースがある場合は省略することができる。

一実施形態では、ＳＬＵモデルファインチューニング（fine tuning）（例えば、ファインチューンＳＬＵ）が使用される。この最終モジュールでは、本明細書で説明した第１または第２のモジュールからのモデルが、ＳＬＵデータだけでファインチューンされ、最終ＳＬＵモデルが作成される。前述のように、最終的なＳＬＵモデルによって認識されるべき意味的エンティティは、完全なトランスクリプト内、話し言葉の順序のエンティティのみ、またはアルファベット順のエンティティのみという異なる形態をとることができる。

＜訓練エンドツーエンドＳＬＵモデル例＞
本明細書で説明した訓練手順を用いて、様々な実施形態において、音声中のエンティティを直接認識しようとするエンドツーエンドＳＬＵシステムの２つの変形が、中間テキスト生成およびテキストベースのエンティティ検出を伴わずに提供される。例として、コンソーシアムからの公開コーパスであってもよいデータベースを使用することができるが、他のデータも使用できることが理解されよう。

一実施形態では、ＳＬＵデータ及び評価メトリック法は、標準的な訓練セット及びテストセットを用いて使用される。限定ではなく実証的な例として、あるデータセットのクラスＡ（すなわち、文脈に依存しない）訓練データからの４９７８個の訓練発話と、他のデータセットからの８９３個のテスト発話が使用される。

この例では、４９７６個の訓練発話は、３５５人の話者による９．６４時間の音声を含む。また、８９３個のテスト発話には、５５人の話者による１．４３時間の音声が含まれる。提案するＥ２Ｅモデルをよりよく学習させるために、速度／テンポの摂動を使用してコーパスのコピーを追加作成することができる。データ増強後の最終的な訓練コーパスは１４０時間の音声データである。スロットフィリングの性能はＦ１スコアで測定される。テキストではなく音声入力を用いる場合、単語の間違いが発生する可能性がある。Ｆ１スコアはスロットラベルと値の両方が正しいことを条件とする。例えば、参照はｔｏｌｏｃ．ｃｉｔｙｎａｍｅ：ＮｅｗＹｏｒｋであるが、デコード出力はｔｏｌｏｃ．ｃｉｔｙｎａｍｅ：Ｙｏｒｋである場合、ＳＬＵエンジンは偽陰性と偽陽性の両方をカウントする。一実施形態では、正しいスロットラベルが生成されるだけでは十分ではない：意味的エンティティ値（Ｙｏｒｋ）の一部が認識されても、「部分的な信用」は与えられない。スコアリングはエンティティの順序を無視することができるため、「エンティティのバッグ」ケースに適している。

一実施形態では、コネクショニスト時間分類（ＣＴＣ）ベースのＳＬＵモデルが使用される。ＳＬＵモデルが外部言語モデルから独立してエンティティおよび対応する値を処理できるようにするために、汎用ＡＳＲデータで単語ＣＴＣモデルを構築することができる。例としてのみであり、限定するものではないが、スイッチボード（ＳＷＢ－３００）データのような所定タイプのデータの３００時間を使用することができる。当技術分野で知られているように、ＳＷＢ－３００は、音声認識のために容易に利用可能な公開データである。様々な実施形態において、ＣＴＣベースのＳＬＵモデルを訓練するために、異なる訓練方法を使用することができる。

最初の実験では、ＳＬＵデータの逐語的トランスクリプトとエンティティラベルの両方が利用可能であることを想定している。これに関して、本明細書で説明した３つの訓練モジュールがすべて使用される。限定ではなく例として、ＡＳＲ－ＳＬＵ適応ステップは、以下のように実行することができる。１８，３２４個の単語ターゲットと空白記号に対するスコアを推定するＡＳＲモデルの出力層を、１８，６４２個の単語／エンティティターゲットと空白に対するスコアを推定するランダムに初期化された出力層と置き換える。各方向につき６４０ユニットである残りの６つのＬＳＴＭ層と、２５６ユニットである完全連結のボトルネック層の重みは同じに保つ。次に、ＳＷＢＧＰ－ＡＳＲデータなどの第１種のデータ３００時間と、クリーンな第２種のデータなどの第２種のデータ１４０時間の組み合わせのデータセットでモデルを訓練させる。なお、このステップでは、出力層はエンティティラベルのユニットを持つが、訓練ターゲットは単語のみである。ジョイントＡＳＲ＋ＳＬＵステップでは、訓練トランスクリプトにエンティティラベルを導入し、ＡＳＲ－ＳＬＵ適用ステップの最終重みから、ＳＷＢ＋ＳＬＵデータに対してジョイントＡＳＲ－ＳＬＵモデルを訓練させる。３回目であり最終ファインチューンＳＬＵステップでは、１４０時間のＳＬＵデータのみでＡＳＲ－ＳＬＵモデルをファインチューンする。

図３Ａは、ＣＴＣ及びアテンションに基づくモデルを用いた音声入力に対するエンティティのバッグのスロットフィリングＦ１スコアの評価の概要表を提供する。図３Ａの表中の実験［１Ａ］では、実験［１Ａ］の完全なトランスクリプトモデルがクリーンなテストデータで評価されている。ＳＬＵモデルが単語ＣＴＣモデルであることを考えると、デコード中に外部言語モデル（ＬＭ）は使用されず、代わりに、出力の単純な貪欲デコードが採用される。この初期モデルのＦ１スコアは９１．７であり、エンティティラベルをその値とともに正しく検出することができた。

実験［２Ａ］では、エンティティラベルを含む完全な逐語的トランスクリプトを用いて同様のＳＬＵモデルを開発したが、ＡＳＲ－ＳＬＵ適応およびジョイントＡＳＲ＋ＳＬＵ適応モジュールはスキップしている。このモデルは事前に訓練されたＳＷＢＡＳＲモデルで初期化され、ＳＬＵモデルは直接訓練される。このモデルでも９１．７Ｆ１スコアを達成しており、カリキュラム学習のステップが必ずしも必要でない可能性が示唆される。

図３Ａの次の実験セットでは、逐語的トランスクリプトの重要性が、訓練プロセスのために分析される。実験［１Ａ］のジョイントＡＳＲ＋ＳＬＵモジュールの後、実験［３Ａ］において、話された順序の意味的エンティティラベルとその値のみを認識するＳＬＵモデルが訓練される。その結果、（一語一句完全な逐語的トランスクリプのない）話された順序の意味的エンティティについて学習したモデルは、ラベルとともに意味的エンティティ値だけを保存しながら、エンティティ値でない信号中の単語を無視するように学習することが確認された。このＳＬＵモデルは、［１Ａ］の完全なトランスクリプトモデルよりもわずかに性能が優れている。

この実験は、実験［４Ａ］において、訓練プロセスにおけるトランスクリプトの使用を完全に排除することによって拡張された。このＳＬＵモデルは、事前に訓練されたＡＳＲモデルで初期化された後、カリキュラム学習ステップや逐語的トランスクリプトなしに、エンティティラベルとその値を認識するために直接訓練される。表３００Ａは、このモデルの性能がわずかに低下するものの、ベースラインシステムと同程度であることを示している。

最後に、アルファベット順に並べられたエンティティラベルとその値を認識するという、より困難なタスクについてＳＬＵシステムを訓練させる。実験［１Ａ］のジョイントＡＳＲ＋ＳＬＵモジュールの後、実験［５Ａ］では、意味的エンティティラベルとその値だけを認識するＳＬＵモデルを訓練するが、今度はアルファベット順で学習する。

実験［６Ａ］では、［５Ａ］と同様のモデルが訓練されるが、カリキュラム学習ステップは含まれない。例えば、カリキュラム学習ステップは、完全なトランスクリプトでＡＳＲモデルを事前訓練し、ＳＬＵモデルを初期化するためにそのモデルを使用することに関連する。このタスクでは、ＣＴＣモデルの性能は、話された順序ではない並べ替えられたターゲットから効率的に学習することができないため、著しく低下する。カリキュラム学習ステップにより、［５Ａ］の結果は良くなったが、それでもベースラインより悪い。

＜アテンションに基づくＳＬＵモデルの評価＞
一実施形態では、ＳＬＵのアテンションモデルは、標準的なスイッチボードＡＳＲタスクのために開発されたＡＳＲモデルで初期化される。このモデルは、エンコーダ－デコーダアーキテクチャを使用し、エンコーダは、バッチ正規化、残差接続、および線形ボトルネック層を使用する８層長期短期記憶（ＬＳＴＭ）スタックである。デコーダは、文字に推定されるバイト対符号化（ＢＰＥ）ユニットのシーケンスをモデル化し、２つの一方向ＬＳＴＭ層で構成されている。１つは言語モデルのような専用コンポーネントで、埋め込まれた予測記号シーケンスに対してのみ動作し、もう１つは音響と記号の情報を共同で処理する。一例として、デコーダは加算型、位置認識型のアテンションを適用し、各層は７６８個の一方向ＬＳＴＭノードを持っている。ＳｐｅｃＡｕｇｍｅｎｔ、シーケンスノイズ注入、速度－テンポオーギュメント、様々なドロップアウト法など、様々な正則化技術を利用することで、この単一ヘッドシーケンス間モデルを用いた高度な音声認識性能を得ることができるかもしれない。

エンティティを認識するために、ＡＳＲモデルは、上述したモジュールに従って、ＣＴＣモデルと同様に適応される。単語単位を使用するＣＴＣモデルとは対照的に、一実施形態では、アテンションモデルは、より小さい在庫（例えば、６００ＢＰＥの）単位を使用し、デコーダＬＳＴＭに依存して、より長いシーケンスをモデル化する、つまりアテンションに基づくモデルは、固有のロングスパンの言語モデルを有する。最初のＡＳＲモデルがスイッチボードで訓練された後、その後の適応学習と転移学習のステップでは、スイッチボードのデータがないデータのみを使用する。アテンションモデルはサブワードレベルで動作し、トランスクリプトに現れるすべての新しい単語は、これらのサブワード単位を使用してモデル化できるため、最初のＡＳＲ－ＳＬＵ適応ステップでは出力および埋め込み層の拡張は必要ない。簡潔さのために、ジョイントＡＳＲ＋ＳＬＵモジュールはスキップされ、ＳＬＵエンジンは、デコーダの出力および埋め込み層が意味的エンティティラベルで拡張される、ファインチューンＳＬＵモジュールに直接進むことができる。意味的エンティティラベルに対応するソフトマックス層と埋め込み重みはランダムに初期化され、ソフトマックス層と埋め込み層の既知の記号に対応する重みを含む他のすべてのパラメータは、ＡＳＲモデルからコピーされる。語彙外単語を持たないサブワードレベルのモデルは、上述した「自然な話し言葉の順序のエンティティ」の例２３０で適応プロセスを直接開始するのによく適している場合がある。本実施例では、全ての適応ステップで５エポックの訓練を使用する。

実験［６Ａ］において、図３Ａの表は、アテンションに基づくＳＬＵモデルに対するスロットフィリングＦ１スコアを示している。実験［１Ａ］では、スイッチボード－３００ｈで訓練されたアテンションに基づくＡＳＲモデルが、ドメイン固有のＡＳＲモデルを作成するために、最初にクリーンデータ上で適応される。テストセットでは、ＳＷＢ－３００モデルを用いた単語誤り率（ＷＥＲ）は約７．９％であったが、適応後は０．６％に改善された。このＡＳＲモデルは、ＳＬＵモデルを作成するための転移学習の初期モデルとして使用される。Ｆ１スコアはＣＴＣモデルと同程度である。

図３Ａの表の実験［２Ａ］では、ＡＳＲ適応ステップをスキップし、ＳＷＢ－３００ＡＳＲモデルを直接使用してＳＬＵモデル訓練を初期化する。このシナリオでは、Ｆ１スコアの劣化はない。汎用のＳＷＢ－３００ＡＳＲモデルで初期化しても（ＷＥＲ＝７．９％）、ドメイン適応したＡＳＲモデルで初期化しても（ＷＥＲ＝０．６％）ＳＬＵ性能に差はない。

図３Ａの表の実験［４Ａ］は、訓練トランスクリプトの品質または詳細さの効果を考察する。本実施例では、話された順序のエンティティのみを含むトランスクリプト（［４Ａ］）を使用すると、表３Ａの実験［１Ａ］の完全なトランスクリプトを使用した場合と実質的に類似するＦ１スコアが得られる。アルファベット順のエンティティ（話された順序とは異なる可能性がある）を訓練トランスクリプトに含む場合、実験［６Ａ］では、Ｆ１スコアが９２．９から９０．９へと２％低下することが示された。この結果は、ＣＴＣモデル（７３．５）よりもはるかに良好であり、アテンションに基づくモデルの再順序付け能力を反映している。従来通り、図３Ａの実験［３Ａ］と［５Ａ］で提供されるようなＡＳＲモデル適応の追加ステップを逐語的トランスクリプトで追加しても、ほとんど差はない。

ここで、図４～図６を参照すると、それぞれ３つの異なるアテンションモデルに対する発話「今度の日曜日にフィラデルフィアからデンバーへのフライトを予約したい（I would like to make a reservation for a flight to Denver from Philadelphia on this coming Sunday）」に対するアテンションプロットが示されている。より詳細には、図４は、ＡＳＲモデルを用いた発話に対するアテンションプロットを示し、図５は、話された順序のＳＬＵを用いた発話に対するアテンションプロットを示し、図６は、アルファベット順のＳＬＵを用いた発話に対するアテンションプロットを示している。

図５に示すように、発話に対するアテンションは、意味的エンティティ内のキーワードのＢＰＥユニットに対応する音声信号の連続した部分にアテンションが向けられるなど、ほぼ単調である。非実体語の読み飛ばしを反映したギャップがある。

図６に示すように、発話に対するアテンションは区分的な単調さであり、単調な領域はキーワード内のＢＰＥユニットをカバーしている。意味的エンティティは話された順序とは異なる順序で与えられるので、このプロットは、モデルが音声信号の正しい部分を意味的エンティティに関連付けることができることを示す。また、約２秒後に「予約する（make a reservation）」というフレーズに注目し、文全体のインテントを予測する：「フライト（flight）」。

ここで、図３Ｂを参照すると、付加的なノイズ（５ｄＢＳＮＲ）を有する音声入力に対するエンティティのバッグのスロットフィリングＦ１スコアの概要表３００Ｂが提供される。より具体的には、ノイズのあるコーパスがＳＬＵデータセットとして使用され、図３Ａの文脈で実施されたＣＴＣに基づく実験が繰り返される。この実験セットは、訓練とテストの両方において現実的なノイズで、訓練手順にさらなる変動を導入する。さらに、転送されたモデルとターゲットドメインとの間の音響的ミスマッチを増加させる。図３Ａの表３００Ａで観察されたＣＴＣモデルの一般的な傾向は、図３Ｂの表３００Ｂでも観察される：（ａ）ＡＳＲトランスクリプトに基づくカリキュラム訓練は有効であり；（ｂ）エンティティラベルは、話された順序でよく認識できるが、意味的エンティティ順序が異なる場合には、性能が悪くなる可能性がある。［２Ｂ］のような実験では、ＳＬＵデータとＡＳＲデータのミスマッチは、ミスマッチの事前に訓練されたモデルで初期化するだけで、他の適応ステップを持たないモデルの性能に影響を与える。一般にノイズの歪みにより、これらのシステムは一致した状態での性能結果と比べて性能が低下する。

図３Ｂの表３００Ｂの例に示されるように、より詳細にアテンションに基づくＳＬＵモデルについて、完全なトランスクリプトについて訓練したモデル（例えば、［１Ｂ］Ｆ１＝９２．０）をアルファベット順のエンティティについて訓練したもの（［６Ｂ］Ｆ１＝８７．７％）と比較すると、Ｆ１スコアに４．３％の絶対的な劣化がある。これは性能の低下ではあるが、ＣＴＣの結果（［６Ｂ］Ｆ１＝６８．５）よりは大幅に改善されている。クリーンな音声条件の場合と比較すると、ＡＳＲ適応の有用性に関して異なる結論に達することができる。ＳＬＵモデル訓練の初期化にＳＷＢ－３００モデルではなく適応されたＡＳＲモデルを用いた場合、Ｆ１スコアに約１％の改善が見られる。ノイズのあるテストセットでは、ＳＷＢ－３００のベースモデルを使用した場合、ＷＥＲ＝６０％であるのに対し、ノイズのあるデータで適応させたＡＳＲモデルではＷＥＲ＝５％になる。このように、２つの全く異なるＡＳＲモデルを用いてＳＬＵモデルの訓練を初期化することで、最終的なモデルのＦ１スコアにわずか１％の差しか生じなかったことは重要なことである。

図３Ｃは、ＳＬＵ訓練を初期化するためにＡＳＲモデルを訓練するために使用されるデータの量が最終的なＦ１スコアにどのように影響するかを示す表３００Ｃである。表３００Ｃは、クリーンな（すなわち、非ノイズ）音声のための話された順序のエンティティで訓練されたアテンションに基づくＳＬＵモデルの結果を示している。図３Ｃの例では、初期ＡＳＲモデルに対して３００ｈの代わりに２０００ｈを使用すると、Ｆ１スコアが約１％改善される。これは、未知のデータに対するモデルのロバストネスが向上したためと考えられる：テストセットにおける未適応のＷＥＲは、３．１％（ＳＷＢ２０００ｈ）に対して７．９％（ＳＷＢ３００ｈ）である。一方、ＳＬＵモデルをスクラッチから直接訓練した場合（例えば、事前に訓練したＡＳＲモデルから初期化せず、ランダムなパラメータから）、この実験ではＦ１＝７８．１程度が得られた。ＳＬＵのデータが限られている場合、これらの実験は、必ずしも最終的なＳＬＵタスクに関連しない、幅広い音声データでのＡＳＲ事前訓練の重要性を示している。

したがって、本明細書の教示は、様々なＥ２ＥＳＬＵモデルが、逐語的トランスクリプトなしでうまく構築できることを実証している。本明細書の教示に基づき、ＲＮＮ－Ｔ（リカレントニューラルネットワークトランスデューサ）およびトランスフォーマーに基づくモデルなどの他のシーケンス変換モデルを含む、ニューラルネットワークに基づく他のＥ２ＥＳＬＵモデルで同様の結果を得ることができる。一態様では、これらのシステムを訓練するために、事前に訓練された音響モデルおよびカリキュラム学習が使用される。データのクリーン版とノイズ版を用いて、これらのシステムの性能に対するエンティティ順序と音響ミスマッチの影響を説明する。本書で説明するＥ２Ｅシステムは、逐語的トランスクリプトなしで訓練され、エンティティが必ずしも話された順序で与えられていない逐語的トランスクリプトで訓練しても、確実にエンティティを予測することができる。本教示は、完全なトランスクリプトがしばしば訓練に利用できず、最終的なＳＬＵシステムがノイズのある音響環境に配備されることになる実用的な設定において、より優れたＳＬＵシステムを訓練するための有用な洞察を提供する。ＳＬＵが１種類の訓練データ（図２の２１０、２２０、２３０、２４０）で訓練される実施形態の詳細を示したが、ＳＬＵは、異なる種類の訓練データ（２１０、２２０、２３０、２４０）の組み合わせで訓練することも可能である。

＜プロセス例＞
図３Ａから図３Ｃの例示的なアーキテクチャ１００および異なる訓練アプローチの前述の概要により、例示的なプロセスのハイレベルな議論を検討することが今、有用であり得る。そのために、図７Ａおよび図７Ｂは、例示的な実施形態と一致する、訓練段階および動作段階の間のエンドツーエンドの音声言語理解システムの例示的なプロセス７００および７６０をそれぞれ提示する。プロセス７００及び７６０は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る動作シーケンスを表す、論理フローチャートのブロックの集まりとして図示されている。ソフトウェアの文脈では、ブロックは、１つ以上のプロセッサによって実行されるとき、言及された動作を実行するコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、機能を実行する、または抽象的なデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むことができる。各プロセスにおいて、動作が記述される順序は、限定として解釈されることを意図しておらず、任意の数の記述されたブロックが、プロセスを実施するために任意の順序で組み合わせられ、もしくは並行してまたはその両方で実行され得る。議論の目的のために、工程７００および７６０は、図１のアーキテクチャ１００を参照して説明される。

図７Ａのプロセス７００は、音声言語理解システムの訓練段階を表す。ブロック７０２において、音声言語データ１０５（１）は、ネットワーク１０６を介して１つまたは複数のユーザ装置１０２（１）～１０２（Ｎ）から採取される。音声言語データ（例えば、１０５（１）～１０５（Ｎ））は、（ｉ）音声発話録音と、（ｉｉ）各対応する音声録音に対する意味的エンティティもしくは全体的インテントのセットまたはその両方とから構成される。一実施形態では、意味的エンティティは、音声発話録音のトランスクリプトを含んでいない。他の実施形態では、トランスクリプトは、履歴データリポジトリ１１２に格納される前に、または後で履歴データリポジトリ１１２からデータを受信する際に（例えば、ＳＬＵエンジン１０３によって）フィルタアウトされる。別の言い方をすれば、エンティティラベル／値及びインテントラベルは、音声録音の逐語的トランスクリプトなしで、意味的エンティティから抽出される。例えば、（提供されている場合）書かれたトランスクリプトのエンティティラベル／値およびインテントラベルは、そこから抽出され、エンティティラベル／値およびインテントラベル以外の用語は削除される。

ブロック７０６において、音声言語データはリポジトリに格納され、これはＳＬＵサーバのメモリもしくは履歴データリポジトリ１１２またはその両方であってよい。

ブロック７０８において、ＳＬＵエンジン１０３は、履歴データ１１３を訓練データとしてリポジトリ１１２から受信する。訓練データの意味的エンティティの各々は、対応する音声発話録音のトランスクリプトを含む必要はない。様々な実施形態において、訓練データの受信は、所定の間隔で、またはデータリポジトリ１１２で利用可能な新しい音声言語データの閾値のようなトリガーイベントに応じてであってもよい。

ブロック７１０では、履歴データのエンティティラベル／値およびインテントラベルに基づいて、ＳＬＵモデルが訓練される。重要なことに、訓練は、対応する音声言語の逐語的トランスクリプトを含む必要はない。

動作段階中に、訓練されたＳＬＵモデルは、以下に例を挙げて説明するように、音声言語の意味を判断するために使用することができる。

ブロック７６２において、生の音声言語データは、ネットワーク１０６を介してユーザ装置（例えば、１０２（１））からＳＬＵエンジン１０３によって受信される。

ブロック７６４において、訓練されたＳＬＵモデルは、音声発話録音のトランスクリプトなしで生の音声言語データの１つまたは複数の意味的エンティティもしくはインテントまたはその両方を認識するために使用される。一実施形態では、音声発話録音と、生の音声言語データの意味的エンティティもしくはインテントまたはその両方のセットは、そのトランスクリプトなしで履歴データリポジトリに格納される。このようにして、ＳＬＵモデルの訓練のために十分に顕著でない会話のパラメータを格納することを避けながら、訓練セットを継続的に改善することができる。

＜コンピュータのプラットフォーム例＞
上述したように、ＳＬＵモデルの訓練および発話の意味の判断に関連する機能は、図１に示すように、および図７Ａおよび図７Ｂのプロセス７００および７６０に従って、無線または有線通信を介してデータ通信用に接続された１または複数のコンピューティング装置の使用で実行することが可能である。図８は、ＳＬＵエンジン８４０をホストできる特に構成されたコンピューティング装置を実装するために使用できるコンピュータハードウェアプラットフォーム８００の機能ブロック図を提供する。特に、図８は、図１のＳＬＵサーバ１１６のような適切に構成されたサーバを実装するために使用され得るような、ネットワークまたはホストコンピュータプラットフォーム８００を図示している。

コンピュータプラットフォーム８００は、システムバス８０２に接続される中央処理装置（ＣＰＵ）８０４、ハードディスクドライブ（ＨＤＤ）８０６、ランダムアクセスメモリ（ＲＡＭ）もしくはリードオンリーメモリ（ＲＯＭ）またはその両方８０８、キーボード８１０、マウス８１２、ディスプレイ８１４および通信インタフェース８１６を含むことができる。

一実施形態では、ＨＤＤ８０６は、本明細書で説明する方法で、ＳＬＵエンジン８４０などの様々なプロセスを実行できるプログラムを記憶することを含む機能を有する。ＳＬＵエンジン８４０は、図１などの文脈で説明したような、異なる機能を実行するように構成された様々なモジュールを有していてもよい。例えば、ユーザと管理者もしくはチャットボットまたはその両方の間の会話を採取するように動作する会話モジュール８４２があってもよい。音声コンテンツをテキストに変換するように動作するテキスト処理モジュール８４４が存在してもよい。書かれたトランスクリプト（提供される場合）中のエンティティラベル及びインテントラベルを抽出し、他の全ての用語を除去するように動作する濾過モジュールがあってもよい。ランダムまたはアルファベット順である意味的エンティティを、さらなる処理のために音声言語順に変換するように動作する、インテント適応モジュール８４８があってもよい。本明細書に記載された機能を実行するためのＡＳＲ－ＳＬＵ適応モジュール８５０もしくはＡＳＲ＋ＳＬＵ適応モジュール８５２またはその両方が存在してもよい。最終的なＳＬＵモデルを作成するためにモデルをファインチューンするためにＡＳＲ－ＳＬＵ適応モジュール８５０もしくはＡＳＲ＋ＳＬＵ適応モジュール８５２またはその両方と協力するように動作するファインチューニングモジュール８５４が存在してもよい。動作段階の間、発話のトランスクリプトを必要とせずに発話のインテントを判断するために動作するインテントモジュール８５６が存在する場合がある。

モジュール８４２～８５６は、図８においてＨＤＤ８０６の一部であるように図示されているが、いくつかの実施形態において、これらのモジュールのうちの１つ又は複数が、コンピューティング装置８００のハードウェアにおいて実装されてもよい。例えば、本明細書で議論されるモジュールは、部分的なハードウェア及び部分的なソフトウェアの形態で実装されてもよい。すなわち、図８に示すＳＬＵエンジン８４０の構成要素の１つまたは複数は、トランジスタ、ダイオード、コンデンサ、抵抗器、インダクタ、バラクタもしくはメモリスタまたはこれらの組み合わせを有する電子回路の形態で実装されてもよい。言い換えれば、ＳＬＵエンジン８４０は、本明細書に記載される特定のタスクおよび機能を実行する１つまたは複数の特別に設計された電子回路で実装されてもよい。

一実施形態では、システムをウェブサーバとして動作させるためのプログラムを格納することができる。一実施形態では、ＨＤＤ８０６は、仮想マシンの助けを借りて、または借りずに、スクリプト言語を用いて、または別の方法で実行する、１つまたは複数のライブラリソフトウェアモジュールを含む実行アプリケーションを格納することができる。

＜クラウドプラットフォームの例＞
上述したように、１つまたは複数のクライアントドメインのコンプライアンスを管理することに関連する機能は、クラウド１２０（図１参照）を含んでもよい。本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装は、クラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られている又は後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実施することが可能である。

クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス）へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、リソースは、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備（provision）およびリリースできるものである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、および少なくとも４つの展開モデルを含むことがある。

特性は以下の通りである。

オンデマンド・セルフサービス：クラウドの消費者は、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。

ブロード・ネットワークアクセス：コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による利用が促進される。

リソースプーリング：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数の消費者に提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般に消費者は、提供されたリソースの正確な位置を管理または把握していないため、位置非依存（location independence）の感覚がある。ただし消費者は、より高い抽象レベル（例えば、国、州、データセンタ）では場所を特定可能な場合がある。

迅速な柔軟性（elasticity）：コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。消費者にとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。

測定されるサービス：クラウドシステムは、サービスの種類（例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント）に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供することができる。

サービスモデルは以下の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ（例えばウェブメール）などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、消費者が作成または取得したアプリケーションを、クラウドインフラストラクチャに展開（deploy）することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。

サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアを消費者が展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。消費者は、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント（例えばホストファイアウォール）を部分的に制御できる。

展開モデルは以下の通りである。

プライベートクラウド：このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

コミュニティクラウド：このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス）を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

パブリッククラウド：このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ以上のクラウドモデル（プライベート、コミュニティまたはパブリック）を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性（例えば、クラウド間の負荷分散のためのクラウドバースティング）を実現する。

クラウドコンピューティング環境は、ステートレス性（statelessness）、低結合性（low coupling）、モジュール性（modularity）および意味論的相互運用性（semantic interoperability）に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで、図９に例示的なクラウドコンピューティング環境９００を示す。図示するように、クラウドコンピューティング環境９００は１つ以上のクラウドコンピューティングノード９１０を含む。これらに対して、クラウド消費者が使用するローカルコンピュータ装置（例えば、ＰＤＡもしくは携帯電話９５４Ａ、デスクトップコンピュータ９５４Ｂ、ラップトップコンピュータ９５４Ｃ、もしくは自動車コンピュータシステム９５４Ｎまたはこれらの組み合わせなど）は通信を行うことができる。ノード２０１０は互いに通信することができる。ノード９１０は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、１つ以上のネットワークにおいて、物理的または仮想的にグループ化（不図示）することができる。これにより、クラウドコンピューティング環境９５０は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウド消費者はこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図９に示すコンピュータ装置９５４Ａ～Ｎの種類は例示に過ぎず、コンピューティングノード９１０およびクラウドコンピューティング環境９５０は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続（例えば、ウェブブラウザの使用）またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。

ここで、クラウドコンピューティング環境９５０（図９）によって提供される機能的抽象化レイヤのセットを図１０に示す。なお、図１０に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェアレイヤ１０６０は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム１０６１、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャベースのサーバ１０６２、サーバ１０６３、ブレードサーバ１０６４、記憶装置１０６５、ならびにネットワークおよびネットワークコンポーネント１０６６が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア１０６７およびデータベースソフトウェア１０６８を含む。

仮想化レイヤ１０７０は、抽象化レイヤを提供する。当該レイヤから、例えば以下の仮想エンティティを提供することができる：仮想サーバ１０７１、仮想ストレージ１０７２、仮想プライベートネットワークを含む仮想ネットワーク１０７３、仮想アプリケーションおよびオペレーティングシステム１０７４、ならびに仮想クライアント１０７５。

一例として、管理レイヤ１０８０は以下の機能を提供することができる。リソース準備１０８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定１０８２は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含んでよい。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウド消費者およびタスクの識別確認を可能にする。ユーザポータル１０８３は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理１０８４は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証（ＳＬＡ）の計画および履行１０８５は、ＳＬＡに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。

ワークロードレイヤ１０９０は、クラウドコンピューティング環境が利用可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション１０９１、ソフトウェア開発およびライフサイクル管理１０９２、仮想教室教育の配信１０９３、データ分析処理１０９４、取引処理１０９５、そしてＳＬＵエンジン１０９６が含まれる。

＜結論＞
本教示の様々な実施形態の説明は、説明のために提示されたが、開示された実施形態を網羅すること又は限定することを意図するものではない。説明した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用化または技術的改良を最もよく説明するために、または当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。

前述では、最良の状態もしくは他の例またはその両方と考えられるものを説明したが、そこに様々な変更を加えることができ、本明細書に開示した主題は様々な形態および例で実施することができ、本明細書に記載したのはその一部のみであるが、本教示は多数の用途に適用することができると理解される。以下の請求項によって、本教示の真の範囲内に入るあらゆる応用、修正および変形を請求することが意図される。

本明細書で議論されてきた構成要素、ステップ、特徴、目的、利益および利点は、単に例示的なものである。それらのいずれも、またそれらに関連する議論も、保護の範囲を限定することを意図していない。本明細書では様々な利点について論じてきたが、すべての実施形態が必ずしもすべての利点を含むわけではないことは理解されよう。特に断らない限り、後続の特許請求の範囲を含む本明細書に記載されているすべての測定値、値、定格、位置、規模、大きさ、および他の仕様は、厳密ではなく、近似値である。それらは、それらが関連する機能およびそれらが関連する技術分野において慣用されているものと一致する合理的な範囲を有することを意図している。

多数の他の実施形態も企図される。これらには、より少ない、追加の、もしくは異なる構成要素またはこれらの組み合わせ、ステップ、特徴、目的、利益、及び利点を有する実施形態が含まれる。これらには、構成要素もしくはステップまたはその両方が異なるように配置もしくは順序付けまたはその両方がされた実施形態も含まれる。

本発明の実施形態は、本明細書において、本発明の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行可能である。

上記のコンピュータ可読プログラム命令は、機械を生産するために、コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供してよい。これにより、かかるコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行するための手段を創出する。上記のコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他の装置またはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶してよい。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作の態様を実行するための命令を含む製品を構成する。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他の装置にロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他の装置上で実行させることにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他の装置上で実行される命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行する。

本開示の図面におけるコールフロー、フローチャートおよびブロック図は、本発明の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための１つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。いくつかの代替的な実装では、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行してもよい。例えば、連続して示される２つのブロックは、実際には、関係する機能に応じて、同時もしくは略同時に実行してもよいし、または場合により逆順で実行してもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能または動作を行う、または専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって、実行可能である。

前述は、例示的な実施形態と関連して説明されてきたが、「例示的」という用語は、最良または最適ではなく、単に例として意味されることが理解される。すぐ上に記載した場合を除き、記載または図示したものは、特許請求の範囲に記載されているか否かにかかわらず、任意の構成要素、ステップ、特徴、目的、利益、利点、または同等のものを公衆に献呈させることを意図したものではなく、また解釈されるべきものでもない。

本書で使用される用語および表現は、本書に特定の意味が示されている場合を除き、対応するそれぞれの調査および研究領域に関してその用語および表現に与えられている通常の意味を有することが理解されるであろう。第１および第２などの関係用語は、ある実体または行為を別の実体または行為から区別するためにのみ使用され、必ずしもそのような実体または行為間の実際の関係または順序を要求または暗示する必要はない。用語「含む（comprise）」、「含む（comprising）」、またはその他の変形は、要素のリストから構成されるプロセス、方法、物品、または装置がそれらの要素のみを含むのではなく、明示的にリストされていない他の要素またはかかるプロセス、方法、物品、または装置に固有の要素を含むことができるように、非排他的包含を対象とすることが意図される。「a」または「an」で始まる要素は、さらなる制約なしに、その要素を構成するプロセス、方法、物品、または装置における追加の同一要素の存在を排除するものではない。

本開示の要約は、読者が技術開示の内容を迅速に把握できるようにするために提供されるものである。それは、請求項の範囲または意味を解釈または制限するために使用されないことを理解した上で提出されるものである。さらに、前述の詳細な説明では、開示を合理化する目的で、様々な特徴が様々な実施形態でグループ化されていることが分かる。この開示方法は、請求された実施形態が各請求項に明示的に記載されている以上の特徴を有するという意図を反映するものと解釈されるべきではない。むしろ、以下の請求項が反映するように、発明的主題は、単一の開示された実施形態のすべての特徴よりも少ない特徴に存在する。したがって、以下の請求項は、各請求項がそれ自体で別個に請求される主題として存在する状態で、本明細書に組み込まれる。

Claims

プロセッサと、
前記プロセッサに結合され、ネットワークを介した通信を可能にするネットワークインタフェースと、を含み、
訓練段階において、エンジンは、
ネットワークを介して、（ｉ）１つまたは複数の音声録音と、（ｉｉ）各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、（ｉ）１つまたは複数のエンティティラベルおよび対応する値、および（ｉｉ）１つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記対応する音声録音の前記１つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の１つまたは複数のインテントラベルに基づいて、音声言語理解（ＳＬＵ）モデルを訓練することと、を含む動作を実行するように構成される、コンピューティング装置。
前記意味的エンティティは、話された順序ではない、請求項１に記載のコンピューティング装置。
前記意味的エンティティは、アルファベット順である、請求項２に記載のコンピューティング装置。
前記自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づいている、請求項２に記載のコンピューティング装置。
前記エンジンは、前記意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することを含む動作を実行するようにさらに構成されている、請求項２に記載のコンピューティング装置。
前記訓練データは、ユーザと前記ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている、請求項１に記載のコンピューティング装置。
前記訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む、請求項１に記載のコンピューティング装置。
前記１つまたは複数のエンティティラベルと、対応する値、および前記１つまたは複数のインテントラベルの前記抽出は、コネクショニスト時間分類（ＣＴＣ）、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）、またはアテンションに基づくエンコーダ－デコーダニューラルネットワークの少なくとも１つを含むニューラルネットワーク処理による、請求項１に記載のコンピューティング装置。
前記訓練は、前記ＳＬＵモデルを自動音声認識（ＡＳＲ）モデルで初期化することを含む転移学習を含む、請求項１に記載のコンピューティング装置。
前記ＳＬＵエンジンは、動作段階中に、
音声発話録音のトランスクリプトなしで前記音声発話録音を含む生の音声言語データを受信することと、
前記生の音声言語データの意味を認識するために前記訓練されたＳＬＵモデルを使用することであって、前記意味は前記生の音声言語のインテントと意味的エンティティを含む、使用することと、を含む動作を実行するようにさらに構成される、請求項１に記載のコンピューティング装置。
実行されると、コンピュータ装置に、音声言語理解（ＳＬＵ）モデルを訓練する方法を実行させるコンピュータ可読命令を有するコンピュータ可読プログラムコードを有形に具体化した非一時的なコンピュータ可読記憶媒体であって、
（ｉ）１つまたは複数の音声録音と、（ｉｉ）各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、（ｉ）１つまたは複数のエンティティラベルおよび対応する値、および（ｉｉ）１つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記対応する音声録音の前記１つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の１つまたは複数のインテントラベルに基づいて、音声言語理解（ＳＬＵ）モデルを訓練することと、を含む、非一時的なコンピュータ可読記憶媒体。
前記意味的エンティティは、話された順序ではない、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づいている、請求項１２に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、前記意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することをさらに含む、請求項１３に記載の非一時的なコンピュータ可読記憶媒体。
前記訓練データは、ユーザと前記ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数のエンティティラベルと、対応する値、および前記１つまたは複数のインテントラベルの前記抽出は、コネクショニスト時間分類（ＣＴＣ）、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）、またはアテンションに基づくエンコーダ－デコーダニューラルネットワークの少なくとも１つを含むニューラルネットワーク処理による、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記訓練は、前記ＳＬＵモデルを自動音声認識（ＡＳＲ）モデルで初期化することを含む転移学習を含む、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、動作段階中に、
音声発話録音のトランスクリプトなしで前記音声発話録音を含む生の音声言語データを受信することと、
前記生の音声言語データの意味を認識するために前記訓練されたＳＬＵモデルを使用することであって、前記意味は前記生の音声言語のインテントと意味的エンティティを含む、使用することと、をさらに含む、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
（ｉ）１つまたは複数の音声録音と、（ｉｉ）各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、（ｉ）１つまたは複数のエンティティラベルおよび対応する値、および（ｉｉ）１つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記１つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の１つまたは複数のインテントラベルに基づいて、音声言語理解（ＳＬＵ）モデルを訓練することと、を含む、コンピュータ実装方法。