JP2023033160A

JP2023033160A - コンピュータ実装方法、システムおよびコンピュータプログラム（順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング）

Info

Publication number: JP2023033160A
Application number: JP2022126850A
Authority: JP
Inventors: ホン－クワンクオ; Hong-Kwang Kuo; ゾルタントゥースケ; Tueske Zoltan; サミュエルトーマス; Thomas Samuel; ブライアンイー．ディー．キングスベリー; E D Kingsbury Brian; ジョージアンドレイサオン; Andrei Saon George
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-08-27
Filing date: 2022-08-09
Publication date: 2023-03-09
Also published as: CN115731921A; US20230081306A1; US12046236B2

Abstract

【課題】音声言語理解システムにおいて順序なしのエンティティを用いてトレーニングするコンピュータ実装方法を提供する。【解決手段】方法は、スピーチ及び当該スピーチに関連付けられた意味表現の対をグラウンドトゥルースデータとして含むトレーニングデータを受信することを含む。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含む。セマンティックエンティティの発声順序は未知である。方法はさらに、トレーニングデータにおける意味表現のセマンティックエンティティを、アライメント技法を使用して関連付けられたスピーチの発声順序に並び替えることと、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルをトレーニングすることと、を含む。【選択図】図４

Description

本願は、概して、コンピュータ及びコンピュータアプリケーション、音声言語理解、エンコーダ、デコーダ、アテンションモデル、スピーチ認識に関し、より詳細には、音声言語理解システムにおいて順序なしのエンティティを用いてトレーニングすることに関する。

音声言語理解（ＳＬＵ）システムは、従来、スピーチをテキストに変換する自動スピーチ認識（ＡＳＲ）システムと、それに後続する、当該テキストの意味を解釈する自然言語理解（ＮＬＵ）システムとのカスケードであった。概して、ＡＳＲ及びそのような従来のＳＬＵシステムは、逐語的トランスクリプトを使用してトレーニングされる。欠点は、逐語的トランスクリプトにおいて全ての単語を正確に書き起こすコストである。

１つ又は複数の実施形態において、エンドツーエンド音声言語理解をトレーニングすることにおいて改善を提供することができるシステム、方法、及び技法を提供することができる。本開示の概要は、エンドツーエンド音声言語理解システムにおいて、エンティティ、例えば、必ずしもスピーチにおいて発声された順序ではない順序で与えられ得るエンティティを用いてトレーニングするコンピュータシステム及び方法の理解を補助するために与えられ、本発明の開示を限定する意図はない。本開示の様々な態様及び特徴は、有利には、幾つかの事例では別個に、又は他の事例では本開示の他の態様及び特徴と組み合わせて、使用され得ることが理解されるべきである。したがって、種々の効果を達成するためにコンピュータシステム若しくはその動作方法又はその両方に対して変形及び修正が行われ得る。

コンピュータ実装方法は、一態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。

コンピュータ実装方法は、別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができ、前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。

コンピュータ実装方法は、更に別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができ、前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。

コンピュータ実装方法は、なおも別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。前記方法は、前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階も備えることができる。前記音声言語理解機械学習モデルを前記トレーニングする段階は、スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする段階とを有することができる。

コンピュータ実装方法は、一態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。前記方法は、所与のスピーチを前記トレーニングされた音声言語理解機械学習モデルに入力する段階も備えることができ、前記トレーニングされた音声言語理解機械学習モデルは、前記所与のスピーチに関連付けられた意図ラベル及びセマンティックエンティティを含むセット予測を出力する。

コンピュータ実装方法は、別の態様では、トレーニングデータを受信する段階を備えることができる。前記トレーニングデータは、スピーチ及び前記スピーチに関連付けられた意味表現の対を含むことができる。前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含むことができ、前記セマンティックエンティティの前記発声順序は未知であり、例えば、必ずしも既知ではない。前記方法は、前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成する段階も備えることができる。前記方法は、前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングする段階も備えることができ、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用される。入力スピーチを与えられると、前記音声言語理解機械学習モデルを事前トレーニングして、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。

コンピュータ実装方法は、更に別の態様では、トレーニングデータを受信する段階を備えることができる。前記トレーニングデータは、スピーチ及び前記スピーチに関連付けられた意味表現の対を含むことができる。前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含むことができ、前記セマンティックエンティティの前記発声順序は未知であり、例えば、必ずしも既知ではない。前記方法は、前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成する段階も備えることができる。前記方法は、前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングする段階も備えることができ、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用される。入力スピーチを与えられると、前記音声言語理解機械学習モデルを事前トレーニングして、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。前記方法は、アルファベット順で配置された前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを事前トレーニング又は微調整する（ｆｉｎｅ－ｔｕｎｉｎｇ）段階も更に備えることができる。

少なくともプロセッサ及びメモリデバイスを備えるシステムも提供することができ、ここで、少なくとも１つのプロセッサ、又は１つ又は複数のプロセッサは、本明細書において説明される任意の１つ又は複数の方法を実行するように構成することができる。

本明細書において説明される１つ又は複数の方法を実行するために機械によって実行可能な命令のプログラムを記憶するコンピュータ可読記憶媒体も提供されてよい。

以下では、添付の図面を参照しながら、更なる特徴並びに様々な実施形態の構造及び動作が詳細に説明される。図面において、同様の参照番号は、同一又は機能的に同様の要素を示す。

一実施形態におけるエンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）システムを示す図である。

一実施形態における、例示のキーワードにおける構成音（ｃｏｎｓｔｉｔｕｅｎｔｐｈｏｎｅ）に対応する例示のＨＭＭを示す図である。

一実施形態における例示のアテンションプロットである。

一実施形態における、エンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）機械学習モデルをトレーニングする方法を示すフロー図である。

別の実施形態における、エンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）機械学習モデルをトレーニングする方法を示す図である。

１つの実施形態における、音声言語理解機械学習モデル又はシステムをトレーニングすることができるシステムのコンポーネントを示す図である。

１つの実施形態に係るシステムを実装し得る例示のコンピュータ又は処理システムの概略図である。

１つの実施形態におけるクラウドコンピューティング環境を示す図である。

本開示の１つの実施形態におけるクラウドコンピューティング環境によって提供される機能抽象化層のセットを示す図である。

１つ又は複数の実施形態において、エンドツーエンド音声言語理解をトレーニングすることにおいて改善を提供することができるシステム、方法、及び技法を提供することができる。図１は、一実施形態におけるエンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）システムを示す図である。Ｅ２ＥＳＬＵシステムは、例えば、１つ若しくは複数のハードウェアプロセッサ上で実装若しくは実行される又はその両方が行われるか、又は１つ若しくは複数のハードウェアプロセッサに結合される１つ又は複数のコンピュータ実装コンポーネントを含むことができる。１つ又は複数のハードウェアプロセッサは、例えば、プログラマブルロジックデバイス、マイクロコントローラ、メモリデバイス、若しくは、本開示において説明されるそれぞれのタスクを実行するように構成され得る他のハードウェアコンポーネント、又はその組み合わせ等のコンポーネントを含んでよい。結合されるメモリデバイスは、１つ又は複数のハードウェアプロセッサによって実行可能な命令を選択的に記憶するように構成されてよい。プロセッサは、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、別の適した処理コンポーネント若しくはデバイス、又はその１つ若しくは複数の組み合わせであってよい。プロセッサは、メモリデバイスに結合されてよい。メモリデバイスは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、又は別のメモリデバイスを含んでよく、本明細書において説明される方法若しくはシステム又はその両方に関連付けられた様々な機能を実装するためのデータ若しくはプロセッサ命令又はその両方を記憶してよい。プロセッサは、メモリに記憶されるか又は別のコンピュータデバイス若しくは媒体から受信されるコンピュータ命令を実行してよい。

エンドツーエンド（Ｅ２Ｅ）ＳＬＵシステムは、スピーチ入力を、中間のテキストトランスクリプトを通さずに、直接的に意味として処理する。これらのＳＬＵシステムは、逐語的トランスクリプトではなく、エンティティ及び発話レベルの意図のセットに対してトレーニングされてよく、データ収集のコストの劇的な削減がもたらされる。１つ又は複数の実施形態において、本明細書において開示されるシステム、方法及び技法は、Ｅ２ＥＳＬＵシステムが、エンティティ又はセマンティックが発声順序で必ずしも与えられていないトレーニングデータを用いたトレーニングを扱うことを可能にする。

エンドツーエンド（Ｅ２Ｅ）音声言語理解（ＳＬＵ）システムでは、入力は、スピーチ（例えば、オーディオ信号又は音響信号）とすることができ、出力は、意味表現とすることができる。例えば、スピーチ１０２は、ＳＬＵモジュール１０４への入力とすることができ、ＳＬＵモジュール１０４は、機械学習モデル、例えば、ニューラルネットワーク又は深層学習モデル、例えば、限定されないが、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）若しくはアテンションベースエンコーダ／デコーダ又はその両方を含むことができる。ＳＬＵモジュール１０４は、スピーチの意味表現１０６、例えば、１つ又は複数の意図及びエンティティを出力することができる。

例えば、音声言語理解（ＳＬＵ）モジュール１０４は、入力スピーチに対応する、意味表現、例えば、意図検出及びエンティティを提供することができる。一態様では、ＳＬＵシステムは、出力を提供する際に全ての単語、又は、どのように入力が発声されるか（例えば、エンティティの順序、単語選択）を提供する必要はない。ＳＬＵモジュール１０４によって提供される出力の例は、以下を含むことができる：
完全なトランスクリプト＋セマンティックラベル：（ＩＮＴ－ｆｌｉｇｈｔ）ＩｗｏｕｌｄｌｉｋｅｔｏｍａｋｅａｒｅｓｅｒｖａｔｉｏｎｆｏｒａｆｌｉｇｈｔｔｏＤｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）ｆｒｏｍＰｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）ｏｎｔｈｉｓｃｏｍｉｎｇＳｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）；
（訳：（今度の日曜日（Ｂ－ｄｅｐａｒｔＤａｔｅ）にフィラデルフィア（Ｂ－ｆｒｏｍＣｉｔｙ）からデンバー（Ｂ－ｔｏＣｉｔｙ）へのフライトの予約（ＩＮＴ－ｆｌｉｇｈｔ）をしたいです）
発声順序でのセマンティックエンティティ：（ＩＮＴ－ｆｌｉｇｈｔ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）Ｓｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）；
セマンティックエンティティのセット（未知の発声順序）：
｛｛ｉｎｔｅｎｔ（意図）：ｆｌｉｇｈｔ（フライト）｝，
｛ｄｅｐａｒｔＤａｔｅ：Ｓｕｎｄａｙ（日曜日）｝，
｛ｆｒｏｍＣｉｔｙ：Ｐｈｉｌａｄｅｌｐｈｉａ｝，
｛ｔｏＣｉｔｙ：Ｄｅｎｖｅｒ｝｝

ＳＬＵモジュール１０４は、スピーチ及び意味（意図及びエンティティ）の対を含むトレーニングデータのコーパスに対してトレーニングすることができる。対は、例えば、スピーチ及び対応する意味を含む。エンティティは、スロット充填（ｓｌｏｔｆｉｌｌｉｎｇ）のスロットとも称される。例えば、ユーザコマンド又はクエリ（スピーチ）は、意図及び関連したスロットを抽出することによって解釈される。そのようなコーパスは、手作業のラベル付けによって、又は、自動プロセス（例えば、スピーチ又は発話を与えられるとそのようなラベルを出力するＳＬＵ等）によって生成されていてよい。例示として、「ｓｈｏｗｆｌｉｇｈｔｓｆｒｏｍＳｅａｔｔｌｅｔｏＳａｎＤｉｅｇｏｔｏｍｏｒｒｏｗ（明日のシアトルからサンディエゴへのフライトを教えてください）」等のクエリは、以下の意味表現を有し得る。
Ｉｎｔｅｎｔ（意図）：ｆｌｉｇｈｔｉｎｆｏ（フライト情報）
Ｓｌｏｔｓ（スロット）（ｅｎｔｉｔｉｅｓ（エンティティ））：
ｆｒｏｍｌｏｃ：Ｓｅａｔｔｌｅ
ｔｏｌｏｃ：ＳａｎＤｉｅｇｏ
ｄｅｐａｒｔ＿ｄａｔｅ：ｔｏｍｏｒｒｏｗ（明日）

表１は、発話又はスピーチに対応する意図及びスロット充填の一例を示している。表１において示されている表記は、「Ｂｅｇｉｎ－Ｉｎｓｉｄｅ－Ｏｕｔｓｉｄｅ（ＢＩＯ）」表記を使用する。ＢＩＯ表記において、複数のコンポーネント単語を有するセマンティックエンティティは、「Ｂ」、その後「Ｉ」でラベル付けされ、例えば、「ＮｅｗＢ－ｆｒｏｍｌｏｃＹｏｒｋＩ－ｆｒｏｍｌｏｃＣｉｔｙＩ－ｆｒｏｍｌｏｃ」であり、非エンティティ単語は、「ｏｕｔｓｉｄｅ」エンティティであることを示すために「Ｏ」でラベル付けされる。

例えば、ＳＬＵモジュール１０４は、スピーチからのセマンティックエンティティのセットの予測を提供する。同じ意味を表現する異なる方法が存在し得る。以下の例示のスピーチ又は表現を検討する：
－「ＩｗａｎｔｔｏｆｌｙｔｏＤａｌｌａｓｆｒｏｍＲｅｎｏｔｈａｔｍａｋｅｓａｓｔｏｐｉｎＬａｓＶｅｇａｓ．（リノから、ラスベガスを経由し、ダラスに飛びたいです。）」
－「ＭａｋｅｒｅｓｅｒｖａｔｉｏｎｔｏＤａｌｌａｓｆｒｏｍＲｅｎｏｗｉｔｈａｓｔｏｐｉｎＬａｓＶｅｇａｓ．（ラスベガスで乗り継ぐ、リノからダラスまでの予約を行う。）」
－「ＤｅｐａｒｔＲｅｎｏｆｏｒＤａｌｌａｓｗｉｔｈＬａｓＶｅｇａｓｓｔｏｐｏｖｅｒ．（リノから出発し、ラスベガスで短時間滞在し、ダラスに向かう。）」
－「ＩａｍｃｕｒｒｅｎｔｌｙｉｎＲｅｎｏａｎｄｈａｖｅｍｙｎｅｘｔｃｌｉｅｎｔｍｅｅｔｉｎｇｓｉｎＤａｌｌａｓｓｏＩｎｅｅｄａｆｌｉｇｈｔｒｅｓｅｒｖａｔｉｏｎｂｕｔＩａｌｓｏｗａｎｔｔｏｈａｖｅａｓｔｏｐｉｎＬａｓＶｅｇａｓ．（私は現在リノにいて、次のクライアントとのミーティングがダラスであるので、飛行機を予約する必要があるのですが、ラスベガスにも立ち寄りたいです。）」
上記のスピーチ又は表現についてのエンティティ及び意図のセットの例が、表２において示されている。１つ又は複数の実施形態において、システム、方法若しくは技法又はその組み合わせは、Ｅ２ＥＳＬＵモデルを改善して、セマンティックエンティティのセットの予測を実行することができる。上記の例の全てが概して同じ意味を有し、これらは、同じ簡略化された意味表現、すなわち、エンティティ及び発話レベルの意図のセットにマッピングすることができ、その一例が表２において示されている。

図１において示されているＥ２ＥＳＬＵシステムでは、逐語的トランスクリプトを伴わずにセマンティックエンティティ及び発話レベルの意図を使用してトレーニングを実行することができる。モデル化されることになるエンティティのセットは、発声順序（例えば、対応するスピーチにおいてエンティティが発話される順序）で与えられてもよいし、順序は指定されていないものであってもよい。

ＡＳＲ技法は、逐語的トランスクリプトを生成し、一字一句の精度（ｗｏｒｄｆｏｒｗｏｒｄａｃｃｕｒａｃｙ）をターゲットとする。ＳＬＵシステムは、発話から正しい意味（例えば、表２）を推測しようとし、エンティティの順序又は単語選択等の要因を考慮する必要はない。例えば、一実施形態では、ＳＬＵモデルは、完全なトランスクリプト等の全ての発声された単語を出力するようにトレーニングされてもよい一方、ＳＬＵモデルの成功は、ＳＬＵによって抽出されるセマンティックラベル及び値のセットによって決定することができる。ＳＬＵモデルの成功の例示の尺度は、Ｆ１スコアとすることができる。ＳＬＵモデルが全ての単語を出力する場合、ＳＬＵモデルは、ＡＳＲとして使用することもでき、そのようなＳＬＵモデルの成功は、単語誤り率（ＷＥＲ：ｗｏｒｄｅｒｒｏｒｒａｔｅ）によって測定することができる。一態様では、ＳＬＵは、シーケンス予測問題に対し、セット予測問題とみなされ得る。

エンドツーエンドシーケンスツーシーケンスモデルは、種々のタイプのグラウンドトゥルースに対して柔軟にトレーニングすることができる。スピーチ認識の場合、トレーニングデータは、表３において例（０）として示されている、逐語的トランスクリプトを有するスピーチである。ＳＬＵモデルをトレーニングするために、文は、発話全体の意図を表すラベルとともに、表３における例（１）において示されているように、エンティティラベルで注釈される。表３における例（２）では、エンティティは、トレーニングのために、自然発声順序で提示される。表３における例（２）は、エンティティの一部ではない全ての単語が除外される点で、例（１）と異なる。エンティティは、より重要なキーフレーズと考えることができるが、しかしながら、他の単語も重要な役割を担う。例えば、「ｔｏ」及び「ｆｒｏｍ」は、明らかに、都市が目的都市であるのか又は出発都市であるのかを判断するために重要である。ＳＬＵモデルは、そのような単語を出力しない場合があるが、これらの単語に対応するスピーチ信号は、ＳＬＵモデルが正しいエンティティラベルを出力するのに役立ち得る。

一態様では、エンティティのセットの発声順序がトレーニングデータにおいて未知である場合、タスクは、セット予測タスクとみなすことができる。シーケンスツーシーケンスモデルのトレーニングは目標出力シーケンスを要求するので、例（３）では、グラウンドトゥルースは、ラベル名（例えば、ｓｔｏｐｌｏｃ．ｃｉｔｙｎａｍｅ）でアルファベット順にソートされるエンティティを用いて標準化され得る。

従来のＡＳＲ又はＮＬＵモデルは、カスケード型ＳＬＵシステムにおいてこのタイプのデータを用いてトレーニングすることが困難であり得るが、依然としてそのようなデータタイプは、豊富であり、収集のコストがはるかに低いものであり得る。旅行の予約をするために、人間のエージェントがクライアントと話すのを、例えば例（３）にあるようなグラウンドトゥルースに変換され得るウェブフォームまたは他のデータベーストランザクションレコードを埋めるといった、このエージェントにより行われるアクションと共に記録することを考えてみよう。ＡＳＲ及びＮＬＵを別個にトレーニングするために、スピーチデータの正確な逐語的トランスクリプションは、人間の書き起こし者の場合のリアルタイムの５倍～１０倍と、それに加えてエンティティをラベル付けする追加のコストを必要とし得る。対照的に、エンティティのセットを含むトランザクション記録は、顧客を助ける過程から得ることができ、追加のコストを招来させないようにできる。

一態様では、ＳＬＵシステムは、スピーチからエンティティのセットを予測するようにトレーニングすることができる。一実施形態では、１つ又は複数のスピーチモデルは、例えば、限定されないが、リカレントニューラルネットワーク（ＲＮＮ）－トランスデューサ（ＲＮＮ－Ｔ）、ＬＳＴＭエンコーダを有する、若しくはコンフォーマエンコーダを有する、又はその両方を有するもの等のアテンションベースエンコーダ－デコーダモデルを含む。単調な入力－出力のアライメント制約に起因して、ＲＮＮ－Ｔは、エンティティが発声順序ではないグラウンドトゥルースから学習することが困難である可能性が高い。アテンションベースモデルは、より良好に学習する可能性が高い。なぜならば、アテンションベースモデルは、連続した順序ではない場合があるスピーチ信号の関連した部分に着目することが可能であるためである。以下でより完全に説明されるように、１つ又は複数の実施形態では、セット予測の場合、性能を改善するための方法としてデータ拡張及びエンティティの明示的なアライメントを使用することができる。

一態様では、本明細書において開示される１つ又は複数のモデル化技法は、出力ラベル側において様々なセマンティックエンティティ及び意図シーケンスをハンドリングすることができる。一態様では、ＳＬＵトレーニングラベルシーケンスが発声順序であることを仮定する必要はない。例えば、本明細書において開示されるシステム及び方法は、目標出力シーケンスをセットとして扱い得る。

一態様では、本明細書において開示されるデータ拡張方法は、出力ラベルレベルにおいて実行される。Ｅ２ＥＳＬＵシステムが生成する入力スピーチ信号の意味は、エンティティ及び意図のセットとして表すことができ、例えば、完全な逐語的トランスクリプトである必要はない。ＳＬＵトークンのそのようなセットを特定することは、発声された発話内で特定の単語又は単語のセットが検出されるキーワード探索と同様の方法で扱うことができる。本明細書において開示されるシステム若しくは方法又はその両方が対処することができる別の問題は、ＳＬＵモデルが、ＳＬＵトークンのキーワード探索又は発見の明示的な段階を伴うことなくこのタスクをどのように自動的に実行することができるかということである。１つ又は複数の実施形態において、システム若しくは方法又はその両方は、音響モデルをトレーニングするためにセットベースデータ拡張若しくはセット並び替え又はその両方を実装し得る。

一態様では、エンドツーエンドモデルは、条件付き独立仮定を伴うことなく、音響特徴のシーケンスをシンボルのシーケンスに直接マッピングする。入力及び目標シーケンス長に起因して存在するアライメント問題は、エンドツーエンド手法に依存して異なるようにハンドリングすることができる。ＳＬＵのために使用することができるモデルの例としては、スピーチ認識のための以下のモデルが挙げられる。他のモデルも、使用又は適合することができる。

ＲＮＮトランスデューサモデル

ＲＮＮ－Ｔは、入力及び出力のシーケンスを整列させるために特別な空白シンボル及び格子構造を導入する。モデルは、３つの異なるサブネットワーク、すなわち、トランスクリプションネットワーク、予測ネットワーク、及び結合ネットワークを含むことができる。トランスクリプションネットワークは、音響埋め込みを生成し、その一方、予測ネットワークは、モデルによって生成される以前の非空白シンボルを条件とするという点で言語モデルと類似している。結合ネットワークは、２つの埋め込み出力を組み合わせて、空白を含む出力シンボルにわたる事後分布を生成する。ＲＮＮ－ＴベースＳＬＵモデルは、２つの段階において、すなわち、ＡＳＲモデルを構築することと、その後、ＡＳＲモデルを、転移学習を通じてＳＬＵモデルに適合することとによって、作成することができる。第１の段階では、モデルは、当該モデルが、スピーチをテキストに書き起こす方法を効果的に学習することを可能にするために大量の汎用ＡＳＲデータに対して事前トレーニングされる。事前トレーニング段階における目標が書記素／発音トークンのみであることを所与とすると、モデルがＳＬＵデータを使用して適合される前に、セマンティックラベルが追加の出力目標として追加される。これらの新たなＳＬＵラベルは、追加のシンボルを含めるために予測ネットワークの出力層及び埋め込み層をサイズ変更することによって統合される。新たなネットワークパラメータは、ランダムに初期化され、その一方、残りの部分は、事前トレーニングされたネットワークから初期化される。ネットワークが修正されると、ネットワークは、ＡＳＲモデルをトレーニングするのと同様の段階においてＳＬＵデータに対してその後トレーニングされる。

アテンションベースＬＳＴＭエンコーダ－デコーダモデル

このモデルは、明示的な隠れ変数を導入することなく、シーケンス事後確率を推定する。アライメント問題は、出力シーケンスと同調してトレーニング可能アテンション機構を用いて動的に入力ストリームをスカッシングする（ｓｑｕａｓｈｉｎｇ）ことによって内部でハンドリングされる。モデルは、非単調アライメントを伴う問題をハンドリングすることが可能である。ＲＮＮ－Ｔ及びアテンションエンコーダ－デコーダモデルの構造は、類似している。アテンションベースモデルは、音響埋め込みを生成するためにＬＳＴＭベースエンコーダネットワークも含む。シングルヘッドＬＳＴＭデコーダは、言語モデルのようなコンポーネントと、音響埋め込み及びシンボルシーケンスの埋め込みを組み合わせてコンテキストベクトルにし、次のシンボルを予測するアテンションモジュールとを含む。アテンションベースエンコーダ－デコーダＡＳＲモデルのＳＬＵへの適合は、ＲＮＮ－Ｔについて説明されているものと同じ段階を使用して実行することができる。

アテンションベースコンフォーマエンコーダ－デコーダモデル

一実施形態では、エンコーダ－デコーダモデルのエンコーダにアテンション機構を追加することができる。コンフォーマは、スピーチ認識結果を達成することができる、畳み込みニューラルネットワーク及びセルフアテンションベーストランスフォーマの組み合わせである。アテンションモデルの一実施形態では、エンコーダをコンフォーマとすることができる。別の実施形態では、デコーダをコンフォーマとすることができる。

様々な実施形態において、エンドツーエンド音声言語理解（ＳＬＵ）システム（例えば、図１において示されている）は、指定されていない順序で（例えば、必ずしも発声順序ではない）与えられるグラウンドトゥルースセマンティックエンティティと対にされたスピーチを使用して、例えば、セマンティックエンティティが指定されていない順序で提供されるデータを使用して、トレーニングすることができる。一実施形態では、１つ又は複数のＳＬＵアライメント方法は、発声順序でデータを準備するためにトレーニングデータにおいてセマンティックエンティティの発声順序を推測するように提供することができる。一実施形態では、グラウンドトゥルースにおけるエンティティ順序におけるばらつきに対してモデルを鈍感にさせるために、セマンティックエンティティがモデル事前トレーニング中にランダム順序で提示されるデータ拡張の補足方法を提供することができる。

有利には、本明細書において開示されるシステム及び方法は、費用がより低い注釈を可能にすることができ、例えば、トレーニングデータのグラウンドトゥルースは、発声順序が未知であるか又は指定されていないセマンティックエンティティとすることができる。一実施形態では、スピーチ信号において存在する音響事象に直接結び付けられないセマンティックラベルをモデル化するのに使用することができる、アテンションベースエンコーダ－デコーダモデル又はリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデル等のエンドツーエンドモデルを、与えられるセマンティックエンティティがトレーニング中に発声順序ではない場合があっても、使用することができる。有益には、例えば、本明細書において開示されるシステム及び方法は、ＡＳＲ及びＳＬＵのために使用され得る、ＲＮＮ－Ｔのような単調な（非並び替えの）モデルを使用することを可能にすることができ、エンティティの発声順序がトレーニングデータのために未知である場合であっても、ＳＬＵ性能（Ｆ１スコア）を改善することができ、例えば、ＳＬＵ性能を、発声順序での完全なトランスクリプト又はエンティティに対してトレーニングされたＳＬＵと同様の性能に改善することができる。

一実施形態では、本明細書において開示されるＳＬＵアライメント手法は、発声順序を推測することと、ＳＬＵモデルトレーニングのためにセマンティックエンティティのセットを発声順序に並び替えることとを含むことができる。一実施形態では、本明細書において開示されるセットベースデータ拡張技法は、トレーニングのためのグラウンドトゥルースにおけるエンティティの順序に対してＳＬＵモデルをよりロバストにするために、発声されたエンティティのランダム順序バリエーションを作成することを含むことができる。

ＳＬＵアライメントのために、種々の方法が存在し得る。一実施形態では、エンティティのセットの根源的な発声順序を見つけるＳＬＵアライメント方法は、キーワード探索のための手順を利用することができる。音響的キーワードスポッティングでは、複数の（例えば、２つの）種類の音響モデルの組み合わせを使用することができる。例えば、探索されているキーワードはその根源的な発音列によってモデル化される一方、全ての非キーワードスピーチは、ガーベジモデル（ｇａｒｂａｇｅｍｏｄｅｌ）によってモデル化される。例えば、従来のハイブリッドＡＳＲモデルを使用して、キーワードにおける構成音に対応する隠れマルコフモデル（ＨＭＭ）の連結として、探索されているキーワードのためのモデルを構築することができる。単音（ｐｈｏｎｅ）は、音素（実際の音）の発音表現（ｐｈｏｎｅｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎ）である。ガーベジモデルは、声音及び静寂を含む背景音の一般的な単音によって表すことができる。方法は、その場合、これらのモデルをともに直列に並べることができ、すなわち、まずガーベジモデル、次にキーワードモデル、そして最後に再びガーベジモデルに並べることができ、その後、ＡＳＲモデルを使用して発話及びキーワードモデルを強制的に配列させる（ｆｏｒｃｅ－ａｌｉｇｎ）。ＳＬＵアライメント方法のこの実施形態は、セマンティックエンティティを発声順序に置いて、例えば、ＳＬＵのためのセット予測を改善するために、使用することができる。

図２は、例示のキーワードにおける構成音に対応する例示のＨＭＭを示している。例えばハイブリッドＡＳＲモデルを使用してセットを発声順序に並び替えることは、明示的なキーワード探索ベースのアライメントを含むことができる。一実施形態では、エンティティ値ごとに、おおよその時間を見つけるために、アライメント方法は、ＨＭＭ（ガーベジ－キーワード－ガーベジ）を構築し、例えばエンティティ値「Ｎｅｗａｒｋ」（ＶＮ＝声音化された雑音）についての強制アライメント（ｆｏｒｃｅｄａｌｉｇｎｍｅｎｔ）を実行してよい。図２では、例示のキーワード（エンティティ値）は、構成音によって２０４、２０６、２０８、２１０において表されている。雑音は、２０２及び２１２において表されている。各エンティティの時間情報を使用して、アライメント方法は、それらを発声順序に並び替えることができる。例えば、以下のように所与のセットの一例を検討する。
セット：｛｛ｉｎｔｅｎｔ（意図）：ｆｌｉｇｈｔ｝，
｛ｄｅｐａｒｔＤａｔｅ：Ｓｕｎｄａｙ｝，
｛ｆｒｏｍＣｉｔｙ：Ｐｈｉｌａｄｅｌｐｈｉａ｝，
｛ｔｏＣｉｔｙ：Ｄｅｎｖｅｒ｝｝。
セットは、以下のように、発声された発話「ＩｗｏｕｌｄｌｉｋｅｔｏｍａｋｅａｒｅｓｅｒｖａｔｉｏｎｆｏｒａｆｌｉｇｈｔｔｏＤｅｎｖｅｒｆｒｏｍＰｈｉｌａｄｅｌｐｈｉａｏｎＳｕｎｄａｙ（日曜日のフィラデルフィアからデンバーまでのフライトを予約したいです）」に基づいて発声順序に並び替えることができる。
発声順序：ＩＮＴ－ｆｌｉｇｈｔＤｅｎｖｅｒＢ－ｔｏＣｉｔｙＰｈｉｌａｄｅｌｐｈｉａＢ－ｆｒｏｍＣｉｔｙＳｕｎｄａｙＢ－ｄｅｐａｒｔＤａｔｅ。

別の実施形態では、ＳＬＵアライメント方法は、アテンション値を使用することができる。この実施形態では、アテンションを使用して暗示的な内部アライメントを実行することができる。アテンションモデルは、非発声順序でのＳＬＵエンティティをハンドリングすることが可能であり得、シングルヘッドアテンションは、音響特徴ストリーム内の対応する時間位置における発声されたトークンについて鋭い焦点を有することができる。この観測値に基づいて、ＳＬＵ語句の発声順序を推定することができる。その後、方法は、ヒューリスティックを使用して、語句の発声順序が未知である場合にＳＬＵ語句ごとに平均時間位置を推定し、ＳＬＵ語句ごとに平均時間位置を計算することができ、これによって、語句の発声順序を再確立することができる。

例えば、この実施形態では、ＳＬＵアライメント方法は、アルファベット順のグラウンドトゥルースに対してアテンションベースモデルをトレーニングすることと、アテンションプロットを使用して各ＳＬＵ語句の平均時間位置を決定することとを含んでよい。一実施形態では、以下のヒューリスティックは、語句の発声順序が未知である場合にＳＬＵ語句ごとに平均時間位置を推定する：

ここで、α_ｔ，ｎは、各音響フレームｔにおける第ｎの出力トークンについてのアテンションを示す。発声されたＢＰＥトークン及びエンティティラベルを含む第ｉのＳＬＵ語句が、出力シーケンスにおける位置ｎ_ｉにおいて開始し、ｎ_ｉ＋１－１において終了するものとし、また、Ｎ_ｉがＢＰＥ（発声）トークンの位置のみを含むものとする。図３は、例示のアテンションプロットを示しており、このアテンションプロットにおいて、ｘ軸は（ｔに対応する）スピーチ信号内の時間であり、ｙ軸は（上から下の順のｎに対応する）ＢＰＥトークン及びエンティティラベルのシーケンスを含み、α_ｔ，ｎの値は、ピクセルの暗さの程度によって表される。図３では、「ＩｗｏｕｌｄｌｉｋｅｔｏｍａｋｅａｒｅｓｅｒｖａｔｉｏｎｆｏｒａｆｌｉｇｈｔｔｏＤｅｎｖｅｒｆｒｏｍＰｈｉｌａｄｅｌｐｈｉａｏｎｔｈｉｓｃｏｍｉｎｇＳｕｎｄａｙ（次の日曜日のフィラデルフィアからデンバーまでのフライトを予約したいです）」についてのアテンションプロットが示されており、ここで、グラウンドトゥルースは、ラベル名によるアルファベット順でのエンティティである。発声されたトークンのみを検討すると、式１は、ＳＬＵ語句ごとに平均時間位置を計算し、これによって、語句の発声順序を再確立することができる。

セット予測問題の場合、システム若しくは方法又はその両方に、発声順序を知ることなくエンティティのセットを提供することができる。セット予測問題は、所与のスピーチ発話又は入力スピーチ発話の意味表現（意図及びエンティティを含むことができる）を予測することを指す。例えば、グラウンドトゥルースデータ（発声順序を知ることなく与えられたエンティティのセット）は、ＳＬＵモデル、例えば、シーケンスツーシーケンスモデルをトレーニングするのに使用することができる。一実施形態では、シーケンスツーシーケンスモデルをトレーニングするために、システム若しくは方法又はその両方は、例えばラベル名（例えば、ｆｒｏｍＣｉｔｙ）のアルファベット順ソートによってエンティティ順序を標準化することを任意に選択することができる。ロバスト性を一層改善するために、システム若しくは方法又はその両方は、様々なＥ２Ｅモデルを事前トレーニングするのに使用されるグラウンドトゥルースにおけるエンティティ及び意図ラベルの順序をランダム化するデータ拡張を使用又は実装することができる。この事前トレーニングフェーズ中、モデルに、各エポックにおいてグラウンドトゥルースの異なるバージョンを提示することができる。例示として、以下は、例えば、異なるエポックにおいて使用される異なる順序付きシーケンスを事前トレーニングするために使用することができる（例えば、各エポックは、別のエポックにおいて使用されるシーケンスとは異なる順序付きシーケンスを使用する）エンティティ及び意図ラベルのランダム化順序を示す：Ｓｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）ＩＮＴ＿ｆｌｉｇｈｔ；Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）ＩＮＴ＿ｆｌｉｇｈｔＳｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）；ＩＮＴ＿ｆｌｉｇｈｔＤｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）Ｓｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）；等。これらの例示のセットのフォーマットでは、エンティティラベルは、エンティティ値の後の括弧内に示されている。事前トレーニングフェーズには、微調整フェーズが後続することができ、この微調整フェーズにおいて、モデルは、アルファベット順でのエンティティを有するグラウンドトゥルースに対してトレーニングされる。事前トレーニングフェーズにおけるモデルを、グラウンドトゥルースとスピーチとの間のエンティティ順序不一致を有する多くの例に晒すことにより、モデル学習が微調整中により良好になり得る。

１つ又は複数の実施形態において、システム若しくは方法又はその両方は、音声言語理解システムをトレーニングしてよい。ＳＬＵトレーニングデータは、セマンティックエンティティ（例えば、ラベル及び値）の順序なしセットとして利用可能であり得る。１つ又は複数の実施形態において、システム若しくは方法又はその両方は、セマンティックエンティティの順序なしセットを、ＳＬＵアライメント技法を使用して並び替えてよい。一実施形態では、データを発声順序に並び替えるためのＳＬＵアライメント技法は、ハイブリッドスピーチ認識モデルとともに使用するのに適した音響的キーワードスポッティングベースアライメントスキームを含む。一実施形態では、データを発声順序に並び替えるためのＳＬＵアライメント技法は、エンドツーエンドＳＬＵモデルのアテンション機構から導出された時間マーキングを使用する。１つ又は複数の実施形態において、アテンションモデルは、データを整列及び並び替えするのに使用される前に、（セマンティックエンティティの順序なしセットを有する）ＳＬＵデータに対してトレーニングされ得る。これは、例えば、ＳＬＵデータが元のスピーチモデルとの音響的不一致、例えば、雑音含有スピーチを有する場合、有用であり得る。１つ又は複数の実施形態において、システム若しくは方法又はその両方は、ＳＬＵシステムをトレーニングするために発声順序に並び替えられたデータを使用してよい。１つ又は複数の実施形態において、システム若しくは方法又はその両方は、セマンティックエンティティについてセットベースデータ拡張スキームを用いてＳＬＵモデルを事前トレーニングしてよい。一実施形態では、セットベースデータ拡張方法は、利用可能なトレーニングデータにおけるエンティティ及び意図ラベルの順序をランダム化することができる。１つ又は複数の実施形態において、システム若しくは方法又はその両方は、ＳＬＵシステムがセットベースデータ拡張スキームを用いて事前トレーニングされた後に発声順序に並び替えられたデータを使用して当該ＳＬＵシステムをトレーニングしてよい。

１つ又は複数のＳＬＵモデルは、例えば利用可能であり得るグラウンドトゥルースデータを使用してトレーニングすることができる。例えば、１つ又は複数のＳＬＵモデルは、特定の用途、例えば特定のドメイン向けの特定用途向けデータコーパスに基づいてトレーニングされてよい。

例示として、一実施形態における例示の実装では、ＳＬＵモデル（例えば、図１の１０４において示されている）は、公衆に利用可能である言語資料コンソーシアム（ＬＤＣ：ＬｉｎｇｕｉｓｔｉｃＤａｔａＣｏｎｓｏｒｔｉｕｍ）コーパスである航空旅行情報システム（ＡＴＩＳ：ＡｉｒＴｒａｖｅｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ）等のデータを使用してトレーニングすることができる。例えば、８ｋＨｚにダウンサンプリングされた４９７６個のトレーニングオーディオファイル（約９．６４時間、３５５人の話者）及び８９３個のテストオーディオファイル（約１．４３時間、３５５人の話者）が存在し得る。この例では、一実施形態では、Ｅ２Ｅモデルをより良好にトレーニングするために、コーパスの追加のコピーは、速度／テンポ摂動を使用して作成することができ、結果として、トレーニングのために約１４０時間がもたらされる。この例では、一実施形態では、現実世界の動作条件をシミュレートするために、クリーンな録音に５ｄＢ～１５ｄＢの信号対雑音比（ＳＮＲ）の街頭雑音を追加することによって第２の雑音含有ＡＴＩＳコーパスを作成することができる。この約９．６４時間の雑音含有トレーニングデータは、データ拡張を介して約１４０時間に拡大することもできる。対応する雑音含有テストセットも、元のクリーンなテストセットを、５ｄＢＳＮＲの付加的な街頭雑音で損なわせることによって準備することができる。一例では、一実施形態では、意図認識性能は、意図精度によって測定することができ、その一方、スロット充填性能は、Ｆ１スコアを用いて測定することができる。テキストの代わりにスピーチ入力を使用する場合、単語は同様に予測されており、誤差が生じ得る。真陽性は、エンティティラベル及び値の両方が正であることを有し得る。例えば、参照がｔｏｌｏｃ．ｃｉｔｙｎａｍｅ：ｎｅｗｙｏｒｋ（ニューヨーク）であるが復号された出力がｔｏｌｏｃ．ｃｉｔｙｎａｍｅ：ｙｏｒｋ（ヨーク）である場合、一実施形態では、偽陰性及び偽陽性の両方がカウントされ得る。スコアは、エンティティの順序を認識している必要はなく、したがって、「エンティティのセット」の予測に適したものであり得る。

以下は、様々な実施形態に係るＳＬＵを実装する使用事例を示している。一実施形態では、ＳＬＵは、ＲＮＮ－Ｔモデルを用いて実装することができる。一例では、ＳＬＵのためのＲＮＮ－Ｔモデルは、タスク依存ＡＳＲデータに対して事前トレーニングすることができる。例えば、利用可能なコーパスからのデータに対してトレーニングされたＡＳＲモデルを使用することができる。コネクショニスト時系列分類（ＣＴＣ：ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）音響モデルは、ＲＮＮ－Ｔモデルのトランスクリプションネットワークを初期化するためにトレーニング及び使用することができる。例えば、ＲＮＮ－Ｔモデルは、層毎、方向毎に６４０個のセルを有する６つの双方向ＬＳＴＭ層を含むトランスクリプションネットワークを有することができる。予測ネットワークは、７６８個のセルを有する単一の一方向ＬＳＴＭ層である。結合ネットワークは、トランスクリプションネットの最終層からの１２８０次元スタックエンコーダベクトル及び７６８次元予測ネット埋め込みをそれぞれ２５６次元に写像し、それらを乗算するように組み合わせ、双曲線正接（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔ）を適用する。この後、出力は、４５文字＋空白に対応する４６個のロジット（ｌｏｇｉｔ）に写像され、それにソフトマックス層が後続する。合計で、モデルは、５７Ｍ個のパラメータを有する。モデルは、２０回のエポックにわたってＰｙＴｏｒｃｈにおいてトレーニングすることができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。ＳＬＵ適合中、新たなネットワークパラメータは、ランダムに初期化され、その一方、ネットワークの残りの部分は、事前トレーニングされたネットワークからコピーされる。エンティティ／意図タスクに応じて、事前トレーニングされたネットワークに、エンティティ／意図目標として更なる出力ノード（例えば、１５１個）を追加することができる。

別の例示の実施形態では、ＳＬＵは、アテンションベースＬＳＴＭエンコーダ－デコーダＳＬＵモデルを用いて実装することができる。例示の実装では、アテンションベースＥ２Ｅモデルは、６層双方向ＬＳＴＭエンコーダ及び２層一方向ＬＳＴＭデコーダを有することができ、エンティティ及び意図ラベルで拡張された約６００個のＢＰＥユニットの事後確率をモデル化する。各ＬＳＴＭ層内のノードの数は、方向毎に７６８であり得る。デコーダの第１のＬＳＴＭは、埋め込まれた予測シンボルシーケンスに対してのみ動作し、その一方、第２のＬＳＴＭは、シングルヘッドアディティブロケーション認識アテンション機構を使用して音響及びシンボル情報を処理する。ドロップアウト率及びドロップコネクト率は、エンコーダにおいて０．３に、かつデコーダにおいて０．１５に設定される。加えて、０．１０の確率を有するゾーンアウトを、デコーダの第２のＬＳＴＭ層に適用することもできる。全体として、モデルは、５７Ｍ個のパラメータを含むことができる。ＡＳＲ事前トレーニングのために、標準的なＳｗｉｔｃｈｂｏａｒｄ－３００コーパスを使用することができ、モデルは、１９２個のシーケンスのバッチを用いた４５０ｋ個の更新段階においてＡｄａｍＷによってランダム初期化から最適化することができる。ＳＬＵ微調整は、約１００ｋ個の段階において１６個のシーケンスのバッチを用いて実行することができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。

別の例示の実施形態では、ＳＬＵは、アテンションベースコンフォーマエンコーダ－デコーダＳＬＵモデルを用いて実装することができる。一実施形態では、エンコーダにセルフアテンションを追加するために、ＬＳＴＭエンコーダをコンフォーマエンコーダに置き換えることができる。全体として、モデルは、６８Ｍ個のパラメータを含むことができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。

ＳＬＵモデルトレーニングのために、１）ＡＳＲモデルをＳＬＵモデルに適合するためのセマンティックラベルを有する完全な逐語的トランスクリプト、２）自然発声順序でのエンティティのみを含むグラウンドトゥルース、３）データ拡張若しくは１つ若しくは複数の事前アライメント方法又はその組み合わせを用いた未知の発声順序でのエンティティを含むグラウンドトゥルース、を使用して別個に実行した様々な実験は、未知の発声順序を有するグラウンドトゥルースエンティティを用いる場合でさえ、本明細書において説明される１つ又は複数の方法を使用して正確なＳＬＵモデルをトレーニングすることができることを実証している。

例えば、方法は、データ拡張を適用することができ、ここで、方法は、事前トレーニングフェーズにおけるモデルを、様々なランダム順序付けでのエンティティを有するグラウンドトゥルースに晒してよく、これに、アルファベット順のエンティティに対する微調整が後続する。例えば、ＲＮＮ－Ｔモデルにおいて、ランダム順序拡張は、雑音含有条件において等で性能を改善することができる。例えば、データ拡張は、モデルがトレーニング中に対処する必要がある様々な雑音タイプを当該モデルが補償することを助け得る。音響雑音及び同様にラベル不一致に対処する一方、データ拡張は、モデルをより良好に正則化することを助け得る。データ拡張を通して導入される多様なデータは、モデルを改善し得る。例えば、アテンションベースエンコーダ－デコーダモデルの場合、例えば、クリーン条件及び雑音含有条件の双方においてランダム順序データ拡張を使用して一貫した改善を観測することができる。同様に、コンフォーマエンコーダを用いると、クリーン条件及び雑音含有条件において改善を見ることができる。

方法は、エンティティをスピーチに整列させることによってエンティティの発声順序を推測し、その後、このグラウンドトゥルースを使用してＳＬＵモデルをトレーニングすることもできる。一実施形態では、アライメントのために、方法は、ハイブリッドＡＳＲモデルに基づくものであり得る。別の実施形態では、アライメントのために、方法は、アテンションモデルに基づくものであり得る。ＲＮＮ－Ｔモデルの場合、エンティティの発声順序を推測すること及び整列されたグラウンドトゥルースに対してトレーニングすることは、性能を改善することを助ける。アテンションベースエンコーダ－デコーダモデル及びコンフォーマエンコーダの場合にも、整列されたグラウンドトゥルースデータに対するトレーニングにおいて改善を観測することができる。

一実施形態では、ＳＬＵモデルをトレーニングすることにおいてデータ拡張及び事前アライメントの両方の方法を使用することができ、ここで、方法は、ランダムに順序付けられたエンティティに対して事前トレーニングされたモデルを用いて初期化し、並び替えられたグラウンドトゥルースに対して微調整を適用してよい。実験は、ＳＬＵモデル、例えば、アテンションベースエンコーダ－デコーダモデル、コンフォーマエンコーダ、ＲＮＮ－Ｔ等の種々のタイプのモデルにおいて、また、クリーン条件及び雑音含有条件においても性能の改善を示している。

音声言語理解（ＳＬＵ）システムは、入力スピーチ信号の意味を決定することができ、例えば、その一方、スピーチ認識は、逐語的トランスクリプトを生成することを目的とする。エンドツーエンド（Ｅ２Ｅ）スピーチモデル化は、セマンティックエンティティに対してのみトレーニングしてよく、セマンティックエンティティは、逐語的トランスクリプトよりも収集の費用がより低い。このセット予測問題は、指定されていないエンティティ順序を有することができる。１つ又は複数の実施形態におけるシステム若しくは方法又はその両方は、トレーニングエンティティシーケンスが必ずしも発声順序で配置されない場合があるトレーニングデータとともに機能することが可能であるように、ＲＮＮトランスデューサ及びアテンションベースエンコーダ－デコーダ等のＥ２Ｅモデルを改善する。１つ又は複数の実施形態において、発声順序を推測するために暗黙的なアテンションベースアライメント方法とともにデータ拡張技法を使用して、本明細書において開示されるシステム及び方法は、エンティティの発声順序が未知である場合にＥ２Ｅモデルを改善することができる。

図４は、一実施形態における、エンドツーエンド音声言語理解機械学習モデルをトレーニングする方法を示すフロー図である。方法は、１つ又は複数のコンピュータプロセッサ、例えば、ハードウェアプロセッサによって実行するか、又はその上に実装することができる。４０２において、方法は、トレーニングデータ、例えば、スピーチ及び当該スピーチに関連付けられた意味表現の対を受信することを備えることができる。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含むことができ、ここで、セマンティックエンティティの発声順序は未知である。スピーチに関連付けられた意味表現の一例は、上記の表２において示されている。意味表現は、スピーチに関連付けられた意図ラベルも含むことができる。スピーチは、音信号、音響信号又はオーディオ信号として受信することができる。

４０４において、方法は、アライメント技法を使用してセマンティックエンティティをスピーチの発声順序に並び替えることを備えることができる。一実施形態では、本明細書において開示されるＳＬＵアライメントは、発声順序を推測するとともにトレーニングデータを再調整するためにモデルを使用することができる。一実施形態では、アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含むことができる。例えば、図２を参照して上記で説明されたように、アライメント技法の一実施形態は、隠れマルコフモデル（ＨＭＭ）とともにハイブリッドＡＳＲを使用することを含むことができる。ＨＭＭハイブリッドＡＳＲの音響モデルは、入力スピーチ又は単語を発音シーケンスに変換することができる。例示のキーワードの発音シーケンスは、図２において示されている。一実施形態では、方法は、スピーチにおけるキーワード（例えば、セマンティックエンティティ）ごとに、声音化された雑音によって区切られるシーケンスにおける発音単位を有するＨＭＭモデルを生成することを備える。方法は、ＨＭＭモデル（例えば、シーケンスにおける発音単位）をスピーチに整列させ、スピーチにおけるこのキーワードについてのおおよその時間又は時間ロケーションを抽出又は取得してよい。スピーチにおけるキーワード（例えば、セマンティックエンティティ）は、その後、スピーチにおけるそれらの時間ロケーションに従って、例えば、時間順（時間が早いほど、順序が先である）に、順序付けすることができる。このようにして、方法は、スピーチにおけるセマンティックエンティティの発声順序を推測してよい。このセマンティックエンティティの推測された発声順序は、ＳＬＵモデルをトレーニングすることにおいて使用することができる。

別の実施形態では、アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む。このアテンションモデルは、まず、ドメインＳＬＵデータ、すなわち、セマンティックエンティティの順序が未知であるグラウンドトゥルースと対にされるスピーチに適合することができる。例えば、アテンションベーススピーチ認識モデル又はＳＬＵモデルをモデル化若しくは実行又はその両方を行うことができ、そのモデルから、アテンションプロットを生成することができる。例えば、アテンションモデルは、発声順序を推測するためにアテンションプロットを生成及び使用するようにアルファベット順に対してトレーニングされてよい。アテンションプロットの一例が図３において示されている。アテンションプロットは、スピーチ内にあるものと仮定されるトークンごとの経時的なアテンション値を示している。例えば、スピーチ認識において一般的に使用されるバイト対符号化（ＢＰＥ：ＢｙｔｅＰａｉｒＥｎｃｏｄｉｎｇ）サブワードユニットが示されている。例えば、「Ｄ＠＠ＥＮ＠＠ＶＥＲ」を復号することにより、単語「ＤＥＮＶＥＲ」を構築することが可能になる。図３において示されている例示のプロットを参照すると、「Ｓｕｎｄａｙ」が８秒時間マーク周辺で生じ、「Ｐｈｉｌａｄｅｌｐｈｉａ」が６秒～８秒時間マーク周辺で生じ、「Ｄｅｎｖｅｒ」が４秒～６秒時間マーク間で生じる。アテンションプロットを使用して、特定の単語又はセマンティックエンティティの最大又は平均時間マーク又は時間マーキングを計算することができる。例えば、「Ｓｕｎｄａｙ」について、「Ｓｕｎｄａｙ」の発音単位の全ての仮定時間ロケーションを抽出及び平均化して、その単語についてのおおよその時間マーキングを生成することができる。キーワード（例えば、セマンティックエンティティ）の時間は、そのような時間マーク又はマーキングに基づいて推測することができる。例えば、セマンティックエンティティは、それらの時間マーキングに基づいて順序付けることができ、例えば、時間マーキングの昇順で順序付けることができる。スピーチの発声順序で順序付けされるセマンティックエンティティは、ＳＬＵモデルをトレーニングすることにおいて使用することができる。

一態様では、スピーチは、雑音含有スピーチデータを含むことができ、アテンションモデルは、雑音含有スピーチデータに適合することができる。

４０６において、方法は、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルをトレーニングすることを備えることができる。音声言語理解機械学習モデルは、新たなスピーチを与えられると、その新たなスピーチに対応するか又はこれに関連付けられた意味表現を予測することが可能であるために、入力としてのスピーチ及びグラウンドトゥルース出力としての意味表現に対してトレーニングされる。意味表現は、例えば、意図ラベル及びセマンティックエンティティを含み、これは、スピーチの意味を表すことができる。

一実施形態では、方法は、セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の受信された対を拡張することも備えることができる。方法は、スピーチ及び意味表現の拡張された対を使用して音声言語理解機械学習モデルを事前トレーニングすることを備えることができる。４０６におけるトレーニングは、その場合、並び替えられたセマンティックエンティティを用いてこの事前トレーニングされた音声言語理解機械学習モデルをトレーニングする。

一実施形態では、事前トレーニングされた音声言語理解機械学習モデルは、例えば４０６におけるトレーニングの前に、アルファベット順で配置されたセマンティックエンティティを使用して更に事前トレーニング、精緻化、又は微調整することができる。例えば、事前トレーニングされた音声言語理解機械学習モデルのパラメータは、アルファベット順で配置されたセマンティックエンティティを用いたトレーニングに基づいて更に調整することができる。この実施形態では、４０６におけるトレーニングは、その場合、この微調整された音声言語理解機械学習モデルをトレーニングすることを含むことができる。

音声言語理解機械学習モデルは、ニューラルネットワークとすることができる。例としては、ＲＮＮ－Ｔ及びエンドツーエンドエンコーダ－デコーダが挙げられ得るが、これらに限定されない。

４０８において、トレーニングされた音声言語理解機械学習モデルを使用又は実行することができ、ここで、入力スピーチ（例えば、音響信号）を与えられると、トレーニングされた音声言語理解機械学習モデルは、例えばセット予測と称されるそのスピーチに関連付けられた意味表現を出力又は予測し、これは、与えられたスピーチに関連付けられた予測された意図ラベル及びセマンティックエンティティを含む。一態様では、トレーニングされたモデルのトレーニング及び実行は、異なるプロセッサ（又はプロセッサのセット）又は同じプロセッサ（又はプロセッサの同じセット）に対して実行することができる。例えば、トレーニングされたモデルは、これがトレーニングされた異なるプロセッサにインポート又はエクスポートすることができ、実行することができる。トレーニングされたモデルは、これがトレーニングされたプロセッサ又はプロセッサのセット上で実行することもできる。

図５は、一実施形態における、エンドツーエンド音声言語理解システムをトレーニングする方法を示す図である。方法は、１つ又は複数のコンピュータプロセッサ、例えば、ハードウェアプロセッサによって実行するか、又はその上に実装することができる。５０２において、トレーニングデータを受信することができ、これは、スピーチ及び当該スピーチに関連付けられた意味表現の対を含むことができる。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含むことができ、ここで、セマンティックエンティティの発声順序は未知である。スピーチに関連付けられた意味表現の一例は、上記の表２において示されている。意味表現は、スピーチに関連付けられた意図ラベルも含むことができる。スピーチは、音信号、音響信号又はオーディオ信号として受信することができる。

５０４において、受信されたトレーニングデータにおけるセマンティックエンティティを摂動させることによってトレーニングデータを拡張して、セマンティックエンティティのランダム順序シーケンスバリエーションを作成することができる。例えば、上記で説明されたように、「ＩｗａｎｔｔｏｆｌｙｔｏＤｅｎｖｅｒｆｒｏｍＰｈｉｌａｄｅｌｐｈｉａｏｎＳｕｎｄａｙ．」というスピーチに対応する、以下の意味表現、すなわち、意図ラベル及びエンティティラベル及び値を含むセットを検討する。
セット：｛｛ｉｎｔｅｎｔ（意図）：ｆｌｉｇｈｔ｝，
｛ｄｅｐａｒｔＤａｔｅ：Ｓｕｎｄａｙ｝，
｛ｆｒｏｍＣｉｔｙ：Ｐｈｉｌａｄｅｌｐｈｉａ｝，
｛ｔｏＣｉｔｙ：Ｄｅｎｖｅｒ｝｝。
スピーチの発声順序でのエンティティは以下のとおりである。
発声順序：ＩＮＴ－ｆｌｉｇｈｔＤｅｎｖｅｒＢ－ｔｏＣｉｔｙＰｈｉｌａｄｅｌｐｈｉａＢ－ｆｒｏｍＣｉｔｙＳｕｎｄａｙＢ－ｄｅｐａｒｔＤａｔｅ。

以下のセットは、エンティティ及び意図ラベルのランダム化順序の例を示している。
Ｓｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）ＩＮＴ＿ｆｌｉｇｈｔ；
Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）ＩＮＴ＿ｆｌｉｇｈｔＳｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）；
ＩＮＴ＿ｆｌｉｇｈｔＤｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）Ｓｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）。

５０６において、音声言語理解機械学習モデル（例えば、ニューラルネットワークモデル）は、拡張されたトレーニングデータを使用して事前トレーニングすることができ、ここで、セマンティックエンティティの異なるランダム順序シーケンスバリエーションを、トレーニングの異なるエポックにおいて使用することができる。トレーニングにおいて、例えば、エンティティ及び意図ラベルの異なるランダム化順序は、各エポックにおいて使用することができる。入力スピーチを与えられると、音声言語理解機械学習モデルを事前トレーニングして、当該与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。

５０８において、事前トレーニングされた音声言語理解機械学習モデルは、アルファベット順でのセマンティックエンティティを使用して更に微調整することができる。微調整は、例えば、アルファベット順に順序付けされた（グラウンドトゥルースデータの一部として受信された）トレーニングデータのセマンティックエンティティを使用して音声言語理解機械学習モデルを再トレーニングすることを含むことができる。例えば、上記の例を続けると、以下のようなエンティティのアルファベット順（例えば、エンティティラベルをアルファベット順で配置することができる）、｛ＩＮＴ＿ｆｌｉｇｈｔＳｕｎｄａｙ（Ｂ－ｄｅｐａｒｔＤａｔｅ）Ｐｈｉｌａｄｅｌｐｈｉａ（Ｂ－ｆｒｏｍＣｉｔｙ）Ｄｅｎｖｅｒ（Ｂ－ｔｏＣｉｔｙ）｝、を使用して、事前トレーニングされたＳＬＵＭＬモデルを微調整することができる。

一実施形態では、５１０において、事前トレーニングされた音声言語理解機械学習モデルは、当該事前トレーニングされた音声言語理解機械学習モデルが意味表現（例えば、意図ラベル及びエンティティラベル等のＳＬＵラベル並びにそれらの値）を出力するために、新たな入力、例えば、新たなスピーチ発話を用いて実行することができる。一実施形態では、事前トレーニングされた音声言語理解機械学習モデルは、例えば、図４を参照して説明されたように、意味表現の発声順序シーケンスを用いて更にトレーニングすることができる。別の態様では、事前トレーニングのためのデータ拡張は、例えば、ランダム順序シーケンスバリエーションを伴うことなく、アルファベット順の順序付けのみを使用してよい。データ拡張の任意の１つ又は複数の組み合わせを使用することができる。

一実施形態では、また、方法は、例えば、図４の４０４及び４０６を参照して説明されたように、アライメント技法を使用してセマンティックエンティティをスピーチの発声順序に並び替えることと、発声順序に並び替えられたセマンティックエンティティを有するトレーニングデータを使用して事前トレーニングされた音声言語理解機械学習モデルを更にトレーニングすることとを備えることができる。上記で説明されたように、セマンティックエンティティを発声順序に並び替えるために、例えば、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを実行することができる。別の実施形態では、例えば、アテンションモデルから導出された時間マーキングは、セマンティックエンティティを発声順序に並び替えるのに使用することができる。一実施形態では、アテンションモデルは、ＳＬＵラベル（例えば、セマンティックエンティティ）に適合することができる。

図６は、１つの実施形態における、音声言語理解機械学習モデル又はシステムをトレーニングすることができるシステムのコンポーネントを示す図である。中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、及び／又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、及び／又は別のプロセッサ等の１つ又は複数のハードウェアプロセッサ６０２は、メモリデバイス６０４に結合され、予測モデル及び推奨通信機会を生成してよい。メモリデバイス６０４は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、又は別のメモリデバイスを含んでよく、本明細書において説明される方法若しくはシステム又はその両方に関連付けられた様々な機能を実装するためのデータ若しくはプロセッサ命令又はその両方を記憶してよい。１つ又は複数のプロセッサ６０２は、メモリ６０４に記憶されるか又は別のコンピュータデバイス若しくは媒体から受信されるコンピュータ命令を実行してよい。メモリデバイス６０４は、例えば、１つ又は複数のハードウェアプロセッサ６０２の機能のための命令若しくはデータ又はその両方を記憶してよく、オペレーティングシステムと、命令若しくはデータ又はその両方の他のプログラムとを含んでよい。１つ又は複数のハードウェアプロセッサ６０２は、例えば、スピーチと、当該スピーチに対応する意味表現、例えば、意図ラベル若しくはセマンティックエンティティ又はその両方との対を含むことができるトレーニングデータを受信してよい。例えば、１つ又は複数のハードウェアプロセッサ６０２は、セマンティックエンティティを対応するスピーチの発声順序に並び替え、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルを生成若しくはトレーニング又はその両方を行ってよい。入力スピーチを与えられると、音声言語理解機械学習モデルをトレーニングして、与えられた入力スピーチに対応するか又は関連付けられた意味表現（例えば、意図ラベル及びセマンティックエンティティ）を予測又は出力することができる。トレーニングデータは、記憶デバイス６０６に記憶されるか、又はリモートデバイスからネットワークインターフェース６０８を介して受信されてよく、学習されたモデル、すなわち、音声言語理解機械学習モデルを構築又は生成するためにメモリデバイス６０４に一時的にロードされてよい。学習されたモデルは、例えば、１つ又は複数のハードウェアプロセッサ６０２によって実行するためにメモリデバイス６０４上に記憶されてよい。１つ又は複数のハードウェアプロセッサ６０２は、例えばネットワークを介して、リモートシステムと通信するためにネットワークインターフェース６０８等のインターフェースデバイスに結合されてよく、また、キーボード、マウス、ディスプレイ、若しくは他のもの又はその組み合わせ等の入力デバイス若しくは出力デバイス又はその両方のデバイスと通信するために入力／出力インターフェース６１０に、結合されてよい。

図７は、１つの実施形態におけるシステムを実装し得る例示のコンピュータ又は処理システムの概略図を示している。コンピュータシステムは、適した処理システムの単に１つの例であり、本明細書において説明される方法論の実施形態の使用又は機能の範囲に関するいかなる限定の示唆も意図するものではない。示されている処理システムは、他の多数の汎用コンピューティングシステム又は専用コンピューティングシステムの環境又は構成とともに動作可能であってよい。図７において示されている処理システムとの使用に適し得る周知のコンピューティングシステム、環境若しくは構成、又はその組み合わせの例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドデバイス又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、並びに、上記のシステム又はデバイス等のうちの任意のものを含む分散クラウドコンピューティング環境が挙げられるが、これらに限定されない。

コンピュータシステムは、コンピュータシステムによって実行される、プログラムモジュール等のコンピュータシステム実行可能命令の一般的文脈において説明されてよい。概して、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、及びデータ構造等を含んでよい。コンピュータシステムは、通信ネットワークを通してリンクされるリモート処理デバイスによってタスクが実行される分散クラウドコンピューティング環境において実施されてよい。分散クラウドコンピューティング環境では、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方にプログラムモジュールが位置してよい。

コンピュータシステムのコンポーネントは、１つ又は複数のプロセッサ又は処理ユニット１２、システムメモリ１６、及びシステムメモリ１６を含む様々なシステムコンポーネントをプロセッサ１２に結合するバス１４を含んでよいが、これらに限定されない。プロセッサ１２は、本明細書において説明される方法を実行するモジュール３０を備えてよい。モジュール３０は、プロセッサ１２の集積回路にプログラミングされてもよいし、メモリ１６、記憶デバイス１８、若しくはネットワーク２４、又はそれらの組み合わせからロードされてもよい。

バス１４は、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート、及び多様なバスアーキテクチャのうちの任意のものを使用するプロセッサ又はローカルバスを含む、幾つかのタイプのバス構造のうちの任意のものの１つ又は複数を表し得る。限定ではなく例示として、そのようなアーキテクチャは、産業標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、エンハンスドＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含む。

コンピュータシステムは、多様なコンピュータシステム可読媒体を含んでよい。そのような媒体は、コンピュータシステムよってアクセス可能である任意の利用可能な媒体であってよく、揮発性及び不揮発性媒体、並びに、取り外し可能媒体及び取り外し不能媒体の両方を含んでよい。

システムメモリ１６は、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュメモリ又はその両方又は他のもの等の揮発性メモリの形式のコンピュータシステム可読媒体を含むことができる。コンピュータシステムは、他の取り外し可能／取り外し不能、揮発性／不揮発性コンピュータシステム記憶媒体を更に含んでよい。単なる例示として、記憶システム１８は、取り外し不能な不揮発性磁気媒体（例えば、「ハードドライブ」）からの読み出し及びそこへの書き込みを行うために提供することができる。示されていないが、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピディスク」）からの読み出し及びそこへの書き込みを行うための磁気ディスクドライブ、及び、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又は他の光学媒体等の取り外し可能な不揮発性光ディスクからの読み出し又はそこへの書き込みを行うための光学ディスクドライブを提供することができる。そのような事例では、各々、１つ又は複数のデータ媒体インターフェースによってバス１４に接続することができる。

コンピュータシステムは、キーボード、ポインティングデバイス、ディスプレイ２８等の１つ若しくは複数の外部デバイス２６等、ユーザがコンピュータシステムとインタラクトすることを可能にする１つ若しくは複数のデバイス、若しくはコンピュータシステムが１つ若しくは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデム等）、又はその組み合わせと通信してもよい。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース２０を介して行うことができる。

なおもさらに、コンピュータシステムは、ネットワークアダプタ２２を介してローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、若しくはパブリックネットワーク（例えば、インターネット）、又はその組み合わせ等の１つ又は複数のネットワーク２４と通信することができる。図示されているように、ネットワークアダプタ２２は、バス１４を介してコンピュータシステムの他のコンポーネントと通信する。示されていないが、他のハードウェア若しくはソフトウェアコンポーネント又はその両方がコンピュータシステムと併せて使用することができることが理解されるべきである。例としては、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、及びデータアーカイブ記憶システム等が挙げられるが、これらに限定されない。

本開示はクラウドコンピューティングに対する説明を含み得るが、本明細書において記載されている教示の実装は、クラウドコンピューティング環境に限定されないことが事前に理解される。むしろ、本発明の実施形態は、現在既知であるか又は今後開発される他の任意のタイプのコンピューティング環境と併せて実装されることが可能である。クラウドコンピューティングは、最小の管理労力又はサービスプロバイダとのインタラクションで迅速にプロビジョニング及びリリースすることができる構成可能コンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス）の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

特性は、以下のとおりである。

オンデマンドセルフサービス：クラウド消費者は、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。

幅広いネットワークアクセス：この能力は、ネットワークを介して利用可能であり、異種のシン又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ）による使用を促す標準メカニズムを通してアクセスされる。

リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化（例えば、国、州、又はデータセンタ）においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。

迅速な弾力性：この能力は、迅速かつ弾力的に、幾つかの事例では自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。

測定されるサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント）に適切な或るレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。

サービスモデルは、以下のとおりである。

ソフトウェアアズアサービス（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ（例えば、ウェブベースの電子メール）等のシンクライアントインターフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ又は更には個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理又は制御しない。

プラットフォームアズアサービス（ＰａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成又は取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。

インフラストラクチャアズアサービス（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

展開モデルは、以下のとおりである。

プライベートクラウド：このクラウドインフラストラクチャは、或る組織のためにのみ動作する。プライベートクラウドは、その組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。

コミュニティクラウド：このクラウドインフラストラクチャは、幾つかの組織によって共有され、共有される関心事項（例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項）を有する特定のコミュニティをサポートする。コミュニティクラウドは、それらの組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。

パブリッククラウド：このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ又はそれより多くのクラウド（プライベート、コミュニティ、又はパブリック）の複合体であり、２つ又はそれより多くのクラウドは、独自のエンティティのままであるが、データ及びアプリケーションのポータビリティ（例えば、クラウド間の負荷分散のためのクラウドバースト）を可能にする標準技術又は独自技術によってともに結合される。

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。

ここで図８を参照すると、例示的なクラウドコンピューティング環境５０が示されている。示されているように、クラウドコンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）若しくは携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、若しくは自動車コンピュータシステム５４Ｎ、又はその組み合わせ等の、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る、１つ又は複数のクラウドコンピューティングノード１０を備える。ノード１０は、互いに通信してよい。ノード１０は、本明細書の上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、若しくはハイブリッドクラウド、又はこれらの組み合わせ等の、１つ又は複数のネットワーク内で物理的に又は仮想的にグループ分けされてよい（図示せず）。これにより、クラウドコンピューティング環境５０は、インフラストラクチャ、プラットフォーム、若しくはソフトウェア、又はその組み合わせを、クラウド消費者がそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能になる。図８において示されているコンピューティングデバイス５４Ａ～Ｎのタイプは、単に例示を意図し、コンピューティングノード１０及びクラウドコンピューティング環境５０は、任意のタイプのネットワーク、若しくはネットワークアドレス指定可能接続（例えば、ウェブブラウザを使用して）、又はその両方を介して、任意のタイプのコンピュータ化デバイスと通信することができることが理解される。

ここで図９を参照すると、クラウドコンピューティング環境５０（図８）によって提供される機能抽象化層のセットが示されている。図９において示されているコンポーネント、層、及び機能は、単に例示を意図するものであり、本発明の実施形態がそれらに限定されないことが事前に理解されるべきである。図示されているように、以下の層及び対応する機能が提供される。

ハードウェア及びソフトウェア層６０は、ハードウェアコンポーネント及びソフトウェアコンポーネントを備える。ハードウェアコンポーネントの例としては、メインフレーム６１、ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースサーバ６２、サーバ６３、ブレードサーバ６４、記憶デバイス６５、並びに、ネットワーク及びネットワーキングコンポーネント６６が挙げられる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７及びデータベースソフトウェア６８を備える。

仮想化層７０は、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーション及びオペレーティングシステム７４、並びに仮想クライアント７５である、仮想エンティティの例が提供され得る抽象化層を提供する。

１つの例では、管理層８０は、以下で説明される機能を提供してよい。リソースプロビジョニング８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計測及び価格設定８２は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及び、これらのリソースの消費に対する課金又は請求書を提供する。１つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル８３は、消費者及びシステムアドミニストレータに対してクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理８４は、要求されるサービス水準が満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意（ＳＬＡ）計画及び履行８５は、将来の要件がＳＬＡに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。

ワークロード層９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例としては、マッピング及びナビゲーション９１、ソフトウェア開発及びライフサイクル管理９２、仮想クラスルーム教育配信９３、データ解析処理９４、トランザクション処理９５、並びに音声言語理解モデル処理９６が挙げられる。

本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法若しくはコンピュータプログラム製品、又はその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、或いは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク若しくは無線ネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、１つ若しくは複数のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよく、１つ若しくは複数のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は同様のプログラミング言語のような手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータ若しくはサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図若しくはブロック図、又はその両方を参照して説明されている。フローチャート図若しくはブロック図、又はその両方の各ブロック、並びに、フローチャート図若しくはブロック図、又はその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置若しくは他のデバイス、又はその組み合わせに対し、特定の方式で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含むようになる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成してもよく、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装するようになる。

図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図面に記載される順序とは異なる順序で行われてよい。例えば、連続して示されている２つのブロックは、実際には、１つの段階として実現されても、同時に、実質的に同時に、部分的に若しくは全体的に時間重複する形で実行されてもよいし、ブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図若しくはフローチャート図、又はその両方の各ブロック、並びにブロック図若しくはフローチャート図、又はその両方におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。

本明細書において使用される専門用語は、特定の実施形態を説明する目的のためだけのものであり、本発明を限定することを意図されていない。本明細書において使用される場合、「１つの／一（ａ、ａｎ）」及び「その（ｔｈｅ）」という単数形は、文脈による別段の明確な指示がない限り、複数形も含むことを意図されている。本明細書において使用される場合、「又は／若しくは」という用語は、包括的な演算子であり、文脈による別段の明示的又は明確な指示がない限り、「及び／又は」を意味することができる。本明細書において使用される場合、「備える（ｃｏｍｐｒｉｓｅ）」、「備える（ｃｏｍｐｒｉｓｅｓ）」、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」若しくは「有する（ｈａｖｉｎｇ）」という用語又はその組み合わせは、述べられている特徴、整数、段階、動作、要素若しくはコンポーネント又はその組み合わせの存在を指定することができるが、１つ又は複数の他の特徴、整数、段階、動作、要素、コンポーネント若しくはそのグループ又はその組み合わせの存在又は追加を除外するものではないことが更に理解されよう。本明細書において使用される場合、「一実施形態では」という言い回しは、必ずしも同じ実施形態を指すとは限らないが、指す場合もある。本明細書において使用される場合、「１つの実施形態では」という言い回しは、必ずしも同じ実施形態を指すとは限らないが、指す場合もある。本明細書において使用される場合、「別の実施形態では」という言い回しは、必ずしも異なる実施形態を指すとは限らないが、指す場合もある。さらに、実施形態及び／又は実施形態のコンポーネントは、それらが相互排他的ではない限り互いに自由に組み合わせることができる。

以下の特許請求の範囲における全ての手段又は段階並びに（存在する場合）機能要素の対応する構造、材料、動作、及び均等物は、具体的に特許請求されているような他の特許請求された要素との組み合わせで機能を実行するための任意の構造、材料、又は動作を含むように意図されている。本発明の説明は、例証及び説明の目的で提示されるが、網羅的であることとも、本発明を開示される形態に限定することも意図されていない。本発明の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。実施形態は、本発明の原理及び実用的な適用を最も良好に説明するために、また、当業者が、企図される特定の使用に適合するような様々な修正を伴う様々な実施形態について本発明を理解することを可能にするために、選択及び説明されている。

Claims

スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階であって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信する段階と、
アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階と、
スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階と
を備える、コンピュータ実装方法。
前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項１に記載のコンピュータ実装方法。
前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項１に記載のコンピュータ実装方法。
前記スピーチは、雑音含有スピーチデータを含み、前記アテンションモデルは、前記雑音含有スピーチデータに適合される、請求項３に記載のコンピュータ実装方法。
前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階を更に備え、前記トレーニングする段階は、
スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、
前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする段階と
を有する、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階を更に備え、前記トレーニングする段階は、
スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、
アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整する段階と、
前記並び替えられたセマンティックエンティティを用いて前記微調整された音声言語理解機械学習モデルをトレーニングする段階と
を有する、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
前記音声言語理解機械学習モデルは、ニューラルネットワークを含む、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
所与のスピーチを前記トレーニングされた音声言語理解機械学習モデルに入力する段階を更に備え、前記トレーニングされた音声言語理解機械学習モデルは、前記所与のスピーチに関連付けられた意図ラベル及びセマンティックエンティティを含むセット予測を出力する、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
プロセッサと、
前記プロセッサに結合されたメモリデバイスと、
を備えるシステムであって、
前記プロセッサは、少なくとも、
スピーチ及び前記スピーチに関連付けられた意味表現の対を含むトレーニングデータを受信することであって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信することと、
前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成することと、
前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングすることであって、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用され、入力スピーチを与えられると、前記音声言語理解機械学習モデルは事前トレーニングされて、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティが出力される、事前トレーニングすることと
を行うように構成されている、システム。
前記プロセッサは、アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整するように更に構成されている、請求項９に記載のシステム。
前記プロセッサは、
アライメント技法を使用して前記セマンティックエンティティを前記スピーチの発声順序に並び替えることと、
スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して前記事前トレーニングされた音声言語理解機械学習モデルを更にトレーニングすることと
を行うように更に構成されている、請求項９または１０に記載のシステム。
前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項１１に記載のシステム。
前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項１１に記載のシステム。
前記スピーチは、雑音含有スピーチデータを含み、前記アテンションモデルは、前記雑音含有スピーチデータに適合される、請求項１３に記載のシステム。
前記音声言語理解機械学習モデルは、ニューラルネットワークを含む、請求項９に記載のシステム。
デバイスに、
スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する手順であって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信する手順と、
アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える手順と、
スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする手順と
を行わせるための、コンピュータプログラム。
前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項１６に記載のコンピュータプログラム。
前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項１６に記載のコンピュータプログラム。
前記コンピュータプログラムは、前記デバイスにさらに、
前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する手順と、
スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする手順と、
を更に実行させ、
前記コンピュータプログラムが前記デバイスに前記音声言語理解機械学習モデルをトレーニングする手順を実行させることは、前記コンピュータプログラムが前記デバイスに前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする手順を実行させることを含む、請求項１６に記載のコンピュータプログラム。
前記コンピュータプログラムは、前記デバイスに、アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整する手順を更に実行させ、前記コンピュータプログラムが前記デバイスに前記音声言語理解機械学習モデルをトレーニングする手順を実行させることは、前記コンピュータプログラムが前記デバイスに、前記並び替えられたセマンティックエンティティを用いて前記微調整された音声言語理解機械学習モデルをトレーニングする手順を実行させることを含む、請求項１９に記載のコンピュータプログラム。