JP2023033160A - コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング) - Google Patents

コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング) Download PDF

Info

Publication number
JP2023033160A
JP2023033160A JP2022126850A JP2022126850A JP2023033160A JP 2023033160 A JP2023033160 A JP 2023033160A JP 2022126850 A JP2022126850 A JP 2022126850A JP 2022126850 A JP2022126850 A JP 2022126850A JP 2023033160 A JP2023033160 A JP 2023033160A
Authority
JP
Japan
Prior art keywords
speech
semantic
training
language understanding
spoken language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022126850A
Other languages
English (en)
Inventor
ホン-クワン クオ
Hong-Kwang Kuo
ゾルタン トゥースケ
Tueske Zoltan
サミュエル トーマス
Thomas Samuel
ブライアン イー.ディー. キングスベリー
E D Kingsbury Brian
ジョージ アンドレイ サオン
Andrei Saon George
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023033160A publication Critical patent/JP2023033160A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声言語理解システムにおいて順序なしのエンティティを用いてトレーニングするコンピュータ実装方法を提供する。【解決手段】方法は、スピーチ及び当該スピーチに関連付けられた意味表現の対をグラウンドトゥルースデータとして含むトレーニングデータを受信することを含む。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含む。セマンティックエンティティの発声順序は未知である。方法はさらに、トレーニングデータにおける意味表現のセマンティックエンティティを、アライメント技法を使用して関連付けられたスピーチの発声順序に並び替えることと、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルをトレーニングすることと、を含む。【選択図】図4

Description

本願は、概して、コンピュータ及びコンピュータアプリケーション、音声言語理解、エンコーダ、デコーダ、アテンションモデル、スピーチ認識に関し、より詳細には、音声言語理解システムにおいて順序なしのエンティティを用いてトレーニングすることに関する。
音声言語理解(SLU)システムは、従来、スピーチをテキストに変換する自動スピーチ認識(ASR)システムと、それに後続する、当該テキストの意味を解釈する自然言語理解(NLU)システムとのカスケードであった。概して、ASR及びそのような従来のSLUシステムは、逐語的トランスクリプトを使用してトレーニングされる。欠点は、逐語的トランスクリプトにおいて全ての単語を正確に書き起こすコストである。
1つ又は複数の実施形態において、エンドツーエンド音声言語理解をトレーニングすることにおいて改善を提供することができるシステム、方法、及び技法を提供することができる。本開示の概要は、エンドツーエンド音声言語理解システムにおいて、エンティティ、例えば、必ずしもスピーチにおいて発声された順序ではない順序で与えられ得るエンティティを用いてトレーニングするコンピュータシステム及び方法の理解を補助するために与えられ、本発明の開示を限定する意図はない。本開示の様々な態様及び特徴は、有利には、幾つかの事例では別個に、又は他の事例では本開示の他の態様及び特徴と組み合わせて、使用され得ることが理解されるべきである。したがって、種々の効果を達成するためにコンピュータシステム若しくはその動作方法又はその両方に対して変形及び修正が行われ得る。
コンピュータ実装方法は、一態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。
コンピュータ実装方法は、別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができ、前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。
コンピュータ実装方法は、更に別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができ、前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。
コンピュータ実装方法は、なおも別の態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。前記方法は、前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階も備えることができる。前記音声言語理解機械学習モデルを前記トレーニングする段階は、スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする段階とを有することができる。
コンピュータ実装方法は、一態様では、スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階を備えることができ、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの前記発声順序は必ずしも既知ではなく、例えば、未知である。前記方法は、アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階も備えることができる。前記方法は、スピーチと前記発声順序での前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階も備えることができる。前記方法は、所与のスピーチを前記トレーニングされた音声言語理解機械学習モデルに入力する段階も備えることができ、前記トレーニングされた音声言語理解機械学習モデルは、前記所与のスピーチに関連付けられた意図ラベル及びセマンティックエンティティを含むセット予測を出力する。
コンピュータ実装方法は、別の態様では、トレーニングデータを受信する段階を備えることができる。前記トレーニングデータは、スピーチ及び前記スピーチに関連付けられた意味表現の対を含むことができる。前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含むことができ、前記セマンティックエンティティの前記発声順序は未知であり、例えば、必ずしも既知ではない。前記方法は、前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成する段階も備えることができる。前記方法は、前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングする段階も備えることができ、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用される。入力スピーチを与えられると、前記音声言語理解機械学習モデルを事前トレーニングして、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。
コンピュータ実装方法は、更に別の態様では、トレーニングデータを受信する段階を備えることができる。前記トレーニングデータは、スピーチ及び前記スピーチに関連付けられた意味表現の対を含むことができる。前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含むことができ、前記セマンティックエンティティの前記発声順序は未知であり、例えば、必ずしも既知ではない。前記方法は、前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成する段階も備えることができる。前記方法は、前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングする段階も備えることができ、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用される。入力スピーチを与えられると、前記音声言語理解機械学習モデルを事前トレーニングして、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。前記方法は、アルファベット順で配置された前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを事前トレーニング又は微調整する(fine-tuning)段階も更に備えることができる。
少なくともプロセッサ及びメモリデバイスを備えるシステムも提供することができ、ここで、少なくとも1つのプロセッサ、又は1つ又は複数のプロセッサは、本明細書において説明される任意の1つ又は複数の方法を実行するように構成することができる。
本明細書において説明される1つ又は複数の方法を実行するために機械によって実行可能な命令のプログラムを記憶するコンピュータ可読記憶媒体も提供されてよい。
以下では、添付の図面を参照しながら、更なる特徴並びに様々な実施形態の構造及び動作が詳細に説明される。図面において、同様の参照番号は、同一又は機能的に同様の要素を示す。
一実施形態におけるエンドツーエンド(E2E)音声言語理解(SLU)システムを示す図である。
一実施形態における、例示のキーワードにおける構成音(constituent phone)に対応する例示のHMMを示す図である。
一実施形態における例示のアテンションプロットである。
一実施形態における、エンドツーエンド(E2E)音声言語理解(SLU)機械学習モデルをトレーニングする方法を示すフロー図である。
別の実施形態における、エンドツーエンド(E2E)音声言語理解(SLU)機械学習モデルをトレーニングする方法を示す図である。
1つの実施形態における、音声言語理解機械学習モデル又はシステムをトレーニングすることができるシステムのコンポーネントを示す図である。
1つの実施形態に係るシステムを実装し得る例示のコンピュータ又は処理システムの概略図である。
1つの実施形態におけるクラウドコンピューティング環境を示す図である。
本開示の1つの実施形態におけるクラウドコンピューティング環境によって提供される機能抽象化層のセットを示す図である。
1つ又は複数の実施形態において、エンドツーエンド音声言語理解をトレーニングすることにおいて改善を提供することができるシステム、方法、及び技法を提供することができる。図1は、一実施形態におけるエンドツーエンド(E2E)音声言語理解(SLU)システムを示す図である。E2E SLUシステムは、例えば、1つ若しくは複数のハードウェアプロセッサ上で実装若しくは実行される又はその両方が行われるか、又は1つ若しくは複数のハードウェアプロセッサに結合される1つ又は複数のコンピュータ実装コンポーネントを含むことができる。1つ又は複数のハードウェアプロセッサは、例えば、プログラマブルロジックデバイス、マイクロコントローラ、メモリデバイス、若しくは、本開示において説明されるそれぞれのタスクを実行するように構成され得る他のハードウェアコンポーネント、又はその組み合わせ等のコンポーネントを含んでよい。結合されるメモリデバイスは、1つ又は複数のハードウェアプロセッサによって実行可能な命令を選択的に記憶するように構成されてよい。プロセッサは、中央処理装置(CPU)、グラフィックス処理装置(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、別の適した処理コンポーネント若しくはデバイス、又はその1つ若しくは複数の組み合わせであってよい。プロセッサは、メモリデバイスに結合されてよい。メモリデバイスは、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、又は別のメモリデバイスを含んでよく、本明細書において説明される方法若しくはシステム又はその両方に関連付けられた様々な機能を実装するためのデータ若しくはプロセッサ命令又はその両方を記憶してよい。プロセッサは、メモリに記憶されるか又は別のコンピュータデバイス若しくは媒体から受信されるコンピュータ命令を実行してよい。
エンドツーエンド(E2E)SLUシステムは、スピーチ入力を、中間のテキストトランスクリプトを通さずに、直接的に意味として処理する。これらのSLUシステムは、逐語的トランスクリプトではなく、エンティティ及び発話レベルの意図のセットに対してトレーニングされてよく、データ収集のコストの劇的な削減がもたらされる。1つ又は複数の実施形態において、本明細書において開示されるシステム、方法及び技法は、E2E SLUシステムが、エンティティ又はセマンティックが発声順序で必ずしも与えられていないトレーニングデータを用いたトレーニングを扱うことを可能にする。
エンドツーエンド(E2E)音声言語理解(SLU)システムでは、入力は、スピーチ(例えば、オーディオ信号又は音響信号)とすることができ、出力は、意味表現とすることができる。例えば、スピーチ102は、SLUモジュール104への入力とすることができ、SLUモジュール104は、機械学習モデル、例えば、ニューラルネットワーク又は深層学習モデル、例えば、限定されないが、リカレントニューラルネットワークトランスデューサ(RNN-T)若しくはアテンションベースエンコーダ/デコーダ又はその両方を含むことができる。SLUモジュール104は、スピーチの意味表現106、例えば、1つ又は複数の意図及びエンティティを出力することができる。
例えば、音声言語理解(SLU)モジュール104は、入力スピーチに対応する、意味表現、例えば、意図検出及びエンティティを提供することができる。一態様では、SLUシステムは、出力を提供する際に全ての単語、又は、どのように入力が発声されるか(例えば、エンティティの順序、単語選択)を提供する必要はない。SLUモジュール104によって提供される出力の例は、以下を含むことができる:
完全なトランスクリプト+セマンティックラベル:(INT-flight)I would like to make a reservation for a flight to Denver(B-toCity)from Philadelphia(B-fromCity)on this coming Sunday(B-departDate);
(訳:(今度の日曜日(B-departDate)にフィラデルフィア(B-fromCity)からデンバー(B-toCity)へのフライトの予約(INT-flight)をしたいです)
発声順序でのセマンティックエンティティ:(INT-flight)Denver(B-toCity)Philadelphia(B-fromCity)Sunday(B-departDate);
セマンティックエンティティのセット(未知の発声順序):
{{intent(意図):flight(フライト)},
{departDate:Sunday(日曜日)},
{fromCity:Philadelphia},
{toCity:Denver}}
SLUモジュール104は、スピーチ及び意味(意図及びエンティティ)の対を含むトレーニングデータのコーパスに対してトレーニングすることができる。対は、例えば、スピーチ及び対応する意味を含む。エンティティは、スロット充填(slot filling)のスロットとも称される。例えば、ユーザコマンド又はクエリ(スピーチ)は、意図及び関連したスロットを抽出することによって解釈される。そのようなコーパスは、手作業のラベル付けによって、又は、自動プロセス(例えば、スピーチ又は発話を与えられるとそのようなラベルを出力するSLU等)によって生成されていてよい。例示として、「show flights from Seattle to San Diego tomorrow(明日のシアトルからサンディエゴへのフライトを教えてください)」等のクエリは、以下の意味表現を有し得る。
Intent(意図):flight info(フライト情報)
Slots(スロット)(entities(エンティティ)):
fromloc:Seattle
toloc:San Diego
depart_date:tomorrow(明日)
表1は、発話又はスピーチに対応する意図及びスロット充填の一例を示している。表1において示されている表記は、「Begin-Inside-Outside(BIO)」表記を使用する。BIO表記において、複数のコンポーネント単語を有するセマンティックエンティティは、「B」、その後「I」でラベル付けされ、例えば、「New B-fromloc York I-fromloc City I-fromloc」であり、非エンティティ単語は、「outside」エンティティであることを示すために「O」でラベル付けされる。
Figure 2023033160000002
例えば、SLUモジュール104は、スピーチからのセマンティックエンティティのセットの予測を提供する。同じ意味を表現する異なる方法が存在し得る。以下の例示のスピーチ又は表現を検討する:
-「I want to fly to Dallas from Reno that makes a stop in Las Vegas.(リノから、ラスベガスを経由し、ダラスに飛びたいです。)」
-「Make reservation to Dallas from Reno with a stop in Las Vegas.(ラスベガスで乗り継ぐ、リノからダラスまでの予約を行う。)」
-「Depart Reno for Dallas with Las Vegas stopover.(リノから出発し、ラスベガスで短時間滞在し、ダラスに向かう。)」
-「I am currently in Reno and have my next client meetings in Dallas so I need a flight reservation but I also want to have a stop in Las Vegas.(私は現在リノにいて、次のクライアントとのミーティングがダラスであるので、飛行機を予約する必要があるのですが、ラスベガスにも立ち寄りたいです。)」
上記のスピーチ又は表現についてのエンティティ及び意図のセットの例が、表2において示されている。1つ又は複数の実施形態において、システム、方法若しくは技法又はその組み合わせは、E2E SLUモデルを改善して、セマンティックエンティティのセットの予測を実行することができる。上記の例の全てが概して同じ意味を有し、これらは、同じ簡略化された意味表現、すなわち、エンティティ及び発話レベルの意図のセットにマッピングすることができ、その一例が表2において示されている。
Figure 2023033160000003
図1において示されているE2E SLUシステムでは、逐語的トランスクリプトを伴わずにセマンティックエンティティ及び発話レベルの意図を使用してトレーニングを実行することができる。モデル化されることになるエンティティのセットは、発声順序(例えば、対応するスピーチにおいてエンティティが発話される順序)で与えられてもよいし、順序は指定されていないものであってもよい。
ASR技法は、逐語的トランスクリプトを生成し、一字一句の精度(word for word accuracy)をターゲットとする。SLUシステムは、発話から正しい意味(例えば、表2)を推測しようとし、エンティティの順序又は単語選択等の要因を考慮する必要はない。例えば、一実施形態では、SLUモデルは、完全なトランスクリプト等の全ての発声された単語を出力するようにトレーニングされてもよい一方、SLUモデルの成功は、SLUによって抽出されるセマンティックラベル及び値のセットによって決定することができる。SLUモデルの成功の例示の尺度は、F1スコアとすることができる。SLUモデルが全ての単語を出力する場合、SLUモデルは、ASRとして使用することもでき、そのようなSLUモデルの成功は、単語誤り率(WER:word error rate)によって測定することができる。一態様では、SLUは、シーケンス予測問題に対し、セット予測問題とみなされ得る。
エンドツーエンドシーケンスツーシーケンスモデルは、種々のタイプのグラウンドトゥルースに対して柔軟にトレーニングすることができる。スピーチ認識の場合、トレーニングデータは、表3において例(0)として示されている、逐語的トランスクリプトを有するスピーチである。SLUモデルをトレーニングするために、文は、発話全体の意図を表すラベルとともに、表3における例(1)において示されているように、エンティティラベルで注釈される。表3における例(2)では、エンティティは、トレーニングのために、自然発声順序で提示される。表3における例(2)は、エンティティの一部ではない全ての単語が除外される点で、例(1)と異なる。エンティティは、より重要なキーフレーズと考えることができるが、しかしながら、他の単語も重要な役割を担う。例えば、「to」及び「from」は、明らかに、都市が目的都市であるのか又は出発都市であるのかを判断するために重要である。SLUモデルは、そのような単語を出力しない場合があるが、これらの単語に対応するスピーチ信号は、SLUモデルが正しいエンティティラベルを出力するのに役立ち得る。
Figure 2023033160000004
一態様では、エンティティのセットの発声順序がトレーニングデータにおいて未知である場合、タスクは、セット予測タスクとみなすことができる。シーケンスツーシーケンスモデルのトレーニングは目標出力シーケンスを要求するので、例(3)では、グラウンドトゥルースは、ラベル名(例えば、stoploc.city name)でアルファベット順にソートされるエンティティを用いて標準化され得る。
従来のASR又はNLUモデルは、カスケード型SLUシステムにおいてこのタイプのデータを用いてトレーニングすることが困難であり得るが、依然としてそのようなデータタイプは、豊富であり、収集のコストがはるかに低いものであり得る。旅行の予約をするために、人間のエージェントがクライアントと話すのを、例えば例(3)にあるようなグラウンドトゥルースに変換され得るウェブフォームまたは他のデータベーストランザクションレコードを埋めるといった、このエージェントにより行われるアクションと共に記録することを考えてみよう。ASR及びNLUを別個にトレーニングするために、スピーチデータの正確な逐語的トランスクリプションは、人間の書き起こし者の場合のリアルタイムの5倍~10倍と、それに加えてエンティティをラベル付けする追加のコストを必要とし得る。対照的に、エンティティのセットを含むトランザクション記録は、顧客を助ける過程から得ることができ、追加のコストを招来させないようにできる。
一態様では、SLUシステムは、スピーチからエンティティのセットを予測するようにトレーニングすることができる。一実施形態では、1つ又は複数のスピーチモデルは、例えば、限定されないが、リカレントニューラルネットワーク(RNN)-トランスデューサ(RNN-T)、LSTMエンコーダを有する、若しくはコンフォーマエンコーダを有する、又はその両方を有するもの等のアテンションベースエンコーダ-デコーダモデルを含む。単調な入力-出力のアライメント制約に起因して、RNN-Tは、エンティティが発声順序ではないグラウンドトゥルースから学習することが困難である可能性が高い。アテンションベースモデルは、より良好に学習する可能性が高い。なぜならば、アテンションベースモデルは、連続した順序ではない場合があるスピーチ信号の関連した部分に着目することが可能であるためである。以下でより完全に説明されるように、1つ又は複数の実施形態では、セット予測の場合、性能を改善するための方法としてデータ拡張及びエンティティの明示的なアライメントを使用することができる。
一態様では、本明細書において開示される1つ又は複数のモデル化技法は、出力ラベル側において様々なセマンティックエンティティ及び意図シーケンスをハンドリングすることができる。一態様では、SLUトレーニングラベルシーケンスが発声順序であることを仮定する必要はない。例えば、本明細書において開示されるシステム及び方法は、目標出力シーケンスをセットとして扱い得る。
一態様では、本明細書において開示されるデータ拡張方法は、出力ラベルレベルにおいて実行される。E2E SLUシステムが生成する入力スピーチ信号の意味は、エンティティ及び意図のセットとして表すことができ、例えば、完全な逐語的トランスクリプトである必要はない。SLUトークンのそのようなセットを特定することは、発声された発話内で特定の単語又は単語のセットが検出されるキーワード探索と同様の方法で扱うことができる。本明細書において開示されるシステム若しくは方法又はその両方が対処することができる別の問題は、SLUモデルが、SLUトークンのキーワード探索又は発見の明示的な段階を伴うことなくこのタスクをどのように自動的に実行することができるかということである。1つ又は複数の実施形態において、システム若しくは方法又はその両方は、音響モデルをトレーニングするためにセットベースデータ拡張若しくはセット並び替え又はその両方を実装し得る。
一態様では、エンドツーエンドモデルは、条件付き独立仮定を伴うことなく、音響特徴のシーケンスをシンボルのシーケンスに直接マッピングする。入力及び目標シーケンス長に起因して存在するアライメント問題は、エンドツーエンド手法に依存して異なるようにハンドリングすることができる。SLUのために使用することができるモデルの例としては、スピーチ認識のための以下のモデルが挙げられる。他のモデルも、使用又は適合することができる。
RNNトランスデューサモデル
RNN-Tは、入力及び出力のシーケンスを整列させるために特別な空白シンボル及び格子構造を導入する。モデルは、3つの異なるサブネットワーク、すなわち、トランスクリプションネットワーク、予測ネットワーク、及び結合ネットワークを含むことができる。トランスクリプションネットワークは、音響埋め込みを生成し、その一方、予測ネットワークは、モデルによって生成される以前の非空白シンボルを条件とするという点で言語モデルと類似している。結合ネットワークは、2つの埋め込み出力を組み合わせて、空白を含む出力シンボルにわたる事後分布を生成する。RNN-TベースSLUモデルは、2つの段階において、すなわち、ASRモデルを構築することと、その後、ASRモデルを、転移学習を通じてSLUモデルに適合することとによって、作成することができる。第1の段階では、モデルは、当該モデルが、スピーチをテキストに書き起こす方法を効果的に学習することを可能にするために大量の汎用ASRデータに対して事前トレーニングされる。事前トレーニング段階における目標が書記素/発音トークンのみであることを所与とすると、モデルがSLUデータを使用して適合される前に、セマンティックラベルが追加の出力目標として追加される。これらの新たなSLUラベルは、追加のシンボルを含めるために予測ネットワークの出力層及び埋め込み層をサイズ変更することによって統合される。新たなネットワークパラメータは、ランダムに初期化され、その一方、残りの部分は、事前トレーニングされたネットワークから初期化される。ネットワークが修正されると、ネットワークは、ASRモデルをトレーニングするのと同様の段階においてSLUデータに対してその後トレーニングされる。
アテンションベースLSTMエンコーダ-デコーダモデル
このモデルは、明示的な隠れ変数を導入することなく、シーケンス事後確率を推定する。アライメント問題は、出力シーケンスと同調してトレーニング可能アテンション機構を用いて動的に入力ストリームをスカッシングする(squashing)ことによって内部でハンドリングされる。モデルは、非単調アライメントを伴う問題をハンドリングすることが可能である。RNN-T及びアテンションエンコーダ-デコーダモデルの構造は、類似している。アテンションベースモデルは、音響埋め込みを生成するためにLSTMベースエンコーダネットワークも含む。シングルヘッドLSTMデコーダは、言語モデルのようなコンポーネントと、音響埋め込み及びシンボルシーケンスの埋め込みを組み合わせてコンテキストベクトルにし、次のシンボルを予測するアテンションモジュールとを含む。アテンションベースエンコーダ-デコーダASRモデルのSLUへの適合は、RNN-Tについて説明されているものと同じ段階を使用して実行することができる。
アテンションベースコンフォーマエンコーダ-デコーダモデル
一実施形態では、エンコーダ-デコーダモデルのエンコーダにアテンション機構を追加することができる。コンフォーマは、スピーチ認識結果を達成することができる、畳み込みニューラルネットワーク及びセルフアテンションベーストランスフォーマの組み合わせである。アテンションモデルの一実施形態では、エンコーダをコンフォーマとすることができる。別の実施形態では、デコーダをコンフォーマとすることができる。
様々な実施形態において、エンドツーエンド音声言語理解(SLU)システム(例えば、図1において示されている)は、指定されていない順序で(例えば、必ずしも発声順序ではない)与えられるグラウンドトゥルースセマンティックエンティティと対にされたスピーチを使用して、例えば、セマンティックエンティティが指定されていない順序で提供されるデータを使用して、トレーニングすることができる。一実施形態では、1つ又は複数のSLUアライメント方法は、発声順序でデータを準備するためにトレーニングデータにおいてセマンティックエンティティの発声順序を推測するように提供することができる。一実施形態では、グラウンドトゥルースにおけるエンティティ順序におけるばらつきに対してモデルを鈍感にさせるために、セマンティックエンティティがモデル事前トレーニング中にランダム順序で提示されるデータ拡張の補足方法を提供することができる。
有利には、本明細書において開示されるシステム及び方法は、費用がより低い注釈を可能にすることができ、例えば、トレーニングデータのグラウンドトゥルースは、発声順序が未知であるか又は指定されていないセマンティックエンティティとすることができる。一実施形態では、スピーチ信号において存在する音響事象に直接結び付けられないセマンティックラベルをモデル化するのに使用することができる、アテンションベースエンコーダ-デコーダモデル又はリカレントニューラルネットワークトランスデューサ(RNN-T)モデル等のエンドツーエンドモデルを、与えられるセマンティックエンティティがトレーニング中に発声順序ではない場合があっても、使用することができる。有益には、例えば、本明細書において開示されるシステム及び方法は、ASR及びSLUのために使用され得る、RNN-Tのような単調な(非並び替えの)モデルを使用することを可能にすることができ、エンティティの発声順序がトレーニングデータのために未知である場合であっても、SLU性能(F1スコア)を改善することができ、例えば、SLU性能を、発声順序での完全なトランスクリプト又はエンティティに対してトレーニングされたSLUと同様の性能に改善することができる。
一実施形態では、本明細書において開示されるSLUアライメント手法は、発声順序を推測することと、SLUモデルトレーニングのためにセマンティックエンティティのセットを発声順序に並び替えることとを含むことができる。一実施形態では、本明細書において開示されるセットベースデータ拡張技法は、トレーニングのためのグラウンドトゥルースにおけるエンティティの順序に対してSLUモデルをよりロバストにするために、発声されたエンティティのランダム順序バリエーションを作成することを含むことができる。
SLUアライメントのために、種々の方法が存在し得る。一実施形態では、エンティティのセットの根源的な発声順序を見つけるSLUアライメント方法は、キーワード探索のための手順を利用することができる。音響的キーワードスポッティングでは、複数の(例えば、2つの)種類の音響モデルの組み合わせを使用することができる。例えば、探索されているキーワードはその根源的な発音列によってモデル化される一方、全ての非キーワードスピーチは、ガーベジモデル(garbage model)によってモデル化される。例えば、従来のハイブリッドASRモデルを使用して、キーワードにおける構成音に対応する隠れマルコフモデル(HMM)の連結として、探索されているキーワードのためのモデルを構築することができる。単音(phone)は、音素(実際の音)の発音表現(phonetic representation)である。ガーベジモデルは、声音及び静寂を含む背景音の一般的な単音によって表すことができる。方法は、その場合、これらのモデルをともに直列に並べることができ、すなわち、まずガーベジモデル、次にキーワードモデル、そして最後に再びガーベジモデルに並べることができ、その後、ASRモデルを使用して発話及びキーワードモデルを強制的に配列させる(force-align)。SLUアライメント方法のこの実施形態は、セマンティックエンティティを発声順序に置いて、例えば、SLUのためのセット予測を改善するために、使用することができる。
図2は、例示のキーワードにおける構成音に対応する例示のHMMを示している。例えばハイブリッドASRモデルを使用してセットを発声順序に並び替えることは、明示的なキーワード探索ベースのアライメントを含むことができる。一実施形態では、エンティティ値ごとに、おおよその時間を見つけるために、アライメント方法は、HMM(ガーベジ-キーワード-ガーベジ)を構築し、例えばエンティティ値「Newark」(VN=声音化された雑音)についての強制アライメント(forced alignment)を実行してよい。図2では、例示のキーワード(エンティティ値)は、構成音によって204、206、208、210において表されている。雑音は、202及び212において表されている。各エンティティの時間情報を使用して、アライメント方法は、それらを発声順序に並び替えることができる。例えば、以下のように所与のセットの一例を検討する。
セット:{{intent(意図):flight},
{departDate:Sunday},
{fromCity:Philadelphia},
{toCity:Denver}}。
セットは、以下のように、発声された発話「I would like to make a reservation for a flight to Denver from Philadelphia on Sunday(日曜日のフィラデルフィアからデンバーまでのフライトを予約したいです)」に基づいて発声順序に並び替えることができる。
発声順序:INT-flight Denver B-toCity Philadelphia B-fromCity Sunday B-departDate。
別の実施形態では、SLUアライメント方法は、アテンション値を使用することができる。この実施形態では、アテンションを使用して暗示的な内部アライメントを実行することができる。アテンションモデルは、非発声順序でのSLUエンティティをハンドリングすることが可能であり得、シングルヘッドアテンションは、音響特徴ストリーム内の対応する時間位置における発声されたトークンについて鋭い焦点を有することができる。この観測値に基づいて、SLU語句の発声順序を推定することができる。その後、方法は、ヒューリスティックを使用して、語句の発声順序が未知である場合にSLU語句ごとに平均時間位置を推定し、SLU語句ごとに平均時間位置を計算することができ、これによって、語句の発声順序を再確立することができる。
例えば、この実施形態では、SLUアライメント方法は、アルファベット順のグラウンドトゥルースに対してアテンションベースモデルをトレーニングすることと、アテンションプロットを使用して各SLU語句の平均時間位置を決定することとを含んでよい。一実施形態では、以下のヒューリスティックは、語句の発声順序が未知である場合にSLU語句ごとに平均時間位置を推定する:
Figure 2023033160000005
ここで、αt,nは、各音響フレームtにおける第nの出力トークンについてのアテンションを示す。発声されたBPEトークン及びエンティティラベルを含む第iのSLU語句が、出力シーケンスにおける位置nにおいて開始し、ni+1-1において終了するものとし、また、NがBPE(発声)トークンの位置のみを含むものとする。図3は、例示のアテンションプロットを示しており、このアテンションプロットにおいて、x軸は(tに対応する)スピーチ信号内の時間であり、y軸は(上から下の順のnに対応する)BPEトークン及びエンティティラベルのシーケンスを含み、αt,nの値は、ピクセルの暗さの程度によって表される。図3では、「I would like to make a reservation for a flight to Denver from Philadelphia on this coming Sunday(次の日曜日のフィラデルフィアからデンバーまでのフライトを予約したいです)」についてのアテンションプロットが示されており、ここで、グラウンドトゥルースは、ラベル名によるアルファベット順でのエンティティである。発声されたトークンのみを検討すると、式1は、SLU語句ごとに平均時間位置を計算し、これによって、語句の発声順序を再確立することができる。
セット予測問題の場合、システム若しくは方法又はその両方に、発声順序を知ることなくエンティティのセットを提供することができる。セット予測問題は、所与のスピーチ発話又は入力スピーチ発話の意味表現(意図及びエンティティを含むことができる)を予測することを指す。例えば、グラウンドトゥルースデータ(発声順序を知ることなく与えられたエンティティのセット)は、SLUモデル、例えば、シーケンスツーシーケンスモデルをトレーニングするのに使用することができる。一実施形態では、シーケンスツーシーケンスモデルをトレーニングするために、システム若しくは方法又はその両方は、例えばラベル名(例えば、fromCity)のアルファベット順ソートによってエンティティ順序を標準化することを任意に選択することができる。ロバスト性を一層改善するために、システム若しくは方法又はその両方は、様々なE2Eモデルを事前トレーニングするのに使用されるグラウンドトゥルースにおけるエンティティ及び意図ラベルの順序をランダム化するデータ拡張を使用又は実装することができる。この事前トレーニングフェーズ中、モデルに、各エポックにおいてグラウンドトゥルースの異なるバージョンを提示することができる。例示として、以下は、例えば、異なるエポックにおいて使用される異なる順序付きシーケンスを事前トレーニングするために使用することができる(例えば、各エポックは、別のエポックにおいて使用されるシーケンスとは異なる順序付きシーケンスを使用する)エンティティ及び意図ラベルのランダム化順序を示す:Sunday(B-departDate) Philadelphia(B-fromCity) Denver(B-toCity) INT_flight;Philadelphia(B-fromCity) INT_flight Sunday(B-departDate) Denver(B-toCity);INT_flight Denver(B-toCity) Sunday(B-departDate) Philadelphia(B-fromCity);等。これらの例示のセットのフォーマットでは、エンティティラベルは、エンティティ値の後の括弧内に示されている。事前トレーニングフェーズには、微調整フェーズが後続することができ、この微調整フェーズにおいて、モデルは、アルファベット順でのエンティティを有するグラウンドトゥルースに対してトレーニングされる。事前トレーニングフェーズにおけるモデルを、グラウンドトゥルースとスピーチとの間のエンティティ順序不一致を有する多くの例に晒すことにより、モデル学習が微調整中により良好になり得る。
1つ又は複数の実施形態において、システム若しくは方法又はその両方は、音声言語理解システムをトレーニングしてよい。SLUトレーニングデータは、セマンティックエンティティ(例えば、ラベル及び値)の順序なしセットとして利用可能であり得る。1つ又は複数の実施形態において、システム若しくは方法又はその両方は、セマンティックエンティティの順序なしセットを、SLUアライメント技法を使用して並び替えてよい。一実施形態では、データを発声順序に並び替えるためのSLUアライメント技法は、ハイブリッドスピーチ認識モデルとともに使用するのに適した音響的キーワードスポッティングベースアライメントスキームを含む。一実施形態では、データを発声順序に並び替えるためのSLUアライメント技法は、エンドツーエンドSLUモデルのアテンション機構から導出された時間マーキングを使用する。1つ又は複数の実施形態において、アテンションモデルは、データを整列及び並び替えするのに使用される前に、(セマンティックエンティティの順序なしセットを有する)SLUデータに対してトレーニングされ得る。これは、例えば、SLUデータが元のスピーチモデルとの音響的不一致、例えば、雑音含有スピーチを有する場合、有用であり得る。1つ又は複数の実施形態において、システム若しくは方法又はその両方は、SLUシステムをトレーニングするために発声順序に並び替えられたデータを使用してよい。1つ又は複数の実施形態において、システム若しくは方法又はその両方は、セマンティックエンティティについてセットベースデータ拡張スキームを用いてSLUモデルを事前トレーニングしてよい。一実施形態では、セットベースデータ拡張方法は、利用可能なトレーニングデータにおけるエンティティ及び意図ラベルの順序をランダム化することができる。1つ又は複数の実施形態において、システム若しくは方法又はその両方は、SLUシステムがセットベースデータ拡張スキームを用いて事前トレーニングされた後に発声順序に並び替えられたデータを使用して当該SLUシステムをトレーニングしてよい。
1つ又は複数のSLUモデルは、例えば利用可能であり得るグラウンドトゥルースデータを使用してトレーニングすることができる。例えば、1つ又は複数のSLUモデルは、特定の用途、例えば特定のドメイン向けの特定用途向けデータコーパスに基づいてトレーニングされてよい。
例示として、一実施形態における例示の実装では、SLUモデル(例えば、図1の104において示されている)は、公衆に利用可能である言語資料コンソーシアム(LDC:Linguistic Data Consortium)コーパスである航空旅行情報システム(ATIS:Air Travel Information Systems)等のデータを使用してトレーニングすることができる。例えば、8kHzにダウンサンプリングされた4976個のトレーニングオーディオファイル(約9.64時間、355人の話者)及び893個のテストオーディオファイル(約1.43時間、355人の話者)が存在し得る。この例では、一実施形態では、E2Eモデルをより良好にトレーニングするために、コーパスの追加のコピーは、速度/テンポ摂動を使用して作成することができ、結果として、トレーニングのために約140時間がもたらされる。この例では、一実施形態では、現実世界の動作条件をシミュレートするために、クリーンな録音に5dB~15dBの信号対雑音比(SNR)の街頭雑音を追加することによって第2の雑音含有ATISコーパスを作成することができる。この約9.64時間の雑音含有トレーニングデータは、データ拡張を介して約140時間に拡大することもできる。対応する雑音含有テストセットも、元のクリーンなテストセットを、5dB SNRの付加的な街頭雑音で損なわせることによって準備することができる。一例では、一実施形態では、意図認識性能は、意図精度によって測定することができ、その一方、スロット充填性能は、F1スコアを用いて測定することができる。テキストの代わりにスピーチ入力を使用する場合、単語は同様に予測されており、誤差が生じ得る。真陽性は、エンティティラベル及び値の両方が正であることを有し得る。例えば、参照がtoloc.city name:new york(ニューヨーク)であるが復号された出力がtoloc.city name:york(ヨーク)である場合、一実施形態では、偽陰性及び偽陽性の両方がカウントされ得る。スコアは、エンティティの順序を認識している必要はなく、したがって、「エンティティのセット」の予測に適したものであり得る。
以下は、様々な実施形態に係るSLUを実装する使用事例を示している。一実施形態では、SLUは、RNN-Tモデルを用いて実装することができる。一例では、SLUのためのRNN-Tモデルは、タスク依存ASRデータに対して事前トレーニングすることができる。例えば、利用可能なコーパスからのデータに対してトレーニングされたASRモデルを使用することができる。コネクショニスト時系列分類(CTC:connectionist temporal classification)音響モデルは、RNN-Tモデルのトランスクリプションネットワークを初期化するためにトレーニング及び使用することができる。例えば、RNN-Tモデルは、層毎、方向毎に640個のセルを有する6つの双方向LSTM層を含むトランスクリプションネットワークを有することができる。予測ネットワークは、768個のセルを有する単一の一方向LSTM層である。結合ネットワークは、トランスクリプションネットの最終層からの1280次元スタックエンコーダベクトル及び768次元予測ネット埋め込みをそれぞれ256次元に写像し、それらを乗算するように組み合わせ、双曲線正接(hyperbolic tangent)を適用する。この後、出力は、45文字+空白に対応する46個のロジット(logit)に写像され、それにソフトマックス層が後続する。合計で、モデルは、57M個のパラメータを有する。モデルは、20回のエポックにわたってPyTorchにおいてトレーニングすることができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。SLU適合中、新たなネットワークパラメータは、ランダムに初期化され、その一方、ネットワークの残りの部分は、事前トレーニングされたネットワークからコピーされる。エンティティ/意図タスクに応じて、事前トレーニングされたネットワークに、エンティティ/意図目標として更なる出力ノード(例えば、151個)を追加することができる。
別の例示の実施形態では、SLUは、アテンションベースLSTMエンコーダ-デコーダSLUモデルを用いて実装することができる。例示の実装では、アテンションベースE2Eモデルは、6層双方向LSTMエンコーダ及び2層一方向LSTMデコーダを有することができ、エンティティ及び意図ラベルで拡張された約600個のBPEユニットの事後確率をモデル化する。各LSTM層内のノードの数は、方向毎に768であり得る。デコーダの第1のLSTMは、埋め込まれた予測シンボルシーケンスに対してのみ動作し、その一方、第2のLSTMは、シングルヘッドアディティブロケーション認識アテンション機構を使用して音響及びシンボル情報を処理する。ドロップアウト率及びドロップコネクト率は、エンコーダにおいて0.3に、かつデコーダにおいて0.15に設定される。加えて、0.10の確率を有するゾーンアウトを、デコーダの第2のLSTM層に適用することもできる。全体として、モデルは、57M個のパラメータを含むことができる。ASR事前トレーニングのために、標準的なSwitchboard-300コーパスを使用することができ、モデルは、192個のシーケンスのバッチを用いた450k個の更新段階においてAdamWによってランダム初期化から最適化することができる。SLU微調整は、約100k個の段階において16個のシーケンスのバッチを用いて実行することができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。
別の例示の実施形態では、SLUは、アテンションベースコンフォーマエンコーダ-デコーダSLUモデルを用いて実装することができる。一実施形態では、エンコーダにセルフアテンションを追加するために、LSTMエンコーダをコンフォーマエンコーダに置き換えることができる。全体として、モデルは、68M個のパラメータを含むことができる。他の設計及び実装の選択肢、すなわち、ハイパーパラメータが可能である。
SLUモデルトレーニングのために、1)ASRモデルをSLUモデルに適合するためのセマンティックラベルを有する完全な逐語的トランスクリプト、2)自然発声順序でのエンティティのみを含むグラウンドトゥルース、3)データ拡張若しくは1つ若しくは複数の事前アライメント方法又はその組み合わせを用いた未知の発声順序でのエンティティを含むグラウンドトゥルース、を使用して別個に実行した様々な実験は、未知の発声順序を有するグラウンドトゥルースエンティティを用いる場合でさえ、本明細書において説明される1つ又は複数の方法を使用して正確なSLUモデルをトレーニングすることができることを実証している。
例えば、方法は、データ拡張を適用することができ、ここで、方法は、事前トレーニングフェーズにおけるモデルを、様々なランダム順序付けでのエンティティを有するグラウンドトゥルースに晒してよく、これに、アルファベット順のエンティティに対する微調整が後続する。例えば、RNN-Tモデルにおいて、ランダム順序拡張は、雑音含有条件において等で性能を改善することができる。例えば、データ拡張は、モデルがトレーニング中に対処する必要がある様々な雑音タイプを当該モデルが補償することを助け得る。音響雑音及び同様にラベル不一致に対処する一方、データ拡張は、モデルをより良好に正則化することを助け得る。データ拡張を通して導入される多様なデータは、モデルを改善し得る。例えば、アテンションベースエンコーダ-デコーダモデルの場合、例えば、クリーン条件及び雑音含有条件の双方においてランダム順序データ拡張を使用して一貫した改善を観測することができる。同様に、コンフォーマエンコーダを用いると、クリーン条件及び雑音含有条件において改善を見ることができる。
方法は、エンティティをスピーチに整列させることによってエンティティの発声順序を推測し、その後、このグラウンドトゥルースを使用してSLUモデルをトレーニングすることもできる。一実施形態では、アライメントのために、方法は、ハイブリッドASRモデルに基づくものであり得る。別の実施形態では、アライメントのために、方法は、アテンションモデルに基づくものであり得る。RNN-Tモデルの場合、エンティティの発声順序を推測すること及び整列されたグラウンドトゥルースに対してトレーニングすることは、性能を改善することを助ける。アテンションベースエンコーダ-デコーダモデル及びコンフォーマエンコーダの場合にも、整列されたグラウンドトゥルースデータに対するトレーニングにおいて改善を観測することができる。
一実施形態では、SLUモデルをトレーニングすることにおいてデータ拡張及び事前アライメントの両方の方法を使用することができ、ここで、方法は、ランダムに順序付けられたエンティティに対して事前トレーニングされたモデルを用いて初期化し、並び替えられたグラウンドトゥルースに対して微調整を適用してよい。実験は、SLUモデル、例えば、アテンションベースエンコーダ-デコーダモデル、コンフォーマエンコーダ、RNN-T等の種々のタイプのモデルにおいて、また、クリーン条件及び雑音含有条件においても性能の改善を示している。
音声言語理解(SLU)システムは、入力スピーチ信号の意味を決定することができ、例えば、その一方、スピーチ認識は、逐語的トランスクリプトを生成することを目的とする。エンドツーエンド(E2E)スピーチモデル化は、セマンティックエンティティに対してのみトレーニングしてよく、セマンティックエンティティは、逐語的トランスクリプトよりも収集の費用がより低い。このセット予測問題は、指定されていないエンティティ順序を有することができる。1つ又は複数の実施形態におけるシステム若しくは方法又はその両方は、トレーニングエンティティシーケンスが必ずしも発声順序で配置されない場合があるトレーニングデータとともに機能することが可能であるように、RNNトランスデューサ及びアテンションベースエンコーダ-デコーダ等のE2Eモデルを改善する。1つ又は複数の実施形態において、発声順序を推測するために暗黙的なアテンションベースアライメント方法とともにデータ拡張技法を使用して、本明細書において開示されるシステム及び方法は、エンティティの発声順序が未知である場合にE2Eモデルを改善することができる。
図4は、一実施形態における、エンドツーエンド音声言語理解機械学習モデルをトレーニングする方法を示すフロー図である。方法は、1つ又は複数のコンピュータプロセッサ、例えば、ハードウェアプロセッサによって実行するか、又はその上に実装することができる。402において、方法は、トレーニングデータ、例えば、スピーチ及び当該スピーチに関連付けられた意味表現の対を受信することを備えることができる。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含むことができ、ここで、セマンティックエンティティの発声順序は未知である。スピーチに関連付けられた意味表現の一例は、上記の表2において示されている。意味表現は、スピーチに関連付けられた意図ラベルも含むことができる。スピーチは、音信号、音響信号又はオーディオ信号として受信することができる。
404において、方法は、アライメント技法を使用してセマンティックエンティティをスピーチの発声順序に並び替えることを備えることができる。一実施形態では、本明細書において開示されるSLUアライメントは、発声順序を推測するとともにトレーニングデータを再調整するためにモデルを使用することができる。一実施形態では、アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含むことができる。例えば、図2を参照して上記で説明されたように、アライメント技法の一実施形態は、隠れマルコフモデル(HMM)とともにハイブリッドASRを使用することを含むことができる。HMMハイブリッドASRの音響モデルは、入力スピーチ又は単語を発音シーケンスに変換することができる。例示のキーワードの発音シーケンスは、図2において示されている。一実施形態では、方法は、スピーチにおけるキーワード(例えば、セマンティックエンティティ)ごとに、声音化された雑音によって区切られるシーケンスにおける発音単位を有するHMMモデルを生成することを備える。方法は、HMMモデル(例えば、シーケンスにおける発音単位)をスピーチに整列させ、スピーチにおけるこのキーワードについてのおおよその時間又は時間ロケーションを抽出又は取得してよい。スピーチにおけるキーワード(例えば、セマンティックエンティティ)は、その後、スピーチにおけるそれらの時間ロケーションに従って、例えば、時間順(時間が早いほど、順序が先である)に、順序付けすることができる。このようにして、方法は、スピーチにおけるセマンティックエンティティの発声順序を推測してよい。このセマンティックエンティティの推測された発声順序は、SLUモデルをトレーニングすることにおいて使用することができる。
別の実施形態では、アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む。このアテンションモデルは、まず、ドメインSLUデータ、すなわち、セマンティックエンティティの順序が未知であるグラウンドトゥルースと対にされるスピーチに適合することができる。例えば、アテンションベーススピーチ認識モデル又はSLUモデルをモデル化若しくは実行又はその両方を行うことができ、そのモデルから、アテンションプロットを生成することができる。例えば、アテンションモデルは、発声順序を推測するためにアテンションプロットを生成及び使用するようにアルファベット順に対してトレーニングされてよい。アテンションプロットの一例が図3において示されている。アテンションプロットは、スピーチ内にあるものと仮定されるトークンごとの経時的なアテンション値を示している。例えば、スピーチ認識において一般的に使用されるバイト対符号化(BPE:Byte Pair Encoding)サブワードユニットが示されている。例えば、「D@@EN@@VER」を復号することにより、単語「DENVER」を構築することが可能になる。図3において示されている例示のプロットを参照すると、「Sunday」が8秒時間マーク周辺で生じ、「Philadelphia」が6秒~8秒時間マーク周辺で生じ、「Denver」が4秒~6秒時間マーク間で生じる。アテンションプロットを使用して、特定の単語又はセマンティックエンティティの最大又は平均時間マーク又は時間マーキングを計算することができる。例えば、「Sunday」について、「Sunday」の発音単位の全ての仮定時間ロケーションを抽出及び平均化して、その単語についてのおおよその時間マーキングを生成することができる。キーワード(例えば、セマンティックエンティティ)の時間は、そのような時間マーク又はマーキングに基づいて推測することができる。例えば、セマンティックエンティティは、それらの時間マーキングに基づいて順序付けることができ、例えば、時間マーキングの昇順で順序付けることができる。スピーチの発声順序で順序付けされるセマンティックエンティティは、SLUモデルをトレーニングすることにおいて使用することができる。
一態様では、スピーチは、雑音含有スピーチデータを含むことができ、アテンションモデルは、雑音含有スピーチデータに適合することができる。
406において、方法は、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルをトレーニングすることを備えることができる。音声言語理解機械学習モデルは、新たなスピーチを与えられると、その新たなスピーチに対応するか又はこれに関連付けられた意味表現を予測することが可能であるために、入力としてのスピーチ及びグラウンドトゥルース出力としての意味表現に対してトレーニングされる。意味表現は、例えば、意図ラベル及びセマンティックエンティティを含み、これは、スピーチの意味を表すことができる。
一実施形態では、方法は、セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の受信された対を拡張することも備えることができる。方法は、スピーチ及び意味表現の拡張された対を使用して音声言語理解機械学習モデルを事前トレーニングすることを備えることができる。406におけるトレーニングは、その場合、並び替えられたセマンティックエンティティを用いてこの事前トレーニングされた音声言語理解機械学習モデルをトレーニングする。
一実施形態では、事前トレーニングされた音声言語理解機械学習モデルは、例えば406におけるトレーニングの前に、アルファベット順で配置されたセマンティックエンティティを使用して更に事前トレーニング、精緻化、又は微調整することができる。例えば、事前トレーニングされた音声言語理解機械学習モデルのパラメータは、アルファベット順で配置されたセマンティックエンティティを用いたトレーニングに基づいて更に調整することができる。この実施形態では、406におけるトレーニングは、その場合、この微調整された音声言語理解機械学習モデルをトレーニングすることを含むことができる。
音声言語理解機械学習モデルは、ニューラルネットワークとすることができる。例としては、RNN-T及びエンドツーエンドエンコーダ-デコーダが挙げられ得るが、これらに限定されない。
408において、トレーニングされた音声言語理解機械学習モデルを使用又は実行することができ、ここで、入力スピーチ(例えば、音響信号)を与えられると、トレーニングされた音声言語理解機械学習モデルは、例えばセット予測と称されるそのスピーチに関連付けられた意味表現を出力又は予測し、これは、与えられたスピーチに関連付けられた予測された意図ラベル及びセマンティックエンティティを含む。一態様では、トレーニングされたモデルのトレーニング及び実行は、異なるプロセッサ(又はプロセッサのセット)又は同じプロセッサ(又はプロセッサの同じセット)に対して実行することができる。例えば、トレーニングされたモデルは、これがトレーニングされた異なるプロセッサにインポート又はエクスポートすることができ、実行することができる。トレーニングされたモデルは、これがトレーニングされたプロセッサ又はプロセッサのセット上で実行することもできる。
図5は、一実施形態における、エンドツーエンド音声言語理解システムをトレーニングする方法を示す図である。方法は、1つ又は複数のコンピュータプロセッサ、例えば、ハードウェアプロセッサによって実行するか、又はその上に実装することができる。502において、トレーニングデータを受信することができ、これは、スピーチ及び当該スピーチに関連付けられた意味表現の対を含むことができる。意味表現は、少なくともスピーチに関連付けられたセマンティックエンティティを含むことができ、ここで、セマンティックエンティティの発声順序は未知である。スピーチに関連付けられた意味表現の一例は、上記の表2において示されている。意味表現は、スピーチに関連付けられた意図ラベルも含むことができる。スピーチは、音信号、音響信号又はオーディオ信号として受信することができる。
504において、受信されたトレーニングデータにおけるセマンティックエンティティを摂動させることによってトレーニングデータを拡張して、セマンティックエンティティのランダム順序シーケンスバリエーションを作成することができる。例えば、上記で説明されたように、「I want to fly to Denver from Philadelphia on Sunday.」というスピーチに対応する、以下の意味表現、すなわち、意図ラベル及びエンティティラベル及び値を含むセットを検討する。
セット:{{intent(意図):flight},
{departDate:Sunday},
{fromCity:Philadelphia},
{toCity:Denver}}。
スピーチの発声順序でのエンティティは以下のとおりである。
発声順序:INT-flight Denver B-toCity Philadelphia B-fromCity Sunday B-departDate。
以下のセットは、エンティティ及び意図ラベルのランダム化順序の例を示している。
Sunday(B-departDate) Philadelphia(B-fromCity) Denver(B-toCity) INT_flight;
Philadelphia(B-fromCity) INT_flight Sunday(B-departDate) Denver(B-toCity);
INT_flight Denver(B-toCity) Sunday(B-departDate) Philadelphia(B-fromCity)。
506において、音声言語理解機械学習モデル(例えば、ニューラルネットワークモデル)は、拡張されたトレーニングデータを使用して事前トレーニングすることができ、ここで、セマンティックエンティティの異なるランダム順序シーケンスバリエーションを、トレーニングの異なるエポックにおいて使用することができる。トレーニングにおいて、例えば、エンティティ及び意図ラベルの異なるランダム化順序は、各エポックにおいて使用することができる。入力スピーチを与えられると、音声言語理解機械学習モデルを事前トレーニングして、当該与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティを出力することができる。
508において、事前トレーニングされた音声言語理解機械学習モデルは、アルファベット順でのセマンティックエンティティを使用して更に微調整することができる。微調整は、例えば、アルファベット順に順序付けされた(グラウンドトゥルースデータの一部として受信された)トレーニングデータのセマンティックエンティティを使用して音声言語理解機械学習モデルを再トレーニングすることを含むことができる。例えば、上記の例を続けると、以下のようなエンティティのアルファベット順(例えば、エンティティラベルをアルファベット順で配置することができる)、{INT_flight Sunday(B-departDate) Philadelphia(B-fromCity) Denver(B-toCity)}、を使用して、事前トレーニングされたSLU MLモデルを微調整することができる。
一実施形態では、510において、事前トレーニングされた音声言語理解機械学習モデルは、当該事前トレーニングされた音声言語理解機械学習モデルが意味表現(例えば、意図ラベル及びエンティティラベル等のSLUラベル並びにそれらの値)を出力するために、新たな入力、例えば、新たなスピーチ発話を用いて実行することができる。一実施形態では、事前トレーニングされた音声言語理解機械学習モデルは、例えば、図4を参照して説明されたように、意味表現の発声順序シーケンスを用いて更にトレーニングすることができる。別の態様では、事前トレーニングのためのデータ拡張は、例えば、ランダム順序シーケンスバリエーションを伴うことなく、アルファベット順の順序付けのみを使用してよい。データ拡張の任意の1つ又は複数の組み合わせを使用することができる。
一実施形態では、また、方法は、例えば、図4の404及び406を参照して説明されたように、アライメント技法を使用してセマンティックエンティティをスピーチの発声順序に並び替えることと、発声順序に並び替えられたセマンティックエンティティを有するトレーニングデータを使用して事前トレーニングされた音声言語理解機械学習モデルを更にトレーニングすることとを備えることができる。上記で説明されたように、セマンティックエンティティを発声順序に並び替えるために、例えば、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを実行することができる。別の実施形態では、例えば、アテンションモデルから導出された時間マーキングは、セマンティックエンティティを発声順序に並び替えるのに使用することができる。一実施形態では、アテンションモデルは、SLUラベル(例えば、セマンティックエンティティ)に適合することができる。
図6は、1つの実施形態における、音声言語理解機械学習モデル又はシステムをトレーニングすることができるシステムのコンポーネントを示す図である。中央処理装置(CPU)、グラフィックス処理装置(GPU)、及び/又はフィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は別のプロセッサ等の1つ又は複数のハードウェアプロセッサ602は、メモリデバイス604に結合され、予測モデル及び推奨通信機会を生成してよい。メモリデバイス604は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、又は別のメモリデバイスを含んでよく、本明細書において説明される方法若しくはシステム又はその両方に関連付けられた様々な機能を実装するためのデータ若しくはプロセッサ命令又はその両方を記憶してよい。1つ又は複数のプロセッサ602は、メモリ604に記憶されるか又は別のコンピュータデバイス若しくは媒体から受信されるコンピュータ命令を実行してよい。メモリデバイス604は、例えば、1つ又は複数のハードウェアプロセッサ602の機能のための命令若しくはデータ又はその両方を記憶してよく、オペレーティングシステムと、命令若しくはデータ又はその両方の他のプログラムとを含んでよい。1つ又は複数のハードウェアプロセッサ602は、例えば、スピーチと、当該スピーチに対応する意味表現、例えば、意図ラベル若しくはセマンティックエンティティ又はその両方との対を含むことができるトレーニングデータを受信してよい。例えば、1つ又は複数のハードウェアプロセッサ602は、セマンティックエンティティを対応するスピーチの発声順序に並び替え、スピーチと並び替えられたセマンティックエンティティを有する意味表現との対を使用して音声言語理解機械学習モデルを生成若しくはトレーニング又はその両方を行ってよい。入力スピーチを与えられると、音声言語理解機械学習モデルをトレーニングして、与えられた入力スピーチに対応するか又は関連付けられた意味表現(例えば、意図ラベル及びセマンティックエンティティ)を予測又は出力することができる。トレーニングデータは、記憶デバイス606に記憶されるか、又はリモートデバイスからネットワークインターフェース608を介して受信されてよく、学習されたモデル、すなわち、音声言語理解機械学習モデルを構築又は生成するためにメモリデバイス604に一時的にロードされてよい。学習されたモデルは、例えば、1つ又は複数のハードウェアプロセッサ602によって実行するためにメモリデバイス604上に記憶されてよい。1つ又は複数のハードウェアプロセッサ602は、例えばネットワークを介して、リモートシステムと通信するためにネットワークインターフェース608等のインターフェースデバイスに結合されてよく、また、キーボード、マウス、ディスプレイ、若しくは他のもの又はその組み合わせ等の入力デバイス若しくは出力デバイス又はその両方のデバイスと通信するために入力/出力インターフェース610に、結合されてよい。
図7は、1つの実施形態におけるシステムを実装し得る例示のコンピュータ又は処理システムの概略図を示している。コンピュータシステムは、適した処理システムの単に1つの例であり、本明細書において説明される方法論の実施形態の使用又は機能の範囲に関するいかなる限定の示唆も意図するものではない。示されている処理システムは、他の多数の汎用コンピューティングシステム又は専用コンピューティングシステムの環境又は構成とともに動作可能であってよい。図7において示されている処理システムとの使用に適し得る周知のコンピューティングシステム、環境若しくは構成、又はその組み合わせの例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドデバイス又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラマブル家電製品、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、並びに、上記のシステム又はデバイス等のうちの任意のものを含む分散クラウドコンピューティング環境が挙げられるが、これらに限定されない。
コンピュータシステムは、コンピュータシステムによって実行される、プログラムモジュール等のコンピュータシステム実行可能命令の一般的文脈において説明されてよい。概して、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、及びデータ構造等を含んでよい。コンピュータシステムは、通信ネットワークを通してリンクされるリモート処理デバイスによってタスクが実行される分散クラウドコンピューティング環境において実施されてよい。分散クラウドコンピューティング環境では、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方にプログラムモジュールが位置してよい。
コンピュータシステムのコンポーネントは、1つ又は複数のプロセッサ又は処理ユニット12、システムメモリ16、及びシステムメモリ16を含む様々なシステムコンポーネントをプロセッサ12に結合するバス14を含んでよいが、これらに限定されない。プロセッサ12は、本明細書において説明される方法を実行するモジュール30を備えてよい。モジュール30は、プロセッサ12の集積回路にプログラミングされてもよいし、メモリ16、記憶デバイス18、若しくはネットワーク24、又はそれらの組み合わせからロードされてもよい。
バス14は、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート、及び多様なバスアーキテクチャのうちの任意のものを使用するプロセッサ又はローカルバスを含む、幾つかのタイプのバス構造のうちの任意のものの1つ又は複数を表し得る。限定ではなく例示として、そのようなアーキテクチャは、産業標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、エンハンスドISA(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、及びペリフェラルコンポーネントインターコネクト(PCI)バスを含む。
コンピュータシステムは、多様なコンピュータシステム可読媒体を含んでよい。そのような媒体は、コンピュータシステムよってアクセス可能である任意の利用可能な媒体であってよく、揮発性及び不揮発性媒体、並びに、取り外し可能媒体及び取り外し不能媒体の両方を含んでよい。
システムメモリ16は、ランダムアクセスメモリ(RAM)若しくはキャッシュメモリ又はその両方又は他のもの等の揮発性メモリの形式のコンピュータシステム可読媒体を含むことができる。コンピュータシステムは、他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータシステム記憶媒体を更に含んでよい。単なる例示として、記憶システム18は、取り外し不能な不揮発性磁気媒体(例えば、「ハードドライブ」)からの読み出し及びそこへの書き込みを行うために提供することができる。示されていないが、取り外し可能な不揮発性磁気ディスク(例えば、「フロッピディスク」)からの読み出し及びそこへの書き込みを行うための磁気ディスクドライブ、及び、CD-ROM、DVD-ROM又は他の光学媒体等の取り外し可能な不揮発性光ディスクからの読み出し又はそこへの書き込みを行うための光学ディスクドライブを提供することができる。そのような事例では、各々、1つ又は複数のデータ媒体インターフェースによってバス14に接続することができる。
コンピュータシステムは、キーボード、ポインティングデバイス、ディスプレイ28等の1つ若しくは複数の外部デバイス26等、ユーザがコンピュータシステムとインタラクトすることを可能にする1つ若しくは複数のデバイス、若しくはコンピュータシステムが1つ若しくは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデム等)、又はその組み合わせと通信してもよい。そのような通信は、入力/出力(I/O)インターフェース20を介して行うことができる。
なおもさらに、コンピュータシステムは、ネットワークアダプタ22を介してローカルエリアネットワーク(LAN)、一般的なワイドエリアネットワーク(WAN)、若しくはパブリックネットワーク(例えば、インターネット)、又はその組み合わせ等の1つ又は複数のネットワーク24と通信することができる。図示されているように、ネットワークアダプタ22は、バス14を介してコンピュータシステムの他のコンポーネントと通信する。示されていないが、他のハードウェア若しくはソフトウェアコンポーネント又はその両方がコンピュータシステムと併せて使用することができることが理解されるべきである。例としては、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ、及びデータアーカイブ記憶システム等が挙げられるが、これらに限定されない。
本開示はクラウドコンピューティングに対する説明を含み得るが、本明細書において記載されている教示の実装は、クラウドコンピューティング環境に限定されないことが事前に理解される。むしろ、本発明の実施形態は、現在既知であるか又は今後開発される他の任意のタイプのコンピューティング環境と併せて実装されることが可能である。クラウドコンピューティングは、最小の管理労力又はサービスプロバイダとのインタラクションで迅速にプロビジョニング及びリリースすることができる構成可能コンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス)の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つの展開モデルを含み得る。
特性は、以下のとおりである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:この能力は、ネットワークを介して利用可能であり、異種のシン又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促す標準メカニズムを通してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化(例えば、国、州、又はデータセンタ)においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。
迅速な弾力性:この能力は、迅速かつ弾力的に、幾つかの事例では自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント)に適切な或るレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。
サービスモデルは、以下のとおりである。
ソフトウェアアズアサービス(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)等のシンクライアントインターフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ又は更には個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理又は制御しない。
プラットフォームアズアサービス(PaaS):消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成又は取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
インフラストラクチャアズアサービス(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
展開モデルは、以下のとおりである。
プライベートクラウド:このクラウドインフラストラクチャは、或る組織のためにのみ動作する。プライベートクラウドは、その組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
コミュニティクラウド:このクラウドインフラストラクチャは、幾つかの組織によって共有され、共有される関心事項(例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項)を有する特定のコミュニティをサポートする。コミュニティクラウドは、それらの組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
パブリッククラウド:このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ又はそれより多くのクラウド(プライベート、コミュニティ、又はパブリック)の複合体であり、2つ又はそれより多くのクラウドは、独自のエンティティのままであるが、データ及びアプリケーションのポータビリティ(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準技術又は独自技術によってともに結合される。
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。
ここで図8を参照すると、例示的なクラウドコンピューティング環境50が示されている。示されているように、クラウドコンピューティング環境50は、例えば、携帯情報端末(PDA)若しくは携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、若しくは自動車コンピュータシステム54N、又はその組み合わせ等の、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る、1つ又は複数のクラウドコンピューティングノード10を備える。ノード10は、互いに通信してよい。ノード10は、本明細書の上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、若しくはハイブリッドクラウド、又はこれらの組み合わせ等の、1つ又は複数のネットワーク内で物理的に又は仮想的にグループ分けされてよい(図示せず)。これにより、クラウドコンピューティング環境50は、インフラストラクチャ、プラットフォーム、若しくはソフトウェア、又はその組み合わせを、クラウド消費者がそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能になる。図8において示されているコンピューティングデバイス54A~Nのタイプは、単に例示を意図し、コンピューティングノード10及びクラウドコンピューティング環境50は、任意のタイプのネットワーク、若しくはネットワークアドレス指定可能接続(例えば、ウェブブラウザを使用して)、又はその両方を介して、任意のタイプのコンピュータ化デバイスと通信することができることが理解される。
ここで図9を参照すると、クラウドコンピューティング環境50(図8)によって提供される機能抽象化層のセットが示されている。図9において示されているコンポーネント、層、及び機能は、単に例示を意図するものであり、本発明の実施形態がそれらに限定されないことが事前に理解されるべきである。図示されているように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層60は、ハードウェアコンポーネント及びソフトウェアコンポーネントを備える。ハードウェアコンポーネントの例としては、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャベースサーバ62、サーバ63、ブレードサーバ64、記憶デバイス65、並びに、ネットワーク及びネットワーキングコンポーネント66が挙げられる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67及びデータベースソフトウェア68を備える。
仮想化層70は、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティングシステム74、並びに仮想クライアント75である、仮想エンティティの例が提供され得る抽象化層を提供する。
1つの例では、管理層80は、以下で説明される機能を提供してよい。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計測及び価格設定82は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及び、これらのリソースの消費に対する課金又は請求書を提供する。1つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル83は、消費者及びシステムアドミニストレータに対してクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理84は、要求されるサービス水準が満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意(SLA)計画及び履行85は、将来の要件がSLAに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。
ワークロード層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例としては、マッピング及びナビゲーション91、ソフトウェア開発及びライフサイクル管理92、仮想クラスルーム教育配信93、データ解析処理94、トランザクション処理95、並びに音声言語理解モデル処理96が挙げられる。
本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法若しくはコンピュータプログラム製品、又はその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスに、或いは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク若しくは無線ネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、1つ若しくは複数のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよく、1つ若しくは複数のプログラミング言語は、Smalltalk(登録商標)、C++等のようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は同様のプログラミング言語のような手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータ若しくはサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。
本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図若しくはブロック図、又はその両方を参照して説明されている。フローチャート図若しくはブロック図、又はその両方の各ブロック、並びに、フローチャート図若しくはブロック図、又はその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。
これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置若しくは他のデバイス、又はその組み合わせに対し、特定の方式で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作の態様を実装する命令を含む製品を含むようになる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成してもよく、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作を実装するようになる。
図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する1つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図面に記載される順序とは異なる順序で行われてよい。例えば、連続して示されている2つのブロックは、実際には、1つの段階として実現されても、同時に、実質的に同時に、部分的に若しくは全体的に時間重複する形で実行されてもよいし、ブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図若しくはフローチャート図、又はその両方の各ブロック、並びにブロック図若しくはフローチャート図、又はその両方におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。
本明細書において使用される専門用語は、特定の実施形態を説明する目的のためだけのものであり、本発明を限定することを意図されていない。本明細書において使用される場合、「1つの/一(a、an)」及び「その(the)」という単数形は、文脈による別段の明確な指示がない限り、複数形も含むことを意図されている。本明細書において使用される場合、「又は/若しくは」という用語は、包括的な演算子であり、文脈による別段の明示的又は明確な指示がない限り、「及び/又は」を意味することができる。本明細書において使用される場合、「備える(comprise)」、「備える(comprises)」、「備える(comprising)」、「含む(include)」、「含む(includes)」、「含む(including)」若しくは「有する(having)」という用語又はその組み合わせは、述べられている特徴、整数、段階、動作、要素若しくはコンポーネント又はその組み合わせの存在を指定することができるが、1つ又は複数の他の特徴、整数、段階、動作、要素、コンポーネント若しくはそのグループ又はその組み合わせの存在又は追加を除外するものではないことが更に理解されよう。本明細書において使用される場合、「一実施形態では」という言い回しは、必ずしも同じ実施形態を指すとは限らないが、指す場合もある。本明細書において使用される場合、「1つの実施形態では」という言い回しは、必ずしも同じ実施形態を指すとは限らないが、指す場合もある。本明細書において使用される場合、「別の実施形態では」という言い回しは、必ずしも異なる実施形態を指すとは限らないが、指す場合もある。さらに、実施形態及び/又は実施形態のコンポーネントは、それらが相互排他的ではない限り互いに自由に組み合わせることができる。
以下の特許請求の範囲における全ての手段又は段階並びに(存在する場合)機能要素の対応する構造、材料、動作、及び均等物は、具体的に特許請求されているような他の特許請求された要素との組み合わせで機能を実行するための任意の構造、材料、又は動作を含むように意図されている。本発明の説明は、例証及び説明の目的で提示されるが、網羅的であることとも、本発明を開示される形態に限定することも意図されていない。本発明の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。実施形態は、本発明の原理及び実用的な適用を最も良好に説明するために、また、当業者が、企図される特定の使用に適合するような様々な修正を伴う様々な実施形態について本発明を理解することを可能にするために、選択及び説明されている。

Claims (20)

  1. スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する段階であって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信する段階と、
    アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える段階と、
    スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする段階と
    を備える、コンピュータ実装方法。
  2. 前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項1に記載のコンピュータ実装方法。
  4. 前記スピーチは、雑音含有スピーチデータを含み、前記アテンションモデルは、前記雑音含有スピーチデータに適合される、請求項3に記載のコンピュータ実装方法。
  5. 前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階を更に備え、前記トレーニングする段階は、
    スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、
    前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする段階と
    を有する、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する段階を更に備え、前記トレーニングする段階は、
    スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする段階と、
    アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整する段階と、
    前記並び替えられたセマンティックエンティティを用いて前記微調整された音声言語理解機械学習モデルをトレーニングする段階と
    を有する、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  7. 前記音声言語理解機械学習モデルは、ニューラルネットワークを含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  8. 所与のスピーチを前記トレーニングされた音声言語理解機械学習モデルに入力する段階を更に備え、前記トレーニングされた音声言語理解機械学習モデルは、前記所与のスピーチに関連付けられた意図ラベル及びセマンティックエンティティを含むセット予測を出力する、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  9. プロセッサと、
    前記プロセッサに結合されたメモリデバイスと、
    を備えるシステムであって、
    前記プロセッサは、少なくとも、
    スピーチ及び前記スピーチに関連付けられた意味表現の対を含むトレーニングデータを受信することであって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信することと、
    前記セマンティックエンティティを摂動させることによって前記トレーニングデータを拡張して、前記セマンティックエンティティのランダム順序シーケンスバリエーションを作成することと、
    前記拡張されたトレーニングデータを使用して音声言語理解機械学習モデルを事前トレーニングすることであって、前記セマンティックエンティティの異なるランダム順序シーケンスバリエーションは、トレーニングの異なるエポックにおいて使用され、入力スピーチを与えられると、前記音声言語理解機械学習モデルは事前トレーニングされて、前記与えられた入力スピーチに関連付けられた意図ラベル及びセマンティックエンティティが出力される、事前トレーニングすることと
    を行うように構成されている、システム。
  10. 前記プロセッサは、アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整するように更に構成されている、請求項9に記載のシステム。
  11. 前記プロセッサは、
    アライメント技法を使用して前記セマンティックエンティティを前記スピーチの発声順序に並び替えることと、
    スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して前記事前トレーニングされた音声言語理解機械学習モデルを更にトレーニングすることと
    を行うように更に構成されている、請求項9または10に記載のシステム。
  12. 前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項11に記載のシステム。
  13. 前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項11に記載のシステム。
  14. 前記スピーチは、雑音含有スピーチデータを含み、前記アテンションモデルは、前記雑音含有スピーチデータに適合される、請求項13に記載のシステム。
  15. 前記音声言語理解機械学習モデルは、ニューラルネットワークを含む、請求項9に記載のシステム。
  16. デバイスに、
    スピーチ及び前記スピーチに関連付けられた意味表現の対を受信する手順であって、前記意味表現は、少なくとも前記スピーチに関連付けられたセマンティックエンティティを含み、前記セマンティックエンティティの発声順序は未知である、受信する手順と、
    アライメント技法を使用して前記セマンティックエンティティを前記スピーチの前記発声順序に並び替える手順と、
    スピーチと前記並び替えられたセマンティックエンティティを有する意味表現との前記対を使用して音声言語理解機械学習モデルをトレーニングする手順と
    を行わせるための、コンピュータプログラム。
  17. 前記アライメント技法は、ハイブリッドスピーチ認識モデルとともに使用される音響的キーワードスポッティングを含む、請求項16に記載のコンピュータプログラム。
  18. 前記アライメント技法は、アテンションモデルから導出された時間マーキングを使用することを含む、請求項16に記載のコンピュータプログラム。
  19. 前記コンピュータプログラムは、前記デバイスにさらに、
    前記セマンティックエンティティのランダム順序シーケンスバリエーションを含めるためにスピーチ及び意味表現の前記受信された対を拡張する手順と、
    スピーチ及び意味表現の前記拡張された対を使用して前記音声言語理解機械学習モデルを事前トレーニングする手順と、
    を更に実行させ、
    前記コンピュータプログラムが前記デバイスに前記音声言語理解機械学習モデルをトレーニングする手順を実行させることは、前記コンピュータプログラムが前記デバイスに前記並び替えられたセマンティックエンティティを用いて前記事前トレーニングされた音声言語理解機械学習モデルをトレーニングする手順を実行させることを含む、請求項16に記載のコンピュータプログラム。
  20. 前記コンピュータプログラムは、前記デバイスに、アルファベット順での前記セマンティックエンティティを使用して前記事前トレーニングされた音声言語理解機械学習モデルを微調整する手順を更に実行させ、前記コンピュータプログラムが前記デバイスに前記音声言語理解機械学習モデルをトレーニングする手順を実行させることは、前記コンピュータプログラムが前記デバイスに、前記並び替えられたセマンティックエンティティを用いて前記微調整された音声言語理解機械学習モデルをトレーニングする手順を実行させることを含む、請求項19に記載のコンピュータプログラム。
JP2022126850A 2021-08-27 2022-08-09 コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング) Pending JP2023033160A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/458,772 2021-08-27
US17/458,772 US12046236B2 (en) 2021-08-27 2021-08-27 Training end-to-end spoken language understanding systems with unordered entities

Publications (1)

Publication Number Publication Date
JP2023033160A true JP2023033160A (ja) 2023-03-09

Family

ID=85292823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022126850A Pending JP2023033160A (ja) 2021-08-27 2022-08-09 コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング)

Country Status (3)

Country Link
US (1) US12046236B2 (ja)
JP (1) JP2023033160A (ja)
CN (1) CN115731921A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12094459B2 (en) * 2022-01-05 2024-09-17 International Business Machines Corporation Automated domain-specific constrained decoding from speech inputs to structured resources
US20230317066A1 (en) * 2022-03-09 2023-10-05 Amazon Technologies, Inc. Shared encoder for natural language understanding processing

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043420B2 (en) * 2000-12-11 2006-05-09 International Business Machines Corporation Trainable dynamic phrase reordering for natural language generation in conversational systems
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
US10460728B2 (en) 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms

Also Published As

Publication number Publication date
CN115731921A (zh) 2023-03-03
US20230081306A1 (en) 2023-03-16
US12046236B2 (en) 2024-07-23

Similar Documents

Publication Publication Date Title
Zhou et al. A comparison of modeling units in sequence-to-sequence speech recognition with the transformer on mandarin chinese
US9292489B1 (en) Sub-lexical language models with word level pronunciation lexicons
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
JP7129137B2 (ja) 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム
US11227579B2 (en) Data augmentation by frame insertion for speech data
US11580959B2 (en) Improving speech recognition transcriptions
KR20210138776A (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
US12136414B2 (en) Integrating dialog history into end-to-end spoken language understanding systems
US20220360668A1 (en) Contextualized speech to text conversion
JP2023033160A (ja) コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング)
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
JP2022037862A (ja) テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体
JP2024019082A (ja) システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合)
JP2023552711A (ja) 代替的なソフト・ラベル生成
Potamianos et al. Adaptive categorical understanding for spoken dialogue systems
TWI829312B (zh) 訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統
US12027153B2 (en) Data sorting for generating RNN-T models
JP2023100253A (ja) コンピュータ実装方法、コンピュータプログラム、システム(音声入力から構造化されたリソースへの自動化されたドメイン固有の制約デコード)
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
Kumar et al. An automatic spontaneous speech recognition system for Punjabi language
Markovnikov et al. End-to-end speech recognition in Russian
US20220319494A1 (en) End to end spoken language understanding model
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム