JP2023541651A - 完全なトランスクリプトなしのエンドツーエンドの音声言語理解 - Google Patents
完全なトランスクリプトなしのエンドツーエンドの音声言語理解 Download PDFInfo
- Publication number
- JP2023541651A JP2023541651A JP2023516841A JP2023516841A JP2023541651A JP 2023541651 A JP2023541651 A JP 2023541651A JP 2023516841 A JP2023516841 A JP 2023516841A JP 2023516841 A JP2023516841 A JP 2023516841A JP 2023541651 A JP2023541651 A JP 2023541651A
- Authority
- JP
- Japan
- Prior art keywords
- slu
- model
- data
- training
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000003860 storage Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000013526 transfer learning Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 23
- 230000006978 adaptation Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 230000008901 benefit Effects 0.000 description 8
- 238000011049 filling Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- UKGJZDSUJSPAJL-YPUOHESYSA-N (e)-n-[(1r)-1-[3,5-difluoro-4-(methanesulfonamido)phenyl]ethyl]-3-[2-propyl-6-(trifluoromethyl)pyridin-3-yl]prop-2-enamide Chemical compound CCCC1=NC(C(F)(F)F)=CC=C1\C=C\C(=O)N[C@H](C)C1=CC(F)=C(NS(C)(=O)=O)C(F)=C1 UKGJZDSUJSPAJL-YPUOHESYSA-N 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- DGLFSNZWRYADFC-UHFFFAOYSA-N chembl2334586 Chemical compound C1CCC2=CN=C(N)N=C2C2=C1NC1=CC=C(C#CC(C)(O)C)C=C12 DGLFSNZWRYADFC-UHFFFAOYSA-N 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
音声言語理解(SLU)モデルを訓練する方法およびシステムは、(i)1つまたは複数の音声録音と、(ii)各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することを含む。各音声録音について、対応する意味的エンティティもしくは全体のインテントまたはその両方から1つまたは複数のエンティティラベルと、対応する値、および1つまたは複数のインテントラベルを抽出する。音声言語理解(SLU)モデルは、対応する音声録音のトランスクリプトを必要とせずに、対応する音声録音の1つまたは複数のエンティティラベルと、対応する値、および1つまたは複数のインテントラベルに基づいて訓練される。
Description
本開示は、一般に、コンピュータシステムに関し、より詳細には、話された音声データから意味を抽出するように構成されたコンピュータシステムに関するものである。
近年、音声言語理解(SLU)と自動音声認識(ASR)は、エージェントと顧客の対話を理解する、対話型音声会話システムやコールセンター分析などを含む、様々なアプリケーションでますます重要視されるようになってきている。ASRはコンピュータサイエンスと計算言語学の学際的なサブフィールドで、コンピュータによる音声言語の認識を可能にする技術と方法を提供する。コンピュータサイエンス、言語学、コンピュータエンジニアリングの各分野の知識と研究を取り入れている。ASRは音声をテキスト(単語など)に変換する。これに対し、SLUは、音声を意味(例えば、意味的に注釈されたテキスト)に変換する。音声認識の訓練モデルには、一般的に、トランスクリプトを含む音声データのコーパスが必要である。
様々な実施形態によれば、音声言語理解(SLU)モデルを訓練するためのコンピューティングデバイス、非一時的なコンピュータ可読記憶媒体、及び方法が提供される。訓練段階において、(i)1つまたは複数の音声録音と、(ii)意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データが対応する各音声記録について受信される。各音声録音について、1つまたは複数のエンティティラベルおよび対応する値、および1つまたは複数のインテントラベルが、対応する意味的なエンティティもしくは全体のインテントまたはその両方から抽出される。意味的エンティティが対応する音声録音のトランスクリプトを必要とせずに、音声言語理解(SLU)モデルは、対応する音声発話録音の1つまたは複数のエンティティラベルと、対応する値、および1つまたは複数のインテントラベルに基づいて訓練される。
一実施形態では、意味的エンティティは、話された順序ではない。意味的エンティティは、アルファベット順であることができる。
一実施形態では、抽出と訓練は、アテンションに基づくエンコーダ-デコーダのニューラルネットワークモデルに基づいて行われる。
一実施形態では、自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づく。
一実施形態では、意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することを含む動作を実行する。
一実施形態では、訓練データは、ユーザと、ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている。
一実施形態では、訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む。
一実施形態では、1つまたは複数のエンティティラベルと、対応する値、および1つまたは複数のインテントラベルの抽出は、ニューラルネットワーク処理によるものである。様々な実施形態において、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、及びアテンションに基づくエンコーダ-デコーダニューラルネットワークモデルが使用されることができる。
一実施形態では、訓練は、音声言語(SLU)モデルをASRモデルで初期化することを含む転移学習を含む。
一実施形態では、動作段階中に、音声発話録音のトランスクリプトなしで音声発話録音を含む生の音声言語データが受信される。訓練されたSLUモデルは、生の音声言語データの意味を認識するために適用され、意味は、生の音声言語のインテントおよび意味的エンティティを含む。SLUモデルは、音声言語の全体的なインテントと意味的エンティティを認識するために適用される。
関連するデータのプールを減らして計算を制限することで、動作を実行するコンピューティング装置の計算負荷と、リポジトリ内の訓練データの量を節約し、より効率的な計算プラットフォームを提供する。
これらおよび他の特徴は、添付の図面と関連して読まれ、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
図面は、例示的な実施形態のものである。それらは、すべての実施形態を例示するものではない。他の実施形態が追加的にまたは代わりに使用されてもよい。スペースを節約するため、又はより効果的な説明のために、明白であるか又は不必要である可能性のある詳細が省略される場合がある。いくつかの実施形態は、追加の構成要素またはステップを使用して、もしくは図示されているすべての構成要素またはステップを使用せずにまたはこれらの組み合わせで実施され得る。同じ数字が異なる図面に現れるとき、それは同じまたは同様の構成要素またはステップを指す。
<概要>
以下の詳細な説明では、関連する教示の徹底的な理解を提供するために、多数の特定の詳細が例によって示されている。しかしながら、本教示は、そのような詳細なしに実施され得ることが明らかであるべきである。他の実施例では、周知の方法、手順、構成要素、もしくは回路またはこれらの組み合わせは、本教示の側面を不必要に不明瞭にしないように、詳細なしに、比較的高いレベルで説明されている。
以下の詳細な説明では、関連する教示の徹底的な理解を提供するために、多数の特定の詳細が例によって示されている。しかしながら、本教示は、そのような詳細なしに実施され得ることが明らかであるべきである。他の実施例では、周知の方法、手順、構成要素、もしくは回路またはこれらの組み合わせは、本教示の側面を不必要に不明瞭にしないように、詳細なしに、比較的高いレベルで説明されている。
本開示は、一般に、計算効率の良い方法で音声言語を理解するためのモデルを自動的に訓練するシステムおよびコンピュータ化された方法に関するものである。音声言語理解(SLU)の顕著な態様は、意味的エンティティラベルを使用して音声発話の意味が表されるスロットフィリングの概念を含む。本明細書の教示は、音声入力を意味的エンティティに直接変換するエンドツーエンド(E2E)音声言語理解システムを提供する。一態様では、従来のアプローチとは対照的に、本明細書で論じるE2E SLUモデルは、一語一句のトランスクリプトなしで、意味的エンティティのアノテーションで訓練することができる。このようなモデルを訓練することは、データ収集の計算複雑性を実質的に低減することができるため、非常に有用である。様々な実施形態において、音声認識のために元々訓練されたモデルを適応させることによって、2種類のそのような音声-エンティティモデル、すなわち、コネクショニスト時間分類(CTC)モデルおよびアテンションに基づくエンコーダ-デコーダモデルが提供される。本明細書で論じた実験が音声入力を含むことを考慮すると、これらのシステムは、意味的エンティティラベルと意味的エンティティ値を表す単語の両方を正しく認識する。出願人は、完全なトランスクリプトに対してエンティティのみで訓練した場合、無視できるほどの劣化があることを判断した。一実施形態では、エンティティは並べ替えられ、それによって、スピーチトゥーエンティティのバッグF1スコアの約2%の劣化しか達成されない。
本明細書の教示は、エンドツーエンド(E2E)音声言語理解(SLU)フレームワークにおける音声入力を提供し、音声を入力として取り、エンティティラベル(本明細書では意味的エンティティのアノテーションと呼ぶことがある)および値を返す。一態様では、本システムの訓練されたSLUモデルは、話されたことの意味を理解するために作動する。単語単位での正確さが求められる自動音声認識(ASR)とは対照的に、本SLUは、発話の意味が保持される限り、すべての単語、さらには発話の仕方(例えば、エンティティの順序、単語の選択など)にはあまり敏感ではない。その結果、本SLUシステムは、新しいドメイン用に取得し処理するのに時間と計算コストがかかる単語単位のトランスクリプトの形の訓練データを必要としない場合がある。
従来、SLUシステムは、音声をテキストに変換する自動音声認識(ASR)システムと、テキストの意味を解釈する自然言語理解(NLU)システムのカスケードで構成されていた。対照的に、一実施形態では、E2E SLUシステムは、中間テキストスクリプトを経由することなく、音声入力を直接意味にして処理する。一実施形態では、本明細書の教示は、発話の話された順序と一致しないエンティティのセット(またはバッグ)を使用して、E2E SLUシステムを訓練することができる。エンティティの特定の順序からのそのような自由は、システムが、例えば、トランザクションデータとペアになった管理者との顧客の通話からの音声データで訓練することを可能にし得る。様々な実施形態において、トランザクションデータは、コンピューティング装置によって自動的に提供されてもよいし、人間のエージェントによって生成されてもよい。例えば、チャットボットまたは人間のエージェントが、フライト予約などのタスクでクライアントを支援し、エンティティのセットを含むトランザクション記録をもたらすことを考える。この記録は、発話の意味を理解するために動作するモデルを訓練するための軽い監督として機能することができる。人間が音声データを正確に逐語的に書き写す場合、エンティティのラベル付けに追加コストがかかるのはもちろん、一般に5~10回の実時間作業が必要である。これに対し、エンティティのバッグを含むトランザクション記録は、人間またはチャットボットであっても、顧客を支援する過程で得られるものであり、追加コストは発生しない。トランスクリプトを必要とせずに訓練において音声録音及びエンティティのバッグを使用することによって、データ収集の計算複雑さ及びコストが大幅に低減される一方で、訓練データの量が向上し、それによって、音声言語の分析を行うコンピューティング装置の正確さが向上するという技術的改善がある。本明細書に記載される技術は、多くの方法で実装され得る。例示的な実装は、以下の図を参照して以下に提供される。
<アーキテクチャ例>
図1は、例示的な実施形態と一致する、完全なトランスクリプトなしでエンドツーエンドの音声言語理解のためのシステムの例示的なアーキテクチャ100を示す。アーキテクチャ100は、ネットワーク106を介して電子データパッケージ105(1)~105(N)を送受信する方法によって互いの会話に参加することができる1つまたは複数の会話エンティティ101(1)~101(N)を含んでもよい。会話エンティティは、典型的には個人(例えば、人間のユーザ)であるが、人間のユーザと通信するように構成されたチャットボットを含んでもよい。電子データパッケージ105(1)~105(N)は、本明細書において、音声言語データ又は単に音声入力と称されることがある。音声言語データは、生の音声データ(例えば、音声録音)を含む。いくつかの実施形態では、音声言語データはまた、後でより詳細に議論されるエンティティのセットを含む。
図1は、例示的な実施形態と一致する、完全なトランスクリプトなしでエンドツーエンドの音声言語理解のためのシステムの例示的なアーキテクチャ100を示す。アーキテクチャ100は、ネットワーク106を介して電子データパッケージ105(1)~105(N)を送受信する方法によって互いの会話に参加することができる1つまたは複数の会話エンティティ101(1)~101(N)を含んでもよい。会話エンティティは、典型的には個人(例えば、人間のユーザ)であるが、人間のユーザと通信するように構成されたチャットボットを含んでもよい。電子データパッケージ105(1)~105(N)は、本明細書において、音声言語データ又は単に音声入力と称されることがある。音声言語データは、生の音声データ(例えば、音声録音)を含む。いくつかの実施形態では、音声言語データはまた、後でより詳細に議論されるエンティティのセットを含む。
アーキテクチャ100は、音声認識モデルを訓練するために使用され得る訓練データ113を提供するように動作する履歴データリポジトリ112をさらに含んでもよい。アーキテクチャ100は、SLU103をホストする音声言語理解(SLU)サーバ116を含む。様々なユーザ装置102(1)~101(N)が互いに通信することを可能にし、また、音声言語データが採取されて履歴データリポジトリ112に保存されることを可能にするネットワーク106が存在する。ネットワーク106は、限定されないが、ローカルエリアネットワーク(「LAN」)、仮想プライベートネットワーク(「VPN」)、セルラーネットワーク、インターネット、またはそれらの組み合わせであってもよい。例えば、ネットワーク106は、様々なデータベース、潜在的参加者、インターネット、及びクラウド120との通信などの様々な補助的サービスを提供する、イントラネットと呼ばれることもあるプライベートネットワークに通信可能に結合されたモバイルネットワークを含んでもよい。
議論の目的のために、ユーザ(例えば、101(1)~102(N))がネットワーク106を介して通信するために使用することができるクライアント装置のいくつかの例を表すために、異なるユーザ/コンピューティング装置が図面に表示される。今日、ユーザ装置は、典型的には、携帯用ハンドセット、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント(PDA)、及びスマートウォッチの形態をとるが、それらは、消費者、医療、及びビジネス電子装置を含む他のフォームファクタで実施されてもよい。
履歴データリポジトリ112は、SLUエンジン103がそこから学習することができる、様々なユーザ間の以前の会話に関連するデータを含む、訓練データ113の大きなセットを格納および維持するように構成される。例えば、履歴データリポジトリ112は、正常にセグメント化され、その意味が特定され、ラベル付けされた会話に関連する訓練データを提供することができる。一実施形態では、訓練データ113は、SLU103がそこから学習して音声言語理解モデルを作成もしくは訓練またはその両方をすることができるデータのコーパスとして機能し、その後、そのトランスクリプトを有することなく1つまたは複数のエンティティ102(1)~102(N)間の会話の意味を評価するために使用されることができる。
一実施形態では、音声言語理解システムの訓練段階の間、音声言語データ105(1)~105(N)は、ネットワーク106を介して1つまたは複数のユーザ装置102(1)~102(N)から採取される。様々な実施形態において、採取は、SLUサーバ116上で動作するSLUエンジン103によって、または履歴データリポジトリ112によって直接実行されてもよい。一実施形態では、採取は、クラウド120上の分散コンピューティングアーキテクチャによって実行され得る。音声言語データ(例えば、105(1)~105(N))は、(i)音声発話録音と、(ii)意味的エンティティのセットもしくはインテントまたはその両方から構成される。
一実施形態では、音声言語データの意味的エンティティもしくはインテントまたはその両方は、音声発話録音のトランスクリプトを含んでいない。他の実施形態では、トランスクリプトは、履歴データリポジトリ112に格納される前に、または履歴データリポジトリ112からのデータの受信の後で(例えば、SLUエンジン103によって)フィルタアウトされ得る。別の言い方をすれば、エンティティラベル/値及びインテントラベルは、音声録音の逐語的トランスクリプトなしで、意味的エンティティから抽出される。例えば、書かれたトランスクリプト(提供される場合)のエンティティラベル/値及びインテントラベルは、そこから抽出され、エンティティラベル/値及びインテントラベル以外の単語は、除去される。
所定の間隔で、またはトリガーイベント時に、SLUエンジン103は、訓練データ113を受信し、これを使用して、音声録音の逐語的トランスクリプトを必要とせずにSLUモデルを訓練し、それによって、履歴データの量およびSLUサーバ116の計算オーバーヘッドを大幅に低減させることができる。次いで、訓練されたSLUモデルは、動作段階の間、SLU103エンジンによって使用され、音声録音の意味の理解を促進することができる。これらの特徴の各々について、以下でより詳細に説明する。
SLU103によって受信された訓練データ113及び電子データパッケージ105(1)~105(N)の膨大な量は、SLU103をホストするSLUサーバ116の処理時間及びメモリリソースを含むSLUサーバ116のコンピューティングリソースに対して技術課題を提供し得ることは理解されよう。この点に関して、一実施形態では、SLU103は、エンティティラベルおよびインテントラベルの範囲を超えている発話をフィルタリングするように構成される。例えば、本明細書において相互作用的に定義されていないと言及される、取るに足らないフレーズ(例えば、「うーん(uhm)」、「あー(ahh)」、「考えさせて(let me think)」、「えーと(like)」など)、ならびにエンティティラベルまたはインテントラベルに直ちに関連していない他の用語などの発話は、SLUエンジン103によって除去される。このようにして、SLUサーバ116もしくは履歴データベース112またはその両方の貴重なコンピューティングおよび記憶資源を保存するという技術的効果が達成される。計算を、関連するデータの減少したプールに制限することによって、SLUサーバ116の計算需要が節約され、それによって、より効率的な計算プラットフォームが提供される。
履歴データリポジトリ112及びSLUサーバ116、およびコンピューティング装置102(1)~102(N)は、異なるプラットフォーム上にあるように例示されているが、異なる実施形態では、これらのプラットフォームが組み合わされてもよいことは理解されよう。他の実施形態では、これらのコンピューティングプラットフォームの1つまたは複数は、クラウド120でホストされる仮想マシンまたはソフトウェアコンテナの形態の仮想コンピューティング装置によって実装されてもよく、それによって、処理およびストレージ用の弾性アーキテクチャが提供される。クラウドについては、後でより詳細に説明する。
<意味的エンティティの例>
ここで、発話の意味(すなわち、インテントおよび意味的エンティティラベルおよび値)を判断するための訓練データ200の例を示す図2を参照する。音声認識の場合、訓練データは通常、図2の例のトランスクリプト210に示されるように、発話(例えば、音声記録)と逐語的トランスクリプトのペアである。インテント分類および意味的スロットフィリングを行うことができるSLUモデルを訓練するために、そのような文は、例220に示すように、通常、インテントおよび意味的エンティティでさらにラベル付けされる。別の言い方をすれば、既知のアプローチは、典型的には、トランスクリプトとインテントおよび意味的エンティティラベル220を使用する。
ここで、発話の意味(すなわち、インテントおよび意味的エンティティラベルおよび値)を判断するための訓練データ200の例を示す図2を参照する。音声認識の場合、訓練データは通常、図2の例のトランスクリプト210に示されるように、発話(例えば、音声記録)と逐語的トランスクリプトのペアである。インテント分類および意味的スロットフィリングを行うことができるSLUモデルを訓練するために、そのような文は、例220に示すように、通常、インテントおよび意味的エンティティでさらにラベル付けされる。別の言い方をすれば、既知のアプローチは、典型的には、トランスクリプトとインテントおよび意味的エンティティラベル220を使用する。
これに対して、SLUエンジン103は、意味的エンティティのみとペアになっている音声で訓練するように構成されている。本明細書で使用されるように、意味的エンティティは、ラベル-値のペアを含む。例えば、「toloc.city_name」はラベルであり、「Boston」は意味的エンティティの値である。この点に関して、例230は、訓練のために自然な話し言葉の順序で提示された意味エンティティを示す。より詳細には、例230は、意味的エンティティの一部でない単語が除外されている点で、例220と異なっている。意味的エンティティは、より顕著なキーワードと考えることができる。これは、(除外された)他の単語が意味を持たないことを意味しないことに留意されたい。例えば、「to」と「from」は、ある都市が目的地なのか出発地なのかを判断するのに有効な言葉である。我々の訓練されたSLUモデルでは、そのような単語は出力されないが、それらの単語に対応する音声信号は、モデルが正しい意味的エンティティラベルを出力するのに役立つ。同様に、例230は、インテントを決定するのに関連し得る特定の顕著な単語(例えば、「want a flight」)が存在しない点で、例220と異なっている。SLUエンジンは、インテントラベル(「O-INT-flight」)のみで訓練することができる。
一実施形態では、意味的エンティティは、話された順序で出力される必要はなく、恣意的または任意の所定の順序であってもよい。例240では、意味的エンティティは話された順序で与えられるのではなく、エンティティラベル名に従ってアルファベット順にソートされる。これは、エンティティの順序が意味に影響しない、意味的フレームまたはエンティティのバッグの概念をシミュレートするものである:{{fromloc.city name:RENO},{stoploc.city name:LAS VEGAS},{toloc.city name:DALLAS}}。
<ASRモデルのSLUシステムへの適用例>
様々な実施形態において、SLUデータが転写され得る異なる方法があるので、SLUシステムを訓練するための異なる方法が本明細書に提示される。事前に訓練されたASRモデルから開始して、2つの異なる種類のE2Eモデルが、様々な種類のSLUデータをモデル化するために使用されるときにどのように動くのかを説明するために、アーキテクチャを以下に説明する。各可能な訓練手順は、以下のモジュールのうちの1つまたは複数を採用することができる。
様々な実施形態において、SLUデータが転写され得る異なる方法があるので、SLUシステムを訓練するための異なる方法が本明細書に提示される。事前に訓練されたASRモデルから開始して、2つの異なる種類のE2Eモデルが、様々な種類のSLUデータをモデル化するために使用されるときにどのように動くのかを説明するために、アーキテクチャを以下に説明する。各可能な訓練手順は、以下のモジュールのうちの1つまたは複数を採用することができる。
一実施形態では、ドメインデータへのASRモデル適応(ASR-SLU適応)モジュールが使用される。既製のASRモデルが、SLUデータとは音響的に異なるデータで訓練されている可能性が高いことを考えると、最初のステップは、ASRシステムを適応させることである。例えば、ASRのタスク(音声トランスクリプションを単語にする)において、ドメインデータ上でより良いパフォーマンスが得られるようにASRモデルのパラメータを適応させる。この動作は、逐語的トランスクリプトのみを使用し、SLUドメインデータに存在する新規の音響条件、単語、および言語構成にモデルを適応させるものである。モデル適応において、元の汎用ASRデータ(GP-ASR)とドメインデータの両方を使用することで、ドメインデータのみで適応するよりもASR出力単位のカバー率が向上する場合がある。例えば、このカバー率は、ASRによってモデル化されたユニットの語彙またはセット(例えば、電話、文字、単語など)に関連する場合があり、そのうちのいくつかはドメインデータに現れない場合がある。カバー率は、大量の一般的なデータを使用することによって向上する。
一実施形態では、ジョイントASRおよびSLUモデル訓練(例えば、ジョイントASR+SLU)が使用される。エンティティラベルは、完全なトランスクリプトとともに訓練パイプラインに導入される。このモジュールは、既製のASRモデルを本格的なSLUモデルに徐々に修正するカリキュラム学習の一形態である。従来のアプローチとは異なり、通常の文字または音声出力トークンに加えて、非音響エンティティトークンを出力するようにモデルを訓練させる。GP-ASRのデータでは、ターゲットは文字/音声トークンのみであるが、SLUドメインのデータでは、ターゲットにはエンティティラベルも含まれる。このモジュールは最終的なSLUモデルの訓練において自然な流れであるが、十分なSLUリソースがある場合は省略することができる。
一実施形態では、SLUモデルファインチューニング(fine tuning)(例えば、ファインチューンSLU)が使用される。この最終モジュールでは、本明細書で説明した第1または第2のモジュールからのモデルが、SLUデータだけでファインチューンされ、最終SLUモデルが作成される。前述のように、最終的なSLUモデルによって認識されるべき意味的エンティティは、完全なトランスクリプト内、話し言葉の順序のエンティティのみ、またはアルファベット順のエンティティのみという異なる形態をとることができる。
<訓練エンドツーエンドSLUモデル例>
本明細書で説明した訓練手順を用いて、様々な実施形態において、音声中のエンティティを直接認識しようとするエンドツーエンドSLUシステムの2つの変形が、中間テキスト生成およびテキストベースのエンティティ検出を伴わずに提供される。例として、コンソーシアムからの公開コーパスであってもよいデータベースを使用することができるが、他のデータも使用できることが理解されよう。
本明細書で説明した訓練手順を用いて、様々な実施形態において、音声中のエンティティを直接認識しようとするエンドツーエンドSLUシステムの2つの変形が、中間テキスト生成およびテキストベースのエンティティ検出を伴わずに提供される。例として、コンソーシアムからの公開コーパスであってもよいデータベースを使用することができるが、他のデータも使用できることが理解されよう。
一実施形態では、SLUデータ及び評価メトリック法は、標準的な訓練セット及びテストセットを用いて使用される。限定ではなく実証的な例として、あるデータセットのクラスA(すなわち、文脈に依存しない)訓練データからの4978個の訓練発話と、他のデータセットからの893個のテスト発話が使用される。
この例では、4976個の訓練発話は、355人の話者による9.64時間の音声を含む。また、893個のテスト発話には、55人の話者による1.43時間の音声が含まれる。提案するE2Eモデルをよりよく学習させるために、速度/テンポの摂動を使用してコーパスのコピーを追加作成することができる。データ増強後の最終的な訓練コーパスは140時間の音声データである。スロットフィリングの性能はF1スコアで測定される。テキストではなく音声入力を用いる場合、単語の間違いが発生する可能性がある。F1スコアはスロットラベルと値の両方が正しいことを条件とする。例えば、参照はtoloc.city name:New Yorkであるが、デコード出力はtoloc.city name:Yorkである場合、SLUエンジンは偽陰性と偽陽性の両方をカウントする。一実施形態では、正しいスロットラベルが生成されるだけでは十分ではない:意味的エンティティ値(York)の一部が認識されても、「部分的な信用」は与えられない。スコアリングはエンティティの順序を無視することができるため、「エンティティのバッグ」ケースに適している。
一実施形態では、コネクショニスト時間分類(CTC)ベースのSLUモデルが使用される。SLUモデルが外部言語モデルから独立してエンティティおよび対応する値を処理できるようにするために、汎用ASRデータで単語CTCモデルを構築することができる。例としてのみであり、限定するものではないが、スイッチボード(SWB-300)データのような所定タイプのデータの300時間を使用することができる。当技術分野で知られているように、SWB-300は、音声認識のために容易に利用可能な公開データである。様々な実施形態において、CTCベースのSLUモデルを訓練するために、異なる訓練方法を使用することができる。
最初の実験では、SLUデータの逐語的トランスクリプトとエンティティラベルの両方が利用可能であることを想定している。これに関して、本明細書で説明した3つの訓練モジュールがすべて使用される。限定ではなく例として、ASR-SLU適応ステップは、以下のように実行することができる。18,324個の単語ターゲットと空白記号に対するスコアを推定するASRモデルの出力層を、18,642個の単語/エンティティターゲットと空白に対するスコアを推定するランダムに初期化された出力層と置き換える。各方向につき640ユニットである残りの6つのLSTM層と、256ユニットである完全連結のボトルネック層の重みは同じに保つ。次に、SWB GP-ASRデータなどの第1種のデータ300時間と、クリーンな第2種のデータなどの第2種のデータ140時間の組み合わせのデータセットでモデルを訓練させる。なお、このステップでは、出力層はエンティティラベルのユニットを持つが、訓練ターゲットは単語のみである。ジョイントASR+SLUステップでは、訓練トランスクリプトにエンティティラベルを導入し、ASR-SLU適用ステップの最終重みから、SWB+SLUデータに対してジョイントASR-SLUモデルを訓練させる。3回目であり最終ファインチューンSLUステップでは、140時間のSLUデータのみでASR-SLUモデルをファインチューンする。
図3Aは、CTC及びアテンションに基づくモデルを用いた音声入力に対するエンティティのバッグのスロットフィリングF1スコアの評価の概要表を提供する。図3Aの表中の実験[1A]では、実験[1A]の完全なトランスクリプトモデルがクリーンなテストデータで評価されている。SLUモデルが単語CTCモデルであることを考えると、デコード中に外部言語モデル(LM)は使用されず、代わりに、出力の単純な貪欲デコードが採用される。この初期モデルのF1スコアは91.7であり、エンティティラベルをその値とともに正しく検出することができた。
実験[2A]では、エンティティラベルを含む完全な逐語的トランスクリプトを用いて同様のSLUモデルを開発したが、ASR-SLU適応およびジョイントASR+SLU適応モジュールはスキップしている。このモデルは事前に訓練されたSWB ASRモデルで初期化され、SLUモデルは直接訓練される。このモデルでも91.7F1スコアを達成しており、カリキュラム学習のステップが必ずしも必要でない可能性が示唆される。
図3Aの次の実験セットでは、逐語的トランスクリプトの重要性が、訓練プロセスのために分析される。実験[1A]のジョイントASR+SLUモジュールの後、実験[3A]において、話された順序の意味的エンティティラベルとその値のみを認識するSLUモデルが訓練される。その結果、(一語一句完全な逐語的トランスクリプのない)話された順序の意味的エンティティについて学習したモデルは、ラベルとともに意味的エンティティ値だけを保存しながら、エンティティ値でない信号中の単語を無視するように学習することが確認された。このSLUモデルは、[1A]の完全なトランスクリプトモデルよりもわずかに性能が優れている。
この実験は、実験[4A]において、訓練プロセスにおけるトランスクリプトの使用を完全に排除することによって拡張された。このSLUモデルは、事前に訓練されたASRモデルで初期化された後、カリキュラム学習ステップや逐語的トランスクリプトなしに、エンティティラベルとその値を認識するために直接訓練される。表300Aは、このモデルの性能がわずかに低下するものの、ベースラインシステムと同程度であることを示している。
最後に、アルファベット順に並べられたエンティティラベルとその値を認識するという、より困難なタスクについてSLUシステムを訓練させる。実験[1A]のジョイントASR+SLUモジュールの後、実験[5A]では、意味的エンティティラベルとその値だけを認識するSLUモデルを訓練するが、今度はアルファベット順で学習する。
実験[6A]では、[5A]と同様のモデルが訓練されるが、カリキュラム学習ステップは含まれない。例えば、カリキュラム学習ステップは、完全なトランスクリプトでASRモデルを事前訓練し、SLUモデルを初期化するためにそのモデルを使用することに関連する。このタスクでは、CTCモデルの性能は、話された順序ではない並べ替えられたターゲットから効率的に学習することができないため、著しく低下する。カリキュラム学習ステップにより、[5A]の結果は良くなったが、それでもベースラインより悪い。
<アテンションに基づくSLUモデルの評価>
一実施形態では、SLUのアテンションモデルは、標準的なスイッチボードASRタスクのために開発されたASRモデルで初期化される。このモデルは、エンコーダ-デコーダアーキテクチャを使用し、エンコーダは、バッチ正規化、残差接続、および線形ボトルネック層を使用する8層長期短期記憶(LSTM)スタックである。デコーダは、文字に推定されるバイト対符号化(BPE)ユニットのシーケンスをモデル化し、2つの一方向LSTM層で構成されている。1つは言語モデルのような専用コンポーネントで、埋め込まれた予測記号シーケンスに対してのみ動作し、もう1つは音響と記号の情報を共同で処理する。一例として、デコーダは加算型、位置認識型のアテンションを適用し、各層は768個の一方向LSTMノードを持っている。SpecAugment、シーケンスノイズ注入、速度-テンポオーギュメント、様々なドロップアウト法など、様々な正則化技術を利用することで、この単一ヘッドシーケンス間モデルを用いた高度な音声認識性能を得ることができるかもしれない。
一実施形態では、SLUのアテンションモデルは、標準的なスイッチボードASRタスクのために開発されたASRモデルで初期化される。このモデルは、エンコーダ-デコーダアーキテクチャを使用し、エンコーダは、バッチ正規化、残差接続、および線形ボトルネック層を使用する8層長期短期記憶(LSTM)スタックである。デコーダは、文字に推定されるバイト対符号化(BPE)ユニットのシーケンスをモデル化し、2つの一方向LSTM層で構成されている。1つは言語モデルのような専用コンポーネントで、埋め込まれた予測記号シーケンスに対してのみ動作し、もう1つは音響と記号の情報を共同で処理する。一例として、デコーダは加算型、位置認識型のアテンションを適用し、各層は768個の一方向LSTMノードを持っている。SpecAugment、シーケンスノイズ注入、速度-テンポオーギュメント、様々なドロップアウト法など、様々な正則化技術を利用することで、この単一ヘッドシーケンス間モデルを用いた高度な音声認識性能を得ることができるかもしれない。
エンティティを認識するために、ASRモデルは、上述したモジュールに従って、CTCモデルと同様に適応される。単語単位を使用するCTCモデルとは対照的に、一実施形態では、アテンションモデルは、より小さい在庫(例えば、600BPEの)単位を使用し、デコーダLSTMに依存して、より長いシーケンスをモデル化する、つまりアテンションに基づくモデルは、固有のロングスパンの言語モデルを有する。最初のASRモデルがスイッチボードで訓練された後、その後の適応学習と転移学習のステップでは、スイッチボードのデータがないデータのみを使用する。アテンションモデルはサブワードレベルで動作し、トランスクリプトに現れるすべての新しい単語は、これらのサブワード単位を使用してモデル化できるため、最初のASR-SLU適応ステップでは出力および埋め込み層の拡張は必要ない。簡潔さのために、ジョイントASR+SLUモジュールはスキップされ、SLUエンジンは、デコーダの出力および埋め込み層が意味的エンティティラベルで拡張される、ファインチューンSLUモジュールに直接進むことができる。意味的エンティティラベルに対応するソフトマックス層と埋め込み重みはランダムに初期化され、ソフトマックス層と埋め込み層の既知の記号に対応する重みを含む他のすべてのパラメータは、ASRモデルからコピーされる。語彙外単語を持たないサブワードレベルのモデルは、上述した「自然な話し言葉の順序のエンティティ」の例230で適応プロセスを直接開始するのによく適している場合がある。本実施例では、全ての適応ステップで5エポックの訓練を使用する。
実験[6A]において、図3Aの表は、アテンションに基づくSLUモデルに対するスロットフィリングF1スコアを示している。実験[1A]では、スイッチボード-300hで訓練されたアテンションに基づくASRモデルが、ドメイン固有のASRモデルを作成するために、最初にクリーンデータ上で適応される。テストセットでは、SWB-300モデルを用いた単語誤り率(WER)は約7.9%であったが、適応後は0.6%に改善された。このASRモデルは、SLUモデルを作成するための転移学習の初期モデルとして使用される。F1スコアはCTCモデルと同程度である。
図3Aの表の実験[2A]では、ASR適応ステップをスキップし、SWB-300ASRモデルを直接使用してSLUモデル訓練を初期化する。このシナリオでは、F1スコアの劣化はない。汎用のSWB-300 ASRモデルで初期化しても(WER=7.9%)、ドメイン適応したASRモデルで初期化しても(WER=0.6%)SLU性能に差はない。
図3Aの表の実験[4A]は、訓練トランスクリプトの品質または詳細さの効果を考察する。本実施例では、話された順序のエンティティのみを含むトランスクリプト([4A])を使用すると、表3Aの実験[1A]の完全なトランスクリプトを使用した場合と実質的に類似するF1スコアが得られる。アルファベット順のエンティティ(話された順序とは異なる可能性がある)を訓練トランスクリプトに含む場合、実験[6A]では、F1スコアが92.9から90.9へと2%低下することが示された。この結果は、CTCモデル(73.5)よりもはるかに良好であり、アテンションに基づくモデルの再順序付け能力を反映している。従来通り、図3Aの実験[3A]と[5A]で提供されるようなASRモデル適応の追加ステップを逐語的トランスクリプトで追加しても、ほとんど差はない。
ここで、図4~図6を参照すると、それぞれ3つの異なるアテンションモデルに対する発話「今度の日曜日にフィラデルフィアからデンバーへのフライトを予約したい(I would like to make a reservation for a flight to Denver from Philadelphia on this coming Sunday)」に対するアテンションプロットが示されている。より詳細には、図4は、ASRモデルを用いた発話に対するアテンションプロットを示し、図5は、話された順序のSLUを用いた発話に対するアテンションプロットを示し、図6は、アルファベット順のSLUを用いた発話に対するアテンションプロットを示している。
図5に示すように、発話に対するアテンションは、意味的エンティティ内のキーワードのBPEユニットに対応する音声信号の連続した部分にアテンションが向けられるなど、ほぼ単調である。非実体語の読み飛ばしを反映したギャップがある。
図6に示すように、発話に対するアテンションは区分的な単調さであり、単調な領域はキーワード内のBPEユニットをカバーしている。意味的エンティティは話された順序とは異なる順序で与えられるので、このプロットは、モデルが音声信号の正しい部分を意味的エンティティに関連付けることができることを示す。また、約2秒後に「予約する(make a reservation)」というフレーズに注目し、文全体のインテントを予測する:「フライト(flight)」。
ここで、図3Bを参照すると、付加的なノイズ(5dB SNR)を有する音声入力に対するエンティティのバッグのスロットフィリングF1スコアの概要表300Bが提供される。より具体的には、ノイズのあるコーパスがSLUデータセットとして使用され、図3Aの文脈で実施されたCTCに基づく実験が繰り返される。この実験セットは、訓練とテストの両方において現実的なノイズで、訓練手順にさらなる変動を導入する。さらに、転送されたモデルとターゲットドメインとの間の音響的ミスマッチを増加させる。図3Aの表300Aで観察されたCTCモデルの一般的な傾向は、図3Bの表300Bでも観察される:(a)ASRトランスクリプトに基づくカリキュラム訓練は有効であり;(b)エンティティラベルは、話された順序でよく認識できるが、意味的エンティティ順序が異なる場合には、性能が悪くなる可能性がある。[2B]のような実験では、SLUデータとASRデータのミスマッチは、ミスマッチの事前に訓練されたモデルで初期化するだけで、他の適応ステップを持たないモデルの性能に影響を与える。一般にノイズの歪みにより、これらのシステムは一致した状態での性能結果と比べて性能が低下する。
図3Bの表300Bの例に示されるように、より詳細にアテンションに基づくSLUモデルについて、完全なトランスクリプトについて訓練したモデル(例えば、[1B]F1=92.0)をアルファベット順のエンティティについて訓練したもの([6B]F1=87.7%)と比較すると、F1スコアに4.3%の絶対的な劣化がある。これは性能の低下ではあるが、CTCの結果([6B]F1=68.5)よりは大幅に改善されている。クリーンな音声条件の場合と比較すると、ASR適応の有用性に関して異なる結論に達することができる。SLUモデル訓練の初期化にSWB-300モデルではなく適応されたASRモデルを用いた場合、F1スコアに約1%の改善が見られる。ノイズのあるテストセットでは、SWB-300のベースモデルを使用した場合、WER=60%であるのに対し、ノイズのあるデータで適応させたASRモデルではWER=5%になる。このように、2つの全く異なるASRモデルを用いてSLUモデルの訓練を初期化することで、最終的なモデルのF1スコアにわずか1%の差しか生じなかったことは重要なことである。
図3Cは、SLU訓練を初期化するためにASRモデルを訓練するために使用されるデータの量が最終的なF1スコアにどのように影響するかを示す表300Cである。表300Cは、クリーンな(すなわち、非ノイズ)音声のための話された順序のエンティティで訓練されたアテンションに基づくSLUモデルの結果を示している。図3Cの例では、初期ASRモデルに対して300hの代わりに2000hを使用すると、F1スコアが約1%改善される。これは、未知のデータに対するモデルのロバストネスが向上したためと考えられる:テストセットにおける未適応のWERは、3.1%(SWB2000h)に対して7.9%(SWB300h)である。一方、SLUモデルをスクラッチから直接訓練した場合(例えば、事前に訓練したASRモデルから初期化せず、ランダムなパラメータから)、この実験ではF1=78.1程度が得られた。SLUのデータが限られている場合、これらの実験は、必ずしも最終的なSLUタスクに関連しない、幅広い音声データでのASR事前訓練の重要性を示している。
したがって、本明細書の教示は、様々なE2E SLUモデルが、逐語的トランスクリプトなしでうまく構築できることを実証している。本明細書の教示に基づき、RNN-T(リカレントニューラルネットワークトランスデューサ)およびトランスフォーマーに基づくモデルなどの他のシーケンス変換モデルを含む、ニューラルネットワークに基づく他のE2E SLUモデルで同様の結果を得ることができる。一態様では、これらのシステムを訓練するために、事前に訓練された音響モデルおよびカリキュラム学習が使用される。データのクリーン版とノイズ版を用いて、これらのシステムの性能に対するエンティティ順序と音響ミスマッチの影響を説明する。本書で説明するE2Eシステムは、逐語的トランスクリプトなしで訓練され、エンティティが必ずしも話された順序で与えられていない逐語的トランスクリプトで訓練しても、確実にエンティティを予測することができる。本教示は、完全なトランスクリプトがしばしば訓練に利用できず、最終的なSLUシステムがノイズのある音響環境に配備されることになる実用的な設定において、より優れたSLUシステムを訓練するための有用な洞察を提供する。SLUが1種類の訓練データ(図2の210、220、230、240)で訓練される実施形態の詳細を示したが、SLUは、異なる種類の訓練データ(210、220、230、240)の組み合わせで訓練することも可能である。
<プロセス例>
図3Aから図3Cの例示的なアーキテクチャ100および異なる訓練アプローチの前述の概要により、例示的なプロセスのハイレベルな議論を検討することが今、有用であり得る。そのために、図7Aおよび図7Bは、例示的な実施形態と一致する、訓練段階および動作段階の間のエンドツーエンドの音声言語理解システムの例示的なプロセス700および760をそれぞれ提示する。プロセス700及び760は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る動作シーケンスを表す、論理フローチャートのブロックの集まりとして図示されている。ソフトウェアの文脈では、ブロックは、1つ以上のプロセッサによって実行されるとき、言及された動作を実行するコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、機能を実行する、または抽象的なデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むことができる。各プロセスにおいて、動作が記述される順序は、限定として解釈されることを意図しておらず、任意の数の記述されたブロックが、プロセスを実施するために任意の順序で組み合わせられ、もしくは並行してまたはその両方で実行され得る。議論の目的のために、工程700および760は、図1のアーキテクチャ100を参照して説明される。
図3Aから図3Cの例示的なアーキテクチャ100および異なる訓練アプローチの前述の概要により、例示的なプロセスのハイレベルな議論を検討することが今、有用であり得る。そのために、図7Aおよび図7Bは、例示的な実施形態と一致する、訓練段階および動作段階の間のエンドツーエンドの音声言語理解システムの例示的なプロセス700および760をそれぞれ提示する。プロセス700及び760は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る動作シーケンスを表す、論理フローチャートのブロックの集まりとして図示されている。ソフトウェアの文脈では、ブロックは、1つ以上のプロセッサによって実行されるとき、言及された動作を実行するコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、機能を実行する、または抽象的なデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むことができる。各プロセスにおいて、動作が記述される順序は、限定として解釈されることを意図しておらず、任意の数の記述されたブロックが、プロセスを実施するために任意の順序で組み合わせられ、もしくは並行してまたはその両方で実行され得る。議論の目的のために、工程700および760は、図1のアーキテクチャ100を参照して説明される。
図7Aのプロセス700は、音声言語理解システムの訓練段階を表す。ブロック702において、音声言語データ105(1)は、ネットワーク106を介して1つまたは複数のユーザ装置102(1)~102(N)から採取される。音声言語データ(例えば、105(1)~105(N))は、(i)音声発話録音と、(ii)各対応する音声録音に対する意味的エンティティもしくは全体的インテントのセットまたはその両方とから構成される。一実施形態では、意味的エンティティは、音声発話録音のトランスクリプトを含んでいない。他の実施形態では、トランスクリプトは、履歴データリポジトリ112に格納される前に、または後で履歴データリポジトリ112からデータを受信する際に(例えば、SLUエンジン103によって)フィルタアウトされる。別の言い方をすれば、エンティティラベル/値及びインテントラベルは、音声録音の逐語的トランスクリプトなしで、意味的エンティティから抽出される。例えば、(提供されている場合)書かれたトランスクリプトのエンティティラベル/値およびインテントラベルは、そこから抽出され、エンティティラベル/値およびインテントラベル以外の用語は削除される。
ブロック706において、音声言語データはリポジトリに格納され、これはSLUサーバのメモリもしくは履歴データリポジトリ112またはその両方であってよい。
ブロック708において、SLUエンジン103は、履歴データ113を訓練データとしてリポジトリ112から受信する。訓練データの意味的エンティティの各々は、対応する音声発話録音のトランスクリプトを含む必要はない。様々な実施形態において、訓練データの受信は、所定の間隔で、またはデータリポジトリ112で利用可能な新しい音声言語データの閾値のようなトリガーイベントに応じてであってもよい。
ブロック710では、履歴データのエンティティラベル/値およびインテントラベルに基づいて、SLUモデルが訓練される。重要なことに、訓練は、対応する音声言語の逐語的トランスクリプトを含む必要はない。
動作段階中に、訓練されたSLUモデルは、以下に例を挙げて説明するように、音声言語の意味を判断するために使用することができる。
ブロック762において、生の音声言語データは、ネットワーク106を介してユーザ装置(例えば、102(1))からSLUエンジン103によって受信される。
ブロック764において、訓練されたSLUモデルは、音声発話録音のトランスクリプトなしで生の音声言語データの1つまたは複数の意味的エンティティもしくはインテントまたはその両方を認識するために使用される。一実施形態では、音声発話録音と、生の音声言語データの意味的エンティティもしくはインテントまたはその両方のセットは、そのトランスクリプトなしで履歴データリポジトリに格納される。このようにして、SLUモデルの訓練のために十分に顕著でない会話のパラメータを格納することを避けながら、訓練セットを継続的に改善することができる。
<コンピュータのプラットフォーム例>
上述したように、SLUモデルの訓練および発話の意味の判断に関連する機能は、図1に示すように、および図7Aおよび図7Bのプロセス700および760に従って、無線または有線通信を介してデータ通信用に接続された1または複数のコンピューティング装置の使用で実行することが可能である。図8は、SLUエンジン840をホストできる特に構成されたコンピューティング装置を実装するために使用できるコンピュータハードウェアプラットフォーム800の機能ブロック図を提供する。特に、図8は、図1のSLUサーバ116のような適切に構成されたサーバを実装するために使用され得るような、ネットワークまたはホストコンピュータプラットフォーム800を図示している。
上述したように、SLUモデルの訓練および発話の意味の判断に関連する機能は、図1に示すように、および図7Aおよび図7Bのプロセス700および760に従って、無線または有線通信を介してデータ通信用に接続された1または複数のコンピューティング装置の使用で実行することが可能である。図8は、SLUエンジン840をホストできる特に構成されたコンピューティング装置を実装するために使用できるコンピュータハードウェアプラットフォーム800の機能ブロック図を提供する。特に、図8は、図1のSLUサーバ116のような適切に構成されたサーバを実装するために使用され得るような、ネットワークまたはホストコンピュータプラットフォーム800を図示している。
コンピュータプラットフォーム800は、システムバス802に接続される中央処理装置(CPU)804、ハードディスクドライブ(HDD)806、ランダムアクセスメモリ(RAM)もしくはリードオンリーメモリ(ROM)またはその両方808、キーボード810、マウス812、ディスプレイ814および通信インタフェース816を含むことができる。
一実施形態では、HDD806は、本明細書で説明する方法で、SLUエンジン840などの様々なプロセスを実行できるプログラムを記憶することを含む機能を有する。SLUエンジン840は、図1などの文脈で説明したような、異なる機能を実行するように構成された様々なモジュールを有していてもよい。例えば、ユーザと管理者もしくはチャットボットまたはその両方の間の会話を採取するように動作する会話モジュール842があってもよい。音声コンテンツをテキストに変換するように動作するテキスト処理モジュール844が存在してもよい。書かれたトランスクリプト(提供される場合)中のエンティティラベル及びインテントラベルを抽出し、他の全ての用語を除去するように動作する濾過モジュールがあってもよい。ランダムまたはアルファベット順である意味的エンティティを、さらなる処理のために音声言語順に変換するように動作する、インテント適応モジュール848があってもよい。本明細書に記載された機能を実行するためのASR-SLU適応モジュール850もしくはASR+SLU適応モジュール852またはその両方が存在してもよい。最終的なSLUモデルを作成するためにモデルをファインチューンするためにASR-SLU適応モジュール850もしくはASR+SLU適応モジュール852またはその両方と協力するように動作するファインチューニングモジュール854が存在してもよい。動作段階の間、発話のトランスクリプトを必要とせずに発話のインテントを判断するために動作するインテントモジュール856が存在する場合がある。
モジュール842~856は、図8においてHDD806の一部であるように図示されているが、いくつかの実施形態において、これらのモジュールのうちの1つ又は複数が、コンピューティング装置800のハードウェアにおいて実装されてもよい。例えば、本明細書で議論されるモジュールは、部分的なハードウェア及び部分的なソフトウェアの形態で実装されてもよい。すなわち、図8に示すSLUエンジン840の構成要素の1つまたは複数は、トランジスタ、ダイオード、コンデンサ、抵抗器、インダクタ、バラクタもしくはメモリスタまたはこれらの組み合わせを有する電子回路の形態で実装されてもよい。言い換えれば、SLUエンジン840は、本明細書に記載される特定のタスクおよび機能を実行する1つまたは複数の特別に設計された電子回路で実装されてもよい。
一実施形態では、システムをウェブサーバとして動作させるためのプログラムを格納することができる。一実施形態では、HDD806は、仮想マシンの助けを借りて、または借りずに、スクリプト言語を用いて、または別の方法で実行する、1つまたは複数のライブラリソフトウェアモジュールを含む実行アプリケーションを格納することができる。
<クラウドプラットフォームの例>
上述したように、1つまたは複数のクライアントドメインのコンプライアンスを管理することに関連する機能は、クラウド120(図1参照)を含んでもよい。本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装は、クラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られている又は後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実施することが可能である。
上述したように、1つまたは複数のクライアントドメインのコンプライアンスを管理することに関連する機能は、クラウド120(図1参照)を含んでもよい。本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装は、クラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られている又は後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実施することが可能である。
クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス)へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、リソースは、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備(provision)およびリリースできるものである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含むことがある。
特性は以下の通りである。
オンデマンド・セルフサービス:クラウドの消費者は、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。
ブロード・ネットワークアクセス:コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA)による利用が促進される。
リソースプーリング:プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数の消費者に提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般に消費者は、提供されたリソースの正確な位置を管理または把握していないため、位置非依存(location independence)の感覚がある。ただし消費者は、より高い抽象レベル(例えば、国、州、データセンタ)では場所を特定可能な場合がある。
迅速な柔軟性(elasticity):コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。消費者にとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウドシステムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント)に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供することができる。
サービスモデルは以下の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ(例えばウェブメール)などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、消費者が作成または取得したアプリケーションを、クラウドインフラストラクチャに展開(deploy)することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアを消費者が展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。消費者は、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント(例えばホストファイアウォール)を部分的に制御できる。
展開モデルは以下の通りである。
プライベートクラウド:このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
コミュニティクラウド:このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス)を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
パブリッククラウド:このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ以上のクラウドモデル(プライベート、コミュニティまたはパブリック)を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースティング)を実現する。
クラウドコンピューティング環境は、ステートレス性(statelessness)、低結合性(low coupling)、モジュール性(modularity)および意味論的相互運用性(semantic interoperability)に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで、図9に例示的なクラウドコンピューティング環境900を示す。図示するように、クラウドコンピューティング環境900は1つ以上のクラウドコンピューティングノード910を含む。これらに対して、クラウド消費者が使用するローカルコンピュータ装置(例えば、PDAもしくは携帯電話954A、デスクトップコンピュータ954B、ラップトップコンピュータ954C、もしくは自動車コンピュータシステム954Nまたはこれらの組み合わせなど)は通信を行うことができる。ノード2010は互いに通信することができる。ノード910は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、1つ以上のネットワークにおいて、物理的または仮想的にグループ化(不図示)することができる。これにより、クラウドコンピューティング環境950は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウド消費者はこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図9に示すコンピュータ装置954A~Nの種類は例示に過ぎず、コンピューティングノード910およびクラウドコンピューティング環境950は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続(例えば、ウェブブラウザの使用)またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。
ここで、クラウドコンピューティング環境950(図9)によって提供される機能的抽象化レイヤのセットを図10に示す。なお、図10に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェアレイヤ1060は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム1061、縮小命令セットコンピュータ(RISC)アーキテクチャベースのサーバ1062、サーバ1063、ブレードサーバ1064、記憶装置1065、ならびにネットワークおよびネットワークコンポーネント1066が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア1067およびデータベースソフトウェア1068を含む。
仮想化レイヤ1070は、抽象化レイヤを提供する。当該レイヤから、例えば以下の仮想エンティティを提供することができる:仮想サーバ1071、仮想ストレージ1072、仮想プライベートネットワークを含む仮想ネットワーク1073、仮想アプリケーションおよびオペレーティングシステム1074、ならびに仮想クライアント1075。
一例として、管理レイヤ1080は以下の機能を提供することができる。リソース準備1081は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定1082は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含んでよい。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウド消費者およびタスクの識別確認を可能にする。ユーザポータル1083は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理1084は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証(SLA)の計画および履行1085は、SLAに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。
ワークロードレイヤ1090は、クラウドコンピューティング環境が利用可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション1091、ソフトウェア開発およびライフサイクル管理1092、仮想教室教育の配信1093、データ分析処理1094、取引処理1095、そしてSLUエンジン1096が含まれる。
<結論>
本教示の様々な実施形態の説明は、説明のために提示されたが、開示された実施形態を網羅すること又は限定することを意図するものではない。説明した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用化または技術的改良を最もよく説明するために、または当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。
本教示の様々な実施形態の説明は、説明のために提示されたが、開示された実施形態を網羅すること又は限定することを意図するものではない。説明した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用化または技術的改良を最もよく説明するために、または当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。
前述では、最良の状態もしくは他の例またはその両方と考えられるものを説明したが、そこに様々な変更を加えることができ、本明細書に開示した主題は様々な形態および例で実施することができ、本明細書に記載したのはその一部のみであるが、本教示は多数の用途に適用することができると理解される。以下の請求項によって、本教示の真の範囲内に入るあらゆる応用、修正および変形を請求することが意図される。
本明細書で議論されてきた構成要素、ステップ、特徴、目的、利益および利点は、単に例示的なものである。それらのいずれも、またそれらに関連する議論も、保護の範囲を限定することを意図していない。本明細書では様々な利点について論じてきたが、すべての実施形態が必ずしもすべての利点を含むわけではないことは理解されよう。特に断らない限り、後続の特許請求の範囲を含む本明細書に記載されているすべての測定値、値、定格、位置、規模、大きさ、および他の仕様は、厳密ではなく、近似値である。それらは、それらが関連する機能およびそれらが関連する技術分野において慣用されているものと一致する合理的な範囲を有することを意図している。
多数の他の実施形態も企図される。これらには、より少ない、追加の、もしくは異なる構成要素またはこれらの組み合わせ、ステップ、特徴、目的、利益、及び利点を有する実施形態が含まれる。これらには、構成要素もしくはステップまたはその両方が異なるように配置もしくは順序付けまたはその両方がされた実施形態も含まれる。
本発明の実施形態は、本明細書において、本発明の実施形態に係る方法、装置(システム)、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行可能である。
上記のコンピュータ可読プログラム命令は、機械を生産するために、コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供してよい。これにより、かかるコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作を実行するための手段を創出する。上記のコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他の装置またはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶してよい。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作の態様を実行するための命令を含む製品を構成する。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他の装置にロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他の装置上で実行させることにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他の装置上で実行される命令が、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作を実行する。
本開示の図面におけるコールフロー、フローチャートおよびブロック図は、本発明の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための1つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。いくつかの代替的な実装では、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行してもよい。例えば、連続して示される2つのブロックは、実際には、関係する機能に応じて、同時もしくは略同時に実行してもよいし、または場合により逆順で実行してもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能または動作を行う、または専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって、実行可能である。
前述は、例示的な実施形態と関連して説明されてきたが、「例示的」という用語は、最良または最適ではなく、単に例として意味されることが理解される。すぐ上に記載した場合を除き、記載または図示したものは、特許請求の範囲に記載されているか否かにかかわらず、任意の構成要素、ステップ、特徴、目的、利益、利点、または同等のものを公衆に献呈させることを意図したものではなく、また解釈されるべきものでもない。
本書で使用される用語および表現は、本書に特定の意味が示されている場合を除き、対応するそれぞれの調査および研究領域に関してその用語および表現に与えられている通常の意味を有することが理解されるであろう。第1および第2などの関係用語は、ある実体または行為を別の実体または行為から区別するためにのみ使用され、必ずしもそのような実体または行為間の実際の関係または順序を要求または暗示する必要はない。用語「含む(comprise)」、「含む(comprising)」、またはその他の変形は、要素のリストから構成されるプロセス、方法、物品、または装置がそれらの要素のみを含むのではなく、明示的にリストされていない他の要素またはかかるプロセス、方法、物品、または装置に固有の要素を含むことができるように、非排他的包含を対象とすることが意図される。「a」または「an」で始まる要素は、さらなる制約なしに、その要素を構成するプロセス、方法、物品、または装置における追加の同一要素の存在を排除するものではない。
本開示の要約は、読者が技術開示の内容を迅速に把握できるようにするために提供されるものである。それは、請求項の範囲または意味を解釈または制限するために使用されないことを理解した上で提出されるものである。さらに、前述の詳細な説明では、開示を合理化する目的で、様々な特徴が様々な実施形態でグループ化されていることが分かる。この開示方法は、請求された実施形態が各請求項に明示的に記載されている以上の特徴を有するという意図を反映するものと解釈されるべきではない。むしろ、以下の請求項が反映するように、発明的主題は、単一の開示された実施形態のすべての特徴よりも少ない特徴に存在する。したがって、以下の請求項は、各請求項がそれ自体で別個に請求される主題として存在する状態で、本明細書に組み込まれる。
Claims (20)
- プロセッサと、
前記プロセッサに結合され、ネットワークを介した通信を可能にするネットワークインタフェースと、を含み、
訓練段階において、エンジンは、
ネットワークを介して、(i)1つまたは複数の音声録音と、(ii)各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、(i)1つまたは複数のエンティティラベルおよび対応する値、および(ii)1つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記対応する音声録音の前記1つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の1つまたは複数のインテントラベルに基づいて、音声言語理解(SLU)モデルを訓練することと、を含む動作を実行するように構成される、コンピューティング装置。 - 前記意味的エンティティは、話された順序ではない、請求項1に記載のコンピューティング装置。
- 前記意味的エンティティは、アルファベット順である、請求項2に記載のコンピューティング装置。
- 前記自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づいている、請求項2に記載のコンピューティング装置。
- 前記エンジンは、前記意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することを含む動作を実行するようにさらに構成されている、請求項2に記載のコンピューティング装置。
- 前記訓練データは、ユーザと前記ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている、請求項1に記載のコンピューティング装置。
- 前記訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む、請求項1に記載のコンピューティング装置。
- 前記1つまたは複数のエンティティラベルと、対応する値、および前記1つまたは複数のインテントラベルの前記抽出は、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、またはアテンションに基づくエンコーダ-デコーダニューラルネットワークの少なくとも1つを含むニューラルネットワーク処理による、請求項1に記載のコンピューティング装置。
- 前記訓練は、前記SLUモデルを自動音声認識(ASR)モデルで初期化することを含む転移学習を含む、請求項1に記載のコンピューティング装置。
- 前記SLUエンジンは、動作段階中に、
音声発話録音のトランスクリプトなしで前記音声発話録音を含む生の音声言語データを受信することと、
前記生の音声言語データの意味を認識するために前記訓練されたSLUモデルを使用することであって、前記意味は前記生の音声言語のインテントと意味的エンティティを含む、使用することと、を含む動作を実行するようにさらに構成される、請求項1に記載のコンピューティング装置。 - 実行されると、コンピュータ装置に、音声言語理解(SLU)モデルを訓練する方法を実行させるコンピュータ可読命令を有するコンピュータ可読プログラムコードを有形に具体化した非一時的なコンピュータ可読記憶媒体であって、
(i)1つまたは複数の音声録音と、(ii)各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、(i)1つまたは複数のエンティティラベルおよび対応する値、および(ii)1つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記対応する音声録音の前記1つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の1つまたは複数のインテントラベルに基づいて、音声言語理解(SLU)モデルを訓練することと、を含む、非一時的なコンピュータ可読記憶媒体。 - 前記意味的エンティティは、話された順序ではない、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
- 前記自然言語訓練データは、異なるタイプの訓練データの組み合わせに基づいている、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
- 前記方法は、前記意味的エンティティを話された順序に整合させるための前処理アラインメントを実行することをさらに含む、請求項13に記載の非一時的なコンピュータ可読記憶媒体。
- 前記訓練データは、ユーザと前記ユーザのタスクを支援する管理者との間のトランザクションデータに基づいている、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
- 前記訓練データは、エンティティのバッグを構成するトランザクションデータの記録を含む、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
- 前記1つまたは複数のエンティティラベルと、対応する値、および前記1つまたは複数のインテントラベルの前記抽出は、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、またはアテンションに基づくエンコーダ-デコーダニューラルネットワークの少なくとも1つを含むニューラルネットワーク処理による、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
- 前記訓練は、前記SLUモデルを自動音声認識(ASR)モデルで初期化することを含む転移学習を含む、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
- 前記方法は、動作段階中に、
音声発話録音のトランスクリプトなしで前記音声発話録音を含む生の音声言語データを受信することと、
前記生の音声言語データの意味を認識するために前記訓練されたSLUモデルを使用することであって、前記意味は前記生の音声言語のインテントと意味的エンティティを含む、使用することと、をさらに含む、請求項11に記載の非一時的なコンピュータ可読記憶媒体。 - (i)1つまたは複数の音声録音と、(ii)各対応する音声録音に対する意味的エンティティのセットもしくは全体のインテントまたはその両方を含む自然言語訓練データを受信することと、
各音声録音について、(i)1つまたは複数のエンティティラベルおよび対応する値、および(ii)1つまたは複数のインテントラベルを、前記対応する意味的エンティティもしくは全体のインテントまたはその両方から抽出することと、
前記対応する音声録音のトランスクリプトを必要とせずに、前記1つまたは複数のエンティティラベルと、対応する値、および前記対応する音声録音の1つまたは複数のインテントラベルに基づいて、音声言語理解(SLU)モデルを訓練することと、を含む、コンピュータ実装方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/021,956 US11929062B2 (en) | 2020-09-15 | 2020-09-15 | End-to-end spoken language understanding without full transcripts |
US17/021,956 | 2020-09-15 | ||
PCT/CN2021/108871 WO2022057452A1 (en) | 2020-09-15 | 2021-07-28 | End-to-end spoken language understanding without full transcripts |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023541651A true JP2023541651A (ja) | 2023-10-03 |
Family
ID=80626962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023516841A Pending JP2023541651A (ja) | 2020-09-15 | 2021-07-28 | 完全なトランスクリプトなしのエンドツーエンドの音声言語理解 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11929062B2 (ja) |
JP (1) | JP2023541651A (ja) |
CN (1) | CN116686045A (ja) |
DE (1) | DE112021004829T5 (ja) |
GB (1) | GB2614208A (ja) |
WO (1) | WO2022057452A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220319494A1 (en) * | 2021-03-31 | 2022-10-06 | International Business Machines Corporation | End to end spoken language understanding model |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249637A1 (en) * | 2003-06-04 | 2004-12-09 | Aurilab, Llc | Detecting repeated phrases and inference of dialogue models |
US7742911B2 (en) * | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
US8185399B2 (en) * | 2005-01-05 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method of providing an automated data-collection in spoken dialog systems |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7574358B2 (en) | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
CN101370026B (zh) * | 2007-08-17 | 2011-05-18 | 华为技术有限公司 | 多媒体会话的媒体流增加方法和用户设备及应用服务器 |
US20090132252A1 (en) | 2007-11-20 | 2009-05-21 | Massachusetts Institute Of Technology | Unsupervised Topic Segmentation of Acoustic Speech Signal |
US20110307252A1 (en) * | 2010-06-15 | 2011-12-15 | Microsoft Corporation | Using Utterance Classification in Telephony and Speech Recognition Applications |
US20130317818A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Rochester | Systems and Methods for Captioning by Non-Experts |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US20150294590A1 (en) * | 2014-04-11 | 2015-10-15 | Aspen Performance Technologies | Neuroperformance |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US11081106B2 (en) * | 2017-08-25 | 2021-08-03 | Microsoft Technology Licensing, Llc | Contextual spoken language understanding in a spoken dialogue system |
US11106683B2 (en) * | 2017-08-25 | 2021-08-31 | Accenture Global Solutions Limited | System architecture for interactive query processing |
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
US11514333B2 (en) * | 2018-04-30 | 2022-11-29 | Meta Platforms, Inc. | Combining machine-learning and social data to generate personalized recommendations |
US10679613B2 (en) * | 2018-06-14 | 2020-06-09 | Accenture Global Solutions Limited | Spoken language understanding system and method using recurrent neural networks |
US11194974B2 (en) * | 2018-08-09 | 2021-12-07 | Nec Corporation | Teaching syntax by adversarial distraction |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
AU2020245555B2 (en) * | 2019-03-28 | 2023-03-16 | Liveperson, Inc. | Dynamic message processing and aggregation of data in messaging |
US11615785B2 (en) * | 2019-05-10 | 2023-03-28 | Robert Bosch Gmbh | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks |
CN110287283B (zh) | 2019-05-22 | 2023-08-01 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
US10635751B1 (en) * | 2019-05-23 | 2020-04-28 | Capital One Services, Llc | Training systems for pseudo labeling natural language |
US11475883B1 (en) * | 2019-05-29 | 2022-10-18 | Amazon Technologies, Inc. | Natural language dialog scoring |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
US20210086070A1 (en) * | 2019-09-24 | 2021-03-25 | Nvidia Corporation | Voice command interface for video games |
WO2021072013A1 (en) * | 2019-10-08 | 2021-04-15 | Pricewaterhousecoopers Llp | Intent-based conversational knowledge graph for spoken language understanding system |
CN110853626B (zh) | 2019-10-21 | 2021-04-20 | 成都信息工程大学 | 基于双向注意力神经网络的对话理解方法、装置及设备 |
CN110838288B (zh) | 2019-11-26 | 2022-05-06 | 杭州博拉哲科技有限公司 | 一种语音交互方法及其系统和对话设备 |
US11615239B2 (en) * | 2020-03-31 | 2023-03-28 | Adobe Inc. | Accuracy of natural language input classification utilizing response delay |
US11934403B2 (en) * | 2020-05-18 | 2024-03-19 | Salesforce, Inc. | Generating training data for natural language search systems |
US11531822B1 (en) * | 2020-06-30 | 2022-12-20 | Amazon Technologies, Inc. | Training models and using the trained models to indicate staleness of content items |
US11574637B1 (en) * | 2020-09-08 | 2023-02-07 | Amazon Technologies, Inc. | Spoken language understanding models |
-
2020
- 2020-09-15 US US17/021,956 patent/US11929062B2/en active Active
-
2021
- 2021-07-28 GB GB2305141.0A patent/GB2614208A/en active Pending
- 2021-07-28 WO PCT/CN2021/108871 patent/WO2022057452A1/en active Application Filing
- 2021-07-28 CN CN202180054079.4A patent/CN116686045A/zh active Pending
- 2021-07-28 JP JP2023516841A patent/JP2023541651A/ja active Pending
- 2021-07-28 DE DE112021004829.5T patent/DE112021004829T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
GB202305141D0 (en) | 2023-05-24 |
WO2022057452A1 (en) | 2022-03-24 |
GB2614208A (en) | 2023-06-28 |
US11929062B2 (en) | 2024-03-12 |
US20220084508A1 (en) | 2022-03-17 |
DE112021004829T5 (de) | 2023-06-29 |
CN116686045A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093707B2 (en) | Adversarial training data augmentation data for text classifiers | |
US11189269B2 (en) | Adversarial training data augmentation for generating related responses | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US9972308B1 (en) | Splitting utterances for quick responses | |
US20230056680A1 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
US11011161B2 (en) | RNNLM-based generation of templates for class-based text generation | |
US11443119B2 (en) | Adapting dialog models by relevance value for concepts to complete a task | |
US9959887B2 (en) | Multi-pass speech activity detection strategy to improve automatic speech recognition | |
US11711469B2 (en) | Contextualized speech to text conversion | |
US20210134296A1 (en) | Project issue tracking via automated voice recognition | |
US11954138B2 (en) | Summary generation guided by pre-defined queries | |
US11354920B2 (en) | Updating and implementing a document from an audio proceeding | |
WO2022121684A1 (en) | Alternative soft label generation | |
GB2604675A (en) | Improving speech recognition transcriptions | |
JP2023541651A (ja) | 完全なトランスクリプトなしのエンドツーエンドの音声言語理解 | |
JP2024019082A (ja) | システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合) | |
WO2021070005A1 (en) | Rare topic detection using hierarchical clustering | |
US11677832B2 (en) | Voice activated device enabling | |
US11404047B2 (en) | Feature and feature variant reconstruction for recurrent model accuracy improvement in speech recognition | |
CN114283810A (zh) | 改进语音识别转录 | |
JP2023530970A (ja) | 人のスピーチの豊富な転写についての音声・ツー・テキスト・タグ付けのためのシステム | |
US20220319494A1 (en) | End to end spoken language understanding model | |
US20230081306A1 (en) | Training end-to-end spoken language understanding systems with unordered entities | |
US20230237989A1 (en) | External language model information integrated into neural transducer model | |
US20230103102A1 (en) | Closed caption content generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230428 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20230428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231212 |