JP2023552711A - 代替的なソフト・ラベル生成 - Google Patents
代替的なソフト・ラベル生成 Download PDFInfo
- Publication number
- JP2023552711A JP2023552711A JP2023530760A JP2023530760A JP2023552711A JP 2023552711 A JP2023552711 A JP 2023552711A JP 2023530760 A JP2023530760 A JP 2023530760A JP 2023530760 A JP2023530760 A JP 2023530760A JP 2023552711 A JP2023552711 A JP 2023552711A
- Authority
- JP
- Japan
- Prior art keywords
- soft
- soft label
- model
- label
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013140 knowledge distillation Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims 3
- 238000000605 extraction Methods 0.000 description 24
- 230000015654 memory Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000002085 persistent effect Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 239000004744 fabric Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
生徒モデルを訓練するための代替的なソフト・ラベルを識別するための手法を提供することができる。教師モデルは、ラベル付けされた訓練データのためのソフト・ラベルを生成することができる。訓練データは、発話または話される自然言語についての音響ファイルであることができる。教師モデルによって以前に生成されたソフト・ラベルのプールは、生成されたソフト・ラベルに類似するソフト・ラベルを識別するために、ラベル・レベルで探索することができる。類似のソフト・ラベルは、単語音素、または状態レベルあるいはその両方において類似の長さまたはシーケンスを有することができる。識別された類似のソフト・ラベルは、生成されたソフト・ラベルと併せて、生徒モデルを訓練するために使用することができる。
Description
本発明は、一般的に、機械学習の分野に関し、より詳細には、知識蒸留を介して生徒モデルを訓練することに関する。
機械学習モデルを訓練することには、大規模なデータセットおよび多くの計算リソースが必要とされる。知識を複雑な教師ネットワークから単純な生徒ネットワークに移転するよう試みる知識蒸留技術は、機械学習モデルの訓練に用いられる。生徒ネットワークは、生徒と教師との分布の差を最小化する教師のソフト出力に対して訓練される。生徒モデル訓練は、デグレードした特徴を入力として、および教師ネットワークからのより良好な特徴のためのソフト・ターゲットをターゲットとして使用することによって実現された。そのような手法は、その正確さを生徒ネットワークで改善するために、さらなる並列なデータを必要とする。
本開示の実施形態は、生徒音響モデルを訓練するための、コンピュータ実装方法、コンピュータ・プログラム製品、およびシステムを含む。実施形態は、ラベル付けされた音響特徴を受信することを含むことができる。加えて、実施形態は、教師モデルによってラベル付けされた音響特徴についてソフト・ラベルを生成することを含むことができる。実施形態は、1つまたは複数のプロセッサによって、第1のソフト・ラベルに類似する第2のソフト・ラベルをソフト・ラベル・プールから抽出することをさらに含むことができる。最後に、実施形態は、第1のソフト・ラベルおよび第2のソフト・ラベルを使用して生徒モデルを訓練することを含むことができる。
上述の概要は、本開示のあらゆる実装形態の、それぞれ例示の実施形態を説明するように意図されていない。
本明細書で説明される実施形態は、様々な変更形態および代替的な形態に従うが、図面では、その具体例が例として示されたものであり、次に詳細を説明する。しかしながら、説明される特定の実施形態は、限定的な意味に取られるべきではないことを理解されたい。逆に、本開示の範囲に含まれるすべての変更形態、等価物、および代替形態をカバーするよう意図されている。
描かれる実施形態は、教師モデルによる訓練データの生成に基づいて、生徒モデルのためのソフト・ラベル訓練データを生成することを可能にさせる。複雑な音響モデルは、ストリーミング発話データのリアル・タイムのデコーディング用にデプロイすることができない。これは主に、スマートフォン、タブレット、およびラップトップなどのデバイス上での、計算リソースの不足に関連する制約に起因する。複雑な音響モデルをデプロイする難しさに関連する別の要因は、デバイスがサーバ上に配置されたモデルにネットワーク越しにデータを伝送するよう試みる場合では、レイテンシ問題である。複雑な音響モデルの計算およびレイテンシ問題を回避しようとする試みでは、知識蒸留技術を介してコンパクトな音響モデルが訓練されてきた。コンパクトな音響モデルは、複雑なまたは広帯域の音響モデルに関するレイヤまたは分析的な能力が不足している。しかしながら、コンパクトな音響モデルは、高速なフィードバックおよび低計算リソース要件という効果がある。コンパクトな音響モデル出力のパフォーマンスを増大させる試みでは、複雑なモデルからの訓練データを蒸留することによって、より多くの情報をコンパクトな音響モデルのレイヤに含むことを可能にする。
音声認識では、発話(音声)信号から導出される音響特徴からの隠れマルコフ・モデル(HMM)状態にわたる確率分布を生成するために、典型的にはニューラル・ネットワーク(NN)モデルが音響モデルに使用される。HMM状態は、コンテキスト依存音素状態のクラスタ、または単純にコンテキスト独立音素状態に相当する場合がある。コンテキスト依存モデルのうちの1つは、異なる左2つおよび右2つのフォン(phone)コンテキストごとに、それぞれ別個のフォン・モデルが使用されるクインフォン(quinphone)モデルである。
例えば、英語には44の音素がある。中心音素の前後の音素を、パラメータ共有と併せて考慮することによって、典型的な発話認識システムには、数千から数万のコンテキスト依存音素状態が存在する。音響モデルのためのニューラル・ネットワーク・モデルは、通常、発話信号から導出された音響特徴を受信する入力レイヤ、音響特徴を処理する1つまたは複数の隠れレイヤ、および隠れレイヤの活性化に基づいてHMM状態にわたる確率分布を出力する出力レイヤを含む。
図1は、ソフト・ラベル生成環境100を描いた機能ブロック図である。ソフト・ラベル生成環境100は、サーバ102で動作可能な、教師モデル104および代替的なソフト・ラベル識別エンジン106、サーバ102に記憶されたソフト・ラベル・プール108、サーバ112で動作可能な生徒モデル114、ならびにネットワーク110を含む。
サーバ102および112は、スタンドアロンのコンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、またはデータを受信、送信、および処理することが可能な、あらゆる他の電子デバイスもしくはコンピューティング・システムであることができる。他の実施形態では、サーバ102および112は、複数のコンピュータをサーバ・システムとして利用する、サーバ・コンピューティング・システムを表現することができる。別の実施形態では、サーバ102および112は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ、デスクトップ・コンピュータ、またはソフト・ラベル生成環境100内の他のコンピューティング・デバイス(図示せず)とネットワーク110を介して通信することができる、あらゆるプログラム可能な電子デバイスであることができる。
別の実施形態では、サーバ102および112は、ソフト・ラベル生成環境100内でアクセスされた時にシームレスなリソースの単一のプールとして機能することができる、クラスタ化されたコンピュータおよびコンポーネント(例えば、データベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)を利用するコンピューティング・システムを表現している。サーバ102および112は、図4に関してさらに詳細に図示および説明するように、内部および外部ハードウェア・コンポーネントを含むことができる。図1にはサーバ102および112のみを示しているが、ソフト・ラベル生成環境100内には複数のコンピューティング・デバイスが存在することができることに留意されたい。例えば、クライアント・コンピュータ(図示せず)は、サーバ102および112と、ネットワーク110を介して通信することができる。別の例では、サーバ102および112は、ネットワーク110に接続されたコンピューティング・デバイス(図示せず)がサーバ102および112にアクセスすることができるクラウド・サーバ・ネットワークの一部であることができる(例えば、インターネット)。
教師モデル104は、典型的には、単一のモデルまたは複数モデルのアンサンブルを含む高リソース分類モデルである。教師モデル104は、実用的なサービスとして実際にデプロイするには重すぎるリソースを有することすらあり得る。単一の分類モデルまたはアンサンブル中の各分類モデルは、DNN(深層ニューラル・ネットワーク)、CNN(畳み込みニューラル・ネットワーク)、RNN(再帰ニューラル・ネットワーク)ベースのモデル、およびいくつかのニューラル・ネットワークのタイプの特徴を組み合わせたニューラル・ネットワーク・モデルを含む、標準的なニューラル・ネットワークのうちのいずれか1つであってもよい。特定の実施形態では、教師モデル104は、限定はしないが、VGGモデル、長・短期記憶(LSTM)、またはResNetあるいはその組合せを含む。説明される実施形態では、教師モデル104は、知識蒸留の前に、訓練データの十分に大きなコレクションを用いて、既に訓練されている。教師モデル104は、ラベル付けされた音響特徴を1つまたは複数のクラスに分類するように構成することができることに留意されたい。ソフト・ラベルは、音響特徴が特定のクラスに存在する確率の予測であることができる。加えて、いくつかの実施形態では、教師モデル104は、ラベル付けされた音響特徴についてハード特徴を生成することができる。ハード・ラベルは、入力音響特徴がクラスに存在するかどうかのyesまたはno分類である。ソフト・ラベルは、入力音響特徴があるクラスに存在する予測(すなわち、確率)である。
代替的なソフト・ラベル識別エンジン106は、教師モデル104によって出力される参照ラベルに類似した、ソフト・ラベル・プール108内の1つまたは複数のソフト・ラベルを識別するように構成することができるコンピュータ・モジュールである。代替的なソフト・ラベル識別エンジン106は、訓練された教師モデルによって生成される参照ラベルを探索することができる。さらには、いくつかの実施形態では、代替的なソフト・ラベル識別エンジン106は、ソフト・ラベル・プール108内の参照ラベルに関連付けられる音素に基づいて候補類似ソフト・ラベルを識別することができる。ソフト・ラベル・プール108内でソフト・ラベルを生成する教師モデルは、ソフト・ラベル生成環境100内の教師モデル104とは異なる教師モデルであることができることに留意されたい。代替的なソフト・ラベル識別エンジン106はまた、生徒モデル114を訓練するための代替的なソフト・ラベルを生成するために、候補ソフト・ラベルから類似性スコアを抽出することができる。代替的なソフト・ラベル識別エンジン106は、生成されたソフト・ラベルを、ネットワーク110を介して生徒モデル114に送信することができる。
ソフト・ラベル・プール108は、発話データ中で個々のフレームにラベル付けされたコレクション・ソフト・ラベルおよび参照ラベルを記憶するように構成される。例示的な実施形態では、データ単位は、発話データ中のフレームである。ソフト・ラベルを生成するために収集される発話データは、会話、ナレーションなどで話される実際の発声を記録する、あらゆる発話データを含むことができる。ソフト・ラベル・プール内の各ソフト・ラベルは、強制アラインメントによって教師モデル104からの対応フレームと揃えられる音素クラスを含むことができる。換言すると、各フレームは、教師側のクラス・セットの中から選択された正しい音素クラスと、並行して予めラベル付けされている。ソフト・ラベル・プール108は、生徒モデルに対する知識蒸留のための代替的なソフト・ラベル生成を実装する、代替的なソフト・ラベル識別エンジン106に動作可能に結合された、あらゆる記憶媒体またはデバイスのデータ記憶装置またはメモリ・エリアによって与えられる。
ネットワーク110は、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、またはこの2つの組合せであることができ、有線、無線、または光ファイバ接続を含むことが可能である。一般には、ネットワーク110は、サーバ102、112、および他のコンピューティング・デバイス(図示せず)の間の通信をサポートする、接続およびプロトコルの任意の組合せであることが可能である。
生徒モデル114は、通常、本番の音響モデルとして容易に使用することが可能な、軽量でコンパクトな分類モデルである。生徒モデル114は、DNN、CNN、RNNベースのモデル、およびいくつかのニューラル・ネットワークのタイプの特徴を組み合わせたニューラル・ネットワークを含む、標準的なニューラル・ネットワークのうちの任意の1つであることができる。1つまたは複数の実施形態では、生徒モデル114は、教師モデル104とは異なる構造を有する。例示的な実施形態では、生徒モデル114は、教師モデル104よりも小さく単純である(つまり、パラメータがより少ない)。しかしながら、教師モデル104よりも大きい、またはより複雑である、あるいはその両方のモデルは、生徒モデル114のためのモデルから排除されなくてもよい。生徒モデル114は、教師モデル104と同じクラスで訓練してもよいことに留意されたい。生徒モデル114はまた、複数のクラスで訓練することができ、複数の教師モデル(図示せず)から訓練データを受信することができる。
図2は、本発明の実施形態による、代替的なソフト・ラベル識別エンジンを描いた機能ブロック図200である。
図2に示されるのは、代替的なソフト・ラベル識別エンジン106である。代替的なソフト・ラベル識別エンジン106上では、参照ラベル探索モジュール202と類似性抽出モジュール204が動作可能である。
参照ラベル探索モジュール202は、ソフト・ラベル・プール108内のソフト・ラベルに関連付けられる参照ラベルに基づいてソフト・ラベル・プール108から候補ソフト・ラベルを識別するように構成することができるコンピュータ・モジュールである。いくつかの実施形態では、参照ラベル探索モジュール202は、教師モジュール104によって出力されたソフト・ラベルに関連付けられるデータを受信することができる。データは、識別された発話または発声の参照を含むことができる。例えば、教師モデル104からのソフト・ラベルの参照ラベルは、「question」をターゲットとする、「I have a question」であり得る。参照ラベル探索モジュール202は、ソフト・ラベル・プール108中のソフト・ラベルに関連付けられる参照ラベルのすべてを探索し、候補ソフト・ラベルを見つけることができる。直ぐ上の例では、参照ラベル探索モジュール202は、ソフト・ラベル・プール108から以下を識別する:「…good question…」、「…your question…」、および「…two questions…」。参照ラベル中「question」を有する候補ソフト・ラベルは、代替的なソフト・ラベル識別エンジン106に送信することができる。参照ラベルは、発声を含む音声ファイルの生成された書き起こしであることができ、ここでは自動音声認識システムがその音声ファイルを処理してあることに留意されたい。いくつかの実施形態では、参照ラベルは、音声ファイルのコンテンツの、人間が注釈付けした書き起こしであってもよい。
類似性抽出モジュール204は、参照ラベル探索モジュール202によって識別された候補ソフト・ラベルから類似のソフト・ラベルを識別するように構成することができるコンピュータ・モジュールである。類似性抽出モジュール204は、類似のソフト・ラベルを、ソフト・ラベルの発話データ内のデータの分析に基づいて識別することができる。いくつかの実施形態では、類似性抽出モジュール204は、単語、音素、または状態レベルにおいて、類似の長さの単語シーケンスを抽出する。別の実施形態では、類似性抽出モジュール204は、単語音素、または状態レベルにおいて、同一または類似のシーケンスの単語を抽出することができる。別の実施形態では、類似性抽出モジュール204は、音素または状態レベルにおいて、同一または類似の長さの音素シーケンスを識別することができる。いくつかの実施形態では、類似性抽出モジュール204は、多様な要因(例えば、単語/音素/状態の全一致、性別、年齢、発話者の属性など)に基づいて、候補ソフト・ラベルについて類似性スコアを生成するように構成することができる。類似性抽出モジュール204は、ソフト・ラベル・プール108からの書き起こしを強制整列するように構成することができることに留意されたい。強制整列された書き起こしは、次いで音声ファイルに対して整列され、類似性抽出モジュール204は音声ファイルのスペクトログラムをさらに処理することができる。実施形態では、類似性抽出モジュール204は、言語学的類似性を分析する。ターゲット単語が「question」である場合、類似性抽出モジュール204は、ソフト・ラベル・プール208から同一または類似の持続時間を有する発声領域「question」を選択する。ターゲット領域における単語「question」については、例えば単語レベルでは、類似性抽出モジュール204は、ソフト・ラベル・プール208で「question(24)」を探索することになり、フォン・レベルでは、類似性抽出モジュール204は、ソフト・ラベル・プール208で「K(3)-W(3)-EH(4)-S(3)-CH(5)-IH(3)-N(3)」を探索することになり、状態レベルでは、類似性抽出モジュール204は、「K(1-1-1)-W(1-1-1)-EH(1-2-1)-S(1-1-1)-CH(1-3-1)-IH(1-1-1)-N(1-1-1)」を探索することになる。ターゲット領域からの「question」についての音響特徴、「question」についての元々のソフト・ラベル、および選択された発声領域からの「question」についての代替的なソフト・ラベルが、生徒モデルを訓練するために使用されることに留意されたい。
別の例では、類似性抽出モジュール204が類似の長さについての単語シーケンスを分析する実施形態では、教師生成のソフト・ラベルのための入力は、「I have a question」中の「question」であることができる。ソフト・ラベル・プール108から、候補ソフト・ラベルおよび次の2つの単語セグメントについてのデータが、参照ラベルから識別されている:「…that’s two questions, sir」および「…very good question」。類似性抽出モジュール204は、候補セグメントのうちの1つは単語「question」で終わり、候補セグメントのうちの1つは、入力セグメントのように4つの単語をその中に有することを認識する。この例では、類似性抽出モジュール204は、候補ソフト・ラベルのための類似性スコアを生成するように構成されている。「…very good question」についての類似性スコアは96%であるが、「…that’s two questions,sir」についての類似性スコアは70%である。この例示の設定では、約83%のスコアを有する候補ソフト・ラベルのみが、訓練のために生徒モデル114に送信される。
さらなる実施形態では、類似性抽出モデル204が、1つまたは複数の候補ソフト・ラベルが教師モデル104によって生成されたソフト・ラベルに類似していると判定した場合、類似性抽出モデルは、判定された候補ソフト・ラベルから類似のソフト・ラベルをさらに抽出することができる。実施形態では、類似性抽出モデル204は、すべての一致したソフト・ラベルを、訓練のために生徒モデル114に送信することができる。別の実施形態では、類似性抽出モデルは、最も一致した(例えば、1best)またはn-bestソフト(nは正の整数である)のラベルのみを、訓練のために生徒モデル114に送信することができる。さらに別の実施形態では、類似性抽出モデル204は、生徒モデル114を訓練するために高い尖度分布のソフト・ラベルを送信することができる。
図3は、本発明の実施形態による、代替的なソフト・ラベル生成のための方法300を描いたフローチャートである。ステップ302では、訓練データは、教師モデル104で受信される。いくつかの実施形態では、訓練データは、ユーザまたはデータベースからの音声ファイルである。いくつかの実施形態では、訓練データは、書き起こしを用いてラベル付けされる。加えて、訓練データは、音声ファイルに関連付けられた音波を表現するスペクトログラムを有する場合がある。いくつかの実施形態では、自動音声認識システムは、訓練データのための特徴ベクトルを生成してある。
ステップ304では、ソフト・ラベルは、訓練データのために教師モデル104によって生成される。いくつかの実施形態では、教師モデル104は、訓練データのためのソフト・ラベルを生成することができ、ソフト・ラベルは、教師モデルが分類するように設計される特定のクラスに単語または単語セグメントを配置する、訓練データについての確率予測である。いくつかの実施形態では、教師モデル104はまた、訓練データのためのハード・ラベルを生成するように構成することもできる。
ステップ306では、代替的なソフト・ラベル識別エンジン106を用いて類似のソフト・ラベルをソフト・ラベル・プール108から抽出する。例えば、代替的なソフト・ラベル識別エンジン106は、教師モデル104によって生成されたソフト・ラベルおよび関連付けられた訓練データを受信することができる。参照ラベル探索モジュール202は、訓練データに関連付けられる参照ラベルに基づいて、ソフト・ラベル・プール108内で候補ソフト・ラベルを探索することができる。いくつかの実施形態では、ターゲット単語は、さらなる精緻化のために訓練データ参照ラベル内で分離することができる。別の例では、類似性抽出モジュール204は、ソフト・ラベルに関連付けられた発話データに基づいて、識別された候補ソフト・ラベルを分析することができる。発話データは、ターゲット単語に基づいて生成されたソフト・ターゲットの発話データに強制整列することができる。いくつかの実施形態では、候補ソフト・ラベルのための発話データの音素シーケンスは、生成されたソフト・ラベルのための発話データの音素シーケンスに対して分析することができる。いくつかの実施形態では、類似性スコアは、それぞれ識別された候補ソフト・ラベルについて類似性抽出モジュール204によって生成することができる。さらには、候補ソフト・ラベルがしきい類似性スコアを上回ると識別された場合、候補ソフト・ラベルを、訓練のために生徒モデル114に送信することができる。いくつかの実施形態では、1つまたは複数の類似のソフト・ラベルは、代替的なソフト・ラベル識別エンジン106の設定に基づいて、訓練のために生徒モデル114に送信することができる。
ステップ308では、生徒モデル114は、教師モデル104によって生成されたソフト・ラベル、および代替的なソフト・ラベル識別エンジン106によって識別された類似のソフト・ラベルを用いて訓練される。いくつかの実施形態では、2つ以上の類似のソフト・ラベルを使用して生徒モデル114を訓練することができる。
図4は、サーバ102および112、または本発明の実施形態におけるあらゆる他のコンピューティング・デバイスを表す、例示のコンピュータ・システムである、コンピュータ・システム400を描いている。コンピュータ・システム400は、コンピュータ・プロセッサ414、メモリ416、永続的ストレージ418、ネットワーク・アダプタ428、および入出力(I/O)インターフェース426間に通信を提供する、通信ファブリック412を含む。通信ファブリック412は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、およびシステム内のあらゆる他のハードウェア・コンポーネント間で、データまたは制御情報あるいはその両方を通過させるように設計されたあらゆるアーキテクチャで実装することが可能である。例えば、通信ファブリック412は、1つまたは複数のバスを用いて実装することが可能である。
コンピュータ・システム400は、プロセッサ414、キャッシュ422、メモリ416、ネットワーク・アダプタ428、入出力(I/O)インターフェース426、および通信ファブリック412を含む。通信ファブリック412は、キャッシュ422、メモリ416、永続的ストレージ418、ネットワーク・アダプタ428、および入出力(I/O)インターフェース426間に通信を提供する。通信ファブリック412は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、およびシステム内のあらゆる他のハードウェア・コンポーネント間で、データまたは制御情報あるいはその両方を通過させるように設計されたあらゆるアーキテクチャで実装することが可能である。例えば、通信ファブリック412は、1つまたは複数のバスまたはクロスバー・スイッチを用いて実装することが可能である。
メモリ416および永続的ストレージ418は、コンピュータ可読記憶媒体である。この実施形態では、メモリ416は、永続的ストレージ418、ランダム・アクセス・メモリ(RAM)420、キャッシュ422、およびプログラム・モジュール424を含む。一般には、メモリ416は、あらゆる好適な揮発性または非揮発性のコンピュータ可読記憶媒体を含むことが可能である。キャッシュ422は、メモリ416から最近アクセスされたデータ、およびごく最近アクセスされたデータを保持することによって、プロセッサ414のパフォーマンスを向上させる高速のメモリである。以下でさらに描写され説明されるように、メモリ416は、本発明の実施形態の機能を実行するように構成されるプログラム・モジュール424のうちの少なくとも1つを含むことができる。
少なくとも1つのプログラム・モジュール424を有するプログラム/ユーティリティは、限定ではなく例として、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、メモリ416に記憶することができる。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データまたはそのいくつかの組合せのそれぞれは、ネットワーキング環境の実装を含むことができる。プログラム・モジュール424は、一般的に本明細書において説明されるような本発明の実施形態の、機能または方法あるいはその両方を実行する。
本発明の実施形態を実用化するために使用されるプログラム命令およびデータは、キャッシュ422を介する個々のプロセッサ414のうちの1つまたは複数による実行のために、永続的ストレージ418およびメモリ416に記憶されてもよい。実施形態では、永続的ストレージ418は、磁気ハード・ディスク・ドライブを含む。あるいは、または磁気ハード・ディスク・ドライブに加えて、永続的ストレージ418は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することができる、あらゆる他のコンピュータ可読記憶媒体を含むことが可能である。
永続的ストレージ418によって使用される媒体はまた、リムーバブルであってもよい。例えば、リムーバブルなハード・ドライブを、永続的ストレージ418に使用してもよい。他の例としては、光学および磁気ディスク、サム・ドライブ、ならびに永続的ストレージ418の一部でもある別のコンピュータ可読記憶媒体への移動のためにドライブに挿入されるスマート・カードが挙げられる。
ネットワーク・アダプタ428は、これらの例では、他のデータ処理システムまたはデバイスとの通信に用意される。これらの例では、ネットワーク・アダプタ428は、1つまたは複数のネットワーク・インターフェース・カードを含む。ネットワーク・アダプタ428は、物理的通信リンクおよび無線通信リンクのいずれかまたはその両方の使用により、通信を提供してもよい。本発明の実施形態を実用化するために使用されるプログラム命令およびデータは、ネットワーク・アダプタ428を通じて永続的ストレージ418にダウンロードしてもよい。
I/Oインターフェース426は、各コンピュータ・システムに接続され得る他のデバイスとのデータの入力および出力が可能となる。例えば、I/Oインターフェース426は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の好適な入力デバイスあるいはその組合せなど、外部デバイス430への接続を提供してもよい。外部デバイス430はまた、例えばサム・ドライブ、ポータブルの光学または磁気ディスク、およびメモリ・カードなどの、ポータブルのコンピュータ可読記憶媒体を含むことが可能である。本発明の実施形態を実用化するソフトウェアおよびデータは、そのようなポータブルのコンピュータ可読記憶媒体に記憶することが可能であり、I/Oインターフェース426を介して永続的ストレージ418にロードすることが可能である。I/Oインターフェース426はまた、ディスプレイ432に接続する。
ディスプレイ432は、データをユーザに表示するメカニズムを実現し、例えばコンピュータ・モニタまたは仮想のグラフィカル・ユーザ・インターフェースであってもよい。
本明細書において説明されるコンポーネントは、本発明の具体的な実施形態に実装される用途に基づいて特定される。しかしながら、本明細書のあらゆる特定のコンポーネント命名法は、便宜的に使用されるに過ぎず、故に本発明は、そのような命名法によって特定される、または含意される、あるいはその両方の、いかなる具体的な用途において使用するようにも限定されてはならないことを諒解されたい。
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる好適な組合せであってもよいが、それに限定はしない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下が挙げられる:ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ(R)・ディスク、命令が記録されたパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる好適な組合せ。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されてはならない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、個別のコンピューティング/処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の送信ケーブル、光学送信ファイバ、無線送信、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。それぞれのコンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの従来的な手続き型プログラミング言語もしくは類似するプログラミング言語、を含む1つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上で一部はリモートのコンピュータ上で、またはすべてリモートのコンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオでは、リモートのコンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は(例えば、インターネット・サービス・プロバイダを使用するインターネットを介して)外部のコンピュータに対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書において説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることを理解されたい。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装する手段を作成するべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するように、コンピュータ実装プロセスを作るべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実施させるものであってもよい。
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態において、ブロックにおいて示した機能は図面で示した順とは異なって生じてもよい。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアとコンピュータ命令との組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
本開示はクラウド・コンピューティングについての詳細な説明を含むが、本明細書で具陳される教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ本発明の実施形態は、現在既知の、または後に開発されるあらゆる他のタイプのコンピューティング環境と併せて実装することができる。
クラウド・コンピューティングは、構成可能なコンピューティング・リソースの共有プール(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)への便利でオン・デマンドのネットワーク・アクセスを可能とするためのサービス提供のモデルであり、最小限の管理努力で、またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースすることができる。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
特徴は以下のとおりである:
オン・デマンドのセルフサービス:クラウド消費者は、サービスのプロバイダとの人間対話を要求することなく必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
幅広いネットワーク・アクセス:機能はネットワーク上で利用可能であり、異質なシン・クライアントまたはシック・クライアントのプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通じてアクセスされる。
リソースのプール:プロバイダのコンピューティング・リソースは、マルチテナントのモデルを使用して複数の消費者にサービス提供するためにプールされ、異なる物理的および仮想的なリソースが要求に応じて動的に割り当ておよび再割り当てされる。消費者が提供されるリソースの正確な場所についての制御または知識を一般的に持たない点で、場所の独立性の意味があるが、より高い抽象レベルにおいて場所(例えば、国、州、またはデータセンタ)を特定できることもある。
迅速な拡張性:機能は迅速かつ拡張可能にプロビジョニングすることができ、いくつかの場合において、自動的に、素早くスケール・アウトされ、迅速にリリースされて素早くスケール・インされる。消費者にとって、プロビジョニングのために利用可能な機能は、しばしば無制限に見え、いつでもいくらでも購入することができる。
サービスの計測:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適当な何らかの抽象化のレベルにおいて計測機能を活用することによりリソースの使用を自動的に制御し、最適化する。リソースの使用は監視され、制御され、かつ報告され得、利用されるサービスのプロバイダおよび消費者の両方にとって透明性を与えている。
サービス・モデルは以下のとおりである:
サービスとしてのソフトウェア(Software as a Service(SaaS)):消費者に提供される機能は、クラウド・インフラストラクチャで実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通じて様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、またはさらには個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理または制御することはなく、例外として限定されたユーザ固有アプリケーションの構成設定が可能である。
サービスとしてのプラットフォーム(Platform as a Service(PaaS)):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成の、または既成のアプリケーションをクラウド・インフラストラクチャに展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラストラクチャの管理または制御をしないが、展開されたアプリケーション、および場合によっては環境構成をホストするアプリケーションについての制御を有する。
サービスとしてのインフラストラクチャ(Infrastructure as a Service(IaaS)):消費者に提供される機能は、任意のソフトウェアを消費者が展開および実行することができる処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることであり、これにはオペレーティング・システムおよびアプリケーションが含まれ得る。消費者は、基礎となるクラウド・インフラストラクチャの管理または制御をしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションの制御、および場合によっては選択ネットワーキング・コンポーネント(例えば、ホスト・ファイヤウォール)の限定された制御を有する。
展開モデルは以下のとおりである:
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運用される。その組織またはサード・パーティによって管理され得、オンプレミスまたはオフプレミスで存在することができる。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有される事案(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス懸案事項)を有する特定のコミュニティをサポートする。組織またはサード・パーティによって管理され得、オンプレミスまたはオフプレミスで存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆または大規模な業界団体に対して利用可能とされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、一意なエンティティのままである2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を組み合わせたものであるが、データおよびアプリケーションのポータビリティを可能にする標準化された、または専有的な技術(例えば、クラウド間でロード・バランシングを行うためのクラウド・バースト)によって結合される。
クラウド・コンピューティング環境は、ステートレス性、低い結合性、モジュール性、および意味論的な相互運用性に焦点をあてたサービス指向である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
図5は、本発明の少なくとも1つの実施形態によるクラウド・コンピューティング環境50を描いたブロック図である。クラウド・コンピューティング環境50は、例えば、携帯情報端末(PDA)または携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54Nあるいはその組合せなど、クラウドの消費者によって使用されるローカルのコンピューティング・デバイスと通信することができる1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は互いに通信することができる。これらは、本明細書において上述したようなプライベート、コミュニティ、パブリック、もしくはハイブリッドのクラウド、またはそれらの組合せなど、1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化することができる(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウドの消費者がローカルのコンピューティング・デバイスでリソースを維持する必要のない、インフラストラクチャ、プラットフォーム、またはソフトウェアあるいはその組合せをサービスとして提供することができる。図6に示されるコンピューティング・デバイス54A~Nのタイプは、単に例示的であることを意図されており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、あらゆるタイプのネットワーク上またはネットワーク・アドレス可能接続で(例えば、ウェブ・ブラウザを使用して)あるいはその両方で、あらゆるタイプのコンピュータ化されたデバイスと通信することができることが理解されよう。
図6は、本発明の少なくとも1つの実施形態による図5に描かれたクラウド・コンピューティング環境50によって提供される、機能的な抽象モデル・レイヤのセットを描いたブロック図である。図6に示されるコンポーネント、レイヤ、および機能は、単に例示的であることを意図されており、本発明の実施形態はそれに限定されないことが、予め理解されるべきである。描写されるように、以下のレイヤおよび対応する機能が提供される:
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、以下が挙げられる:メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66。いくつかの実施形態において、ソフトウェア・コンポーネントとしては、ネットワーク・アプリケーション・サーバ・ソフトウェア67、およびデータベース・ソフトウェア68が挙げられる。
仮想化レイヤ70は、仮想エンティティの以下の例が提供され得る抽象化レイヤを提供する:仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75。
一例において、管理レイヤ80は以下で説明される機能を提供することができる。リソース・プロビジョニング81は、コンピューティング・リソースおよびクラウド・コンピューティング環境内でタスクを実施するために利用される他のリソースの動的な調達を提供する。計測および課金82は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費についての課金または請求書発行を提供する。一例において、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含む場合がある。セキュリティは、クラウド消費者およびタスクについての識別情報の検証、ならびにデータおよび他のリソースについての保護を与える。ユーザ・ポータル83は、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス水準管理84は、要求されるサービス水準が満たされるように、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行85は、SLAに従って将来的な要求が予期されるクラウド・コンピューティング・リソースについての事前申し合わせ、およびクラウド・コンピューティング・リソースの調達を提供する。
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤからもたらされ得るワークロードおよび機能の例として以下が挙げられる:マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想授業教育配信93、データ分析処理94、トランザクション処理95、および代替的なソフト・ラベル識別96。
例示を目的として本発明の様々な実施形態の説明を提示してきたが、網羅的であること、または開示された実施形態に限定することは意図されていない。本発明の範囲から逸脱することなく、多くの変更形態および変形形態が当業者にとって明らかとなろう。本明細書において使用される用語法は、実施形態の原理、実践的な用途もしくは市場で見られる技術より優れた技術的な改善を最良に説明するため、または当業者の他の者が本明細書において開示される実施形態を理解できるように選ばれたものである。
Claims (20)
- 補足されたラベル付けされた訓練データを伴う知識蒸留を介して生徒モデルを訓練するためのコンピュータ実装方法であって、前記方法が、
1つまたは複数のプロセッサによって、ラベル付けされた音響特徴を受信することと、
前記1つまたは複数のプロセッサによって、教師モデルによって前記ラベル付けされた音響特徴についてソフト・ラベルを生成することと、
前記1つまたは複数のプロセッサによって、前記第1のソフト・ラベルに類似する第2のソフト・ラベルをソフト・ラベル・プールから抽出することと、
前記1つまたは複数のプロセッサによって、前記第1のソフト・ラベルおよび第2のソフト・ラベルを使用して生徒モデルを訓練することと
を含む、コンピュータ実装方法。 - 第2のソフト・ラベルを抽出することが、
1つまたは複数のプロセッサによって、前記ソフト・ラベルに関連付けられた各参照ラベルに基づいて、1つまたは複数の候補ソフト・ラベルを識別することと、
1つまたは複数のプロセッサによって、前記1つまたは複数の候補ソフト・ラベルのそれぞれが前記ラベル付けされた音響特徴に類似するかどうかを判定することであって、前記1つまたは複数の候補ソフト・ラベルが前記ラベル付けされた音響特徴と同一の音素シーケンスを有する場合、前記1つまたは複数の候補ソフト・ラベルが類似している、前記判定することと、
前記1つまたは複数の候補ソフト・ラベルが前記ラベル付けされた音響特徴に類似すると判定されたことに応答して、前記1つまたは複数のプロセッサによって、前記1つまたは複数の候補ソフト・ラベルが前記音響特徴に類似していると判定されている場合、前記1つまたは複数の候補ソフト・ラベルを出力することと
をさらに含む、請求項1に記載のコンピュータ実装方法。 - ソフト・ラベル・プールが、前記教師モデルによって生成されたものである、請求項1に記載のコンピュータ実装方法。
- 前記教師モデルおよび前記生徒モデルが、自動音声認識システムである、請求項1に記載のコンピュータ実装方法。
- 前記ラベル付けされた音響特徴が、音響特徴生成器によって生成され、前記音響特徴生成器が、畳み込みニューラル・ネットワークである、請求項1に記載のコンピュータ実装方法。
- 前記教師モデルが、visual geometry groupモデルである、請求項1に記載のコンピュータ実装方法。
- 前記1つまたは複数のプロセッサによって、前記ラベル付けされた音響特徴についてハード・ラベルを生成することと、
前記1つまたは複数のプロセッサによって、前記ハード・ラベルを用いて前記生徒モデルを訓練することと
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 生徒モデルのためのラベル付けされた訓練データを生成するためのシステムであって、前記システムが、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
第1のハード・ラベルと第1のソフト・ラベルとの複数の対を含む第1の訓練データを受信することであって、それぞれの第1のソフト・ラベルが教師モデルによって生成される、前記受信することと、
前記1つまたは複数のプロセッサによって、前記第1のソフト・ラベルに類似する第2のソフト・ラベルをソフト・ラベル・プールから検出することと、
前記第2のソフト・ラベルを、それぞれの第1のソフト・ラベルについての追加的な訓練データとして出力することと、
前記第1のソフト・ラベルおよび第2のソフト・ラベルを使用して生徒モデルを訓練することと
を行うための、コンピュータ・プログラム命令と
を備える、システム。 - 第2のソフト・ラベルを検出することが、1つまたは複数のプロセッサによって、状態レベルが同じ長さの単語シーケンスを前記ソフト・ラベル・プールから抽出することをさらに含む、請求項8に記載のシステム。
- 第2のソフト・ラベルを検出することが、同じ長さの音素シーケンスを前記ソフト・ラベル・プールから抽出することをさらに含む、請求項8に記載のシステム。
- 前記教師モデルおよび前記生徒モデルが、自動音声認識システムである、請求項8に記載のシステム。
- 複数の機能および複数のクラスのソース・コードのための特徴ベクトルを生成することが、コード・エンコーダによって実行される、請求項8に記載のシステム。
- 前記教師モデルが、visual geometry groupモデルである、請求項8に記載のシステム。
- 前記生徒モデルが、畳み込みニューラル・ネットワークである、請求項8に記載のシステム。
- プログラム命令が具体化されたコンピュータ可読記憶媒体を含み、前記プログラム命令がプロセッサに機能を実行させるように前記プロセッサによって実行可能な、コード・リファクタ・リネームのためのコンピュータ・プログラム製品であって、前記機能が、
第1のハード・ラベルと第1のソフト・ラベルとの複数の対を含む第1の訓練データを受信することであって、それぞれの第1のソフト・ラベルが教師モデルによって生成される、前記受信することと、
前記1つまたは複数のプロセッサによって、前記第1のソフト・ラベルに類似する第2のソフト・ラベルをソフト・ラベル・プールから検出することと、
前記第2のソフト・ラベルを、それぞれの第1のソフト・ラベルについての追加的な訓練データとして出力することと、
前記第1のソフト・ラベルおよび第2のソフト・ラベルを使用して生徒モデルを訓練することと
を含む、コンピュータ・プログラム製品。 - 第2のソフト・ラベルを検出することが、1つまたは複数のプロセッサによって、状態レベルが同じ長さの単語シーケンスを前記ソフト・ラベル・プールから抽出することをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
- 第2のソフト・ラベルを検出することが、同じ長さの音素シーケンスを前記ソフト・ラベル・プールから抽出することをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
- 前記教師モデルおよび前記生徒モデルが、自動音声認識システムである、請求項15に記載のコンピュータ・プログラム製品。
- 前記教師モデルが、visual geometry groupモデルである、請求項15に記載のコンピュータ・プログラム製品。
- 前記生徒モデルが、畳み込みニューラル・ネットワークである、請求項15に記載のコンピュータ・プログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/118,139 US20220188622A1 (en) | 2020-12-10 | 2020-12-10 | Alternative soft label generation |
US17/118,139 | 2020-12-10 | ||
PCT/CN2021/132681 WO2022121684A1 (en) | 2020-12-10 | 2021-11-24 | Alternative soft label generation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023552711A true JP2023552711A (ja) | 2023-12-19 |
Family
ID=81942584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023530760A Pending JP2023552711A (ja) | 2020-12-10 | 2021-11-24 | 代替的なソフト・ラベル生成 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220188622A1 (ja) |
JP (1) | JP2023552711A (ja) |
CN (1) | CN116601648A (ja) |
DE (1) | DE112021005230T5 (ja) |
GB (1) | GB2617729A (ja) |
WO (1) | WO2022121684A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922678B2 (en) * | 2022-04-27 | 2024-03-05 | Descartes Labs, Inc. | Carbon estimation |
CN116186200B (zh) * | 2023-01-19 | 2024-02-09 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
US11410029B2 (en) * | 2018-01-02 | 2022-08-09 | International Business Machines Corporation | Soft label generation for knowledge distillation |
US20200167677A1 (en) * | 2018-11-27 | 2020-05-28 | International Business Machines Corporation | Generating result explanations for neural networks |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
CN110459208B (zh) * | 2019-09-09 | 2022-01-11 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
CN110852426B (zh) * | 2019-11-19 | 2023-03-24 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
-
2020
- 2020-12-10 US US17/118,139 patent/US20220188622A1/en active Pending
-
2021
- 2021-11-24 GB GB2310170.2A patent/GB2617729A/en active Pending
- 2021-11-24 CN CN202180082291.1A patent/CN116601648A/zh active Pending
- 2021-11-24 JP JP2023530760A patent/JP2023552711A/ja active Pending
- 2021-11-24 WO PCT/CN2021/132681 patent/WO2022121684A1/en active Application Filing
- 2021-11-24 DE DE112021005230.6T patent/DE112021005230T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2617729A (en) | 2023-10-18 |
CN116601648A (zh) | 2023-08-15 |
US20220188622A1 (en) | 2022-06-16 |
DE112021005230T5 (de) | 2023-08-24 |
WO2022121684A1 (en) | 2022-06-16 |
GB202310170D0 (en) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7517778B2 (ja) | 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 | |
US10755719B2 (en) | Speaker identification assisted by categorical cues | |
US11189269B2 (en) | Adversarial training data augmentation for generating related responses | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US11741371B2 (en) | Automatically generating diverse text | |
US9972308B1 (en) | Splitting utterances for quick responses | |
US11748393B2 (en) | Creating compact example sets for intent classification | |
JP2023552711A (ja) | 代替的なソフト・ラベル生成 | |
US20220101835A1 (en) | Speech recognition transcriptions | |
WO2023046016A1 (en) | Optimization of lip syncing in natural language translated video | |
JP2022551941A (ja) | 音声議事録からの文書の更新および実装 | |
JP2024501173A (ja) | スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ | |
JP2024019082A (ja) | システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合) | |
CN115731921A (zh) | 用无序实体训练端到端口语理解系统 | |
JP2022091725A (ja) | ニューラルネットワークをトレーニングするためのコンピュータ実装方法、非一時的なコンピュータ可読記憶媒体、およびシステム(深層クラスタリングを用いた知識の蒸留) | |
WO2023139015A1 (en) | Data sorting for generating speech recognition models | |
US20220189475A1 (en) | Dynamic virtual assistant speech modulation | |
US20220319494A1 (en) | End to end spoken language understanding model | |
US20230136842A1 (en) | Training data sequence for rnn-t based global english model | |
US20230335123A1 (en) | Speech-to-text voice visualization | |
US20230237989A1 (en) | External language model information integrated into neural transducer model | |
JP2024539875A (ja) | Rnn-tベースのグローバル英語モデル用トレーニングデータシーケンス | |
JP2023500200A (ja) | 自然言語表現変形の生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230613 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20230609 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240516 |