JP2023550725A

JP2023550725A - 効率的なトレーニングのための可変長入力による半ソートバッチ処理

Info

Publication number: JP2023550725A
Application number: JP2023528496A
Authority: JP
Inventors: グ、チェンハオ; カウシィク、ラクシュミシュ; クマール、サケット; オモテ、マサノリ
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-11-12
Filing date: 2021-11-10
Publication date: 2023-12-05
Anticipated expiration: 2041-11-10
Also published as: US20230326452A1; WO2022103884A1; US11615782B2; US20220148569A1; US11915685B2; CN116670695A; EP4244845A1; EP4244845A4; JP7544975B2

Abstract

【課題】可変長データセットでニューラルネットワークをトレーニングするための技術を記載する。【解決手段】各トレーニングサンプルの長さの数値表現が、ランダムに摂動されて（３００）疑似長を生成し、疑似長によってソートされた（３０２）サンプルは、完全にランダムなバッチ処理より低いゼロパディングレート（ＺＰＲ）（したがって、計算時間を節約する）を達成しながら、厳密にソートされたバッチ処理より高いランダム性を達成する（したがって、厳密にソートされたバッチ処理より良いモデルパフォーマンスを達成する）。【選択図】図１

Description

本出願は一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に発明的で非定型的な解決策に関する。詳細には、本出願は、機械学習ニューラルネットワークをトレーニングするための技術に関する。

機械学習（ＭＬ）モデルは、可変長の音声入力（波形を使用した自動音声認識（ＡＳＲ））からのテキストの導出、フレーズ内の次の単語の予測を行う自然言語処理、及び音声合成（テキストから音声へ）など、可変長データのパターンの認識に使用される。

このようなモデルは、時間情報を伴う順次トレーニングデータを使用してトレーニングする必要がある。「順次」という言葉は、予測される結果が現在のデータだけでなく、以前のデータからも決定されることを意味する。ランダムバッチ処理は、可変長トレーニングデータを使用した順次モデルトレーニングのためのデフォルトのバッチ処理戦略として一般に使用されている。ただし、ゼロパディングレート（ＺＰＲ）は比較的高くなる。ＺＰＲは、効率的なトレーニングのためにすべてのデータが同じ長さになるように、短いサンプルにゼロを追加する必要があることを指し、ＺＰＲは、追加されたゼロの総数とパディング後の総サンプル長の比率である。本明細書で理解されるように、高いＺＰＲはかなりの計算コストの増加を伴う。

ＺＰＲを減らすために、ランダムバッチ処理の代わりに、サンプルをランダムに並べるのではなく、バッチ処理の前に長さでサンプルをソートすることができる。本明細書で認識されるように、これはＺＰＲを減少させるが、データのランダム性も完全に除去し、モデルの学習及び精度の改善には良くない。

本原理は、可変長のトレーニングサンプルの実際の長さに、サンプルをソートするためのランダムな長さの摂動を追加する。摂動の追加が無ければ、上記の厳密にソートされたサンプルのみを取得することができる。結果として生じるサンプルシーケンスは、実際の長さを持つ実際のサンプルを含む。このようにして、サンプルはランダム化された疑似長でソートされるが、各バッチの長さにはある程度のランダム性が維持される。

この技術は、本明細書では半ソートバッチ処理と呼ばれ、ＺＰＲの削減（トレーニング速度の向上のため）とデータのランダム性（ランダムバッチ処理と比較して同様のモデルパフォーマンスを維持するため）のバランスを取る。このバッチ処理方法は、入力サンプルの長さが可変である限り、あらゆる順次モデルトレーニングに役立つ。半ソートバッチ処理は、ランダムレベルの調整に使用できるパラメータも提供し、これは、ランダムバッチ処理と厳密にソートされたバッチ処理の間の「スイートスポット」を見つけるのに役立ち、モデルのトレーニング効率とトレーニングのランダム性のバランスが良い。

さらに、バケットバッチ処理（サンプルを最初にソートしてから異なるバケットに分割し、バケットサイズはバッチサイズの倍数である）や交互ソートバッチ処理（サンプルを最初にビンに分割し、次に各ビン内のサンプルを奇数ビンは昇順にソートし、偶数ビンは降順にソートするように交互にソートする）とは異なり、本技術では２つのステップは必要なく、必要なのは、ランダムに摂動された長さでサンプルをバッチにソートする１ステップのみである。

したがって、デバイスは、一時的信号ではない少なくとも１つのコンピュータストレージを含み、少なくとも１つのコンピュータストレージは、少なくとも１つのプロセッサによって実行されて、各機械学習（ＭＬ）トレーニングサンプルの長さの各数値表現をランダムに摂動させて各疑似長を確立する命令を含む。命令は、疑似長によってＭＬトレーニングサンプルをソートし、ＭＬトレーニングサンプルのソートから導出したＭＬトレーニングサンプルのバッチを入力することによって少なくとも１つのＭＬモデルをトレーニングするように実行可能である。ここで留意すべきは、本ソート技術は、テスト（推論）フェーズ及び検証フェーズでも使用されてよいことである。

例示的な実施形態では、命令は、ＭＬトレーニングサンプルの少なくとも一部の長さの各数値表現をランダムに摂動させるように実行可能である。必要に応じて、命令は、ＭＬトレーニングサンプルのすべての長さの各数値表現をランダムに摂動させるように実行可能であってよい。

本明細書で論じる実施態様では、ＭＬトレーニングサンプルは可変長を有する。例として、ＭＬサンプルは可変長の波形を含むことができ、ＭＬモデルは自動音声認識（ＡＳＲ）用に構成することができる。または、ＭＬサンプルは可変長のフレーズを含むことができ、ＭＬモデルは自然言語処理用に構成することができる。さらにまた、ＭＬサンプルは可変長のテキスト文字列と可変長の波形を一緒に含むことができ、ＭＬモデルは音声合成トレーニング用に構成することができる。ＴＴＳのトレーニング中は波形が必要であるが、推論中はテキストのみが必要である。上記の組み合わせを実装することができる。

例示的な実施形態では、命令は、ランダム化された各値をそれぞれの各数値表現に追加することによって少なくとも部分的に、長さの各数値表現をランダムに摂動させるように実行可能であってよい。いくつかの実施態様では、ランダム化された各値は、ＭＬサンプルの中の最長サンプル長と最短サンプル長との差の２分の１を引いたものと、最長サンプル長と最短サンプル長との差の２分の１を足したものとの間の値の分布からランダムに選択することができる。必要に応じて、分布にランダム化係数を掛けてよい。値の分布は、平均値が０の場合もあれば、均一な分布の場合もある。

別の態様では、方法は、疑似長をレンダリングするために、可変長トレーニングサンプルの実際の長さをランダムに摂動させることを含む。この方法はさらに、可変長トレーニングサンプルの配置をレンダリングするために疑似長を使用して可変長トレーニングサンプルを配置することと、可変長トレーニングサンプルの配置を使用して少なくとも１つの機械学習（ＭＬ）モデルをトレーニングすることとを含む。

別の態様では、装置は、実サンプル長とランダム化された長さとの各組み合わせに基づいて、各長さごとに複数の可変長サンプルを配置するように適合された少なくとも１つのプロセッサを含む。プロセッサは、トレーニングフェーズ、推論フェーズ、検証フェーズ、またはテスト、推論、及び検証の任意の組み合わせで、それぞれの各長さごとに配置された可変長サンプルを少なくとも１つのニューラルネットワークに入力するように適合される。プロセッサは、サンプルに少なくとも部分的に基づいて、少なくとも１つのニューラルネットワークを実行するようにさらに適合される。

本願の詳細は、その構造と動作との両方について、添付の図面を参照すると最もよく理解でき、図面において、類似の参照番号は、類似の部分を指す。

本原理と一致した例示的なシステムのブロック図である。機械学習（ＭＬ）の可変長トレーニングサンプルと、ソートのためにサンプルの長さのランダムに摂動する数値表現とを示す。本原理と一致した例示的な論理を例示的なフローチャート形式で示す。本原理に一致する図６の半ソートシーケンスと比較するための、完全にランダムにソートされた（バッチソート）トレーニングサンプルのシーケンスを示す。本原理に一致する図６の半ソートシーケンスと比較するための、完全にソートされたトレーニングサンプルのシーケンスを示す。本原理に一致する半ソートシーケンスを示す。図９に示される半ソートバッチ処理のより滑らかな曲線と比較するために、バケットバッチ処理のＺＰＲの曲線を示す。図９に示される半ソートバッチ処理のより滑らかな曲線と比較するために、ソートバッチ処理のＺＰＲの曲線を示す。半ソートバッチ処理のより滑らかな曲線を示す。図１２に示す半ソートバッチ処理と比較するために、バケットバッチ処理のバッチ長を示す。図１２に示す半ソートバッチ処理と比較するために、ソートバッチ処理のバッチ長を示す。半ソートバッチ処理のバッチ長を示す。

図１を参照すると、本開示は一般的に、家電（ＣＥ）デバイスなどであるが、これに限らないコンピュータデバイスを含み得るコンピュータネットワークの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換できるようにネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ポータブルテレビ（例えば、スマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び下記で説明する追加の例を含む他のモバイルデバイスを含む１つまたは複数のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、またはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅＣｏｍｐｕｔｅｒ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを採用している場合がある。これらの動作環境は、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または以下で説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラムなど、１つまたは複数の閲覧プログラムを実行するために使用されてよい。

サーバ及び／またはゲートウェイは、インターネットなどのネットワークを介してデータを受信及び送信するようにサーバを構成する命令を実行する１つまたは複数のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続することができる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピュータ等によってインスタンス化されてよい。

クライアントとサーバとの間でネットワークを介して情報を交換することができる。この目的及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。

本明細書で使用される場合、命令とは、システム内の情報を処理するためのコンピュータ実施ステップを指す。命令は、ソフトウェア、ファームウェアまたはハードウェアで実施することができ、システムのコンポーネントによって行われるあらゆるタイプのプログラムされたステップを含み得る。

プロセッサは、アドレスライン、データライン、及び制御ラインなどの様々なライン、ならびにレジスタ及びシフトレジスタによって論理を実行できる汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであってよい。

本明細書でフローチャート及びユーザインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定された論理は、他のソフトウェアモジュールに再分配すること、及び／または単一のモジュールにまとめること、及び／または共有可能ライブラリで利用可能にすることができる。フローチャート形式が使用されてもよいが、当然ながら、ソフトウェアは、状態機械または他の論理的方法として実装されてよい。

本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実施することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明されている。

上記で示唆されたものに加えて、以下に記載の論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または特定用途向け集積回路（ＡＳＩＣ）、ディスクリートゲート、もしくはトランジスタ論理などの他のプログラマブル論理デバイス、ディスクリートハードウェアコンポーネント、または本明細書に記載の機能を実行するように設計されたこれらの任意の組み合わせを用いて、実装または実行することができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下に記載されている機能及び方法は、ソフトウェアで実装される場合、Ｃ＃、またはＣ＋＋等であるがこれらに限定されない適切な言語で記述することができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）もしくはデジタル多用途ディスク（ＤＶＤ）等の他の光ディスクストレージ、磁気ディスクストレージもしくはリムーバブルサムドライブ等を含む他の磁気ストレージデバイス等のコンピュータ可読記憶媒体に記憶し、またはそのコンピュータ可読記憶媒体を介して伝送することができる。接続によりコンピュータ可読媒体が確立され得る。このような接続は、例として、光ファイバ及び同軸ワイヤを含むハードワイヤケーブル、ならびにデジタル加入者線（ＤＳＬ）及びツイストペア線を含み得る。

一実施形態に含まれるコンポーネントは、任意の適切な組み合わせで他の実施形態で使用することができる。例えば、本明細書に記載される及び／または図で示される様々なコンポーネントのいずれも、組み合わされ、交換され、または他の実施形態から除外されてよい。

「Ａ、Ｂ、及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、及び／またはＡ、Ｂ、及びＣを一緒に有するシステムなどを含む。

ここで、具体的に図１を参照すると、本原理による、上述され、以下でさらに記載される例示的なデバイスのうちの１つまたは複数を含み得る例示的なシステム１０が示されている。ここで留意すべきは、本明細書の図に記載されているコンピュータ化されたデバイスは、図１の様々なデバイスについて説明されているコンポーネントの一部またはすべてを含み得ることである。

システム１０に含まれる例示的なデバイスの第１のデバイスはコンピュータ１２であり、本明細書に記載の他のコンピュータと同様、本原理を実行する（例えば、他のコンピュータデバイスと通信して本原理を実行し、本明細書に記載の論理を実行し、本明細書に記載の任意の他の機能及び／または動作を実行する）ように構成されている。

したがって、このような原理を実施するために、コンピュータ１２は、図１に示されているコンポーネントの一部またはすべてによって確立することができる。例えば、コンピュータ１２は、１つまたは複数のディスプレイ１４を備えることができ、このディスプレイは、高解像度もしくは超高解像度「４Ｋ」またはそれ以上の解像度のフラットスクリーンによって実装されてよく、ディスプレイのタッチを介したユーザ入力信号を受信するためにタッチ対応であってもよく、タッチ対応でなくてもよい。コンピュータ１２はまた、本原理に従ってオーディオを出力するための１つまたは複数のスピーカ１６と、例えば、可聴コマンドをコンピュータ１２に入力してコンピュータ１２を制御するための、例えば、オーディオ受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス１８とを備えてよい。例示的なコンピュータ１２は、１つまたは複数のプロセッサ２４の制御の下、インターネット、他の広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）パーソナルエリアネットワーク（ＰＡＮ）などの少なくとも１つのネットワーク２２を介して通信するための１つまたは複数のネットワークインタフェース２０をさらに備えてよい。したがって、インタフェース２０は、限定ではなく、Ｗｉ－Ｆｉ送受信機であってよく、このＷｉ－Ｆｉ（登録商標）送受信機は、メッシュネットワーク送受信機などであるが、これに限定されない無線コンピュータネットワークインタフェースの例である。インタフェース２０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）送受信機、Ｚｉｇｂｅｅ（登録商標）送受信機、ＩｒＤＡ送受信機、ワイヤレスＵＳＢ送受信機、有線ＵＳＢ、有線ＬＡＮ、電力線、またはＭｏＣＡであってよいが、これらに限定されない。当然ながら、プロセッサ２４は、例えば、ディスプレイ１４を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に記載のコンピュータ１２の他の要素を含む、本原理を実施するようにコンピュータ１２を制御する。さらに、ここで留意すべきは、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ（登録商標）送受信機等の他の適切なインタフェースであってよいことである。

プロセッサ２４は、本原理に一致する１つまたは複数のニューラルネットワークなどであるがこれに限定されない、１つまたは複数の機械学習（ＭＬ）モデル２５にアクセスすることができる。

上記に加えて、コンピュータ１２はまた、（例えば、有線接続を使用して）別のコンピュータデバイスに物理的に接続する、例えば、高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通してユーザにコンピュータ１２からのオーディオを提示するためにヘッドフォンをコンピュータ１２に接続するヘッドフォンポートなどの１つまたは複数の入力ポート２６を備えてよい。コンピュータ１２はさらに、一時的信号でないディスクベースストレージまたはソリッドステートストレージなどの１つまたは複数のコンピュータメモリ２８を備えてよく、コンピュータメモリ２８は、場合によっては、スタンドアロンデバイスとしてコンピュータの筐体に、またはコンピュータの筐体の内側もしくは外側にパーソナルビデオレコーディングデバイス（ＰＶＲ）もしくはビデオディスクプレイヤとして、または、リムーバブルメモリ媒体として具体化される。また、いくつかの実施形態では、コンピュータ１２は、グラフィック処理ユニット（ＧＰＵ）３０及び／またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）３２を含み得る。ＧＰＵ及び／またはＦＰＧＡは、例えば、本原理に従ってニューラルネットワークをトレーニングし、ニューラルネットワークの動作（例えば、推論）を実行するなどの人工知能処理のために、コンピュータ１２によって使用されてよい。しかし、ここで留意すべきは、プロセッサ２４は、プロセッサ２４が中央処理装置（ＣＰＵ）である場合など、人工知能処理にも使用されてよいことである。

引き続き図１を参照すると、コンピュータ１２に加えて、システム１０は、コンピュータ１２について示されるコンポーネントの一部またはすべてを含み得る１つまたは複数の他のコンピュータデバイスタイプを含み得る。一例では、第１のデバイス３４及び第２のデバイス３６が示され、コンピュータ１２のコンポーネントの一部またはすべてと同様のコンポーネントを含み得る。示されているよりも少ないまたは多いデバイスが使用されてよい。

システム１０はまた、１つまたは複数のサーバ３８を含み得る。サーバ３８は、少なくとも１つのサーバプロセッサ４０と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも１つのコンピュータメモリ４２と、サーバプロセッサ４０の制御下で、ネットワーク２２を介して図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバ、コントローラ、及びクライアントデバイスの間の通信を容易にし得る少なくとも１つのネットワークインタフェース４４とを含み得る。ここで留意すべきは、ネットワークインタフェース４４は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ送受信機、または、例えば、無線テレフォニ送受信機などの他の適切なインタフェースであってよいことである。

したがって、いくつかの実施形態では、サーバ３８は、インターネットサーバであってよく、システム１０のデバイスが、例示的な実施形態においてサーバ３８を介して「クラウド」環境にアクセスし得るように、「クラウド」機能を含んでよく、「クラウド」機能を実行してよい。あるいは、サーバ３８は、図１に示されている他のデバイスと同じ部屋にある、またはその近くにある、ゲーム機、または他のコンピュータによって実装されてよい。

以下に記載のデバイスは、上記の要素の一部またはすべてを組み込んでよい。

図２は、簡単にするために図２ではサンプル１、サンプル２、．．．、サンプルＮとして示される一連の可変長のＭＬエンジントレーニングサンプル２００を示し、サンプルは下付き文字「ｉ」と共に表され、「ｉ」は、サンプル_１からサンプル_Ｎまでのｉ番目のサンプルを示す。限定ではないが、サンプル２００は、例えば、自動音声認識（ＡＳＲ）のために図１のＭＬモデル２５をトレーニングするための可変長の波形、または自然言語処理のためにＭＬモデルをトレーニングするための可変長のフレーズ、または音声合成のためにＭＬモデルをトレーニングするための可変長のテキスト文字列であってよい。

それぞれの各サンプル_ｉ２００は各長さ_ｉ２０２を有し、場合によっては、トレーニング記録の秒数など、時間的に表されるか、合成音声に変換するテキスト単語または文字の数など、空間的に表される。いずれの場合でも、長さ_ｉは、ここではｘ_ｉで表される数値で表すことができる。長さの各数値は、疑似長２０６をレンダリングするために、ここではε_ｉで示される負または正のランダム値２０４をその長さに追加することによってランダムに摂動される。

図３でさらに説明する。ブロック３００から始まり、各機械学習（ＭＬ）トレーニングサンプル２００の長さの各数値表現は、各疑似長を確立するためにランダムに摂動される。ある実施態様において、これは、サンプル２００ごとに各ランダム値２０４をランダムに選択し、そのランダム値２０４をサンプルの実際の各長さ２０２に加算することによって行われる。

ブロック３０２に進むと、サンプルはその各疑似長によってソートされ、ブロック３０４でＭ個のサンプルのシーケンスが生成される。ここで、ＭはＮ（サンプルの総数）未満の整数であり、ブロック３０６でのトレーニングのためにＭＬモデルまたはエンジンに提供されるサンプルの複数のバッチを確立する。したがって、バッチは、擬似長に基づくＭＬトレーニングサンプルのソートから導出される。各バッチのサンプルは、その元のデータと実際の元の長さを保持する。疑似長は、サンプルのソートにのみ使用される。サンプルの一部またはすべては、記載したように摂動されてよい。実質的にすべてのサンプル、例えば、少なくとも９０％が、記載したように摂動されてよい。ここで留意すべきは、サンプルを疑似長によってソートする場合、ソート時にある程度のランダム化が本質的に達成されるため、ビニング（厳密にソートされたバッチ処理で行う必要がある）やバケット化（ランダム化されたバッチ処理で行う必要がある）などの追加のステップは必要ないことである。次に、トレーニングされたＭＬモデルがブロック３０８で使用されて、ブロック３０６でのトレーニングに基づいて非トレーニングデータから関連する予測をレンダリングする。

例示の実施形態では、ランダム化された各値は、サンプルの中の最長サンプル長と最短サンプル長との差の２分の１を引いたものと、最長サンプル長と最短サンプル長との差の２分の１を足したものとの間の値の分布からランダムに選択することができる。さらに、値の分布にランダム化係数を乗じて、ＺＰＲの削減と適切なランダム化の達成との間のトレードオフを最適化するように技術を「調整」することができる。これは、以下に数学的に記号化されている。

当然ながら、厳密にソートされたバッチ処理と比較して、本半ソートバッチ処理（ＳＳＢ）は、ソート時にランダム化された長さε_ｉをサンプル長ｘ_ｉに追加することによって、サンプル長を摂動させる。ランダム化された長さε_ｉは、（－ａ／２，ａ／２）内に均一に分布するランダム変数であり、ａは、サンプル長の下限と上限（最長サンプル長と最短サンプル長）の差とローカルランダム化係数（ＬＲＦ）ｒ∈［０，∞）によって決定される境界である。

上式の記号「Ｕ」は、分布が均一な分布であることを示す。ε_ｉのガウス分布を代わりに使用してもよい、または一般に平均がゼロの任意の分布を使用してもよい。ｒを０から∞に調整することで、ＳＳＢのランダム性はＳＢのランダム性（ｒ＝０）とランダムバッチ処理のランダム性（ｒ＝∞）の中間になる。実際には、ランダム化係数ｒは、ゼロと１の間の調整のみを必要とし得る。

図４～６でさらに説明する。図４は、バッチ４００が任意の長さのサンプル４０２を含み、長さがｙ軸に反映される、ランダム化されたバッチ処理を示す。図５は、サンプル５０２のバッチ５００が最長から最短の長さまで単調に減少するサンプルを含む、厳密にソートされたバッチ処理の結果を示す。最短の長さから最長の長さへとソートすることもできるが、降順でソートする方がよい。なぜなら、最前列に最長の長さのバッチを置くと、最初のバッチが正常に処理されると、後のトレーニングがうまくいくことを保証するためのコンピュータの能力が早期にテストされるからである。

対照的に、図６は、バッチ６００が、図４のように完全にランダム化されておらず、一般にｘ軸に沿って長さが減少しているが、最長から最短まで単調に減少していないサンプル６０２を含む、本技術の結果を示す。これは、サンプルが、図６に示されている実際の長さではなく、疑似長でソートされているためである。

図７は、不連続７００が発生するランダム化されたバッチ処理について、ｘ軸のバケットサイズ対ｙ軸のＺＰＲを示す。図８も同様に、厳密にソートされたバッチ処理について、ビン数対ＺＰＲを示し、不連続点８００も示している。

対照的に、図９は、有利に滑らかな曲線９００を示す、ＺＰＲに対する上記のランダム化係数「ｒ」を示す。これは、半ソートバッチ処理でチューニングパラメータ「ｒ」を使用したＺＰＲの曲線に対するランダムレベルが、ランダムバッチ処理及び厳密にソートされたバッチ処理によって提供されるよりも滑らかなランダムレベルのチューニングを可能にすることを示している。

図１０～１２は、チューニングパラメータ（半ソートバッチ処理のランダム化関数「ｒ」、ランダムバッチ処理のバケットサイズ、及び厳密にソートされたバッチ処理のビンの数）がほぼ同じランダムレベル（類似のＺＰＲ及び平均バッチ長）を有するとき、ｘ軸上のバッチ数に対応するランダムバッチ処理、厳密にソートされたバッチ処理、及び本半ソートバッチ処理のそれぞれ対応するバッチ長をｙ軸上に示す。

ここで留意すべきは、本バッチ処理アルゴリズムは、トレーニング中の時間を節約するだけでなく、テスト（推論）中の時間を節約するためにも使用できることである。基本的に、効率的な計算のためにサンプルのグループのバッチ処理が必要な場合、本バッチ処理アルゴリズムはランダムバッチ処理と比較して時間を節約する。

例えば、テスト（または推論）中は、一度に１つのサンプルをテストし得るが（例えば、モデルに１つの文を入力すると、モデルはその文の合成波形を生成する）、推論すべき多くの文（またはテキスト）がある場合、本バッチ処理技術を使用してバッチごとに出力波形を生成してよい。

検証（トレーニング中のテスト）の場合、検証データセットはチェックポイントごとに１回テストされ、現在のチェックポイントモデルのパフォーマンスに関するフィードバックを提供することができる。この検証セットは、本原理とＭＬモデルへの入力とに従ってバッチ処理できる多くのサンプルを含む。

当然ながら、いくつかの例示的な実施形態を参照して本原理を記載したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよい。

Claims

一時的信号ではない少なくとも１つのコンピュータストレージであって、少なくとも１つのプロセッサによって、
各機械学習（ＭＬ）トレーニングサンプルの長さの各数値表現をランダムに摂動させて、各疑似長を確立し、
前記ＭＬトレーニングサンプルを疑似長によってソートし、かつ、
前記ＭＬトレーニングサンプルの前記ソートから導出されたＭＬトレーニングサンプルのバッチを入力することによって少なくとも１つのＭＬモデルをトレーニングする
ように実行可能な命令を含む、前記コンピュータストレージ
を含む、デバイス。
前記命令が、前記ＭＬトレーニングサンプルの少なくとも一部の長さの各数値表現をランダムに摂動させるように実行可能である、請求項１に記載のデバイス。
前記命令が、前記ＭＬトレーニングサンプルのすべての長さの各数値表現をランダムに摂動させるように実行可能である、請求項１に記載のデバイス。
前記ＭＬトレーニングサンプルが可変長を有する、請求項１に記載のデバイス。
前記ＭＬサンプルが可変長波形を含み、前記ＭＬモデルが自動音声認識（ＡＳＲ）用に構成される、請求項４に記載のデバイス。
前記ＭＬサンプルが可変長のフレーズを含み、前記ＭＬモデルが自然言語処理用に構成される、請求項４に記載のデバイス。
前記ＭＬサンプルが可変長のテキスト文字列を含み、前記ＭＬモデルが音声合成用に構成される、請求項４に記載のデバイス。
前記命令が、それぞれの各数値表現にランダム化された各値を追加することによって少なくとも部分的に、長さの前記各数値表現をランダムに摂動させるように実行可能である、請求項１に記載のデバイス。
ランダム化された各値が、前記ＭＬサンプルの中の最長サンプル長と最短サンプル長との差の２分の１を引いたものと、前記最長サンプル長と前記最短サンプル長との前記差の２分の１を足したものとの間の値の分布からランダムに選択される、請求項８に記載のデバイス。
ランダム化された各値が、前記最長サンプル長と前記最短サンプル長との前記差の２分の１を引いたものと、前記最長サンプル長と前記最短サンプル長との前記差の２分の１を足したものとの間の値の前記分布にランダム化係数を乗じたものからランダムに選択される、請求項９に記載のデバイス。
前記値の分布が、平均ゼロである、請求項９に記載のデバイス。
前記分布が均一な分布である、請求項１１に記載のデバイス。
前記命令を実行する前記少なくとも１つのプロセッサを含む、請求項１に記載のデバイス。
擬似長をレンダリングするために、可変長トレーニングサンプルの実際の長さをランダムに摂動させることと、
可変長トレーニングサンプルの配置をレンダリングするために前記疑似長を使用して前記可変長トレーニングサンプルを配置することと、
可変長トレーニングサンプルの前記配置を使用して、少なくとも１つの機械学習（ＭＬ）モデルをトレーニングすることと
を含む、方法。
非訓練データからの予測をレンダリングするために前記ＭＬモデルを使用することを含む、請求項１４に記載の方法。
前記可変長トレーニングサンプルが可変長波形を含み、前記ＭＬモデルが自動音声認識（ＡＳＲ）のために構成される、請求項１４に記載の方法。
前記可変長トレーニングサンプルが可変長のフレーズを含み、前記ＭＬモデルが自然言語処理用に構成される、請求項１４に記載の方法。
前記可変長トレーニングサンプルが可変長テキスト文字列を含み、前記ＭＬモデルが音声合成用に構成される、請求項１４に記載の方法。
少なくとも１つのプロセッサであって、
実サンプル長とランダム化された長さの各組み合わせに基づいて、各長さごとに複数の可変長サンプルを配置し、
トレーニングフェーズ、推論フェーズ、検証フェーズ、またはテスト、推論、及び検証の任意の組み合わせで、それぞれの各長さごとに配置された前記可変長サンプルを少なくとも１つのニューラルネットワークに入力し、かつ、
前記サンプルに少なくとも部分的に基づいて、前記少なくとも１つのニューラルネットワークを実行する
ように適合された、前記少なくとも１つのプロセッサ
を含む、装置。
前記少なくとも１つのプロセッサが、（－ａ／２，ａ／２）内に均一に分布されたランダム変数であるランダム化された各長さε_ｉを各実サンプル長ｘ_ｉに加えることによって少なくとも部分的に前記各長さをレンダリングするように適合され、
ａは、サンプル長の下限境界と上限境界との差とランダム化係数ｒ∈［０，∞）とによって決定された境界であり、

である、請求項１９に記載の装置。