JP2022049141A

JP2022049141A - 演算デバイス、計算機システム、及び演算方法

Info

Publication number: JP2022049141A
Application number: JP2020155200A
Authority: JP
Inventors: 大輔宮下; Daisuke Miyashita; ラドゥベルダン; Berdan Radu; 康人星; yasuto Hoshi; 淳出口; Atsushi Deguchi
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-29
Also published as: US20220083848A1

Abstract

【課題】間引き処理を行うことなく近似計算しても高速化できるようにし、処理時間などのコストを削減することができる演算デバイス、計算機システム、及び演算方法を提供することである。
【解決手段】ニューラルネットワークにおけるクエリに対応するキー探索とみなせる処理を実行する演算デバイスにおいて、クエリベクトルと、複数個のキーベクトルそれぞれとの間の類似度を近似的に計算する近似類似度計算部と、前記近似類似度計算部における近似計算の結果、類似度が閾値以上のキーを選択する選択部と、前記クエリと、前記選択部で選択されたキーとの類似度を計算する計算部と、を備える。
【選択図】図３

Description

本発明の実施形態は、演算デバイス、計算機システム、及び演算方法に関する。

従来、自然言語処理（ＮＬＰ：Natural Language Processing）の演算に、ベクトル行列積の結果を重みとして別の行列の加重和を計算する処理（Attention）を含むニューラルネットワークが広く利用されるようになってきている。ＮＬＰは、人間の言語（自然言語）を機械で処理するための複数の処理を含む。Attentionを含むニューラルネットワークは、画像処理の分野でも採用が検討されている。

特開２０１９－２１２１２１号公報

本発明が解決しようとする課題は、処理時間などのコストを削減することができる演算デバイス、計算機システム、及び演算方法を提供することである。

実施形態の演算デバイスは、ニューラルネットワークに関する演算を実行する演算デバイスにおいて、第１ベクトルと、複数の第２ベクトルそれぞれとの間の類似度を近似的に計算する第１計算部を備える。また、演算デバイスは、前記第１計算部における前記類似度の計算の結果、前記複数の第２ベクトルのうち前記類似度が閾値以上のベクトルである第３ベクトルを複数選択する選択部を備える。また、演算デバイスは、前記第１ベクトルと、前記選択部で選択された複数の第３ベクトルとの類似度を計算する第２計算部を備える。

図１は、実施形態の演算デバイスを含む計算機システムの構成の一例を示すブロック図である。図２は、実施形態の計算機システムで実行されるニューラルネットワークの構成例を説明するための模式図である。図３は、実施形態の演算デバイスの機能構成を示す機能ブロック図である。図４は、実施形態の演算デバイスによる各種の処理（データの処理方法）の流れを示すフローチャートである。図５は、実施形態のベクトル行列積の近似的計算の一例を示す図である。図６は、実施形態の演算デバイスの機能構成を示す機能ブロック図の変形例である。図７は、比較例のニューラルネットワークにおける処理例を示す図である。図８は、実施形態にかかるアナログ積和演算器の例を示す図である。

以下に添付図面を参照して、実施形態に係る演算デバイス、計算機システム、及び演算方法を詳細に説明する。なお、これらの実施形態により本発明が限定されるものではない。

図１は、実施形態の演算デバイスを含む計算機システム１の構成の一例を示すブロック図である。図１に示されるように、計算機システム１は、入力データを受信する。この入力データは、例えば音声データや音声データから生成されたテキストデータであっても良いし、画像データであっても良い。計算機システム１は、入力データに対して各種の処理を実行する。例えば、入力データが音声データである場合、計算機システム１は、自然言語処理を実行する。

計算機システム１は、入力データに対する処理の結果に対応する信号を出力し、処理の結果を表示デバイス８０に表示させることができる。表示デバイス８０は、液晶ディスプレイ、又は、有機ＥＬディスプレイなどである。表示デバイス８０は、ケーブル又は無線通信を介して、計算機システム１に電気的に接続される。

計算機システム１は、ＧＰＵ（Graphic Processing Unit）１０、ＣＰＵ（Central Processing Unit）２０、及び、メモリ７０を少なくとも含む。ＧＰＵ１０、ＣＰＵ２０、及び、メモリ７０は、内部バスにより通信可能に接続されている。

本実施形態において、ＧＰＵ１０は、機械学習装置である後述のニューラルネットワーク１００を用いた推論処理用に関する演算を実行する。ＧＰＵ１０は、後述する近似的に類似度計算を行うプロセッサである。ＧＰＵ１０は、メモリ７０をワークエリアとして用いながら、入力データに対する処理を実行する。ＧＰＵ１０は、機械学習装置である後述のニューラルネットワーク１００を有する。

ＣＰＵ２０は、計算機システム１の全体の動作を制御するプロセッサである。ＣＰＵ２０は、ＧＰＵ１０及びメモリ７０の制御のための各種の処理を実行する。ＣＰＵ２０は、メモリ７０をワークエリアとして用いながら、ＧＰＵ１０で実行される後述のニューラルネットワーク１００に関する演算を制御する。

メモリ７０は、メモリデバイスとして機能する。メモリ７０は、外部から入力された入力データ、ＧＰＵ１０によって生成されたデータ、ＣＰＵ２０によって生成されたデータ、及び、ニューラルネットワークのパラメータを記憶する。なお、ＧＰＵ１０及びＣＰＵ２０によって生成されるデータは、各種の計算の中間結果及び最終結果を含み得る。例えば、メモリ７０は、ＤＲＡＭ、ＳＲＡＭ、ＭＲＡＭ、ＮＡＮＤ型フラッシュメモリ、抵抗変化型メモリ（例えば、ＲｅＲＡＭ、ＰＣＭ（Phase Change Memory））などの中から選択される少なくとも１以上を含む。ＧＰＵ１０にかかる専用のメモリ（図示せず）が、ＧＰＵ１０に直接接続されてもよい。

入力データは、記憶媒体９９から提供されてもよい。記憶媒体９９は、ケーブル又は無線通信によって、計算機システム１に電気的に結合される。記憶媒体９９は、メモリデバイスとして機能するものであって、メモリカード、ＵＳＢメモリ、ＳＳＤ、ＨＤＤ、及び、光記憶媒体などのいずれでもよい。

図２は、実施形態の計算機システム１で実行されるニューラルネットワーク１００の構成例を説明するための模式図である。

計算機システム１において、図２のニューラルネットワーク１００は、機械学習デバイスとして用いられる。例えば、ニューラルネットワーク１００は、多層パーセプトロン（ＭＬＰ）、畳み込みニューラルネットワーク（ＣＮＮ）、又は注意機構を備えたニューラルネットワーク（例えばＴｒａｎｓｆｏｒｍｅｒ）を含む。ここで、機械学習とは、コンピュータが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術である。

なお、ニューラルネットワーク１００は、如何なる推論を行う機械学習モデルであってもよい。例えば、ニューラルネットワーク１００は、音声データを入力として、当該音声データの分類を出力する機械学習モデルであってもよいし、音声データのノイズ除去や音声認識を実現する機械学習モデルであってもよい。

ニューラルネットワーク１００は、入力層１０１、隠れ層（中間層ともよばれる）１０２、及び出力層（全結合層ともよばれる）１０３を有する。

入力層１０１は、計算機システム１の外部から受信した入力データ（又はその一部分）を受信する。入力層１０１は、複数の演算デバイス（ニューロン又はニューロン回路ともよばれる）１１８を有する。なお、演算デバイス１１８は専用の装置であってもよいし、汎用のプロセッサがプログラムを実行することでその処理が実現されても良い。これ以降も同様の意味で演算デバイスという表記を使う。入力層１０１において、各演算デバイス１１８は、入力データに任意の処理（例えば線形変換や、補助データの追加など）を施して変換し、変換したデータを、隠れ層１０２に送信する。

隠れ層１０２（１０２Ａ，１０２Ｂ）は、入力層１０１からのデータに対して、各種の計算処理を実行する。

隠れ層１０２は、複数の演算デバイス１１０（１１０Ａ，１１０Ｂ）を有する。隠れ層１０２において、各演算デバイス１１０は、供給されたデータ（以下では、区別化のため、デバイス入力データともよばれる）に対して、所定のパラメータ（例えば、重み係数）を用いた積和演算処理を実行する。例えば、各演算デバイス１１０は、供給されたデータに対して、互いに異なるパラメータを用いて積和演算処理を実行する。

隠れ層１０２は、階層化されてもよい。この場合において、隠れ層１０２は、少なくとも２つの層（第１の隠れ層１０２Ａ及び第２の隠れ層１０２Ｂ）を含む。

第１の隠れ層１０２Ａの各演算デバイス１１０Ａは、入力層１０１の処理結果であるデバイス入力データに対して、所定の計算処理を実行する。各演算デバイス１１０Ａは、計算結果を、第２の隠れ層１０２Ｂの各演算デバイス１１０Ｂに送信する。第２の隠れ層１０２Ｂの各演算デバイス１１０Ｂは、各演算デバイス１１０Ａの計算結果であるデバイスを入力データに対して、所定の計算処理を実行する。各演算デバイス１１０Ｂは、計算結果を、出力層１０３に送信する。

このように、隠れ層１０２が階層構造を有する場合、ニューラルネットワーク１００による推論（inference）、学習（learning/training）、及び分類の能力が、向上され得る。なお、隠れ層１０２の層の数は、３層以上でもよいし、１層でもよい。１つの隠れ層は、積和演算処理、プーリング処理、正規化処理、活性化処理などの処理の任意の組み合わせを含むように構成されてもよい。

出力層１０３は、隠れ層１０２の各演算デバイス１１０によって実行された各種の計算処理の結果を受信し、各種の処理を実行する。

出力層１０３は、複数の演算デバイス１１９を有する。各演算デバイス１１９は、複数の演算デバイス１１０Ｂからの計算結果であるデバイス入力データに対して、所定の処理を実行する。これによって、隠れ層１０２による計算結果に基づいて、ニューラルネットワーク１００に供給されたデータに関する推論や分類を、実行できる。各演算デバイス１１９は、得られた処理結果（分類結果）を記憶及び出力できる。出力層１０３は、隠れ層１０２の計算結果をニューラルネットワーク１００の外部へ出力するためのバッファ及びインターフェイスとしても機能する。

なお、ニューラルネットワーク１００は、ＧＰＵ１０の外部に設けられてもよい。すなわち、ニューラルネットワーク１００は、ＧＰＵ１０のみならず、計算機システム１内のＣＰＵ２０、メモリ７０、記憶媒体９９などを利用して実現されるものであってもよい。

本実施形態の計算機システム１において、ニューラルネットワーク１００によって、例えば、自然言語処理／推定のための各種の計算処理、及び、自然言語処理／推定の機械学習（例えば、ディープラーニング）のための各種の計算処理が、実行される。

例えば、計算機システム１において、音声データに対するニューラルネットワーク１００による各種の計算処理に基づいて、音声データが何であるかを計算機システム１によって高い精度で推論（認識）及び分類されたり、音声データが計算機システム１によって高い精度で認識／分類されるように学習されたりすることが可能となる。

本実施形態において、以下のように、ニューラルネットワーク１００内の演算デバイス１１０（１１０Ａ，１１０Ｂ）は、１以上の処理回路を含む。

図３は、実施形態の演算デバイス１１０の機能構成を示す機能ブロック図である。図３に示すように、演算デバイス１１０は、クエリ取得部１１０１と、キー取得部１１０２と、近似計算部１１０３と、選択部１１０４と、計算部１１０５と、を備える。

クエリ取得部１１０１は、供給されたデバイス入力データにかかるクエリとしてベクトルを取得する。キー取得部１１０２は、供給されたデバイス入力データにかかるｎ個のキーの配列として行列を取得する。

近似計算部１１０３は、第１計算部として機能するものであって、クエリとしてのｄ次元ベクトル（第１ベクトル）と、複数の第２ベクトルであるｎ個のｄ次元ベクトル（ｎ個のキーの配列としての行列）それぞれとの間の類似度を近似的に計算する。

選択部１１０４は、近似計算部１１０３における類似度の計算の結果、複数の第２ベクトルのうち類似度が閾値以上のベクトル（第３ベクトル）であるキーを複数選択する。

計算部１１０５は、第２計算部として機能するものであって、クエリと、選択部１１０４で選択されたｋ個のキーとの類似度を計算する。

ここで、図４は実施形態の演算デバイス１１０による各種の処理（データの処理方法）の流れを示すフローチャート、図５は実施形態のベクトル行列積の近似的計算の一例を示す図である。ベクトル行列積は、ベクトルをクエリ、行列をキーの配列として、クエリに対応したキーを探索する処理とみなせる。なお、ここでのキーの配列は、ｄ次元のベクトル（キー）がｎ個とする。

図４に示すように、クエリ取得部１１０１は、供給されたデバイス入力データにかかるクエリとしてベクトルを取得する（Ｓ１）。

また、キー取得部１１０２は、供給されたデバイス入力データにかかるｎ個のキーの配列として行列を取得する（Ｓ２）。

次いで、近似計算部１１０３は、クエリとしてのベクトルとキーの配列としての行列との類似度を近似的に計算する（Ｓ３）。すなわち、近似計算部１１０３は、関連キー（類似度）の順位付けを行う。言い換えると、近似計算部１１０３は、類似度の計算をクエリとしてのｄ次元ベクトル（第１ベクトル）及びｎ個のｄ次元ベクトル（複数の第２ベクトル）のいずれか又は両方を低精度化し、低精度化したベクトルを用いて内積計算を実行することにより類似度を近似的に計算する。

図５に示すように、まず、近似計算部１１０３は、クエリとしてのｄ次元ベクトル（１，ｄ）と、ｎ個のｄ次元ベクトル（キー）の配列としての行列（ｎ，ｄ）^Ｔとのそれぞれの間の近似内積により、類似度であるベクトル行列積を得る。この際に近似計算部１１０３は、クエリとキーを低ビットに量子化することで近似する。低ビットに量子化するというのは、例えばもともと単精度浮動小数点の型で表現されえたクエリやキーを、８ビット整数や４ビット整数など低ビットで高速に処理が可能な型に変換するということである。このような近似を行うため、ここで得られるベクトル行列積は、近似的に求めた重み（１，ｎ）である。

次いで、図４に示すように、選択部１１０４は、類似度が閾値以上に大きくなるｋ個のキーを選択する（Ｓ４）。つまり、図５に示すように、選択部１１０４は、近似的に求めた重み（１，ｎ）において、内積の値が閾値以上に大きくなった列を少数個（ここでは、ｋ個とする）選択して（ｋ，ｄ）^Ｔとする。

なお、この閾値は、あらかじめ設定した所定の値で合っても良いし、選択される列の数があらかじめ設定した個数ｋになるように、内積の値に応じて決めても良い。

次いで、図４に示すように、計算部１１０５は、ｋ個のキーに対する類似度を計算する（Ｓ５）。図５に示すように、計算部１１０５は、元の行列（ｎ，ｄ）^Ｔから選択された列を取り出した小さな行列（ｋ，ｄ）^Ｔに対して、クエリとしてのｄ次元ベクトル（１，ｄ）とのベクトル行列積を厳密に計算する。ここで得られるベクトル行列積は、重み（１，ｋ）である。

このようにして計算されたベクトル行列積の結果は、加重和をとるための重みとして利用される。

上述のように、本実施形態の演算デバイス１１０においては、クエリとしてのｄ次元ベクトル（１，ｄ）に応じて、選択されるｄ次元のベクトル（キー）が変化することが特徴の一つとなっている。

なお、選択部１１０４で選択されて計算部１１０５で利用されるｋ個のキーについては、近似計算部１１０３に存在するｎ個のキーデータそのものの一部が渡されるものに限るものではない。図６は、実施形態の演算デバイス１１０の機能構成を示す機能ブロック図の変形例である。図６に示すように、キー保存部（保存部）として機能するメモリ７０や記憶媒体９９にｎ個のキーに対応するキーデータを保存しておく。このとき、キーデータは、ｎ個のキーを特定可能なインデックスに対応付けて保存されている。選択部１１０４では、類似度が閾値以上に大きくなる列を示すインデックスがｋ個選択され、計算部１１０５では、キー保存部として機能するメモリ７０や記憶媒体９９から、選択されたｋ個のインデックスに対応するキーデータを読み出して利用するという実施形態であっても良い。

図７は、比較例のニューラルネットワークにおける処理例を示す図である。図７に示すように、比較例のニューラルネットワークにおいては、ベクトル行列積の結果を重みとして、別の行列の加重和を計算するという処理（注意機構、Attention）を含んでいる。図７に示すように、比較例のニューラルネットワークにおいては、特にｎが大きい場合、ベクトル行列積：ｄ×（ｄ，ｎ）の計算量が非常に大きくなってしまう、という課題がある。

しかしながら、比較例のニューラルネットワークにおいては、加重和をとるための重みとして利用されるベクトル行列積の結果の分布は、多くの場合偏り、結果的に無視できる（重みがほぼ０になる）ものが多い。

そこで、本実施形態においては、クエリとしてのベクトルに対応するキー探索とみなせる処理を含むニューラルネットワークにおいて、まず、キー探索計算を近似的に行って候補を絞り込み、その後、絞り込んだ少数のキーを対象に、再度、キー探索計算を行うようにした。これにより、計算を近似的に粗く行うことで、間引き処理を行うことなく近似計算しても高速化できるので、処理時間などのコストを削減することができる。

なお、本実施形態においては、関連キー（類似度）の順位付けを近似内積により求めたが、これに限るものではなく、内積以外の計算法でも良い。例えば、関連キー（類似度）の順位付けを、コサイン類似度、ハミング距離などを用いて行うようにしてもよい。

また、本実施形態においては、近似的に類似度計算を行う専用のプロセッサとしてＧＰＵ１０を用いるようにしたが、これに限るものではなく、ＣＰＵ２０において近似的な類似度計算を行うようにしてもよい。この場合、ＣＰＵ２０が演算デバイスを実現することになる。また近似の方法として、クエリ及びキーを低ビットに量子化する方法を示したが、その他の近似方法であっても良い。例えばクエリやキーのベクトルの各要素の内値が所定の値よりも小さいものを０として扱うなどの近似によって、内積計算が高速化できる場合にはそのような近似でも効果が得られる。また、抵抗変化型メモリなどを利用したアナログ積和演算器を利用して、近似的な類似度計算を行うようにしてもよい。この場合、抵抗変化型メモリを用いたアナログ積和演算器が演算デバイスを実現することになる。

アナログ積和演算器の例を図８に示す。アナログ積和演算器は、例えば、横方向（行方向）の複数の配線ＷＬと、縦方向（列方向）の複数の配線ＢＬと、それらの交点で端子がＷＬとＢＬに接続された抵抗素子と、で構成される。図８ではｉ－１行目からｉ＋１行目までの３行と、ｊ－１行目からｊ＋１行目までの３列の３行３列を示しているが、これは例えばｄ行ｎ列の一部分のみを示したものである。ここで、ｄ，ｎはそれぞれ２以上の整数、ｉは１以上ｄ－２以下の整数、ｊは１以上ｎ－２以下の整数である。各ＷＬに入力電圧が印加されると、その電圧値と抵抗素子の抵抗値に応じて電流が生成されて、各ＢＬに電流が流れる。同一ＢＬ上に生成された電流は加算され、出力ｙとなる。これにより、ｄ行の各行に印加される電圧値をｄ次元ベクトル、ｄ行ｎ列の抵抗素子の抵抗値の逆数（コンダクタンス）を（ｎ，ｄ）^Ｔの行列としたときに、ベクトル行列積に対応する処理が実行される。

なお、本実施形態の演算デバイス、本実施形態の演算デバイスを含む計算機システム、及び、本実施形態の演算方法を記憶する記憶媒体は、スマートフォン、携帯電話、パーソナルコンピュータ、デジタルカメラ、車載カメラ、監視カメラ、セキュリティシステム、ＡＩ機器、システムのライブラリ（データベース）、及び、人工衛星などに適用され得る。

上述の説明において、本実施形態の演算デバイス、計算機システム、及び演算方法が、人間の言語（自然言語）を機械で処理する自然言語処理にかかる計算機システム１におけるニューラルネットワークに適用された例が示されている。但し、本実施形態の演算デバイス及び演算方法は、ニューラルネットワークを含む様々な計算機システム、及び、ニューラルネットワークによる計算処理を実行する様々なデータ処理方法に、適用可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１計算機システム
７０メモリデバイス、保存部
９９メモリデバイス、保存部
１００ニューラルネットワーク
１１０演算デバイス
１１０３第１計算部
１１０４選択部
１１０５第２計算部

Claims

ニューラルネットワークに関する演算を実行する演算デバイスにおいて、
第１ベクトルと、複数の第２ベクトルそれぞれとの間の類似度を近似的に計算する第１計算部と、
前記第１計算部における前記類似度の計算の結果、前記複数の第２ベクトルのうち前記類似度が閾値以上のベクトルである第３ベクトルを複数選択する選択部と、
前記第１ベクトルと、前記選択部で選択された複数の第３ベクトルとの類似度を計算する第２計算部と、
を備える演算デバイス。
前記第１計算部は、類似度の計算を前記第１ベクトル及び前記複数の第２ベクトルのいずれか又は両方を低精度化し、前記低精度化したベクトルを用いて内積計算を実行することにより前記類似度を近似的に計算する、
請求項１に記載の演算デバイス。
前記第１計算部は、抵抗素子に電圧を印加することで、抵抗値と電圧値に応じた電流を生成し、その電流を加算する方法によって積和演算を実行するアナログ積和演算器を利用して、類似度を近似的に計算する、
請求項１に記載の演算デバイス。
前記複数の第２ベクトルのデータを保存する保存部を更に備え、
前記選択部は、前記類似度が閾値以上に大きくなる前記第３ベクトルを複数選択し、選択された複数の前記第３ベクトルに対応するデータを保存部から読み出し、
前記第２計算部は、読み出されたキーデータを利用して、前記第１ベクトルとの類似度を計算する、
請求項１ないし３の何れか１項に記載の演算デバイス。
請求項１ないし４の何れか一項に記載の演算デバイスと、
前記演算デバイスが演算するデータを記憶するメモリデバイスと、
を備える計算機システム。
ニューラルネットワークに関する演算を実行する演算デバイスにおける演算方法であって、
第１ベクトルと、複数の第２ベクトルそれぞれとの間の類似度を近似的に計算することと、
前記類似度の計算の結果、前記複数の第２ベクトルのうち前記類似度が閾値以上のベクトルである第３ベクトルを複数選択することと、
前記第１ベクトルと、前記選択された複数の第３ベクトルとの類似度を計算することと、
を含む演算方法。
前記計算することは、類似度の計算を前記第１ベクトル及び前記複数の第２ベクトルのいずれか又は両方を低精度化し、前記低精度化したベクトルを用いて内積計算を実行することにより前記類似度を近似的に計算することを含む、
請求項６に記載の演算方法。