JP7408723B2

JP7408723B2 - ニューラルネットワークプロセッシングユニット、ニューラルネットワークの処理方法及びその装置

Info

Publication number: JP7408723B2
Application number: JP2022089599A
Authority: JP
Inventors: チャオティアン，; レイジア，; シャオピンヤン，; ジュンフィウェン，; グァンライデン，; キァンリー，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2022-06-01
Publication date: 2024-01-05
Anticipated expiration: 2042-06-01
Also published as: CN113570033A; EP4044070A3; JP2022116266A; EP4044070A2; US20220292337A1; KR20220078536A; CN113570033B

Description

本出願は、深層学習、音声技術などのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工智能）分野に関し、特にニューラルネットワークプロセッシングユニット、ニューラルネットワークの処理方法及びその装置に関する。

現在、スマートスピーカーなどの電子機器内の音声チップに対して、デュアルカーネルアーキテクチャにおける１つのカーネルは音声処理に使用され、もう１つのカーネルは、マスターＭＣＵ（ＭｉｃｒｏｐｒｏｇｒａｍｍｅｄＣｏｎｔｒｏｌＵｎｉｔ、マイクロコントローラ）の機能（例えば、サービスロジック、制御ロジックなど）を実現するために使用される。しかし、単一のカーネルですべての音声を処理するのは、処理負担が大きい。

本出願は、ニューラルネットワークプロセッシングユニット、ニューラルネットワークに使用される処理方法及びその装置を提供する。

本出願の一態様によれば、ＮＰＵ（ＮｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ニューラルネットワークプロセッシングユニット）を提供し、前記ＮＰＵは、浮動小数点型の入力データを取得し、前記浮動小数点型の入力データを量子化して量子化された後の入力データを得て、前記量子化された後の入力データを演算ユニットに提供し、及び前記演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得るための量子化ユニットを備え、前記演算ユニットが、前記量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、前記入力データの演算結果を得るように構成される。

本出願のもう１つの態様によれば、バスで接続される上記１つの態様で提供されたニューラルネットワークプロセッシングユニットＮＰＵと、擬似静的ランダムメモリＰＳＲＡＭと、デジタル信号プロセッサＤＳＰと、を備える処理装置を提供し、前記ＤＳＰが、内部のメモリに処理対象の入力データを記憶し、及び前記ＮＰＵによる前記入力データの演算結果を記憶するように構成され、
前記ＰＳＲＡＭが、ニューラルネットワークのネットワークパラメータを記憶するように構成される。

本出願の別の態様によれば、ニューラルネットワークプロセッシングユニットＮＰＵに適用されるニューラルネットワークの処理方法を提供し、前記ＮＰＵは量子化ユニット及び演算ユニットを備え、前記処理方法が、前記量子化ユニットは浮動小数点型の入力データを取得し、前記浮動小数点型の入力データを量子化して量子化された後の入力データを得て、前記量子化された後の入力データを演算ユニットに提供するステップと、前記演算ユニット前記量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、前記入力データの演算結果を得るステップと、前記量子化ユニット前記演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得るステップと、を含む。

本出願の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが本出願の上記提供されたニューラルネットワークの処理方法を実行できる。

本出願の他の態様によれば、コンピュータ命令の非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の上記提供されたニューラルネットワークの処理方法を実行させる。

本出願の更なる態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される際に、本出願の上記提供されたニューラルネットワークの処理方法を実現する。

なお、この部分で説明された内容は、本出願の実施例の肝心又は重要な特徴を特定しようとするものではなく、本出願の範囲を限定するものでもないことを理解されたい。本出願の他の特徴は以下の明細書を通して理解しやすくなる。

図面は本解決案をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の実施例１によって提供されるＮＰＵの構造概略図である。本出願の実施例２によって提供されるＮＰＵの構造概略図である。本出願の実施例における畳み込み演算プロセスの概略図である。本出願の実施例３によって提供される処理装置の構造概略図である。本出願の実施例４によって提供される処理装置の構造概略図である。本出願の実施例５によって提供されるニューラルネットワークの処理方法の概略フローチャートである。本出願の実施例の実施に使用できる例示的な電子機器の例示的なブロック図である。

以下、図面に合わせて本出願の例示的な実施例を説明し、ここで、理解を助けるために、その中には本出願の実施例の様々な詳細が含まれており、それらを例示的なものとして見なすべきである。従って、当業者であれば、本出願の範囲と精神から逸脱しない限り、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確且つ簡潔にするために、以下の説明では、周知の機能や構造に対する説明を省略している。

音声チップのコストを削減し且つバランスアルゴリズムのニーズを満たすために、音声チップの内部メモリを減らし、さらにＳＩＰ（ＳｙｓｔｅｍＩｎＰａｃｋａｇｅ、システムインパッケージ）を用いてＰＳＲＡＭ（ＰｓｅｕｄｏＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、擬似静的ランダムメモリ）拡張メモリを封止する方法で、ＥＳＰ３２にＰＳＲＡＭを組み込む手段で元の音声チップのコストを削減する。即ち、従来の手段では、ＰＳＲＡＭをＥＳＰ３２のマスターチップ側に配置し、且つ基板レベルに外付けされ、更なるコストが必要とされ、そのため、ＰＳＲＡＭを音声チップ内に封止することができ、チップ内メモリに合わせて、ＰＳＲＡＭを組み込むコストを削減する。

しかしながら、チップ内メモリの減少に伴い、広帯域幅の内部メモリが減少し、データをロードする速度も落ちるため、ＡＩ演算及びモデルデータが並列してロードされるリスクがもたらされ、したがって、ＰＳＲＡＭの帯域幅利用率をどのように高めるかは極めて重要である。

また、音声チップの面積を減少させるために、音声チップ内のマスターＭＣＵ（ＭｉｃｒｏｐｒｏｇｒａｍｍｅｄＣｏｎｔｒｏｌＵｎｉｔ、マイクロコントローラ）の機能（音声サービスロジック、制御ロジックなど）をＥＳＰ３２から音声チップ内に移すことができ、音声チップ内のデュアルカーネルアーキテクチャ内には、音声処理のために提供されるカーネルは１つしかない。

しかしながら、デュアルカーネルの演算量をすべて１つのカーネルに処理させると、８ｘ８、１６ｘ８乗加算の演算力が不足しており、すべての音声を単一のカーネルで処理するには、処理のストレスが大きい。

そのため、上記存在する課題に対して、本出願はニューラルネットワークプロセッシングユニット、ニューラルネットワークの処理方法及びその装置を提供する。

以下、図面を参照しながら、本出願の実施例のニューラルネットワークプロセッシングユニット、ニューラルネットワークの処理方法及びその装置を説明する。

図１は、本出願の実施例１によって提供されるＮＰＵの構造概略図である。

図１に示すように、当該ＮＰＵ１００は、量子化ユニット１１０及び演算ユニット１２０を備える。

量子化ユニット１１０は、浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニット１２０に提供し、及び演算ユニット１２０によって出力された演算結果に対して逆量子化を行って、逆量子化結果を得るように構成される。

演算ユニット１２０は、量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得るように構成される。

本出願の実施例では、ＮＰＵが音声チップ内に適用されると、浮動小数点型の入力データは、ユーザによって入力された音声データの特徴ベクトルに基づいて決定することができる。対応して、逆量子化結果は、音声データに対応する音声認識結果を決定するように構成される。

なお、ＮＰＵが他のチップに適用され得ることを理解されたい。この場合、浮動小数点型の入力データは他のデータに基づいて決定することができ、例えば、画像の特徴ベクトル、ビデオフレームの特徴ベクトル、テキストの特徴ベクトルなどに基づいて決定することができ、本出願はこれに対して限定しない。

本出願の実施例では、量子化ユニット１１０を介して浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニット１２０に提供することができ、対応して、演算ユニット１２０は、量子化された後の入力データを受信すると、量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得て、演算結果を量子化ユニット１１０に出力することができ、量子化ユニット１１０は、演算結果を受信すると、演算結果に対して逆量子化を行って逆量子化結果を得ることができる。これにより、専用のハードウェアＮＰＵを用いることで、列演算及び／又は畳み込み演算を実現し、当該ＮＰＵが音声チップ内に適用される場合、音声チップ内のカーネルの処理負担を低減して、音声チップ内のカーネルの処理効率を向上させることができる。

本出願の実施例のＮＰＵは、量子化ユニットを介して浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニットに提供することで、演算ユニットを介して、量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得て、その後、量子化ユニットを介して、演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得る。これにより、専用のＮＰＵを用いて行列演算及び／又は畳み込み演算を実現し、当該ＮＰＵが音声チップ内に適用される場合、音声チップ内のカーネルの処理負担を低減して、音声チップ内のカーネルの処理効率を向上させることができる。

本出願の上記実施例では入力データをどのように量子化するか、及び演算ユニット１２０によって出力された演算結果に対して逆量子化をどのように行うかを明確に説明するために、以下、演算ユニット１２０が行列ベクトル操作を実行する場合を例として説明する。

演算ユニット１２０が行列ベクトル操作を実行する際に、量子化ユニット１１０は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタル信号プロセッサ）内部のメモリに記憶される浮動小数点型の入力データに基づいて、量子化のために使用される第１のパラメータと逆量子化のために使用される第２のパラメータを求め、数値型の入力データを得るように、浮動小数点型の入力データ内における量子化対象の浮動小数点の値に第１のパラメータをかけ、且つ小数点以下を切り捨てて数値型ｃｈａｒに変換し、数値型の入力データを演算ユニット１２０に送信し、演算ユニット１２０が得た演算結果を浮動小数点型に変換し、浮動小数点型の演算結果に第２のパラメータをかけてＤＳＰのメモリに送信して記憶するように構成され得る。

本出願の実施例では、量子化のために使用される第１のパラメータ及び逆量子化のために使用される第２のパラメータは、浮動小数点型の入力データに基づいて決定される。

一例として、浮動小数点型の入力データに対応するベクトル最大値を決定し、ベクトル最大値をｆｍａｘ、第１のパラメータをＢ、第２のパラメータをＡとしてマークすると、Ｂは１２７．０ｆ／ｆｍａｘであってもよく、Ａはｆｍａｘ／１２７．０ｆであってもよい。１つのｃｈａｒの取り得る値の範囲は－１２８～１２７であり、量子化時に、最高の精度を得るために、ｆｍａｘを１２７という量子化値にマッピングすることができ、ｆはｆｌｏａｔ（浮動小数点型）を指す。

本出願の実施例では、ＮＰＵ１００内の量子化ユニット１１０はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタル信号プロセッサ）内部のメモリに記憶される浮動小数点型の入力データに基づいて、量子化のために使用される第１のパラメータと逆量子化のために使用される第２のパラメータを求め、浮動小数点型の入力データ内の量子化対象の浮動小数点の値（例えば入力データ内のすべての浮動小数点の値）に第１のパラメータを掛け、小数点以下を切り捨てて数値型の入力データに変換し、数値型の入力データを演算ユニット１２０に送信し、演算ユニット１２０を介して、数値型の入力データに対して行列ベクトル操作を実行して、入力データの演算結果を得ることができ、演算ユニット１２０は演算結果を量子化ユニット１１０に送信し、量子化ユニット１１０を介して、演算ユニット１２０が演算して得られた演算結果を浮動小数点型に変換し、浮動小数点型の演算結果に第２のパラメータを掛けて、逆量子化結果を得て、逆量子化結果をＤＳＰのメモリに送信して記憶し、これにより、後続の操作はＤＳＰのソフトウェアで実行することができる。

これにより、一方で、専用の量子化ユニットで量子化のプロセスを実現することを実現でき、ＮＰＵ１００が行列演算プロセスを効果的に実行することを確保することができる。他方では、通常、浮動小数点型の入力データをＤＳＰのメモリに記憶すると共に、行列ベクトル操作の演算結果をＤＳＰ内のメモリに記憶することにより、ＤＳＰとＮＰＵとのＣａｃｈｅ（キャッシュメモリ）一致性の設計が必要とされず、ハードウェア設計を大幅に簡素化することができ、ＤＳＰとＮＰＵとのデータ一致性の課題を解決する。

データ一致性とは、ＤＳＰがＮＰＵのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムメモリ）（ＮＰＵＲＡＭと略す）にアクセスする際に、アクセスデータがＣａｃｈｅ内にマッピングされることを指すものであり、ＮＰＵがＮＰＵＲＡＭ内のデータを修正すれば、ＤＳＰはＮＰＵＲＡＭ内の修正データを検出することができず、Ｃａｃｈｅ内のデータしか見えないため、データ一致性の問題が生じる。ＮＰＵがＤＳＰ内部のメモリにアクセスする際に、ＤＳＰ及びＮＰＵは同時にＤＳＰ内部のメモリを検出することができ、データ一致性の問題は生じない。

一例として、ＮＰＵ１００内の量子化ユニット１１０は、浮動小数点型の入力データに対応するベクトル最大値ｆｍａｘを決定することができ、ｆｍａｘに基づいて、量子化のために使用される第１のパラメータＢ及び逆量子化のために使用される第２のパラメータＡを決定し、行列ベクトル操作を実行する中で、入力データ内のすべての浮動小数点値にＢをかけた後に、小数点以下を切り捨てて浮動小数点型ｃｈａｒに変換することができ、ｃｈａｒ型の入力データを演算ユニット１２０に送信し、演算ユニット１２０を介して、ｃｈａｒ型の入力データ及びｃｈａｒ型のニューラルネットワークパラメータｗｅｉｇｈｔに対して８ｘ８の行列ベクトル操作（行列ベクトル操作の入力ベクトルは８ｂｉｔに量子化する必要があり、行列ベクトル操作は、８ｂｉｔに８ｂｉｔをかける行列演算）を行い、行列ベクトル操作の結果をアキュムレータＡＣＣに出力し、ＡＣＣによって出力された結果はすなわち演算結果であり、ＡＣＣによって出力された演算結果は浮動小数点型のものに変換し、且つ浮動小数点型の演算結果にＡをかけた後に、ＤＳＰのメモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、動的ランダムメモリ））に送信して記憶することができる。

本出願の実施例の１つの可能な実現形態では、ＰＳＲＡＭを介してニューラルネットワークのネットワークパラメータを記憶することができ、演算ユニット１２０は、ＰＳＲＡＭ内に記憶されているネットワークパラメータの少なくとも一部を読み取ることができ、読み取ったネットワークパラメータの少なくとも一部に基づいて、数値型の入力データに対して行列ベクトル操作を実行し、且つ引き続きＰＳＲＡＭ内のその他のネットワークパラメータを同期して読み取る。これにより、ネットワークパラメータを読み取りながら、行列ベクトル操作を実行することを実現することができ、即ち、データ読み取り／ロードと演算との並列化を実現することができ、演算効率を向上させる。

１つの適用シーンとして、ニューラルネットワークが音声認識のシーンに提供される場合を例とすると、上記入力データは、ユーザによって入力された音声データの特徴ベクトルに基づいて決定することができ、演算ユニットによって出力された演算結果は、音声データに対応する音声認識結果を決定する。

もう１つの適用シーンとして、ニューラルネットワークが画像認識のシーン又はビデオ認識のシーンに適用される場合を例とすると、上記入力データは、画像又はビデオフレームの特徴ベクトルに基づいて決定することができ、対応して、演算ユニットによって出力された演算結果は、画像又はビデオフレームの分類結果を決定する。

一例では、ニューラルネットワークが身分認識に用いられる場合を例として説明し、上記入力データは画像又はビデオフレームの特徴ベクトルに基づいて決定することができ、対応して、上記演算結果は画像又はビデオフレーム内のターゲットオブジェクトの身分情報を決定する。

もう１つの例では、ニューラルネットワークが生体検出に用いられる場合を例として説明し、上記入力データは画像又はビデオフレームの特徴ベクトルに基づいて決定することができ、対応して、上記演算結果は画像又はビデオフレーム内に生体が存在するか否かを決定する。例えば、ニューラルネットワークによって出力された確率の値が予め設定された閾値（例えば、予め設定された閾値が０．５であってもよい）以上である場合、分類結果は生体が存在することであり、ニューラルネットワークによって出力された確率の値が予め設定された閾値より小さい場合、分類結果は生体が存在しないことである。

別の例では、ニューラルネットワークが、禁止令違反である写真（例えば、暴力的な写真、エロい写真など）の検出に用いられる場合を例として説明し、上記入力データは、画像又はビデオフレームの特徴ベクトルに基づいて決定することができ、対応して、上記演算結果は、画像又はビデオフレームが禁止令違反である写真であるか否か決定する。例えば、ニューラルネットワークによって出力された確率の値が予め設定された閾値以上である場合、分類結果は、画像又はビデオフレームが禁止令違反である写真であることであり、ニューラルネットワークによって出力された確率の値が予め設定された閾値より小さい場合、分類結果は、画像又はビデオフレームが正常な写真であることである。

更なる適用シーンとして、ニューラルネットワークが音声翻訳のシーンに適用される場合を例とすると、上記入力データは、ユーザによって入力された音声データの特徴ベクトルに基づいて決定することができる。対応して、演算ユニットによって出力された演算結果は、音声翻訳の結果を決定する。

例えば、ニューラルネットワークが中国語－英語翻訳のシーンに適用される場合を例として説明すると、上記入力データは中文の音声データの特徴ベクトルに基づいて決定することができ、対応して、上記演算結果は音声データに対応する英語翻訳結果を決定し、当該英語翻訳結果は音声の形であってもよいし、テキストの形であってもよいが、ここで限定されない。

本出願の実施例の１つの可能な実現形態では、ＮＰＵ１００はバス経由でＤＳＰ内部のメモリにアクセスすることができ、具体的に、ＮＰＵ１００はバスのメインインターフェースをさらに備えることができ、メインインターフェースはバスを介してＤＳＰにメモリコピー関数ｍｅｍｃｐｙを送信することで、ＤＳＰ内部のメモリにアクセスして、ＤＳＰ内部のメモリに記憶される浮動小数点型の入力データを得る。これにより、ＤＳＰ内部のメモリに記憶されている入力データを効果的に読み取ることを実現でき、したがって、ＮＰＵ１００が演算プロセスを効果的に実行することを確保することができる。さらに、ＤＳＰ及びＮＰＵは同時にＤＳＰ内部のメモリを検出することができ、バス経由でＤＳＰ内部のメモリにアクセスし、データ一致性の問題さえ回避することができる。

本出願の実施例の１つの可能な実現形態では、演算ユニット１２０が畳み込み演算を実行する際に、量子化ユニット１１０は、浮動小数点型の入力データに対して、浮動小数点を短整数型に変換する変換操作を行うことで、演算ユニット１２０を介して変換後の短整数型の入力データに対して畳み込み演算を実行するために使用され得る。これにより、量子化のプロセスを、浮動小数点型を短整数型の固定小数点に変換するプロセスに簡素化することができ、畳み込みプロセスの精度を保証できるだけではなく、量子化プロセスの演算オーバーヘッドを削減することができる。

浮動小数点型の入力データはＤＳＰ内部のメモリに記憶することができる。

本出願の実施例の１つの可能な実現形態では、ＮＰＵ１００は高速アクセスインターフェースを介してＲＡＭにアクセスすることができ、ＲＡＭはＮＰＵから短整数型の入力データを取得し、且つ短整数型の入力データをＲＡＭ内に転送して記憶することができ、これにより、後続の演算プロセスにおいて、演算ユニット１２０はＲＡＭから短整数型の入力データを効果的に取得することができ、短整数型の入力データに対して畳み込み演算を実行する。即ち、本出願では、ＲＡＭを介して、量子化ユニット１１０によって出力された短整数型の入力データを記憶することができる。

上記ＲＡＭはＮＰＵのＲＡＭであり、ＮＰＵＲＡＭと略す。

本出願の上記実施例でどのようにして短整数型の入力データに対して畳み込み演算を行ったかを分かりやすく説明するために、本出願はもう１つのＮＰＵを提供する。

図２は本出願の実施例２によって提供されるＮＰＵの構造概略図である。

図２に示すように、当該ＮＰＵ２００は、量子化ユニット２１０及び演算ユニット２２０を備えることができ、演算ユニット２２０は第１のレジスタ２２１、第２のレジスタ２２２、及びアキュムレータ２２３を備える。

量子化ユニット２１０は、浮動小数点型の入力データに対して、浮動小数点を短整数型に変換する変換操作を行うことで、変換後の短整数型の入力データに対して畳み込み演算を実行するように構成される。

ＮＰＵ２００は高速アクセスインターフェースを介してＲＡＭにアクセスし、ＲＡＭは、短整数型の入力データをＲＡＭ内に転送して記憶するように構成される。

第１のレジスタ２２１は、第１の周期でＲＡＭから短整数型の入力データを読み取るように構成される。

第２のレジスタ２２２は、第１の周期の後の複数の後続サイクルで、ＰＳＲＡＭに記憶されているネットワークパラメータの少なくとも一部を読み取り、各周期で読み取ったネットワークパラメータの少なくとも一部と、第１のレジスタ２２１内の対応する入力データとのドット積演算を行うように構成される。

アキュムレータ２２３は、ドット積演算の結果を取得し、ドット積演算の結果に基づいて累積して、畳み込み演算の演算結果を得るように構成される。

例えば、ネットワークパラメータをｗｅｉｇｈｔ’としてマークし、ネットワークパラメータｗｅｉｇｈｔ’を８つのｗｅｉｇｈｔ”に分けることができ、各ｗｅｉｇｈｔ”はバスで読み取り、短整数型の入力データ及びｗｅｉｇｈｔ”のみに対して畳み込み演算を行い、ある周期であるｗｅｉｇｈｔ”を得た時、当該ｗｅｉｇｈｔ”及び短整数型の入力データを用いて畳み込み演算を実行するプロセスでは、演算ユニットは次のｗｅｉｇｈｔ”を読み取ることで、読み取り／ロードのプロセスと畳み込み演算のプロセスとの並列化を実現することができ、畳み込み演算の効率を向上させる。

例えば、入力データをＩとしてマークし、ニューラルネットワークのネットワークパラメータはＷであり、入力データが１２８バイトｂｙｔｅｓである場合を例とすると、第１の周期では、入力データの最初の４つのｂｙｔｅ［０，３］を読み取ることができ、第２の周期から第３３の周期までは、３２周期のネットワークパラメータを読み取り、即ち１２８ｂｙｔｅのネットワークパラメータを読み取り、図３に示すように、入力データの最初の４つのｂｙｔｅとネットワークパラメータの１２８ｂｙｔｅに対して同時にドット積演算を行うことができ、アキュムレータＡＣＣは合計３２の周期のドット積演算の結果を累積する。

例えば、図３におけるＡＣＣ１の出力はＷ［３］×Ｉ［３］＋Ｗ［２］×Ｉ［２］＋Ｗ［１］×Ｉ［１］＋Ｗ［０］×Ｉ［０］であり、同様に、ＡＣＣ２の出力はＷ［７］×Ｉ［３］＋Ｗ［６］×Ｉ［２］＋Ｗ［５］×Ｉ［１］＋Ｗ［４］×Ｉ［０］であり、このように、ＡＣＣ３２の出力はＷ［１２７］×Ｉ［３］＋Ｗ［１２６］×Ｉ［２］＋Ｗ［１２５］×Ｉ［１］＋Ｗ［１２４］×Ｉ［０］である。

その後、再び入力データ内の４つのｂｙｔｅ［４，７］を読み取り、及び３２周期のネットワークパラメータを読み取り、ドット積演算を行い、ドット積演算の結果をアキュムレータに送信して累積し、入力データ内のすべてのｂｙｔｅが消費された後、即ち入力データ内のすべてのｂｙｔｅがいずれも演算に参加した場合、行列演算は終了する。

これにより、ネットワークパラメータがロードされる又は読み取られる中で、読み取られたネットワークパラメータで畳み込み演算を実行するのを実現することができ、データ読み取り／ロードと畳み込み演算との並列化を実現することができ、畳み込み演算効率を向上させる。

本出願の実施例の１つの可能な実現形態では、当該ＮＰＵが音声チップ内に適用される場合、音声チップのカーネルの処理負担をさらに軽減するために、ＮＰＵ内には、高性能の活性化ユニットをさらに備えることができ、活性化ユニットを介して、畳み込み演算の演算結果を活性化する。具体的に、畳み込み演算の演算結果はＤＳＰのメモリに送信して記憶することができ、活性化ユニットはバス経由でＤＳＰ内部のメモリにアクセスして、ＤＳＰに記憶されている畳み込み演算の演算結果を取得することができ、畳み込み演算の演算結果に基づいて、活性化関数を用いて活性化を行い、且つ活性化結果をＤＳＰに提供して記憶し、これにより、後続の操作はＤＳＰのソフトウェアで実行することができる。

上記実施例はＮＰＵの構造であり、本出願は処理装置の構造をさらに提供する。

図４は本出願の実施例３によって提供される処理装置の構造概略図である。

図４に示すように、当該処理装置は、バスで接続される上記任意の実施例によって提供されるＮＰＵ４１０、ＰＳＲＡＭ４２０及びＤＳＰ４３０を備えることができる。

ＤＳＰ４３０は、内部のメモリに処理対象の入力データを記憶し、及びＮＰＵによる入力データの演算結果を記憶するように構成される。

ＰＳＲＡＭ４２０は、ニューラルネットワークのネットワークパラメータを記憶するように構成される。

本出願の実施例では、ＮＰＵ４１０はバス経由でＤＳＰ４３０内部のメモリにアクセスすることで、処理対象の入力データを読み取り、及びバス経由でＰＳＲＡＭ４２０にアクセスしてネットワークパラメータの少なくとも一部を得ることができ、読み取ったネットワークパラメータの少なくとも一部に基づいて、入力データに対して行列ベクトル操作及び畳み込み演算のうちの少なくとも１つを実行し、且つ引き続きＰＳＲＡＭ４２０内のその他のネットワークパラメータを同期して読み取り、これにより、引き続き読み取ったその他のネットワークパラメータに基づいて、入力データに対して行列ベクトル操作及び畳み込み演算のうちの少なくとも１つを実行して、入力データの演算結果を得ることができる。これにより、データを読み取り又はロードしながら、演算のプロセスを実行することを実現することができ、即ち、データ読み取り／ロードと演算との並列化を実現することができ、したがって演算効率を向上させることができる。

なお、関連技術では、ＰＳＲＡＭのデータをロードするにはＣａｃｈｅが必要とされ、Ｃａｃｈｅがロードされる際にＤＳＰが待機状態であり、データのロードが完了しないと、ロードされたデータで演算プロセスを実行することができず、演算効率が低い。

本出願では、ＰＳＲＡＭ４２０内におけるネットワークパラメータのロードプロセスとＮＰＵ４１０の演算プロセスとは並列して実行され、データロードの利用率を向上させると共に、演算効率を大幅に向上させることを実現することができる。ニューラルネットワークが音声認識のシーンに適用される場合を例として説明し、演算効率が大幅に向上した場合、当該処理装置を、ニューラルネットワーク化の音声ウェイクアップおよび認識のタスクにより適したものにすることができる。

一例として、ＤＳＰをＨｉＦｉ（ＨｉｇｈＦｉｄｅｌｉｔｙ、高忠実度）ＤＳＰとする場合を例とすると、処理装置の構造は図５に示すとおりであってもよく、ＮＰＵはバスのメインインターフェースを備えることができ、当該メインインターフェースはバス経由でＨｉＦｉＤＳＰ内部のメモリにアクセスし、また、ＮＰＵは高速アクセスインターフェース（１２８ｂｙｔｅ／周期ｃｙｃｌｅ）を有し、当該高速アクセスインターフェースを介してＮＰＵＲＡＭにアクセスする。

浮動小数点型の入力データ、行列ベクトル操作の演算結果、及び畳み込み演算の演算結果（浮動小数点型）をＨｉＦｉＤＳＰ内部のメモリに記憶することにより、ＨｉＦｉＤＳＰはＮＰＵとのＣａｃｈｅ一致性の設計が必要とされず、即ち、Ｃａｃｈｅ構造を修正したり、一致性バスを追加したりする必要がなく、ハードウェアの設計を簡素化することができる。

演算能力では、ＮＰＵ内に１２８個の８ｘ８の乗加算が組み込まれており、４ｘ３２、８ｘ１６、１６ｘ８という３種類の行列演算モードをサポートする。同時に６４個の１６ｘ８の乗加算に対応し、２ｘ３２、４ｘ１６、８ｘ８という３種類の畳み込み演算モードをサポートする。４ｘ３２は、１２８個の要素を３２のグループに分け、各グループの４つの元素と入力データの４つの要素とのドット積を求め、ドット積結果を３２個のアキュムレータに送信することを指す。入力データのベクトル次元がＮである場合、１ｘＮとＮｘ３２との行列演算を完成させるには合計Ｎ／４個の周期が必要とされる。８ｘ１６、１６ｘ８は同様である。

行列演算、即ち行列ベクトル操作は、入力データ又は入力ベクトルを８ｂｉｔに量子化し、８ｂｉｔｘ８ｂｉｔのベクトル積行列演算を行い、行列演算結果に入力データの量子化ｓｃａｌｅ値（第２のパラメータ）をかける。ニューラルネットワークのネットワークパラメータｗｅｉｇｈｔは同様に量子化が必要とされ、ネットワークパラメータの量子化プロセスはＨｉＦｉＤＳＰのソフトウェアで完成することができ、即ち、ｗｅｉｇｈｔのスケール係数とバイアス係数（Ｓｃａｌｅ値とＢｉａｓ値）の操作は、この部分の演算量の比率が低いため、ＨｉＦｉＤＳＰのソフトウェアで完成することができる。上記操作は、６４ｘ６４要素の８ｘ８行列演算のプロセスでは、量子化の演算力は約３０％を占有し、８ｘ８行列演算は約６７％を占有し、積ｓｃａｌｅは３％を占有する。量子化プロセスが占有する比率が高いのは、浮動小数点を短整数型固定小数点に変換する過程で、浮動小数点の符号ビットを判断して、０．５を加えるか又は引いてから、ｉｎｔ８整数に変換する必要がある。しかしながら、この操作に対して、ＨｉＦｉＤＳＰは特定の加速命令がなく、１つずつ実行するしかできない。本出願の上記ハードウェア加速の方式を介して、専用回路という方法を用いることができ、即ちＮＰＵを介して行列演算を実行すると、この部分の比率を３０％から５％まで低下させることができる。行列演算に合わせて、各周期で８つの乗加算を１２８個の乗加算に増やし、演算効率を大幅に向上させる。

畳み込み演算に対して、その入力は１６ｂｉｔを用いることで、量子化のプロセスを、浮動小数点型＊１０２４をｓｈｏｒｔ型固定小数点に変換するプロセスに変換する。元の量子化プロセスは、入力データ又は入力ベクトルの最大値ａｂｓｍａｘを求め、すべての値をｍａｘで割ってから１２７にかけるものであり、当該演算は３つのステップを必要とされるが、浮動小数点型＊１０２４をｓｈｏｒｔ型固定小数点に変換するのは、その３つ目のステップに過ぎない。これにより、畳み込みプロセスの精度を確保するとともに、量子化プロセスの演算オーバーヘッドを削減する（元の量子化プロセスでは並列的に演算することができないからである）。

ＮＰＵは、ｓｉｇｍｏｉｄ／ｔａｎｈ／ｌｏｇ／ｅｘｐなどの操作を実現する高性能の活性化ユニットを有し、精度が単精度浮動小数点数学ライブラリに近く、１つの周期で１つのユニットの演算を完成させることができ、ＨｉＦｉＤＳＰでこれらの関数を演算する時間を大幅に減少させ、各ユニットの演算には約４００～１０００の周期が必要とされる。

上記内容では、専用の量子化ユニットを用いて量子化の時間オーバーヘッドを削減し、本出願では、さらにメモリを最大限に使用することで演算効率を向上させることができる。

性能を損なわない前提で、チップ内のＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、静的ランダムメモリ）のサイズを可能な限りを減少させることができる。関連技術における音声チップに対して、１ＭＢ＋のストレージがＰＳＲＡＭに配置され、１６６ＭＢ／ｓ帯域幅だけを有するＰＳＲＡＭに対して、１０ｍｓごとに１回呼び出す場合、１ＭＢのストレージを読み取るだけで、理論的な帯域幅の６０％が占有されてしまい、演算効率が８０％である場合、当該比率は７５％に増加する。そのため、まず、呼び出し回数の少ないモデルをＰＳＲＡＭ内に配置する必要があり、例えば、ＰＳＲＡＭ内に配置されたモデルには、３０ｍｓごとに１回呼び出すモデルが存在する。また、データをロードすると共に演算を行い、且つ繰り返してロードすることを減少させるために、チップ内でモデルＬａｙｅｒレベルのバッファリングを行う必要がある。ＮＰＵハードウェアを用いて加速させる時、ネットワークパラメータのロードをチップ内ＲＡＭに記憶し、及び演算のプロセスを完全に並列化させることができ、ロードが完成した後に演算を行うという制限を取り除くことで、帯域幅の利用率を最大化し、これはＨｉＦｉＤＳＰシステムではできないことである。したがって、本出願では、ハードウェアを用いてロードと演算との並列化を実現し、ＮＰＵはＰＳＲＡＭ内のネットワークパラメータをロードすると共に、行列演算を行う。

ハードウェア加速はチップ内のＲＡＭに対して周期あたり１２８Ｂｙｔｅｓを読み取り、その帯域幅はＨｉＦｉＤＳＰの６４ｂｉｔｓより１６倍向上した。上記紹介した入力プロセスには、量子化プロセスもあれば、浮動小数点型を短整数型に変換するプロセスもあり、ＮＰＵハードウェア加速ユニットの面積を考えると、この２つのプロセスはハードウェアユニットを１２８個配置することができないため、１２８Ｂｙｔｅｓの読み取り速度が必要とされない。最終的には、バスが６４ｂｉｔの読み取り帯域幅であり、２つの実行ユニットを配置すると決定する。浮動小数点型の入力データ又は入力ベクトルに対して、その記憶位置をＨｉＦｉＤＳＰのカーネル内（即ち内部メモリ）とする必要がある。同時に、行列演算と畳み込み演算の結果（浮動小数点型）もＨｉＦｉＤＳＰのカーネル内に記憶する必要がある。このように、ＨｉＦｉＤＳＰはＮＰＵとのＣａｃｈｅ一致性の設計が必要とされないため、設計が大幅に簡素化される。当該処理装置の構造を用いると、演算量の多い部分をＮＰＵで演算し、ＨｉＦｉＤＳＰは汎用型の演算と音声信号処理の演算を行うことで、様々な音声タスクの最適な演算効率、並びに演算とロードとの並列化を達成する。

本出願の実施例の処理装置は、専用のＮＰＵを用いて行列演算及び／又は畳み込み演算を実現し、当該ＮＰＵが音声チップ内に適用される場合、音声チップ内のカーネルの処理負担を低減して、音声チップ内のカーネルの処理効率を向上させることができる。

上記実施例を実現するために、本出願はニューラルネットワークの処理方法をさらに提供する。

図６は、本出願の実施例５によって提供されるニューラルネットワークの処理方法の概略フローチャートである。

本出願の実施例は、当該ニューラルネットワークの処理方法がニューラルネットワークプロセッシングユニットＮＰＵに適用される場合を例とし、ＮＰＵは量子化ユニットおよび演算ユニットを備える。

図６に示すように、当該ニューラルネットワークの処理方法は以下のステップ６０１～６０３を含むことができる。

ステップ６０１、量子化ユニットは浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニットに提供する。

ステップ６０２、演算ユニットは量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得る。

ステップ６０３、量子化ユニットは、演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得る。

本出願の実施例の１つの可能な実現形態では、演算ユニットが行列ベクトル操作を実行する際に、量子化ユニットデジタル信号プロセッサＤＳＰ内部のメモリに記憶される浮動小数点型の入力データに基づいて、量子化のために使用される第１のパラメータと逆量子化のために使用される第２のパラメータを求め、数値型の入力データを得るように、浮動小数点型の入力データ内における量子化対象の浮動小数点の値に第１のパラメータをかけ、且つ小数点以下を切り捨てて数値型に変換し、および数値型の入力データを演算ユニットに送信する。演算ユニットは数値型の入力データに対して行列ベクトル操作を実行し、演算結果を得る。量子化ユニットは演算結果を浮動小数点型に変換し、且つ浮動小数点型の演算結果に第２のパラメータをかけてＤＳＰのメモリに送信して記憶する。

１つの可能な実現形態として、ＮＰＵはバスのメインインターフェースをさらに備え、メインインターフェースは、バスを介してＤＳＰにメモリコピー関数を送信することにより、ＤＳＰ内部のメモリにアクセスして、ＤＳＰ内部のメモリに記憶される浮動小数点型の入力データを得るように構成される。

本出願の実施例のもう１つの可能な実現形態では、演算ユニットが畳み込み演算を実行する際に、量子化ユニットは浮動小数点型の入力データに対して、浮動小数点を短整数型に変換する変換操作を行い、演算ユニット変換後の短整数型の入力データに対して畳み込み演算を実行して、演算結果を得る。

１つの可能な実現形態として、ＮＰＵは高速アクセスインターフェースを介してＲＡＭにアクセスし、ＲＡＭは、短整数型の入力データをＲＡＭ内に転送して記憶するように構成される。

１つの可能な実現形態として、演算ユニットは第１のレジスタ、第２のレジスタおよびアキュムレータを備え、第１のレジスタは第１の周期でＲＡＭから短整数型の入力データを読み取り、第２のレジスタは第１の周期の後の複数の後続サイクルで、ＰＳＲＡＭに記憶されているネットワークパラメータの少なくとも一部を読み取り、各周期で読み取ったネットワークパラメータの少なくとも一部と第１のレジスタ内の対応する入力データとのドット積演算を行い、アキュムレータドット積演算の結果を取得し、ドット積演算の結果に基づいて累積して、畳み込み演算の演算結果を得る。

１つの可能な実現形態として、ＮＰＵは活性化ユニットをさらに備え、活性化ユニットＤＳＰに記憶されている畳み込み演算の演算結果に基づいて、活性化関数を用いて活性化を行い、且つ記憶するように活性化結果をＤＳＰに提供する。

なお、上記いずれか１つの実施例におけるＮＰＵに対する説明、および処理装置に対する説明は、同様に当該実施例に適用され、その実現の原理は同様なものであり、ここで詳しい説明を省略する。

本出願の実施例のニューラルネットワークの処理方法は、量子化ユニットを介して浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニットに提供することで、演算ユニットによって量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得て、その後、量子化ユニットを介して、演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得る。これにより、専用のＮＰＵを用いて行列演算及び／又は畳み込み演算を実現し、当該ＮＰＵが音声チップ内に適用される場合、音声チップ内のカーネルの処理負担を低減して、音声チップ内のカーネルの処理効率を向上させることができる。

上記実施例を実現するために、本出願は電子機器をさらに提供し、当該電子機器は少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリとを備えることができ、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが本出願の上記いずれか１つの実施例によって提供されるニューラルネットワークの処理方法を実行できるように、少なくとも１つのプロセッサによって実行される。

上記実施例を実現するために、本出願は、コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令はコンピュータに本出願上記いずれか１つの実施例によって提供されるニューラルネットワークの処理方法を実行させる。

上記実施例を実現するために、本出願はコンピュータプログラムをさらに提供し、当該コンピュータプログラムは、プロセッサによって実行される際に、本出願の上記いずれか１つの実施例によって提供されるニューラルネットワークの処理方法を実現する。

本出願の実施例によると、本出願は電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。

図７は、本出願の実施例を実施することに使用できる例示的な電子機器の例示的なブロック図を示す。電子機器はラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似する演算デバイスなどの様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図７に示すように、機器７００は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、リードオンリーメモリ）７０２に記憶されるコンピュータプログラム又は記憶ユニット７０７からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセス／アクセスメモリ）７０３にロードされるコンピュータプログラムに基づいて様々な適切な動作と処理を実行できる演算ユニット７０１を備える。ＲＡＭ７０３では、機器７００の操作に必要な様々なプログラム及びデータを含むことができる。演算ユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３はバス７０４を介して互いに接続される。Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）インターフェース７０５は同様にバス７０４に接続される。

キーボード、マウスなどの入力ユニット７０６と、各種類のタイプのモニタ、スピーカーなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット７０９とを備える機器７００内の複数の部品はＩ／Ｏインターフェース８０５に接続される。通信ユニット７０９は、機器７００がインターネットなどのコンピュータネットワーク及び／又は様々なテレコムネットワークを介して他の機器と情報／データを交換することを許容する。

演算ユニット７０１は処理と演算能力を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。演算ユニット７０１の一部の例は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、グラフィックス処理装置）、様々な専用のＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工智能）演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタル信号プロセッサ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算ユニット７０１は上記説明された各方法及び処理、例えば上記ニューラルネットワークの処理方法を実行する。例えば、一部の実施例では、上記ニューラルネットワークの処理方法は、記憶ユニット７０８など、機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又はすべてはＲＯＭ７０２及び／又は通信ユニット７０９を介して機器７００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ７０３にロードされ且つ演算ユニット７０１によって実行される際に、上記説明された道路案内方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、演算ユニット７０１は他の任意の適切な方法（例えば、ファームウェアを介して）を通じて、上記ニューラルネットワークの処理方法を実行するように構成されてもよい。

本明細書の上記説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路）、ＡＳＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔ、特定用途向け標準製品）、ＳＯＣ（ＳｙｓｔｅｍＯｎＣｈｉｐ、チップ上システムのシステム）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、コンプレックス・プログラマブル・ロジック・デバイス）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されてもよく、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本出願の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又がコントローラによって実行された際に、フローチャート及び／又はブロック図によって規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。

本出願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されたり、又は命令実行システム、装置、またはデバイスと組み合わせて使用されたりするプログラムを含むか、又は記憶できる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容の任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－Ｏｎｌｙ－Ｍｅｍｏｒｙ、消去可能プログラマブルリードオンリーメモリ）又はフラッシュメモリ、光ファイバ、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ポータブルコンパクトディスクリードオンリーメモリ）、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されたシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（Ｃａｔｈｏｄｅ－ＲａｙＴｕｂｅ、陰極線管）又はＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）モニタ）、並びにキーボードとポインティングデバイス（例えば、マウス又はトラックボール）を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備える演算システム（例えば、データサーバとして）、又はミドルウェアコンポーネントを備える演算システム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備える演算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されたシステム及び技術の実施形態とインタラクションを行う）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備える演算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互に接続することができる。通信ネットワークの例は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ワイドエリアネットワーク）、インターネット、及びブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ，仮想専用サーバ）サービスに存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。

なお、人工知能は、人間のある思考過程及び知的な行動（例えば学習、推理、思考、計画など）をコンピュータにシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能のハードウェア技術は一般に、センサ、専用の人工知能チップ、クラウド演算、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの側面を含む。

本出願の実施例の技術案によると、量子化ユニットを介して浮動小数点型の入力データを取得し、浮動小数点型の入力データを量子化して量子化された後の入力データを得て、量子化された後の入力データを演算ユニットに提供することで、演算ユニットを介して、量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、入力データの演算結果を得て、その後、量子化ユニットを介して、演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得る。これにより、専用のＮＰＵを用いて行列演算及び／又は畳み込み演算を実現し、当該ＮＰＵが音声チップ内に適用される場合、音声チップ内のカーネルの処理負担を低減して、音声チップ内のカーネルの処理効率を向上させることができる。

なお、上記示される様々な形式のフローを用いて、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者であれば、設計の要件と他の要因に応じて、様々な修正、組み合わせ、一部の組み合わせ及び代替を行うことができることを理解されたい。本開示の精神及び原則内で行われた修正、同等の置き換え及び改善などは、いずれも本開示の保護範囲に含まれるべきである。

Claims

浮動小数点型の入力データを取得し、前記浮動小数点型の入力データを量子化して量子化された後の入力データを得て、前記量子化された後の入力データを演算ユニットに提供し、及び、前記演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得るための量子化ユニットを備え、
前記演算ユニットが、前記量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、前記入力データの演算結果を得るように構成され、
前記演算ユニットが、行列ベクトル操作を実行し、前記量子化ユニットが、
デジタル信号プロセッサＤＳＰ内部のメモリに記憶される浮動小数点型の入力データに基づいて、量子化のために使用される第１のパラメータと逆量子化のために使用される第２のパラメータを求め、
数値型の入力データを得るように、前記浮動小数点型の入力データ内における量子化対象の浮動小数点の値に第１のパラメータをかけ、且つ小数点以下を切り捨てて数値型に変換し、
前記数値型の入力データを前記演算ユニットに送信し、
前記演算ユニットが得た演算結果を浮動小数点型に変換し、
浮動小数点型の演算結果に前記第２のパラメータをかけてＤＳＰのメモリに送信して記憶するように構成されるニューラルネットワークプロセッシングユニットＮＰＵ。
バスのメインインターフェースを備え、
該メインインターフェースが、前記バスを介して前記ＤＳＰにメモリコピー関数を送信することにより、前記ＤＳＰ内部のメモリにアクセスして、前記ＤＳＰ内部のメモリに記憶される前記浮動小数点型の入力データを得るように構成される請求項１に記載のＮＰＵ。
前記演算ユニットが畳み込み演算を実行し、
前記量子化ユニットが、前記浮動小数点型の入力データに対して、浮動小数点を短整数型に変換する変換操作を行うことで、変換後の短整数型の入力データに対して畳み込み演算を実行するように構成される請求項１に記載のＮＰＵ。
前記ＮＰＵが、高速アクセスインターフェースを介してランダムメモリＲＡＭに接続され、
前記ＲＡＭが、前記短整数型の入力データを前記ＲＡＭ内に転送して記憶するように構成される請求項３に記載のＮＰＵ。
前記演算ユニットが、第１のレジスタ、第２のレジスタ及びアキュムレータを備え、
前記第１のレジスタが、第１の周期で前記ＲＡＭから前記短整数型の入力データを読み取るように構成され、
前記第２のレジスタが、第１の周期の後の複数の後続サイクルで、ＰＳＲＡＭに記憶されているネットワークパラメータの少なくとも一部を読み取り、各周期で読み取った前記ネットワークパラメータの少なくとも一部と前記第１のレジスタ内の対応する入力データとのドット積演算を行うように構成され、
前記アキュムレータが、ドット積演算の結果を取得し、前記ドット積演算の結果に基づいて累積して、畳み込み演算の演算結果を得るように構成される請求項４に記載のＮＰＵ。
ＤＳＰに記憶されている畳み込み演算の演算結果に基づいて、活性化関数を用いて活性化を行い、且つ記憶するように活性化結果を前記ＤＳＰに提供するための活性化ユニットを備える請求項１から５のいずれか一項に記載のＮＰＵ。
バスで接続される請求項１から５のいずれか一項に記載のニューラルネットワークプロセッシングユニットＮＰＵと、擬似静的ランダムメモリＰＳＲＡＭと、デジタル信号プロセッサＤＳＰと、を備え、
前記ＤＳＰが、内部のメモリに処理対象の入力データを記憶し、及び前記ＮＰＵによる前記入力データの演算結果を記憶するように構成され、
前記ＰＳＲＡＭが、ニューラルネットワークのネットワークパラメータを記憶するように構成される処理装置。
ニューラルネットワークプロセッシングユニットＮＰＵに適用されるニューラルネットワークの処理方法であって、前記ＮＰＵが量子化ユニット及び演算ユニットを備え、
前記量子化ユニットが浮動小数点型の入力データを取得し、前記浮動小数点型の入力データを量子化して量子化された後の入力データを得て、前記量子化された後の入力データを演算ユニットに提供するステップと、
前記演算ユニットが前記量子化された後の入力データに対して行列ベクトル操作及び／又は畳み込み演算を行って、前記入力データの演算結果を得るステップと、
前記量子化ユニットが前記演算ユニットによって出力された演算結果に対して逆量子化を行って逆量子化結果を得るステップと、
を含み、
前記量子化ユニットが、デジタル信号プロセッサＤＳＰ内部のメモリに記憶される浮動小数点型の入力データに基づいて、量子化のために使用される第１のパラメータと逆量子化のために使用される第２のパラメータを求め、数値型の入力データを得るように、前記浮動小数点型の入力データ内における量子化対象の浮動小数点の値に第１のパラメータをかけ、且つ小数点以下を切り捨てて数値型に変換し、及び前記数値型の入力データを前記演算ユニットに送信し、
前記演算ユニットが、前記数値型の入力データに対して行列ベクトル操作を実行し、前記演算結果を得て、
前記量子化ユニットが、前記演算結果を浮動小数点型に変換し、浮動小数点型の演算結果に前記第２のパラメータをかけてＤＳＰのメモリに送信して記憶する、ニューラルネットワークの処理方法。
前記ＮＰＵが、バスのメインインターフェースを備え、
前記メインインターフェースが、前記バスを介して前記ＤＳＰにメモリコピー関数を送信することにより、前記ＤＳＰ内部のメモリにアクセスして、前記ＤＳＰ内部のメモリに記憶される前記浮動小数点型の入力データを得るように構成される請求項８に記載の方法。
前記量子化ユニットが、前記浮動小数点型の入力データに対して、浮動小数点を短整数型に変換する変換操作を行い、
前記演算ユニットが、変換後の短整数型の入力データに対して畳み込み演算を実行し、前記演算結果を得る請求項８に記載の方法。
前記ＮＰＵが、高速アクセスインターフェースを介してランダムメモリＲＡＭに接続され、
前記ＲＡＭが、前記短整数型の入力データを前記ＲＡＭ内に転送して記憶するように構成される請求項１０に記載の方法。
前記演算ユニットが、第１のレジスタ、第２のレジスタ及びアキュムレータを備え、
前記第１のレジスタが、第１の周期で前記ＲＡＭから前記短整数型の入力データを読み取り、
前記第２のレジスタが、第１の周期の後の複数の後続サイクルで、ＰＳＲＡＭに記憶されているネットワークパラメータの少なくとも一部を読み取り、各周期で読み取った前記ネットワークパラメータの少なくとも一部と前記第１のレジスタ内の対応する入力データとのドット積演算を行い、
前記アキュムレータドット積演算の結果を取得し、前記ドット積演算の結果に基づいて累積して、畳み込み演算の演算結果を得る請求項１１に記載の方法。
前記ＮＰＵが、活性化ユニットを備え、
前記方法が、活性化ユニットＤＳＰに記憶されている畳み込み演算の演算結果に基づいて、活性化関数を用いて活性化を行い、且つ記憶するように活性化結果を前記ＤＳＰに提供するステップを含む請求項８から１２のいずれか一項に記載の方法。
少なくとも１つのプロセッサと、
該なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項８から１２のいずれか一項に記載のニューラルネットワークの処理方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項８から１２のいずれか一項に記載のニューラルネットワークの処理方法を実行させる非一時的コンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される際に、請求項８から１２のいずれか一項に記載のニューラルネットワークの処理方法を実現するコンピュータプログラム。