JP2022518640A

JP2022518640A - データ処理方法、装置、機器、記憶媒体及びプログラム製品

Info

Publication number: JP2022518640A
Application number: JP2020570459A
Authority: JP
Inventors: 涛 ▲楊▼; 清正李
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-12-27
Filing date: 2020-07-20
Publication date: 2022-03-16
Also published as: WO2021128820A1; CN111047037B; CN111047037A; SG11202013048WA

Abstract

【解決手段】当該方法は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得するステップと、第１算出ユニットの処理パラメータを取得するステップと、処理すべきデータ及び処理パラメータに基づいて、第１算出ユニットの出力結果を取得するステップとを含み、処理すべきデータは、第１ビット幅のデータを含み、処理パラメータは、第２ビット幅のパラメータを含む。ただし、複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、第２算出ユニットの処理パラメータのビット幅と第１算出ユニットの処理パラメータのビット幅とは、異なる。【選択図】図２

Description

本発明の実施例は、深層学習技術分野に関し、特にデータ処理方法、装置、機器、記憶媒体及びプログラム製品に関する。

＜関連出願の相互引用＞
本発明は、２０１９年１２月２７日に中国専利局へ提出された、発明名称が「データ処理方法、装置、機器及び記憶媒体」であり、出願番号が２０１９１１３７９７５５．６である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。

現在、深層学習は、高度な抽象認知の問題を解決するために広く応用されてきている。高度な抽象認知の問題では、深層学習問題が益々抽象的且つ複雑的になるに従い、深層学習の計算及びデータの複雑度も増加していくが、深層学習の計算が深層学習ネットワークから離れられないため、深層学習のネットワーク規模も増加する必要は生じてくる。

通常、深層学習の計算タスクは、表現方式で以下の２種に大別可能である。第１種では、汎用プロセッサにおいて、タスクは、一般的にソフトウェアコードの形式で表され、ソフトウェアタスクと呼称される。第２種では、専用ハードウェア回路において、ハードウェア固有の高速特性を十分に発揮してソフトウェアタスクの替わりとなり、ハードウェアタスクと呼称される。よく見られる専用ハードウェアは、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）及びグラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）を含む。ただし、ＦＰＧＡは、異なる機能に適用可能であり、柔軟性が高い。

深層学習ネットワークの実施時に、データの精度、例えば、ニューラルネットワークの各層のデータをどれほどのビット幅及び何の種類のデータフォーマットで示すかを考慮する必要がある。ビット幅が大きいほど、深層学習モデルのデータ精度が高くなるが、計算速度は、低下していく。その一方、ビット幅が小さいほど、計算速度がある程度高められるが、深層学習ネットワークのデータ精度は、低減されてしまう。

本発明の実施例は、データ処理方法、装置、機器、記憶媒体及びプログラム製品を提供する。

第１態様において、本発明の実施例は、データ処理方法を提供する。当該データ処理方法は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得するステップと、前記第１算出ユニットの処理パラメータを取得するステップと、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得するステップと、を含み、前記処理すべきデータは、第１ビット幅のデータを含み、前記処理パラメータは、第２ビット幅のパラメータを含み、前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。

第２態様において、本発明の実施例は、データ処理装置を提供する。当該データ処理装置は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得するための第１取得モジュールと、前記第１算出ユニットの処理パラメータを取得するための第２取得モジュールと、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得するための処理モジュールと、を備え、前記処理すべきデータは、第１ビット幅のデータを含み、前記処理パラメータは、第２ビット幅のパラメータを含み、前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。

第３態様において、本発明の実施例は、データ処理機器を提供する。当該データ処理機器は、プロセッサと、プロセッサ実行可能なプログラムが記憶されるメモリと、を備え、前記プログラムが前記プロセッサによって実行されることにより、前記プロセッサに第１態様に記載の方法を実施させる。

第４態様において、本発明の実施例は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されたときに、前記プロセッサに第１態様に記載の方法を実施させる。

第５態様において、本発明の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、機器の実行可能な指令を含み、前記機器の実行可能な指令がコンピュータによって読み取って実行されたときに、前記プロセッサに第１態様に記載の方法を実施させる。

本発明の実施例に係るデータ処理方法、装置、機器及び記憶媒体では、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得し、前記第１算出ユニットの処理パラメータを取得し、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得し、前記処理すべきデータは、第１ビット幅のデータを含み、前記処理パラメータは、第２ビット幅のパラメータを含む。ただし、前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。

複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と第１算出ユニットに入力された処理すべきデータのビット幅とが異なり、及び／又は、第２算出ユニットに入力された処理パラメータのビット幅と第１算出ユニットに入力された処理パラメータのビット幅とが異なるため、異なるビット幅の処理すべきデータをサポートすることができる。ニューラルネットワーク層が単一のビット幅の処理すべきデータをサポートする場合よりも、本実施例に係る技術案では、異なるビット幅の処理すべきデータをサポート可能である。また、ビット幅が小さいほど計算速度が速くなることも考慮されたため、ビット幅の小さい処理パラメータ及び／又は処理すべきデータを選択する場合に、加速器の計算速度は、向上可能である。これにより、本発明の実施例に係るデータ処理方式は、複数種のビット幅のデータ処理をサポート可能であり、データ処理速度を向上させることができる。

本発明の実施例に係るデータ処理システムの模式図である。本発明の実施例に係るデータ処理方法のフローチャートである。本発明の別の実施例に係るデータ処理方法のフローチャートである。本発明の実施例に係る読取データのデータ構造模式図である。本発明の実施例に係る出力データのデータ構造模式図である。本発明の実施例に係るデータ処理装置の構造模式図である。本発明の実施例に係るデータ処理機器の構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

図１は、本発明の実施例に係るデータ処理システムの模式図である。本発明の実施例に係るデータ処理方法は、図１に示すデータ処理システムに適用可能である。図１に示すように、当該データ処理システムは、プログラマブルデバイス１、メモリ２及びプロセッサ３を備える。ただし、プログラマブルデバイス１は、メモリ２及びプロセッサ３にそれぞれ接続され、メモリ２は、更に、プロセッサ３に接続される。

好ましくは、プログラマブルデバイス１は、フィールドプログラマブルゲートアレイＦＰＧＡを含み、メモリ２は、ダブルデータレート同期動的ランダムメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＤＲＳＤＲＡＭ）（以下では、ＤＤＲと略称）を含み、プロセッサ３は、ＡＲＭプロセッサを含む。ただし、ＡＲＭ（ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅｓ）プロセッサは、低消費電力且つ低コストのＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）マイクロプロセッサを指す。

ただし、プログラマブルデバイス１は、加速器を含み、加速器は、ｃｒｏｓｓｂａｒ（クロスバー）を介してメモリ２及びプロセッサ３にそれぞれ接続されてもよい。プログラマブルデバイス１は、応用場面に応じて、他の機能モジュール、例えば、通信インターフェース、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）コントローラ等を含んでもよく、本発明ではこれについて限定しない。

プログラマブルデバイス１は、メモリ２からデータを読み取って処理し、処理結果をメモリ２に記憶する。プログラマブルデバイス１とメモリ２とは、バスを介して接続される。バスは、コンピュータの各種の機能部品の間で情報を伝送する共通通信幹線を指し、ワイヤによって構成される伝送ハーネスである。コンピュータで伝送される情報の種類の相違により、コンピュータのバスは、データバス、アドレスバス及び制御バスに分けられてよく、それらは、データ、データアドレス及び制御信号をそれぞれ伝送する。

ただし、加速器は、入力モジュール１０ａ、出力モジュール１０ｂ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４、重み行列変換モジュール１５、入力バッファモジュール１６、出力バッファモジュール１７及び重みバッファモジュール１８を備える。入力モジュール１０ａ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４及び出力モジュール１０ｂは、順に接続され、重み行列変換モジュール１５は、出力モジュール１１０ｂ及び乗算器１２にそれぞれ接続されている。本発明の実施例において、加速器は、畳み込みニューラルネットワークＣＮＮ加速器を含んでもよい。ＤＤＲ、入力バッファモジュール１６及び入力モジュール１０ａは、順に接続されている。ＤＤＲには、処理すべきデータ、例えば特徴マップデータが記憶される。出力モジュール１０ｂは、順に出力バッファモジュール１７、ＤＤＲに接続されている。重み行列変換モジュール１５は、重みバッファモジュール１８にも接続されている。

入力バッファモジュール１６は、ＤＤＲから処理すべきデータを読み取ってバッファを行い、重み行列変換モジュール１５は、重みバッファモジュール１８から重みパラメータを読み取って処理を行う。処理後の重みパラメータは、乗算器１２に送られる。入力モジュール１０ａは、入力バッファモジュール１６から処理すべきデータを読み取って前段行列変換モジュール１１に送信して処理させる。行列変換されたデータは、乗算器１２に送られる。乗算器１２は、重みパラメータに基づいて行列変換後のデータに対して演算を行って第１出力結果を取得する。第１出力結果が加算器１３に送られて処理されて第２出力結果は得られる。第２出力結果が後段行列変換モジュール１４に送られて処理され出力結果は得られる。出力結果は、出力モジュール１０ｂによって出力バッファモジュール１７に並行に出力され、最終的に出力バッファモジュール１７によってＤＤＲに送られて記憶させられる。こうして、処理すべきデータに対する１つの計算手順は、完成する。

以下では、具体的な実施例を用いて本発明の技術案及び本発明の技術案が如何にして上記技術問題を解決するかについて詳細に説明する。以下の幾つかの具体的な実施例は、互いに組み合わせられてもよい。同じや類似する概念又は手順について幾つかの実施例に繰り返さない可能性がある。以下では、図面を組み合わせて本発明の実施例を記述する。

図２は、本発明の実施例に係るデータ処理方法のフローチャートである。本発明の実施例のデータ処理方法の具体的なステップは、下記のようになる。

ステップ２０１では、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得する。

本実施例において、複数の算出ユニットは、ニューラルネットワーク入力層の算出ユニット、複数の隠れ層の算出ユニット及び／又は出力層の算出ユニットであってもよく、第１算出ユニットは、１つ又は複数の算出ユニットを含んでもよい。本発明の実施例において、第１算出ユニットが１つの算出ユニットを備えることを例として本発明の技術案を記述したが、第１算出ユニットが複数の算出ユニットを含む場合について、各第１算出ユニットは、同じ又は類似する実施方式でデータ処理を完了してもよく、ここで繰り返し説明しない。

１つの好適な実施形態において、第１算出ユニットは、図１に示す入力モジュール１０ａ、出力モジュール１０ｂ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４及び重み行列変換モジュール１５を備えてもよい。別の好適な実施形態において、第１算出ユニットは、図１に示す前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４及び重み行列変換モジュール１５を備えてもよい。

ニューラルネットワークにとって、ニューラルネットワークの各層は、何れも図１に示す入力モジュール１０ａ、出力モジュール１０ｂ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４、重み行列変換モジュール１５を備えてもよい。ニューラルネットワーク層の計算手順が順次行われるため、ニューラルネットワークの各層は、１つの入力バッファモジュール１６及び１つの出力バッファモジュール１７を共用してもよい。ニューラルネットワークの現在層（例えば、第１算出ユニット）は、演算を行う必要がある場合に、ＤＤＲからニューラルネットワークの現在層に必要な処理すべきデータを取得し、バッファモジュール１６に入力してバッファさせ、且つニューラルネットワークの現在層に必要な処理パラメータを重みバッファモジュール１８にバッファしてもよい。

例示として、図１に示すように、入力モジュール１０ａは、入力バッファモジュール１６から処理すべきデータを読み取ってもよい。

本実施例における処理すべきデータは、ビット幅が第１ビット幅であるデータを含む。ただし、第１ビット幅は、４ｂｉｔ、８ｂｉｔ及び３２ｂｉｔのうちの一項又は複数項を含んでもよい。

ステップ２０２では、第１算出ユニットの処理パラメータを取得する。

本実施例における処理パラメータは、ビット幅が第２ビット幅であるパラメータを含み、ニューラルネットワークの畳み込み演算に関与するためのパラメータ、例えば、畳み込みカーネルの重みパラメータである。ただし、第２ビット幅は、第１ビット幅と類似し、４ｂｉｔ、８ｂｉｔ及び３２ｂｉｔのうちの１項又は多項を含んでもよい。

例えば、図１に示すように、重み行列変換モジュール１５は、重みバッファモジュール１８から処理パラメータを読み取る。

例示として、処理すべきデータ及び処理パラメータがそれぞれ畳み込み演算に関与した入力データ及び重みパラメータである場合に、処理すべきデータ及び処理パラメータは、それぞれ行列の形態で示され、且つ処理すべきデータのビット幅が４ｂｉｔであり、処理パラメータのビット幅が８ｂｉｔであることは、処理すべきデータに対応する行列における各データが４ｂｉｔのデータであり、処理パラメータに対応する行列における各データがそれぞれ８ｂｉｔのデータであることを表明する。

ステップ２０３では、処理すべきデータ及び処理パラメータに基づいて、第１算出ユニットの出力結果を取得する。

ただし、複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、第２算出ユニットに入力された処理パラメータのビット幅と、第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。

第２算出ユニットは、第１算出ユニットと類似し、第２算出ユニットの処理すべきデータを取得し、第２算出ユニットの処理パラメータを取得し、その後、第２算出ユニットの処理すべきデータ及び第２算出ユニットの処理パラメータに基づいて、第２算出ユニットの出力結果を取得してもよい。その具体的な実現方法は、第１算出ユニットの関連記述を参照すればよいため、ここで繰り返し説明しない。

本実施例において、第１算出ユニット及び第２算出ユニットは、同一のニューラルネットワークアーキテクチャにおける異なるニューラルネットワーク層として理解されてもよい。１つの実現方式において、第１算出ユニット及び第２算出ユニットにそれぞれ対応するニューラルネットワーク層は、隣接する又は隣接しないニューラルネットワーク層であってもよく、ここで限定しない。つまり、異なるニューラルネットワーク層に必要な処理すべきデータのビット幅は、異なってもよく、処理パラメータのビット幅も異なってもよい。

ただし、処理すべきデータは、固定小数点数及び／又は浮動小数点数を含んでもよい。同様に、処理パラメータも、固定小数点数及び／又は浮動小数点数を含んでもよい。ただし、固定小数点数は、４ｂｉｔ及び８ｂｉｔのビット幅のデータを含んでもよく、浮動小数点数は、３２ｂｉｔのビット幅のデータを含んでもよい。固定小数点数は、数値における小数点の位置が固定であり、通常、固定小数点整数及び固定小数点小数又は固定小数点分数を含む。小数点位置が選択された後、演算におけるあらゆる数は、何れも固定小数点整数又は固定小数点小数として統一されてもよく、演算において小数点の位置問題が考慮されなくなる。浮動小数点数は、小数点の位置が固定ではなく、指数及び端数で示される。通常、端数は、純小数であり、指数は、整数であり、端数及び指数は、何れも符号付き数である。端数の符号は、数値の正負を示し、指数の符号は、小数点の実際的な位置を表明する。

本発明にとって、あらゆるニューラルネットワーク層の処理可能なデータのビット幅は、少なくとも以下の５種の実施形態を有してもよい。以下では、処理すべきデータ及び処理パラメータを例として本発明の処理可能な異なるビット幅のデータについて説明する。

１つの好適な実施形態において、処理すべきデータのビット幅は、８ｂｉｔであり、処理パラメータのビット幅は、４ｂｉｔである。別の好適な実施形態において、処理すべきデータのビット幅は、４ｂｉｔであり、処理パラメータのビット幅は、８ｂｉｔである。更に別の好適な実施形態において、処理すべきデータのビット幅は、８ｂｉｔであり、処理パラメータのビット幅は、８ｂｉｔである。より更に別の好適な実施形態において、処理すべきデータのビット幅は、４ｂｉｔであり、処理パラメータのビット幅は、４ｂｉｔである。もう１つの好適な実施形態において、処理すべきデータのビット幅は、３２ｂｉｔであり、処理パラメータのビット幅は、３２ｂｉｔである。

これにより、本発明の実施例に係る技術案は、浮動小数点演算及固定小数点演算をサポート可能である。ただし、浮動小数点演算は、１種含んでもよく、具体的に、ビット幅が何れも３２ｂｉｔである処理すべきデータ及び処理パラメータの間の演算を含んでもよい。固定小数点演算は、４種含んでもよく、具体的にビット幅が何れも４ｂｉｔである処理すべきデータ及び処理パラメータの間の演算、ビット幅が何れも８ｂｉｔである処理すべきデータ及び処理パラメータの間の演算、ビット幅が４ｂｉｔである処理すべきデータ及びビット幅が８ｂｉｔである処理パラメータの間の演算、ビット幅が８ｂｉｔである処理すべきデータ及びビット幅が４ｂｉｔである処理パラメータの間の演算を含んでもよい。

これにより、本発明の実施例に係るデータ処理方式は、複数種のビット幅のデータ処理をサポート可能であるため、処理精度と処理速度との２重需要を効果的にトレードオフさせ、更にビット幅が条件を満たすことを確保した場合に、データ処理速度を向上させる。

好ましくは、処理すべきデータ及び処理パラメータに基づいて、第１算出ユニットの出力結果を取得することは、処理すべきデータ及び処理パラメータに基づいて畳み込み演算を行い、第１算出ユニットの出力結果を取得することを含む。

本実施例では、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得し、前記第１算出ユニットの処理パラメータを取得し、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得し、前記処理すべきデータは、ビット幅が第１ビット幅であるデータを含み、前記処理パラメータは、ビット幅が第２ビット幅であるパラメータを含む。ただし、前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。よって、異なるビット幅の処理すべきデータをサポート可能である。ニューラルネットワーク層が単一のビット幅の処理すべきデータをサポートする場合よりも、本実施例に係る技術案は、異なるビット幅の処理すべきデータをサポートすることができる。また、ビット幅が小さいほど計算速度が速くなることも考慮されたため、ビット幅の小さい処理パラメータ及び／又は処理すべきデータを選択する場合に、加速器の計算速度は、向上可能である。これにより、本発明の実施例に係るデータ処理方式は、複数種のビット幅のデータ処理をサポート可能であり、データ処理速度を向上させることができる。

好ましくは、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得することは、入力第１算出ユニットの処理すべきデータを示すために用いられる第１ビット幅を含む、第１算出ユニットの第１配置情報を取得することと、第１ビット幅に基づいて、ビット幅が第１ビット幅である処理すべきデータを取得することとを含み、複数の算出ユニットのうちの少なくとも２つの算出ユニットの第１ビット幅は、異なる。

ただし、ニューラルネットワーク層は、演算する前に、当該ニューラルネットワーク層に必要なデータのビット幅に対して配置を行い、即ち、当該ニューラルネットワーク層に必要なデータのビット幅を予め設置する。第１配置情報は、０、１、２で示されてもよい。第１配置情報が０であれば、当該ニューラルネットワークに必要なデータのビット幅が８ｂｉｔであることを表明する。第１配置情報が１であれば、当該ニューラルネットワーク層に必要なデータのビット幅が４ｂｉｔであることを表明する。第１配置情報が２であれば、当該ニューラルネットワーク層に必要なデータのビット幅が３２ｂｉｔであることを表明する。

好ましくは、第１算出ユニットの処理パラメータを取得することは、第１算出ユニットに入力された処理パラメータを示すために用いられる第２ビット幅を含む、第１算出ユニットの第２配置情報を取得することと、第２ビット幅に基づいて、ビット幅が第２ビット幅である処理パラメータを取得することと、を含み、複数の算出ユニットのうちの少なくとも２つの算出ユニットの第２ビット幅は、異なる。

同様に、ニューラルネットワーク層は、演算する前に、当該ニューラルネットワーク層に必要な処理パラメータのビット幅に対して配置を行い、即ち、当該ニューラルネットワーク層に必要な処理パラメータのビット幅を予め設置する。第２配置情報は、０、１、２で示されてもよい。第２配置情報が０であれば、当該ニューラルネットワーク層に必要な処理パラメータのビット幅が８ｂｉｔであることを表明する。第２配置情報が１であれば、当該ニューラルネットワーク層に必要な処理パラメータのビット幅が４ｂｉｔであることを表明する。第２配置情報が２であれば、当該ニューラルネットワーク層に必要な処理パラメータのビット幅が３２ｂｉｔであることを表明する。

図３は、本発明の別の実施例に係るデータ処理方法のフローチャートである。図３に示すように、本実施例のデータ処理方法の具体的なステップは、下記のようになる。

ステップ３０１では、複数の入力チャンネルのうちの各入力チャンネルごとに、少なくとも１つの入力データブロックのうちの目標入力データブロックを取得する。

ただし、処理すべきデータは、複数の入力チャンネルの入力データを含み、入力データは、少なくとも１つの入力データブロックを含む。

本実施例において、複数の入力チャンネルは、Ｒ（Ｒｅｄ）、Ｇ（Ｇｒｅｅｎ）、Ｂ（Ｂｌｕｅ）チャンネルを含み、処理すべきデータは、Ｒ、Ｇ、Ｂチャンネルの入力データを含む。ただし、各入力チャンネルの入力データを取得する過程において、入力データブロックに応じて取得する。例えば、目標入力データブロックがｎ＊ｎサイズであると、ｎ＊ｎサイズのデータブロックは、取得される、ただし、ｎは、１よりも大きい整数である。例示として、ｎ＊ｎサイズの目標入力データブロックは、ニューラルネットワークにおける現在層の特徴マップ中のｎ＊ｎ個の画素点であってもよい。

ステップ３０２では、処理パラメータから、目標入力データブロックとは対応関係を有する処理パラメータブロックを取得し、処理パラメータブロックと目標入力データブロックとのサイズは、同じである。

例えば、目標入力データブロックのサイズが６＊６であると、処理パラメータブロックのサイズも６＊６となる。

ステップ３０３では、第１変換関係にしたがって、対応関係を有する、目標入力データブロックと処理パラメータブロックとのそれぞれに対して変換し、目標入力データブロックに対応する第１行列と、処理パラメータに対応する第２行列とを取得する。

好ましくは、第１変換関係は、前段行列変換を含む。本実施例では、ｎ＊ｎサイズの目標入力データブロックに対して前段行列変換を行ってｎ＊ｎサイズの第１行列を取得し、且つ、ｎ＊ｎサイズの処理パラメータブロックに対して前段行列変換を行ってｎ＊ｎサイズの第２行列を取得する。

ステップ３０４では、第１行列と第２行列とを乗算し、複数の入力チャンネルのうちの各入力チャンネルの乗算結果を取得する。

例示として、本ステップでは、第１行列及び第２行列を乗算することにより、各入力チャンネル、例えばＲ、Ｇ、Ｂチャンネルの乗算結果を取得可能である。例えば、６＊６サイズの目標入力データブロックと６＊６サイズの処理パラメータブロックとを乗算し、Ｗｉｎｏｇｒａｄアルゴリズムに基づくと、４＊４サイズの乗算結果を取得することができる。

ステップ３０５では、複数の入力チャンネルのうちの各入力チャンネルの乗算結果を積算し、目標サイズの第３行列を取得する。

例示として、本ステップでは、Ｒ、Ｇ、Ｂチャンネルの乗算結果を積算し、目標サイズの第３行列を取得する。例えば、Ｒ、Ｇ、Ｂチャンネルの乗算結果積算をして１つの４＊４サイズの第３行列を取得する。

ステップ３０６では、第３行列を第２変換関係にしたがって変換し、第１算出ユニットの出力結果を取得する。

好ましくは、第２変換関係は、後段行列変換を含む。こうして、本実施例では、第３行列に対して後段行列変換を行って出力結果を取得する。ただし、第３行列に対して後段行列変換を行うと、第１算出ユニットの出力結果を取得する。例えば、処理すべきデータが特徴マップである場合に、当該特徴マップに対する演算結果を取得する。

以下では、図１を参照し、１つの具体的な例示で本実施例の実施過程について詳細に説明する。本実施例では、図１に示すデータ処理システム上で実現され得るＷｉｎｏｇｒａｄアルゴリズム、Ｗｉｎｏｇｒａｄアルゴリズムの原理は、下記のようになる。

上記数式において、ｇは、畳み込みのカーネル（例えば、第１算出ユニットの処理パラメータ）であり、ｄは、毎回Ｗｉｎｏｇｒａｄ計算に関与するデータブロック、即ち、目標入力データブロック（例えば、第１算出ユニットの少なくとも一部の処理すべきデータ）であり、Ｂ^ＴｄＢは、目標入力データブロックｄに対して前段行列変換を行うことを示し、Ｂ^ＴｄＢに対応する結果は、第１行列であり、ＧｇＧ^Ｔは、畳み込みカーネルｇに対して前段行列変換を行うことを示し、ＧｇＧ^Ｔに対応する結果は、第２行列であり、

は、２つの前段行列変換結果、即ち、第１行列及び第２行列に対して点積（乗算）を行うことを示し、

は、点積結果における各チャンネルのデータを加算して第３行列を得てから第３行列に対して後段行列変換を行って最終的な出力結果Ｙを取得することを示す。

好ましくは、Ｗｉｎｏｇｒａｄアルゴリズムは、図１に示すデータ処理システムに用いられる。第１算出ユニットを例とすると、具体的な実施手順は、下記のようになる。６＊６サイズの目標入力データブロックを前段行列変換モジュール１１に入力して前段行列変換を行わせて６＊６サイズの第１行列を取得し、重み行列変換モジュール１５によって処理パラメータに対して前段行列変換を行って６＊６サイズの第２行列を取得し、その後、第１行列及び第２行列をそれぞれ乗算器１２に入力して点積演算を行わせ、点積演算結果を更に加算器１３に入力し、各チャンネルのデータに対して加算を行い、加算結果を後段行列変換モジュール１４に入力して後段行列変換を行わせ、第１算出ユニットの出力結果を取得する。

本実施例では、コンピュータにおいて乗算の速度が一般的に加算よりも遅いため、一部の乗算の替わりに加算を用いることにより、乗算回数を減らし、僅かな加算を追加し、データ処理速度を向上させることができる。

このような設計により、本発明の実施例では、２種の固定小数点数の目標入力データブロックと２種の固定小数点数の処理パラメータとを組み合わせて４種の組み合わせを取得可能でありながら、１種の浮動小数点数の演算を加えると、合計で５種の混合精度の畳み込み演算は、実現できる。一方で、Ｗｉｎｏｇｒａｄアルゴリズムが乗算の数を減少可能であるため、データ処理速度は、向上することができる。したがって、本発明の実施例では、演算速度及び演算精度が両立可能であり、即ち、演算速度が向上可能でありながら、混合精度の演算も実現できる。

説明すべきことは、Ｗｉｎｏｇｒａｄアルゴリズムが本発明の実施例で採用される１種の可能な実現方式のみであり、実際の応用中に、機能がＷｉｎｏｇｒａｄアルゴリズムと類似し又は同じである他の実現方式も採用可能であり、ここで限定しない。

好ましくは、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得することは、複数の入力チャンネルの入力データを複数の第１記憶領域に並行に入力することを含み、第１記憶領域の数と入力チャンネルの数とは、同じであり、異なる入力チャンネルの入力データは、異なる第１記憶領域に入力される。本実施例における第１記憶領域は、入力バッファモジュール１６における記憶領域である。

好ましくは、複数の第１記憶領域のうちの各第１記憶領域は、複数の入力ラインバッファを含み、入力データの行数及び列数は、同じであり、目標入力データブロックの行数と、対応する第１記憶領域の入力ラインバッファの数とは、同じであり、複数の入力チャンネルのうちの各入力チャンネルごとに、少なくとも１つの入力データブロックのうちの目標入力データブロックを取得することは、各入力チャンネルの複数の入力ラインバッファからデータを並行に読み取って目標入力データブロックを取得することを含む。

好ましくは、入力データにおける隣接する２つの入力データブロックの間には、重畳データがある。

引き続き図１を参照すると、複数の第１記憶領域が入力バッファモジュール１６であってもよく、入力バッファモジュール１６が複数の入力ラインバッファ、例えば、Ｓｒａｍ＿Ｉ０、Ｓｒａｍ＿Ｉ１、Ｓｒａｍ＿Ｉ２、…、Ｓｒａｍ＿Ｉｎを含むと、１つの第１記憶領域は、入力バッファモジュール１６における複数の入力ラインバッファ、例えば、Ｓｒａｍ＿Ｉ０、Ｓｒａｍ＿Ｉ１、Ｓｒａｍ＿Ｉ２、…、Ｓｒａｍ＿Ｉ５となる。入力バッファモジュール１６は、複数の入力ラインバッファを含む。入力モジュール１０ａは、複数の入力ユニットＣＵ＿ｉｎｐｕｔ＿ｔｉｌｅを含む。ただし、各入力ユニットは、第１所定数の入力ラインバッファに対応する。ただし、第１所定数は、目標入力データブロックの行数に対応する。例えば、目標入力データブロックが６＊６サイズであれば、第１所定数は、６となる。

入力モジュール１０ａの入力計算並列度ＩＰＸは、８である。例えば、入力モジュール１０ａには、８つの並行する入力ユニットＣＵ＿ｉｎｐｕｔ＿ｔｉｌｅが設けられてもよい。

好ましくは、各入力ユニットＣＵ＿ｉｎｐｕｔ＿ｔｉｌｅは、複数の入力ラインバッファから１つの入力チャンネルの入力データを読み取る。例えば、入力バッファモジュール１６を介してＤＤＲから読み取ったデータがＲ、Ｇ、Ｂチャンネルの入力データを含む場合に、Ｒ、Ｇ、Ｂチャンネルにおける各チャンネルの入力データは、入力バッファモジュール１６の第１所定数の入力ラインバッファにそれぞれ記憶される。

図４は、本発明の実施例に係る入力モジュールがデータを取得する模式図である。

図４に示すように、入力モジュールは、入力バッファモジュールから第１目標入力データブロック及び第２目標入力データブロックを読み取った。第２目標入力データブロックは、第１目標入力データブロックに隣接し、且つ読取順としては、第２目標入力データブロックが第１目標入力データブロックの後であり、第１目標入力データブロックと第２目標入力データブロックの間には、重畳データがある。

好ましくは、第１目標入力データブロックと第２目標入力データブロックの間に重畳データがあるとは、第２目標入力データブロックにおける第１列のデータが第１目標入力データブロックにおける最後から第２列のデータであることを指す。

好ましくは、第１目標入力データブロックが読み取られた第１個の目標入力データブロックである場合に、本実施例の方法は、各入力チャンネルの入力ラインバッファごとに、読み取られた各入力ラインバッファのデータの開始位置の前に補填データを追加して第１目標入力データブロックを形成するステップを更に含む。

例示として、入力ラインバッファがキャッシュＳｒａｍである場合に、図４に示すように、キャッシュＳｒａｍから読み取られたデータは、並行する６行のデータＳｒａｍ＿Ｉ０、Ｓｒａｍ＿Ｉ１、Ｓｒａｍ＿Ｉ２、Ｓｒａｍ＿Ｉ３、Ｓｒａｍ＿Ｉ４、Ｓｒａｍ＿Ｉ５である。つまり、各入力ユニットは、Ｓｒａｍ＿Ｉ０、Ｓｒａｍ＿Ｉ１、Ｓｒａｍ＿Ｉ２、Ｓｒａｍ＿Ｉ３、Ｓｒａｍ＿Ｉ４、Ｓｒａｍ＿Ｉ５からデータを並行に読み取った。本例示では、キャッシュＳｒａｍからデータを読み取ったときに、開始列に補填列を追加した。例えば、Ｓｒａｍ＿Ｉ０、Ｓｒａｍ＿Ｉ１、Ｓｒａｍ＿Ｉ２、Ｓｒａｍ＿Ｉ３、Ｓｒａｍ＿Ｉ４、Ｓｒａｍ＿Ｉ５の何れの開始列にも１列が０であるデータを追加した。当該追加されたデータと後の５列の正常データとは、６ｘ６のデータブロック０を形成する。また、２つずつの６ｘ６サイズのデータブロックの間には、重畳領域が存在する。例えば、データブロック０及びデータブロック１の間には、重畳領域が存在する。類似的に、データブロック１及びデータブロック２の間にも重畳領域が存在する。換言すれば、第１目標入力データブロックと第２目標入力データブロックとの間には、重畳データがある。ｗｉｎｏｇｒａｄアルゴリズムでは、ウィンドウがスライドするときに開始列に補填列データが追加され、且つ一部のデータが多重化される。そのため、本実施例では、データを読み取るときに、読み取られた２つのデータブロックの間に重畳領域を設置し、且つ開始列に補填列を追加することにより、本実施例のハードウェア構造にｗｉｎｏｇｒａｄアルゴリズムを実現することができる。

別の例示において、当該ニューラルネットワーク層の第１配置情報及び第２配置情報がそれぞれ４ｂｉｔ及び８ｂｉｔである場合に、キャッシュＳｒａｍからデータを読み取る過程に、読み取られる目標入力データブロックにおけるデータは、何れも４ｂｉｔのビット幅の目標入力データブロックとなる。また、重みバッファモジュールから処理パラメータを読み取る過程に、読み取られる処理パラメータブロックにおけるデータは、何れも８ｂｉｔのビット幅の処理パラメータとなる。

好ましくは、第１算出ユニットの出力結果は、複数の出力チャンネルの出力結果を含み、第３行列を第２行列変換関係にしたがって行列変換を行って第１算出ユニットの出力結果を取得した後、本実施例の方法は、複数の出力チャンネルの出力結果を並行に出力するステップを更に含む。

好ましくは、複数の出力チャンネルの出力結果を並行に出力するステップは、前記複数の出力チャンネルの演算結果を一度で出力する場合に、複数の出力チャンネルの出力結果のそれぞれに対してバイアス量を追加して出力することを含む。ただし、バイアス量は、ニューラルネットワークの畳み込み層におけるバイアス（ｂｉａｓ）パラメータであってもよい。

好ましくは、本実施例の方法は、複数の出力チャンネルの出力結果を複数の第２記憶領域に並行に入力するステップを更に含み、第２記憶領域の数と出力チャンネルの数とは、同じであり、異なる出力チャンネルの出力結果は、異なる第２記憶領域に入力される。

好ましくは、各第２記憶領域は、複数の出力ラインバッファを含み、出力結果は、複数行の出力データと複数列の出力データとを含み、当該方法において、バスを整列させる方式で複数の出力ラインバッファからデータを並行に読み取り、目標出力データブロックを取得してメモリに書き込み、目標出力データブロックの行数及び列数は、同じである。本実施例におけるメモリは、ＤＤＲであってもよい。

引き続き図１を参照すると、複数の第２記憶領域が出力バッファモジュール１７であってもよく、出力バッファモジュール１７が複数の出力ラインバッファ、例えば、Ｓｒａｍ＿Ｏ０、Ｓｒａｍ＿Ｏ１、Ｓｒａｍ＿Ｏ２、…、Ｓｒａｍ＿Ｏｍであると、１つの第２記憶領域は、出力バッファモジュール１７における複数の出力ラインバッファ、例えばＳｒａｍ＿Ｏ０、Ｓｒａｍ＿Ｏ１、Ｓｒａｍ＿Ｏ２、Ｓｒａｍ＿Ｏ３となる。出力モジュール１０ｂは、複数の出力ユニットＣＵ＿ｏｕｔｐｕｔ＿ｔｉｌｅを備える。ただし、各出力ユニットは、第２所定数の出力ラインバッファに対応する。ただし、第２所定数は、目標出力データブロックの行のサイズに対応する。例えば、目標出力データブロックが４＊４サイズである場合に、第２所定数は、４となる。

出力モジュール１０ｂの出力計算並列度ＯＰＸは、４である。例えば、出力モジュール１０ｂには、４つの並行する出力ユニットＣＵ＿ｏｕｔｐｕｔ＿ｔｉｌｅが設けられてもよい。

例示として、出力ラインバッファがキャッシュＳｒａｍである場合に、図５に示すように、複数行の出力結果をＳｒａｍ＿Ｏ０、Ｓｒａｍ＿Ｏ１、Ｓｒａｍ＿Ｏ２、Ｓｒａｍ＿Ｏ３の４つの出力ラインバッファにそれぞれ書き込んでもよい。つまり、各出力ユニットは、データをＳｒａｍ＿Ｏｉ、Ｓｒａｍ＿Ｏｉ＋１、Ｓｒａｍ＿Ｏｉ＋２、Ｓｒａｍ＿Ｏｉ＋３に並行にバッファする。ただし、出力バッファモジュール内部の記憶は、ｄａｔａｂｕｓａｌｉｇｎ（データバスが整列する）の方式で書き込む必要がある。同様に、配置に応じて、合計で３種のデータ形式の整列方式（４ｂｉｔ、８ｂｉｔ、３２ｂｉｔ）がある。ＤＤＲへデータを書き込むときに、図５に示すｌｉｎｅ０、ｌｉｎｅ１、ｌｉｎｅ２、ｌｉｎｅ３の順番で書き込む。

好ましくは、第１行列及び第２行列を乗算する前に、本実施例の方法は、第３配置情報を取得するステップを更に含む。第１算出ユニットが浮動小数点演算をサポートするよう、第３配置情報によって指示された場合に、処理すべきデータのうちの浮動小数点データを処理する。本実施例において、第３配置情報は、浮動小数点データの乗算を行えるか否かを指示するために用いられる。浮動小数点データの乗算を行えると第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得して処理する。浮動小数点データの乗算を行えないと第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得しない。１つの例示では、可以是対ＦＰＧＡにおける乗算器１３について、乗算器１３が浮動小数点演算をサポートするか否かを指示するための第３配置情報を設置してもよい。乗算器１３が浮動小数点データをサポートすると第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得して処理する。前記乗算器１３が浮動小数点データをサポートしないと前記第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得しない。例えば、乗算器１３は、第３配置情報に応じて、固定小数点乗算器を採用するかそれとも浮動小数点乗算器を採用するかを選択してもよい。こうして、乗算器は、柔軟に配置可能である。ＦＰＧＡでは、浮動小数点乗算器に用いられるリソースが固定小数点乗算器の４倍である。浮動小数点乗算器が配置されていない又は浮動小数点乗算器が起動していない場合に、浮動小数点演算で消費されるリソースを省くことができ、データ処理速度を向上させる。

本実施例に係るデータ処理方法は、自動運転、画像処理のような場面に適用可能である。自動運転の場面を例とすると、１つの好適な例示において、処理すべきデータが自動運転中に取得された環境画像であり、当該環境画像がニューラルネットワークを介して処理される必要があると、当該環境画像の処理中に、異なるニューラルネットワーク層において異なるビット幅の処理すべきデータをサポート可能であるため、ビット幅が小さいほど、計算速度が速くなるので、ニューラルネットワーク層が単一のビット幅の処理すべきデータをサポートする場合よりも、本実施例のニューラルネットワーク層は、異なるビット幅の処理すべきデータをサポートし、画像の精度を保証できる場合になるべく環境画像に対する処理速度を向上させる。また、計算中に乗算が一般的に加算よりも遅いため、一部の乗算の替わりに加算を用いることにより、乗算の数が減少可能であり、僅かな加算を追加するだけで、環境画像に対する処理速度を速めることができる。環境画像の処理速度が向上した後、当該環境画像の処理結果を利用して後続の運転ポリシーや経路計画等を行う場合にも、運転ポリシーや経路計画を行う手順を速めることができる。

図６は、本発明の実施例に係るデータ処理装置の構造模式図である。本発明の実施例に係るデータ処理装置は、データ処理方法の実施例に係る処理フローを実行可能である。図６に示すように、データ処理装置６０は、第１取得モジュール６１、第２取得モジュール６２及び処理モジュール６３を備える。第１取得モジュール６１は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得し、前記処理すべきデータは、第１ビット幅のデータを含む。第２取得モジュール６２は、前記第１算出ユニットの処理パラメータを取得し、前記処理パラメータは、第２ビット幅のパラメータを含む。処理モジュール６３は、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得する。ただし、前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なる。

好ましくは、前記第１取得モジュール６１は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得する際に、具体的に、前記第１算出ユニットに入力された処理すべきデータを示すために用いられる第１ビット幅を含む、前記第１算出ユニットの第１配置情報を取得し、前記第１ビット幅に基づいて、ビット幅が前記第１ビット幅である処理すべきデータを取得する。前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第１ビット幅は、異なる。

好ましくは、前記第２取得モジュール６２は、前記第１算出ユニットの処理パラメータを取得する際に、具体的に、前記第１算出ユニットに入力された処理パラメータを示すために用いられる第２ビット幅を含む、前記第１算出ユニットの第２配置情報を取得し、前記第２ビット幅に基づいて、ビット幅が前記第２ビット幅である処理パラメータを取得する。前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第２ビット幅は、異なる。

好ましくは、前記処理すべきデータは、複数の入力チャンネルの入力データを含み、前記入力データは、少なくとも１つの入力データブロックを含み、前記処理モジュール６３は、前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得する際に、具体的に、前記複数の入力チャンネルのうちの各入力チャンネルごとに、前記少なくとも１つの入力データブロックのうちの目標入力データブロックを取得し、処理パラメータから、前記目標入力データブロックとは対応関係を有する処理パラメータブロックを取得し（前記処理パラメータブロックと前記目標入力データブロックとのサイズは、同じであり）、第１変換関係にしたがって、対応関係を有する、前記目標入力データブロックと前記処理パラメータブロックとのそれぞれに対して変換し、前記目標入力データブロックに対応する第１行列と、前記処理パラメータに対応する第２行列とを取得し、前記第１行列と前記第２行列とを乗算し、前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を取得し、前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を積算し、目標サイズの第３行列を取得し、前記第３行列を第２変換関係にしたがって変換し、前記第１算出ユニットの出力結果を取得する。

好ましくは、前記第１算出ユニットの出力結果は、複数の出力チャンネルの出力結果を含み、前記装置６０は、前記複数の出力チャンネルの出力結果を並行に出力するための出力モジュール６４を更に備える。

好ましくは、前記第１取得モジュール６１は、複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得する際に、具体的に、前記複数の入力チャンネルの入力データを複数の第１記憶領域に並行に入力する。前記第１記憶領域の数と入力チャンネルの数とは、同じであり、異なる入力チャンネルの入力データは、異なる第１記憶領域に入力される。

好ましくは、前記複数の第１記憶領域のうちの各第１記憶領域は、複数の入力ラインバッファを含み、前記入力データの行数及び列数は、同じであり、前記目標入力データブロックの行数と、対応する第１記憶領域の入力ラインバッファの数とは、同じであり、前記処理モジュール６３は、前記複数の入力チャンネルのうちの各入力チャンネルごとに、前記少なくとも１つの入力データブロックのうちの目標入力データブロックを取得する際に、具体的に、前記各入力チャンネルの複数の入力ラインバッファからデータを並行に読み取り、前記目標入力データブロックを取得する。

好ましくは、前記入力データにおける隣接する２つの前記入力データブロックの間に重畳データがある。

好ましくは、前記出力モジュール６４は、前記複数の出力チャンネルの出力結果を並行に出力する際に、具体的に、前記複数の出力チャンネルの演算結果を一度で出力する場合に、前記複数の出力チャンネルの出力結果のそれぞれに対してバイアス量を追加して出力する。

好ましくは、前記出力モジュール６４は、更に、複数の出力チャンネルの出力結果を複数の第２記憶領域に並行に入力する。前記第２記憶領域の数と出力チャンネルの数とは、同じであり、異なる出力チャンネルの出力結果は、異なる第２記憶領域に入力される。

好ましくは、各第２記憶領域は、複数の出力ラインバッファを含み、前記出力結果は、複数行の出力データと複数列の出力データとを含み、前記出力モジュール６４は、バスを整列させる方式で複数の出力ラインバッファからデータを並行に読み取り、目標出力データブロックを取得してメモリに書き込み、前記目標出力データブロックの行数及び列数は、同じである。

好ましくは、前記装置６０は、第３配置情報を取得するための第３取得モジュール６５を更に備え、前記処理モジュール６３は、更に、前記第１算出ユニットが浮動小数点演算をサポートすると前記第３配置情報によって指示された場合に、前記処理すべきデータのうちの浮動小数点データを処理する。

図６に示す実施例のデータ処理装置は、上記方法実施例の技術案を実行するためのものであってもよく、その実施原理及び技術効果が類似するため、ここで繰り返し説明しない。

図７は、本発明の実施例に係るデータ処理機器の構造模式図である。図７に示すように、データ処理機器７０は、メモリ７１、プロセッサ７２、コンピュータプログラム及び通信インターフェース７３を備える。ただし、コンピュータプログラムは、メモリ７１に記憶され、プロセッサ７２によって実行されることにより、上記データ処理方法の実施例の技術案を実施させる。

図７に示す実施例のデータ処理機器は、上記方法実施例の技術案を実行するためのものであってもよく、その実施原理及び技術効果が類似するため、ここで繰り返し説明しない。

また、本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されることにより、上記実施例に記載のデータ処理方法は、実施される。

本発明に係る幾つかの実施例において、開示された装置及び方法が他の方式にて実現され得ることは、理解されるべきである。例えば、上述した装置実施例が単に模式的なものであり、例えば、前記ユニットの区分が、単に１種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。例えば、複数のユニット或いはユニットは、組み合わせられてもよく、または、別のシステムに統合されてもよく、または、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された各構成部分同士間は、結合が直接結合であってもよく、通信接続が幾つかのインターフェース、装置或いはユニットを介する間接結合若しくは通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。

上記分離部品として説明されるユニットが物理的に分離されるものであってもよくでなくてもよい。また、ユニットとして表示される部品は、物理ユニットであってもでなくてもよい。更に、それらのユニットは、１箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部または全部のモジュールを選択して本実施例の目的を果たすことが可能である。

また、本発明の各実施例における各機能ユニットは、全部で１つの処理ユニットに集積されてもよく、各ユニットがそれぞれ単独で１つのユニットとされてもよく、２つ或いは２つ以上のユニットが１つのユニットに集積されてもよい。上記集積ユニットは、ハードウェアの形態にて実現されてよく、ハードウェアプラスソフトウェア機能ユニットの形態にて実現されてもよい。

上記ソフトウェア機能ユニットの形態で実現される集積のユニットは、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記ソフトウェア機能ユニットは、１つの記憶媒体に記憶され、コンピュータ機器（パソコン、サーバ又はネットワーク機器等であってもよい）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載の方法の一部のステップを実行させるための幾つかの指令を含む。上述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスクまたは光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。当該コンピュータ記憶媒体は、揮発性記憶媒体及び／又は不揮発性記憶媒体であってもよい。

上記実施例において、全部又は部分的にソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせで実施されてもよい。ソフトウェアで実施されるときに、全部又は部分的にコンピュータプログラム製品の形式で実施されてもよい。コンピュータプログラム製品は、１つ又は複数の機器の実行可能な指令を含む。コンピュータに機器の実行可能な指令をロードして実行するときに、全部又は部分的に本発明の実施例に沿うフロー又は機能を生成する。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってもよい。コンピュータ指令は、コンピュータ可読記憶媒体に記憶されてもよく、又は１つのコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体へ伝送されてもよい。例えば、コンピュータ指令は、１つのウェブサイト、コンピュータ、軌跡予測機器又はデータセンターから、有線（例えば、同軸ケーブル、光ファイバー、デジタル加入者線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ、ＤＳＬ））又は無線（例えば、赤外、無線、マイクロ波等）方式によって別のウェブサイト、コンピュータ、軌跡予測機器又はデータセンターへ伝送されてもよい。コンピュータ可読記憶媒体は、コンピュータがアクセスできる如何なる利用可能媒体、又は、１つ又は複数の利用可能媒体を含んで統合された軌跡予測機器、データセンター等のデータ記憶機器であってもよい。利用可能媒体は、磁気媒体、（例えば、フロッピーディスク、ハードディスク、磁気テープ）、光媒体（例えば、ＤＶＤ））、又は半導体媒体（例えば、ソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ、ＳＳＤ））等であってもよい。

当業者であれば明白で理解できるように、記述の利便性及び簡潔性のために、単に上記各機能モジュールの区分を例として説明したが、実際の応用に、必要に応じて上記機能割当を異なる機能モジュールで完成させ、即ち、装置の内部構造を異なる機能モジュールに分割して上述した全部又は一部の機能を完成させてもよい。上述した装置の具体的な稼働手順は、上記方法実施例における対応する手順を参照すればよいため、ここで繰り返し説明しない。

最後に説明すべきことは、上記各実施例が単に本発明の技術案を説明するためのものであり、それに対する制限とはならない。上記各実施例を参照して本発明を詳細に説明したが、当業者であれば理解できるように、依然として上記各実施例に記載の技術案に対して補正可能であり、又は、そのうちの一部若しくは全部の技術特徴に対して均等物による置換も可能であり、更に、これらの補正若しくは置換によって対応する技術案の要旨が本発明の各実施例の技術案の範囲から逸脱することはない。

ただし、加速器は、入力モジュール１０ａ、出力モジュール１０ｂ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４、重み行列変換モジュール１５、入力バッファモジュール１６、出力バッファモジュール１７及び重みバッファモジュール１８を備える。入力モジュール１０ａ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４及び出力モジュール１０ｂは、順に接続され、重み行列変換モジュール１５は、出力モジュール１０ｂ及び乗算器１２にそれぞれ接続されている。本発明の実施例において、加速器は、畳み込みニューラルネットワークＣＮＮ加速器を含んでもよい。ＤＤＲ、入力バッファモジュール１６及び入力モジュール１０ａは、順に接続されている。ＤＤＲには、処理すべきデータ、例えば特徴マップデータが記憶される。出力モジュール１０ｂは、順に出力バッファモジュール１７、ＤＤＲに接続されている。重み行列変換モジュール１５は、重みバッファモジュール１８にも接続されている。

ニューラルネットワークにとって、ニューラルネットワークの各層は、何れも図１に示す入力モジュール１０ａ、出力モジュール１０ｂ、前段行列変換モジュール１１、乗算器１２、加算器１３、後段行列変換モジュール１４、重み行列変換モジュール１５を備えてもよい。ニューラルネットワーク層の計算手順が順次行われるため、ニューラルネットワークの各層は、１つの入力バッファモジュール１６及び１つの出力バッファモジュール１７を共用してもよい。ニューラルネットワークの現在層（例えば、第１算出ユニット）は、演算を行う必要がある場合に、ＤＤＲからニューラルネットワークの現在層に必要な処理すべきデータを取得し、入力バッファモジュール１６に入力してバッファさせ、且つニューラルネットワークの現在層に必要な処理パラメータを重みバッファモジュール１８にバッファしてもよい。

ステップ３０３では、第１変換関係にしたがって、対応関係を有する、目標入力データブロックと処理パラメータブロックとのそれぞれに対して変換し、目標入力データブロックに対応する第１行列と、処理パラメータブロックに対応する第２行列とを取得する。

このような設計により、本発明の実施例では、２種の固定小数点数の目標入力データブロックと２種の固定小数点数の処理パラメータブロックとを組み合わせて４種の組み合わせを取得可能でありながら、１種の浮動小数点数の演算を加えると、合計で５種の混合精度の畳み込み演算は、実現できる。一方で、Ｗｉｎｏｇｒａｄアルゴリズムが乗算の数を減少可能であるため、データ処理速度は、向上することができる。したがって、本発明の実施例では、演算速度及び演算精度が両立可能であり、即ち、演算速度が向上可能でありながら、混合精度の演算も実現できる。

別の例示において、当該ニューラルネットワーク層の第１配置情報及び第２配置情報がそれぞれ４ｂｉｔ及び８ｂｉｔである場合に、キャッシュＳｒａｍからデータを読み取る過程に、読み取られる目標入力データブロックにおけるデータは、何れも４ｂｉｔのビット幅の目標入力データブロックとなる。また、重みバッファモジュールから処理パラメータを読み取る過程に、読み取られる処理パラメータにおけるデータは、何れも８ｂｉｔのビット幅の処理パラメータとなる。

好ましくは、第１算出ユニットの出力結果は、複数の出力チャンネルの出力結果を含み、第３行列を第２変換関係にしたがって行列変換を行って第１算出ユニットの出力結果を取得した後、本実施例の方法は、複数の出力チャンネルの出力結果を並行に出力するステップを更に含む。

好ましくは、第１行列及び第２行列を乗算する前に、本実施例の方法は、第３配置情報を取得するステップを更に含む。第１算出ユニットが浮動小数点演算をサポートするよう、第３配置情報によって指示された場合に、処理すべきデータのうちの浮動小数点データを処理する。本実施例において、第３配置情報は、浮動小数点データの乗算を行えるか否かを指示するために用いられる。浮動小数点データの乗算を行えると第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得して処理する。浮動小数点データの乗算を行えないと第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得しない。１つの例示では、可以是対ＦＰＧＡにおける乗算器１３について、乗算器１３が浮動小数点演算をサポートするか否かを指示するための第３配置情報を設置してもよい。乗算器１３が浮動小数点演算をサポートすると第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得して処理する。前記乗算器１３が浮動小数点演算をサポートしないと前記第３配置情報によって指示された場合に、浮動小数点型の処理すべきデータを取得しない。例えば、乗算器１３は、第３配置情報に応じて、固定小数点乗算器を採用するかそれとも浮動小数点乗算器を採用するかを選択してもよい。こうして、乗算器は、柔軟に配置可能である。ＦＰＧＡでは、浮動小数点乗算器に用いられるリソースが固定小数点乗算器の４倍である。浮動小数点乗算器が配置されていない又は浮動小数点乗算器が起動していない場合に、浮動小数点演算で消費されるリソースを省くことができ、データ処理速度を向上させる。

Claims

データ処理方法であって、
複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得するステップと、
前記第１算出ユニットの処理パラメータを取得するステップと、
前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得するステップと、を含み、
前記処理すべきデータは、第１ビット幅のデータを含み、
前記処理パラメータは、第２ビット幅のパラメータを含み、
前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なることを特徴とするデータ処理方法。
前記複数の算出ユニットのうちの前記第１算出ユニットに入力された前記処理すべきデータを取得するステップは、
前記第１算出ユニットに入力された前記処理すべきデータを示すために用いられ前記第１ビット幅を含む、前記第１算出ユニットの第１配置情報を取得することと、
前記第１ビット幅に基づいて、ビット幅が前記第１ビット幅である処理すべきデータを取得することと、を含み、
前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第１ビット幅は、異なることを特徴とする請求項１に記載のデータ処理方法。
前記第１算出ユニットの前記処理パラメータを取得するステップは、
前記第１算出ユニットに入力された前記処理パラメータを示すために用いられる前記第２ビット幅を含む、前記第１算出ユニットの第２配置情報を取得することと、
前記第２ビット幅に基づいて、ビット幅が前記第２ビット幅である処理パラメータを取得することと、を含み、
前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第２ビット幅は、異なることを特徴とする請求項１に記載のデータ処理方法。
前記処理すべきデータは、複数の入力チャンネルの入力データを含み、
前記入力データは、少なくとも１つの入力データブロックを含み、
前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得するステップは、
前記複数の入力チャンネルのうちの各入力チャンネルごとに、前記少なくとも１つの入力データブロックのうちの目標入力データブロックを取得することと、
前記処理パラメータから、前記目標入力データブロックとは対応関係を有する処理パラメータブロックを取得することと、
第１変換関係にしたがって、対応関係を有する、前記目標入力データブロックと前記処理パラメータブロックとのそれぞれに対して変換し、前記目標入力データブロックに対応する第１行列と、前記処理パラメータに対応する第２行列とを取得することと、
前記第１行列と前記第２行列とを乗算し、前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を取得することと、
前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を積算し、目標サイズの第３行列を取得することと、
前記第３行列を第２変換関係にしたがって変換し、前記第１算出ユニットの出力結果を取得することと、を含み、
前記処理パラメータブロックと前記目標入力データブロックとのサイズは、同じであることを特徴とする請求項１から３の何れか一項に記載のデータ処理方法。
前記第１算出ユニットの出力結果は、複数の出力チャンネルの出力結果を含み、
前記第３行列を第２行列変換関係にしたがって行列変換し、前記第１算出ユニットの出力結果を取得した後、
前記データ処理方法は、前記複数の出力チャンネルの出力結果を並行に出力するステップを更に含むことを特徴とする請求項４に記載のデータ処理方法。
前記複数の算出ユニットのうちの前記第１算出ユニットに入力された前記処理すべきデータを取得するステップは、
前記複数の入力チャンネルの入力データを複数の第１記憶領域に並行に入力することを含み、
前記第１記憶領域の数と入力チャンネルの数とは、同じであり、異なる入力チャンネルの入力データは、異なる第１記憶領域に入力されることを特徴とする請求項４に記載のデータ処理方法。
前記複数の第１記憶領域のうちの各第１記憶領域は、複数の入力ラインバッファを含み、前記入力データの行数及び列数は、同じであり、前記目標入力データブロックの行数と、対応する第１記憶領域の入力ラインバッファの数とは、同じであり、
前記複数の入力チャンネルのうちの各入力チャンネルごとに、前記少なくとも１つの入力データブロックのうちの前記目標入力データブロックを取得することは、
前記各入力チャンネルの複数の入力ラインバッファからデータを並行に読み取り、前記目標入力データブロックを取得することを含むことを特徴とする請求項６に記載のデータ処理方法。
前記入力データにおける隣接する２つの前記入力データブロックの間に重畳データがあることを特徴とする請求項６又は７に記載のデータ処理方法。
前記複数の出力チャンネルの出力結果を並行に出力するステップは、
前記複数の出力チャンネルの演算結果を一度で出力する場合に、前記複数の出力チャンネルの出力結果のそれぞれに対してバイアス量を追加して出力することを含むことを特徴とする請求項５に記載のデータ処理方法。
前記データ処理方法は、
複数の出力チャンネルの出力結果を複数の第２記憶領域に並行に入力するステップを更に含み、
前記第２記憶領域の数と出力チャンネルの数とは、同じであり、異なる出力チャンネルの出力結果は、異なる第２記憶領域に入力されることを特徴とする請求項５又は９に記載のデータ処理方法。
各第２記憶領域は、複数の出力ラインバッファを含み、
前記出力結果は、複数行の出力データと複数列の出力データとを含み、
前記データ処理方法では、バスを整列させる方式で複数の出力ラインバッファからデータを並行に読み取り、目標出力データブロックを取得してメモリに書き込み、
前記目標出力データブロックの行数及び列数は、同じであることを特徴とする請求項１０に記載のデータ処理方法。
前記第１行列と前記第２行列とを乗算する前に、前記データ処理方法は、
第３配置情報を取得するステップと、
前記第１算出ユニットが浮動小数点演算をサポートすると前記第３配置情報によって指示された場合に、前記処理すべきデータのうちの浮動小数点データを処理するステップと、を更に含むことを特徴とする請求項４から１１の何れか一項に記載のデータ処理方法。
データ処理装置であって、
複数の算出ユニットのうちの第１算出ユニットに入力された処理すべきデータを取得するための第１取得モジュールと、
前記第１算出ユニットの処理パラメータを取得するための第２取得モジュールと、
前記処理すべきデータ及び前記処理パラメータに基づいて、前記第１算出ユニットの出力結果を取得するための処理モジュールと、を備え、
前記処理すべきデータは、第１ビット幅のデータを含み、
前記処理パラメータは、第２ビット幅のパラメータを含み、
前記複数の算出ユニットのうちの第２算出ユニットに入力された処理すべきデータのビット幅と、前記第１算出ユニットに入力された処理すべきデータのビット幅とは、異なり、及び／又は、前記第２算出ユニットに入力された処理パラメータのビット幅と、前記第１算出ユニットに入力された処理パラメータのビット幅とは、異なることを特徴とするデータ処理装置。
前記第１取得モジュールは、更に、
前記第１算出ユニットに入力された前記処理すべきデータを示すために用いられる前記第１ビット幅を含む、前記第１算出ユニットの第１配置情報を取得し、
前記第１ビット幅に基づいて、ビット幅が前記第１ビット幅である処理すべきデータを取得し、
前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第１ビット幅は、異なり、
前記第２取得モジュールは、更に、
前記第１算出ユニットに入力された前記処理パラメータを示すために用いられる前記第２ビット幅を含む、前記第１算出ユニットの第２配置情報を取得し、
前記第２ビット幅に基づいて、ビット幅が前記第２ビット幅である処理パラメータを取得し、
前記複数の算出ユニットのうちの少なくとも２つの算出ユニットの第２ビット幅は、異なることを特徴とする請求項１３に記載のデータ処理装置。
前記処理すべきデータは、複数の入力チャンネルの入力データを含み、前記入力データは、少なくとも１つの入力データブロックを含み、
前記処理モジュールは、更に、
前記複数の入力チャンネルのうちの各入力チャンネルごとに、前記少なくとも１つの入力データブロックのうちの目標入力データブロックを取得し、
前記処理パラメータから、前記目標入力データブロックとは対応関係を有する処理パラメータブロックを取得し、
第１変換関係にしたがって、対応関係を有する、前記目標入力データブロックと前記処理パラメータブロックとのそれぞれに対して変換し、前記目標入力データブロックに対応する第１行列と、前記処理パラメータに対応する第２行列とを取得し、
前記第１行列と前記第２行列とを乗算し、前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を取得し、
前記複数の入力チャンネルのうちの各入力チャンネルの乗算結果を積算し、目標サイズの第３行列を取得し、
前記第３行列を第２変換関係にしたがって変換し、前記第１算出ユニットの出力結果を取得し、
前記処理パラメータブロックと前記目標入力データブロックとのサイズは、同じであることを特徴とする請求項１３又は１４に記載のデータ処理装置。
前記第１算出ユニットの出力結果は、複数の出力チャンネルの出力結果を含み、
前記データ処理装置は、前記複数の出力チャンネルの出力結果を並行に出力するための出力モジュールを更に備え、
前記複数の出力チャンネルの出力結果を並行に出力することは、
前記複数の出力チャンネルの演算結果を一度で出力する場合に、前記複数の出力チャンネルの出力結果のそれぞれに対してバイアス量を追加して出力することを含み、
前記出力モジュールは、更に、複数の出力チャンネルの出力結果を複数の第２記憶領域に並行に入力し、
前記第２記憶領域の数と出力チャンネルの数とは、同じであり、異なる出力チャンネルの出力結果は、異なる第２記憶領域に入力されることを特徴とする請求項１５に記載のデータ処理装置。
前記第１取得モジュールは、更に、
前記複数の入力チャンネルの入力データを複数の第１記憶領域に並行に入力し、
前記第１記憶領域の数と入力チャンネルの数とは、同じであり、異なる入力チャンネルの入力データは、異なる第１記憶領域に入力され、
前記複数の第１記憶領域のうちの各第１記憶領域は、複数の入力ラインバッファを含み、前記入力データの行数及び列数は、同じであり、前記目標入力データブロックの行数と、対応する第１記憶領域の入力ラインバッファの数とは、同じであり、
前記処理モジュールは、更に、
前記各入力チャンネルの複数の入力ラインバッファからデータを並行に読み取り、前記目標入力データブロックを取得することを特徴とする請求項１５に記載のデータ処理装置。
前記データ処理装置は、第３配置情報を取得するための第３取得モジュールを更に備え、
前記処理モジュールは、更に、前記第１算出ユニットが浮動小数点演算をサポートすると前記第３配置情報によって指示された場合に、前記処理すべきデータのうちの浮動小数点データを処理することを特徴とする請求項１３から１７の何れか一項に記載のデータ処理装置。
データ処理機器であって、
プロセッサと、
プロセッサ実行可能なプログラムが記憶されるメモリと、を備え、
前記プログラムが前記プロセッサによって実行されることにより、前記プロセッサに請求項１から１２の何れか一項に記載の方法を実施させることを特徴とするデータ処理機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されたときに、前記プロセッサに請求項１から１２の何れか一項に記載の方法を実施させることを特徴とするコンピュータ可読記憶媒体。
機器の実行可能な指令を含むコンピュータプログラム製品であって、
前記機器の実行可能な指令がコンピュータによって読み取って実行されたときに、前記コンピュータに請求項１から１２の何れか一項に記載の方法を実施させることを特徴とするコンピュータプログラム製品。