JP2022532439A

JP2022532439A - データ量子化処理方法、装置、電子機器および記憶媒体本願は、２０２０年０２月２４日に中国国家知識産権局に提出された、出願番号が２０２０１０１１１８８４．３であり、発明の名称が「データ量子化処理方法、装置、電子機器および記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。

Info

Publication number: JP2022532439A
Application number: JP2021578095A
Authority: JP
Inventors: ▲ゆ▼▲しん▼; ▲劉▼道福; 周▲詩▼怡
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2020-02-24
Filing date: 2021-02-22
Publication date: 2022-07-14
Anticipated expiration: 2041-02-22
Also published as: US20230091541A1; JP7233636B2; WO2021169914A1; CN113298843A; CN113298843B

Abstract

本開示は、データ量子化処理方法、装置、電子機器および記憶媒体に関する。前記装置は制御モジュールを備え、前記制御モジュールは、前記人工ニューラルネットワーク演算に関連する計算命令を記憶するための命令キャッシュユニットと、前記計算命令を解析して、複数の演算命令を得るための命令処理ユニットと、命令キューを記憶するためのキュー記憶ユニットとを含み、該命令キューは、該キューの前後順で実行すべき複数の演算命令または計算命令を含む。以上の方法により、本開示は、関連製品のニューラルネットワークモデルの演算を実行する際の演算精度を向上させることができる。

Description

本開示はコンピュータ技術分野に関し、特にデータ量子化処理方法、装置、電子機器および記憶媒体に関する。

人工知能技術分野において、ニューラルネットワークアルゴリズムが最近非常に人気のある機械学習アルゴリズムであり、画像認識、音声認識、自然言語処理などの様々な分野で優れた効果を得た。しかし、ニューラルネットワークの複雑性が高まるにつれ、データのデータ量やデータ次元がだんだん増大しており、増大しつつあるデータ量などが演算装置のデータ処理効率、記憶装置のメモリ容量やアクセス効率などに大きな課題となっている。関連技術では、ニューラルネットワーク全体に対して同じ量子化解決策を用いているが、ニューラルネットワークにおける異なる演算データの間に大きな差異が存在する可能性があるので、精度が低く、データの演算結果に影響を与えることが多い。

これに基づいて、上記の技術問題に対して、データ量子化処理方法、装置、電子機器、および記憶媒体を提供する必要がある。

本開示の一態様によれば、データ量子化処理方法を提供し、前記方法は、深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定することと、各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定することと、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することと、各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得ることと、を含み、ここで、前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じである。

本開示の一態様によれば、データ量子化処理装置を提供し、前記処理装置は、深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定するための第１の確定モジュールと、各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定するための第２の確定モジュールと、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定するための第３の確定モジュールと、各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得るための量子化モジュールと、を含み、ここで、前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じである。

本開示の一態様によれば、以上に記載のデータ量子化処理装置を含む人工知能チップを提供する。

本開示の一態様によれば、以上に記載の人工知能チップを含む電子機器を提供する。

本開示の一態様によれば、電子機器を提供し、前記電子機器は、プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、以上に記載のデータ量子化処理方法を実行するように、前記メモリに記憶された命令を呼び出すように構成される。

本開示の一態様によれば、プロセッサによって実行されると、以上に記載のデータ量子化処理方法を実現するコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供する。

深層畳み込み層における入力画像のチャンネル数に基づいて、入力画像の各チャンネルに対応する量子化すべきデータを確定し、各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定し、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定し、各チャンネルに対応する量子化パラメータを利用して、各チャンネルに対応する量子化すべきデータをそれぞれ量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得る。ここで、深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じである。深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じであるため、深層畳み込み層における入力画像に対してチャンネルを分けて量子化することで、量子化プロセスの精度を向上させ、演算結果の正確性と確実性を保証することができる。

図面を参照して、例示的な実施例の以下の詳細な説明によって、本開示の他の特徴および態様が明らかになるであろう。
本明細書に含まれ、本明細書の一部を構成する図面は、本明細書と共に、本開示の例示的な実施例、特徴、および態様を示し、本開示の原理を説明するために用いられる。

本開示の実施例によるデータ量子化処理方法のプロセッサを示す概略図である。本開示の実施例によるデータ量子化処理方法を示すフローチャートである。本開示の実施例による対称的な固定小数点数表現を示す概略図である。本開示の実施例によるオフセット量が導入された固定小数点数表現を示す概略図である。本開示の実施例によるデータ量子化処理装置の構成を示すブロック図である。本開示の実施例によるＰＣＢボードを示す構造ブロック図である。

以下、本開示の実施例における図面を参照しながら、本開示の実施例における技術的解決手段を明確且つ完全に説明する。明らかに、説明された実施例は、本開示の実施例の一部に過ぎず、全てではない。本開示の実施例に基づいて、当業者が創造的な労働をしない前提で得られる他の全ての実施例は、全て本開示の保護範囲に属するものとする。

本開示の特許請求の範囲や明細書および図面における「第１の」、「第２の」、および「第３の」などの用語は、特定の順序を説明するのではなく、異なる対象を区別するためのものであることを理解されたい。本開示の明細書および特許請求の範囲で使用される「備える」および「含む」という用語は、記載された特徴、全体、ステップ、操作、要素および／またはコンポーネントの存在を指示するが、１つまたは複数の他の特徴、全体、ステップ、操作、要素、コンポーネントおよび／またはそれらのコンビネーションの存在または追加を除外しない。

本開示の明細書で使用される用語は、特定の実施例を説明することのみを目のとしており、本開示を限定することを意図するものではないことも理解されたい。本開示の明細書および特許請求の範囲に使用されるように、コンテキストで明白に他の意味が示されない限り、単数形の「一」、「１つ」および「該」は複数形を含むことを意味する。本開示の明細書および特許請求の範囲で使用される「および／または」という用語は、関連してリストされた１つまたは複数の項目の任意の組み合わせおよびすべての可能な組み合わせを指し、これらの組み合わせを含むことをさらに理解されたい。

本明細書および特許請求の範囲に使用されるように、「すれば」という用語は、コンテキストによって「・・・場合」、「したら」、「確定することに応じて」、または「検出したことに応じて」と解釈されてもよい。同様に、「確定すれば」または「［説明される条件またはイベント］を検出すれば」という短句は、コンテキストによって「確定したら」、「確定することに応じて」、「［説明される条件またはイベント］を検出したら」、または「［説明される条件またはイベント］を検出したことに応じて」を意味すると解釈されてもよい。

本開示の実施例によるデータ量子化処理方法は、プロセッサに適用することができ、該プロセッサは、例えば、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）などの汎用プロセッサであってよく、人工知能演算を実行するために用いられる人工知能プロセッサ（ＩＰＵ）であってもよい。人工知能演算は、機械学習演算、類脳演算などを含でんよく、ここで、機械学習演算は、ニューラルネットワーク演算、ｋ－ｍｅａｎｓ演算、サポートベクトルマシン演算などを含む。この人工知能プロセッサは、例えばグラフィックス処理ユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）、ニューラルネットワーク処理ユニット（Ｎｅｕｒａｌ－ＮｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＮＰＵ）、デジタル信号処理ユニット（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ、ＤＳＰ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）チップのうちの１つまたは組み合わせが含まれる。本開示はプロセッサの具体的なタイプを限定しない。

１つの可能な実施形態では、本開示で言及されたプロセッサは、複数の処理ユニットを含んでもよく、各処理ユニットは、割り当てられた様々なタスク、例えば、畳み込み演算タスク、プーリングタスクまたは完全接続タスクなどを独立して実行できる。本開示は処理ユニットおよび処理ユニットによって実行されるタスクを限定しない。

図１は、本開示の実施例によるデータ量子化処理方法のプロセッサを示す概略図である。図１に示すように、プロセッサ１００は、複数の処理ユニット１０１および記憶ユニット１０２を含み、複数の処理ユニット１０１は、命令シーケンスを実行するために用いられ、記憶ユニット１０２は、データを記憶するために用いられ、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）とレジスタファイルを含んでよい。プロセッサ１００における複数の処理ユニット１０１は、記憶空間の一部を共有するだけでなく、例えば、ＲＡＭ記憶空間の一部とレジスタファイルを共有するだけでなく、各自の記憶空間を有することもできる。

図２は、本開示の実施例によるデータ量子化処理方法を示すフローチャートである。この方法は図１に示すプロセッサ１００に適用することができる。図２に示すように、該方法は、以下のステップＳ２１～Ｓ２４を含む。

ステップＳ２１において、深層畳み込み層における入力画像のチャンネル数に基づいて、入力画像の各チャンネルに対応する量子化すべきデータを確定する。

ステップＳ２２において、各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定する。

ステップＳ２３において、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定する。

ステップＳ２４において、各チャンネルに対応する量子化パラメータを利用して、各チャンネルに対応する量子化すべきデータをそれぞれ量子化し、入力画像の各チャンネルに対応する量子化後のデータを得る。

ここでは、深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じである。深層畳み込みネットワークはｄｅｐｔｈｗｉｓｅニューラルネットワークであってもよい。

実際の応用では、深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じであり、即ち、入力画像は深層畳み込みを行う時、各チャンネルが互いに干渉しないため、深層畳み込みの前に入力画像に対してデータ量子化処理を行う時、量子化プロセスの精度を向上させるために、入力画像のチャンネル数に基づいて、入力画像の各チャンネルに対応する量子化すべきデータを確定でき、さらに入力画像の各チャンネルに対応する量子化すべきデータに対してそれぞれデータ量子化処理を行うことができる。ここでは、量子化すべきデータは高精度のデータフォーマットで表現されるデータであり、量子化後のデータは低精度のデータフォーマットで表現されるデータであり、量子化すべきデータのデータフォーマットの精度は、量子化後のデータのデータフォーマットの精度より高い。

１つの可能な実施形態では、各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することと、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を該チャンネルに対応する量子化すべきデータの統計結果として確定することとを含む。

例えば、入力画像のチャンネル数が３であり、それぞれ３つのチャンネルの各チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定し、さらに各チャンネルに対応する量子化すべきデータにおける絶対値の最大値を該チャンネルに対応する量子化すべきデータの統計結果として確定する。

１つの可能な実施形態では、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値を確定することと、該チャンネルに対応する量子化すべきデータの最大値と最小値に基づいて、該チャンネルに対応する量子化すべきデータの絶対値の最大値を確定することとを含む。

例えば、入力画像の各チャンネルに対して、各チャンネルに対応する量子化すべきデータの最大値と最小値をそれぞれ確定し、各チャンネルに対応する量子化すべきデータの最大値と最小値に対して、それぞれ絶対値を取る。入力画像のいずれか一つのチャンネルに対して、量子化すべきデータの最大値の絶対値と最小値の絶対値のうち大きい方を、該チャンネルに対応する量子化すべきデータの絶対値の最大値として確定する。

１つの可能な実施形態では、各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値を確定することと、量子化すべきデータの最大値と最小値の間の距離の２分の１を、該チャンネルに対応する量子化すべきデータの統計結果として確定することとを含む。

例えば、入力画像の各チャンネルに対して、各チャンネルに対応する量子化すべきデータの最大値と最小値をそれぞれ確定する。入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値の間の距離の２分の１を計算し、計算結果を該チャンネルに対応する量子化すべきデータの統計結果として確定する。

入力画像の各チャンネルに対応する量子化すべきデータの統計結果を確定した後、各チャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定する。

一つの可能な実施形態では、量子化パラメータは点位置パラメータを含み、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果と該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応する点位置パラメータを確定することを含む。

例えば、入力画像は第１のチャンネルと第２のチャンネルを含み、第１のチャンネルに対応する量子化すべきデータの統計結果と第１のチャンネルに対応するデータビット幅に基づいて、第１のチャンネルに対応する点位置パラメータを確定し、第２のチャンネルに対応する量子化すべきデータの統計結果と第２のチャンネルに対応するデータビット幅に基づいて、第２のチャンネルに対応する点位置パラメータを確定する。

入力画像の各チャンネルに対して、それぞれ各チャンネルに対応する点位置パラメータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う。例えば、入力画像は第１のチャンネルと第２のチャンネルを含み、第１のチャンネルに対応する点位置パラメータに基づいて、第１のチャンネルに対応する量子化すべきデータに対してデータ量子化処理を行って、第２のチャンネルに対応する点位置パラメータに基づいて、第２のチャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータｓに基づいて、数１を利用して該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｓは該チャンネルに対応する点位置パラメータ、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。例えば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数１のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。この場合、ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは２^ｓ（２^ｎ－１－１）であり、すると、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最大値Ａは２^ｓ（２^ｎ－１－１）であり、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最小値は－２^ｓ（２^ｎ－１－１）である。数１からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータｓに基づいて、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う時、量子化間隔は２^ｓである。

該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の絶対値の最大値をＺとすると、ＡはＺを含み、かつＺはＡ／２より大きい必要があり、また、次の数２に制約される。

一つの可能な実施形態では、量子化パラメータはスケジューリング係数をさらに含み、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果、該チャンネルに対応する点位置パラメータ、および該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応するスケジューリング係数を確定することを含む。

例えば、入力画像は第１のチャンネルと第２のチャンネルを含み、第１のチャンネルに対応する量子化すべきデータの統計結果、第１のチャンネルに対応する点位置パラメータ、および第１のチャンネルに対応するデータビット幅に基づいて、第１のチャンネルに対応するスケジューリング係数を確定し、第２のチャンネルに対応する量子化すべきデータの統計結果、第２のチャンネルに対応する点位置パラメータ、および第２のチャンネルに対応するデータビット幅に基づいて、第２のチャンネルに対応するスケジューリング係数を確定する。

入力画像の各チャンネルに対して、それぞれ各チャンネルに対応する点位置パラメータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う。例えば、入力画像は第１のチャンネルと第２のチャンネルを含み、第１のチャンネルに対応するスケジューリング係数に基づいて、第１のチャンネルに対応する量子化すべきデータに対してデータ量子化処理を行って、第２のチャンネルに対応するスケジューリング係数に基づいて、第２のチャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化パラメータは第１のスケジューリング係数ｆ_１である。該チャンネルに対応する第１のスケジューリング係数ｆ_１に基づいて、下記数３を利用して該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｆ_１は該チャンネルに対応する第１のスケジューリング係数、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。例えば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数３のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。数３からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する第１のスケジューリング係数に基づいて、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う時、量子化間隔はｆ_１である。

一例において、該チャンネルに対応する点位置パラメータｓが既知の固定値であり、Ｔが２^ｓ＝Ｔとの固定値であるとすると、ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは、（２^ｎ－１－１）＊Ｔである。この場合、最大値Ａはデータビット幅ｎに依存する。該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとすると、ｆ_１＝Ｚ／（２^ｎ－１－１）となり、Ｚ＝（２^ｎ－１－１）＊ｆ_１である。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最大値は、（２^ｎ－１－１）＊ｆ_１であり、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最小値は、－（２^ｎ－１－１）＊ｆ_１である。

一例において、例えば、エンジニアリング応用では、２^ｓ＊ｆ_２を全体として該チャンネルに対応する第１のスケジューリング係数ｆ_１として、ここで、ｆ_２は該チャンネルに対応する第２のスケジューリング係数である。この場合、独立した点位置パラメータｓは存在しないと見なすことができる。該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとすると、ｆ_１＝Ｚ／（２^ｎ－１－１）となり、Ｚ＝（２^ｎ－１－１）＊ｆ_１である。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最大値は、（２^ｎ－１－１）＊ｆ_１、ｎビットの固定小数点数で表せる量子化すべきデータの数値フィールドの中の最小値は、－（２^ｎ－１－１）＊ｆ_１である。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化パラメータは、点位置パラメータｓと第２のスケジューリング係数ｆ_２を含む。該チャンネルに対応する点位置パラメータｓと第２のスケジューリング係数ｆ_２に基づいて、下記数４を利用して該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｓは該チャンネルに対応する点位置パラメータ、ｆ_２は該チャンネルに対応する第２のスケジューリング係数、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。例えば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数４のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。数４からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータと第２のスケジューリング係数に基づいて、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う時、量子化間隔は２^ｓ＊ｆ_２である。

該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとする。この場合、数２によって、１≧Ｚ／｛２^ｓ＊（２^ｎ－１－１）｝＞１／２が得られる。即ち１≧Ｚ／Ａ＞１／２と、１≧ｆ_２＞１／２である。ｆ_２＝Ｚ／｛２^ｓ＊（２^ｎ－１－１）｝＝Ｚ／Ａの場合、数２からわかるように、Ｚは損失なく正確に表現できる。ｆ_２＝１の場合、数４と数１からわかるように、ｓ＝ｃｅｉｌ［ｌｏｇ_２｛Ｚ／（２^ｎ－１－１）｝］である。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最大値は、（２^ｎ－１－１）＊２^ｓ＊ｆ_２、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの中の最小値は、－（２^ｎ－１－１）＊２^ｓ＊ｆ_２である。

図３は、本開示の実施例による対称的な固定小数点数表現を示す概略図である。図３に示すような入力画像のいずれか一つのチャンネルに対応する量子化すべきデータの数値フィールドは、「０」を対称中心として分布されている。Ｚは、該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の絶対値の最大値である。図２において、Ａはｎビットの固定小数点数で表すことができる浮動小数点数の最大値である。浮動小数点数Ａから変換した固定小数点数は２^ｎ－１－１である。オーバーフローを回避するには、ＡはＺを含む必要がある。実際の演算では、ニューラルネットワーク演算プロセスにおける浮動小数点データは、ある確定区間の正規分布となる傾向にあるが、「０」を対称中心とする分布を必ずしも満たすとは限らない。このとき、固定小数点数で表現すると、オーバーフローが発生しやすくなる。この状況を改善するために、オフセット量が量子化パラメータに導入される。図４は、本開示の実施例によるオフセット量が導入された固定小数点数表現を示す概略図である。図４に示すように、入力画像のいずれか一つのチャンネルに対応する量子化すべきデータの数値フィールドは、「０」を対称中心として分布していない。Ｚ_ｍｉｎは該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の最小値であり、Ｚ_ｍａｘは該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の最大値である。ＰはＺ_ｍｉｎ～Ｚ_ｍａｘの間の中心点であり、該チャンネルに対応する量子化すべきデータの数値フィールドを全体的にオフセットし、オフセット後の該チャンネルに対応する量子化すべきデータの数値フィールドが「０」を対称中心として分布するようにし、オフセット後の該チャンネルに対応する量子化すべきデータの数値フィールドにおける絶対値の最大値はＺである。図４からわかるように、オフセット量は「０」点から「Ｐ」点までの水平距離であり、この距離はオフセット量Ｏと呼ばれる。ここでは、Ｏ＝（Ｚ_ｍｉｎ＋Ｚ_ｍａｘ）／２、Ｚ＝（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／２である。

一つの可能な実施形態では、量子化パラメータはオフセット量を含み、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応するオフセット量を確定することを含む。

例えば、入力画像は第１のチャンネルと第２のチャンネルを含み、第１のチャンネルに対応する量子化すべきデータの統計結果に基づいて、第１のチャンネルに対応するオフセット量を確定し、第２のチャンネルに対応する量子化すべきデータの統計結果に基づいて、第２のチャンネルに対応するオフセット量を確定する。

入力画像の各チャンネルに対して、それぞれ各チャンネルに対応するオフセット量に基づいて、各チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化パラメータは、点位置パラメータｓとオフセット量Ｏを含む。該チャンネルに対応する点位置パラメータｓとオフセット量Ｏに基づいて、下記の数５を利用して該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｓは該チャンネルに対応する点位置パラメータ、Ｏは該チャンネルに対応するオフセット量、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。たとえば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数５のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。この場合、ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは、２^ｓ（２^ｎ－１－１）であり、次に、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最大値は、２^ｓ（２^ｎ－１－１）＋Ｏであり、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最小値は、－２^ｓ（２^ｎ－１－１）＋Ｏである。数５からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータｓとオフセット量Ｏに基づいて、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う時、量子化間隔は２^ｓである。

該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の絶対値の最大値をＺとすると、Ｚ＝（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／２であり、ＡはＺを含み、かつ、ＺはＡ／２より大きい必要があり、数２からわかるように、ｌｏｇ_２｛Ｚ／（２^ｎ－１－１）｝－１＞ｓ≧ｌｏｇ_２｛Ｚ／（２^ｎ－１－１）｝であり、さらに、ｓ＝ｃｅｉｌ［ｌｏｇ_２｛Ｚ／（２^ｎ－１－１）｝］とＡ＝２^{ｃｅｉｌ［ｌｏｇ} _２ ^{｛Ｚ／（２＾(ｎ－１)－１）｝］}（２^ｎ－１－１）が得られる。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化パラメータは第１のスケジューリング係数ｆ_１とオフセット量Ｏを含む。該チャンネルに対応する第１のスケジューリング係数ｆ_１とオフセット量Ｏに基づいて、下記の数６を利用して、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｆ_１は該チャンネルに対応する第１のスケジューリング係数、Ｏは該チャンネルに対応するオフセット量、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。たとえば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数６のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。

一例において、該チャンネルに対応する点位置パラメータｓが既知の固定値であり、２^ｓ＝Ｔとし、かつ、Ｔを固定値とすると、ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは、（２^ｎ－１－１）＊Ｔである。この場合、最大値Ａはデータビット幅ｎに依存する。該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとすると、ｆ_１＝Ｚ／（２^ｎ－１－１）となり、Ｚ＝（２^ｎ－１－１）＊ｆ_１である。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最大値は（２^ｎ－１－１）＊ｆ_１＋Ｏ、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最小値は、－（２^ｎ－１－１）＊ｆ_１＋Ｏである。

一例において、例えば、エンジニアリング応用では、２^ｓ＊ｆ_２を全体として該チャンネルに対応する第１のスケジューリング係数をｆ_１とし、ここで、ｆ_２は該チャンネルに対応する第２のスケジューリング係数である。この場合、独立した点位置パラメータｓは存在しないと見なすことができる。該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとすると、ｆ_１＝Ｚ／（２^ｎ－１－１）となり、Ｚ＝（２^ｎ－１－１）＊ｆ_１である。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最大値は（２^ｎ－１－１）＊ｆ_１＋Ｏ、ｎビットの固定小数点数で表せる量子化すべきデータの数値フィールドの最小値は、－（２^ｎ－１－１）＊ｆ_１＋Ｏである。

一例において、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する量子化パラメータは点位置パラメータｓ、第１のスケジューリング係数ｆ_１とオフセット量Ｏを含む。該チャンネルに対応する点位置パラメータｓ、第１のスケジューリング係数ｆ_１とオフセット量Ｏに基づいて、下記の数７を利用して該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う：

ここでは、ｓは該チャンネルに対応する点位置パラメータ、ｆ_１は該チャンネルに対応する第１のスケジューリング係数、Ｏは該チャンネルに対応するオフセット量、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄ（・）は四捨五入の丸め演算である。ここでは、ｒｏｕｎｄ（・）という丸め演算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。たとえば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で、数７のｒｏｕｎｄ（・）との丸め演算を置き換えてもよい。この場合、ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは２^ｓ（２^ｎ－１－１）であり、数７からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータｓ、第１のスケジューリング係数ｆ_１と、オフセット量Ｏに基づいて、該チャンネルに対応する量子化すべきデータに対してデータ量子化処理を行う時、量子化間隔は２^ｓ＊ｆ_２である。

該チャンネルに対応する量子化すべきデータの数値フィールドにおけるすべての浮動小数点数の絶対値の最大値をＺとする。この場合、数２からわかるように、１≧Ｚ／｛２^ｓ（２^ｎ－１－１）｝＞１／２であり、即ち、１≧Ｚ／Ａ＞１／２と１≧ｆ_２＞１／２である。ｆ_２＝Ｚ／｛２^ｓ（２^ｎ－１－１）｝＝Ｚ／Ａの場合、数２からわかるように、Ｚは損失なく正確に表現できる。ｆ_２＝１の場合、ｓ＝ｃｅｉｌ［ｌｏｇ_２｛（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／（２（２^ｎ－１－１）｝］となる。ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最大値は（２^ｎ－１－１）＊２^ｓ＊ｆ_２＋Ｏ、ｎビットの固定小数点数で表せる該チャンネルに対応する量子化すべきデータの数値フィールドの最小値は、－（２^ｎ－１－１）＊２^ｓ＊ｆ_２＋Ｏである。

１つの可能な実施形態では、いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅は予め設定された値である。

数１～数７からわかるように、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応する点位置パラメータとスケジューリング係数は、すべて該チャンネルに対応するデータビット幅に関連している。データビット幅が異なるため、点位置パラメータとスケーリング係数が異なり、それによって量子化の精度に影響する。量子化とは、従来３２ビットまたは６４ビットで表していた高精度の数値を、メモリスペースの占有が少ない固定小数点数に変換するプロセスであり、高精度の数値を固定小数点数に変換するプロセスは、精度の面である程度の損失を引き起こす。トレーニングまたは微調整のプロセスでは、一定の反復の回数範囲内で、同じデータビット幅を使用して量子化することによるニューラルネットワーク演算の全体的な精度への影響が大きくない。一定の回数の反復を超えた後、同じデータビット幅の量子化の使用は、トレーニングまたは微調整の精度要件を満たすことができない。これは、トレーニングまたは微調整プロセスに伴って、データビット幅ｎを調整することを必要とする。簡単にすると、該チャンネルに対応するデータビット幅ｎを手動で予め設定された値に設定してもよい。異なる反復の回数範囲で、予め設定された該チャンネルに対応するデータビット幅ｎを呼び出す。

１つの可能な実施形態では、前記方法は、いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整して、調整後のデータビット幅を使用して、該チャンネルに対応する量子化パラメータを確定することをさらに含む。ここで、量子化誤差は、該チャンネルに対応する量子化後のデータと該チャンネルに対応する量子化すべきデータに基づいて確定されるものである。

１つの可能な実施形態では、該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整することは、量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することを含む。

１つの可能な実施形態では、閾値は第１の閾値と第２の閾値を含み、量子化誤差を閾値と比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することは、量子化誤差が第１の閾値以上である場合、該チャンネルに対応するデータビット幅を増加することと、量子化誤差が第２の閾値以下である場合、該チャンネルに対応するデータビット幅を減少することと、量子化誤差が第１の閾値と第２の閾値との間にある場合、該チャンネルに対応するデータビット幅を不変に保つこととを含む。この実施形態において、第１の閾値と第２の閾値は、経験値であってもよいし、可変なハイパーパラメータであってもよい。従来のハイパーパラメータ最適化方法はすべて、第１の閾値と第２の閾値に適しており、ハイパーパラメータの最適化案はここでは繰り返されない。

なお、入力画像のいずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅は、固定ビットのステップ長さによって調整してもよく、または、量子化誤差と誤差閾値の差によって、可変な調整ステップ長さに応じて、該チャンネルに対応するデータビット幅を調整し、最終的に深層畳み込みネットワーク演算プロセスの実際の必要に応じて、入力画像のいずれか一つのチャンネルに対応するデータビット幅をより長くまたはより短く調整してもよく、これにより、精度の許容範囲内で固定小数点の演算速度を大幅に向上させることができ、人工知能プロセッサチップのリソース使用率を高める。

深層畳み込み層における入力画像のチャンネル数に基づいて、入力画像の各チャンネルに対応する量子化すべきデータを確定し、各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定し、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定し、各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得る。ここでは、深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じである。深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じであるため、深層畳み込み層における入力画像に対してチャンネルを分けて量子化することで、量子化プロセスの精度を向上させ、演算結果の正確性と確実性を保証することができる。

なお、前述した各方法の実施例については、説明を簡便にするために、一連の動作の組み合わせとして記載したが、当業者であれば分かるように、本開示が説明された動作順序に限定されるものではなく、本開示に従って、いくつかのステップが他の順序で、または同時に行われてもよい。また、本明細書に説明された実施例がいずれも任意選択可能な実施例であり、係る動作およびモジュールが必ずしも本開示に必要なものではないことは、当業者に理解されたい。

さらに説明しなければならないのは、図２のフローチャートにおける各ステップは、矢印の指示に従って順次表示されているが、これらのステップは必ずしも矢印の順に逐次実行されるわけではない。ここで明示的に指定されている場合を除き、これらのステップの実行には厳しい順序制限はなく、これらのステップは、別の順序で実行してもよい。また、図２における少なくとも一部のステップは、複数のサブステップまたは複数のサブ段階を含むことができ、これらのサブステップまたは段階は、必ずしも同じ時点で実行されるわけではなく、異なる時点で実行されてもよく、これらのサブステップまたは段階の実行順序は、必ずしも順次実行されるわけではなく、代わりに、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番に、または交互に実行することができる。

図５は、本開示の実施例によるデータ量子化処理装置の構成を示すブロック図である。図５に示すように、装置５００は、
深層畳み込み層における入力画像のチャンネル数に基づいて、入力画像の各チャンネルに対応する量子化すべきデータを確定するための第１の確定モジュール５０１と、
各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定するための第２の確定モジュール５０２と、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定するための第３の確定モジュール５０３と、
各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、入力画像の各チャンネルに対応する量子化後のデータを得るための量子化モジュール５０４と、を含む。

ここでは、深層畳み込み層における入力画像のチャンネル数と出力画像のチャンネル数が同じである。

一つの可能な実施形態では、量子化パラメータは点位置パラメータを含み、
第３の確定モジュール５０３は、具体的に、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果と該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応する点位置パラメータを確定するために用いられる。

一つの可能な実施形態では、量子化パラメータはスケジューリング係数をさらに含み、
第３の確定モジュール５０３は、具体的に、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果、該チャンネルに対応する点位置パラメータ、および該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応するスケジューリング係数を確定するために用いられる。

一つの可能な実施形態では、量子化パラメータはオフセット量を含み、
第３の確定モジュール５０３は、具体的に、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応するオフセット量を確定するために用いられる。

一つの可能な実施形態では、第２の確定モジュール５０２は、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定するための第１の確定サブモジュールと、
該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を該チャンネルに対応する量子化すべきデータの統計結果として確定するためのる第２の確定サブモジュールを含む。

一つの可能な実施形態では、第１の確定サブモジュールは、具体的に、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値を確定するために用いられ、
該チャンネルに対応する量子化すべきデータの最大値と最小値に基づいて、該チャンネルに対応する量子化すべきデータの絶対値の最大値を確定するために用いられる。

１つの可能な実施形態では、装置５００は、
いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整して、調整後のデータビット幅を使用して、該チャンネルに対応する量子化パラメータを確定するためのデータビット幅調整モジュールを含み、ここで、量子化誤差は、該チャンネルに対応する量子化後のデータと該チャンネルに対応する量子化すべきデータに基づいて確定されるものである。

一つの可能な実施形態では、データビット幅調整モジュールは、具体的に、
量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整するために用いられる。

データビット幅調整モジュールにおいて、閾値は第１の閾値と第２の閾値を含み、
データビット幅調整モジュールは、具体的に、
量子化誤差が第１の閾値以上である場合、該チャンネルに対応するデータビット幅を増加し、
量子化誤差が第２の閾値以下である場合、該チャンネルに対応するデータビット幅を減少し、
量子化誤差が第１の閾値と第２の閾値との間にある場合、該チャンネルに対応するデータビット幅を不変に保つために用いられる。

本開示が提供するデータ量子化処理装置５００は、図２に示される方法の実施例における各ステップを実現し、同じ技術的効果を実現することができ、重複を避けるため、ここで繰り返して説明しない。

なお、上記した装置の実施例は概略的なものに過ぎず、本開示の装置は他の方法で実施することもできることを理解されたい。例えば、上記した実施例に記載のユニット／モジュールの分割は、単に論理的機能の分割に過ぎず、実際に実現される場合には別の分割方式が可能である。例えば、複数のユニット、モジュール、またはコンポーネントが組み合わされてもよく、または別のシステムに統合されてもよく、またはいくつかの特徴が無視されてもよく、または実行されなくてもよい。

また、特に明記しない限り、本開示の各実施例における各機能ユニット／モジュールは、１つのユニット／モジュールに一体化されていてもよいし、各ユニット／モジュールが個別に物理的に存在していてもよく、２つ以上のユニット／モジュールが一体化されていてもよい。上記一体化されたユニット／モジュールはハードウェアの形態で実現することができ、ソフトウェアプログラムモジュールの形態で実現することもできる。

前記一体化されたユニット／モジュールがハードウェアの形態で実装される場合、このハードウェアは、デジタル回路、アナログ回路などであってもよい。ハードウェア構造の物理的実装は、トランジスタ、メモリスタなどを含むが、これらに限定されない。特に明記しない限り、前記人工知能プロセッサは、任意の適切なハードウェアプロセッサであってもよい。例えば、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰとＡＳＩＣなどである。特に明記しない限り、前記記憶ユニットは、任意の適切な磁気記憶媒体または磁気光学記憶媒体であってもよい。例えば、抵抗可変メモリＲＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、スタティックランダムアクセスメモリＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、増強動的ランダムアクセスメモリＥＤＲＡＭ（ＥｎｈａｎｃｅｄＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、高帯域メモリＨＢＭ（Ｈｉｇｈ－ＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ）、ハイブリッドメモリキューブＨＭＣ（ＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ）などである。

前記一体化されたユニット／モジュールは、ソフトウェアプログラムモジュールの形態で実装され、独立した製品として販売または使用される場合、コンピュータ可読メモリに記憶されてもよい。このような理解に基づいて、本開示の技術の解決手段は、本質的に、または、従来技術に寄与する部分またはこの技術の解決手段の全てまたは一部は、ソフトウェア製品の形態で具現化されてよく、このコンピュータソフトウェア製品は、メモリに記憶されており、コンピュータ機器（パーソナルコンピュータ、サーバ、またはネットワーク機器などであってよい）に本開示の各実施例に記載の方法の全部または一部のステップを実行させるためのいくつかの命令を含む。前述したメモリは、ＵＳＢディスク、読み取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディスク、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能な様々な媒体を含む。

一つの可能な実施形態では、上記のデータ量子化処理装置を含む人工知能チップがさらに開示される。

一つの可能な実施形態では、記憶デバイス、インターフェース装置、制御デバイス、および上記の人工知能チップを備えるＰＣＢボードがさらに開示される。ここでは、人工知能チップは、記憶デバイス、制御デバイス、およびインターフェース装置にそれぞれ接続され、記憶デバイスは、データを記憶するためのものであり、インターフェース装置は、人工知能チップと外部機器との間のデータ伝送を実現するためのものであり、制御デバイスは、人工知能チップの状態を監視するためのものである。

図６は、本開示の実施例によるＰＣＢボードの構成を示すブロック図である。図６に示すように、ＰＣＢボードは、上記のチップ３８９に加えて、他の構成部品を含んでもよいが、この構成部品は、記憶デバイス３９０、インターフェース装置３９１と制御デバイス３９２を含むがこれらに限定されない、
前記記憶デバイス３９０は、バスを介して前記人工知能チップに接続され、データの記憶に利用される。前記記憶デバイスは、複数組の記憶ユニット３９３を含んでもよい。各組の前記記憶ユニットは、バスを介して前記人工知能チップに接続される。なお、各組の前記メモリユニットは、ＤＤＲＳＤＲＡＭ（英語、ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ、ダブルデータレート同期ダイナミックランダムアクセスメモリ）であってもよいことが理解されるであろう。

ＤＤＲは、クロック周波数を上げることなくＳＤＲＡＭの速度を倍に上げることができる。ＤＤＲは、クロックパルスの立ち上がりエッジおよび立ち下がりエッジでデータを読み出すことを可能にする。ＤＤＲのスピードは、標準ＳＤＲＡＭの２倍である。一実施例において、前記記憶デバイスは、４組の前記記憶ユニットを含むことができる。前記メモリユニットの各組は複数のＤＤＲ４粒子（チップ）を含むことができる。一実施例において、前記人工知能チップは、内部に４つの７２ビットＤＤＲ４コントローラを含むことができ、前記７２ビットＤＤＲ４コントローラのうち６４ビットはデータを伝送するために用いられ、８ビットはＥＣＣチェックに用いられる。各組の前記メモリユニットにＤＤＲ４－３２００が使用される場合、データ伝送の理論帯域幅は２５６００ＭＢ／ｓに達することが理解されるであろう。

一実施例において、前記メモリユニットの各組は、並列に設置された複数のダブルデータレート同期ダイナミックランダムアクセスメモリを含む。ＤＤＲは、１クロックサイクル内で２回データを送信することができる。前記チップにはＤＤＲを制御するコントローラが設けられ、前記メモリユニット毎のデータ伝送とデータ記憶の制御に用いられる。

前記インターフェース装置は、前記人工知能チップに電気的に接続される。前記インターフェース装置は、前記人工知能チップと外部装置（例えば、サーバまたはコンピュータ）との間のデータ伝送を実現するためのものである。例えば、一実施例において、前記インターフェース装置は、標準ＰＣＩＥインターフェースであってもよい。例えば、処理すべきデータは、標準ＰＣＩＥインターフェースを介してサーバによって前記チップに伝送され、データ転送を可能にする。好ましくは、理論帯域幅は、ＰＣＩＥ３．０Ｘ１６インターフェースによる伝送の場合、１６０００ＭＢ／ｓに達することができる。別の実施例において、前記インターフェース装置は、他のインターフェースであってもよく、本開示は、上記の他のインターフェースの具体的な表現形態を限定するものではなく、前記インターフェースユニットは、中継機能を実現することができればよい。さらに、前記人工知能チップの計算結果は、依然として前記インターフェース装置によって外部機器（例えば、サーバ）に伝送される。

前記制御デバイスは、前記人工知能チップに電気的に接続される。前記制御デバイスは、前記人工知能チップの状態を監視するためのものである。具体的には、前記人工知能チップおよび前記制御デバイスは、ＳＰＩインターフェースを介して電気的に接続することができる。前記制御デバイスは、マイクロコントローラ（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）を含むことができる。例えば、前記人工知能チップは、複数の処理チップ、複数の処理コア、または複数の処理回路を含むことができ、複数の負荷を駆動することができる。したがって、前記人工知能チップは、多負荷および軽負荷などの異なる動作状態にあってもよい。前記制御デバイスによって前記人工知能チップにおける複数の処理チップ、複数の処理コアまたは複数の処理回路の動作状態の調節を実現することができる。

１つの可能な実施形態では、上記の人工知能チップを含む電子機器が開示される。電子機器は、データ処理装置、ロボット、コンピュータ、プリンタ、スキャナ、タブレットコンピュータ、スマート端末、携帯電話、ドライブレコーダ、ナビゲータ、センサ、カメラランズ、サーバ、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、ヘッドホン、モバイル記憶装置、ウェアラブルデバイス、乗り物、家電機器、および／または医療機器を含む。前記乗り物は、飛行機、船および／または車両を含み、前記家電製品は、テレビ、エアコン、電子レンジ、冷蔵庫、炊飯器、加湿器、洗濯機、電灯、ガスレンジ、レンジフードを含み、前記医療機器は、核磁気共鳴装置、Ｂモード超音波機器および／または心電計を含む。

本開示の実施例は、プロセッサによって実行されると上記の方法を実現するコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。

本開示の実施例は、プロセッサと、プロセッサの実行可能な命令を記憶するために用いられるメモリとを含む電子機器をさらに提供し、プロセッサは、上記の方法を実行するように、前記メモリに記憶された命令を呼び出すように構成される。

電子機器は、端末、サーバまたは他の形態の機器として提供することができる。

上記実施例では、各実施例については、それぞれ偏りがあって説明したが、ある実施例では詳述されない部分は、他の実施例の関連説明を参照することができる。上記実施例における技術的特徴は任意に組み合わせることができ、説明の簡潔さのため、上記実施例における各技術的特徴のすべての可能な組み合わせを説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、いずれも本明細書に記載された範囲に属すると考えられるべきである。

以下の項目によって前記内容をよりよく理解することができる。

項目Ａ１では、データ量子化処理方法であって、
深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定することと、
各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定することと、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することと、
各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得ることと、を含み、
ここで、前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じである。

項目Ａ２では、項目Ａ１に記載の方法において、前記量子化パラメータは点位置パラメータを含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果と該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応する点位置パラメータを確定することを含む。

項目Ａ３では、Ａ２に記載の方法において、前記量子化パラメータはスケジューリング係数をさらに含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果、該チャンネルに対応する点位置パラメータ、および該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応するスケジューリング係数を確定することを含む。

項目Ａ４では、項目Ａ１に記載の方法において、前記量子化パラメータはオフセット量を含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応するオフセット量を確定することを含む。

項目Ａ５では、項目Ａ１～Ａ４に記載の方法において、各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することと、
該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を該チャンネルに対応する量子化すべきデータの統計結果として確定することとを含む。

項目Ａ６では、項目Ａ５に記載の方法において、いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値を確定することと、
該チャンネルに対応する量子化すべきデータの最大値と最小値に基づいて、該チャンネルに対応する量子化すべきデータの絶対値の最大値を確定することとを含む。

項目Ａ７では、項目Ａ２またはＡ３に記載の方法において、いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅は予め設定された値である。

項目Ａ８では、項目Ａ２またはＡ３に記載の方法において、前記方法は、
いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整し、調整後のデータビット幅を使用して、該チャンネルに対応する量子化パラメータを確定することをさらに含み、ここでは、前記量子化誤差は、該チャンネルに対応する量子化後のデータと該チャンネルに対応する量子化すべきデータに基づいて確定されるものである。

項目Ａ９では、項目Ａ８に記載の方法において、該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整することは、
前記量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することを含む。

項目Ａ１０では、項目Ａ９に記載の方法において、前記閾値は第１の閾値と第２の閾値を含み、
前記量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することは、
前記量子化誤差が前記第１の閾値以上である場合、該チャンネルに対応するデータビット幅を増加することと、
前記量子化誤差が前記第２の閾値以下である場合、該チャンネルに対応するデータビット幅を減少することと、
前記量子化誤差が前記第１の閾値と前記第２の閾値との間にある場合、該チャンネルに対応するデータビット幅は不変に保つこととを含む。

項目Ａ１１では、データ量子化処理装置であって、
深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定するための第１の確定モジュールと、
各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定するための第２の確定モジュールと、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定するための第３の確定モジュールと、
各チャンネルに対応する量子化パラメータを利用して、それぞれ各チャンネルに対応する量子化すべきデータを量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得るための量子化モジュールと、を含み、
ここで、前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じである。

項目Ａ１２では、人工知能チップであって、項目Ａ１１に記載のデータ量子化処理装置を含む。

項目Ａ１３では、電子機器であって、項目Ａ１２に記載の人工知能チップを含む、ことを特徴とする。

項目Ａ１４では、電子機器であって、
プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリとを含み、
ここでは、前記プロセッサは、項目Ａ１～Ａ１０のいずれか一項に記載の方法を実行するように、前記メモリに記憶された命令を呼び出すように構成される。

項目Ａ１５では、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、項目Ａ１～Ａ１０のいずれか一項に記載の方法を実現することを特徴とする。

以上、本開示の実施例を詳細に説明しており、本明細書において、具体的な例を利用して本開示の原理および実施形態について説明したが、以上の実施例の説明は、本開示の方法およびその肝心な思想を理解するためのものに過ぎない。また、当業者が本開示の思想に基づき、本開示の具体的な実施形態および適用範囲に基づいてなされた変更や変形は、いずれも本開示の保護範囲に属するものである。以上に述べたように、本明細書の内容は、本開示に対する制限として理解すべきではない。

Claims

データ量子化処理方法であって、
深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定することと、
各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定することと、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することと、
各チャンネルに対応する量子化パラメータを利用して、各チャンネルに対応する量子化すべきデータをそれぞれ量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得ることと、を含み、
前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じであることを特徴とするデータ量子化処理方法。
前記量子化パラメータは点位置パラメータを含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果と該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応する点位置パラメータを確定することを含むことを特徴とする請求項１に記載の方法。
前記量子化パラメータはスケジューリング係数をさらに含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果、該チャンネルに対応する点位置パラメータ、および該チャンネルに対応するデータビット幅に基づいて、該チャンネルに対応するスケジューリング係数を確定することを含むことを特徴とする請求項２に記載の方法。
前記量子化パラメータはオフセット量を含み、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応するオフセット量を確定することを含むことを特徴とする請求項１に記載の方法。
各チャンネルに対応する量子化すべきデータに基づいて、それぞれ各チャンネルに対応する量子化すべきデータの統計結果を確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することと、
該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を該チャンネルに対応する量子化すべきデータの統計結果として確定することとを含むことを特徴とする請求項１～４に記載の方法。
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータにおける絶対値の最大値を確定することは、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの最大値と最小値を確定することと、
該チャンネルに対応する量子化すべきデータの最大値と最小値に基づいて、該チャンネルに対応する量子化すべきデータの絶対値の最大値を確定することとを含むことを特徴とする請求項５に記載の方法。
いずれか一つのチャンネルに対して、該チャンネルに対応するデータビット幅は予め設定された値であることを特徴とする請求項２または３に記載の方法。
いずれか一つのチャンネルに対して、
該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整して、調整後のデータビット幅を利用して、該チャンネルに対応する量子化パラメータを確定することをさらに含み、
前記量子化誤差は、該チャンネルに対応する量子化後のデータと該チャンネルに対応する量子化すべきデータに基づいて確定されることを特徴とする請求項２または３に記載の方法。
該チャンネルに対応するデータビット幅の量子化誤差に基づいて、該チャンネルに対応するデータビット幅を調整することは、
前記量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することを含むことを特徴とする請求項８に記載の方法。
前記閾値は第１の閾値と第２の閾値を含み、
前記量子化誤差と閾値を比較し、比較結果に基づいて、該チャンネルに対応するデータビット幅を調整することは、
前記量子化誤差が前記第１の閾値以上である場合、該チャンネルに対応するデータビット幅を増加することと、
前記量子化誤差が前記第２の閾値以下である場合、該チャンネルに対応するデータビット幅を減少することと、
前記量子化誤差が前記第１の閾値と前記第２の閾値との間にある場合、該チャンネルに対応するデータビット幅は不変に保つこととを含むことを特徴とする請求項９に記載の方法。
データ量子化処理装置であって、
深層畳み込み層における入力画像のチャンネル数に基づいて、前記入力画像の各チャンネルに対応する量子化すべきデータを確定するための第１の確定モジュールと、
各チャンネルに対応する量子化すべきデータに基づいて、各チャンネルに対応する量子化すべきデータの統計結果をそれぞれ確定するための第２の確定モジュールと、
いずれか一つのチャンネルに対して、該チャンネルに対応する量子化すべきデータの統計結果に基づいて、該チャンネルに対応する量子化パラメータを確定するための第３の確定モジュールと、
各チャンネルに対応する量子化パラメータを利用して、各チャンネルに対応する量子化すべきデータをそれぞれ量子化し、前記入力画像の各チャンネルに対応する量子化後のデータを得るための量子化モジュールと、を含み、
前記深層畳み込み層における前記入力画像のチャンネル数と出力画像のチャンネル数が同じであることを特徴とするデータ量子化処理方法。
人工知能チップであって、請求項１１に記載のデータ量子化処理装置を含むことを特徴とする人工知能チップ。
電子機器であって、請求項１２に記載の人工知能チップを含むことを特徴とする電子機器。
電子機器であって、
プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、請求項１～１０のいずれか一項に記載の方法を実行するように、前記メモリに記憶された命令を呼び出すように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項１～１０のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。