JP2022178980A

JP2022178980A - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: JP2022178980A
Application number: JP2021086149A
Authority: JP
Inventors: 虹高; Kou Kou; 靖文坂井; Yasubumi Sakai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-12-02
Also published as: EP4092579A1; US20220374716A1; CN115374900A

Abstract

【課題】推論の精度の低下を抑制し処理を高速化すること。【解決手段】機械学習プログラムは、ニューラルネットワークを分割し、分割された各部分ネットワークの計算量を算出し、前記各部分ネットワークの計算量と前記各部分ネットワークに含まれるバッチノーマライゼーション層における各チャネルのスケーリング係数とに基づいて、プルーニングを行う対象のチャネルを決定し、前記対象のチャネルに基づくプルーニングを実行する。【選択図】図６

Description

本発明は、情報処理装置等に関する。

ニューラルネットワークを用いた情報処理装置の処理を高速化させる技術としてプルーニング技術が知られている。プルーニング技術では、ニューラルネットワークを用いた推論の精度に与える影響が小さいノード、チャネル、レイヤ等を削除することにより、推論の精度を維持しつつ、推論時の計算量を減らし、処理を高速化することができる。

国際公開第２０２０／１４９１７８号特表２０１９－５２２８５０号公報米国特許出願公開第２０１９／０３４０４９３号明細書

しかしながら、上述した技術では、ニューラルネットワークの構成等によっては、プルーニングの効果も十分に得られない場合もある。例えば、複数のコンポーネントを持つ複雑なニューラルネットワークに適用する場合、プルーニングにより、精度が大幅に低下し、高速化の効果も小さい。

１つの側面では、推論の精度の低下を抑制し処理を高速化することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

第１の案では、機械学習プログラムは、ニューラルネットワークを分割し、分割された各部分ネットワークの計算量を算出し、前記各部分ネットワークの計算量と前記各部分ネットワークに含まれるバッチノーマライゼーション層における各チャネルのスケーリング係数とに基づいて、プルーニングを行う対象のチャネルを決定し、前記対象のチャネルに基づくプルーニングを実行する、処理をコンピュータに実行させる。

一実施形態によれば、推論の精度の低下を抑制し処理を高速化することができることができる。

図１は、実施例に係る情報処理装置における処理を説明する図である。図２は、ＢＮ層の機能を説明する図である。図３は、Ｌ１正則化学習を説明する図である。図４は、参考技術においてプルーニング率を増大させた場合のロスの増加率を示す図である。図５は、参考技術においてプルーニング率を増大させた場合のロスの増加率を示す図である。図６は、実施例に係る情報処理装置の機能構成を示す機能ブロック図である。図７は、実施例に係る情報処理装置の処理手順を示すフローチャートである。図８は、各機能の計算割合を示す図である。図９は、実施例に係る情報処理装置においてプルーニング率を増大させた場合のロスの増加率を示す図である。図１０は、従来技術と実施例との比較結果を示す図である。図１１は、ハードウェア構成例を説明する図である。

以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、実施例に係る情報処理装置における処理を説明する図である。図１に示す処理は、情報処理装置において実行されるニューラルネットワークを用いた処理であり、例えばＪｅｔｓｏｎｎａｎｏ等の低コストの情報処理装置によるｔｒｔ－ｐｏｓｅ（人の関節を認識するネットワーク）に適用することができる。情報処理装置は、入力データ（ｉｎｐｕｔ）Ｉに対して、コンポーネントＣ１～Ｃ９に示す各種処理を実行し、出力データ（ｃｍａｐ，ｐａｆ）Ｏ１，Ｏ２を出力する。

ここで、上記ニューラルネットワークに対するプルーニングに関する参考技術を説明する。参考技術では、コンポーネントのバッチノーマライゼーション（ＢＮ：ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）層の出力にかけるスケーリング係数γを用いてプルーニングするチャネルを決定する。なお、コンポーネントがＢＮ層を有しない場合、コンポーネントにＢＮ層を挿入してプルーニングを実行し、ＢＮ層が出力する値は参考値として削除すればよい。

図２は、ＢＮ層の機能を説明する図である。図２に示すように、チャネル１～ｎがある場合、以下の式（１）を用いて、各チャネルの入力ｚ_ｉｎを平均０、分散１の分布に正規化した出力ｚ’とするための平均値μ_Ｂと分散σ^２ _Ｂとを計算するノーマライゼーション処理を実行する。なお、下付き文字のＢは、現在計算対象としているチャネルに対応する。

さらに、以下の式（２）を用いて、正規化された分布である出力ｚ’に、スケーリング係数γをかけてスケーリングを行い、バイアスβを加えてシフトすることにより各チャネルの出力ｚ_ｏｕｔを算出するスケーリング処理を実行する。

ここで、Ｌ１正則化による訓練（Ｌａｓｓｏ回帰）をスケーリング係数γに適用し、繰り返し訓練を実行する。Ｌ１正則化において、損失関数Ｌは、以下の式（３）により算出される。式（３）において、第１項は元の損失関数、第２項はＬ１正則化項である。Ｌ１正則化では、ｇ（ｒ）＝｜γ｜を使用する。

図３は、Ｌ１正則化学習を説明する図である。Ｌ１正則化による訓練を繰り返し実行すると、図３の左側に数値で示すように、各チャネルのスケーリング関数γが訓練ごとに算出される。そして、ニューラルネットワーク全体のプルーニング率を設定し、プルーニングするチャネル数が定まると、スケーリング関数γの絶対値が小さいほうから設定に応じた数だけチャネルが削除される。図３では、｜γ｜が小さいほうから８つのチャネルがプルーニングにより削除（値がゼロ）され、それ以外のチャネルがｎｏｎｚｅｒｏとして残される。

図４、図５は、参考技術においてプルーニング率を増大させた場合のロスの増加率を示す図である。図４において、線Ｌ１～Ｌ４は、それぞれプルーニング率を０、１０、２０、３０％としたときのエポック数とロスとの関係を表している。図５には、プルーニング率と、ロスの増加率、フレームレート、高速化の割合を図示した。なお、図４、図５は、ｊｅｔｓｏｎｎａｎｏによるｔｒｔ－ｐｏｓｅの推論部分にプルーニングした機械学習モデルを適用した例である。図５に示すように、参考技術では、プルーニング率を１０％に設定すると、４％処理が高速化するものの、ロスが３％増加する。なお、フレームレートは、１秒間に処理可能な画像の枚数を示し、高速化の割合は、プルーニング率０％のフレームレートに対するフレームレートの増加率である。プルーニング率をさらに増大させると、さらなる高速化が見込めるものの、ロスも増大する。このように、参考技術では、プルーニングによりロスが増大し、かつ処理を高速化する効果も小さかった。

そこで、本実施例では、ニューラルネットワークのプルーニングにおいて、ニューラルネットワークを機能の違いによりコンポーネントに分割し、スケーリング係数の値と各コンポーネントの計算量に基づき削減チャネルを決定することで、精度を犠牲にすることなく計算速度を向上させることができる情報処理装置について説明する。

図６は、実施例に係る情報処理装置の機能構成を示す機能ブロック図である。図６に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。なお、情報処理装置１０は、図示したものに限らず、表示部などを有していてもよい。

通信部１１は、他の装置との間の通信を実行する。例えば、通信部１１は、入力データＩを受信する。また、通信部１１は、インターネット回線を経由して入力データＩを受信してもよい。通信部１１は、入力データＩを訓練データＤＢ１３として記憶部１２に記憶させてもよい。

記憶部１２は、各種データや制御部２０が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやハードディスクなどにより実現される。例えば、記憶部１２は、訓練データＤＢ１３、機械学習モデル１４などを記憶する。

訓練データＤＢ１３は、機械学習モデルの訓練に利用される複数の訓練データを記憶するデータベースである。例えば、訓練データＤＢ１３は、人の動きを撮像した動画であり、情報処理装置１０により動画に映る人の関節の動きを認識し、様々な用途に利用するために用いられる。

機械学習モデル１４は、訓練により生成されるモデルである。例えば、機械学習モデル１４は、また、機械学習モデル１４は、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）やＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）などのモデルを採用することができる。

制御部２０は、情報処理装置１０全体を司る処理部であり、プロセッサなどにより実現される。例えば、制御部２０は、分割部２１、計算量算出部２２、割合算出部２３、決定部２４、実行２５を有する。

分割部２１は、ニューラルネットワークを部分ネットワークに分割する。ニューラルネットワークは、例えば図１に図示する複数のコンポーネントＣ１～Ｃ９により構成されている。そして、分割部２１は、例えばニューラルネットワークを構成する部分ネットワークであるコンポーネントＣ１～Ｃ９を機能ごとに分類する。ただし、分割部２１は、例えばニューラルネットワークを構成する部分ネットワークとして、層等の特定の処理の単位ごとに機能を分割してもよく、分割部２１が機能ごとに分類する部分ネットワークは特に限定されない。分割部２１は、画像の特徴を抽出する機能を有するコンポーネントＣ１を機能Ａに分類し、関節点らしさを表すＨｅａｔｍａｐ（ｃｍａｐ：ｃｏｌｏｒｍａｐ）と関節点の接続関係を表すｐａｆ（ｐａｒｔａｓｓｏｃｉａｔｉｏｎｆｉｅｌｄ）との特徴の分離及び精度の向上の機能を有するコンポーネントＣ２～Ｃ９を機能Ｂに分類する。

計算量算出部２２は、分割部２１が分割した各コンポーネントの計算量を算出する。具体的には、計算量算出部２２は、機能に応じて定まるコンポーネントの計算量を機能ごとに算出する。計算量算出部２２は、機能Ａの計算量Ｃ_Ａを以下の式（４）により算出し、機能Ｂの計算量Ｃ_Ｂを以下の式（５）により算出する。

式（４）、（５）のＣ_{ｃｏｎｖ＿ｉ}は、畳み込み層の計算量を表し、以下の式（６）により算出することができる。なお、ｋ１は機能Ａの中の畳込み層の数、ｋ２は機能Ｂの中の畳込み層の数である。

割合算出部２３は、算出した機能ごとの計算量を、機能ごとに算出した計算量の和によって除算した計算量の割合を算出する。割合算出部２３は、機能Ａの計算量の割合Ｃ_Ａ／Ｃ_{ｔｏｔａｌ}及び機能Ｂの計算量の割合Ｃ_Ｂ／Ｃ_{ｔｏｔａｌ}を算出する。なお、Ｃ_{ｔｏｔａｌ}は、以下の式（７）である。

実行部２４は、算出した機能ごとの計算量とコンポーネントに含まれるＢＮ層における各チャネルのスケーリング係数とに基づいて、削除する対象のチャネルを決定する。具体的には、実行部２４は、計算量の割合とコンポーネントに含まれるＢＮ層における各チャネルのスケーリング係数との和が小さいチャネルを削除する対象のチャネルに決定する。実行部２４は、機能Ａの中のチャネルｍのスケーリング係数γ_ｍを用いて、式（８）により指標γ’_ｍを算出し、機能Ｂの中のチャネルｎのスケーリング係数γ_ｎを用いて、式（９）により指標γ’_ｎを算出する。

さらに、実行部２４は、プルーニング率に応じて削除するチャネルの数を決定する。なお、コンポーネントがＢＮ層を有しない場合、該コンポーネントにＢＮ層を挿入すればよい。

実行部２５は、対象のチャネルに基づくプルーニングを実行する。プルーニングは、対象のチャネルを削除する処理であってもよいが、対象のチャネルの重みを小さく設定する、又はゼロにする処理であってもよい。また、実行部２５は、Ｌ１正則化による訓練をスケーリング係数に適用する。その結果、図３に示すようなプルーニングを実行し、推論の精度を維持しつつ、処理を高速化することができる。また、実行部２５は、プルーニングを実行したニューラルネットワークを用いて訓練を実行し、機械学習モデル１４を生成する。

図７は、実施例に係る情報処理装置の処理手順を示すフローチャートである。図７に示すように、処理が開始されると、はじめに、情報処理装置１０は、スケーリング係数γ（γ_ｍ，γ_ｎ）付きの訓練を繰り返し実行する（ステップＳ１）。そして、情報処理装置１０の記憶部１２には、訓練を繰り返し実行するごとにスケーリング係数γ_ｍ，γ_ｎが記憶される。

続いて、分割部２１は、コンポーネントを機能ごとに分類する（ステップＳ２）。分割部２１は、画像の特徴を抽出する機能を有するコンポーネントＣ１を機能Ａに分類し、関節点らしさを表すＨｅａｔｍａｐ（ｃｍａｐ）と関節点の接続関係を表すｐａｆとの特徴の分離及び精度の向上の機能を有するコンポーネントＣ２～Ｃ９を機能Ｂに分類する。

その後、計算量算出部２２は、コンポーネントの計算量を機能ごとに算出し、割合算出部２３は、機能ごとの計算量の割合を算出する（ステップＳ３）。図８は、各機能の計算割合を示す図である。図８に示すように、一例として、機能Ａの計算量Ｃ_Ａの割合が全体の１６％、機能Ｂの計算量Ｃ_Ｂの割合が全体の８４％と算出することができる。

さらに、決定部２４は、各チャネルの指標γ’（γ’_ｍ，γ’_ｎ）を計算する（ステップＳ４）。なお、ここでは、α＝０．１２としたが、αの値は特に限定されない。

続いて、決定部２４は、プルーニング率を設定する（ステップＳ５）。例えば、決定部２４は、プルーニング率を予め定めた値（０％，１０％，２０％，３０％）にそれぞれ設定する。

さらに、決定部２４は、各チャネルの指標γ’（γ’_ｍ，γ’_ｎ）をソート（絶対値が大きいほうから順に並べる）するとともに、プルーニング率に応じて削除する対象ｊのチャネル数を決定する（ステップＳ６）。例えば、チャネルの数がＮであり、プルーニング率が１０％である場合、決定部２４は、Ｎ×１０／１００個のチャネルを削除する対象のチャネルに決定する。

そして、実行部２５は、ソートした各チャネルの指標γ’（γ’_ｍ，γ’_ｎ）のうち、絶対値が小さいほうから決定した数の対象のチャネルを削除するプルーニングを実行する（ステップＳ７）。

その後、実行部２５は、精度（ロス）と速度（高速化の割合）とを評価する（ステップＳ８）。図９は、実施例に係る情報処理装置においてプルーニング率を増大させた場合のロスの増加率を示す図である。図９において、線Ｌ１１～Ｌ１４は、それぞれプルーニング率を０、１０、２０、３０％としたときのエポック数とロスとの関係を表している。

図１０は、従来技術と実施例との比較結果を示す図である。図９、図１０は、図４、図５と同様に、ｊｅｔｓｏｎｎａｎｏによるｔｒｔ－ｐｏｓｅの推論部分にプルーニングした機械学習モデルを適用した例である。図１０に示すように、プルーニング率が１０％の場合、参考技術ではロスが３％増加するのに対し、実施例によればロスが増加しない（０％）ため、３％の改善がみられた。さらに、プルーニング率が１０％の場合、参考技術では１．０４倍処理が高速化するのに対し、実施例によれば１．３６倍処理が高速化するため、０．３２倍の改善がみられた。同様に、プルーニング率を３０％の場合、ロスが５％改善し、処理が０．８７倍高速化する。

そして、実行部２５は、精度（ロス）と速度（高速化の割合）とを評価し、適切なプルーニング率を選択してプルーニングしたニューラルネットワークを用いて訓練を実行することにより、精度が高く処理速度が速い機械学習モデル１４を生成する（ステップＳ９）。具体的には、実行部２５は、適切なプルーニング率を選択してチャネルを削除し、チャネルが削除された状態で訓練を実行して機械学習モデル１４を生成することにより、生成された機械学習モデル１４による推論の精度の低下を抑制し処理を高速化することができる。例えば、Ｊｅｔｓｏｎｎａｎｏを用いたｔｒｔ－ｐｏｓｅにこの機械学習モデル１４を適用することにより、人の関節の動きを精度よく高速に認識することができる。

以上説明したように、実施例によれば、スケーリング係数γに計算量に関する値を加算した指標γ’を用いてプルーニングするチャネルを決定することにより、参考技術よりもロスを低減するとともに処理を高速化することができた。

上記実施例で用いたデータ例、数値例、コンポーネントの種類及び数、機能の種類及び数、具体例等は、あくまで一例であり、任意に変更することができる。例えば、分割部２１は、コンポーネントを２つ以上の機能に分類してもよい。

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図１１は、ハードウェア構成例を説明する図である。図１１に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１１に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図６に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図６に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図６等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、分割部２１、計算量算出部２２、割合算出部２３、決定部２４、実行部２５等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、分割部２１、計算量算出部２２、割合算出部２３、決定部２４、実行部２５等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで機械学習方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１０ａ通信装置
１０ｂＨＤＤ
１０ｃメモリ
１０ｄプロセッサ
１１通信部
１２記憶部
１３訓練データＤＢ
１４機械学習モデル
２０制御部
２１分割部
２２計算量算出部
２３割合算出部
２４決定部
２５実行部

Claims

ニューラルネットワークを分割し、
分割された各部分ネットワークの計算量を算出し、
前記各部分ネットワークの計算量と前記各部分ネットワークに含まれるバッチノーマライゼーション層における各チャネルのスケーリング係数とに基づいて、プルーニングを行う対象のチャネルを決定し、
前記対象のチャネルに基づくプルーニングを実行する、
処理をコンピュータに実行させる機械学習プログラム。
前記分割する処理は、
前記部分ネットワークであるコンポーネントを機能ごとに分類する、
処理を含む請求項１に記載の機械学習プログラム。
プルーニングを実行したニューラルネットワークを用いて訓練を実行する、
処理を前記コンピュータに実行させる請求項１または２に記載の機械学習プログラム。
前記算出する処理は、
前記各部分ネットワークの計算量を、前記各部分ネットワークの計算量の和によって除算した前記計算量の割合を算出し、
前記決定する処理は、
前記計算量の割合と前記スケーリング係数との和が小さいチャネルを前記対象のチャネルに決定する、
処理を含む請求項１～３のいずれか１つに記載の機械学習プログラム。
前記各部分ネットワークが前記バッチノーマライゼーション層を有しない場合、該各部分ネットワークに前記バッチノーマライゼーション層を挿入する、
処理を前記コンピュータに実行させる請求項１～４のいずれか１つに記載の機械学習プログラム。
前記決定する処理は、
Ｌ１正則化による訓練を前記スケーリング係数に適用する、
処理を含む請求項１～５のいずれか１つに記載の機械学習プログラム。
前記決定する処理は、
プルーニング率に応じて前記対象のチャネルの数を決定する、
処理を含む請求項１～６のいずれか１つに記載の機械学習プログラム。
ニューラルネットワークを分割し、
分割された各部分ネットワークの計算量を算出し、
前記各部分ネットワークの計算量と前記各部分ネットワークに含まれるバッチノーマライゼーション層における各チャネルのスケーリング係数とに基づいて、プルーニングを行う対象のチャネルを決定し、
前記対象のチャネルに基づくプルーニングを実行する、
処理をコンピュータが実行する機械学習方法。
ニューラルネットワークを分割する分割部と、
分割された各部分ネットワークの計算量を算出する計算量算出部と、
前記各部分ネットワークの計算量と前記各部分ネットワークに含まれるバッチノーマライゼーション層における各チャネルのスケーリング係数とに基づいて、プルーニングを行う対象のチャネルを決定する決定部と、
前記対象のチャネルに基づくプルーニングを実行する実行部と、
を有する制御部を備える情報処理装置。