JP6466590B2

JP6466590B2 - Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法

Info

Publication number: JP6466590B2
Application number: JP2017548139A
Authority: JP
Inventors: シェン，イチャン; ワン，チンリン; デン，ハオチアン; ユー，ジアリー
Original assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Priority date: 2015-03-13
Filing date: 2015-03-31
Publication date: 2019-02-06
Anticipated expiration: 2035-03-31
Also published as: JP2018511871A; WO2016145676A1; EP3282401A4; EP3282401A1; CN106033555A; US20180068216A1; US11048998B2

Description

本発明は、人工知能及びビッグデータの分野に関し、特に、Ｋ次数制約を満たす深層学習モデルに基づくビッグデータの処理方法に関する。

ネットワーク技術の急速な発展に伴って、データの容量と多様性が迅速に増加しているが、データ処理用のアルゴリズムの複雑さを改善することは困難であり、ビッグデータを如何に効率良く処理するかが差し迫った課題となっている。個人の経験と手動による操作によってデータ記述、データ注記、特徴選択、特徴抽出、データ処理を行う従来の方法では、ビッグデータの急速に増加するニーズを満たすことが困難である。人工知能技術の急速な発展、特に、深層学習アルゴリズムの画期的な研究は、ビッグデータの処理についての問題を解決するのに価値のある検証の方向性を指し示している。

ヒントン（Hinton）らは、２００６年に深層信念ネットワーク用の層ごとの初期化訓練方法を提案した。これは深層学習方法の研究の起点であり、当該方法は数十年にわたって深層ニューラルネットワークの訓練が困難且つ非効率的である状況を打破した。それ以来、深層学習アルゴリズムは従来のアルゴリズムに代わって、画像認識、音声認識、自然言語理解等の分野に幅広く用いられている。深層学習は、人間の脳の階層抽象化をシミュレートし、最下層データを層ごとにマッピングしてより抽象的な特徴を取得することができる。深層学習は、ビッグデータから特徴を自動的に抽出でき、大量のサンプル訓練によって良好な処理効果を図ることができるので、幅広く注目されている。実際、ビッグデータの急速な成長と深層学習の画期的な研究とは互いに補完し合い、一方ではビッグデータの急速な成長のため、大量のデータを効率的に処理する方法が必要となり、他方では深層学習モデルの訓練には大量のサンプルデータが必要となる。要するに、ビッグデータによって深層学習の性能を極限まで高めることができる。

しかしながら、従来の深層学習モデルは、例えば、モデルを拡張させることが困難であること、パラメータの最適化が困難であること、訓練時間が長く且つ推理効率が低いことなど、多くの深刻な問題を抱えている。２０１３年にベンジオ（Bengio）が発表した概説論文では、従来の深層学習が直面する挑戦や課題がまとめられ、そこには、従来の深層学習モデルの規模を如何に拡張して深層学習モデルを如何により大規模なデータセットに適用するか、パラメータ最適化の困難さを如何に低減させるか、高コストの推理やサンプリングを如何に回避するか、変化要素を如何に解くかなどが含まれている。

本発明は、ビッグデータの適用における従来のニューラルネットワーク深層学習モデルの上記課題を解決すると共に、Ｋ次数スパース制約を満たす深層学習モデルを提案することを目的とする。当該モデルは、各層のニューロンノードの順方向の出次数を制約することで、モデルの構造を簡素化し、モデルの訓練速度と汎化能力を向上させ、モデルのパラメータの最適化が困難であるという問題を改善し、当該モデルをビッグデータの処理に適用することで、ビッグデータを処理する困難さを低減させ、ビッグデータの処理速度を向上させることができる。

上記目的を実現するために、本発明は、Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法であって、
グラデーション枝刈り法によって、ラベルなし訓練サンプルを用いてＫ次数スパース制約を満たす深層学習モデルを構築するステップ１）であって、前記Ｋ次数スパース制約はノードＫ次数スパース制約及び階層Ｋ次数スパース制約を含み、前記ノードＫ次数スパース制約は、モデル中のすべてのノードの順方向の出次数がＫ以下であり、前記Ｋの値の範囲が（１，Ｎ／Ｈ］であることを意味し、ここで、Ｎは前記深層学習モデル中のすべてのノードの数であり、Ｈはモデルの隠れ層の層数であり、前記階層Ｋ次数スパース制約は、第ｈ層のすべてのノードの順方向の出次数の和が第ｈ−１層のすべてのノードの順方向の出次数の和未満であることを意味する、前記ステップ１）と、
前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、モデルの各層の重みパラメータを最適化してＫ次数スパース制約を満たす最適化した深層学習モデルを取得するステップ２）と、
前記Ｋ次数スパース制約を満たす最適化した深層学習モデルに処理対象のビッグデータを入力して処理し、最終的に処理結果を出力するステップ３）と、
を含む、Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法を提案する。

上記技術的解決手段において、前記Ｋの値は、

であり、ここで、ｄ_inは前記モデルの入力の次元であり、ｄ_outはモデルの出力の次元であり、Ｈはモデルの隠れ層の層数であり、［］は丸め記号である。

上記技術的解決手段において、前記方法のステップ１）は、
入力層から出力層への順に深層学習モデルの各層に番号付けするステップ１０１）であって、ｈ＝−１に設定され、深層学習モデルが入力層、Ｈ個の隠れ層及び出力層を含み、入力層から出力層までに合計Ｈ＋２層が含まれるように設定されると共に、入力層の番号が０に設定され、１番目の隠れ層の番号が１に設定され、類推によって、出力層の番号がＨ＋１に設定される、前記ステップ１０１）と、
ｈ＝ｈ＋１に設定すると共に、第ｈ層と第ｈ＋１層のパラメータを初期化するステップ１０２）と、
ラベルなし訓練サンプルセットＹ＝{ｘ_i ^t}を第ｈ層に入力すると共に、第ｈ層と第ｈ＋１層のコスト関数を最小化する過程において第ｈ層と第ｈ＋１層との間の結合荷重及び第ｈ＋１層ノードのバイアス重みを調整するステップ１０３）と、
第１閾値未満の結合荷重がある場合に、再構築誤差変化の確率関数によって当該結合を削除するか否かを判定するステップ１０４）であって、重みが第１閾値未満に減衰する結合がある場合に、現在において結合があること及び現在において連結がないことの２種の状況に応じてサンプルを再構築し、再構築誤差変化ΔＥ_rを取得し、当該誤差変化の確率関数ｍｉｎ［１，ｅｘｐ（−ΔＥ_r／Ｅ_r）］によって現在における結合を削除するか否かを決定する、ステップ１０４）と、
第ｈ層のすべてのノードの順方向の出次数がＫ未満であるか否かを判定し、ＹＥＳの場合にステップ１０６）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０５）と、
ｈ＞０の場合に第ｈ層のすべてのノードの順方向の出次数の和が第ｈ−１層のすべてのノードの順方向の出次数の和未満であるか否かを判定し、ＹＥＳの場合にステップ１０７）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０６）と、
コスト関数の変化が第２閾値未満であるか否かを判定し、ＹＥＳの場合にステップ１０８）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０７）と、
ｈ＞Ｈが成立するか否かを判定し、ＹＥＳの場合に前記ステップ１）の処理を終了させ、ＮＯの場合に前記ステップ１０２）に進むステップ１０８）と、をさらに含む。

上記技術的解決手段において、前記方法のステップ２）における具体的なプロセスは、
前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、入力した訓練サンプルがラベルなしサンプルセットＹ＝{ｘ_i ^t}である場合には、サンプルを入力して出力を取得した後、入力に戻し、Ｋ次数制約で出力層から入力層への逆再構築を行い、再構築誤差Ｅ_rを計算し、誤差が閾値未満になるまで勾配降下又は共役勾配降下の方式で各層の重みを調整し、入力した訓練サンプルがラベルありサンプルセットＸ＝{ｘ_i ^t，ｙ_i ^t}である場合には、出力とｙ_i ^tとを比較し、訓練誤差Ｅ_tを計算し、誤差が閾値未満になるまで、勾配降下又は共役勾配降下の方式で順方向の重みを調整する。

本発明の方法によれば、従来のニューラルネットワークモデルの訓練速度が遅く、パラメータ最適化が困難であるなどの欠点を克服し、深層フィードフォワードニューラルネットワーク、深層信念ネットワークなどの従来のニューラルネットワークモデルの拡張能力、汎化能力及び実行速度を向上させ、教師なし学習の困難さとパラメータ最適化の困難さを低減させ、それにより深層学習アルゴリズムによるビッグデータの処理の困難さを低減させることができる。

階層なしＫ次数スパースネットワーク及びそのノード次数スパース制約の模式図である。階層ありＫ次数スパースネットワーク及びその階層次数スパース制約の模式図である。本発明に係る次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法のフローチャートである。

まず、本発明に関する概念を説明する。
図１に示すように、階層なしＫ次数スパースネットワークとは、すべてのノードがノードＫ次数スパース制約を満たしていることを意味する。ノードＫ次数スパース制約とは、すべてのノードの順方向の出次数Ｋ_iがＫ以下になるまで、ノード間の不要な結合を削除することを意味する。ここで、Ｋは、設定されたパラメータであり、順方向とは、入力から出力に向かう方向を意味し、隠れ層がある場合には、入力から隠れ層を通過して出力に向かう方向を意味する。

図２に示すように、訓練後の階層ありＫ次数スパースネットワークとは、すべての層が階層Ｋ次数スパース制約を満たしていることを意味する。階層Ｋ次数スパース制約とは、隠れ層の階層順方向の出次数、すなわち、単一隠れ層ノードの順方向の出次数の和が入力から出力に向かって単調に減少することを意味する。階層Ｋ次数スパース制約の特殊な場合としては、各層中のノードの順方向の出次数が同じである場合に、各層中のノード数と順方向の出次数の積が入力から出力に向かって単調に減少することが挙げられる。

また、上記Ｋ次数スパースネットワークの簡単な変形として、ノードＫ次数スパースネットワークは、

を満たすニューラルネットワークモデルを意味し、階層Ｋ次数スパースネットワークは、

を満たすニューラルネットワークモデルを意味し、ノード上限Ｋ次数スパースネットワークは、Ｋ_i＝Ｋを満たすニューラルネットワークモデルを意味し、階層上限Ｋ次数スパースネットワークは、

を満たすニューラルネットワークモデルを意味し、理想的な上限Ｋ次数スパースネットワークは、Ｋ_i＝Ｋと

とを同時に満たすニューラルネットワークモデルを意味する。これらはいずれも本発明に係る方法に直接適用できる。

以下、数学言語でＫ次数スパース制約を満たすニューラルネットワークモデルを説明する。
ニューラルネットワークモデルが合計Ｎ個のノードを有し、まず全結合の方式でネットワークを形成し、結合していない重みの値をゼロとすると、図１に示すように、任意のノードの出力ｘ_jと当該ノードの入力セットＸ＝｛ｘ_i，ｉ＝１…Ｎ｝とが以下の演算規則を満たしている。

ここで、ｘ_jは、任意のノードの出力であり、ｆは、当該ノードの活性化関数であり、ｂ_jは、当該ノードのバイアス重みであり、ｗ_ijは、当該ノードに結合される入力重みであり、値がゼロの重みの存在を許容する。

ニューラルネットワークモデル全体の順方向は、外部入力から出力に向かう方向として定義され、図１に示すように、Ｋ次数スパースネットワークにおいて、いずれかのノードの出力がＫ_i（ここで、

である）個のノードに順方向に入力される。

ここで、Ｋは、ハイパーパラメータであり、通常、全結合時のＮよりわずかに小さく又は遥かに小さく、それによりスパース効果を図る。Ｋの値の範囲は、（１，Ｎ／Ｈ］であり、Ｎは、深層学習モデル中のすべてのノードの数であり、Ｈは、モデル隠れ層の層数であり、好適には、Ｋの値は、

である。

ここで、ｄ_inは、モデルの入力の次元であり、ｄ_outは、モデルの出力の次元であり、Ｈは、モデルの隠れ層の層数であり、［］は丸め記号である。

Ｋ_iはｉ番目のノードの順方向の出次数で、ｉ＝１…Ｎである。階層ありＫ次数スパースネットワークである場合、図２に示すように、前記階層Ｋ次数スパース制約

を満たす必要がある。

ここで、Ｋ_i ^(j)は、ｊ番目の隠れ層中の任意のノードの順方向の出次数であり、Ｋ_i ^(j+1)は、ｊ＋１番目の隠れ層中の任意のノードの順方向の出次数である。

ｈ番目の隠れ層は、任意のノードの出力がＫ_i ^(h)個のノードに順方向入力され、ここで、

である。

ここで、Ｋ^（h）はｈ番目の隠れ層の各ノードの順方向の出次数の最大値であり、Ｋ^（h）は隠れ層に応じて異なってもよいが、Ｋの値は一定である。

図３に示すように、本発明は、Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法を提供するものであって、この方法は以下のステップを含む。
ステップ１）グラデーション枝刈り法によって、ラベルなし訓練サンプルを用いてＫ次数スパース制約を満たす深層学習モデルを構築する。

前記ステップ１）は、
１０１）入力層から出力層への順に深層学習モデルの各層を番号付けするステップ１０１）であって、ｈ＝−１に設定され、深層学習モデルが入力層、Ｈ個の隠れ層及び出力層を含み、入力層から出力層までに合計Ｈ＋２個の層が含まれるように設定されると共に、入力層の番号が０に設定され、１番目の隠れ層の番号が１に設定され、類推によって、出力層の番号がＨ＋１に設定される、前記ステップ１０１）と、
１０２）ｈ＝ｈ＋１に設定すると共に、第ｈ層と第ｈ＋１層のパラメータを初期化するステップ１０２）と、
１０３）ラベルなし訓練サンプルセットＹ＝｛ｘ_i ^t｝を第ｈ層に入力すると共に、第ｈ層と第ｈ＋１層のコスト関数を最小化する過程において第ｈ層と第ｈ＋１層間の結合荷重及び第ｈ＋１層ノードのバイアス重みを調整するステップ１０３）と、
１０４）第１閾値未満の結合荷重がある場合に、再構築誤差変化の確率関数によって当該結合を削除するか否かを判定するステップ１０４）であって、重みが第１閾値未満に減衰する結合がある場合に、現在において結合があることと現在において連結がないことの２種の状況に応じてサンプルを再構築し、再構築誤差変化ΔＥ_rを取得し、当該誤差変化の確率関数ｍｉｎ［１，ｅｘｐ（−ΔＥ_r／Ｅ_r）］によって現在における結合を削除するか否かを決定する、前記ステップ１０４）と、
１０５）第ｈ層のすべてのノードの順方向の出次数がＫ未満であるか否かを判定し、ＹＥＳの場合にステップ１０６）に進み、ＮＯの場合にステップ１０３）に進むステップ１０５）と、
１０６）ｈ＞０の場合に第ｈ層のすべてのノードの順方向の出次数の和が第ｈ−１層のすべてのノードの順方向の出次数の和未満であるか否かを判定し、ＹＥＳの場合にステップ１０７）に進み、ＮＯの場合にステップ１０３）に進むステップ１０６）と、
１０７）コスト関数の変化が第２閾値未満であるか否かを判定し、ＹＥＳの場合にステップ１０８）に進み、ＮＯの場合にステップ１０３）に進むステップ１０７）と、
１０８）ｈ＞Ｈが成立するか否かを判定し、ＹＥＳの場合にステップ１）の処理を終了させ、ＮＯの場合にステップ１０２）に進むステップ１０８）と、を更に含む。

ステップ２）前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、モデルの各層の重みパラメータを最適化してＫ次数スパース制約を満たす最適化した深層学習モデルを取得する。

前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、入力した訓練サンプルがラベルなしサンプルセットＹ＝｛ｘ_i ^t｝である場合には、サンプルを入力して出力を取得した後、入力に戻し、Ｋ次数制約で出力層から入力層への逆再構築を行い、再構築誤差Ｅｒを計算し、誤差が閾値未満になるまで勾配降下又は共役勾配降下の方式で各層の重みを調整し、入力した訓練サンプルがラベルありサンプルセットＸ＝｛ｘ_i ^t，ｙ_i ^t｝である場合には、出力とｙ_i ^tとを比較し、訓練誤差Ｅ_tを計算し、誤差が閾値未満になるまで勾配降下又は共役勾配降下の方式で順方向の重みを調整する。

ステップ３）前記Ｋ次数スパース制約を満たす最適化した深層学習モデルに処理対象のビッグデータを入力して処理し、最終的に処理結果を出力する。

なお、上記実施例は本発明の技術的解決手段を説明するためのものであって、限定するものではない。実施例を参照して本発明を詳細に説明したが、当業者は、本発明の技術的解決手段の精神と範囲を逸脱せずに本発明の技術的解決手段を変更したり同等置換したりすることができ、それらの変更や置換は本発明の特許請求の範囲に属すると理解できる。

Claims

Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法であって、
グラデーション枝刈り法によって、ラベルなし訓練サンプルを用いてＫ次数スパース制約を満たす深層学習モデルを構築するステップ１）であって、前記Ｋ次数スパース制約はノードＫ次数スパース制約及び階層Ｋ次数スパース制約を含み、前記ノードＫ次数スパース制約は、モデル中のすべてのノードの順方向の出次数がＫ以下であり、前記Ｋの値の範囲が（１，Ｎ／Ｈ］であることを意味し、ここで、Ｎは前記深層学習モデル中のすべてのノードの数であり、Ｈはモデルの隠れ層の層数であり、前記階層Ｋ次数スパース制約は、第ｈ層のすべてのノードの順方向の出次数の和が第ｈ−１層のすべてのノードの順方向の出次数の和未満であることを意味する、前記ステップ１）と、
前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、モデルの各層の重みパラメータを最適化してＫ次数スパース制約を満たす最適化した深層学習モデルを取得するステップ２）と、
前記Ｋ次数スパース制約を満たす最適化した深層学習モデルに処理対象のビッグデータを入力して処理し、最終的に処理結果を出力するステップ３）と、
を含む、Ｋ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法。
前記Ｋの値は、

であり、ここで、ｄ_inはモデルの入力の次元であり、ｄ_outはモデルの出力の次元であり、Ｈはモデルの隠れ層の層数であり、［］は丸め記号である、請求項１に記載のＫ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法。
前記処理方法のステップ１）は、
入力層から出力層への順に深層学習モデルの各層に番号付けするステップ１０１）であって、ｈ＝−１に設定され、深層学習モデルが入力層、Ｈ個の隠れ層及び出力層を含み、入力層から出力層までに合計Ｈ＋２層が含まれるように設定されると共に、入力層の番号が０に設定され、１番目の隠れ層の番号が１に設定され、類推によって、出力層の番号がＨ＋１に設定される、前記ステップ１０１）と、
ｈ＝ｈ＋１に設定すると共に、第ｈ層と第ｈ＋１層のパラメータを初期化するステップ１０２）と、
ラベルなし訓練サンプルセットＹ＝{ｘ_i ^t}を第ｈ層に入力すると共に、第ｈ層と第ｈ＋１層のコスト関数を最小化する過程において第ｈ層と第ｈ＋１層との間の結合荷重及び第ｈ＋１層ノードのバイアス重みを調整するステップ１０３）と、
第１閾値未満の結合荷重がある場合に、再構築誤差変化の確率関数によって当該結合を削除するか否かを判定するステップ１０４）であって、第１閾値未満に減衰する結合荷重がある場合に、現在において結合があること及び現在において結合がないことの２種の状況に応じてサンプルを再構築し、再構築誤差変化ΔＥ_rを取得し、当該誤差変化の確率関数ｍｉｎ［１，ｅｘｐ（−ΔＥ_r／Ｅ_r）］によって現在における結合を削除するか否かを決定する、前記ステップ１０４）と、
第ｈ層のすべてのノードの順方向の出次数がＫ未満であるか否かを判定し、ＹＥＳの場合にステップ１０６）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０５）と、
ｈ＞０の場合に第ｈ層のすべてのノードの順方向の出次数の和が第ｈ−１層のすべてのノードの順方向の出次数の和未満であるか否かを判定し、ＹＥＳの場合にステップ１０７）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０６）と、
コスト関数の変化が第２閾値未満であるか否かを判定し、ＹＥＳの場合にステップ１０８）に進み、ＮＯの場合に前記ステップ１０３）に進むステップ１０７）と、
ｈ＞Ｈが成立するか否かを判定し、ＹＥＳの場合に前記ステップ１）の処理を終了させ、ＮＯの場合に前記ステップ１０２）に進むステップ１０８）と、
をさらに含む、請求項１に記載のＫ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法。
前記処理方法のステップ２）における具体的なプロセスは、
前記Ｋ次数スパース制約を満たす深層学習モデルに更新後の訓練サンプルを入力し、入力した訓練サンプルがラベルなしサンプルセットＹ＝{ｘ_i ^t}である場合には、サンプルを入力して出力を取得した後、入力に戻し、Ｋ次数制約で出力層から入力層への逆再構築を行い、再構築誤差Ｅ_rを計算し、誤差が閾値未満になるまで勾配降下又は共役勾配降下の方式で各層の重みを調整し、入力した訓練サンプルがラベルありサンプルセットＸ＝{ｘ_i ^t，ｙ_i ^t}である場合には、出力とｙ_i ^tとを比較し、訓練誤差Ｅ_tを計算し、誤差が閾値未満になるまで勾配降下又は共役勾配降下の方式で順方向重みを調整する、請求項３に記載のＫ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法。
前記Ｋ次数スパース制約を満たす深層学習モデルは、ノード上限Ｋ次数スパースネットワーク、階層上限Ｋ次数スパースネットワーク、及び、理想的な上限Ｋ次数スパースネットワークをさらに含み、
前記ノード上限Ｋ次数スパースネットワークは、すべてのノードの順方向の出次数がＫとなること、即ち、Ｋ _ｉ＝Ｋを満たすニューラルネットワークモデルであり、
前記階層上限Ｋ次数スパースネットワークは、すべての階層において第ｊ階層のすべてのノードの順方向の出次数の和と第ｊ＋１階層のすべてのノードの順方向の出次数の和と等しいこと、即ち、

を満たすニューラルネットワークモデルであり、
前記理想的な上限Ｋ次数スパースネットワークは、すべてのノードの順方向の出次数がＫとなること、及び、すべての階層において第ｊ階層のすべてのノードの順方向の出次数の和と第ｊ＋１階層のすべてのノードの順方向の出次数の和と等しいこと、即ち、Ｋ _ｉ＝Ｋと

とを同時に満たすニューラルネットワークモデルであり、ここで、前記ｊは階層モデルの層数である、請求項１〜請求項４のいずれか１つに記載のＫ次数スパース制約を満たす深層学習モデルに基づくビッグデータの処理方法。