JP6574503B2

JP6574503B2 - 機械学習方法および装置

Info

Publication number: JP6574503B2
Application number: JP2018041353A
Authority: JP
Inventors: サンギュシム; ソクウリ; スンヨンパク; ドクスキム
Original assignee: ペンタ・セキュリティ・システムズ・インコーポレーテッド
Priority date: 2017-08-09
Filing date: 2018-03-07
Publication date: 2019-09-11
Anticipated expiration: 2038-03-07
Also published as: US20190050728A1; KR101880901B1; US10970631B2; JP2019032808A

Description

本発明は機械学習方法および装置に関するもので、さらに詳細には、コンボリューショナルニューラルネットワークを改善するための機械学習方法および装置に関するものである。

マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；機械学習）とは、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩ）の一種であって、データを基盤としてコンピュータが自ら学習した内容に基づいて回帰、分類、群集化などの予測作業を行うことをいう。

ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）は、人の考え方をコンピュータに教える機械学習の一分野であり、多様な非線形変換技法の組み合わせを通じて高い水準の抽象化（ａｂｓｔｒａｃｔｉｏｎｓ、多量のデータや複雑な資料の中から核心的な内容または機能を要約する作業）を試みる機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）アルゴリズムの集合と定義することができる。

ディープラーニング構造は、人工ニューラルネットワーク（ＡＮＮ、ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ）に基づいて設計された概念である。人工ニューラルネットワークは、仮想のニューロンを数学的にモデリングした後にシミュレーションして、人間の脳のような学習能力を持たせようとするアルゴリズムであって、主にパターン認識に多く用いられる。ディープラーニングで利用する人工ニューラルネットワークモデルは、線形フィッテイング（ｌｉｎｅａｒｆｉｔｔｉｎｇ）と非線形変換（ｎｏｎｌｉｎｅａｒｔｒａｎｓｆｏｒｍａｔｉｏｎｏｒａｃｔｉｖａｔｉｏｎ）を繰り返して積み上げた構造を有する。ディープラーニングで用いるニューラルネットワークモデルは、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）、コンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、制限ボルツマンマシン（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ、ＲＢＭ）、ディープ信頼ニューラルネットワーク（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ、ＤＢＮ）、ディープＱ−ネットワーク（ＤｅｅｐＱ−Ｎｅｔｗｏｒｋｓ）等が挙げられる。

ディープラーニングの訓練過程においては、学習データをもって人工ニューラルネットワークモデルのパラメーターを最適化させることができる。ところが、学習データの量を無限に増やすことはできない。したがって、訓練に利用した学習データと統計的特性が異なるデータに対する予測作業を行う場合、人工ニューラルネットワークの性能が制限され得る。

前述した問題点を解決するために、学習データと統計的特性が異なるデータがある場合、これに対する予測性能が改善できる人工ニューラルネットワークの漸進的学習方法が要求されている。

前記のような問題点を解決するための本発明の目的は、訓練データとは統計的特性が異なる対象データに対する予測性能を改善するために更新しなければならない人工ニューラルネットワークの一部のノードを識別する方法および装置を提供することである。

一側面において、対象データの入力を受ける段階；前記コンボリューショナルニューラルネットワークに対する前記対象データの統計的特性と前記コンボリューショナルニューラルネットワークに対するあらかじめ使用された訓練データの統計的特性との差に基づいて、漸進的学習開始の可否を判断する段階；前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれのコンボリューションレイヤーで相互間の類似度が高いカーネルの集合を決定する段階；前記相互間の類似度が高いカーネルの集合に含まれたカーネルが適用されるノード間の加重値を更新する段階；を含む機械学習方法が開示される。

前記漸進的学習開始の可否を判断する段階は、前記対象データに対する前記コンボリューショナルニューラルネットワークの出力値のうち最大値をあらかじめ選定した基準値と比較し、前記コンボリューショナルニューラルネットワークの出力値のうち最大値が前記基準値よりも小さい場合、前記漸進的学習を開始すると判断することができる。

前記対象データが、複数個のデータからなるデータパッチである場合、前記データパッチに含まれたデータのうち、前記コンボリューショナルニューラルネットワークの出力値のうち最大値があらかじめ選定した基準値よりも小さい条件を満足するデータの個数が基準個数以上の場合、前記漸進的学習を開始すると判断することができる。

前記相互間の類似度が高いカーネルの集合を決定する段階は、カーネル間の距離または類似度を測定することによって、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定することができる。

前記相互間の類似度が高いカーネルの集合を決定する段階は、カーネル間の差の絶対値、コーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定することができる。

前記相互間の類似度が高いカーネルの集合を決定する段階は、同じノードのコンボリューション演算に利用されるカーネルからカーネル連結行列（Ｃｏｎｃａｔｅｎａｔｅｄｋｅｒｎｅｌｍａｔｒｉｘ）を構成し、前記カーネル連結行列間の距離または類似度を測定することによって、前記相互間の類似度が高いカーネル連結行列ペアを少なくとも一つ以上決定することができる。

前記相互間の類似度が高いカーネルの集合を決定する段階は、前記カーネル連結行列間の差の絶対値、二乗差、ｐ−ノルム（ｐ−ｎｏｒｍ）、プロベニウス−ノルム（Ｆｒｏｂｅｎｉｕｓ−ｎｏｒｍ）、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルの集合を決定することができる。

前記機械学習方法は、前記相互間の類似度が高いカーネルの集合に含まれたカーネルのそれぞれをランダム行列を利用して更新する段階；をさらに含むことができる。

前記機械学習方法は、前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれの完全連結レイヤー（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で相互間の類似度が高いウェイトベクトル（Ｗｅｉｇｈｔｖｅｃｔｏｒ）の集合を決定する段階；および前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルが適用されるノード間の加重値を更新する段階；をさらに含むことができる。

前記相互間の類似度が高いウェイトベクトルの集合を決定する段階は、ウェイトベクトル間の差の距離または類似度を測定することによって、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定することができる。

前記相互間の類似度が高いウェイトベクトルの集合を決定する段階は、ウェイトベクトル間の差の絶対値、二乗差、ｐ−ノルム（ｐ−ｎｏｒｍ）、ユークリッド−ノルム（Ｅｕｃｌｉｄｅａｎ−ｎｏｒｍ）、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）、マハラノビス距離（Ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ）、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、およびカイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定することができる。

前記機械学習方法は、前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルのそれぞれを、ランダムベクトルを利用して更新する段階；をさらに含むことができる。

前記ノード間の加重値を更新する段階は、教師あり学習方式および教師なし学習方式のうち少なくとも一つを利用して前記ノード間の加重値を更新することができる。

前記教師なし学習方式によって前記ノード間の加重値を更新する場合、前記コンボリューショナルニューラルネットワークの出力を、前記コンボリューショナルニューラルネットワークに対称的な構造を有する対称ニューラルネットワークに入力させ、前記対称ニューラルネットワークの出力と、前記コンボリューショナルニューラルネットワークに対する入力との間の差に基づいて、前記ノード間の加重値を更新することができる。

前記対称ニューラルネットワークは、前記コンボリューショナルニューラルネットワークの全体連結レイヤーに対応する逆方向全体連結レイヤー（ｂａｃｋｗａｒｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、前記コンボリューショナルニューラルネットワークのコンボリューションレイヤーおよびプーリングレイヤーに対応するデコンボリューションレイヤーおよびアンプーリングレイヤーを含むことができる。

他の側面において、プロセッサ（ｐｒｏｃｅｓｓｏｒ）；および前記プロセッサを介して実行される少なくとも一つの命令が保存されたメモリ（ｍｅｍｏｒｙ）を含み、前記少なくとも一つの命令は、対象データの入力を受けて；前記コンボリューショナルニューラルネットワークに対する前記対象データの統計的特性と前記コンボリューショナルニューラルネットワークに対するあらかじめ使用された訓練データの統計的特性との差に基づいて、漸進的学習開始の可否を判断し；前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれのコンボリューションレイヤーで相互間の類似度が高いカーネルの集合を決定し；前記相互間の類似度が高いカーネルの集合に含まれたカーネルが適用されるノード間の加重値を更新するように遂行される機械学習装置が提供される。

前記少なくとも一つの命令は、カーネル間の差の絶対値、コーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定するように遂行され得る。

前記少なくとも一つの命令は、同じノードのコンボリューション演算に利用されるカーネルからカーネル連結行列（Ｃｏｎｃａｔｅｎａｔｅｄｋｅｒｎｅｌｍａｔｒｉｘ）を構成し、前記カーネル連結行列間の差の絶対値、二乗差、ｐ−ノルム（ｐ−ｎｏｒｍ）、プロベニウス−ノルム（Ｆｒｏｂｅｎｉｕｓ−ｎｏｒｍ）、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅ
ｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルの集合を決定するように遂行され得る。

前記少なくとも一つの命令は、前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれの完全連結レイヤー（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で相互間の類似度が高いウェイトベクトル（Ｗｅｉｇｈｔｖｅｃｔｏｒ）の集合を決定し、前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルが適用されるノード間の加重値を更新するように遂行され得る。

前記少なくとも一つの命令は、ウェイトベクトル間の差の絶対値に基づいて、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定するように遂行され得る。

開示された実施例によると、コンボリューショナルニューラルネットワークの学習に利用された訓練データと統計的特性が異なる対象データを発見することができる。そして、統計的特性が異なる対象データが発見された場合、コンボリューショナルニューラルネットワークに対して漸進的学習を開始することによって、コンボリューショナルニューラルネットワークの性能が向上され得る。また、相互間の類似度が高いカーネルまたはウェイトベクトルが適用されるノード間の加重値を選択的に更新する過程を経ることによって、機械学習の訓練効率が向上され得る。

例示的な実施例に係る機械学習装置を示したブロック図。本発明の第１実施例に係るコンボリューショナルニューラルネットワークを示した概念図。文字列から生成された点字のイメージを示した概念図。コンボリューション演算を例示的に示した概念図。プロセッサが図４に示したイメージからコンボリューションイメージを抽出したことを示した概念図。図２に示したコンボリューションおよびプーリングレイヤーの動作を示した概念図。本発明の第２実施例に係る機械学習方法を示したフローチャート。相互間の類似度が高いカーネルの集合を決定する方式の第１実施例を示した概念図。相互間の類似度が高いカーネルの集合を決定する方式の第２実施例を示した概念図。本発明の第３実施例に係る機械学習方法を示した概念図。本発明の第４実施例に係るニューラルネットワークを示した概念図。

本発明は多様な変更を加えることができ、多様な実施例を有することができるところ、特定の実施例を図面に例示し、詳細な説明に詳細に説明する。しかし、これは本発明を特定の実施形態に限定するためのものではなく、本発明の思想および技術範囲に含まれるすべての変更、均等物ないし代替物を含むものと理解されるべきである。各図面の説明において、類似の参照符号は類似の構成要素に付与した。

第１、第２、Ａ、Ｂなどの用語は多様な構成要素の説明に使われ得るが、前記構成要素は前記用語によって限定されてはならない。前記用語は一つの構成要素を別の構成要素から区別する目的でのみ使われる。例えば、本発明の権利範囲を逸脱することなく、かつ第１構成要素は第２構成要素と命名され得、同様に第２構成要素も第１構成要素と命名され得る。「および／または」という用語は、複数の関連して記載された項目の組み合わせまたは複数の関連して記載された項目中のいずれかの項目を含む。

ある構成要素が別の構成要素に「連結されて」いるとか「接続されて」いると言及された時には、その他の構成要素に直接的に連結されているかまたは接続されていることもあり得るが、中間に他の構成要素が存在することもあり得ると理解されるべきである。反面、ある構成要素が他の構成要素に「直接連結されて」いるとか「直接接続されて」いると言及された時には、中間に他の構成要素が存在しないものと理解されるべきである。

本出願で使った用語は単に特定の実施例を説明するために使われたものであって、本発明を限定しようとする意図ではない。単数の表現は文脈上明白に異なることを意味しない限り、複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するためのものであり、一つまたはそれ以上の別の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加の可能性をあらかじめ排除しないものと理解されるべきである。

別途に定義されない限り、技術的又は科学的な用語を含んでここで使われるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般に理解されることと同じ意味を有している。一般に使われる辞書に定義されているような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されるべきであり、本出願で明白に定義しない限り、理想的又は過度に形式的な意味に解釈されない。

以下、本発明に係る好ましい実施例を添付図面を参照して詳細に説明する。

本明細書において学習データは、人工ニューラルネットワークを学習させるのにあらかじめ使用されたデータを意味する。対象データは人工ニューラルネットワークに入力される新しいデータであって、あらかじめ使用された学習データと異なるデータであり得る。対象データは、あらかじめ使用された学習データと異なる新しい学習データであり得る。他の例として、対象データは人工ニューラルネットワークの分析対象となるデータであってもよい。

図１は、例示的な実施例に係る機械学習装置１００を示したブロック図である。

図１を参照すると、例示的な実施例に係る機械学習装置１００は、少なくとも一つのプロセッサ１１０、メモリ１２０および保存装置１２５等を含むことができる。

プロセッサ１１０はメモリ１２０および／または保存装置１２５に保存されたプログラム命令（ｐｒｏｇｒａｍｃｏｍｍａｎｄ）を実行することができる。プロセッサ１１０は、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＣＰＵ）、グラフィック処理装置（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＧＰＵ）または本発明に係る方法が遂行される専用のプロセッサを意味し得る。メモリ１２０と保存装置１６０は、揮発性保存媒体および／または不揮発性保存媒体で構成され得る。例えば、メモリ１２０は読み取り専用メモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ；ＲＯＭ）および／またはランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ；ＲＡＭ）で構成され得る。

メモリ１２０はプロセッサ１１０を介して実行される少なくとも一つの命令を保存していてもよい。

メモリ１２０に保存された命令は、プロセッサ１１０の機械学習によってアップデートされ得る。プロセッサ１１０は機械学習によってメモリに保存された命令を変更することができる。プロセッサ１１０が遂行する機械学習は、教師あり学習方式または教師なし学習方式によって行われ得る。しかし、実施例はこれに制限されるものではない。例えば、機械学習は強化学習などの他の方式によって行われてもよい。

図２は、本発明の第１実施例に係るコンボリューショナルニューラルネットワークを示した概念図である。

図２を参照すると、コンボリューショナルニューラルネットワークは、少なくとも一つのコンボリューションおよびプーリングレイヤー（ｃｏｎｖｏｌｕｔｉｏｎ＆ｐｏｏｌｉｎｇｌａｙｅｒ）と、少なくとも一つの全体連結レイヤー（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を含むことができる。図２では、一つのレイヤーでコンボリューション動作およびプーリング動作が行われる例を示したが、実施例はこれに制限されるものではない。例えば、コンボリューション動作が遂行されるレイヤーとプーリング動作が遂行されるレイヤーが互いに分離されていてもよい。また、コンボリューショナルニューラルネットワークはプーリング動作を遂行しなくてもよい。

コンボリューショナルニューラルネットワークは入力を受けたデータの特徴を抽出し、入力を受けたデータよりもスケールが小さい出力データを生成して出力することができる。コンボリューショナルニューラルネットワークは、イメージまたはそれに対応する行列の入力を受けることができる。コンボリューショナルニューラルネットワークが入力を受けることができるデータは、一般的なイメージに限定されないこともある。例えば、コンボリューショナルニューラルネットワークは文字列から生成された点字のイメージの入力を受けることもできる。

図３は文字列から生成された点字のイメージを示した概念図である。

図３を参照すると、文字列の最後の文字から逆順でｏｎｅ−ｈｏｔｖｅｃｔｏｒに変換して行列の形態に変換する方法を利用して、点字のイメージを生成することができる。ｏｎｅ−ｈｏｔｖｅｃｔｏｒは、一つの成分のみが１であり、残りの成分は０であるかすべての成分が０であり得る。ｏｎｅ−ｈｏｔｖｅｃｔｏｒにおいて、「１」値を有する成分の位置は、ｏｎｅ−ｈｏｔｖｅｃｔｏｒが示す文字の種類によって変わり得る。例えば、図３に示した通り、アルファベットのＣ、Ｆ、Ｂ、Ｄのそれぞれに対応するｏｎｅ−ｈｏｔｖｅｃｔｏｒは互いに異なる位置の成分が「１」値を有し得る。図３に示した点字のイメージは例示的なものに過ぎず、実施例はこれに制限されるものではない。例えば、ｏｎｅ−ｈｏｔｖｅｃｔｏｒの大きさは、図３に示したものよりも大きくてもよい。ｏｎｅ−ｈｏｔｖｅｃｔｏｒは、テキスト集合テキスト合計「ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ０１２３４５６７８９−、；．！？：“ウォン”／ウォンウォン｜＿＠＃＄％＾＆＊〜′＋−＝＜＞（）［］｛｝」を表現することができる。ｏｎｅ−ｈｏｔｖｅｃｔｏｒにおいて、「１」成分の位置はｏｎｅ−ｈｏｔｖｅｃｔｏｒが示す文字の順序により変わり得る。

コンボリューションおよびプーリングレイヤーはイメージまたは行列の入力を受け、入力を受けたイメージまたは行列に対してコンボリューション演算を遂行することができる。

図４は、コンボリューション演算を例示的に示した概念図である。

図４を参照すると、プロセッサ１１０は、カーネルＦＩを利用して入力イメージＯＩに対するコンボリューション演算を遂行することができる。カーネルＦＩはイメージＯＩのピクセルの個数よりも小さい大きさの行列であり得る。例示的に、フィルタカーネルＦＩの（１、１）成分は０であり得る。したがって、コンボリューションを計算する時、カーネルＦＩの（１、１）成分に対応するイメージＯＩのピクセルに対して０を乗算してもよい。他の例として、カーネルＦＩの（２、１）成分は１である。したがって、コンボリューションを計算する時、カーネルＦＩの（２、１）成分に対応するイメージＯＩのピクセルに対して１を乗算してもよい。

プロセッサ１１０はイメージＯＩ上でカーネルＦＩの位置を変更しながら、イメージＯＩに対するコンボリューション演算を遂行することができる。そして、プロセッサ１１０は計算されたコンボリューション値からコンボリューションイメージを出力することができる。

図５は、プロセッサ１１０が図４に示したイメージＯＩからコンボリューションイメージを抽出したことを示した概念図である。

図４に示したフィルタカーネルＦＩが、イメージＯＩ上で動くことができる場合の数が（１０−３＋１）×（１０−３＋１）＝８×８個であるため、プロセッサ１１０は８×８個のコンボリューション値を計算することができる。そして、８×８個のコンボリューション値から図６に示したような８×８ピクセルの大きさのコンボリューションイメージを抽出することができる。コンボリューションイメージＣＩのピクセルの個数は、原本イメージＯＩよりも小さくなるようになる。プロセッサ１１０は、カーネルＦＩを利用することによって、原本イメージの特性が反映されたコンボリューションイメージを抽出することができる。プロセッサ１１０は、カーネルＦＩを利用して入力されたイメージＯＩよりも大きさが小さく、入力されたイメージＯＩの特性を反映するコンボリューションイメージＣＩを出力することができる。コンボリューション演算はコンボリューションレイヤーまたはコンボリューションおよびプーリングレイヤーで遂行され得る。

図６は、図２に示したコンボリューションおよびプーリングレイヤーの動作を示した概念図である。

図６では便宜上、コンボリューショナルニューラルネットワークの入力レイヤー（Ｉｎｐｕｔｌａｙｅｒ０）と、第１コンボリューションおよびプーリングレイヤー（Ｃｏｎｖｏｌｕｔｉｏｎ＆ｐｏｏｌｉｎｇｌａｙｅｒ１）のみを示した。図６を参照すると、入力レイヤーは複数個のイメージの入力を受けることができる。入力レイヤーは複数個の行列の入力を受けることもできる。入力イメージは、コンボリューションおよびプーリングレイヤーでコンボリューション演算を遂行するノードに伝達され得る。Ｆ^（０）個の入力イメージはＭ^（０）×Ｌ^（０）の大きさを有することができる。例えば、１２８ｘ１２８のＲＧＢイメージの場合、Ｆ^（０）＝３、Ｍ^（０）＝Ｌ^（０）＝１２８のイメージで見ることができ、６８種類の文字１０００個で構成された文字列の場合、図３に例示された過程を経て、Ｆ^（０）＝６８、Ｍ^（０）＝１、Ｌ^（０）＝１０００のイメージに変換される。

入力イメージは、最初のコンボリューションおよびプーリングレイヤーのコンボリューション演算を遂行するノードのそれぞれに入力され得る。コンボリューション演算を遂行するノードは、図４および図５を参照して説明したのと同じように、入力イメージに対してコンボリューション演算を遂行することができる。例示的に、最初のコンボリューションおよびプーリングレイヤーで遂行されるコンボリューション演算を数学式１で表すことができる。

数学式１において、φ^(l)（・）は活性化関数を意味する。活性化関数は、シグモイド（ｓｉｇｍｏｉｄ）関数、ハイパータンジェント（ｈｙｐｅｒｔａｎｇｅｎｔ）関数、整流線形ユニット（ｒｅｃｔｉｆｉｅｒｌｉｎｅａｒｕｎｉｔ）等を含むことができる。

数学式１を参照すると、最初のコンボリューションおよびプーリングレイヤーは、Ｆ^（０）個の入力イメージ（または行列）の入力を受けて、Ｆ^（１）個の出力イメージ（または行列）を生成することができる。コンボリューション演算によって出力されるイメージ（または行列）の大きさは入力イメージ（または行列）の大きさよりも小さくてもよい。出力イメージ（または行列）はコンボリューション演算に利用されるカーネルにより変わり得る。

他の例として、プーリング演算は数学式３で示すこともできる。

数学式３を参照すると、最初のコンボリューションおよびプーリングレイヤーはＰ^（１）×Ｑ^（１）個のピクセルまたは行列成分の平均値を代表値として選択することができる。この場合、プーリング演算は隣接したピクセルまたは成分の平均値を計算する方式で行われ得る。

再び図３を参照すると、コンボリューショナルニューラルネットワークは、Ｎ_Ｃ個のコンボリューションおよびプーリングレイヤーを含むことができる。数学式１を一般化して、ｌ番目のコンボリューションおよびプーリングレイヤーで遂行されるコンボリューション演算を数学式４のように示すことができる。

数学式２を一般化して、ｌ番目のコンボリューションおよびプーリングレイヤーで遂行されるプーリング演算は数学式５のように示すことができる。

プーリング演算の他の例として、数学式３を一般化して、ｌ番目のコンボリューションおよびプーリングレイヤーで遂行されるプーリング演算は数学式６のように示すことができる。

最後のコンボリューションおよびプーリングレイヤー（ＬａｙｅｒＮ_Ｃ）で出力されるＦ^（Ｎｃ）個のＭ^（Ｎｃ）×Ｌ^（Ｎｃ）大きさを有する出力イメージまたは出力行列は次のように表現され得る。

最後のコンボリューションおよびプーリングレイヤー（ＬａｙｅｒＮ_Ｃ）で出力されるイメージまたは行列は最初の全体連結レイヤー（ＬａｙｅｒＮ_Ｃ＋１）に入力され得る。最初の全体連結レイヤーは入力を受けたイメージを利用して、１×Ｆ^（Ｎｃ）Ｍ^（Ｎｃ）Ｌ^（Ｎｃ）（≡∧^（Ｎｃ））の大きさを有する１次元ベクトルａ^（Ｎｃ）(t) for 0≦ｔ≦∧^（Ｎｃ）−１に変換することができる。

最初の全体連結レイヤーは変換した１次元ベクトルに対してウェイト（ｗｅｉｇｈｔ）行列を乗算することができる。例示的に、最初の全体連結レイヤーが遂行する演算は数学式７のように示すことができる。

数学式７において、Ｗ^{（Ｎｃ+１）}（ｔ、ｕ）は、最初の全体連結レイヤーで利用するウェイト行列を意味する。ａ^{（Ｎｃ+１）}（ｔ）は最初の全体連結レイヤーで出力されるベクトルを意味する。ａ^{（Ｎｃ+１）}（ｔ）は１次元ベクトルであり得る。∧^{（Ｎｃ+１）}は最初の全体連結レイヤーで出力されるベクトルａ^{（Ｎｃ+１）}（ｔ）の大きさを意味する。

数学式７を参照すると、最初の全体連結レイヤーは∧^（Ｎｃ）大きさのベクトルからウェイト行列を利用して∧^{（Ｎｃ+１）}大きさのベクトルを出力することができる。

図３を参照すると、コンボリューショナルニューラルネットワークは、Ｎ_Ｆ個の全体連結レイヤーを含むことができる。数学式７を一般化して、ｌ番目の全体連結レイヤーで遂行される演算は数学式８のように示すことができる。

数学式８において、ａ^(l)(t)はｌ番目の全体連結レイヤーの出力ベクトルを意味する。Ｗ^(l)(t,u)はｌ番目の全体連結レイヤーで利用するウェイト行列を意味する。φ^(l)はｌ番目の全体連結レイヤーで利用する活性化関数を意味する。ａ^(l-1)(u)はｌ−１番目の全体連結レイヤーの出力ベクトルであって、ｌ番目の全体連結レイヤーに対する入力ベクトルであり得る。

出力レイヤー（Ｏｕｔｐｕｔｌａｙｅｒ）は最後の全体連結レイヤーの出力ベクトルａ^{(ＮＣ+ＮＦ)}(t)の入力を受けることができる。出力レイヤーは数学式９のようにベクトル演算を遂行することができる。

数学式９において、ｚ^{(ＮＣ+ＮＦ+1)}(t)は出力レイヤーで出力されるベクトルを意味する。Ｃは出力ベクトルｚ^{(ＮＣ+ＮＦ+1)}(t)のクラス（ｃｌａｓｓ）の個数を意味する。

出力レイヤーは数学式９で獲得した出力ベクトルｚ^{(ＮＣ+ＮＦ+1)}(t)のそれぞれのクラスに対する最終出力値を計算することができる。出力レイヤーは活性化関数を利用して最終出力値を計算することができる。出力レイヤーの最終出力値の計算過程は数学式１０のように示すことができる。

数学式１０において、φ^{(ＮＣ+ＮＦ+1)}は出力レイヤーで利用される活性化関数を意味する。φ^{(Ｎｃ+Ｎｆ+1)}はシグモイド関数、ハイパータンジェント関数および整流線形ユニットのうち少なくとも一つであり得る。数学式１０を参照すると、出力レイヤーは出力ベクトルｚ^{(Ｎｃ+Ｎｆ+1)}(t)のｔ番目のｃｌａｓｓに対する最終出力値＾γ(t)を計算することができる。

他の例として、最終出力レイヤーはソフトマックス（ｓｏｆｔｍａｘ）関数を利用して最終出力値を計算することもできる。出力レイヤーの最終出力値の計算過程は数学式１１のように示すこともできる。

数学式１１を参照すると、最終出力レイヤーは出力ベクトルのクラス値に対する指数関数を利用して最終出力値を計算することができる。

機械学習装置１００は、コンボリューショナルニューラルネットワークを決定するパラメーターを変化させることによって、コンボリューショナルニューラルネットワークを学習させることができる。例えば、機械学習装置１００は、コンボリューショナルニューラルネットワークのノード間の加重値を最適化する方向にコンボリューショナルニューラルネットワークを学習させることができる。

機械学習装置１００は、学習データに対するコンボリューショナルニューラルネットワークの出力と、コンボリューショナルニューラルネットワークのノード間の加重値を利用して費用関数を計算することができる。機械学習装置１００は費用関数値が最小化するようにコンボリューショナルニューラルネットワークを学習させることができる。

例示的に、費用関数は数学式１２のように示すことができる。

機械学習装置１００は費用関数Ｊ（Ｗ）が最小化するようにノード間の加重値を変更することができる。機械学習装置１００は逆伝播アルゴリズムおよび確率的勾配降下（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）などのような最適化アルゴリズムを利用してニューラルネットワークを学習させることができる。他の例として、機械学習装置１００はｇ、ｒｅｅｄｙｌａｙｅｒ−ｗｉｓｅトレーニング（Ｂｅｎｇｉｏ、Ｙｏｓｈｕａ、ｅｔａｌ． “Ｇｒｅｅｄｙｌａｙｅｒ−ｗｉｓｅｔｒａｉｎｉｎｇｏｆｄｅｅｐｎｅｔｗｏｒｋｓ．” Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ１９（２００７）：）基盤のプレトレーニング（ｐｒｅ−ｔｒａｉｎｉｎｇ）方式および微細調整（ｆｉｎｅｔｕｎｉｎｇ）方式を共に並行してニューラルネットワークを学習させることができる。他の例として、機械学習装置１００は、ドロップアウト（ｄｒｏｐ−ｏｕｔ）（Ｎ．Ｓｒｉｖａｓｔａｖａ、ｅｔａｌ．「Ｄｒｏｐｏｕｔ：Ａｓｉｍｐｌｅｗａｙｔｏｐｒｅｖｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｒｏｍｏｖｅｒｆｉｔｔｉｎｇ．」ＴｈｅＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ（２０１４）：１９２９−１９５８．）やマックスアウト（ｍａｘ−ｏｕｔ）（Ｇｏｏｄｆｅｌｌｏｗ、ＩａｎＪ．、ｅｔａｌ．「Ｍａｘｏｕｔｎｅｔｗｏｒｋｓ．」ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３０２．４３８９（２０１３））方式を利用することもできる。

以上でコンボリューショナルニューラルネットワークの構造と動作について説明した。前記の説明は例示的なものに過ぎず、具体的なレイヤーの個数と構造および演算過程は通常の技術者に容易な水準で変わり得る。

以下では本発明の例示的な実施例に係る、コンボリューショナルニューラルネットワークに対する漸進的学習過程を含む機械学習方法について説明する。

図７は、本発明の第２実施例に係る機械学習方法を示したフローチャートである。

図７を参照すると、Ｓ１１０段階で、機械学習装置１００は対象データの入力を受けることができる。対象データは、コンボリューショナルニューラルネットワークの学習にあらかじめ利用した学習データと異なるデータであり得る。対象データは追加学習のためのデータであってもよく、コンボリューショナルニューラルネットワークの分析対象であるデータであってもよい。対象データは一つのデータであってもよく、複数のデータからなるデータ配置であってもよい。

Ｓ１２０段階で、プロセッサ１１０は、対象データの統計的特性とあらかじめ使用された訓練データの統計的特性との差に基づいて、漸進的学習開始の可否を判断することができる。プロセッサ１１０は、コンボリューショナルニューラルネットワークに対象データを入力した場合の出力統計と、訓練データを入力した場合の出力統計とを比較して、漸進的学習開始の可否を判断することができる。以下では、対象データが複数のデータで構成されるデータ配置である場合を例に挙げて漸進的学習開始の可否の判断過程を説明する。

Ｓ１３０段階で、プロセッサ１１０はコンボリューショナルニューラルネットワークに含まれたそれぞれのコンボリューションレイヤー（またはコンボリューションおよびプーリングレイヤー）で相互間の類似度が高いカーネルの集合を決定することができる。

図８は相互間の類似度が高いカーネルの集合を決定する方式の第１実施例を示した概念図である。

図８を参照すると、プロセッサ１１０は任意のｌ番目のコンボリューションレイヤー（またはコンボリューションおよびプーリングレイヤー）でｋ番目の出力イメージまたは行列の生成に利用されるカーネルのうち相互間の類似度が高いカーネルを選択することができる。プロセッサ１１０はカーネル間の距離または類似度を測定することによって、相互間の類似度が高いカーネルペアを少なくとも一つ以上決定することができる。具体的な例として、プロセッサ１１０はカーネル間の差の絶対値に基づいて相互間の類似度が高いカーネルペアを少なくとも一つ以上決定することができる。例示的に、プロセッサ１１０は数学式１６を利用して、相互間の類似度が高いカーネルペアを決定することができる。

前述した説明では、プロセッサ１１０が二つのカーネル間の差の絶対値（または二つのカーネル間の距離）に基づいて、相互間の類似度が高いカーネルペアを決定することができる。しかし、実施例はこれに制限されるものではない。例えば、プロセッサ１１０は、カーネル間のコーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）（Ｃｏｎｗａｙ、ＪｏｈｎＨ．、ＲｏｎａｌｄＨ．Ｈａｒｄｉｎ、ａｎｄＮｅｉｌＪＡＳｌｏａｎｅ．「Ｐａｃｋｉｎｇｌｉｎｅｓ、ｐｌａｎｅｓ、ｅｔｃ．：ＰａｃｋｉｎｇｓｉｎＧｒａｓｓｍａｎｎｉａｎｓｐａｃｅｓ．」Ｅｘｐｅｒｉｍｅｎｔａｌｍａｔｈｅｍａｔｉｃｓ５．２（１９９６）：１３９−１５９）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、相互間の類似度が高いカーネルペアを決定することもできる。

図９は、相互間の類似度が高いカーネルの集合を決定する方式の第２実施例を示した概念図である。

プロセッサ１１０はカーネル連結行列間の距離または類似度を測定することによって、相互間の類似度が高いカーネル連結行列ペアを少なくとも一つ以上決定することができる。具体的な例として、プロセッサ１１０はカーネル連結行列間の差の絶対値に基づいて相互間の類似度が高いカーネルの集合を決定することができる。例えば、プロセッサ１１０は数学式１７を利用して、相互間の類似度が高いカーネルペアを決定することができる。

数学式１７を参照すると、プロセッサ１１０はｌ番目のコンボリューションレイヤー（またはコンボリューションおよびプーリングレイヤー）で行列の差の絶対値が最も小さいカーネル連結行列ペアを相互間の類似度が高い行列と決定することができる。プロセッサ１１０は、相互間の類似度が高いカーネル行列ペアに対応するカーネルを相互間の類似度が高いカーネルの集合に含ませることができる。プロセッサ１１０は、ｌ番目のコンボリューションレイヤー（またはコンボリューションおよびプーリングレイヤー）で相互間の類似度が高いカーネル連結行列ペアを一つのみ決定することができる。他の例として、プロセッサ１１０は、ｌ番目のコンボリューションレイヤー（またはコンボリューションおよびプーリングレイヤー）で相互間の類似度が高いカーネル連結行列ペアを複数個決定することができる。

この場合、プロセッサ１１０は既選択されたカーネル連結ペアを除いて、数学式１７によるカーネルペア選択手続きを複数回繰り返すことができる。

前述した説明では、プロセッサ１１０が二つの行列間の差の絶対値（または二つの行列間の距離）に基づいて、相互間の類似度が高いカーネル連結行列ペアを決定することができる。しかし、実施例はこれに制限されるものではない。例えば、プロセッサ１１０は、行列間のコーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）（Ｃｏｎｗａｙ、ＪｏｈｎＨ．、ＲｏｎａｌｄＨ．Ｈａｒｄｉｎ、ａｎｄＮｅｉｌＪＡＳｌｏａｎｅ．「Ｐａｃｋｉｎｇｌｉｎｅｓ、ｐｌａｎｅｓ、ｅｔｃ．：ＰａｃｋｉｎｇｓｉｎＧｒａｓｓｍａｎｎｉａｎｓｐａｃｅｓ．」Ｅｘｐｅｒｉｍｅｎｔａｌｍａｔｈｅｍａｔｉｃｓ５．２（１９９６）：１３９−１５９）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、相互間の類似度が高いカーネル連結行列ペアを決定することもできる。

再び図７を参照すると、Ｓ１４０段階で、プロセッサ１１０は相互間の類似度が高いカーネルの集合に含まれたカーネルを更新することができる。例えば、図８に示した通り、プロセッサ１１０が複数個のカーネルペアを選択した場合、プロセッサ１１０は選択されたカーネルペアを更新することができる。プロセッサ１１０は、ランダムカーネルを利用して相互間の類似度が高いカーネルを更新することができる。例えば、プロセッサ１１０のカーネル更新過程は数学式１８のように示すことができる。

他の例として、図９に示した通り、プロセッサ１１０が複数個のカーネル連結行列を選択した場合、プロセッサ１１０は選択されたカーネル連結行列を更新する方式で、相互間の類似度が高いカーネルを更新することができる。例えば、プロセッサ１１０のカーネル連結行列の更新過程は数学式１９のように示すことができる。

プロセッサ１１０は相互間の類似度が高いカーネルを更新することによって、コンボリューショナルニューラルネットワークの性能を改善することができる。プロセッサ１１０は相互間の類似度が高いカーネルを更新しなくてもよい。この場合、Ｓ１４０段階は省略され得る。

Ｓ１５０段階で、プロセッサ１１０は相互間の類似度が高いカーネルが適用されるノード間の加重値を更新することができる。プロセッサ１１０は、更新対象となる加重値の集合と、更新しない加重値の集合を区分することができる。例えば、プロセッサ１１０は下記のように加重値の集合を区分することができる。

プロセッサ１１０は更新対象となる加重値を機械学習によって更新することができる。例えば、プロセッサ１１０は対象データから機械学習に利用するデータを選別することができる。例えば、対象データが複数個のデータを含む配置データである場合、プロセッサ１１０は配置データから既存の訓練データと統計的特性が異なるデータを抽出することができる。プロセッサ１１０が漸進的学習に利用されるデータを抽出する方式は数学式２０のように示すことができる。

数学式２０において、ｉは配置データに含まれたデータのインデックスを示す。Βは配置データで漸進的学習に利用されるデータのインデックスの集合を意味する。数学式２０を参照すると、プロセッサ１１０は数学式１５に示した条件を満足するデータを漸進的学習用データとして選別することができる。

プロセッサ１１０は教師あり学習方式および教師なし学習方式のうち少なくとも一つを利用して、ＷＮに含まれた加重値を更新することができる。プロセッサ１１０が教師あり学習方式を利用する場合、Βに含まれたデータは教師あり学習のためのラベリングがされていなければならない。もし、ラベリングがされていない場合、ラベリング過程がさらに遂行され得る。

加重値の更新過程は数学式２１のように示すことができる。

プロセッサ１１０は逆伝播アルゴリズムおよび確率的勾配降下（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）方式などのような最適化アルゴリズムなどを利用してニューラルネットワークを学習させることができる。他の例として、プロセッサ１１０は、ｇｒｅｅｄｙｌａｙｅｒ−ｗｉｓｅトレーニング（Ｂｅｎｇｉｏ、Ｙｏｓｈｕａ、ｅｔａｌ．「Ｇｒｅｅｄｙｌａｙｅｒ−ｗｉｓｅｔｒａｉｎｉｎｇｏｆｄｅｅｐｎｅｔｗｏｒｋｓ．」Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ１９（２００７）：）基盤のプレトレーニング（ｐｒｅ−ｔｒａｉｎｉｎｇ）方式および微細調整（ｆｉｎｅｔｕｎｉｎｇ）方式を共に並行してニューラルネットワークを学習させることができる。

数学式２０で示したデータ集合Βを利用した機械学習過程が完了すると、プロセッサ１１０は全体のデータ（すなわち、以前に使用された訓練データおよび対象データのすべて）を利用して追加的な機械学習を遂行することもできる。プロセッサ１１０は、ドロップアウト（ｄｒｏｐ−ｏｕｔ）（Ｎ．Ｓｒｉｖａｓｔａｖａ、ｅｔａｌ．「Ｄｒｏｐｏｕｔ：Ａｓｉｍｐｌｅｗａｙｔｏｐｒｅｖｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｒｏｍｏｖｅｒｆｉｔｔｉｎｇ．」ＴｈｅＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ（２０１４）：１９２９−１９５８．）やマックスアウト（ｍａｘ−ｏｕｔ）（Ｇｏｏｄｆｅｌｌｏｗ、ＩａｎＪ．、ｅｔａｌ．「Ｍａｘｏｕｔｎｅｔｗｏｒｋｓ．」ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３０２．４３８９（２０１３））方式を利用して追加的な機械学習を遂行することができる。

図１０は、本発明の第３実施例に係る機械学習方法を示した概念図である。

図１０の実施例の説明において、図９と重複する内容は省略する。

図１０を参照すると、Ｓ１６０段階で、プロセッサ１１０はコンボリューショナルニューラルネットワークの全体連結レイヤーのそれぞれにおいて、相互間の類似度が高いウェイトベクトルの集合を決定することができる。ウェイトベクトルは数学式７で示したウェイト行列から抽出され得る。例えば、プロセッサ１１０は数学式２２に示した通り、ウェイトベクトルを抽出することができる。

プロセッサ１１０はウェイトベクトル間の距離または類似度を測定することによって、相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定することができる。具体的な例として、プロセッサ１１０はウェイトベクトル間の差の絶対値に基づいて、相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定することができる。例示的に、プロセッサ１１０は数学式２３を利用して、相互間の類似度が高いウェイトベクトルペアを決定することができる。

数学式２３を参照すると、プロセッサ１１０は、ｌ番目の全体連結レイヤーでウェイトベクトル差の絶対値が最も小さいウェイトベクトルペアを、相互間の類似度が高いウェイトベクトルペアと決定することができる。プロセッサ１１０は、ｌ番目の全体連結レイヤーで相互間の類似度が高いウェイトベクトルペアを一つのみ決定することができる。他の例として、プロセッサ１１０はｌ番目の全体連結レイヤーで相互間の類似度が高いウェイトベクトルペアを複数個決定することもできる。

前述した説明では、プロセッサ１１０が二つのウェイトベクトル間の差の絶対値（または二つのウェイトベクトル間の距離）に基づいて、相互間の類似度が高いウェイトベクトルペアを決定することができる。しかし、実施例はこれに制限されるものではない。例えば、プロセッサ１１０は、ウェイトベクトル間の二乗差、ｐ−ノルム（ｐ−ｎｏｒｍ）、ユークリッド−ノルム（Ｅｕｃｌｉｄｅａｎ−ｎｏｒｍ）、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）、マハラノビス距離（Ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ）、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、ＫＬ発散（ＫＬｄｉｖｅｒｇｅｎｃｅ）、交差カーネル（ｉｎｔｅｒｓｅｃｔｉｏｎｋｅｒｎｅｌ）、およびカイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、相互間の類似度が高いウェイトベクトルペアを決定することもできる。

Ｓ１７０段階で、プロセッサ１１０は相互間の類似度が高いウェイトベクトルを更新することができる。プロセッサ１１０はランダムベクトルを利用して相互間の類似度が高いウェイトベクトルを更新することができる。例えば、プロセッサ１１０のカーネル更新過程は数学式２４のように示すことができる。

他の例として、プロセッサ１１０は数学式２５のようにウェイトベクトルを更新することもできる。

さらに他の例として、プロセッサ１１０はウェイトベクトルを更新しなくてもよい。

Ｓ１８０段階で、プロセッサ１１０は相互間の類似度が高いウェイトベクトルが適用されるノード間の加重値を更新することができる。

プロセッサ１１０は選択された相互間の類似度が高いウェイトベクトルに基づいて、更新対象となる加重値の集合と、残りの加重値の集合を区分することができる。プロセッサ１１０は数学式２０に示した通り、漸進的学習用データを選別することができる。プロセッサ１１０は数学式２１を参照して説明した通り、漸進的学習用データを利用して更新対象となる加重値を更新することができる。プロセッサ１１０は全体のデータを利用してコンボリューショナルニューラルネットワークに対する追加学習を進めることができる。

対象データにラベリングがされていない場合、ラベリング作業を行わずにプロセッサ１１０は教師なし学習によってコンボリューショナルニューラルネットワークを学習させてもよい。この場合、プロセッサ１１０はコンボリューショナルニューラルネットワークに対して、対称的構造を有する対称ニューラルネットワークをコンボリューショナルニューラルネットワークに連結することができる。プロセッサ１１０はコンボリューショナルニューラルネットワークの出力を対称ニューラルネットワークに入力させることができる。

図１１は、本発明の第４実施例に係るニューラルネットワークを示した概念図である。

図１１を参照すると、ニューラルネットワークはコンボリューショナルニューラルネットワークおよび対称ニューラルネットワークを含むことができる。対称ニューラルネットワークは、コンボリューショナルニューラルネットワークに対して対称的な構造を有することができる。対称ニューラルネットワークは、前記コンボリューショナルニューラルネットワークの全体連結レイヤーに対応する逆方向の全体連結レイヤー（ｂａｃｋｗａｒｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、前記コンボリューショナルニューラルネットワークのコンボリューションレイヤーおよびプーリングレイヤーに対応するデコンボリューションレイヤーおよびアンプーリングレイヤーを含むことができる。対称ニューラルネットワークの具体的な動作に対する説明は韓国特許出願（１０−２０１５−１８３８９８）で代替する。

プロセッサ１１０は対称ニューラルネットワークの出力とコンボリューショナルニューラルネットワークに入力される入力との間の差に基づいて、ノード間の加重値を更新することができる。例えば、プロセッサ１１０は、対称ニューラルネットワークの出力とコンボリューショナルニューラルネットワークに入力される入力との間の再構成エラー（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｅｒｒｏｒ）および平均二乗エラー（ｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ）のうち少なくとも一つに基づいて、費用関数を決定することができる。プロセッサ１１０は前述した方式によって決定された費用関数を最小化する方向にノード間の加重値を更新することができる。プロセッサ１１０は数学式２０に示したデータ集合Βを利用してコンボリューショナルニューラルネットワークを学習させることができる。プロセッサ１１０は全体のデータを利用してコンボリューショナルニューラルネットワークを学習させることもできる。学習過程が終了すると、プロセッサ１１０は対称ニューラルネットワークを除去することができる。

以上、図１〜図１１と数学式１〜数学式２５を参照して本発明の例示的な実施例に係る機械学習方法および装置について説明した。前述した実施例によると、コンボリューショナルニューラルネットワークの学習に利用された訓練データと統計的特性が異なる対象データを発見することができる。そして、統計的特性が異なる対象データが発見された場合、コンボリューショナルニューラルネットワークに対して漸進的学習を開始することによって、コンボリューショナルニューラルネットワークの性能を向上させることができる。また、相互間の類似度が高いカーネルまたはウェイトベクトルが適用されるノード間の加重値を選択的に更新する過程を経ることによって、機械学習効率を向上させることができる。

本発明の実施例に係る肩幅測定方法の動作は、コンピュータ読み取り可能記録媒体にコンピュータ読み取り可能プログラムまたはコードとして具現することが可能である。コンピュータ読み取り可能記録媒体はコンピュータシステムによって読み込まれ得るデータが保存されるすべての種類の記録装置を含む。また、コンピュータ読み取り可能記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて分散方式でコンピュータ読み取り可能プログラムまたはコードが保存され実行され得る。

また、コンピュータ読み取り可能記録媒体は、ロム（ｒｏｍ）、ラム（ｒａｍ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのように、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置を含むことができる。プログラム命令は、コンパイラ（ｃｏｍｐｉｌｅｒ）によって作られるような機械語コードだけでなく、インタープリタ（ｉｎｔｅｒｐｒｅｔｅｒ）などを使ってコンピュータによって実行され得る高級言語コードを含むことができる。

方法段階の一部又は全部は例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（または利用して）遂行され得る。一部の実施例において、最も重要な方法段階の少なくとも一つはこのような装置によって遂行され得る。

実施例において、プログラム可能なロジック装置（例えば、フィールドプログラマブルゲートアレイ）が、ここで説明された方法の機能の一部又は全部を遂行するために使われ得る。実施例において、フィールドプログラマブルゲートアレイは、ここで説明された方法のうち一つを遂行するためのマイクロプロセッサとともに作動することができる。一般に、方法は何らかのハードウェア装置によって遂行されることが好ましい。

上記では本発明の好ましい実施例を参照して説明したが、該当技術分野の熟練した当業者は下記の特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更し得ることが理解できるであろう。

Claims

コンボリューショナルニューラルネットワークを学習させるための機械学習装置により遂行される、コンボリューショナルニューラルネットワークに対する機械学習方法において、
対象データの入力を受ける段階；
前記コンボリューショナルニューラルネットワークに対する前記対象データの統計的特性と前記コンボリューショナルニューラルネットワークに対するあらかじめ使用された訓練データの統計的特性との差に基づいて、漸進的学習開始の可否を判断する段階；
前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれのコンボリューションレイヤーで相互間の類似度が高いカーネルの集合を決定する段階；および
前記相互間の類似度が高いカーネルの集合に含まれたカーネルが適用されるノード間の加重値を更新する段階；を含み、
前記相互間の類似度が高いカーネルの集合に含まれたカーネルのそれぞれをランダム行列を利用して、更新する段階をさらに含む、機械学習方法。
前記漸進的学習開始の可否を判断する段階は、
前記対象データに対する前記コンボリューショナルニューラルネットワークの出力値のうち最大値をあらかじめ選定した基準値と比較し、前記コンボリューショナルニューラルネットワークの出力値のうち最大値が前記基準値よりも小さい場合、前記漸進的学習を開始すると判断する、請求項１に記載の機械学習方法。
前記対象データが、複数個のデータからなるデータパッチである場合、
前記データパッチに含まれたデータのうち、前記コンボリューショナルニューラルネットワークの出力値のうち最大値があらかじめ選定した基準値よりも小さい条件を満足するデータの個数が基準個数以上の場合、前記漸進的学習を開始すると判断する、請求項２に記載の機械学習方法。
前記相互間の類似度が高いカーネルの集合を決定する段階は、
カーネル間の距離または類似度を測定することによって、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定する、請求項１に記載の機械学習方法。
前記相互間の類似度が高いカーネルの集合を決定する段階は、
カーネル間のコーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定する、請求項４に記載の機械学習方法。
前記相互間の類似度が高いカーネルの集合を決定する段階は、同じノードのコンボリューション演算に利用されるカーネルからカーネル連結行列（Ｃｏｎｃａｔｅｎａｔｅｄｋｅｒｎｅｌｍａｔｒｉｘ）を構成し、
前記カーネル連結行列間の距離または類似度を測定することによって、前記相互間の類似度が高いカーネル連結行列ペアを少なくとも一つ以上決定する、請求項１に記載の機械学習方法。
前記相互間の類似度が高いカーネルの集合を決定する段階は、前記カーネル連結行列間の差のノルム(ｎｏｒｍ)、前記カーネル連結行列間の二乗差、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルの集合を決定する、請求項６に記載の機械学習方法。
前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれの完全連結レイヤー（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で相互間の類似度が高いウェイトベクトル（Ｗｅｉｇｈｔｖｅｃｔｏｒ）の集合を決定する段階；および
前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルが適用されるノード間の加重値を更新する段階；をさらに含む、請求項１に記載の機械学習方法。
前記相互間の類似度が高いウェイトベクトルの集合を決定する段階は、
ウェイトベクトル間の距離または類似度を測定することによって、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定する、請求項８に記載の機械学習方法。
前記相互間の類似度が高いウェイトベクトルの集合を決定する段階は、
ウェイトベクトル間の差のノルム(ｎｏｒｍ)、二乗差、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）、マハラノビス距離（Ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ）、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、およびカイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定する、請求項９に記載の機械学習方法。
前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルのそれぞれを、ランダムベクトルを利用して更新する段階；をさらに含む、請求項８に記載の機械学習方法。
前記ノード間の加重値を更新する段階は、
教師あり学習方式および教師なし学習方式のうち少なくとも一つを利用して前記ノード間の加重値を更新する、請求項１に記載の機械学習方法。
前記教師なし学習方式によって前記ノード間の加重値を更新する場合、
前記コンボリューショナルニューラルネットワークの出力を、前記コンボリューショナルニューラルネットワークに対称的な構造を有する対称ニューラルネットワークに入力させ、
前記対称ニューラルネットワークの出力と前記コンボリューショナルニューラルネットワークに対する入力との間の差に基づいて、前記ノード間の加重値を更新する、請求項１２に記載の機械学習方法。
前記対称ニューラルネットワークは、前記コンボリューショナルニューラルネットワークの全体連結レイヤーに対応する逆方向の全体連結レイヤー（ｂａｃｋｗａｒｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、前記コンボリューショナルニューラルネットワークのコンボリューションレイヤーおよびプーリングレイヤーに対応するデコンボリューションレイヤーおよびアンプーリングレイヤーを含む、請求項１３に記載の機械学習方法。
コンボリューショナルニューラルネットワークを学習させるための機械学習装置において、
プロセッサ（ｐｒｏｃｅｓｓｏｒ）；および
前記プロセッサを介して実行される少なくとも一つの命令が保存されたメモリ（ｍｅｍｏｒｙ）を含み、
前記少なくとも一つの命令は、
対象データの入力を受けて；前記コンボリューショナルニューラルネットワークに対する前記対象データの統計的特性と前記コンボリューショナルニューラルネットワークに対するあらかじめ使用された訓練データの統計的特性との差に基づいて、漸進的学習開始の可否を判断し；前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれのコンボリューションレイヤーで相互間の類似度が高いカーネルの集合を決定し；前記相互間の類似度が高いカーネルの集合に含まれたカーネルが適用されるノード間の加重値を更新して、前記相互間の類似度が高いカーネルの集合に含まれたカーネルのそれぞれをランダム行列を利用して、更新するように遂行される、機械学習装置。
前記少なくとも一つの命令は、
カーネル間のコーダル距離（ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルペアを少なくとも一つ以上決定するように遂行される、請求項１５に記載の機械学習装置。
前記少なくとも一つの命令は、
同じノードのコンボリューション演算に利用されるカーネルからカーネル連結行列（Ｃｏｎｃａｔｅｎａｔｅｄｋｅｒｎｅｌｍａｔｒｉｘ）を構成し、
前記カーネル連結行列間の差のノルム(ｎｏｒｍ)、二乗差、コーダル距離（Ｃｈｏｒｄａｌｄｉｓｔａｎｃｅ）、カイ二乗カーネル（Ｃｈｉ−ｓｑｕａｒｅｋｅｒｎｅｌ）のうち少なくとも一つに基づいて、前記相互間の類似度が高いカーネルの集合を決定するように遂行される、請求項１５に記載の機械学習装置。
前記少なくとも一つの命令は、
前記漸進的学習を開始すると判断した場合、前記コンボリューショナルニューラルネットワークに含まれたそれぞれの完全連結レイヤー（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で相互間の類似度が高いウェイトベクトル（Ｗｅｉｇｈｔｖｅｃｔｏｒ）の集合を決定し、前記相互間の類似度が高いウェイトベクトルの集合に含まれたウェイトベクトルが適用されるノード間の加重値を更新するように遂行される、請求項１５に記載の機械学習装置。
前記少なくとも一つの命令は、
ウェイトベクトル間の差のノルム(ｎｏｒｍ)に基づいて、前記相互間の類似度が高いウェイトベクトルペアを少なくとも一つ以上決定するように遂行される、請求項１５に記載の機械学習装置。