JP6980521B2 - 継続的学習のためのデータメタスケーリング装置及び方法 - Google Patents

継続的学習のためのデータメタスケーリング装置及び方法 Download PDF

Info

Publication number
JP6980521B2
JP6980521B2 JP2017254556A JP2017254556A JP6980521B2 JP 6980521 B2 JP6980521 B2 JP 6980521B2 JP 2017254556 A JP2017254556 A JP 2017254556A JP 2017254556 A JP2017254556 A JP 2017254556A JP 6980521 B2 JP6980521 B2 JP 6980521B2
Authority
JP
Japan
Prior art keywords
learning
data
information
reduction
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017254556A
Other languages
English (en)
Other versions
JP2018109996A (ja
Inventor
オ、セ、ウォン
イ、ヨン、ヒ
ベ、ジ、フン
カン、ヒョン、ジュン
クォン、スン、ヒョン
キム、クィ、フン
キム、ヨン、ミン
キム、ウン、ジュ
キム、ヒョン、ジェ
パク、ホン、ギュ
ユ、ジェ、ハク
イ、ホ、ソン
チョ、ソン、イク
キム、ネ、ス
キム、ソン、ジン
ピョ、チョル、シグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020170177880A external-priority patent/KR102470145B1/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2018109996A publication Critical patent/JP2018109996A/ja
Application granted granted Critical
Publication of JP6980521B2 publication Critical patent/JP6980521B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • G06F7/023Comparing digital values adaptive, e.g. self learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、継続的学習のためのデータメタスケーリング装置及び方法に関し、より詳細には機械学習モデルの学習に利用される入力データの処理技術に関する。
機械学習(Machine Learning,ML)は収集されたデータを分類したり、収集されたデータの特性を示すモデルを学習する用途として広く活用されている。機械学習と関連して様々な技術が開発されており、これらの機械学習で最適の分類性能または学習性能を導出するためには、収集されたデータをそのまま利用することよりも機械学習アルゴリズムまたは導出しようとする目標に応じて適切に縮約して学習することが望ましい。つまり、様々な事物を介して大量のデータを持続的に収集する環境では、データの活用目的や周辺環境に合わせて適切に縮約されたデータを学習するように機械学習システムを制御することが非常に重要である。しかし、適切に縮約されたデータに基づいて学習過程を行なう機械学習システムに対する開発は、まだ不十分な状態にある。
発明の解決しようとする課題
本発明で解決しようとする課題は、機械学習の実行過程でデータを表現できる様々な次元での持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化できる継続的学習のためのデータメタスケーリング装置及び方法を提供する。
発明を解決するための手段
上述した課題の解決手段として、本発明の継続的学習のためのデータメタスケーリング方法は、プロセッサが入力データを他の属性で表現されるように縮約する規則を定義した縮約基準情報、前記縮約データへの学習を制限する規則と学習性能の評価規則を定義した学習基準情報及び前記縮約基準情報を最適化するための規則を定義した知識増強基準情報を設定するステップと、前記プロセッサが前記縮約基準情報に基づいて前記入力データを縮約データに縮約するステップと、前記プロセッサが前記学習基準情報に基づいて前記縮約データへの学習を行なって学習モデルを生成するステップと、前記プロセッサが前記学習基準情報に基づいて前記学習モデルの性能を評価して、前記縮約データの適切性を判断するステップと、及び前記プロセッサが前記適切性を判断した結果に応じて前記知識増強基準情報に基づいて前記縮約基準情報を更新する知識増強を行なうステップと、を含む。
本発明の継続的学習のためのデータメタスケーリング装置は、入力データを他の属性で表現されるように縮約する規則を定義した縮約基準情報、前記縮約データへの学習を制限する規則と学習性能の評価規則を定義した学習基準情報及び前記縮約基準情報を最適化するための規則を定義した知識増強基準情報を設定するメタ最適化機と、前記縮約基準情報に基づいて前記入力データを縮約データに縮約する縮約機と、前記学習基準情報に基づいて前記縮約データへの学習を行なって学習モデルを生成する学習機と、及び前記学習基準情報に基づいて前記学習モデルの性能を評価して、前記縮約データの適切性を判断する評価機と、を含み、前記メタ最適化機は前記適切性を判断した結果に応じて前記知識増強基準情報に基づいて前記縮約基準情報を更新する知識増強を行う。
本発明によると、機械学習で最適の性能を達成するように機械学習を行なおうとするデータに対して様々な次元でデータ縮約プロセスを行なうことによって、継続的学習を構成する手順を自動化することができ、持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化することができる。
さらに、本発明は、スキーマ情報(schema information)を参照して縮約基準情報を更新するための基準及び条件を定義した知識増強基準情報を設定し、これを基に互いに異なる複数の縮約基準情報を設定してデータを縮約し、縮約されたデータを互いに異なる複数の機械学習に並列に適用して評価することによって、様々な縮約基準情報を考慮した学習履歴の作成と保存が可能になる。
さらに、本発明は、入力データ情報、スキーマ情報、学習モデル情報、縮約基準情報、縮約データ情報、学習基準情報、学習データ情報、学習モデル情報、学習結果情報、知識増強基準情報などを含む学習履歴情報を累積して保存し、保存された学習履歴情報に基づいて最適の縮約基準情報を自動設定する知識増強によって縮約基準情報を最適化することができる。
さらに、本発明に係るデータメタスケーリング技術は、物事インターネット(IoT)及び万物インターネット(IoE)環境などで収集される様々な種類のデータを表現できる様々な次元の縮約を行うことにより、原本データを他の構造に変換できるだけでなく、縮約された情報に基づいて原本データに新しい属性を追加して拡張することができる。
本発明の第1の実施形態に係る継続的学習のためのデータメタスケーリング装置を示したブロック図である。 本発明の第1の実施形態に係る継続的学習のためのデータメタスケーリング方法を示したフローチャートである。 本発明の実施形態に係るデータ縮約において単一次元基盤のサンプリングを説明するための図である。 本発明の実施形態に係るデータ縮約において単一次元基盤のサンプリングを説明するための図である。 本発明の実施形態に係るデータ縮約において単一次元基盤のサンプリングを説明するための図である。 本発明の実施形態に係るデータ縮約において複合次元基盤のサンプリングを説明するための図である。 本発明の他の実施形態に係るデータ縮約において複合次元基盤のサンプリングを説明するための図である。 本発明の一実施形態に係るスキーマ情報に含まれた縮約基準情報、学習基準情報及び知識増強基準情報のデータ構造を示す図である。 本発明の一実施形態に係るスキーマ情報に含まれた縮約基準情報、学習基準情報及び知識増強基準情報のデータ構造を示す図である。 本発明の一実施形態に係るスキーマ情報に含まれた縮約基準情報、学習基準情報及び知識増強基準情報のデータ構造を示す図である。 本発明の一実施形態に係るスキーマ情報をオントロジーに示した図である。 本発明の第2の実施形態に係る継続的学習のためのデータメタスケーリング装置を示したブロック図である。 本発明の第3の実施形態に係る継続的学習のためのデータメタスケーリング装置を示したブロック図である。 図1に示したデータメタスケーリング装置を交通情報予測シナリオに適用する例を説明するための図である。 本発明の一実施形態に係る最適の縮約基準を見付ける知識増強プロセスを図式的に示した図である。 本発明の一実施形態に係る最適の縮約基準を見付ける知識増強プロセスを図式的に示した図である。 本発明の一実施形態に係る最適の縮約基準を見付ける知識増強プロセスを図式的に示した図である。
以下、添付された図面を参照して本発明の実施形態を詳細に説明する。使用される用語は、実施形態での機能を考慮して選択された用語であって、その用語の意味は、ユーザー、オペレータの意図または慣例などによって変わる。よって、後述する実施形態で使用される用語の意味は、本明細書に具体的に定義された場合にはその定義に従い、具体的な定義がない場合は当業者が一般的に認識する意味と解釈されなければならない。
本発明は、様々な変更を加えることができ、様々な実施形態を抱えるところ、特定の実施形態を図面に例示し詳細な説明において説明しようとする。しかし、これは本発明を特定の実施形態に対して限定しようとするものではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものと理解されなければならない。各図面を説明しながら類似した図面符号を類似した構成要素に対して使用した。
第1、第2、A、Bなどの用語は、様々な構成要素を説明するために使用されるが、前記構成要素は前記用語によって限定されてはならない。前記用語は、1つの構成要素を他の構成要素から区別する目的にのみ使用される。例えば、本発明の権利範囲を外れることなく第1の構成要素は第2の構成要素として命名することができ、同様に第2の構成要素も第1の構成要素として命名することができる。及び/またはという用語は、関連した複数の記載項目の組み合わせまたは関連する複数の記載項目のうちいずれか1つの項目を含む。
本出願で使用した用語は、単に特定の実施形態を説明するために使用されたものであって、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに異なるように意味しない限り、複数の表現を含む。本出願で、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするのであって、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものの存在または付加可能性を予め排除しないものと理解されなければならない。
異なるように定義されない限り、技術的または科学的な用語を含んでここで使用される全ての用語は、本発明の属する技術分野で通常の知識を持つ者によって一般的に理解されるものと同一の意味を持っている。一般的に使用される辞書に定義されているような用語は、関連技術の文脈上持つ意味と一致する意味を持つものと解釈されなければならず、本出願で明らかに定義しない限り、理想的または過度に形式的な意味に解釈されない。
本発明に係る継続的学習のためのデータメタスケーリング装置及び方法の構成及び機能は、1つ以上のコンピュータ読み取り可能なコマンドを含むように構成されたプログラムモジュールで具現されることができる。
プログラムモジュールは、メモリなどの記録媒体に保存された後、プロセッサによってロードされて実行されることによって、本発明で説明する特定の機能を行うことができる。
コンピュータ読み取り可能なコマンドは、例えば、汎用コンピュータシステムまたは特殊目的コンピュータシステムが特定の機能または機能のグループを行なうようにするコマンド及びデータを含む。
コンピュータ実行可能コマンドは、例えば、アセンブリ言語、またはソースコードなどのバイナリ、中間フォーマットコマンドであり得る。すなわち、本発明に係る継続的学習のためのデータメタスケーリング装置及び方法は、コンピュータプログラムを含むソフトウェアまたはコンピュータシステムのようにメモリ及びプロセッサなどを含むハードウェア及び前記ハードウェアに搭載されて前記ハードウェアによって実行されるソフトウェアの組み合わせで具現されることができる。
本発明による方法を実行するコンピュータプログラムは、コンファイルまたは解釈された言語や先験的(transcendental)或いは手続き型プログラミング(procedural language)を含むプログラミング言語の如何なる形態でも作成されることができ、独立型プログラムやモジュール、コンポーネント、サブルーチン、或いはコンピュータ環境で使用するのに適した他のユニットを含んで如何なる形態でも展開されることができる。
コンピュータプログラムは、ファイルシステムのファイルに必ずしも対応するものではない。プログラムは、要求されたプログラムに提供される単一のファイル内に、或いは多重の相互作用するファイル(例えば、1つ以上のモジュール、下位プログラム或いはコードの一部を保存するファイル)内に、或いは他のプログラムやデータを保有するファイルの一部(例えば、マークアップ言語文書内に保存される1つ以上のスクリプト)内に保存されることができる。
さらに、前記コンピュータプログラムは、1つのサイトに位置したり複数のサイトにわたって分散されて通信ネットワークによって相互接続された多重コンピュータや1つのコンピュータ上で実行されるように展開されることができる。
前記コンピュータプログラムを保存するのに適したコンピュータで読み取り可能な媒体は、例えばEPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、例えば内部ハードディスクや外付けディスクのような磁気ディスク、磁気光学ディスク及びCD−ROMとDVD−ROMディスクを含んで全ての形態の不揮発性メモリ、媒体及びメモリ装置を含む。プロセッサとメモリは、特殊目的の論理回路によって補完されたり、それに統合されることができる。
また、本発明に係るデータメタスケーリング装置及び方法は、機械学習システムに適用されて機械学習を行なう過程において、多数の属性で表現できる入力データに対してスキーマ情報を基に縮約基準情報を設定する。
これにより、本発明に係るデータメタスケーリング装置及び方法は、縮約されたデータに対して学習を行い、学習結果を利用して評価することにより、機械学習に対して最適の性能を導出できる縮約データを提供することができる。
以下、本発明の構成及び動作を様々な実施形態に基づいて説明する。
図1は、本発明の第1の実施形態に係る継続的学習のためのデータメタスケーリング装置を示すブロック図である。
本発明の第1の実施形態に係るデータメタスケーリング装置は、データの入力、
スキーマ情報の抽出、データの縮約、モデル学習、学習履歴の保存、学習履歴の分析、知識増強の手順を自動化するプロセスを行なうことができる。継続的学習は、持続的な知識増強によりデータ縮約のための縮約基準の最適化を自動化できる反復可能な学習過程と定義する。
本発明の第1の実施形態に係るデータメタスケーリング装置は、入力されたデータまたはユーザー入力からスキーマ情報を抽出し、抽出されたスキーマ情報に基づいて縮約基準情報、学習基準情報及び知識増強基準情報を構築して継続的学習を行うための準備を完了する。
次に、本発明の第1の実施形態に係るデータメタスケーリング装置は、縮約基準情報で規定する縮約基準または縮約規則に基づいてデータ縮約を行い、学習基準情報で規定する学習基準に基づいて縮約されたデータを適切に表現できるモデルへの学習を行う。学習の行ないは、知識増強基準に基づいて反復して行なうことができ、学習結果は学習履歴として自動的に保存される。
知識増強基準情報に規定する知識増強基準を満たすように学習履歴が十分に保存されると、本発明の第1の実施形態に係るデータメタスケーリング装置は学習履歴を分析して縮約基準に対する最適化を行なう。
このような過程によって継続的学習を構成する手順を自動化することができ、持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化することができる。
図1を参照すると、本発明の第1の実施形態に係る継続的学習のためのデータメタスケーリング装置は、メタ最適化機10と、縮約機20と、学習機30、評価機40及び分析機50を含む。
メタ最適化機10は、入力データのスキーマ情報を参照して縮約基準情報、学習基準情報、及び知識増強基準情報を設定するプロセスを行なう。スキーマ情報は入力データのメタデータを分析して獲得することができる。メタデータは、入力データの特定の領域に含まれることができる。メタデータは、入力データの属性を説明するデータであり得る。
スキーマ情報は、ユーザーの入力によって提供されることができる。入力データは多数の属性情報から成るものであって、連続的なストリームまたはアーカイブ(archive)の形態で提供されることができる。例えば、入力データは事物インターネットサービス環境でセンシング機器などのような様々な事物機器から収集されるデータであり得る。
縮約機20は、メタ最適化機10で設定した縮約基準情報を利用して入力データを縮約するプロセスを行なう。入力データは、様々な事物機器から直接入力されたり、データストアから入力されることができる。データの入力は、実際データの物理的な入力とデータが存在する論理的位置情報の入力を含む。ここで、論理的位置情報は、例えば、URL情報であり得る。
学習機30は、メタ最適化機10で設定した学習基準情報を利用して、縮約機200で縮約した縮約データへの機械学習を行う。機械学習の種類または機械学習を行なうのに必要なハイパーパラメータ(hyperparameter)の特性などを限定することは本発明の要旨から外れるので、これを限定しない。すなわち、本発明は機械学習を行なうのに必要なハイパーパラメータの特性に関係なく、全ての種類の機械学習に適用されることができ、これは当業者であれば、以下の説明から十分に理解できるであろう。一方、学習機30は、縮約データ及び入力データも利用して機械学習を行うこともできる。これは、データ縮約によって抽出された新たな属性を入力データに追加して入力データを拡張し、拡張された入力データで学習を行うことができることを意味する。
評価機40は、メタ最適化機10で設定した学習基準情報を基に学習過程や学習結果が学習基準を満たしているかどうかを判断し、その判断結果に基づいてデータ縮約の適切性を評価するプロセスを行なう。
分析機50は、入力データに含まれたメタデータまたは入力データとともに提供されるメタデータを分析して入力データのスキーマ情報を抽出する。
メタ最適化機10は、評価機40の評価結果情報を基に縮約基準情報の変更または知識増強を行う。
学習過程や学習結果が学習基準情報で規定した学習基準を満たしていない場合には、メタ最適化機10は知識増強基準に基づいて縮約基準情報を変更するプロセスを行なう。逆に、学習過程や学習結果が学習基準を満たしている場合、メタ最適化機10は学習結果を学習履歴として保存部50に自動保存するプロセスによって知識増強プロセスを開始する。
メタ最適化機10は、知識増強基準情報で規定した知識増強基準を満たすように学習履歴が十分に保存されると、保存された学習履歴を分析して縮約基準への最適化を行なうプロセスを実行する。これらのプロセスによって継続的学習を構成する手順を自動化することができ、持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化することができる。
図2は、本発明の第1の実施形態に係る継続的学習のためのデータメタスケーリング方法を示すフローチャートである。
図2を参照すると、先ず、ステップS100において、入力データが事物機器またはデータストアからメタ最適化機10に入力されるプロセスが行なわれる。
次に、ステップS200において、メタ最適化機10が入力データに含まれたメタデータを分析して(または解析して)、前記入力データのスキーマ情報を抽出し、抽出されたスキーマ情報に基づいて縮約基準情報、学習基準情報、知識増強基準情報を構築するプロセスが行なわれる。
次に、ステップS300において、縮約機20から縮約基準情報を利用して入力データを縮約するプロセスが行なわれる。縮約されたデータは、学習機30にリアルタイムストリームまたはバッチ(batch)方法で直接提供されることができる。他方、縮約されたデータが保存媒体に保存され、縮約機20がその保存アドレスを学習機30に通知する方法で縮約されたデータの提供に代わることができる。この場合、学習機30は保存アドレスに保存媒体にアクセスして縮約基準情報を読み込むことができる。
次に、ステップS400において、学習機30で縮約されたデータを適切に表現できるモデルへの学習を行なって学習モデルを生成するプロセスが行なわれる。このとき、学習機30は学習基準情報に基づいて学習を行う。
次に、ステップS500において、評価機40で学習結果が学習基準情報で定義する学習基準を満たしているかどうかを判断するプロセスが行なわれる。
学習結果が学習基準を満たしていない場合は、ステップS600において、メタ最適化機10が知識増強基準情報で定義する知識増強基準に基づいて縮約基準情報を更新するプロセスが行なわれる。
逆に、学習結果が学習基準を満たしている場合は、ステップS700において、メタ最適化機10が知識増強基準を満たすように学習履歴が十分保存された後、十分保存された学習履歴を分析して縮約基準への最適化を行うプロセスが行なわれる。このような持続的な知識増強プロセスによってデータ縮約のための縮約基準の最適化を自動化することができる。
本発明での入力データは様々な属性を有する。これらの様々な属性を表現するために、本発明では「データ次元」という用語が定義される。データ次元は、データを表現できる属性で定義する。
<データ次元の例>
特定時間間隔または不特定時間間隔で収集されるデータは、時間的属性で表現することができる。従って、時間的属性で表現できるデータの次元は「時間」になる。
経/緯度座標(Latitude and longitude coordinates)、住所情報(address information)、郵便番号、IPのサブネットなどのようなデータは、物理的または論理的な位置を示す空間的属性で表現することができる。従って、空間的属性で表現できるデータの次元は「空間」になる。
色を表すデータは、色相(hue)、彩度(saturation)、及び明度(intensity)のような属性で表現することができる。従って、色を表現するデータの次元は色相、彩度または明度になる。
物質を表すデータは、硬さ(hardness)、密度(density)、比重(specific gravity)、伝導度(conductivity)などのような物質の固有の属性で表現することができる。従って、物質を表現するデータの次元は、硬さ、密度、比重、伝導度などであり得る。
周波数に応じて変換するデータは、周波数をデータ次元と定義することができる。
居住地、職場、商店、1階など社会的に与えられる意味カテゴリに応じて定義されるデータは、意味カテゴリをデータ次元と定義することができる。
ユーザーグループが或るサービスに対して評価した結果を示すデータの次元は選好度、有効性などであり得る。
移動カメラで撮影した動画は、撮影位置、撮影時間などをデータ次元と定義することができる。このとき、撮影位置は3次元空間でXYZ座標で表現することができるので、3つのデータ次元に細分化されることができる。
このように、全てのデータはそれぞれの属性によって様々な次元で表現されることができるので、本発明ではその次元を決定する基準については限定しない。
<データの縮約>
本発明の実施形態に係るデータの縮約は、任意のデータが任意のデータ次元で表現されるとき、前記任意のデータ次元において前記任意のデータをサンプリングするプロセスと定義することができる。
また、本発明の実施形態に係るデータの縮約は、任意のデータが持つデータ次元を他のデータの次元に変更するプロセスと定義することができる。これらの次元の変更は、データを表現できる範囲の縮小を意味する。場合によっては、次元の変更はデータを表現できる範囲の拡大を意味することもできる。
このように、本発明の実施形態によるデータ縮約は、様々な次元でのサンプリング、次元変換及び前記サンプリングと前記次元変換とを結合するプロセスのうちいずれか1つであり、これらのプロセスによってデータ数を縮小する過程であると定義することができる。
<データの縮約によるサンプリング>
サンプリングは、予め定められた基準に応じて1つ以上のデータ次元で代表値を選択するプロセスであり得る。
前記サンプリングは、単一次元基盤のサンプリングと複合次元基盤のサンプリングとを含むことができる。単一次元基盤のサンプリングは、単一のデータ次元で代表値を選択するプロセスであり得る。複合次元基盤のサンプリングは、2つ以上のデータ次元で代表値をそれぞれ選択するプロセスであり得る。
A.単一次元基盤のサンプリング
単一次元基盤のサンプリング処理は、周期的サンプリングプロセス、非周期的サンプリングプロセス、固定ウィンドウ(fixed window)基盤のサンプリングプロセス及びムービングウィンドウ(moving window)基盤のサンプリングプロセスを含むことができる。
周期的サンプリングプロセスは、データ次元で与えられたウィンドウで代表値を周期的に選択するものであって、例えば、時間次元で表現されるデータに対して5分間隔で与えられたウィンドウで代表値を特定の基準で選択する過程であり得る。ここで、ウィンドウはサンプリング単位に解釈されることができる。
非周期的サンプリングプロセスは、与えられたウィンドウで代表値を非周期的に選択するものであって、例えば、データの値が予め定められた値以上である場合に対して与えられたウィンドウで代表値を特定の基準で選択する過程であったり、任意の空間で温度センサで測定したデータのうち温度が15℃以上であるデータに対して時間的ウィンドウまたは空間的ウィンドウを適用して代表値を選択するプロセスであり得る。
固定ウィンドウ基盤のサンプリングプロセスは、データ次元で互いに重複することなく連続する2つ以上のウィンドウで代表値をそれぞれ選択するものであって、例えば、時間次元で第1時間区間(t−t)で収集した入力データのうち特定の基準で代表値を選択し、第1時間区間に連続した第2時間区間(t−t)で収集した入力データのうち同一の特定の基準で代表値を選択するものであり得る。
ムービングウィンドウ基盤のサンプリングプロセスは、データ次元で互いに重複する2つ以上のウィンドウで代表値を選択するものであって、例えば、時間次元で第1時間区間(t−t)で収集した入力データのうち特定の基準で代表値を選択し、第1時間区間の一部区間と重複する第2時間区間(t−t)で収集した入力データのうち同一の特定の基準で代表値を選択するものであり得る。
B.復号次元基盤のサンプリング
複合次元基盤のサンプリングプロセスは、2つ以上のデータ次元で表現されるデータに対して各次元で独立的に単一次元のサンプリングを行なうプロセスである。例えば、或る地域に存在するセンサで収集するデータが、温度、湿度、照度、騒音のうち少なくとも1つを含む属性で構成されており、前記センサは空間的に様々な位置に存在しており、前記センサで測定されたデータは周期的に収集されたり、ユーザーの設定またはセンサで収集するデータの値に応じて非周期的に収集されることができる。このようなデータ収集環境において温度は、全てのセンサに対して位置に関係なく5分と定義される固定ウィンドウ基盤のサンプリングを行い、湿度は特定の位置を基準に7mの間隔と定義される固定ウィンドウ基盤のサンプリングを行い、 照度は湿度と同一の位置でムービングウィンドウサンプリングを行い、騒音は測定された騒音データが一定の基準値以上のデータのみを選択する非周期的サンプリングを行うことができる。
前記与えられたウィンドウに対して代表値を選択するための基準には、ユーザーによって予め定められた規則、ウィンドウに含まれたデータの統計的特徴などが含まれることができる。例えば、ユーザーは与えられたウィンドウに含まれたデータのうち特定の基準に最も近い位置の値、特定の基準から最も遠い位置の値、特定の基準に中央位置の値などを選択するように規則を定めることができる。
また、与えられたウィンドウに含まれた全体データのうち平均値(average value)、中央値(medium value)、最大値(maximum value)、最小値(minimum value)、四分位値(quartile value)、標準偏差値(standard deviation value)、最頻値(most frequent value)など様々な統計的特徴に定義される値のうち1つまたはこれらの値の組み合わせになり得る。つまり、与えられたウィンドウに含まれた全体データのうち平均値及び標準偏差値も代表値として選択することもできる。
<データの縮約による次元変換>
次元変換は、データが表現するデータ次元の構造を変更して新たな次元でのデータを表現する過程であって、例えば、周波数領域変換(frequency domain transform)、多変量分析(multivariate analysis)、非線形次元縮小(nonlinear dimensionality reduction)などが含まれることができる。
フーリエ変換(Fourier transform)のような周波数領域変換は、時間次元または空間次元で表現されるデータを周波数成分に分解して周波数次元で表現する過程であって、周波数成分に分解されたデータのうち適切な遮断周波数(cutting frequency)までのみを含むように制限してデータ縮約を達成することができる。
多変量分析は、多次元空間で表現されるデータを統計的方法で計算して同一のデータを表現できる新たな次元を見付ける過程であって、前記新たな次元に定義される空間で適切な統計的基準に次元の数を制限してデータの縮約を達成することができる。多変量分析は、主成分分析(principal component analysis)、クラスタリング(clustering)などが挙げられる。
非線形次元縮小は非線形主成分分析(nonlinear principal component analysis)、微分同相写像次元縮小(diffeomorphic dimensionality reduction)、曲線距離分析(curvilinear distance analysis)など様々なマニホールド学習(manifold learning)を利用して非線形的に次元の数を縮小してデータの縮約を達成することができる。
<データの縮約によるサンプリングと次元変換との結合>
サンプリングと次元変換との結合は、サンプリングと次元の変換を順次行なう過程であって、例えば、入力データをサンプリングした後、サンプリングされたデータを次元変換したり、入力データの次元を変換した後、変換された次元で入力データをサンプリングしてデータの数を減らすものであり得る。
図3Aないし3Cは、本発明の実施形態に係るデータ縮約で単一次元基盤のサンプリングを説明するための図である。
図3Aないし3Cでは、時間次元で固定ウィンドウを利用して平均を代表値として選択する時間次元基盤のサンプリングの例を示したものであって、図3Aはグラフ状の原本データを示し、図3B及び3Cは時間次元基盤のサンプリングに応じて互いに異なるサイズの固定ウィンドウを利用して原本データをサンプリングしたグラフ状の縮約データを示したものである。
図3Aにおいて、時間次元で原本データが収集される時間間隔をunit1とするとき、図3Bに示した縮約データは5×unit1の時間間隔(unit2)に設定された固定ウィンドウを利用して原本データをサンプリングしたものであり、図3Cは10×unit1の時間間隔(unit3)に設定された固定ウィンドウを利用して原本データをサンプリングしたものである。
図4は、本発明の実施形態に係るデータ縮約で複合次元基盤のサンプリングを説明するための図である。
図4は、空間次元と時間次元とから成る複合次元で表現可能な原本データのサンプリングを示したもので、符号41は互いに異なる場所に設けられた2つのセンサ(sensor1、sensor2)で一定時間間隔で収集された原本データであって、テーブル形態のセンサデータを示し、符号43は原本データ41を空間次元に縮約した縮約データであり、符号45は原本データ41を時間次元に縮約した縮約データである。
t11、t12、t13及びt14は、第1のセンサ(sensor1)がTime1、Time2、Time3及びTime4でそれぞれ収集した温度データであり、t21、t22、t23、t24は第2のセンサ(sensor2)が、Time1、Time2、Time3及びTime4でそれぞれ収集した温度データである。
h11、h12、h13及びh14は、第1のセンサ(sensor1)がTime1、Time2、Time3及びTime4でそれぞれ収集した湿度データであり、h21、h22、h23及びh24は第2のセンサ(sensor2)がTime1、Time2、Time3及びTime4でそれぞれ収集した湿度データである。
l11、l12、l13、l14は第1のセンサ(sensor1)がTime1、Time2、Time3、Time4)でそれぞれ収集した光度データであり、l21、l22、l23、l24は、第2のセンサ(sensor2)がTime1、Time2、Time3及びTime4でそれぞれ収集した光度データである。
v11、v12、v13及びv14は第1のセンサ(sensor1)がTime1、Time2、Time3及びTime4でそれぞれ収集した電圧データであり、v21、v22、v23及びv24は第2のセンサ(sensor2)がTime1、Time2、Time3及びTime4でそれぞれ収集した電圧データである。
このように、原本データは互いに異なる場所に設けられた2つのセンサ(sensor1、sensor2)が一定時間間隔で収集したデータであるので、空間次元と時間次元とから成る複合次元で表現することができる。
このようなセンサデータに複合次元基盤のサンプリングプロセスを適用すると、複合次元で表現される原本データは、空間次元で表現される縮約データ及び/または時間次元で表現される縮約データに縮約されることができる。例えば、t11とt21のうちいずれか1つを代表値として選択したり、h11とh21のうちいずれか1つを代表値として選択することは複合次元で表現される原本データを空間次元で表現されるデータに縮約することである。t11とt12のうちいずれか1つを代表値として選択したり、h11とt12のうちいずれか1つを代表値として選択することは複合次元で表現されるデータを時間次元で表現されるデータに縮約することである。
図5は、本発明の他の実施形態に係るデータ縮約で複合次元基盤のサンプリングを説明するための図であり、所定の空間に設けられたセンサの位置と意味を考慮した複合次元のデータ縮約を図式的に示したものである。
図5で矩形ボックスを指す符号51、53及び55は、センサが設けられた所定の空間を指し、各空間(51、53、55)内で円内に表記された数字はセンサを識別する番号である。
図5は、各空間に設けられたセンサが、3つのCASEにグループ化された状態が示される。
CASE1は、空間51内で同一の空間に設けられたセンサをグループ化し、各グループに属するセンサで測定した値のうちいずれか1つの代表値を選択する方法でデータを縮約するものである。
CASE2は、空間53内で同一の種類のセンサをグループ化し、各グループに属するセンサで測定した値のうちいずれか1つの代表値を選択する方法でデータを縮約するものである。
CASE3は特別な意味を持つ基準でセンサをグループ化し、各グループに属するセンサで測定した値のうちいずれか1つの代表値を選択する方法でデータを縮約するものである。CASE3にセンサをグループ化する基準は、中央を基準にした左の領域と右の領域とに区分したものである。
以下、メタ最適化機で設定した縮約基準情報、学習基準情報及び知識増強基準情報について詳細に説明する。
上述したように、メタ最適化機10は入力データのスキーマ情報を参照して縮約基準情報、学習基準情報、及び知識増強基準情報を設定する。
スキーマ情報(schema information)は、入力データとともに提供されるメタデータまたは入力データの特定の領域に保存されたメタデータを分析して獲得したり、ユーザーの入力から獲得することができる。
前記スキーマ情報は、縮約基準情報、学習基準情報、知識増強基準情報を含むように構成されることができる。スキーマ情報の内容は、予め定められた規則に応じて叙述されたり、またはオントロジーのような構造化された知識で表現される知識辞書の形式で叙述されることができる。
<縮約基準情報>
縮約基準情報は、データ次元に関する情報とデータ縮約に関する情報とを含む。データ縮約に関する情報は、周期的サンプリングのための基準情報、非周期的サンプリングのための基準情報、固定ウィンドウサンプリングのための基準情報、ムービングウィンドウサンプリングのための基準情報のうち少なくとも1つの情報を含むように構成されることができ、サンプリング基準に関係なく適用される共通基準情報をさらに含むことができる。
周期的サンプリングに関する基準情報は、データ次元でウィンドウの位置を設定するためのウィンドウ間の間隔情報、及び代表値を選択するためのウィンドウのサイズ情報を含むことができる。
非周期的サンプリングに関する基準情報は、非周期的にウィンドウを選択するための条件情報、及び代表値を選択するためのウィンドウのサイズ情報を含むことができる。
固定ウィンドウサンプリングに関する基準情報は、データ次元で多数のウィンドウが互いに重複しないように与えられるウィンドウのサイズ情報を含むことができる。
ムービングウィンドウサンプリングに関する基準情報は、データ次元で互いに重複するウィンドウの位置を設定するための間隔情報及び代表値を選択するためのウィンドウのサイズ情報を含むことができる。
前記サンプリング基準に関係なく適用される共通基準情報は、ウィンドウのサイズで代表値を選択するための基準情報を含むことができる。
<学習基準情報>
本発明では、学習モデルの性能または学習結果の信頼度(または正確性)は、データ縮約の適切性を評価するための指標として使用される。
学習基準情報は縮約データで学習モデルを学習する過程において、学習の反復を制限する早期終了条件(early stop condition)、収斂推移条件(convergence trend condition)などを含むことができ、学習の性能を計算するための学習信頼度条件(learning reliability condition)などをさらに含むことができる。
学習信頼度の条件は、学習性能評価だけではなく学習の反復を制限する条件として使用することもできる。
学習モデルの特性に応じて異なる学習基準の選択は、スキーマ情報によって決定されるので、学習基準は多様に構成することができる。従って、本発明では学習基準は限定しない。
学習の対象となるデータ、つまり、学習データは訓練データ(train dataset)、検証データ(validation dataset)、テストデータ(test dataset)を含むことができる。
訓練データは、学習モデルを訓練するために使用することができる。検証データは、適切なデータ縮約を選択するために使用することができる。テストデータは、選択されたデータ縮約の有効性または適切性を判断するために使用することができる。訓練データと検証データは同一のデータであり得る。
早期終了条件と収斂推移条件は、学習の反復によって学習モデルを最適化する学習過程で暗記効果(memorization effect)を防止するために使用する正規化(regularization)の一形態であって、学習結果が予め指定した学習信頼度の条件を満たす前に行なうことのできる反復学習の範囲を制限する。
前記学習信頼度は、分類モデル(classification model)で主に使用される精密度(precision)、正確度(accuracy)、AUC(area under curve)などの指標、回帰モデル(regression model)で主に使用されるRMSE(root mean squared error)、MAE(mean absolute error)、RAE(relative absolute error)、RSE(relative square error)、決定係数(coefficient of determination)などの指標、クラスタリングモデル(clustering model)で主に使用するクラスターの結集図(compactnessof a cluster)、クラスター中心までの最大距離(maximal distance to cluster center)、クラスター間の距離(distance between clusters)などの指標を利用したり組み合わせて様々な方法で計算することができる。
前記データ縮約の適切性は学習過程や学習結果が学習基準で定められた条件を満たしているかどうかによって評価することができる。早期終了条件や収斂推移条件は学習反復を制限するために使用するので、学習結果や学習過程が予め定めた学習信頼度条件を満たしていない状態での学習結果や学習過程が早期終了条件や収束推移条件を満たす状況が発生すれば、学習過程は自動的に終了する。
学習が終了する場合、データ縮約は適切でないものと判定することができ、適切なデータ縮約が可能なように縮約基準情報の変動を基に反復学習が行なわれることができる。
学習の反復が早期終了条件や収斂推移条件を満たしてはいないが学習信頼度条件を満たすと、学習過程は自動的に終了する。このような状況で、学習過程が終了する場合、データ縮約は適切なものと判定することができる。学習結果は学習履歴として保存される。
保存される学習履歴は、継続的学習過程で発生する情報、例えば、入力データ、スキーマ情報、縮約基準情報、縮約データ情報、学習基準情報、学習データ情報、学習モデル情報、学習結果情報、知識増強基準情報などを含むことができる。
データ縮約が適切なものと判定され、知識増強基準を満たすと、縮約基準情報を最適化する知識増強プロセスが行なわれる。

<知識増強基準情報>
本発明において知識増強基準情報は、縮約基準情報を更新するための基準及び条件を定義する。
知識増強基準情報は、学習基準の制限(または反復学習基準)、縮約基準の変動、履歴累積基準などを含むことができる。知識増強基準情報が縮約基準の変動情報と反復学習基準情報を必ずしも含むものではなく、必要な場合には履歴累積基準情報のみを含むように構成されることができる。
前記反復学習基準情報は、データ縮約基準を最適化するための知識増強過程で満たさなければならない学習基準の要素を明示したものである。
前記縮約基準の変動情報は、縮約基準を変動できる要素と範囲を明示したものである。
前記履歴累積基準は縮約基準情報を最適化するための知識増強を行なう前に満たさなければならない条件を明示したもので、学習履歴累積条件、縮約基準の変動条件などを含むことができ、これらの条件を満たしていない場合には、縮約基準情報を最適化するための知識増強は行なわれない。
図6Aは、本発明の一実施形態に係るスキーマ情報に含まれる縮約基準情報のデータ構造を示す図である。
図6Aを参照すると、縮約基準情報のデータ構造は、例えば、5つのフィールド(F1〜F5)を含むことができる。第1のフィールド(F1)には、DR-IDのような縮約基準情報の識別子が記録されることができる。第2のフィールド(F2)には、データ次元を示す情報が記録されることができる。第3のフィールド(F3)には、データ縮約に使用されるウィンドウの種類を示す情報が記録されることができる。第4のフィールド(F4)には、ウィンドウのサイズを示す情報が記録されることができる。第5のフィールド(F5)には、代表値を選択するための基準を示す情報が記録されることができる。代表値の選択基準は、代表値の属性、代表値の種類、代表値の選択方法または代表値の計算方法に関する情報であり得る。フィールドの順序は、設計に応じて多様に変更することができる。
第1のフィールド(F1)に「DR001」、第2のフィールド(F2)に「時間」、第3のフィールド(F3)に「固定ウィンドウ」、第4のフィールド(F4)に「10分」及び第5のフィールド(F5)に「平均」が記録された場合、縮約基準情報はDR001と識別され、時間次元でウィンドウサイズが10分である固定ウィンドウを利用して選択した平均値を代表値として選択する縮約規則を定義する。
図6Bは、本発明の一実施形態に係るスキーマ情報に含まれた学習基準情報のデータ構造を示す図である。
図6Bを参照すると、学習基準情報のデータ構造は、5つのフィールドを含むことができる。第1のフィールド(F1)には、「LC−ID」のような学習基準情報の識別子(LC−ID、Learning Condition−IDentifier)が記録される。第2のフィールド(F2)には、学習信頼度を計算するために使用されるデータの種類に関する情報が記録される。第3のフィールド(F3)には、学習信頼度条件に関する情報が記録されることができる。第4のフィールド(F4)には、学習信頼度を計算する基準に関する情報が記録されることができる。ここで、学習信頼度を計算する基準は、学習信頼度の計算方法に関する情報であり得る。第5のフィールド(F5)には、学習の早期終了条件に関する情報が記録されることができる。
第1のフィールドに「LC001」、第2のフィールドに「検証データ」、第3のフィールドに「5%以下」、第4のフィールドに「平均二乗根誤差(Root Mean Square Error;RMSE)」、第5のフィールドに「2,000回以上」が記録された場合、学習基準情報は「LC001」と識別され、検証データを利用して学習信頼度を計算し、学習過程で学習信頼度のRMSEが5%以下であるか、学習の反復回数が2,000回以上の場合には学習を中断する規則を定義する。
一方、上記の例において、学習基準情報は学習過程で学習の反復回数が2,000回未満であり、検証データを利用して計算した学習信頼度のRMSE値が5%よりも小さい値に到達すると、学習基準を満たしたものと判断する規則に定義することもできる。
他方、上記の例において、学習基準情報は、学習の反復回数が2,000回を超える瞬間にRMSE値が5%以上であれば、学習信頼度が学習基準を満たしていないものと判断する規則に定義することができる。
図6Cは、本発明の一実施形態に係るスキーマ情報に含まれる知識増強基準情報のデータ構造を示す図である。
図6Cを参照すると、知識増強基準情報は反復学習基準情報61、縮約基準変動情報63及び履歴累積基準情報65を含むことができる。
<反復学習基準情報61>
反復学習基準情報61のデータ構造は、3つのフィールド(F1〜F3)を含むことができる。第1のフィールド(F1)には、「KA−ID1」のような反復学習基準情報の識別子(Knowledge Augmentation IDentifier)が記録され、第2のフィールド(F2)には、制限しようとする学習基準情報の識別子(LC−ID)が記録され、第3のフィールド(F3)には縮約基準の変動回数が記録されることができる。
縮約基準変動に係る学習の反復回数が5回以下の場合には、反復学習基準情報61は、LC−IDに識別される学習基準情報で制限する条件(例えば、学習の反復回数が2,000回以下であり、RMSEが5%未満の条件)を満たしていなければ、縮約基準を変動して反復学習を行うことができるが、これらの縮約基準変動回数が5回までに許す規則を定義する。つまり、反復学習基準情報61で定義する規則は、縮約基準を5回変動する過程で学習結果が学習基準情報で制限する条件が満たされると、その学習結果を学習履歴として保存し、縮約基準の変動を終了するが、縮約基準を5回変動するまでに学習結果が学習基準情報で制限する条件を満たしていなければ、その学習結果を学習履歴として保存しないことを規定したものである。ここで、保存される学習履歴は、継続的学習過程で発生する情報、例えば、入力データ情報、スキーマ情報、学習モデル情報、縮約基準情報、学習基準情報、学習データ情報、学習モデル情報、学習結果情報、知識増強基準情報などを含むことができる。
<縮約基準変動情報63>
縮約基準変動情報63のデータ構造は、5つのフィールド(F1〜F5)を含むことができる。第1のフィールド(F1)には、変動対象に該当する縮約基準情報の識別子(DR−ID)が記録されることができ、第2のフィールド(F2)には、前記識別子(DR−ID)によって識別される縮約基準情報内で変動される変動要素に関する情報が記録されることができ、第3のフィールド(F3)には、第2のフィールド(F2)に記録された変動要素の変動範囲に関する情報が記録されることができ、第4のフィールド(F4)には、前記変動範囲内で特定される変動基準に関する情報が記録されることができ、第5のフィールド(F5)には、前記変動基準を任意で変動させる規則に関する情報が記録されることができる。
例えば、変動要素が固定ウィンドウのサイズであり、変動範囲が0.5倍、1.0倍及び1.5倍を含み、変動基準が10分であり、任意性規則が10分の30.0%である場合には、縮約基準変動情報63は10分の固定ウィンドウのサイズを5分、
10分、15分の固定ウィンドウに拡張または縮小し、10分の30%範囲内で固定ウィンドウのサイズを任意に変更する縮約基準の変動を規定したものである。
固定ウィンドウのサイズを任意に変更するために、様々なウィンドウを設定するためにランダム関数を利用したり、交配及び突然変異過程によって任意性を発生させる遺伝子アルゴリズムが活用されることができる。
これにより、ウィンドウのサイズを[3分、10分、17分]、[7分、13分、15分]、[5分、9分、16分]などで多様に自動設定することができる。
<履歴累積基準情報65>
反復学習基準の規則による実行が完了すると、履歴累積基準の規則による実行が開始される。
履歴累積基準情報65は、学習履歴の累積基準を定義する規則で学習累積と知識増強を開始するための縮約基準変動を定義する。
履歴累積基準情報65のデータ構造は、3つのフィールド(F1〜F3)を含むことができる。第1のフィールド(F1)には、「KA−ID2」のような履歴累積基準情報の識別子が記録されることができ、第2のフィールド(F2)には、学習履歴の累積回数に関する情報が記録されることができ、第3のフィールド(F3)には、知識増強を行なうための縮約基準の変動回数が記録されることができる。
学習結果を履歴として保存するための累積回数が15回以上であり、知識増強を行うための縮約基準の変動回数が6回以上であれば、学習履歴が保存される度に縮約基準情報を最適化するための知識増強が行なわれる。しかし、学習履歴の累積または縮約基準変動のうちいずれか1つでも満たしていなければ、知識増強は行なわれない。
図7は、本発明に一実施形態に係るスキーマ情報をオントロジーに表現したものである。
図7に示したオントロジーは縮約基準情報をオントロジーに表現したものである。本発明で例示した規則または構造化された知識は、様々な方法で設定が可能であり、本発明で示した例に限定しない。
図8は、本発明の第2の実施形態に係る継続的学習のためのデータメタスケーリング装置を示したブロック図である。
図8を参照すると、本発明の第2の実施形態に係るデータメタスケーリング装置は、メタ最適化機10と、縮約機20と、学習機30、評価機40及びメタデータストア50を含む。
前記メタデータストア50は学習履歴情報を保存し、学習履歴情報は継続的学習過程で発生する情報、すなわち、前記メタ最適化機10と縮約機20と学習機30及び評価機40で入出力される全ての情報を含み、例えば、入力データ情報、スキーマ情報、学習モデル情報、縮約基準情報、縮約データ情報、学習基準情報、学習データ情報、学習モデル情報、学習結果情報、知識増強基準情報などを含む。
一方、前記メタ最適化機10と縮約機20と学習機30及び評価機40は、相互連動のために学習履歴情報を入出力する過程において、前記メタデータストア50を活用することができる。例えば、メタ最適化機10がスキーマ情報から抽出したり、ユーザーの入力に応じて提供された縮約基準情報、学習基準情報、知識増強基準情報をメタデータストア50に保存し、続いて縮約機20にメタデータストア50の保存位置に関する情報を伝達すれば、縮約機20は前記縮約基準情報を前記メタデータストア50から読み込み、入力されたデータの次元を前記縮約基準情報に応じて縮約することができる。
また、前記縮約機20が縮約データを前記メタデータストア50に保存すれば、学習機30が前記保存された縮約データをメタデータストア50から読み込んで学習データで構成して機械学習を行なうことができる。
同様に、学習機30も学習結果情報を、前記メタデータストア50に保存すれば、評価機40は前記メタデータストア50から学習結果情報を読み込んで、学習結果が学習基準を満たしているかどうかを判断することができる。
最終的に、メタ最適化機10は評価機40の判断結果に基づいて縮約基準情報の更新または知識増強を行うことができる。
上述した第2の実施形態によると、データメタスケーリング装置は学習履歴情報を累積し、累積された学習履歴情報を保存し、知識増強基準を満たすように学習履歴情報が十分に保存されると、学習履歴を分析して最適の縮約基準を見付けてスキーマ情報を自動更新する。このような過程によって継続的学習を構成する手順を自動化することができ、持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化することができる。
図9は、本発明の第3の実施形態に係る継続的学習のためのデータメタスケーリング装置を示したブロック図である。
図9を参照すると、本発明の第3の実施形態に係るデータメタスケーリング装置は、メタ最適化機100、多数の縮約機(200:1、2、・・・、N)、多数の学習機(300:1、2、・・・、M)、評価機400及びメタデータストア500を含む。
本発明の第3の実施形態に係るデータメタスケーリング装置は、1つの縮約機と1つの学習機とを備える図1及び8の実施形態とは異なり、多数の縮約機と多数の学習機を備えることにより、多数の学習機が多数の縮約機200によって縮約された多数のデータの学習を並列に処理することができる。
このとき、前記メタ最適化機100は多数の縮約機200にそれぞれ提供する前記多数の縮約基準情報を設定するために、複合次元のデータ縮約機110を含むことができる。
前記複合次元のデータ縮約機110は、データの属性を表現できる様々な次元で定義される様々な縮約単位が組み合わせられた多数の縮約基準情報を含む縮約基準情報集合を設定する。
具体的に、前記複合次元のデータ縮約機110はデータを表現できる様々な次元の縮約単位を遺伝子アルゴリズムを利用し組み合わせて縮約基準情報集合(縮約基準情報1ないし縮約基準情報N)を設定する。
前記縮約基準情報1ないし縮約基準情報Nは、多数の縮約機200に提供され、前記多数の縮約機200のそれぞれは、各自の縮約基準情報に応じて入力されたデータを縮約する。ここで、多数の縮約機200に入力されたデータは同一であるが、適用された縮約基準情報が異なるので、前記多数の縮約機20から出力される縮約データは互いに異なる。
互いに異なる縮約基準情報に応じて縮約された縮約データは、多数の学習機300にそれぞれ提供される。前記多数の学習機300は、互いに異なる学習モデルで構成され、互いに異なる多数の縮約基準情報に応じて縮約された縮約データを学習する。つまり、多数の学習機(1、2、・・・、M)が前記縮約基準情報1に応じて縮約された縮約データに対して並列学習を行い、前記並列学習は多数の学習機(1、2、・・・、M)が縮約基準情報Nに応じて縮約された縮約データMの並列学習を完了するまで行なわれる。従って、多数の学習機(1、2、・・・、M)は、N*M個の学習結果を評価機400に提供する。
一方、多数の学習機(1、2、・・・、M)は、1つの共通した学習基準情報に基づいて互いに異なる多数の縮約基準情報に応じて縮約された多数の縮約データに対して学習を並列的に行なうことができるが、縮約データ毎に互いに異なる学習基準情報に基づいて学習を並列的に行なうこともできる。この場合、メタ最適化機100は互いに異なる学習基準情報を設定するように構成されることができる。
評価機400は、N*M個の学習結果に対する学習信頼度が学習基準を満たしているかどうかを判断する。このとき、学習モデルと縮約データの様々な組み合わせによって学習結果の信頼度は、互いに異なる値を持って学習モデルの特性(例えば、ハイパーパラメータ)も互いに異なり得る。
評価機400は、前記多数の学習機300から提供される学習結果の学習信頼度が学習基準を満たしているかどうかを判断し、メタ最適化機100は、評価機40の判断結果に基づいて多数の縮約基準情報の全部または一部を更新する。
学習結果の学習信頼度が学習基準を満たしていない場合には、メタ最適化機100は知識増強基準情報に基づいて縮約基準情報を更新する。学習結果の学習信頼度が学習基準を満たしている場合、メタ最適化機100は学習結果を学習履歴として自動的に保存する過程によって知識増強プロセスを開始する。
メタ最適化機100は、知識増強基準を満たすように学習履歴が十分に保存された後、学習履歴を分析して縮約基準を最適化するプロセスを行なう。このような過程によって継続的学習を構成する手順を自動化することができ、持続的な知識増強によってデータ縮約のための縮約基準の最適化を自動化することができる。
図10は、図1に示したデータメタスケーリング装置を交通情報予測シナリオに適用する例を説明するための図である。
図10を参照すると、交通情報予測シナリオに適用できる縮約基準情報の例は、時間に定義されるデータ次元、固定ウィンドウに定義されるウィンドウの種類、10分に定義されるウィンドウのサイズ、平均に定義される代表値の選択基準を含むことができる。前記縮約基準情報は、時間次元でウィンドウサイズ10分の固定ウィンドウを対象に平均を求めた結果を代表値として選択して交通データを縮約する規則を意味する。
交通情報予測シナリオに適用できる学習基準情報の例は、検証データに定義されるデータの種類、0.15%以下に定義される学習信頼度の条件、RMSEに定義される学習信頼度の計算基準、2,000回以上に定義される早期終了条件を含むことができる。前記学習基準情報は、交通予測モデルに対して検証データを利用して学習信頼度を計算し、学習過程で学習信頼度のRMSEが0.15%よりも以下であるか、学習の反復回数が2,000回を超える場合には学習を中断する規則を意味する。
交通情報予測シナリオに適用される知識増強基準情報は、5回以内の縮約基準の変動回数、ウィンドウサイズに定義される変動要素、5分、10分、15分に定義される変動範囲、15回以上に定義される学習累積回数、6回以上の縮約基準変動回数に定義される知識増強開始条件を含むことができる。前記知識増強基準情報は、縮約基準情報の変動に基づく学習を5回以内で反復し、固定ウィンドウサイズは、[5分、10分、15分]の3種類を設定し、学習結果を履歴として保存した累積回数が15回以上であり、縮約基準変動の回数が6回以上であれば、学習結果を履歴として保存する度に縮約基準情報を最適化する知識増強が行なわれる規則を意味する。
メタ最適化機10は、交通情報予測シナリオに適用される縮約基準情報を縮約機20に提供する。縮約機20は、時間次元で5分、10分及び15分のウィンドウを利用して代表値を選択する縮約プロセスを行なう。学習機30は、縮約機20によって縮約されたデータに対して学習を行なう。評価機40は、学習機30の学習結果が学習基準情報に規定した学習基準を満たしているかどうかを判断する。例えば、10分単位の縮約で学習信頼度のRMSEが0.13%である場合には、RMSEが0.15%よりも小さい規則を満たすので、その学習結果は履歴として保存され、知識増強基準情報の規則に基づく実行は完了する。
一方、交通情報予測シナリオに適用するスキーマ情報は、データ次元が空間次元や意味次元である場合の縮約基準情報を含むことができる。例えば、空間次元の縮約基準情報に関連して、縮約機20は通行速度が測定された道路地点の属する行政区域(例えば、市/郡/区)または用途地域(例えば、住居地域、中心商業地域など)のような空間単位に交通データを縮約し、空間単位に縮約された縮約データを利用して予測モデルを算出することもできる。
詳細には、メタ最適化機10は隣接する道路の交通量を考慮するために、特定のブロック内にある道路で測定された車両の速度データに対する縮約基準情報を設定することができる。この場合、特定の地点の通行速度を予測するために、特定の地点の属する行政区域の交通量を測定したデータだけではなく、隣接した行政区域の交通量を測定したデータもさらに活用することもできる。この場合、縮約基準情報は、(データ次元:空間)、(ウィンドウ種類:固定ウィンドウ)、(ウィンドウサイズ:3ブロック)、(代表値の選択基準:平均速度)の規則を設定することができる。この規則は、空間次元で3ブロックの固定ウィンドウを利用して平均速度を代表値として選択するデータ縮約プロセスを意味する。
また、メタ最適化機10は、意味情報と時間情報とを結合した縮約基準情報を設定することができる。この場合、縮約基準情報は、(データ次元:空間)、(縮約位置:鍾路区)、(ウィンドウサイズ:商業地区)、(データ次元:時間)、(縮約範囲:08:00〜09:30)、(ウィンドウの種類:固定ウィンドウ)、(ウィンドウサイズ:10分)、(代表値の選択基準:平均速度)を含むことができる。この規則は、鍾路区に属する商業地区という意味次元に定義される空間で08:00〜09:30の時間ウィンドウに対して10分の固定ウィンドウに平均速度を代表値として選択するデータ縮約プロセスを意味する。
図1に示したデータメタスケーリング装置の他の適用例として、図1に示したデータメタスケーリング装置は電力需要予測サービスに適用することもできる。
縮約基準を適切に設定してエネルギー使用量の欠損値除去(missing value removal)及びノイズ除去(noise removal)に
よる良質のエネルギー使用量データを生成することができる。
エネルギー需要管理のために電力エネルギーを消費する冷暖房装置及び照明機器の電力使用量データが一定時間間隔毎に測定して、今後特定の時点のエネルギー需要予測のための正確な学習モデルを作成する必要がある。このとき、個々の機器から測定された電力使用量は、気象変化及び特定のイベント開催などの外部要因によって不規則な使用パターンを示す場合が多いだけではなく、装備異常及びユーザーのデータ公開拒否などに因り欠損値が存在することもある。
そこで、本発明のデータ縮約を利用する場合、データ縮約単位変換によって測定データの一部欠損値の除去及びノイズ除去も可能である。
例えば、縮約基準情報が(データ次元:空間)、(縮約位置:研究棟)、(ウィンドウサイズ:3階)、(データ次元:時間)、(縮約範囲:08:00〜19:00)、(ウィンドウ種類:固定ウィンドウ)、(ウィンドウサイズ:10分)、(代表値の選択基準:最大電力使用量)を含むとき、前記縮約基準情報は研究棟(research building)の3階という意味次元に定義される空間で08:00〜19:00の時間ウィンドウに対して10分の固定ウィンドウに定められた範囲内で最大電力使用量を代表値として選択するデータ縮約プロセスを意味する。
メタ最適化機10は、電力需要予測サービスに適用される縮約基準の情報を縮約機20に提供し、縮約機20は前記縮約基準情報に基づいてデータ縮約を施し、学習機30は与えられた電力需要予測モデルへの学習を行い、評価機40は学習結果情報が学習基準を満たしているかどうかを判断する。このとき、学習結果情報による学習結果が学習基準を満たした場合の学習結果は履歴として保存され、知識増強基準情報による実行は完了する。
図1に示したデータメタスケーリング装置のまた他の適用例として、図1に示したデータメタスケーリング装置は風力発電システムの発電効率の最適化に適用されることができる。
この適用例では、風向と風速の変化に応じて風力発電機のブレード羽根の角度調節タイミングを最適化することができるように、発電量データを保存するための適切な縮約基準を設定する必要がある。このとき、風向と風速は微気象風予測モデル(micro−meteorological wind prediction model)を利用して予測が可能である。微気象風予測モデルは、数値予測モデル(numerical prediction model)、機械学習予測モデル(machine learning prediction model)、そして数値予測モデルと機械学習予測モデルとを融合したハイブリッドモデル(hybrid model)など様々なモデルを適用することができる。
予測される風向と風速の変化によるブレード羽根の角度調節のために、様々な戦略及びモデルが存在しており、本発明では前記戦略とモデルを制限しない。
メタスケーリング装置は、風力発電システムの発電効率の最適化に適用される例において、メタ最適化機10は風力発電量に関する縮約基準情報を縮約機20に提供し、縮約機20は前記縮約基準情報に基づいてデータの縮約を行い、学習機30は縮約されたデータを利用して与えられた風力発電量予測モデルへの学習を行い、評価機40は学習機30の学習結果が学習基準を満たしているかどうかを判断する。このとき、学習結果が学習基準を満たした場合の学習結果は履歴として保存され、知識増強基準情報の規則による実行は完了する。
本発明では、知識増強基準情報による規則に基づいて学習履歴を累積して保存し、知識増強基準情報による規則を満たすように学習履歴が十分に保存されると、学習履歴を分析して縮約基準を最適化し、スキーマ情報に最適化された縮約基準情報を追加してスキーマ情報を自動更新する過程によって継続的学習を実現する。
以下では、スキーマ情報を更新するために、最適の縮約基準を見付ける過程について説明する。
図11Aないし11Cは、本発明の一実施形態に係る最適の縮約基準を見付ける知識増強プロセスを図式的に示した図であり、図11Aは1つのデータ次元で様々なウィンドウサイズに基づいて学習機が学習した履歴を保存した結果を2次元の形態に示したものであり、図11Bは2つのデータ次元で様々なウィンドウサイズに基づいて学習機が学習した履歴を保存した結果を3次元の形態に示したものである。図11Cは保存された学習履歴を利用して最適のウィンドウサイズを見付けて縮約基準情報を最適化する過程を示したものである。
図11Aでは、水平軸と垂直軸とに定義される平面で様々なサイズを含む多数の円が示され、それぞれの円は学習結果の信頼度を意味する。ここで、学習結果は周期的に反復される事件(event)をセンシングしたセンシングデータを学習した結果である。
学習結果の信頼度は円のサイズと関連する。例えば、円のサイズが大きければ大きいほど、学習の信頼度(または正確度)は高い。
各円の中心は、水平軸上で周期による相対的な位置に表現され、垂直軸上で縮約基準情報によるウィンドウサイズに応じた位置に表現される。つまり、水平軸は任意のデータ次元で反復される事件のセンシング周期に応じて収集されるセンシング値を表現したもので、水平軸の範囲は「D10」と表示される最小値と「D20」と表示される最大値に定義される。
垂直軸は縮約基準情報に応じてデータ縮約プロセスで使用するウィンドウサイズを表現したもので、垂直軸の範囲は「0」と表示される最小値と「50」と表示される最大値に定義される。
図11Aにおいて、任意のデータ次元でセンシング値がD15であり、ウィンドウサイズが25で大概学習結果の信頼度が最も高いものと仮定する。
本発明では、学習結果の信頼度をデータ縮約の適切性を評価するための指標として使用するので、図11Aにおいてセンシング値がD15のときに最適のデータ縮約を提供するウィンドウサイズは25であると評価することができる。このとき、最適のデータ縮約条件に対する評価は1つの次元に限定されず、図11Bに示すように学習履歴が保存された全てのデータ次元に対して最適のデータ縮約を評価することができる。
1つのデータ次元に対する最適のデータ縮約条件は、図11Aで「知識増強区間」に例示した領域に対して、図11Cに例示した最適化評価によって、最適のデータ縮約条件を見付けることができる。すなわち、図11Aで「知識増強区間」に例示した領域に含まれた全体学習履歴を抽出して、図11の(c)に例示したように整列することができる。
図11Cの水平軸は図11Aの垂直軸と同一である。すなわち、図11Cの水平軸はウィンドウサイズを示す。図11Cの垂直軸はRMSEに示された学習結果の信頼度(または正確度)を意味する。
図11Aで「知識増強区間」に例示した領域に含まれた全体学習履歴に対して、RMSEのサイズを考慮して2次元曲線でフィッティング(fitting)をすると、データ縮約のためのウィンドウの最適条件を評価することができる、すなわち、図11Cで最初に設定した縮約基準50でのウィンドウサイズは20であるが、学習履歴を利用してフィッティングした最適の縮約基準での最適のウィンドウサイズは18になる。
メタ最適化機10は学習履歴を利用した最適のデータ縮約条件への評価を行い、前記評価を利用してウィンドウサイズを18に設定した新たな縮約基準情報をスキーマ情報に追加する。前記スキーマ情報の追加過程において、ユーザーの介入やユーザーによる入力を必要としないので、スキーマ情報を自動更新する継続的学習が施される。
本発明による継続的学習のためのデータメタスケーリング装置及び方法では、知識増強基準を満たすように学習履歴が十分に保存された以降には、新たな学習履歴が保存される度に図11Aないし11Cを参照して説明した知識増強プロセスに応じて持続的な縮約基準の最適化を行うことができる。
このように、スキーマ情報に含まれている縮約基準を更新する過程によって継続的学習を構成する手順を自動化することができ、持続的な知識増強プロセスを行なってデータ縮約のための縮約基準の最適化を自動化することができる。
以上で説明した本発明の継続的学習のためのメタスケーリング装置及び方法は、プログラムで具現されて記録媒体に保存された後、プロセッサによってロードされて行われることができる。
本発明に係る機能を具現するプログラムモジュール、例えば、メタ最適化機、縮約機、学習機及び評価機はサーバファーム(Server Farm)のようにネットワークにわたって分散型に具現され、或いは単一のコンピュータ装置のプロセッサ内に埋め込まれることもできる。
また、本発明の継続的学習のためのメタスケーリング装置は、プログラマブルプロセッサ、コンピュータ或いは多重プロセッサやコンピュータを含んでデータを処理するための全ての機構、装置及び機械に埋め込まれることができる。
また、本発明に係る継続的学習のためのデータメタスケーリング装置及び方法は、例えば、データサーバのようなバックエンドコンポーネントを含んだり、アプリケーションサーバのようなミドルウェアコンポーネントを含んだり、ユーザーが本明細書で説明した構成と相互作用できるウェブブラウザやグラフィックユーザーインタフェースを持つクライアントコンピュータのようなフロントエンドコンポーネント、或いはそのようなバックエンド、ミドルウェア或いはフロントエンドコンポーネントのうちいずれか1つ以上の全ての組み合わせをさらに含むことができる。
以上で説明した実施形態は、その一例として本発明の属する技術分野で通常の知識を持つ者であれば、本発明の本質的な特性から外れない範囲で様々な修正や変形が可能になる。従って、本発明に開示された実施形態は、本発明の技術思想を限定するためのものではなく説明するためのものであり、このような実施形態により本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は特許請求の範囲によって解釈されなければならず、その同等の範囲内にある全ての技術事項は本発明の権利範囲に含まれるものと解釈されなければならない。
10、100:メタ最適化機 110:複合次元データ縮約機
20:縮約機 30:学習機
40、400:評価機 50、500:メタデータストア
200:多数の縮約機 300:多数の学習機

Claims (17)

  1. プロセッサは、入力データを他の属性で表現されるように縮約する規則を定義した縮約基準情報、前記縮約データへの学習を制限する規則と学習性能の評価規則を定義した学習基準情報及び前記縮約基準情報を最適化するための規則を定義した知識増強基準情報を設定するステップと、
    前記プロセッサは、前記縮約基準情報に基づいて前記入力データを縮約データに縮約するステップと、
    前記プロセッサは、前記学習基準情報に基づいて前記縮約データへの学習を行なって学習モデルを生成するステップと、
    前記プロセッサは、前記学習基準情報に基づいて前記学習モデルの性能を評価して前記縮約データの適切性を判断するステップと、及び
    前記プロセッサは、前記適切性を判断した結果に応じて前記知識増強基準情報に基づいて前記縮約基準情報を更新する知識増強を行なうステップと、
    を含む継続的学習のためのデータメタスケーリング方法。
  2. 前記設定するステップは、多数の属性で表現される前記入力データを前記多数の属性のうち少なくとも1つの属性で表現されるように縮約する規則を定義した前記縮約基準情報を設定するステップを含む請求項1に記載の継続的学習のためのデータメタスケーリング方法。
  3. 前記設定するステップは、前記入力データが多数の属性で表現されるとき、前記多数の属性のうちいずれか1つの属性を定義するデータ次元を示す情報、前記入力データのサンプリング単位を定義するウィンドウを示す情報、前記ウィンドウの種類を示す情報、前記ウィンドウのサイズを示す情報及び前記ウィンドウ内で代表値を選択する基準を示す情報を含むように構成された前記縮約基準情報を設定するステップを含む請求項1に記載の継続的学習のためのデータメタスケーリング方法。
  4. 前記設定するステップは、前記入力データの種類を示す情報、前記学習モデルの性能を評価するための学習信頼度の条件を示す情報、前記学習信頼度の計算方法を示す情報及び前記縮約データへの学習の反復回数を制限する前記学習の早期終了条件を示す情報を含むように構成された前記学習基準情報を設定するステップを含む請求項1に記載の継続的学習のためのデータメタスケーリング方法。
  5. 前記設定するステップは、前記縮約基準情報の変動回数を示す情報、前記縮約基準情報の変動要素を示す情報、前記変動要素の変動範囲を示す情報、前記縮約データへの学習を行なう過程で発生した学習履歴の累積回数を示す情報を含むように構成された前記知識増強基準情報を設定するステップを含む請求項1に記載の継続的学習のためのデータメタスケーリング方法。
  6. 前記変動要素は、前記入力データのサンプリング単位を定義するウィンドウに関する情報である請求項5に記載のデータメタスケーリング方法。
  7. 前記ウィンドウに関する情報は、前記ウィンドウのサイズ及びウィンドウ間の間隔を示す情報を含む請求項6に記載のデータメタスケーリング方法。
  8. 前記縮約するステップは、
    前記入力データが多数の属性で表現され、前記多数の属性を多数のデータ次元にそれぞれ定義するとき、
    各データ次元で前記入力データを前記入力データの代表値としてサンプリングする第1のプロセス、前記入力データを前記多数のデータ次元で選択された少なくとも1つのデータ次元に変更する第2のプロセス及び前記第1のプロセスと前記第2のプロセスとが結合された第3のプロセスのうちいずれか1つのプロセスによって前記入力データを縮約データに縮約するステップである請求項1に記載のデータメタスケーリング方法。
  9. 前記第1のプロセスは、
    前記入力データを前記入力データの代表値として周期的にサンプリングするプロセスと、
    前記入力データを前記入力データの代表値として非周期的にサンプリングするプロセスと、
    前記入力データのサンプリング単位を定義するウィンドウが複数であり、複数のウィンドウが重複していない状態で各ウィンドウで代表値を選択する固定ウィンドウ基盤のサンプリングプロセスと、及び
    前記複数のウィンドウが重複した状態で各ウィンドウで代表値を選択するムービングウィンドウ基盤のサンプリングプロセスと、
    を含む請求項8に記載のデータメタスケーリング方法。
  10. 前記知識増強を行なうステップは、
    前記学習モデルの性能を評価するために計算された学習信頼度が学習基準情報で定義する前記学習性能の評価規則に規定した条件を満たしていない場合、前記知識増強基準情報で定義する前記縮約基準情報の変動要素を示す情報及び前記変動要素の変動範囲に応じて前記縮約基準情報を変更するステップと、及び
    前記変更された縮約基準情報に応じて縮約された前記縮約データへの学習を行なって生成された学習モデルの性能が前記学習基準情報に規定する条件を満たすと、前記変更された縮約基準情報を最適の縮約基準情報に更新するステップと、
    を含む請求項1に記載のデータメタスケーリング方法。
  11. 入力データを他の属性で表現されるように縮約する規則を定義した縮約基準情報、前記縮約データへの学習を制限する規則と学習性能の評価規則を定義した学習基準情報及び前記縮約基準情報を最適化するための規則を定義した知識増強基準情報を設定するメタ最適化機と、
    前記縮約基準情報に基づいて前記入力データを縮約データに縮約する縮約機と、
    前記学習基準情報に基づいて前記縮約デーへの学習を行なって学習モデルを生成する学習機と、及び
    前記学習基準情報に基づいて前記学習モデルの性能を評価して前記縮約データの適切性を判断する評価機と、を含み、
    前記メタ最適化機は、
    前記適切性を判断した結果に応じて前記知識増強基準情報に基づいて前記縮約基準情報を更新するための知識増強を行う継続的学習のためのデータメタスケーリング装置。
  12. 前記メタ最適化機は、
    多数の属性で表現される前記入力データを前記多数の属性のうち少なくとも1つの属性で表現されるように縮約する規則を定義した前記縮約基準情報を設定する請求項11に記載の継続的学習のためのデータメタスケーリング装置。
  13. 前記メタ最適化機は、
    前記入力データが多数の属性で表現されるとき、前記多数の属性うちいずれか1つの属性を定義するデータ次元を示す情報、前記入力データのサンプリング単位を定義するウィンドウを示す情報、前記ウィンドウの種類を示す情報、前記ウィンドウのサイズを示す情報及び前記ウィンドウ内で代表値を選択する基準を示す情報を含むように構成された前記縮約基準情報を設定する請求項11に記載の継続的学習のためのデータメタスケーリング装置。
  14. 前記メタ最適化機は、
    前記入力データの種類を示す情報、前記学習モデルの性能を評価するための学習信頼度の条件を示す情報、前記学習信頼度の計算方法を示す情報及び前記縮約データへの学習の反復回数を制限する前記学習の早期終了条件を示す情報を含むように構成された前記学習基準情報を設定する請求項11に記載の継続的学習のためのデータメタスケーリング装置。
  15. 前記メタ最適化機は、
    前記縮約基準情報の変動回数を示す情報、前記縮約基準情報の変動要素を示す情報、前記変動要素の変動範囲を示す情報、前記縮約データへの学習を行なう過程で発生する学習履歴の累積回数を示す情報を含むように構成された前記知識増強基準情報を設定する請求項11に記載の継続的学習のためのデータメタスケーリング装置。
  16. 前記変動要素は、
    前記入力データのサンプリング単位を定義するウィンドウに関する情報である請求項15に記載のデータメタスケーリング装置。
  17. 前記メタ最適化機は、
    前記学習モデルの性能が前記学習性能の評価規則に規定した条件を満たしていない場合、前記知識増強基準情報で定義する前記縮約基準情報の変動要素及び前記変動要素の変動範囲に応じて前記縮約基準情報を変更し、前記変更された縮約基準情報に応じて縮約された前記縮約データへの学習を行なって生成された前記学習モデルの性能が前記学習基準情報で規定する条件を満たすと、前記変更された縮約基準情報を前記更新された縮約基準情報として保存場所に保存して知識増強を行なう請求項11に記載のデータメタスケーリング装置。
JP2017254556A 2017-01-03 2017-12-28 継続的学習のためのデータメタスケーリング装置及び方法 Active JP6980521B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20170000690 2017-01-03
KR10-2017-0000690 2017-01-03
KR10-2017-0177880 2017-12-22
KR1020170177880A KR102470145B1 (ko) 2017-01-03 2017-12-22 자가 학습을 위한 데이터 메타 스케일링 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2018109996A JP2018109996A (ja) 2018-07-12
JP6980521B2 true JP6980521B2 (ja) 2021-12-15

Family

ID=62568047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017254556A Active JP6980521B2 (ja) 2017-01-03 2017-12-28 継続的学習のためのデータメタスケーリング装置及び方法

Country Status (3)

Country Link
US (1) US20180189655A1 (ja)
JP (1) JP6980521B2 (ja)
DE (1) DE102017131259A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101978135B1 (ko) * 2017-04-28 2019-05-15 한국전력공사 전력설비 데이터 품질 정보 생성 장치 및 방법
JP6904186B2 (ja) * 2017-09-15 2021-07-14 トヨタ自動車株式会社 車載装置、情報処理装置、情報処理方法、及びプログラム
WO2019172956A1 (en) 2018-03-06 2019-09-12 Tazi AI Systems, Inc. Continuously learning, stable and robust online machine learning system
SG10201906345RA (en) * 2018-07-09 2020-02-27 Tata Consultancy Services Ltd Method and system for generation of hybrid learning techniques
JP7172356B2 (ja) * 2018-09-25 2022-11-16 日本電気株式会社 AI(artificial intelligence)実行支援装置、方法、及びプログラム
CN109800333A (zh) * 2019-01-02 2019-05-24 平安科技(深圳)有限公司 基于机器学习的报表生成方法、装置和计算机设备
JP7050028B2 (ja) * 2019-03-28 2022-04-07 株式会社日立製作所 計算機システム及び機械学習の制御方法
KR102277002B1 (ko) * 2019-11-04 2021-07-13 에스케이텔레콤 주식회사 학습 데이터 마련 장치 및 이를 이용한 학습 데이터 마련 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000690A (ko) 2015-06-24 2017-01-03 엘지전자 주식회사 전자디바이스

Also Published As

Publication number Publication date
US20180189655A1 (en) 2018-07-05
JP2018109996A (ja) 2018-07-12
DE102017131259A1 (de) 2018-07-05

Similar Documents

Publication Publication Date Title
JP6980521B2 (ja) 継続的学習のためのデータメタスケーリング装置及び方法
Tekouabou et al. Improving parking availability prediction in smart cities with IoT and ensemble-based model
Long et al. Unified spatial-temporal neighbor attention network for dynamic traffic prediction
JP6384065B2 (ja) 情報処理装置、学習方法、及び、プログラム
CN110910659B (zh) 一种交通流量预测方法、装置、设备以及存储介质
CN112187554B (zh) 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN105893669A (zh) 一种基于数据挖掘的全局仿真性能预测方法
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
Xu et al. Traffic speed prediction: spatiotemporal convolution network based on long-term, short-term and spatial features
CN114944053A (zh) 一种基于时空超图神经网络的交通流预测方法
CN113094860A (zh) 一种基于注意力机制的工控网络流量建模方法
CN115730684A (zh) 一种基于lstm-cnn模型的空气质量检测系统
CN105740431A (zh) 一种基于多层周期指数递阶的时序数据预测方法
Yuan et al. Research on K nearest neighbor non-parametric regression algorithm based on KD-tree and clustering analysis
KR102470145B1 (ko) 자가 학습을 위한 데이터 메타 스케일링 장치 및 방법
Ira et al. Tuning of multivariable model predictive controllers through expert bandit feedback
CN113240219A (zh) 一种土地利用模拟及预测方法
CN116386312A (zh) 一种交通量预测模型的构建方法和系统
Jing et al. RPR: recommendation for passengers by roads based on cloud computing and taxis traces data
CN116578858A (zh) 基于图神经网络的空压机故障预测与健康度评价方法及系统
CN113240904B (zh) 基于特征融合的交通流预测方法
CN113689694B (zh) 一种车流量预测方法、装置、设备及可读存储介质
Chen et al. Daily ETC traffic flow time series prediction based on k-NN and BP neural network
Miao et al. GDENet: graph differential equation network for traffic flow prediction
Qiu et al. CDSTTN: A Data Imputation Method for Cyber-Physical Systems by Causal Dense Spatial-Temporal Transformer Network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211117

R150 Certificate of patent or registration of utility model

Ref document number: 6980521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250