JP2022037955A - 学習モデルを選択するシステム - Google Patents

学習モデルを選択するシステム Download PDF

Info

Publication number
JP2022037955A
JP2022037955A JP2020142194A JP2020142194A JP2022037955A JP 2022037955 A JP2022037955 A JP 2022037955A JP 2020142194 A JP2020142194 A JP 2020142194A JP 2020142194 A JP2020142194 A JP 2020142194A JP 2022037955 A JP2022037955 A JP 2022037955A
Authority
JP
Japan
Prior art keywords
new
task
feature quantity
learning model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020142194A
Other languages
English (en)
Other versions
JP2022037955A5 (ja
Inventor
シャルル リマサンチェス
Charles Limasanches
雄一 野中
Yuichi Nonaka
隆 金丸
Takashi Kanamaru
佑人 小松
Yuto Komatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020142194A priority Critical patent/JP2022037955A/ja
Priority to CN202110900758.0A priority patent/CN114118194A/zh
Priority to US17/406,494 priority patent/US20220067428A1/en
Priority to DE102021209171.7A priority patent/DE102021209171A1/de
Publication of JP2022037955A publication Critical patent/JP2022037955A/ja
Publication of JP2022037955A5 publication Critical patent/JP2022037955A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

【課題】訓練済みの学習モデルから、新規タスクのために利用する適切な学習モデルを選択する。【解決手段】記憶装置は、複数の既存学習モデルそれぞれの関連情報を格納する。プロセッサは、新規タスクの内容に関する情報を取得し、新規タスクのための新規訓練データセットから新規特徴量ベクトルを抽出する。プロセッサは、関連情報を参照して、複数の既存モデルそれぞれのタスクの内容に関する情報と、複数の既存モデルそれぞれの訓練データの特徴量ベクトルと、を取得する。プロセッサは、新規タスクの内容に関する情報と複数の既存モデルそれぞれのタスクについての情報との比較結果、及び、新規特徴量ベクトルと複数の既存モデルそれぞれの特徴量ベクトルとの比較結果、に基づき、複数の既存モデルから新規タスクのための候補学習モデルを選択する。【選択図】図2

Description

本発明は、学習モデルを選択するシステムに関する。
「ロングテール事業活動」(多くの顧客を有するが、各顧客についてわずかなデータしか利用できない事業活動)を行う企業にとって、以前に開発した深層学習モデルを新しい顧客のために使用することは、有益である。例えば、特許文献1は、深層学習ネットワークモデルを生成する方法を開示する。この方法は、ユーザからのマルチモーダル入力から、深層学習ネットワークの生成に関連する1以上の項目を抽出し、その項目に基づいて深層学習ネットワークモデルに起因する詳細を推定する。当該方法は、深層学習ネットワークモデルに基づく中間表現を作成し、その中間表現は、深層学習ネットワークモデルに関連する1以上のデータ項目、及び深層学習ネットワークモデルに起因する1以上の設計詳細を含む。当該方法は、中間表現をソースコードに自動的に変換する。
米国特許出願公開第2018/0307978号
しかし、以前に開発した深層学習モデルを新しい顧客のために使用することは、いくつかの理由から困難である。それら理由は、顧客のデータセット間のドメインギャップ、深層学習フレームワークの相違、タスクの相違等である。さらに、一つの顧客のデータセットを評価し、追加データで補強することは困難である。そのため、これまでのアプローチでは、新しい顧客のデータを十分に集めるか、新しいモデルをわずかな量のデータで一から構築している。前者では学習の実施がその分遅れてしまう問題があり、後者では性能が十分に良好にならない可能性があるという問題がある。また、以前に構築したモデルが使用される場合、その実装を理解するために多大の努力が必要とされる。
本発明の一態様は、ユーザタスクに対する学習モデルを選択するシステムであって、1以上のプロセッサと、1以上の記憶装置と、を含み、前記1以上の記憶装置は、複数の既存学習モデルそれぞれの関連情報を格納し、前記1以上のプロセッサは、新規タスクの内容に関する情報を取得し、前記新規タスクのための新規訓練データセットから新規特徴量ベクトルを抽出し、前記関連情報を参照して、前記複数の既存モデルそれぞれのタスクの内容に関する情報と、前記複数の既存モデルそれぞれの訓練データの特徴量ベクトルと、を取得し、前記新規タスクの内容に関する情報と前記複数の既存モデルそれぞれのタスクについての情報との比較結果、及び、前記新規特徴量ベクトルと前記複数の既存モデルそれぞれの特徴量ベクトルとの比較結果、に基づき、前記複数の既存モデルから前記新規タスクのための候補学習モデルを選択する。
本発明の一態様によれば、訓練済みの学習モデルから、新規タスクのために利用する適切な学習モデルを選択できる。
本明細書の一実施形態に係るモデル生成システムの論理構成を模式的に示す。 本明細書の一実施形態に係るモデル生成システムのハードウェア構成例を示す。 本明細書の一実施形態に係る、モデル生成システムの全体動作例を示す。 本明細書の一実施形態に係る、タスク分析部、本質特徴量抽出部、データベース比較部、そしてモデル選択部の処理例を示す。 本明細書の一実施形態に係るデータセット評価部の処理例を示す。 本明細書の一実施形態に係る、モデルデータベースに格納されているデータの構成例を示す。 学習モデル選択のためのユーザインタフェースと、当該ユーザインタフェースのデータのためのモデル生成システムの処理と、の例を模式的に示す。 ユーザデータセットに新たなデータを追加するためのユーザインタフェース画像の例を模式的に示す。 本明細書の一実施形態に係る、初期化フェーズを模式的に示す。
以下においては、便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上のプロセッサを含む。
プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
以下に提案するシステムは、以前に構築した学習モデルの使用を、データベース及びユーザが実行することを望むタスクの記述に基づいて自動的に適切なモデルを選択することによって、容易なものとする。既存の学習モデルのタイプは任意であり、例えば、深層学習モデルである。以下において、学習モデルを単にモデルとも呼ぶ。
[概略]
一実施形態において、ユーザは、システムに対して、自分が実行することを望むタスク(新規タスク)の簡単な記述を、そのタスクの訓練データセットと共に、入力する。システムは、本質特徴量を訓練データセットから抽出し、タスクの記述からその関連情報を抽出する。システムは、モデルと共にその訓練に使用したデータ、対応する本質特徴量及び対応タスクの記述を格納しているデータベースにおいて、これら情報を使用して関連のある学習モデルを見つけ出す。データベースから選択された学習モデルは、ユーザのデータセットを使用して微調整(再訓練)される。これにより、異なるユーザデータセットに対して、モデルを適応化できる。
他の態様において、上記構成に加えて、ユーザの訓練データセットが評価され、モデルに対して有害なサンプルの訓練データセットにおける割合が演算される。有害サンプルは、学習モデルの訓練に有害なサンプルであって、例えば、誤ったラベル付けや低品質データの収集を原因とする外れ値である。訓練データセットにおける有害サンプルの割合に基づいて、システムは、ユーザの訓練データセットを、既存データベースやインターネット等から取得した新しいデータで補強できる。これにより、ユーザのための学習モデルの性能を高めることができる。
訓練データに追加するために適切なデータを発見するため、システムは、ユーザにより与えられるタスク記述を分析する。この新しいデータは、再び評価され、モデルに対して有害ではないことが保証される。新しいデータは、有害データの割合が閾値より小さく、学習モデルの最大性能を保証できるまで収集される。最後に、学習モデルが、ユーザの訓練データセットで訓練される(微調整される)。
他の態様において、上記構成に加え、微調整された学習モデルは、その訓練データセット、抽出された本質特徴量及びタスク記述と共に、データベースに格納され、システムの将来の使用に利用可能となる。
以下に開示するシステムは、ユーザが、そのタスクのために最適な学習モデルを容易に見つけることを可能とする。ユーザは、そのタスクのための学習モデルを一から構成する必要がなく、ユーザの時間を節約できる。システムは異なるデータに適応可能であり、ユーザ、様々なタスクに対して同一の学習モデルを利用することができる。さらに、システムは、ユーザの訓練データセットを評価し、必要に応じて新しいデータを追加することで、学習モデルの性能を向上できる。
本明細書の一実施形態のシステムは、タスク分析部及び本質特徴量抽出部を含む。タスク分析部への入力は、ユーザによって入力される記述であり、ユーザが達成することを望むタスクの内容を簡単に説明する。タスク分析部の出力は、次の機能部が最適な学習モデルを取得するために使用できるフォーマットにおけるタスクの表現である。一例として、このタスク表現は、キーワード列や文字列の形態をとることができる。ユーザに入力されるタスク記述及びタスク記述から生成されるタスク表現は、タスクの内容に関する情報である。
本質特徴量抽出部の入力は、複数ファイルを含むフォルダ形式でのユーザの訓練データセットであり、各ファイルは訓練データセットの一つのサンプルである。本質特徴量抽出部の出力は、ユーザの訓練データセットに含まれるデータサンプルそれぞれに対応する一次元特徴量ベクトルである。一次元特徴量ベクトルは、複数の要素を含むことができる。
本質特徴量抽出部は、例えば、オートエンコーダニューラルネットワークを使用することができる。ネットワークは、入力を連続するニューロンの層によって処理しながら、入力の次元を低減する。一例として、この技術を使用することで、二次元画像を、一次元ベクトルに減縮できる。
オートエンコーダのアーキテクチャは、disentanglement特性を有するように構成され、ユーザ固有特徴量と本質特徴量とを分離することができる。disentangledは、もつれが解かれた状態であり、disentangled表現学習は公知の技術である。disentanglement特性を有するアーキテクチャは、互いに独立した特徴量を捉えることができ、潜在空間において入力データ中の要素ごとに特徴量を生成する。本質特徴量ベクトルは、システムがユーザのタスクを解決するための重要な特徴量からなるベクトルである。本質特徴量ベクトルの決定方法の詳細は後述する。
双方の機能部の出力は、データベース比較部の入力として使用される。ユーザ記述から抽出したタスク表現について、データベース比較部は、それをデータベース内の他のタスク表現と比較する。一例として、タスク表現が文字列の形式である場合、最も類似する列は、レーベンシュタイン距離のような古典的なメトリック距離を使用して取得できる。また別の例として、タスク表現がキーワード列の場合、各単語の出現頻度をベクトルとして比較するといった一般的な文書比較手法を用いることでよい。データベースは、既存モデルのタスク表現自体を格納してもよく、タスクについてのユーザの記述からそのタスク表現が生成されてもよい。
本質特徴量ベクトルについて、データベース比較部は、それを、データベース内の他の本質特徴量ベクトルと比較する。比較は、例えば、ユークリッド距離のような古典的なメトリック距離を使用して実現できる。データベースは、既存モデルの本質特徴量ベクトル自体を格納してもよく、データベース内の既存モデルの訓練データからその本質特徴量ベクトルが、比較のために生成されてもよい。
タスク比較及びベクトル比較の結果を使用することで、ユーザのタスクに対して最適な学習モデルを選択することができる。これにより、ユーザは、予め存在する適切な学習モデルを新しいタスクに再利用することができる。本質特徴量の抽出により、選択された学習モデルが、ユーザの訓練データセットと異なるデータにより訓練されたものであっても、良好な性能を示すことができる。最適学習モデルが一旦選択されると、選択された学習モデルは、ユーザのデータセットを使用して訓練される(微調整される)。
また、少なくも一つの実施形態は、上記構成要素に加えて、ユーザの訓練データセットを評価し、モデルに対して有害なサンプルの割合を計算することができるモジュールを含むことができる。有害なサンプルは、訓練データセットにおいて、モデルの性能を低下させるサンプルである。そのようなデータは、間違ったラベリングや低品質のデータサンプルによる外れ値であり得る。このようなデータは、チェックされ、特定の修正が実行される(サンプルの削除、ラベルの付け替え等)。
データ評価部の入力は、モデル選択部により選択された学習モデル及びユーザの訓練データセットである。データ評価部は、訓練データセットにおける有害データの割合を出力する。データ評価部は、公知の影響関数技術に基づくことができ、この技術はモデルの性能に対する各データサンプルの影響度を評価する。影響度により、当該サンプルが有害であるか判定できる。
有害データの割合が所定の閾値を超える場合、システムは、既存データベースやオープンネットワークからのデータを使用して、データセットを補強する(新しいデータサンプルを追加する)。このデータセットの増強は、例えば、ユーザにより与えられたタスク(タスクについての記述)を分析することにより行われる。新しいデータは、データ評価部により再度評価され、有害であるか否かチェックされて初期データに追加される。このような機能部は、非常に少ないデータ又は多くのノイズ(誤ったラベルのデータ)を含む訓練データセットに対して有益である。
また、少なくとも一例は、上記構成要素に加えて、新しく訓練された学習モデルを格納することができるモジュールを含むことができる。学習モデルは、将来にシステムによって使用できるように、自動的にフォーマットされる。このモジュールは、学習モデルに関連付けて、ユーザの訓練データセットの本質特徴量ベクトル及びユーザに入力されたタスク記述や抽出されたタスク表現を格納できる。モジュールは、ユーザの訓練データセットを格納してもよい。
[具体的構成]
以下において、図面を参照して、本明細書の実施形態の例を具体的に説明する。図1Aは、本明細書の一実施形態に係るモデル生成システム10の論理構成を模式的に示す。モデル生成システム10は、ユーザインタフェース101、タスク分析部102、本質特徴量抽出部103、データベース比較部104、モデル選択部105、データセット評価部106、モデル訓練部107、そして、モデルデータベース(モデル格納部)108を含む。
ユーザインタフェース101は、ユーザがデータを入力するための画像を生成及び出力装置において表示すると共に、ユーザが入力装置を介して入力したデータを受け取る。タスク分析部102は、ユーザに入力されたタスク記述から、学習モデル選択のためのタスク表現を抽出する。本質特徴量抽出部103は、ユーザタスクの訓練データセットから、本質特徴量ベクトルを抽出する。
データベース比較部104は、データベースに格納されている学習モデルに関連する情報と、ユーザタスクのタスク表現及び本質特徴量ベクトルとを比較する。ユーザタスクに適した学習モデルを選択する。データセット評価部106は、モデル選択部105は、ユーザの訓練データセットにおける有害データを検出する。
モデル訓練部107は、選択された既存学習モデルを、ユーザの訓練データセットによって訓練する。モデルデータベース108は、既存モデル及びその関連情報、並びに、新たに訓練された学習モデル及びその関連情報を格納する。関連情報は、後述するように、学習モデルのタスク記述及び訓練データの本質特徴量ベクトルを含む。
図1Bは、モデル生成システム10のハードウェア構成例を示す。モデル生成システム10は、演算性能を有するプロセッサ151と、プロセッサ151が実行するプログラム及びデータを格納する揮発性一時記憶領域を与えるメモリ152と、を含む。モデル生成システム10は、さらに、他の装置とデータ通信をおこなう通信装置153と、HDD(Hard Disk Drive)やフラッシュメモリなどを利用した永続的な情報記憶領域を与える補助記憶装置154と、を含む。主記憶装置であるメモリ152、補助記憶装置154及びそれらの組み合わせは、記憶装置の例である。
また、モデル生成システム10は、ユーザからの操作を受け付ける入力装置155と、各プロセスでの出力結果をユーザに提示する出力装置156と、を含む。入力装置155は、例えば、キーボード、マウス、タッチパネル等を含み、出力装置156は、例えば、モニタやプリンタを含む。
図1Aに示す機能部101~107は、例えば、プロセッサ151がメモリ152に格納されている対応するプログラムを実行することで実現できる。モデルデータベース108は、例えば、補助記憶装置154に格納されることができる。なお、モデル生成システム10は、一つの計算機又は互いに通信可能な複数の計算機で構成してよい。
図2は、本明細書の一実施形態に係る、モデル生成システム10の全体動作例を示す。モデル生成システム10は、二つの入力を有する。一つは、文(sentence)又は文章(text)の形式での、ユーザのタスクの簡単な記述181である。他の一つは、ファイルのフォルダ形式でのユーザの訓練データセット(ユーザデータセット)182である。各ファイルは一つのサンプルデータであり、サンプルデータは、タスクの処理対象データ(入力データ)とラベルとを含む。
タスク分析部102は、ユーザタスク記述181を分析して、ユーザタスク記述からキーワードのような有益な情報を抽出する(S101)。ユーザデータセット182は、本質特徴量抽出部103に入力される。本質特徴量抽出部103は、ユーザデータセット182から、本質特徴量ベクトルを抽出する(S102)。
本質特徴量抽出部103の出力と、タスク分析部102の出力とは、データベース比較部104に入力される。データベース比較部104は、ユーザタスクの本質特徴量ベクトル及びタスク表現と、モデルデータベース108内の既存モデルそれぞれの本質特徴量ベクトル及びタスク表現とを比較し、その比較結果を出力する(S103)。モデル選択部105は、データベース比較部104の比較結果に基づいて、ユーザタスクに最適な既存学習モデルを選択する(S104)。選択された学習モデルは、ユーザのデータセット182と共に、データセット評価部106に入力される。
データセット評価部106は、ユーザデータセット182における各サンプルを処理して、サンプルが選択されたモデルに対して有害であるか評価する(S105)。後述するように、サンプルの評価は、例えば、影響関数を使用することができる。有害サンプルは、訓練によりモデルの性能を低下させるサンプルであり、例えば間違ったラベル付けや低品質データが原因となり得る。
全てのサンプルの処理の後、データセット評価部106は、データセットにおける有害サンプルの割合を算出する。この割合に基づいて、モデル生成システム10は、二つの行為の間で一方を選択する(S106)。
有害データの割合が、ある閾値以上である場合(S106:NO)、データセット評価部106は、モデルデータベース108に格納されている又は他のデータベース(例えばインターネット上のデータベース)から、新しいデータを取得する(S107)。この閾値は例えば30%といった固定値を設定するのでもよく、または学習モデルの性能を保証可能と考えられる値をユーザが指定可能なようにしてもよい。
データセット評価部106は、例えば、ユーザタスクのタスク記述に関連するデータや、本質特徴量ベクトルが近いデータを検索する。または検索の結果で十分なデータが取得できなかった場合に他のデータベースから取得する。新たに取得されたデータは、データセット評価部106により、例えば影響関数を使用するなどで評価され有害であるか否かチェックされ、有害でないと判定されれば初期データに追加される(S108)。新たなデータの取得は、有害サンプルの割合が閾値より小さくなるまで繰り返される。
この処理により非常に少ないデータ又は多くのノイズ(誤ったラベルのデータ)を含む訓練データセットに対しても自動的に学習に有効なデータを補強して学習の性能を向上する効果が得られる。またこの時、データセット評価部106は有害データを訓練データセットから除外するように処理してもよい。またS107及びS108の処理は1サンプル毎に繰り返してもよいし、例えばS105で有害サンプルと判別された数だけ纏めて実行してもよい。
有害サンプルの割合が閾値より小さくなると(S106:YES)、モデル訓練部107は、ユーザデータセットによって、選択された学習モデルを訓練する(S109)。訓練における学習モデルへの入力は、ユーザデータセットから抽出された本質特徴量ベクトルである。その後、訓練された学習モデル、訓練データの本質特徴量ベクトル、及びタスク記述が、モデルデータベース108に格納されて、将来のために使用可能となる(S110)。
図3は、本明細書の一実施形態に係る、タスク分析部102、本質特徴量抽出部103、データベース比較部104、そしてモデル選択部105の処理例を示す。本質特徴量抽出部103は、オートエンコーダを使用して本質特徴量ベクトルを抽出する。オートエンコーダは、ニューラルネットワークであって、入力を複数のニューロンの層を介して処理して、入力(ユーザデータセット182のサンプル)の次元を削減する。
本実施形態において、オートエンコーダは、disentanglement特性を有しており、二つのベクトルを生成することができる。一つはユーザ固有の特徴量からなるユーザ固有特徴量ベクトル301であり、他の一つは本質特徴量からなる本質特徴量ベクトル302である。本質特徴量ベクトル302は、ユーザのタスクに対して有益な特徴量のみを含むベクトルである。本質特徴量ベクトル302は、ユーザデータセット182の各サンプルから生成される。これら本質特徴量ベクトル302は、データベース比較部104に入力される。
データベース比較部104は、ユーザの本質特徴量ベクトル302と、モデルデータベース108に格納されている他のベクトルとを、例えばユークリッド距離のような古典的なベクトル距離を使用して、比較する。データベース比較部104は、複数の本質特徴量ベクトル302のそれぞれを、モデルデータベース108に格納されている各既存学習モデル(各訓練済み学習モデル)の本質特徴量それぞれと比較する。例えば、データベース比較部104は、ユーザデータセットの本質特徴量ベクトルそれぞれと、各既存モデルの本質特徴量ベクトルそれぞれとの距離の所定の統計値、例えば平均値を算出する。この値が、各既存モデルとユーザデータセットとの間の比較結果として出力される。
タスク分析部102は、ユーザのタスク記述181から、ユーザタスク表現305を生成する。上述のように、タスク表現は、例えば文字列であって、列ベクトルの形式をとることができる。すなわち、ベクトルの各行がタスク記述の各文字となり、図6のタスク記述「パブリックエリアの画像における異常検出」から[[パ][ブ][リ]・・・[出]]という19×1行列ベクトルが生成される。
データベース比較部104は、タスク分析部102が生成したユーザタスク表現305と、モデルデータベース108に格納されている既存学習モデルのタスク表現それぞれとを比較する。タスク表現の比較は、レーベンシュタイン距離のような古典的テキスト距離測定方法を使用して、行うことができる。算出された距離が、各既存モデルのタスクとユーザタスクとの間の比較結果として出力される。
モデル選択部105は、データベース比較部104により算出された本質特徴量ベクトルの比較結果とタスク表現の比較結果とに基づいて、データベース108に格納されている既存学習モデルから、1又は複数の適切な候補を選択する。例えば、モデル選択部105は、所定の関数にタスク表現及び本質特徴量ベクトルの比較結果を入力して、類似度スコアを算出する。類似する上位から1又は複数の既存学習モデルを候補として選択する。
図4は、本明細書の一実施形態に係るデータセット評価部106の処理例を示す。理解を容易なものとするため、ユーザデータセット182、ユーザ固有特徴量ベクトル301及び本質特徴量ベクトル302を生成する本質特徴量抽出部103の処理、並びにモデル訓練部107の処理が、合わせて図示されている。
モデルデータベース108から選択された学習モデルと、本質特徴量抽出部103により生成された本質特徴量ベクトル302が与えられると、データセット評価部106は、ユーザデータセット182の評価を行う(S105)。データセット評価部106は、例えば、影響関数技術を使用して、ユーザデータセット182における各サンプルの本質特徴量が、選択した学習モデルの性能に対する影響度を算出する。影響関数により、個々のサンプルの本質特徴量が、訓練における学習モデルによる推論に与える影響度を算出する。影響度を参照することで、データセットにおける有害サンプル、例えば誤ったラベル付け又は低データ品質を原因とする外れ値を検出できる。
データセット評価部106は、ユーザデータセット182における有害サンプルの割合314を演算する。有害サンプルの割合314が閾値T以上である場合(S106:NO)、データセット評価部106は、新しいデータを取得する(S107)。データセット評価部106は、例えば、既存データベースからデータを取得する又はインターネットから収集する。これらの処理は前述のとおりである。
データセット評価部106は、新たに取得されたデータを評価する(S108)。S107及びS108は、有害サンプルの割合が閾値Tより小さくなるまで繰り返される。一旦この要求条件が満たされると、モデル訓練部107は、選択した学習モデルをユーザデータセット182または新しいデータを加えて更新されたデータセットで訓練(微調整)する(S109)。
図5は、本明細書の一実施形態に係る、モデルデータベース108に格納されているデータの構成例を示す。一例として、モデルデータベース108の内容は、二つの学習モデル402、403及びそれらの関連情報を含む。各学習モデルについて、そのアーキテクチャ及びソースコードが含まれる。学習モデル402及び403に対して、それらの訓練でそれぞれ使用された本質特徴量ベクトル群404、405が含まれる。また、学習モデル402及び403に対して、テキスト形式でのタスク記述406、407がそれぞれ含まれている。
図5では簡易的にタスク1およびタスク2と記載しているが、実際にはユーザが指定する任意の文章を対象としてよく、図6のタスク記述を入力するフィールド601に入力された内容が一例に相当する。また同時にタスク表現408、409がそれぞれ含まれている。これらはデータ格納時にタスク分析部102で生成するのでよい。
なお、学習モデルとその関連情報は異なるデータベースに格納されていてもよい。また、タスク記述とタスク表現両方含まずに、タスク記述のみやタスク表現のみが格納されていてもよい。タスク記述のみ記録の場合、タスク分析部102が都度タスク記述からタスク表現を生成してデータベース比較部104に出力する。また、各学習モデルに関連する本質特徴量ベクトル数は、モデルの訓練に使用するデータサンプル数と等しい。
図6及び図7を参照して、本明細書の一実施形態に係るユーザインタフェース(UI)を説明する。図6は、学習モデル選択のためのユーザインタフェースの例を模式的に示す。ユーザインタフェース画像600は、ユーザがタスク記述を入力するフィールド601と、訓練データであるユーザデータセットの格納先を入力するフィールド602を含む。
ユーザは、そのタスクの簡単な記述を、自然言語を使用してフィールド601に入力する。ユーザは、さらに、そのデータセットの格納場所情報をフィールド602に入力する。ここで示される例において、ユーザは、「パブリックエリアの画像における異常検出」というタスクを解決することを望んでいる。対応するデータセットは、パブリックエリアの複数画像と、複数画像それぞれに関連付けられたラベル(異常又は異常ではない)を格納するフォルダである。
データセット及びタスク記述は、共にモデル生成システム10により分析される。モデル生成システム10は、与えられたタスクに対して前述の処理により適切な学習モデルの候補のリストを出力する。図6の例において、モデル生成システム10は、モデルA、モデルB及びモデルCの三つの候補を提示している。ユーザインタフェース画像600は、セクション604において、提示された候補学習モデルを表示する。ユーザは、提示された候補から、実際に使用する学習モデルを選択できる。さらに、ユーザは、セクション605に示されている、自分が用意した学習モデルを自由に選択することができる。
図7は、ユーザデータセットに新たなデータを追加するためのユーザインタフェース画像の例を模式的に示す。ユーザインタフェース画像700は、ユーザデータセット701の学習モデルA702による処理を示す。処理結果703は、選択された学習モデルAに対する、ユーザデータセットにおける有害サンプルの割合を示す。
この割合により、モデル生成システム10は、ユーザデータセットを、既存データベース又はインターネットから取得した新しいデータで補強するか否かを決定する。補強する場合に、ユーザインタフェース画像700は、例えば新しいサンプルのソースを示す画像704及び新たに取得された新しいサンプル705を表示する。
ユーザは、新しいサンプル705を確認して、自分のタスクに関連するか判定し、その判定結果をフィールド706に入力できる。モデル生成システム10は、関連するとユーザに指摘された新しいサンプルの評価を行い、有害サンプルではない場合に、ユーザデータセットに追加する。これにより、選択した学習モデルを適切に訓練できる訓練データを確保できる。
なお、サンプルの評価は、始めに本質特徴量抽出部103により新しいサンプルの本質特徴量を算出し、次に例えば影響関数を使うなどにより本質特徴量が学習モデルの性能に与える影響を算出することで行う。図7では一つのサンプルを提示して処理する例を示したが、複数のサンプルを同時に提示し処理してもよい。
上述のように、モデル生成システム10は、モデルデータベース108に格納されている訓練済み学習モデルから、新たなタスクのための候補学習モデルを選択する。以下において、学習モデルの選択の前に、訓練済み学習モデル及びそれに関連付けられた本質特徴量ベクトルを、モデルデータベース108に格納する処理(初期化フェーズ)を説明する。
図8は、本明細書の一実施形態に係る初期化フェーズを模式的に示す。本質特徴量抽出部103は、例えば、β-VAE深層学習モデルを使用することができる。このモデルは、特徴量のdisentanglement特性を有している。本質特徴量抽出部103は、entangleなデータベクトル801から、データの異なる特徴量を異なるベクトル802、803、804に分離する。例えば、本質特徴量抽出部103は、画像(entangleな表現)から、異なる特徴量(光の状態、カメラのアングル、画像における人の数等)を表すいくつかのベクトルを出力する。
本質特徴量抽出部103は、異なる特徴量に対応する異なるベクトル802、803、804を生成する。各特徴量ベクトルは、学習モデルの入力として使用される。ここでは、データベースの最初のモデルなのでモデル0と呼ぶ。本質特徴量抽出部103は、各特徴量ベクトルに対してモデル0によりタスク0を実行し(805)、各種類の特徴量ベクトルについてのスコアを算出する。例えば、タスク0が分類タスクであり、モデル0が分類モデルである場合、スコアは分類精度を示す。
最良スコアを与える種類の特徴量ベクトルは、本質特徴量ベクトルと考えることができる。一例として、データセットにおける各サンプルデータに対して、特徴量ベクトル804が最良スコア(図8においては0.9)を与えるため、これが本質特徴量ベクトルと考えることができる。本質特徴量ベクトル、学習モデル(モデル0)、及びタスク(タスク0)の記述は、モデルデータベース108に格納される。
初期化を実行した後、モデル生成システム10は、新たなユーザによって使用されることができる。本質特徴量抽出部103は、新しいユーザのデータセット182をdisentangleする。disentangleされた特徴ベクトルは、モデルデータベース108における本質特徴量ベクトルと比較される。
モデルデータベース108における本質特徴量ベクトルに最も類似するユーザの特徴量ベクトルは、ユーザの本質特徴量ベクトルと考えらえれる。他の特徴量ベクトルは、ユーザ固有特徴量ベクトルと考えられる。このように、複数のユーザの特徴量ベクトルと既存学習モデルそれぞれの本質特徴量ベクトルとの比較結果に基づき、ユーザの本質特徴量を適切に決定できる。
類似度は、古典的なメトリック距離、例えば、ユークリッド距離を使用することができる。例えば、データベース比較部104は、ユーザデータセットの各種類の特徴量ベクトルと、データベース108内の特徴量ベクトルとの類似度の所定の統計値(例えば平均値)を算出し、その値が最も類似する(距離が最も小さい)ことを示す種類の特徴量ベクトルを本質特徴量ベクトルと決定する。残りの処理は、図2、3及び4を参照して説明した通りである。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
10 モデル生成システム
101 ユーザインタフェース
102 タスク分析部
103 本質特徴量抽出部
104 データベース比較部
105 モデル選択部
106 データセット評価部
107 モデル訓練部
108 モデルデータベース
151 プロセッサ
152 メモリ
153 通信装置
154 補助記憶装置
155 入力装置
156 出力装置
181 ユーザタスク記述
182 ユーザデータセット
301 ユーザ固有特徴量ベクトル
302、303 本質特徴量ベクトル
802、803、804 特徴量ベクトル

Claims (14)

  1. ユーザタスクに対する学習モデルを選択するシステムであって、
    1以上のプロセッサと、
    1以上の記憶装置と、を含み、
    前記1以上の記憶装置は、複数の既存学習モデルそれぞれの関連情報を格納し、
    前記1以上のプロセッサは、
    新規タスクの内容に関する情報を取得し、
    前記新規タスクのための新規訓練データセットから新規特徴量ベクトルを抽出し、
    前記関連情報を参照して、前記複数の既存モデルそれぞれのタスクの内容に関する情報と、前記複数の既存モデルそれぞれの訓練データの特徴量ベクトルと、を取得し、
    前記新規タスクの内容に関する情報と前記複数の既存モデルそれぞれのタスクについての情報との比較結果、及び、前記新規特徴量ベクトルと前記複数の既存モデルそれぞれの特徴量ベクトルとの比較結果、に基づき、前記複数の既存モデルから前記新規タスクのための候補学習モデルを選択する、システム。
  2. 請求項1に記載のシステムであって、
    前記1以上のプロセッサは、前記新規訓練データセットに含まれるサンプルが前記候補学習モデルの訓練において有害であるか判定する、システム。
  3. 請求項2に記載のシステムであって、
    有害と判定されたサンプルの量が閾値以上である場合、前記1以上のプロセッサは、前記新規訓練データセットに新たなサンプルを追加すると決定する、システム。
  4. 請求項3に記載のシステムであって、
    前記1以上のプロセッサは、前記新規タスクについての情報に基づき、前記新規訓練データセットに追加する新たなサンプルを検索し、
    前記新たなサンプルが前記候補学習モデルの訓練において有害であるか判定する、システム。
  5. 請求項1に記載のシステムであって、
    前記1以上のプロセッサは、
    前記新規訓練データセットから複数の特徴量ベクトルを生成し、
    前記複数の特徴量ベクトルと前記複数の既存学習モデルそれぞれの特徴量ベクトルとの比較結果に基づき、前記複数の特徴量ベクトルから前記新規特徴量ベクトルを決定する、システム。
  6. 請求項1に記載のシステムであって、
    前記1以上のプロセッサは、前記候補学習モデルを、前記新規訓練データセットを使用して訓練する、システム。
  7. 請求項6に記載のシステムであって、
    前記1以上のプロセッサは、前記新規訓練データセットの特徴量ベクトル及び前記新規タスクについての情報を関連付けて、前記1以上の記憶装置に格納する、システム。
  8. システムが、ユーザタスクに対する学習モデルを選択する方法であって、
    前記システムが、新規タスクの内容に関する情報を取得し、
    前記システムが、前記新規タスクのための新規訓練データセットから新規特徴量ベクトルを抽出し、
    前記システムが、前記複数の既存モデルそれぞれのタスクの内容に関する情報と、前記複数の既存モデルそれぞれの訓練データの特徴量ベクトルと、を取得し、
    前記システムが、前記新規タスクの内容に関する情報と前記複数の既存モデルそれぞれのタスクについての情報との比較結果、及び、前記新規特徴量ベクトルと前記複数の既存モデルそれぞれの特徴量ベクトルとの比較結果、に基づき、前記複数の既存モデルから前記新規タスクのための候補学習モデルを選択する、方法。
  9. 請求項8に記載の方法であって、
    前記システムが、前記新規訓練データセットに含まれるサンプルが前記候補学習モデルの訓練において有害であるか判定する、方法。
  10. 請求項9に記載の方法であって、
    有害と判定されたサンプルの量が閾値以上である場合、前記システムが、前記新規訓練データセットに新たなサンプルを追加すると決定する、方法。
  11. 請求項10に記載の方法であって、
    前記システムが、前記新規タスクについての情報に基づき、前記新規訓練データセットに追加する新たなサンプルを検索し、
    前記システムが、前記新たなサンプルが前記候補学習モデルの訓練において有害であるか判定する、方法。
  12. 請求項8に記載の方法であって、
    前記システムが、前記新規訓練データセットから複数の特徴量ベクトルを生成し、
    前記システムが、前記複数の特徴量ベクトルと前記複数の既存学習モデルそれぞれの特徴量ベクトルとの比較結果に基づき、前記複数の特徴量ベクトルから前記新規特徴量ベクトルを決定する、方法。
  13. 請求項8に記載の方法であって、
    前記システムが、前記候補学習モデルを、前記新規訓練データセットを使用して訓練する、方法。
  14. 請求項13に記載の方法であって、
    前記システムが、前記新規訓練データセットの特徴量ベクトル及び前記新規タスクについての情報を関連付けてデータベースに格納する、方法。
JP2020142194A 2020-08-26 2020-08-26 学習モデルを選択するシステム Pending JP2022037955A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020142194A JP2022037955A (ja) 2020-08-26 2020-08-26 学習モデルを選択するシステム
CN202110900758.0A CN114118194A (zh) 2020-08-26 2021-08-06 选择学习模型的系统及选择学习模型的方法
US17/406,494 US20220067428A1 (en) 2020-08-26 2021-08-19 System for selecting learning model
DE102021209171.7A DE102021209171A1 (de) 2020-08-26 2021-08-20 System zum wählen eines lernenden modells

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020142194A JP2022037955A (ja) 2020-08-26 2020-08-26 学習モデルを選択するシステム

Publications (2)

Publication Number Publication Date
JP2022037955A true JP2022037955A (ja) 2022-03-10
JP2022037955A5 JP2022037955A5 (ja) 2023-03-06

Family

ID=80221664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020142194A Pending JP2022037955A (ja) 2020-08-26 2020-08-26 学習モデルを選択するシステム

Country Status (4)

Country Link
US (1) US20220067428A1 (ja)
JP (1) JP2022037955A (ja)
CN (1) CN114118194A (ja)
DE (1) DE102021209171A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023277201A1 (ja) * 2022-08-02 2023-01-05
WO2023074075A1 (ja) * 2022-08-02 2023-05-04 三菱電機株式会社 推論装置、推論方法及び推論プログラム
JP7305850B1 (ja) 2022-06-30 2023-07-10 菱洋エレクトロ株式会社 機械学習を利用したシステム、端末、サーバ、方法、及び、プログラム
WO2024075638A1 (ja) * 2022-10-04 2024-04-11 ヤマハ株式会社 音響モデルの訓練方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11734584B2 (en) 2017-04-19 2023-08-22 International Business Machines Corporation Multi-modal construction of deep learning networks
JP7202220B2 (ja) 2019-03-06 2023-01-11 堺化学工業株式会社 酸素吸着剤

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7305850B1 (ja) 2022-06-30 2023-07-10 菱洋エレクトロ株式会社 機械学習を利用したシステム、端末、サーバ、方法、及び、プログラム
JP7398587B1 (ja) 2022-06-30 2023-12-14 菱洋エレクトロ株式会社 機械学習を利用したシステム、端末、サーバ、方法、及び、プログラム
JP2024005989A (ja) * 2022-06-30 2024-01-17 菱洋エレクトロ株式会社 機械学習を利用したシステム、端末、サーバ、方法、及び、プログラム
JPWO2023277201A1 (ja) * 2022-08-02 2023-01-05
WO2023277201A1 (ja) * 2022-08-02 2023-01-05 三菱電機株式会社 推論装置、推論方法及び推論プログラム
WO2023074075A1 (ja) * 2022-08-02 2023-05-04 三菱電機株式会社 推論装置、推論方法及び推論プログラム
JP7317246B1 (ja) 2022-08-02 2023-07-28 三菱電機株式会社 推論装置、推論方法及び推論プログラム
JP7345680B2 (ja) 2022-08-02 2023-09-15 三菱電機株式会社 推論装置、推論方法及び推論プログラム
WO2024075638A1 (ja) * 2022-10-04 2024-04-11 ヤマハ株式会社 音響モデルの訓練方法

Also Published As

Publication number Publication date
US20220067428A1 (en) 2022-03-03
DE102021209171A1 (de) 2022-03-03
CN114118194A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
JP2022037955A (ja) 学習モデルを選択するシステム
US8503769B2 (en) Matching text to images
KR102310650B1 (ko) 검색 결과에서의 논리적인 질문 응답 기법
EP3882814A1 (en) Utilizing machine learning models, position-based extraction, and automated data labeling to process image-based documents
US20200097545A1 (en) Automated and optimal encoding of text data features for machine learning models
CN109783812B (zh) 基于自注意力机制的中文命名实体识别方法、系统、装置
US20200279219A1 (en) Machine learning-based analysis platform
CN107844533A (zh) 一种智能问答系统及分析方法
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
US20170262447A1 (en) Topical analytics for online articles
CN111695349A (zh) 文本匹配方法和文本匹配系统
CN106537387B (zh) 检索/存储与事件相关联的图像
CN111666766A (zh) 数据处理方法、装置和设备
US10289624B2 (en) Topic and term search analytics
KR20200068775A (ko) 태그 추천 모델을 이용한 자동화된 스마트 컨트랙트 태그 생성 및 추천 시스템
US11126646B2 (en) Implicit and explicit cognitive analyses for data content comprehension
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
EP4196900A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
JP2009295097A (ja) 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
US11113314B2 (en) Similarity calculating device and method, and recording medium
JP7292235B2 (ja) 分析支援装置及び分析支援方法
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
US20220050884A1 (en) Utilizing machine learning models to automatically generate a summary or visualization of data
Heap et al. A joint human/machine process for coding events and conflict drivers

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521