JP7452695B2 - 生成プログラム、生成方法および情報処理装置 - Google Patents
生成プログラム、生成方法および情報処理装置 Download PDFInfo
- Publication number
- JP7452695B2 JP7452695B2 JP2022560625A JP2022560625A JP7452695B2 JP 7452695 B2 JP7452695 B2 JP 7452695B2 JP 2022560625 A JP2022560625 A JP 2022560625A JP 2022560625 A JP2022560625 A JP 2022560625A JP 7452695 B2 JP7452695 B2 JP 7452695B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- labeled
- domain
- feature space
- labeled data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 52
- 238000000034 method Methods 0.000 title claims description 49
- 238000004458 analytical method Methods 0.000 claims description 61
- 238000010801 machine learning Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 25
- 238000013145 classification model Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 102100035971 Molybdopterin molybdenumtransferase Human genes 0.000 description 2
- 101710119577 Molybdopterin molybdenumtransferase Proteins 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
近年、深層学習などの各種機械学習において、データの分布(性質)の異なる複数のデータセット(複数のドメインのデータセット)に対する分類モデルの精度等の性質を分析したい要望がある。例えば、機械学習(訓練)に使用可能なラベル付きデータセットとはデータの分布(性質)の異なるデータセットへモデルを適用する場合に、適用先の精度をあらかじめ推定(評価)したいという要望が存在する。
図5は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図5に示すように、情報処理装置10は、通信部11、表示部12、記憶部13、制御部20を有する。
疑似ドメイン生成部23は、特徴空間の部分空間内の一点から近いk個のラベル付きデータ(k近傍)を統合して、疑似ドメインの新規データセットを生成する。図11は、ラベル付きデータセットの生成手法1を説明する図である。図11に示すように、疑似ドメイン生成部23は、射影部22によるラベル付きデータの射影後、特徴空間から任意の点として特徴量A5を選択する。そして、疑似ドメイン生成部23は、特徴量A5から所定距離内にある特徴量A6と特徴量C7を特定する。
疑似ドメイン生成部23は、特徴空間から任意の複数の点を選択し、複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、複数の点それぞれに対応する各ラベル付きデータセットを生成する。図12は、ラベル付きデータセットの生成手法2を説明する図である。図12に示すように、疑似ドメイン生成部23は、射影部22によるラベル付きデータの射影後、特徴空間から任意の点として特徴量A50と特徴量C60とを選択する。
疑似ドメイン生成部23は、分類モデルへの適用対象である第1のドメインに対応するラベル無しデータセットの各対象データを、学習済みの特徴空間に射影し、学習済みの特徴空間において各対象データから所定の距離内にあるラベル付きデータを統合することで、第1のドメインの疑似ドメインに対応するラベル付きデータセットを生成する。
図17は、処理の流れを示すフローチャートである。ここでは、上記手法3を例にして説明する。
上述したように、情報処理装置10は、実データから実ドメインに類似する新たなドメインのラベル付きデータを生成することができる。この結果、情報処理装置10は、品質のよいラベル付きデータを用いた分析処理を実行することができ、分析の精度や分析の効率を向上させることができる。
上記実施例で用いたデータ例、数値例、閾値、表示例、特徴空間の次元数、ドメイン名、ドメイン数等は、あくまで一例であり、任意に変更することができる。また、訓練データとして画像データを用いた画像分類以外にも、音声や時系列データの分析などにも用いることができる。
上記実施例では、情報処理装置10が分析処理を実行する例を説明したが、これに限定されるものではなく、情報処理装置10以外の他の装置が、分析結果を用いて分析処理を実行することもできる。また、分析処理の内容も一例であり、公知の他の分析手法を採用することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、機械学習部21は、機械学習部の一例であり、疑似ドメイン生成部23は、生成部の一例である。
図18は、ハードウェア構成例を説明する図である。図18に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図18に示した各部は、バス等で相互に接続される。
11 通信部
12 表示部
13 記憶部
14 ラベル付きデータセット
15 ラベル無しデータセット
16 新規データセット
17 特徴生成モデル
20 制御部
21 機械学習部
22 射影部
23 疑似ドメイン生成部
24 表示制御部
25 分析部
Claims (10)
- コンピュータに、
複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行させることを特徴とする生成プログラム。 - 前記学習する処理は、前記複数のラベル無しデータセットそれぞれから複数のデータを取得し、前記複数のデータのうち、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる特徴空間を学習する、ことを特徴とする請求項1に記載の生成プログラム。
- 前記学習する処理は、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる前記特徴空間を生成するように、入力データから特徴量を生成する生成モデルの機械学習を実行し、
前記生成する処理は、学習済みの生成モデルを用いて、ドメインが異なる前記複数のラベル付きデータそれぞれの特徴量を生成し、前記学習済みの特徴空間において前記複数のラベル付きデータそれぞれの特徴量のうち、前記所定の範囲内に含まれるラベル付きデータを統合することにより、前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。 - 前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の点を選択し、前記任意の点から所定距離内にある所定個のラベル付きデータを統合した前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
- 前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の複数の点を選択し、前記複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、前記複数の点それぞれに対応する各ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
- 第1のドメインに対応するラベル無しデータセットの各対象データを、前記学習済みの特徴空間に射影する、処理を前記コンピュータに実行させ、
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間において前記各対象データから所定の距離内にあるラベル付きデータを統合することで、前記第1のドメインの疑似ドメインに対応する前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。 - 前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、重複空間が閾値以下で、前記学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を選択し、
選択された前記ラベル付きデータセットの集合を用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。 - 前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、第1のデータセットに基づき生成されたラベル付きデータセットを選択し、
前記第1のデータセットと、選択された前記ラベル付きデータセットとを用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。 - コンピュータが、
複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行することを特徴とする生成方法。 - 複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する機械学習部と、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する生成部と、
を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/041750 WO2022097302A1 (ja) | 2020-11-09 | 2020-11-09 | 生成プログラム、生成方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022097302A1 JPWO2022097302A1 (ja) | 2022-05-12 |
JP7452695B2 true JP7452695B2 (ja) | 2024-03-19 |
Family
ID=81457693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022560625A Active JP7452695B2 (ja) | 2020-11-09 | 2020-11-09 | 生成プログラム、生成方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230259827A1 (ja) |
JP (1) | JP7452695B2 (ja) |
WO (1) | WO2022097302A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078359A1 (en) | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
JP2017076287A (ja) | 2015-10-15 | 2017-04-20 | キヤノン株式会社 | データ解析装置、データ解析方法及びプログラム |
CN111625667A (zh) | 2020-05-18 | 2020-09-04 | 北京工商大学 | 一种基于复杂背景图像的三维模型跨域检索方法及系统 |
-
2020
- 2020-11-09 WO PCT/JP2020/041750 patent/WO2022097302A1/ja active Application Filing
- 2020-11-09 JP JP2022560625A patent/JP7452695B2/ja active Active
-
2023
- 2023-04-17 US US18/301,582 patent/US20230259827A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078359A1 (en) | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
JP2017076287A (ja) | 2015-10-15 | 2017-04-20 | キヤノン株式会社 | データ解析装置、データ解析方法及びプログラム |
CN111625667A (zh) | 2020-05-18 | 2020-09-04 | 北京工商大学 | 一种基于复杂背景图像的三维模型跨域检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022097302A1 (ja) | 2022-05-12 |
US20230259827A1 (en) | 2023-08-17 |
WO2022097302A1 (ja) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145781B (zh) | 用于处理图像的方法和装置 | |
KR101936029B1 (ko) | 딥러닝 기반의 가치 평가 방법 및 그 장치 | |
JP7050740B2 (ja) | 物体を把持するための奥行知覚モデリング | |
EP3596689A1 (en) | Mixed-initiative machine learning systems and methods for determining segmentations | |
Dong et al. | Adaptive neural network-based approximation to accelerate eulerian fluid simulation | |
Tits et al. | Robust and automatic motion-capture data recovery using soft skeleton constraints and model averaging | |
CN114930336A (zh) | 用于估计仿真的计算成本的方法和系统 | |
JPWO2018143019A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Chen et al. | Exploring gradient-based multi-directional controls in gans | |
JP7452695B2 (ja) | 生成プログラム、生成方法および情報処理装置 | |
CN114298299A (zh) | 基于课程学习的模型训练方法、装置、设备及存储介质 | |
JP6928348B2 (ja) | 脳活動予測装置、知覚認知内容推定システム、及び脳活動予測方法 | |
JP2017227994A (ja) | 人流予測装置、パラメータ推定装置、方法、及びプログラム | |
CN111583264B (zh) | 图像分割网络的训练方法、图像分割方法和存储介质 | |
Wang et al. | Multi‐granularity re‐ranking for visible‐infrared person re‐identification | |
Bemthuis et al. | Using process mining for face validity assessment in agent-based simulation models: an exploratory case study | |
CN111368120B (zh) | 目标指纹库构建方法、装置、电子设备及存储介质 | |
KR102200443B1 (ko) | Lbm 기반의 유체 해석 시뮬레이션 장치, 방법 및 컴퓨터 프로그램 | |
US20220076162A1 (en) | Storage medium, data presentation method, and information processing device | |
Collaris et al. | Comparative evaluation of contribution-value plots for machine learning understanding | |
US20230009999A1 (en) | Computer-readable recording medium storing evaluation program, evaluation method, and information processing device | |
WO2020079815A1 (ja) | 学習プログラム、学習方法および学習装置 | |
Zhang et al. | Forecaster as a Simulator: Simulating Multi-directional Pedestrian Flow with Knowledge-guided Graph Neural Networks | |
Huang et al. | A flexible framework for synthesizing human activity patterns with application to sequential categorical data | |
US20220147764A1 (en) | Storage medium, data generation method, and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7452695 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |