JP7095599B2 - 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム - Google Patents
辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7095599B2 JP7095599B2 JP2018557704A JP2018557704A JP7095599B2 JP 7095599 B2 JP7095599 B2 JP 7095599B2 JP 2018557704 A JP2018557704 A JP 2018557704A JP 2018557704 A JP2018557704 A JP 2018557704A JP 7095599 B2 JP7095599 B2 JP 7095599B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- unlabeled
- unlabeled data
- label
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記教師データに含まれるラベル有りデータの密度に基づいて前記ラベル無しデータの重要度を算出する重要度算出部と、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択するデータ選択部と、
を備える。
教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度に基づいて前記ラベル無しデータの重要度を算出し、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択し、
選択された前記ラベル無しデータに付与するラベルの情報を外部から受信した場合に当該ラベル無しデータに前記ラベルを付与し、
前記ラベルが付与された新たなラベル有りデータを含む複数の前記教師データに基づいて前記識別関数のパラメータである辞書を学習することにより、前記識別関数を更新する。
教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度に基づいて前記ラベル無しデータの重要度を算出し、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択し、
選択された前記ラベル無しデータに付与するラベルの情報を外部から受信した場合に当該ラベル無しデータに前記ラベルを付与し、
前記ラベルが付与された新たなラベル有りデータを含む複数の前記教師データに基づいて前記識別関数のパラメータである辞書を学習することにより、前記識別関数を更新する辞書学習方法によって前記識別関数を学習し、
当該学習された識別関数を利用して、外部から受信したデータを認識する。
教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度に基づいて前記ラベル無しデータの重要度を算出する処理と、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択する処理と
をコンピュータによって実行させるコンピュータプログラムを記憶する。
本発明に係る第1実施形態の辞書学習装置は、機械学習の一つである教師有り学習によって辞書を学習する装置である。ここでの辞書とは、データを識別(認識)する基となる識別関数のパラメータである。
以下に、本発明に係る第2実施形態を説明する。
W(Dn)=a/(ρL(Dn)+a)・・・・・・・(1)
ただし、式(1)におけるaは、予め設定された正の実数を表す。
r(Dn;θ)=|g1(Dn;θ)-g2(Dn;θ)|・・・・・・・(2)
ただし、式(2)におけるg1(Dn;θ)は、設定されたクラス1を識別する識別関数を表し、θは当該識別関数のパラメータ(辞書)を表す。g2(Dn;θ)は、設定されたクラス2を識別する識別関数を表し、θは当該識別関数のパラメータ(辞書)を表す。
ただし、式(3)におけるγは予め設定された正の実数(例えば学習内容に応じて設定された正の実数)を表している。
以下に、本発明に係る第3実施形態を説明する。なお、第3実施形態の説明において、第2実施形態の辞書学習装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
W(Dn)=ρNL(Dn)/(ρL(Dn)+ρNL(Dn))・・・・・・・(4)
式(4)による重要度W(Dn)は、ラベル有りデータの密度ρL(Dn)がラベル無しデータの密度ρNL(Dn)に比べて小さくなるに従って“1”に近付く。換言すれば、重要度W(Dn)は、ラベル有りデータの密度ρL(Dn)がラベル無しデータの密度ρNL(Dn)に比べて大きくなるに従って“0”に近付く。
以下に、本発明に係る第4実施形態を説明する。なお、第4実施形態の説明において、第2や第3の実施形態の辞書学習装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
ρL(Dn)=KL/(NL×VL)・・・・・・・(5)
また、ラベル無しデータの総数をNNLとする。また、予め設定された個数KNLのラベル無しデータが含まれる体積を持ち、かつ、ラベル無しデータDnを基準にした超球の体積をVNLとする。この場合に、その超球におけるラベル無しデータの密度ρNL(Dn)は式(6)により表される。
ρNL(Dn)=KNL/(NNL×VNL)・・・・・・・(6)
さらに、KL個のラベル有りデータのうち、ラベル無しデータDnから最も遠いデータをデータDLとした場合に、半径|Dn-DL|を満たす超球内のラベル無しデータの個数がKNLであれば、VL=VNLと見なすことができる。この場合には、式(5)と式(6)に基づいて、式(7)が導かれる。
ρNL(Dn)/ρL(Dn)=(KNL×NL)/(KL×NNL)・・・・・・・(7)
さらに、式(7)と式(4)に基づいて、式(8)が導かれる。
W(Dn)=(KNL×NL)/((KL×NNL)+(KNL×NL))・・・・・・・(8)
第4実施形態では、重要度算出部12は、各ラベル無しデータDnについて、式(8)に基づき重要度W(Dn)を算出する。
なお、本発明は、第1~第3の実施形態に限定されることなく、様々な実施の形態を採り得る。例えば、第2~第4の実施形態では、選択部14は、式(3)に基づいて選択優先度J(Dn)を算出している。これに代えて、例えば、選択部14は、予め設定された単調減少関数f(r(Dn;θ))を用いて、選択優先度J(Dn)を算出してもよい。この場合には、選択部14は、式(9)に基づいて選択優先度J(Dn)を算出する。
式(9)による選択優先度J(Dn)を用いて選択部14がデータを選択しても、第2~第4の各実施形態と同様の効果を得ることができる。
2,12 重要度算出部
3 データ選択部
14 選択部
16 付与部
17 更新部
Claims (7)
- 教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記教師データに含まれるラベル有りデータの密度に基づいて前記ラベル無しデータの重要度を算出する重要度算出手段と、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択するデータ選択手段と、
を備え、
前記重要度算出手段は、ラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における前記ラベル有りデータの密度と前記ラベル無しデータの密度との比に基づいて、前記ラベル無しデータの重要度を算出する辞書学習装置。 - 前記重要度算出手段は、前記ラベル有りデータに対する前記ラベル無しデータの比が大きくなるに従って前記重要度が高くなる請求項1に記載の辞書学習装置。
- 前記重要度算出手段は、前記ラベル無しデータに対する前記ラベル有りデータの比が小さくなるに従って前記重要度が高くなる請求項1に記載の辞書学習装置。
- 前記データ選択手段により選択された前記ラベル無しデータに付与するラベルの情報を外部から受信した場合に、当該受信した情報に基づいて前記選択されたラベル無しデータに前記ラベルを付与するラベル付与手段と、
前記ラベル付与手段によって前記ラベルが付与された新たなラベル有りデータを含む複数の前記教師データに基づいて前記識別関数のパラメータである辞書を学習することにより、前記識別関数を更新する更新手段と
をさらに備える請求項1乃至請求項3の何れか一つに記載の辞書学習装置。 - 教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度と前記ラベル無しデータの密度との比に基づいて前記ラベル無しデータの重要度を算出し、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択し、
選択された前記ラベル無しデータに付与するラベルの情報を外部から受信した場合に当該ラベル無しデータに前記ラベルを付与し、
前記ラベルが付与された新たなラベル有りデータを含む複数の前記教師データに基づいて前記識別関数のパラメータである辞書を学習することにより、前記識別関数を更新する辞書学習方法。 - 教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度と前記ラベル無しデータの密度との比に基づいて前記ラベル無しデータの重要度を算出し、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択し、
選択された前記ラベル無しデータに付与するラベルの情報を外部から受信した場合に当該ラベル無しデータに前記ラベルを付与し、
前記ラベルが付与された新たなラベル有りデータを含む複数の前記教師データに基づいて前記識別関数のパラメータである辞書を学習することにより、前記識別関数を更新する辞書学習方法によって前記識別関数を学習し、
当該学習された識別関数を利用して、外部から受信したデータを認識するデータ認識方法。 - 教師データの特徴ベクトルを構成する要素を変数として持つ特徴空間に複数の教師データを前記特徴ベクトルに基づいて配置した場合に前記複数の教師データに含まれるラベル無しデータ毎に、当該ラベル無しデータを基準にした設定の大きさの領域内における、前記複数の教師データに含まれるラベル有りデータの密度と前記ラベル無しデータの密度との比に基づいて前記ラベル無しデータの重要度を算出する処理と、
データを識別する基となる識別関数に基づいた識別境界と前記ラベル無しデータとの近さを表す情報と、前記算出された重要度を表す情報とに基づいて、複数の前記ラベル無しデータの中からラベル付けするデータを選択する処理と
をコンピュータによって実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016247431 | 2016-12-21 | ||
JP2016247431 | 2016-12-21 | ||
PCT/JP2017/044650 WO2018116921A1 (ja) | 2016-12-21 | 2017-12-13 | 辞書学習装置、辞書学習方法、データ認識方法およびプログラム記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018116921A1 JPWO2018116921A1 (ja) | 2019-10-31 |
JP7095599B2 true JP7095599B2 (ja) | 2022-07-05 |
Family
ID=62626612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018557704A Active JP7095599B2 (ja) | 2016-12-21 | 2017-12-13 | 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200042883A1 (ja) |
JP (1) | JP7095599B2 (ja) |
WO (1) | WO2018116921A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102590514B1 (ko) * | 2022-10-28 | 2023-10-17 | 셀렉트스타 주식회사 | 레이블링에 사용될 데이터를 선택하기 위하여 데이터를 시각화 하는 방법, 이를 수행하는 서비스서버 및 컴퓨터-판독가능 매체 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335085A1 (en) * | 2019-07-30 | 2022-10-20 | Nippon Telegraph And Telephone Corporation | Data selection method, data selection apparatus and program |
WO2021079451A1 (ja) * | 2019-10-24 | 2021-04-29 | 日本電気株式会社 | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 |
US11580780B2 (en) * | 2019-11-13 | 2023-02-14 | Nec Corporation | Universal feature representation learning for face recognition |
US20220101185A1 (en) * | 2020-09-29 | 2022-03-31 | International Business Machines Corporation | Mobile ai |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065579A (ja) | 2009-09-18 | 2011-03-31 | Nec Corp | 標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法およびプログラム |
JP2011203991A (ja) | 2010-03-25 | 2011-10-13 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970718B2 (en) * | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
US8014591B2 (en) * | 2006-09-13 | 2011-09-06 | Aurilab, Llc | Robust pattern recognition system and method using socratic agents |
US8429153B2 (en) * | 2010-06-25 | 2013-04-23 | The United States Of America As Represented By The Secretary Of The Army | Method and apparatus for classifying known specimens and media using spectral properties and identifying unknown specimens and media |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
-
2017
- 2017-12-13 US US16/467,576 patent/US20200042883A1/en not_active Abandoned
- 2017-12-13 WO PCT/JP2017/044650 patent/WO2018116921A1/ja active Application Filing
- 2017-12-13 JP JP2018557704A patent/JP7095599B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065579A (ja) | 2009-09-18 | 2011-03-31 | Nec Corp | 標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法およびプログラム |
JP2011203991A (ja) | 2010-03-25 | 2011-10-13 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
Non-Patent Citations (2)
Title |
---|
Jaime Carbonell ほか,Advances in Machine Learning - Improving the Core of Artificial Intelligence,International Symposium on AI - Tokyo - March 3, 2016 [online],2016年03月03日,インターネット<URL:https://www.nedo.go.jp/content/100786487.pdf>,[検索日:2021/10/20] |
郭 楽 ほか,不確実データ集号に対する距離に基づく外れ値検出,DEIM Forum 2011 E5-1 [online],2021年02月27日,インターネット<URL:https://db-event.jpn.org/deim2011/proceedings/pdf/e5-1.pdf>,[検索日:2021/10/20] |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102590514B1 (ko) * | 2022-10-28 | 2023-10-17 | 셀렉트스타 주식회사 | 레이블링에 사용될 데이터를 선택하기 위하여 데이터를 시각화 하는 방법, 이를 수행하는 서비스서버 및 컴퓨터-판독가능 매체 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018116921A1 (ja) | 2019-10-31 |
WO2018116921A1 (ja) | 2018-06-28 |
US20200042883A1 (en) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7095599B2 (ja) | 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム | |
JP6441980B2 (ja) | 教師画像を生成する方法、コンピュータおよびプログラム | |
US9002101B2 (en) | Recognition device, recognition method, and computer program product | |
CN111063410B (zh) | 一种医学影像文本报告的生成方法及装置 | |
US20150278710A1 (en) | Machine learning apparatus, machine learning method, and non-transitory computer-readable recording medium | |
US11741356B2 (en) | Data processing apparatus by learning of neural network, data processing method by learning of neural network, and recording medium recording the data processing method | |
KR102548732B1 (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
US20220067588A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
WO2014136316A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2020046883A (ja) | 分類装置、分類方法およびプログラム | |
WO2014199920A1 (ja) | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2019197355A (ja) | クラスタリング装置、クラスタリング方法およびプログラム | |
WO2021238279A1 (zh) | 数据分类方法、分类器训练方法及系统 | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
CN110709862A (zh) | 计算方法决定系统、计算方法决定装置、处理装置、计算方法决定方法、处理方法、计算方法决定程序及处理程序 | |
JP7331937B2 (ja) | ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 | |
JP2019160236A (ja) | 学習データ生成方法、学習データ生成プログラムおよびデータ構造 | |
JP2019067299A (ja) | ラベル推定装置及びラベル推定プログラム | |
JP2020155101A (ja) | 情報処理装置及び情報処理方法 | |
JP6988995B2 (ja) | 画像生成装置、画像生成方法および画像生成プログラム | |
CN110059743B (zh) | 确定预测的可靠性度量的方法、设备和存储介质 | |
Venkateswara Reddy et al. | Bio-Inspired Firefly Algorithm for Polygonal Approximation on Various Shapes | |
JP2016062249A (ja) | 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム | |
JP2019082847A (ja) | データ推定装置、データ推定方法及びプログラム | |
KR101864301B1 (ko) | 데이터 분류 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190611 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201116 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7095599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |