JP7213138B2 - 学習データ作成支援システムおよび学習データ作成支援方法 - Google Patents
学習データ作成支援システムおよび学習データ作成支援方法 Download PDFInfo
- Publication number
- JP7213138B2 JP7213138B2 JP2019089769A JP2019089769A JP7213138B2 JP 7213138 B2 JP7213138 B2 JP 7213138B2 JP 2019089769 A JP2019089769 A JP 2019089769A JP 2019089769 A JP2019089769 A JP 2019089769A JP 7213138 B2 JP7213138 B2 JP 7213138B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- oracle
- data
- learning data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
こうした分類には高度な専門知識が必要とされ、かつ検体1つあたりの分類に長時間かかるため、機械学習による自動分類が有用である。
る。
、アノテーション依頼部304、およびデータセット更新部305から構成される。
上述のラベルなしデータの選択は、標的分類器実行部302-1が実行する。また、オラクルの選択は、オラクル分類器実行部302が実行する。
また、本実施形態におけるオラクル分類器は、学習データ201から学習する、特徴量
を入力にオラクル名を表すクラスへ分類する分類器である。
一方、学習部301は、学習実行部301-1、分類器情報301-2、および忘却係数情報301-3から構成される。
このように古い学習データを、いわば「忘却」することで、オラクルが最近経験したアノテーションを優先して、学習データの選択を行うことできる。
なお、分類器情報301-2と忘却係数情報301-3の具体的な構成例は図5に後述する。
るとしてもよい。
この場合、オラクル端末103は、追加情報として上述の標的クラスラベルを付与した分類根拠となる特徴量のユーザ指定を受け付けるとすれば好適である。
---ハードウェア構成---
本実施形態の学習データ選択サーバ101は、記憶装置401、メモリ404、演算装置403、および通信装置405、を備える。
AMなど揮発性記憶素子で構成される。
---データ構造例---
の分類器情報301-2は、分類器の種別を表す分類器種別301-2aをキーに、当該分類器のプログラム実行方法を表す分類実行方法301-3b、および分類先となり得るクラスのリストである分類先クラス301-3cの各値を対応付けたレコードの集合体となっている。
---フロー例(メインフロー)---
データ選択サーバ101や学習データ管理サーバ102、オラクル端末103がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは以下に説明される各種の動作をおこなうためのコードから構成されている。
---フロー例(学習部の詳細フロー)---
次に、学習実行部301-1は、S202の処理を経た学習データ201により、標的分類器とオラクル分類器の学習を並列に実行する。
続いて学習実行部301-1は、学習データ201に含まれる特徴量とオラクル名から、オラクル分類器を学習する(S206)。
---フロー例(選択部の詳細フロー)---
図15は、本実施形態における選択部303の動作を示すフロー図であり、具体的には、ラベルなしデータおよびオラクルの選択方法のフロー例を示す。
この場合、選択部303は、標的分類結果情報302-2とオラクル分類結果情報302-4を読み込む(S301)。
度と前記確信度の和に関して、前記不確定度の値が大きくなるように所定の係数を乗算してから前記和を算定する、としてもよい。
102 学習データ管理サーバ
103 オラクル端末
201 学習データ
202 ラベルなしデータ
301 学習部
301-1 学習実行部
301-2 分類器情報
301-3 忘却係数情報
302 分類部
302-1 標的分類器実行部
302-2 標的分類結果情報
302-3 オラクル分類器実行部
302-4 オラクル分類結果情報
303 選択部
303-1 オラクル選択部
303-2 オラクル選択情報
303-3 データ選択部
303-4 データ選択情報
303-5 係数更新部
303-6 係数情報
304 アノテーション依頼部
304-1 アノテーション依頼情報作成部
304-2 アノテーション依頼情報
305 データセット更新部
401 記憶装置
402 プログラム
403 演算装置
404 メモリ
405 通信装置
406 通信ネットワーク
Claims (12)
- 所定分類器によるデータ分類に際し分類クラスを示すラベルが付与されていないラベルなしデータと、前記分類器の学習に必要な学習データであって、前記ラベルなしデータに関してオラクルが付与したラベルと当該オラクルの情報とを含む学習データと、を保持する記憶装置と、
前記学習データおよび前記ラベルから学習した前記分類器による、前記ラベルなしデータの前記分類クラスへの分類確率および分類の不確定度を算定する処理、前記学習データおよび前記オラクルの情報から学習した所定のオラクル分類器による、前記ラベルなしデータの前記オラクルへの分類確率および分類の確信度を算定する処理、前記不確定度と前記確信度の和が大きい順に、所定数の前記ラベルなしデータを選択する処理、および、前記選択したラベルなしデータに関して、前記オラクルへの前記分類確率が高い順に、所定数の前記オラクルにラベル付与を依頼する処理、を実行する演算装置、
を含むことを特徴とする学習データ作成支援システム。 - 前記記憶装置は、
前記学習データに関し、前記オラクルがラベル付与時に分類根拠として用いた特徴量の情報を更に保持し、
前記演算装置は、
前記分類器による前記分類確率および分類の不確定度の算定に際し、前記分類根拠である特徴量について、前記ラベルなしデータの前記分類クラスへの前記分類確率および前記不確定度を算定し、前記オラクル分類器による前記分類確率および分類の確信度の算定に際し、前記分類根拠である特徴量について、前記ラベルなしデータの前記オラクルへの前記分類確率および前記確信度を算定するものである、
ことを特徴とする請求項1に記載の学習データ作成支援システム。 - 前記演算装置は、
前記不確定度と前記確信度の和に関して、
前記ラベル付与の依頼回数が増えるに従い、前記不確定度と前記確信度の和に関して、前記不確定度の値が大きくなるように所定の係数を乗算してから前記和を算定するものである、
ことを特徴とする請求項1に記載の学習データ作成支援システム。 - 前記演算装置は、
前記ラベル付与の依頼に際し、前記学習データに含まれる前記分類クラスごとのデータ数が等しくなるようラベル付与を依頼するものである、
ことを特徴とする請求項1に記載の学習データ作成支援システム。 - 前記記憶装置は、
前記学習データに関し、過去にオラクルがラベル付与を実施した分類時刻の情報を更に含み、
前記演算装置は、
前記分類時刻に基づき、前記学習データのうち古いものほど、所定の忘却係数に応じて重みを低くして学習したオラクル分類器を用いるものである、
ことを特徴とする請求項1に記載の学習データ作成支援システム。 - 前記演算装置は、
一つのラベルなしデータに複数のオラクルによって異なるラベルが付与されていた場合、当該異なるラベルに関する多数決を取ることで正しいラベルを決定し、前記学習データにおいて前記オラクルの情報に加えて前記ラベルの正しさを記録し、
前記ラベルが正しい学習データのみを用いてオラクル分類器を学習するものである、
ことを特徴とする請求項1に記載の学習データ作成支援システム。 - 所定分類器によるデータ分類に際し分類クラスを示すラベルが付与されていないラベルなしデータと、前記分類器の学習に必要な学習データであって、前記ラベルなしデータに関してオラクルが付与したラベルと当該オラクルの情報とを含む学習データと、を記憶装置で保持する情報処理装置が、
前記学習データおよび前記ラベルから学習した前記分類器による、前記ラベルなしデータの前記分類クラスへの分類確率および分類の不確定度を算定する処理と、
前記学習データおよび前記オラクルの情報から学習した所定のオラクル分類器による、前記ラベルなしデータの前記オラクルへの分類確率および分類の確信度を算定する処理と、
前記不確定度と前記確信度の和が大きい順に、所定数の前記ラベルなしデータを選択する処理と、
前記選択したラベルなしデータに関して、前記オラクルへの前記分類確率が高い順に、所定数の前記オラクルにラベル付与を依頼する処理と、
を実行することを特徴とする学習データ作成支援方法。 - 前記情報処理装置が、
前記記憶装置において、前記学習データに関し、前記オラクルがラベル付与時に分類根拠として用いた特徴量の情報を更に保持し、
前記分類器による前記分類確率および分類の不確定度の算定に際し、前記分類根拠である特徴量について、前記ラベルなしデータの前記分類クラスへの前記分類確率および前記不確定度を算定し、前記オラクル分類器による前記分類確率および分類の確信度の算定に際し、前記分類根拠である特徴量について、前記ラベルなしデータの前記オラクルへの前記分類確率および前記確信度を算定する、
ことを特徴とする請求項7に記載の学習データ作成支援方法。 - 前記情報処理装置が、
前記不確定度と前記確信度の和に関して、
前記ラベル付与の依頼回数が増えるに従い、前記不確定度と前記確信度の和に関して、前記不確定度の値が大きくなるように所定の係数を乗算してから前記和を算定する、
ことを特徴とする請求項7に記載の学習データ作成支援方法。 - 前記情報処理装置が、
前記ラベル付与の依頼に際し、前記学習データに含まれる前記分類クラスごとのデータ数が等しくなるようラベル付与を依頼する、
ことを特徴とする請求項7に記載の学習データ作成支援方法。 - 前記情報処理装置が、
前記記憶装置において、前記学習データに関し、過去にオラクルがラベル付与を実施した分類時刻の情報を更に含み、
前記分類時刻に基づき、前記学習データのうち古いものほど、所定の忘却係数に応じて重みを低くして学習したオラクル分類器を用いる、
ことを特徴とする請求項7に記載の学習データ作成支援方法。 - 前記情報処理装置が、
一つのラベルなしデータに複数のオラクルによって異なるラベルが付与されていた場合、当該異なるラベルに関する多数決を取ることで正しいラベルを決定し、前記学習データにおいて前記オラクルの情報に加えて前記ラベルの正しさを記録し、
前記ラベルが正しい学習データのみを用いてオラクル分類器を学習する、
ことを特徴とする請求項7に記載の学習データ作成支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019089769A JP7213138B2 (ja) | 2019-05-10 | 2019-05-10 | 学習データ作成支援システムおよび学習データ作成支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019089769A JP7213138B2 (ja) | 2019-05-10 | 2019-05-10 | 学習データ作成支援システムおよび学習データ作成支援方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020187408A JP2020187408A (ja) | 2020-11-19 |
JP2020187408A5 JP2020187408A5 (ja) | 2021-12-09 |
JP7213138B2 true JP7213138B2 (ja) | 2023-01-26 |
Family
ID=73221719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019089769A Active JP7213138B2 (ja) | 2019-05-10 | 2019-05-10 | 学習データ作成支援システムおよび学習データ作成支援方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7213138B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071967A1 (en) | 2006-11-02 | 2011-03-24 | Siemens Medical Solutions Usa, Inc. | Automatic Labeler Assignment |
WO2016111241A1 (ja) | 2015-01-07 | 2016-07-14 | 日本電気株式会社 | 学習装置、識別器、学習方法および記録媒体 |
JP2017211689A (ja) | 2016-05-23 | 2017-11-30 | 株式会社ツクタ技研 | 分類モデル装置、分類モデル学習方法、および分類モデル学習プログラム |
JP2018106662A (ja) | 2016-12-22 | 2018-07-05 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2019187421A1 (ja) | 2018-03-29 | 2019-10-03 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2019
- 2019-05-10 JP JP2019089769A patent/JP7213138B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071967A1 (en) | 2006-11-02 | 2011-03-24 | Siemens Medical Solutions Usa, Inc. | Automatic Labeler Assignment |
WO2016111241A1 (ja) | 2015-01-07 | 2016-07-14 | 日本電気株式会社 | 学習装置、識別器、学習方法および記録媒体 |
JP2017211689A (ja) | 2016-05-23 | 2017-11-30 | 株式会社ツクタ技研 | 分類モデル装置、分類モデル学習方法、および分類モデル学習プログラム |
JP2018106662A (ja) | 2016-12-22 | 2018-07-05 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2019187421A1 (ja) | 2018-03-29 | 2019-10-03 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020187408A (ja) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102291842B1 (ko) | 파일 공유를 위한 기술들 | |
RU2454714C1 (ru) | Система и способ повышения эффективности обнаружения неизвестных вредоносных объектов | |
EP2916256B1 (en) | Systems and methods for behavior-based automated malware analysis and classification | |
US7222127B1 (en) | Large scale machine learning systems and methods | |
CN112311780B (zh) | 一种基于多维度攻击路径与攻击图的生成方法 | |
CN111565205A (zh) | 网络攻击识别方法、装置、计算机设备和存储介质 | |
CN111160749B (zh) | 一种情报质量评估和情报融合方法及装置 | |
US8352409B1 (en) | Systems and methods for improving the effectiveness of decision trees | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN112118551A (zh) | 设备风险识别方法及相关设备 | |
US11687717B2 (en) | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents | |
CN113656808A (zh) | 数据安全评估方法、装置、设备及存储介质 | |
CN110674231A (zh) | 一种面向数据湖的用户id集成方法和系统 | |
CN111935185A (zh) | 基于云计算构建大规模诱捕场景的方法及系统 | |
US8805803B2 (en) | Index extraction from documents | |
JP7213138B2 (ja) | 学習データ作成支援システムおよび学習データ作成支援方法 | |
JP7470235B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
CN111224890A (zh) | 一种云平台的流量分类方法、系统及相关设备 | |
CN114201199B (zh) | 基于信息安全大数据的防护升级方法及信息安全系统 | |
CN113553595B (zh) | 一种漏洞扫描方法、装置、设备及存储介质 | |
JP7198181B2 (ja) | 通信品質分析システム、通信品質分析方法 | |
CN117546160A (zh) | 使用机器学习模型的自动化数据层次结构提取和预测 | |
CN113239126A (zh) | 一种基于bor方法的业务活动信息标准化方案 | |
CN113411320A (zh) | 基于业务访问大数据的信息处理方法及区块链系统 | |
US9323787B2 (en) | Computer-readable recording medium storing system management program, device, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211029 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7213138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |