JP6839342B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP6839342B2 JP6839342B2 JP2016181414A JP2016181414A JP6839342B2 JP 6839342 B2 JP6839342 B2 JP 6839342B2 JP 2016181414 A JP2016181414 A JP 2016181414A JP 2016181414 A JP2016181414 A JP 2016181414A JP 6839342 B2 JP6839342 B2 JP 6839342B2
- Authority
- JP
- Japan
- Prior art keywords
- teacher data
- data elements
- machine learning
- information processing
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[第1の実施の形態]
第1の実施の形態を説明する。
第1の実施の形態の情報処理装置10は、機械学習の1つである教師あり学習に用いる教師データを選択する。教師あり学習では、事前に与えられた教師データに基づき、未知の事例の結果を予測する学習モデルが生成される。学習モデルを用いることで、未知の事例についての結果を予測することができる。機械学習の結果は、複数の文書が類似するか否かの判別のほかに、病気の発症リスクの予測、将来の商品・サービスの需要量の予測、工場における新製品の歩留まりの予測など、様々な用途に利用することができる。情報処理装置10は、ユーザが操作するクライアントコンピュータでもよいし、クライアントコンピュータからネットワーク経由でアクセスされるサーバコンピュータでもよい。
記憶部11は、教師ありの機械学習を行うための教師データである複数の教師データ要素を記憶する。図1には、n個の教師データ要素20a1,20a2,…,20anの例が示されている。教師データ要素20a1〜20anとして、画像や文書などを用いることができる。
まず、制御部12は、記憶部11に記憶されている教師データ要素20a1〜20anを読み出して、教師データ要素20a1〜20anから、それぞれが教師データ要素20a1〜20anのうちの1つ以上に含まれている複数の特徴候補を抽出する。
図1の例では、教師データ要素20a1の情報量は20.3、教師データ要素20a2の情報量は40.5、教師データ要素20anの情報量は35.2と算出されている。
例えば、制御部12は、教師データ集合21aに基づき、2つの文書が類似するかどうかを判別する学習モデル22aを機械学習で生成する。この場合、教師データ集合21aに含まれる教師データ要素20a2〜20anは文書であり、教師データ要素20a2〜20anのそれぞれには、ある類似グループに属するか否かを示す識別情報が付与されている。例えば、教師データ要素20a2と教師データ要素20anが類似している場合、両者には類似グループに属することを示す識別情報が付与される。
さらに、制御部12は、機械学習で生成された学習モデル22a,22b,22cの性能の評価値を算出する。
学習モデル22b,22cに対しても同様に評価値が算出され、例えば、記憶部11に記憶される。
図1では、学習モデル22a,22b,22cのうち、学習モデル22bの評価値が最大となっている例が示されている。このとき制御部12は、学習モデル22bを出力する。
第1の実施の形態の情報処理装置10は、各特徴候補の重要度を複数の教師データ要素内での出現頻度から算出し、重要度を用いて各教師データ要素の情報量を算出し、機械学習に使用する教師データ要素を選択する。これにより特徴の弱い(情報量が小さい)不適切な教師データ要素を除外でき学習精度を向上できる。
なお、制御部12は、上記のような教師データ集合を1つ生成するたびに、機械学習および評価値の算出を行ってもよい。教師データ要素を大きい順に追加して生成される教師データ集合を用いた場合、はじめは評価値が大きくなっていき、ある時点で、機械学習の学習精度の向上に寄与しない教師データ要素の影響で評価値が下がり始めると考えられる。制御部12は、評価値が下がり始めたら、教師データ集合の生成や機械学習を終了するようにしてもよい。これにより、学習時間を短縮できる。
次に、第2の実施の形態を説明する。
図2は、情報処理装置のハードウェア例を示すブロック図である。
図3は、教師データ要素として用いられる複数の文書の一例を示す図である。
特徴候補群40a1,40a2,…,40anには、文書20b1〜20bnから抽出された特徴候補が含まれている。例えば、特徴候補群40a1には、文書20b1から抽出された特徴候補である、単語と単語の組み合わせが含まれている。特徴候補群40a1の1行目には、タイトル30から抽出された特徴候補(ドットは無視されるため1つの単語として抽出される)が示されている。2行目以降には、本文31から抽出されたN−gram(N=1,2,…)の特徴候補が示されている。第2の実施の形態の機械学習において、N−gramは、1つの単語または、N個の単語の組み合わせを示すものとする。
図5に示されている出現頻度の計数結果50において、文書20b1のタイトル30である特徴候補の出現頻度は1、1−gramの特徴候補である“in”の出現頻度は100、“the”の出現頻度は90、“below”の出現頻度は12である。また、2−gramの特徴候補である“in the”の出現頻度は90、“the below”の出現頻度は12である。
ある単語または単語の組み合わせのidf値であるidf(t)は、全文書数をnとし、ある単語または単語の組み合わせを含む文書数をdf(t)とすると、数式(1)のように算出される。
図6に示されている重要度の算出結果51には、特徴候補である単語または単語の組み合わせごとのidf値に基づく重要度の例が示されている。なお、図6の例では、数式(1)において、n=100、logの底が10であるときの各特徴候補のidf値を、単語数で割ることで正規化した値が、重要度として表されている。
ポテンシャル情報量の算出結果52において、例えば、“ドキュメント1: 9.8”は、文書20b1のポテンシャル情報量が9.8であることを表している。また、“ドキュメント2: 31.8”は、文書20b2のポテンシャル情報量が31.8であることを表している。
図8は、ソート結果の一例を示す図である。
図9は、生成された複数の教師データ集合の一例を示す図である。
まず、情報処理装置100は、教師データ集合54a1を10分割することで得られる10個の分割要素のうち、9個の分割要素を訓練データとして用いて、2つの文書が類似するかどうかを判別する学習モデルを機械学習で生成する。機械学習には、例えば、SVM、ニューラルネットワーク、回帰判別などの機械学習アルゴリズムが用いられる。
図10は、教師データ集合に含まれる文書数とF値との一例の関係を示す図である。
図10において、横軸は文書数を表し、縦軸はF値を表している。図10の例では、文書数が59のときのF値が最大となっている。このため、情報処理装置100は、文書数が59である教師データ集合に基づき生成された学習モデルを出力する。例えば、10−分割交差検証の際には、1つの教師データ集合に対して、9個の分割要素を訓練データとして学習モデルが生成され1個の分割処理をテストデータとして評価する処理が10回行われる。つまり10個の学習モデルのそれぞれに対して評価が行われるが、正しい値が得られた学習モデルが1つまたは複数出力される。
図11は、情報処理装置の機能例を示す機能ブロック図である。
特徴候補抽出部123は、教師データ記憶部121に記憶された複数の教師データ要素から複数の特徴候補を抽出する。教師データ要素が文書のとき、特徴候補は、例えば図4に示したように、単語または単語の組み合わせである。
学習モデル出力部129は、評価値が最大となる学習モデルを出力する。例えば、図10に示した例では、文書数が59の教師データ集合に基づき生成された学習モデルの評価値(F値)が最大になっているため、この学習モデルを出力する。学習モデル出力部129が出力した学習モデルは、学習モデル記憶部122に記憶されてもよいし、情報処理装置100の外部に出力されてもよい。
(S10)特徴候補抽出部123は、教師データ記憶部121に記憶された複数の教師データ要素から複数の特徴候補を抽出する。
(S14)教師データ集合生成部126は、ステップS13の処理でソートした教師データ要素を、ポテンシャル情報量が大きい順に1つずつ追加して得られる複数の教師データ集合を生成する。評価値を算出する際に10−分割交差検証が行われる場合には、教師データ集合に含まれる教師データ要素の数の初期値は10以上である。
(S16)機械学習部127は、選択した教師データ集合に基づき機械学習を行い、学習モデルを生成する。機械学習部127は、例えば、選択した1つの教師データ集合に基づき機械学習を行い、学習モデルを生成する。
(S18)学習モデル出力部129は、前回選択された教師データ集合に基づき生成された学習モデルの評価値よりも、今回選択された教師データ集合に基づき生成された学習モデルの評価値が悪化したか否かを判定する。評価値が悪化していないときには、ステップS15からの処理が繰り返される。評価値が悪化したときには、ステップS19の処理が行われる。
なお、前述のように、第1の実施の形態の情報処理は、情報処理装置10にプログラムを実行させることで実現できる。第2の実施の形態の情報処理は、情報処理装置100にプログラムを実行させることで実現できる。
11 記憶部
12 制御部
20a1〜20an 教師データ要素
21a,21b,21c 教師データ集合
22a,22b,22c 学習モデル
Claims (5)
- 複数の教師データ要素を記憶する記憶部と、
前記複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの1つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す制御部と、
を有する情報処理装置。 - 前記使用する教師データ要素の選択では、前記情報量が大きい方から所定個の教師データ要素または前記情報量が閾値以上である教師データ要素を選択する、
請求項1記載の情報処理装置。 - 前記使用する教師データ要素の選択では、第1の教師データ要素を含み前記第1の教師データ要素より前記情報量の小さい第2の教師データ要素を含まない第1の教師データ集合と、前記第1および第2の教師データ要素を含む第2の教師データ集合とを生成し、
前記制御部はさらに、前記第1の教師データ集合を用いて実行された第1の機械学習の結果と前記第2の教師データ集合を用いて実行された第2の機械学習の結果とを取得し、前記第1および第2の機械学習の結果に基づいて、機械学習の結果が前記所定の条件を満たすような前記複数の教師データ要素の部分集合を探索する、
請求項1記載の情報処理装置。 - コンピュータが実行する情報処理方法であって、
複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの1つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す、
情報処理方法。 - コンピュータに、
複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの1つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す、
処理を実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181414A JP6839342B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、情報処理方法およびプログラム |
US15/673,606 US20180082215A1 (en) | 2016-09-16 | 2017-08-10 | Information processing apparatus and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181414A JP6839342B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045559A JP2018045559A (ja) | 2018-03-22 |
JP6839342B2 true JP6839342B2 (ja) | 2021-03-10 |
Family
ID=61620490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016181414A Active JP6839342B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180082215A1 (ja) |
JP (1) | JP6839342B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11334608B2 (en) * | 2017-11-23 | 2022-05-17 | Infosys Limited | Method and system for key phrase extraction and generation from text |
JP7095467B2 (ja) * | 2018-08-01 | 2022-07-05 | 株式会社デンソー | 訓練データ評価装置、訓練データ評価方法、およびプログラム |
JP7299002B2 (ja) * | 2018-08-23 | 2023-06-27 | ファナック株式会社 | 判別装置及び機械学習方法 |
JP7135641B2 (ja) * | 2018-09-19 | 2022-09-13 | 日本電信電話株式会社 | 学習装置、抽出装置及び学習方法 |
JP7135640B2 (ja) * | 2018-09-19 | 2022-09-13 | 日本電信電話株式会社 | 学習装置、抽出装置及び学習方法 |
JP6762584B2 (ja) * | 2018-11-05 | 2020-09-30 | 株式会社アッテル | 学習モデル構築装置、入社後評価予測装置、学習モデル構築方法および入社後評価予測方法 |
JP6799047B2 (ja) * | 2018-11-19 | 2020-12-09 | ファナック株式会社 | 暖機運転評価装置、暖機運転評価方法及び暖機運転評価プログラム |
KR102579633B1 (ko) * | 2019-02-19 | 2023-09-15 | 제이에프이 스틸 가부시키가이샤 | 조업 결과 예측 방법, 학습 모델의 학습 방법, 조업 결과 예측 장치 및 학습 모델의 학습 장치 |
JP6696059B1 (ja) * | 2019-03-04 | 2020-05-20 | Sppテクノロジーズ株式会社 | 基板処理装置のプロセス判定装置、基板処理システム及び基板処理装置のプロセス判定方法 |
JP7243402B2 (ja) * | 2019-04-11 | 2023-03-22 | 富士通株式会社 | 文書処理方法、文書処理プログラムおよび情報処理装置 |
US20220215543A1 (en) * | 2019-05-31 | 2022-07-07 | Kyoto University | Information Processing Device, Screening Device, Information Processing Method, Screening Method, and Program |
JPWO2020241836A1 (ja) * | 2019-05-31 | 2020-12-03 | ||
KR102270169B1 (ko) * | 2019-07-26 | 2021-06-25 | 주식회사 수아랩 | 데이터 관리 방법 |
JP2021033895A (ja) * | 2019-08-29 | 2021-03-01 | 株式会社豊田中央研究所 | 変数選定方法、変数選定プログラムおよび変数選定システム |
JP7396117B2 (ja) * | 2020-02-27 | 2023-12-12 | オムロン株式会社 | モデル更新装置、方法、及びプログラム |
WO2022013954A1 (ja) * | 2020-07-14 | 2022-01-20 | 富士通株式会社 | 機械学習プログラム、機械学習方法および情報処理装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102895A (ja) * | 1992-09-18 | 1994-04-15 | N T T Data Tsushin Kk | 音声認識モデル学習装置 |
JP5244438B2 (ja) * | 2008-04-03 | 2013-07-24 | オリンパス株式会社 | データ分類装置、データ分類方法、データ分類プログラムおよび電子機器 |
US8352386B2 (en) * | 2009-07-02 | 2013-01-08 | International Business Machines Corporation | Identifying training documents for a content classifier |
JP5852550B2 (ja) * | 2012-11-06 | 2016-02-03 | 日本電信電話株式会社 | 音響モデル生成装置とその方法とプログラム |
-
2016
- 2016-09-16 JP JP2016181414A patent/JP6839342B2/ja active Active
-
2017
- 2017-08-10 US US15/673,606 patent/US20180082215A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2018045559A (ja) | 2018-03-22 |
US20180082215A1 (en) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6839342B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US11568300B2 (en) | Apparatus and method for managing machine learning with plurality of learning algorithms and plurality of training dataset sizes | |
JP7157758B2 (ja) | モデル支援コホート選択を行うシステム及び方法 | |
US7801836B2 (en) | Automated predictive data mining model selection using a genetic algorithm | |
US20170372229A1 (en) | Method and apparatus for managing machine learning process | |
JP6536295B2 (ja) | 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法 | |
Zou et al. | Towards training set reduction for bug triage | |
US9249287B2 (en) | Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns | |
US20110029476A1 (en) | Indicating relationships among text documents including a patent based on characteristics of the text documents | |
Sathya et al. | [Retracted] Cancer Categorization Using Genetic Algorithm to Identify Biomarker Genes | |
US20210342735A1 (en) | Data model processing in machine learning using a reduced set of features | |
Budhiraja et al. | A supervised learning approach for heading detection | |
Chen et al. | Improved interpretability of machine learning model using unsupervised clustering: predicting time to first treatment in chronic lymphocytic leukemia | |
RU2715024C1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
US20220207302A1 (en) | Machine learning method and machine learning apparatus | |
US11742081B2 (en) | Data model processing in machine learning employing feature selection using sub-population analysis | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
US11514311B2 (en) | Automated data slicing based on an artificial neural network | |
Liu et al. | Revisiting Code Smell Severity Prioritization using learning to rank techniques | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
Zhan et al. | Reliability-based cleaning of noisy training labels with inductive conformal prediction in multi-modal biomedical data mining | |
US11797592B2 (en) | Document classification method, document classifier, and recording medium | |
Larouche et al. | Neural bandits for data mining: searching for dangerous polypharmacy | |
US20230281275A1 (en) | Identification method and information processing device | |
KR102429120B1 (ko) | 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190611 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190613 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190613 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6839342 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |