JP2009129279A - 機械学習装置及び機械学習方法 - Google Patents
機械学習装置及び機械学習方法 Download PDFInfo
- Publication number
- JP2009129279A JP2009129279A JP2007304958A JP2007304958A JP2009129279A JP 2009129279 A JP2009129279 A JP 2009129279A JP 2007304958 A JP2007304958 A JP 2007304958A JP 2007304958 A JP2007304958 A JP 2007304958A JP 2009129279 A JP2009129279 A JP 2009129279A
- Authority
- JP
- Japan
- Prior art keywords
- case
- document
- machine learning
- distance
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 62
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 238000012706 support-vector machine Methods 0.000 abstract description 17
- 239000013598 vector Substances 0.000 description 31
- 238000012549 training Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】機械学習装置1は、事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段2と、前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段3と、前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段4と、を備えることにより、判定精度を向上させる。
【選択図】図1
Description
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。
(第1の実施形態)
図1は、機械学習装置1の機能構成と、同装置1と関連する他の要素との関係を示す図である。同装置1は、事例取得手段2、距離評価手段3及び属性付与手段4から構成される。
図2は、本実施形態に係る機械学習装置1のハードウェア構成を示す図である。機械学習装置1は、制御装置20を構成するCPU(Central Processing Unit)21(マルチプロセッサ構成ではCPU22等複数のCPUが追加されてもよい)、バスライン10、通信I/F(I/F:インターフェイス)23、メインメモリ24、BIOS(Basic Input Output System)25、表示装置26、I/Oコントローラ27、並びにキーボード及びマウス等の入力装置28を備える。
図3は、文書における単語の出現状況を把握するために使用する単語辞書である。単語番号と単語から構成されている。本実施形態においては、単語としては名詞に限ることとする。
Web上から取得した文書(以下、取得文書という)についても同様にベクタとして把握することができる。この場合、「車」に関する文書であるかどうかに問題の対象を絞っているので、「エンジン」、「ハンドル」、「メーター」の出現比率を座標軸とする3次元空間のベクタとして把握される。
サポートベクタマシンは、ベクタによって表される事例と、その事例が特定のカテゴリーに属するか否かを表示する指標であるラベルとの組み合わせを1つの訓練事例として、複数個の訓練事例に基づいて学習を行う。
図8に基づいて、上記の機械学習のプロセスの流れについて説明する。まず、カテゴリーが「車」であるか否かのラベルのついた複数の文書が与えられており、それらの文書に基づいてサポートベクタマシンの通常の手順で文書分類のための学習を行う(S10)。このとき、これらの文書に基づいて、文書をベクタとして把握するための単語と、サポートベクタとなる文書が決定される。
第1の実施形態では、文書をベクタ化するにあたり、「車」に関する文書であることが既知である複数の文書(すなわち、ラベルが「+1」の文書)における単語の出現頻度に基づいて、出現比率の高い単語を選んで、座標軸とした。しかし、本実施形態では、「車」に関する文書でないことが既知である複数の文書(すなわち、ラベルが「−1」の文書)における単語の出現頻度も考慮して、座標軸を選ぶ。
2 事例取得手段
3 距離評価手段
4 属性付与手段
5 ラベル付き文書記憶装置
6 文書分類装置
7 インターネット
8 Webページ
10 バスライン
20 制御装置
21、22 CPU(Central Processing Unit)
23 通信I/F(I/F:インターフェイス)
24 メインメモリ
25 BIOS(Basic Input Output System)
26 表示装置
27 I/Oコントローラ
28 入力装置
29 ハードディスク
30 半導体メモリ
31 記憶装置
Claims (8)
- 事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。 - 前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項1に記載の機械学習装置。
- 前記事例は文書であり、
前記事例取得手段は、Web上から前記文書を取得することを特徴とする請求項1または請求項2に記載の機械学習装置。 - 前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項3に記載の機械学習装置。
- 前記事例取得手段は、前記特定の属性に関連するWebページから前記文書を取得することを特徴とする請求項3または請求項4に記載の機械学習装置。
- 前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。 - 前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。 - 事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007304958A JP4994199B2 (ja) | 2007-11-26 | 2007-11-26 | 機械学習装置及び機械学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007304958A JP4994199B2 (ja) | 2007-11-26 | 2007-11-26 | 機械学習装置及び機械学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009129279A true JP2009129279A (ja) | 2009-06-11 |
JP4994199B2 JP4994199B2 (ja) | 2012-08-08 |
Family
ID=40820114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007304958A Active JP4994199B2 (ja) | 2007-11-26 | 2007-11-26 | 機械学習装置及び機械学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4994199B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
JP2012043285A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
JP2020135644A (ja) * | 2019-02-22 | 2020-08-31 | Kddi株式会社 | 分類装置、学習装置、分類方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
JP2000285141A (ja) * | 1999-01-27 | 2000-10-13 | Ricoh Co Ltd | 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002202983A (ja) * | 2000-12-28 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 分類への帰属度計算基準作成方法及び装置 |
JP2003150605A (ja) * | 2001-11-08 | 2003-05-23 | Fuji Electric Co Ltd | 情報収集装置および情報収集プログラム |
JP2004021590A (ja) * | 2002-06-17 | 2004-01-22 | Fujitsu Ltd | データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム |
JP2004287776A (ja) * | 2003-03-20 | 2004-10-14 | Fujitsu Ltd | 文書分類方法、文書分類装置、および文書分類プログラム |
-
2007
- 2007-11-26 JP JP2007304958A patent/JP4994199B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
JP2000285141A (ja) * | 1999-01-27 | 2000-10-13 | Ricoh Co Ltd | 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002202983A (ja) * | 2000-12-28 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 分類への帰属度計算基準作成方法及び装置 |
JP2003150605A (ja) * | 2001-11-08 | 2003-05-23 | Fuji Electric Co Ltd | 情報収集装置および情報収集プログラム |
JP2004021590A (ja) * | 2002-06-17 | 2004-01-22 | Fujitsu Ltd | データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム |
JP2004287776A (ja) * | 2003-03-20 | 2004-10-14 | Fujitsu Ltd | 文書分類方法、文書分類装置、および文書分類プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
JP2012043285A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
JP2020135644A (ja) * | 2019-02-22 | 2020-08-31 | Kddi株式会社 | 分類装置、学習装置、分類方法及びプログラム |
JP7017533B2 (ja) | 2019-02-22 | 2022-02-08 | Kddi株式会社 | 分類装置、学習装置、分類方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4994199B2 (ja) | 2012-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN112507040B (zh) | 多元关系生成模型的训练方法、装置、电子设备及介质 | |
WO2020253503A1 (zh) | 人才画像的生成方法、装置、设备及存储介质 | |
TW202030685A (zh) | 電腦執行的事件風險評估的方法及裝置 | |
JP7285893B2 (ja) | 医療データ検証方法、装置及び電子機器 | |
CN106227756A (zh) | 一种基于情感分类的股票指数预测方法及系统 | |
JP2018092615A (ja) | 畳み込みニューラルネットワークモデルの決定装置及び決定方法 | |
US20200356706A1 (en) | Goal-driven computer aided design workflow | |
JP4994199B2 (ja) | 機械学習装置及び機械学習方法 | |
KR102054500B1 (ko) | 설계 도면 제공 방법 | |
Ilkhani et al. | Extraction test cases by using data mining; reducing the cost of testing | |
WO2017083038A1 (en) | Suggestion-based differential diagnosis | |
JP6648828B2 (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
Li et al. | Automated extraction of domain knowledge in practice: The case of feature extraction from requirements at danfoss | |
CN112131475A (zh) | 一种可解释、可交互的用户画像方法及装置 | |
Barbosa et al. | Using performance profiles for the analysis and design of benchmark experiments | |
US20200174760A1 (en) | Automatic code generation | |
US20220300836A1 (en) | Machine Learning Techniques for Generating Visualization Recommendations | |
Ataman et al. | Transforming large-scale participation data through topic modelling in urban design processes | |
WO2019103773A1 (en) | Automatically identifying alternative functional capabilities of designed artifacts | |
WO2020167156A1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
JPWO2018235841A1 (ja) | グラフ構造解析装置、グラフ構造解析方法、及びプログラム | |
Silva et al. | KNN applied to PDG for source code similarity classification | |
US11120381B2 (en) | Product declaration validation | |
Bockle et al. | Structured evaluation of computer systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120312 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120501 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120508 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150518 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4994199 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |