JP2012155394A - 文書分類学習制御装置、文書分類装置およびコンピュータプログラム - Google Patents
文書分類学習制御装置、文書分類装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2012155394A JP2012155394A JP2011011905A JP2011011905A JP2012155394A JP 2012155394 A JP2012155394 A JP 2012155394A JP 2011011905 A JP2011011905 A JP 2011011905A JP 2011011905 A JP2011011905 A JP 2011011905A JP 2012155394 A JP2012155394 A JP 2012155394A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- positive example
- negative example
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】識別部12に対して学習データ110(ラベル有)を入力するか、又は、強化学習データ120(ラベル無)を入力するか、又は、学習データ110(ラベル有)とアノテーション対象データ310(ラベル有)とを入力するか、を切り替える入力制御部11と、識別部12によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部14と、グループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部15とを備える。
【選択図】図1
Description
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、を備えたことを特徴とする。
これにより、前述の文書分類学習制御装置がコンピュータを利用して実現できるようになる。
図1は、本発明の一実施形態に係る文書分類装置10の構成を示すブロック図である。図1において、文書分類装置10は、入力制御部11と識別部12と重み係数計算部13とクラスタリング部14とデータ分類部15とを備える。
(2)次いで、文書集合D内の各事例xに対して、k個(kは2以上の自然数)のクラスタID(1からkまでのいずれかの値とする)の中から無作為にいずれかのクラスタIDを割り当てる。
(3)次いで、同一のクラスタIDが付与された各事例xを表すベクトルに対して、それぞれの重み係数wXを乗ずる。このとき、同一のクラスタIDが付与された各事例xを表すベクトルの重み係数wXを、該重み係数wXの総和で割ることによって、重み係数の値を正規化してもよい。
(4)次いで、同一のクラスタIDが付与された各事例xの重み付けされたベクトルを用いて、重心点を求める。この重心点とは、同一のクラスタIDが付与された各事例xの重み付けされたベクトルを用いてベクトルの各要素値の平均値を計算し、各平均値を各要素値として持つベクトルである。
(5)各クラスタIDについて、重心点との距離が最も近い事例を代表点とする。これにより、k個の各クラスタIDについて一つずつの代表点が決まるので、合計k個の代表点が得られる。
(6)文書集合D内の全事例に対して、事例毎に、最も近い重心点のクラスタIDにクラスタIDを変更する。この後、(2)に戻り処理を繰り返し、(6)で変化がなければ終了する。
ステップS6:データ分類部15は、クラスタリング部14によって作成されたクラスタ毎に、重心点に距離が最も近い事例を選択してアノテーション対象データ210とする。ここでは、重心点のベクトルと各事例のベクトルとの類似度を計算し、最大の類似度の事例をアノテーション対象データ210とする。ベクトル間の類似度としては、式(5)で表されるコサイン類似度を用いることができる。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (6)
- 特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、
前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、
を備えたことを特徴とする文書分類学習制御装置。 - 前記判定された強化学習データに対して、文書毎に、前記境界面からの距離が近いほど大きい重み係数を計算する重み係数計算部を備え、
前記グループ化される文書に対して前記重み係数を用いた重み付けを行うことを特徴とする請求項1に記載の文書分類学習制御装置。 - 前記重み係数計算部は、前記境界面からの距離を用いて正例への帰属度及び負例への帰属度を計算し、正例への帰属度又は負例への帰属度のうち大きい方を重み係数に用いることを特徴とする請求項2に記載の文書分類学習制御装置。
- 前記データ分類部は、前記クラスタ内の重心に最も近い文書をアノテーション対象データとすることを特徴とする請求項1から3のいずれか1項に記載の文書分類学習制御装置。
- 特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器と、
請求項1から4のいずれか1項に記載の文書分類学習制御装置と、
を備えたことを特徴とする文書分類装置。 - 特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御処理を行うためのコンピュータプログラムであって、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替えるステップと、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するステップと、
前記グループ化されたクラスタ内の文書をアノテーション対象データとするステップと、
をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011011905A JP5518757B2 (ja) | 2011-01-24 | 2011-01-24 | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011011905A JP5518757B2 (ja) | 2011-01-24 | 2011-01-24 | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012155394A true JP2012155394A (ja) | 2012-08-16 |
JP5518757B2 JP5518757B2 (ja) | 2014-06-11 |
Family
ID=46837095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011011905A Active JP5518757B2 (ja) | 2011-01-24 | 2011-01-24 | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5518757B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014115362A1 (ja) * | 2013-01-28 | 2014-07-31 | 日本電気株式会社 | 識別器学習装置及び識別器学習方法 |
KR20160076592A (ko) | 2014-12-23 | 2016-07-01 | 주식회사 만도 | 자기유동학적 유체 댐퍼 |
CN106570164A (zh) * | 2016-11-07 | 2017-04-19 | 中国农业大学 | 一种基于深度学习的集成式食品安全文本分类方法 |
CN114897060A (zh) * | 2022-04-25 | 2022-08-12 | 中国平安人寿保险股份有限公司 | 样本分类模型的训练方法和装置、样本分类方法和装置 |
US11422679B2 (en) | 2021-01-21 | 2022-08-23 | Ford Global Technologies, Llc | Systems and methods for navigating pages of a digital map |
-
2011
- 2011-01-24 JP JP2011011905A patent/JP5518757B2/ja active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014115362A1 (ja) * | 2013-01-28 | 2014-07-31 | 日本電気株式会社 | 識別器学習装置及び識別器学習方法 |
KR20160076592A (ko) | 2014-12-23 | 2016-07-01 | 주식회사 만도 | 자기유동학적 유체 댐퍼 |
CN106570164A (zh) * | 2016-11-07 | 2017-04-19 | 中国农业大学 | 一种基于深度学习的集成式食品安全文本分类方法 |
US11422679B2 (en) | 2021-01-21 | 2022-08-23 | Ford Global Technologies, Llc | Systems and methods for navigating pages of a digital map |
CN114897060A (zh) * | 2022-04-25 | 2022-08-12 | 中国平安人寿保险股份有限公司 | 样本分类模型的训练方法和装置、样本分类方法和装置 |
CN114897060B (zh) * | 2022-04-25 | 2024-05-03 | 中国平安人寿保险股份有限公司 | 样本分类模型的训练方法和装置、样本分类方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5518757B2 (ja) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918532B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
JP2021517295A (ja) | レコメンダシステムのための高効率畳み込みネットワーク | |
JP6090286B2 (ja) | 機械学習装置、機械学習方法、分類装置、分類方法、プログラム | |
JP6004016B2 (ja) | 情報変換方法、情報変換装置および情報変換プログラム | |
JP5749279B2 (ja) | アイテム関連付けのための結合埋込 | |
US10909442B1 (en) | Neural network-based artificial intelligence system for content-based recommendations using multi-perspective learned descriptors | |
US10635991B2 (en) | Learning method, information processing device, and recording medium | |
WO2014136316A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5518757B2 (ja) | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム | |
Huang et al. | Large-scale heterogeneous feature embedding | |
Abualigah et al. | Unsupervised text feature selection technique based on particle swarm optimization algorithm for improving the text clustering | |
JP6763426B2 (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
US9792561B2 (en) | Learning method, information conversion device, and recording medium | |
JP6646216B2 (ja) | 情報処理装置、類似データ検索方法、及び類似データ検索プログラム | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
CN110019096A (zh) | 索引文件的生成方法及装置 | |
Du et al. | A general fine-grained truth discovery approach for crowdsourced data aggregation | |
JP5633424B2 (ja) | プログラム及び情報処理システム | |
Saito et al. | Demian: Deep modality invariant adversarial network | |
Fei et al. | Active learning methods with deep Gaussian processes | |
JP2023090592A (ja) | OCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)装置及びOCT-GAN方法 | |
Vasumathi et al. | A Comparative Study on Traditional Data Mining and Big Data Mining Classification Algorithms | |
Navarin et al. | Extreme graph kernels for online learning on a memory budget | |
JP2021136025A (ja) | 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130821 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5518757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |