JP6597250B2 - 学習プログラム、学習方法及び学習装置 - Google Patents
学習プログラム、学習方法及び学習装置 Download PDFInfo
- Publication number
- JP6597250B2 JP6597250B2 JP2015238064A JP2015238064A JP6597250B2 JP 6597250 B2 JP6597250 B2 JP 6597250B2 JP 2015238064 A JP2015238064 A JP 2015238064A JP 2015238064 A JP2015238064 A JP 2015238064A JP 6597250 B2 JP6597250 B2 JP 6597250B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- model
- combination
- features
- partial structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
上述してきたように、本実施例に係る学習装置10は、学習時には、入力のうちモデルに含まれる素性だけを展開し、モデルとのスコアを計算し、分類が誤っている場合には、誤った事例から生成される素性だけを展開し、モデルを更新する。これにより、全ての素性の組合せではなく、分類に必要な素性の組合せを展開するだけで学習が可能となり、事前に素性の組合せを陽に展開せずともよくなる。したがって、本実施例に係る学習装置10によれば、メモリの使用量を抑制できる。
上記の実施例1では、perceptronの素性の組合せを学習する場合を例示したが、String、Tree、Graphなどの半構造データの学習を行う場合や、AROWといったConfidence-Weighted-Learningにも上記の学習処理を適用できる。図9は、素性の動的展開に基づくAROWの擬似アルゴリズムの一例を示す図である。図9に示す「x」は、単語列を指し、φ(x)は、単語列xに含まれる素性の組合せまたは単語列xの部分文字列、例えば2つの構造データ間で共通する部分文字列を取り出してベクトルにマッピングする関数を指す。図9に示す「μ」は、重みベクトルを指し、例えば、d次元のベクトル空間が対象である場合、tラウンド目のd次元の重みベクトルは「μt」で表される。また、図9に示す「Σ」は、素性の確信度を指し、例えば、tラウンド目の素性の確信度を保持するd×d行列が「Σt」で表される。この場合、学習装置10では、入力の単語列xに対し、関数φ(x)にてベクトルに陽に展開し、更新時に重みベクトルμtだけでなく、素性の確信度を保持するΣtも更新する。
上記の学習処理は、系列ラベリングにも同様に適用できる。すなわち、stochastic gradient decent に基づくCRFの学習や構造化パーセプトロンにおいても、素性ベクトルの場合と同様に動的に素性を展開しながら学習可能である。
また、上記の学習処理は、これまでに説明した以外の半構造データ、例えばStringやTreeなどにも同様に適用できる。すなわち、Mohammed Zaki著の文献、すなわち上記の非特許文献5に記載の方法にて、指定サイズまでの部分木を素性とする素性ベクトルを生成し更新を行う。ここで言う「指定サイズ」とは、含まれるノードの数である。Stringは、Treeのうち子供が一つしかない場合であるので、StringとTreeは同様のデータとして扱うことができる。また、上記の非特許文献5にあるよう、木構造は文字列にて表現できるため、上記ベクトルの例のようにトライ構造にて管理して、部分マッチした場合に、動的に展開しながら処理を行うことができる。
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図11を用いて、上記の実施例と同様の機能を有する学習プログラムを実行するコンピュータの一例について説明する。
11 取得部
12 展開部
13 モデル記憶部
14 照合部
15 更新部
Claims (6)
- 正例または負例のラベル付きのテキストを取得する処理と、
前記取得する処理で取得されたテキストに含まれる素性を展開する処理と、
テキストに含まれる素性の組合せまたは複数のテキストの間で生成される部分構造データと確信度とが対応付けられたモデルを参照して、前記展開する処理で展開された素性ごとに前記モデル内の前記素性の組合せまたは前記部分構造データと照合する処理と、
前記照合する処理の結果が前記ラベルに反する場合、前記展開する処理で展開された素性の組合せまたは部分構造データのうち前記モデルと一致しない素性の組合せまたは部分構造データをモデルに追加する更新を行う処理と
をコンピュータに実行させることを特徴とする学習プログラム。 - 前記更新を行う処理は、前記展開する処理で展開された素性の組合せまたは部分構造データのうち前記モデルと一致する素性の組合せまたは部分構造データに対応付ける確信度を前記ラベルに基づいて更新することを特徴とする請求項1に記載の学習プログラム。
- 前記部分構造データは、配列構造、木構造またはグラフ構造のいずかにより表されるデータであることを特徴とする請求項1または2に記載の学習プログラム。
- 前記部分構造データは、前記複数のテキストの間で共通する部分文字列であることを特徴とする請求項3に記載の学習プログラム。
- 正例または負例のラベル付きのテキストを取得する処理と、
前記取得する処理で取得されたテキストに含まれる素性を展開する処理と、
テキストに含まれる素性の組合せまたは複数のテキストの間で生成される部分構造データと確信度とが対応付けられたモデルを参照して、前記展開する処理で展開された素性ごとに前記モデル内の前記素性の組合せまたは前記部分構造データと照合する処理と、
前記照合する処理の結果が前記ラベルに反する場合、前記展開する処理で展開された素性の組合せまたは部分構造データのうち前記モデルと一致しない素性の組合せまたは部分構造データをモデルに追加する更新を行う処理と
がコンピュータにより実行されることを特徴とする学習方法。 - 正例または負例のラベル付きのテキストを取得する取得部と、
前記取得する処理で取得されたテキストに含まれる素性を展開する展開部と、
テキストに含まれる素性の組合せまたは複数のテキストの間で生成される部分構造データと確信度とが対応付けられたモデルを参照して、前記展開する処理で展開された素性ごとに前記モデル内の前記素性の組合せまたは前記部分構造データと照合する照合部と、
前記照合する処理の結果が前記ラベルに反する場合、前記展開する処理で展開された素性の組合せまたは部分構造データのうち前記モデルと一致しない素性の組合せまたは部分構造データをモデルに追加する更新を行う更新部と
を有することを特徴とする学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015238064A JP6597250B2 (ja) | 2015-12-04 | 2015-12-04 | 学習プログラム、学習方法及び学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015238064A JP6597250B2 (ja) | 2015-12-04 | 2015-12-04 | 学習プログラム、学習方法及び学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017102871A JP2017102871A (ja) | 2017-06-08 |
JP6597250B2 true JP6597250B2 (ja) | 2019-10-30 |
Family
ID=59016713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015238064A Active JP6597250B2 (ja) | 2015-12-04 | 2015-12-04 | 学習プログラム、学習方法及び学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6597250B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516039A (zh) * | 2019-08-09 | 2019-11-29 | 济南浪潮数据技术有限公司 | 一种用户手册中信息的检索方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067307A (ja) * | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メール監視システム、電子メール監視方法、電子メール監視プログラム及びそれを記録した記録媒体 |
US7664819B2 (en) * | 2004-06-29 | 2010-02-16 | Microsoft Corporation | Incremental anti-spam lookup and update service |
JP4686724B2 (ja) * | 2006-11-28 | 2011-05-25 | 国立大学法人山口大学 | 迷惑メールのフィルタ機能を有する電子メールシステム |
WO2008146583A1 (ja) * | 2007-05-23 | 2008-12-04 | Nec Corporation | 辞書登録システム、辞書登録方法および辞書登録プログラム |
-
2015
- 2015-12-04 JP JP2015238064A patent/JP6597250B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017102871A (ja) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6816421B2 (ja) | 学習プログラム、学習方法及び学習装置 | |
CN109416705B (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
CN107004159B (zh) | 主动机器学习 | |
JP5751251B2 (ja) | 意味抽出装置、意味抽出方法、および、プログラム | |
CN103678418B (zh) | 信息处理方法和信息处理设备 | |
CN112732899A (zh) | 摘要语句提取方法、装置、服务器及计算机可读存储介质 | |
EP3685243A1 (en) | Content pattern based automatic document classification | |
CN109564588A (zh) | 学习数据过滤 | |
JP2018194919A (ja) | 学習プログラム、学習方法及び学習装置 | |
EP3608798A1 (en) | Group search method based on social network, device, server and storage medium | |
CN116821299A (zh) | 智能问答方法、智能问答装置、设备及存储介质 | |
JP2019185478A (ja) | 分類プログラム、分類方法、および情報処理装置 | |
CN113609846B (zh) | 一种语句中实体关系的抽取方法及装置 | |
JP2021092925A (ja) | データ生成装置およびデータ生成方法 | |
JP6597250B2 (ja) | 学習プログラム、学習方法及び学習装置 | |
CN110442674B (zh) | 标签传播的聚类方法、终端设备、存储介质及装置 | |
WO2020095655A1 (ja) | 選定装置および選定方法 | |
CN110019818B (zh) | 一种批量注册邮箱的检测方法及装置 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
US10643152B2 (en) | Learning apparatus and learning method | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
JP6623380B2 (ja) | 探索装置、探索方法および探索プログラム | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP7168334B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112364169A (zh) | 基于nlp的wifi识别方法、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6597250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |