JP6092141B2 - データ解析装置、方法、及びプログラム - Google Patents
データ解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6092141B2 JP6092141B2 JP2014046601A JP2014046601A JP6092141B2 JP 6092141 B2 JP6092141 B2 JP 6092141B2 JP 2014046601 A JP2014046601 A JP 2014046601A JP 2014046601 A JP2014046601 A JP 2014046601A JP 6092141 B2 JP6092141 B2 JP 6092141B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- positive example
- pseudo
- positive
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
<システム構成>
本発明の第1の実施の形態に係るデータ解析装置100は、入力された、ブートストラップ法で得られた正例集合から、新負例データを抽出する。このデータ解析装置100は、CPUと、RAMと、後述するデータ解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、データ解析装置100は、入力部10と、演算部20と、出力部30とを備えている。
iteration 2:プリウス,スカイライン
…
iteration 9:カブ,ヘリ,フィット
iteration10:ブルートレイン,エアバス
擬似正例データ(iteration1を取得):シビック,ヴィッツ
擬似負例データ(iteration10を取得):ブルートレイン,エアバス
識別対象データ(iteration 2〜9) プリウス,スカイライン,…,カブ,ヘリ
+1 シビック
素性ID1:(1つ後ろから「に/乗る」が連鎖する回数=)5
素性ID2:(「車」との共起回数=)100
−1 ブルートレイン
素性ID1:(1つ後ろから「に/乗る」が連鎖する回数=)3
素性ID2:(「車」との共起回数=)0
新正例データ:プリウス,スカイライン,フィット
新負例データ:カブ,ヘリ
次に、第1の実施の形態に係るデータ解析装置100の作用について説明する。まず、ブートストラップ法における繰り返し毎に得られた正例集合と、正例集合に含まれる正例データ毎の素性化参照用データとが、データ解析装置100に入力されると、データ解析装置100によって、図2に示すデータ解析処理ルーチンが実行される。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態における入力部12は、ブートストラップ法における繰り返し毎に、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合を更に受け付ける。
次に、第2の実施の形態に係るデータ解析装置の作用について説明する。まず、ブートストラップ法における繰り返し毎に得られた正例集合と、正例集合に含まれる正例データ毎の素性化参照用データと、ブートストラップ法における繰り返し毎の、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合とが、データ解析装置に入力されると、データ解析装置によって、図3に示すデータ解析処理ルーチンが実行される。なお、第1の実施の形態と同様の処理については、同一符号を付して説明を省略する。
20 演算部
30 出力部
100 データ解析装置
200 正例集合データベース
202 擬似正例負例選択部
204 擬似正例データベース
206 擬似負例データベース
208 識別対象データベース
210 素性化参照用データベース
212 素性化部
214 素性化済み訓練データベース
216 素性化済み識別対象データベース
218 モデル学習部
220 識別モデルデータベース
222 スコアリング部
224,2224 判定部
226 新正例データベース
228 新負例データベース
Claims (4)
- 正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付ける入力部と、
前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択する擬似正例負例選択部と、
前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するモデル学習部と、
識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するスコアリング部と、
前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定する判定部と、
を含むデータ解析装置。 - 前記識別対象データを、前記正例集合とし、
前記判定部は、前記ブートストラップ法における各繰り返しにおいて、前記正例のラベルが付与された未知データの数、及び前記負例のラベルが付与された未知データの数の割合に基づいて、前記第2の閾値を変化させ、
前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、前記第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、前記変化した第2の閾値より小さい場合には、前記識別対象データが負例であると判定する
請求項1記載のデータ解析装置。 - 入力部が、正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付けるステップと、
擬似正例負例選択部が、前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択するステップと、
モデル学習部が、前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するステップと、
スコアリング部が、識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するステップと、
判定部が、前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定するステップと、
を含むデータ解析方法。 - コンピュータに、請求項1又は請求項2記載のデータ解析装置の各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014046601A JP6092141B2 (ja) | 2014-03-10 | 2014-03-10 | データ解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014046601A JP6092141B2 (ja) | 2014-03-10 | 2014-03-10 | データ解析装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015170281A JP2015170281A (ja) | 2015-09-28 |
| JP6092141B2 true JP6092141B2 (ja) | 2017-03-08 |
Family
ID=54202920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014046601A Active JP6092141B2 (ja) | 2014-03-10 | 2014-03-10 | データ解析装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6092141B2 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108351986B (zh) * | 2015-10-30 | 2022-03-29 | 株式会社摩如富 | 学习系统及装置和方法、训练数据生成装置及生成方法 |
| JP6450738B2 (ja) * | 2016-12-14 | 2019-01-09 | ファナック株式会社 | 工作機械における工具のビビり発生の予兆を検知する機械学習装置、cnc装置および機械学習方法 |
| CN111079608A (zh) * | 2019-12-09 | 2020-04-28 | 中国科学院新疆天文台 | 一种快速射电暴实时搜寻方法 |
| JP7298494B2 (ja) * | 2020-01-31 | 2023-06-27 | 横河電機株式会社 | 学習装置、学習方法、学習プログラム、判定装置、判定方法、および判定プログラム |
| CN118708675A (zh) * | 2024-06-11 | 2024-09-27 | 桂林电子科技大学 | 基于空间预测型vlpm的跨模态图文检索方法及存储介质 |
-
2014
- 2014-03-10 JP JP2014046601A patent/JP6092141B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015170281A (ja) | 2015-09-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109902307B (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
| CN111198948B (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
| CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
| CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
| CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
| CN109299258B (zh) | 一种舆情事件检测方法、装置及设备 | |
| CN104598535B (zh) | 一种基于最大熵的事件抽取方法 | |
| US8380488B1 (en) | Identifying a property of a document | |
| JP6092141B2 (ja) | データ解析装置、方法、及びプログラム | |
| KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
| CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
| CN109284374B (zh) | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 | |
| CN111079445A (zh) | 基于语义模型的训练方法、装置以及电子设备 | |
| CN114218381B (zh) | 立场识别方法、装置、设备及介质 | |
| CN110472062A (zh) | 识别命名实体的方法及装置 | |
| CN113408273A (zh) | 实体识别模型的训练与实体识别方法、装置 | |
| CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
| WO2016112782A1 (zh) | 一种用户的生活圈提取方法及系统 | |
| CN107783958B (zh) | 一种目标语句识别方法及装置 | |
| CN112115229A (zh) | 文本意图识别方法、装置、系统以及文本分类系统 | |
| JP2013131075A (ja) | 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 | |
| CN113011162B (zh) | 一种指代消解方法、装置、电子设备及介质 | |
| CN114741494A (zh) | 问答方法、装置、设备及介质 | |
| JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
| CN112668342A (zh) | 基于孪生网络的远程监督关系抽取降噪系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161212 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170208 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6092141 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |