JP5824430B2 - スパム特徴算出装置、スパム特徴算出方法、及びプログラム - Google Patents
スパム特徴算出装置、スパム特徴算出方法、及びプログラム Download PDFInfo
- Publication number
- JP5824430B2 JP5824430B2 JP2012178991A JP2012178991A JP5824430B2 JP 5824430 B2 JP5824430 B2 JP 5824430B2 JP 2012178991 A JP2012178991 A JP 2012178991A JP 2012178991 A JP2012178991 A JP 2012178991A JP 5824430 B2 JP5824430 B2 JP 5824430B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- spam
- feature
- feature calculation
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
非スパム文書である訓練テキストから、各トピックに対する単語毎のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習手段と、
特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出手段とを備えたことを特徴とするスパム特徴算出装置として構成される。
図1に、本発明の実施の形態に係るスパム特徴算出装置100の機能構成図を示す。図1に示すように、本実施の形態に係るスパム特徴算出装置100は、トピックベクトル評価部1、テキストDB(データベース)50、予測結果DB60、スパム訓練データDB70、特徴付与機能部80、特徴追加訓練データDB90を有する。トピックベクトル評価部1は、訓練テキストDB10、トピック学習機能部20、トピックパラメータDB30、トピックベクトル計算機能部40を有する。ここでの各DBは、複数のテーブルからなるデータを格納する記憶手段である。
トピック学習機能部20は、訓練テキストDB10からデータを読み出し、当該データを用いてトピック学習を行い、学習結果をトピックパラメータDB30に格納する。
トピックスコア計算機能部40(特徴算出手段)は、トピックパラメータDB30から読み出したデータとテキストDB50から読み出したデータを入力とし、トピックスコア計算を行い、トピックスコア計算の結果を予測結果DB60に出力する。
<特徴付与機能部80>
特徴付与機能80は、予測結果DB60のデータとスパム訓練データDB70のデータを入力とし、特徴追加スパム訓練データを特徴追加スパム訓練データDB90に格納するする。この機能としては、例えば非特許文献1に記載された技術を用いることができる。
特徴追加スパム訓練データDB90を用いて既存のスパム分類器生成手法を用いてスパム判別器を生成することが可能である。スパム分類器生成手法には、例えば非特許文献1に記載された技術を用いることができる。
上述したように、本実施の形態では、トピックベクトル計算機能部40を備え、(1)文毎のトピック変化量と、(2)文書全体から見たトピックの整合性の2つの観点のスコアを計算することとしている。これにより、文書内のトピックの変化及びトピックの整合性を特徴として抽出することが可能となり、単語の出現頻度だけに基づく特徴に比べて高精度に自動生成されたスパムページの特徴を表現することが可能となる。
10 訓練テキストDB
20 トピック学習機能部
30 トピックパラメータDB
40 トピックベクトル計算機能部
50 テキストDB
60 予測結果DB
70 スパム訓練データDB
80 特徴付与機能部
90 特徴追加訓練データDB
100 スパム特徴算出装置
Claims (7)
- スパム文書を判別するために用いられる特徴を算出するスパム特徴算出装置であって、
非スパム文書である訓練テキストから、各トピックに対する単語毎のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習手段と、
特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出手段と
を備えたことを特徴とするスパム特徴算出装置。 - 前記特徴算出手段は、各分割テキストについて、隣接する分割テキストとの間のトピックベクトルの差分を計算することにより、分割テキスト毎のトピックベクトルの変化量を求め、当該変化量に基づいて前記特徴を算出する
ことを特徴とする請求項1に記載のスパム特徴算出装置。 - 前記特徴算出手段は、特徴算出の対象となる前記テキストのトピックベクトルを更に計算し、当該トピックベクトルと各分割テキストに対応するトピックベクトルとの差分を計算し、当該差分に基づいて前記特徴を算出する
ことを特徴とする請求項1又は2に記載のスパム特徴算出装置。 - スパム文書を判別するために用いられる特徴を算出するスパム特徴算出装置が実行するスパム特徴算出方法であって、
非スパム文書である訓練テキストから、各トピックに対する単語毎のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習ステップと、
特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出ステップと
を備えたことを特徴とするスパム特徴算出方法。 - 前記特徴算出ステップにおいて、各分割テキストについて、隣接する分割テキストとの間のトピックベクトルの差分を計算することにより、分割テキスト毎のトピックベクトルの変化量を求め、当該変化量に基づいて前記特徴を算出する
ことを特徴とする請求項4に記載のスパム特徴算出方法。 - 前記特徴算出ステップにおいて、特徴算出の対象となる前記テキストのトピックベクトルを更に計算し、当該トピックベクトルと各分割テキストに対応するトピックベクトルとの差分を計算し、当該差分に基づいて前記特徴を算出する
ことを特徴とする請求項4又は5に記載のスパム特徴算出方法。 - コンピュータを、請求項1ないし3のうちいずれか1項に記載のスパム特徴算出装置における各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178991A JP5824430B2 (ja) | 2012-08-10 | 2012-08-10 | スパム特徴算出装置、スパム特徴算出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178991A JP5824430B2 (ja) | 2012-08-10 | 2012-08-10 | スパム特徴算出装置、スパム特徴算出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014038393A JP2014038393A (ja) | 2014-02-27 |
JP5824430B2 true JP5824430B2 (ja) | 2015-11-25 |
Family
ID=50286506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012178991A Expired - Fee Related JP5824430B2 (ja) | 2012-08-10 | 2012-08-10 | スパム特徴算出装置、スパム特徴算出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5824430B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838287B (zh) * | 2019-10-16 | 2022-04-19 | 中国第一汽车股份有限公司 | 车载环境下聊天机器人的语料处理方法、装置及存储介质 |
-
2012
- 2012-08-10 JP JP2012178991A patent/JP5824430B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014038393A (ja) | 2014-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
US9208441B2 (en) | Information processing apparatus, information processing method, and program | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
Ahmed et al. | Effective sentimental analysis and opinion mining of web reviews using rule based classifiers | |
CN108228704A (zh) | 识别风险内容的方法及装置、设备 | |
KR102053635B1 (ko) | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 | |
JP2015230570A (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
US20200202253A1 (en) | Computer, configuration method, and program | |
Ikeda et al. | Semi-Supervised Learning for Blog Classification. | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
Yan | Mapreduce and semantics enabled event detection using social media | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN116932730A (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
JP5824430B2 (ja) | スパム特徴算出装置、スパム特徴算出方法、及びプログラム | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
Suresh et al. | A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis | |
Camastra et al. | Machine learning-based web documents categorization by semantic graphs | |
CN113420127A (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
JP6509391B1 (ja) | 計算機システム | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
JP2014038392A (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP5462748B2 (ja) | データ可視化装置、データ変換装置、方法、及びプログラム | |
Jittawiriyanukoon | Evaluation of a multiple regression model for noisy and missing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5824430 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |