JP5824430B2 - スパム特徴算出装置、スパム特徴算出方法、及びプログラム - Google Patents

スパム特徴算出装置、スパム特徴算出方法、及びプログラム Download PDF

Info

Publication number
JP5824430B2
JP5824430B2 JP2012178991A JP2012178991A JP5824430B2 JP 5824430 B2 JP5824430 B2 JP 5824430B2 JP 2012178991 A JP2012178991 A JP 2012178991A JP 2012178991 A JP2012178991 A JP 2012178991A JP 5824430 B2 JP5824430 B2 JP 5824430B2
Authority
JP
Japan
Prior art keywords
topic
spam
feature
feature calculation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012178991A
Other languages
English (en)
Other versions
JP2014038393A (ja
Inventor
良彦 数原
良彦 数原
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012178991A priority Critical patent/JP5824430B2/ja
Publication of JP2014038393A publication Critical patent/JP2014038393A/ja
Application granted granted Critical
Publication of JP5824430B2 publication Critical patent/JP5824430B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、スパム文書を判別する技術の分野に属するものであり、特に、スパム判別器生成に適した特徴を算出するための技術に属するものである。
ウェブ検索システムのような検索システムにおいては、検索対象の文書を取得し、検索可能にする際に、ユーザの満足度を下げる要因となるスパムページをあらかじめ判別し、除去を行うことがある。この際、日々大量に作成されるスパムページに対応するため、スパム、非スパムのラベルが付与された評価データセット(訓練データと呼ぶ) を元に機械学習手法を用いて判別器を自動生成する方法がある(非特許文献1)。なお本明細書では、以降、スパムページのことをspam、非スパムページのことをhamと呼ぶ。一般的なスパム判別においては、テキストの本文における単語の出現頻度やリンク情報などを特徴として用いる。
G. V. Cormack,"Content-based web spam detection", In Proceedings of AIRWeb'07, 2007. T. L. Griffiths and M. Steyvers, "Finding scientific topics", Proceedings of the National Academy of Sciences, vol. 101 Suppl 1 pp.5228-5235, 2004. T. Fuchi and S. Takagi, "Japanese morphological analyzer using word co-occurence-jtag", Proceedings of COLING-ACL, pp.409-413, 1998.
従来のスパム分類器生成手法では、主にテキストの本文における単語の出現頻度に基づく特徴を利用していたため、プログラムによって自動生成されたようなページでは、非スパムページを部分的に混在させたような内容になっており、ページの内容からだけではspamかhamか分類が困難であるという課題がある。
本発明は上記の点に鑑みてなされたものであり、自動生成されたスパムページであっても、スパムページの判別を適確に行うことを可能とする特徴を算出する技術を提供することを目的とする。
上記の課題を解決するために、本発明は、スパム文書を判別するために用いられる特徴を算出するスパム特徴算出装置であって、
非スパム文書である訓練テキストから、各トピックに対する単語のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習手段と、
特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出手段とを備えたことを特徴とするスパム特徴算出装置として構成される。
前記特徴算出手段は、例えば、各分割テキストについて、隣接する分割テキストとの間のトピックベクトルの差分を計算することにより、分割テキスト毎のトピックベクトルの変化量を求め、当該変化量に基づいて前記特徴を算出する。
前記特徴算出手段は、特徴算出の対象となる前記テキストのトピックベクトルを更に計算し、当該トピックベクトルと各分割テキストに対応するトピックベクトルとの差分を計算し、当該差分に基づいて前記特徴を算出するようにしてもよい。
また、本発明は、前記スパム特徴算出装置が実行するスパム特徴算出方法、及び、コンピュータを前記スパム特徴算出装置における各手段として機能させるためのプログラムとして構成することもできる。
本発明によれば、文や段落などの単位ごとのトピックの変化を特徴として抽出することにより、単語の出現頻度だけに基づく特徴に比べて高精度に自動生成されたスパムページの特徴を表現することが可能となり、自動生成されたようなページを適切に判別するスパム判別器を高精度に生成することが可能となる。
本発明の実施の形態に係るスパム特徴算出装置100の機能構成図である。 トピックスコア計算機能部40の処理の流れを示すフローチャートである。 文毎のトピック変化量の計算の概念を示す図である。 文書全体から見たトピックの整合性の計算の概念を示す図である。 訓練テキストDB10のデータ構造の例を示す図である。 トピックパラメータDB30のデータ構造の例を示す図である。 テキストDB50のデータ構造の例を示す図である。 予測結果DB60のデータ構造の例を示す図である。 スパム訓練データDB70のデータ構造の例を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
<装置構成>
図1に、本発明の実施の形態に係るスパム特徴算出装置100の機能構成図を示す。図1に示すように、本実施の形態に係るスパム特徴算出装置100は、トピックベクトル評価部1、テキストDB(データベース)50、予測結果DB60、スパム訓練データDB70、特徴付与機能部80、特徴追加訓練データDB90を有する。トピックベクトル評価部1は、訓練テキストDB10、トピック学習機能部20、トピックパラメータDB30、トピックベクトル計算機能部40を有する。ここでの各DBは、複数のテーブルからなるデータを格納する記憶手段である。
スパム特徴算出装置100は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、スパム特徴算出装置100の各部が有する機能は、当該スパム特徴算出装置100を構成するコンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。より具体的には、プログラムに従って、計算対象の文や単語等のデータをメモリから読み出し、CPUにより演算を行って、メモリに格納する動作を繰り返しながら処理が実行される。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
以下、各DBの内容や各機能部の処理について説明する。
<トピック学習機能部20>
トピック学習機能部20は、訓練テキストDB10からデータを読み出し、当該データを用いてトピック学習を行い、学習結果をトピックパラメータDB30に格納する。
図5に、訓練テキストDB10のデータ構造の例を示す。訓練テキストDB10にはhamと判定された文書のテキスト情報が格納されている。
図6に、トピックパラメータDB30のデータ構造の例を示す。トピックパラメータDB30は、トピック学習機能部20により実行されるトピックモデルの推論によって得られた各トピックに対する単語のサンプル数の情報を格納している。例えば図6においてトピック1における"野球"が12個、"カープ"が5個のサンプル数であることを示している。Kはあらかじめ設定されたトピック数を表すパラメータである。
トピック学習機能部20の処理自体は既存技術であり、例えば非特許文献2に記載された技術を用いることができる。
<トピックスコア計算機能部40>
トピックスコア計算機能部40(特徴算出手段)は、トピックパラメータDB30から読み出したデータとテキストDB50から読み出したデータを入力とし、トピックスコア計算を行い、トピックスコア計算の結果を予測結果DB60に出力する。
図7にテキストDB50のデータ構造の例を示す。テキストDB50にはトピックスコア計算の対象となる文書のテキスト情報が格納されている。図8に予測結果DB60のデータ構造の例を示す。予測結果DB60には文書毎のスコア(特徴)が格納される。各スコアの算出方法は後述する。
以下、図2のフローチャートを参照して、トピックスコア計算機能部40が実行する処理の流れを説明する。
ステップ1)テキストDB50から未処理のレコードを取得し、文単位に分割した集合をSとする。文単位への分割には例えば非特許文献3に記載された技術を用いることができる。なお、本実施の形態では、文単位への分割を行うこととしているが、これは一例に過ぎず、文単位以外を分割単位としてもよい。例えば、段落単位を抽出する装置があれば、段落単位に分割して本発明に係る特徴算出技術を利用することも可能である。本明細書では一例として、文という単位を用いて説明を行う。なお、分割されたもの(文、段落等)を「分割テキスト」と呼ぶことができる。ある文書のスコア計算に用いるトピックベクトル情報を含むトピック行列Zを初期化する。
ステップ2)Sから未処理の文を取得し、sとする。
ステップ3)sに含まれる各単語についてトピックパラメータDB30を元にトピックベクトルの計算を行う。ここでsを各単語に分割するには、例えば非特許文献3に記載された技術を用いることができる。トピックj(jは1以上の整数)に対するsi(iは1以上の整数)のトピック確率は
Figure 0005824430
で計算することができる。式(1)において、αはあらかじめ設定されたパラメータであり、例えばα=0.01を用いる。ni,jは文iに含まれる単語のトピックjにおける総サンプル数であり、
Figure 0005824430
で計算される。式(2)において、tは文siに含まれる単語であり、count(j, t)はトピックパラメータDB30においてトピックIDがj、単語がtに該当するレコードのサンプル数を表す。
これを元に文siに対応するトピックベクトルは、
Figure 0005824430
で計算することができる。計算されたトピックベクトルzsiをトピック行列Zに追加する。トピック行列Zは、各行がトピックベクトルの転置になるような行列である。すなわち、
Figure 0005824430
で表現される。ただし、ここでMは文書に含まれる文の数を表す。
ステップ4)Sに未処理の文がある場合にはステップ2に戻り、次の文の処理に移る。そうでない場合にはステップ5に進む。
ステップ5)トピック行列Zを元にスコアの計算を行う。本ステップでは、(1)文毎のトピック変化量と、(2)文書全体から見たトピックの整合性の2つの観点のスコアを計算する。なお、(1)の文毎のトピック変化量と、(2)文書全体から見たトピックの整合性のどちらか一方のみでスコアを計算することとしてもよい。また、スコアの算出手法は、(1)と(2)に限られるわけではない。
(1)の文毎のトピック変化量の計算では、トピック行列Zに含まれるトピックベクトルzsnとzsn+1の差分に基づいて計算を行う。ここで、トピックベクトル同士の差の計算には例えばKullback-Leibler divergence (KLd) を用いて以下のとおり計算することができる。
Figure 0005824430
KLdは非対称であることに注意する。図3に、文毎のトピック変化量の計算の概念を示す。図3は、隣接する文に対応するトピックベクトルであるzs1とzs2の差分をKLdで計算することが示されている。
トピックベクトル同士の差の計算にKLdを用いる代わりに、以下のようにJensen-Shanon divergence (JSd)を用いてもよい。
Figure 0005824430
上記のようにして文毎の変化量を算出し、文毎の変化量の平均と分散を計算し、平均をスコア1、分散をスコア2とする。また変化量の合計値を計算し、スコア3とする。
前述した(2)の文書全体から見たトピックの整合性に基づくスコアの計算では、まず文書全体のトピックベクトルを利用する。文書全体のトピックベクトルは
Figure 0005824430
で計算することができる。ここでNd,jは文書dに含まれるトピックjの単語の総サンプル数を表す。このトピックベクトルをzdとする。
zdと各文に対応するトピックベクトルzs1, zs2,..... との差分をKLdを用いて計算し、差分の平均と分散を計算する。平均をスコア4、分散をスコア5とする。また変化量の合計値をスコア6とする。
図4に、文書全体から見たトピックの整合性の計算の概念を示す。図4には、文書d1のトピックベクトルと、文s1及び文s2のトピックベクトルとの差分を計算することが示されている。
上記のようにして、スコア1からスコア6を計算したら、計算したスコア1からスコア6までの値を文書IDと共に予測結果DB60に格納する。
ステップ6)テキストDB10に未処理のレコードがある場合にはステップ1に戻り次のレコードの処理に移り、そうでなければ処理を終了する。
<特徴付与機能部80>
特徴付与機能80は、予測結果DB60のデータとスパム訓練データDB70のデータを入力とし、特徴追加スパム訓練データを特徴追加スパム訓練データDB90に格納するする。この機能としては、例えば非特許文献1に記載された技術を用いることができる。
スパム訓練データDB70のデータ構造の例を図9に示す。スパム訓練データDB70は1レコードに1事例の情報を格納しており、事例ID、スパムラベルと特徴べクトルのカラムで構成されている。ここで事例とは、スパム判定の単位である文書のことを表し、判定されたスパムラベルyと、M次元の特徴ベクトルxT =(x1, x2, ..., xM)の情報を持つ。スパムラベルy∈{+1, −1} は、spamの場合+1、hamの場合−1とする。図9ではspam、hamで表している。特徴ベクトルには例えば、当該ページに含まれている単語情報やリンク情報などを用いる。特徴ベクトルの各カラムは、当該事例の特徴ベクトルxの値を格納している。
特徴追加スパム訓練データDB90は、スパム訓練データDB070において予測結果DB60(図8)のスコアを新たなカラムとして追加したものである。なお、文字種単位のスコアが別途計算されていた場合に、上記カラムとは別のカラムとして追加が可能である。
特徴追加スパム訓練データDB90を用いて既存のスパム分類器生成手法を用いてスパム判別器を生成することが可能である。スパム分類器生成手法には、例えば非特許文献1に記載された技術を用いることができる。
(実施の形態のまとめ)
上述したように、本実施の形態では、トピックベクトル計算機能部40を備え、(1)文毎のトピック変化量と、(2)文書全体から見たトピックの整合性の2つの観点のスコアを計算することとしている。これにより、文書内のトピックの変化及びトピックの整合性を特徴として抽出することが可能となり、単語の出現頻度だけに基づく特徴に比べて高精度に自動生成されたスパムページの特徴を表現することが可能となる。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 トピックベクトル評価部
10 訓練テキストDB
20 トピック学習機能部
30 トピックパラメータDB
40 トピックベクトル計算機能部
50 テキストDB
60 予測結果DB
70 スパム訓練データDB
80 特徴付与機能部
90 特徴追加訓練データDB
100 スパム特徴算出装置

Claims (7)

  1. スパム文書を判別するために用いられる特徴を算出するスパム特徴算出装置であって、
    非スパム文書である訓練テキストから、各トピックに対する単語のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習手段と、
    特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出手段と
    を備えたことを特徴とするスパム特徴算出装置。
  2. 前記特徴算出手段は、各分割テキストについて、隣接する分割テキストとの間のトピックベクトルの差分を計算することにより、分割テキスト毎のトピックベクトルの変化量を求め、当該変化量に基づいて前記特徴を算出する
    ことを特徴とする請求項1に記載のスパム特徴算出装置。
  3. 前記特徴算出手段は、特徴算出の対象となる前記テキストのトピックベクトルを更に計算し、当該トピックベクトルと各分割テキストに対応するトピックベクトルとの差分を計算し、当該差分に基づいて前記特徴を算出する
    ことを特徴とする請求項1又は2に記載のスパム特徴算出装置。
  4. スパム文書を判別するために用いられる特徴を算出するスパム特徴算出装置が実行するスパム特徴算出方法であって、
    非スパム文書である訓練テキストから、各トピックに対する単語のサンプル数からなるトピックパラメータを算出し、トピックパラメータDBに格納するトピック学習ステップと、
    特徴算出の対象となるテキストを所定の単位に分割し、分割テキストの集合を得て、各分割テキストについて、前記トピックパラメータDBに格納されたトピックパラメータを用いてトピックベクトルを計算し、トピックベクトル間の差分に基づいて前記特徴を算出する特徴算出ステップと
    を備えたことを特徴とするスパム特徴算出方法。
  5. 前記特徴算出ステップにおいて、各分割テキストについて、隣接する分割テキストとの間のトピックベクトルの差分を計算することにより、分割テキスト毎のトピックベクトルの変化量を求め、当該変化量に基づいて前記特徴を算出する
    ことを特徴とする請求項4に記載のスパム特徴算出方法。
  6. 前記特徴算出ステップにおいて、特徴算出の対象となる前記テキストのトピックベクトルを更に計算し、当該トピックベクトルと各分割テキストに対応するトピックベクトルとの差分を計算し、当該差分に基づいて前記特徴を算出する
    ことを特徴とする請求項4又は5に記載のスパム特徴算出方法。
  7. コンピュータを、請求項1ないし3のうちいずれか1項に記載のスパム特徴算出装置における各手段として機能させるためのプログラム。
JP2012178991A 2012-08-10 2012-08-10 スパム特徴算出装置、スパム特徴算出方法、及びプログラム Expired - Fee Related JP5824430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012178991A JP5824430B2 (ja) 2012-08-10 2012-08-10 スパム特徴算出装置、スパム特徴算出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012178991A JP5824430B2 (ja) 2012-08-10 2012-08-10 スパム特徴算出装置、スパム特徴算出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014038393A JP2014038393A (ja) 2014-02-27
JP5824430B2 true JP5824430B2 (ja) 2015-11-25

Family

ID=50286506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012178991A Expired - Fee Related JP5824430B2 (ja) 2012-08-10 2012-08-10 スパム特徴算出装置、スパム特徴算出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5824430B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838287B (zh) * 2019-10-16 2022-04-19 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质

Also Published As

Publication number Publication date
JP2014038393A (ja) 2014-02-27

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
US9208441B2 (en) Information processing apparatus, information processing method, and program
WO2017097231A1 (zh) 话题处理方法及装置
Ahmed et al. Effective sentimental analysis and opinion mining of web reviews using rule based classifiers
CN108228704A (zh) 识别风险内容的方法及装置、设备
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
US20200202253A1 (en) Computer, configuration method, and program
Ikeda et al. Semi-Supervised Learning for Blog Classification.
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Yan Mapreduce and semantics enabled event detection using social media
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116932730A (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
JP5824430B2 (ja) スパム特徴算出装置、スパム特徴算出方法、及びプログラム
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
Camastra et al. Machine learning-based web documents categorization by semantic graphs
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
JP6509391B1 (ja) 計算機システム
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
JP2014038392A (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
JP5462748B2 (ja) データ可視化装置、データ変換装置、方法、及びプログラム
Jittawiriyanukoon Evaluation of a multiple regression model for noisy and missing data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151009

R150 Certificate of patent or registration of utility model

Ref document number: 5824430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees