JP5694989B2 - 文書分類装置及びプログラム - Google Patents

文書分類装置及びプログラム Download PDF

Info

Publication number
JP5694989B2
JP5694989B2 JP2012106682A JP2012106682A JP5694989B2 JP 5694989 B2 JP5694989 B2 JP 5694989B2 JP 2012106682 A JP2012106682 A JP 2012106682A JP 2012106682 A JP2012106682 A JP 2012106682A JP 5694989 B2 JP5694989 B2 JP 5694989B2
Authority
JP
Japan
Prior art keywords
document
similar
author
documents
authors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012106682A
Other languages
English (en)
Other versions
JP2013235369A (ja
Inventor
高橋 大和
大和 高橋
杉崎 正之
正之 杉崎
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012106682A priority Critical patent/JP5694989B2/ja
Publication of JP2013235369A publication Critical patent/JP2013235369A/ja
Application granted granted Critical
Publication of JP5694989B2 publication Critical patent/JP5694989B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分類装置及びプログラムに係り、特に複数の文書から分析や検索に利用するための文書を分類する文書分類装置及びプログラムに関する。
近年では、インターネットが一般化したことにより、Web上の情報量は飛躍的に増加している。そのため、現在では、これら大量の情報を効率よく整理して扱う技術が必須となっている。Webページに記載されている情報は様々であるが、例えば、購入した商品に関する感想や視聴した映画の批評などといったユーザ視点での意見を述べた文書は、その商品や映画に対するユーザの評判を知るうえで有益な情報となる。
このような著者の独特の意見が書かれている文書は、検索や分析に有用な情報であり、言い換えれば、類似した文書が複数存在する場合には、その文書に記述された意見は独自の意見とは言い難い。
そこで、類似した文書を検出する技術として、文単位で類似ページを検出することで、文同士の包含関係、一部重複、同一などを判定する手法が提案されている(例えば、非特許文献1参照)。また、近似最近傍点探索技術のひとつである、近接する点は同じ値となり、離れた点は違う値となるようなハッシュ関数を用いるLocality−Sensitive Hashing(LSH)という技術を応用して、短い文章の読点の数や「てにをは」の些細な違いを考慮して類似文書を検出する手法が提案されている(例えば、非特許文献2参照)。
柴田、姜、黒橋、「同一文抽出に基づく類似ページの検出と分類」、人工知能学会論文誌25(1)、p224−232、2010年 Piotr Indyk and Rajeev Motwani, "Approximate Neraest Neighbors: Towards Removing the Curse of Dimensionality." In STOC, 1998.
ここで、情報検索の場合であれば、検索結果として同じような文書がいくつも抽出されることは好ましくない。また、分析の場合であれば、類似した文書の数はある程度の意味を持つが、短い文書で類似した文書が複数存在しても分析の対象とする情報としては価値が低いと考えられる。加えて、ある程度の長さの文書に対して複数の類似した文書が存在する場合は、スパムと疑うべき可能性もある。より具体的には、同一と考えられるユーザが同じような意見をいくつかのブログに投稿した場合や、悪質なスパム行為として同じような文章を掲載している場合、そのような文書は分析に利用することで有害な情報となる。
しかしながら、非特許文献1及び2などの手法では、一致もしくは類似した文からなるWeb文書を検出することはできるが、上述のような事情を考慮した上での分析はできず、分析などに有用な文書(著者の独特の意見が書かれている文書)かどうかの判別をするには、別途文書の分析を行わなければならない、という問題がある。
本発明は上記事情に鑑みて成されたものであり、分析や検索に有用な文書を分類することができる文書分類装置及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の文書分類装置は、著者を示す著者情報及び文書掲載に関するサービスを示すサービス情報を有するウェブ上に掲載された複数の文書の各々から抽出した単語に基づいて、各文書の特徴値を算出し、前記抽出した単語の数及び前記特徴値が共通する複数の文書を類似文書群として検出する類似文書群検出手段と、前記類似文書群検出手段により検出された類似文書群に含まれる各文書が有する著者情報のうち、類似した文書を複数掲載した履歴を有する著者を示す情報として登録された対象著者情報に一致する著者情報の数が所定数以上の場合に、前記類似文書群に含まれる各文書を分析対象用文書から除外する著者判定手段と、前記著者判定手段により前記分析対象用文書から除外されなかった類似文書群について、前記抽出された単語の数、該類似文書群に含まれる文書の数、著者の数、及びサービスの数の少なくとも1つに基づいて、該類似文書群に含まれる各文書を分析対象用文書とするか否かを判定する分析対象判定手段と、を含んで構成されている。
本発明の文書分類装置によれば、類似文書群検出手段が、著者を示す著者情報及び文書掲載に関するサービスを示すサービス情報を有するウェブ上に掲載された複数の文書の各々から抽出した単語に基づいて、各文書の特徴値を算出し、抽出した単語の数及び特徴値が共通する複数の文書を類似文書群として検出する。そして、著者判定手段が、類似文書群検出手段により検出された類似文書群に含まれる各文書が有する著者情報のうち、類似した文書を複数掲載した履歴を有する著者を示す情報として登録された対象著者情報に一致する著者情報の数が所定数以上の場合に、類似文書群に含まれる各文書を分析対象用文書から除外し、分析対象判定手段が、著者判定手段により分析対象用文書から除外されなかった類似文書群について、抽出された単語の数、類似文書群に含まれる文書の数、著者の数、及びサービスの数の少なくとも1つに基づいて、類似文書群に含まれる各文書を分析対象用文書とするか否かを判定する。
このように、抽出された単語に基づいて算出された特徴値が同一の文書を類似文書群として検出し、文書の著者が類似した文書を複数掲載した履歴を有する著者として登録されている文書を分析対象用文書から除外し、また、抽出された単語の数、文書の重複数、著者数、サービス数に基づいて、各文書を分析対象用文書とするか否かを判定するため、分析または検索に有用な文書を分類することができる。
また、本発明の文書分類プログラムは、コンピュータを、上記の文書分類装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の文書分類装置によれば、分析または検索に有用な文書を分類することができる、という効果が得られる。
本実施の形態に係る文書分類装置の機能的構成を示すブロック図である。 本実施の形態における文書分類処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本実施の形態に係る文書分類装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書分類処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成することができる。
このコンピュータは、機能的には、図1に示すように、類似文書群検出部12と、ブラックリスト判定部14と、仕分け判定部16とを含んだ構成で表すことができる。なお、ブラックリスト判定部14は、本発明の著者判定手段の一例であり、仕分け判定部16は、本発明の分析対象判定手段の一例である。
類似文書群検出部12は、文書掲載に関するサービスによりWeb上に掲載された文書を示す文書データが蓄積されたWebクローラ蓄積データベース(DB)20から、所定期間(例えば、1日)にクロールされた文書データを取得する。ここで、文書データは、その文書が掲載されたWebページのURL及び本文データ(テキストデータ)を含むものとする。なお、本実施の形態では、文書掲載に関するサービスとしてブログサービスによりWeb上に掲載された文書がWebクローラ蓄積DB20に蓄積されている場合について説明する。
類似文書群検出部12は、取得した複数の文書データの各々から、文を構成するうえで特徴となる名詞、形容詞語幹、動詞語幹といった単語を抽出し、文書の特徴を表す語群として辞書順に並べ、重複する単語は一つにして、MD(Message Digest Algorithm)5やSHA(Secure Hash Algorithm)256などで固有のハッシュ値を算出して、文書固有の特徴値とする。ここでは、文書から抽出する単語を語幹としているが、これに限定されない。ただし、語幹に限定した場合には、活用により異なる語尾や、「てにをは」や読点の数といった些細な違いを無視して、類似した文書を検出するためのより適切な単語を抽出することができる。この特徴値が同一の文書は、内容が類似している文書として扱い、同一の特徴値を持つ文書を類似文書群としてまとめ、類似文書群記録部22に記録する。なお、上記のような手法で文書毎の特徴値を算出することで、同一の特徴値を持つ文書は、特徴値算出の際に抽出された単語数も同一となる。
ブラックリスト判定部14は、類似文書群記録部22に記録された類似文書群毎に、類似文書群に含まれる各文書データのURLに基づいて、その文書の著者を推定する。ブログなどでは、そのURLに著者固有の部分を持つ場合が多いため、URLから著者固有の部分を抽出することにより、著者を推定する。そして、推定した著者のうち、著者ブラックリストDB24に登録された著者に該当する著者が1人でも存在するか否かを判定する。著者ブラックリストDB24には、類似した文書を複数掲載した履歴を有する著者が登録されている。著者ブラックリストDB24に該当する著者が1人でも存在する場合には、その類似文書群に含まれる各文書は同じ著者によって書かれた可能性が高いため、その類似文書群に含まれる各文書を仕分けDB26に記録する。なお、仕分けDB26は、分析には利用しないが蓄積だけはしておく文書データを記録するためのデータベースである。
なお、ここでは、著者ブラックリストDB24に該当する著者が1人でも存在する場合に、類似文書群に含まれる各文書を仕分けDB26に記録する場合ついて説明したが、著者ブラックリストDB24に該当する著者の数が所定数(例えば、2人)以上の場合に、類似文書群に含まれる各文書を仕分けDB26に記録するようにしてもよい。
また、ブラックリスト判定部14は、類似文書群について、類似文書群検出部12で抽出された単語の数が閾値thBLを超えている場合、つまりある程度の長さの文書であるにもかかわらず文書同士が類似している場合には、類似文書群に含まれる各文書の他の著者についても、既に著者ブラックリストDB24に登録されている著者に関連する著者とみなし、著者ブラックリストDB24に追加する。
仕分け判定部16は、ブラックリスト判定部14により仕分けDB26に蓄積されなかった類似文書群について、抽出された単語の数、その類似文書群に含まれる文書の数(文書の重複数)、著者の数、及びブログサービスの数に基づいて、類似文書群に含まれる各文書を仕分けDB26に蓄積するか、分析用DB28に蓄積するかを判定する。なお、分析用DB28は、分析に利用する文書データを記録するためのデータベースである。
より具体的には、仕分け判定部16は、抽出された単語数が閾値thmin以下の場合、類似文書群に含まれる各文書を仕分けDB26へ記録する。これは、例えば、抽出された単語数が2〜5個の場合、文書が短いために偶然文書同士が類似(重複)することが多く、また、検索用途でも分析用途でも有用な情報を含むことが少ないためである。
また、仕分け判定部16は、抽出された単語数が閾値thmax1以上で、かつ文書の重複数が閾値th以上の場合、類似文書群に含まれる各文書を仕分けDB26に記録する。これは、ある程度長い文書が偶然類似する確率はかなり低く、スパムもしくは同一著者のミラーであると考えられることによる。具体的には、抽出された単語数が多く(例えば、10以上)、文書の重複数も多く(例えば、10以上)、かつ各文書のブログサービスが同一の場合は、各文書は「ブログ始めました」等の定型文であることが多い。さらに、抽出された単語数がより多い場合には、各文書はスパム記事である場合が多い。従って、これらの文書は仕分けDB26に記録する。また、スパム判別は様々な手法が考えられるが、ここでは、抽出された単語数が閾値thmax1よりさらに多い閾値thmax2を超え、かつ各文書のブログサービスが同一の場合には、各文書はスパムと捉え、各文書の著者を著者ブラックリストDB24に追加する。なお、ブログサービスが同一か否かの判定は、各文書データのURLに基づいて、その文書が掲載されているブログサービスを推定して行う。上述の著者の推定と同様に、ブログなどでは、そのURLにブログサービスを示す固有のホスト名やサービス名を含む場合が多いため、URLからサービス名を示す部分を抽出し、場合によっては別途辞書などを用いて特定のサービス名を付与することにより、各文書のブログサービスを推定する。
また、仕分け判定部16は、類似文書群に含まれる各文書のURLに基づいて、ブログサービスの数及び著者数を抽出する。ブログサービスの数及び著者数は、上述のとおりURLからブログサービス及び著者を推定し、その数を重複を排除してカウントすることにより抽出する。ブログサービス数と著者数とが共に1の場合は、仕分けDB26に記録すると共に、その著者を著者ブラックリストDB24に追加する。これは、同一著者が同一ブログサービスへ類似した記事をいくつも書いていることになるためである。
また、仕分け判定部16は、ブログサービス数が1で、著者数/文書の重複数が1に近い場合(例えば、0.8〜1.2)は、類似文書群に含まれる各文書を仕分けDB26に記録する。これは、同一ブログサービスにおいて定型的な文書である場合である。例えば、新規ユーザの「ブログ始めました」といった記事や、ソーシャルイベントによるテンプレート記事の投稿である。そのため、一般的な文書と分けるために、仕分けDB26に記録する。
また、仕分け判定部16は、上記以外の類似文書群に含まれる各文書を、分析用DB28に記録する。
次に、本実施の形態に係る文書分類装置10の作用について説明する。Web上のブログサービスからクロールされた文書データがWebクローラ蓄積DB20に蓄積され、文書分類装置10において、所定期間毎に図2に示す文書分類処理ルーチンが実行される。
ステップ100で、類似文書群検出部12が、Webクローラ蓄積DB20から、所定期間にクロールされた文書データを取得する。
次に、ステップ102で、類似文書群検出部12が、取得した複数の文書データの各々から、文を構成するうえで特徴となる名詞、形容詞語幹、動詞語幹といった単語を抽出し、文書の特徴を表す語群として辞書順に並べ、重複する単語は一つにして、MD5やSHA256などで固有のハッシュ値を算出して、文書固有の特徴値とする。そして、同一の特徴値を持つ文書を類似文書群としてまとめ、類似文書群記録部22に記録する。
次に、ステップ104で、ブラックリスト判定部14が、類似文書群記録部22に記録された類似文書群から1つの類似文書群を読み出す。
次に、ステップ106で、ブラックリスト判定部14が、上記ステップ104で読み出した類似文書群に含まれる各文書データのURLに基づいて、各文書の著者を推定し、推定した著者のうち、著者ブラックリストDB24に登録された著者に該当する著者が存在するか否かを判定する。著者ブラックリストDB24に該当する著者が存在しない場合には、ステップ114へ移行し、存在する場合には、ステップ108へ移行する。
ステップ108では、ブラックリスト判定部14が、読み出した類似文書群について、上記ステップ102で抽出された単語の数が閾値thBLを超えているか否かを判定する。抽出された単語の数>閾値thBLの場合には、ステップ110へ移行し、類似文書群に含まれる各文書の他の著者についても、既に著者ブラックリストDB24に登録されている著者に関連する著者とみなし、著者ブラックリストDB24に追加して、ステップ112へ移行する。一方、抽出された単語の数≦閾値thBLの場合には、そのままステップ112へ移行する。ステップ112では、読み出した類似文書群に含まれる各文書を仕分けDB26に記録する。
ステップ114では、仕分け判定部16が、上記ステップ104で読み出した類似文書群について抽出された単語の数が閾値thminを超えているか否かを判定する。抽出された単語の数>閾値thminの場合には、ステップ116へ移行し、抽出された単語の数≦閾値thminの場合、ステップ112へ移行して、類似文書群に含まれる各文書を仕分けDB26へ記録する。
ステップ116では、仕分け判定部16が、抽出された単語数が閾値thmax1より小さいか、または文書の重複数が閾値thより小さいか否かを判定する。抽出された単語数<閾値thmax1、または文書の重複数<閾値thの場合には、ステップ120へ移行し、抽出された単語数≧閾値thmax1、かつ文書の重複数≧閾値thの場合には、ステップ118へ移行する。
ステップ118では、仕分け判定部16が、抽出された単語数が閾値thmax2を超え、かつ各文書のブログサービスが同一か否かを判定する。肯定判定される場合には、ステップ110へ移行して、各文書の著者を著者ブラックリストDB24に追加して、ステップ112へ移行する。否定判定される場合には、そのままステップ112へ移行する。ステップ112では、読み出した類似文書群に含まれる各文書を仕分けDB26に記録する。
ステップ120では、仕分け判定部16が、類似文書群に含まれる各文書のURLに基づいて、ブログサービスの数及び著者数を抽出し、ブログサービス数が1以外、または著者数が1以外か否かを判定する。ブログサービス数≠1、または著者数≠1の場合には、ステップ122へ移行し、ブログサービス数及び著者数が共に1の場合には、ステップ110へ移行して、各文書の著者を著者ブラックリストDB24に追加し、次に、ステップ112で、読み出した類似文書群に含まれる各文書を仕分けDB26に記録する。
ステップ122では、仕分け判定部16が、ブログサービス数が1以外、または著者数/文書の重複数が1に近くない(著者数/文書の重複数≦1−α、または著者数/文書の重複数≧1+α)か否かを判定する。ブログサービス数≠1、または著者数/文書の重複数が1に近くない場合には、ステップ124へ移行して、読み出した類似文書群に含まれる各文書を分析用DB28に記録する。ブログサービス数=1、かつ著者数/文書の重複数が1に近い場合には、ステップ112へ移行して、読み出した類似文書群に含まれる各文書を仕分けDB26に記録する。
次に、ステップ126で、類似文書群記録部22に記録された全ての類似文書群について上記の処理が終了したか否かを判定し、終了していない場合には、ステップ104へ戻って、次の類似文書群を読み出して、ステップ106〜124の処理を繰り返す。全ての類似文書群について上記の処理が終了した場合には、文書分類処理ルーチンを終了する。
以上説明したように、本実施の形態に係る文書分類装置によれば、抽出された単語に基づいて算出された特徴値が同一の文書を類似文書群として検出し、類似文書群毎に、文書の著者が類似した文書を複数掲載した履歴を有する著者としてブラックリストに登録されている文書を排除し、また、抽出された単語の数、文書の重複数、著者数、サービス数に基づいて、スパムと考えられる文書や定型的な文書、短いために情報が少ない文書を排除するため、著者の独特の意見が記述された分析または検索に有用な文書を分類することができる。
このように分類された有用な文書のみを分析用DBに記録するため、分析用DBの記憶領域を削減することができる。また、仕分けDBに記録された文書は、類似部分が多く存在するため、各文書間の類似部分と差異部分とを分けて圧縮して記録することで、仕分けDBの記憶領域を削減することができる。また、このように分類され分析用DBに記録された文書を用いて、評判分析やトレンド分析といった分析処理を行うことで、分析精度の向上を実現することができる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の文書分類処理ルーチンでは、ステップ106で、類似文書群に含まれる各文書の著者に著者ブラックリスト24に該当する著者が含まれていると判定され、ステップ108で肯定判定された場合には、類似文書群に含まれる各文書の他の著者についても、著者ブラックリストDB24に該当する著者に関連する著者とみなし、著者ブラックリストDB24に追加する場合について説明したが、これに限定されない。例えば、著者ブラックリストDB24に該当する著者に関連する著者であると判定された回数を記録しておき、その回数が所定回数を超えた場合に、その関連する著者を著者ブラックリストDB24に追加するようにしてもよいし、別途定めた基準や情報を用いて著者間の関連度を計算し、著者間の関連度が所定の閾値以上であると判定された場合に、その関連する著者を著者ブラックリストDB24に追加するようにしてもよい。
また、上述の文書分類装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 文書分類装置
12 類似文書群検出部
14 ブラックリスト判定部
16 仕分け判定部

Claims (2)

  1. 著者を示す著者情報及び文書掲載に関するサービスを示すサービス情報を有するウェブ上に掲載された複数の文書の各々から抽出した単語に基づいて、各文書の特徴値を算出し、前記抽出した単語の数及び前記特徴値が共通する複数の文書を類似文書群として検出する類似文書群検出手段と、
    前記類似文書群検出手段により検出された類似文書群に含まれる各文書が有する著者情報のうち、類似した文書を複数掲載した履歴を有する著者を示す情報として登録された対象著者情報に一致する著者情報の数が所定数以上の場合に、前記類似文書群に含まれる各文書を分析対象用文書から除外する著者判定手段と、
    前記著者判定手段により前記分析対象用文書から除外されなかった類似文書群について、前記抽出された単語の数、該類似文書群に含まれる文書の数、著者の数、及びサービスの数の少なくとも1つに基づいて、該類似文書群に含まれる各文書を分析対象用文書とするか否かを判定する分析対象判定手段と、
    を含む文書分類装置。
  2. コンピュータを、請求項1記載の文書分類装置を構成する各手段として機能させるための文書分類プログラム。
JP2012106682A 2012-05-08 2012-05-08 文書分類装置及びプログラム Expired - Fee Related JP5694989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012106682A JP5694989B2 (ja) 2012-05-08 2012-05-08 文書分類装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012106682A JP5694989B2 (ja) 2012-05-08 2012-05-08 文書分類装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013235369A JP2013235369A (ja) 2013-11-21
JP5694989B2 true JP5694989B2 (ja) 2015-04-01

Family

ID=49761457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012106682A Expired - Fee Related JP5694989B2 (ja) 2012-05-08 2012-05-08 文書分類装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5694989B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6561529B2 (ja) * 2015-03-26 2019-08-21 富士通株式会社 文書検査装置、方法、及びプログラム
JP6965773B2 (ja) 2018-02-02 2021-11-10 日本電信電話株式会社 提示装置、提示方法および提示プログラム

Also Published As

Publication number Publication date
JP2013235369A (ja) 2013-11-21

Similar Documents

Publication Publication Date Title
Davidson et al. Racial bias in hate speech and abusive language detection datasets
CN107437038B (zh) 一种网页篡改的检测方法及装置
Seo et al. Local text reuse detection
CN105224518B (zh) 文本相似度的计算方法及系统、相似文本的查找方法及系统
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
Yoshinaga et al. A self-adaptive classifier for efficient text-stream processing
CN109918621B (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
Shapira et al. Content-based data leakage detection using extended fingerprinting
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
Karkali et al. Using temporal IDF for efficient novelty detection in text streams
CN103218388B (zh) 文档相似性评价系统、文档相似性评价方法以及计算机程序
Jaman et al. Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine
Li et al. A reversible database watermarking method non-redundancy shifting-based histogram gaps
Samonte Polarity analysis of editorial articles towards fake news detection
JP5694989B2 (ja) 文書分類装置及びプログラム
CN112818206A (zh) 一种数据分类方法、装置、终端及存储介质
CN107169065B (zh) 一种特定内容的去除方法和装置
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
Chen et al. Aggressivity detection on social network comments
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及系统
Aires et al. An information theory approach to detect media bias in news websites
Santosh et al. Exploiting Wikipedia Categorization for Predicting Age and Gender of Blog Authors.
CN109409127B (zh) 网络数据安全策略的生成方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150205

R150 Certificate of patent or registration of utility model

Ref document number: 5694989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees