JP5216654B2 - 重要度判定装置、重要度判定方法、およびプログラム - Google Patents

重要度判定装置、重要度判定方法、およびプログラム Download PDF

Info

Publication number
JP5216654B2
JP5216654B2 JP2009078383A JP2009078383A JP5216654B2 JP 5216654 B2 JP5216654 B2 JP 5216654B2 JP 2009078383 A JP2009078383 A JP 2009078383A JP 2009078383 A JP2009078383 A JP 2009078383A JP 5216654 B2 JP5216654 B2 JP 5216654B2
Authority
JP
Japan
Prior art keywords
importance
determination
article data
web page
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009078383A
Other languages
English (en)
Other versions
JP2010231508A (ja
Inventor
正憲 原
山田  明
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009078383A priority Critical patent/JP5216654B2/ja
Publication of JP2010231508A publication Critical patent/JP2010231508A/ja
Application granted granted Critical
Publication of JP5216654B2 publication Critical patent/JP5216654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、Webページに表示されている記事データの重要度を判定する重要度判定装置、重要度判定方法、およびプログラムに関する。
従来、インターネット上には、不特定多数に対する情報発信の場としてのWebページが多数存在している。このようなWebページには、企業の広告ページの他、個人ユーザの日記等を記述することができるブログと呼ばれるサービスにより作成されたページも多く見られる。
このブログサービスでは、Webページ(ブログ)をユーザが作成、編集できる仕様であるため、近年では、情報発信とは異なる目的により作成されたスパムブログ(スプログ)が多数見られるようになっている。具体的には、アクセス数を増やす目的で、他のWebページの文章をそのまま引用したもの等が挙げられる。これらのスプログは、独自の記事を持たず重要度が低いため、検索サービスの精度を低下させる要因となったり、大量に生成されることによりブログサービスを提供するサーバのリソースを圧迫したりする問題がある。
そこで、このようなスパムブログを検出する方法が提案されている。例えば、非特許文献1には、特定のキーワードが書かれているブログ記事を予め抽出し、そのスパム率を調査しておくことが示されている。また、非特許文献2には、集めた文書の中で、コピーコンテンツの割合が閾値以上の文書をスプログと判定することが示されている。
「キーワードの特性を利用したスパムブログの収集と分析」、第22回人工知能学会全国大会、2008年 「日本語splogの現状と対策」、電子情報通信学会東京支部学生会研究発表会、2007年
しかしながら、非特許文献1の方法では、予めキーワードを選出する必要があり、このキーワードを含まないスプログを検知することができない。また、非特許文献2の方法では、予め大量のブログを用意しておく必要がある。1日に100万件以上の投稿がある現状では、これらに対して十分な量をサンプリングすることは現実的ではない。そこで、事前にデータ収集することなく、簡便にスプログ等の重要度の低い記事を検知できる方法が望まれている。
本発明は、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる重要度判定装置、重要度判定方法、およびプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) Webページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
このような構成によれば、当該重要度判定装置は、Webページ(ブログ)内に記述されているリンクデータ、具体的には、URL(Uniform Resource Locator)を抽出し、このURLのリンク先のファイルを取得する。そして、取得したファイル内に、Webページの記事が含まれる場合、Webページがリンク先のファイルを引用していると判断できるので、当該重要度判定装置は、この記事の重要度を低く判定する。
したがって、当該重要度判定装置は、Webページに表示される記事の重要度を判定することにより、この重要度が低い記事を表示させているWebページをスプログであると判定することができる。このとき、当該重要度判定装置は、判定対象のWebページとURLのリンク先データのみを参照することで重要度判定を行うので、事前のデータ収集を必要とせず、簡便に重要度を判定することができる。
(2) 前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする(1)に記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)の近傍の記事データを用いて判定するので、引用された可能性の高い記事を効率的に抽出できる。また、タグ、改行、句読点や「...」等、所定の文字列を区切りとして分割するので、分割された小さな単位で引用の有無を判定できる。その結果、記事全体としての引用の度合いを容易に判定することができる。
(3) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする(2)に記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる量に基づいて重要度を判定する。すなわち、引用量の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。
(4) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Webページの重要度を判定することを特徴とする(2)に記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる割合に基づいて重要度を判定する。すなわち、引用割合の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。
(5) 前記判定手段は、前記Webページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする(1)から(4)のいずれかに記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)と記事データとの距離に基づいて重要度を判定する。ここで、リンクデータに近い記事であるほどリンクデータとの関連性は高く、引用された可能性が高いと考えられる。当該重要度判定装置は、このような引用された可能性が高い記事の重要度を低く判定することができる。
(6) 前記判定手段は、前記Webページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする(1)から(5)のいずれかに記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、複数のリンクデータに対する判定結果に基づいて、Webページ(ブログ)の所定領域、例えば所定の期間に投稿されたブログ記事やブログ全体の重要度を判定することができる。したがって、局所的に引用されているだけで、その他の部分も含めて重要度が低く判定されることを抑制でき、スプログ検知の精度を向上することができる。
(7) Webページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする(1)から(6)のいずれかに記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、Webページが更新されたことを示す情報を受信するので、新しく生成された、または更新されたWebページ(ブログ)の記事データを受信することができる。したがって、未判定のWebページを対象として効率的にスプログか否かを判定することができる。
(8) 前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたWebページに関して、前記記事データの重要度を判定することを特徴とする(7)に記載の重要度判定装置。
このような構成によれば、当該重要度判定装置は、所定の時間帯に更新されたWebページ(ブログ)に関してスプログ判定を行う。したがって、例えば深夜の時間帯に更新されたWebページや、一定周期で更新されているWebページ等、自動的に更新された可能性の高いWebページを選択することができる。その結果、当該重要度判定装置は、効率的にスプログを検知できる可能性がある。
(9) コンピュータがWebページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
このような構成によれば、当該方法を実行することにより、(1)と同様の効果が期待できる。
(10) Webページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
本発明によれば、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる。
本発明の実施形態に係る判定サーバと関連要素とを含んだシステムの全体構成を示す図である。 本発明の実施形態に係る判定サーバのハードウェア構成を示す図である。 本発明の実施形態に係る判定サーバの機能構成を示す図である。 本発明の実施形態に係るスプログ判定テーブルを示す図である。 本発明の実施形態に係る判定サーバによりスプログと判定されるWebページの例を示す図である。 本発明の実施形態に係る判定サーバの制御部における処理を示すフローチャートである。
以下、本発明の実施形態の一例について図を参照しながら説明する。なお、重要度を判定する対象は、ブログの記事データであるとする。本実施形態では、重要度に応じて、このブログがスプログであるか否かを判定する。
[システム全体構成]
図1は、本実施形態に係る判定サーバ10(重要度判定装置)と関連要素とを含んだシステムの全体構成を示す図である。判定サーバ10と、Webサーバ20および21と、ユーザ端末30とは、インターネット等の所定のネットワークを介して接続されている。
ユーザ端末30は、所定の検索サービスの検索結果から選択される等の指示入力に応じて、Webサーバ20より、Webページ(ブログ)を受信して表示する。このWebページには、別のWebサーバ21に記憶されているファイルに対するURLが記述されており、このファイルを引用(コピー)しているものとする。なお、リンク先は、同一のWebサーバ20内であってもよい。
判定サーバ10は、ユーザ端末30に表示されたブログ記事の重要度を判定し、このブログがスパムブログであるか否かを判定する。このとき、判定サーバ10は、Webサーバ21より、引用ファイルを受信し、ブログ記事との一致度に基づいて重要度を判定する(処理の詳細は後述する)。
[ハードウェア構成]
図2は、本実施形態に係る判定サーバ10のハードウェア構成を示す図である。判定サーバ10は、制御部110と、記憶部120と、入力部130と、表示部140と、通信部150と、を備え、各ハードウェアは、バス160を介して接続されている。
制御部110は、判定サーバ10の全体を制御する部分であり、記憶部120に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアと協働し、本発明に係る各種機能を実現している。制御部110は、CPU(Central Processing Unit)であってよい。
記憶部120は、ハードウェア群を判定サーバ10として機能させるための各種プログラムや、本発明の機能を制御部110に実行させるプログラム、データベース等を記憶する。記憶部120は、ハードディスク、光ディスクドライブ、あるいは半導体メモリ等、様々な記憶装置のいずれかにより構成されてよい。
入力部130は、判定サーバ10に対するユーザ(判定サーバ10の管理者)からの指示入力を受け付けるインタフェース装置である。入力部130は、例えばキーボードやマウス等により構成される。
表示部140は、ユーザ(判定サーバ10の管理者)にデータの入力を受け付ける画面を表示したり、判定サーバ10による処理結果の画面を表示したりするものである。表示部140は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置であってよい。
通信部150は、判定サーバ10が、ネットワーク40(図1)を介してWebサーバ20、21や他の情報端末等と情報を送受信する場合のネットワーク・アダプタである。
なお、本発明でいうコンピュータとは、制御装置や記憶装置等を備えた情報処理装置である。判定サーバ10は、制御部110や記憶部120等を備えた情報処理装置であり、この情報処理装置は、本発明のコンピュータの概念に含まれる。
[機能構成]
図3は、本実施形態に係る判定サーバ10の機能構成を示す図である。判定サーバ10の制御部110は、ブログ受信部11(受信手段)と、URL抽出部12(抽出手段)と、引用ファイル取得部13(取得手段)と、引用解析部14(判定手段)と、スプログ判定部15と、を備える。また、記憶部120は、ブログDB16を備える。
ブログ受信部11は、Webサーバ20からスプログ判定の対象であるブログのページデータ(HTMLファイル)を受信する。ここで、ブログ受信部11は、新規に作成または更新されたブログを受信することとする。すなわち、ブログ受信部11は、RSS等により配信されるブログの更新情報を受信したことに応じて、対象のブログを受信する。
URL抽出部12は、ブログ受信部11により受信されたブログのページデータから、リンクデータとしてのURLを抽出する。具体的には、URL抽出部12は、「http」から始まる文字列の、「”」や「>」や改行までの部分を抽出する。これにより、URL抽出部12は、実際のリンク項目としてタグを付与されていないURLも抽出することができる。なお、「.html」や「.htm」等のファイル拡張子をもつもの以外を除外することとしてもよい。
さらに、URL抽出部12は、抽出したURLの近傍にある記事データを抽出する。具体的には、URLの前後の所定量の記事データについて、タグ部分や、改行、句読点や「...」等、所定の文字列を区切りとして、分割して抽出する。URL抽出部12は、抽出したURLおよび記事データをブログDB16に記憶する。
図4は、本実施形態に係るブログDB16に格納されるスプログ判定テーブルを示す図である。スプログ判定テーブルには、対象ブログの更新日時と共に、抽出されたURLおよびURL近傍の記事データが記憶される。さらに、各記事データとURLとの距離データ、および後述の重要度の低さを示す引用判定値が記憶される。
引用ファイル取得部13は、スプログ判定テーブルに記憶されたURL、すなわちスプログ判定対象のブログに記述されているURLが指し示すリンク先の引用ファイルを、Webサーバ21から取得する。
引用解析部14は、引用ファイル取得部13により取得した引用ファイルと、スプログ判定テーブルに記憶されている記事データとを比較し、引用ファイル内に記事データと一致する部分が存在する場合には、引用(コピー)されたと判断する。さらに、URLと記事データとの距離を考慮し、距離が近いほど引用判定値を大きく設定し、スプログ判定テーブルに記憶する。ここで、引用判定値が大きいほど記事データの重要度は低く、Webページがスプログである可能性が高いことを示している。
スプログ判定部15は、引用解析部14により判定された記事データの重要度、すなわちスプログ判定テーブルの引用判定値を統計処理することにより、スプログ判定を行う。具体的には、例えば引用判定値の合計や平均、あるいは所定以上の引用判定値となっている記事データの量や割合等により引用度合いを算出し、この度合いが所定の閾値以上である場合にスプログであると判定する。
図5は、本実施形態に係る判定サーバ10によりスプログと判定されるWebページの例を示す図である。
ブログページ50には、URLを含むリンクデータ51と共に記事データ52が配置されている。リンクデータ51は、別のWebページ60へのハイパーリンクであり、URLが指し示すリンク先のWebページ60には、リンクデータ51と同一のタイトル文字列61と、記事データ52と同一の文章である記事データ62が配置されている。
判定サーバ10は、リンクデータ51の近傍の文字列がWebページ60に含まれることにより、この領域の記事データについて、重要度が低いと判定する。他の領域についても、同様にリンクデータ近傍の記事データが別のWebページに存在することが判明すると、ブログページ50全体の重要度は低くなる。その結果、判定サーバ10は、ブログページ50はスプログであると判定する。
なお、重要度を判定する記事データは、テキストには限られない。例えば、動画像53や、静止画、音声データ等であってもよく、判定サーバ10は、リンク先に同一のデータが存在することにより、これらが引用(コピー)されたものとして重要度を低く設定する。
[処理フロー]
図6は、本実施形態に係る判定サーバ10の制御部110における処理を示すフローチャートである。
ステップS1では、制御部110は、RSS等により取得したWebページの更新情報に基づいて、スプログ判定を行うブログのページデータを取得する。
ステップS2では、制御部110は、ステップS1で取得したページデータから、URLの記述を抽出する。
ステップS3では、制御部110は、ステップS2で抽出したURLの付近の記事データを抽出する。抽出されたURLおよび記事データは、記憶部120のスプログ判定テーブル(図4)に記憶される。
ステップS4では、制御部110は、ステップS2で抽出したURLが指し示す引用ファイルを取得する。
ステップS5では、制御部110は、ステップS4で取得した引用ファイル内に、ステップS3で抽出した記事データと一致する部分が含まれるか否かを解析する。解析結果として、記事データの引用判定値を設定し、記憶部120のスプログ判定テーブル(図4)に記憶する。さらに、制御部110は、判定領域に含まれる複数のURLに関する引用判定値に基づいて、統計処理により全体の引用度合いを算出する。
ステップS6では、制御部110は、ステップS5で算出した引用度合いが所定の閾値以上であるか否かを判定する。この判定がYESの場合はステップS7に移り、判定がNOの場合はステップS8に移る。
ステップS7では、制御部110は、記事の引用度合いが高く、ページの重要度が低いと判断し、ステップS1で取得したブログはスプログであると判定する。
ステップS8では、制御部110は、記事の引用度合いが低く、ページの重要度が高いと判断し、ステップS1で取得したブログはスプログではないと判定する。
このように、本実施形態によれば、記事の中に記述されたURLに基づいて、リンク先との一致度合いを解析することにより、ブログの重要度を判定する。その結果、重要度の低いスプログを検知することができる。このとき、事前にデータ収集する必要がないため、簡便にスプログか否かを判定することができる。
なお、本実施形態では、他の記事を引用しているスプログを検知できる。すなわち、スプログと判定されるブログは、アクセス数を稼ぐためにコンテンツがコピーされたブログの他、例えばアフィリエイト収入を目的として商品説明文等をコピーしているのみのブログ等を精度良く検知することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
上述の実施形態では、新規に作成または更新されたブログを対象として重要度の判定を行ったが、本発明はこれには限られない。例えば、管理者からの指示入力を受け付けて、指示されたWebページや、ページ内の指示された領域について、重要度を判定してもよい。
また、重要度に関する様々な指標を組み合わせ、総合的に重要度を判定してもよい。例えば、所定の時間帯(例えば、深夜)に更新されたWebページや、一定周期で(決まった時間に)更新されているWebページ等は、人手によらず自動的に生成、更新されている可能性が高い。このようなWebページを優先して重要度判定の対象としてもよいし、重要度を低く重み付けして判定してもよい。
上述の実施形態では、判定サーバ10を説明したが、本発明の重要度判定装置の構成はこれには限られない。判定サーバ10の各機能は、複数のサーバに分散されてもよい。また、判定サーバ10は、Webサーバ20等の他のサーバと統合されていてもよい。
10 判定サーバ(重要度判定装置)
11 ブログ受信部(受信手段)
12 URL抽出部(抽出手段)
13 引用ファイル取得部(取得手段)
14 引用解析部(判定手段)
15 スプログ判定部
16 ブログDB

Claims (10)

  1. Webページに表示されている記事データの重要度を判定する重要度判定装置であって、
    前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
    前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
    前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
  2. 前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする請求項1に記載の重要度判定装置。
  3. 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする請求項2に記載の重要度判定装置。
  4. 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Webページの重要度を判定することを特徴とする請求項2に記載の重要度判定装置。
  5. 前記判定手段は、前記Webページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする請求項1から請求項4のいずれかに記載の重要度判定装置。
  6. 前記判定手段は、前記Webページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする請求項1から請求項5のいずれかに記載の重要度判定装置。
  7. Webページの更新情報を受信する受信手段をさらに備え、
    前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする請求項1から請求項6のいずれかに記載の重要度判定装置。
  8. 前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたWebページに関して、前記記事データの重要度を判定することを特徴とする請求項7に記載の重要度判定装置。
  9. コンピュータがWebページに表示されている記事データの重要度を判定する重要度判定方法であって、
    前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
    前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
    前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
  10. Webページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
    前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
    前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
    前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。
JP2009078383A 2009-03-27 2009-03-27 重要度判定装置、重要度判定方法、およびプログラム Active JP5216654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009078383A JP5216654B2 (ja) 2009-03-27 2009-03-27 重要度判定装置、重要度判定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009078383A JP5216654B2 (ja) 2009-03-27 2009-03-27 重要度判定装置、重要度判定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010231508A JP2010231508A (ja) 2010-10-14
JP5216654B2 true JP5216654B2 (ja) 2013-06-19

Family

ID=43047253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009078383A Active JP5216654B2 (ja) 2009-03-27 2009-03-27 重要度判定装置、重要度判定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5216654B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5225369B2 (ja) * 2010-12-21 2013-07-03 ヤフー株式会社 Webページ評価装置及びWebページ評価方法
JP5963310B2 (ja) 2013-01-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、情報処理プログラム
JP6260208B2 (ja) * 2013-11-07 2018-01-17 三菱電機株式会社 テキスト要約装置
CN103927370B (zh) * 2014-04-23 2015-02-18 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338086A (ja) * 2005-05-31 2006-12-14 Nomura Research Institute Ltd 話題規模管理装置
JP5063877B2 (ja) * 2005-08-19 2012-10-31 沖電気工業株式会社 情報処理装置およびコンピュータプログラム
US8244720B2 (en) * 2005-09-13 2012-08-14 Google Inc. Ranking blog documents
JP5135701B2 (ja) * 2006-03-30 2013-02-06 富士通株式会社 Webページ分類プログラム、Webページ分類装置およびWebページ分類方法

Also Published As

Publication number Publication date
JP2010231508A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
CN109145280B (zh) 信息推送的方法和装置
EP3491544B1 (en) Web page display systems and methods
US8601120B2 (en) Update notification method and system
EP2904509B1 (en) Improving access to network content
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN107256232B (zh) 一种信息推荐方法和装置
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
US9251132B2 (en) Method and apparatus for tagging a document
WO2014074216A1 (en) Smart web notifications
CN107153716B (zh) 网页内容提取方法和装置
US9754028B2 (en) Automatic crawling of encoded dynamic URLs
US20130198240A1 (en) Social Network Analysis
US20180336279A1 (en) Computer-implemented methods of website analysis
JP6663005B2 (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
US9880994B1 (en) Detecting compatible layouts for content-based native ads
JP5216654B2 (ja) 重要度判定装置、重要度判定方法、およびプログラム
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
US20110282978A1 (en) Browser plug-in
CN109002550B (zh) 一种针对还原设备的测试方法及装置
JP5116822B2 (ja) ユーザ端末にコンテンツマッチ広告を配信する広告配信装置及び方法
KR101614843B1 (ko) 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム
US20130311860A1 (en) Identifying Referred Documents Based on a Search Result
JP5089091B2 (ja) コンテンツ収集システム
US20230004619A1 (en) Providing smart web links

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

R150 Certificate of patent or registration of utility model

Ref document number: 5216654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3