JP2014532220A - ネットコメントの収集方法およびシステム - Google Patents
ネットコメントの収集方法およびシステム Download PDFInfo
- Publication number
- JP2014532220A JP2014532220A JP2014532240A JP2014532240A JP2014532220A JP 2014532220 A JP2014532220 A JP 2014532220A JP 2014532240 A JP2014532240 A JP 2014532240A JP 2014532240 A JP2014532240 A JP 2014532240A JP 2014532220 A JP2014532220 A JP 2014532220A
- Authority
- JP
- Japan
- Prior art keywords
- net
- comments
- comment
- collection
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0246—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
- H04L41/0253—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本発明は、ネットコメントの収集方法およびシステム開示した。当該方法は、前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここで、Nは正の整数であるステップと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する。ここで、前記MはNより小さいまたは大きい正の整数であるステップと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備える。
Description
本発明は情報検索とデータ統合技術分野に関し、特にネットコメントの収集方法およびシステムに関する。
本出願は、2011年12月13日に中国特許局に提出し、出願番号が201110415749.9であり、発明名称が「ネットコメントの収集方法およびシステム」である中国特許出願を基礎である優先権を主張し、その開示の総てをここに取り込む。
現在、インターネット技術の急速な発展に伴い、インターネットはすでに世界で最大のデータベースとなり、人類のほぼ全ての領域を網羅し、人々の情報獲得、情報交換における重要なプラットフォームとなっている。人々が情報を閲覧しやすくするため、インターネットに基づいた情報検索技術もより深い研究と充足した発展を得た。さらに、ネットワーク世論分析、バーティカル検索の評価等のような情報検索に基づいた関連応用も出現した。これら応用技術は全て、まずウェブページをローカルにダウンロードし、不純物を取り除いて分析に必要な内容を抜き出し、最後にこの基礎の上でさらに分析を行う。
インターネットに公表する情報について、ネットワークユーザーが情報をブラウジング後に自身の考えを発表し、当該情報に対するコメントを形成する。目下のインターネットの普遍性、広汎性および即効性により、ネットコメントは大衆のある事柄への見方を一定程度代表すると言える。これは、世論分析に大きな意義と応用空間を持たせる。
よって、ネットコメントはすでに多様な応用の重要なデータソースの一つとなり、ネットコメントデータソースの収集は最も基本的な条件である。だが、従来技術において、ネットコメントの収集研究はほぼ白紙であり、ネットコメントに対する効率的、全面的な収集技術に欠ける。
本発明に係る実施形態は、効率的、全面的にネットコメントを収集するネットコメントの収集方法およびシステムを提供する。
一方で本発明に係るネットコメントの収集方法は、ウェブページのエントリーリンクアドレス(Entry link addres)を取得するステップと;前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断し、Nが正の整数であるステップと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断し、前記MはNより小さいまたは大きい正の整数であるステップと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備える。
好ましくは、前記ウェブページのエントリーリンクアドレスの取得は、具体的に、前記N個ネットコメントがコメントしたトピックがあるトピックページを取得するステップと;前記トピックページの特性コードを取得するステップと;前記トピックがあるチャネルの特性コードを取得するステップと;前記トピックページの特性コードと前記チャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得するステップとを備える。
好ましくは、周期的に前記トピックページのエントリーリンクアドレスを更新する。
好ましくは、前記ウェブページでのネットコメントが予定時間を越えても更新がない場合、前記ウェブページのエントリーリンクアドレスを削除する。
好ましくは、上述の前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、NとPの差分値を計算し、もしNがPより大きければ、新たに増えたネットコメントを有することを示す。かつ、前記新たに増えたネットコメントの個数はNとPの差分値Mである。ここで、Pは前回前記ページにアクセスした際のネットコメントの個数であるステップを備える。
好ましくは、前記ページの目下のページに備えるネットコメントの個数Lを計算する。もし前記LがMより小さければ、ページングするページ数を計算する。かつ前記ページ数に対応するページングのリンクを抜き出す。ここで、Lは正の整数である。
好ましくは、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出する。
好ましくは、上述の前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認するステップを備える。
好ましくは、抽出した前記M個ネットコメント内容を前記ウェブページと異なるストレージユニットに保存する。
また一方で本発明に係るネットコメントの収集システムは、ウェブページのエントリーリンクアドレスを取得する、エントリーリンク取得コンポーネントと;前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここで、Nは正の整数である、第1判断コンポーネントと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断し、前記MはNより小さいまたは大きい正の整数である、第2判断コンポーネントと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集する、内容収集コンポーネントとを備える。
本発明の有益な効果を以下に記述する。
本発明に係る実施形態はネットコメント収集システムを用いてネットコメントを収集し、ネットコメントのエントリーリンクアドレスの取得および収集の条件の設定により、全面的にネットコメントを収集する技術效果を果たす。
さらに、比較コンポーネントを用いて、今回抽出した全コメントでの各コメントと前回抽出した全コメントでの各コメントの比較を実現できる。そして、内容抽出コンポーネントを用いて、比較結果が異なるコメントのみを抽出するため、全面的にネットコメントを収集する基礎において効率的な収集の效果を果たすことができる。
図1は、本発明に係るネットコメントを収集するネットコメントの収集方法はであり、以下のステップ11からステップ14を備える。
ステップ11において、ウェブページのエントリーリンクアドレスを取得する。
ステップ12において、ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここでNは正の整数である。
ステップ13において、N個ネットコメントを有する場合、N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する。ここで、前記MはNより小さいまたは大きい正の整数である。
ステップ14において、収集の条件を満たすM個ネットコメントを有する場合、M個ネットコメントを収集する。
ここで、図2に示すように、ステップ11は具体的にさらに以下のステップ111からステップ114を備える。
ステップ111において、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。
ステップ112において、トピックページの特性コードを取得する。
ステップ113において、トピックがあるチャネルの特性コードを取得する。
ステップ114において、トピックページの特性コードとチャネルの特性コードを接合(Splicing)し、ウェブページのエントリーリンクアドレスを取得する。
ステップ114において、トピックページの特性コードとチャネルの特性コードを接合(Splicing)し、ウェブページのエントリーリンクアドレスを取得する。
本発明において、トピックページはニュースがあるページでも良く商品情報があるページでも良い。ここではニュースウェブページを例に挙げ、本実施形態を詳細に説明する。実際には、トピックページは他の情報があるページでも良いが、本発明ではこれを制限しない。
本実施形態において、ニュースにコメントするコメントページのエントリーリンクアドレスは、ニュースページのスクリプトにおける特性コードにより特定ルールに従い接合後に取得する。例えば、ニュースに対するネットコメントページのエントリーリンクアドレスは、ニュースページのスクリプトにより当該ニュースを識別する特性コード、当該ニュースがあるチャネル識別する特性コード、さらにドメイン名および一部他の要素(例えば目下の時間)を加えて接合してできる。前記特性コードを取得し、かつ個性的なルールを設定し、指定モデルに基づき、ネットコメントページのエントリーリンクアドレスをマッチングする。
引き続き図2に示すように、ステップ11はさらに以下のステップ115を備える。
ステップ115において、周期的にウェブページのエントリーリンクアドレスを更新する。
ステップ115において、ニュースウェブページのホームページバックグラウンドはニュースを再編集する可能性があり、同じ内容のニュースウェブページリンクには変化が生じる。即ち、ニュースの識別およびニュースがあるチャネルの特性コードには変化が生じ、ネットコメントのエントリーリンクもこれに伴い変化する。新しいネットコメント内容は変化後のネットコメントのエントリーリンクによりロードする。さらに、これより前に抽出したネットコメントのエントリーリンクアドレスが指定するページには新しいコメントの更新は無いことを意味する。よって、もし元々記録したネットコメントのエントリーリンクを引き続き使用し、アクセスすれば、新たに更新したコメント内容を取得できない。故に当該状況において、周期的に目下記録したニュースページリンクを更新する。もしリンクアドレスが変化すれば、サイトは自動的に変化後のニュースウェブページにジャンプする。こうして、新たに獲得したニュースウェブページに基づき、ネットコメントのエントリーリンク改めて抽出し、引き続き収集できることは明らかである。即ち、ニュースウェブページのエントリーリンクアドレスが更新される場合、ステップ111にジャンプし、実行する。そうでなければ、本フローを終了する。
図3に示すように、ステップ13の具体的なステップは、ステップ131からステップ133を備える。
ステップ131において、ウェブページから目下のネットコメントの個数Nを抽出し、NとPの差分値Mを計算する。ここで、Pは前回アクセスした当該リンクが抽出したネットコメント個数である。
ステップ132において、Mが0より大きいか否かを判断する。
ステップ133において、ステップ132の結果が、Mが0より大きい場合、M個ネットコメントを抽出する。
ここで、ステップ131におけるウェブページからの目下のネットコメントの個数Nの抽出は、正規表現によりウェブページから抽出しても良く、他の方法を使用し、抽出しても良いが、本発明はこれを制限しない。最初にネットコメントを収集する場合、Pは0と等しい。
引き続き図3に示すように、ここでステップ133は具体的に以下のステップ1331からステップ1333を備える。
ステップ1331において、ページにおける目下のページに備えられるネットコメントの個数Lを計算する。ここで、LはMより小さいまたは等しい正の整数である。
ステップ1332において、LがMより小さいか否かを判断する。
ステップ1333において、ステップ1332の結果が、LがMより小さい場合、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。
ここで、ステップ1333において、ページングの計算公式は:
ここで、Pcountは、ページングするページ数を示し、PUpdate(即ち、M)は、コメント更新数を示し、CCurrent(即ち、L)は、目下のウェブページコメント個数を示し、NPerpageは、単数のウェブページコメント数を示す。
引き続き図3に示すように、ステップ133はさらに以下のステップ1334およびステップ1335を備える。
ステップ1334において、N個ネットコメントでの各ネットコメントとP個ネットコメントでのネットコメントが同じか否かを判断する。
ステップ1335において、ステップ1334の結果が、N個ネットコメントでの各ネットコメントとP個ネットコメントでの各ネットコメントが同じである場合、比較結果が異なるM個ネットコメントを抽出する。
ステップ1335において、抽出したM個ネットコメント内容は、コメントウェブページの異なるストレージユニットに保存される。ストレージユニットに保存されたネットコメントは集中ブラウジングしやすく、ユーザー収集後のネットコメントを応用しやすい。
本実施形態において、ニュースには即効性があり、一定時間を越えたニュースは意味が無いと認識される。同様に、ニュースの附属であるニュースコメントもニュースの失効に伴い失効する。前記原因に基づき、もしネットコメントが予定時間を越えても更新がない場合、当該ニュースコメントリンクを削除し、引き続いて更新はしない。こうして、システムリソースを節約し、より高い作業効率を有することができる。
別の実施形態において、N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する場合、前記実施形態におけるNとPの差分値Mを計算する方法を用いなくても良い。つまり、N個ネットコメントでの各ネットコメントとP個ネットコメントでの各ネットコメントをそれぞれ直接比較する。もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出する。このような収集方法を用いるのは、ニュースウェブページのホームページバックグラウンドが不定期にネットコメントを削除するためである。例えば、システムの最初の収集は15ネットコメントを有し、2回目の収集感覚では、一部の原因によりホームページバックグラウンドは15コメントを全て削除し、同時に30の新しいコメントを加える。つまり1つのウェブページでは15コメントしか表示できないため、ネットコメントの第1ページと第2ページのネットコメントは全て新しいと認識できる。収集周期に達する場合、今回収集した30コメントと前回の15コメントを比較する。こうして、比較の結果が今回収集した30コメントと前回の15コメント全てが異なる。故に、今回30の新しいコメントを収集する。さらに、今回収集した30ネットコメント内容はコメントウェブページの異なるストレージユニットに保存される。ストレージユニットに保存されたネットコメントは集中ブラウジングしやすく、ユーザー収集後のネットコメントを応用しやすい。
本発明の第1実施形態に係るネットコメントデータの収集システムは、図4に示すようにである。図4は本実施形態におけるシステムアーキテクチャであり、当該システムは、エントリーリンク取得コンポーネント10、第1判断コンポーネント20、第2判断コンポーネント30および内容収集コンポーネント40を備える。エントリーリンク取得コンポーネント10は、ウェブページのエントリーリンクアドレスを取得する。第1判断コンポーネント20は、ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。第2判断コンポーネント30は収集の条件を満たすM個ネットコメントを有するか否かを判断する。内容収集コンポーネント40は、ネットコメントを収集する。
ここで、エントリーリンク取得コンポーネント10は、第1獲得ユニット101、第2獲得ユニット102、第3獲得ユニット103および接合ユニット104を備える。第1獲得ユニット101は、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。第2獲得ユニット102は、トピックページの特性コードを取得する。第3獲得ユニット103は、トピックがあるチャネルの特性コードを取得する。接合ユニット104は、トピックページの特性コードとチャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得する。
第2判断コンポーネント30による収集の条件を満たすM個ネットコメントを有するか否かの判断は具体的に、ウェブページからN個ネットコメントを抽出し、NとPの差分値Mを計算する。ここで、Pは前回アクセスした当該リンクが抽出したネットコメント個数であるステップをさらに備える。さらに、Mが0より大きいか否かを判断する。もしMが0より大きければ、M個ネットコメントは収集の条件を満たすコメントであることを示す。第2実施形態において、第1実施形態と異なる点は、システムが周期的にウェブページのエントリーリンクアドレスを更新する、エントリーリンクアドレス更新コンポーネント50をさらに備えることである。本実施形態において、エントリーリンクアドレス更新コンポーネント50は、エントリーリンク取得コンポーネント10と共に運用でき、更新したネットコメントの速やかな収集を実現する。
第3実施形態において、第1、第2実施形態と異なる点は、システムがウェブページでのネットコメントの無更新が予定時間を越えているか否かを判断する。もし超えていれば、ウェブページのエントリーリンクアドレスを削除する、ネットコメントページ更新コンポーネント60をさらに備えることである。本実施形態において、ネットコメントページ更新コンポーネント60は、第1判断コンポーネント20と共に運用でき、システム収集効率を高め、いまだ更新しないネットコメントは収集を放棄できる。
第2と第3実施形態はそれぞれ図5と図6に示すようにである。実際には、2つの実施形態を結合して使用でき、収集は全面的なネットコメントの収集を実現すると同時にシステムの収集効率を高める。第4実施形態において、第1、第2および第3実施形態と異なる点は、内容収集コンポーネント40がページング抽出コンポーネント401、比較コンポーネント402、内容抽出コンポーネント403およびディスクI/Oコンポーネント404をさらに備えることである。ページング抽出コンポーネント401は、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。比較コンポーネント402は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。内容抽出コンポーネント403は、比較結果が異なる場合、前記比較結果が異なるネットコメントを抽出する。ディスクI/Oコンポーネント404は、抽出したネットコメント内容をウェブページの異なるストレージユニットに保存する。本実施形態は図7に示すようにである。
本発明に係る別のネットコメントデータの収集システムは図8に示すようにである。図8は、本実施形態におけるシステムアーキテクチャである。
本実施形態と第1実施形態が異なる点は、本実施形態が比較コンポーネント402と内容抽出コンポーネント403を備えないことである。図8に示すように、本実施形態のシステムは、エントリーリンク取得コンポーネント80、第1判断コンポーネント81、第2判断コンポーネント82および内容収集コンポーネント83を備える。エントリーリンク取得コンポーネント80は、ウェブページのエントリーリンクアドレスを取得する。第1判断コンポーネント81は、ウェブページのエントリーリンクアドレスに対応するウェブページにネットコメントを有するか否かを判断する。第2判断コンポーネント82は、収集の条件を満たすネットコメントを有するか否かを判断する。内容収集コンポーネント83は、ネットコメントを収集する。
ここで、エントリーリンク取得コンポーネント80は、第1獲得ユニット801、第2獲得ユニット802、第3獲得ユニット803および接合ユニット804を備える。第1獲得ユニット801は、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。第2獲得ユニット802は、トピックページの特性コードを取得する。第3獲得ユニット803は、トピックがあるチャネルの特性コードを取得する。接合ユニット804は、トピックページの特性コードとチャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得する。
第2判断コンポーネント82は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認する。
内容収集コンポーネント83は、ページング抽出コンポーネント831およびディスクI/Oコンポーネント832を備える。ページング抽出コンポーネント831は、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。ディスクI/Oコンポーネント832は、抽出したネットコメント内容をウェブページの異なるストレージユニットに保存する。
本実施形態において、エントリーリンク取得コンポーネント80は、第2実施形態におけるエントリーリンクアドレス更新コンポーネント84と結合して共に応用でき、比較的全面的なネットコメントの収集を実現する。第1判断コンポーネント81は、第3実施形態におけるネットコメントページ更新コンポーネント85と結合して共に応用でき、全面的、効率的にネットコメントの収集を実現する。
前記第1、第2、第3、第4および別の実施形態におけるシステムは、本発明が提供したネットコメント収集方法の実施形態における方法およびその各種変化の形式の記述に基づき、実施できる。明細書を簡潔にするため、ここでは説明を繰り返さない。
本発明の実施形態は、ネットコメント収集システムを用いて、ネットコメントを収集し、ネットコメントのエントリーリンクアドレスの取得および収集の条件の設定により全面的なネットコメントを収集する技術效果を果たす。
さらに、比較コンポーネントを用いて、今回抽出した全コメントでの各コメントと前回抽出した全コメントでの各コメントの比較を実現できる。そして、内容抽出コンポーネントを用いて、比較結果が異なるコメントのみを抽出する。よって、全面的にネットコメントを収集する基礎の上に効率的な収集の效果を果たすことができる。
以上は本発明の実施形態の方法、装置(システム)、およびコンピュータプログラム製品のフロー図および/またはブロック図によって、本発明を記述した。理解すべきことは、コンピュータプログラム指令によって、フロー図および/またはブロック図における各フローおよび/またはブロックと、フロー図および/またはブロック図におけるフローおよび/またはブロックの結合を実現できる。プロセッサはこれらのコンピュータプログラム指令を、汎用コンピュータ、専用コンピュータ、組込み式処理装置、或いは他のプログラム可能なデータ処理装置設備の処理装置器に提供でき、コンピュータ或いは他のプログラム可能なデータ処理装置のプロセッサは、これらのコンピュータプログラム指令を実行し、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。
これらのコンピュータプログラム指令は又、コンピュータ或いは他のプログラム可能なデータ処理装置を特定方式で動作させるコンピュータ読取記憶装置に記憶できる。これによって、指令を含む装置は当該コンピュータ読取記憶装置内の指令を実行でき、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。
これらコンピュータプログラム指令はさらに、コンピュータ或いは他のプログラム可能なデータ処理装置設備に実装もできる。コンピュータプログラム指令が実装されたコンピュータ或いは他のプログラム可能設備は、一連の操作ステップを実行することによって、関連の処理を実現し、コンピュータ或いは他のプログラム可能な設備において実行される指令によって、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。
上述した実施形態に記述された技術的な解決手段を改造し、或いはその中の一部の技術要素を置換することもできる。そのような、改造と置換は本発明の各実施形態の技術の範囲から逸脱するとは見なされない。
無論、当業者によって、上述した実施形態に記述された技術的な解決手段を改造し、或いはその中の一部の技術要素を置換することもできる。そのような、改造と置換は本発明の各実施形態の技術の範囲から逸脱するとは見なされない。そのような改造と置換は、すべて本発明の請求の範囲に属する。
Claims (10)
- ウェブページのエントリーリンクアドレスを取得するステップと、
前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断するステップと、
前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断するステップと、
前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備え,
前記Nは正の整数であり、
前記MはNより小さいまたは大きい正の整数であることを特徴とするネットコメントの収集方法。 - 前記ウェブページのエントリーリンクアドレスの取得は、
前記N個ネットコメントがコメントしたトピックがあるトピックページを取得するステップと、
前記トピックページの特性コードを取得するステップと、
前記トピックがあるチャネルの特性コードを取得するステップと、
前記トピックページの特性コードと前記チャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得するステップとを備えることを特徴とする請求項1に記載のネットコメントの収集方法。 - 前記方法は、周期的に前記トピックページのエントリーリンクアドレスを更新することをさらに備えることを特徴とする請求項2に記載のネットコメントの収集方法。
- 前記方法は、前記ウェブページでのネットコメントが予定時間を越えても更新がない場合、前記ウェブページのエントリーリンクアドレスを削除することをさらに備えることを特徴とする請求項1に記載のネットコメントの収集方法。
- 請求項1に記載した前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、NとPの差分値を計算し、もしNがPより大きければ、新たに増えたネットコメントを有することを示すステップをさらに備ええ、
前記新たに増えたネットコメントの個数はNとPの差分値Mであり、Pは前回前記ページにアクセスした際のネットコメントの個数であることを特徴とする請求項1に記載のネットコメントの収集方法。 - 前記方法は、前記ページの目下のページに備えるネットコメントの個数Lを計算し、もし前記LがMより小さければ、ページングするページ数を計算し、かつ前記ページ数に対応するページングのリンクを抽出ことさらに備え、
前記Lは正の整数であることを特徴とする請求項5に記載のネットコメントの収集方法。 - 前記方法は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較し、もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出することをさらに備えることを特徴とする請求項5に記載のネットコメントの収集方法。
- 請求項1に記載した前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較し、もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認するステップを備えることを特徴とする請求項1に記載のネットコメントの収集方法。
- 前記方法は、抽出した前記M個ネットコメント内容を前記ウェブページと異なるストレージユニットに保存することをさらに備えることを特徴とする請求項1に記載のネットコメントの収集方法。
- ウェブページのエントリーリンクアドレスを取得する、エントリーリンク取得コンポーネントと、
前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する、第1判断コンポーネントと、
前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する、第2判断コンポーネントと
前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集する、内容収集コンポーネントとを備え、
前記Nは正の整数であり、
前記MはNより小さいまたは大きい正の整数であることを特徴とするネットコメントの収集システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110415749.9A CN103164438B (zh) | 2011-12-13 | 2011-12-13 | 一种网络评论的采集方法及系统 |
CN201110415749.9 | 2011-12-13 | ||
PCT/CN2012/086575 WO2013087005A1 (zh) | 2011-12-13 | 2012-12-13 | 一种网络评论的采集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014532220A true JP2014532220A (ja) | 2014-12-04 |
Family
ID=48587532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014532240A Pending JP2014532220A (ja) | 2011-12-13 | 2012-12-13 | ネットコメントの収集方法およびシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140289395A1 (ja) |
EP (1) | EP2713287A4 (ja) |
JP (1) | JP2014532220A (ja) |
CN (1) | CN103164438B (ja) |
WO (1) | WO2013087005A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7284336B1 (ja) | 2022-12-27 | 2023-05-30 | ヤフー株式会社 | コンテンツ提供装置、コンテンツ提供方法、およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902674B (zh) * | 2014-03-19 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 特定主题的评论数据的采集方法和装置 |
CN106250417A (zh) * | 2016-07-22 | 2016-12-21 | 乐视控股(北京)有限公司 | 一种获取评论数据的方法及装置 |
CN108520441A (zh) * | 2018-04-04 | 2018-09-11 | 网易无尾熊(杭州)科技有限公司 | 数据处理方法、介质、系统和计算设备 |
KR20220112755A (ko) | 2019-12-06 | 2022-08-11 | 소니그룹주식회사 | 정보 처리 시스템, 정보 처리 방법 및 기억 매체 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232815A (ja) * | 1996-04-30 | 1998-09-02 | Ee I Soft Kk | 通信端末装置、データ更新監視サーバ及びそれを備えた情報配信システム、並びに情報取得方法、要求転送方法及びデータ更新監視方法、並びに記録媒体 |
JP2006309515A (ja) * | 2005-04-28 | 2006-11-09 | Dainippon Printing Co Ltd | 情報配信方法および情報配信サーバ |
US20100205168A1 (en) * | 2009-02-10 | 2010-08-12 | Microsoft Corporation | Thread-Based Incremental Web Forum Crawling |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330856A (ja) * | 1999-05-21 | 2000-11-30 | Nec Corp | 情報収集装置及び方法 |
US7464097B2 (en) * | 2002-08-16 | 2008-12-09 | Sap Ag | Managing data integrity using a filter condition |
CN101178713A (zh) * | 2006-11-29 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种采集网页的方法及系统 |
CN101515269B (zh) * | 2008-02-20 | 2011-08-31 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101436196B (zh) * | 2008-11-25 | 2010-12-08 | 北京邮电大学 | 自动动态更新论坛爬虫系统的构建方法 |
US20130041901A1 (en) * | 2011-08-12 | 2013-02-14 | Rawllin International Inc. | News feed by filter |
-
2011
- 2011-12-13 CN CN201110415749.9A patent/CN103164438B/zh not_active Expired - Fee Related
-
2012
- 2012-12-13 EP EP12857642.8A patent/EP2713287A4/en not_active Withdrawn
- 2012-12-13 JP JP2014532240A patent/JP2014532220A/ja active Pending
- 2012-12-13 US US14/127,400 patent/US20140289395A1/en not_active Abandoned
- 2012-12-13 WO PCT/CN2012/086575 patent/WO2013087005A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232815A (ja) * | 1996-04-30 | 1998-09-02 | Ee I Soft Kk | 通信端末装置、データ更新監視サーバ及びそれを備えた情報配信システム、並びに情報取得方法、要求転送方法及びデータ更新監視方法、並びに記録媒体 |
JP2006309515A (ja) * | 2005-04-28 | 2006-11-09 | Dainippon Printing Co Ltd | 情報配信方法および情報配信サーバ |
US20100205168A1 (en) * | 2009-02-10 | 2010-08-12 | Microsoft Corporation | Thread-Based Incremental Web Forum Crawling |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7284336B1 (ja) | 2022-12-27 | 2023-05-30 | ヤフー株式会社 | コンテンツ提供装置、コンテンツ提供方法、およびプログラム |
JP2024093077A (ja) * | 2022-12-27 | 2024-07-09 | ヤフー株式会社 | コンテンツ提供装置、コンテンツ提供方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2713287A4 (en) | 2015-06-03 |
WO2013087005A1 (zh) | 2013-06-20 |
CN103164438B (zh) | 2016-07-06 |
CN103164438A (zh) | 2013-06-19 |
US20140289395A1 (en) | 2014-09-25 |
EP2713287A1 (en) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015074503A1 (zh) | 网页访问数据统计方法及装置 | |
CN104348871B (zh) | 一种同类账号扩展方法及装置 | |
JP2014532220A (ja) | ネットコメントの収集方法およびシステム | |
CN105045838A (zh) | 基于分布式存储系统的网络爬虫系统 | |
CA2637975A1 (en) | Method and system for determining topical on-line influence of an entity | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN103823907B (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
JP2014528136A (ja) | ネットデータの採集方法及びシステム | |
JP2007323412A (ja) | スレッド順位付け装置及び方法 | |
CN105528422A (zh) | 一种主题爬虫处理方法及装置 | |
CN103970801B (zh) | 微博广告博文识别方法及装置 | |
JP2014506355A5 (ja) | ||
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN103077250A (zh) | 一种网页内容抓取方法及装置 | |
CN105376311B (zh) | 一种基于终端访问的页面停留时长确定方法及装置 | |
CN106547803B (zh) | 爬取网站增量资源的方法和装置 | |
CN112445997A (zh) | 一种提取cms多版本识别特征规则的方法及装置 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
JP2007256992A (ja) | コンテンツ特定方法及び装置 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN104166545A (zh) | 一种网页资源的嗅探方法以及装置 | |
WO2012070182A1 (ja) | 推定装置、推定方法、並びにプログラム | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN106547774B (zh) | 网站内容的检测方法及装置 | |
WO2016206395A1 (zh) | 周报信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150804 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160105 |