JP2006331292A - Weblog community search support method, search support device, and recording medium recording program for search support method - Google Patents

Weblog community search support method, search support device, and recording medium recording program for search support method Download PDF

Info

Publication number
JP2006331292A
JP2006331292A JP2005157394A JP2005157394A JP2006331292A JP 2006331292 A JP2006331292 A JP 2006331292A JP 2005157394 A JP2005157394 A JP 2005157394A JP 2005157394 A JP2005157394 A JP 2005157394A JP 2006331292 A JP2006331292 A JP 2006331292A
Authority
JP
Japan
Prior art keywords
weblog
community
search
weblog community
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005157394A
Other languages
Japanese (ja)
Inventor
Hisanobu Matsuoka
寿延 松岡
Hitoshi Seshimo
仁志 瀬下
Shinichi Okano
真一 岡野
Noriyasu Arakawa
則泰 荒川
Yasuhisa Kato
泰久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005157394A priority Critical patent/JP2006331292A/en
Publication of JP2006331292A publication Critical patent/JP2006331292A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve reliability in community extraction for Weblog including description about knowledge desired by an end user. <P>SOLUTION: A crawling means 11 gathers Weblog contents including an entry, a comment, and TrackBack and the like registered in a server 30. A community extraction means 13 extracts Weblog communities frequently performing communication mutually. A community accumulation means 15 indexes a Weblog community according to a keyword frequently appearing in the Weblog community and finds communication freshness. A community search means 21 searches for the Weblog community matching a search keyword required from an end user terminal 40. A community search result display means 22 sorts the search results based on the degree of compliance of a keyword and the community freshness to display the sorted search results on the end user terminal. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、Weblogコミュニティ検索技術に関し、詳しくはネットワーク上で指定キーワードに関するコミュニケーションが直近にて行われているWeblogコミュニティの抽出によりオンラインでのWeblogコミュニティ検索を支援する技術に関する。   The present invention relates to a Weblog community search technique, and more particularly to a technique for supporting an online Weblog community search by extracting a Weblog community in which communication related to a specified keyword is most recently performed on a network.

従来のオンライン知識検索技術においては、キーワードとページランクに基づく一般的な検索結果から更に求める知識を絞り込む方法として、以下の方法がある。   In the conventional online knowledge search technology, there are the following methods as methods for further narrowing down the knowledge to be obtained from general search results based on keywords and page rank.

(1)自然言語処理による話題抽出に基づく検索結果の絞り込み(例えば特許文献1参照)。   (1) Narrowing search results based on topic extraction by natural language processing (see, for example, Patent Document 1).

(2)協調フィルタリングによる検索結果の絞り込み(例えば特許文献2参照)。   (2) Narrowing search results by collaborative filtering (see, for example, Patent Document 2).

前者の(1)方法は、一般に形態素解析、構文解析等を含む自然言語処理により、求める知識に言及しているコンテンツを抽出する。また、(2)の方法は、有限数の協調フィルタリング参加ユーザの集合において、ユーザプロファイルの一部として登録された嗜好情報やブックマーク等の解析に基づく嗜好情報抽出、及び各参加ユーザの検索履歴に基づき、検索者と似た嗜好を持つ有限数の参加ユーザの検索履歴を利用して検索結果を絞り込む。   In the former method (1), contents referring to knowledge to be obtained are generally extracted by natural language processing including morphological analysis and syntax analysis. In the method (2), in a set of collaborative filtering participating users, preference information extraction based on analysis of preference information and bookmarks registered as part of the user profile, and search history of each participating user are used. Based on the search history of a limited number of participating users who have similar preferences to the searcher, the search results are narrowed down.

また、通例、Weblogサーバは、Weblog作者が日々登録するエントリー、およびWeblog読者が付加するコメント、及び異なるWeblogにおいて該エントリーに関連するエントリーが登録されたことを示すトラックバックより構成されるWeblogコンテンツを蓄積すると共に、コメント付与者が自身のWeblogのURLをコメント内に明記した場合には該WeblogURLも蓄積しており、本発明ではこれらを利用する。
特開2001−325272 特開2000−331020
Also, the Weblog server typically stores Weblog content consisting of entries that are registered daily by Weblog authors, comments added by Weblog readers, and trackbacks indicating that entries related to the entries have been registered in different Weblogs. In addition, when the comment giver specifies the URL of his / her weblog in the comment, the weblog URL is also stored, and these are used in the present invention.
JP 2001-325272 A JP 2000-331020 A

前記従来技術においては、
(1)の場合、求める知識に関する記述を含むコンテンツは抽出可能であるが、そのコンテンツにおける該知識に関する記述の信頼性は保証できない、という問題がある。
In the prior art,
In the case of (1), content including a description relating to the knowledge to be sought can be extracted, but there is a problem that the reliability of the description relating to the knowledge in the content cannot be guaranteed.

(2)の場合、限られた数のエンドユーザによる協調フィルタリングでは絞り込み精度を上げにくく、協調フィルタリングに参加するエンドユーザ数を増やすことも容易ではない、という問題がある。   In the case of (2), there is a problem that it is difficult to increase the accuracy of narrowing down by collaborative filtering by a limited number of end users, and it is not easy to increase the number of end users participating in collaborative filtering.

本発明は、上記に鑑みてなされたもので、その目的とするところは、Weblogサーバで通例蓄積するエントリー、コメント、トラックバックから構成された特定の話題に関するコミュニケーションの履歴を用いて、目的とする知識に関して相互に評価し合い、一定の信頼をおいている時間的に直近のコミュニティを抽出してエンドユーザに提示し、該コミュニティへのアクセスによって信頼性の高い知識を取得できるようエンドユーザを支援できるコミュニティ検索支援方法、検索支援装置および検索支援プログラムを記録した記録媒体を提供することにある。   The present invention has been made in view of the above. The purpose of the present invention is to use the history of communication related to a specific topic composed of entries, comments, and trackbacks normally stored in a Weblog server, to achieve the desired knowledge. It is possible to help end users to obtain reliable knowledge through access to the community by extracting the most recent community with a certain level of trust and presenting it to the end user. A community search support method, a search support device, and a recording medium storing a search support program are provided.

上記目的を達成するため、本発明によるWeblogコミュニティ収集には、時系列情報を含むWeblogコンテンツを収集し、互いに頻繁なコミュニケーションを行うことで相互の信頼を表明しているWeblogのコミュニティを抽出し、該Weblogコミュニティの内容をキーワードによりインデクシングすると共に、検索実行時にエンドユーザが参加可能かどうかを示す目安となるコミュニケーション鮮度を通例時間経過と共に減っていくコメント数及びトラックバック数に基づき算出して蓄積する。また、Weblogコミュニティ検索には、エンドユーザが指定したキーワードに関連づけてインデクシングされているWeblogコミュニティを検索し、キーワード適合度及びコミュニケーション鮮度によりソートしてエンドユーザ端末に提示する。   In order to achieve the above object, Weblog community collection according to the present invention collects Weblog contents including time-series information, extracts a Weblog community expressing mutual trust by frequently communicating with each other, The contents of the Weblog community are indexed by keywords, and the communication freshness, which serves as a standard indicating whether or not the end user can participate in the search execution, is calculated and accumulated based on the number of comments and the number of trackbacks that decrease with the passage of time. In addition, in the web log community search, a web log community indexed in association with a keyword designated by the end user is searched, sorted according to the keyword suitability and the communication freshness, and presented to the end user terminal.

これにより、目的とする知識に関して相互に評価し合い一定の信頼をおいている時間的に直近のコミュニティを抽出してエンドユーザに提示し、該コミュニティへのアクセスによって信頼性の高い知識を取得できるようエンドユーザを支援することを可能とする。   As a result, it is possible to acquire the highly reliable knowledge by accessing the community by extracting the most recent community that is mutually evaluated with respect to the target knowledge and keeping a certain level of trust and presenting it to the end user. It is possible to support end users.

また、現在普及しつつある一般的なWeblogコンテンツをそのまま利用可能であるため、既存Weblogコンテンツをそのままリソースとして利用可能とする。   In addition, since general Weblog contents that are currently popularized can be used as they are, existing Weblog contents can be used as resources as they are.

これにより、求める知識に関する記述を含むコンテンツは抽出可能であるが、そのコンテンツにおける該知識に関する記述の信頼性は保証できない、という従来の問題を解決する。   This solves the conventional problem that it is possible to extract content including a description relating to the knowledge to be sought, but the reliability of the description relating to the knowledge in the content cannot be guaranteed.

また、既存Weblogコンテンツをそのまま知識リソースとして利用可能であるため、限られた数のエンドユーザによる協調フィルタリングでは絞り込み精度を上げにくく、協調フィルタリングに参加するエンドユーザ数を増やすことも容易ではない、という問題を解決する。   In addition, since existing Weblog content can be used as a knowledge resource as it is, it is difficult to increase the accuracy of narrowing down by collaborative filtering by a limited number of end users, and it is not easy to increase the number of end users participating in collaborative filtering. Solve a problem.

以上のことから、本発明は以下のコミュニティ検索支援方法、検索支援装置および検索支援プログラムを記録した記録媒体を特徴とする。   As described above, the present invention is characterized by the following community search support method, search support device, and recording medium storing the search support program.

(1)Weblogコミュニティ収集装置とWeblogコミュニティ検索装置とを備え、ネットワーク上で指定キーワードに関するコミュニケーションが直近にて行われているWeblogコミュニティの検索を支援する方法であって、
前記Weblogコミュニティ収集装置は、
一般的なWeblogサーバに登録されたエントリー、コメント元WeblogのURLが明記されたコメント、トラックバック及びこれらの登録日時情報を含むWeblogコンテンツを収集するクローリングステップと、
前記Weblogコンテンツから一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出するWeblogコミュニティ抽出ステップと、
前記Weblogコミュニティにおいて頻出するキーワードにより前記Weblogコミュニティをインデクシングすると共に、該Weblogコミュニティに含まれるエントリー登録日時及び該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出して蓄積するWeblogコミュニティ蓄積ステップとを有し、
前記Weblogコミュニティ検索装置は、
エンドユーザ端末から要求される検索キーワードに対応付けられてインデクシングされている前記Weblogコミュニティを前記Weblogコミュニティ蓄積結果等から検索するWeblogコミュニティ検索ステップと、
該Weblogコミュニティ検索結果をキーワード適合度及びコミュニケーション鮮度に基づきソートしてエンドユーザ端末にて表示可能とするWeblogコミュニティ検索結果表示ステップとを有する、
ことを特徴とするWeblogコミュニティ検索支援方法。
(1) A method of supporting a search for a Weblog community that includes a Weblog community collection device and a Weblog community search device, and that has recently communicated with a specified keyword on a network.
The Weblog community collection device
A crawling step of collecting Weblog contents including an entry registered in a general Weblog server, a comment specifying a URL of a comment source Weblog, a trackback, and registration date and time information;
A Weblog community extracting step of extracting a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks within a certain period from the Weblog content;
The Weblog community is indexed by keywords that frequently appear in the Weblog community, and the communication freshness that decreases with the passage of time is calculated based on the entry registration date / time included in the Weblog community, the comment accompanying the entry, and the trackback registration date / time. A Weblog community accumulation step to accumulate,
The Weblog community search device
A Weblog community search step for searching the Weblog community indexed in association with a search keyword requested from an end user terminal from the Weblog community accumulation result,
A Weblog community search result display step for sorting the Weblog community search results based on keyword matching and communication freshness and displaying them on an end user terminal.
A Weblog community search support method characterized by the above.

(2)Weblogコミュニティ収集装置とWeblogコミュニティ検索装置とを備え、ネットワーク上で指定キーワードに関するコミュニケーションが直近にて行われているWeblogコミュニティの検索を支援する装置であって、
前記Weblogコミュニティ収集装置は、
一般的なWeblogサーバに登録されたエントリー、コメント元WeblogのURLが明記されたコメント、トラックバック及びこれらの登録日時情報を含むWeblogコンテンツを収集するクローリング手段と、
前記Weblogコンテンツから一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出するWeblogコミュニティ抽出手段と、
前記Weblogコミュニティにおいて頻出するキーワードにより前記Weblogコミュニティをインデクシングすると共に、該Weblogコミュニティに含まれるエントリー登録日時及び該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出して蓄積するWeblogコミュニティ蓄積手段とを有し、
前記Weblogコミュニティ検索装置は、
エンドユーザ端末から要求される検索キーワードに対応付けられてインデクシングされている前記Weblogコミュニティを前記Weblogコミュニティ蓄積結果等から検索するWeblogコミュニティ検索手段と、
該Weblogコミュニティ検索結果をキーワード適合度及びコミュニケーション鮮度に基づきソートしてエンドユーザ端末にて表示可能とするWeblogコミュニティ検索結果表示手段とを有する、
ことを特徴とするWeblogコミュニティ検索支援装置。
(2) A device that includes a Weblog community collection device and a Weblog community search device, and supports a search for a Weblog community in which communication related to a specified keyword is most recently performed on a network,
The Weblog community collection device
A crawling means for collecting an entry registered in a general Weblog server, a comment specifying a URL of a comment source Weblog, a trackback, and Weblog contents including these registration date and time information;
Weblog community extracting means for extracting a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks within a certain period from the Weblog content;
The Weblog community is indexed by keywords that frequently appear in the Weblog community, and the communication freshness that decreases with the passage of time is calculated based on the entry registration date / time included in the Weblog community, the comment accompanying the entry, and the trackback registration date / time. Weblog community storage means for storing,
The Weblog community search device
Weblog community search means for searching the Weblog community indexed in association with the search keyword requested from the end user terminal from the Weblog community accumulation result,
Weblog community search result display means for sorting the Weblog community search results on the basis of keyword suitability and communication freshness and displaying on the end user terminal.
This is a Weblog community search support device.

(3)上記(1)のWeblogコミュニティ検索支援方法を、コンピュータで実行可能に構成したプログラムを記録したことを特徴とする記録媒体。   (3) A recording medium in which a program configured to execute the Weblog community search support method of (1) above by a computer is recorded.

請求項1等に記載の本発明によれば、
Weblogコミュニティ収集装置は、時系列情報を含むWeblogコンテンツを収集し、互いに頻繁なコミュニケーションを行うことで相互の信頼を表明しているWeblogのコミュニティを抽出し、該Weblogコミュニティの内容をキーワードによりインデクシングすると共に、検索実行時にエンドユーザが参加可能かどうかを示す目安となるコミュニケーション鮮度を通例時間経過と共に減っていくコメント数及びトラックバック数に基づき算出して蓄積し、
Weblogコミュニティ検索装置は、エンドユーザが指定したキーワードに関連づけてインデクシングされているWeblogコミュニティを検索し、キーワード適合度及びコミュニケーション鮮度によりソートしてエンドユーザ端末に提示するため、
目的とする知識に関して相互に評価し合い一定の信頼をおいている時間的に直近のコミュニティを抽出してエンドユーザに提示し、該コミュニティへのアクセスによって信頼性の高い知識を取得できるようエンドユーザを支援することができる。
According to the present invention described in claim 1 and the like,
The Weblog community collection device collects Weblog content including time-series information, extracts a Weblog community expressing mutual trust through frequent communication with each other, and indexes the content of the Weblog community using keywords. In addition, the communication freshness, which is a standard indicating whether or not the end user can participate in the search execution, is calculated and accumulated based on the number of comments and the number of trackbacks that usually decrease with the passage of time,
The Weblog community search device searches the Weblog community indexed in association with the keyword specified by the end user, sorts it according to the keyword suitability and the communication freshness, and presents it to the end user terminal.
The end users are able to obtain highly reliable knowledge by accessing the community by extracting the most recent community that mutually evaluates the target knowledge and has a certain level of trust and presents it to the end user. Can help.

また、現在普及しつつある一般的なWeblogコンテンツをそのまま利用可能であるため、既存Weblogコンテンツをそのままリソースとして利用可能である。これにより、求める知識に関する記述を含むコンテンツは抽出可能であるが、そのコンテンツにおける該知識に関する記述の信頼性は保証できない、という従来の問題を解決できる。   In addition, since general Weblog contents that are currently spreading can be used as they are, existing Weblog contents can be used as resources as they are. As a result, it is possible to solve the conventional problem that the content including the description related to the desired knowledge can be extracted, but the reliability of the description regarding the knowledge in the content cannot be guaranteed.

また、既存Weblogコンテンツをそのまま知識リソースとして利用可能であるため、限られた数のエンドユーザによる協調フィルタリングでは絞り込み精度を上げにくく、協調フィルタリングに参加するエンドユーザ数を増やすことも容易ではない、という問題を解決できる。   In addition, since existing Weblog content can be used as a knowledge resource as it is, it is difficult to increase the accuracy of narrowing down by collaborative filtering by a limited number of end users, and it is not easy to increase the number of end users participating in collaborative filtering. Can solve the problem.

図1は、請求項1等に対応する本発明の実施形態に係るWeblogコミュニティ検索支援装置の構成図である。   FIG. 1 is a configuration diagram of a Weblog community search support apparatus according to an embodiment of the present invention corresponding to claim 1 and the like.

同図に示すWeblogコミュニティ検索支援装置は、Weblogコミュニティ収集装置10とWeblogコミュニティ検索装置20から構成されており、各装置間はネットワークによって接続され、更にインターネットを介して一般的なWeblogサーバ30及び一般的なエンドユーザ端末40と通信が可能にされる。   The Weblog community search support apparatus shown in the figure is composed of a Weblog community collection apparatus 10 and a Weblog community search apparatus 20, and each apparatus is connected by a network, and a general Weblog server 30 and a general one are connected via the Internet. Communication with a typical end user terminal 40 is enabled.

Weblogコミュニティ収集装置10とWeblogコミュニティ検索装置20は、一般的なウェブログサーバ30およびエンドユーザ端末40にネットワーク接続可能にされた情報処理用コンピュータで実現されるもので、その構成はWeblogコミュニティ収集装置10では、クローリング手段11と、データベース12と、コミュニティ抽出手段13と、データベース14と、コミュニティ蓄積手段15と、データベース6とを備え、Weblogコミュニティ検索装置20はコミュニティ検索手段21とコミュニティ検索検索結果表示手段22とを備える。このうち、データベース2,14,16はコンピュータに搭載するハードディスクなどの記憶装置に構築し、各手段11,13,15,21,22はコンピュータのソフトウェア構成で実現される。   The Weblog community collection device 10 and the Weblog community search device 20 are realized by an information processing computer that is network-connectable to a general weblog server 30 and an end user terminal 40, and the configuration thereof is the Weblog community collection device. 10 includes a crawling means 11, a database 12, a community extracting means 13, a database 14, a community accumulating means 15, and a database 6, and the Weblog community search device 20 displays a community search means 21 and a community search search result display. Means 22. Among these, the databases 2, 14, and 16 are constructed in a storage device such as a hard disk mounted on the computer, and each means 11, 13, 15, 21, and 22 is realized by a software configuration of the computer.

Weblogコミュニティ収集装置10において、クローリング手段11は、一般的なWeblogサーバ30に登録されたエントリー、コメント元WeblogのURLが明記されたコメント、トラックバック及びこれらの登録日時情報を含むWeblogコンテンツを収集し、データベース12に保存する。   In the Weblog community collection device 10, the crawling means 11 collects Weblog contents including entries registered in a general Weblog server 30, comments specifying the URL of the comment source Weblog, trackbacks, and registration date / time information thereof, Save in the database 12.

また、Weblogコミュニティ抽出手段13は、データベース12に保存されたWeblogコンテンツが有する一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出し、データベース14に保存する。   Further, the Weblog community extracting means 13 selects a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks within a certain period of the Weblog content stored in the database 12. Extract and store in database 14.

また、Weblogコミュニティ蓄積手段15は、データベース4に保存するWeblogコミュニティにおいて頻出するキーワードにより該Weblogコミュニティをインデクシングすると共に、該Weblogコミュニティに含まれるエントリー登録日時、該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出してデータベース16に蓄積する。   In addition, the Weblog community storage unit 15 indexes the Weblog community with keywords that frequently appear in the Weblog community stored in the database 4, and the entry registration date / time included in the Weblog community, the comment associated with the entry, and the trackback registration date / time Based on this, the freshness of communication that decays with time is calculated and stored in the database 16.

図2は一般的なWeblogコンテンツの構成及びコミュニケーション例を示す。一般に、エントリーは、時系列にて分類され画像URL等を含むテキスト情報であり、いわゆる日記の書き込み内容に相当する。コメントは、通例、エントリーに対してWeblog読者が書き込むテキスト情報であり、該Weblog読者が自身のWeblogのトップページURLを明記することも可能であり、明記した場合には該コメント内に該トップページURLへのハイパーリンクが自動生成される。トラックバックは、トラックバック先エントリーに関連するトラックバック元エントリーであり、トラックバック先Weblogが受信した「TrackbackPing」に基づきトラックバック元エントリーへのハイパーリンクが自動生成される。   FIG. 2 shows a configuration and communication example of a general Weblog content. In general, an entry is text information classified in time series and including an image URL and the like, and corresponds to what is written in a diary. The comment is usually text information written by the Weblog reader for the entry, and the Weblog reader can also specify the top page URL of his / her Weblog, in which case the top page is included in the comment. A hyperlink to the URL is automatically generated. The trackback is a trackback source entry related to the trackback destination entry, and a hyperlink to the trackback source entry is automatically generated based on “TrackbackPing” received by the trackback destination Weblog.

ここで、Weblogコミュニティと呼ぶものは、コメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogの集合を抽出した結果である。このようなWeblogコミュニティの実装の単純な一例としては、例えばRSS1.0(下記の非特許文献1参照)の形式を用い、該Weblogコミュニティに属する全てのコンテンツに特徴的なキーワード集合を<Channel>タグの<dc:subject>タグに記述してインデクシングの対称とし、該Weblogコミュニティに属する全てのWeblogの参照URLを<item>タグ配下に記述する。また、各Weblogに属するエントリ及びコメント及びトラックバックの時系列情報を含む構造は該<item>タグ配下に独自拡張XML形式をもって記述可能である。   Here, what is called a Weblog community is a result of extracting a set of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks. As a simple example of implementation of such a Weblog community, for example, a format of RSS 1.0 (see Non-Patent Document 1 below) is used, and a keyword set characteristic for all contents belonging to the Weblog community is defined as <Channel>. Described in the <dc: subject> tag of the tag to make indexing symmetrical, and reference URLs of all Weblogs belonging to the Weblog community are described under the <item> tag. A structure including entries and comments belonging to each Weblog and trackback time-series information can be described in the original extended XML format under the <item> tag.

[非特許文献1]貼ochRDF Site Summary(RSS)1.0",Gabe Beged-Dov & Dan Brickley et.al.,2001/05更新,[2004/10/29検索]インターネットURL<URL:http://web.resource.org/rss/1.0/spec>
図1のWeblogコミュニティ検索装置20において、Weblogコミュニティ検索手段21は、検索キーワードに対応付けられてインデクシングされている前記WeblogコミュニティをWeblogコミュニティ蓄積手段15等によって保存されるデータベース12,14、16から検索する。Weblogコミュニティ検索結果表示手段22は、Weblogコミュニティ検索結果をキーワード適合度及びコミュニケーション鮮度に基づきソートしてエンドユーザ端末40にて表示可能とする。
[Non-Patent Document 1] ochRDF Site Summary (RSS) 1.0 ", Gabe Beged-Dov & Dan Brickley et.al., 2001/05 update, [Search 10/29/2004] Internet URL <URL: http: // web.resource.org/rss/1.0/spec>
In the Weblog community search device 20 of FIG. 1, Weblog community search means 21 searches the databases 12, 14, and 16 stored by the Weblog community storage means 15 for the Weblog community indexed in association with the search keyword. To do. The web log community search result display means 22 sorts the web log community search results based on the keyword suitability and the communication freshness and allows the end user terminal 40 to display them.

図3は、Weblogコミュニティ検索支援装置による検索処理フロー示し、この処理の流れを以下のステップ番号(S1)〜(S5)で説明する。   FIG. 3 shows a search processing flow by the Weblog community search support apparatus, and this processing flow will be described with the following step numbers (S1) to (S5).

(S1)クローリング手段11は、インターネットに接続され公開されている一般的なWeblogサーバ30から、エントリー及びコメント及びトラックバックの内容及び時系列情報を含むWeblogコンテンツを収集し、データベース12に保存する。   (S1) The crawling unit 11 collects Weblog contents including entries, comments, trackback contents, and time-series information from a general Weblog server 30 that is connected to the Internet and is open to the public, and stores the contents in the database 12.

(S2)コミュニティ抽出手段13は、前記収集コンテンツにおいて、一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを例えばRSS形式で抽出し、データベース4に保存する。   (S2) The community extraction unit 13 extracts a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total value of the number of comments and the number of trackbacks within a certain period, for example, in the RSS format. And stored in the database 4.

(S3)コミュニティ蓄積手段15は、前記収集コンテンツにおいて、各Weblogコミュニティ毎にTF/IDF計算(文章から重要単語の出現率TFと、その単語のレア度を表す指標IDFの積を計算する検索アルゴリズム)による頻出キーワードを抽出し、該キーワードを該Weblogコミュニティに対応する前記RSS内に追記、および該キーワードを該RSSと対応づけると共に、該Weblogコミュニティに含まれるエントリー登録日時及び該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出し、キーワード及びコミュニケーション鮮度により該RSSをインデクシングし、データベース16に保存する。   (S3) The community storage unit 15 calculates TF / IDF for each Weblog community in the collected content (a search algorithm that calculates the product of the occurrence rate TF of an important word from a sentence and an index IDF representing the rare degree of the word) ) Are extracted frequently, the keyword is added to the RSS corresponding to the Weblog community, the keyword is associated with the RSS, the entry registration date and time included in the Weblog community, and the comment associated with the entry. The communication freshness that decays with the passage of time is calculated based on the trackback registration date and time, the RSS is indexed by the keyword and the communication freshness, and is stored in the database 16.

(S4)エンドユーザ端末から検索キーワードを受け取ったWeblogコミュニティ検索手段21は、該キーワードに対応づけられたWeblogコンテンツを前記インデクシングされたRSSから検索する。   (S4) Upon receiving the search keyword from the end user terminal, the Weblog community search means 21 searches the indexed RSS for the Weblog content associated with the keyword.

(S5)コミュニティ検索結果表示手段22は、検索結果の複数のRSSをキーワード適合度及びコミュニケーション鮮度でソートしてエンドユーザ端末に返信する。   (S5) The community search result display means 22 sorts the plurality of RSSs of the search results by the keyword suitability and the communication freshness, and sends them back to the end user terminal.

以上の処理(S1)〜(S5)により、Weblogサーバで通例蓄積するエントリー、コメント、トラックバックから構成された特定の話題に関するコミュニケーションの履歴を用いて、目的とする知識に関して相互に評価し合い、一定の信頼をおいている時間的に直近のコミュニティを抽出してエンドユーザに提示し、該コミュニティへのアクセスによって信頼性の高い知識を取得できるようエンドユーザを支援できる。   Through the above processes (S1) to (S5), mutual evaluation of the target knowledge is performed using the communication history related to a specific topic composed of entries, comments, and trackbacks normally stored in the Weblog server. It is possible to support the end user by extracting the community closest in time and presenting it to the end user and acquiring highly reliable knowledge by accessing the community.

なお、本実施形態で説明したコミュニティ検索支援方法における各処理ステップは、コンピュータで実行可能に構成したプログラムによっても実現でき、さらにプログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。   Note that each processing step in the community search support method described in the present embodiment can be realized by a program configured to be executable by a computer, and can further be recorded on a recording medium or provided through a network. is there.

本発明の実施形態に係るWeblogコミュニティ検索支援装置の構成図。The block diagram of the Weblog community search assistance apparatus which concerns on embodiment of this invention. 一般的なWeblogコンテンツの構成例を示す図。The figure which shows the structural example of a general web log content. 本発明の実施形態に係るWeblogコミュニティ検索支援方法の処理フロー。The processing flow of the Weblog community search support method which concerns on embodiment of this invention.

符号の説明Explanation of symbols

10 Weblogコミュニティ収集装置
20 Weblogコミュニティ検索装置
11 クローリング手段
12 データベース
13 コミュニティ抽出手段
14 データベース
15 コミュニティ蓄積手段
16 データベース
21 コミュニティ検索手段
22 コミュニティ検索結果表示手段
DESCRIPTION OF SYMBOLS 10 Weblog community collection apparatus 20 Weblog community search apparatus 11 Crawling means 12 Database 13 Community extraction means 14 Database 15 Community storage means 16 Database 21 Community search means 22 Community search result display means

Claims (3)

Weblogコミュニティ収集装置とWeblogコミュニティ検索装置とを備え、ネットワーク上で指定キーワードに関するコミュニケーションが直近にて行われているWeblogコミュニティの検索を支援する方法であって、
前記Weblogコミュニティ収集装置は、
一般的なWeblogサーバに登録されたエントリー、コメント元WeblogのURLが明記されたコメント、トラックバック及びこれらの登録日時情報を含むWeblogコンテンツを収集するクローリングステップと、
前記Weblogコンテンツから一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出するWeblogコミュニティ抽出ステップと、
前記Weblogコミュニティにおいて頻出するキーワードにより前記Weblogコミュニティをインデクシングすると共に、該Weblogコミュニティに含まれるエントリー登録日時及び該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出して蓄積するWeblogコミュニティ蓄積ステップとを有し、
前記Weblogコミュニティ検索装置は、
エンドユーザ端末から要求される検索キーワードに対応付けられてインデクシングされている前記Weblogコミュニティを前記Weblogコミュニティ蓄積結果等から検索するWeblogコミュニティ検索ステップと、
該Weblogコミュニティ検索結果をキーワード適合度及びコミュニケーション鮮度に基づきソートしてエンドユーザ端末にて表示可能とするWeblogコミュニティ検索結果表示ステップとを有する、
ことを特徴とするWeblogコミュニティ検索支援方法。
A method of supporting a search for a Weblog community comprising a Weblog community collection device and a Weblog community search device, wherein communication related to a specified keyword is most recently performed on a network,
The Weblog community collection device
A crawling step of collecting Weblog contents including an entry registered in a general Weblog server, a comment specifying a URL of a comment source Weblog, a trackback, and registration date and time information;
A Weblog community extracting step of extracting a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks within a certain period from the Weblog content;
The Weblog community is indexed by keywords that frequently appear in the Weblog community, and the communication freshness that decreases with the passage of time is calculated based on the entry registration date / time included in the Weblog community, the comment accompanying the entry, and the trackback registration date / time. A Weblog community accumulation step to accumulate,
The Weblog community search device
A Weblog community search step for searching the Weblog community indexed in association with a search keyword requested from an end user terminal from the Weblog community accumulation result,
A Weblog community search result display step for sorting the Weblog community search results based on keyword matching and communication freshness and displaying them on an end user terminal.
A Weblog community search support method characterized by the above.
Weblogコミュニティ収集装置とWeblogコミュニティ検索装置とを備え、ネットワーク上で指定キーワードに関するコミュニケーションが直近にて行われているWeblogコミュニティの検索を支援する装置であって、
前記Weblogコミュニティ収集装置は、
一般的なWeblogサーバに登録されたエントリー、コメント元WeblogのURLが明記されたコメント、トラックバック及びこれらの登録日時情報を含むWeblogコンテンツを収集するクローリング手段と、
前記Weblogコンテンツから一定期間内のコメント数及びトラックバック数の合計値に基づき頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出するWeblogコミュニティ抽出手段と、
前記Weblogコミュニティにおいて頻出するキーワードにより前記Weblogコミュニティをインデクシングすると共に、該Weblogコミュニティに含まれるエントリー登録日時及び該エントリーに付随するコメント及びトラックバックの登録日時に基づき時間経過と共に減衰するコミュニケーション鮮度を算出して蓄積するWeblogコミュニティ蓄積手段とを有し、
前記Weblogコミュニティ検索装置は、
エンドユーザ端末から要求される検索キーワードに対応付けられてインデクシングされている前記Weblogコミュニティを前記Weblogコミュニティ蓄積結果等から検索するWeblogコミュニティ検索手段と、
該Weblogコミュニティ検索結果をキーワード適合度及びコミュニケーション鮮度に基づきソートしてエンドユーザ端末にて表示可能とするWeblogコミュニティ検索結果表示手段とを有する、
ことを特徴とするWeblogコミュニティ検索支援装置。
An apparatus that includes a Weblog community collection device and a Weblog community search device, and supports a search for a Weblog community in which communication related to a specified keyword is most recently performed on a network,
The Weblog community collection device
A crawling means for collecting an entry registered in a general Weblog server, a comment specifying a URL of a comment source Weblog, a trackback, and Weblog contents including these registration date and time information;
Weblog community extracting means for extracting a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication based on the total number of comments and trackbacks within a certain period from the Weblog content;
The Weblog community is indexed by keywords that frequently appear in the Weblog community, and the communication freshness that decreases with the passage of time is calculated based on the entry registration date / time included in the Weblog community, the comment accompanying the entry, and the trackback registration date / time. Weblog community storage means for storing,
The Weblog community search device
Weblog community search means for searching the Weblog community indexed in association with the search keyword requested from the end user terminal from the Weblog community accumulation result,
Weblog community search result display means for sorting the Weblog community search results on the basis of keyword suitability and communication freshness and displaying on the end user terminal.
This is a Weblog community search support device.
請求項1のWeblogコミュニティ検索支援方法を、コンピュータで実行可能に構成したプログラムを記録したことを特徴とする記録媒体。   A recording medium on which a program configured to execute the Weblog community search support method according to claim 1 by a computer is recorded.
JP2005157394A 2005-05-30 2005-05-30 Weblog community search support method, search support device, and recording medium recording program for search support method Pending JP2006331292A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005157394A JP2006331292A (en) 2005-05-30 2005-05-30 Weblog community search support method, search support device, and recording medium recording program for search support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005157394A JP2006331292A (en) 2005-05-30 2005-05-30 Weblog community search support method, search support device, and recording medium recording program for search support method

Publications (1)

Publication Number Publication Date
JP2006331292A true JP2006331292A (en) 2006-12-07

Family

ID=37552894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005157394A Pending JP2006331292A (en) 2005-05-30 2005-05-30 Weblog community search support method, search support device, and recording medium recording program for search support method

Country Status (1)

Country Link
JP (1) JP2006331292A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234317A (en) * 2007-03-20 2008-10-02 Dainippon Printing Co Ltd Method for displaying relevant keyword of theme keyword, and web server
JP2009020859A (en) * 2007-07-13 2009-01-29 Samsung Electronics Co Ltd Device and system for providing content in medium server, and method therefor
JP2009116469A (en) * 2007-11-02 2009-05-28 Fujitsu Ltd Information extraction program and information extraction device
WO2012057448A2 (en) * 2010-10-25 2012-05-03 Hong Sung Kwan Device for providing social network service
JP2012128528A (en) * 2010-12-13 2012-07-05 Yahoo Japan Corp Retrieval support device and method thereof
JP2015005130A (en) * 2013-06-20 2015-01-08 日本放送協会 Document posting device, method and program
US9690969B2 (en) 2014-07-25 2017-06-27 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium, and information processing method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234317A (en) * 2007-03-20 2008-10-02 Dainippon Printing Co Ltd Method for displaying relevant keyword of theme keyword, and web server
JP2009020859A (en) * 2007-07-13 2009-01-29 Samsung Electronics Co Ltd Device and system for providing content in medium server, and method therefor
US8306944B2 (en) 2007-07-13 2012-11-06 Samsung Electronics Co., Ltd. Apparatus, method and system for providing content of media server
JP2009116469A (en) * 2007-11-02 2009-05-28 Fujitsu Ltd Information extraction program and information extraction device
WO2012057448A2 (en) * 2010-10-25 2012-05-03 Hong Sung Kwan Device for providing social network service
WO2012057448A3 (en) * 2010-10-25 2012-06-21 Hong Sung Kwan Device for providing social network service
KR101217463B1 (en) 2010-10-25 2013-02-01 홍성관 Apparatus for social network service
JP2012128528A (en) * 2010-12-13 2012-07-05 Yahoo Japan Corp Retrieval support device and method thereof
JP2015005130A (en) * 2013-06-20 2015-01-08 日本放送協会 Document posting device, method and program
US9690969B2 (en) 2014-07-25 2017-06-27 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium, and information processing method

Similar Documents

Publication Publication Date Title
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US8812505B2 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user&#39;s preference
JP5084858B2 (en) Summary creation device, summary creation method and program
JP2010055618A (en) Method and system for providing search based on topic
CN102054015A (en) System and method of organizing community intelligent information by using organic matter data model
JP2007334502A (en) Retrieving device, method, and program
JP2006331292A (en) Weblog community search support method, search support device, and recording medium recording program for search support method
CN101576891A (en) Method for analyzing web page form object nodes
JP4875911B2 (en) Content identification method and apparatus
JP4896132B2 (en) Information retrieval method and apparatus reflecting information value
KR20040087205A (en) A method of managing web sites registered in search engine and a system thereof
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
KR101011726B1 (en) Apparatus and method for providing snippet
JP5341847B2 (en) Search query recommendation method, search query recommendation device, search query recommendation program
CN106202312B (en) A kind of interest point search method and system for mobile Internet
KR100557874B1 (en) Method of scientific information analysis and media that can record computer program thereof
KR100900467B1 (en) Personal media search service system and method
JP5321258B2 (en) Information collecting system, information collecting method and program thereof
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
CN111105854A (en) Search engine system for health information system knowledge base
JP2006164086A (en) Online knowledge search support system and online knowledge search support method
KR101440385B1 (en) Device for managing information using indicator
JP2010140373A (en) Method and device for detecting document group
JP2003173351A (en) Method, device, program and storage medium for analysis, collection and retrieval of information
JP5068304B2 (en) Extraction apparatus, method and program