JP5462591B2 - Specific content determination device, specific content determination method, specific content determination program, and related content insertion device - Google Patents
Specific content determination device, specific content determination method, specific content determination program, and related content insertion device Download PDFInfo
- Publication number
- JP5462591B2 JP5462591B2 JP2009250646A JP2009250646A JP5462591B2 JP 5462591 B2 JP5462591 B2 JP 5462591B2 JP 2009250646 A JP2009250646 A JP 2009250646A JP 2009250646 A JP2009250646 A JP 2009250646A JP 5462591 B2 JP5462591 B2 JP 5462591B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- web page
- blog
- specific
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000037431 insertion Effects 0.000 title claims description 22
- 238000003780 insertion Methods 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 47
- 238000012545 processing Methods 0.000 description 19
- 239000000463 material Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000000903 blocking effect Effects 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、Webページを構成するコンテンツを抽出する技術分野に関する。 The present invention relates to a technical field for extracting content constituting a Web page.
従来、Webサイト上に公開されているWebページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。例えば、非特許文献1には、ユーザにより画像データのURLが指定されると、当該URLに対応する画像データをWeb上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。
2. Description of the Related Art Conventionally, there is known a technique for acquiring content that is a material constituting a Web page published on a Web site and generating new content based on the acquired content. For example, Non-Patent
Webサイトを構成する各Webページには、そのWebサイトの目的に沿った内容が掲載される。そのため、Webサイトを構成する各Webページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。そして、そのWebページの内容を決める要因が、Webページを構成しているコンテンツ(例えば、テキストデータ、画像データ等)の内容である。従って、Webページを構成しているコンテンツの中で、そのWebページを特徴付けるコンテンツ、すなわち、そのWebページ特有のコンテンツが存在することがある。 Each web page constituting the web site is posted with content in accordance with the purpose of the web site. For this reason, the contents of the Web pages constituting the Web site are basically related to each other, but may have some characteristics. And the factor which determines the content of the web page is the content of the content (for example, text data, image data, etc.) which comprises the web page. Therefore, content that characterizes the Web page among content constituting the Web page, that is, content specific to the Web page may exist.
非特許文献1に記載の技術は、Webページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Webページに特有のコンテンツを容易に抽出することはできない。そのため、どのコンテンツがWebページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Webページに特有のコンテンツを適格に抽出することができない。また、対象とするWebページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。
The technique described in Non-Patent
また、例えば、HTML(HyperText Markup Language)文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。しかしながら、抽出されたコンテンツの中には、Webページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。 Further, for example, it is possible to extract all of a specific type of content such as only an image or only text based on the description of a tag of an HTML (HyperText Markup Language) document. However, since the extracted content includes common content that is not unique to Web pages, the reliability of the extraction result is low, and the user must search for the specific content from the extraction result. It was.
本発明は以上の点に鑑みてなされたものであり、Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。 The present invention has been made in view of the above points, and a unique content determination apparatus and a specific content determination method capable of easily extracting content specific to a Web page from content constituting the Web page. An object is to provide a unique content determination program and the like.
上記課題を解決するために、請求項1に記載の発明は、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算手段と、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段と、を備えることを特徴とする。
In order to solve the above-mentioned problem, the invention described in
この発明によれば、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成している各コンテンツが複数のWebページで用いられる頻度が夫々カウントされる。他のWebページで用いられる頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツである。そこで、他のWebページで用いられる頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたWebページに特有のコンテンツであると特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。 According to this invention, the frequency with which each content which comprises the designated web page is used by several web pages among the several web pages contained in a predetermined site is counted, respectively. The content that is used less frequently on other Web pages is the content that does not appear much other than the specified Web page. Therefore, by determining whether the frequency used in other Web pages is equal to or less than a predetermined value, all content satisfying the conditions is specified as content specific to the specified Web page. Therefore, content unique to the Web page can be easily extracted.
請求項2に記載の発明は、請求項1に記載の特有コンテンツ判定装置において、前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたWebページを構成しているコンテンツグループが他のWebページで用いられる頻度をカウントし、前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、他のWebページで用いられる頻度が所定値以下のコンテンツグループを当該指定されたWebページに特有のコンテンツグループであると判定することを特徴とする。
Invention according to
この発明によれば、コンテンツグループの単位でWebページに特有のコンテンツが判断されるので、例えば、Webページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Webページに特有のコンテンツとなるものを抽出することができる。 According to the present invention, content specific to the Web page is determined in units of content groups. For example, content that is displayed in a certain unit on the Web page or is related to each other is displayed. When a content group is used, it is possible to extract content that is unique to a Web page.
請求項3に記載の発明は、請求項2に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。 According to a third aspect of the present invention, in the specific content determination apparatus according to the second aspect , the extraction means is a content based on document data that is described in a predetermined markup language and that indicates the content constituting the Web page. It is characterized by extracting groups.
この発明によれば、Webページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、適格にコンテンツグループを抽出することができる。 According to the present invention, since the content group is extracted based on the document data indicating the content constituting the Web page, the content group can be extracted appropriately.
請求項4に記載の発明は、請求項3に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。 According to a fourth aspect of the present invention, in the specific content determination apparatus according to the third aspect , the extracting unit determines a content group based on a predetermined tag in document data indicating the content. .
この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Webページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。 According to the present invention, the content group is extracted based on a predetermined tag. Therefore, when content specific to a Web page and content that is not specific are grouped by a predetermined tag, respectively. Therefore, it is possible to increase the accuracy of determining content unique to the Web page.
請求項5に記載の発明は、請求項1乃至4の何れか1項に記載の特有コンテンツ判定装置において、前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記抽出された各コメントを、コメントが示す内容別に分類する分類手段と、出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段と、を更に備え、前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。
請求項6に記載の発明は、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出工程と、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算工程と、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定工程と、を有することを特徴とする。
請求項7に記載の発明は請求項6に記載の特有コンテンツ判定方法において、前記抽出工程は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記抽出された各コメントを、コメントが示す内容別に分類する分類工程と、出現頻度の閾値を設定する設定工程であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定工程と、を更に含み、前記計算工程は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定工程は、前記計算工程により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。
According to a fifth aspect of the present invention, in the specific content determination device according to any one of the first to fourth aspects, the extracting unit posts the article from a Web page on which the posted article is posted. A classifying unit that extracts the comment that has been extracted, and classifies each extracted comment according to the content indicated by the comment, and a setting unit that sets a threshold of appearance frequency, and the number of the content into which the comment is classified Setting means for reducing the threshold as much as possible, the calculating means calculates the appearance frequency of each of the contents into which the comment is classified in the Web page, and the determining means is calculated by the calculating means The content whose appearance frequency is not more than the set threshold value is determined to be content specific to the Web page.
The invention according to claim 6 is an extraction step of extracting content constituting a designated web page from among a plurality of web pages included in a predetermined site, and the designation among the plurality of web pages. a calculation step of the contents constituting the Web page counts the frequency used in other Web pages, of the contents constituting the Web page that the specified frequency used in other Web pages And a determination step of determining that the content equal to or less than a predetermined value is content specific to the designated Web page.
The invention described in claim 7 in specific content determination method according to claim 6, wherein the extracting step extracts a comment posted on the article from a Web page articles posted is posted, the A classification step for classifying each extracted comment according to the content indicated by the comment, and a setting step for setting a threshold of appearance frequency. A setting step for decreasing the threshold as the number of the contents into which the comment is classified increases. And the calculating step calculates the appearance frequency of each content in the Web page into which the comment is classified, and the determining step includes setting the appearance frequency calculated by the calculating step to the set threshold value. The content described below is determined as content specific to the Web page.
請求項8に記載の発明は、コンピュータを、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算手段、及び、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段、として機能させることを特徴とする。
請求項9に記載の発明は、請求項8に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記コンピュータを、前記抽出された各コメントを、コメントが示す内容別に分類する分類手段、及び、出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段、として更に機能させ、前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。
The invention according to
The invention according to claim 9 is the specific content determination program according to
請求項11に記載の発明は、請求項1乃至6の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、を備えることを特徴とする。 According to an eleventh aspect of the present invention, there is provided the specific content determination device according to any one of the first to sixth aspects and related content related to the content determined to be specific content by the specific content determination device. And insertion means for inserting into the designated Web page.
この発明によれば、特有のコンテンツであると判定されたコンテンツに関連するコンテンツが、指定されたWebページに挿入されるので、Webページの特徴と関連する情報を当該Webページに追加することができる。 According to the present invention, the content related to the content determined to be the specific content is inserted into the specified Web page, so that information related to the characteristics of the Web page can be added to the Web page. it can.
請求項12に記載の発明は、請求項11に記載の関連コンテンツ挿入装置において、前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、投稿された記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、前記特有コンテンツ判定装置により特有のコンテンツであると判定された記事のテキストデータから前記指定されたWebページの特徴語を抽出する特徴語抽出手段と、それぞれ語に関連付けて記憶手段に記憶された複数のコンテンツの中から、前記抽出された特徴語に関連するコンテンツを前記関連コンテンツとして選択する選択手段と、を更に備え、前記挿入手段は、前記選択された関連コンテンツを、前記指定されたWebページに挿入することを特徴とする。 According to a twelfth aspect of the present invention, in the related content insertion device according to the eleventh aspect , the unique content determination device has the text data of the posted article as the content constituting the designated Web page. If it is included, the text data is determined to be content specific to the Web page, and the specified Web page is determined from text data of an article determined to be specific content by the specific content determination device. A feature word extracting means for extracting the feature word of each of the above, and a selecting means for selecting content related to the extracted feature word as the related content from among a plurality of contents stored in the storage means in association with each word , And the inserting means inserts the selected related content into the designated Characterized in that it inserted into the eb page.
この発明によれば、各記事のテキストデータにその記事特有の内容が含まれているのであれば、特有コンテンツ判定装置により各記事のテキストデータを抽出することができる。これにより、Webページに掲載されている記事の内容に関連する情報を当該Webページに追加することができる。 According to this invention, if the text data of each article includes contents specific to the article, the text data of each article can be extracted by the unique content determination device. Thereby, the information relevant to the content of the article published on the web page can be added to the web page.
本発明によれば、他のWebページで用いられる頻度が小さいコンテンツであるほど、指定されたWebページ以外に前記複数のWebページ上にあまり出現しないコンテンツであるので、他のWebページで用いられる頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたWebページに特有のコンテンツであると特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。 According to the present invention, the content that is used less frequently on other Web pages is the content that does not appear much on the plurality of Web pages other than the specified Web page, and is therefore used on other Web pages. By determining whether the frequency is equal to or less than a predetermined value, all the content satisfying the condition is specified as content specific to the designated Web page. Therefore, content unique to the Web page can be easily extracted.
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ブログサービスを提供するブログシステムにおいて、ブログページ送信するサーバ装置に対して本発明を適用した場合の実施形態である。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The embodiment described below is an embodiment when the present invention is applied to a server device that transmits a blog page in a blog system that provides a blog service.
[1.ブログシステムの構成及び機能概要]
先ず、本実施形態に係るブログシステムSの構成及び概要機能について、図1を用いて説明する。
[1. Overview of Blog System Configuration and Functions]
First, the configuration and outline function of the blog system S according to the present embodiment will be described with reference to FIG.
図1は、本実施形態に係るブログシステムSの概要構成の一例を示す図である。 FIG. 1 is a diagram illustrating an example of a schematic configuration of a blog system S according to the present embodiment.
図1に示すように、ブログシステムSは、特有コンテンツ判定装置及び関連コンテンツ挿入装置の一例としてのブログサーバ1と、管理端末2と、複数のユーザ端末3と、を含んで構成されている。そして、ブログサーバ1と、各ユーザ端末3とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワークNWは、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、及びゲートウェイ等により構築されている。また、ブログサーバ1と管理端末2とは、LAN(Local Area Network)等のネットワークを介して接続されている。
As illustrated in FIG. 1, the blog system S includes a
このような構成のブログシステムSにおいて、ブログサーバ1は、ユーザ端末3からのリクエストに応じて、ブログサービスサイトを構成するWebページを送信するWebサーバである。ユーザ端末3を利用するユーザがブログサービスサイトのユーザ登録をすると、そのユーザは、当該ブログサービスサイトにおいてユーザ自身のブログを運営することができるようになっている。そして、ユーザ登録されたユーザ(ブロガー)は、ブログサービスサイトにアクセスして、自己のブログを更新(ブログ記事(ブログ1件毎の記録)を追加)することができるようになっている。そのため、ブログサーバ1は、ブログの更新に応じて、ブログのWebページとして、1又は複数のブログ記事が掲載されるブログページを生成又は更新する。そして、ブログサーバ1は、ブログページDB101を備え、ブログページを当該ブログページDB101に登録する。
In the blog system S having such a configuration, the
また、ブログサーバ1は、システム管理者により指定されたブロガーのブログページに対して、広告コンテンツ(関連コンテンツの一例)を挿入する。広告コンテンツとしては、例えば、広告文章のテキストデータ、バナーの画像データ、動画データ、Adobe Flash(商標)やSilverlight(商標)等により生成されたリッチインターネットアプリケーション(RIA)等がある。各ブログページに挿入される広告コンテンツは、対象のブログページに掲載されているブログ記事に関連する商品やサービスに関する広告を示すコンテンツである。そのため、ブログサーバ1は、複数の広告コンテンツが登録されている広告DB102を備える。そして、ブログサーバ1は、ブログページからブログ記事を抽出し、更にブログ記事から特徴語を抽出して、抽出した特徴語に関連する広告コンテンツを選択する。
Further, the
ユーザ端末3は、ブロガーとしてのユーザや、ブログを閲覧するユーザにより利用される端末装置である。ユーザ端末3としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。
The
管理端末2は、ブログシステムSのシステム管理者により使用される端末装置である。管理端末2としては、例えば、パーソナルコンピュータ等が用いられる。
The
[2.ブログサーバの構成及び機能]
次に、ブログサーバ1の構成及び機能について、図2を用いて説明する。
[2. Blog server configuration and functions]
Next, the configuration and function of the
図2は、本実施形態に係るブログサーバ1の概要構成の一例を示すブロック図である。また、図3は、ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。また、図4は、Webページの構成例を示す図である。また、図5は、HTML文書から生成されたDOMツリーの一例を示す図である。また、図6は、記憶部15に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。
FIG. 2 is a block diagram illustrating an example of a schematic configuration of the
図2に示すように、ブログサーバ1は、操作部11と、表示部12と、通信部13と、ドライブ部14と、記憶手段の一例としての記憶部15と、入出力インタフェース部16と、システム制御部20と、を備えている。そして、システム制御部20と入出力インタフェース部16とは、システムバス21を介して接続されている。
As shown in FIG. 2, the
操作部11は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部20に出力するようになっている。表示部12は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部13は、ネットワークNW等に接続して、管理端末2、ユーザ端末3等との通信状態を制御するようになっている。ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。
The
記憶部15は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部15には、ブログページDB101及び広告DB102が構築されている。ブログページDB101には、ブログサービスサイトを構成する各ブログページ(ブログページのHTML文書(ドキュメントデータの一例)、ブログページの素材である画像データ等)が、例えば、そのページのURL及びブロガーの識別情報であるユーザIDに対応付けて登録されている。広告DB102には、複数の広告コンテンツが、その広告コンテンツによる広告対象の商品やサービスに関連するキーワードに対応付けて登録されている。ここで、広告コンテンツにテキストデータ以外のコンテンツが含まれている場合には、当該コンテンツのURLも対応付けて登録されている。また、ブログページ上に表示された広告コンテンツをユーザが選択したときに広告対象の商品やサービスに関するWebページに移動するため、当該WebページのURLも対応付けて登録されている。
The
入出力インタフェース部16は、操作部11〜記憶部15とシステム制御部20との間のインタフェース処理を行うようになっている。システム制御部20は、CPU(Central Processing Unit)17、ROM(Read Only Memory)18、RAM(Random Access Memory)19等により構成されている。
The input /
システム制御部20は、CPU17が、ROM18や記憶部15に記憶された各種プログラムを読み出し実行することによりブログサーバ1の各部を制御する。また、システム制御部20は、広告コンテンツ挿入ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び挿入手段として機能する。なお、広告コンテンツ挿入ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD−ROM等のディスクDKに記録されてドライブ部14を介して読み込まれるようにしても良い。
The
広告コンテンツ挿入ソフトウェアは、ブログページに広告コンテンツを挿入するためのプログラムである。図3に示すように、広告コンテンツ挿入ソフトウェアは、マネージャ部、素材抽出エンジン、文章解析エンジン、広告選択部等により構成されている。マネージャ部は、素材抽出エンジン、文章解析エンジン及び広告選択部の実行を制御する。素材抽出エンジンは、ブログページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、ブログページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、後述のコンテンツブロック(コンテンツグループの一例)の単位で行われる。本実施形態においては、例えば、その記事特有の内容を含むブログ記事が、ブログページに特有のコンテンツブロックに相当する。 Advertising content insertion software is a program for inserting advertising content into a blog page. As shown in FIG. 3, the advertisement content insertion software includes a manager unit, a material extraction engine, a sentence analysis engine, an advertisement selection unit, and the like. The manager unit controls execution of the material extraction engine, the sentence analysis engine, and the advertisement selection unit. The material extraction engine is software for extracting content as a Web material from an HTML document of a blog page and determining content specific to the blog page. Content extraction is performed in units of content blocks (an example of a content group) described later. In the present embodiment, for example, a blog article including content specific to the article corresponds to a content block specific to the blog page.
文章解析エンジンは、ブログページ特有のコンテンツとして抽出されたブログ記事から当該ブログページの特徴語を抽出するためのソフトウェアである。広告選択部は、抽出された特徴語をキーワードとして、ブログページに関連する広告コンテンツを選択するためのソフトウェアである。 The sentence analysis engine is software for extracting feature words of the blog page from the blog article extracted as content unique to the blog page. The advertisement selection unit is software for selecting advertisement content related to the blog page using the extracted feature words as keywords.
以下に、広告コンテンツの挿入の概要について説明する。図3に示すように、システム管理者により対象のブロガーのユーザIDが指定される(1)。すると、システム制御部20は、指定されたユーザIDに対応する全ブログページのHTML文書をブログページDB101から取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を生成する(2)。次いで、システム制御部20は、抽出した各コンテンツブロックの、指定されたユーザIDに対応する全ブログページにおける出現頻度を計算する。本実施形態において計算される出現頻度は、例えば、出現回数(度数)である。そして、システム制御部20は、各ブログページにおいて、出現頻度が所定の閾値以下であるコンテンツブロックを、そのブログページ特有のコンテンツブロックであると判定する(3)。
Below, the outline | summary of insertion of advertisement content is demonstrated. As shown in FIG. 3, the system administrator designates the user ID of the target blogger (1). Then, the
システム制御部20は、特有のコンテンツブロックであると判定したコンテンツブロック、すなわち、ブログ記事に対して形態素解析等の分析を行って、ブロックページ毎の特徴語を抽出する(4)。特徴語の抽出方法としては、種々の方法があり、また公知であるので、詳細な説明は省略する。一例としては、出現頻度の最も高い単語を特徴語とする。
The
次いで、システム制御部20は、広告DB102を参照し、抽出した特徴語に関連する広告コンテンツを選択する(5)。そして、システム制御部20は、選択した広告コンテンツをブログページに挿入して表示させるための規定(タグやデータそのものの記述等)を、ブログページのHTML文書に挿入する(6)。
Next, the
次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。 Next, a content block extraction method will be described. In the present embodiment, it is assumed that text data and image data are extracted as Web materials.
例えば、ブログページの構成(レイアウト)が図4に示すようなものであるとする。Web素材としての各コンテンツは、ブログページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、DIVタグ及びTABLEタグ(以下、「ブロック化タグ」という)によりブロック化(グループ化)される。 For example, assume that the configuration (layout) of the blog page is as shown in FIG. Each content as a Web material is displayed for each certain group (group) on the blog page. Each group corresponds to a content block. Each content is divided into content blocks by a DIV tag and a TABLE tag (an example of a predetermined tag) described in the HTML document. That is, each content is blocked (grouped) by the DIV tag and the TABLE tag (hereinafter referred to as “blocked tag”).
図4には、コンテンツブロック301〜306が表示されている。コンテンツブロック301は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。また、コンテンツブロック302は、例えば、各種カテゴリの商品に関するWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。また、コンテンツブロック303は、例えば、ブログの表示領域に対応するコンテンツブロックであり、ブログ等の見出しを示すテキストE、コンテンツブロック304及びコンテンツブロック305により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック303に含まれるコンテンツはテキストEのみとされ、コンテンツブロック304及びコンテンツブロック305は、コンテンツブロック303から独立しているものとされる。コンテンツブロック304及び305は、夫々1件のブログ記事である。コンテンツブロック304には、ブログ記事の表題や本文を示すテキストF及びGにより構成されている。コンテンツブロック305には、ブログ記事の表題や本文を示すテキストH、I及びJと、ブログ記事に関連してブロガーにより登録された画像b及びcとにより構成されている。コンテンツブロック306は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。
In FIG. 4, content blocks 301 to 306 are displayed. The
これらのコンテンツブロックのうち、コンテンツブロック301、302、303及び306は、図4に示すブログページ以外のブログページ上でも比較的頻繁に現れる。一方、コンテンツブロック304及びコンテンツブロック305は、基本的に当該ブログページにだけに用いられる。よって、コンテンツブロック304又はコンテンツブロック305が、当該ブログページ特有のコンテンツブロックであると判断されることとなる。
Of these content blocks, content blocks 301, 302, 303, and 306 appear relatively frequently on blog pages other than the blog page shown in FIG. On the other hand, the
本実施形態においては、その記事特有の内容を含むブログ記事に相当するコンテンツブロックを特有のコンテンツブロックと判定されるようにする必要がある。こうした特有の内容を含むブログ記事は、1ページ内に複数含まれている場合がある。そのため、出現頻度が所定の閾値以下であるコンテンツブロックは、全て特有のコンテンツブロックとされる。例えば、閾値の値を1回に設定する。そうすると、特有の内容を含むブログ記事は、特有のコンテンツブロックと判定され、他のブログ記事と同じような内容のみを含むブログ記事は、特有のコンテンツブロックとは判定されない。また、ヘッダ部分、ナビゲーション部分、コピーライト表示部分等の各ブログページに共通するようなコンテンツブロックの出現頻度は夫々2回以上となるので、これらも特有のコンテンツブロックとは判定されない。なお、閾値は記憶部15に予め記憶される。
In the present embodiment, it is necessary to determine a content block corresponding to a blog article including the content specific to the article as a specific content block. In some cases, a plurality of blog articles including such specific contents are included in one page. For this reason, all content blocks whose appearance frequency is equal to or lower than a predetermined threshold are set as unique content blocks. For example, the threshold value is set to once. Then, a blog article including specific content is determined as a specific content block, and a blog article including only content similar to other blog articles is not determined as a specific content block. In addition, since the appearance frequency of content blocks that are common to each blog page such as the header portion, the navigation portion, and the copyright display portion is two times or more, these are not determined to be specific content blocks. The threshold value is stored in advance in the
図4に示すブログページのHTML文書をDOM(Document Object Model)ツリー、すなわち、木構造で表したものが図5である。なお、図5に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。 FIG. 5 shows the HTML document of the blog page shown in FIG. 4 in a DOM (Document Object Model) tree, that is, a tree structure. In the DOM tree shown in FIG. 5, illustration of tag nodes that are not necessary for the description of the present embodiment is omitted.
DOMツリーにおいては、DIVタグを示すDIVノード及びTABLEタグを示すTABLEノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる(以下、「ブロック化ノード」という)。システム制御部20は、例えば、深さ優先探索によりDOMツリーを探索し、コンテンツブロックを確定していく。具体的に、システム制御部20は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード(以下、「上位のブロック化ノード」という)を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード(以下、「下位のブロック化ノード」という)を発見すると、コンテンツブロックが分割される。例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木(以下、「上位部分木」という)に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木(以下、「下位部分木」という)に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける(例えば、コンテンツブロック304とコンテンツブロック303)。この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。例えば、コンテンツブロック301、302、303及び306の階層は1であり、コンテンツブロック304及び305の階層は2である。つまり、階層の値が小さいほど階層的により上位となる。
In the DOM tree, a DIV node indicating a DIV tag and a TABLE node indicating a TABLE tag are nodes that block each content into content blocks (hereinafter referred to as “blocked nodes”). For example, the
これを、HTML文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。 This will be explained in the description of the tag of the HTML document. Basically, if a blocked tag is described, the contents whose specifications are described within the range sandwiched between the blocked tags are collectively displayed in the block. The content block corresponds to the categorized tag. However, when the blocking tag is described hierarchically, the block described below the blocking tag among the contents in which the specification is described within a range sandwiched between certain blocking tags A content block corresponding to the block tag is collectively obtained by excluding the content whose definition is described in the range between the block tags.
このようにしてコンテンツブロックを抽出すると、システム制御部20は、抽出結果を示すコンテンツブロック対応情報を一時的に記憶部15に保存する。図6に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に保存される。コンテンツブロック対応情報には、抽出元のHTML文書のURL設定部分(符号402)とブロック構成情報(符号403)とにより構成されている。ブロック構成情報には、抽出された各コンテンツが設定される。ここで、テキストデータについては、DOMツリーにおけるテキストノードの内容が設定される。一方、画像データについては、画像データそのものの代わりとして、DOMツリーにおいてIMGタグを示すIMGノードのsrc属性としての画像データのURLが設定される。なお、本実施形態においては、ブログページ特有のコンテンツブロックであると判定されたコンテンツブロック、すなわち、ブログ記事から特徴語を抽出するので、テキストデータが抽出されれば良く、画像データについては抽出しなくても良い。
When the content block is extracted in this way, the
[3.ブログシステムの動作]
次に、ブログシステムSの動作について、図7乃至図10を用いて説明する。
[3. Operation of the blog system]
Next, the operation of the blog system S will be described with reference to FIGS.
図7は、本実施形態に係るブログサーバ1のシステム制御部20の広告コンテンツ挿入処理における処理例を示すフローチャートである。
FIG. 7 is a flowchart illustrating a processing example in the advertisement content insertion processing of the
広告コンテンツ挿入処理は、例えば、システム管理者の操作に基づいて管理端末2から広告コンテンツ挿入処理の実行のリクエストが送信されてきたときに開始される。
The advertisement content insertion process is started, for example, when a request for execution of the advertisement content insertion process is transmitted from the
そして、システム管理者が広告コンテンツの挿入対象とするブログを運営するブロガーのユーザIDを指定すると、図7に示すように、システム制御部20は、指定されたユーザIDを管理端末2から受信する(ステップS1)。
Then, when the system administrator specifies the user ID of the blogger who operates the blog to which the advertising content is to be inserted, the
次いで、システム制御部20は、ブロック数NUMに0を設定する(ステップS2)。ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。また、NUMはグローバル変数であり、後述する1ページ対応抽出処理及びツリー探索処理からアクセスが可能である。
Next, the
次いで、システム制御部20は、受信したユーザIDに対応する最初のブログページのHTML文書をブログページDB101から取得する(ステップS3)。次いで、システム制御部20は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS4)。この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が保存される。
Next, the
次いで、システム制御部20は、受信したユーザIDに対応する全てのブログページのコンテンツブロックを抽出したか否かを判定する(ステップS5)。このとき、システム制御部20は、コンテンツブロックを抽出していないブログページが存在する場合には(ステップS5:NO)、次のブログページのHTML文書をブログページDB101から取得して(ステップS6)、ステップS4に移行する。そして、システム制御部20は、ステップS4〜S6の処理を繰り返して全てのブログページのコンテンツブロックを抽出すると(ステップS5:YES)、ステップS7に移行する。
Next, the
ステップS7において、システム制御部20は、受信したユーザIDに対応する最初のブログページのHTML文書を特定する。
In step S7, the
次いで、システム制御部20は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS8)。この特有コンテンツブロック判定処理では、特定したHTML文書からコンテンツブロックが抽出され、ブログページ特有のコンテンツブロックが判定される。
Next, the
次いで、システム制御部20は、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS9)。次いで、システム制御部20は、抽出した特徴語に基づいて、ブログページに関連する広告ページを当該ブログページに挿入する(ステップS10)。具体的に、システム制御部20は、抽出した特徴語をキーワードとし、広告DB102に参照して当該キーワードに対応する広告コンテンツを選択する。次いで、システム制御部20は、特定したHTML文書上の所定の位置に、選択した広告コンテンツの規定を挿入する。例えば、システム制御部20は、広告コンテンツにテキストデータが含まれている場合には、当該テキストデータの内容をHTML文書に追加する。また、例えば、システム制御部20は、広告コンテンツに画像データが含まれている場合には、当該画像データを表示するためのIMGタグをHTML文書に追加する。また、例えば、システム制御部20は、広告対象の商品やサービスに関するWebページへのリンク情報をHTML文書に追加する。
Next, the
システム制御部20は、特定したHTML文書に広告コンテンツの規定を挿入すると、当該HTML文書で、ブログページDB101に登録されているHTML文書を更新する(ステップS11)。
When the advertisement content rule is inserted into the specified HTML document, the
次いで、システム制御部20は、受信したユーザIDに対応する全てのブログページに広告コンテンツを挿入したか否かを判定する(ステップS12)。このとき、システム制御部20は、広告コンテンツを挿入していないブログページが存在する場合には(ステップS12:NO)、次のブログページのHTML文書を特定して(ステップS13)、ステップS8に移行する。そして、システム制御部20は、ステップS8〜S13の処理を繰り返して全てのブログページに広告コンテンツを挿入すると(ステップS12:YES)、記憶部15に保存させておいた全てのコンテンツブロック対応情報を、記憶部15から削除する(ステップS14)。システム制御部20は、この処理を終えると、広告コンテンツ挿入処理を終了させる。
Next, the
図8は、本実施形態に係るブログサーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
FIG. 8 is a flowchart showing a processing example in the one-page extraction process of the
図8に示すように、システム制御部20は、先ず、取得したHTML文書のDOMツリーをRAM19上に生成する(ステップS21)。
As shown in FIG. 8, the
次いで、システム制御部20は、階層LVに0を設定する(ステップS22)。階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。LVはグローバル変数であり、1ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。
Next, the
次いで、システム制御部20は、DOMツリーのルートノードを指定して(ステップS23)、ツリー探索処理を実行する(ステップS24)。ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Webページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。
Next, the
次いで、システム制御部20は、ツリー探索処理により生成された各コンテンツブロック対応情報を記憶部15に保存する(ステップS25)。システム制御部20は、この処理を終えると、1ページ対応抽出処理を終了させる。
Next, the
図9は、本実施形態に係るブログサーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
FIG. 9 is a flowchart illustrating a processing example in the tree search process of the
図9に示すように、システム制御部20は、先ず、指定されたノードの種類を判定する(ステップS31)。このとき、システム制御部20は、指定されたノードの種類が、DIVノード又はTABLEノード(ブロック化ノード)である場合には、すなわち、コンテンツブロックが発見された場合には(ステップS31:DIV又はTABLE)、ステップS32に移行する。
As shown in FIG. 9, the
ステップS32において、システム制御部20は、ブロック数NUMに1を加算するとともに、階層LVに1を加算する。次いで、システム制御部20は、ブロック番号BN[LV]にNUMを設定する(ステップS33)。ブロック番号BN[LV]は、現在探索中のノードが属する階層LVで示されるコンテンツブロックのブロック番号である。このブロック番号は、コンテンツブロックの発見順に付与される。また、BN[LV]は、グローバル変数である。
In step S32, the
次いで、システム制御部20は、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する(ステップS34)。具体的に、システム制御部20は、コンテンツブロック対応情報を格納する領域をRAM19上に設定し、取得したHTML文書のURLを、当該領域に設定する。
Next, the
次いで、システム制御部20は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS35)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS35:YES)、ステップS36に移行する。
Next, the
ステップS36において、システム制御部20は、探索されていない子ノードのうちの1つの子ノードを指定して、ツリー探索処理を実行する(ステップS37)。システム制御部20は、ツリー探索処理を終えると、ステップS35に移行する。
In step S36, the
そして、システム制御部20は、ステップS35〜S37の処理を繰り返して全ての子ノードのツリー探索処理を終えると(ステップS35:NO)、ステップS38に移行する。なお、システム制御部20は、指定されたノードの子ノードが1つも存在しない場合にも、ステップS38に移行する。ステップS38において、システム制御部20は、階層LVから1を減算して、ツリー探索処理を終了させる。
And the
ステップS31において、システム制御部20は、指定されたノードの種類がテキストノードである場合には(ステップS31:テキスト)、指定されたノードの内容(テキストデータ)を、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS39)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
In step S31, when the type of the designated node is a text node (step S31: text), the
ステップS31において、システム制御部20は、指定されたノードの種類がIMGノードである場合には(ステップS31:IMG)、指定されたノードのsrc属性として設定されている画像データのURLを取得し、取得したURLを、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS40)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
In step S31, if the type of the designated node is an IMG node (step S31: IMG), the
ステップS31において、システム制御部20は、指定されたノードの種類が、DIVノード、TABLEノード、テキストノード、及びIMGノードの何れでもない場合には(ステップS31:その他)、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS41)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS41:YES)、探索されていない子ノードのうちの1つの子ノードを指定して(ステップS42)、ツリー探索処理を実行する(ステップS43)。システム制御部20は、ツリー探索処理を終えると、ステップS41に移行する。
In step S31, when the type of the designated node is not any of the DIV node, the TABLE node, the text node, and the IMG node (step S31: Other), the
一方、システム制御部20は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが1つも存在しない場合には(ステップS41:NO)、ツリー探索処理を終了させる。
On the other hand, when the
図10は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
FIG. 10 is a flowchart illustrating a processing example in the specific content block determination process of the
図10に示すように、システム制御部20は、先ず、1ページ対応抽出処理と同様に、指定されたHTML文書のDOMツリー生成(ステップS61)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS62)、DOMツリーのルートノードを指定して(ステップS63)、ツリー探索処理を実行する(ステップS64)。
As shown in FIG. 10, the
次いで、システム制御部20は、ブロック番号iに1を設定する(ステップS65)。次いで、システム制御部20は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS66)。
Next, the
具体的に、システム制御部20は、ステップS64のツリー探索処理において生成されたコンテンツブロック対応情報i(ブロック番号iのコンテンツブロックに対応するコンテンツブロック対応情報)のブロック構成情報と、記憶部15に保存されている各コンテンツブロック対応情報のブロック構成情報とを比較する。このとき、システム制御部20は、ブロック構成情報の内容が一致する場合には、出現回数1回としてカウントする。このとき、システム制御部20は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。また、システム制御部20は、記憶部15に保存されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報iのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数1回としてカウントしても良い。更に、システム制御部20は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。例えば、システム制御部20は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。そして、システム制御部20は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。システム制御部20は、このようにしてコンテンツブロック対応情報iのブロック構成情報と、記憶部15に保存されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。
Specifically, the
システム制御部20は、出現頻度を計算すると、計算した出現頻度が、記憶部15に記憶されている閾値以下であるか否かを判定する(ステップS67)。このとき、システム制御部20は、出現頻度が閾値以下である場合には(ステップS67:YES)、ブロック番号iのコンテンツブロックを、特有のコンテンツブロックの1つであると判定する(ステップS68)。つまり、システム制御部20は、ブロック番号iのコンテンツブロックを、指定されたHTML文書が対応するブログページに特有のコンテンツブロックに加える。
When calculating the appearance frequency, the
システム制御部20は、出現頻度が閾値よりも大きい場合(ステップS67:NO)、又は、ステップS68の処理を終えた場合には、ブロック番号iに1を加算して(ステップS69)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS70)。このとき、システム制御部20は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS70:NO)、ステップS66に移行する。そして、システム制御部20は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS70:YES)、特有コンテンツブロック判定処理を終了させる。
The
なお、システム制御部20は、ステップS64のツリー探索処理によりコンテンツブロックを抽出していたが、広告コンテンツ挿入処理から実行された1ページ対応抽出処理(図7ステップS4)において、受信したブロガーのユーザIDに対応する全てのブログページについてコンテンツブロックが抽出され、その結果としてコンテンツブロック対応情報が記憶部15に記憶されているので、再度コンテンツブロックを抽出しなくても良い。その場合には、指定されたHTML文書のURLに基づいて、当該HTML文書が対応するブログページを構成する各コンテンツブロックのコンテンツブロック対応情報を記憶部15から取得することができる。
The
[4.変形例1]
次に、本実施形態の変形例について、図11を用いて説明する。
[4. Modification 1]
Next, a modification of this embodiment will be described with reference to FIG.
これまでの説明においては、システム管理者によりブロガーが指定されたときに、指定されたブロガーのブログページに広告コンテンツを挿入していたが、ブログが更新されたタイミングで広告コンテンツを挿入しても良い。 In the explanation so far, when the blogger is designated by the system administrator, the advertising content is inserted into the blog page of the designated blogger. However, even if the advertising content is inserted at the timing when the blog is updated. good.
図11は、本実施形態の変形例に係るブログサーバ1のシステム制御部20のブログ更新時処理における処理例を示すフローチャートである。なお、図11において、図7と同様の処理については同様のステップ番号を付してある。
FIG. 11 is a flowchart illustrating a processing example in the blog update processing of the
先ず、ブログの更新に先立ち、ブロガーは、ユーザ端末3を操作してブログサービスサイトにアクセスし、自身のユーザIDとパスワードとを入力することによりブログサービスサイトにログインする。このログインにより、ブログサーバ1はユーザ端末3に対してセッションIDを発行し、セッションIDとユーザIDとを対応付けて管理する。ユーザ端末3からブログサーバ1へのリクエストにはセッションIDが含まれているので、ブログサーバ1は、どのブロガーからのリクエストであるかを特定することができる。
First, prior to updating the blog, the blogger accesses the blog service site by operating the
そして、ブロガーが新しいブログ記事の登録操作を行うと、ユーザ端末3は、ブログ記事のデータ(表題や本文等のテキストデータ、画像データ等)をブログサーバ1に送信し、図11に示すように、ブログサーバ1のシステム制御部20は、ブログ記事のデータを受信する(ステップS71)。次いで、システム制御部20は、ブロガーのユーザIDに対応するブログページの中から、更新すべきブログページのHTML文書をブログページDB101から取得する(ステップS72)。次いで、システム制御部20は、受信したブログ記事のデータに基づいて、取得したHTML文書を更新する(ステップS73)。例えば、システム制御部20は、取得したHTML文書に、ブログ記事用のTABLEタグ又はDIVタグを追加し、当該タグに挟まれた形で、受信したブログ記事の表題や本文のテキストデータ等を追加する。次いで、システム制御部20は、ブログ記事のデータを追加したHTML文書で、ブログページDB101に登録されているHTML文書を更新する(ステップS74)。
Then, when the blogger performs a new blog article registration operation, the
次いで、システム制御部20は、ブロガーのユーザIDに対応する全てのブログページからコンテンツブロックを抽出する(ステップS3〜S6)。
Next, the
次いで、システム制御部20は、ステップS73において更新したHTML文書を指定して、特有コンテンツブロック判定処理を実行し(ステップS8)、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS9)。
Next, the
次いで、システム制御部20は、指定されたHTML文書から、既存の広告コンテンツの規定を削除し(ステップS75)、抽出した特徴語をキーワードとして、関連する広告コンテンツの規定を挿入する(ステップS10)。つまり、システム制御部20は、ブログページ上に表示される広告コンテンツを変更する。
Next, the
そして、システム制御部20は、広告コンテンツの規定が挿入されたHTML文書で、ブログページDB101に登録されているHTML文書を更新し(ステップS11)、記憶部15から全てのコンテンツブロック対応情報を削除する(ステップS14)。
Then, the
なお、ブログの更新に伴ってブログページを新規に生成しなければならない場合の処理もも、基本的に上述した処理と同様で良い。ただし、新規に生成されたブログページには、広告コンテンツは未だ挿入されていないので、ステップS75における広告コンテンツの規定の削除は行われない。 Note that the processing when a blog page has to be newly generated as the blog is updated may be basically the same as the processing described above. However, since the advertisement content has not yet been inserted in the newly generated blog page, the regulation of the advertisement content in step S75 is not performed.
[5.変形例2]
これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる閾値として1回を設定していたが、2回以上の値を閾値として設定しても良い。
[5. Modification 2]
In the description so far, one time is set as the threshold value used for determining the content specific to the blog page, but a value of two times or more may be set as the threshold value.
例えば、閾値を1回とした場合には、出現頻度が1回であるコンテンツブロック(ブログ記事)がブログページに特有のコンテンツとして抽出され、抽出されたブログ記事のテキストデータから特徴語が抽出される。このとき、抽出された各ブログ記事のテキストデータのデータ量が少ないと、そこから抽出される単語の数は少なくなる。そして、十分な数の単語を抽出することができないと、どの単語が特徴語であるかを全く判断することができない場合や、的確に判断することができない場合がある。そこで、閾値の値を上げて、ブログページに特有のコンテンツと判定される条件をゆるめることで、特徴語を抽出する対象となるブログ記事を増やしていく。これにより、特徴語を抽出することが可能となる。 For example, when the threshold is set to once, a content block (blog article) having an appearance frequency of once is extracted as content specific to the blog page, and feature words are extracted from the text data of the extracted blog article. The At this time, if the amount of text data of each extracted blog article is small, the number of words extracted from the text data decreases. If a sufficient number of words cannot be extracted, it may not be possible to determine at all which word is a feature word, or may not be able to accurately determine. Therefore, by increasing the threshold value and loosening the condition for determining content specific to the blog page, the number of blog articles that are the target of feature word extraction is increased. As a result, feature words can be extracted.
具体的には、ブログサーバ1のシステム制御部20が、最初は閾値を1回に設定して、ブログページに特有のコンテンツブロックを判定することにより、出現回数が1回のブログ記事を抽出して特徴語を抽出する。このとき、システム制御部20は、特徴語を抽出することができないと判定した場合には、閾値を2回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部20は、それでも特徴語を抽出することができないと判定した場合には、閾値を3回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部20は、こうした処理を、特徴語が抽出することができるまで継続する。つまり、特有のコンテンツブロックの抽出結果に基づく処理を正常に行うことができなかった場合に、閾値を上げるのである。
Specifically, the
ただし、閾値を無制限に上げていくと、ブログ記事ではないものも抽出されてしまうので、閾値がある程度まで上がると処理を中断するものとする。例えば、閾値が、指定されたブロガーに対応するブログページのページ数の値にまで上がると、各ブログページで共通して用いられるコンテンツブロックを抽出してしまうので、閾値がブログページのページ数の値になったら処理を中断しても良い。 However, if the threshold value is increased indefinitely, non-blog articles are also extracted. Therefore, the processing is interrupted when the threshold value is increased to some extent. For example, if the threshold value rises to the value of the number of pages of the blog page corresponding to the specified blogger, the content block used in common in each blog page is extracted, so the threshold value is the number of pages of the blog page. Processing may be interrupted when the value is reached.
また例えば、ブログページの所定ページ数あたり1回のみ出現するコンテンツブロックをブログページ特有のコンテンツブロックであると、システム管理者側で予め定めても良い。この場合、指定されたブロガーに対応するブログページのページ数に比例して、閾値としての出現回数を変えても良い。 Further, for example, the system administrator may determine in advance that a content block that appears only once per a predetermined number of pages of the blog page is a content block specific to the blog page. In this case, the number of appearances as the threshold value may be changed in proportion to the number of blog pages corresponding to the designated blogger.
[6.変形例3]
これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる出現頻度として、出現回数(度数)を用いていたが、指定されたブロガーに対応するブログページの全コンテンツブロックに対する出現回数の割合(相対度数)を用いても良い。
[6. Modification 3]
In the description so far, the number of appearances (frequency) is used as the appearance frequency used to determine the content specific to the blog page. However, the number of appearances for all content blocks of the blog page corresponding to the specified blogger. A ratio (relative frequency) may be used.
例えば、ブロガーが登録したブログ記事に対して、他のユーザからコメントを登録することができ、ブログ記事とともにコメントが閲覧可能になっているとする。このコメントのテキストデータもブログページを構成するコンテンツの1つとなる。ブログサーバ1のシステム制御部20は、コメントのテキストデータをブログページに追加する場合、当該ブログページのHTML文書に、ブロック化タグの記述を追加した上で当該テキストデータを追加することにより、コメントのテキストデータを、ブログ記事や他のコメントのテキストデータとは独立したコンテンツブロックとする。そして、システム制御部20は、コンテンツブロックとしてコメントのテキストデータを抽出し、抽出したコメントのテキストデータが特有の内容を有している場合には、そのコメントに関連する広告コンテンツをブログページに挿入するようにする。
For example, it is assumed that a comment can be registered from another user on a blog article registered by a blogger, and the comment can be viewed together with the blog article. The text data of this comment is also one of the contents constituting the blog page. When adding text data of a comment to a blog page, the
ところで、或るブログ記事に対して複数のコメントが登録された場合において、複数のコメントの各内容が、例えば、多数派の意見と少数派の意見といったように、頻繁に出現する内容と、あまり頻繁には出現しない内容とに分かれる場合がある。このとき、多数派の意見は、一般的な意見であり、あまり特徴的な内容ではないと考えることができる。一方、少数派の意見は、特異な意見であり、ブログページに特有の内容と考えることができる。そうした場合に、少数派の意見を示すコメントをブログページ特有のコンテンツとして抽出したい。 By the way, when a plurality of comments are registered for a certain blog article, the contents of the plurality of comments are not so much as contents that frequently appear, for example, opinions of majority and minority. It may be divided into contents that do not appear frequently. At this time, the opinions of the majority can be considered as general opinions and not very characteristic content. On the other hand, the opinions of minorities are unique opinions and can be considered as content specific to blog pages. In such a case, I want to extract comments that show minority opinions as content specific to the blog page.
しかしながら、多数派の意見の数と少数派の意見の数は、相対的なものであり、コメントの総数によって変化する。こうした場合において、出現頻度として度数を用い、閾値を例えば1回とすると、頻繁に現れない内容(少数派の意見)を適切に抽出することができない場合がある。そこで、出現頻度として相対度数を用い、閾値を所定の割合に設定するのである。このときの閾値は任意に設定することができる。例えば、抽出されたコンテンツブロックの内容がN個のパターン(Nは2以上の整数)に分けられる場合、少数派の意見を区別するために、閾値には1÷N未満の範囲で閾値を設定しても良い。このように、システム制御部20が、その時々の状況に応じて閾値を変更しても良い。
However, the number of majority opinions and the number of minority opinions are relative and vary with the total number of comments. In such a case, if the frequency is used as the appearance frequency and the threshold is set to, for example, once, contents that do not appear frequently (minority opinions) may not be appropriately extracted. Therefore, the relative frequency is used as the appearance frequency, and the threshold is set to a predetermined ratio. The threshold value at this time can be set arbitrarily. For example, when the content of the extracted content block is divided into N patterns (N is an integer of 2 or more), in order to distinguish minority opinions, a threshold value is set within a range of less than 1 / N. You may do it. As described above, the
なお、ブログ等のような記事に対してコメント等を登録することができるシステムとして、例えば、或るユーザが登録したつぶやきに対して、これをフォローするつぶやきを他のユーザが登録することができるTwitter(商標)や、電子掲示板等がある。 In addition, as a system capable of registering comments and the like for articles such as blogs, for example, other users can register a tweet that follows a tweet registered by a certain user. Twitter (trademark) and electronic bulletin boards.
以上説明したように、本実施形態によれば、ブログサーバ1のシステム制御部20が、HTML文書が指定されることによって順次指定されたブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツの出現頻度を計算し、指定されたブログページを構成するコンテンツのうち、出現頻度が所定の閾値以下のコンテンツを当該ブログページに特有のコンテンツであると判断する。
As described above, according to the present embodiment, the
従って、出現頻度が小さいコンテンツであるほど、指定されたブログページ以外にはあまり出現しないコンテンツであるので、出現頻度が閾値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたブログページに特有のコンテンツであると特定される。よって、ブログページに特有のコンテンツを容易に抽出することができる。 Therefore, since the content having a smaller appearance frequency is a content that does not appear much other than the designated blog page, all content satisfying the condition is determined by determining whether the appearance frequency is equal to or less than a threshold. Identified as content specific to the specified blog page. Therefore, content specific to the blog page can be easily extracted.
また、ブログサーバ1のシステム制御部20が、指定されたブログページに特有のコンテンツに関連する広告コンテンツを当該ブログページに挿入する。
Further, the
従って、ブログページの特徴と関連する情報をWebページに追加することができる。 Therefore, information related to the characteristics of the blog page can be added to the Web page.
また、ブログサーバ1のシステム制御部20が、指定されたブログページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを、当該ブログページに特有のコンテンツであると判定し、ブログの記事のテキストデータから当該ブログページの特徴語を抽出し、当該特徴語をキーワードとして、予め関連付けられている広告コンテンツを、当該ブログページに挿入する。
In addition, when the
従って、ブログページに掲載されているブログの内容に関連する広告を当該ブログページに追加することができる。 Therefore, an advertisement related to the content of the blog posted on the blog page can be added to the blog page.
また、ブログサーバ1のシステム制御部20が、ブログサービスサイトに含まれる複数のブログページ上における各コンテンツの出現頻度を計算する。
Further, the
従って、ブログサービスサイトに含まれる複数のWebページ(例えば、指定されたブロガーのユーザIDに対応する複数のブログページ)上において、指定されたブログページを構成している各コンテンツの出現頻度が計算されるので、ブログサービスサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。 Therefore, the appearance frequency of each content constituting the specified blog page is calculated on a plurality of Web pages (for example, a plurality of blog pages corresponding to the specified blogger user ID) included in the blog service site. Therefore, it is possible to determine that the content used in common in the blog service site is not unique content, and the determination accuracy can be improved.
また、ブログサーバ1のシステム制御部20が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、ブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツブロック出現頻度を計算し、指定されたブログページを構成するコンテンツブロックのうち、出現頻度が閾値以下のコンテンツブロックを当該ブログページに特有のコンテンツブロックであると判断する。
Further, the
従って、ブログページ上において、例えば、ヘッダ部分、ナビゲーション部分、ブログが表示される部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、ブログページに特有のコンテンツブロックを抽出することができる。 Therefore, on the blog page, for example, when one or more contents are collectively displayed as a content block, such as a header part, a navigation part, a part where a blog is displayed, a copyright display part, etc., A content block specific to a blog page can be extracted.
また、ブログサーバ1のシステム制御部20が、ブログページを構成しているコンテンツを当該ブログページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいて、コンテンツブロックを定める。
Further, the
従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、ブログページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。 Therefore, one or more contents explicitly blocked when creating an HTML document can be specified by the DIV tag, and one of the contents that is blocked and displayed in a table format by the TABLE tag. Since the above content can be specified, for example, when the content specific to the blog page and the non-specific content are blocked by these tags, the accuracy of determining the content specific to the web page Can be raised.
なお、上記実施形態においては、Webページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。例えば、Webページ上に表示されるコンテンツ、又は、Webページが表示されている際に再生されるコンテンツ(例えば、動画データ、音声データ、電子文書等)であれば良い。また、所定の種類のコンテンツのみを抽出しても良い。 In the above embodiment, text data and image data are extracted as the contents constituting the Web page, but the contents to be extracted are not limited to these. For example, it may be content displayed on a Web page or content that is played back when a Web page is displayed (for example, moving image data, audio data, electronic document, etc.). Further, only a predetermined type of content may be extracted.
また、上記実施形態においては、指定されたブログページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、指定されたブロガーのユーザIDに対応する全てのブログページを構成する各コンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定されたブログページを構成する各コンテンツブロックの出現頻度を計算する場合に、指定されたブロガーに対応する全てのブログページを対象とした範囲に出現する頻度を計算するようになっていたが、対象とする範囲はこれだけに限られるものではない。例えば、予め定められたページ数分のブログページを対象としても良いし、ブログサービスサイトを構成する全てのブログページを対象としても良い。 Moreover, in the said embodiment, each content block corresponding information which comprises all the blog pages corresponding to the user ID of the designated blogger for the content block corresponding information corresponding to each content block which comprises the designated blog page. Each appearance frequency was calculated by comparing with. In other words, when calculating the appearance frequency of each content block making up the specified blog page, the frequency of appearance in the range targeting all the blog pages corresponding to the specified blogger was calculated. However, the target range is not limited to this. For example, blog pages corresponding to a predetermined number of pages may be targeted, or all blog pages constituting the blog service site may be targeted.
また、上記実施形態においては、DIVタグに挟まれているコンテンツ、及び、TABLEタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。 Moreover, in the said embodiment, although the content pinched | interposed into the DIV tag and the content pinched | interposed into the TABLE tag were extracted by grouping as a content block, as a tag which groups content, It is not limited only to these.
また、上記実施形態においては、Webページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。 In the above embodiment, content specific to a Web page is extracted in units of content blocks, but each content may be extracted one by one as it is.
また、上記実施形態として、Webページに特有のコンテンツに関連するコンテンツとして、商品やサービスに関する広告を示す広告コンテンツを、当該Webページに挿入していたが、関連するコンテンツであれば広告コンテンツに限られるものではない。例えば、特有のコンテンツと判定されたブログ記事等のコンテンツに関連する画像データ(静止画や動画像)を、背景画像や挿入画像(挿絵等)として挿入しても良い。具体的には、例えば、画像データ用のデータベースを構築し、当該データベースに、画像データとキーワードとを対応付けて登録しておく。画像データに対応付けられるキーワードは、その画像データによって表される画像を示す単語や当該画像に関連する単語である。そして、特有のコンテンツと判定されたコンテンツから特徴語を抽出し、抽出した特徴語をキーワードとして、関連する画像データをデータベースから選択する。そして、対象のHTML文書のBODYタグに、選択した画像データのURLをbackground属性として挿入したり、対象のHTML文書の所定位置に、選択した画像データを表示するIMGタグを挿入したりする。これにより、特有のコンテンツと判定されたブログ記事等のコンテンツの内容に適した画像をWebページに挿入することができる。 In the above embodiment, advertising content indicating an advertisement related to a product or service has been inserted into the Web page as content related to content unique to the Web page. It is not something that can be done. For example, image data (still image or moving image) related to content such as a blog article determined to be unique content may be inserted as a background image or an insertion image (illustration). Specifically, for example, a database for image data is constructed, and image data and keywords are associated and registered in the database. The keyword associated with the image data is a word indicating an image represented by the image data or a word related to the image. Then, feature words are extracted from the content determined to be unique content, and related image data is selected from the database using the extracted feature words as keywords. Then, the URL of the selected image data is inserted as a background attribute in the BODY tag of the target HTML document, or an IMG tag for displaying the selected image data is inserted at a predetermined position of the target HTML document. As a result, an image suitable for the content content such as a blog article determined to be unique content can be inserted into the Web page.
また、Webページに特有のコンテンツの用途としては、関連するコンテンツをWebページに挿入することのみに限られるものではない。例えば、Webページに特有のコンテンツに基づいて、新たなコンテンツを生成しても良い。 Further, the use of content specific to a Web page is not limited to only inserting related content into a Web page. For example, new content may be generated based on content unique to the Web page.
また、上記実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からHTML文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。 In the above embodiment, the specific content determination device of the present invention is applied to the server device. However, if the HTML document can be acquired from the storage means or the network, the special content is determined for the terminal device or the like. A determination device may be applied.
また、上記実施形態においては、HTML文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Webページを構成するコンテンツを示すデータ(例えば、XHTML(Extensible HyperText Markup Language)文書等)に対してドキュメントデータを適用しても良い。 In the above-described embodiment, the document data of the present invention is applied to an HTML document. However, data (for example, XHTML (Extensible HyperText Markup Language) that is described in a markup language and indicates content constituting a Web page. Document data may be applied to a document).
また、上記実施形態においては、ブログサービスサイトにおけるブログページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。 Moreover, in the said embodiment, although the content which comprises the blog page in a blog service site was extracted, the kind of site and page made into object are not restricted only to these.
1 ブログサーバ
2 管理端末
3 ユーザ端末
11 操作部
12 表示部
13 通信部
14 ドライブ部
15 記憶部
16 入出力インタフェース部
17 CPU
18 ROM
19 RAM
20 システム制御部
21 システムバス
101 ブログページDB
102 広告DB
NW ネットワーク
S ブログシステム
DESCRIPTION OF
18 ROM
19 RAM
20
102 Advertising DB
NW Network S Blog System
Claims (11)
前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算手段と、
前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段と、
を備えることを特徴とする特有コンテンツ判定装置。 An extracting means for extracting content constituting a designated web page from a plurality of web pages included in a predetermined site;
Calculating means for counting the frequency with which each of the contents constituting the designated web page is used on another web page among the plurality of web pages;
A determination unit that determines that content that is used in other Web pages is less than or equal to a predetermined value among the contents that constitute the specified Web page is content specific to the specified Web page;
A unique content determination apparatus comprising:
前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、The extraction means extracts the content constituting the web page in units of content groups composed of one or more contents,
前記計算手段は、前記指定されたWebページを構成しているコンテンツグループが他のWebページで用いられる頻度をカウントし、The calculation means counts the frequency at which the content group constituting the designated web page is used on another web page,
前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、他のWebページで用いられる頻度が所定値以下のコンテンツグループを当該指定されたWebページに特有のコンテンツグループであると判定することを特徴とする特有コンテンツ判定装置。The determination means is a content group specific to the designated web page, among the content groups constituting the designated web page, a content group whose frequency used in other web pages is a predetermined value or less. A unique content determination apparatus characterized by determining that
前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。The specific content determination apparatus, wherein the extraction unit extracts a content group based on document data that is described in a predetermined markup language and indicates content that constitutes a Web page.
前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。The specific content determination apparatus, wherein the extraction unit determines a content group based on a predetermined tag in document data indicating the content.
前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、The extraction means extracts a comment posted to the article from a web page on which the posted article is posted,
前記抽出された各コメントを、コメントが示す内容別に分類する分類手段と、Classifying means for classifying each extracted comment according to the content indicated by the comment;
出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段と、Setting means for setting a threshold of appearance frequency, and setting means for decreasing the threshold as the number of the contents into which the comments are classified increases.
を更に備え、Further comprising
前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、The calculating means calculates the appearance frequency of each of the contents in which the comment is classified in a Web page,
前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定装置。The determination unit determines that the content whose appearance frequency calculated by the calculation unit is equal to or less than the set threshold is content specific to the Web page.
前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算工程と、A calculation step of counting the frequency with which each content constituting the designated web page is used on another web page among the plurality of web pages;
前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定工程と、A determination step of determining, among the contents constituting the specified web page, content whose frequency used in other web pages is a predetermined value or less as content specific to the designated web page;
を有することを特徴とする特有コンテンツ判定方法。A unique content determination method characterized by comprising:
前記抽出工程は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、The extraction step extracts a comment posted to the article from a web page where the posted article is posted,
前記抽出された各コメントを、コメントが示す内容別に分類する分類工程と、A classification step of classifying each extracted comment according to the content indicated by the comment;
出現頻度の閾値を設定する設定工程であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定工程と、A setting step of setting a threshold of appearance frequency, a setting step of decreasing the threshold as the number of the contents into which the comment is classified is increased,
を更に含み、Further including
前記計算工程は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、The calculation step calculates the appearance frequency of each content in the web page into which the comment is classified,
前記判定工程は、前記計算工程により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定方法。The determination step is characterized by determining that the content whose appearance frequency calculated by the calculation step is equal to or less than the set threshold is content specific to the Web page.
所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段、Extracting means for extracting content constituting a designated web page from a plurality of web pages included in a predetermined site;
前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算手段、及び、A calculating means for counting the frequency with which each content constituting the designated web page is used in another web page among the plurality of web pages; and
前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段、A determination unit that determines that content that is used in other Web pages and has a frequency equal to or lower than a predetermined value among the contents that constitute the specified Web page is content specific to the specified Web page;
として機能させることを特徴とする特有コンテンツ判定プログラム。A unique content determination program characterized in that it is made to function as:
前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、The extraction means extracts a comment posted to the article from a web page on which the posted article is posted,
前記コンピュータを、The computer,
前記抽出された各コメントを、コメントが示す内容別に分類する分類手段、及び、Classification means for classifying each extracted comment according to the content indicated by the comment, and
出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段、Setting means for setting a threshold of appearance frequency, and setting means for decreasing the threshold as the number of the contents into which the comment is classified increases.
として更に機能させ、Further function as
前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、The calculating means calculates the appearance frequency of each of the contents in which the comment is classified in a Web page,
前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定プログラム。The determination unit determines that the content whose appearance frequency calculated by the calculation unit is equal to or less than the set threshold is content specific to the Web page.
前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、Insertion means for inserting related content related to content determined to be specific content by the specific content determination device into the specified web page;
を備えることを特徴とする関連コンテンツ挿入装置。A related content insertion device comprising:
前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、投稿された記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、When the specific content determination device includes text data of a posted article as content constituting the designated web page, the text data is content specific to the web page. Judgment,
前記特有コンテンツ判定装置により特有のコンテンツであると判定された記事のテキストデータから前記指定されたWebページの特徴語を抽出する特徴語抽出手段と、Feature word extraction means for extracting feature words of the designated web page from text data of an article determined to be unique content by the unique content determination device;
それぞれ語に関連付けて記憶手段に記憶された複数のコンテンツの中から、前記抽出された特徴語に関連するコンテンツを前記関連コンテンツとして選択する選択手段と、Selecting means for selecting, as the related content, content related to the extracted feature word from a plurality of contents stored in the storage means in association with each word;
を更に備え、Further comprising
前記挿入手段は、前記選択された関連コンテンツを、前記指定されたWebページに挿入することを特徴とする関連コンテンツ挿入装置。The related content insertion apparatus, wherein the insertion means inserts the selected related content into the designated Web page.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009250646A JP5462591B2 (en) | 2009-10-30 | 2009-10-30 | Specific content determination device, specific content determination method, specific content determination program, and related content insertion device |
KR1020147026766A KR20140127360A (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
BR112012010120A BR112012010120A2 (en) | 2009-10-30 | 2010-10-25 | device and method for determining characteristic content |
CN201080048923.4A CN102598038B (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
PCT/JP2010/068820 WO2011052526A1 (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
US13/504,831 US20120216107A1 (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
EP10826658.6A EP2482247A4 (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
KR1020127014075A KR101640051B1 (en) | 2009-10-30 | 2010-10-25 | Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device |
US14/696,992 US10614134B2 (en) | 2009-10-30 | 2015-04-27 | Characteristic content determination device, characteristic content determination method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009250646A JP5462591B2 (en) | 2009-10-30 | 2009-10-30 | Specific content determination device, specific content determination method, specific content determination program, and related content insertion device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011096078A JP2011096078A (en) | 2011-05-12 |
JP5462591B2 true JP5462591B2 (en) | 2014-04-02 |
Family
ID=44112900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009250646A Active JP5462591B2 (en) | 2009-10-30 | 2009-10-30 | Specific content determination device, specific content determination method, specific content determination program, and related content insertion device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5462591B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014155682A1 (en) * | 2013-03-29 | 2014-10-02 | 楽天株式会社 | Information processing device, information processing method, and information processing program |
JP6196189B2 (en) * | 2014-06-30 | 2017-09-13 | ヤフー株式会社 | Advertisement distribution apparatus, advertisement distribution method, and advertisement distribution program |
US10417671B2 (en) * | 2016-11-01 | 2019-09-17 | Yext, Inc. | Optimizing dynamic review generation for redirecting request links |
US10671798B2 (en) * | 2018-02-01 | 2020-06-02 | Google Llc | Digital component backdrop rendering |
KR102511170B1 (en) * | 2021-12-08 | 2023-03-17 | 주식회사 콘댁트 | Method, apparatus and computer program for providing secondary contents prediction solution through comments big-data analysis |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3632477B2 (en) * | 1999-01-18 | 2005-03-23 | 日本電信電話株式会社 | Internet information retrieval method and storage medium storing internet information retrieval program |
JP2001282837A (en) * | 2000-03-31 | 2001-10-12 | Oki Electric Ind Co Ltd | Information gathering device |
JP2003223449A (en) * | 2001-10-26 | 2003-08-08 | Yasuhiro Tanaka | Method for registration of terminal information and method of utilizing it |
JP2003141134A (en) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | Text mining processing method and device for implementing the same |
US20030101166A1 (en) * | 2001-11-26 | 2003-05-29 | Fujitsu Limited | Information analyzing method and system |
JP4282312B2 (en) * | 2002-11-27 | 2009-06-17 | 富士通株式会社 | Web server, Web server having Java servlet function, and computer program |
GB2403558A (en) * | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Document searching and method for presenting the results |
JP2005236646A (en) * | 2004-02-19 | 2005-09-02 | Fuji Xerox Co Ltd | Image display device, method, and program |
US7260568B2 (en) * | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
JP2006146506A (en) * | 2004-11-18 | 2006-06-08 | Image:Kk | Web site updating system, web site updating method and web site updating program |
JP2006338086A (en) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | Topic scale management device |
JP2007080061A (en) * | 2005-09-15 | 2007-03-29 | Univ Of Tsukuba | Retrieval method of web page and clustering method of web page |
JP4833043B2 (en) * | 2006-11-30 | 2011-12-07 | ヤフー株式会社 | Affinity device using blog or query click |
JP2008226235A (en) * | 2007-02-14 | 2008-09-25 | Shinseiki:Kk | Information feedback system, information feedback method, information control server, information control method, and program |
KR100780265B1 (en) * | 2007-03-05 | 2007-11-28 | (주)엔알시스템스 | System for advertising using meta-blog web page and profit creating method with it |
JP2009053983A (en) * | 2007-08-28 | 2009-03-12 | Nec Corp | Information structurization apparatus, information structurization method and program |
JP5082917B2 (en) * | 2008-02-25 | 2012-11-28 | 日本電気株式会社 | Illegal information detection device, illegal information detection method, and illegal information detection program |
JP2009205499A (en) * | 2008-02-28 | 2009-09-10 | Nec Corp | Web page specification apparatus, web page specification method, and program for specifying web page |
-
2009
- 2009-10-30 JP JP2009250646A patent/JP5462591B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011096078A (en) | 2011-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101640051B1 (en) | Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
US8739027B2 (en) | Methods and apparatus for enabling use of web content on various types of devices | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US8849725B2 (en) | Automatic classification of segmented portions of web pages | |
US9594730B2 (en) | Annotating HTML segments with functional labels | |
CN106503211B (en) | Method for automatically generating mobile version facing information publishing website | |
CN103874994A (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
JP2013531289A (en) | Use of model information group in search | |
US7421416B2 (en) | Method of managing web sites registered in search engine and a system thereof | |
CN103034633A (en) | Method for generating expanded search result page summary and device for generating expanded search result page summary | |
CN102169501A (en) | Method and device for generating abstract based on type information of document corresponding with searching result | |
US7383496B2 (en) | Information processing apparatus, program, and recording medium | |
JP5462591B2 (en) | Specific content determination device, specific content determination method, specific content determination program, and related content insertion device | |
US20200293160A1 (en) | System for superimposed communication by object oriented resource manipulation on a data network | |
CN103246719B (en) | A kind of Network Information Resource Integration method of sing on web | |
CN103164423A (en) | Method and device for confirming browser inner core type rendering web pages | |
Gali et al. | Extracting representative image from web page | |
JP2008046879A (en) | Page display device, page display method and computer program | |
KR101583073B1 (en) | Server and method for article summary service | |
US10614134B2 (en) | Characteristic content determination device, characteristic content determination method, and recording medium | |
JP6002349B2 (en) | Distribution apparatus, distribution method, and distribution program | |
JP2015228136A (en) | Distribution device, distribution method and distribution program | |
JP2004088454A (en) | System for displaying image information | |
Veeraiah et al. | A novel approach for extraction and representation of main data from web pages to android application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111107 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20111107 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20111118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120618 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5462591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |