JP5462591B2 - Specific content determination device-specific content determination method, specific content determination program and related content insertion device - Google Patents

Specific content determination device-specific content determination method, specific content determination program and related content insertion device Download PDF

Info

Publication number
JP5462591B2
JP5462591B2 JP2009250646A JP2009250646A JP5462591B2 JP 5462591 B2 JP5462591 B2 JP 5462591B2 JP 2009250646 A JP2009250646 A JP 2009250646A JP 2009250646 A JP2009250646 A JP 2009250646A JP 5462591 B2 JP5462591 B2 JP 5462591B2
Authority
JP
Japan
Prior art keywords
content
blog
page
block
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009250646A
Other languages
Japanese (ja)
Other versions
JP2011096078A (en
Inventor
志学 岩淵
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to JP2009250646A priority Critical patent/JP5462591B2/en
Priority claimed from BR112012010120A external-priority patent/BR112012010120A2/en
Publication of JP2011096078A publication Critical patent/JP2011096078A/en
Application granted granted Critical
Publication of JP5462591B2 publication Critical patent/JP5462591B2/en
Priority claimed from US14/696,992 external-priority patent/US20150227627A1/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、Webページを構成するコンテンツを抽出する技術分野に関する。 The present invention relates to the technical field of extracting contents constituting the Web page.

従来、Webサイト上に公開されているWebページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。 Traditionally, to get the material serving content constituting the Web pages published on the Web site, there is known a technique of generating new content based on the obtained content. 例えば、非特許文献1には、ユーザにより画像データのURLが指定されると、当該URLに対応する画像データをWeb上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。 For example, Non-Patent Document 1, when the URL of the image data is specified by a user, obtains the image data corresponding to the URL from the Web, techniques disclosed for automatically creating a banner based on image data acquired It is.

Webサイトを構成する各Webページには、そのWebサイトの目的に沿った内容が掲載される。 Each Web pages that make up the Web site, the contents in line with the purpose of the Web site is published. そのため、Webサイトを構成する各Webページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。 Therefore, the contents of each Web page constituting the Web site, but it is of basically has relevance to each other, and may have each have a some feature. そして、そのWebページの内容を決める要因が、Webページを構成しているコンテンツ(例えば、テキストデータ、画像データ等)の内容である。 The factors that determine the contents of the Web page, the contents of the contents constituting the Web page (e.g., text data, image data, etc.). 従って、Webページを構成しているコンテンツの中で、そのWebページを特徴付けるコンテンツ、すなわち、そのWebページ特有のコンテンツが存在することがある。 Accordingly, among the contents constituting the Web page, the content characterizing its Web pages, that is, the content of the Web page specific exists.

非特許文献1に記載の技術は、Webページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Webページに特有のコンテンツを容易に抽出することはできない。 Described in Non-Patent Document 1 technique is intended to extract the contents of the specific to the Web page, and not to automatically extract must specify the content the user manually, the Web pages it is not possible to easily extract the contents of the specific to. そのため、どのコンテンツがWebページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Webページに特有のコンテンツを適格に抽出することができない。 Therefore, what if the content is not possible to determine whether the content of the specific Web page user, or the like if the user preferences are preferred content would disproportionately, to qualify extract content specific to the Web page can not. また、対象とするWebページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。 In addition, if a large number of pages of the Web page of interest, there is a problem that the work of the user becomes enormous.

また、例えば、HTML(HyperText Markup Language)文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。 Further, for example, based on the description of the tag HTML (HyperText Markup Language) document, image only, or so that only such text, it is possible to extract all the contents of a specific type. しかしながら、抽出されたコンテンツの中には、Webページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。 However, in the extracted content, because it contains also content commonplace not peculiar Web page, the extraction result is low reliability, therefore the user from the extraction result had to look for specific content It was.

本発明は以上の点に鑑みてなされたものであり、Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。 The present invention has been made in view of the above, specific content determination device that Web page specific content can be easily extracted from among the contents constituting the Web page, specific content determination method , and to provide a unique content determination program.

上記課題を解決するために、請求項1に記載の発明は、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他の Webページで用いられる頻度をカウントする計算手段と、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段と、を備えることを特徴とする。 In order to solve the above problems, the invention according to claim 1, among a plurality of Web pages on a given site, extraction means for extracting a content constituting the specified Web pages, the plurality of Web pages, among the contents each content constituting the specified Web page constitutes a calculating means for counting the frequency to be used in another Web page, the specified Web pages, the frequency used in other Web pages, characterized in that it comprises, and the determining means is a specific content to a predetermined value or less of the Web page content is the specify.

この発明によれば、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成している各コンテンツが複数のWebページで用いられる頻度が夫々カウントされる。 According to the present invention, among a plurality of Web pages on a given site, the frequency of each content constituting the specified Web page is used in multiple Web pages are respectively counted. 他のWebページで用いられる頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツである。 The more often a small content to be used in other Web page, is in addition to the specified Web page is the content that does not so much appear. そこで、 他のWebページで用いられる頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたWebページに特有のコンテンツであると特定される。 Therefore, the frequency used in another Web page by determining whether a predetermined value or less, all content satisfies the condition is identified as a content specific to the specified Web page. よって、Webページに特有のコンテンツを容易に抽出することができる。 Therefore, it is possible to easily extract the contents of the specific to the Web page.

請求項に記載の発明は、請求項に記載の特有コンテンツ判定装置において、前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたWebページを構成しているコンテンツグループが他の Webページで用いられる頻度をカウントし、前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、他のWebページで用いられる頻度が所定値以下のコンテンツグループを当該指定されたWebページに特有のコンテンツグループであると判定することを特徴とする。 Invention according to claim 2, in specific content determination device according to claim 1, wherein the extraction means, in units of content group consists of one or more content and content constituting the Web page extracted, said calculation means, content group constituting the specified Web page counts the frequency used in another Web page, the determining means is configured the specified Web pages of the content group, and judging that the specific content group in Web pages often used is the designated content groups a predetermined value or less in other Web pages.

この発明によれば、コンテンツグループの単位でWebページに特有のコンテンツが判断されるので、例えば、Webページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Webページに特有のコンテンツとなるものを抽出することができる。 According to the present invention, the content specific to the Web page in units of the content group is determined, for example, or are displayed with a certain chunk on Web pages, such content has relevance to each other when the content group, it is possible to extract what the specific content in the Web page.

請求項に記載の発明は、請求項に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。 The invention according to claim 3, in specific content determination device according to claim 2, wherein the extraction means is described in a predetermined markup language, based on the document data indicating the contents constituting the Web page, the content and extracts the group.

この発明によれば、Webページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、適格にコンテンツグループを抽出することができる。 According to the present invention, the content group is extracted on the basis of the document data indicating the contents constituting the Web page, it is possible to extract the eligible content group.

請求項に記載の発明は、請求項に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。 According to a fourth aspect of the invention, the specific content determination device according to claim 3, wherein the extraction means is characterized in that to determine the content groups based on a predetermined tag in the document data indicating the contents .

この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Webページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。 According to the present invention, since the content group based on the tag to a predetermined are extracted, and the specific content to a Web page, if the content not unique are grouped by respectively predetermined tag , it is possible to increase the accuracy of determining the content specific to the Web page.

請求項に記載の発明は、請求項1乃至の何れか1項に記載の特有コンテンツ判定装置において、前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記抽出された各コメントを、コメントが示す内容別に分類する分類手段と、出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段と、を更に備え、前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。 The invention according to claim 5, posts in specific content determination device according to any one of claims 1 to 4, wherein the extracting means, to said articles from a Web page articles posted is posted been extracted comments, each comment is the extraction, and classification means for classifying for each content indicated by the comment, a setting means for setting a threshold value of the occurrence frequency, a large number of the contents of the comment is classified as a setting means for reducing the threshold, further wherein the calculating means, the frequency of appearance Web page of each of the contents which the comment is classified calculated, the determination unit was calculated by the calculating means appearance frequency and judging that the content unique to the content is less than the set threshold value the Web page.
請求項に記載の発明は、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出工程と、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他の Webページで用いられる頻度をカウントする計算工程と、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定工程と、を有することを特徴とする。 Invention according to claim 6, among the plurality of Web pages on a given site, an extraction step of extracting a content constituting the specified Web page, among the plurality of Web pages, the designation a calculation step of the contents constituting the Web page counts the frequency used in other Web pages, of the contents constituting the Web page that the specified frequency used in other Web pages There characterized by having a, a determination step that the content specific to a predetermined value or less of the Web page the specified content.
請求項に記載の発明は請求項に記載の特有コンテンツ判定方法において、前記抽出工程は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記抽出された各コメントを、コメントが示す内容別に分類する分類工程と、出現頻度の閾値を設定する設定工程であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定工程と、を更に含み、前記計算工程は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定工程は、前記計算工程により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。 The invention described in claim 7 in specific content determination method according to claim 6, wherein the extracting step extracts a comment posted on the article from a Web page articles posted is posted, the each comment is extracted, a classification step of classifying by content indicated by the comment, a setting step of setting a threshold value of the occurrence frequency, setting step of reducing the threshold as the number of the contents of the comment is classified often When, further comprising a said computation step, the frequency of appearance Web page of each of the contents which the comment is classified calculated, the determination step, the threshold frequency of occurrence calculated by said calculation step is the setting and judging that the content specific to the which the contents the Web page or less.

請求項に記載の発明は、コンピュータを、所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他の Webページで用いられる頻度をカウントする計算手段、及び、前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段、として機能させることを特徴とする。 Invention of claim 8, the computer, among a plurality of Web pages on a given site, extraction means for extracting a content constituting the specified Web page, among the plurality of Web pages, calculation means for each content constituting the specified Web page is to count the frequency to be used in other Web pages, and, among the contents constituting the specified Web pages, other Web pages the frequency used is characterized in that to function as a determining means which is specific content to a predetermined value or less of the Web page the specified content.
請求項に記載の発明は、請求項に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、前記コンピュータを、前記抽出された各コメントを、コメントが示す内容別に分類する分類手段、及び、出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段、として更に機能させ、前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする。 The invention described in claim 9, in specific content determination program according to claim 8, wherein the extraction means extracts a comment posted on the article from a Web page articles posted is posted, the computer, each comment is the extraction, classification means for classifying for each content indicated by the comment, and a setting means for setting a threshold value of the occurrence frequency, the greater the number of the contents of the comment is classified often setting means for reducing the threshold, as is further function, the calculation means, the frequency of appearance Web page of each of the contents which the comment is classified calculated, said determining means, frequency calculated by said calculation means There and judging that the content unique to the content is less than the set threshold value the Web page.

請求項11に記載の発明は、請求項1乃至の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、を備えることを特徴とする。 The invention of claim 11 has a unique content determination device according to any one of claims 1 to 6, a related content related to the is determined to be specific content by specific content determination device content , characterized in that it comprises a an insertion means for inserting the specified Web page.

この発明によれば、特有のコンテンツであると判定されたコンテンツに関連するコンテンツが、指定されたWebページに挿入されるので、Webページの特徴と関連する情報を当該Webページに追加することができる。 According to the present invention, the content related to the content that is determined to be unique content, because it is inserted to the specified Web page, to add information associated with characteristics of the Web page in the Web page it can.

請求項12に記載の発明は、請求項11に記載の関連コンテンツ挿入装置において、前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、投稿された記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、前記特有コンテンツ判定装置により特有のコンテンツであると判定された記事のテキストデータから前記指定されたWebページの特徴語を抽出する特徴語抽出手段と、それぞれ語に関連付けて記憶手段に記憶された複数のコンテンツの中から、前記抽出された特徴語に関連するコンテンツを前記関連コンテンツとして選択する選択手段と、を更に備え、前記挿入手段は、前記選択された関連コンテンツを、前記指定された The invention according to claim 12, in the related content insertion device according to claim 11, wherein the specific content determination apparatus, a content constituting the specified Web page, the text data of the posts is If included, it is determined that the specific content of the text data to the Web page, the specific content determination device Web is the designated text data of articles is determined to be specific content by the page a feature word extraction means for extracting a characteristic word, from among a plurality of contents stored in the storage means in association with each word, selecting means for selecting the content associated with the extracted feature words as the related content further wherein the insertion means, a related content said it selected was the designated ebページに挿入することを特徴とする。 Characterized in that it inserted into the eb page.

この発明によれば、 記事のテキストデータにその記事特有の内容が含まれているのであれば、特有コンテンツ判定装置により記事のテキストデータを抽出することができる。 According to the invention, if containing that articles peculiar to a text data for each article, it is possible to extract the text data of each article by specific content determination device. これにより、Webページに掲載されている記事の内容に関連する情報を当該Webページに追加することができる。 As a result, it is possible to add the information related to the content of the article that has been posted on the Web page to the Web page.

本発明によれば、 他のWebページで用いられる頻度が小さいコンテンツであるほど、指定されたWebページ以外に前記複数のWebページ上にあまり出現しないコンテンツであるので、 他のWebページで用いられる頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたWebページに特有のコンテンツであると特定される。 According to the present invention, the more often a small content used in other Web pages, since on the plurality of Web pages in addition to the specified Web page is not very appear content, used in other Web pages by frequency to determine whether it is less than a predetermined value, all content satisfies the condition is identified as a content specific to the specified Web page. よって、Webページに特有のコンテンツを容易に抽出することができる。 Therefore, it is possible to easily extract the contents of the specific to the Web page.

一実施形態に係るブログシステムSの概要構成の一例を示す図である。 Is a diagram showing an example of a schematic configuration of a blog system S according to an embodiment. 一実施形態に係るブログサーバ1の概要構成の一例を示すブロック図である。 Is a block diagram showing an example of a schematic configuration of a blog server 1 according to one embodiment. ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。 Bloggers advertising content from specified in the blog page is a diagram showing the outline of the process until it is inserted. Webページの構成例を示す図である。 It is a diagram illustrating a configuration example of a Web page. HTML文書から生成されたDOMツリーの一例を示す図である。 Is a diagram illustrating an example of a DOM tree generated from the HTML document. 記憶部15に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。 Is a diagram showing an example of content of a content block correspondence information stored in the storage unit 15. 一実施形態に係るブログサーバ1のシステム制御部20の広告コンテンツ挿入処理における処理例を示すフローチャートである。 It is a flowchart showing a process example of advertising content insertion processing blog server 1 of the system control unit 20 according to the embodiment. 一実施形態に係るブログサーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。 It is a flowchart showing a process example of a page corresponding extraction process blog server 1 of the system control unit 20 according to the embodiment. 一実施形態に係るブログサーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。 It is a flowchart showing a process example of a tree search processing of the blog server 1 of the system control unit 20 according to the embodiment. 一実施形態に係るブログサーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。 It is a flowchart showing a process example of specific content block determination process of blog server 1 of the system control unit 20 according to the embodiment. 一実施形態の変形例に係るブログサーバ1のシステム制御部20のブログ更新時処理における処理例を示すフローチャートである。 It is a flowchart showing a process example of blog updating during the processing of the blog server 1 of the system control unit 20 according to a modification of the embodiment.

以下、図面を参照して本発明の実施形態について詳細に説明する。 Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail. なお、以下に説明する実施の形態は、ブログサービスを提供するブログシステムにおいて、ブログページ送信するサーバ装置に対して本発明を適用した場合の実施形態である。 Incidentally, embodiments described below, in the blog system providing a blog service, an embodiment in which the present invention is applied to a server device which transmits a blog page.

[1. [1. ブログシステムの構成及び機能概要] Configuration and function overview of the blog system]
先ず、本実施形態に係るブログシステムSの構成及び概要機能について、図1を用いて説明する。 First, a configuration and outline feature blogging system S according to the present embodiment will be described with reference to FIG.

図1は、本実施形態に係るブログシステムSの概要構成の一例を示す図である。 Figure 1 is a diagram showing an example of a schematic configuration of a blog system S according to this embodiment.

図1に示すように、ブログシステムSは、特有コンテンツ判定装置及び関連コンテンツ挿入装置の一例としてのブログサーバ1と、管理端末2と、複数のユーザ端末3と、を含んで構成されている。 As shown in FIG. 1, blogging system S includes a blog server 1 as an example of specific content determination apparatus and associated content insertion device, and the management terminal 2 is configured to include a plurality of user terminals 3, a. そして、ブログサーバ1と、各ユーザ端末3とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。 Then, the blog server 1, the user terminals 3 via a network NW, for example, which enables transmission and reception of data to each other using TCP / IP or the like communication protocols. なお、ネットワークNWは、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、及びゲートウェイ等により構築されている。 The network NW includes, for example, the Internet, a dedicated communication line (for example, CATV (Community Antenna Television) line), (including a base station, etc.) mobile communication network, and a gateway or the like. また、ブログサーバ1と管理端末2とは、LAN(Local Area Network)等のネットワークを介して接続されている。 Also, the blog server 1 and the management terminal 2 is connected via a network such as LAN (Local Area Network).

このような構成のブログシステムSにおいて、ブログサーバ1は、ユーザ端末3からのリクエストに応じて、ブログサービスサイトを構成するWebページを送信するWebサーバである。 In blogging system S having such a configuration, the blog server 1, in response to a request from the user terminal 3, a Web server to send Web pages that constitute the blog service site. ユーザ端末3を利用するユーザがブログサービスサイトのユーザ登録をすると、そのユーザは、当該ブログサービスサイトにおいてユーザ自身のブログを運営することができるようになっている。 When the user using the user terminal 3 to the user registration blog service site, the user, thereby making it possible to operate the user's own blog in the blog service site. そして、ユーザ登録されたユーザ(ブロガー)は、ブログサービスサイトにアクセスして、自己のブログを更新(ブログ記事(ブログ1件毎の記録)を追加)することができるようになっている。 Then, the user that has been registered user (blogger), go to the blog service site, so that it is possible to update its own blog (add a blog post (record of every 1 blog)). そのため、ブログサーバ1は、ブログの更新に応じて、ブログのWebページとして、1又は複数のブログ記事が掲載されるブログページを生成又は更新する。 Therefore, the blog server 1, according to the blog update, as the Web page of the blog, to create or update a blog page in which one or more of the blog post is published. そして、ブログサーバ1は、ブログページDB101を備え、ブログページを当該ブログページDB101に登録する。 Then, the blog server 1 includes a blog page DB 101, and registers the blog page on the blog page DB 101.

また、ブログサーバ1は、システム管理者により指定されたブロガーのブログページに対して、広告コンテンツ(関連コンテンツの一例)を挿入する。 Also, the blog server 1, to the blogger blog page specified by the system administrator, to insert advertising content (an example of the related content). 広告コンテンツとしては、例えば、広告文章のテキストデータ、バナーの画像データ、動画データ、Adobe Flash(商標)やSilverlight(商標)等により生成されたリッチインターネットアプリケーション(RIA)等がある。 The advertising content, for example, advertising sentence of text data, image data of the banner, the video data, there is a rich Internet application (RIA) or the like which is generated by Adobe Flash (TM) and Silverlight (trademark) or the like. 各ブログページに挿入される広告コンテンツは、対象のブログページに掲載されているブログ記事に関連する商品やサービスに関する広告を示すコンテンツである。 Advertising content to be inserted into each blog page is the content that shows advertisements for products and services related to the blog post that has been posted on the subject of the blog page. そのため、ブログサーバ1は、複数の広告コンテンツが登録されている広告DB102を備える。 Therefore, the blog server 1 includes an advertisement multiple of advertising content are registered DB102. そして、ブログサーバ1は、ブログページからブログ記事を抽出し、更にブログ記事から特徴語を抽出して、抽出した特徴語に関連する広告コンテンツを選択する。 Then, the blog server 1 extracts the blog post from the blog page, further to extract the feature words from the blog post, related to the extracted feature words to select the ad content.

ユーザ端末3は、ブロガーとしてのユーザや、ブログを閲覧するユーザにより利用される端末装置である。 The user terminal 3, and the user as a blogger is a terminal device used by a user to browse the blog. ユーザ端末3としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。 The user terminal 3, for example, a personal computer, PDA, mobile phone or the like is used.

管理端末2は、ブログシステムSのシステム管理者により使用される端末装置である。 The management terminal 2 is a terminal device used by a system administrator of the blog system S. 管理端末2としては、例えば、パーソナルコンピュータ等が用いられる。 The management terminal 2, for example, a personal computer or the like is used.

[2. [2. ブログサーバの構成及び機能] Configuration and function of the blog server]
次に、ブログサーバ1の構成及び機能について、図2を用いて説明する。 Next, the configuration and function of the blog server 1 will be described with reference to FIG.

図2は、本実施形態に係るブログサーバ1の概要構成の一例を示すブロック図である。 Figure 2 is a block diagram showing an example of a schematic configuration of a blog server 1 according to the present embodiment. また、図3は、ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。 3 is a diagram showing an outline of processing from being blogger contain up advertisement content is inserted into the blog page. また、図4は、Webページの構成例を示す図である。 4 is a diagram showing a configuration example of a Web page. また、図5は、HTML文書から生成されたDOMツリーの一例を示す図である。 Further, FIG. 5 is a diagram showing an example of a DOM tree generated from the HTML document. また、図6は、記憶部15に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。 6 is a diagram showing an example of the content of the content block correspondence information stored in the storage unit 15.

図2に示すように、ブログサーバ1は、操作部11と、表示部12と、通信部13と、ドライブ部14と、記憶手段の一例としての記憶部15と、入出力インタフェース部16と、システム制御部20と、を備えている。 As shown in FIG. 2, the blog server 1 includes an operation unit 11, a display unit 12, a communication unit 13, a drive unit 14, a storage unit 15 as an example of a storage unit, input and output interface unit 16, a system controller 20, and a. そして、システム制御部20と入出力インタフェース部16とは、システムバス21を介して接続されている。 Then, the system control unit 20 and the output interface unit 16 are connected via a system bus 21.

操作部11は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部20に出力するようになっている。 Operation unit 11 is, for example, a keyboard, which is constituted by a mouse or the like, receives an operation instruction from the system administrator or the like, and outputs to the system controller 20 the content of the instruction as an instruction signal. 表示部12は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。 Display unit 12, for example, CRT (Cathode Ray Tube) display, is constituted by a liquid crystal display or the like, and displays information such as characters and images. 通信部13は、ネットワークNW等に接続して、管理端末2、ユーザ端末3等との通信状態を制御するようになっている。 The communication unit 13 is connected to the network NW such as the management terminal 2, so as to control the communication with the user terminal 3 or the like. ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。 Drive unit 14, for example, a flexible disk, CD (Compact Disc), DVD (Digital Versatile Disc) while reading the data or the like from a disk DK such as a, so as to record data or the like on the disc DK.

記憶部15は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。 Storage unit 15, for example, is adapted to store the is constituted by a hard disk drive or the like, various programs and data, and the like. また、記憶部15には、ブログページDB101及び広告DB102が構築されている。 In addition, in the storage unit 15, a blog page DB101 and DB102 ad has been built. ブログページDB101には、ブログサービスサイトを構成する各ブログページ(ブログページのHTML文書(ドキュメントデータの一例)、ブログページの素材である画像データ等)が、例えば、そのページのURL及びブロガーの識別情報であるユーザIDに対応付けて登録されている。 The blog page DB 101, (an example of an HTML document (document data blog page), such as image data which is a material of the blog page) each blog pages constituting a blog service site, such as the identity of a URL and blogger of the page registered in association with the user ID is information. 広告DB102には、複数の広告コンテンツが、その広告コンテンツによる広告対象の商品やサービスに関連するキーワードに対応付けて登録されている。 The ad DB102, a plurality of advertising content, are registered in association with the keyword related to the products and services advertised by the advertising content. ここで、広告コンテンツにテキストデータ以外のコンテンツが含まれている場合には、当該コンテンツのURLも対応付けて登録されている。 Here, if it contains non-text content data to the advertisement content, it is also registered in association URL of the content. また、ブログページ上に表示された広告コンテンツをユーザが選択したときに広告対象の商品やサービスに関するWebページに移動するため、当該WebページのURLも対応付けて登録されている。 In addition, in order to go to the Web page related to products and services of the advertising target advertising content that is displayed on the blog page when the user has selected, it has been registered in association also URL of the Web page.

入出力インタフェース部16は、操作部11〜記憶部15とシステム制御部20との間のインタフェース処理を行うようになっている。 Output interface unit 16 is configured to perform interface processing between the operation unit 11 to the storage unit 15 and the system controller 20. システム制御部20は、CPU(Central Processing Unit)17、ROM(Read Only Memory)18、RAM(Random Access Memory)19等により構成されている。 The system control unit 20 is constituted by a CPU (Central Processing Unit) 17, ROM (Read Only Memory) 18, RAM (Random Access Memory) 19 or the like.

システム制御部20は、CPU17が、ROM18や記憶部15に記憶された各種プログラムを読み出し実行することによりブログサーバ1の各部を制御する。 The system control unit 20, CPU 17 controls each unit of the blog server 1 by reading and executing various programs stored in the ROM18 and the storage unit 15. また、システム制御部20は、広告コンテンツ挿入ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び挿入手段として機能する。 The system control unit 20 executes the advertisement content insertion software (one example of a specific content determination program), extraction means, calculating means, functions as determination means and insertion means. なお、広告コンテンツ挿入ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD−ROM等のディスクDKに記録されてドライブ部14を介して読み込まれるようにしても良い。 Note that advertising content insertion software, etc., for example, it may be acquired via the network NW from another server device or the like, via the drive unit 14 is recorded on the disk DK such as a CD-ROM loaded it may be is.

広告コンテンツ挿入ソフトウェアは、ブログページに広告コンテンツを挿入するためのプログラムである。 Advertising content insertion software is a program for inserting advertising content to your blog page. 図3に示すように、広告コンテンツ挿入ソフトウェアは、マネージャ部、素材抽出エンジン、文章解析エンジン、広告選択部等により構成されている。 As shown in FIG. 3, the advertising content insertion software manager unit, material extraction engine, text analysis engine is constituted by advertisement selection unit, and the like. マネージャ部は、素材抽出エンジン、文章解析エンジン及び広告選択部の実行を制御する。 Manager unit controls the material extraction engine, the execution of the text analysis engine and advertisement selection unit. 素材抽出エンジンは、ブログページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、ブログページ特有のコンテンツを判定するためのソフトウェアである。 Material extraction engine, as well as to extract the contents of the Web as a material from the HTML document of the blog page is a software for determining the specific blog page content. コンテンツの抽出は、後述のコンテンツブロック(コンテンツグループの一例)の単位で行われる。 Content extraction is performed in units below the content blocks (an example of a content group). 本実施形態においては、例えば、その記事特有の内容を含むブログ記事が、ブログページに特有のコンテンツブロックに相当する。 In the present embodiment, for example, posts including the post-specific content corresponds to specific content blocks blog page.

文章解析エンジンは、ブログページ特有のコンテンツとして抽出されたブログ記事から当該ブログページの特徴語を抽出するためのソフトウェアである。 Text analysis engine is a software for extracting characteristic words of the blog page from the blog post that has been extracted as a specific blog page content. 広告選択部は、抽出された特徴語をキーワードとして、ブログページに関連する広告コンテンツを選択するためのソフトウェアである。 Advertisement selection unit, as a keyword extracted feature words, is a software for selecting the advertising content related to the blog page.

以下に、広告コンテンツの挿入の概要について説明する。 The following is a brief overview of the insertion of advertising content. 図3に示すように、システム管理者により対象のブロガーのユーザIDが指定される(1)。 As shown in FIG. 3, the user ID of the blogger is designated by the system administrator (1). すると、システム制御部20は、指定されたユーザIDに対応する全ブログページのHTML文書をブログページDB101から取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。 Then, the system control unit 20, an HTML document of all blogs page corresponding to the specified user ID and analyzes obtained from the blog page DB 101, extracts the Web material serving content in the content block. そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を生成する(2)。 Then, as a extraction result, it generates the extracted content content block correspondence information for each block (one example of a content information) (2). 次いで、システム制御部20は、抽出した各コンテンツブロックの、指定されたユーザIDに対応する全ブログページにおける出現頻度を計算する。 Next, the system control unit 20 of the extracted each content block, calculates the appearance frequency in all blog page corresponding to the specified user ID. 本実施形態において計算される出現頻度は、例えば、出現回数(度数)である。 Appearance frequency calculated in the present embodiment, for example, a number of occurrences (frequency). そして、システム制御部20は、各ブログページにおいて、出現頻度が所定の閾値以下であるコンテンツブロックを、そのブログページ特有のコンテンツブロックであると判定する(3)。 Then, the system control unit 20 determines that the each blog page, the content block frequency is equal to or less than the predetermined threshold value, which is the blog page-specific content block (3).

システム制御部20は、特有のコンテンツブロックであると判定したコンテンツブロック、すなわち、ブログ記事に対して形態素解析等の分析を行って、ブロックページ毎の特徴語を抽出する(4)。 The system control unit 20, the content block is determined that the specific content block, i.e., after analysis, such as morphological analysis on posts, extracts a characteristic word of each block page (4). 特徴語の抽出方法としては、種々の方法があり、また公知であるので、詳細な説明は省略する。 The method of extracting the feature words, there are various ways and is a known, detailed description thereof will be omitted. 一例としては、出現頻度の最も高い単語を特徴語とする。 As an example, the characteristic word having the highest word frequency.

次いで、システム制御部20は、広告DB102を参照し、抽出した特徴語に関連する広告コンテンツを選択する(5)。 Next, the system control unit 20 refers to the advertisement DB 102, associated with the extracted feature word to select the advertisement content (5). そして、システム制御部20は、選択した広告コンテンツをブログページに挿入して表示させるための規定(タグやデータそのものの記述等)を、ブログページのHTML文書に挿入する(6)。 Then, the system control unit 20, the provisions for displaying insert the advertising content selected blog page (description of the tag and data itself, etc.) is inserted into the HTML document blog page (6).

次に、コンテンツブロックの抽出方法について説明する。 Next, a method extracting the content blocks is described. なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。 In the present embodiment, it is assumed that the text data and the image data is extracted as a Web material.

例えば、ブログページの構成(レイアウト)が図4に示すようなものであるとする。 For example, construction of the blog page (layout) is assumed to be those shown in FIG. Web素材としての各コンテンツは、ブログページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。 Each content as a Web material, on the blog page, are displayed for each a certain unity, respectively (mass). その各まとまりがコンテンツブロックに相当する。 As each chunk corresponds to a content block. 各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。 Each content (one example of predetermined tags) DIV tags and TABLE tag described in the HTML document is divided into each content block by. つまり、各コンテンツは、DIVタグ及びTABLEタグ(以下、「ブロック化タグ」という)によりブロック化(グループ化)される。 That is, each content, DIV tag and TABLE tag (hereinafter, referred to as "blocked tag") is blocked (grouping) by.

図4には、コンテンツブロック301〜306が表示されている。 4, the content blocks 301 to 306 are displayed. コンテンツブロック301は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。 Content block 301 is, for example, a content block in the header portion of the page, is constituted by the text A and the image a. また、コンテンツブロック302は、例えば、各種カテゴリの商品に関するWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。 The content block 302 is, for example, a content block in the navigation portion to move to a Web page about products of different categories, for example, composed of text B, text C and the text D showing a link to another Web page It is. また、コンテンツブロック303は、例えば、ブログの表示領域に対応するコンテンツブロックであり、ブログ等の見出しを示すテキストE、コンテンツブロック304及びコンテンツブロック305により構成されいている。 The content block 303 is, for example, a content block corresponding to the display area of ​​the blog, which have been configured by text E, the content block 304 and the content block 305 indicating the heading of blogs. このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。 Thus, the content block is nested, that is, there are also cases where a hierarchical structure. この場合、コンテンツブロック303に含まれるコンテンツはテキストEのみとされ、コンテンツブロック304及びコンテンツブロック305は、コンテンツブロック303から独立しているものとされる。 In this case, the content included in the content block 303 is the only text E, content blocks 304 and content block 305 is assumed to be independent of the content block 303. コンテンツブロック304及び305は、夫々1件のブログ記事である。 Content blocks 304 and 305 is a blog post of respectively 1. コンテンツブロック304には、ブログ記事の表題や本文を示すテキストF及びGにより構成されている。 The content block 304 is constituted by the text F and G indicate the title and body of the blog posts. コンテンツブロック305には、ブログ記事の表題や本文を示すテキストH、I及びJと、ブログ記事に関連してブロガーにより登録された画像b及びcとにより構成されている。 The content blocks 305 are configured text H indicating the title and body of the posts, and I and J, the image b, and c, which are registered by the blogger in connection with posts. コンテンツブロック306は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。 Content block 306 is, for example, a content block showing a copyright notice, and is composed of text I.

これらのコンテンツブロックのうち、コンテンツブロック301、302、303及び306は、図4に示すブログページ以外のブログページ上でも比較的頻繁に現れる。 Among these content block, the content block 301, 302, 303 and 306, appear relatively frequently also on the blog page other than blog page shown in Figure 4. 一方、コンテンツブロック304及びコンテンツブロック305は、基本的に当該ブログページにだけに用いられる。 On the other hand, the content block 304 and the content block 305 is used only to essentially the blog page. よって、コンテンツブロック304又はコンテンツブロック305が、当該ブログページ特有のコンテンツブロックであると判断されることとなる。 Therefore, the content block 304 or the content block 305, and thus it is determined that the corresponding blog page specific content blocks.

本実施形態においては、その記事特有の内容を含むブログ記事に相当するコンテンツブロックを特有のコンテンツブロックと判定されるようにする必要がある。 In the present embodiment, it is necessary to make the content block corresponding to posts including the post-specific content to be determined specific content blocks. こうした特有の内容を含むブログ記事は、1ページ内に複数含まれている場合がある。 Blog articles that contain these specific content, there is a case that contains more than one in one page. そのため、出現頻度が所定の閾値以下であるコンテンツブロックは、全て特有のコンテンツブロックとされる。 Therefore, the content block frequency is equal to or less than the predetermined threshold value, all are specific content blocks. 例えば、閾値の値を1回に設定する。 For example, to set the value of the threshold at a time. そうすると、特有の内容を含むブログ記事は、特有のコンテンツブロックと判定され、他のブログ記事と同じような内容のみを含むブログ記事は、特有のコンテンツブロックとは判定されない。 Then, blog post, including the specific content, it is determined that the specific content block, blog post containing only the same kind of content as the other blog post is not determined to be a specific content block. また、ヘッダ部分、ナビゲーション部分、コピーライト表示部分等の各ブログページに共通するようなコンテンツブロックの出現頻度は夫々2回以上となるので、これらも特有のコンテンツブロックとは判定されない。 The header portion, navigation portion, since the occurrence frequency of the content block as common to each blog page, such as copyright display portion becomes respectively two or more, they are also not determined that the specific content blocks. なお、閾値は記憶部15に予め記憶される。 The threshold is stored in storage 15.

図4に示すブログページのHTML文書をDOM(Document Object Model)ツリー、すなわち、木構造で表したものが図5である。 Figure 4 an HTML document blog page shown in DOM (Document Object Model) tree, i.e., those expressed by the tree structure is a FIG. なお、図5に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。 Note that in the DOM tree shown in FIG. 5, illustration of the tag of the node is not necessary to the description of the present embodiment are omitted.

DOMツリーにおいては、DIVタグを示すDIVノード及びTABLEタグを示すTABLEノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる(以下、「ブロック化ノード」という)。 In the DOM tree, TABLE node indicating a DIV node and TABLE tag indicating the DIV tag is a node to block for each content in the content block (hereinafter, referred to as "blocked nodes"). システム制御部20は、例えば、深さ優先探索によりDOMツリーを探索し、コンテンツブロックを確定していく。 The system control unit 20 is, for example, to search the DOM tree by depth-first search, go to confirm the content block. 具体的に、システム制御部20は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。 Specifically, the system control unit 20, upon finding the blocking node, and the content block content, which is defined in each node of the subtree whose vertices the node as a block. ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード(以下、「上位のブロック化ノード」という)を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード(以下、「下位のブロック化ノード」という)を発見すると、コンテンツブロックが分割される。 However, as a result of the content blocks are hierarchically defined, certain block of nodes (hereinafter, referred to as "blocking an upper node") was discovered, further blocked nodes from the node descendants of the blocking node (hereinafter, referred to as "lower blocking node") if it finds the content block is divided. 例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木(以下、「上位部分木」という)に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木(以下、「下位部分木」という)に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける(例えば、コンテンツブロック304とコンテンツブロック303)。 For example, when the distance from the root node is assumed to be higher node Hierarchical closer node subtree whose vertices blocking higher node (hereinafter, referred to as "upper subtree") content block corresponding to, lower branch (hereinafter, referred to as "lower subtree") whose vertices are blocked nodes divided content blocks corresponding to, in a content block corresponding to a portion except for the lower subtree of the top branch (e.g., content block 304 and the content block 303). この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。 In this case, the former content block shall be hierarchically in lower than the latter content blocks. 例えば、コンテンツブロック301、302、303及び306の階層は1であり、コンテンツブロック304及び305の階層は2である。 For example, the hierarchy of content blocks 301, 302, 303 and 306 is 1, the hierarchy of content blocks 304 and 305 is two. つまり、階層の値が小さいほど階層的により上位となる。 That is, the upper Hierarchical as the value of the hierarchy is less.

これを、HTML文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。 This will be described in the description of the tag of the HTML document, if basically blocked tag is described, the contents defined in the range between the blocking tag is described, together the block is a content blocks corresponding to Formula tag. ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。 However, if the blocking tags are hierarchically described are among the contents defined in the range between a certain blocking tag is described, it is described in the lower than the blocking tag block of defined range between a tag excluding the content being described, it is collectively content block corresponding to the block of the tag.

このようにしてコンテンツブロックを抽出すると、システム制御部20は、抽出結果を示すコンテンツブロック対応情報を一時的に記憶部15に保存する。 In this manner, when extracting the content block, the system control unit 20 stores the extraction result temporarily in the storage unit 15 the content block correspondence information indicating a. 図6に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に保存される。 As shown in FIG. 6, the content block correspondence information (reference numeral 401) is stored for each content block. コンテンツブロック対応情報には、抽出元のHTML文書のURL設定部分(符号402)とブロック構成情報(符号403)とにより構成されている。 The content block correspondence information is constituted by a URL settings portion of the extraction source of the HTML document (reference numeral 402) and the block configuration information (reference numeral 403). ブロック構成情報には、抽出された各コンテンツが設定される。 The block configuration information, each content extracted is set. ここで、テキストデータについては、DOMツリーにおけるテキストノードの内容が設定される。 Here, the text data, the contents of the text node in the DOM tree is set. 一方、画像データについては、画像データそのものの代わりとして、DOMツリーにおいてIMGタグを示すIMGノードのsrc属性としての画像データのURLが設定される。 On the other hand, the image data, as an alternative to the image data itself, URL of the image data as the src attribute of the IMG node indicating an IMG tag in the DOM tree is set. なお、本実施形態においては、ブログページ特有のコンテンツブロックであると判定されたコンテンツブロック、すなわち、ブログ記事から特徴語を抽出するので、テキストデータが抽出されれば良く、画像データについては抽出しなくても良い。 In the present embodiment, the blog page judgment content blocks to be characteristic of the content block, i.e., the extracted feature words from the posts, it is sufficient text data is extracted, the image data is extracted may or may not.

[3. [3. ブログシステムの動作] The operation of the blog system]
次に、ブログシステムSの動作について、図7乃至図10を用いて説明する。 Next, the operation of the blog system S, is described with reference to FIGS. 7-10.

図7は、本実施形態に係るブログサーバ1のシステム制御部20の広告コンテンツ挿入処理における処理例を示すフローチャートである。 Figure 7 is a flowchart showing a process example of advertising content insertion processing blog server 1 of the system control unit 20 according to the present embodiment.

広告コンテンツ挿入処理は、例えば、システム管理者の操作に基づいて管理端末2から広告コンテンツ挿入処理の実行のリクエストが送信されてきたときに開始される。 Advertising content insertion process, for example, request execution from the management terminal 2 of the advertisement content insertion process based on the operation of the system administrator is initiated when sent.

そして、システム管理者が広告コンテンツの挿入対象とするブログを運営するブロガーのユーザIDを指定すると、図7に示すように、システム制御部20は、指定されたユーザIDを管理端末2から受信する(ステップS1)。 Then, the system administrator specifies the user ID bloggers to operate a blog to be inserted the ad content, as shown in FIG. 7, the system control unit 20 receives the specified user ID from the management terminal 2 (step S1).

次いで、システム制御部20は、ブロック数NUMに0を設定する(ステップS2)。 Next, the system control unit 20 sets 0 to the number of blocks NUM (step S2). ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。 The number of blocks NUM is the number of the discovered content block at the moment. また、NUMはグローバル変数であり、後述する1ページ対応抽出処理及びツリー探索処理からアクセスが可能である。 Moreover, NUM is a global variable can be accessed from a page corresponding extraction process and the tree search processing will be described later.

次いで、システム制御部20は、受信したユーザIDに対応する最初のブログページのHTML文書をブログページDB101から取得する(ステップS3)。 Next, the system control unit 20 acquires the HTML document of the first blog page corresponding to the user ID received from the blog page DB 101 (step S3). 次いで、システム制御部20は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS4)。 Next, the system control unit 20 designates the HTML document acquired, executes later-described 1 pages extraction process (step S4). この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が保存される。 This 1 pages extraction process, the content blocks are extracted from the acquired HTML document, the content block correspondence information is stored.

次いで、システム制御部20は、受信したユーザIDに対応する全てのブログページのコンテンツブロックを抽出したか否かを判定する(ステップS5)。 Next, the system control unit 20 determines whether or not to extract the content block all blog page corresponding to the received user ID (step S5). このとき、システム制御部20は、コンテンツブロックを抽出していないブログページが存在する場合には(ステップS5:NO)、次のブログページのHTML文書をブログページDB101から取得して(ステップS6)、ステップS4に移行する。 At this time, the system controller 20, if the blog page that does not extract the content block is present (step S5: NO), obtains the HTML document of the next blog page from a blog page DB 101 (step S6) , the process proceeds to step S4. そして、システム制御部20は、ステップS4〜S6の処理を繰り返して全てのブログページのコンテンツブロックを抽出すると(ステップS5:YES)、ステップS7に移行する。 Then, the system control section 20 extracts the content block all blog page repeats the processing of steps S4 to S6 (step S5: YES), the process proceeds to step S7.

ステップS7において、システム制御部20は、受信したユーザIDに対応する最初のブログページのHTML文書を特定する。 In step S7, the system controller 20 determines the HTML document of the first blog page corresponding to the received user ID.

次いで、システム制御部20は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS8)。 Next, the system control unit 20 designates the HTML document acquired, to perform specific content block determination process described later (step S8). この特有コンテンツブロック判定処理では、特定したHTML文書からコンテンツブロックが抽出され、ブログページ特有のコンテンツブロックが判定される。 In this specific content block determination process, the content blocks from the specified HTML document is extracted, blog page specific content block is determined.

次いで、システム制御部20は、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS9)。 Next, the system control unit 20 extracts a characteristic word blog page from the text data constituting the content blocks judged as unique (step S9). 次いで、システム制御部20は、抽出した特徴語に基づいて、ブログページに関連する広告ページを当該ブログページに挿入する(ステップS10)。 Next, the system control unit 20 based on the extracted feature words, to insert the advertisement page associated with the blog page on the blog page (step S10). 具体的に、システム制御部20は、抽出した特徴語をキーワードとし、広告DB102に参照して当該キーワードに対応する広告コンテンツを選択する。 Specifically, the system control unit 20, the extracted feature words as keywords, with reference to the advertisement DB102 corresponding to the keyword selected advertising content. 次いで、システム制御部20は、特定したHTML文書上の所定の位置に、選択した広告コンテンツの規定を挿入する。 Next, the system control unit 20 in place on the specified HTML document, inserts the prescribed for the selected advertising content. 例えば、システム制御部20は、広告コンテンツにテキストデータが含まれている場合には、当該テキストデータの内容をHTML文書に追加する。 For example, the system controller 20, if it contains text data to the advertisement content, add the content of the text data in an HTML document. また、例えば、システム制御部20は、広告コンテンツに画像データが含まれている場合には、当該画像データを表示するためのIMGタグをHTML文書に追加する。 Further, for example, the system controller 20, when the image data is included in the advertisement content, add a IMG tag for displaying the image data in the HTML document. また、例えば、システム制御部20は、広告対象の商品やサービスに関するWebページへのリンク情報をHTML文書に追加する。 In addition, for example, the system control unit 20, to add a link information to a Web page about the product or service advertised in the HTML document.

システム制御部20は、特定したHTML文書に広告コンテンツの規定を挿入すると、当該HTML文書で、ブログページDB101に登録されているHTML文書を更新する(ステップS11)。 The system control unit 20, inserting a prescribed advertising content to the specified HTML document, in the HTML document, to update the HTML document registered in the blog page DB 101 (step S11).

次いで、システム制御部20は、受信したユーザIDに対応する全てのブログページに広告コンテンツを挿入したか否かを判定する(ステップS12)。 Next, the system control unit 20 determines whether or not to insert the advertisement content to all blog page corresponding to the received user ID (step S12). このとき、システム制御部20は、広告コンテンツを挿入していないブログページが存在する場合には(ステップS12:NO)、次のブログページのHTML文書を特定して(ステップS13)、ステップS8に移行する。 At this time, the system controller 20, if present blog pages not insert the advertisement contents (step S12: NO), identifies the HTML document of the next blog page (step S13), and the step S8 Transition. そして、システム制御部20は、ステップS8〜S13の処理を繰り返して全てのブログページに広告コンテンツを挿入すると(ステップS12:YES)、記憶部15に保存させておいた全てのコンテンツブロック対応情報を、記憶部15から削除する(ステップS14)。 Then, the system control unit 20, when inserting an advertisement content into all blog page repeats the processing of step S8~S13 (Step S12: YES), all the content block correspondence information which had been stored in the storage unit 15 It is deleted from the storage unit 15 (step S14). システム制御部20は、この処理を終えると、広告コンテンツ挿入処理を終了させる。 The system control unit 20, this process is finished, terminate the advertisement content insertion process.

図8は、本実施形態に係るブログサーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。 Figure 8 is a flowchart showing a process example of a page corresponding extraction process of the system control unit 20 of the blog server 1 according to the present embodiment.

図8に示すように、システム制御部20は、先ず、取得したHTML文書のDOMツリーをRAM19上に生成する(ステップS21)。 As shown in FIG. 8, the system control unit 20 first generates a DOM tree of the acquired HTML document on RAM 19 (step S21).

次いで、システム制御部20は、階層LVに0を設定する(ステップS22)。 Next, the system control unit 20 sets 0 to the hierarchical LV (step S22). 階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。 Hierarchical LV is a hierarchy of content blocks nodes presently searched belongs in the DOM tree. LVはグローバル変数であり、1ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。 LV is a global variable can be accessed from a page corresponding extraction process and the tree search processing described later.

次いで、システム制御部20は、DOMツリーのルートノードを指定して(ステップS23)、ツリー探索処理を実行する(ステップS24)。 Next, the system control unit 20 designates the root node of the DOM tree (step S23), and executes a tree search processing (step S24). ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Webページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。 Tree search processing is capable of recursion, this tree search processing, all the content blocks are extracted from the Web page, the content block correspondence information is generated.

次いで、システム制御部20は、ツリー探索処理により生成された各コンテンツブロック対応情報を記憶部15に保存する(ステップS25)。 Next, the system control unit 20 stores each content block correspondence information generated by the tree search processing in the storage unit 15 (step S25). システム制御部20は、この処理を終えると、1ページ対応抽出処理を終了させる。 The system control unit 20, this process is finished, terminate the 1 pages extraction process.

図9は、本実施形態に係るブログサーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。 Figure 9 is a flowchart showing a process example of tree search process of the system control unit 20 of the blog server 1 according to the present embodiment.

図9に示すように、システム制御部20は、先ず、指定されたノードの種類を判定する(ステップS31)。 As shown in FIG. 9, the system control unit 20 first determines the type of the specified node (step S31). このとき、システム制御部20は、指定されたノードの種類が、DIVノード又はTABLEノード(ブロック化ノード)である場合には、すなわち、コンテンツブロックが発見された場合には(ステップS31:DIV又はTABLE)、ステップS32に移行する。 At this time, the system controller 20, the type of the specified node, if it is DIV node or TABLE node (blocked node), i.e., if the content block is found (step S31: DIV or TABLE), the process proceeds to step S32.

ステップS32において、システム制御部20は、ブロック数NUMに1を加算するとともに、階層LVに1を加算する。 In step S32, the system control unit 20 then adds 1 to the number of blocks NUM, adds 1 to the hierarchy LV. 次いで、システム制御部20は、ブロック番号BN[LV]にNUMを設定する(ステップS33)。 Next, the system control unit 20 sets the NUM to the block number BN [LV] (step S33). ブロック番号BN[LV]は、現在探索中のノードが属する階層LVで示されるコンテンツブロックのブロック番号である。 Block number BN [LV] is a block number of the content block nodes presently searched is indicated by belonging hierarchy LV. このブロック番号は、コンテンツブロックの発見順に付与される。 The block number is given to the discovery order of the content block. また、BN[LV]は、グローバル変数である。 In addition, BN [LV] is a global variable.

次いで、システム制御部20は、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する(ステップS34)。 Next, the system control unit 20 initializes the content block correspondence information corresponding to the content block in the block number BN [LV] (step S34). 具体的に、システム制御部20は、コンテンツブロック対応情報を格納する領域をRAM19上に設定し、取得したHTML文書のURLを、当該領域に設定する。 Specifically, the system control unit 20 sets an area for storing the content block correspondence information on RAM 19, the URL of the acquired HTML document is set to the region.

次いで、システム制御部20は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS35)。 Next, the system control unit 20, among the child nodes of the specified node, determines whether a child node that has not yet been searched is present (step S35). このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS35:YES)、ステップS36に移行する。 At this time, the system controller 20, if the child node that has not yet been searched is present (step S35: YES), the process proceeds to step S36.

ステップS36において、システム制御部20は、探索されていない子ノードのうちの1つの子ノードを指定して、ツリー探索処理を実行する(ステップS37)。 In step S36, the system controller 20 designates one child node of the child node that has not been searched, executes the tree search processing (step S37). システム制御部20は、ツリー探索処理を終えると、ステップS35に移行する。 The system control unit 20, when completing the tree search processing, the process proceeds to step S35.

そして、システム制御部20は、ステップS35〜S37の処理を繰り返して全ての子ノードのツリー探索処理を終えると(ステップS35:NO)、ステップS38に移行する。 Then, the system control unit 20, when completing the tree search processing of all the child nodes by repeating the processing of steps S35 to S37 (Step S35: NO), the process proceeds to step S38. なお、システム制御部20は、指定されたノードの子ノードが1つも存在しない場合にも、ステップS38に移行する。 Incidentally, the system control unit 20, even when the child nodes of the specified node is not present one, the process proceeds to step S38. ステップS38において、システム制御部20は、階層LVから1を減算して、ツリー探索処理を終了させる。 In step S38, the system control unit 20 subtracts 1 from the hierarchy LV, to terminate the tree search processing.

ステップS31において、システム制御部20は、指定されたノードの種類がテキストノードである場合には(ステップS31:テキスト)、指定されたノードの内容(テキストデータ)を、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS39)。 In step S31, the system controller 20, when the type of the specified node is a text node: a (step S31 text), the content of the specified node (text data), block number BN [LV] Add set to block information in the content block correspondence information corresponding to the content block (step S39). システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。 The system control unit 20, this process is finished, and terminates the tree search processing.

ステップS31において、システム制御部20は、指定されたノードの種類がIMGノードである場合には(ステップS31:IMG)、指定されたノードのsrc属性として設定されている画像データのURLを取得し、取得したURLを、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS40)。 In step S31, the system controller 20, when the type of the specified node is a IMG node (Step S31: IMG), to obtain the URL of the image data that has been set as the src attribute of the specified node , the obtained URL, and additional configuration block configuration information in the content block correspondence information corresponding to the content block in the block number BN [LV] (step S40). システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。 The system control unit 20, this process is finished, and terminates the tree search processing.

ステップS31において、システム制御部20は、指定されたノードの種類が、DIVノード、TABLEノード、テキストノード、及びIMGノードの何れでもない場合には(ステップS31:その他)、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS41)。 In step S31, the system controller 20, the type of the specified node, DIV node, TABLE node, a text node, and if none of the IMG node (step S31: other), the children of the specified node of the nodes determines whether a child node that has not yet been searched is present (step S41). このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS41:YES)、探索されていない子ノードのうちの1つの子ノードを指定して(ステップS42)、ツリー探索処理を実行する(ステップS43)。 At this time, the system controller 20, if the child node that has not yet been searched is present (step S41: YES), by specifying one child node of the child node that has not been searched (Step S42) It performs tree search (step S43). システム制御部20は、ツリー探索処理を終えると、ステップS41に移行する。 The system control unit 20, when completing the tree search processing, the process proceeds to step S41.

一方、システム制御部20は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが1つも存在しない場合には(ステップS41:NO)、ツリー探索処理を終了させる。 On the other hand, the system controller 20, in a case when completing the tree search processing of all the child nodes of the specified node, or a child node of the specified node is not present one (step S41: NO), to terminate the tree search process.

図10は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。 Figure 10 is a flowchart showing a process example of specific content block determination processing of the content generating server 1 of the system control unit 20 according to the present embodiment.

図10に示すように、システム制御部20は、先ず、1ページ対応抽出処理と同様に、指定されたHTML文書のDOMツリー生成(ステップS61)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS62)、DOMツリーのルートノードを指定して(ステップS63)、ツリー探索処理を実行する(ステップS64)。 As shown in FIG. 10, the system control unit 20, first, similarly to the first page corresponding extraction, DOM tree generation (step S61) of the specified HTML documents, setting 0 to the block number NUM and hierarchy LV was carried out (step S62), and specifies the root node of the DOM tree (step S63), it executes a tree search processing (step S64).

次いで、システム制御部20は、ブロック番号iに1を設定する(ステップS65)。 Next, the system control unit 20 sets 1 to the block number i (step S65). 次いで、システム制御部20は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS66)。 Next, the system control unit 20 calculates the frequency of occurrence of content blocks in the block number i (step S66).

具体的に、システム制御部20は、ステップS64のツリー探索処理において生成されたコンテンツブロック対応情報i(ブロック番号iのコンテンツブロックに対応するコンテンツブロック対応情報)のブロック構成情報と、記憶部15に保存されている各コンテンツブロック対応情報のブロック構成情報とを比較する。 Specifically, the system control unit 20 includes a block configuration information of the generated content block correspondence information i (content block correspondence information corresponding to the content block in the block number i) in the tree search processing step S64, the storage unit 15 comparing the block configuration information of each content block correspondence information stored. このとき、システム制御部20は、ブロック構成情報の内容が一致する場合には、出現回数1回としてカウントする。 At this time, the system control unit 20 if the contents of a block configuration information match counts as the appearance count once. このとき、システム制御部20は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。 At this time, the system control unit 20 may ignore the defined order of the content in the block configuration information. また、システム制御部20は、記憶部15に保存されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報iのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数1回としてカウントしても良い。 The system control unit 20, the whole part of the content specified in the block configuration information of a content block correspondence information stored in the storage unit 15 is defined in the block configuration information of a content block correspondence information i also the case that matches the content, may be counted as the number of occurrences once. 更に、システム制御部20は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。 Furthermore, the system controller 20, when comparing the text data with each other is defined in the block configuration information of a content block correspondence information, than to determine whether the sentence or the like itself indicating the text data are matched no it may be compared with substantive content being expressed by the sentence or the like. 例えば、システム制御部20は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。 For example, the system control unit 20 extracts a word from the text data by performing the morphological analysis or the like of the text data of respective extracted words to each other may be compared. そして、システム制御部20は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。 Then, the system control unit 20 may be determined that the text data with each other coincides with the case where all the words match, determines that the text data with each other matches if the word matches a predetermined ratio or more and it may be. システム制御部20は、このようにしてコンテンツブロック対応情報iのブロック構成情報と、記憶部15に保存されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。 The system control unit 20 includes a block configuration information of a content block correspondence information i in this manner, by comparing the block configuration information of all the content block correspondence information stored in the storage unit 15, calculates the frequency of occurrence .

システム制御部20は、出現頻度を計算すると、計算した出現頻度が、記憶部15に記憶されている閾値以下であるか否かを判定する(ステップS67)。 The system control unit 20 determines when to calculate the occurrence frequency, calculated occurrence frequency, whether a threshold value or less that is stored in the storage unit 15 (step S67). このとき、システム制御部20は、出現頻度が閾値以下である場合には(ステップS67:YES)、ブロック番号iのコンテンツブロックを、特有のコンテンツブロックの1つであると判定する(ステップS68)。 At this time, the system controller 20, if occurrence frequency is equal to or less than the threshold: determining (step S67 YES), the content block of the block number i, which is one of the specific content blocks (step S68) . つまり、システム制御部20は、ブロック番号iのコンテンツブロックを、指定されたHTML文書が対応するブログページに特有のコンテンツブロックに加える。 That is, the system control unit 20, the content block of the block number i, added to the specific content block to the specified HTML document corresponding blog page.

システム制御部20は、出現頻度が閾値よりも大きい場合(ステップS67:NO)、又は、ステップS68の処理を終えた場合には、ブロック番号iに1を加算して(ステップS69)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS70)。 The system control unit 20, if the occurrence frequency is greater than the threshold (step S67: NO), or, in the case of finishing the process of step S68, 1 is added to the block number i (step S69), the block number i is equal to or greater than the value of the number of blocks NUM (step S70). このとき、システム制御部20は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS70:NO)、ステップS66に移行する。 At this time, the system control unit 20, when the block number i is less than or equal to the value of the number of blocks NUM (step S70: NO), the process proceeds to step S66. そして、システム制御部20は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS70:YES)、特有コンテンツブロック判定処理を終了させる。 Then, the system control section 20 calculates the frequency of appearance of all the content blocks extracted in the tree search processing (step S70: YES), terminates the specific content block determination process.

なお、システム制御部20は、ステップS64のツリー探索処理によりコンテンツブロックを抽出していたが、広告コンテンツ挿入処理から実行された1ページ対応抽出処理(図7ステップS4)において、受信したブロガーのユーザIDに対応する全てのブログページについてコンテンツブロックが抽出され、その結果としてコンテンツブロック対応情報が記憶部15に記憶されているので、再度コンテンツブロックを抽出しなくても良い。 Incidentally, the system control unit 20, which had been extracted content blocks by tree search processing in step S64, the advertising content insertion process 1 pages is performed from the extraction process (FIG. 7 step S4), and blogger received user for content blocks all blog page is extracted that corresponds to the ID, since the content block correspondence information as a result is stored in the storage unit 15, it may not be extracted again content block. その場合には、指定されたHTML文書のURLに基づいて、当該HTML文書が対応するブログページを構成する各コンテンツブロックのコンテンツブロック対応情報を記憶部15から取得することができる。 In that case, it may be based on the URL of the specified HTML document, and acquires the content block correspondence information of each content block to which the HTML document constituting the corresponding blog page from the storage unit 15.

[4. [4. 変形例1] Modification 1]
次に、本実施形態の変形例について、図11を用いて説明する。 Next, a modified example of the present embodiment will be described with reference to FIG. 11.

これまでの説明においては、システム管理者によりブロガーが指定されたときに、指定されたブロガーのブログページに広告コンテンツを挿入していたが、ブログが更新されたタイミングで広告コンテンツを挿入しても良い。 In the description of the past, when the blogger is specified by the system administrator, had been inserted into the advertising content in the blog page of the specified bloggers, be inserted into the ad content in a blog has been updated timing good.

図11は、本実施形態の変形例に係るブログサーバ1のシステム制御部20のブログ更新時処理における処理例を示すフローチャートである。 Figure 11 is a flowchart showing a process example of blog updating during the processing of the blog server 1 of the system control unit 20 according to a modification of the present embodiment. なお、図11において、図7と同様の処理については同様のステップ番号を付してある。 Incidentally, in FIG. 11 are denoted by the same step numbers are given to the same processing as FIG.

先ず、ブログの更新に先立ち、ブロガーは、ユーザ端末3を操作してブログサービスサイトにアクセスし、自身のユーザIDとパスワードとを入力することによりブログサービスサイトにログインする。 First, prior to the blog update, bloggers, and access to the blog service site by operating the user terminal 3, to log in to the blog service site by entering the own user ID and password. このログインにより、ブログサーバ1はユーザ端末3に対してセッションIDを発行し、セッションIDとユーザIDとを対応付けて管理する。 This log, blog server 1 issues a session ID to the user terminal 3 is managed in association with the session ID and the user ID. ユーザ端末3からブログサーバ1へのリクエストにはセッションIDが含まれているので、ブログサーバ1は、どのブロガーからのリクエストであるかを特定することができる。 Since the request from the user terminal 3 to the blog server 1 contains session ID, the blog server 1 can identify whether the request from any bloggers.

そして、ブロガーが新しいブログ記事の登録操作を行うと、ユーザ端末3は、ブログ記事のデータ(表題や本文等のテキストデータ、画像データ等)をブログサーバ1に送信し、図11に示すように、ブログサーバ1のシステム制御部20は、ブログ記事のデータを受信する(ステップS71)。 When the blogger perform registration operation of the new posts, the user terminal 3 transmits (text data such as title and body, image data, etc.) data posts to the blog server 1, as shown in FIG. 11 , the system control unit 20 of the blog server 1 receives the data of the posts (step S71). 次いで、システム制御部20は、ブロガーのユーザIDに対応するブログページの中から、更新すべきブログページのHTML文書をブログページDB101から取得する(ステップS72)。 Next, the system control unit 20 acquires from the blog page corresponding to the user ID of bloggers, the HTML document to be updated blog page from a blog page DB 101 (step S72). 次いで、システム制御部20は、受信したブログ記事のデータに基づいて、取得したHTML文書を更新する(ステップS73)。 Next, the system control unit 20 based on the data of the received posts updates the HTML document acquired (step S73). 例えば、システム制御部20は、取得したHTML文書に、ブログ記事用のTABLEタグ又はDIVタグを追加し、当該タグに挟まれた形で、受信したブログ記事の表題や本文のテキストデータ等を追加する。 For example, additional system control unit 20, the acquired HTML document, and adds a TABLE tag or DIV tag for posts, in a form sandwiched between the tag, the text data of the title and body of the received posts to. 次いで、システム制御部20は、ブログ記事のデータを追加したHTML文書で、ブログページDB101に登録されているHTML文書を更新する(ステップS74)。 Next, the system control unit 20, an HTML document to add the data of blog posts, and updates the HTML document registered in the blog page DB 101 (step S74).

次いで、システム制御部20は、ブロガーのユーザIDに対応する全てのブログページからコンテンツブロックを抽出する(ステップS3〜S6)。 Next, the system control unit 20 extracts the content blocks from all the blog page corresponding to the user ID of the blogger (Step S3 to S6).

次いで、システム制御部20は、ステップS73において更新したHTML文書を指定して、特有コンテンツブロック判定処理を実行し(ステップS8)、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS9)。 Next, the system control unit 20 designates the HTML document has been updated in step S73, executes the specific content block determination process (step S8), and the blog page from the text data constituting the inherent judged content blocks extracting a characteristic word (step S9).

次いで、システム制御部20は、指定されたHTML文書から、既存の広告コンテンツの規定を削除し(ステップS75)、抽出した特徴語をキーワードとして、関連する広告コンテンツの規定を挿入する(ステップS10)。 Next, the system control unit 20 from the specified HTML document, to delete a defined existing ad content (step S75), the keyword extracted feature words, to insert the provision of relevant advertising content (step S10) . つまり、システム制御部20は、ブログページ上に表示される広告コンテンツを変更する。 In other words, the system control unit 20 changes the advertisement content to be displayed on the blog page.

そして、システム制御部20は、広告コンテンツの規定が挿入されたHTML文書で、ブログページDB101に登録されているHTML文書を更新し(ステップS11)、記憶部15から全てのコンテンツブロック対応情報を削除する(ステップS14)。 Then, the system control unit 20 deletes an HTML document defining is inserted advertising content to update the HTML document registered in the blog page DB101 (the step S11), and all the content block correspondence information from the storage unit 15 (step S14).

なお、ブログの更新に伴ってブログページを新規に生成しなければならない場合の処理もも、基本的に上述した処理と同様で良い。 It should be noted that the processing thigh If you need to generate a blog page to the new with the blog update, or basically the same as the above-described process. ただし、新規に生成されたブログページには、広告コンテンツは未だ挿入されていないので、ステップS75における広告コンテンツの規定の削除は行われない。 However, the blog page that is generated in a new, ad content because they are not inserted yet, deletion of the provisions of the advertising content in the step S75 is not performed.

[5. [5. 変形例2] Modification 2]
これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる閾値として1回を設定していたが、2回以上の値を閾値として設定しても良い。 This in the description up to, had been set once as a threshold used for determining specific content to a blog page, it may be set to a minimum of two times as a threshold value.

例えば、閾値を1回とした場合には、出現頻度が1回であるコンテンツブロック(ブログ記事)がブログページに特有のコンテンツとして抽出され、抽出されたブログ記事のテキストデータから特徴語が抽出される。 For example, in the case of the once the threshold value, the content block frequency of occurrence is once (posts) are extracted as content specific to the blog page, feature words are extracted from the text data of the extracted blog posts that. このとき、抽出された各ブログ記事のテキストデータのデータ量が少ないと、そこから抽出される単語の数は少なくなる。 At this time, when the amount of the text data of each blog post that has been extracted is small, the number of words that are extracted from there will be less. そして、十分な数の単語を抽出することができないと、どの単語が特徴語であるかを全く判断することができない場合や、的確に判断することができない場合がある。 When it is impossible to extract a sufficient number word, or if the which words can not be completely determined whether the feature words, it may not be possible to accurately determine. そこで、閾値の値を上げて、ブログページに特有のコンテンツと判定される条件をゆるめることで、特徴語を抽出する対象となるブログ記事を増やしていく。 Therefore, by increasing the value of the threshold, by loosening the conditions under which it is determined that the specific content to your blog page, go to increase the blog post for which you want to extract the feature words. これにより、特徴語を抽出することが可能となる。 Thus, it is possible to extract the feature words.

具体的には、ブログサーバ1のシステム制御部20が、最初は閾値を1回に設定して、ブログページに特有のコンテンツブロックを判定することにより、出現回数が1回のブログ記事を抽出して特徴語を抽出する。 Specifically, the system control unit 20 of the blog server 1 is initially set the threshold at a time, by determining the specific content blocks blog page, number of occurrences is extracted once posts to extract the feature words Te. このとき、システム制御部20は、特徴語を抽出することができないと判定した場合には、閾値を2回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。 At this time, the system controller 20, when judging that it is not possible to extract the feature words, change the threshold to 2 times, to extract and extraction of characteristic word blog post. システム制御部20は、それでも特徴語を抽出することができないと判定した場合には、閾値を3回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。 The system control unit 20, still if it is determined that it is not possible to extract the feature words may be changed to 3 times the threshold value, to extract and extraction of characteristic word blog post. システム制御部20は、こうした処理を、特徴語が抽出することができるまで継続する。 The system control unit 20 continues such processing, until it can feature word is extracted. つまり、特有のコンテンツブロックの抽出結果に基づく処理を正常に行うことができなかった場合に、閾値を上げるのである。 That is, if it can not be performed successfully process based on the extraction result of the specific content block is to raise the threshold.

ただし、閾値を無制限に上げていくと、ブログ記事ではないものも抽出されてしまうので、閾値がある程度まで上がると処理を中断するものとする。 However, As you unlimited raising the threshold, so will also be extracted thing is not a blog post, it is assumed that the threshold is to interrupt the rise and processing to a certain extent. 例えば、閾値が、指定されたブロガーに対応するブログページのページ数の値にまで上がると、各ブログページで共通して用いられるコンテンツブロックを抽出してしまうので、閾値がブログページのページ数の値になったら処理を中断しても良い。 For example, the threshold value is, the rise to the page number of values ​​of the blog page corresponding to the specified blogger, since would extract the common content blocks used in each blog page, the threshold of the number of pages of the blog page it may interrupt the process Once turned to value.

また例えば、ブログページの所定ページ数あたり1回のみ出現するコンテンツブロックをブログページ特有のコンテンツブロックであると、システム管理者側で予め定めても良い。 Further, for example, when certain content blocks that appear only once per predetermined number of pages of the blog page blog page specific content blocks may be determined in advance by the system administrator side. この場合、指定されたブロガーに対応するブログページのページ数に比例して、閾値としての出現回数を変えても良い。 In this case, in proportion to the number of pages of the blog page corresponding to the specified bloggers, it may be changed the number of occurrences of as a threshold value.

[6. [6. 変形例3] Modification 3]
これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる出現頻度として、出現回数(度数)を用いていたが、指定されたブロガーに対応するブログページの全コンテンツブロックに対する出現回数の割合(相対度数)を用いても良い。 In the description so far, as the appearance frequency used for determining specific content to a blog page, but has been used the number of occurrences (frequency), the occurrence count for all content blocks blog page corresponding to the specified bloggers ratio may be used (relative frequency).

例えば、ブロガーが登録したブログ記事に対して、他のユーザからコメントを登録することができ、ブログ記事とともにコメントが閲覧可能になっているとする。 For example, for a blog post that bloggers have registered, it is possible to register the comments from other users, and comments along with the blog post is made to be viewed. このコメントのテキストデータもブログページを構成するコンテンツの1つとなる。 Text data of this comment is also one of the content that make up the blog page. ブログサーバ1のシステム制御部20は、コメントのテキストデータをブログページに追加する場合、当該ブログページのHTML文書に、ブロック化タグの記述を追加した上で当該テキストデータを追加することにより、コメントのテキストデータを、ブログ記事や他のコメントのテキストデータとは独立したコンテンツブロックとする。 The system control unit 20 of the blog server 1, when adding text data of the comment on the blog page, the HTML document of the blog page, by adding the text data after adding a description of the blocked tags, comments the text data, and independent content block the blog articles and other comments of text data. そして、システム制御部20は、コンテンツブロックとしてコメントのテキストデータを抽出し、抽出したコメントのテキストデータが特有の内容を有している場合には、そのコメントに関連する広告コンテンツをブログページに挿入するようにする。 Then, the system control unit 20, as a content block to extract the text data of the comment, if the text data of the extracted comment has a unique content, insert the advertising content that is relevant to the comment on a blog page to be in.

ところで、或るブログ記事に対して複数のコメントが登録された場合において、複数のコメントの各内容が、例えば、多数派の意見と少数派の意見といったように、頻繁に出現する内容と、あまり頻繁には出現しない内容とに分かれる場合がある。 By the way, in the case where a plurality of comment on a certain blog post has been registered, the contents of a plurality of comments, for example, as such as the opinion of the majority of opinion and minorities, and the content that frequently appear, too frequently, there is a case in which divided into a content does not appear. このとき、多数派の意見は、一般的な意見であり、あまり特徴的な内容ではないと考えることができる。 In this case, the opinion of the majority is the general opinion, it can be considered that there is no a very distinctive content. 一方、少数派の意見は、特異な意見であり、ブログページに特有の内容と考えることができる。 On the other hand, opinion of the minority is a specific opinion, it can be considered as a unique content to your blog page. そうした場合に、少数派の意見を示すコメントをブログページ特有のコンテンツとして抽出したい。 In such a case, we want to extract the comment indicating the opinion of the minority-specific blog page as content.

しかしながら、多数派の意見の数と少数派の意見の数は、相対的なものであり、コメントの総数によって変化する。 However, the number of opinions of the number and the minority opinion of the majority, are relative, varies depending on the total number of comments. こうした場合において、出現頻度として度数を用い、閾値を例えば1回とすると、頻繁に現れない内容(少数派の意見)を適切に抽出することができない場合がある。 In such a case, the frequency used as the occurrence frequency, when the threshold value for example once, may not be able to frequently (opinions minority) content that does not appear properly extracted. そこで、出現頻度として相対度数を用い、閾値を所定の割合に設定するのである。 Therefore, using the relative frequency as a frequency of occurrence, and sets the threshold value to a predetermined ratio. このときの閾値は任意に設定することができる。 Threshold at this time can be arbitrarily set. 例えば、抽出されたコンテンツブロックの内容がN個のパターン(Nは2以上の整数)に分けられる場合、少数派の意見を区別するために、閾値には1÷N未満の範囲で閾値を設定しても良い。 For example, if the contents of the extracted content blocks are N patterns (N is an integer greater than or equal to 2) is divided into, in order to distinguish the opinion of the minority, sets the threshold value in a range of less than 1 ÷ N is the threshold it may be. このように、システム制御部20が、その時々の状況に応じて閾値を変更しても良い。 Thus, the system control unit 20 may change the threshold value according to prevailing circumstances.

なお、ブログ等のような記事に対してコメント等を登録することができるシステムとして、例えば、或るユーザが登録したつぶやきに対して、これをフォローするつぶやきを他のユーザが登録することができるTwitter(商標)や、電子掲示板等がある。 It should be noted that, as a system that can be registered to comment or the like to the article, such as a blog, such as, for example, can be a certain user for the tweet, which was registered, the tweet to follow this other user to register Twitter (trademark) and, there is an electronic bulletin board or the like.

以上説明したように、本実施形態によれば、ブログサーバ1のシステム制御部20が、HTML文書が指定されることによって順次指定されたブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツの出現頻度を計算し、指定されたブログページを構成するコンテンツのうち、出現頻度が所定の閾値以下のコンテンツを当該ブログページに特有のコンテンツであると判断する。 As described above, according to this embodiment, the system control unit 20 of the blog server 1 extracts the contents constituting the sequence specified blog page by HTML document is designated, the designated calculates the appearance frequency of each content constituting the blog page, among the contents that constitute a designated blog page, the appearance frequency is determined to be content specific to certain of the following content the blog page threshold .

従って、出現頻度が小さいコンテンツであるほど、指定されたブログページ以外にはあまり出現しないコンテンツであるので、出現頻度が閾値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたブログページに特有のコンテンツであると特定される。 Therefore, as the frequency is small content, since in addition to the specified blog page is content that does not significantly appeared, by determining whether the occurrence frequency is below a threshold, all content satisfies the condition is, it is specified as the content specific to the specified blog page. よって、ブログページに特有のコンテンツを容易に抽出することができる。 Therefore, it is possible to easily extract the contents of the specific to the blog page.

また、ブログサーバ1のシステム制御部20が、指定されたブログページに特有のコンテンツに関連する広告コンテンツを当該ブログページに挿入する。 The system control unit 20 of the blog server 1 inserts the advertisement content associated with specific content to the specified blog page on the blog page.

従って、ブログページの特徴と関連する情報をWebページに追加することができる。 Therefore, it is possible to add the information associated with the features of the blog page on the Web page.

また、ブログサーバ1のシステム制御部20が、指定されたブログページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを、当該ブログページに特有のコンテンツであると判定し、ブログの記事のテキストデータから当該ブログページの特徴語を抽出し、当該特徴語をキーワードとして、予め関連付けられている広告コンテンツを、当該ブログページに挿入する。 The system control unit 20 of the blog server 1, as the content constituting the specified blog page, if it contains text data of blog posts, the text data, specific to the blog page It determines that the content, extracts a characteristic word of the blog page from the text data of blog posts, the characteristic words as keywords, advertising content associated beforehand, inserted into the blog page.

従って、ブログページに掲載されているブログの内容に関連する広告を当該ブログページに追加することができる。 Therefore, ads that are relevant to the contents of the blog that is posted on the blog page can be added to the blog page.

また、ブログサーバ1のシステム制御部20が、ブログサービスサイトに含まれる複数のブログページ上における各コンテンツの出現頻度を計算する。 The system control unit 20 of the blog server 1 calculates the appearance frequency of each content on the plurality of blog pages included in the blog service site.

従って、ブログサービスサイトに含まれる複数のWebページ(例えば、指定されたブロガーのユーザIDに対応する複数のブログページ)上において、指定されたブログページを構成している各コンテンツの出現頻度が計算されるので、ブログサービスサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。 Thus, on a plurality of Web pages on the blog service site (e.g., a plurality of blog page corresponding to the user ID of the designated bloggers), calculated occurrence frequency of each content constituting the specified blog page because the content that commonly used in the blog service site, it is possible to determine not the specific content, it is possible to improve the determination accuracy.

また、ブログサーバ1のシステム制御部20が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、ブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツブロック出現頻度を計算し、指定されたブログページを構成するコンテンツブロックのうち、出現頻度が閾値以下のコンテンツブロックを当該ブログページに特有のコンテンツブロックであると判断する。 Moreover, each system control unit 20 of the blog server 1 has a unit of consisting content block in one or more content, extracts the contents constituting the blog page, constitute the designated blog page calculate the content block frequency, among the content blocks that make up the specified blog page, it is determined that the specific content blocks to the following content block appearance frequency threshold the blog page.

従って、ブログページ上において、例えば、ヘッダ部分、ナビゲーション部分、ブログが表示される部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、ブログページに特有のコンテンツブロックを抽出することができる。 Thus, on the blog page, for example, a header portion, navigation portion, portions blog appears, as such part of the copyright notice, if one or more contents are displayed as a content block with unity, it is possible to extract the specific content blocks to your blog page.

また、ブログサーバ1のシステム制御部20が、ブログページを構成しているコンテンツを当該ブログページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいて、コンテンツブロックを定める。 The system control unit 20 of the blog server 1, a content constituting the blog page is extracted based on the HTML document of the blog page, based on DIV tag or TABLE tag in the HTML document defines the content block.

従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、ブログページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。 Therefore, the DIV tag explicitly can identify one or more contents that have been blocked during the creation of the HTML document, also, the TABLE tag, one that appears is blocked in tabular form it is possible to identify the content of the above, for example, these tags, in the case where the specific content to a blog page, and the content not unique are blocked, to determine the content specific to the Web page accuracy it can be increased.

なお、上記実施形態においては、Webページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。 In the above embodiment, as contents constituting the Web page has had extracts text data and image data, the content to be extracted is not limited thereto. 例えば、Webページ上に表示されるコンテンツ、又は、Webページが表示されている際に再生されるコンテンツ(例えば、動画データ、音声データ、電子文書等)であれば良い。 For example, the content is displayed on a Web page, or content to be played when the Web page is displayed (e.g., moving image data, audio data, electronic documents, etc.) may be any. また、所定の種類のコンテンツのみを抽出しても良い。 It is also possible to extract only a predetermined type of content.

また、上記実施形態においては、指定されたブログページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、指定されたブロガーのユーザIDに対応する全てのブログページを構成する各コンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。 In the above embodiment, the content block correspondence information corresponding to each content blocks constituting the designated blog page, the content block correspondence information that constitutes all the blog page corresponding to the user ID of the designated blogger each frequency by comparing with has been calculated. つまり、指定されたブログページを構成する各コンテンツブロックの出現頻度を計算する場合に、指定されたブロガーに対応する全てのブログページを対象とした範囲に出現する頻度を計算するようになっていたが、対象とする範囲はこれだけに限られるものではない。 That is, when calculating the frequency of occurrence of each content blocks constituting the designated blog page, was supposed to calculate the frequency of occurrence in the range covers all blog page corresponding to the specified bloggers but the range of interest is not intended to be limited thereto. 例えば、予め定められたページ数分のブログページを対象としても良いし、ブログサービスサイトを構成する全てのブログページを対象としても良い。 For example, it may be directed to a blog page for the number of pages predetermined may be for all blog pages constituting a blog service site.

また、上記実施形態においては、DIVタグに挟まれているコンテンツ、及び、TABLEタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。 In the above embodiment, the content sandwiched DIV tag, and the content sandwiched TABLE tag had been extracted grouped as content block, as a tag for grouping content, the present invention is not limited only to these.

また、上記実施形態においては、Webページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。 In the embodiment described above, had been extracted specific content in units of content blocks in a Web page, it may be one by one extracts each content.

また、上記実施形態として、Webページに特有のコンテンツに関連するコンテンツとして、商品やサービスに関する広告を示す広告コンテンツを、当該Webページに挿入していたが、関連するコンテンツであれば広告コンテンツに限られるものではない。 Further, as long as the above embodiment, the content related to specific content in the Web page, the advertising content that indicates the advertisements for products or services, had been inserted into the Web page, the advertising content if the associated content not intended to be. 例えば、特有のコンテンツと判定されたブログ記事等のコンテンツに関連する画像データ(静止画や動画像)を、背景画像や挿入画像(挿絵等)として挿入しても良い。 For example, it may be inserted the image data (still image or moving image) related to the content of such posts it is determined that specific content, as a background image and insert image (illustration or the like). 具体的には、例えば、画像データ用のデータベースを構築し、当該データベースに、画像データとキーワードとを対応付けて登録しておく。 Specifically, for example, to build a database of image data, to the database, are registered in association with the image data and keywords. 画像データに対応付けられるキーワードは、その画像データによって表される画像を示す単語や当該画像に関連する単語である。 Keywords associated with the image data is a word associated with the word or the image of an image represented by the image data. そして、特有のコンテンツと判定されたコンテンツから特徴語を抽出し、抽出した特徴語をキーワードとして、関連する画像データをデータベースから選択する。 The extracts feature words from the content that is determined to specific content, a keyword extracted feature word, selects the associated image data from the database. そして、対象のHTML文書のBODYタグに、選択した画像データのURLをbackground属性として挿入したり、対象のHTML文書の所定位置に、選択した画像データを表示するIMGタグを挿入したりする。 Then, the BODY tags in the HTML document object, insert the URL of the image data selected as the background attribute, at a predetermined position of the HTML document of interest, or insert IMG tag for displaying the image data selected. これにより、特有のコンテンツと判定されたブログ記事等のコンテンツの内容に適した画像をWebページに挿入することができる。 As a result, it is possible to insert an image suitable to the contents of the content, such as blog posts it is determined that the specific content in the Web page.

また、Webページに特有のコンテンツの用途としては、関連するコンテンツをWebページに挿入することのみに限られるものではない。 As the application of the specific content to the Web page is not limited only to insert the relevant content to the Web page. 例えば、Webページに特有のコンテンツに基づいて、新たなコンテンツを生成しても良い。 For example, based on the specific content in the Web page, it may generate the new content.

また、上記実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からHTML文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。 In the embodiment described above, it had been applied to specific content determination device of the present invention to the server apparatus, if it is possible to obtain the HTML document from the storage means and the network, specific content to the terminal device or the like it may be applied to the determination device.

また、上記実施形態においては、HTML文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Webページを構成するコンテンツを示すデータ(例えば、XHTML(Extensible HyperText Markup Language)文書等)に対してドキュメントデータを適用しても良い。 Further, in the above-described embodiment, for HTML documents were applied document data of the present invention, described in a markup language, data indicating the contents constituting the Web page (e.g., XHTML (Extensible HyperText Markup Language ) may be applied to the document data to the document, etc.).

また、上記実施形態においては、ブログサービスサイトにおけるブログページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。 In the embodiment described above, had been extracted contents constituting a blog page in the blog service site, the type of site and page of interest is not limited only to these.

1 ブログサーバ2 管理端末3 ユーザ端末11 操作部12 表示部13 通信部14 ドライブ部15 記憶部16 入出力インタフェース部17 CPU 1 blog server 2 management terminal 3 the user terminal 11 operating unit 12 display unit 13 communication unit 14 drives unit 15 memory unit 16 output interface unit 17 CPU
18 ROM 18 ROM
19 RAM 19 RAM
20 システム制御部21 システムバス101 ブログページDB 20 system control unit 21 system bus 101 blog page DB
102 広告DB 102 ad DB
NW ネットワークS ブログシステム NW network S blog system

Claims (11)

  1. 所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、 Among a plurality of Web pages on a given site, extraction means for extracting a content constituting the specified Web pages,
    前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他の Webページで用いられる頻度をカウントする計算手段と、 Among the plurality of Web pages, and calculating means for each content constituting the specified Web page is to count the frequency to be used in other Web pages,
    前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段と、 Among the contents constituting the specified Web page, a determination unit that the content specific to the Web page that the frequency is the designated content below a predetermined value to be used in other Web pages,
    を備えることを特徴とする特有コンテンツ判定装置。 Specific content determination apparatus comprising: a.
  2. 請求項1に記載の特有コンテンツ判定装置において、 In specific content determination apparatus according to claim 1,
    前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、 It said extraction means, in units of content group consists of one or more content, extracts the contents constituting the Web page,
    前記計算手段は、前記指定されたWebページを構成しているコンテンツグループが他のWebページで用いられる頻度をカウントし、 It said computing means, content group constituting the specified Web page counts the frequency used in other Web pages,
    前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、他のWebページで用いられる頻度が所定値以下のコンテンツグループを当該指定されたWebページに特有のコンテンツグループであると判定することを特徴とする特有コンテンツ判定装置。 The determination means of the content group constituting the specified Web pages is the specific content group in Web pages frequently used by other Web pages are the designated groups of content below a predetermined value specific content determination device and judging a.
  3. 請求項2に記載の特有コンテンツ判定装置において、 In specific content determination device according to claim 2,
    前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。 The extraction means is described in a predetermined markup language, based on the document data indicating the contents constituting the Web page, specific content determination device and extracting the content group.
  4. 請求項3に記載の特有コンテンツ判定装置において、 In specific content determining apparatus according to claim 3,
    前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。 Said extraction means, specific content determination apparatus characterized by determining the content groups based on a predetermined tag in the document data indicating the contents.
  5. 請求項1乃至4の何れか1項に記載の特有コンテンツ判定装置において、 In specific content determination device according to any one of claims 1 to 4,
    前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、 The extraction means extracts the comments posted to the articles from the Web page article that has been posted is posted,
    前記抽出された各コメントを、コメントが示す内容別に分類する分類手段と、 Each comment is the extraction, and classification means for classifying for each content indicated by the comment,
    出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段と、 A setting means for setting a threshold value of the occurrence frequency, and setting means for reducing said threshold value as the number of the contents of the comment is classified is large,
    を更に備え、 Further comprising a,
    前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、 It said calculation means calculates the frequency of occurrence in the Web page of each of the contents of the comment has been classified,
    前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定装置。 It said determining means, specific content determination device and judging that the contents of specific the contents calculated occurrence frequency is equal to or less than the set threshold value by the calculating means to the Web page.
  6. 所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出工程と、 Among a plurality of Web pages on a given site, an extraction step of extracting a content constituting the specified Web pages,
    前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算工程と、 Among the plurality of Web pages, a calculation step of each content constituting the specified Web page is to count the frequency to be used in other Web pages,
    前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定工程と、 Among the contents constituting the specified Web page, a determination step that the content specific to the Web page that the frequency is the designated content below a predetermined value to be used in other Web pages,
    を有することを特徴とする特有コンテンツ判定方法。 Specific content determination method characterized in that it comprises a.
  7. 請求項6に記載の特有コンテンツ判定方法において、 In specific content determination method according to claim 6,
    前記抽出工程は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、 The extraction process extracts the comments posted to the articles from the Web page article that has been posted is posted,
    前記抽出された各コメントを、コメントが示す内容別に分類する分類工程と、 Each comment is the extraction, and classification step of classifying by content indicated by the comment,
    出現頻度の閾値を設定する設定工程であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定工程と、 A setting step of setting a threshold value of the occurrence frequency, a setting step of reducing the threshold as the number of the contents of the comment is classified is large,
    を更に含み、 Further comprising a,
    前記計算工程は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、 The calculation step is to calculate the frequency of occurrence in the Web page of each of the contents of the comment has been classified,
    前記判定工程は、前記計算工程により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定方法。 The determining step, specific content determination method characterized by determining that the contents specific to the calculating step the Web pages the contents calculated occurrence frequency is equal to or less than the set threshold by.
  8. コンピュータを、 The computer,
    所定のサイトに含まれる複数のWebページのうち、指定されたWebページを構成しているコンテンツを抽出する抽出手段、 Among a plurality of Web pages on a given site, extraction means for extracting a content constituting the specified Web pages,
    前記複数のWebページのうち、前記指定されたWebページを構成している各コンテンツが他のWebページで用いられる頻度をカウントする計算手段、及び、 Wherein the plurality of Web pages, calculating means for each content constituting the specified Web page is to count the frequency to be used in other Web pages and,
    前記指定されたWebページを構成しているコンテンツのうち、他のWebページで用いられる頻度が所定値以下のコンテンツを当該指定されたWebページに特有のコンテンツであると判定する判定手段、 Among the contents constituting the specified Web pages, other determining means and the frequency used in the Web page is the content of the specific content of less than or equal to a predetermined value to the specified Web pages,
    として機能させることを特徴とする特有コンテンツ判定プログラム。 Specific content determination program for causing to function as.
  9. 請求項8に記載の特有コンテンツ判定プログラムにおいて、 In specific content determination program according to claim 8,
    前記抽出手段は、投稿された記事が掲載されるWebページから前記記事に対して投稿されたコメントを抽出し、 The extraction means extracts the comments posted to the articles from the Web page article that has been posted is posted,
    前記コンピュータを、 The computer,
    前記抽出された各コメントを、コメントが示す内容別に分類する分類手段、及び、 Classifying means for each comment which is the extraction, classified by content indicated by the comment and,
    出現頻度の閾値を設定する設定手段であり、前記コメントが分類された前記内容の数が多いほど前記閾値を小さくする設定手段、 Appearance is a setting means for setting a threshold value of the frequency setting means for reducing said threshold value as the number of the contents of the comment is classified is large,
    として更に機能させ、 To further function as,
    前記計算手段は、前記コメントが分類された各前記内容のWebページにおける出現頻度を計算し、 It said calculation means calculates the frequency of occurrence in the Web page of each of the contents of the comment has been classified,
    前記判定手段は、前記計算手段により計算された出現頻度が前記設定された閾値以下である前記内容を前記Webページに特有の内容であると判定することを特徴とする特有コンテンツ判定プログラム。 It said determining means, specific content determination program and judging that the content specific to the said appearance frequency calculated by the calculating means the content is less than the set threshold Web page.
  10. 請求項1乃至5の何れか1項に記載の特有コンテンツ判定装置と、 And specific content determination device according to any one of claims 1 to 5,
    前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、 And inserting means for inserting the associated content related to content that is determined to be characteristic of the content to the specified Web page by the specific content determination device,
    を備えることを特徴とする関連コンテンツ挿入装置。 Related content insertion device, characterized in that it comprises a.
  11. 請求項10に記載の関連コンテンツ挿入装置において、 In a related content insertion device according to claim 10,
    前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、投稿された記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、 The specific content determination apparatus, a content constituting the specified Web page, when included text data of the posts is, when the text data is content specific to the Web page the judgment,
    前記特有コンテンツ判定装置により特有のコンテンツであると判定された記事のテキストデータから前記指定されたWebページの特徴語を抽出する特徴語抽出手段と、 A feature word extraction means for extracting a characteristic word of the Web page the specified text data of said is determined to be specific content by specific content determination device article,
    それぞれ語に関連付けて記憶手段に記憶された複数のコンテンツの中から、前記抽出された特徴語に関連するコンテンツを前記関連コンテンツとして選択する選択手段と、 From a plurality of contents stored in the storage means in association with each word, selecting means for selecting the content associated with the extracted feature words as the related content,
    を更に備え、 Further comprising a,
    前記挿入手段は、前記選択された関連コンテンツを、前記指定されたWebページに挿入することを特徴とする関連コンテンツ挿入装置。 The insertion means, associated content insertion device, characterized in that the related content the selected and inserted into the specified Web page.
JP2009250646A 2009-10-30 2009-10-30 Specific content determination device-specific content determination method, specific content determination program and related content insertion device Active JP5462591B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009250646A JP5462591B2 (en) 2009-10-30 2009-10-30 Specific content determination device-specific content determination method, specific content determination program and related content insertion device

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2009250646A JP5462591B2 (en) 2009-10-30 2009-10-30 Specific content determination device-specific content determination method, specific content determination program and related content insertion device
BR112012010120A BR112012010120A2 (en) 2009-10-30 2010-10-25 device and method of determining characteristic Content
US13/504,831 US20120216107A1 (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
CN201080048923.4A CN102598038B (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
EP10826658.6A EP2482247A4 (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
KR1020147026766A KR20140127360A (en) 2009-10-30 2010-10-25 Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
PCT/JP2010/068820 WO2011052526A1 (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
KR1020127014075A KR101640051B1 (en) 2009-10-30 2010-10-25 Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
US14/696,992 US20150227627A1 (en) 2009-10-30 2015-04-27 Characteristic content determination device, characteristic content determination method, and recording medium

Publications (2)

Publication Number Publication Date
JP2011096078A JP2011096078A (en) 2011-05-12
JP5462591B2 true JP5462591B2 (en) 2014-04-02

Family

ID=44112900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009250646A Active JP5462591B2 (en) 2009-10-30 2009-10-30 Specific content determination device-specific content determination method, specific content determination program and related content insertion device

Country Status (1)

Country Link
JP (1) JP5462591B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014155682A1 (en) * 2013-03-29 2014-10-02 楽天株式会社 Information processing device, information processing method, and information processing program
JP6196189B2 (en) * 2014-06-30 2017-09-13 ヤフー株式会社 The advertisement distribution device, ad delivery methods, and ad delivery program

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3632477B2 (en) * 1999-01-18 2005-03-23 日本電信電話株式会社 Internet information search method and a storage medium storing Internet information search program
JP2001282837A (en) * 2000-03-31 2001-10-12 Oki Electric Ind Co Ltd Information gathering device
JP2003223449A (en) * 2001-10-26 2003-08-08 Yasuhiro Tanaka Method for registration of terminal information and method of utilizing it
JP2003141134A (en) * 2001-11-07 2003-05-16 Hitachi Ltd Text mining processing method and device for implementing the same
US20030101166A1 (en) * 2001-11-26 2003-05-29 Fujitsu Limited Information analyzing method and system
JP4282312B2 (en) * 2002-11-27 2009-06-17 富士通株式会社 Web server, Web server has a function of Java servlets, and computer program
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
JP2005236646A (en) * 2004-02-19 2005-09-02 Fuji Xerox Co Ltd Image display device, method, and program
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
JP2006146506A (en) * 2004-11-18 2006-06-08 Image:Kk Web site updating system, web site updating method and web site updating program
JP2006338086A (en) * 2005-05-31 2006-12-14 Nomura Research Institute Ltd Topic scale management device
JP2007080061A (en) * 2005-09-15 2007-03-29 Univ Of Tsukuba Retrieval method of web page and clustering method of web page
JP4833043B2 (en) * 2006-11-30 2011-12-07 ヤフー株式会社 Affinity device using a blog or query click
JP2008226235A (en) * 2007-02-14 2008-09-25 Shinseiki:Kk Information feedback system, information feedback method, information control server, information control method, and program
KR100780265B1 (en) * 2007-03-05 2007-11-28 (주)엔알시스템스 System for advertising using meta-blog web page and profit creating method with it
JP2009053983A (en) * 2007-08-28 2009-03-12 Nec Corp Information structurization apparatus, information structurization method and program
JP5082917B2 (en) * 2008-02-25 2012-11-28 日本電気株式会社 Illegal information detecting apparatus, illegal information detecting method, and illegal information detection program
JP2009205499A (en) * 2008-02-28 2009-09-10 Nec Corp Web page specification apparatus, web page specification method, and program for specifying web page

Also Published As

Publication number Publication date
JP2011096078A (en) 2011-05-12

Similar Documents

Publication Publication Date Title
US9881042B2 (en) Internet based method and system for ranking individuals using a popularity profile
US6256648B1 (en) System and method for selecting and displaying hyperlinked information resources
US8140111B2 (en) Methods and apparatus for analyzing, processing and formatting network information such as web-pages
US8667037B1 (en) Identification and ranking of news stories of interest
US7480858B2 (en) Analyzing webpages using function-based object models for web page display in a mobile device
US9192684B1 (en) Customization of search results for search queries received from third party sites
US8806325B2 (en) Mode identification for selective document content presentation
US9355079B2 (en) Reader mode presentation of web content
US8849725B2 (en) Automatic classification of segmented portions of web pages
CN101534306B (en) Detecting method and a device for fishing website
US8176029B2 (en) Composite display method and system for search engine of same resource information based on degree of attention
CN101253498B (en) Learning facts from semi-structured text
US20190147005A1 (en) Extracting structured data from weblogs
US10180967B2 (en) Performing application searches
CN102760172B (en) Network searching method and network searching system
US8332763B2 (en) Aggregating dynamic visual content
KR101061529B1 (en) Display of the reduced and extended data items
US20060085735A1 (en) Annotation management system, annotation managing method, document transformation server, document transformation program, and electronic document attachment program
US8108376B2 (en) Information recommendation device and information recommendation method
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
KR101527259B1 (en) Providing posts to discussion threads in response to a search query
US20110173527A1 (en) Determining Semantically Distinct Regions of a Document
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US9268856B2 (en) System and method for inclusion of interactive elements on a search results page
CN102024028B (en) Method and equipment for distinctly displaying main contents of webpage on mobile terminal

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20111107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111107

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120618

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250