JP5225369B2 - Web page evaluation apparatus and Web page evaluation method - Google Patents
Web page evaluation apparatus and Web page evaluation method Download PDFInfo
- Publication number
- JP5225369B2 JP5225369B2 JP2010284932A JP2010284932A JP5225369B2 JP 5225369 B2 JP5225369 B2 JP 5225369B2 JP 2010284932 A JP2010284932 A JP 2010284932A JP 2010284932 A JP2010284932 A JP 2010284932A JP 5225369 B2 JP5225369 B2 JP 5225369B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- evaluation
- target web
- date
- copy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011156 evaluation Methods 0.000 title claims description 295
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 39
- 238000004364 calculation method Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、Webページ評価装置及びWebページ評価方法に関する。 The present invention relates to a web page evaluation apparatus and a web page evaluation method.
従来、Web上の検索サービスにおいては、ユーザが入力したキーワードを含むWebページを検索する。そして、検索の結果として抽出されたWebページのURLをリストとして表示する。このとき、Webページ評価装置は、ユーザをより効率的に所望のWebページへ導くため、Webページの注目度や検索頻度等の所定の評価項目に基づいて評価指標を算出する。そして、検索サービスにおいては、評価指標の高いWebページのURLから順に表示する。 Conventionally, in a search service on the Web, a Web page including a keyword input by a user is searched. Then, URLs of Web pages extracted as a result of the search are displayed as a list. At this time, the Web page evaluation apparatus calculates an evaluation index based on predetermined evaluation items such as the attention level and search frequency of the Web page in order to guide the user to a desired Web page more efficiently. In the search service, the URLs of Web pages with high evaluation indices are displayed in order.
このようなWebページ評価装置として、ユーザによるサービスについての利用履歴に基づいてサービスについての評価値を算出する評価スコア計算部を備える利用履歴サーバ装置が提案されている(特許文献1)。
この利用履歴サーバ装置によれば、ユーザの利用履歴に基づいて評価値を算出するので、ユーザの要望に沿ったWebページについてより高い評価値を算出できる。
As such a Web page evaluation device, a usage history server device including an evaluation score calculation unit that calculates an evaluation value for a service based on a usage history for a service by a user has been proposed (Patent Document 1).
According to this usage history server device, an evaluation value is calculated based on a user's usage history, so a higher evaluation value can be calculated for a Web page that meets the user's request.
ところで、近年のWebページでは、他のWebページのコンテンツの内容をコピーして作成したWebページが多々存在する。このような他のWebページのコンテンツをコピーして作成したWebページは、コピー元のオリジナルのコンテンツを提供するWebページのように新たな情報を提供しているわけではない。しかしながら、特許文献1に記載された利用履歴サーバ装置では、このような関係を的確に反映することはできないため、他のWebページをコピーして作成したWebページが不当に高く評価され、検索サービスにおいても上位にランキングされてしまう場合があった。
By the way, in recent Web pages, there are many Web pages created by copying contents of other Web pages. Such a Web page created by copying the content of another Web page does not provide new information like a Web page that provides the original content of the copy source. However, since the usage history server device described in
本発明は、他のWebページをコピーして作成されたWebページの評価指標を減点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供することを目的とする。 The present invention accurately creates a copy relationship by deducting the evaluation index of a web page created by copying another web page, and as a result is created by copying the other web page in a search service. It is an object of the present invention to provide a web page evaluation apparatus that can prevent a web page from being ranked higher than a copy-source web page.
(1) Webページの評価指標を算出するWebページ評価装置であって、
Webページを記憶したWebページ記憶手段から前記評価指標を算出する対象となる評価対象Webページを読み出して、前記評価対象Webページと、前記Webページ記憶手段に記憶された他のWebページである比較対象Webページと、を対比することにより、前記評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する前記比較対象Webページの少なくとも一部と、を特定する類似関係特定手段と、
前記類似関係特定手段が特定した、前記評価対象Webページの前記一部が編集された日時と、前記比較対象Webページの前記一部が編集された日時と、を推定する編集日時推定手段と、
前記編集日時推定手段が推定した、前記評価対象Webページの前記一部が編集された日時より、前記比較対象Webページの前記一部が編集された日時が古い場合に、前記評価対象Webページの前記一部は前記比較対象Webページの前記一部をコピーして作成されたと判断するコピー関係判断手段と、
前記類似関係特定手段、前記編集日時推定手段及び前記コピー関係判断手段の処理をWebページ記憶手段に記憶された全ての前記Webページについて行う繰り返し手段と、
前記評価対象Webページにおける、前記コピー関係判断手段によりコピーして作成されたと判断された前記一部が占める割合を算出して、当該割合に応じて前記評価対象Webページの前記評価指標を減点する評価指標減点手段と、を備えるWebページ評価装置。
(1) A web page evaluation apparatus for calculating an evaluation index of a web page,
Read the evaluation target Web page from which the evaluation index is calculated from the Web page storage unit that stores the Web page, and compare the evaluation target Web page with another Web page stored in the Web page storage unit Similarity that identifies at least a part of the evaluation target Web page and at least a part of the comparison target Web page having a similarity equal to or higher than a predetermined threshold by comparing the target Web page Relationship identification means;
An editing date and time estimating means for estimating the date and time when the part of the evaluation target Web page was edited and the date and time when the part of the comparison target Web page was edited, which was specified by the similarity relation specifying means;
If the date and time when the part of the comparison target web page was edited is older than the date and time when the part of the evaluation target web page was edited, which was estimated by the editing date and time estimation means, Copy relation determination means for determining that the part is created by copying the part of the comparison Web page;
Repetitive means for performing processing of the similarity relation specifying means, the editing date and time estimation means, and the copy relation determination means for all the web pages stored in the web page storage means;
The ratio of the part determined to be copied and created by the copy relation determination means in the evaluation target Web page is calculated, and the evaluation index of the evaluation target Web page is deducted according to the ratio. A web page evaluation device comprising evaluation index deduction means.
(1)に記載の発明によれば、類似関係特定手段は、Webページを記憶したWebページ記憶手段から評価指標を算出する対象となる評価対象Webページを読み出して、この評価対象Webページと、Webページ記憶手段に記憶された他のWebページである比較対象Webページと、を対比することにより、評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する比較対象Webページの少なくとも一部と、を特定する。編集日時推定手段は、類似関係特定手段が特定した、評価対象Webページの一部が編集された日時と、比較対象Webページの一部が編集された日時と、を推定する。コピー関係判断手段は、編集日時推定手段が推定した、評価対象Webページの一部が編集された日時より、比較対象Webページの一部が編集された日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断する。繰り返し手段は、類似関係特定手段、編集日時推定手段及びコピー関係判断手段の処理をWebページ記憶手段に記憶された全てのWebページについて行う。評価指標減点手段は、評価対象Webページにおける、コピー関係判断手段によりコピーして作成されたと判断された一部が占める割合を算出して、当該割合に応じて評価対象Webページの評価指標を減点する。 According to the invention described in (1), the similarity relation specifying unit reads out the evaluation target Web page from which the evaluation index is calculated from the Web page storage unit that stores the Web page, and the evaluation target Web page; By comparing the comparison target Web page, which is another Web page stored in the Web page storage unit, with at least a part of the evaluation target Web page and a comparison having a similarity equal to or higher than a predetermined threshold with the part. Identify at least a part of the target Web page. The editing date / time estimating means estimates the date / time when a part of the evaluation target Web page specified by the similarity relation specifying means and the date / time when a part of the comparison target Web page was edited. The copy relation determination unit is configured to determine whether the evaluation target web page is older than the date when the part of the evaluation target web page is edited, which is estimated by the editing date estimation unit. It is determined that a part has been created by copying a part of the comparison target Web page. The repetition unit performs the processes of the similarity relationship specifying unit, the editing date estimation unit, and the copy relationship determination unit for all the Web pages stored in the Web page storage unit. The evaluation index deduction means calculates a ratio of a part of the evaluation target web page that is determined to be copied and created by the copy relation determination means, and deducts the evaluation index of the evaluation target web page according to the ratio. To do.
これにより、評価対象Webページの一部が編集された日時より比較対象Webページの類似部分の一部が編集された日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断して、このコピーして作成されたと判断された一部が占める割合に応じて、当該評価対象Webページの評価指標を減点できる。
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供できる。
Thereby, when the date and time when a part of the similar part of the comparison target Web page is edited is older than the date and time when the part of the evaluation target Web page is edited, a part of the evaluation target Web page is a part of the comparison target Web page. The evaluation index of the evaluation target Web page can be deducted in accordance with the ratio of the part determined to have been created by copying the copy.
Therefore, by subtracting the evaluation index of the web page created by copying another web page, the copy relationship is accurately expressed, and as a result, the web created by copying the other web page in the search service It is possible to provide a web page evaluation apparatus that can prevent a page from being ranked higher than a web page that is a copy source.
(2) 前記コピー関係判断手段が前記評価対象Webページの前記一部が前記比較対象Webページの前記一部をコピーして作成されたと判断した前記比較対象Webページの前記評価指標を加点する評価指標加点手段と、をさらに備える(1)に記載のWebページ評価装置。 (2) Evaluation in which the copy relation determination unit adds the evaluation index of the comparison target Web page determined that the part of the evaluation target Web page is created by copying the part of the comparison target Web page The Web page evaluation device according to (1), further comprising index adding means.
(2)に記載の発明によれば、比較対象Webページの一部をコピーして作成されたと判断された評価対象Webページの評価指標からコピーして作成されたと判断された一部が占める割合に応じて評価指標を減点できるとともに、当該一部がコピーされたと判断された比較対象Webページの評価指標に加点できる。 According to the invention described in (2), the proportion of the part determined to be copied and created from the evaluation index of the evaluation target Web page determined to be created by copying a part of the comparison target Web page The evaluation index can be deducted according to the evaluation index, and can be added to the evaluation index of the comparison target Web page determined to have been partially copied.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、他のWebページをコピーされたコピー元のWebページの評価指標を加点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供できる。 Therefore, by subtracting the evaluation index of the Web page created by copying another Web page, and adding the evaluation index of the copy-source Web page copied from the other Web page, the copy relationship is accurately expressed. As a result, there is provided a web page evaluation device that can prevent a web page created by copying another web page in the search service from being ranked higher than the web page of the copy source. Can be provided.
(3) 前記評価指標加点手段は、前記評価対象Webページにおいて、前記コピー関係判断手段が前記比較対象Webページの前記一部をコピーして作成されたと判断した部分が前記比較対象Webページ間で重複している場合に、当該重複の度合いが大きいほど前記比較対象Webページの前記評価指標の加点を減ずる(2)に記載のWebページ評価装置。 (3) In the evaluation target Web page, the evaluation index adding means includes a portion between the comparison target Web pages that the copy relation determination unit determines to have been created by copying the part of the comparison target Web page. The web page evaluation apparatus according to (2), in which when there is an overlap, the score of the evaluation index of the comparison target Web page is reduced as the degree of the overlap is larger.
(3)に記載の発明によれば、評価対象Webページにおいて、比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、当該重複の度合いが大きいほど比較対象Webページの評価指標の加点を減ずることができる。 According to the invention described in (3), in the evaluation target web page, when a portion determined to be created by copying a part of the comparison target web page is duplicated between the comparison target web pages, the duplication is performed. The greater the degree of, the more the points added to the evaluation index of the comparison target Web page can be reduced.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、コピー元のWebページが複数ある場合であっても、コピー元のWebページの評価指標の加点を減ずることで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止するとともに、コピー元のWebページ間のランキングの適正化を図ることができるWebページ評価装置を提供できる。 Therefore, the evaluation index of a Web page created by copying another Web page is deducted, and even if there are a plurality of copy-source Web pages, the evaluation index of the copy-source Web page is reduced. In addition, the copy relationship is accurately expressed, and as a result, the Web page created by copying the other Web page in the search service is prevented from being ranked higher than the copy-source Web page. Thus, it is possible to provide a web page evaluation apparatus that can optimize the ranking between copy source web pages.
(4) 前記評価指標加点手段は、前記評価対象Webページにおいて、前記コピー関係判断手段が前記比較対象Webページの前記一部をコピーして作成されたと判断した部分が前記比較対象Webページ間で重複している場合に、前記重複している前記比較対象Webページの前記一部が編集された日時が最も古い前記比較対象Webページのみについて評価指標を加点する(2)又は(3)に記載のWebページ評価装置。 (4) In the evaluation target Web page, the evaluation index adding means includes a portion between the comparison target Web pages that the copy relation determination unit determines to have been created by copying the part of the comparison target Web page. (2) or (3), when there is an overlap, an evaluation index is added only to the comparison target Web page having the oldest date and time when the part of the overlapping comparison target Web page was edited Web page evaluation device.
(4)に記載の発明によれば、評価対象Webページにおいて、比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、重複している比較対象Webページの一部が編集された日時が最も古い比較対象Webページのみについて評価指標を加点できる。ここで、「編集された日時が最も古い」とは、2のWebページが同一の範囲で重複している場合には、当該重複に関係するWebページの中で編集された日時が古いほうのWebページを意味し、3以上のWebページが同一の範囲で重複している場合には、当該重複に関係するWebページの中で編集された日時が最も古いWebページを意味する。 According to the invention described in (4), in the evaluation target Web page, when a portion determined to be created by copying a part of the comparison target Web page is duplicated between the comparison target Web pages, the overlap is performed. The evaluation index can be added only to the comparison target Web page with the oldest date and time when a part of the comparison target Web page is edited. Here, “the date and time of editing is the oldest” means that when two Web pages overlap in the same range, the date and time edited in the Web page related to the overlap is the oldest. This means a Web page. When three or more Web pages overlap in the same range, it means the Web page with the oldest date and time edited among the Web pages related to the overlap.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、コピー元のWebページが複数ある場合であっても、編集された日時が最も古いコピー元のWebページにのみ加点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止するとともに、コピー元のWebページ間のランキングの適正化を図ることができるWebページ評価装置を提供できる。 Therefore, the evaluation index of a web page created by copying another web page is deducted, and even when there are a plurality of copy source web pages, only the copy source web page with the oldest edited date is used. By adding points, the copy relationship is accurately expressed, and as a result, the Web page created by copying the other Web page in the search service is ranked relatively higher than the copy source Web page. It is possible to provide a Web page evaluation apparatus that can suppress the above and optimize the ranking between copy-source Web pages.
(5) Webページの評価指標を算出するコンピュータが実行するWebページ評価方法であって、
Webページを記憶したWebページ記憶手段から前記評価指標を算出する対象となる評価対象Webページを読み出して、前記評価対象Webページと、前記Webページ記憶手段に記憶された他のWebページである比較対象Webページと、を対比することにより、前記評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する前記比較対象Webページの少なくとも一部と、を特定する類似関係特定ステップと、
前記類似関係特定ステップで特定した、前記評価対象Webページの前記一部が編集された日時と、前記比較対象Webページの前記一部が編集された日時と、を推定する編集日時推定ステップと、
前記編集日時推定ステップで推定した、前記評価対象Webページの前記一部が編集された日時より、前記比較対象Webページの前記一部が編集された日時が古い場合に、前記評価対象Webページの前記一部は前記比較対象Webページの前記一部をコピーして作成されたと判断するコピー関係判断ステップと、
前記類似関係特定ステップ、前記編集日時推定ステップ及び前記コピー関係判断ステップをWebページ記憶手段に記憶された全ての前記Webページについて行う繰り返しステップと、
前記評価対象Webページにおける、前記コピー関係判断ステップによりコピーして作成されたと判断された前記一部が占める割合を算出して、当該割合に応じて前記評価対象Webページの前記評価指標を減点する評価指標減点ステップと、を備えるWebページ評価方法。
(5) A web page evaluation method executed by a computer that calculates a web page evaluation index,
Read the evaluation target Web page from which the evaluation index is calculated from the Web page storage unit that stores the Web page, and compare the evaluation target Web page with another Web page stored in the Web page storage unit Similarity that identifies at least a part of the evaluation target Web page and at least a part of the comparison target Web page having a similarity equal to or higher than a predetermined threshold by comparing the target Web page A relationship identification step;
An editing date and time estimation step for estimating the date and time when the part of the evaluation target Web page was edited and the date and time when the part of the comparison target Web page was edited, which was specified in the similarity relationship specifying step;
If the date and time when the part of the comparison target web page was edited is older than the date and time when the part of the evaluation target web page was edited, which was estimated in the editing date and time estimation step, A copy relationship determination step for determining that the part is created by copying the part of the comparison target Web page;
A repetition step of performing the similarity relationship specifying step, the editing date / time estimation step, and the copy relationship determination step for all the web pages stored in the web page storage means;
The ratio of the part determined to be copied and created in the copy relation determination step in the evaluation target Web page is calculated, and the evaluation index of the evaluation target Web page is deducted according to the ratio. A web page evaluation method comprising: an evaluation index deduction step.
(5)に記載の発明によれば、(1)と同様の作用効果を奏するページランキング方法を提供できる。 According to the invention described in (5), it is possible to provide a page ranking method that exhibits the same operational effects as in (1).
本発明によれば、他のWebページをコピーして作成されたWebページの評価指標を減点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供できる。 According to the present invention, by subtracting the evaluation index of a web page created by copying another web page, the copy relationship is accurately expressed, and as a result, the other web page is copied in the search service. It is possible to provide a web page evaluation apparatus that can prevent the created web page from being ranked higher relative to the copy source web page.
以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態の説明にあたって、同一構成要件については同一符号を付し、その説明を省略もしくは簡略化する。 Embodiments of the present invention will be described below in detail with reference to the drawings. In the following description of the embodiments, the same constituent elements are denoted by the same reference numerals, and the description thereof is omitted or simplified.
[Webページ評価装置1の機能構成]
図1は、本発明の実施形態に係るWebページ評価装置1の機能構成を示す図である。
Webページ評価装置1は、評価対象Webページ読み出し手段10と、繰り返し手段20と、評価指標算出手段30と、コピー関係記憶手段25と、を備える。また、Webページ評価装置1は、ネットワークを介して、Webページのアドレスとコンテンツとが対応付けて記憶されたコンテンツDB100及びWebページのアドレスと評価指標とが対応づけて記憶されたインデックスDB200と接続されている。Webページ評価装置1は、コンテンツDB100に記憶されたWebページの評価指標を算出し、インデックスDB200に記憶させる。本実施形態において、評価指標とは、Webページの注目度や検索頻度等の所定の評価項目に基づいて算出されるスコアであり、当該Webページ評価装置1を含む検索サーバ(図示無し)は、検索サービスにおいて、この評価指標の高いWebページのURLから順にユーザの端末(図示無し)に表示する。
[Functional configuration of Web page evaluation apparatus 1]
FIG. 1 is a diagram showing a functional configuration of a Web
The web
評価対象Webページ読み出し手段10は、Webページを記憶したWebページ記憶手段としてのコンテンツDB100から評価指標を算出する対象となる評価対象Webページを読み出す。
The evaluation target web
繰り返し手段20は、類似関係特定手段21と、編集日時推定手段22と、コピー関係判断手段23と、を備える。繰り返し手段20は、類似関係特定手段21、編集日時推定手段22及びコピー関係判断手段23の処理をコンテンツDB100に記憶された全てのWebページについて行う。
類似関係特定手段21は、比較対象Webページ読み出し手段211と、類似コンテンツ特定手段212と、を備える。
The repeating
The similar
比較対象Webページ読み出し手段211は、コンテンツDB100から評価対象Webページとの比較対象であり他のWebページである比較対象Webページを読み出す。
なお、比較対象Webページ読み出し手段211は、評価対象Webページにおいて、読み出した比較対象Webページを示す記述(例えば、URL)が含まれていた場合には、別のWebページを比較対象Webページとして読み出すこともできる。これにより、他のWebページをコピーして作成されたWebページであっても、コピー元が示されている場合は、評価指標を減点しないこともできる。
The comparison target web
Note that the comparison target web
類似コンテンツ特定手段212は、評価対象Webページと、比較対象Webページと、を対比することにより、評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上(例えば、80%以上)の類似度を有する比較対象Webページの少なくとも一部と、を特定し、これらの類似度とともに記憶する。また、類似コンテンツ特定手段212は、コンテンツの種類に応じて、比較範囲の単位(例えば、Webページ全体、パラグラフ毎、カテゴリ毎等)を決定する。
The similar
編集日時推定手段22は、類似関係特定手段21が特定した、評価対象Webページの一部が編集された基準日時と、比較対象Webページの一部が編集された基準日時と、を推定する。本実施形態において、基準日時とは、類似関係特定手段21の類似コンテンツ特定手段212が特定した一部がWebページ上に掲載された日時である。なお、基準日時は、その他、コンテンツDB100が更新された日時や、コンテンツである一部に掲載されている日時であってもよい。
The editing date / time estimating means 22 estimates the reference date / time specified by the similarity relationship specifying means 21 when a part of the evaluation target Web page is edited and the reference date / time when a part of the comparison target Web page is edited. In the present embodiment, the reference date and time is the date and time when a part specified by the similar
コピー関係判断手段23は、編集日時推定手段22が推定した、評価対象Webページの一部が編集された基準日時より、比較対象Webページの一部が編集された基準日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断する。そして、コピー関係判断手段23は、比較対象Webページの一部をコピーして作成されたと判断した評価対象Webページの一部をコピー範囲とし、当該評価対象Webページに、比較対象Webページと、評価対象Webページにおけるコピー範囲の開始位置及びコピー範囲の終了位置と、当該評価対象Webページと比較対象Webページの類似度と、を対応付けてコピー関係記憶手段25のコピー情報テーブル(図3参照)に記憶する。
The copy
繰り返し手段20は、類似関係特定手段21、編集日時推定手段22及びコピー関係判断手段23の処理をコンテンツDB100に記憶された全てのWebページについて行う。
The
コピー関係記憶手段25は、コピー情報テーブルを記憶する。
コピー情報テーブルについて、図2及び図3を用いて説明する。
図2は、他のWebページをコピーして作成されたWebページを説明する図である。
図3は、図2のWebページのコピー情報テーブルを説明する図である。
The copy
The copy information table will be described with reference to FIGS.
FIG. 2 is a diagram for explaining a Web page created by copying another Web page.
FIG. 3 is a diagram for explaining the copy information table of the Web page of FIG.
図2に示すように、図2中の中心に示したWebページ(aaa.htm)は、図2中左上のbbb.htmの記事Aと、右上のppp.htmの記事Bと、左下のddd.htm及び右下のccc.htmの記事Cをコピーして作成されている。 As shown in FIG. 2, the web page (aaa.htm) shown at the center in FIG. html article A and top right ppp. html article B, and ddd. htm and lower right ccc. It is created by copying the article C of html.
図3は、このWebページ(aaa.htm)が比較対象Webページ読み出し手段211(図1参照)によって評価対象Webページとして読み出され、コピー関係判断手段23により、比較対象Webページ(bbb.htm、ppp.htm、ddd.htm及びccc.htm)との関係が対応付けられたコピー情報テーブルを示している。
In FIG. 3, this Web page (aaa.htm) is read as an evaluation target Web page by the comparison target Web page reading unit 211 (see FIG. 1), and the comparison target Web page (bbb.htm) is read by the copy
図3に示すように、コピー情報テーブルは、評価対象Webページに、評価対象基準日時、比較対象Webページ、比較対象基準日時、コピー範囲開始位置、コピー範囲終了位置及び類似度が対応付けられている。
評価対象Webページは、評価対象Webページ読み出し手段10(図1参照)がコンテンツDB100(図1参照)から評価指標を算出する対象として呼び出した評価対象WebページのURLである。
評価対象基準日時は、編集日時推定手段22(図1参照)が推定した評価対象Webページの一部が編集された基準日時である。
比較対象Webページは、コピー関係判断手段23(図1参照)で評価対象Webページにコピーされたと判断された比較対象WebページのURLである。
比較対象基準日時は、編集日時推定手段22(図1参照)が推定した比較対象Webページの一部が編集された基準日時である。
コピー範囲開始位置は、類似コンテンツ特定手段212(図1参照)が決定した比較対象Webページにおける比較範囲の単位において、コピー関係判断手段23によりコピー範囲とされた一部の開始位置である。
コピー範囲終了位置は、類似コンテンツ特定手段212が決定した比較対象Webページにおける比較範囲の単位において、コピー関係判断手段23によりコピー範囲とされた一部の終了位置である。
類似度は、類似コンテンツ特定手段212が特定した評価対象Webページの一部(コピー範囲)と、比較対象Webページの一部との類似度である。
As shown in FIG. 3, in the copy information table, the evaluation target Web page is associated with the evaluation target reference date, the comparison target Web page, the comparison target reference date, the copy range start position, the copy range end position, and the similarity. Yes.
The evaluation target web page is the URL of the evaluation target web page that the evaluation target web page reading means 10 (see FIG. 1) calls as a target for calculating an evaluation index from the content DB 100 (see FIG. 1).
The evaluation target reference date and time is a reference date and time when a part of the evaluation target Web page estimated by the editing date and time estimation means 22 (see FIG. 1) is edited.
The comparison target Web page is the URL of the comparison target Web page that is determined to have been copied to the evaluation target Web page by the copy relationship determination unit 23 (see FIG. 1).
The comparison target reference date and time is a reference date and time when a part of the comparison target Web page estimated by the editing date and time estimation unit 22 (see FIG. 1) is edited.
The copy range start position is a part of the start position set as the copy range by the copy
The copy range end position is a part of the end position set as the copy range by the copy
The similarity is a similarity between a part (copy range) of the evaluation target Web page specified by the similar
図1に戻って、評価指標算出手段30は、評価指標減点手段32と、評価指標加点手段33と、を備える。
評価指標減点手段32は、割合算出手段321と、減点手段322と、を備える。
割合算出手段321は、コピー関係記憶手段25に記憶されたコピー情報テーブル(図3参照)を参照して、評価対象Webページにおける、コピー関係判断手段23によりコピーして作成されたと判断されたコピー範囲が、類似コンテンツ特定手段212で決定された比較範囲の単位において占める割合を算出する。
Returning to FIG. 1, the evaluation
The evaluation
The ratio calculation means 321 refers to the copy information table (see FIG. 3) stored in the copy relation storage means 25 and copies that have been determined to be copied and created by the copy relation determination means 23 in the evaluation target Web page. The ratio of the range in the unit of the comparison range determined by the similar
減点手段322は、注目度や検索頻度等の所定の評価項目に基づいて算出された評価対象Webページの評価指標を、割合算出手段321が算出した割合に応じて減点し、この減点して算出した評価指標と、当該評価対象WebページのURLとを対応付けてインデックスDB200に記憶させる。例えば、減点手段322は、比較範囲の単位全てがコピーされていた場合に減点されるスコアが100であった場合に、比較範囲の単位において占める割合が80%であれば、減点を80とする。
また、減点手段322は、さらに、類似度に応じた重み付け値を考慮して減点できる。例えば、減点手段322は、割合算出手段321が算出した割合に応じた減点が80であり、類似度が85%であれば、減点80に類似度85%を乗算し、減点を68とすることもできる。
The deduction means 322 deducts the evaluation index of the evaluation target Web page calculated based on a predetermined evaluation item such as the degree of attention and the search frequency according to the ratio calculated by the ratio calculation means 321, and calculates by deducting this score. The evaluation index and the URL of the evaluation target web page are stored in the
Further, the point deduction means 322 can further deduct points in consideration of a weighting value corresponding to the degree of similarity. For example, if the deduction means 322 has a deduction according to the ratio calculated by the ratio calculation means 321 of 80 and the similarity is 85%, the deduction 80 is multiplied by the
評価指標加点手段33は、コピー関係判断手段23が評価対象Webページの一部が比較対象Webページの一部をコピーして作成されたと判断した比較対象Webページの評価指標を加点し、この加点して算出した評価指標と、当該比較対象WebページのURLとを対応付けてインデックスDB200に記憶させる。
評価指標加点手段33は、重複度合い算出手段331と、加点対象Webページ特定手段332と、加点手段333と、を備える。
The evaluation index adding means 33 adds the evaluation index of the comparison target Web page that the copy relation determination means 23 determines that a part of the evaluation target Web page is created by copying a part of the comparison target Web page. The evaluation index calculated in this way and the URL of the comparison target Web page are stored in the
The evaluation index adding unit 33 includes an overlap
重複度合い算出手段331は、コピー関係記憶手段25に記憶されたコピー情報テーブル(図3参照)を参照して、評価対象Webページにおいて、コピー関係判断手段23が比較対象Webページの一部をコピーして作成されたと判断した部分(コピー範囲)が複数の比較対象Webページ間で重複している場合に、重複度合いを算出する。
The duplication
図3を参照して、具体的に説明する。
複数の比較対象Webページ間で重複している場合とは、例えば、以下の場合である。
コピー情報テーブルに示す評価対象Webページaaa.htmにおいて、コピー範囲開始位置911からコピー範囲終了位置1792の範囲(図2中記事A・B)は、bbb.htmとppp.htmとで重複し、コピー範囲開始位置3385からコピー範囲終了位置4428の範囲(図2中記事C)は、ccc.htmとddd.htmとで重複する。
A specific description will be given with reference to FIG.
The case where it overlaps between several comparison object web pages is the following cases, for example.
Evaluation target Web page aaa. In htm, the range from the copy range start
このような場合、重複度合い算出手段331は、重複するコピー範囲(図2中記事A・B)を、重複する各比較対象Webページに対応づけられたコピー範囲開始位置とコピー範囲終了位置とで規定される全コピー範囲で除算することで、重複度合いを算出する。例えば、bbb.htmのppp.htmとの関係で計算される重複度合いは、重複するコピー範囲881(bbb.htmのコピー範囲終了位置1792−ppp.htmのコピー範囲開始位置911=881)を、全コピー範囲1310(bbb.htmのコピー範囲終了位置1792−bbb.htmのコピー範囲開始位置482=1310)(図2中記事Aおよび記事A・Bの合計)で除算し算出した約67%となる。また、ppp.htmのbbb.htmとの関係で計算される重複度合いは、重複するコピー範囲881(bbb.htmのコピー範囲終了位置1792−ppp.htmのコピー範囲開始位置911=881)を、全コピー範囲1703(ppp.htmのコピー範囲終了位置2614−ppp.htmのコピー範囲開始位置911=1703)(図2中記事B)で除算し算出した約52%となる。同様に算出すると、ccc.htmとddd.htmとの重複度合いは、互いに100%となる。
In such a case, the duplication degree calculation means 331 determines that the duplicate copy ranges (articles A and B in FIG. 2) are based on the copy range start position and the copy range end position that are associated with the respective comparison target Web pages. The degree of duplication is calculated by dividing by the specified full copy range. For example, bbb. html ppp. The degree of duplication calculated in relation to htm is the duplication of the copy range 881 (the copy
図1に戻って、加点対象Webページ特定手段332は、コピー関係記憶手段25に記憶されたコピー情報テーブル(図3参照)を参照して、評価対象Webページにおいて、コピー関係判断手段23が比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、重複している比較対象Webページの一部が編集された日時が最も古い比較対象Webページを特定する。
Returning to FIG. 1, the point addition Web
図3を参照して、具体的に説明する。
複数の比較対象Webページ間で重複している場合とは、例えば、以下の場合である。
コピー情報テーブルに示すppp.htmのコピー範囲開始位置911からbbb.htmのコピー範囲終了位置1792の範囲は、bbb.htmとppp.htmとで重複し、ccc.htmおよびddd.htmのコピー範囲開始位置3385からccc.htmおよびddd.htmのコピー範囲終了位置4428の範囲は、ccc.htmとddd.htmとで互いに重複する。ここで、この実施例では2の比較対象Webページが重複する例を説明しているが、これに限らず3以上の比較対象Webページが重複する場合も同様にして、コピー範囲開始位置およびコピー範囲終了位置に基づいて当該重複に関係するWebページを特定することができる。
A specific description will be given with reference to FIG.
The case where it overlaps between several comparison object web pages is the following cases, for example.
Ppp. Shown in the copy information table. From the copy range start
このような場合、加点対象Webページ特定手段332は、bbb.htmとppp.htmとの比較対象基準日時(編集された日時)を対比し、比較対象基準日時が最も古いppp.htmを特定する。また、加点対象Webページ特定手段332は、ccc.htmとddd.htmとの比較対象基準日時(編集された日時)を対比し、比較対象基準日時が最も古いddd.htmを特定する。ここで、「比較対象基準日時が最も古い」Webページとは、2のWebページが同一のコピー範囲で重複している場合には、当該重複に関係するWebページの中で比較対象基準日時(編集された日時)が古いほうのWebページを意味し、3以上のWebページが同一のコピー範囲で重複している場合には、当該重複に関係するWebページの中で比較対象基準日時(編集された日時)が最も古いWebページを意味する。
In such a case, the point addition Web
図1に戻って、加点手段333は、コピー関係記憶手段25に記憶されたコピー情報テーブル(図3参照)を参照して、重複度合い算出手段331が算出した重複の度合い及び加点対象Webページ特定手段332の特定に基づき、比較対象Webページの評価指標を加点し、この加点して算出した評価指標と、当該比較対象WebページのURLとを対応付けてインデックスDB200に記憶させる。
Returning to FIG. 1, the
図3を参照して、具体的に説明する。
加点手段333は、bbb.htmには、例えば、全ての加点が100とした場合、上記のとおり、ppp.htmとの関係で計算される重複度合いは約67%であり、この重複する部分の比較対象基準日時はppp.htmのほうが古いので、当該重複している部分に対応する加点を控除し、33(100−67=33)を加点する。
また、加点手段333は、ppp.htmには、例えば、全ての加点が100とした場合、上記のとおり、重複度合いは約67%であるが、この重複する部分の比較対象基準日時はppp.htmのほうが古いので、全ての加点である100を加点する。
また、加点手段333は、ccc.htmには、例えば、全ての加点が100とした場合、上記のとおり、重複度合いは100%であり、この重複する部分の比較対象基準日時はddd.htmのほうが古いので、加点が0(100−100=0)となり、加点しない。
また、加点手段333は、ddd.htmには、例えば、全ての加点が100とした場合、上記のとおり、重複度合いは100%であるが、この重複する部分の比較対象基準日時はddd.htmのほうが古いので、全ての加点である100を加点する。このように、2の比較対象Webページが重複する場合と同様に、3以上の比較対象Webページが重複する場合には、重複する部分の加点は当該重複する部分の比較対象基準日時が最も古い比較対象Webページのみに対して行う。
A specific description will be given with reference to FIG.
The point adding means 333 includes bbb. For example, when all the points are set to 100, pp. The degree of duplication calculated in relation to htm is about 67%, and the reference date and time for comparison of this overlapping part is ppp. Since htm is older, a point corresponding to the overlapping portion is subtracted and 33 (100−67 = 33) is added.
In addition, the point adding means 333 is configured to use ppp. For example, when all points are added to 100, the degree of overlap is about 67% as described above, but the reference date and time for comparison of the overlapped part is ppp. Since htm is older, 100 is added to all points.
Further, the point adding means 333 includes ccc. For example, when all the points are set to 100, the degree of duplication is 100% as described above, and the comparison target reference date and time of the overlapping portion is ddd. Since htm is older, the added point becomes 0 (100-100 = 0) and is not added.
Further, the point adding means 333 is provided with ddd. For example, when all the points are added to 100, the degree of overlap is 100% as described above, but the reference date and time for comparison of the overlapping portion is ddd. Since htm is older, 100 is added to all points. As described above, when two or more comparison target Web pages overlap as in the case where two comparison target Web pages overlap, the added point of the overlapping part is the oldest comparison target reference date and time of the overlapping part. This is performed only for the comparison target Web page.
また、加点手段333は、複数の比較対象Webページ間で重複していない場合には、全ての加点を一つの比較対象Webページの評価指標に加点し、当該比較対象WebページのURLとを対応付けてインデックスDB200に記憶させる。
In addition, in the case where there is no overlap between the plurality of comparison target web pages, the point addition means 333 adds all the points to the evaluation index of one comparison target web page and corresponds to the URL of the comparison target web page. In addition, it is stored in the
[Webページ評価装置1のハードウェア構成]
本実施形態に係るWebページ評価装置1は、コンピュータ及びその周辺装置に適用される。Webページ評価装置1における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成される。
[Hardware Configuration of Web Page Evaluation Apparatus 1]
The web
上記ハードウェアには、評価対象Webページ読み出し手段10と繰り返し手段20と評価指標算出手段30としてのCPU(Central Processing Unit)及びコピー関係記憶手段25としての記憶部の他、通信装置、入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)、及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、入力キー、タッチパネル、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
The hardware includes an evaluation target Web
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、各制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。 The software includes a computer program and data for controlling the hardware. The computer program and data are stored in the storage unit, and are appropriately executed and referenced by each control unit. The computer program and data can be distributed via a communication line, or can be recorded on a computer-readable medium such as a CD-ROM and distributed.
[Webページ評価装置1の制御フロー]
次に、Webページ評価装置1の制御フローについて説明する。
図4は、本実施形態に係るWebページ評価装置1の評価対象Webページと比較対象Webページの関係を対応付けてコピー情報テーブルに記憶する処理のフローチャートである。
[Control Flow of Web Page Evaluation Apparatus 1]
Next, the control flow of the web
FIG. 4 is a flowchart of processing for storing the relationship between the evaluation target Web page and the comparison target Web page in the copy information table in the Web
ステップS11では、評価対象Webページ読み出し処理を行う。この処理において、評価対象Webページ読み出し手段10(図1参照)は、コンテンツDB100(図1参照)から評価指標を算出する対象となる評価対象Webページを読み出す。 In step S11, an evaluation target Web page reading process is performed. In this process, the evaluation target web page reading means 10 (see FIG. 1) reads out the evaluation target web page from which the evaluation index is calculated from the content DB 100 (see FIG. 1).
ステップS12では、比較対象Webページ読み出し処理を行う。この処理において、比較対象Webページ読み出し手段211(図1参照)は、コンテンツDB100(図1参照)から評価対象Webページとの比較対象となる比較対象Webページを読み出す。 In step S12, a comparison target web page reading process is performed. In this process, the comparison target web page reading unit 211 (see FIG. 1) reads out the comparison target web page to be compared with the evaluation target web page from the content DB 100 (see FIG. 1).
ステップS13では、類似コンテンツ特定処理を行う。この処理において、類似コンテンツ特定手段212(図1参照)は、評価対象Webページと、比較対象Webページと、を対比することにより、評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する比較対象Webページの少なくとも一部と、を特定し、これらの類似度とともに記憶する。 In step S13, a similar content specifying process is performed. In this process, the similar content specifying unit 212 (see FIG. 1) compares at least a part of the evaluation target Web page with the predetermined Web page by comparing the evaluation target Web page with the comparison target Web page. At least a part of the comparison target web page having a similarity degree equal to or higher than a threshold is specified and stored together with these similarity degrees.
ステップS14では、編集日時推定処理を行う。この処理において、編集日時推定手段22(図1参照)は、ステップS13で類似コンテンツ特定手段212(図1参照)が特定した、評価対象Webページの一部が編集された基準日時と、比較対象Webページの一部が編集された基準日時と、を推定する。 In step S14, an edit date estimation process is performed. In this processing, the editing date / time estimating means 22 (see FIG. 1) is compared with the reference date / time specified by the similar content specifying means 212 (see FIG. 1) in step S13, which is a part of the evaluation target web page edited, and the comparison target. A reference date and time when a part of the Web page is edited is estimated.
ステップS15では、コピー関係判断処理を行う。この処理において、コピー関係判断手段23(図1参照)は、ステップS14で編集日時推定手段22(図1参照)が推定した、評価対象Webページの一部が編集された基準日時より、比較対象Webページの一部が編集された基準日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断する。また、この処理において、コピー関係判断手段23は、比較対象Webページの一部をコピーして作成されたと判断した評価対象Webページの一部をコピー範囲とし、当該評価対象Webページに、比較対象Webページと、評価対象Webページにおけるコピー範囲の開始位置及びコピー範囲の終了位置と、当該評価対象Webページと比較対象Webページの類似度と、を対応付けてコピー関係記憶手段25(図1参照)のコピー情報テーブル(図3参照)に記憶する。
In step S15, a copy relation determination process is performed. In this process, the copy relation determining means 23 (see FIG. 1) is compared with the reference date and time estimated by the editing date and time estimating means 22 (see FIG. 1) in step S14 and a part of the evaluation target web page is edited. When the reference date and time when a part of the Web page is edited is old, it is determined that a part of the evaluation target Web page is created by copying a part of the comparison target Web page. Further, in this process, the copy
ステップS16では、全てのWebページのコピー関係判断が終了したか否かを判定する。この処理において、繰り返し手段20(図1参照)は、類似関係特定手段21、編集日時推定手段22及びコピー関係判断手段23によるステップS12〜ステップS15の処理をコンテンツDB100に記憶された、評価対象Webページを除く全てのWebページについて行ったか否かを判断する。繰り返し手段20は、全てのWebページについて行っていない場合にはステップS12に処理を戻し、全てのWebページについて行った場合には本ルーチンを終了する。
In step S16, it is determined whether or not the copy relation determination for all Web pages has been completed. In this process, the repetition unit 20 (see FIG. 1) is configured to execute the processing of steps S12 to S15 by the similarity
図5は、本実施形態に係るWebページ評価装置1の評価対象Webページの評価指標の減点、比較対象Webページの評価指標の加点処理のフローチャートである。
ステップS20では、評価対象Webページ評価指標減点処理を行う。この処理において、評価指標減点手段32(図1参照)は、評価対象Webページの評価指標を減点する。評価対象Webページ評価指標減点処理について、図6を参照して詳細に説明する。
図6は、評価指標減点手段32による評価対象Webページの評価指標を減点する処理のフローチャートである。
FIG. 5 is a flowchart of the evaluation index deduction of the evaluation target Web page and the evaluation index addition process of the comparison target Web page of the Web
In step S20, evaluation target Web page evaluation index deduction processing is performed. In this process, the evaluation index deduction means 32 (see FIG. 1) deducts the evaluation index of the evaluation target Web page. The evaluation target Web page evaluation index deduction process will be described in detail with reference to FIG.
FIG. 6 is a flowchart of a process for deducting the evaluation index of the evaluation target Web page by the evaluation index deduction means 32.
ステップS21では、割合算出処理を行う。この処理において、割合算出手段321(図1参照)は、コピー関係判断手段23(図1参照)がコピー関係記憶手段25(図1参照)に記憶したコピー情報テーブル(図3参照)を参照して、評価対象Webページにおける、コピーして作成されたと判断されたコピー範囲が、比較範囲の単位において占める割合を算出する。 In step S21, a ratio calculation process is performed. In this processing, the ratio calculation means 321 (see FIG. 1) refers to the copy information table (see FIG. 3) stored in the copy relation storage means 25 (see FIG. 1) by the copy relation determination means 23 (see FIG. 1). Thus, the ratio of the copy range determined to be copied and created in the evaluation target Web page in the unit of the comparison range is calculated.
ステップS22では、減点処理を行う。この処理において、減点手段322(図1参照)は、注目度や検索頻度等の所定の評価項目に基づいて算出された評価対象Webページの評価指標を、ステップS21で割合算出手段321が算出した割合に応じて減点し、この減点して算出した評価指標と、当該評価対象WebページのURLとを対応付けてインデックスDB200(図1参照)に記憶させる。 In step S22, a deduction process is performed. In this process, the deduction means 322 (see FIG. 1) calculates the evaluation index of the evaluation target Web page calculated based on predetermined evaluation items such as the degree of attention and the search frequency in step S21 by the ratio calculation means 321. Points are deducted according to the ratio, and the evaluation index calculated by deducting the points and the URL of the evaluation target Web page are associated with each other and stored in the index DB 200 (see FIG. 1).
図5に戻って、ステップS30では、比較対象Webページ評価指標加点処理を行う。この処理において、評価指標加点手段33(図1参照)は、比較対象Webページの評価指標を加点する。比較対象Webページ評価指標加点処理について、図7を参照して詳細に説明する。
図7は、評価指標加点手段33による比較対象Webページの評価指標を加点する処理のフローチャートである。
Returning to FIG. 5, in step S <b> 30, comparison target Web page evaluation index addition processing is performed. In this process, the evaluation index adding means 33 (see FIG. 1) adds the evaluation index of the comparison target web page. The comparison target Web page evaluation index adding process will be described in detail with reference to FIG.
FIG. 7 is a flowchart of a process for adding the evaluation index of the comparison target Web page by the evaluation index adding means 33.
ステップS31では、比較対象Webページ間で重複するか否かを判定する。この処理において、重複度合い算出手段331(図1参照)は、コピー関係記憶手段25(図1参照)に記憶されたコピー情報テーブル(図3参照)を参照して、評価対象Webページにおいて、コピー関係判断手段23(図1参照)が比較対象Webページの一部をコピーして作成されたと判断した部分(コピー範囲)が複数の比較対象Webページ間で重複しているか否かを判断する。重複度合い算出手段331は、重複していると判断した場合にはステップS32に処理を移し、重複していないと判断した場合には、ステップS34に処理を移す。
In step S31, it is determined whether or not comparison target Web pages overlap. In this process, the duplication degree calculation means 331 (see FIG. 1) refers to the copy information table (see FIG. 3) stored in the copy relation storage means 25 (see FIG. 1), and copies it on the evaluation target Web page. It is determined whether or not the part (copy range) determined by the relationship determining unit 23 (see FIG. 1) to have been created by copying a part of the comparison target Web page is duplicated among the plurality of comparison target Web pages. The overlapping
ステップS32では、重複度合い算出処理を行う。この処理において、重複度合い算出手段331(図1参照)は、コピー関係記憶手段25(図1参照)に記憶されたコピー情報テーブル(図3参照)を参照して、重複度合いを算出する。 In step S32, an overlap degree calculation process is performed. In this process, the duplication degree calculation unit 331 (see FIG. 1) calculates the duplication degree with reference to the copy information table (see FIG. 3) stored in the copy relation storage unit 25 (see FIG. 1).
ステップS33では、加点対象Webページ特定処理を行う。この処理において、加点対象Webページ特定手段332(図1参照)は、コピー関係記憶手段25(図1参照)に記憶されたコピー情報テーブル(図3参照)を参照して、重複している比較対象Webページの一部が編集された日時が最も古い比較対象Webページを特定する。 In step S33, a point addition Web page specifying process is performed. In this process, the point addition Web page specifying unit 332 (see FIG. 1) refers to the copy information table (see FIG. 3) stored in the copy relation storage unit 25 (see FIG. 1), and the comparison is repeated. The comparison target Web page with the oldest date and time when a part of the target Web page is edited is specified.
ステップS34では、加点処理を行う。この処理において、加点手段333(図1参照)は、ステップS32で重複度合い算出手段331(図1参照)が算出した重複の度合い及びステップS33における加点対象Webページ特定手段332の特定に基づき、比較対象Webページの評価指標を加点し、この加点して算出した評価指標と、当該比較対象WebページのURLとを対応付けてインデックスDB200に記憶させる。また、加点手段333は、ステップS31で比較対象Webページ間で重複していないと判断した場合には、全ての加点を一つの比較対象Webページの評価指標に加点し、当該比較対象WebページのURLとを対応付けてインデックスDB200に記憶させる。
In step S34, a point addition process is performed. In this process, the scoring means 333 (see FIG. 1) compares based on the degree of duplication calculated by the duplication degree calculation means 331 (see FIG. 1) in step S32 and the identification of the scoring target Web page specifying means 332 in step S33. The evaluation index of the target web page is added, and the evaluation index calculated by adding the score and the URL of the comparison target web page are stored in the
本実施形態に係るWebページ評価装置1によれば、以下のような作用効果がある。
類似関係特定手段21は、Webページを記憶したコンテンツDB100から評価指標を算出する対象となる評価対象Webページを読み出して、この評価対象Webページと、コンテンツDB100に記憶された他のWebページである比較対象Webページと、を対比することにより、評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する比較対象Webページの少なくとも一部と、を特定する。
編集日時推定手段22は、類似関係特定手段21が特定した、評価対象Webページの一部が編集された日時と、比較対象Webページの一部が編集された日時と、を推定する。
コピー関係判断手段23は、編集日時推定手段22が推定した、評価対象Webページの一部が編集された日時より、比較対象Webページの一部が編集された日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断する。
繰り返し手段20は、類似関係特定手段21、編集日時推定手段22及びコピー関係判断手段23の処理をコンテンツDB100に記憶された全てのWebページについて行う。
評価指標減点手段32は、評価対象Webページにおける、コピー関係判断手段23によりコピーして作成されたと判断された一部が占める割合を算出して、当該割合に応じて評価対象Webページの評価指標を減点する。
According to the Web
The similarity
The editing date / time estimating means 22 estimates the date / time when a part of the evaluation target Web page specified by the similarity
The copy
The
The evaluation
これにより、評価対象Webページの一部が編集された日時より比較対象Webページの類似部分の一部が編集された日時が古い場合に、評価対象Webページの一部は比較対象Webページの一部をコピーして作成されたと判断して、このコピーして作成されたと判断された一部が占める割合に応じて、当該評価対象Webページの評価指標を減点できる。
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供できる。
Thereby, when the date and time when a part of the similar part of the comparison target Web page is edited is older than the date and time when the part of the evaluation target Web page is edited, a part of the evaluation target Web page is a part of the comparison target Web page. The evaluation index of the evaluation target Web page can be deducted in accordance with the ratio of the part determined to have been created by copying the copy.
Therefore, by subtracting the evaluation index of the web page created by copying another web page, the copy relationship is accurately expressed, and as a result, the web created by copying the other web page in the search service It is possible to provide a web page evaluation apparatus that can prevent a page from being ranked higher than a web page that is a copy source.
また、評価指標加点手段33は、コピー関係判断手段23が評価対象Webページの一部が比較対象Webページの一部をコピーして作成されたと判断した比較対象Webページの評価指標を加点する。
これにより、比較対象Webページの一部をコピーして作成されたと判断された評価対象Webページの評価指標からコピーして作成されたと判断された一部が占める割合に応じて評価指標を減点できるとともに、当該一部がコピーされたと判断された比較対象Webページの評価指標に加点できる。
Further, the evaluation index adding means 33 adds an evaluation index of the comparison target Web page that the copy relation determination means 23 determines that a part of the evaluation target Web page is created by copying a part of the comparison target Web page.
As a result, the evaluation index can be deducted according to the proportion of the part determined to be copied and created from the evaluation index of the evaluation target Web page determined to be created by copying a part of the comparison target Web page. In addition, points can be added to the evaluation index of the comparison target Web page that is determined to have been partially copied.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、他のWebページをコピーされたコピー元のWebページの評価指標を加点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止することができるWebページ評価装置を提供できる。 Therefore, by subtracting the evaluation index of the Web page created by copying another Web page, and adding the evaluation index of the copy-source Web page copied from the other Web page, the copy relationship is accurately expressed. As a result, there is provided a web page evaluation device that can prevent a web page created by copying another web page in the search service from being ranked higher than the web page of the copy source. Can be provided.
また、評価指標加点手段33は、評価対象Webページにおいて、コピー関係判断手段23が比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、当該重複の度合いが大きいほど比較対象Webページの前記評価指標の加点を減ずる。
これにより、評価対象Webページにおいて、比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、当該重複の度合いが大きいほど比較対象Webページの評価指標の加点を減ずることができる。
In addition, the evaluation index adding means 33 is a case where the portions of the evaluation target Web page that the copy relation determination means 23 determines to be created by copying a part of the comparison target Web page overlap between the comparison target Web pages. In addition, as the degree of overlap is larger, the score of the evaluation index of the comparison target Web page is reduced.
As a result, in the evaluation target web page, when a portion determined to be created by copying a part of the comparison target web page is duplicated between the comparison target web pages, the comparison target web is increased as the degree of duplication increases. You can reduce the score of the page evaluation index.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、コピー元のWebページが複数ある場合であっても、コピー元のWebページの評価指標の加点を減ずることで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止するとともに、コピー元のWebページ間のランキングの適正化を図ることができるWebページ評価装置を提供できる。 Therefore, the evaluation index of a Web page created by copying another Web page is deducted, and even if there are a plurality of copy-source Web pages, the evaluation index of the copy-source Web page is reduced. In addition, the copy relationship is accurately expressed, and as a result, the Web page created by copying the other Web page in the search service is prevented from being ranked higher than the copy-source Web page. Thus, it is possible to provide a web page evaluation apparatus that can optimize the ranking between copy source web pages.
また、評価指標加点手段33は、評価対象Webページにおいて、コピー関係判断手段23が比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、重複している比較対象Webページの一部が編集された日時が最も古い前記比較対象Webページのみについて評価指標を加点する。
これにより、評価対象Webページにおいて、比較対象Webページの一部をコピーして作成されたと判断した部分が比較対象Webページ間で重複している場合に、重複している比較対象Webページの一部が編集された日時が最も古い比較対象Webページのみについて評価指標を加点できる。
In addition, the evaluation index adding means 33 is a case where the portions of the evaluation target Web page that the copy relation determination means 23 determines to be created by copying a part of the comparison target Web page overlap between the comparison target Web pages. In addition, an evaluation index is added only to the comparison target Web page having the oldest date and time when a part of the overlapping comparison target Web page is edited.
As a result, in the evaluation target web page, when a portion determined to be created by copying a part of the comparison target web page is duplicated between the comparison target web pages, one of the duplicate comparison target web pages is displayed. The evaluation index can be added only to the comparison target Web page with the oldest date and time when the part was edited.
したがって、他のWebページをコピーして作成されたWebページの評価指標を減点し、コピー元のWebページが複数ある場合であっても、編集された日時が最も古いコピー元のWebページにのみ加点することで、コピー関係を的確に表現し、結果として検索サービスにおいて当該他のWebページをコピーして作成されたWebページがコピー元のWebページに対して相対的に上位にランキングされるのを抑止するとともに、コピー元のWebページ間のランキングの適正化を図ることができるWebページ評価装置を提供できる。 Therefore, the evaluation index of a web page created by copying another web page is deducted, and even when there are a plurality of copy source web pages, only the copy source web page with the oldest edited date is used. By adding points, the copy relationship is accurately expressed, and as a result, the Web page created by copying the other Web page in the search service is ranked relatively higher than the copy source Web page. It is possible to provide a Web page evaluation apparatus that can suppress the above and optimize the ranking between copy-source Web pages.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 Webページ評価装置
20 繰り返し手段
21 類似関係特定手段
22 編集日時推定手段
23 コピー関係判断手段
32 評価指標減点手段
100 コンテンツDB
DESCRIPTION OF
Claims (5)
Webページを記憶したWebページ記憶手段から前記評価指標を算出する対象となる評価対象Webページを読み出して、前記評価対象Webページと、前記Webページ記憶手段に記憶された他のWebページである比較対象Webページと、を対比することにより、前記評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する前記比較対象Webページの少なくとも一部と、を特定する類似関係特定手段と、
前記類似関係特定手段が特定した、前記評価対象Webページの前記一部が編集された日時と、前記比較対象Webページの前記一部が編集された日時と、を推定する編集日時推定手段と、
前記編集日時推定手段が推定した、前記評価対象Webページの前記一部が編集された日時より、前記比較対象Webページの前記一部が編集された日時が古い場合に、前記評価対象Webページの前記一部は前記比較対象Webページの前記一部をコピーして作成されたと判断するコピー関係判断手段と、
前記類似関係特定手段、前記編集日時推定手段及び前記コピー関係判断手段の処理をWebページ記憶手段に記憶された全ての前記Webページについて行う繰り返し手段と、
前記評価対象Webページにおける、前記コピー関係判断手段によりコピーして作成されたと判断された前記一部が占める割合を算出して、当該割合に応じて前記評価対象Webページの前記評価指標を減点する評価指標減点手段と、を備えるWebページ評価装置。 A web page evaluation apparatus for calculating an evaluation index of a web page,
Read the evaluation target Web page from which the evaluation index is calculated from the Web page storage unit that stores the Web page, and compare the evaluation target Web page with another Web page stored in the Web page storage unit Similarity that identifies at least a part of the evaluation target Web page and at least a part of the comparison target Web page having a similarity equal to or higher than a predetermined threshold by comparing the target Web page Relationship identification means;
An editing date and time estimating means for estimating the date and time when the part of the evaluation target Web page was edited and the date and time when the part of the comparison target Web page was edited, which was specified by the similarity relation specifying means;
If the date and time when the part of the comparison target web page was edited is older than the date and time when the part of the evaluation target web page was edited, which was estimated by the editing date and time estimation means, Copy relation determination means for determining that the part is created by copying the part of the comparison Web page;
Repetitive means for performing processing of the similarity relation specifying means, the editing date and time estimation means, and the copy relation determination means for all the web pages stored in the web page storage means;
The ratio of the part determined to be copied and created by the copy relation determination means in the evaluation target Web page is calculated, and the evaluation index of the evaluation target Web page is deducted according to the ratio. A web page evaluation device comprising evaluation index deduction means.
Webページを記憶したWebページ記憶手段から前記評価指標を算出する対象となる評価対象Webページを読み出して、前記評価対象Webページと、前記Webページ記憶手段に記憶された他のWebページである比較対象Webページと、を対比することにより、前記評価対象Webページの少なくとも一部と、当該一部と所定の閾値以上の類似度を有する前記比較対象Webページの少なくとも一部と、を特定する類似関係特定ステップと、
前記類似関係特定ステップで特定した、前記評価対象Webページの前記一部が編集された日時と、前記比較対象Webページの前記一部が編集された日時と、を推定する編集日時推定ステップと、
前記編集日時推定ステップで推定した、前記評価対象Webページの前記一部が編集された日時より、前記比較対象Webページの前記一部が編集された日時が古い場合に、前記評価対象Webページの前記一部は前記比較対象Webページの前記一部をコピーして作成されたと判断するコピー関係判断ステップと、
前記類似関係特定ステップ、前記編集日時推定ステップ及び前記コピー関係判断ステップをWebページ記憶手段に記憶された全ての前記Webページについて行う繰り返しステップと、
前記評価対象Webページにおける、前記コピー関係判断ステップによりコピーして作成されたと判断された前記一部が占める割合を算出して、当該割合に応じて前記評価対象Webページの前記評価指標を減点する評価指標減点ステップと、を備えるWebページ評価方法。 A web page evaluation method executed by a computer that calculates a web page evaluation index,
Read the evaluation target Web page from which the evaluation index is calculated from the Web page storage unit that stores the Web page, and compare the evaluation target Web page with another Web page stored in the Web page storage unit Similarity that identifies at least a part of the evaluation target Web page and at least a part of the comparison target Web page having a similarity equal to or higher than a predetermined threshold by comparing the target Web page A relationship identification step;
An editing date and time estimation step for estimating the date and time when the part of the evaluation target Web page was edited and the date and time when the part of the comparison target Web page was edited, which was specified in the similarity relationship specifying step;
If the date and time when the part of the comparison target web page was edited is older than the date and time when the part of the evaluation target web page was edited, which was estimated in the editing date and time estimation step, A copy relationship determination step for determining that the part is created by copying the part of the comparison target Web page;
A repetition step of performing the similarity relationship specifying step, the editing date / time estimation step, and the copy relationship determination step for all the web pages stored in the web page storage means;
The ratio of the part determined to be copied and created in the copy relation determination step in the evaluation target Web page is calculated, and the evaluation index of the evaluation target Web page is deducted according to the ratio. A web page evaluation method comprising: an evaluation index deduction step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010284932A JP5225369B2 (en) | 2010-12-21 | 2010-12-21 | Web page evaluation apparatus and Web page evaluation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010284932A JP5225369B2 (en) | 2010-12-21 | 2010-12-21 | Web page evaluation apparatus and Web page evaluation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012133578A JP2012133578A (en) | 2012-07-12 |
JP5225369B2 true JP5225369B2 (en) | 2013-07-03 |
Family
ID=46649107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010284932A Expired - Fee Related JP5225369B2 (en) | 2010-12-21 | 2010-12-21 | Web page evaluation apparatus and Web page evaluation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5225369B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024058295A1 (en) * | 2022-09-14 | 2024-03-21 | 쿠팡 주식회사 | Method and device for providing report about page |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015011985A1 (en) * | 2013-07-25 | 2015-01-29 | ソニー株式会社 | Information processing device, method, and program |
KR101725450B1 (en) * | 2015-10-26 | 2017-04-11 | 고려대학교 산학협력단 | Reputation management system provides safety in html5 and method of the same |
JP2020187639A (en) * | 2019-05-16 | 2020-11-19 | 富士ゼロックス株式会社 | Information processing device and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077543A (en) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | Report reference source information acquiring device, report reference source information acquiring method and report reference source information acquisition program |
JP5151368B2 (en) * | 2007-09-28 | 2013-02-27 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
JP2009151373A (en) * | 2007-12-18 | 2009-07-09 | Nec Corp | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
JP4429356B2 (en) * | 2007-12-26 | 2010-03-10 | 富士通株式会社 | Attribute extraction processing method and apparatus |
JP5216654B2 (en) * | 2009-03-27 | 2013-06-19 | Kddi株式会社 | Importance determination device, importance determination method, and program |
-
2010
- 2010-12-21 JP JP2010284932A patent/JP5225369B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024058295A1 (en) * | 2022-09-14 | 2024-03-21 | 쿠팡 주식회사 | Method and device for providing report about page |
Also Published As
Publication number | Publication date |
---|---|
JP2012133578A (en) | 2012-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5329680B2 (en) | Web page rating | |
JP5425140B2 (en) | System and method for providing search results | |
US11443005B2 (en) | Unsupervised clustering of browser history using web navigational activities | |
WO2015054218A1 (en) | Contextual insights and exploration | |
US20130110824A1 (en) | Configuring a custom search ranking model | |
JP2014241034A (en) | Device, method and program to retrieve sentence | |
CN103729356B (en) | Web page address reminding method and device | |
JP5225369B2 (en) | Web page evaluation apparatus and Web page evaluation method | |
US20200278989A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20120131460A1 (en) | Playlist Creation | |
US9208135B1 (en) | Tools to increase site performance | |
US8667296B1 (en) | Generating a password from a media item | |
US9201951B2 (en) | System and method for providing search results | |
WO2017172373A1 (en) | Search navigation element | |
JP2008117351A (en) | Search system | |
US8782214B1 (en) | Limiting site latencies and page weights | |
JP2012088940A (en) | Information processor, information processing method, and program | |
JP5647509B2 (en) | Method and system for selecting representative image when removing duplicate images | |
US20170300995A1 (en) | System and method to optimize cluster inventory | |
JP2022145367A (en) | Method and electronic device for providing item-related information | |
JP2012027841A (en) | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium | |
US20150074092A1 (en) | Method of Ranking Place Names, System of Ranking Place Names, and Non-Transitory Computer-Readable Storage Medium Thereof | |
JP7492994B2 (en) | Search result providing method, system, and computer program | |
JP2013109698A (en) | Item recommendation apparatus, item recommendation method and program | |
JP7509799B2 (en) | Input display system, auxiliary information display method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5225369 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |