JP2005135139A - Structural analysis system - Google Patents

Structural analysis system Download PDF

Info

Publication number
JP2005135139A
JP2005135139A JP2003369973A JP2003369973A JP2005135139A JP 2005135139 A JP2005135139 A JP 2005135139A JP 2003369973 A JP2003369973 A JP 2003369973A JP 2003369973 A JP2003369973 A JP 2003369973A JP 2005135139 A JP2005135139 A JP 2005135139A
Authority
JP
Japan
Prior art keywords
page
word
web page
character string
analysis system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003369973A
Other languages
Japanese (ja)
Inventor
Yoshihiko Uno
仁彦 羽野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Co Ltd
Original Assignee
Recruit Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Co Ltd filed Critical Recruit Co Ltd
Priority to JP2003369973A priority Critical patent/JP2005135139A/en
Publication of JP2005135139A publication Critical patent/JP2005135139A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To check the appropriateness of web pages and a web site that is an aggregate of the web pages, ie., to see if items desired to be shown on the web pages or the web site are shown appropriately. <P>SOLUTION: This structural analysis system 10 for analyzing structures of web pages or the structure of a web site that is an aggregate of the web pages includes a page acquisition part 14 for acquiring the web pages from a web page DB 12 that stores the web pages; a page analysis part 16 for analyzing the structures of the web pages acquired to specify at least positions where the web pages are processed or character strings with predetermined roles and words constituting the character strings; and a word counting/comparing part 18 for counting the words that appear to constitute each character string and for storing and presenting the counting result. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、ウェブページやウェブサイトの構造を解析するシステムに関する。   The present invention relates to a system for analyzing the structure of a web page or a website.

インターネットの普及により著しく多数のサイトが存在するため、ユーザは、所望のサイトにアクセスするために検索エンジンを備えたサイト(検索サイト)を利用する場合が多い。基本的には、ユーザが所望の情報に関連するキーワードを入力すると、検索サイトの検索エンジンが、当該キーワードに関連性の高いサイトのページのURLをユーザに提示できるようになっている。
この検索エンジンにおいては、サイトを構成するページの重要度を判断して、ユーザに提示するページの順序が決定されているといわれている(非特許文献1)。
馬場 肇、“Googleの秘密−PageRank徹底解説”、[online]、平成13年2月1日、平成15年7月9日検索、<URL:http://www.kusastro.kyoto-u.as.jp/~baba/wais/pagerank.html>
Since there are a remarkably large number of sites due to the spread of the Internet, a user often uses a site (search site) equipped with a search engine in order to access a desired site. Basically, when the user inputs a keyword related to desired information, the search engine of the search site can present the URL of the page of the site highly relevant to the keyword to the user.
In this search engine, it is said that the order of pages to be presented to the user is determined by determining the importance of the pages constituting the site (Non-Patent Document 1).
Satoshi Baba, “Google's Secret-PageRank Thorough Explanation”, [online], February 1, 2001, July 9, 2003 search, <URL: http://www.kusastro.kyoto-u.as .jp / ~ baba / wais / pagerank.html>

サイトの運営者にとっては、より多くのユーザがサイト中のページを閲覧する状況が望ましい。このため、検索サイトの検索結果において、自己のサイトのページが上位に位置することが重要となる。このために、運営者は、自己のサイトのページが、検索結果において上位に位置するようなページ構成や用語の選択をなす必要がある。   For the site operator, a situation where more users browse the pages in the site is desirable. For this reason, in the search result of the search site, it is important that the page of the own site is positioned higher. For this reason, the operator needs to select a page configuration and a term so that the page of his / her site is positioned higher in the search result.

さらに、サイトの運営者にとっては、サイトを構成するウェブページ中の単語の用法が、サイトを適切に表しているかを知ることができればなお望ましい。たとえば、ページタイトルが、実際のページの内容に即していれば、そのページが伝えたいことがより明確化することができる。   Furthermore, it is still desirable for the site operator to know whether the usage of words in the web pages constituting the site appropriately represents the site. For example, if the page title is in line with the actual content of the page, it can be made clear that the page wants to convey.

しかしながら、従来、ウェブページの重要度を算出することはできたが、ウェブページの適切性を評価することができなかった。
本発明は、ウェブページおよびウェブページの集合体であるウェブサイトの適切性、すなわち、ウェブページやウェブサイトにて表したい事項がウェブページに適切に表されているかを知ることができる構造解析システムを提供することを目的とする。
However, conventionally, the importance of a web page could be calculated, but the appropriateness of the web page could not be evaluated.
The present invention relates to a structural analysis system capable of knowing the appropriateness of a web page and a website as a collection of web pages, that is, whether a web page or a matter to be represented on the website is appropriately represented on the web page. The purpose is to provide.

本発明の目的は、ウェブページ或いは当該ウェブページの集合体であるウェブサイトの構造を解析する構造解析システムであって、前記ウェブページを記憶したウェブページデータベースからウェブページを取得するページ取得手段と、ページ取得手段により取得されたウェブページの構造を解析し、少なくともウェブページの処理の位置或いは所定の役割をもつ文字列および当該文字列を構成する単語を特定するページ構造解析手段と、前記文字列のそれぞれについて、文字列を構成する単語の出現数を計数し、計数結果を記憶するとともに、これを提示する計数手段とを備えたことを特徴とする構造解析システムにより達成される。   An object of the present invention is a structural analysis system for analyzing the structure of a web page or a website as a collection of the web pages, and a page acquisition means for acquiring a web page from a web page database storing the web page; Analyzing the structure of the web page acquired by the page acquisition means, and specifying at least the position of the processing of the web page or the character string having a predetermined role and the words constituting the character string; and the character This is achieved by a structural analysis system characterized in that for each of the columns, the number of occurrences of words constituting the character string is counted, the counting result is stored, and counting means for presenting the counting result is provided.

なお、各ウェブページの計数手段による計数結果を統合することにより、ウェブページの集合体であるウェブサイトの構造を知ることができる。   In addition, by integrating the counting results of the counting means of each web page, it is possible to know the structure of the website that is a collection of web pages.

好ましい実施態様においては、前記ページ構造解析手段が、前記ウェブページの属性ごとの類義語リストを参照して、類義語を特定の単一の単語に統一するように構成されている。
また、好ましい実施態様においては、前記ページ構造解析手段が、ページタイトル、リンクのアンカーテキスト、および/または、強調タグ中の文字列および当該文字列を構成する単語を特定する。前記計数手段は、たとえば、各単語の出現数および出現比率を算出する。
In a preferred embodiment, the page structure analyzing means is configured to refer to a synonym list for each attribute of the web page and unify synonyms into a specific single word.
In a preferred embodiment, the page structure analyzing means specifies a page title, a link anchor text, and / or a character string in an emphasis tag and words constituting the character string. The counting means calculates, for example, the number of appearances and the appearance ratio of each word.

別の好ましい実施態様においては、さらに、前記文字列中において所定の単語を特定し、当該単語に関する順位相関を表わす値を算出する順位相関算出手段を備えている。順位相関算出システムは、さらに、前記計数手段による当該単語の計数結果および前記順位相関を表わす値を統合した他の指標を算出するように構成しても良い。   In another preferred embodiment, there is further provided rank correlation calculating means for specifying a predetermined word in the character string and calculating a value representing rank correlation related to the word. The rank correlation calculation system may further be configured to calculate another index obtained by integrating the count result of the word by the counting means and a value representing the rank correlation.

本発明によれば、ウェブページおよびウェブページの集合体であるウェブサイトの適切性、すなわち、ウェブページやウェブサイトにて表したい事項がウェブページに適切に表されているかを知ることができる構造解析システムを提供することが可能である。   ADVANTAGE OF THE INVENTION According to this invention, the structure which can know the appropriateness of the website which is a web page and the aggregate of a web page, ie, the web page and the matter to express on a website are appropriately represented on the web page An analysis system can be provided.

以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の実施の形態にかかる構造解析システムの概略を示すブロックダイヤグラムである。図1に示すように、この構造解析システム10は、ウェブページを蓄積したウェブページDB12と、ウェブページDB12中のウェブページを取得するページ取得部14と、取得したウェブページを解析するページ解析部16と、解析結果に基づいて所定の単語の計数など、構造の評価に必要な処理を実行する単語数計数/比較部18と、単語数計数/比較部18の比較結果などを記憶する結果記憶部20とを備えている。   Embodiments of the present invention will be described below with reference to the accompanying drawings. FIG. 1 is a block diagram showing an outline of a structural analysis system according to an embodiment of the present invention. As shown in FIG. 1, the structural analysis system 10 includes a web page DB 12 that stores web pages, a page acquisition unit 14 that acquires web pages in the web page DB 12, and a page analysis unit that analyzes the acquired web pages. 16 and a result storage for storing a word count / comparison unit 18 that performs processing necessary for structure evaluation, such as counting a predetermined word based on the analysis result, and a comparison result of the word count / comparison unit 18. Part 20.

本実施の形態においては、ウェブページごとに、ページを解析し、解析結果に基づく構造の評価を行っているが、これに限定されることはなく、複数のウェブページからなるウェブサイトについても、それぞれのウェブページの評価を算出して、その評価結果から当該サイトの評価を取得することもできる。   In this embodiment, for each web page, the page is analyzed, and the structure is evaluated based on the analysis result. However, the present invention is not limited to this, and a website composed of a plurality of web pages It is also possible to calculate the evaluation of each web page and obtain the evaluation of the site from the evaluation result.

本実施の形態にかかる構造解析システムは、パーソナルコンピュータに、必要なプログラムをインストールし、当該プログラムを起動してパーソナルコンピュータを動作させることにより実現できる。このプログラムは、CD−ROMやDVD−ROMなどに記憶されていてもよいし、ネットワークを介してパーソナルコンピュータにダウンロードされても良い。   The structural analysis system according to the present embodiment can be realized by installing a necessary program in a personal computer, starting the program, and operating the personal computer. This program may be stored in a CD-ROM or DVD-ROM, or may be downloaded to a personal computer via a network.

図2は、本実施の形態にかかる構造評価システムにて実行される処理の概略を示すフローチャートである。図2に示すように、構造評価システム10においては、まず、ページ取得部14が、ウェブページDB12から所定のウェブページを取得する(ステップ201)。次いで、ページ解析部16が、取得されたウェブページ中、不要なタグ(たとえば、ALT、<.A>など)を除去した上で、ページ構造を解析する(ステップ202)。ページ構造の解析においては、ページタイトル、リンクのアンカーテキスト、強調タグなどに相当する文字列が特定される。   FIG. 2 is a flowchart showing an outline of processing executed in the structure evaluation system according to the present embodiment. As shown in FIG. 2, in the structure evaluation system 10, first, the page acquisition unit 14 acquires a predetermined web page from the web page DB 12 (step 201). Next, the page analysis unit 16 removes unnecessary tags (for example, ALT, <.A>, etc.) from the acquired web page, and then analyzes the page structure (step 202). In the analysis of the page structure, a character string corresponding to a page title, a link anchor text, an emphasis tag, and the like is specified.

次いで、それぞれの文字列について形態素解析が施される(ステップ203)。形態素解析においては、文字列が品詞ごとに分解される。その後、ページ解析部16はステミング処理を実行し、不要な品詞の除去や、語幹となる検索語への統一などが行われる(ステップ204)。たとえば、あるテーマ(ウェブページの属性などにしたがったテーマ)ごとに、類義語リストが設けられ、類義語が、代表する単一の単語に統一される処理が実行されても良い。このような処理の後、単語数計数/比較部18による計数/比較処理が実行される(ステップ205)。   Next, morphological analysis is performed on each character string (step 203). In morphological analysis, a character string is decomposed for each part of speech. Thereafter, the page analysis unit 16 performs a stemming process to remove unnecessary parts of speech and to unify the search words that are the stems (step 204). For example, a synonym list may be provided for each theme (theme according to the attributes of the web page), and the process of unifying synonyms into a single representative word may be executed. After such processing, counting / comparison processing by the word count / comparison unit 18 is executed (step 205).

本実施の形態において、計数/比較処理においては、主として2つの処理が実行される。
第1の処理では、ページ構造中、所定の位置或いは所定の役割を持つ文字列中の単語を計数する。この計数値は第1の指標値として利用される。また、第2の処理では、前記所定の位置や役割を持つ単語の周辺の単語をそれぞれ調べ、当該単語を含む他の文字列中の単語との間の順位相関をとって、順位相関に基づく第2の指標値を算出する。
In the present embodiment, two processes are mainly executed in the counting / comparison process.
In the first process, words in a character string having a predetermined position or a predetermined role in the page structure are counted. This count value is used as the first index value. Further, in the second process, each word around the word having the predetermined position and role is examined, and the rank correlation with the words in other character strings including the word is taken, and based on the rank correlation. A second index value is calculated.

本実施の形態においては、ウェブページ中、ページタイトル、リンクのアンカーテキストおよび強調タグ内の単語が、第1の処理にて計数される。たとえば、ページタイトル、リンクのアンカーテキスト、強調タグ内のそれぞれの単語の出現数の総和や、全単語中の当該単語の出現割合などが算出され、これらが結果記憶部20に記憶される。   In the present embodiment, in the web page, the page title, the link anchor text, and the words in the emphasis tag are counted in the first process. For example, the sum of the number of occurrences of each word in the page title, the link anchor text, and the emphasis tag, the appearance ratio of the word in all the words, and the like are calculated and stored in the result storage unit 20.

また、ページタイトル、リンクのアンカーテキストおよび強調タグ内の所定の単語の周辺の単語について順位相関をとることで第2の処理を実現している。以下、第2の処理についてより詳細に説明する。   Further, the second processing is realized by taking a rank correlation with respect to words around a predetermined word in the page title, the link anchor text, and the emphasis tag. Hereinafter, the second process will be described in more detail.

図3は、ウェブページの例を示す図である。このページ300のタイトルは「通信販売美容−くすみについて/イサイズキレイ」である(符号301参照)。単語数計数/比較部18は、この中で、「通信販売」および「美容」という単語に着目する。これは、第1の処理における所定の位置や役割を持つ部分の、単語の計数結果の上位から選択しても良い。   FIG. 3 is a diagram illustrating an example of a web page. The title of this page 300 is “Mail order beauty-About dullness / Isize clean” (see reference numeral 301). Among them, the word count / comparison unit 18 focuses on the words “mail order” and “beauty”. This may be selected from the top of the word count results of the portion having a predetermined position or role in the first process.

次いで、「通信販売」という単語、或いは、「美容」という単語を有する他の文字列が選択される。たとえば、「美容」という単語を含む文字列は、符号302〜305に示すものとなる。これらの文字列について、単語数計数/比較部18は、着目した単語の前後4つずつの単語を取得する。無論、文字列が短い場合には、4つ以下の単語(或いは0個の単語)が特定される場合がある。また、本実施の形態においては、前後4つの単語を特定したがこの数は限定されるものではない。   Next, another character string having the word “mail order” or the word “beauty” is selected. For example, a character string including the word “beauty” is indicated by reference numerals 302 to 305. For these character strings, the word count / comparison unit 18 acquires four words before and after the focused word. Of course, when the character string is short, four or less words (or zero words) may be specified. In the present embodiment, four words are specified before and after, but the number is not limited.

図4に、それぞれの文字列について、単語「美容」の前後4つの単語を特定した例を示す。たとえば、図4(b)に示すように、文字列302については、「美容」という単語が2箇所出てくるため、それぞれについて前後の単語が特定されている。図4において、単語(形態素)の上(或いは下)に配置された数値が、特定の単語である「美容」からの距離、すなわち、順位を表わす。また、図5(a)〜(d)も、それぞれの文字列について単語「通信販売」の前後4つの単語を特定した例を示す。   FIG. 4 shows an example in which four words before and after the word “beauty” are specified for each character string. For example, as shown in FIG. 4B, for the character string 302, two words “beauty” appear, and therefore the preceding and following words are specified for each. In FIG. 4, a numerical value arranged above (or below) a word (morpheme) represents a distance from a specific word “beauty”, that is, a rank. 5A to 5D also show an example in which four words before and after the word “mail order” are specified for each character string.

単語数計数/比較部18は、図4(a)に示すページタイトルにおける「美容」からの各単語の順位と、その他の文字列(図4(b)〜(e)参照)における「美容」からの各単語の順位とを参照して、順位相関を表わす値を算出する。また、図5(a)に示す「通信販売」についても同様に順位相関を表わす値を算出する。順位相関とは、二組の順位の間にどのような関係があるかを調べる手法であり、スピアマンの順位相関係数、ケンドールの順位相関係数、グッドマン・クラスカルのガンマ(γ)などが知られている。   The word count / comparison unit 18 ranks each word from “beauty” in the page title shown in FIG. 4A and “beauty” in other character strings (see FIGS. 4B to 4E). A value representing the rank correlation is calculated with reference to the rank of each word from. Similarly, a value indicating the rank correlation is calculated for “mail order” shown in FIG. Rank correlation is a method for investigating the relationship between two sets of ranks. Spearman's rank correlation coefficient, Kendall's rank correlation coefficient, Goodman Kruskal's gamma (γ), etc. are known. It has been.

図6は、ページタイトル中の「美容」および他の文字列中の「美容」について順位を調べた結果を示す図である。たとえば、図4(b)の符号302の文字列中、「A」で示す「美容」を含む文字列については、「くすみ」、「ついて」および「通信販売」にそれぞれ、「3」、「2」および「1」の順位が付けられ、「なら」、「通信販売」、「美容」および「コーナー」に、それぞれ、「−1」、「−2」、「−3」および「−4」の順位が付けられている。他の文字列についても同様である。図5において、「B」に示す列が、符号302の文字列中、「B」で示す「美容」を含む文字列に関する。また、「C」〜「D」に示す列は、それぞれ、符号303〜305の「C」〜「E」に示す「美容」を含む文字列に関する。   FIG. 6 is a diagram showing the results of examining the ranks of “beauty” in the page title and “beauty” in other character strings. For example, in the character string indicated by reference numeral 302 in FIG. 4B, the character strings including “beauty” indicated by “A” are respectively “3”, “ 2 ”and“ 1 ”, and“ -1 ”,“ −2 ”,“ −3 ”and“ −4 ”are assigned to“ if ”,“ mail order ”,“ beauty ”and“ corner ”, respectively. Is ranked. The same applies to other character strings. In FIG. 5, the column indicated by “B” relates to a character string including “beauty” indicated by “B” in the character string denoted by reference numeral 302. The columns indicated by “C” to “D” relate to character strings including “beauty” indicated by “C” to “E” of reference numerals 303 to 305, respectively.

単語数計数/比較部18は、上述したような順位に基づいて、ページタイトル中の各単語と、それぞれの文字列(ここでは、文字列「A」〜「E」と称する。)との順位相関を求める。   The word count / comparison unit 18 ranks each word in the page title and each character string (referred to here as character strings “A” to “E”) based on the rank as described above. Find the correlation.

本実施の形態においては、順位相関を表わす値として、グッドマン・クラスカルのガンマ(γ)を利用している。これは、対応する二つの変量
x:x1,x2,・・・,xN
y:y1,y2,・・・,yN
の間で、
P=(xi,yi)と(xj、yj)との間でxとyとの順序が同じ向きのデータ数
Q=(xi,yi)と(xj、yj)との間でxとyとの順序が逆の向きのデータ数
を考え、相関を示す値γを、
γ=(P−Q)/(P+Q)
で定義している。このγは、−1≦γ≦1の間を動き、γ=1のとき最も相関が強くなる。
In the present embodiment, Goodman Kruskal gamma (γ) is used as a value representing the rank correlation. This corresponds to the two corresponding variables x: x1, x2, ..., xN
y: y1, y2, ..., yN
Between
P = number of data with the same order of x and y between (xi, yi) and (xj, yj) Q = x and y between (xi, yi) and (xj, yj) Given the number of data in the reverse order of
γ = (P−Q) / (P + Q)
Defined in This γ moves between −1 ≦ γ ≦ 1, and the correlation becomes strongest when γ = 1.

図5の例において、ページタイトル中の単語「通信販売」を考えると、ページタイトルおよび他の文字列「A」〜「E」において、同じ向きに、ページタイトル中の単語も含め全部で6個の単語「通信販売」が出現している(図5の文字列「A」〜「C」および「E」参照)。また、単語「くすみ」について考えると、他の文字列において、同じ向きには単語「くすみ」が出現していない。同様に、単語「イサイズ」および「キレイ」を考えると、ページタイトルおよび他の文字列において、それぞれ2個ずつ、単語「イサイズ」および「キレイ」が出現している。よって、Pは、「6+2+2=10」となる。   In the example of FIG. 5, considering the word “mail order” in the page title, in the page title and the other character strings “A” to “E”, a total of six words including the word in the page title in the same direction. The word “mail order” has appeared (see character strings “A” to “C” and “E” in FIG. 5). When the word “dull” is considered, the word “dull” does not appear in the same direction in other character strings. Similarly, when the words “Isize” and “Beautiful” are considered, two words “Isize” and “Beautiful” appear in the page title and other character strings, respectively. Therefore, P is “6 + 2 + 2 = 10”.

その一方、単語「くすみ」については、他の文字列において、逆の向きに単語「くすみ」が2個出現している(文字列「A」および「C」参照)。よって、Qは「2」となる。
したがって、
On the other hand, for the word “dull”, two words “dull” appear in the opposite direction in the other character strings (see character strings “A” and “C”). Therefore, Q is “2”.
Therefore,

図6の例では、上記順位相関を表わす値γは、
γ=(10−2)/(10+2)=8/12=2/3
となる。
In the example of FIG. 6, the value γ representing the rank correlation is
γ = (10−2) / (10 + 2) = 8/12 = 2/3
It becomes.

図7は、ページタイトル中の「通信販売」および他の文字列中の「通信販売」について順位を調べた結果を示す図である。ここでも、図6の例と同様に、順位相関を表わす値γを算出することができる。図6の例において、ページタイトル中の単語「美容」を考えると、ページタイトルおよび他の文字列「A」〜「D」において、同じ向きに、全部で6個の単語「
美容」が出現している(文字列「A」〜「D」参照)。同様に、単語「イサイズ」が2個出現している(文字列「B」参照)。よって、Pは、「6+2=8」となる。
FIG. 7 is a diagram showing the results of examining the rankings of “mail order” in the page title and “mail order” in other character strings. Here, as in the example of FIG. 6, the value γ representing the rank correlation can be calculated. In the example of FIG. 6, when the word “beauty” in the page title is considered, in the page title and the other character strings “A” to “D”, a total of six words “
“Beauty” has appeared (see character strings “A” to “D”). Similarly, two words “Isaizu” appear (see character string “B”). Therefore, P is “6 + 2 = 8”.

その一方、単語「美容」は、逆の向きに1個出現し(文字列「B」参照)、単語「くすみ」は逆の向きに2個出現している(文字列「A」および「C」参照)。よってQは、「1+2=3」となる。
したがって、図7の例では、上記順位相関を表わす値γは、
γ=(8−3)/(8+3)=5/11となる。
On the other hand, the word “beauty” appears in the opposite direction (see character string “B”), and the word “dull” appears in the opposite direction (character strings “A” and “C”). "reference). Therefore, Q is “1 + 2 = 3”.
Therefore, in the example of FIG. 7, the value γ representing the rank correlation is
γ = (8-3) / (8 + 3) = 5/11.

上記例においては、単語「通信販売」と「美容」とでは、順位相関を表わす値γについて「美容」の方が大きいため、「美容」の方が単語としての重要度が大きいことがわかる。
単語数計数/比較部18は、ページタイトルのほか、リンクのアンカーテキストおよび強調タグ内の単語についても、同様に、順位相関を表わす値γを算出する。これにより、ページタイトル、リンクのアンカーテキストおよび強調タグ内のそれぞれについて、単語の重要度を示す指標(γ)を得ることができる。第1の処理および第2の処理の結果は、結果記憶部20に記憶される。
In the above example, for the words “mail order” and “beauty”, it is understood that “beauty” is more important as a word for the value γ representing the rank correlation, so that “beauty” is more important.
In addition to the page title, the word count / comparison unit 18 similarly calculates a value γ representing the rank correlation for the anchor text of the link and the word in the emphasis tag. This makes it possible to obtain an index (γ) indicating the importance of the word for each of the page title, the link anchor text, and the emphasis tag. The results of the first process and the second process are stored in the result storage unit 20.

ウェブサイト全体あるいはその一部について処理を施す場合には、ページごとに上述した処理を実行して、これを繰り返せば良い。   When processing the entire website or a part thereof, the above-described processing may be executed for each page and repeated.

図8は、単語数計数/比較部18による計数/比較処理の結果を示す図である。これは、結果記憶部20に記憶された処理結果を、単語数計数/比較部18が読み出して、図表化したものである。このような図表化された結果は、表示装置の画面上に表示されても良いし、印刷物として出力されても良い。   FIG. 8 is a diagram showing the result of the counting / comparison processing by the word count / comparison unit 18. This is a graph obtained by reading the processing result stored in the result storage unit 20 by the word count / comparison unit 18. Such a charted result may be displayed on the screen of the display device or may be output as a printed matter.

図8(a)においては、ページのURL、応答コード、サーバ名など、ページ属性を表す項目の値のほか、構成単語数、総単語数、抽出されたキーワードなどが示されている。また、図8(b)においては、左側および中央の欄に第1の処理の結果、出現数が上位であった単語が示されている。この例では、単語「通信販売」の出現数が最大(出現数=12)であり、単語「美容」がこれに次いでいる(出現数=7)であることがわかる。つまり、単語数の面からは、このウェブページは、「通信販売」を主として表しているものであると考えることができる。その一方、図7(b)の右側の欄に、順位相関を表す値γが示されている。このγを参照すると、単語「通信販売」のγ=5/11であり、その一方、単語「美容」のγ=2/3である。「5/11<2/3」であるため、順位相関の観点からは、単語「美容」の法が、単語「通信販売」より重要度が高いことが示される。   In FIG. 8A, the number of constituent words, the total number of words, extracted keywords and the like are shown in addition to the values of items representing page attributes such as the URL of the page, response code, and server name. Further, in FIG. 8B, the words having the highest number of appearances as a result of the first processing are shown in the left and center columns. In this example, it can be seen that the number of appearances of the word “mail order” is the largest (number of appearances = 12), and the word “beauty” is next (number of appearances = 7). That is, from the viewpoint of the number of words, this web page can be considered to represent mainly “mail order”. On the other hand, the value γ representing the rank correlation is shown in the right column of FIG. Referring to γ, γ = 5/11 of the word “mail order”, while γ = 2/3 of the word “beauty”. Since “5/11 <2/3”, it is indicated that the method of the word “beauty” is more important than the word “mail order” from the viewpoint of rank correlation.

図8の例では、単一のウェブページについての結果が示されているが、ウェブサイトに関しては、ウェブページのそれぞれの結果、および、ウェブページの結果を統合した結果を表示することが可能である。この統合した結果において、ウェブページ全体の単語の総数、全体における出現数、出現割合、順位相関の総和、平均などを表示することができる。   In the example of FIG. 8, the result for a single web page is shown. However, for a website, it is possible to display the result of each web page and the result of integrating the web page results. is there. As a result of the integration, the total number of words of the entire web page, the total number of appearances, the appearance ratio, the sum of the rank correlation, the average, and the like can be displayed.

このように、本実施の形態によれば、単語の出現数という観点および順位相関という観点の双方から、ウェブページが何を主として表しているか、或いは、ウェブページにおいて重要な単語が何であるかを知ることができる。   Thus, according to the present embodiment, from both the viewpoint of the number of occurrences of words and the viewpoint of rank correlation, what the web page mainly represents or what is an important word in the web page. I can know.

さらに、本実施の形態においては、第1の処理の結果および第2の処理の結果を統合した指標を出しても良い。たとえば、ある単語についての統合した指標として、
(当該単語の出現比率)×f+(当該単語の順位相関を表わす値)×f
、fは適当な関数或いは定数
を利用しても良い。
Further, in the present embodiment, an index integrating the result of the first process and the result of the second process may be output. For example, as an integrated indicator for a word,
(Appearance ratio of the word) × f 1 + (value indicating the rank correlation of the word) × f 2
For f 1 and f 2, an appropriate function or constant may be used.

このように、第1の処理結果に基づく指標(単語の出現数や出現比率)と、第2の処理結果に基づく指標(単語の順位相関を表わす値)とを参照することにより、ウェブページやウェブサイトの作成者は、当該ページが何に関しているのかを知ることができる。つまり、作成者がウェブページやウェブサイトにて表わしたいと思っている事項が、実際のページに適切に現れているかを知ることができる。たとえば、作成者が「通信販売」のウェブページを作成したと考えていた場合に、第1の処理結果に基づく指標や第2の処理結果に基づく指標の値が小さければ、作成されたウェブページは適切さを欠いていると考えることができる。特に、第2の処理結果に基づく指標は、ウェブページ上で顕在化しているものではないため、本実施の形態における処理によって、作成者は隠されたウェブページの重要な単語を知ることができる。   In this way, by referring to the index based on the first processing result (the number of words appearing or the ratio of appearance) and the index based on the second processing result (the value representing the word rank correlation), The creator of the website can know what the page is about. That is, it is possible to know whether the matter that the creator wants to express on the web page or the website appears appropriately on the actual page. For example, if the creator thinks that a web page of “mail order” has been created, and the index based on the first processing result and the index based on the second processing result are small, the created web page Can be considered lacking in appropriateness. In particular, since the index based on the second processing result is not materialized on the web page, the creator can know important words of the hidden web page by the processing in the present embodiment. .

本発明は、以上の実施の形態に限定されることなく、特許請求の範囲に記載された発明の範囲内で、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
たとえば、前記実施の形態においては、グッドマン・クラスカルのガンマ(γ)を利用しているが、他の順位相関を表わす値が利用されても良いことはいうまでもない。
The present invention is not limited to the above embodiments, and various modifications can be made within the scope of the invention described in the claims, and these are also included in the scope of the present invention. Needless to say.
For example, although the Goodman Kruskal gamma (γ) is used in the above-described embodiment, it goes without saying that other values indicating rank correlation may be used.

図1は、本発明の実施の形態にかかる構造解析システムの概略を示すブロックダイヤグラムである。FIG. 1 is a block diagram showing an outline of a structural analysis system according to an embodiment of the present invention. 図2は、本実施の形態にかかる構造評価システムにて実行される処理の概略を示すフローチャートである。FIG. 2 is a flowchart showing an outline of processing executed in the structure evaluation system according to the present embodiment. 図3は、ウェブページの例を示す図である。FIG. 3 is a diagram illustrating an example of a web page. 図4は、ウェブページ中の文字列について前後4つの単語を特定した例を示す。FIG. 4 shows an example in which four words are specified before and after a character string in a web page. 図5は、図3のウェブページの例において、ページタイトル中の「美容」および他の文字列中の「美容」について順位を調べた結果を示す図である。FIG. 5 is a diagram showing the results of examining the ranks of “beauty” in the page title and “beauty” in other character strings in the example of the web page in FIG. 3. 図6は、図3のウェブページの例において、ページタイトル中の「通信販売」および他の文字列中の「通信販売」について順位を調べた結果を示す図である。FIG. 6 is a diagram showing the results of examining the ranks of “mail order” in the page title and “mail order” in other character strings in the example of the web page in FIG. 図7、図3のウェブページの例において、ページタイトル中の「通信販売」および他の文字列中の「通信販売」について順位を調べた結果を示す図である。FIG. 7 is a diagram showing the results of examining the ranking of “mail order” in the page title and “mail order” in other character strings in the web page examples of FIGS. 7 and 3. 図8は、本実施の形態における処理結果の提示例を示す図である。FIG. 8 is a diagram showing a presentation example of the processing result in the present embodiment.

符号の説明Explanation of symbols

10 構造解析システム
12 ウェブページDB
14 ページ取得部
16 ページ解析部
18 単語数計数/比較部
20 結果記憶部
10 Structural analysis system 12 Web page DB
14 page acquisition unit 16 page analysis unit 18 word count / comparison unit 20 result storage unit

Claims (6)

ウェブページ或いは当該ウェブページの集合体であるウェブサイトの構造を解析する構造解析システムであって、
前記ウェブページを記憶したウェブページデータベースからウェブページを取得するページ取得手段と、
ページ取得手段により取得されたウェブページの構造を解析し、少なくともウェブページの処理の位置或いは所定の役割をもつ文字列および当該文字列を構成する単語を特定するページ構造解析手段と、
前記文字列のそれぞれについて、文字列を構成する単語の出現数を計数し、計数結果を記憶するとともに、これを提示する計数手段とを備えたことを特徴とする構造解析システム。
A structural analysis system for analyzing the structure of a web page or a website that is a collection of web pages,
Page acquisition means for acquiring a web page from a web page database storing the web page;
Analyzing the structure of the web page acquired by the page acquisition means, and specifying at least the position of the processing of the web page or a character string having a predetermined role and the words constituting the character string;
A structure analysis system comprising: a counting unit that counts the number of appearances of words constituting the character string for each of the character strings, stores the counting result, and presents the counting result.
前記ページ構造解析手段が、前記ウェブページの属性ごとの類義語リストを参照して、類義語を特定の単一の単語に統一するように構成されたことを特徴とする請求項1に記載の構造解析システム。 2. The structural analysis according to claim 1, wherein the page structure analysis means is configured to unify synonyms into a specific single word with reference to a synonym list for each attribute of the web page. system. 前記ページ構造解析手段が、ページタイトル、リンクのアンカーテキスト、および/または、強調タグ中の文字列および当該文字列を構成する単語を特定することを特徴とする請求項1または2に記載の構造解析システム。 3. The structure according to claim 1, wherein the page structure analysis unit specifies a page title, a link anchor text, and / or a character string in an emphasis tag and a word constituting the character string. Analysis system. 前記計数手段が、各単語の出現数および出現比率を算出することを特徴とする請求項1ないし3の何れか一項に記載の構造解析システム。 The structural analysis system according to any one of claims 1 to 3, wherein the counting means calculates an appearance number and an appearance ratio of each word. さらに、前記文字列中において所定の単語を特定し、当該単語に関する順位相関を表わす値を算出する順位相関算出手段を備えたことを特徴とする請求項1ないし4の何れか一項に記載の構造解析システム。 5. The rank correlation calculating means for specifying a predetermined word in the character string and calculating a value representing rank correlation related to the word. Structural analysis system. 前記順位相関算出システムが、さらに、前記計数手段による当該単語の計数結果および前記順位相関を表わす値を統合した他の指標を算出することを特徴とする請求項5に記載の構造解析システム。 6. The structural analysis system according to claim 5, wherein the rank correlation calculation system further calculates another index obtained by integrating the count result of the word by the counting means and a value representing the rank correlation.
JP2003369973A 2003-10-30 2003-10-30 Structural analysis system Pending JP2005135139A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003369973A JP2005135139A (en) 2003-10-30 2003-10-30 Structural analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003369973A JP2005135139A (en) 2003-10-30 2003-10-30 Structural analysis system

Publications (1)

Publication Number Publication Date
JP2005135139A true JP2005135139A (en) 2005-05-26

Family

ID=34647127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003369973A Pending JP2005135139A (en) 2003-10-30 2003-10-30 Structural analysis system

Country Status (1)

Country Link
JP (1) JP2005135139A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542951A (en) * 2005-06-06 2008-11-27 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Relevance network
JP2011180722A (en) * 2010-02-26 2011-09-15 Yahoo Japan Corp Query extraction apparatus and method for the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542951A (en) * 2005-06-06 2008-11-27 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Relevance network
JP2011180722A (en) * 2010-02-26 2011-09-15 Yahoo Japan Corp Query extraction apparatus and method for the same

Similar Documents

Publication Publication Date Title
US8458207B2 (en) Using anchor text to provide context
US7406459B2 (en) Concept network
US7475074B2 (en) Web search system and method thereof
US7899818B2 (en) Method and system for providing focused search results by excluding categories
JP5638031B2 (en) Rating method, search result classification method, rating system, and search result classification system
US8838567B1 (en) Customization of search results for search queries received from third party sites
US7111000B2 (en) Retrieval of structured documents
JP2007188352A (en) Page reranking apparatus, and page reranking program
US20080319955A1 (en) Web browser page rating system
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20150134636A1 (en) System and method for aggregating and ranking data from a plurality of web sites
US20060173819A1 (en) System and method for grouping by attribute
US20070067294A1 (en) Readability and context identification and exploitation
US7752557B2 (en) Method and apparatus of visual representations of search results
JP2007527558A (en) Navigation by websites and other information sources
US20110004829A1 (en) Method for Human-Centric Information Access and Presentation
WO2013002940A2 (en) Method and apparatus for creating a search index for a composite document and searching same
JP2011103075A (en) Method for extracting excerpt sentence
JP5151368B2 (en) Information processing apparatus and information processing program
JP2007034772A (en) Optimum display system for web site search result, its method and its program
JP2017117021A (en) Keyword extraction device, content generation system, keyword extraction method, and program
JP2008262506A (en) Information extraction system, information extraction method, and information extraction program
JP2012104051A (en) Document index creating device
Buzzi et al. Accessibility and usability of search engine interfaces: Preliminary testing
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091110