JP2005135139A - Structural analysis system - Google Patents
Structural analysis system Download PDFInfo
- Publication number
- JP2005135139A JP2005135139A JP2003369973A JP2003369973A JP2005135139A JP 2005135139 A JP2005135139 A JP 2005135139A JP 2003369973 A JP2003369973 A JP 2003369973A JP 2003369973 A JP2003369973 A JP 2003369973A JP 2005135139 A JP2005135139 A JP 2005135139A
- Authority
- JP
- Japan
- Prior art keywords
- page
- word
- web page
- character string
- analysis system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ウェブページやウェブサイトの構造を解析するシステムに関する。 The present invention relates to a system for analyzing the structure of a web page or a website.
インターネットの普及により著しく多数のサイトが存在するため、ユーザは、所望のサイトにアクセスするために検索エンジンを備えたサイト(検索サイト)を利用する場合が多い。基本的には、ユーザが所望の情報に関連するキーワードを入力すると、検索サイトの検索エンジンが、当該キーワードに関連性の高いサイトのページのURLをユーザに提示できるようになっている。
この検索エンジンにおいては、サイトを構成するページの重要度を判断して、ユーザに提示するページの順序が決定されているといわれている(非特許文献1)。
In this search engine, it is said that the order of pages to be presented to the user is determined by determining the importance of the pages constituting the site (Non-Patent Document 1).
サイトの運営者にとっては、より多くのユーザがサイト中のページを閲覧する状況が望ましい。このため、検索サイトの検索結果において、自己のサイトのページが上位に位置することが重要となる。このために、運営者は、自己のサイトのページが、検索結果において上位に位置するようなページ構成や用語の選択をなす必要がある。 For the site operator, a situation where more users browse the pages in the site is desirable. For this reason, in the search result of the search site, it is important that the page of the own site is positioned higher. For this reason, the operator needs to select a page configuration and a term so that the page of his / her site is positioned higher in the search result.
さらに、サイトの運営者にとっては、サイトを構成するウェブページ中の単語の用法が、サイトを適切に表しているかを知ることができればなお望ましい。たとえば、ページタイトルが、実際のページの内容に即していれば、そのページが伝えたいことがより明確化することができる。 Furthermore, it is still desirable for the site operator to know whether the usage of words in the web pages constituting the site appropriately represents the site. For example, if the page title is in line with the actual content of the page, it can be made clear that the page wants to convey.
しかしながら、従来、ウェブページの重要度を算出することはできたが、ウェブページの適切性を評価することができなかった。
本発明は、ウェブページおよびウェブページの集合体であるウェブサイトの適切性、すなわち、ウェブページやウェブサイトにて表したい事項がウェブページに適切に表されているかを知ることができる構造解析システムを提供することを目的とする。
However, conventionally, the importance of a web page could be calculated, but the appropriateness of the web page could not be evaluated.
The present invention relates to a structural analysis system capable of knowing the appropriateness of a web page and a website as a collection of web pages, that is, whether a web page or a matter to be represented on the website is appropriately represented on the web page. The purpose is to provide.
本発明の目的は、ウェブページ或いは当該ウェブページの集合体であるウェブサイトの構造を解析する構造解析システムであって、前記ウェブページを記憶したウェブページデータベースからウェブページを取得するページ取得手段と、ページ取得手段により取得されたウェブページの構造を解析し、少なくともウェブページの処理の位置或いは所定の役割をもつ文字列および当該文字列を構成する単語を特定するページ構造解析手段と、前記文字列のそれぞれについて、文字列を構成する単語の出現数を計数し、計数結果を記憶するとともに、これを提示する計数手段とを備えたことを特徴とする構造解析システムにより達成される。 An object of the present invention is a structural analysis system for analyzing the structure of a web page or a website as a collection of the web pages, and a page acquisition means for acquiring a web page from a web page database storing the web page; Analyzing the structure of the web page acquired by the page acquisition means, and specifying at least the position of the processing of the web page or the character string having a predetermined role and the words constituting the character string; and the character This is achieved by a structural analysis system characterized in that for each of the columns, the number of occurrences of words constituting the character string is counted, the counting result is stored, and counting means for presenting the counting result is provided.
なお、各ウェブページの計数手段による計数結果を統合することにより、ウェブページの集合体であるウェブサイトの構造を知ることができる。 In addition, by integrating the counting results of the counting means of each web page, it is possible to know the structure of the website that is a collection of web pages.
好ましい実施態様においては、前記ページ構造解析手段が、前記ウェブページの属性ごとの類義語リストを参照して、類義語を特定の単一の単語に統一するように構成されている。
また、好ましい実施態様においては、前記ページ構造解析手段が、ページタイトル、リンクのアンカーテキスト、および/または、強調タグ中の文字列および当該文字列を構成する単語を特定する。前記計数手段は、たとえば、各単語の出現数および出現比率を算出する。
In a preferred embodiment, the page structure analyzing means is configured to refer to a synonym list for each attribute of the web page and unify synonyms into a specific single word.
In a preferred embodiment, the page structure analyzing means specifies a page title, a link anchor text, and / or a character string in an emphasis tag and words constituting the character string. The counting means calculates, for example, the number of appearances and the appearance ratio of each word.
別の好ましい実施態様においては、さらに、前記文字列中において所定の単語を特定し、当該単語に関する順位相関を表わす値を算出する順位相関算出手段を備えている。順位相関算出システムは、さらに、前記計数手段による当該単語の計数結果および前記順位相関を表わす値を統合した他の指標を算出するように構成しても良い。 In another preferred embodiment, there is further provided rank correlation calculating means for specifying a predetermined word in the character string and calculating a value representing rank correlation related to the word. The rank correlation calculation system may further be configured to calculate another index obtained by integrating the count result of the word by the counting means and a value representing the rank correlation.
本発明によれば、ウェブページおよびウェブページの集合体であるウェブサイトの適切性、すなわち、ウェブページやウェブサイトにて表したい事項がウェブページに適切に表されているかを知ることができる構造解析システムを提供することが可能である。 ADVANTAGE OF THE INVENTION According to this invention, the structure which can know the appropriateness of the website which is a web page and the aggregate of a web page, ie, the web page and the matter to express on a website are appropriately represented on the web page An analysis system can be provided.
以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の実施の形態にかかる構造解析システムの概略を示すブロックダイヤグラムである。図1に示すように、この構造解析システム10は、ウェブページを蓄積したウェブページDB12と、ウェブページDB12中のウェブページを取得するページ取得部14と、取得したウェブページを解析するページ解析部16と、解析結果に基づいて所定の単語の計数など、構造の評価に必要な処理を実行する単語数計数/比較部18と、単語数計数/比較部18の比較結果などを記憶する結果記憶部20とを備えている。
Embodiments of the present invention will be described below with reference to the accompanying drawings. FIG. 1 is a block diagram showing an outline of a structural analysis system according to an embodiment of the present invention. As shown in FIG. 1, the structural analysis system 10 includes a
本実施の形態においては、ウェブページごとに、ページを解析し、解析結果に基づく構造の評価を行っているが、これに限定されることはなく、複数のウェブページからなるウェブサイトについても、それぞれのウェブページの評価を算出して、その評価結果から当該サイトの評価を取得することもできる。 In this embodiment, for each web page, the page is analyzed, and the structure is evaluated based on the analysis result. However, the present invention is not limited to this, and a website composed of a plurality of web pages It is also possible to calculate the evaluation of each web page and obtain the evaluation of the site from the evaluation result.
本実施の形態にかかる構造解析システムは、パーソナルコンピュータに、必要なプログラムをインストールし、当該プログラムを起動してパーソナルコンピュータを動作させることにより実現できる。このプログラムは、CD−ROMやDVD−ROMなどに記憶されていてもよいし、ネットワークを介してパーソナルコンピュータにダウンロードされても良い。 The structural analysis system according to the present embodiment can be realized by installing a necessary program in a personal computer, starting the program, and operating the personal computer. This program may be stored in a CD-ROM or DVD-ROM, or may be downloaded to a personal computer via a network.
図2は、本実施の形態にかかる構造評価システムにて実行される処理の概略を示すフローチャートである。図2に示すように、構造評価システム10においては、まず、ページ取得部14が、ウェブページDB12から所定のウェブページを取得する(ステップ201)。次いで、ページ解析部16が、取得されたウェブページ中、不要なタグ(たとえば、ALT、<.A>など)を除去した上で、ページ構造を解析する(ステップ202)。ページ構造の解析においては、ページタイトル、リンクのアンカーテキスト、強調タグなどに相当する文字列が特定される。
FIG. 2 is a flowchart showing an outline of processing executed in the structure evaluation system according to the present embodiment. As shown in FIG. 2, in the structure evaluation system 10, first, the
次いで、それぞれの文字列について形態素解析が施される(ステップ203)。形態素解析においては、文字列が品詞ごとに分解される。その後、ページ解析部16はステミング処理を実行し、不要な品詞の除去や、語幹となる検索語への統一などが行われる(ステップ204)。たとえば、あるテーマ(ウェブページの属性などにしたがったテーマ)ごとに、類義語リストが設けられ、類義語が、代表する単一の単語に統一される処理が実行されても良い。このような処理の後、単語数計数/比較部18による計数/比較処理が実行される(ステップ205)。
Next, morphological analysis is performed on each character string (step 203). In morphological analysis, a character string is decomposed for each part of speech. Thereafter, the
本実施の形態において、計数/比較処理においては、主として2つの処理が実行される。
第1の処理では、ページ構造中、所定の位置或いは所定の役割を持つ文字列中の単語を計数する。この計数値は第1の指標値として利用される。また、第2の処理では、前記所定の位置や役割を持つ単語の周辺の単語をそれぞれ調べ、当該単語を含む他の文字列中の単語との間の順位相関をとって、順位相関に基づく第2の指標値を算出する。
In the present embodiment, two processes are mainly executed in the counting / comparison process.
In the first process, words in a character string having a predetermined position or a predetermined role in the page structure are counted. This count value is used as the first index value. Further, in the second process, each word around the word having the predetermined position and role is examined, and the rank correlation with the words in other character strings including the word is taken, and based on the rank correlation. A second index value is calculated.
本実施の形態においては、ウェブページ中、ページタイトル、リンクのアンカーテキストおよび強調タグ内の単語が、第1の処理にて計数される。たとえば、ページタイトル、リンクのアンカーテキスト、強調タグ内のそれぞれの単語の出現数の総和や、全単語中の当該単語の出現割合などが算出され、これらが結果記憶部20に記憶される。
In the present embodiment, in the web page, the page title, the link anchor text, and the words in the emphasis tag are counted in the first process. For example, the sum of the number of occurrences of each word in the page title, the link anchor text, and the emphasis tag, the appearance ratio of the word in all the words, and the like are calculated and stored in the
また、ページタイトル、リンクのアンカーテキストおよび強調タグ内の所定の単語の周辺の単語について順位相関をとることで第2の処理を実現している。以下、第2の処理についてより詳細に説明する。 Further, the second processing is realized by taking a rank correlation with respect to words around a predetermined word in the page title, the link anchor text, and the emphasis tag. Hereinafter, the second process will be described in more detail.
図3は、ウェブページの例を示す図である。このページ300のタイトルは「通信販売美容−くすみについて/イサイズキレイ」である(符号301参照)。単語数計数/比較部18は、この中で、「通信販売」および「美容」という単語に着目する。これは、第1の処理における所定の位置や役割を持つ部分の、単語の計数結果の上位から選択しても良い。
FIG. 3 is a diagram illustrating an example of a web page. The title of this
次いで、「通信販売」という単語、或いは、「美容」という単語を有する他の文字列が選択される。たとえば、「美容」という単語を含む文字列は、符号302〜305に示すものとなる。これらの文字列について、単語数計数/比較部18は、着目した単語の前後4つずつの単語を取得する。無論、文字列が短い場合には、4つ以下の単語(或いは0個の単語)が特定される場合がある。また、本実施の形態においては、前後4つの単語を特定したがこの数は限定されるものではない。
Next, another character string having the word “mail order” or the word “beauty” is selected. For example, a character string including the word “beauty” is indicated by
図4に、それぞれの文字列について、単語「美容」の前後4つの単語を特定した例を示す。たとえば、図4(b)に示すように、文字列302については、「美容」という単語が2箇所出てくるため、それぞれについて前後の単語が特定されている。図4において、単語(形態素)の上(或いは下)に配置された数値が、特定の単語である「美容」からの距離、すなわち、順位を表わす。また、図5(a)〜(d)も、それぞれの文字列について単語「通信販売」の前後4つの単語を特定した例を示す。
FIG. 4 shows an example in which four words before and after the word “beauty” are specified for each character string. For example, as shown in FIG. 4B, for the
単語数計数/比較部18は、図4(a)に示すページタイトルにおける「美容」からの各単語の順位と、その他の文字列(図4(b)〜(e)参照)における「美容」からの各単語の順位とを参照して、順位相関を表わす値を算出する。また、図5(a)に示す「通信販売」についても同様に順位相関を表わす値を算出する。順位相関とは、二組の順位の間にどのような関係があるかを調べる手法であり、スピアマンの順位相関係数、ケンドールの順位相関係数、グッドマン・クラスカルのガンマ(γ)などが知られている。
The word count /
図6は、ページタイトル中の「美容」および他の文字列中の「美容」について順位を調べた結果を示す図である。たとえば、図4(b)の符号302の文字列中、「A」で示す「美容」を含む文字列については、「くすみ」、「ついて」および「通信販売」にそれぞれ、「3」、「2」および「1」の順位が付けられ、「なら」、「通信販売」、「美容」および「コーナー」に、それぞれ、「−1」、「−2」、「−3」および「−4」の順位が付けられている。他の文字列についても同様である。図5において、「B」に示す列が、符号302の文字列中、「B」で示す「美容」を含む文字列に関する。また、「C」〜「D」に示す列は、それぞれ、符号303〜305の「C」〜「E」に示す「美容」を含む文字列に関する。
FIG. 6 is a diagram showing the results of examining the ranks of “beauty” in the page title and “beauty” in other character strings. For example, in the character string indicated by
単語数計数/比較部18は、上述したような順位に基づいて、ページタイトル中の各単語と、それぞれの文字列(ここでは、文字列「A」〜「E」と称する。)との順位相関を求める。
The word count /
本実施の形態においては、順位相関を表わす値として、グッドマン・クラスカルのガンマ(γ)を利用している。これは、対応する二つの変量
x:x1,x2,・・・,xN
y:y1,y2,・・・,yN
の間で、
P=(xi,yi)と(xj、yj)との間でxとyとの順序が同じ向きのデータ数
Q=(xi,yi)と(xj、yj)との間でxとyとの順序が逆の向きのデータ数
を考え、相関を示す値γを、
γ=(P−Q)/(P+Q)
で定義している。このγは、−1≦γ≦1の間を動き、γ=1のとき最も相関が強くなる。
In the present embodiment, Goodman Kruskal gamma (γ) is used as a value representing the rank correlation. This corresponds to the two corresponding variables x: x1, x2, ..., xN
y: y1, y2, ..., yN
Between
P = number of data with the same order of x and y between (xi, yi) and (xj, yj) Q = x and y between (xi, yi) and (xj, yj) Given the number of data in the reverse order of
γ = (P−Q) / (P + Q)
Defined in This γ moves between −1 ≦ γ ≦ 1, and the correlation becomes strongest when γ = 1.
図5の例において、ページタイトル中の単語「通信販売」を考えると、ページタイトルおよび他の文字列「A」〜「E」において、同じ向きに、ページタイトル中の単語も含め全部で6個の単語「通信販売」が出現している(図5の文字列「A」〜「C」および「E」参照)。また、単語「くすみ」について考えると、他の文字列において、同じ向きには単語「くすみ」が出現していない。同様に、単語「イサイズ」および「キレイ」を考えると、ページタイトルおよび他の文字列において、それぞれ2個ずつ、単語「イサイズ」および「キレイ」が出現している。よって、Pは、「6+2+2=10」となる。 In the example of FIG. 5, considering the word “mail order” in the page title, in the page title and the other character strings “A” to “E”, a total of six words including the word in the page title in the same direction. The word “mail order” has appeared (see character strings “A” to “C” and “E” in FIG. 5). When the word “dull” is considered, the word “dull” does not appear in the same direction in other character strings. Similarly, when the words “Isize” and “Beautiful” are considered, two words “Isize” and “Beautiful” appear in the page title and other character strings, respectively. Therefore, P is “6 + 2 + 2 = 10”.
その一方、単語「くすみ」については、他の文字列において、逆の向きに単語「くすみ」が2個出現している(文字列「A」および「C」参照)。よって、Qは「2」となる。
したがって、
On the other hand, for the word “dull”, two words “dull” appear in the opposite direction in the other character strings (see character strings “A” and “C”). Therefore, Q is “2”.
Therefore,
図6の例では、上記順位相関を表わす値γは、
γ=(10−2)/(10+2)=8/12=2/3
となる。
In the example of FIG. 6, the value γ representing the rank correlation is
γ = (10−2) / (10 + 2) = 8/12 = 2/3
It becomes.
図7は、ページタイトル中の「通信販売」および他の文字列中の「通信販売」について順位を調べた結果を示す図である。ここでも、図6の例と同様に、順位相関を表わす値γを算出することができる。図6の例において、ページタイトル中の単語「美容」を考えると、ページタイトルおよび他の文字列「A」〜「D」において、同じ向きに、全部で6個の単語「
美容」が出現している(文字列「A」〜「D」参照)。同様に、単語「イサイズ」が2個出現している(文字列「B」参照)。よって、Pは、「6+2=8」となる。
FIG. 7 is a diagram showing the results of examining the rankings of “mail order” in the page title and “mail order” in other character strings. Here, as in the example of FIG. 6, the value γ representing the rank correlation can be calculated. In the example of FIG. 6, when the word “beauty” in the page title is considered, in the page title and the other character strings “A” to “D”, a total of six words “
“Beauty” has appeared (see character strings “A” to “D”). Similarly, two words “Isaizu” appear (see character string “B”). Therefore, P is “6 + 2 = 8”.
その一方、単語「美容」は、逆の向きに1個出現し(文字列「B」参照)、単語「くすみ」は逆の向きに2個出現している(文字列「A」および「C」参照)。よってQは、「1+2=3」となる。
したがって、図7の例では、上記順位相関を表わす値γは、
γ=(8−3)/(8+3)=5/11となる。
On the other hand, the word “beauty” appears in the opposite direction (see character string “B”), and the word “dull” appears in the opposite direction (character strings “A” and “C”). "reference). Therefore, Q is “1 + 2 = 3”.
Therefore, in the example of FIG. 7, the value γ representing the rank correlation is
γ = (8-3) / (8 + 3) = 5/11.
上記例においては、単語「通信販売」と「美容」とでは、順位相関を表わす値γについて「美容」の方が大きいため、「美容」の方が単語としての重要度が大きいことがわかる。
単語数計数/比較部18は、ページタイトルのほか、リンクのアンカーテキストおよび強調タグ内の単語についても、同様に、順位相関を表わす値γを算出する。これにより、ページタイトル、リンクのアンカーテキストおよび強調タグ内のそれぞれについて、単語の重要度を示す指標(γ)を得ることができる。第1の処理および第2の処理の結果は、結果記憶部20に記憶される。
In the above example, for the words “mail order” and “beauty”, it is understood that “beauty” is more important as a word for the value γ representing the rank correlation, so that “beauty” is more important.
In addition to the page title, the word count /
ウェブサイト全体あるいはその一部について処理を施す場合には、ページごとに上述した処理を実行して、これを繰り返せば良い。 When processing the entire website or a part thereof, the above-described processing may be executed for each page and repeated.
図8は、単語数計数/比較部18による計数/比較処理の結果を示す図である。これは、結果記憶部20に記憶された処理結果を、単語数計数/比較部18が読み出して、図表化したものである。このような図表化された結果は、表示装置の画面上に表示されても良いし、印刷物として出力されても良い。
FIG. 8 is a diagram showing the result of the counting / comparison processing by the word count /
図8(a)においては、ページのURL、応答コード、サーバ名など、ページ属性を表す項目の値のほか、構成単語数、総単語数、抽出されたキーワードなどが示されている。また、図8(b)においては、左側および中央の欄に第1の処理の結果、出現数が上位であった単語が示されている。この例では、単語「通信販売」の出現数が最大(出現数=12)であり、単語「美容」がこれに次いでいる(出現数=7)であることがわかる。つまり、単語数の面からは、このウェブページは、「通信販売」を主として表しているものであると考えることができる。その一方、図7(b)の右側の欄に、順位相関を表す値γが示されている。このγを参照すると、単語「通信販売」のγ=5/11であり、その一方、単語「美容」のγ=2/3である。「5/11<2/3」であるため、順位相関の観点からは、単語「美容」の法が、単語「通信販売」より重要度が高いことが示される。 In FIG. 8A, the number of constituent words, the total number of words, extracted keywords and the like are shown in addition to the values of items representing page attributes such as the URL of the page, response code, and server name. Further, in FIG. 8B, the words having the highest number of appearances as a result of the first processing are shown in the left and center columns. In this example, it can be seen that the number of appearances of the word “mail order” is the largest (number of appearances = 12), and the word “beauty” is next (number of appearances = 7). That is, from the viewpoint of the number of words, this web page can be considered to represent mainly “mail order”. On the other hand, the value γ representing the rank correlation is shown in the right column of FIG. Referring to γ, γ = 5/11 of the word “mail order”, while γ = 2/3 of the word “beauty”. Since “5/11 <2/3”, it is indicated that the method of the word “beauty” is more important than the word “mail order” from the viewpoint of rank correlation.
図8の例では、単一のウェブページについての結果が示されているが、ウェブサイトに関しては、ウェブページのそれぞれの結果、および、ウェブページの結果を統合した結果を表示することが可能である。この統合した結果において、ウェブページ全体の単語の総数、全体における出現数、出現割合、順位相関の総和、平均などを表示することができる。 In the example of FIG. 8, the result for a single web page is shown. However, for a website, it is possible to display the result of each web page and the result of integrating the web page results. is there. As a result of the integration, the total number of words of the entire web page, the total number of appearances, the appearance ratio, the sum of the rank correlation, the average, and the like can be displayed.
このように、本実施の形態によれば、単語の出現数という観点および順位相関という観点の双方から、ウェブページが何を主として表しているか、或いは、ウェブページにおいて重要な単語が何であるかを知ることができる。 Thus, according to the present embodiment, from both the viewpoint of the number of occurrences of words and the viewpoint of rank correlation, what the web page mainly represents or what is an important word in the web page. I can know.
さらに、本実施の形態においては、第1の処理の結果および第2の処理の結果を統合した指標を出しても良い。たとえば、ある単語についての統合した指標として、
(当該単語の出現比率)×f1+(当該単語の順位相関を表わす値)×f2
f1、f2は適当な関数或いは定数
を利用しても良い。
Further, in the present embodiment, an index integrating the result of the first process and the result of the second process may be output. For example, as an integrated indicator for a word,
(Appearance ratio of the word) × f 1 + (value indicating the rank correlation of the word) × f 2
For f 1 and f 2, an appropriate function or constant may be used.
このように、第1の処理結果に基づく指標(単語の出現数や出現比率)と、第2の処理結果に基づく指標(単語の順位相関を表わす値)とを参照することにより、ウェブページやウェブサイトの作成者は、当該ページが何に関しているのかを知ることができる。つまり、作成者がウェブページやウェブサイトにて表わしたいと思っている事項が、実際のページに適切に現れているかを知ることができる。たとえば、作成者が「通信販売」のウェブページを作成したと考えていた場合に、第1の処理結果に基づく指標や第2の処理結果に基づく指標の値が小さければ、作成されたウェブページは適切さを欠いていると考えることができる。特に、第2の処理結果に基づく指標は、ウェブページ上で顕在化しているものではないため、本実施の形態における処理によって、作成者は隠されたウェブページの重要な単語を知ることができる。 In this way, by referring to the index based on the first processing result (the number of words appearing or the ratio of appearance) and the index based on the second processing result (the value representing the word rank correlation), The creator of the website can know what the page is about. That is, it is possible to know whether the matter that the creator wants to express on the web page or the website appears appropriately on the actual page. For example, if the creator thinks that a web page of “mail order” has been created, and the index based on the first processing result and the index based on the second processing result are small, the created web page Can be considered lacking in appropriateness. In particular, since the index based on the second processing result is not materialized on the web page, the creator can know important words of the hidden web page by the processing in the present embodiment. .
本発明は、以上の実施の形態に限定されることなく、特許請求の範囲に記載された発明の範囲内で、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
たとえば、前記実施の形態においては、グッドマン・クラスカルのガンマ(γ)を利用しているが、他の順位相関を表わす値が利用されても良いことはいうまでもない。
The present invention is not limited to the above embodiments, and various modifications can be made within the scope of the invention described in the claims, and these are also included in the scope of the present invention. Needless to say.
For example, although the Goodman Kruskal gamma (γ) is used in the above-described embodiment, it goes without saying that other values indicating rank correlation may be used.
10 構造解析システム
12 ウェブページDB
14 ページ取得部
16 ページ解析部
18 単語数計数/比較部
20 結果記憶部
10
14
Claims (6)
前記ウェブページを記憶したウェブページデータベースからウェブページを取得するページ取得手段と、
ページ取得手段により取得されたウェブページの構造を解析し、少なくともウェブページの処理の位置或いは所定の役割をもつ文字列および当該文字列を構成する単語を特定するページ構造解析手段と、
前記文字列のそれぞれについて、文字列を構成する単語の出現数を計数し、計数結果を記憶するとともに、これを提示する計数手段とを備えたことを特徴とする構造解析システム。 A structural analysis system for analyzing the structure of a web page or a website that is a collection of web pages,
Page acquisition means for acquiring a web page from a web page database storing the web page;
Analyzing the structure of the web page acquired by the page acquisition means, and specifying at least the position of the processing of the web page or a character string having a predetermined role and the words constituting the character string;
A structure analysis system comprising: a counting unit that counts the number of appearances of words constituting the character string for each of the character strings, stores the counting result, and presents the counting result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003369973A JP2005135139A (en) | 2003-10-30 | 2003-10-30 | Structural analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003369973A JP2005135139A (en) | 2003-10-30 | 2003-10-30 | Structural analysis system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005135139A true JP2005135139A (en) | 2005-05-26 |
Family
ID=34647127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003369973A Pending JP2005135139A (en) | 2003-10-30 | 2003-10-30 | Structural analysis system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005135139A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008542951A (en) * | 2005-06-06 | 2008-11-27 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | Relevance network |
JP2011180722A (en) * | 2010-02-26 | 2011-09-15 | Yahoo Japan Corp | Query extraction apparatus and method for the same |
-
2003
- 2003-10-30 JP JP2003369973A patent/JP2005135139A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008542951A (en) * | 2005-06-06 | 2008-11-27 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | Relevance network |
JP2011180722A (en) * | 2010-02-26 | 2011-09-15 | Yahoo Japan Corp | Query extraction apparatus and method for the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8458207B2 (en) | Using anchor text to provide context | |
US7406459B2 (en) | Concept network | |
US7475074B2 (en) | Web search system and method thereof | |
US7899818B2 (en) | Method and system for providing focused search results by excluding categories | |
JP5638031B2 (en) | Rating method, search result classification method, rating system, and search result classification system | |
US8838567B1 (en) | Customization of search results for search queries received from third party sites | |
US7111000B2 (en) | Retrieval of structured documents | |
JP2007188352A (en) | Page reranking apparatus, and page reranking program | |
US20080319955A1 (en) | Web browser page rating system | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US20150134636A1 (en) | System and method for aggregating and ranking data from a plurality of web sites | |
US20060173819A1 (en) | System and method for grouping by attribute | |
US20070067294A1 (en) | Readability and context identification and exploitation | |
US7752557B2 (en) | Method and apparatus of visual representations of search results | |
JP2007527558A (en) | Navigation by websites and other information sources | |
US20110004829A1 (en) | Method for Human-Centric Information Access and Presentation | |
WO2013002940A2 (en) | Method and apparatus for creating a search index for a composite document and searching same | |
JP2011103075A (en) | Method for extracting excerpt sentence | |
JP5151368B2 (en) | Information processing apparatus and information processing program | |
JP2007034772A (en) | Optimum display system for web site search result, its method and its program | |
JP2017117021A (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
JP2008262506A (en) | Information extraction system, information extraction method, and information extraction program | |
JP2012104051A (en) | Document index creating device | |
Buzzi et al. | Accessibility and usability of search engine interfaces: Preliminary testing | |
JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091110 |