JP5981386B2 - Representative page selection device and representative page selection program - Google Patents

Representative page selection device and representative page selection program Download PDF

Info

Publication number
JP5981386B2
JP5981386B2 JP2013087345A JP2013087345A JP5981386B2 JP 5981386 B2 JP5981386 B2 JP 5981386B2 JP 2013087345 A JP2013087345 A JP 2013087345A JP 2013087345 A JP2013087345 A JP 2013087345A JP 5981386 B2 JP5981386 B2 JP 5981386B2
Authority
JP
Japan
Prior art keywords
page
document
keyword
representative page
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013087345A
Other languages
Japanese (ja)
Other versions
JP2014211739A (en
Inventor
伸章 廣嶋
伸章 廣嶋
西岡 秀一
秀一 西岡
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013087345A priority Critical patent/JP5981386B2/en
Publication of JP2014211739A publication Critical patent/JP2014211739A/en
Application granted granted Critical
Publication of JP5981386B2 publication Critical patent/JP5981386B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、指定されたキーワードと地域を代表する代表ページを選択する技術に関する。   The present invention relates to a technique for selecting a representative page representing a specified keyword and region.

指定されたキーワードと地域から、その地域におけるキーワードに関する代表ページを文書群から選択し、提示する技術が求められている。例えば、キーワードとして「ラーメン」、地域として「横浜」近辺が指定された場合、横浜近辺でラーメンが有名な店舗のメニューや店舗への経路や地図が記載された公式ページを代表ページとして提示する等である。   There is a need for a technique for selecting and presenting a representative page related to a keyword in the area from a document group from the specified keyword and area. For example, if “Ramen” is specified as the keyword and “Yokohama” is specified as the region, the menu page of the store that is famous for Ramen in Yokohama, the route to the store, and the official page with the map are presented as the representative page. It is.

このような代表ページの選択・提示方法としては、インターネット上の一般的な検索エンジンを利用する方法がある。地域を地名等の文字列に変換したものをキーワードに加えてクエリとして入力し、検索結果で得られた複数のページから上位のページを選択して提示する方法である。   As a representative page selection / presentation method, there is a method using a general search engine on the Internet. This is a method in which a region converted into a character string such as a place name is added as a query and inputted as a query, and a higher page is selected and presented from a plurality of pages obtained as a search result.

また、特許文献1によれば、指定されたキーワードと位置から、文書内に出現する地名との地理的距離や地名が含まれる小領域の重要度に基づいて文書群から文書を検索する地理的文書検索方法を提案しており、この検索結果から得られた文書の上位を選択して提示する方法もある。   Further, according to Patent Document 1, a geographical search for searching a document from a document group based on the geographical distance from a specified keyword and position and the importance of a small area including the name of the place that appears in the document. A document search method has been proposed, and there is also a method of selecting and presenting the top of the document obtained from the search result.

特許第5087377号公報Japanese Patent No. 5087377

しかしながら、一般的な検索エンジンを利用する場合、クエリとして入力される地名は、指定されたキーワードと同様に単なるキーワードの一つとして扱われるため、文書内に出現する地名との地理的な近さが考慮されないという課題があった。   However, when using a general search engine, the place name entered as a query is treated as just one keyword as well as the specified keyword, so it is geographically close to the place name that appears in the document. There was a problem that was not considered.

これについて前述の地理的文書検索方法では、文書内に出現する地名との地理的距離に基づいて文書を検索するため、この方法を利用することにより、指定された地域との地理的な近さが考慮された文書を検索できる。しかし、それ以外では単にキーワードと位置に関する重要度に基づいて文書を順位付けるため、必ずしも代表に適した文書を検出することはできない。つまり、この方法を利用したとしてもページの代表らしさは考慮されないという課題があった。   In this regard, in the above-described geographical document search method, a document is searched based on a geographical distance from a place name appearing in the document. By using this method, the geographical proximity to a specified region is used. Can be searched. However, in other cases, the documents are simply ranked based on the importance related to the keyword and the position, and therefore, it is not always possible to detect a document suitable for the representative. In other words, even if this method is used, there is a problem that the representativeness of the page is not considered.

また、それら両者に共通する問題として、大量のウェブページを収集してインデックスを作成しておく必要があるという課題もあった。   In addition, as a problem common to both of them, there is a problem that it is necessary to collect a large number of web pages and create an index.

本発明は、上記事情を鑑みてなされたものであり、大量の文書群の収集・インデクシングを必要とすることなく、指定された地域との地理的な近さが考慮され、ページの代表らしさが考慮された代表ページを選択することを目的とする。   The present invention has been made in view of the above circumstances, and does not require collection and indexing of a large number of documents, considering the geographical proximity to a designated area, and the typicality of a page. The purpose is to select a considered representative page.

請求項1記載の代表ページ選択装置は、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を、記憶手段に記憶されている一部の文書群から検索する検索手段と、前記文書が参照している参照先を代表ページ候補とし、前記キーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択する選択手段と、を有することを要旨とする。   The representative page selection device according to claim 1 is a part in which a document related to a designated keyword and a region is stored in a storage unit based on a geographical measure of a designated region and a place name included in the document. The search means for searching from the document group, the reference destination referred to by the document as a representative page candidate, the approximation of the character string between the keyword and each representative page candidate, and the place name included in the reference source document And a selection means for selecting one or more representative pages based on any one or more of the score, rank, or number of the document given based on the importance of the corresponding region. To do.

請求項2記載の代表ページ選択装置は、請求項1記載の代表ページ選択装置において、前記選択手段は、前記文字列の近似度を編集距離を用いて計算することを要旨とする。   The representative page selection device according to claim 2 is the representative page selection device according to claim 1, characterized in that the selection means calculates an approximation degree of the character string using an edit distance.

請求項3記載の代表ページ選択装置は、請求項1又は2記載の代表ページ選択装置において、前記キーワードに関連する関連ページのURLと前記各代表ページ候補のURLとの合致度に基づき、前記代表ページ候補の数を少なくすることを要旨とする。   The representative page selection device according to claim 3 is the representative page selection device according to claim 1 or 2, wherein the representative page selection device is based on a matching degree between a URL of a related page related to the keyword and a URL of each representative page candidate. The gist is to reduce the number of page candidates.

請求項4記載の代表ページ選択装置は、請求項3記載の代表ページ選択装置において、前記関連ページには、前記キーワードに関連のある関連キーワードに関連する関連ページが含まれることを要旨とする。   A representative page selection apparatus according to a fourth aspect is the representative page selection apparatus according to the third aspect, wherein the related page includes a related page related to a related keyword related to the keyword.

請求項5記載の代表ページ選択プログラムは、コンピュータを請求項1乃至4のいずれかに記載の代表ページ選択装置として機能させることを要旨とする。   The gist of the representative page selection program according to claim 5 is to cause a computer to function as the representative page selection device according to any one of claims 1 to 4.

以上より、本発明によれば、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を文書群から検索するため、指定された地域との地理的な近さが考慮された代表ページを選択できる。   As described above, according to the present invention, in order to search the document group for documents related to the specified keyword and the area based on the geographical scale of the specified area and the place name included in the document, the specified area and The representative page can be selected in consideration of the geographical proximity.

また、本発明によれば、指定されたキーワードと地域に関連する文書を一部の文書群から検索するため、大量の文書群を収集してインデクシングしておく処理の必要性を無くすることができる。   Further, according to the present invention, since a document related to the specified keyword and region is searched from a part of the document group, it is possible to eliminate the necessity of processing for collecting and indexing a large number of document groups. it can.

また、本発明によれば、検索された文書が参照している参照先を代表ページ候補とし、指定されたキーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択するため、ページの代表らしさが考慮された代表ページを選択できる。   Further, according to the present invention, the reference destination referred to by the retrieved document is set as a representative page candidate, and the approximation degree of the character string between the designated keyword and each representative page candidate is included in the reference source document. Since one or more representative pages are selected based on any one or more of the score, rank, or number of the document assigned based on the importance of the area corresponding to the place name, the representativeness of the page is considered. Selected representative page can be selected.

本発明によれば、大量の文書群の収集・インデクシングを必要とすることなく、指定された地域との地理的な近さが考慮され、ページの代表らしさが考慮された代表ページを選択できる。   According to the present invention, it is possible to select a representative page that takes into consideration the geographical proximity to a designated area and does not require collection and indexing of a large amount of documents, and considers the representativeness of the page.

代表ページ選択装置の機能ブロック構成を示す図である。It is a figure which shows the functional block structure of a representative page selection apparatus. 代表ページ選択装置の動作フローを示す図である。It is a figure which shows the operation | movement flow of a representative page selection apparatus. キーワードDBの例を示す図である。It is a figure which shows the example of keyword DB. キーワード関連ページDBの例を示す図である。It is a figure which shows the example of keyword related page DB. 文書取得結果の例を示す図である。It is a figure which shows the example of a document acquisition result. 参照先ページDBの例を示す図である。It is a figure which shows the example of reference destination page DB. 代表ページ候補の絞り込み結果の例を示す図である。It is a figure which shows the example of the narrowing-down result of a representative page candidate. 第1代表ページスコアの例を示す図である。It is a figure which shows the example of a 1st representative page score. 第2代表ページスコアの例を示す図である。It is a figure which shows the example of a 2nd representative page score.

以下、本発明を実施する一実施の形態について図面を用いて説明する。   Hereinafter, an embodiment for carrying out the present invention will be described with reference to the drawings.

図1は、代表ページ選択装置100の機能ブロック構成を示す図である。代表ページ選択装置100は、ユーザによって指定されたキーワード情報と地域情報を入力とし、その地域におけるキーワードに関する代表ページを選択して画面上に表示する装置である。   FIG. 1 is a diagram illustrating a functional block configuration of the representative page selection device 100. The representative page selection apparatus 100 is an apparatus that receives keyword information and area information designated by the user as input, selects a representative page related to the keyword in the area, and displays it on the screen.

尚、キーワードとは、ユーザが興味を持ち、知りたいと考える事物や情報を検索するために手掛かりとなる語である。また、地域とは、行政区や座標で分割された地図上の範囲である。また、代表ページとは、キーワードに関する詳細な情報が記載されているような、キーワードを代表するページである。   The keyword is a word that is used as a clue to search for things and information that the user is interested in and wants to know. A region is a range on a map divided by administrative districts and coordinates. The representative page is a page that represents a keyword such as detailed information related to the keyword.

この代表ページ選択装置100は、図1に示したように、関連キーワード取得部1と、キーワード関連ページ取得部2と、文書取得部3と、代表ページ候補取得部4と、代表ページ候補絞り込み部5と、代表ページ選択部6と、キーワードDB7と、キーワード関連ページDB8と、検索インデックスDB9と、参照先ページDB10とで構成される。以下、その機能について説明する。   As shown in FIG. 1, the representative page selection device 100 includes a related keyword acquisition unit 1, a keyword related page acquisition unit 2, a document acquisition unit 3, a representative page candidate acquisition unit 4, and a representative page candidate narrowing unit. 5, a representative page selection unit 6, a keyword DB 7, a keyword related page DB 8, a search index DB 9, and a reference page DB 10. The function will be described below.

キーワードDB7は、複数のキーワードと、各キーワードにそれぞれ関連する関連キーワードとを対応付けた対応テーブルを記憶しておく機能を有している。例えば、キーワードについての説明が書かれた文書から名詞句を抽出して、それを関連キーワードとすることが考えられる。   The keyword DB 7 has a function of storing a correspondence table in which a plurality of keywords and related keywords related to the keywords are associated with each other. For example, it is conceivable to extract a noun phrase from a document in which an explanation about the keyword is written and use it as a related keyword.

キーワード関連ページDB8は、関連キーワードを含む複数のキーワードと、各キーワードにそれぞれ関連する関連ページ(文書のURL)とを対応付けた対応テーブルを記憶しておく機能を有している。例えば、キーワードについての説明が書かれた文書に詳細な説明が書かれたページが紹介されている場合にはそれを関連ページとしたり、企業名をキーワードとしてその企業の公式ページを関連ページとしたりすることが考えられる。   The keyword related page DB 8 has a function of storing a correspondence table in which a plurality of keywords including related keywords are associated with related pages (document URLs) related to the keywords. For example, if a page with a detailed explanation is introduced in a document with explanations about keywords, make it a related page, or use the company name as a keyword and the company's official page as a related page. It is possible to do.

検索インデックスDB9は、指定されたキーワードと地域から、特許文献1の地理的文書検索方法を用いて作成された検索インデックスを記憶しておく機能を有している。   The search index DB 9 has a function of storing a search index created by using the geographical document search method disclosed in Patent Document 1 from a specified keyword and region.

参照先ページDB10は、複数の文書をそれぞれ識別する文書識別子と、各文書からそれぞれ参照される参照先ページ(参照先のURL)とを対応付けた対応テーブルを記憶しておく機能を有している。例えば、文書がHTMLで記述されている場合に、その文書を解析してアンカータグの情報から参照先ページを抽出することが考えられる。   The reference page DB 10 has a function of storing a correspondence table that associates document identifiers for identifying a plurality of documents with reference destination pages (reference destination URLs) referred to from the respective documents. Yes. For example, when the document is described in HTML, it is conceivable to analyze the document and extract the reference destination page from the information of the anchor tag.

関連キーワード取得部1は、キーワードDB7を参照し、入力されたキーワードに関連する関連キーワードを取得する機能を備えている。   The related keyword acquisition unit 1 has a function of referring to the keyword DB 7 and acquiring a related keyword related to the input keyword.

キーワード関連ページ取得部2は、キーワード関連ページDB8を参照し、入力されたキーワードと、関連キーワード取得部1で取得された関連キーワードとに関連する関連ページをキーワード関連ページとして取得する機能を備えている。   The keyword related page acquisition unit 2 has a function of referring to the keyword related page DB 8 and acquiring a related page related to the input keyword and the related keyword acquired by the related keyword acquisition unit 1 as a keyword related page. Yes.

文書取得部3は、検索インデックスDB9を参照し、前述の地理的文書検索方法を用いて、入力されたキーワードと地域に関連する文書を検索し取得する機能を備えている。   The document acquisition unit 3 has a function of referring to the search index DB 9 and searching for and acquiring a document related to the input keyword and region using the geographical document search method described above.

代表ページ候補取得部4は、参照先ページDB10を参照し、文書取得部3で取得された文書が参照している参照先ページを代表ページ候補として取得する機能を備えている。   The representative page candidate acquisition unit 4 has a function of referring to the reference destination page DB 10 and acquiring the reference destination page referred to by the document acquired by the document acquisition unit 3 as a representative page candidate.

代表ページ候補絞り込み部5は、キーワード関連ページ取得部2で取得されたキーワード関連ページのURLと、代表ページ候補取得部4で取得された各代表ページ候補のURLとの合致度に基づき、その代表ページ候補の数を少なくする(絞り込む)機能を備えている。   The representative page candidate narrowing-down unit 5 is based on the matching degree between the URL of the keyword related page acquired by the keyword related page acquisition unit 2 and the URL of each representative page candidate acquired by the representative page candidate acquisition unit 4. A function to reduce (narrow) the number of page candidates is provided.

代表ページ選択部6は、入力されたキーワードと各代表ページ候補との文字列の近似度や、文書取得部3で行われた文書の検索結果に基づいて、絞り込まれた各代表ページ候補のスコアをそれぞれ算出し、スコアの高い1つ以上の代表ページ候補を代表ページとして選択する機能を有している。   The representative page selection unit 6 determines the score of each representative page candidate that has been narrowed down based on the approximation of the character string between the input keyword and each representative page candidate, and the document search result performed by the document acquisition unit 3. Are calculated, and one or more representative page candidates having high scores are selected as representative pages.

次に、図2を参照しながら、代表ページ選択装置100の動作について説明する。本動作例では、キーワードとして「観覧車」、地域として「横浜」近辺が指定されている。   Next, the operation of the representative page selection device 100 will be described with reference to FIG. In this operation example, “Ferris wheel” is designated as a keyword, and “Yokohama” is designated as an area.

最初に、関連キーワード取得部1が、入力されたキーワードに対応する関連キーワードをキーワードDB7から取得する(ステップS1)。キーワードDB7が図3の場合、「観覧車」のキーワードに対して、「ゴンドラ」,「シカゴ」,「○○遊園地」,「△△ランド」が取得される。   Initially, the related keyword acquisition part 1 acquires the related keyword corresponding to the input keyword from keyword DB7 (step S1). When the keyword DB 7 is shown in FIG. 3, “gondola”, “Chicago”, “XX amusement park”, and “ΔΔ land” are acquired for the keyword “Ferris wheel”.

次に、キーワード関連ページ取得部2が、入力されたキーワードと、ステップS1で取得した関連キーワードとに対応するキーワード関連ページをキーワード関連ページDB8から取得する(ステップS2)。キーワード関連ページDB8が図4の場合、6件の文書URLが取得される。   Next, the keyword related page acquisition unit 2 acquires a keyword related page corresponding to the input keyword and the related keyword acquired in step S1 from the keyword related page DB 8 (step S2). When the keyword-related page DB 8 is shown in FIG. 4, six document URLs are acquired.

次に、文書取得部3が、検索インデックスDB9を用いて、入力されたキーワードと地域に関連する文書を検索し取得する(ステップS3)。   Next, the document acquisition unit 3 uses the search index DB 9 to search and acquire a document related to the input keyword and region (step S3).

具体的には、前述の地理的文書検索方法を用いて検索インデックスを作成して文書検索を行うことにより文書を取得する。この地理的文書検索方法は、指定された地域と文書に含まれる地名との地理的尺度に基づき文書を検索するので、入力された地域との地理的な近さが考慮されることになる。   Specifically, a document is acquired by creating a search index using the geographical document search method described above and performing a document search. Since this geographical document search method searches for a document based on a geographical measure between a designated area and a place name included in the document, the geographical proximity to the input area is considered.

また、この地理的文書検索方法は、文書に含まれる地名に該当する地域の重要度に基づき、検索された文書にスコアや順位を付与するので、図5のような文書の取得結果が得られることになる。これより、D1,D2,D3,D4,D5の5件の文書が取得される。   In addition, since this geographic document search method assigns scores and ranks to the searched documents based on the importance of the area corresponding to the place name included in the document, the document acquisition result as shown in FIG. 5 is obtained. It will be. As a result, five documents D1, D2, D3, D4, and D5 are acquired.

尚、インターネット上の記憶デバイス(ハードディスク等の記憶手段)に記憶されているウェブページをそのまま検索対象としてもよく、様々なウェブページのうち一部(例えば、ブログ記事)のみを検索対象とすることにより、大量のウェブページ群を収集してインデクシングしておく処理の必要性を無くすることができる。文書の検索・取得方法は、キーワードと地域に関連する文書が取得できるものであれば構わない。   Note that web pages stored in a storage device (storage means such as a hard disk) on the Internet may be directly searched, and only a part (for example, blog articles) of various web pages is searched. Therefore, it is possible to eliminate the necessity of collecting and indexing a large number of web page groups. Any document search / acquisition method may be used as long as it can acquire a document related to a keyword and a region.

次に、代表ページ候補取得部4が、ステップS3で取得した文書に対応する参照先ページを代表ページ候補として参照先ページDB10から取得する(ステップS4)。図6の参照先ページDB10を参照すると、取得された5件の文書に対して7件の参照先ページが取得されるため、これらを代表ページ候補とする。   Next, the representative page candidate acquisition unit 4 acquires the reference page corresponding to the document acquired in step S3 from the reference page DB 10 as a representative page candidate (step S4). Referring to the reference page DB 10 in FIG. 6, seven reference pages are acquired for the five acquired documents, and these are used as representative page candidates.

次に、代表ページ候補絞り込み部5が、ステップS2で取得したキーワード関連ページを用いて、ステップS4で取得した代表ページ候補の数を絞り込む(ステップS5)。   Next, the representative page candidate narrowing-down unit 5 narrows down the number of representative page candidates acquired in step S4 using the keyword-related page acquired in step S2 (step S5).

具体的には、キーワード関連ページのURLのいずれかが代表ページ候補のURLに前方一致するような代表ページ候補に絞り込む。図6の7件の代表ページ候補に対し、図4の6件のキーワード関連ページを参照して前方一致するかどうかを調べると、代表ページ候補は図7に示すように3件に絞り込まれる。尚、絞り込みの方法はこれに限るものではなく、完全一致により絞り込みを行ったり、ドメインのみが一致するものに絞り込みを行ったりしても構わない。   Specifically, the search is narrowed down to representative page candidates such that any one of the URLs of the keyword related pages matches the URL of the representative page candidate. When the seven representative page candidates in FIG. 6 are checked for forward matching by referring to the six keyword-related pages in FIG. 4, the representative page candidates are narrowed down to three as shown in FIG. Note that the narrowing down method is not limited to this, and narrowing down may be performed by perfect matching or narrowing down to only those that match only the domain.

最後に、代表ページ選択部6が、入力されたキーワードと代表ページ候補との文字列の近さと、ステップS3で行われた文書の検索結果とに基づき代表ページ候補のスコアを代表ページスコアとして算出し、そのスコアの高いものを代表ページとして選択する(ステップS6)。   Finally, the representative page selection unit 6 calculates the representative page candidate score as the representative page score based on the proximity of the character string between the input keyword and the representative page candidate and the document search result performed in step S3. Then, the high score is selected as the representative page (step S6).

ここでは、キーワードと代表ページ候補との文字列の近さから得られる第1代表ページスコアと、文書の検索結果から得られる第2代表ページスコアとの積を代表ページスコアとして算出する。代表ページスコアの算出方法はこれに限るものではなく、積ではなく和を計算しても構わない。   Here, the product of the first representative page score obtained from the proximity of the character string of the keyword and the representative page candidate and the second representative page score obtained from the document search result is calculated as the representative page score. The method for calculating the representative page score is not limited to this, and a sum may be calculated instead of a product.

まず、キーワードと代表ページ候補との文字列の近さから第1代表ページスコアを求める。このキーワードと代表ページ候補との文字列の近さの算出方法としては、キーワードの読みをローマ字に変換した文字列(キーワード文字列)と、代表ページ候補のURLの文字列(URL文字列)との編集距離(一方の文字列を他方の文字列に変換するために必要な手順のコスト)を用いて計算する。キーワード文字列は、キーワードを英訳した文字列等であっても構わない。   First, the first representative page score is obtained from the closeness of the character string between the keyword and the representative page candidate. As a method of calculating the closeness of the character string between the keyword and the representative page candidate, a character string obtained by converting the keyword reading into a Roman character (keyword character string), and a character string of the URL of the representative page candidate (URL character string) The edit distance (the cost of the procedure necessary to convert one character string into the other character string) is calculated. The keyword character string may be a character string in which the keyword is translated into English.

キーワード文字列からURL文字列への変換の際の挿入コストは“0”とする。これにより、URL文字列に含まれるキーワードに関連しない部分の影響を受けないようにすることができる。この挿入コストは小さい値であれば“0”でなくても構わない。   The insertion cost at the time of conversion from the keyword character string to the URL character string is set to “0”. As a result, it is possible to avoid the influence of a part not related to the keyword included in the URL character string. The insertion cost may not be “0” as long as it is a small value.

また、日本語と外国語の違いを吸収するため、“k”から“c”への置換コスト等は“0”とする。これにより、キーワードをローマ字に変換した“kanransha”と、代表ページ候補のURL文字列に含まれる“canransha”との編集距離を小さくすることができる。この置換コストも小さい値であれば“0”でなくても構わない。   In order to absorb the difference between Japanese and foreign language, the replacement cost from “k” to “c” is set to “0”. As a result, the edit distance between “kanransha” in which the keyword is converted into Roman characters and “canransha” included in the URL character string of the representative page candidate can be reduced. If the replacement cost is also a small value, it may not be “0”.

そして、編集距離に“1”を加えた値の逆数を第1代表ページスコアとして算出する。第1代表ページスコアの算出方法は、編集距離が小さいほど高くなるものであれば構わない。図7の代表ページ候補に対してキーワードとの編集距離を求めるとそれぞれ6,0,0となるため、第1代表ページスコアは図8のようになる。   Then, the reciprocal of the value obtained by adding “1” to the edit distance is calculated as the first representative page score. The first representative page score may be calculated as long as the edit distance is small. When the edit distance from the keyword for the representative page candidate of FIG. 7 is obtained, it becomes 6, 0, 0, respectively, so the first representative page score is as shown in FIG.

次に、文書の検索結果から第2代表ページスコアを求める。文書の検索結果とは、ステップS3で検索・取得された文書に関する情報である。具体的には、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された文書スコアや文書順位、参照元の文書数等を指す。   Next, a second representative page score is obtained from the document search result. The document search result is information related to the document searched and acquired in step S3. Specifically, it refers to the document score and document rank assigned based on the importance of the area corresponding to the place name included in the reference source document, the number of reference source documents, and the like.

ここでは、文書の検索結果として文書スコアを用い、代表ページ候補を含む文書の文書スコアの和を第2代表ページスコアとする。図7の代表ページ候補に対し、代表ページ候補を含む文書の文書スコアの和を第2代表ページスコアとした結果を図9に示す。   Here, the document score is used as the document search result, and the sum of the document scores of the documents including the representative page candidates is set as the second representative page score. FIG. 9 shows the result of setting the sum of the document scores of the documents including the representative page candidates as the second representative page score for the representative page candidates in FIG.

例えば、番号2の代表ページ候補の場合、この代表ページ候補を含む文書は図6よりD2,D3の2件であり、これらの文書の文書スコアは図5よりそれぞれ3.0,2.0であるため、その和である5.0が第2代表ページスコアとなる。残りについても同様である。   For example, in the case of the representative page candidate of number 2, there are two documents including the representative page candidate D2 and D3 from FIG. 6, and the document scores of these documents are 3.0 and 2.0 respectively from FIG. Therefore, the sum 5.0 is the second representative page score. The same applies to the rest.

尚、第2代表ページスコアの算出方法は文書の検索結果を用いるもので構わない。例えば、代表ページ候補を含む文書の文書数を第2代表ページスコアとしたり、代表ページを含む文書の文書順位の逆数の和を第2代表ページスコアとしたり、様々な文書情報に関するスコアを組み合わせて第2代表ページスコアとしたりしても構わない。   The second representative page score may be calculated using a document search result. For example, the number of documents including the representative page candidate is set as the second representative page score, the sum of the reciprocal of the document order of the document including the representative page is set as the second representative page score, or scores related to various document information are combined. The second representative page score may be used.

そして、図8と図9をもとに代表ページスコアを算出すると、番号1の代表ページスコアは0.644、番号2の代表ページスコアは5.0、番号3の代表ページスコアは1.2となる。これをもとに、代表ページを選択する。   When the representative page score is calculated based on FIGS. 8 and 9, the representative page score of number 1 is 0.644, the representative page score of number 2 is 5.0, and the representative page score of number 3 is 1.2. It becomes. Based on this, a representative page is selected.

ここでは、代表ページスコアの最も高い1件を代表ページとして選択する。代表ページスコアの最も高いものは番号2の代表ページ候補であるため、この代表ページ候補を代表ページとして選択する。   Here, the one with the highest representative page score is selected as the representative page. Since the representative page candidate with the highest representative page score is number 2, the representative page candidate is selected as the representative page.

尚、代表ページの選択方法はスコアの高いものを選択するのであれば構わない。例えば、上位N件を選択したり、上位X%を選択したりしても構わない。   Note that the method for selecting the representative page is not particularly limited as long as the one having a high score is selected. For example, the top N cases may be selected or the top X% may be selected.

このようにして選択された代表ページは、地理的文書検索方法を用いた検索結果の文書から取得されたものであるため、場所の地理的な近さが考慮されている。また、キーワードと代表ページ候補との文字列の近さや文書の検索結果を利用して選択されたものであるため、ページの代表らしさが考慮されている。また、この代表ページの文書自体は収集・インデクシングする必要がないことから、少量の文書群から代表ページを選択することができる。   Since the representative page selected in this way is obtained from a search result document using the geographical document search method, the geographical proximity of the place is considered. In addition, since the selection is based on the proximity of the character string between the keyword and the representative page candidate and the search result of the document, the representativeness of the page is taken into consideration. Further, since the document of the representative page itself does not need to be collected and indexed, the representative page can be selected from a small amount of documents.

以上より、本実施の形態によれば、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を文書群から検索するので、指定された地域との地理的な近さが考慮された代表ページを選択できる。   As described above, according to the present embodiment, a document related to a specified keyword and a region is searched from a document group based on a geographical scale between a specified region and a place name included in the document. A representative page that takes into account the geographical proximity to the region can be selected.

また、本実施の形態によれば、指定されたキーワードと地域に関連する文書を一部の文書群から検索するので、大量の文書群を収集してインデクシングしておく処理の必要性を無くすることができる。   In addition, according to the present embodiment, since a document related to a specified keyword and region is searched from a part of the document group, it is not necessary to collect and index a large number of document groups. be able to.

また、本実施の形態によれば、検索された文書が参照している参照先を代表ページ候補とし、指定されたキーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択するので、ページの代表らしさが考慮された代表ページを選択できる。   Further, according to the present embodiment, the reference destination referred to by the retrieved document is set as the representative page candidate, the approximation degree of the character string between the designated keyword and each representative page candidate, and the reference source document Since one or more representative pages are selected based on any one or more of the score, rank, or number of the document given based on the importance of the area corresponding to the included place name, the representativeness of the page Can be selected representative page.

最後に、本実施の形態で説明した代表ページ選択装置100は、メモリやCPUを備えたコンピュータで実現できる。また、各機能部の処理は、それらを実行可能なプログラムにより実現できる。   Finally, the representative page selection apparatus 100 described in the present embodiment can be realized by a computer having a memory and a CPU. The processing of each functional unit can be realized by a program that can execute them.

100…代表ページ選択装置
1…関連キーワード取得部
2…キーワード関連ページ取得部
3…文書取得部
4…代表ページ候補取得部
5…代表ページ候補絞り込み部
6…代表ページ選択部
7…キーワードDB
8…キーワード関連ページDB
9…検索インデックスDB
10…参照先ページDB
S1〜S6…ステップ
DESCRIPTION OF SYMBOLS 100 ... Representative page selection apparatus 1 ... Related keyword acquisition part 2 ... Keyword related page acquisition part 3 ... Document acquisition part 4 ... Representative page candidate acquisition part 5 ... Representative page candidate narrowing part 6 ... Representative page selection part 7 ... Keyword DB
8 ... Keyword related page DB
9 ... Search index DB
10 ... Reference page DB
S1-S6 ... Step

Claims (5)

指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を、記憶手段に記憶されている一部の文書群から検索する検索手段と、
前記文書が参照している参照先を代表ページ候補とし、前記キーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択する選択手段と、
を有することを特徴とする代表ページ選択装置。
A search means for searching a document related to the specified keyword and the area from a part of the document group stored in the storage means based on a geographical measure of the specified area and the place name included in the document;
The reference destination referred to by the document is set as a representative page candidate, and is assigned based on the similarity of the character string between the keyword and each representative page candidate, and the importance of the area corresponding to the place name included in the reference source document Selection means for selecting one or more representative pages based on any one or more of the score, rank, or number of the document
A representative page selection device.
前記選択手段は、
前記文字列の近似度を編集距離を用いて計算することを特徴とする請求項1記載の代表ページ選択装置。
The selection means includes
The representative page selection apparatus according to claim 1, wherein the approximation degree of the character string is calculated using an edit distance.
前記キーワードに関連する関連ページのURLと前記各代表ページ候補のURLとの合致度に基づき、前記代表ページ候補の数を少なくすることを特徴とする請求項1又は2記載の代表ページ選択装置。   3. The representative page selection device according to claim 1, wherein the number of representative page candidates is reduced based on a degree of match between a URL of a related page related to the keyword and a URL of each representative page candidate. 前記関連ページには、
前記キーワードに関連のある関連キーワードに関連する関連ページが含まれることを特徴とする請求項3記載の代表ページ選択装置。
In the related page,
The representative page selection device according to claim 3, wherein a related page related to a related keyword related to the keyword is included.
コンピュータを請求項1乃至4のいずれかに記載の代表ページ選択装置として機能させるための代表ページ選択プログラム。   A representative page selection program for causing a computer to function as the representative page selection device according to any one of claims 1 to 4.
JP2013087345A 2013-04-18 2013-04-18 Representative page selection device and representative page selection program Active JP5981386B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013087345A JP5981386B2 (en) 2013-04-18 2013-04-18 Representative page selection device and representative page selection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013087345A JP5981386B2 (en) 2013-04-18 2013-04-18 Representative page selection device and representative page selection program

Publications (2)

Publication Number Publication Date
JP2014211739A JP2014211739A (en) 2014-11-13
JP5981386B2 true JP5981386B2 (en) 2016-08-31

Family

ID=51931463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013087345A Active JP5981386B2 (en) 2013-04-18 2013-04-18 Representative page selection device and representative page selection program

Country Status (1)

Country Link
JP (1) JP5981386B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002328830A (en) * 2000-09-22 2002-11-15 Masanobu Kujirada System, method and program for display of link information
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
JP5087377B2 (en) * 2007-11-29 2012-12-05 日本電信電話株式会社 SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
JP5528402B2 (en) * 2011-08-26 2014-06-25 日本電信電話株式会社 Keyword-related place name extraction apparatus, method, and program

Also Published As

Publication number Publication date
JP2014211739A (en) 2014-11-13

Similar Documents

Publication Publication Date Title
JP4936401B2 (en) Method and system for filtering subject-related web pages based on navigation path information
US10387435B2 (en) Computer application query suggestions
JP6790067B2 (en) Search query disambiguation
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
JP5552426B2 (en) Automatic extended language search
US10346457B2 (en) Platform support clusters from computer application metadata
JP7182585B2 (en) program
US20080086686A1 (en) User interface for displaying images of sights
US20080086468A1 (en) Identifying sight for a location
CN107229659B (en) Information searching method and device
JP2017220205A (en) Method and system for dynamically rankings images to be matched with content in response to search query
US20080270375A1 (en) Local news search engine
JP5185402B2 (en) Document search apparatus, document search method, and document search program
US9165038B1 (en) Interpreting adjacent search terms based on a hierarchical relationship
JP4324650B2 (en) Information resource search device, information resource search method, and information resource search program
Kim et al. Harvesting large corpora for generating place graphs
US10339148B2 (en) Cross-platform computer application query categories
JP5981386B2 (en) Representative page selection device and representative page selection program
KR20050078655A (en) Dynamic keyword extraction and processing system
JP6571053B2 (en) FACILITY SEARCH DEVICE, FACILITY SEARCH METHOD, COMPUTER PROGRAM, AND RECORDING MEDIUM CONTAINING COMPUTER PROGRAM
KR101698280B1 (en) Apparatus and Method for searching web page for tags
JP5977199B2 (en) Local association word extraction device, regional association word extraction method, and regional association word extraction program
JP5801243B2 (en) Feature keyword recommendation device, method and program
JP5670944B2 (en) Document summarization apparatus, method and program
JP5068356B2 (en) Blog body identification device and blog body identification method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160728

R150 Certificate of patent or registration of utility model

Ref document number: 5981386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150