JP2009205499A

JP2009205499A - ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Info

Publication number: JP2009205499A
Application number: JP2008048014A
Authority: JP
Inventors: Shigeaki Matsumoto; 繁明松元
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-28
Filing date: 2008-02-28
Publication date: 2009-09-10

Abstract

【課題】サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定する。
【解決手段】ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出するＵＲＬ分解手段と、前記ＵＲＬ分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定するＵＲＬ判定手段とを備えたことを特徴とする。
【選択図】図１

Description

特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラムに関する。

例えば、ＥＣ（electronic commerce ：電子商取引）サイトを運営する人などが、該ＥＣサイトで販売する商品を紹介しようとした場合に、商品の概要、スペック、特徴などは該商品のメーカのホームページへのリンクを用いて顧客に紹介することが多い。このような場合には、該当商品の情報が掲載されている各ウェブページへのリンクではなく、該商品の情報を掲載しているウェブページのトップページと呼ばれる総括ページへのリンクが引用される。

このような、ある目的をもって適切なウェブページを人手で探し出そうとすると、例えば、キーワード等を入力して検索されたウェブページを閲覧してそれが目的とするページかどうかを判断しなければならず、手間がかかる。また、例えば、新製品毎にこれらの作業が繰り返し必要になり、煩雑である。また、引用したウェブページがメーカによって変更され、リンク切れなどが生じるといった問題もある。また、新発売の商品をピックアップしたいとか競合商品比較を行いたい場合など、詳細な商品名を知らない場合でも、該当商品の紹介ページのトップページを探し出したいといった要望もある。

ある目的をもって適切なウェブページを探し出すための技術として、例えば、ページ間のリンク関係やページに含まれる語彙を用いて、目的とするページらしさを計算して、特定する方法がある。

また、例えば、特許文献１には、ＵＲＬを元に、ネットワーク上のコンテンツを分類するコンテンツ分類方法が記載されている。特許文献２に記載されているコンテンツ分類方法では、ＵＲＬに記載された前記コンテンツを格納するサーバのドメイン名から分類項目を抽出して分類する。また、ＵＲＬに記載れたコンテンツの格納場所を示すディレクトリ名から分類項目を抽出して分類する。また、ＵＲＬに記載されたコンテンツのファイル名から分類項目を抽出して分類する。

また、ある商品に対し類似商品を検索する方法の一例として、例えば、特許文献２には、予め項目別に整理されている商品に対し、項目間の関係や類似度に基づき、類似商品を検索する方法が記載されている。

特開２００４−３４１９４２号公報特開平８−２１２２３３号公報

しかし、適切なウェブページを探し出す方法としてページ間のリンク関係を用いる方法を適用した場合、ページ間のリンク関係が複雑になると、精度が悪くなり、本来目的としたページではないページが抽出される可能性が高くなるという問題がある。また、ページに含まれる語彙を用いた方法を適用した場合、ページに含まれる語彙にサイトごとのゆらぎがあり、それが原因で精度が悪くなるといった問題がある。また、目的とするページを特定するための語彙集合を予め登録しておかなければならないという問題もある。

なお、特許文献１に記載されている方法を利用すれば、ページ間のリンク関係やページに含まれる語彙を用いずにネットワーク上のコンテンツを分類できる。しかし、特許文献１に記載されている方法は、ユーザのアクセス履歴を解析することにより、ユーザがどのようなコンテンツに興味があるかのおおよその分類をしようというものであって、ある目的に合致するウェブページを探しだそうというものではない。例えば、特許文献１に記載されている方法では、一度もアクセスを行っていないページを抽出することができない。また、例えば、ある範囲のＵＲＬを入力として与えるとしても、特許文献１に記載されている方法では、それらのＵＲＬ群に対する分類結果が得られるだけである。すなわち、目的とするウェブページの抽出のための分類ではないため、その分類結果から目的とするウェブページが抽出できるとは限らない。

また、ページ間のリンク関係を用いた方法では、ページ間のリンク関係が複雑になると、精度が悪くなり、本来目的としたページではないページが抽出される可能性が高くなるという問題がある。また、ページに含まれる語彙を用いた方法では、ページに含まれる語彙にサイトごとのゆらぎがあり、それが原因で精度が悪くなるといった問題がある。また、目的とするページを特定するための語彙集合を予め登録しておかなければならないという問題もある。

なお、特許文献２に記載されている方法は、予め分類されたカタログ情報があることにより実現可能な方法である。従って、カタログ情報をサイトの階層構造に置き換えたとしても、メーカごとに異なるウェブサイトでは、所望のウェブページ（ある商品に対する競合商品の紹介ページ等）を特定することはできない。

そこで、本発明は、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することができるウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラムを提供することを目的とする。

本発明によるウェブページ特定装置は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出するＵＲＬ分解手段と、前記ＵＲＬ分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定するＵＲＬ判定手段とを備えたことを特徴とするウェブページ特定装置。

また、本発明によるウェブページ特定方法は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定方法であって、ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出し、抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定し、非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定することにより、目的とするウェブページを特定することを特徴とする。

また、本発明によるウェブページ特定用プログラムは、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定用プログラムであって、コンピュータに、ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する処理、抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する処理、および非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定することにより、目的とするウェブページを特定する処理を実行させることを特徴とする。

また、本発明によるサーバ装置は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するサーバ装置であって、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、判定対象とするＵＲＬの情報の入力を受け付ける受け付け手段と、前記ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出するＵＲＬ分解手段と、前記ＵＲＬ分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定するＵＲＬ判定手段とを備え、前記ＵＲＬ判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであると判定したＵＲＬの情報を、要求により出力する出力手段とを備えたことを特徴とする。

本発明によれば、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することができる。

以下、本発明の実施形態を図面を参照して説明する。図１は、本発明によるウェブページ特定装置の構成例を示すブロック図である。図１に示すように、本発明によるウェブページ特定装置は、ＵＲＬ分解手段１０と、非一般名称判定手段１１と、ＵＲＬ判定手段１２とを備える。

ＵＲＬ分解手段１０は、ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する。ＵＲＬ分解手段１０は、例えば、ＵＲＬを構成する文字列から、ＵＲＬの構文構造において、プロトコルに関する情報を表している部分文字列と、セパレータとして用いられている部分文字列と、サイト名を表している部分文字列と、ファイルタイプを表している部分文字列とを除去することにより、該ＵＲＬを分解し、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出してもよい。

非一般名称判定手段１１は、ＵＲＬ分解手段１０によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する。

ＵＲＬ分解手段１０は、例えば、ＵＲＬ分解手段１０によって抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定してもよい。また、例えば、ＵＲＬ分解手段１０によって抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定してもよい。また、例えば、照合先の辞書を切り替えることにより、１つの用語について複数の辞書と照合を行ってもよい。

ＵＲＬ判定手段１２は、非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する。

ＵＲＬ判定手段１２は、例えば、ＵＲＬの構文構造における、非一般名称判定手段１１によって非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定してもよい。具体的には、非一般名称を表すと判断された用語が、ＵＲＬの最下位層で用いられている場合に、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであると判定してもよい。

また、例えば、ＵＲＬの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定してもよい。具体的には、非一般名称を表すと判断された用語が、ＵＲＬの最下位層のすぐ上位の階層で用いられ、かつ該ＵＲＬの最下位層に用いられている表現が予め定められている表現と一致する場合に、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであると判定してもよい。

また、ＵＲＬ判定手段１２は、例えば、非一般名称を表すと判断された用語の、判定対象とされるＵＲＬのなかでの出現頻度に基づき、該用語を用いているＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定してもよい。

このような構成により、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することが可能となる。

また、ウェブページ特定装置は、図２に示すように、さらにＵＲＬグループ化手段１３と、新ＵＲＬ生成手段１４と、存在確認手段１５とを備えていてもよい。図２は、本発明によるウェブページ特定装置の他の構成例を示すブロック図である。

ＵＲＬグループ化手段１３は、判定対象とするＵＲＬが指定された場合に、指定されたＵＲＬを、サイト名およびＵＲＬの階層別にグループ化する。

新ＵＲＬ生成手段１４は、各グループに属するＵＲＬに対するＵＲＬ判定手段１０の結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬ候補を生成する。

存在確認手段１５は、新ＵＲＬ生成手段１４が生成したＵＲＬが示すウェブページが実在するか否かを判定する。

なお、このような構成の場合には、入力として与えられなかったＵＲＬ集合以外のＵＲＬをもつウェブページを特定することができる。

以下、より具体的な実施形態について説明する。

実施形態１．
図３は、本発明の第１の実施形態によるウェブページ特定装置の構成例を示すブロック図である。図３に示すように、本実施形態のウェブページ特定装置１は、ＵＲＬ分解手段１００と、非一般名称判定手段１１０と、ＵＲＬ判定手段１２０とを備える。

また、図４は、ＵＲＬ分解手段１００の構成例を示すブロック図である。ＵＲＬ分割手段１００は、判定対象とされたＵＲＬを分解し、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する手段である。本実施形態では、図４に示すように、プロトコル除去手段１０１と、セパレータ除去手段１０２と、サイト名除去手段１０３と、拡張子除去手段１０４とを含む。なお、ＵＲＬ分解手段１００は、図１に示すＵＲＬ分解手段１０を実現している手段である。

プロトコル除去手段１０１は、ＵＲＬを構成している文字列から、ＵＲＬの構文構造において、通信プロトコルに関する情報を表現している部分文字列（例えば、”ｈｔｔｐ：／／”）を除去する。

セパレータ除去手段１０２は、ＵＲＬを構成している文字列から、ＵＲＬの構文構造において、階層の区切りであるセパレータを表現している部分文字列（例えば、”／”）を除去する。これにより、セパレータによって区切られていた各階層に用いられている用語（複数の単語が組み合わされてなる複合語を含む）を表す部分文字列が、出現順序を維持しつつ抽出される。

サイト名除去手段１０３は、ＵＲＬを構成している文字列から、ＵＲＬの構文構造において、サイト名を表している部分文字列を除去する。サイト名除去手段１０３は、例えば、セパレータ除去手段１０２によって抽出された部分文字列およびその出現順序に基づき、最初に出現した部分文字列（通信プロトコルに関連する部分文字列を除く）をサイト名として除去する。なお、サイト名除去手段１０３は、サイト名を表す部分文字列全てを除去するのではなく、サイト名を表す部分文字列のうちサイト名であるための技術用語だけを除去するようにしてもよい。例えば、”ｗｗｗ．ａａａ．ｃｏ．ｊｐ”というサイト名であった場合には、”ａａａ”を除いた部分文字列を除去することで、”ａａａ”の部分が最上位層に用いられている用語として抽出されるようにすることも可能である。

拡張子除去手段１０４は、抽出された部分文字列の出現順序に基づき、最後に出現した部分文字列をファイル名とし、該ファイル名を示す部分文字列においてファイルタイプに関連する文字列（例えば、”．ｈｔｍｌ”）を除去する。

なお、ＵＲＬ分解手段１００に含まれる各手段は、予めＵＲＬの構文構造の情報が与えられることにより、処理対象とする文字列（通信プロトコル，セパレータ，サイト名，ファイルタイプに関連する部分文字列）が、ＵＲＬを構成する文字列にどのように含まれているかを認識できるものとする。

また、図５は、非一般名称判定手段１１０の構成例を示すブロック図である。非一般名称判定手段１１０は、判定対象のＵＲＬから抽出された各用語について、辞書との照合により該用語が一般名称であるか又は非一般名称であるかを判定する手段である。本実施形態では、図５に示すように、辞書問い合わせ手段１１１と、問い合わせ結果判定手段１１２と、用語分類手段１１３とを含む。なお、非一般名称判定手段１１０は、図１に示す非一般名称判定手段１０を実現している手段である。

辞書問い合わせ手段１１１は、ＵＲＬ分解手段１００によって得られた各用語について、辞書に問い合わせを行う。辞書問い合わせ手段１１１は、例えば、当該ウェブページ特定装置で使用する辞書へのアクセス情報によって特定される所定の辞書との照合を行う手段に対し、ＵＲＬ分解手段１００によって得られた各用語についての問い合わせを行う。辞書問い合わせ手段１１１は、例えば、アクセス情報によって特定される翻訳用辞書（例えば、英和辞書）との照合手段に対し、ＵＲＬ分解手段１００によって得られた用語を指定して、該用語の日本語表記を問い合わせてもよい。なお、一般に用いられている辞書データベースを当該ウェブページ特定装置で備え、辞書問い合わせ手段１１１自身が、該辞書との照合を行うことも可能である。

また、辞書問い合わせ手段１１１は、問合せ先の辞書を切り替える機能を有し、例えば、ＵＲＬ分解手段１００によって得られた用語がローマ字表記の用語であると判断した場合には、該用語をローマ字表記から仮名表記へ変換した上で、アクセス情報によって特定される和英辞書との照合手段に対し、該仮名表記の用語を指定して、該用語の英語表記を問い合わせてもよい。この他にも日本語辞典や技術用語辞典といった用語の意味を問う辞書との照合手段に対する問い合わせも考えられる。なお、ローマ字表記の用語であるか否かは、ローマ字仮名変換手段（図示せず。）に要求した結果により判断してもよい。

また、辞書問い合わせ手段１１１は、例えば、ローマ字表記の用語であると判断した場合には、仮名漢字変換用辞書との照合手段（仮名漢字変換手段）に該用語をローマ字表記の変換対象文字列として指定し、該用語の漢字を含む変換候補を問い合わせてもよい。なお、辞書問い合わせ手段１１１は、例えば、英単語と見なして英和辞書との照合を行った結果、一致する用語が登録されていない旨のエラーが返却された場合に、該用語をローマ字表記と見なして仮名漢字変換を試みるといった複数の辞書を利用することも可能である。

問い合わせ結果判定手段１１２は、辞書問い合わせ手段１１１による問い合わせに対する結果から、該用語に意味が存在するか否かを判定する。問い合わせ結果判定手段１１２は、例えば、一致する用語が登録されていない旨が返却されてきたか否かにより、該用語に意味が存在するか否かを判定してもよい。また、例えば、仮名漢字変換に対する結果であれば、変換の範囲が分断されずに漢字を含む変換候補が得られたか否かにより、該用語に意味が存在するか否かを判定してもよい。例えば、ＵＲＬ中に”ａｘ２５０”という用語が用いられていた場合に、仮名漢字変換手段から［ａｘ２５０］や［あｘ２５０］といった変換候補が返却された場合には、該用語は一般的な日本語でないと見なせばよい。なお、問い合わせ結果判定手段１１２は、辞書問い合わせ手段１１１が複数の辞書に対し問い合わせを行う場合には、いずれの辞書に一致する用語が登録されていなかった場合に、その用語に意味が存在しないと判定すればよい。

用語分類手段１１３は、用語が意味をもつか否かの２つの判定結果に基づき、該用語を分類する。ここでは、意味をもつと判定された用語を、一般名称を表す用語として分類する。一方、意味をもたないと判定された用語を、非一般名称（人や物に特に付された名称（いわゆる、固有名称））を表す用語として分類する。なお、ここでの固有名称は、唯一であることを意味しているわけではない。

また、図６は、ＵＲＬ判定手段１２０の構成例を示すブロック図である。ＵＲＬ判定手段１２０は、判定対象のＵＲＬのうち非一般名称を表す部分文字列が用いているＵＲＬについて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定することにより、目的とするウェブページのＵＲＬを特定する手段である。本実施形態では、図６に示すように、非一般名称位置判定手段１２１と、補完文字記憶部１２２とを含む。なお、ＵＲＬ判定手段１２０は、図１に示すＵＲＬ判定手段１２を実現している手段である。

非一般名称位置判定手段１２１は、非一般名称を表す用語を用いているＵＲＬの該用語に係る構文構造に基づいて、該ＵＲＬが、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する。本実施形態では、ＵＲＬの構文構造において非一般名称を表すと判断された用語が用いられる階層位置に基づいて判定する。また、階層位置だけでなく、さらに後述する補完文字記憶部１２２に記憶されている用語に基づいて判定している。

補完文字記憶部１２２は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬで、末尾の部分文字列（ここでは、ファイル名に該当する部分）に通常よく利用されている用語（例えば、”ｉｎｄｅｘ．ｈｔｍｌ”等。なお、ファイルタイプは省略してもよい。）を記憶する。なお、トップページに用いられやすい順に、優先順位の情報を付加して記憶するようにしてもよい。

非一般名称位置判定手段１２１は、意味を持たない用語（非一般名称を表すと判断された用語）が、該用語を含むＵＲＬにおいて、最後に出現するか、もしくは最後から１つ手前で出現しつつ補完文字記憶部１２２に登録された用語が続けて出現するか否かを判定することによって、該ＵＲＬを判定する。すなわち、非一般名称を表すと判断された用語が、末尾（最下位層）の部分文字列として用いられているか、または末尾から２番目（最下位層のすぐ上位の階層）の部分文字列として用いられかつ該ＵＲＬで末尾に用いられている部分文字列が補完文字記憶部１２２に登録されている用語を示すものである場合には、該ＵＲＬが、該用語が示す事物（ここでは、最下位層またはそのすぐ上位の階層に用いられている非一般名称が付された事物をいう。）についてのトップページのＵＲＬであると判定する。

なお、非一般名称位置判定手段１２１は、上記条件に合致するＵＲＬが複数検知された場合には、予め定めておいた優先順位に従い、そのうちの１つのＵＲＬのみをその非一般名称に係る目的のＵＲＬとすればよい。なお、判定対象とされるＵＲＬの範囲が限定されないような場合であっても、例えば、上記条件に合致したＵＲＬが見つかった時点で、該ＵＲＬがその非一般名称に係る目的のＵＲＬであると判定しておき、次に同じ非一般名称での上記条件に合致したＵＲＬが見つかったときに、どちらの優先順位が高いかによって１つのＵＲＬを取捨選択するようにすればよい。

なお、本実施形態において、ＵＲＬ分解手段１００（プロトコル除去手段１０１，セパレータ除去手段１０２，サイト名除去手段１０３，拡張子除去手段１０４）は、ＣＰＵ等のプログラムに従い動作するプロセッサによって実現される。また、非一般名称判定手段１１０（辞書検索手段１１１，問い合わせ結果判定手段１１２，部分文字列分類手段１１３）は、ＣＰＵ等のプログラムに従い動作するプロセッサによって実現される。また、ＵＲＬ判定手段１２０（非一般名称位置判定手段１２１，補完文字記憶部１２２）は、ＣＰＵ等のプログラムに従い動作するプロセッサと記憶装置とによって実現される。

次に、本実施形態の動作について説明する。図７は、本実施形態のウェブページ特定装置１の動作例を示すフローチャートである。以下では、ある企業のウェブサイトから、商品の紹介ページを特定する例を用いて説明する。図７に示すように、ウェブページ特定装置１に、判定対象となるＵＲＬ（例えば、ある企業のウェブサイトを構成する各ウェブページのＵＲＬ）が入力されると、各ＵＲＬについて、ＵＲＬ分解手段１００が用語の抽出処理を行う（ステップＳ１０１〜Ｓ１０５）。

まず、ステップＳ１０１では、プロトコル名除去手段１０１が、対象となったＵＲＬを構成している文字列から、通信プロトコルに関連する部分文字列を除去する。例えば、プロトコル名除去手段１０１は、”ｈｔｔｐ：／／ｗｗｗ．ａｂｃ．ｃｏｍ／ｐｒｏｄｕｃｔ／ａ１２３／ｉｎｄｅｘ．ｈｔｍｌ”というＵＲＬからであれば、”ｈｔｔｐ：／／”という文字列を除去する。次に、セパレータ除去手段１０２が、階層の区切りを表現しているセパレータの文字を除去する（ステップＳ１０２）。これにより、ＵＲＬから、セパレータによって区切られていた各階層に用いられている用語（本例では、”ｗｗｗ．ａｂｃ．ｃｏｍ”，”ｐｒｏｄｕｃｔ”，”ａ１２３”，”ｉｎｄｅｘ．ｈｔｍｌ”）が分解され、出現順に抽出される。

次に、サイト名除去手段１０３が、抽出された用語の出現順序に基づき、最初に出現した用語（本例では、”ｗｗｗ．ａｂｃ．ｃｏｍ”）をサイト名として除去する（ステップＳ１０３）。

次に、拡張子除去手段１０４が、抽出された用語の出現順序に基づき、最後に出現した用語をファイル名とし、該ファイル名を表現している部分文字列においてファイルタイプに関連する文字列（本例では、”．ｈｔｍｌ”）を除去する（ステップＳ１０４）。

上記処理の結果、対象となったＵＲＬから、該ＵＲＬに用いられている用語であって、ＵＲＬを表現するための技術用語として用いられている用語（通信プロトコル、サイト名、およびファイルタイプに関連するもの）を除いた用語の集合（本例では”ｐｒｏｄｕｃｔ”と、”ａ１２３”と、”ｉｎｄｅｘ”）が抽出される（ステップＳ１０５）。抽出結果として、例えば、抽出元となったＵＲＬと該ＵＲＬから抽出された用語の集合とを関連づけて、データベースに記憶してもよい。

判定対象となる全ＵＲＬについて、用語の抽出処理が完了すると（ステップＳ１０６）、次に、非一般名称判定手段１１０が、ＵＲＬから抽出された用語について非一般名称か否かの分類を行う（ステップＳ１０７〜Ｓ１０９）。なお、ステップＳ１０６の処理は、１つのＵＲＬについての一連の処理（ステップＳ１０１〜Ｓ１１２）が完了したときに行うことも可能である。

まず、ステップＳ１０７では、辞書問い合わせ手段１１１が、ＵＲＬ分解手段１００から得られた用語の集合から１つずつ取り出し、取り出した用語について、指定された辞書への問い合わせを行い、検索（辞書との照合）を行わせる。なお、同一の用語が複数含まれている場合があるが、少なくとも１語あたり１回の問い合わせを行う。辞書問い合わせ手段１１１は、例えば、予め設定されているアクセス情報に基づいて、ネットワーク上に公開されている翻訳サイトにアクセスし、対象とする用語を指定したリクエストを送信することにより、翻訳用辞書や変換用辞書との照合結果（翻訳結果または変換候補）を得るようにしてもよい。

次に、問い合わせ結果判定手段１１２は、辞書問い合わせ手段１１１による問い合わせの結果得られる情報から、問い合わせた用語が、その用語自体に意味が存在するものか否かを判定する（ステップ１０８）。問い合わせ結果判定手段１１２は、例えば、翻訳を行うＷｅｂサイトからの返却文字列が、要求時と同じ内容であったり、翻訳または変換ができなかった旨（一致する単語が登録されていなかった旨）を示す文字列であるか否かによって判定すればよい。そして、判定の結果を示す情報をその単語に関連づけてデータベースに記憶することにより、ＵＲＬ分解手段１００から得られた各用語を、一般名称か非一般名称かにより分類すればよい（ステップＳ１０９）。

抽出された用語について非一般名称か否かの分類が完了すると、次に、ＵＲＬ判定手段１２０が、非一般名称の用語を含むＵＲＬについて、該ＵＲＬが該非一般名称に係る目的のＵＲＬか否かを判定する（ステップＳ１１０〜Ｓ１１２）。

非一般名称位置判定部１２１は、まず、非一般名称の用語を含むＵＲＬに対し、その用語がＵＲＬの末尾に用いられているか否かを判定する（ステップＳ１１０）。非一般名称位置判定部１２１は、例えば、非一般名称の用語を末尾（最下位層）にもつＵＲＬが存在した場合には、該ＵＲＬの情報を、判定した非一般名称の用語の情報とともにデータベースに記憶することにより、判定結果を保持するようにしてもよい。

次に、非一般名称位置判定部１２１は、非一般名称の用語を含むＵＲＬに対し、その用語がＵＲＬの末尾から２番目に用いられ、かつ補完文字記憶部１２２に記憶されている用語が該ＵＲＬの末尾に用いられているか否かを判定する（ステップＳ１１１）。非一般名称位置判定部１２１は、例えば、非一般名称の用語を末尾から２番目（最下位層のすぐ上位）にもち、かつ補完文字記憶部１２２に記憶されている用語をセパレータ文字列（”／”）で連結したＵＲＬが存在した場合には、該ＵＲＬの情報を、判定した非一般名称の用語の情報とともにデータベースに記憶することにより、判定結果を保持するようにしてもよい。

最後に、非一般名称位置判定部１２１は、ステップＳ１１０またはステップＳ１１１で該当するＵＲＬが存在した場合には、そのＵＲＬが示すウェブページが、判定に用いた非一般名称に係る目的のウェブページであると特定し、その旨（該ＵＲＬが示すウェブページが、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページである旨）を記憶する（ステップＳ１１２）。

なお、ステップＳ１１０またはステップＳ１１１で該当するＵＲＬが複数存在した場合には、そのＵＲＬのうち１つのＵＲＬを選択した上で、該ＵＲＬが示すウェブページが、該非一般名称が付された事物についてのトップページであると特定する。なお、優先順位が高いとされる構文構造の条件から順にその存在の有無を判定するようにし、該当するものが見つかった場合には、次の非一般名称へ判定処理を移るようにするなど、１つの非一般名称について１つのＵＲＬしか列挙されないようにしてもよい。

また、上記例ではＵＲＬに用いられている用語を全て列挙したあとで、その用語が非一般名称であるものについてＵＲＬ上の位置を判定するようにしているが、まずＵＲＬ上の構文構造において所定の構文構造で用いられている用語（すなわち、末尾或いは所定の用語を末尾にもちつつ末尾から２番目に用いられている用語）を列挙したあとで、該用語が非一般名称か否かを判定するようにしてもよい。

以上のように、本実施形態によれば、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することが可能である。それは、ＵＲＬに含まれる用語を翻訳用の辞書を用いて意味をもつ用語か否かを調査した上で、意味を持たないとされた用語に係るＵＲＬ上の構文構造を元に、該ＵＲＬが目的とするウェブページのＵＲＬか否かを判定するからである。

以下、本実施形態の動作についてより具体的な例を用いて説明する。本実施例は、英語を含むディレクトリに商品の紹介が掲載されているウェブページファイルによって公開されるウェブページを特定する場合の例である。例えば、図８に示すＵＲＬ群が、判定対象のＵＲＬとして入力されたとする。ウェブページ特定装置１では、このＵＲＬ群の中から商品トップページを特定する。

なお、図８に示されているＵＲＬは、次の４つである。
（１）http://www.nec.co.jp/product/keitai/
（２）http://www.nec.co.jp/product/keitai/905i/
（３）http://www.nec.co.jp/product/keitai/905i/n905imu/index.html
（４）http://www.nec.co.jp/product/keitai/905i/n905imu/topics_01.html

１つ目のＵＲＬに対し、ＵＲＬ分解手段１００では、ステップＳ１０１〜Ｓ１０５の処理により、”ｐｒｏｆｕｃｔ”，”ｋｅｉｔａｉ”を抽出する。また、２つ目のＵＲＬに対する同様の処理により、”ｐｒｏｆｕｃｔ”，”ｎ−ｋｅｉｔａｉ”，”９０５ｉ”を得る。また、３つ目のＵＲＬからは、”ｐｒｏｆｕｃｔ”，”ｋｅｉｔａｉ”，”９０５ｉ”，”ｎ９０５ｉｍｕ”，”ｉｎｄｅｘ”を得る。４つ目のＵＲＬからは、”ｐｒｏｆｕｃｔ”，”ｋｅｉｔａｉ”，”９０５ｉ”，”ｎ９０５ｉｍｕ”，”ｔｏｐｉｃｓ＿０１”を得る。なお、サイト名に用いられている用語も抽出する場合には、各ＵＲＬから、さらに”ｎｅｃ”を得る。

ここで、例えば、”＃ｋｅｉｔａｉ＿９０５ｉ”のように、英数字以外で始まる用語については、一事物に付される名称として用いられる用語ではないとして抽出対象から除外してもよい。なお、もちろん用語として抽出させることも可能である。また、どちらで動作するかを、設定により切り替えれるようにしてもよい。

各ＵＲＬが保有する用語は、例えば、図９に示す抽出用語欄のように、ＵＲＬの情報に関連づけて記憶される。なお、抽出された用語の一覧表を作成し、その用語を保有するＵＲＬの情報を関連づけて記憶するようにしてもよい。

次に、非一般名称判定手段１１０が、各用語に対してステップＳ１０７〜Ｓ１０９の処理を実施し、それぞれ図９に示す翻訳結果を得る。図９では、”ｐｒｏｄｕｃｔ”，”ｉｎｄｅｘ”について翻訳可能である旨が示されている。なお、”ｔｏｐｉｃｓ＿０１”については、それ自体を１つの用語（より具体的には複合語）とみなした上で、”アンダーバー”や”ハイフン”、”＃”など英数字以外の文字を該用語におけるセパレータとして認識し、これらを除去した各語句に対し意味をもつか否かを判定している。そして、１つの複合語を構成している語句の中に一つでも意味をもつ単語が含まれている場合には、複合語としての意味をもつ用語であると判定している。このような複合語は他の事物と区別するために付された非一般名称としての使用ではないと考えられるからである。なお、一つも意味をもつ単語が含まれていない複合語については、他の事物と区別するために付された非一般名称としての使用であるとみなして、複合語としても意味をもたない用語であると判定する。従って、”ｔｏｐｉｃｓ＿０１”は、”０１”が意味をもたなくとも”ｔｏｐｉｃｋｓ”が翻訳可能であることから、複合語としての意味をもつ用語である（すなわち、非一般名称の用語ではない）と判定している。

なお、用語が数値のみであった場合には、基本的にはそれ自体（数値の羅列）には意味をもたないが、複合語としての使用であった場合には、他に意味を持たない語句が含まれているか否かで判断するようにする。これにより、単なる番号や日付を除外することができる。

また、本例では、非一般名称判定手段１１０は、翻訳候補が得られなかった用語（”ｋｅｉｔａｉ”，”９０５ｉ”，”ｎ９０５ｉｍｕ”）について、辞書を切り替えてステップＳ１０７〜Ｓ０９を実施する。ここでは、該用語をローマ字表記の変換対象文字列として仮名漢字変換手段（図示せず。）に指定して該用語の漢字を含む変換候補を問い合わせ、図９の変換結果を得る。図９では、”ｋｅｉｔａｉ”について変換可能である旨が示されている。結果、本例では、”９０５ｉ”，”ｎ９０５ｉｍｕ”が、非一般名称の用語と判定される。なお、ローマ字を仮名に変換する手段を用い、一旦かな表記”けいたい”に変換した上で、該仮名に対する漢字を含む変換候補を問い合わせてもよい。問い合わせ結果判定手段１１２は、例えば、漢字を含む変換候補が返却されたか否かを判定する。ここでは、抽出された用語”ｋｅｉｔａｉ”の仮名”けいたい”について、”携帯”，”形態”，”敬体”，”継体”，”形体”といった漢字を含む変換候補を得る。これにより、ＵＲＬに用いられている用語”ｋｅｉｔａｉ”は、一般的な日本語として変換できるため、該用語は意味を持つ用語であるとして、非一般名称用語とは判定しない。

なお、例えば、”ｐｒｏｄｕｃｔ”の代わりに”ｓｅｉｈｉｎ”が用いられていた場合であっても、該用語をローマ字表記として捉え、該ローマ字表記の用語が示す仮名”せいひん”に対し仮名漢字変換を実行することで、”製品”，”清貧”，”正賓”といった漢字を含む変換候補を得ることができる。また、例えば、”ｏｓｈｉｒａｓｅ”という用語が抽出された場合であっても、該ローマ字表記の用語が示す仮名”おしらせ”に対し仮名漢字変換を実行することで、”お知らせ”，”御知らせ”，”お報せ”といった漢字を含む変換候補を得ることができる。このように、アルファベットで表記された用語をローマ字としても解釈することにより、ＵＲＬに用いられる用語が英語・日本語に関わらず、意味をもつ単語とそうでない単語とを区別することができる。すなわち、ＵＲＬに用いられる用語が意味をもつ存在であるか否かをより的確に判定することができる。

ステップＳ１１０では、非一般名称位置判定部１２１が、これら非一般名称の用語が最後（末尾）に出現するＵＲＬがあるか検査する。本例では、”９０５ｉ”に対し２つ目のＵＲＬが検出される。検出されたＵＲＬは、該非一般名称（”９０５ｉ”）が付された事物についてのホームページ（すなわち、紹介ページのトップページ）のＵＲＬとみなす。

また、ステップＳ１１１では、非一般名称の用語が最後から２番目に出現するＵＲＬがあるか検査し、さらに検出されたＵＲＬについて、例えば”ｉｎｄｅｘ”や”ｔｏｐ”といった補完文字記憶部１２２に記憶されている用語が末尾に用いられているか検査する。本例では、”ｎ９０５ｉｍｕ”に対し３つ目のＵＲＬがこの条件を満たすものとして検出される。検出されたＵＲＬは、該非一般名称（”ｎ９０５ｉｍｕ”）が付された事物についてのホームページのＵＲＬとみなす。

なお、例えば、ステップＳ１１０でも”ｎ９０５ｉｍｕ”を末尾にもつＵＲＬが検出されていた場合には、いずれか１つのＵＲＬを選択して、どちらか１つを”ｎ９０５ｉｍｕ”という名称が付された事物についてのホームページのＵＲＬとみなせばよい。このとき、実際に存在するか否かを該ＵＲＬにアクセスして確認した上で選択するようにしてもよい。また、アクセスして得られたウェブページのチェックサムを比較し、同一のウェブページであることを確認した上で選択するようにしてもよい。

図１０は、本例における特定結果を示す説明図である。ステップＳ１１０およびステップＳ１１１の結果、非一般名称位置判定部１２１は、図１０に示すように、２つのＵＲＬ（上記２つ目のＵＲＬと３つ目のＵＲＬ）が示すウェブページを、それぞれ関連づけて示す非一般名称が付された事物についてのホームページであると特定する。

一般に、商品等には該商品等を他と区別するための名称や型番といった商標が付されている。本発明では、この商標がＵＲＬにも用いられることに着目し、ＵＲＬに用いられている用語を辞書によって翻訳可能か否かによって非一般名称か否かを判定し、非一般名称で終端している（または所定のファイル名が連結されて終端している）ＵＲＬが、その非一般名称を商標とする商品等を紹介してウェブページのトップページであると推定している。

なお、本例では、商品名だけでなく、”９０５ｉ”のようにシリーズ名等に関連するトップページについても検出するようにしているが、例えば、図１１に示すように、ＵＲＬ判定手段１２０が、出現頻度計測手段１２３を含むことにより、シリーズ名のように複数の商品等に共通して付されるような非一般名称についてのトップページの検出を除外することも可能である。なお、本例では、特定候補とするＵＲＬの集合が与えられる等により、判定対象とするＵＲＬの範囲が予め定められているものとする。

出現頻度計測手段１２３は、非一般名称を表すと判断された用語について、判定対象とされたＵＲＬのなかでの出現頻度を求める。

そして、非一般名称位置判定手段１２１は、出現頻度が所定の閾値以下の非一般名称の用語を対象に、ＵＲＬの判定処理を行う。

例えば、ステップＳ１１０の前に出現頻度を求める処理を行い、ステップＳ１１０では、非一般名称の用語として検出された用語のうち出現頻度が最も少ない用語を、商品名候補と見なして位置判定処理を行うようにしてもよい。上記実施例では、図１２に示すように、各非一般名称の用語の出現頻度は、”９０５ｉ”で３／４、”ｎ９０５ｉｍｕ”で２／４と求められる。このうち、最も出現頻度が少ない”ｎ９０５ｉｍｕ”について、これを商品名候補と見なせばよい。なお、例えば、出現頻度が１／２以下のものを商品名候補とするといった閾値による判定も可能である。

また、ステップＳ１１１の後で、ＵＲＬが検出された非一般名称の用語について出現頻度を元に取捨選択することも可能である。

また、シリーズ名を除外したい場合には、他にも、非一般名称が付された事物のトップページとして特定されたＵＲＬにおいて他に用いられている非一般名称があるか否かを判断することにより、他に用いられている非一般名称は商品名等ではないとして除外することも可能である。すなわち、一旦、非一般名称が付された事物のトップページとして特定されたＵＲＬに対し、該ＵＲＬに２以上の非一般名称が含まれているか否かを判定し、含まれている場合には、より上位層で用いられている非一般名称の用語についての特定結果を無効にする。例えば、上記実施例では、図１０で特定結果として得られた３つ目のＵＲＬに”９０５ｉ”と”ｎ９０５ｉｍｕ”とが用いられていることにより、より上位層で用いられている”９０５ｉ”に対し検出された２つ目のＵＲＬを削除する。結果、３つ目のＵＲＬのみが目的とするウェブページとして特定される。

また、逆に、シリーズ名等、一緒に用いられる用語を指定して、該用語とともに用いられている非一般名称が付された事物のトップページを特定するといった方法も可能である。例えば、ＵＲＬ分解手段１００によって１ＵＲＬに用いられる用語が抽出された後に、該用語に指定された用語が含まれているＵＲＬについてのみ、これ以降の判定対象とすればよい。すなわち、判定対象とされたＵＲＬから抽出された用語についてのみ、非一般名称か否かの判定を行うようにすればよい。なお、出現頻度についても、判定対象とされたＵＲＬにおける出現頻度を算出するようにすればよい。なお、一緒に用いられる用語は非一般名称に限らず、どのような用語であってもよく、２以上であってもよい。

なお、このような方法により特定されるウェブページは、商品に関するトップページに限らず、他と区別するための名称が付された事物に関するトップページにも当然適用可能である。

実施形態２．
次に、本発明の第２の実施形態について説明する。図１３は、第２の実施形態のウェブページ特定装置２の構成例を示すブロック図である。図１３に示すように、本実施形態のウェブページ特定装置２は、第２のＵＲＬ分解手段２００と、非一般名称判定手段１１０と、第２のＵＲＬ判定手段２２０とを備える。なお、本実施形態において第１の実施形態と同様のものについては同じ符号を付し説明を省略している。

また、図１４は、第２のＵＲＬ分解手段２００の構成例を示すブロック図である。第２のＵＲＬ分解手段２００は、図１４に示すように、ＵＲＬ整列手段２０１と、階層評価手段２０２と、第１のＵＲＬ分解手段１００とを含む。なお、第１のＵＲＬ分解手段１００は、第１の実施形態におけるＵＲＬ分解手段１００と同様である。第２のＵＲＬ分解手段２００は、図２に示すＵＲＬ分解手段１０とＵＲＬグループ化手段１３とを実現している手段である。

ＵＲＬ整列手段２０１は、複数のＵＲＬリストをアルファベット順に整列させる。

階層評価手段２０２は、サイト名とＵＲＬの階層の深さごとにＵＲＬをグループ分けする。従って、本実施形態では、特定候補とするＵＲＬの集合が与えられる等により、判定対象とするＵＲＬの範囲が予め定められているものとする。

第１のＵＲＬ分解手段１００は、グループ分けされた各ＵＲＬについて、第１の実施形態と同様に、ＵＲＬを分解し、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する。なお、本実施形態では、判定対象とされたＵＲＬについて、該ＵＲＬのグループに関する情報が付加されて記憶される。

また、非一般名称判定手段１１０は、第１の実施形態と同様に、判定対象のＵＲＬから抽出された各用語について、辞書との照合により該用語が一般名称であるか又は非一般名称であるかを判定する。なお、本実施形態では、非一般名称判定手段１１０によって非一般名称であると判定された用語は、その用語を含むＵＲＬのグループ別に記憶される。

また、図１５は、第２のＵＲＬ判定手段２２０の構成例を示すブロック図である。第２のＵＲＬ判定手段２２０は、図１５に示すように、非一般名称比較手段２２１と、新ＵＲＬ生成手段２２２と、存在確認手段２２３とを含む。なお、第１のＵＲＬ判定手段１２０は、第１の実施形態におけるＵＲＬ判定手段１２０と同様である。第２のＵＲＬ判定手段２２０は、図２に示すＵＲＬ判定手段１２と新ＵＲＬ判定手段１４と存在確認手段１５とを実現している手段である。

非一般名称比較手段２２１は、各グループで抽出された非一般名称の用語集合に差異があるか否かを判定する。

新ＵＲＬ生成手段２２２は、非一般名称がいわゆる商品名として用いられているＵＲＬに含まれる該非一般名称を、他のグループの非一般名称候補の用語と入れ替えることにより、新しいＵＲＬを生成する。

存在確認手段２２３は、生成された新しいＵＲＬで示されるウェブページにアクセスを試み、該ウェブページが実在するか否かを判定する。実在する場合には、該ＵＲＬも該ＵＲＬに含めた非一般名称についてのトップページのＵＲＬであると判定する。

第１のＵＲＬ判定手段１００は、第１の実施形態と同様に、判定対象のＵＲＬのうち非一般名称を表す部分文字列が用いているＵＲＬについて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する。なお、本実施形態では、グループ分けされたＵＲＬ毎に、上記判定処理を行えばよい。

なお、本実施形態において、ＵＲＬ整列手段２０１，階層評価手段２０２を含んだ第２のＵＲＬ分解手段２００は、ＣＰＵ等のプログラムに従い動作するプロセッサによって実現される。また、非一般名称比較手段２２１，新ＵＲＬ生成手段２２２，存在確認手段２２３を含んだ第２のＵＲＬ判定手段２２０は、ＣＰＵ等のプログラムに従い動作するプロセッサと記憶装置とによって実現される。

次に、本実施形態の動作について説明する。図１６は、本実施形態のウェブページ特定装置１の動作例を示すフローチャートである。図１６に示すように、本実施形態では、まず、ＵＲＬ整列手段２０１が、入力されたＵＲＬ群を整列させ、サイト名とＵＲＬの階層ごとにグループ分けを行う（ステップＳ２０１，Ｓ２０２）。

次に、グループ分けされた各ＵＲＬについて、第１のＵＲＬ分解手段１００で、ＵＲＬ分解処理を行う（ステップＳ２０３，Ｓ２０４）。なお、ＵＲＬ分解処理とは、第１の実施形態におけるステップＳ１０１〜Ｓ１０５の処理をいう。

次に、第１のＵＲＬ分解手段１００によって抽出された各用語について、非一般名称判定手段１１０が、用語分類処理を行う（ステップＳ２０５）。なお、用語分類処理とは、第１の実施形態におけるステップＳ１０７〜Ｓ１０９の処理をいう。

次に、第２のＵＲＬ判定手段２２０では、まず、非一般名称位置判定手段１２１が、各グループに属する各ＵＲＬから抽出された非一般名称用語を元に、ＵＲＬ判定処理を行う（ステップ２０６）。なお、ＵＲＬ判定処理とは、第１の実施形態におけるステップＳ１１０〜Ｓ１１１の処理をいう。なお、この時点では、１つの非一般名称について複数のトップページ候補があってもよい。ここでの末尾または末尾より２番目に用いられている等の出現位置や頻度等の判定により、あるサイトの各グループでいわゆる商品名として用いられている非一般名称の用語が反映することになる。

次に、非一般名称比較手段２２１が、各グループについて、当該グループに属するＵＲＬに用いられている商品名としての非一般名称の用語と、他のグループに属するＵＲＬに用いられている、いわゆる商品名としての非一般名称の用語とを比較し、差分すなわち当該グループに属するＵＲＬに用いられていない、いわゆる商品名としての非一般名称用語を得る（ステップＳ２０７）。

次に、新ＵＲＬ生成手段２２２が、非一般名称がいわゆる商品名として用いられているＵＲＬに含まれる該非一般名称を、他のグループの非一般名称候補の用語と入れ替えることにより、新しいＵＲＬを生成する（ステップＳ２０８）。なお、非一般名称がいわゆる商品名として用いられているＵＲＬか否かは、非一般名称比較手段２２１によって該非一般名称が付与された事物についてのトップページのＵＲＬであると判断されたか否かによって判定してもよい。

次に、存在確認手段２２３が、新ＵＲＬ生成手段２２２が生成した新しいＵＲＬで示されるウェブページにアクセスを試み、該ウェブページが実在するか否かを確認する（ステップＳ２０９）。

最後に、存在確認手段２２３の結果を踏まえ、入力されたＵＲＬだけでなく新たに生成されたＵＲＬを含めて、該ＵＲＬが示すウェブページが、目的とするウェブページであるか否かを特定する（ステップＳ２１０）。

以上のように、本実施形態によれば、グループ間の差分商品名称を利用して、いわゆる商品トップページ候補とするＵＲＬを生成することができるため、入力として与えられなかったＵＲＬ集合以外のトップページを発見することができる。

以下、本実施形態の動作についてより具体的な例を用いて説明する。例えば、図１７に示すＵＲＬ群が、判定対象のＵＲＬとして入力されたとする。ウェブページ特定装置２では、このＵＲＬ群を用いて商品トップページを特定する。

なお、図１７に示されているＵＲＬは、次の４つである。
（１）http://www.nec.co.jp/product/keitai/904i/n904i
（２）http://www.nec.co.jp/product/keitai/904i/m904i
（３）http://www.nec.co.jp/product/keitai/904i/m904itv/gallery.html
（４）http://www.nec.co.jp/product/keitai/904i/n904imu/gallery.html

なお、本実施例は、一部商品紹介ページへのリンクがサイト構築者のミスで、サイトのトップページから欠落した場合を想定している。

まず、入力されたＵＲＬをサイト名と階層を組に、グループわけを行う。なお、本例では、いずれも同一サイト名であるため、５階層である１番目と２番目のＵＲＬをグループ１に、６階層である３番目と４番目のＵＲＬをグループ２とする２つのグループに分ける。図１８は、グループ分けの結果を示す説明図である。なお、図１８に示すように、各ＵＲＬについて、どのグループに属するかの情報を関連づけて記憶するようにしてもよい。

その後の処理は、各グループ毎に行い、用語の抽出、用語の判定、またグループ内頻度や階層位置に基づき、いわゆる商品名としてＵＲＬに用いられている非一般名称の用語集合を得る。本例では、図１９に示すように、グループ１では、”ｎ９０４ｉ”と”ｍ９０４ｉ”とを得る。また、グループ２にでは、”ｍ９０４ｉｔｖ”と”ｎ９０４ｉｍｕ”とを得る。なお、”９０４ｉ”については、階層位置または出現頻度により除外されたものとして扱っているが、抽出されるようにしてもよい。

ここで、非一般名称比較手段２２１が、グループ１とグループ２とで、非一般名称の用語集合に差異があるか否かを判定すると、グループ１に対するグループ２との差異として、”ｍ９０４ｉｔｖ”と”ｎ９０４ｉｍｕ”とを得る。また、グループ２に対するグループ１との差異として、”ｎ９０４ｉ”と”ｍ９０４ｉ”とを得る。

なお、第１のＵＲＬ判定手段１２０によるＵＲＬ判定処理の結果、グループ１では、１番目のＵＲＬおよび２番目のＵＲＬは、いずれも商品紹介ページのＵＲＬとして判定されている。また、グループ２では、３番目のＵＲＬおよび４番目のＵＲＬは、いずれも商品紹介ページのＵＲＬとして判定されていない。

新ＵＲＬ生成手段２２２は、グループ２で該当する商品紹介ページがなかったとされた非一般名称を、グループ１で商品紹介ページとして判定されたＵＲＬに当てはめる。ここでは、グループ１に対するグループ２との差異用語である、”ｍ９０４ｉｔｖ”と”ｎ９０４ｉｍｕ”を、グループ１で商品紹介ページとして判定されたＵＲＬにおいて用いられている商品名用語と置き換える。具体的には、”ｎ９０４ｉ”または”ｍ９０４ｉ”の部分を、それぞれ”ｍ９０４ｉｔｖ”と”ｎ９０４ｉｍｕ”に置き換えることによって新たなＵＲＬ５，６とを生成する。生成されるＵＲＬを図２０に示す。

なお、図１６には、次に示すＵＲＬが示されている。
（５）http://www.nec.co.jp/product/keitai/904i/m904itv
（６）http://www.nec.co.jp/product/keitai/904i/n904imu

これらＵＲＬについて、存在確認手段２２３が、存在確認をし、５番目のＵＲＬは実在せず、６番目のＵＲＬが実在したとする。結果、第１のＵＲＬ判定手段１２０による判定結果によって得られる１番目のＵＲＬと２番目のＵＲＬの他に、６番目のＵＲＬについても、商品紹介ページのトップページとして特定される。

なお、上記実施形態をサーバ装置に適用させる場合には、判定対象とするＵＲＬの情報の入力を受け付ける受け付け手段（図示せず。）と、ＵＲＬ判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであると判定したＵＲＬの情報を、要求により出力する出力手段（図示せず。）とを備えるようにしてもよい。

本発明は、商品やサービス、リゾート地といった特に定めた名称が付された事物の情報を、自動で収集する用途に好適に適用可能である。また、ある特定の範囲における商品の紹介や商品間の比較を行うためのサイトに引用する用途にも好適に適用可能である。なお、商品カタログ生成のためのリンク収集といった用語にも適応可能である。

本発明によるウェブページ特定装置の構成例を示すブロック図である。本発明によるウェブページ特定装置の他の構成例を示すブロック図である。第１の実施形態によるウェブページ特定装置の構成例を示すブロック図である。ＵＲＬ分解手段１００の構成例を示すブロック図である。非一般名称判定手段１１０の構成例を示すブロック図である。ＵＲＬ判定手段１２０の構成例を示すブロック図である。ウェブページ特定装置１の動作例を示すフローチャートである。判定対象のＵＲＬとして入力されるＵＲＬ群の例を示す説明図である。ＵＲＬからの用語抽出例および翻訳結果例を示す説明図である。第１の実施例における特定結果を示す説明図である。ＵＲＬ判定手段１２０の他の構成例を示すブロック図である。抽出用語について出現頻度の算出結果を示す説明図である。第２の実施形態のウェブページ特定装置２の構成例を示すブロック図である。第２のＵＲＬ分解手段２００の構成例を示すブロック図である。第２のＵＲＬ判定手段２２０の構成例を示すブロック図である。ウェブページ特定装置１の動作例を示すフローチャートである。判定対象のＵＲＬとして入力されるＵＲＬ群の例を示す説明図である。入力されたＵＲＬに対するグループ分けの結果例を示す説明図である。グループ毎の非一般名称の用語集合の例を示す説明図である。新たに生成されるＵＲＬの例を示す説明図である。

符号の説明

１０ＵＲＬ分解手段
１１非一般名称判定手段
１２ＵＲＬ判定手段
１３ＵＲＬグループ化手段
１４新ＵＲＬ生成手段
１５存在確認手段
１（第１の）ウェブページ特定装置
１００（第１の）ＵＲＬ分解手段
１０１プロトコル除去手段
１０２セパレータ除去手段
１０３サイト名除去手段
１０４拡張子除去手段
１１０非一般名称判定手段
１１１辞書問い合わせ手段
１１２問い合わせ結果判定手段
１１３用語分類手段
１２０（第１の）ＵＲＬ判定手段
１２１非一般名称位置判定手段
１２２補完文字記憶部
１２３出現頻度計測手段
２（第２の）ウェブページ特定装置
２００（第２の）ＵＲＬ分解手段
２０１ＵＲＬ整列手段
２０２階層評価手段
２２０（第２の）ＵＲＬ判定手段
２２１非一般名称比較手段
２２２新ＵＲＬ生成手段
２２３存在確認手段

Claims

特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、
ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出するＵＲＬ分解手段と、
前記ＵＲＬ分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、
非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定するＵＲＬ判定手段とを備えた
ことを特徴とするウェブページ特定装置。
ＵＲＬ判定手段は、ＵＲＬの構文構造における、非一般名称判定手段によって非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する
請求項１に記載のウェブページ特定装置。
ＵＲＬ判定手段は、ＵＲＬの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する
請求項１または請求項２に記載のウェブページ特定装置。
判定対象とするＵＲＬが指定され、
ＵＲＬ判定手段は、非一般名称を表すと判断された用語の、判定対象とされるＵＲＬのなかでの出現頻度に基づき、該用語を用いているＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する
請求項１から請求項３のうちのいずれか１項に記載のウェブページ特定装置。
非一般名称判定手段は、ＵＲＬ分解手段によって抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
請求項１から請求項４のうちのいずれか１項に記載のウェブページ特定装置。
非一般名称判定手段は、ＵＲＬ分解手段によって抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
請求項１から請求項５のうちのいずれか１項に記載のウェブページ特定装置。
非一般名称判定手段は、照合先の辞書を切り替えることにより、１つの用語について複数の辞書と照合を行う
請求項１から請求項６のうちのいずれか１項に記載のウェブページ特定装置。
ＵＲＬ分解手段は、ＵＲＬを構成する文字列から、ＵＲＬの構文構造において、プロトコルに関する情報を表している部分文字列と、セパレータとして用いられている部分文字列と、サイト名を表している部分文字列と、ファイルタイプを表している部分文字列とを除去することにより、該ＵＲＬを分解し、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する
請求項１から請求項７のうちのいずれか１項に記載のウェブページ特定装置。
判定対象とするＵＲＬが指定され、
指定されたＵＲＬを、サイト名およびＵＲＬの階層別にグループ化するＵＲＬグループ化手段と、
各グループに属するＵＲＬに対するＵＲＬ判定手段の結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬ候補を生成する新ＵＲＬ生成手段とを備えた
請求項１から請求項８のうちのいずれか１項に記載のウェブページ特定装置。
新ＵＲＬ生成手段が生成したＵＲＬが示すウェブページが実在するか否かを判定する存在確認手段を備えた
請求項９に記載のウェブページ特定装置。
特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定方法であって、
ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出し、
抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定し、
非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定することにより、目的とするウェブページを特定する
ことを特徴とするウェブページ特定方法。
ＵＲＬの構文構造における非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する
請求項１１に記載のウェブページ特定方法。
ＵＲＬの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定する
請求項１１または請求項１２に記載のウェブページ特定方法。
ＵＲＬから抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
請求項１１から請求項１３のうちのいずれか１項に記載のウェブページ特定方法。
ＵＲＬから抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
請求項１１から請求項１４のうちのいずれか１項に記載のウェブページ特定方法。
照合先の辞書を切り替えることにより、１つの用語について複数の辞書と照合を行う
請求項１１から請求項１５のうちのいずれか１項に記載のウェブページ特定方法。
判定対象とするＵＲＬが指定され、
指定されたＵＲＬを、サイト名およびＵＲＬの階層別にグループ化し、
各グループに属するＵＲＬが、非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かの判定結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬ候補を生成する
請求項１１から請求項１６のうちのいずれか１項に記載のウェブページ特定方法。
新たに生成されたＵＲＬが示すウェブページが実在するか否かを判定する
請求項１７に記載ののウェブページ特定方法。
特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定用プログラムであって、
コンピュータに、
ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出する処理、
抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する処理、および
非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定することにより、目的とするウェブページを特定する処理
を実行させるためのウェブページ特定用プログラム。
特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するサーバ装置であって、
特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、
判定対象とするＵＲＬの情報の入力を受け付ける受け付け手段と、
前記ＵＲＬを分解して、該ＵＲＬに用いられている用語であってＵＲＬを表現するための技術用語として用いられている用語以外の用語を抽出するＵＲＬ分解手段と、
前記ＵＲＬ分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、
非一般名称を表すと判断された用語に係るＵＲＬの構文構造に基づき、該ＵＲＬが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであるか否かを判定するＵＲＬ判定手段とを備え、
前記ＵＲＬ判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのＵＲＬであると判定したＵＲＬの情報を、要求により出力する出力手段とを備えた
ことを特徴とするサーバ装置。