JP2009205499A - ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム - Google Patents

ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム Download PDF

Info

Publication number
JP2009205499A
JP2009205499A JP2008048014A JP2008048014A JP2009205499A JP 2009205499 A JP2009205499 A JP 2009205499A JP 2008048014 A JP2008048014 A JP 2008048014A JP 2008048014 A JP2008048014 A JP 2008048014A JP 2009205499 A JP2009205499 A JP 2009205499A
Authority
JP
Japan
Prior art keywords
url
term
web page
generic name
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008048014A
Other languages
English (en)
Inventor
Shigeaki Matsumoto
繁明 松元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008048014A priority Critical patent/JP2009205499A/ja
Publication of JP2009205499A publication Critical patent/JP2009205499A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定する。
【解決手段】URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出するURL分解手段と、前記URL分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定するURL判定手段とを備えたことを特徴とする。
【選択図】図1

Description

特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラムに関する。
例えば、EC(electronic commerce :電子商取引)サイトを運営する人などが、該ECサイトで販売する商品を紹介しようとした場合に、商品の概要、スペック、特徴などは該商品のメーカのホームページへのリンクを用いて顧客に紹介することが多い。このような場合には、該当商品の情報が掲載されている各ウェブページへのリンクではなく、該商品の情報を掲載しているウェブページのトップページと呼ばれる総括ページへのリンクが引用される。
このような、ある目的をもって適切なウェブページを人手で探し出そうとすると、例えば、キーワード等を入力して検索されたウェブページを閲覧してそれが目的とするページかどうかを判断しなければならず、手間がかかる。また、例えば、新製品毎にこれらの作業が繰り返し必要になり、煩雑である。また、引用したウェブページがメーカによって変更され、リンク切れなどが生じるといった問題もある。また、新発売の商品をピックアップしたいとか競合商品比較を行いたい場合など、詳細な商品名を知らない場合でも、該当商品の紹介ページのトップページを探し出したいといった要望もある。
ある目的をもって適切なウェブページを探し出すための技術として、例えば、ページ間のリンク関係やページに含まれる語彙を用いて、目的とするページらしさを計算して、特定する方法がある。
また、例えば、特許文献1には、URLを元に、ネットワーク上のコンテンツを分類するコンテンツ分類方法が記載されている。特許文献2に記載されているコンテンツ分類方法では、URLに記載された前記コンテンツを格納するサーバのドメイン名から分類項目を抽出して分類する。また、URLに記載れたコンテンツの格納場所を示すディレクトリ名から分類項目を抽出して分類する。また、URLに記載されたコンテンツのファイル名から分類項目を抽出して分類する。
また、ある商品に対し類似商品を検索する方法の一例として、例えば、特許文献2には、予め項目別に整理されている商品に対し、項目間の関係や類似度に基づき、類似商品を検索する方法が記載されている。
特開2004−341942号公報 特開平8−212233号公報
しかし、適切なウェブページを探し出す方法としてページ間のリンク関係を用いる方法を適用した場合、ページ間のリンク関係が複雑になると、精度が悪くなり、本来目的としたページではないページが抽出される可能性が高くなるという問題がある。また、ページに含まれる語彙を用いた方法を適用した場合、ページに含まれる語彙にサイトごとのゆらぎがあり、それが原因で精度が悪くなるといった問題がある。また、目的とするページを特定するための語彙集合を予め登録しておかなければならないという問題もある。
なお、特許文献1に記載されている方法を利用すれば、ページ間のリンク関係やページに含まれる語彙を用いずにネットワーク上のコンテンツを分類できる。しかし、特許文献1に記載されている方法は、ユーザのアクセス履歴を解析することにより、ユーザがどのようなコンテンツに興味があるかのおおよその分類をしようというものであって、ある目的に合致するウェブページを探しだそうというものではない。例えば、特許文献1に記載されている方法では、一度もアクセスを行っていないページを抽出することができない。また、例えば、ある範囲のURLを入力として与えるとしても、特許文献1に記載されている方法では、それらのURL群に対する分類結果が得られるだけである。すなわち、目的とするウェブページの抽出のための分類ではないため、その分類結果から目的とするウェブページが抽出できるとは限らない。
また、ページ間のリンク関係を用いた方法では、ページ間のリンク関係が複雑になると、精度が悪くなり、本来目的としたページではないページが抽出される可能性が高くなるという問題がある。また、ページに含まれる語彙を用いた方法では、ページに含まれる語彙にサイトごとのゆらぎがあり、それが原因で精度が悪くなるといった問題がある。また、目的とするページを特定するための語彙集合を予め登録しておかなければならないという問題もある。
なお、特許文献2に記載されている方法は、予め分類されたカタログ情報があることにより実現可能な方法である。従って、カタログ情報をサイトの階層構造に置き換えたとしても、メーカごとに異なるウェブサイトでは、所望のウェブページ(ある商品に対する競合商品の紹介ページ等)を特定することはできない。
そこで、本発明は、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することができるウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラムを提供することを目的とする。
本発明によるウェブページ特定装置は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出するURL分解手段と、前記URL分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定するURL判定手段とを備えたことを特徴とするウェブページ特定装置。
また、本発明によるウェブページ特定方法は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定方法であって、URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出し、抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定し、非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定することにより、目的とするウェブページを特定することを特徴とする。
また、本発明によるウェブページ特定用プログラムは、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定用プログラムであって、コンピュータに、URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する処理、抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する処理、および非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定することにより、目的とするウェブページを特定する処理を実行させることを特徴とする。
また、本発明によるサーバ装置は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するサーバ装置であって、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、判定対象とするURLの情報の入力を受け付ける受け付け手段と、前記URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出するURL分解手段と、前記URL分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定するURL判定手段とを備え、前記URL判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであると判定したURLの情報を、要求により出力する出力手段とを備えたことを特徴とする。
本発明によれば、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することができる。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明によるウェブページ特定装置の構成例を示すブロック図である。図1に示すように、本発明によるウェブページ特定装置は、URL分解手段10と、非一般名称判定手段11と、URL判定手段12とを備える。
URL分解手段10は、URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する。URL分解手段10は、例えば、URLを構成する文字列から、URLの構文構造において、プロトコルに関する情報を表している部分文字列と、セパレータとして用いられている部分文字列と、サイト名を表している部分文字列と、ファイルタイプを表している部分文字列とを除去することにより、該URLを分解し、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出してもよい。
非一般名称判定手段11は、URL分解手段10によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する。
URL分解手段10は、例えば、URL分解手段10によって抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定してもよい。また、例えば、URL分解手段10によって抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定してもよい。また、例えば、照合先の辞書を切り替えることにより、1つの用語について複数の辞書と照合を行ってもよい。
URL判定手段12は、非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する。
URL判定手段12は、例えば、URLの構文構造における、非一般名称判定手段11によって非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定してもよい。具体的には、非一般名称を表すと判断された用語が、URLの最下位層で用いられている場合に、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであると判定してもよい。
また、例えば、URLの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定してもよい。具体的には、非一般名称を表すと判断された用語が、URLの最下位層のすぐ上位の階層で用いられ、かつ該URLの最下位層に用いられている表現が予め定められている表現と一致する場合に、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであると判定してもよい。
また、URL判定手段12は、例えば、非一般名称を表すと判断された用語の、判定対象とされるURLのなかでの出現頻度に基づき、該用語を用いているURLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定してもよい。
このような構成により、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することが可能となる。
また、ウェブページ特定装置は、図2に示すように、さらにURLグループ化手段13と、新URL生成手段14と、存在確認手段15とを備えていてもよい。図2は、本発明によるウェブページ特定装置の他の構成例を示すブロック図である。
URLグループ化手段13は、判定対象とするURLが指定された場合に、指定されたURLを、サイト名およびURLの階層別にグループ化する。
新URL生成手段14は、各グループに属するURLに対するURL判定手段10の結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURL候補を生成する。
存在確認手段15は、新URL生成手段14が生成したURLが示すウェブページが実在するか否かを判定する。
なお、このような構成の場合には、入力として与えられなかったURL集合以外のURLをもつウェブページを特定することができる。
以下、より具体的な実施形態について説明する。
実施形態1.
図3は、本発明の第1の実施形態によるウェブページ特定装置の構成例を示すブロック図である。図3に示すように、本実施形態のウェブページ特定装置1は、URL分解手段100と、非一般名称判定手段110と、URL判定手段120とを備える。
また、図4は、URL分解手段100の構成例を示すブロック図である。URL分割手段100は、判定対象とされたURLを分解し、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する手段である。本実施形態では、図4に示すように、プロトコル除去手段101と、セパレータ除去手段102と、サイト名除去手段103と、拡張子除去手段104とを含む。なお、URL分解手段100は、図1に示すURL分解手段10を実現している手段である。
プロトコル除去手段101は、URLを構成している文字列から、URLの構文構造において、通信プロトコルに関する情報を表現している部分文字列(例えば、”http://”)を除去する。
セパレータ除去手段102は、URLを構成している文字列から、URLの構文構造において、階層の区切りであるセパレータを表現している部分文字列(例えば、”/”)を除去する。これにより、セパレータによって区切られていた各階層に用いられている用語(複数の単語が組み合わされてなる複合語を含む)を表す部分文字列が、出現順序を維持しつつ抽出される。
サイト名除去手段103は、URLを構成している文字列から、URLの構文構造において、サイト名を表している部分文字列を除去する。サイト名除去手段103は、例えば、セパレータ除去手段102によって抽出された部分文字列およびその出現順序に基づき、最初に出現した部分文字列(通信プロトコルに関連する部分文字列を除く)をサイト名として除去する。なお、サイト名除去手段103は、サイト名を表す部分文字列全てを除去するのではなく、サイト名を表す部分文字列のうちサイト名であるための技術用語だけを除去するようにしてもよい。例えば、”www.aaa.co.jp”というサイト名であった場合には、”aaa”を除いた部分文字列を除去することで、”aaa”の部分が最上位層に用いられている用語として抽出されるようにすることも可能である。
拡張子除去手段104は、抽出された部分文字列の出現順序に基づき、最後に出現した部分文字列をファイル名とし、該ファイル名を示す部分文字列においてファイルタイプに関連する文字列(例えば、”.html”)を除去する。
なお、URL分解手段100に含まれる各手段は、予めURLの構文構造の情報が与えられることにより、処理対象とする文字列(通信プロトコル,セパレータ,サイト名,ファイルタイプに関連する部分文字列)が、URLを構成する文字列にどのように含まれているかを認識できるものとする。
また、図5は、非一般名称判定手段110の構成例を示すブロック図である。非一般名称判定手段110は、判定対象のURLから抽出された各用語について、辞書との照合により該用語が一般名称であるか又は非一般名称であるかを判定する手段である。本実施形態では、図5に示すように、辞書問い合わせ手段111と、問い合わせ結果判定手段112と、用語分類手段113とを含む。なお、非一般名称判定手段110は、図1に示す非一般名称判定手段10を実現している手段である。
辞書問い合わせ手段111は、URL分解手段100によって得られた各用語について、辞書に問い合わせを行う。辞書問い合わせ手段111は、例えば、当該ウェブページ特定装置で使用する辞書へのアクセス情報によって特定される所定の辞書との照合を行う手段に対し、URL分解手段100によって得られた各用語についての問い合わせを行う。辞書問い合わせ手段111は、例えば、アクセス情報によって特定される翻訳用辞書(例えば、英和辞書)との照合手段に対し、URL分解手段100によって得られた用語を指定して、該用語の日本語表記を問い合わせてもよい。なお、一般に用いられている辞書データベースを当該ウェブページ特定装置で備え、辞書問い合わせ手段111自身が、該辞書との照合を行うことも可能である。
また、辞書問い合わせ手段111は、問合せ先の辞書を切り替える機能を有し、例えば、URL分解手段100によって得られた用語がローマ字表記の用語であると判断した場合には、該用語をローマ字表記から仮名表記へ変換した上で、アクセス情報によって特定される和英辞書との照合手段に対し、該仮名表記の用語を指定して、該用語の英語表記を問い合わせてもよい。この他にも日本語辞典や技術用語辞典といった用語の意味を問う辞書との照合手段に対する問い合わせも考えられる。なお、ローマ字表記の用語であるか否かは、ローマ字仮名変換手段(図示せず。)に要求した結果により判断してもよい。
また、辞書問い合わせ手段111は、例えば、ローマ字表記の用語であると判断した場合には、仮名漢字変換用辞書との照合手段(仮名漢字変換手段)に該用語をローマ字表記の変換対象文字列として指定し、該用語の漢字を含む変換候補を問い合わせてもよい。なお、辞書問い合わせ手段111は、例えば、英単語と見なして英和辞書との照合を行った結果、一致する用語が登録されていない旨のエラーが返却された場合に、該用語をローマ字表記と見なして仮名漢字変換を試みるといった複数の辞書を利用することも可能である。
問い合わせ結果判定手段112は、辞書問い合わせ手段111による問い合わせに対する結果から、該用語に意味が存在するか否かを判定する。問い合わせ結果判定手段112は、例えば、一致する用語が登録されていない旨が返却されてきたか否かにより、該用語に意味が存在するか否かを判定してもよい。また、例えば、仮名漢字変換に対する結果であれば、変換の範囲が分断されずに漢字を含む変換候補が得られたか否かにより、該用語に意味が存在するか否かを判定してもよい。例えば、URL中に”ax250”という用語が用いられていた場合に、仮名漢字変換手段から[ax250]や[あ x 250]といった変換候補が返却された場合には、該用語は一般的な日本語でないと見なせばよい。なお、問い合わせ結果判定手段112は、辞書問い合わせ手段111が複数の辞書に対し問い合わせを行う場合には、いずれの辞書に一致する用語が登録されていなかった場合に、その用語に意味が存在しないと判定すればよい。
用語分類手段113は、用語が意味をもつか否かの2つの判定結果に基づき、該用語を分類する。ここでは、意味をもつと判定された用語を、一般名称を表す用語として分類する。一方、意味をもたないと判定された用語を、非一般名称(人や物に特に付された名称(いわゆる、固有名称))を表す用語として分類する。なお、ここでの固有名称は、唯一であることを意味しているわけではない。
また、図6は、URL判定手段120の構成例を示すブロック図である。URL判定手段120は、判定対象のURLのうち非一般名称を表す部分文字列が用いているURLについて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定することにより、目的とするウェブページのURLを特定する手段である。本実施形態では、図6に示すように、非一般名称位置判定手段121と、補完文字記憶部122とを含む。なお、URL判定手段120は、図1に示すURL判定手段12を実現している手段である。
非一般名称位置判定手段121は、非一般名称を表す用語を用いているURLの該用語に係る構文構造に基づいて、該URLが、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する。本実施形態では、URLの構文構造において非一般名称を表すと判断された用語が用いられる階層位置に基づいて判定する。また、階層位置だけでなく、さらに後述する補完文字記憶部122に記憶されている用語に基づいて判定している。
補完文字記憶部122は、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページのURLで、末尾の部分文字列(ここでは、ファイル名に該当する部分)に通常よく利用されている用語(例えば、”index.html”等。なお、ファイルタイプは省略してもよい。)を記憶する。なお、トップページに用いられやすい順に、優先順位の情報を付加して記憶するようにしてもよい。
非一般名称位置判定手段121は、意味を持たない用語(非一般名称を表すと判断された用語)が、該用語を含むURLにおいて、最後に出現するか、もしくは最後から1つ手前で出現しつつ補完文字記憶部122に登録された用語が続けて出現するか否かを判定することによって、該URLを判定する。すなわち、非一般名称を表すと判断された用語が、末尾(最下位層)の部分文字列として用いられているか、または末尾から2番目(最下位層のすぐ上位の階層)の部分文字列として用いられかつ該URLで末尾に用いられている部分文字列が補完文字記憶部122に登録されている用語を示すものである場合には、該URLが、該用語が示す事物(ここでは、最下位層またはそのすぐ上位の階層に用いられている非一般名称が付された事物をいう。)についてのトップページのURLであると判定する。
なお、非一般名称位置判定手段121は、上記条件に合致するURLが複数検知された場合には、予め定めておいた優先順位に従い、そのうちの1つのURLのみをその非一般名称に係る目的のURLとすればよい。なお、判定対象とされるURLの範囲が限定されないような場合であっても、例えば、上記条件に合致したURLが見つかった時点で、該URLがその非一般名称に係る目的のURLであると判定しておき、次に同じ非一般名称での上記条件に合致したURLが見つかったときに、どちらの優先順位が高いかによって1つのURLを取捨選択するようにすればよい。
なお、本実施形態において、URL分解手段100(プロトコル除去手段101,セパレータ除去手段102,サイト名除去手段103,拡張子除去手段104)は、CPU等のプログラムに従い動作するプロセッサによって実現される。また、非一般名称判定手段110(辞書検索手段111,問い合わせ結果判定手段112,部分文字列分類手段113)は、CPU等のプログラムに従い動作するプロセッサによって実現される。また、URL判定手段120(非一般名称位置判定手段121,補完文字記憶部122)は、CPU等のプログラムに従い動作するプロセッサと記憶装置とによって実現される。
次に、本実施形態の動作について説明する。図7は、本実施形態のウェブページ特定装置1の動作例を示すフローチャートである。以下では、ある企業のウェブサイトから、商品の紹介ページを特定する例を用いて説明する。図7に示すように、ウェブページ特定装置1に、判定対象となるURL(例えば、ある企業のウェブサイトを構成する各ウェブページのURL)が入力されると、各URLについて、URL分解手段100が用語の抽出処理を行う(ステップS101〜S105)。
まず、ステップS101では、プロトコル名除去手段101が、対象となったURLを構成している文字列から、通信プロトコルに関連する部分文字列を除去する。例えば、プロトコル名除去手段101は、”http://www.abc.com/product/a123/index.html”というURLからであれば、”http://”という文字列を除去する。次に、セパレータ除去手段102が、階層の区切りを表現しているセパレータの文字を除去する(ステップS102)。これにより、URLから、セパレータによって区切られていた各階層に用いられている用語(本例では、”www.abc.com”,”product”,”a123”,”index.html”)が分解され、出現順に抽出される。
次に、サイト名除去手段103が、抽出された用語の出現順序に基づき、最初に出現した用語(本例では、”www.abc.com”)をサイト名として除去する(ステップS103)。
次に、拡張子除去手段104が、抽出された用語の出現順序に基づき、最後に出現した用語をファイル名とし、該ファイル名を表現している部分文字列においてファイルタイプに関連する文字列(本例では、”.html”)を除去する(ステップS104)。
上記処理の結果、対象となったURLから、該URLに用いられている用語であって、URLを表現するための技術用語として用いられている用語(通信プロトコル、サイト名、およびファイルタイプに関連するもの)を除いた用語の集合(本例では”product”と、”a123”と、”index”)が抽出される(ステップS105)。抽出結果として、例えば、抽出元となったURLと該URLから抽出された用語の集合とを関連づけて、データベースに記憶してもよい。
判定対象となる全URLについて、用語の抽出処理が完了すると(ステップS106)、次に、非一般名称判定手段110が、URLから抽出された用語について非一般名称か否かの分類を行う(ステップS107〜S109)。なお、ステップS106の処理は、1つのURLについての一連の処理(ステップS101〜S112)が完了したときに行うことも可能である。
まず、ステップS107では、辞書問い合わせ手段111が、URL分解手段100から得られた用語の集合から1つずつ取り出し、取り出した用語について、指定された辞書への問い合わせを行い、検索(辞書との照合)を行わせる。なお、同一の用語が複数含まれている場合があるが、少なくとも1語あたり1回の問い合わせを行う。辞書問い合わせ手段111は、例えば、予め設定されているアクセス情報に基づいて、ネットワーク上に公開されている翻訳サイトにアクセスし、対象とする用語を指定したリクエストを送信することにより、翻訳用辞書や変換用辞書との照合結果(翻訳結果または変換候補)を得るようにしてもよい。
次に、問い合わせ結果判定手段112は、辞書問い合わせ手段111による問い合わせの結果得られる情報から、問い合わせた用語が、その用語自体に意味が存在するものか否かを判定する(ステップ108)。問い合わせ結果判定手段112は、例えば、翻訳を行うWebサイトからの返却文字列が、要求時と同じ内容であったり、翻訳または変換ができなかった旨(一致する単語が登録されていなかった旨)を示す文字列であるか否かによって判定すればよい。そして、判定の結果を示す情報をその単語に関連づけてデータベースに記憶することにより、URL分解手段100から得られた各用語を、一般名称か非一般名称かにより分類すればよい(ステップS109)。
抽出された用語について非一般名称か否かの分類が完了すると、次に、URL判定手段120が、非一般名称の用語を含むURLについて、該URLが該非一般名称に係る目的のURLか否かを判定する(ステップS110〜S112)。
非一般名称位置判定部121は、まず、非一般名称の用語を含むURLに対し、その用語がURLの末尾に用いられているか否かを判定する(ステップS110)。非一般名称位置判定部121は、例えば、非一般名称の用語を末尾(最下位層)にもつURLが存在した場合には、該URLの情報を、判定した非一般名称の用語の情報とともにデータベースに記憶することにより、判定結果を保持するようにしてもよい。
次に、非一般名称位置判定部121は、非一般名称の用語を含むURLに対し、その用語がURLの末尾から2番目に用いられ、かつ補完文字記憶部122に記憶されている用語が該URLの末尾に用いられているか否かを判定する(ステップS111)。非一般名称位置判定部121は、例えば、非一般名称の用語を末尾から2番目(最下位層のすぐ上位)にもち、かつ補完文字記憶部122に記憶されている用語をセパレータ文字列(”/”)で連結したURLが存在した場合には、該URLの情報を、判定した非一般名称の用語の情報とともにデータベースに記憶することにより、判定結果を保持するようにしてもよい。
最後に、非一般名称位置判定部121は、ステップS110またはステップS111で該当するURLが存在した場合には、そのURLが示すウェブページが、判定に用いた非一般名称に係る目的のウェブページであると特定し、その旨(該URLが示すウェブページが、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページである旨)を記憶する(ステップS112)。
なお、ステップS110またはステップS111で該当するURLが複数存在した場合には、そのURLのうち1つのURLを選択した上で、該URLが示すウェブページが、該非一般名称が付された事物についてのトップページであると特定する。なお、優先順位が高いとされる構文構造の条件から順にその存在の有無を判定するようにし、該当するものが見つかった場合には、次の非一般名称へ判定処理を移るようにするなど、1つの非一般名称について1つのURLしか列挙されないようにしてもよい。
また、上記例ではURLに用いられている用語を全て列挙したあとで、その用語が非一般名称であるものについてURL上の位置を判定するようにしているが、まずURL上の構文構造において所定の構文構造で用いられている用語(すなわち、末尾或いは所定の用語を末尾にもちつつ末尾から2番目に用いられている用語)を列挙したあとで、該用語が非一般名称か否かを判定するようにしてもよい。
以上のように、本実施形態によれば、サイトの構造情報やページ間のリンク関係、ページに記載されている内容を要せずに、特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定することが可能である。それは、URLに含まれる用語を翻訳用の辞書を用いて意味をもつ用語か否かを調査した上で、意味を持たないとされた用語に係るURL上の構文構造を元に、該URLが目的とするウェブページのURLか否かを判定するからである。
以下、本実施形態の動作についてより具体的な例を用いて説明する。本実施例は、英語を含むディレクトリに商品の紹介が掲載されているウェブページファイルによって公開されるウェブページを特定する場合の例である。例えば、図8に示すURL群が、判定対象のURLとして入力されたとする。ウェブページ特定装置1では、このURL群の中から商品トップページを特定する。
なお、図8に示されているURLは、次の4つである。
(1)http://www.nec.co.jp/product/keitai/
(2)http://www.nec.co.jp/product/keitai/905i/
(3)http://www.nec.co.jp/product/keitai/905i/n905imu/index.html
(4)http://www.nec.co.jp/product/keitai/905i/n905imu/topics_01.html
1つ目のURLに対し、URL分解手段100では、ステップS101〜S105の処理により、”profuct”,”keitai”を抽出する。また、2つ目のURLに対する同様の処理により、”profuct”,”n−keitai”,”905i”を得る。また、3つ目のURLからは、”profuct”,”keitai”,”905i”,”n905imu”,”index”を得る。4つ目のURLからは、”profuct”,”keitai”,”905i”,”n905imu”,”topics_01”を得る。なお、サイト名に用いられている用語も抽出する場合には、各URLから、さらに”nec”を得る。
ここで、例えば、”#keitai_905i”のように、英数字以外で始まる用語については、一事物に付される名称として用いられる用語ではないとして抽出対象から除外してもよい。なお、もちろん用語として抽出させることも可能である。また、どちらで動作するかを、設定により切り替えれるようにしてもよい。
各URLが保有する用語は、例えば、図9に示す抽出用語欄のように、URLの情報に関連づけて記憶される。なお、抽出された用語の一覧表を作成し、その用語を保有するURLの情報を関連づけて記憶するようにしてもよい。
次に、非一般名称判定手段110が、各用語に対してステップS107〜S109の処理を実施し、それぞれ図9に示す翻訳結果を得る。図9では、”product”,”index”について翻訳可能である旨が示されている。なお、”topics_01”については、それ自体を1つの用語(より具体的には複合語)とみなした上で、”アンダーバー”や”ハイフン”、”#”など英数字以外の文字を該用語におけるセパレータとして認識し、これらを除去した各語句に対し意味をもつか否かを判定している。そして、1つの複合語を構成している語句の中に一つでも意味をもつ単語が含まれている場合には、複合語としての意味をもつ用語であると判定している。このような複合語は他の事物と区別するために付された非一般名称としての使用ではないと考えられるからである。なお、一つも意味をもつ単語が含まれていない複合語については、他の事物と区別するために付された非一般名称としての使用であるとみなして、複合語としても意味をもたない用語であると判定する。従って、”topics_01”は、”01”が意味をもたなくとも”topicks”が翻訳可能であることから、複合語としての意味をもつ用語である(すなわち、非一般名称の用語ではない)と判定している。
なお、用語が数値のみであった場合には、基本的にはそれ自体(数値の羅列)には意味をもたないが、複合語としての使用であった場合には、他に意味を持たない語句が含まれているか否かで判断するようにする。これにより、単なる番号や日付を除外することができる。
また、本例では、非一般名称判定手段110は、翻訳候補が得られなかった用語(”keitai”,”905i”,”n905imu”)について、辞書を切り替えてステップS107〜S09を実施する。ここでは、該用語をローマ字表記の変換対象文字列として仮名漢字変換手段(図示せず。)に指定して該用語の漢字を含む変換候補を問い合わせ、図9の変換結果を得る。図9では、”keitai”について変換可能である旨が示されている。結果、本例では、”905i”,”n905imu”が、非一般名称の用語と判定される。なお、ローマ字を仮名に変換する手段を用い、一旦かな表記”けいたい”に変換した上で、該仮名に対する漢字を含む変換候補を問い合わせてもよい。問い合わせ結果判定手段112は、例えば、漢字を含む変換候補が返却されたか否かを判定する。ここでは、抽出された用語”keitai”の仮名”けいたい”について、”携帯”,”形態”,”敬体”,”継体”,”形体”といった漢字を含む変換候補を得る。これにより、URLに用いられている用語”keitai”は、一般的な日本語として変換できるため、該用語は意味を持つ用語であるとして、非一般名称用語とは判定しない。
なお、例えば、”product”の代わりに”seihin”が用いられていた場合であっても、該用語をローマ字表記として捉え、該ローマ字表記の用語が示す仮名”せいひん”に対し仮名漢字変換を実行することで、”製品”,”清貧”,”正賓”といった漢字を含む変換候補を得ることができる。また、例えば、”oshirase”という用語が抽出された場合であっても、該ローマ字表記の用語が示す仮名”おしらせ”に対し仮名漢字変換を実行することで、”お知らせ”,”御知らせ”,”お報せ”といった漢字を含む変換候補を得ることができる。このように、アルファベットで表記された用語をローマ字としても解釈することにより、URLに用いられる用語が英語・日本語に関わらず、意味をもつ単語とそうでない単語とを区別することができる。すなわち、URLに用いられる用語が意味をもつ存在であるか否かをより的確に判定することができる。
ステップS110では、非一般名称位置判定部121が、これら非一般名称の用語が最後(末尾)に出現するURLがあるか検査する。本例では、”905i”に対し2つ目のURLが検出される。検出されたURLは、該非一般名称(”905i”)が付された事物についてのホームページ(すなわち、紹介ページのトップページ)のURLとみなす。
また、ステップS111では、非一般名称の用語が最後から2番目に出現するURLがあるか検査し、さらに検出されたURLについて、例えば”index”や”top”といった補完文字記憶部122に記憶されている用語が末尾に用いられているか検査する。本例では、”n905imu”に対し3つ目のURLがこの条件を満たすものとして検出される。検出されたURLは、該非一般名称(”n905imu”)が付された事物についてのホームページのURLとみなす。
なお、例えば、ステップS110でも”n905imu”を末尾にもつURLが検出されていた場合には、いずれか1つのURLを選択して、どちらか1つを”n905imu”という名称が付された事物についてのホームページのURLとみなせばよい。このとき、実際に存在するか否かを該URLにアクセスして確認した上で選択するようにしてもよい。また、アクセスして得られたウェブページのチェックサムを比較し、同一のウェブページであることを確認した上で選択するようにしてもよい。
図10は、本例における特定結果を示す説明図である。ステップS110およびステップS111の結果、非一般名称位置判定部121は、図10に示すように、2つのURL(上記2つ目のURLと3つ目のURL)が示すウェブページを、それぞれ関連づけて示す非一般名称が付された事物についてのホームページであると特定する。
一般に、商品等には該商品等を他と区別するための名称や型番といった商標が付されている。本発明では、この商標がURLにも用いられることに着目し、URLに用いられている用語を辞書によって翻訳可能か否かによって非一般名称か否かを判定し、非一般名称で終端している(または所定のファイル名が連結されて終端している)URLが、その非一般名称を商標とする商品等を紹介してウェブページのトップページであると推定している。
なお、本例では、商品名だけでなく、”905i”のようにシリーズ名等に関連するトップページについても検出するようにしているが、例えば、図11に示すように、URL判定手段120が、出現頻度計測手段123を含むことにより、シリーズ名のように複数の商品等に共通して付されるような非一般名称についてのトップページの検出を除外することも可能である。なお、本例では、特定候補とするURLの集合が与えられる等により、判定対象とするURLの範囲が予め定められているものとする。
出現頻度計測手段123は、非一般名称を表すと判断された用語について、判定対象とされたURLのなかでの出現頻度を求める。
そして、非一般名称位置判定手段121は、出現頻度が所定の閾値以下の非一般名称の用語を対象に、URLの判定処理を行う。
例えば、ステップS110の前に出現頻度を求める処理を行い、ステップS110では、非一般名称の用語として検出された用語のうち出現頻度が最も少ない用語を、商品名候補と見なして位置判定処理を行うようにしてもよい。上記実施例では、図12に示すように、各非一般名称の用語の出現頻度は、”905i”で3/4、”n905imu”で2/4と求められる。このうち、最も出現頻度が少ない”n905imu”について、これを商品名候補と見なせばよい。なお、例えば、出現頻度が1/2以下のものを商品名候補とするといった閾値による判定も可能である。
また、ステップS111の後で、URLが検出された非一般名称の用語について出現頻度を元に取捨選択することも可能である。
また、シリーズ名を除外したい場合には、他にも、非一般名称が付された事物のトップページとして特定されたURLにおいて他に用いられている非一般名称があるか否かを判断することにより、他に用いられている非一般名称は商品名等ではないとして除外することも可能である。すなわち、一旦、非一般名称が付された事物のトップページとして特定されたURLに対し、該URLに2以上の非一般名称が含まれているか否かを判定し、含まれている場合には、より上位層で用いられている非一般名称の用語についての特定結果を無効にする。例えば、上記実施例では、図10で特定結果として得られた3つ目のURLに”905i”と”n905imu”とが用いられていることにより、より上位層で用いられている”905i”に対し検出された2つ目のURLを削除する。結果、3つ目のURLのみが目的とするウェブページとして特定される。
また、逆に、シリーズ名等、一緒に用いられる用語を指定して、該用語とともに用いられている非一般名称が付された事物のトップページを特定するといった方法も可能である。例えば、URL分解手段100によって1URLに用いられる用語が抽出された後に、該用語に指定された用語が含まれているURLについてのみ、これ以降の判定対象とすればよい。すなわち、判定対象とされたURLから抽出された用語についてのみ、非一般名称か否かの判定を行うようにすればよい。なお、出現頻度についても、判定対象とされたURLにおける出現頻度を算出するようにすればよい。なお、一緒に用いられる用語は非一般名称に限らず、どのような用語であってもよく、2以上であってもよい。
なお、このような方法により特定されるウェブページは、商品に関するトップページに限らず、他と区別するための名称が付された事物に関するトップページにも当然適用可能である。
実施形態2.
次に、本発明の第2の実施形態について説明する。図13は、第2の実施形態のウェブページ特定装置2の構成例を示すブロック図である。図13に示すように、本実施形態のウェブページ特定装置2は、第2のURL分解手段200と、非一般名称判定手段110と、第2のURL判定手段220とを備える。なお、本実施形態において第1の実施形態と同様のものについては同じ符号を付し説明を省略している。
また、図14は、第2のURL分解手段200の構成例を示すブロック図である。第2のURL分解手段200は、図14に示すように、URL整列手段201と、階層評価手段202と、第1のURL分解手段100とを含む。なお、第1のURL分解手段100は、第1の実施形態におけるURL分解手段100と同様である。第2のURL分解手段200は、図2に示すURL分解手段10とURLグループ化手段13とを実現している手段である。
URL整列手段201は、複数のURLリストをアルファベット順に整列させる。
階層評価手段202は、サイト名とURLの階層の深さごとにURLをグループ分けする。従って、本実施形態では、特定候補とするURLの集合が与えられる等により、判定対象とするURLの範囲が予め定められているものとする。
第1のURL分解手段100は、グループ分けされた各URLについて、第1の実施形態と同様に、URLを分解し、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する。なお、本実施形態では、判定対象とされたURLについて、該URLのグループに関する情報が付加されて記憶される。
また、非一般名称判定手段110は、第1の実施形態と同様に、判定対象のURLから抽出された各用語について、辞書との照合により該用語が一般名称であるか又は非一般名称であるかを判定する。なお、本実施形態では、非一般名称判定手段110によって非一般名称であると判定された用語は、その用語を含むURLのグループ別に記憶される。
また、図15は、第2のURL判定手段220の構成例を示すブロック図である。第2のURL判定手段220は、図15に示すように、非一般名称比較手段221と、新URL生成手段222と、存在確認手段223とを含む。なお、第1のURL判定手段120は、第1の実施形態におけるURL判定手段120と同様である。第2のURL判定手段220は、図2に示すURL判定手段12と新URL判定手段14と存在確認手段15とを実現している手段である。
非一般名称比較手段221は、各グループで抽出された非一般名称の用語集合に差異があるか否かを判定する。
新URL生成手段222は、非一般名称がいわゆる商品名として用いられているURLに含まれる該非一般名称を、他のグループの非一般名称候補の用語と入れ替えることにより、新しいURLを生成する。
存在確認手段223は、生成された新しいURLで示されるウェブページにアクセスを試み、該ウェブページが実在するか否かを判定する。実在する場合には、該URLも該URLに含めた非一般名称についてのトップページのURLであると判定する。
第1のURL判定手段100は、第1の実施形態と同様に、判定対象のURLのうち非一般名称を表す部分文字列が用いているURLについて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する。なお、本実施形態では、グループ分けされたURL毎に、上記判定処理を行えばよい。
なお、本実施形態において、URL整列手段201,階層評価手段202を含んだ第2のURL分解手段200は、CPU等のプログラムに従い動作するプロセッサによって実現される。また、非一般名称比較手段221,新URL生成手段222,存在確認手段223を含んだ第2のURL判定手段220は、CPU等のプログラムに従い動作するプロセッサと記憶装置とによって実現される。
次に、本実施形態の動作について説明する。図16は、本実施形態のウェブページ特定装置1の動作例を示すフローチャートである。図16に示すように、本実施形態では、まず、URL整列手段201が、入力されたURL群を整列させ、サイト名とURLの階層ごとにグループ分けを行う(ステップS201,S202)。
次に、グループ分けされた各URLについて、第1のURL分解手段100で、URL分解処理を行う(ステップS203,S204)。なお、URL分解処理とは、第1の実施形態におけるステップS101〜S105の処理をいう。
次に、第1のURL分解手段100によって抽出された各用語について、非一般名称判定手段110が、用語分類処理を行う(ステップS205)。なお、用語分類処理とは、第1の実施形態におけるステップS107〜S109の処理をいう。
次に、第2のURL判定手段220では、まず、非一般名称位置判定手段121が、各グループに属する各URLから抽出された非一般名称用語を元に、URL判定処理を行う(ステップ206)。なお、URL判定処理とは、第1の実施形態におけるステップS110〜S111の処理をいう。なお、この時点では、1つの非一般名称について複数のトップページ候補があってもよい。ここでの末尾または末尾より2番目に用いられている等の出現位置や頻度等の判定により、あるサイトの各グループでいわゆる商品名として用いられている非一般名称の用語が反映することになる。
次に、非一般名称比較手段221が、各グループについて、当該グループに属するURLに用いられている商品名としての非一般名称の用語と、他のグループに属するURLに用いられている、いわゆる商品名としての非一般名称の用語とを比較し、差分すなわち当該グループに属するURLに用いられていない、いわゆる商品名としての非一般名称用語を得る(ステップS207)。
次に、新URL生成手段222が、非一般名称がいわゆる商品名として用いられているURLに含まれる該非一般名称を、他のグループの非一般名称候補の用語と入れ替えることにより、新しいURLを生成する(ステップS208)。なお、非一般名称がいわゆる商品名として用いられているURLか否かは、非一般名称比較手段221によって該非一般名称が付与された事物についてのトップページのURLであると判断されたか否かによって判定してもよい。
次に、存在確認手段223が、新URL生成手段222が生成した新しいURLで示されるウェブページにアクセスを試み、該ウェブページが実在するか否かを確認する(ステップS209)。
最後に、存在確認手段223の結果を踏まえ、入力されたURLだけでなく新たに生成されたURLを含めて、該URLが示すウェブページが、目的とするウェブページであるか否かを特定する(ステップS210)。
以上のように、本実施形態によれば、グループ間の差分商品名称を利用して、いわゆる商品トップページ候補とするURLを生成することができるため、入力として与えられなかったURL集合以外のトップページを発見することができる。
以下、本実施形態の動作についてより具体的な例を用いて説明する。例えば、図17に示すURL群が、判定対象のURLとして入力されたとする。ウェブページ特定装置2では、このURL群を用いて商品トップページを特定する。
なお、図17に示されているURLは、次の4つである。
(1)http://www.nec.co.jp/product/keitai/904i/n904i
(2)http://www.nec.co.jp/product/keitai/904i/m904i
(3)http://www.nec.co.jp/product/keitai/904i/m904itv/gallery.html
(4)http://www.nec.co.jp/product/keitai/904i/n904imu/gallery.html
なお、本実施例は、一部商品紹介ページへのリンクがサイト構築者のミスで、サイトのトップページから欠落した場合を想定している。
まず、入力されたURLをサイト名と階層を組に、グループわけを行う。なお、本例では、いずれも同一サイト名であるため、5階層である1番目と2番目のURLをグループ1に、6階層である3番目と4番目のURLをグループ2とする2つのグループに分ける。図18は、グループ分けの結果を示す説明図である。なお、図18に示すように、各URLについて、どのグループに属するかの情報を関連づけて記憶するようにしてもよい。
その後の処理は、各グループ毎に行い、用語の抽出、用語の判定、またグループ内頻度や階層位置に基づき、いわゆる商品名としてURLに用いられている非一般名称の用語集合を得る。本例では、図19に示すように、グループ1では、”n904i”と”m904i”とを得る。また、グループ2にでは、”m904itv”と”n904imu”とを得る。なお、”904i”については、階層位置または出現頻度により除外されたものとして扱っているが、抽出されるようにしてもよい。
ここで、非一般名称比較手段221が、グループ1とグループ2とで、非一般名称の用語集合に差異があるか否かを判定すると、グループ1に対するグループ2との差異として、”m904itv”と”n904imu”とを得る。また、グループ2に対するグループ1との差異として、”n904i”と”m904i”とを得る。
なお、第1のURL判定手段120によるURL判定処理の結果、グループ1では、1番目のURLおよび2番目のURLは、いずれも商品紹介ページのURLとして判定されている。また、グループ2では、3番目のURLおよび4番目のURLは、いずれも商品紹介ページのURLとして判定されていない。
新URL生成手段222は、グループ2で該当する商品紹介ページがなかったとされた非一般名称を、グループ1で商品紹介ページとして判定されたURLに当てはめる。ここでは、グループ1に対するグループ2との差異用語である、”m904itv”と”n904imu”を、グループ1で商品紹介ページとして判定されたURLにおいて用いられている商品名用語と置き換える。具体的には、”n904i”または”m904i”の部分を、それぞれ”m904itv”と”n904imu”に置き換えることによって新たなURL5,6とを生成する。生成されるURLを図20に示す。
なお、図16には、次に示すURLが示されている。
(5)http://www.nec.co.jp/product/keitai/904i/m904itv
(6)http://www.nec.co.jp/product/keitai/904i/n904imu
これらURLについて、存在確認手段223が、存在確認をし、5番目のURLは実在せず、6番目のURLが実在したとする。結果、第1のURL判定手段120による判定結果によって得られる1番目のURLと2番目のURLの他に、6番目のURLについても、商品紹介ページのトップページとして特定される。
なお、上記実施形態をサーバ装置に適用させる場合には、判定対象とするURLの情報の入力を受け付ける受け付け手段(図示せず。)と、URL判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであると判定したURLの情報を、要求により出力する出力手段(図示せず。)とを備えるようにしてもよい。
本発明は、商品やサービス、リゾート地といった特に定めた名称が付された事物の情報を、自動で収集する用途に好適に適用可能である。また、ある特定の範囲における商品の紹介や商品間の比較を行うためのサイトに引用する用途にも好適に適用可能である。なお、商品カタログ生成のためのリンク収集といった用語にも適応可能である。
本発明によるウェブページ特定装置の構成例を示すブロック図である。 本発明によるウェブページ特定装置の他の構成例を示すブロック図である。 第1の実施形態によるウェブページ特定装置の構成例を示すブロック図である。 URL分解手段100の構成例を示すブロック図である。 非一般名称判定手段110の構成例を示すブロック図である。 URL判定手段120の構成例を示すブロック図である。 ウェブページ特定装置1の動作例を示すフローチャートである。 判定対象のURLとして入力されるURL群の例を示す説明図である。 URLからの用語抽出例および翻訳結果例を示す説明図である。 第1の実施例における特定結果を示す説明図である。 URL判定手段120の他の構成例を示すブロック図である。 抽出用語について出現頻度の算出結果を示す説明図である。 第2の実施形態のウェブページ特定装置2の構成例を示すブロック図である。 第2のURL分解手段200の構成例を示すブロック図である。 第2のURL判定手段220の構成例を示すブロック図である。 ウェブページ特定装置1の動作例を示すフローチャートである。 判定対象のURLとして入力されるURL群の例を示す説明図である。 入力されたURLに対するグループ分けの結果例を示す説明図である。 グループ毎の非一般名称の用語集合の例を示す説明図である。 新たに生成されるURLの例を示す説明図である。
符号の説明
10 URL分解手段
11 非一般名称判定手段
12 URL判定手段
13 URLグループ化手段
14 新URL生成手段
15 存在確認手段
1 (第1の)ウェブページ特定装置
100 (第1の)URL分解手段
101 プロトコル除去手段
102 セパレータ除去手段
103 サイト名除去手段
104 拡張子除去手段
110 非一般名称判定手段
111 辞書問い合わせ手段
112 問い合わせ結果判定手段
113 用語分類手段
120 (第1の)URL判定手段
121 非一般名称位置判定手段
122 補完文字記憶部
123 出現頻度計測手段
2 (第2の)ウェブページ特定装置
200 (第2の)URL分解手段
201 URL整列手段
202 階層評価手段
220 (第2の)URL判定手段
221 非一般名称比較手段
222 新URL生成手段
223 存在確認手段

Claims (20)

  1. 特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、
    URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出するURL分解手段と、
    前記URL分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、
    非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定するURL判定手段とを備えた
    ことを特徴とするウェブページ特定装置。
  2. URL判定手段は、URLの構文構造における、非一般名称判定手段によって非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する
    請求項1に記載のウェブページ特定装置。
  3. URL判定手段は、URLの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する
    請求項1または請求項2に記載のウェブページ特定装置。
  4. 判定対象とするURLが指定され、
    URL判定手段は、非一般名称を表すと判断された用語の、判定対象とされるURLのなかでの出現頻度に基づき、該用語を用いているURLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する
    請求項1から請求項3のうちのいずれか1項に記載のウェブページ特定装置。
  5. 非一般名称判定手段は、URL分解手段によって抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
    請求項1から請求項4のうちのいずれか1項に記載のウェブページ特定装置。
  6. 非一般名称判定手段は、URL分解手段によって抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
    請求項1から請求項5のうちのいずれか1項に記載のウェブページ特定装置。
  7. 非一般名称判定手段は、照合先の辞書を切り替えることにより、1つの用語について複数の辞書と照合を行う
    請求項1から請求項6のうちのいずれか1項に記載のウェブページ特定装置。
  8. URL分解手段は、URLを構成する文字列から、URLの構文構造において、プロトコルに関する情報を表している部分文字列と、セパレータとして用いられている部分文字列と、サイト名を表している部分文字列と、ファイルタイプを表している部分文字列とを除去することにより、該URLを分解し、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する
    請求項1から請求項7のうちのいずれか1項に記載のウェブページ特定装置。
  9. 判定対象とするURLが指定され、
    指定されたURLを、サイト名およびURLの階層別にグループ化するURLグループ化手段と、
    各グループに属するURLに対するURL判定手段の結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURL候補を生成する新URL生成手段とを備えた
    請求項1から請求項8のうちのいずれか1項に記載のウェブページ特定装置。
  10. 新URL生成手段が生成したURLが示すウェブページが実在するか否かを判定する存在確認手段を備えた
    請求項9に記載のウェブページ特定装置。
  11. 特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定方法であって、
    URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出し、
    抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定し、
    非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定することにより、目的とするウェブページを特定する
    ことを特徴とするウェブページ特定方法。
  12. URLの構文構造における非一般名称を表すと判断された用語が用いられる階層位置に基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する
    請求項11に記載のウェブページ特定方法。
  13. URLの構文構造における、非一般名称を表すと判断された用語が用いられる階層位置とともに、最下位層に用いられる表現とに基づいて、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定する
    請求項11または請求項12に記載のウェブページ特定方法。
  14. URLから抽出された用語について、翻訳用に用いられる辞書との照合の結果、該用語に対する翻訳候補が得られた場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
    請求項11から請求項13のうちのいずれか1項に記載のウェブページ特定方法。
  15. URLから抽出された用語であってローマ字表記の用語について、該ローマ字表記を仮名文字に変換した上で仮名漢字変換用に用いられる辞書との照合の結果、該仮名文字が分断されずに漢字に変換された場合に、該用語自体に意味が存在するとして該用語が一般名称を表していると判定する
    請求項11から請求項14のうちのいずれか1項に記載のウェブページ特定方法。
  16. 照合先の辞書を切り替えることにより、1つの用語について複数の辞書と照合を行う
    請求項11から請求項15のうちのいずれか1項に記載のウェブページ特定方法。
  17. 判定対象とするURLが指定され、
    指定されたURLを、サイト名およびURLの階層別にグループ化し、
    各グループに属するURLが、非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かの判定結果と、グループ間の非一般名称の用語集合の差異とに基づき、グループ内の非一般名称を用い、該非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURL候補を生成する
    請求項11から請求項16のうちのいずれか1項に記載のウェブページ特定方法。
  18. 新たに生成されたURLが示すウェブページが実在するか否かを判定する
    請求項17に記載ののウェブページ特定方法。
  19. 特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定用プログラムであって、
    コンピュータに、
    URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出する処理、
    抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する処理、および
    非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定することにより、目的とするウェブページを特定する処理
    を実行させるためのウェブページ特定用プログラム。
  20. 特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するサーバ装置であって、
    特に定めた名称が付された事物の情報を主に掲載しているウェブページのトップページを特定するためのウェブページ特定装置であって、
    判定対象とするURLの情報の入力を受け付ける受け付け手段と、
    前記URLを分解して、該URLに用いられている用語であってURLを表現するための技術用語として用いられている用語以外の用語を抽出するURL分解手段と、
    前記URL分解手段によって抽出された用語について、所定の辞書との照合結果に基づき該用語自体に意味が存在するか否かを判定することにより、該用語が非一般名称を表すものか否かを判定する非一般名称判定手段と、
    非一般名称を表すと判断された用語に係るURLの構文構造に基づき、該URLが、前記非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであるか否かを判定するURL判定手段とを備え、
    前記URL判定手段によって非一般名称が付された事物の情報を主に掲載しているウェブページのトップページのURLであると判定したURLの情報を、要求により出力する出力手段とを備えた
    ことを特徴とするサーバ装置。
JP2008048014A 2008-02-28 2008-02-28 ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム Pending JP2009205499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008048014A JP2009205499A (ja) 2008-02-28 2008-02-28 ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008048014A JP2009205499A (ja) 2008-02-28 2008-02-28 ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Publications (1)

Publication Number Publication Date
JP2009205499A true JP2009205499A (ja) 2009-09-10

Family

ID=41147677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008048014A Pending JP2009205499A (ja) 2008-02-28 2008-02-28 ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Country Status (1)

Country Link
JP (1) JP2009205499A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052526A1 (ja) * 2009-10-30 2011-05-05 楽天株式会社 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052526A1 (ja) * 2009-10-30 2011-05-05 楽天株式会社 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium

Similar Documents

Publication Publication Date Title
JP3928722B2 (ja) 1組のドキュメントの階層的記述の推測
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
US20120102015A1 (en) Method and System for Performing a Comparison
JP2007122732A (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法)
US9798776B2 (en) Systems and methods for parsing search queries
Yerra et al. A sentence-based copy detection approach for web documents
CN109165373B (zh) 一种数据处理方法及装置
TW201415254A (zh) 語意標註建議方法及其系統
KR20120064559A (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
CN111680128A (zh) 一种网页敏感词检测方法、检测系统及相关装置
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
US7343372B2 (en) Direct navigation for information retrieval
JP5179564B2 (ja) クエリセグメント位置決定装置
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
KR100433584B1 (ko) 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법
WO2016099422A2 (en) Content sensitive document ranking method by analyzing the citation contexts
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP2002251402A (ja) 文書検索方法及び文書検索装置
CN112230989B (zh) 网页频道导航栏提取方法、系统、电子设备及存储介质
CN114780601A (zh) 一种数据查询方法、装置、电子设备和存储介质
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质