JP2013101415A - Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer - Google Patents

Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer Download PDF

Info

Publication number
JP2013101415A
JP2013101415A JP2010043388A JP2010043388A JP2013101415A JP 2013101415 A JP2013101415 A JP 2013101415A JP 2010043388 A JP2010043388 A JP 2010043388A JP 2010043388 A JP2010043388 A JP 2010043388A JP 2013101415 A JP2013101415 A JP 2013101415A
Authority
JP
Japan
Prior art keywords
web page
product web
product
feature word
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010043388A
Other languages
Japanese (ja)
Inventor
Satoshi Sekine
聡 関根
Takamasa Takenaka
孝真 竹中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LANGUAGE CRAFT KENKYUSHO KK
Rakuten Group Inc
Original Assignee
LANGUAGE CRAFT KENKYUSHO KK
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LANGUAGE CRAFT KENKYUSHO KK, Rakuten Inc filed Critical LANGUAGE CRAFT KENKYUSHO KK
Priority to JP2010043388A priority Critical patent/JP2013101415A/en
Priority to PCT/JP2011/054509 priority patent/WO2011105605A1/en
Priority to PCT/JP2011/054507 priority patent/WO2011105604A1/en
Publication of JP2013101415A publication Critical patent/JP2013101415A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To calculate similarity of commodities between commodity web pages to improve convenience of users.SOLUTION: A commodity web page analysis method includes: acquiring a first commodity web page and a second commodity web page (S1); extracting text data described on each commodity web page (S2); subjecting the text data to language analysis and extracting feature word candidates of each commodity web page (S3); creating a retrieval query using the feature word candidates as retrieval keywords and acquiring a retrieval result based on the retrieval query (S4); determining whether or not a category related word exists in snippets of the retrieval result; determining the feature word candidates as feature words when the category related word exists in the snippets (S6); calculating similarity between the first and second commodity web pages on the basis of the feature words (S7); and determining that the first and second commodity web pages handle similar commodities when the similarity is equal to or more than a prescribed value (S8).

Description

本発明は、インターネット上のショッピングサイトにおける商品に関するウェブページを分析する商品ウェブページ分析装置、商品ウェブページ分析方法、および、商品ウェブページ分析装置用のプログラムの技術分野に関する。   The present invention relates to a technical field of a product web page analysis device, a product web page analysis method, and a program for a product web page analysis device for analyzing a web page related to a product on a shopping site on the Internet.

インターネット上のショッピングサイトには商品を扱った商品ウェブページが多数あり、ユーザはその商品ウェブページを閲覧して商品の購入を行っている。閲覧して購入する際、ユーザは通常、商品検索を行っている。この検索の技術において、多くの商品ウェブページの中からユーザが欲しい商品を的確に探すために検索精度の向上を図ることが行われている。例えば、特許文献1には、商品に登録された商品説明情報のシードかノイズかの識別を高精度に行うことで、商品検索の精度向上を図るため、複数のストアが種々の商品カテゴリ毎に提供する商品毎に登録される情報である商品説明情報が属する商品カテゴリの数をカテゴリ頻度として商品説明情報毎に算出するカテゴリ頻度算出部と、商品説明情報が属するストアの数をストア頻度として商品説明情報毎に算出するストア頻度算出部と、算出されたカテゴリ頻度とストア頻度との比率から分類規則情報を生成する機械学習部と、生成された分類規則情報に基づいて商品説明情報がノイズ情報又は商品特定情報かを識別し分類する判定部と、を備える商品情報分類装置が開示されている。   There are many product web pages dealing with products on shopping sites on the Internet, and users browse the product web pages and purchase products. When browsing and purchasing, a user usually performs a product search. In this search technology, in order to accurately search for a product desired by a user from many product web pages, search accuracy is improved. For example, in Patent Document 1, a plurality of stores are provided for each of various product categories in order to improve the accuracy of product search by accurately identifying the seed or noise of product description information registered in a product. A category frequency calculation unit that calculates, for each product description information, the number of product categories to which product description information, which is information registered for each product provided, belongs, and a store frequency that includes the number of stores to which the product description information belongs. The store frequency calculation unit calculated for each explanation information, the machine learning unit that generates classification rule information from the ratio of the calculated category frequency to the store frequency, and the product description information is noise information based on the generated classification rule information Alternatively, a product information classification device including a determination unit that identifies and classifies product identification information is disclosed.

特開2009−129087号公報JP 2009-129087 A

ところで、サイバーモールのような様々な店舗が参加するタイプのショッピングサイトにおいて、ショッピングサイトに出店している各業者(店舗主)が独自に各商品ウェブページを作成している場合、同一商品でも商品の説明文が異なったり、表記の方法の統一がなされていなかったりすることがある。また、他の店舗よりもユーザにアピールするために店舗独自の情報が商品ウェブページに付与されたり、商品ウェブページの見出し部分が様々な情報で埋め尽くされたりしている。   By the way, in a shopping site where various stores such as Cyber Mall participate, if each merchant (store owner) opening a shopping site independently creates each product web page, the same product May be different, or the notation method may not be unified. Further, in order to appeal to the user rather than other stores, information unique to the store is given to the product web page, or the heading portion of the product web page is filled with various information.

このため、単純に検索するだけでは、所望する商品ウェブページを発見することが難しく、ユーザは同一商品と思われる様々な商品ウェブページを閲覧して、購入するサイトを決定する必要があった。特許文献1のように単に検索の精度を上げただけでは、上記問題を解決することが難しかった。   For this reason, it is difficult to find a desired product web page by simply searching, and the user has to browse various product web pages that are considered to be the same product and determine a site to purchase. It is difficult to solve the above problem by simply increasing the search accuracy as in Patent Document 1.

本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、商品ウェブページの商品の類似性を求めてユーザの利便性の向上を図ることができる商品ウェブページ分析装置、商品ウェブページ分析方法、および、商品ウェブページ分析装置用のプログラムを提供することを目的とする。   The present invention has been made in view of such a problem, and an example of the problem is a product web page analysis apparatus that can improve the convenience of the user by obtaining the similarity of the products on the product web page. An object of the present invention is to provide a product web page analysis method and a product web page analysis apparatus program.

上記課題を解決するために、請求項1に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段と、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段と、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段と、を備えたことを特徴とする。   In order to solve the above-mentioned problem, the invention described in claim 1 includes category-related word storage means for storing category-related words related to a category for classifying products, a first product web page, and a second product web. Product web page acquisition means for acquiring a page, text data extraction means for extracting text data described in each product web page, and linguistic analysis of the extracted text data, Feature word candidate extraction means for extracting feature word candidates, search result acquisition means for creating a search query using the feature word candidates as search keywords, and acquiring search results based on the search queries, and the category related word storage means A search result determination means for determining whether or not the category related word is present in the snippet of the search result, Feature word determination means for determining the feature word candidate when the category-related word is present in the snippet as the feature word of each product web page, and based on the feature word, the first product web page and the second product word Similarity calculation means for calculating the similarity between the product web page and the first product web page and the second product web page handle similar products when the similarity is a predetermined value or more. Similar product determination means for determining that the product is a product web page.

請求項2に記載の発明は、請求項1に記載の商品ウェブページ分析装置において、前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする。   According to a second aspect of the present invention, in the product web page analyzing apparatus according to the first aspect, the similarity calculation unit uses the common feature word in the first product web page and the second product web page. Based on the above, the similarity is calculated.

請求項3に記載の発明は、請求項2に記載の商品ウェブページ分析装置において、前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする。   According to a third aspect of the present invention, in the product web page analyzing apparatus according to the second aspect of the invention, the similarity calculation unit is configured to obtain the feature word common to the first product web page and the second product web page. The similarity is calculated based on the reverse appearance frequency.

請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の商品ウェブページ分析装置において、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする。   The invention according to claim 4 is the product web page analysis apparatus according to any one of claims 1 to 3, further comprising domain name storage means for storing a domain name of a shopping site, and the search result The determining means refers to the category related word storage means and the domain name storage means to determine whether or not the category related words are present in a snippet of a shopping site in the search result. .

請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の商品ウェブページ分析装置において、前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする。   According to a fifth aspect of the present invention, in the product web page analyzing apparatus according to any one of the first to fourth aspects, the feature word candidate extracting unit analyzes the language of the text data by morphological analysis. It has a noise removal means for removing a noise morpheme from the obtained morpheme.

請求項6に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶ステップと、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出ステップと、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定ステップと、を有することを特徴とする。   The invention according to claim 6 is a category related word storing step for storing a category related word related to a category for classifying a product, and a product web page acquisition for acquiring a first product web page and a second product web page. Means, a text data extraction step for extracting text data described in each product web page, and a linguistic analysis of the extracted text data to extract feature word candidates for each product web page A candidate extraction step, a search result acquisition step of creating a search query using the feature word candidate as a search keyword, and acquiring a search result based on the search query, and the category related word exists in the snippet of the search result A search result determination step for determining whether or not the category-related word exists in the snippet A feature word determination step of determining a combination of the feature word candidates as a feature word of each product web page, and a similarity between the first product web page and the second product web page based on the feature word Similarity product to be calculated, and when the similarity is equal to or greater than a predetermined value, the first product webpage and the second product webpage are determined to be product webpages that handle similar products. And a determining step.

請求項7に記載の発明は、コンピュータを、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段、および、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段として機能させることを特徴とする。   The invention according to claim 7 is a product web for acquiring category related word storage means, a first product web page, and a second product web page for storing category related words related to a category for classifying products. Page acquisition means, text data extraction means for extracting text data described in each product web page, feature words for extracting feature word candidates of each product web page by performing language analysis on the extracted text data A candidate extraction unit, a search query that uses the feature word candidate as a search keyword, a search result acquisition unit that acquires a search result based on the search query, and a snippet of the search result by referring to the category-related word storage unit Search result judging means for judging whether or not the category-related word exists in the snippet; Feature word determining means for determining the feature word candidate when a word related word exists as a feature word of each product web page, and based on the feature word, the first product web page and the second product web page A similarity calculation means for calculating the similarity between the first product web page and the second product web page when the similarity is equal to or greater than a predetermined value. It is made to function as a similar goods determination means determined to be present.

本発明によれば、商品を分類するカテゴリに関連するカテゴリ関連語を記憶し、第1の商品ウェブページおよび第2の商品ウェブページを取得し、各商品ウェブページ内に記述されているテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果を取得し、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出し、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定することにより、商品ウェブページの商品の類似性を求めて、例えば、同一や類似の商品を扱う商品ウェブページをまとめ上げることができるため、ユーザの利便性の向上を図ることができる。   According to the present invention, category related words related to a category for classifying products are stored, the first product web page and the second product web page are acquired, and the text data described in each product web page Linguistic analysis to extract feature word candidates for each product web page, create a search query using the feature word candidates as search keywords, obtain search results based on the search query, and use category-related terms in the search result snippet Is determined, a feature word candidate when a category-related word is present in the snippet is determined as a feature word of each product web page, and based on the feature word, the first product web page and the second product word are determined. If the degree of similarity between the product web page is calculated and the similarity is greater than or equal to a predetermined value, the first product web page and the second product web page are products that handle similar products. By determining that the web page is a product page, it is possible to obtain the product similarity of the product web page and, for example, to collect product web pages that handle the same or similar products, thereby improving user convenience. Can do.

本発明の一実施形態に係る商品ウェブページ分析システムの概要構成例を示す模式図である。It is a mimetic diagram showing an example of outline composition of a goods web page analysis system concerning one embodiment of the present invention. 図1の商品ウェブページ分析サーバの概要構成の一例を示すブロック図である。It is a block diagram which shows an example of schematic structure of the goods web page analysis server of FIG. 図1のショッピングサーバの概要構成の一例を示すブロック図である。It is a block diagram which shows an example of schematic structure of the shopping server of FIG. 図1の検索サーバの概要構成の一例を示すブロック図である。It is a block diagram which shows an example of schematic structure of the search server of FIG. 図1の商品ウェブページ分析サーバにおいて商品ウェブページを分析する動作例を示すフローチャートである。It is a flowchart which shows the operation example which analyzes a goods web page in the goods web page analysis server of FIG. 図1のショッピングサーバの商品ウェブページの一例を示す説明図である。It is explanatory drawing which shows an example of the goods web page of the shopping server of FIG. 図6の商品ウェブページのソースコードの一例を示す説明図である。It is explanatory drawing which shows an example of the source code of the goods web page of FIG. 図6の商品ウェブページのテキストデータの分析過程の一例を示す模式図である。It is a schematic diagram which shows an example of the analysis process of the text data of the goods web page of FIG. 図1の検索サーバの検索結果の一例を示す模式図である。It is a schematic diagram which shows an example of the search result of the search server of FIG. 図2のドメイン名データベースに記憶されたショッピングサイトのドメイン名の一例を示す模式図である。It is a schematic diagram which shows an example of the domain name of the shopping site memorize | stored in the domain name database of FIG. 図2のカテゴリ関連語データベースに記憶されたカテゴリ関連語の一例を示す模式図である。It is a schematic diagram which shows an example of the category related word memorize | stored in the category related word database of FIG. 図1の商品ウェブページ分析サーバにおける類似度算出のサブルーチンの一例を示すフローチャートである。It is a flowchart which shows an example of the subroutine of similarity calculation in the goods web page analysis server of FIG.

以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、商品ウェブページ分析システムに対して本発明を適用した場合の実施形態である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, embodiment described below is embodiment at the time of applying this invention with respect to a goods web page analysis system.

[1.商品ウェブページ分析システムの構成および機能概要] [1. Product Web Page Analysis System Configuration and Function Overview]

まず、本発明の一実施形態に係る商品ウェブページ分析システムの構成および概要機能について、図1を用いて説明する。   First, the structure and outline | summary function of the goods web page analysis system which concern on one Embodiment of this invention are demonstrated using FIG.

図1は、本実施形態に係る商品ウェブページ分析システム1の概要構成例を示す模式図である。   FIG. 1 is a schematic diagram illustrating a schematic configuration example of a product web page analysis system 1 according to the present embodiment.

図1に示すように、商品ウェブページ分析システム1は、商品ウェブページを分析する商品ウェブページ分析サーバ(商品ウェブページ分析装置の一例)10と、ショッピングサイトを運営するために設置されたショッピングサーバ20と、インターネット上のウェブページのウェブ検索の機能を提供する検索サーバ30と、ショッピングサイトに出店している店舗主の店舗主端末40と、ショッピングサイトで商品の購入をするユーザのユーザ端末45と、を備えている。   As shown in FIG. 1, a product web page analysis system 1 includes a product web page analysis server (an example of a product web page analysis device) 10 for analyzing a product web page, and a shopping server installed to operate a shopping site. 20, a search server 30 that provides a web search function for a web page on the Internet, a store owner terminal 40 of a store owner opening a store on a shopping site, and a user terminal 45 of a user who purchases a product on the shopping site And.

商品ウェブページ分析サーバ10と、ショッピングサーバ20と、検索サーバ30とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5と、店舗主端末40と、ユーザ端末45とは、ネットワーク3により接続され、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、およびゲートウェイ等により構築されている。   The product web page analysis server 10, the shopping server 20, and the search server 30 are connected by a local area network and the like, and can transmit and receive data to each other, and constitute a server system 5. The server system 5, the store owner terminal 40, and the user terminal 45 are connected by the network 3, and can exchange data with each other using, for example, TCP / IP as a communication protocol. The network 3 is constructed by, for example, the Internet, a dedicated communication line (for example, CATV (Community Antenna Television) line), a mobile communication network (including a base station), a gateway, and the like.

商品ウェブページ分析サーバ10は、ショッピングサーバ20に登録された商品ウェブページを分析したり、分析結果に基づいてショッピングサーバ20上の商品ウェブページの整理を行ったり、商品ウェブページを登録した店舗主等の店舗主端末40やユーザ端末45等に分析結果を通知したりする。   The product web page analysis server 10 analyzes the product web page registered in the shopping server 20, organizes the product web page on the shopping server 20 based on the analysis result, or stores the product web page registered The analysis result is notified to the store owner terminal 40, the user terminal 45, and the like.

ショッピングサーバ20は、ショッピングサイトで商品を販売するためのウェブサーバやデータベースサーバ等として機能し、商品ウェブページの登録の受け付けや、ユーザ登録や、商品等の購入手続き等の各種処理を行う。また、ショッピングサーバ20は、商品のカテゴリ毎に分類された商品ウェブページを有している。   The shopping server 20 functions as a web server, a database server, or the like for selling products on a shopping site, and performs various processes such as acceptance of product web page registration, user registration, and purchase procedures for products. Moreover, the shopping server 20 has the goods web page classified for every category of goods.

検索サーバ30は、インターネット等上の検索エンジンとして機能し、検索API(Application Programming Interface)の機能を、商品ウェブページ分析サーバ10に提供したり、端末から検索キーワードを含む受信した検索クエリに基づき、ウェブページ等の検索対象を検索して、検索結果を返したりする。また、検索サーバ30は、検索用のデータベースを構築するために、ショッピングサーバ20や、図示しないインターネット上のウェブサイトからウェブページの情報を収集し、ウェブページの情報を予め解析し、検索のためのインデックス情報や検索結果のスニペットを作成する。ここで、スニペットとは、各検索結果の説明文等のテキストであって、検索でヒットしたウェブページの要約や、そのウェブページ内に記述された検索キーワードを含んだ文章等である。   The search server 30 functions as a search engine on the Internet or the like, and provides a search API (Application Programming Interface) function to the product web page analysis server 10 or based on a received search query including a search keyword from a terminal. Search a search target such as a web page and return search results. Further, the search server 30 collects web page information from the shopping server 20 or a website on the Internet (not shown) in order to construct a search database, and analyzes the web page information in advance to perform a search. Create snippet of index information and search results. Here, the snippet is a text such as an explanatory text of each search result, such as a summary of a web page hit by the search or a text including a search keyword described in the web page.

店舗主が使用する店舗主端末40は、パーソナルコンピュータや携帯型無線電話機やPDA(Personal Digital Assistant)等の携帯端末である。店舗主は店舗主端末40を使用して、商品ウェブページをショッピングサーバ20に登録したり、更新したりする。   The store owner terminal 40 used by the store owner is a portable terminal such as a personal computer, a portable wireless telephone, or a PDA (Personal Digital Assistant). The store owner uses the store owner terminal 40 to register or update the product web page in the shopping server 20.

ユーザが使用するユーザ端末45は、パーソナルコンピュータや携帯型無線電話機やPDA等の携帯端末である。ユーザはユーザ端末45を使用して、商品の検索や購入等を行う。   The user terminal 45 used by the user is a portable terminal such as a personal computer, a portable wireless telephone, or a PDA. The user uses the user terminal 45 to search for or purchase a product.

[2.各サーバの構成および機能]
(2.1 商品ウェブページ分析サーバ10の構成および機能)
次に、商品ウェブページ分析サーバ10の構成および機能について、図2を用いて説明する。
[2. Configuration and function of each server]
(2.1 Configuration and Function of Product Web Page Analysis Server 10)
Next, the configuration and function of the product web page analysis server 10 will be described with reference to FIG.

図2は、商品ウェブページ分析サーバ10の概要構成の一例を示すブロック図である。   FIG. 2 is a block diagram illustrating an example of a schematic configuration of the product web page analysis server 10.

図2に示すように、コンピュータとして機能する商品ウェブページ分析サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。   As shown in FIG. 2, the product web page analysis server 10 that functions as a computer includes a communication unit 11, a storage unit 12, an input / output interface unit 13, and a system control unit 14. The system control unit 14 and the input / output interface unit 13 are connected via a system bus 15.

通信部11は、ネットワーク3に接続してユーザ端末45等との通信状態を制御したり、ローカルエリアネットワークに接続して、ショッピングサーバ20や検索サーバ30等の他のサーバとデータの送受信を行ったりする。   The communication unit 11 is connected to the network 3 to control the communication state with the user terminal 45 or the like, or connected to the local area network to transmit / receive data to / from other servers such as the shopping server 20 and the search server 30. Or

記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。   The storage unit 12 includes, for example, a hard disk drive and stores various programs such as an operating system and a server program, data, and the like. Note that the various programs may be acquired from, for example, another server device via the network 3, or may be recorded on a recording medium and read via a drive device.

また、記憶部12には、カテゴリ関連語記憶手段の一例としてのカテゴリ関連語データベース12a(以下「カテゴリ関連語DB」とする。)や、ドメイン名記憶手段の一例としてのドメイン名データベース(以下「ドメイン名DB」とする。)12bや、特徴語データベース(以下「特徴語DB」とする。)12c等が構築されている。   Further, the storage unit 12 includes a category related word database 12a (hereinafter referred to as “category related word DB”) as an example of a category related word storage unit, and a domain name database (hereinafter referred to as “category related word DB”) as an example of a domain name storage unit. Domain name DB ”) 12b, a feature word database (hereinafter referred to as“ feature word DB ”) 12c, and the like.

カテゴリ関連語DB12aには、ショッピングサイトにおける商品のカテゴリ毎に用語が記憶されている。例えば、”ワイン”のカテゴリには、”ワイン”、”お酒”等のカテゴリ関連語が、”ゴルフドライバー”のカテゴリには、”ゴルフ”、”ドライバー”、”クラブ”等のカテゴリ関連語が予め記録されている。また、カテゴリは階層構造になっていて、例えば、”ワイン”のカテゴリは、”洋酒”のカテゴリに属する。これらカテゴリ関連語は、各カテゴリに対応する識別子に関連付けられて記憶されている。このように、カテゴリ関連語DB12aは、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段の一例として機能する。   In the category related term DB 12a, terms are stored for each category of products on the shopping site. For example, category related words such as “wine” and “alcohol” are included in the category of “wine”, and category related words such as “golf”, “driver” and “club” are included in the category of “golf driver”. Is recorded in advance. The categories have a hierarchical structure. For example, the category of “wine” belongs to the category of “western sake”. These category-related words are stored in association with identifiers corresponding to the respective categories. As described above, the category-related word DB 12a functions as an example of a category-related word storage unit that stores category-related words related to a category for classifying products.

ドメイン名DB12bには、インターネット上の様々なショッピングサイトのドメイン名が予め記憶されている。このように、ドメイン名DB12bは、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段の一例として機能する。   In the domain name DB 12b, domain names of various shopping sites on the Internet are stored in advance. Thus, the domain name DB 12b functions as an example of a domain name storage unit that stores the domain name of the shopping site.

特徴語DB12cには、商品ウェブページ分析サーバ10による分析結果の一例として、商品ウェブページから、抽出した商品ウェブページの特徴語が記憶されている。特徴語は、商品ウェブページのURL(Uniform Resource Locator)等に関連付けられて記憶されている。   In the feature word DB 12c, feature words of the product web page extracted from the product web page are stored as an example of the analysis result by the product web page analysis server 10. The feature word is stored in association with the URL (Uniform Resource Locator) of the product web page.

次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行うようになっている。   Next, the input / output interface unit 13 performs interface processing between the communication unit 11 and the storage unit 12 and the system control unit 14.

システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。そして、システム制御部14は、CPU14aが、ROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、商品ウェブページのテキストデータから各商品ウェブページの特徴語候補を抽出したり、特徴語候補から特徴語を決定したり、特徴語に基づき、商品ウェブページ間の類似度を算出したりする。   The system control unit 14 includes a CPU (Central Processing Unit) 14a, a ROM (Read Only Memory) 14b, a RAM (Random Access Memory) 14c, and the like. In the system control unit 14, the CPU 14 a reads out and executes various programs stored in the ROM 14 b and the storage unit 12, thereby extracting feature word candidates for each product web page from the text data of the product web page. A feature word is determined from word candidates, and a similarity between product web pages is calculated based on the feature word.

(2.2 ショッピングサーバ20の構成および機能)
次に、ショッピングサーバ20の構成および機能について、図に基づき説明する。
図3は、ショッピングサーバ20の概要構成の一例を示すブロック図である。
(2.2 Configuration and function of shopping server 20)
Next, the structure and function of the shopping server 20 will be described with reference to the drawings.
FIG. 3 is a block diagram illustrating an example of a schematic configuration of the shopping server 20.

図3に示すように、ショッピングサーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、ショッピングサーバ20の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。   As shown in FIG. 3, the shopping server 20 includes a communication unit 21, a storage unit 22, an input / output interface unit 23, and a system control unit 24, and the system control unit 24 and the input / output interface unit 23 are Are connected via a system bus 25. Since the configuration and function of the shopping server 20 are substantially the same as the configuration and function of the product web page analysis server 10, the configuration and function of the product web page analysis server 10 will be mainly described.

通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、店舗主端末40やユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。   The communication unit 21 controls the communication state with the store owner terminal 40, the user terminal 45, the product web page analysis server 10, and the like through the network 3, the local area network, and the like.

記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。   In the storage unit 22, a product database (hereinafter referred to as "product DB") 22a, a member database (hereinafter referred to as "member DB") 22b, and the like are constructed.

商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品紹介の要約文等の商品情報や、広告情報等が記憶されている。また、商品DB22aには、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。   In the product DB 22a, product information such as a product name, type, product image, specification, and summary of product introduction, advertisement information, and the like are stored in association with a product ID that is an identifier for identifying the product. ing. The product DB 22a stores a product web page file described in a markup language such as HTML (HyperText Markup Language) or XML (Extensible Markup Language).

会員DB22bには、会員登録されたユーザ(インターネットショップの利用者)のユーザID、名称、住所、電話番号、メールアドレス等のユーザ情報が登録されている。このようなユーザ情報は、ユーザIDによってユーザ毎に判別可能になっている。また、会員DB22bには、ユーザがユーザ端末45からインターネットショップのサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。   In the member DB 22b, user information such as user ID, name, address, telephone number, and mail address of a registered user (user of Internet shop) is registered. Such user information can be determined for each user by the user ID. In the member DB 22b, a user ID, a login ID, and a password necessary for a user to log in to the Internet shop site from the user terminal 45 are registered. Here, the login ID and the password are login information used for login processing (user authentication processing).

システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、店舗主による商品ウェブページの登録や更新や、ユーザによる商品購入処理や、商品の購買履歴をユーザID毎に記録させたりする。   The system control unit 24 includes a CPU 24a, a ROM 24b, a RAM 24c, and the like. In the system control unit 24, the CPU 24a reads out and executes various programs stored in the ROM 24b and the storage unit 22, thereby registering or updating the product web page by the store owner, product purchase processing by the user, The purchase history is recorded for each user ID.

(2.3 検索サーバ30の構成および機能)
次に、検索サーバ30の構成および機能について、図に基づき説明する。
図4は、検索サーバ30の概要構成の一例を示すブロック図である。
(2.3 Configuration and Function of Search Server 30)
Next, the configuration and function of the search server 30 will be described with reference to the drawings.
FIG. 4 is a block diagram illustrating an example of a schematic configuration of the search server 30.

図4に示すように、検索サーバ30は、通信部31と、記憶部32と、入出力インターフェース部33と、システム制御部34と、を備え、システム制御部34と入出力インターフェース部33とは、システムバス35を介して接続されている。なお、検索サーバ30の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。   As shown in FIG. 4, the search server 30 includes a communication unit 31, a storage unit 32, an input / output interface unit 33, and a system control unit 34, and the system control unit 34 and the input / output interface unit 33 are Are connected via a system bus 35. Note that the configuration and function of the search server 30 are substantially the same as the configuration and function of the product web page analysis server 10, and therefore, the configuration and function of the product web page analysis server 10 will be mainly described.

通信部31は、ネットワーク3やローカルエリアネットワーク等を通して、ユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。   The communication unit 31 controls the communication state with the user terminal 45, the product web page analysis server 10 and the like through the network 3 and the local area network.

記憶部32には、検索データベース(以下「検索DB」とする。)32a等が構築されている。   In the storage unit 32, a search database (hereinafter referred to as “search DB”) 32a and the like are constructed.

検索DB32aには、インデクサーにより生成されたインデックス情報や、スニペット等が記憶されている。   The search DB 32a stores index information generated by the indexer, snippets, and the like.

システム制御部34は、CPU34a、ROM34b、RAM34c等により構成されている。そして、システム制御部34は、CPU34aが、ROM34bや記憶部32に記憶された各種プログラムを読み出し実行することにより、インターネット上のウェブページの情報を収集し、ウェブページの情報を予め解析し、インデックス情報や検索結果のスニペットを作成したり、商品ウェブページ分析サーバ10やユーザ端末45からの検索クエリに基づき、検索をしたり、検索結果を送信したりする。   The system control unit 34 includes a CPU 34a, a ROM 34b, a RAM 34c, and the like. In the system control unit 34, the CPU 34a reads and executes various programs stored in the ROM 34b and the storage unit 32 to collect web page information on the Internet, analyze the web page information in advance, A snippet of information or a search result is created, a search is performed based on a search query from the product web page analysis server 10 or the user terminal 45, and a search result is transmitted.

[3.商品ウェブページ分析システムの動作]
次に、本発明の一実施形態に係る商品ウェブページ分析システム1の動作について図5〜図11に基づき説明する。
[3. Operation of product web page analysis system]
Next, operation | movement of the goods web page analysis system 1 which concerns on one Embodiment of this invention is demonstrated based on FIGS.

図5は、商品ウェブページ分析サーバ10において商品ウェブページを分析する動作例を示すフローチャートである。図6は、ショッピングサーバ20の商品ウェブページの一例を示す説明図である。図7は、商品ウェブページのソースコードの一例を示す説明図である。図8は、商品ウェブページのテキストデータの分析過程の一例を示す模式図である。図9は、検索サーバ30の検索結果の一例を示す模式図である。図10は、ドメイン名DB12bに記憶されたショッピングサイトのドメイン名の一例を示す模式図である。図11は、カテゴリ関連語DB12aに記憶されたカテゴリ関連語の一例を示す模式図である。図12は、商品ウェブページ分析サーバ10における類似度算出のサブルーチンの一例を示すフローチャートである。   FIG. 5 is a flowchart showing an operation example of analyzing a product web page in the product web page analysis server 10. FIG. 6 is an explanatory diagram illustrating an example of a product web page of the shopping server 20. FIG. 7 is an explanatory diagram showing an example of the source code of the product web page. FIG. 8 is a schematic diagram illustrating an example of an analysis process of text data of a product web page. FIG. 9 is a schematic diagram illustrating an example of a search result of the search server 30. FIG. 10 is a schematic diagram illustrating an example of a domain name of a shopping site stored in the domain name DB 12b. FIG. 11 is a schematic diagram illustrating an example of category-related words stored in the category-related word DB 12a. FIG. 12 is a flowchart showing an example of a similarity calculation subroutine in the product web page analysis server 10.

(3.1.商品ウェブページの分析の流れ)
まず、商品ウェブページの分析の流れについて、図5を用いて説明する。
(3.1. Flow of product web page analysis)
First, the flow of analysis of a product web page will be described with reference to FIG.

図5に示すように、商品ウェブページ分析サーバ10は、2つの商品ウェブページを取得する(ステップS1)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品DB22aにおいて、同一のカテゴリ(例えば、カテゴリ”ワイン”)に所属している商品に関して、第1の商品ウェブページおよび第2の商品ウェブページを、通信部11を通して商品DB22aから取得する。これら商品ウェブページは、店舗主端末40を通して、店舗主等により登録された商品ウェブページである。このように、商品ウェブページ分析サーバ10のシステム制御部14および通信部11は、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段の一例として機能する。   As shown in FIG. 5, the product web page analysis server 10 acquires two product web pages (step S1). Specifically, the system control unit 14 of the product web page analysis server 10 relates to a product belonging to the same category (for example, category “wine”) in the product DB 22a, and the first product web page and the second product web page. The product web page is acquired from the product DB 22 a through the communication unit 11. These product web pages are product web pages registered by the store owner or the like through the store owner terminal 40. As described above, the system control unit 14 and the communication unit 11 of the product web page analysis server 10 function as an example of a product web page acquisition unit that acquires the first product web page and the second product web page.

次に、商品ウェブページ分析サーバ10は、各商品ウェブページからテキストデータを抽出する(ステップS2)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出する。さらに具体的には、図6に示すように、商品ウェブページ50において、テキスト部51、52、53、54のテキストデータが抽出される。また、図7に示すように、HTML等のマークアップ言語等で記述されたソースコードの中のデータも利用する。例えば、HTMLタグのtitle要素の部分のテキストデータも抽出される。   Next, the product web page analysis server 10 extracts text data from each product web page (step S2). Specifically, the system control unit 14 of the product web page analysis server 10 extracts text data described in each product web page. More specifically, as shown in FIG. 6, text data of text portions 51, 52, 53, 54 is extracted from the product web page 50. Further, as shown in FIG. 7, the data in the source code described in a markup language such as HTML is also used. For example, text data of the title element portion of the HTML tag is also extracted.

このように、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段の一例として機能する。   As described above, the system control unit 14 of the product web page analysis server 10 functions as an example of a text data extraction unit that extracts text data described in each product web page.

次に、商品ウェブページ分析サーバ10は、抽出したテキストデータから言語解析の一例である形態素解析によって特徴語候補を抽出する(ステップS3)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、形態素解析のプログラムを用い、抽出したテキストデータを形態素に分解し、各文節の品詞等を求める。図8に示すように、例えば、語句群53aが得られる。そして、商品ウェブページ分析サーバ10のシステム制御部14は、語句群53aから、ノイズを除去して、特徴語候補群53bを抽出する。例えば、”[ ]”のように括弧や記号で括られた部分や、動詞句や、動詞句に係る語句等が、語句群53aから取り除かれ、特徴語候補群53bが得られる。ここで、括弧や記号で括られた部分はノイズである場合が多く、また、動詞句や動詞句に係る語句は商品に関連する語句でないことが多い。なお、形態素解析として、一般的な形態素解析のプログラムを用いればよく、形態素解析する際、複合語を形成する過程があってもよい。また、他方の商品ウェブページについても、特徴語候補が抽出される。   Next, the product web page analysis server 10 extracts feature word candidates from the extracted text data by morphological analysis, which is an example of language analysis (step S3). Specifically, the system control unit 14 of the product web page analysis server 10 uses a morpheme analysis program to decompose the extracted text data into morphemes and obtain the part of speech of each phrase. As shown in FIG. 8, for example, a phrase group 53a is obtained. And the system control part 14 of the goods web page analysis server 10 removes noise from the phrase group 53a, and extracts the feature word candidate group 53b. For example, a part enclosed in parentheses or symbols such as “[]”, a verb phrase, a phrase related to a verb phrase, and the like are removed from the phrase group 53a to obtain a feature word candidate group 53b. Here, a part enclosed in parentheses or symbols is often noise, and a verb phrase or a phrase related to a verb phrase is often not a phrase related to a product. Note that a general morphological analysis program may be used as the morphological analysis, and there may be a process of forming a compound word when performing the morphological analysis. Also, feature word candidates are extracted for the other product web page.

このように商品ウェブページ分析サーバ10のシステム制御部14は、抽出したテキストデータを言語解析して、各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、テキストデータを形態素解析によって言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段の一例として機能する。   As described above, the system control unit 14 of the product web page analysis server 10 functions as an example of a feature word candidate extraction unit that analyzes the extracted text data and extracts feature word candidates of each product web page. In addition, the system control unit 14 of the product web page analysis server 10 functions as an example of a noise removing unit that removes noise morphemes from morphemes obtained by language analysis of text data by morphological analysis.

次に、商品ウェブページ分析サーバ10は、各特徴語候補によりウェブ検索を行う(ステップS4)。具体的には、まず、商品ウェブページ分析サーバ10のシステム制御部14は、検索サーバ30が提供する検索APIの機能を利用するために、各特徴語候補を検索キーワードとする各検索クエリを作成する。そして、商品ウェブページ分析サーバ10のシステム制御部14は、通信部11を通して、検索サーバ30に送信し、検索サーバ30から特徴語候補毎の検索結果を受信する。図9に示すように、検索結果ページ60の検索結果毎に、検索結果のタイトル部61、スニペット部62が含まれる。なお、使用する検索エンジンによって、タイトル部とスニペット部とに明確に分けられていない場合は、検索結果のテキストデータの一部をスニペットとする。このように、商品ウェブページ分析サーバ10のシステム制御部14は、特徴語候補を検索キーワードとする検索クエリを作成し、検索クエリに基づく検索結果を取得する検索結果取得手段の一例として機能する。   Next, the product web page analysis server 10 performs a web search using each feature word candidate (step S4). Specifically, first, the system control unit 14 of the product web page analysis server 10 creates each search query using each feature word candidate as a search keyword in order to use the function of the search API provided by the search server 30. To do. And the system control part 14 of the goods web page analysis server 10 transmits to the search server 30 through the communication part 11, and receives the search result for every feature word candidate from the search server 30. FIG. As shown in FIG. 9, a search result title part 61 and a snippet part 62 are included for each search result on the search result page 60. Note that if the title engine and the snippet part are not clearly divided depending on the search engine used, a part of the text data of the search result is a snippet. As described above, the system control unit 14 of the product web page analysis server 10 functions as an example of a search result acquisition unit that creates a search query using a feature word candidate as a search keyword and acquires a search result based on the search query.

次に、商品ウェブページ分析サーバ10は、ショッピングサイトの検索結果に絞る(ステップS5)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、検索結果のリンク先のURL(Uniform Resource Locator)において、ショッピングサイトのドメイン名を含む検索結果に絞る。さらに具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、図10のように、ドメイン名DB12bを参照して、上位(例えば30位)の検索結果のうち、HTMLのタグ”<a href=・・・>”の情報やスニペット部62のURL62aの中にショッピングサイトのドメイン名を含む検索結果に絞る。   Next, the product web page analysis server 10 narrows down to the search result of the shopping site (step S5). Specifically, the system control unit 14 of the product web page analysis server 10 narrows down the search results including the domain name of the shopping site in the URL (Uniform Resource Locator) linked to the search results. More specifically, as shown in FIG. 10, the system control unit 14 of the product web page analysis server 10 refers to the domain name DB 12b, and among the upper (for example, 30th) search results, the HTML tag “< The search result includes the domain name of the shopping site in the information “a href =...>” and the URL 62a of the snippet part 62.

次に、商品ウェブページ分析サーバ10は、カテゴリ関連語がスニペットに含まれる場合の特徴語候補を特徴語として決定する(ステップS6)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、ステップS5で絞られた検索結果のスニペットの中に、カテゴリ関連語が含まれる場合の特徴語候補を選択し、この特徴語候補を特徴語として決定する。さらに具体的には、図11に示すように、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリが”ワイン”の場合、検索結果のスニペットに、カテゴリ関連語”ワイン”または”酒”が含まれる特徴語候補を選択し、特徴語候補を特徴語として決定する。そして、図8に示すように、例えば、語句群53cが得られ、特徴語DB12cに記憶される。   Next, the product web page analysis server 10 determines a feature word candidate when the category-related word is included in the snippet as a feature word (step S6). Specifically, the system control unit 14 of the product web page analysis server 10 selects a feature word candidate when a category-related word is included in the snippet of the search result narrowed down in step S5, and this feature word Candidates are determined as feature words. More specifically, as shown in FIG. 11, when the category is “wine”, the system control unit 14 of the product web page analysis server 10 includes the category-related words “wine” or “liquor” in the search result snippet. Are selected as feature words, and the feature word candidates are determined as feature words. Then, as shown in FIG. 8, for example, a phrase group 53c is obtained and stored in the feature word DB 12c.

このように商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段の一例のカテゴリ関連語DB12aを参照して、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定する特徴語決定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段およびドメイン名記憶手段を参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。   As described above, the system control unit 14 of the product web page analysis server 10 refers to the category related word DB 12a as an example of the category related word storage unit, and determines whether or not a category related word exists in the snippet of the search result. Functions as an example of search result determination means. Further, the system control unit 14 of the product web page analysis server 10 functions as an example of a feature word determination unit that determines a feature word candidate when a category-related word exists in a snippet as a feature word of each product web page. Further, the system control unit 14 of the product web page analysis server 10 refers to the category-related word storage unit and the domain name storage unit to determine whether or not a category-related word exists in the snippet of the shopping site in the search result. It functions as an example of a search result determination means for determining.

次に、商品ウェブページ分析サーバ10は、特徴語に基づき類似度を算出する(ステップS7)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品ウェブページ間の類似度を算出するサブルーチンにより、類似度を算出する。このように商品ウェブページ分析サーバ10のシステム制御部14は、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段の一例として機能する。   Next, the product web page analysis server 10 calculates the similarity based on the feature word (step S7). Specifically, the system control unit 14 of the product web page analysis server 10 calculates the similarity by a subroutine that calculates the similarity between the product web pages. As described above, the system control unit 14 of the product web page analysis server 10 is an example of a similarity calculation unit that calculates the similarity between the first product web page and the second product web page based on the feature word. Function.

次に、商品ウェブページ分析サーバ10は、類似度に基づき商品ウェブページの類似性の判定を行う(ステップS8)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、類似度算出のサブルーチンにより算出した類似度が所定の値以上である場合、対象の商品ウェブページ同士は類似商品を扱う商品ウェブページであると判定する。なお、類似商品を扱う商品ウェブページであると判定された商品ウェブページのうち、さらに類似度が高い場合、同一の商品を扱う商品ウェブページであると判定してもよい。このように商品ウェブページ分析サーバ10のシステム制御部14は、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段の一例として機能する。   Next, the product web page analysis server 10 determines the similarity of the product web page based on the similarity (step S8). Specifically, the system control unit 14 of the product web page analysis server 10 determines that a product web page that handles similar products between the target product web pages when the similarity calculated by the similarity calculation subroutine is equal to or greater than a predetermined value. Judged to be a page. In addition, you may determine with it being a product web page which handles the same goods, when a similarity is still higher among the product web pages determined to be a product web page which handles similar products. As described above, the system control unit 14 of the product web page analysis server 10 determines that the first product web page and the second product web page are product web pages that handle similar products when the similarity is equal to or greater than a predetermined value. It functions as an example of similar product determination means that determines that there is a product.

商品ウェブページの類似性の判定を利用して、同一の商品や類似の商品を扱う商品ウェブページを集め、ユーザ端末45を通して、ユーザが閲覧できるように、商品ウェブページのデータベースを構築する。例えば、ウェブページに、ある商品に対するGUI(Graphical User Interface)のボタン等を設け、ユーザがクリックすることにより、同一の商品や類似の商品を扱う商品ウェブページの一覧が見られるようにする。   Using the determination of the similarity of the product web pages, product web pages that handle the same product or similar products are collected, and a product web page database is constructed so that the user can browse through the user terminal 45. For example, a GUI (Graphical User Interface) button or the like for a certain product is provided on the web page, and when the user clicks, a list of product web pages that handle the same product or similar products can be viewed.

(3.2.特徴語に基づく類似度の算出)
次に、特徴語に基づく類似度の算出のサブルーチンについて、図12を用いて説明する。
(3.2. Calculation of similarity based on feature words)
Next, a subroutine for calculating similarity based on feature words will be described with reference to FIG.

図12に示すように、商品ウェブページ分析サーバ10は、各特徴語のIDF値を算出する(ステップS10)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各特徴語に対して、下記の式(1)に示すようなIDF(Inverse Document Frequency(逆出現頻度))の値を、算出する。
IDF=log(N/N) ・・・(1)
As shown in FIG. 12, the product web page analysis server 10 calculates the IDF value of each feature word (step S10). Specifically, the system control unit 14 of the product web page analysis server 10 sets a value of IDF (Inverse Document Frequency) as shown in the following formula (1) for each feature word, calculate.
IDF w = log (N / N w ) (1)

ここで、IDFは特徴語wのIDF値であり、Nはあるショッピングサイトの全ウェブページ数であり、Nは前記ショッピングサイトにおいて特徴語wが出現するウェブページ数である。特徴語wのウェブページ数Nの値が小さいほどIDFの値が大きくなり、特徴語wは商品を扱う商品ウェブページに特有な語句である可能性が高くなる。なお、IDF値を算出するためのウェブページの範囲は、検索エンジンがクローリングしたページ数でもよいし、ある国のウェブページや、ある国の複数のショッピングサイトのウェブページや、対象としているカテゴリにおける上位のカテゴリのウェブページ等でもよい。 Here, IDF w is the IDF value of the feature word w, N is the total number of web pages of a certain shopping site, and N w is the number of web pages in which the feature word w appears in the shopping site. As the value of the number of web pages N w of the feature word w is smaller, the value of the IDF w is larger, and the feature word w is more likely to be a phrase unique to a product web page that handles products. The web page range for calculating the IDF value may be the number of pages crawled by a search engine, a web page in a certain country, a web page of a plurality of shopping sites in a certain country, or a target category. It may be a web page of a higher category.

次に、商品ウェブページ分析サーバ10は、IDF値に基づく類似度を算出する(ステップS11)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、下記の式(2)に示すように、ステップS10で算出したIDF値に基づき、第1の商品ウェブページと第2の商品ウェブページとの類似度S12を算出する。
12=[Σc∈C12(IDFc)]/[Σu∈U12(IDFu)]・・・(2)
Next, the product web page analysis server 10 calculates a similarity based on the IDF value (step S11). Specifically, the system control unit 14 of the product web page analysis server 10 performs the first product web page and the second product based on the IDF value calculated in step S10 as shown in the following equation (2). and calculates the degree of similarity S 12 of the web page.
S 12 = [ΣcεC 12 (IDFc)] / [ΣuεU 12 (IDFu)] (2)

ここで、集合U12は、第1の商品ウェブページの特徴語と第2の商品ウェブページの特徴語とを合わせた集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との和集合である。集合C12は、第1の商品ウェブページと第2の商品ウェブページとの共通の特徴語の集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との積集合である。また、式(2)の分母は、集合U12の要素uである特徴語のIDF値の和であり、式(2)の分子は、集合C12の要素cである共通の特徴語のIDF値の和である。式(2)に示すように、第1の商品ウェブページと第2の商品ウェブページとにおいて、共通の特徴語があればあるほど、類似度S12が高くなり、また、その特徴語のIDF値が高いほど、類似度S12が高くなる。 Here, the set U 12 is a set in which the feature words of the first product web page and the feature words of the second product web page are combined. That is, it is the union of the set of feature words of the first product web page and the set of feature words of the second product web page. Set C 12 is a set of common feature words of the first items web page and the second of the product web page. That is, a product set of a set of feature words of the first product web page and a set of feature words of the second product web page. Further, the denominator of Expression (2) is the sum of the IDF values of the feature words that are the elements u of the set U 12 , and the numerator of Expression (2) is the IDF of the common feature words that are the elements c of the set C 12. It is the sum of values. As shown in the equation (2), the more common feature words are in the first product web page and the second product web page, the higher the similarity S 12 is, and the IDF of the feature words the higher the value, the similarity S 12 is high.

このように商品ウェブページ分析サーバ10のシステム制御部14は、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する類似度算出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する類似度算出手段の一例として機能する。   In this way, the system control unit 14 of the product web page analysis server 10 functions as an example of a similarity calculation unit that calculates the similarity based on the feature words common to the first product web page and the second product web page. To do. In addition, the system control unit 14 of the product web page analysis server 10 is an example of a similarity calculation unit that calculates the similarity based on the reverse appearance frequency of a common feature word in the first product web page and the second product web page. Function as.

この式(2)の類似度に基づき、ステップS8において、商品ウェブページ分析サーバ10が、商品ウェブページの類似性の判定を行う。   Based on the similarity of the formula (2), the product web page analysis server 10 determines the similarity of the product web page in step S8.

以上、本実施形態によれば、商品を分類するカテゴリに関連するカテゴリ関連語をカテゴリ関連語DB12aに記憶し、第1の商品ウェブページおよび第2の商品ウェブページを取得し、各商品ウェブページ50内に記述されているテキスト部51、52、53等のテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果ページ60を取得し、検索結果ページのスニペット部62のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出し、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定することにより、商品ウェブページの商品の類似性を求めて、例えば、同一商品の商品ウェブページをまとめ上げることができるため、ユーザの利便性の向上を図ることができる。   As mentioned above, according to this embodiment, the category related word relevant to the category which classifies goods is memorized in category related word DB12a, the 1st goods web page and the 2nd goods web page are acquired, and each goods web page 50, linguistically analyze text data such as text portions 51, 52, 53 described in 50, extract feature word candidates of each product web page, create a search query using the feature word candidates as search keywords, and search The search result page 60 based on the query is acquired, it is determined whether or not a category related word exists in the snippet of the snippet part 62 of the search result page, and a feature word candidate when the category related word exists in the snippet is determined. Determine the feature word of each product web page, and calculate the similarity between the first product web page and the second product web page based on the feature word When the similarity is equal to or higher than a predetermined value, the similarity between the products on the product web page is determined by determining that the first product web page and the second product web page are product web pages that handle similar products. For example, since the product web pages of the same product can be collected together, the convenience of the user can be improved.

また、本実施形態によれば、特徴語候補を絞る際、ウェブ検索により求まるスニペットを使用することにより、インターネット上における語句の使用状況を反映でき、高精度の特徴語を抽出することができる。さらに、スニペットに限ることにより、高速に特徴語を求めることができる。さらにまた、ウェブ検索のスニペットを使用することにより、商品等のトレンドが変化してもトレンドに追随でき、適切な特徴語が求められ、商品ウェブページであるとの判定が適切にできる。   Further, according to the present embodiment, when narrowing down feature word candidates, the use status of words on the Internet can be reflected by using a snippet obtained by web search, and a highly accurate feature word can be extracted. Furthermore, feature words can be obtained at high speed by limiting to snippets. Furthermore, by using a web search snippet, even if the trend of a product or the like changes, it can follow the trend, an appropriate feature word is obtained, and it can be appropriately determined that the product is a product web page.

また、商品ウェブページ分析サーバ10のシステム制御部14が、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する場合、共通の特徴語により的確に類似度を算出できる。   In addition, when the system control unit 14 of the product web page analysis server 10 calculates the similarity based on the common feature word in the first product web page and the second product web page, the common feature word is more accurately used. Similarity can be calculated.

また、商品ウェブページ分析サーバ10のシステム制御部14が、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する場合、特徴語の逆出現頻度により、特徴語のランク付けができるため、類似性の判断がしやすくなる。   Further, when the system control unit 14 of the product web page analysis server 10 calculates the similarity based on the reverse appearance frequency of the feature words common to the first product web page and the second product web page, the reverse of the feature words Since the feature words can be ranked based on the appearance frequency, similarity can be easily determined.

また、商品ウェブページ分析サーバ10のシステム制御部14が、カテゴリ関連語DB(カテゴリ関連語記憶手段)12aを参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する場合、商品を販売するために商品の説明がなされている商品ウェブページを多く有するショッピングサイトに絞るため、商品を適切に特徴付ける特徴語を抽出でき、特徴語の精度が高くなる。   Further, the system control unit 14 of the product web page analysis server 10 refers to the category related word DB (category related word storage means) 12a, and in the search result, whether or not a category related word exists in the snippet of the shopping site. In the case of determining whether or not, a feature word that appropriately characterizes the product can be extracted and the accuracy of the feature word can be improved because the product is narrowed down to a shopping site having many product web pages in which the product is described in order to sell the product.

また、商品ウェブページ分析サーバ10のシステム制御部14が、テキストデータを形態素解析して得られた形態素から、ノイズの形態素を除去する場合、的確な特徴語候補を抽出できるため、特徴語の精度が高くなる。   In addition, when the system control unit 14 of the product web page analysis server 10 removes noise morphemes from morphemes obtained by morphological analysis of text data, accurate feature word candidates can be extracted. Becomes higher.

なお、検索サーバ30は、サーバシステム5外である他の検索サイトの検索サーバでもよい。この場合、商品ウェブページ分析サーバ10は、ネットワーク3を通して、検索クエリを送信し、検索結果を受信する。また、スニペットを求める際のウェブ検索する範囲は、ショッピングサーバ20内のウェブページに限ったり、ある国や地域のウェブページに限ったりしてもよい。   The search server 30 may be a search server of another search site outside the server system 5. In this case, the product web page analysis server 10 transmits a search query and receives a search result through the network 3. Moreover, the web search range for obtaining a snippet may be limited to a web page in the shopping server 20 or may be limited to a web page in a certain country or region.

さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。   Furthermore, the present invention is not limited to the above embodiments. Each of the above embodiments is an exemplification, and any configuration that has substantially the same configuration as the technical idea described in the claims of the present invention and has the same operational effects can be used. It is included in the technical scope of the present invention.

3:ネットワーク
5:サーバシステム
10:商品ウェブページ分析サーバ(商品ウェブページ分析装置)
12a:カテゴリ関連語DB(カテゴリ関連語記憶手段)
12b:ドメイン名DB
20:ショッピングサーバ
30:検索サーバ
3: Network 5: Server system 10: Product web page analysis server (product web page analysis device)
12a: Category related word DB (category related word storage means)
12b: Domain name DB
20: Shopping server 30: Search server

Claims (7)

商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段と、
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段と、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段と、
を備えたことを特徴とする商品ウェブページ分析装置。
Category-related word storage means for storing category-related words related to categories for classifying products;
Product web page acquisition means for acquiring a first product web page and a second product web page;
Text data extraction means for extracting text data described in each product web page;
Linguistic analysis of the extracted text data, and feature word candidate extraction means for extracting feature word candidates of each product web page;
A search result acquisition means for creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
Search result determination means for referring to the category related word storage means to determine whether or not the category related word is present in the snippet of the search results;
Feature word determination means for determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
Similarity calculation means for calculating the similarity between the first product web page and the second product web page based on the feature word;
When the similarity is equal to or greater than a predetermined value, the similar product determination unit that determines that the first product web page and the second product web page are product web pages that handle similar products;
A product web page analyzing apparatus comprising:
請求項1に記載の商品ウェブページ分析装置において、
前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする商品ウェブページ分析装置。
The product web page analyzing apparatus according to claim 1,
The product web page analyzing apparatus, wherein the similarity calculating unit calculates the similarity based on the feature word common to the first product web page and the second product web page.
請求項2に記載の商品ウェブページ分析装置において、
前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする商品ウェブページ分析装置。
The product web page analyzing apparatus according to claim 2,
The product web page analyzing apparatus, wherein the similarity calculating unit calculates the similarity based on a reverse appearance frequency of the feature word common to the first product web page and the second product web page.
請求項1から請求項3のいずれか1項に記載の商品ウェブページ分析装置において、
ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、
前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする商品ウェブページ分析装置。
In the goods web page analysis device according to any one of claims 1 to 3,
A domain name storage means for storing the domain name of the shopping site;
The search result determining means refers to the category related word storage means and the domain name storage means to determine whether or not the category related word exists in a snippet of a shopping site in the search result. Product web page analysis device.
請求項1から請求項4のいずれか1項に記載の商品ウェブページ分析装置において、
前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする商品ウェブページ分析装置。
In the goods web page analysis device according to any one of claims 1 to 4,
The product web page analyzing apparatus, wherein the feature word candidate extracting means includes noise removing means for removing noise morphemes from morphemes obtained by linguistic analysis of the text data by morphological analysis.
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶ステップと、
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、
前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出ステップと、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定ステップと、
を有することを特徴とする商品ウェブページ分析方法。
A category-related word storage step for storing a category-related word related to a category for classifying products;
Product web page acquisition means for acquiring a first product web page and a second product web page;
A text data extraction step for extracting text data described in each of the product web pages;
A linguistic analysis of the extracted text data, and a feature word candidate extraction step of extracting feature word candidates of each product web page;
A search result acquisition step of creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
A search result determination step for determining whether or not the category-related word is present in the search result snippet;
A feature word determination step of determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
A similarity calculation step of calculating a similarity between the first product web page and the second product web page based on the feature word;
A similar product determination step for determining that the first product web page and the second product web page are product web pages that handle similar products when the similarity is equal to or greater than a predetermined value;
A method for analyzing a product web page, comprising:
コンピュータを、
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段、および、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段として機能させることを特徴とする商品ウェブページ分析装置用のプログラム。
Computer
Category-related word storage means for storing category-related words related to categories for classifying products;
Product web page acquisition means for acquiring the first product web page and the second product web page;
Text data extraction means for extracting text data described in each product web page;
Linguistic analysis of the extracted text data and feature word candidate extraction means for extracting feature word candidates of each product web page;
A search result acquisition means for creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
Search result determination means for determining whether or not the category related word exists in the snippet of the search result with reference to the category related word storage means,
Feature word determination means for determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
Similarity calculating means for calculating the similarity between the first product web page and the second product web page based on the feature word; and
When the similarity is greater than or equal to a predetermined value, the first product web page and the second product web page function as a similar product determination unit that determines that the product web page handles similar products. A program for a product web page analyzer.
JP2010043388A 2010-02-26 2010-02-26 Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer Pending JP2013101415A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010043388A JP2013101415A (en) 2010-02-26 2010-02-26 Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer
PCT/JP2011/054509 WO2011105605A1 (en) 2010-02-26 2011-02-28 Information processing device, information processing method, program for information processing device, and recording medium
PCT/JP2011/054507 WO2011105604A1 (en) 2010-02-26 2011-02-28 Information processing device, information processing method, program for information processing device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010043388A JP2013101415A (en) 2010-02-26 2010-02-26 Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer

Publications (1)

Publication Number Publication Date
JP2013101415A true JP2013101415A (en) 2013-05-23

Family

ID=48621998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010043388A Pending JP2013101415A (en) 2010-02-26 2010-02-26 Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer

Country Status (1)

Country Link
JP (1) JP2013101415A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5887031B1 (en) * 2015-05-29 2016-03-16 楽天株式会社 Product identification device, product identification method, and product identification program
CN116932964A (en) * 2023-09-11 2023-10-24 中国人民解放军国防科技大学 Web application API (application program interface) mining method and system based on page state similarity analysis

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5887031B1 (en) * 2015-05-29 2016-03-16 楽天株式会社 Product identification device, product identification method, and product identification program
WO2016194062A1 (en) * 2015-05-29 2016-12-08 楽天株式会社 Product identification device, product identification method, and product identification program
CN116932964A (en) * 2023-09-11 2023-10-24 中国人民解放军国防科技大学 Web application API (application program interface) mining method and system based on page state similarity analysis
CN116932964B (en) * 2023-09-11 2023-11-24 中国人民解放军国防科技大学 Web application API (application program interface) mining method and system based on page state similarity analysis

Similar Documents

Publication Publication Date Title
JP5396533B2 (en) Information processing apparatus, information processing method, and program for information processing apparatus
CN102822815B (en) For the method and system utilizing browser history to carry out action suggestion
JP6433614B1 (en) Chatbot search system and program
EP2778959B1 (en) Information processing device, information processing method, and information processing program
CN107016020A (en) The system and method for aiding in searching request using vertical suggestion
US9697282B2 (en) Search apparatus, search method, search program, and recording medium
WO2004099901A2 (en) Concept network
JP5340491B2 (en) Related word registration device, information processing device, related word registration method, program for related word registration device, recording medium, and related word registration system
JP2013531289A (en) Use of model information group in search
KR100434902B1 (en) Knowledge base custom made information offer system and service method thereof
US8121970B1 (en) Method for identifying primary product objects
JP2002245061A (en) Keyword extraction
JP2013101416A (en) Retrieval device, retrieval method, and program for retrieval device
KR20080088391A (en) Information processing device, information processing method and information processing program
KR20190055963A (en) Goods exposure system in online shopping mall with keyword analyzing
KR20140133633A (en) Goods exposure system in online shopping mall with keyword analyzing and managing method thereof
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
KR20100046421A (en) Method and server for estimating preference of commodity
JP2013101415A (en) Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer
JP5315485B1 (en) Information processing apparatus, information processing method, and information processing program
JP2007207202A (en) Information providing system using web log
WO2011105604A1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP6894875B2 (en) Brand dictionary creation device, product evaluation device, brand dictionary creation method and program.
JP2001229171A (en) Article retrieval system
KR100312430B1 (en) System for learning information of goods in internet shopping malls and method using the same