JP5887031B1 - Product identification device, product identification method, and product identification program - Google Patents

Product identification device, product identification method, and product identification program Download PDF

Info

Publication number
JP5887031B1
JP5887031B1 JP2015548519A JP2015548519A JP5887031B1 JP 5887031 B1 JP5887031 B1 JP 5887031B1 JP 2015548519 A JP2015548519 A JP 2015548519A JP 2015548519 A JP2015548519 A JP 2015548519A JP 5887031 B1 JP5887031 B1 JP 5887031B1
Authority
JP
Japan
Prior art keywords
product
product page
page
tokens
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015548519A
Other languages
Japanese (ja)
Other versions
JPWO2016194062A1 (en
Inventor
ファム タン タオ グェン
ファム タン タオ グェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP5887031B1 publication Critical patent/JP5887031B1/en
Publication of JPWO2016194062A1 publication Critical patent/JPWO2016194062A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

商品特定装置は、処理対象の商品ページを取得する商品ページ取得手段であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得手段と、少なくとも一つの予め設定された商品名を取得する取得手段であって、商品名は、トークンを1以上含む商品名取得手段と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、推定手段により推定された特徴が、トークン数が所定の程度より少ないことを示す場合にはかかる場合に好適な第1の処理を実行し、推定された特徴が、トークン数が所定の程度以上であることを示す場合にはかかる場合に好適な第2の処理を実行する実行手段と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定手段と、を備える。The product specifying device is a product page acquisition unit that acquires a product page to be processed, and the product page includes text representing the product related to the product page and can be divided into tokens including one or more characters. A product page acquisition means including a page title, and an acquisition means for acquiring at least one preset product name, wherein the product name includes a product name acquisition means including one or more tokens, and a product page title of the product page If the estimation means for estimating the feature relating to the number of tokens included in the feature and the feature estimated by the estimation means indicate that the number of tokens is less than a predetermined level, the first processing suitable for such a case is executed, When the estimated feature indicates that the number of tokens is equal to or greater than a predetermined level, execution means for executing a second process suitable for such a case, Comprising processing or in accordance with the calculated scores by the second processing, a specifying means for specifying a product name identity with product pages and product.

Description

本発明は、商品特定装置、商品特定方法及び商品特定プログラムに関する。   The present invention relates to a product specifying device, a product specifying method, and a product specifying program.

従来、2つのテキストデータの内容の同一性を判断する技術が知られている。例えば、特許文献1には、一方のテキストデータを他方のテキストデータに一致させるための変換操作に着目して2つのテキストデータの同一性判断する技術が記載されている。   Conventionally, a technique for determining the identity of two text data contents is known. For example, Patent Document 1 describes a technique for determining the identity of two text data by paying attention to a conversion operation for matching one text data with the other text data.

特開2010−134501号公報JP 2010-134501 A

同一の商品を異なる複数の店舗が販売しうる電子商取引サイトでは、同一の商品同士を関連付ける必要が生じることがある。例えば、ある商品の商品ページと同一の商品の商品ページとを関連付けて表示させたり、検索または指定された商品と同一の商品を示す商品ページのサムネイルを一つのページに含ませて表示させたりする。このように、同一の商品同士を関連付けるには、複数の店舗間で共通となる商品コードがあれば容易である。
しかし共通となる商品コードが関連付けられていない商品がある場合には、正式な商品名リストと商品ページで扱う商品名とを照合する必要がある。一方、電子商取引サイトにおける商品ページには、検索エンジンによる検索結果において上位に表示されるようにする、いわゆるSEO(Search Engine Optimization)対策のために、様々な語が含まれている場合がある。電子商取引サイトの商品ページが示す商品名と正式な商品名との同一性を判断するために、SEO対策のための語(いわゆるスパムワード)を、辞書を用いることで同一性判断処理において不要な語を除外することが考えられる。しかしながら、商品ページにスパムワードではない語が多数含まれている場合には、同一性判断に不要な語を十分に除外できず、正式な商品名と同一であると判断されるべき商品ページが、同一であると判断されない場合があった。
In an electronic commerce site where different stores can sell the same product, the same product may need to be associated with each other. For example, a product page of a product and a product page of the same product are displayed in association with each other, or a thumbnail of a product page indicating the same product as the searched or specified product is included in one page and displayed. . Thus, it is easy to associate the same products with each other if there is a product code that is common among a plurality of stores.
However, if there is a product that is not associated with a common product code, it is necessary to collate the official product name list with the product name handled on the product page. On the other hand, the product page on the electronic commerce site may include various words for so-called SEO (Search Engine Optimization) measures to be displayed at the top in the search results by the search engine. In order to determine the identity of the product name shown on the product page of the electronic commerce site and the official product name, a word for so-called SEO (so-called spam word) is unnecessary in the identity determination process by using a dictionary. It is possible to exclude words. However, if a product page contains many words that are not spam words, it is not possible to sufficiently exclude words that are not necessary for identity determination, and there is a product page that should be judged to be the same as the official product name. In some cases, it was not determined to be the same.

そこで本発明は、商品ページが示す商品名と正式な商品名との同一性をより精度良く判断することを目的とする。   Therefore, an object of the present invention is to more accurately determine the identity between the product name indicated on the product page and the official product name.

上記課題を解決するために、本発明の一形態に係る商品特定装置は、処理対象の商品ページを取得する商品ページ取得手段であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得手段と、少なくとも一つの予め設定された商品名を取得する商品名取得手段であって、商品名は、1以上の文字からなるトークンを1以上含む商品名取得手段と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、推定手段により推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行手段であって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行手段と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定手段と、を備える。   In order to solve the above-described problem, a product specifying device according to an aspect of the present invention is a product page acquisition unit that acquires a product page to be processed, and the product page is based on text representing a product related to the product page. A product page acquisition means including a product page title that can be divided into one or more tokens, and a product name acquisition means for acquiring at least one preset product name, wherein the product name is one or more Product name acquisition means including one or more tokens made up of characters, estimation means for estimating the characteristics relating to the number of tokens included in the product page title of the product page, and the characteristics estimated by the estimation means, The first process is executed when it indicates that the number is low, and the second process is executed when the feature indicates that the number of tokens is equal to or greater than a predetermined level. The first processing is a first process in which the ratio of the other of the token included in the product name and the token included in the product page title is compared with the product indicated by the product name and the product related to the product page. The second process calculates a ratio in which one of the token included in the product name and the token included in the product page title is included in the other as a score indicating the identity. , An executing means, and a specifying means for specifying a product name having the same identity as the product page and the product according to the score calculated by the first process or the second process.

本発明の一形態に係る商品特定方法は、商品特定装置における商品特定方法であって、処理対象の商品ページを取得する商品ページ取得ステップであって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得ステップと、少なくとも一つの予め設定された商品名を取得する商品名取得ステップであって、商品名は、1以上の文字からなるトークンを1以上含む、商品名取得ステップと、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定ステップと、推定ステップにおいて推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行ステップであって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行ステップと、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定ステップと、を有する。   A product specifying method according to an aspect of the present invention is a product specifying method in a product specifying device, and is a product page acquiring step of acquiring a product page to be processed, wherein the product page is a product page related to the product page. A product page acquisition step including a product page title that includes a product page title that is composed of a text representing and can be divided into one or more tokens, and a product name acquisition step of acquiring at least one preset product name, wherein the product name is: A product name acquisition step including one or more tokens including one or more characters, an estimation step for estimating a feature related to the number of tokens included in the product page title of the product page, and a feature estimated in the estimation step is the number of tokens If it indicates that the number is less than the predetermined level, the first process is executed, and the feature is that the number of tokens is equal to or higher than the predetermined level. The execution step of executing the second process in the case of indicating that there is a ratio, wherein the first process is a ratio of the other match to one of the token included in the product name and the token included in the product page title. Is calculated as a score indicating the identity between the product indicated by the product name and the product related to the product page, and the second process is such that one of the token included in the product name and the token included in the product page title is the other The product name having the identity of the product page and the product is identified according to the execution step of calculating the ratio included in the score as a score indicating identity and the score calculated by the first process or the second process. Specific steps to be performed.

本発明の一形態に係る商品特定プログラムは、コンピュータに、処理対象の商品ページを取得する商品ページ取得機能であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得機能と、少なくとも一つの予め設定された商品名を取得する商品名取得機能であって、商品名は、1以上の文字からなるトークンを1以上含む商品名取得機能と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定機能と、推定機能により推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行機能であって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行機能と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定機能と、を実現させる。   A product specifying program according to an aspect of the present invention is a product page acquisition function for acquiring a product page to be processed in a computer, and the product page includes text representing the product related to the product page and at least one product page. A product page acquisition function including a product page title that can be divided into tokens, and a product name acquisition function that acquires at least one preset product name, wherein the product name is a token composed of one or more characters. When the product name acquisition function including one or more, the estimation function for estimating the feature regarding the number of tokens included in the product page title of the product page, and the feature estimated by the estimation function indicate that the number of tokens is less than a predetermined level If the feature indicates that the number of tokens is greater than or equal to a predetermined level, execute the second process. In the first process, the ratio of the other of the token included in the product name and the token included in the product page title is matched between the product indicated by the product name and the product related to the product page. Calculate as a score indicating identity, and the second process calculates, as a score indicating identity, a ratio in which one of the token included in the product name and the token included in the product page title is included in the other. The execution function and a specific function for specifying a product name having the same product as the product page are realized according to the score calculated by the first process or the second process.

上記の形態によれば、商品ページの商品ページタイトルに含まれるトークン数に関する特徴が推定され、推定された特徴に応じて、第1の処理または第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する処理が実行される。第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。推定されたトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理が実行され、トークン数が所定の程度以上であることを示す場合には第2の処理が実行されるので、処理対象の商品ページに応じて、同一性が適切に反映されたスコアが算出される。そして、同一性が適切に反映されたスコアが用いられるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。   According to said form, the characteristic regarding the token number contained in the merchandise page title of a merchandise page is estimated, and the goods and goods which a merchandise name shows by 1st process or 2nd process according to the estimated characteristic. A process of calculating a score indicating the identity with the product related to the page is executed. The first process is a process in which, when the number of tokens included in the product page title is small, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. On the other hand, the second process is a process in which, when the number of tokens included in the product page title is large, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. . The first process is performed when the characteristic regarding the estimated number of tokens indicates that the number of tokens is less than a predetermined level, and the second process is performed when the number of tokens indicates that the number of tokens is equal to or greater than the predetermined level. Is executed, a score that appropriately reflects the identity is calculated according to the product page to be processed. Since the score appropriately reflecting the identity is used, it is possible to specify the product name having the same identity as the product page with high accuracy.

別の形態に係る商品特定装置では、商品名取得手段は、処理対象の商品ページに係る商品を扱う店舗以外の者により予め設定された商品名を取得し、推定手段は、店舗によって入力された1以上の商品ページの特徴に応じて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する。   In the product identification device according to another aspect, the product name acquisition unit acquires a product name preset by a person other than the store handling the product related to the processing target product page, and the estimation unit is input by the store According to the feature of one or more product pages, the feature related to the token number of the product page title of the product page to be processed is estimated.

上記形態において、店舗以外の者により予め設定された商品名が取得されるので、商品ページとの同一性の判断に好適な商品名が取得される。また、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴の推定に用いられる商品ページは、当該商品ページに係る商品を扱う店舗によって入力された商品ページであって、処理対象の商品ページを含むと共に処理対象の商品ページに限定されない商品ページである。このような商品ページは、処理対象の商品ページのトークン数に関する特徴の推定に好適であるので、トークン数に関する特徴が精度良く推定される。   In the said form, since the goods name preset by persons other than a store is acquired, the goods name suitable for judgment of the identity with a goods page is acquired. In addition, the product page used for estimating the characteristics related to the number of tokens of the product page title of the product page to be processed is a product page input by a store handling the product related to the product page, and the product page to be processed is This is a product page that is included and is not limited to the product page to be processed. Since such a product page is suitable for estimating a feature related to the number of tokens of a product page to be processed, a feature related to the number of tokens is estimated with high accuracy.

さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。   In the product identification device according to yet another aspect, the estimation unit is configured to determine the product page of the product page to be processed based on the amount of data constituting the product page input by the store handling the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of a title.

処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に反映される。上記形態によれば、かかるデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。   The characteristic regarding the token number of the product page title of the product page to be processed is reflected in the data amount constituting the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature regarding the token number of the product page title of the product page to be processed is estimated based on the data amount, the reliability of the estimated feature is improved.

さらに別の形態に係る商品特定装置では、上記形態において、推定手段は、データ量が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、データ量が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。   In the product identification device according to another aspect, in the above aspect, the estimation unit may determine that the number of tokens of the product page title of the product page to be processed is equal to or greater than a predetermined level when the data amount is equal to or greater than the predetermined amount. If the estimated amount of data is less than a predetermined amount, it may be estimated that the number of tokens of the product page title of the product page to be processed is less than a predetermined level.

上記形態によれば、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が適切に推定される。   According to the said form, the characteristic regarding the token number of the goods page title of the goods page to be processed is estimated appropriately.

さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。   In the product identification device according to another aspect, the estimation unit is configured to determine the product page of the product page to be processed based on the number of words of the text that configures the product page input by the store handling the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of a title.

処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に反映される。上記形態によれば、かかる語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。   The feature related to the token number of the product page title of the product page to be processed is reflected in the number of text words constituting the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature related to the token number of the product page title of the product page to be processed is estimated based on the number of words, the reliability of the estimated feature is improved.

さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。   In the product identification device according to another aspect, the estimation unit is configured to process the product page to be processed based on the token number of the product page title included in the product page input by the store that handles the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of the product page title.

処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページの商品ページタイトルに含まれるトークン数に反映される。上記形態によれば、かかるトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。   The feature regarding the number of tokens of the product page title of the product page to be processed is reflected in the number of tokens included in the product page title of the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature related to the token number of the product page title of the product page to be processed is estimated based on the number of tokens, the reliability of the estimated feature is improved.

さらに別の形態に係る商品特定装置では、推定手段は、商品名取得手段により取得された商品名に含まれるトークン数に対する、処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合が所定割合以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より多いと推定し、割合が所定割合未満である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。   In the product identification device according to another aspect, the estimation unit has a predetermined ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product name acquisition unit. If the percentage is greater than or equal to the percentage, the number of tokens in the product page title of the product page to be processed is estimated to be greater than the predetermined level, and if the percentage is less than the predetermined percentage, the token of the product page title of the product page to be processed It may be estimated that the number is less than a predetermined level.

上記形態によれば、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が直接的に反映された、商品名に含まれるトークン数に対する処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合に基づいて、該トークン数に関する特徴が推定されるので、推定された特徴の信頼性を向上させることができる。   According to the above embodiment, the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name, which directly reflects the characteristics related to the number of tokens of the product page title of the product page to be processed. Since the feature related to the number of tokens is estimated based on the ratio of, the reliability of the estimated feature can be improved.

さらに別の形態に係る商品特定装置では、商品名取得手段は、処理対象の商品ページに含まれる商品ページタイトルのトークンを少なくとも一つ含む商品名を取得することとしてもよい。   In the product identification device according to another aspect, the product name acquisition unit may acquire a product name including at least one token of a product page title included in the product page to be processed.

上記形態によれば、処理対象の商品ページに含まれる商品ページタイトルのトークンを含む商品名を処理対象とすることにより、処理に用いる商品名の数を限定することができるので、処理負荷が軽減される。   According to the above embodiment, the number of product names used for processing can be limited by setting the product name including the token of the product page title included in the product page to be processed, thereby reducing the processing load. Is done.

本発明の一側面によれば、商品ページが示す商品名と正式な商品名との同一性をより精度良く判断することが可能となる。   According to one aspect of the present invention, it is possible to more accurately determine the identity between the product name indicated on the product page and the official product name.

商品特定装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of a goods specific device. 商品特定装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a goods specific device. 商品名記憶部に記憶されたデータの例を示す図である。It is a figure which shows the example of the data memorize | stored in the merchandise name memory | storage part. 商品ページの例を示す図である。It is a figure which shows the example of a goods page. 商品ページの商品ページタイトルを分割して得られた複数のトークンの例を示す図である。It is a figure which shows the example of the some token obtained by dividing | segmenting the product page title of a product page. 処理に用いるために取得した商品名の例を示す図である。It is a figure which shows the example of the brand name acquired in order to use for a process. 図5に示す商品ページタイトルについて算出された、各商品名との同一性を示すスコアを示す図である。It is a figure which shows the score which shows the identity with each goods name calculated about the goods page title shown in FIG. 商品ページの商品ページタイトルを分割して得られた複数のトークンの例を示す図である。It is a figure which shows the example of the some token obtained by dividing | segmenting the product page title of a product page. 図8に示す商品ページタイトルについて算出された、各商品名との同一性を示すスコアを示す図である。It is a figure which shows the score which shows the identity with each goods name calculated about the goods page title shown in FIG. 商品特定装置において実施される商品特定方法の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the goods specific method implemented in a goods specific device. 商品特定プログラムの構成を示す図である。It is a figure which shows the structure of a goods specific program.

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and redundant description is omitted.

図1は、本実施形態に係る商品特定装置1の機能的構成を示すブロック図である。商品特定装置1は、商品ページと商品の同一性を有する商品名を特定する装置である。商品ページは、例えば、電子商取引サイトにおいて商品を提示するウェブページであって、商品ページタイトルを含む。   FIG. 1 is a block diagram showing a functional configuration of a product identification device 1 according to the present embodiment. The product specifying device 1 is a device for specifying a product name having the same product item as the product page. The product page is, for example, a web page that presents a product on an electronic commerce site, and includes a product page title.

具体的には、商品特定装置1は、処理対象の商品ページに含まれる商品ページタイトルと、予め設定された正式な商品名との同一性を判断する。これにより、商品ページタイトルと同一性を有すると判断された正式な商品名が、商品ページと商品の同一性を有する商品名として特定される。即ち、当該商品ページが示す商品と、特定された商品名が示す商品とは同一である。   Specifically, the product identification device 1 determines the identity of a product page title included in the product page to be processed and a preset official product name. Thereby, the official product name determined to have the same identity as the product page title is specified as the product name having the same identity as the product page and the product. That is, the product indicated by the product page is the same as the product indicated by the specified product name.

商品ページに含まれる商品ページタイトルは、当該商品ページに係る商品を表すテキストからなる。具体的には、商品ページタイトルは、商品を扱う店舗により設定された、当該商品を表すテキストを含むので、そのテキストは当該商品の商品名を含む場合がある。従って、商品ページタイトルは、正式な商品名を示す語及びそれ以外の語も含む場合がある。また、商品ページタイトルは、例えば、正式な商品名を表す語以外に、SEO対策のための様々な語を含む場合がある。このように、様々な語を含む商品ページタイトルは、トークナイズ(分かち書き)することにより、トークンに分割可能である。   The product page title included in the product page includes text representing the product related to the product page. Specifically, since the product page title includes text representing the product set by the store that handles the product, the text may include the product name of the product. Therefore, the product page title may include a word indicating an official product name and other words. In addition, the product page title may include various words for SEO countermeasures in addition to the word representing the official product name, for example. In this way, the product page title including various words can be divided into tokens by tokenizing (sharing).

このトークンは、例えば、空白を境界とすること等の所定のルールに従って商品ページタイトルを分割することにより得られる。トークンは、1以上の文字からなり、1つの語であってもよいし、意味を有さない文字の集まりであってもよい。   This token is obtained, for example, by dividing the product page title according to a predetermined rule such as a blank as a boundary. The token is composed of one or more characters and may be a single word or a collection of characters having no meaning.

商品名は、上述のとおり、商品について予め設定された正式な名称である。商品名は、1以上のトークンを含んで構成される。従って、商品ページの商品ページタイトルは、当該商品ページが示す商品の正式な商品名に含まれるトークン、及び、正式な商品名に含まれないトークンを含む場合が多い。   As described above, the product name is an official name preset for the product. The product name includes one or more tokens. Accordingly, the product page title of the product page often includes a token included in the official product name of the product indicated by the product page and a token not included in the official product name.

本実施形態の商品特定装置1により、商品ページが示す商品名と同一性を有する正式な商品名を特定することができるので、例えば、電子商取引サイトでは、同一の商品に係る商品ページを精度良く関連付けて表示することができる。例えば、ユーザにより指定された一の商品ページや検索された一の商品ページに関連付けて、同一商品を示す複数の商品ページのサムネイルを一つのページに含ませて表示することが可能となる。   Since the product identification device 1 of the present embodiment can identify the official product name having the same identity as the product name indicated by the product page, for example, in the electronic commerce site, the product page related to the same product is accurately displayed. Can be displayed in association. For example, in association with one product page designated by the user or one product page searched, thumbnails of a plurality of product pages indicating the same product can be included in one page and displayed.

図1に示すように、商品特定装置1は、機能的には、商品ページ取得部11(商品ページ取得手段)、商品名取得部12(商品名取得手段)、推定部13(推定手段)、実行部14(実行手段)及び特定部15(特定手段)を備える。   As shown in FIG. 1, the product identification device 1 functionally includes a product page acquisition unit 11 (product page acquisition unit), a product name acquisition unit 12 (product name acquisition unit), an estimation unit 13 (estimation unit), An execution unit 14 (execution means) and a specification unit 15 (specification means) are provided.

また商品特定装置1は、商品ページ記憶部21及び商品名記憶部22といった記憶手段にアクセス可能である。商品ページ記憶部21及び商品名記憶部22は、商品特定装置1に備えられることとしてもよいし、商品特定装置1からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。   The product identification device 1 can access storage means such as a product page storage unit 21 and a product name storage unit 22. The product page storage unit 21 and the product name storage unit 22 may be provided in the product specifying device 1 or may be configured as an external storage unit provided so as to be accessible from the product specifying device 1.

図2は、商品特定装置1のハードウェア構成図である。商品特定装置1は、物理的には、図2に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、通信制御装置104などを含むコンピュータシステムとして構成されている。商品特定装置1は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置105及びディスプレイ等の出力装置106をさらに含むこととしてもよい。   FIG. 2 is a hardware configuration diagram of the product identification device 1. As shown in FIG. 2, the product identification device 1 physically includes a CPU 101, a main storage device 102 composed of a memory such as a RAM and a ROM, an auxiliary storage device 103 composed of a hard disk, a communication control device 104, and the like. It is comprised as a computer system containing. The product identification device 1 may further include an input device 105 such as a keyboard, a touch panel, and a mouse, which are input devices, and an output device 106 such as a display.

図1に示した各機能は、図2に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信制御装置104等を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。   The functions shown in FIG. 1 operate the communication control device 104 and the like under the control of the CPU 101 by reading predetermined computer software on the hardware such as the CPU 101 and the main storage device 102 shown in FIG. In addition, it is realized by reading and writing data in the main storage device 102 and the auxiliary storage device 103. Data and databases necessary for processing are stored in the main storage device 102 and the auxiliary storage device 103.

再び図2を参照して、商品特定装置1の各機能部の説明に先立って、商品ページ記憶部21及び商品名記憶部22を説明する。商品ページ記憶部21は、商品ページのデータを記憶している記憶手段である。この商品ページは、電子商取引サイトにおいて表示されるページであって、当該電子商取引サイトにおいて商品を販売する一以上の店舗により扱われる商品を表す。   Referring back to FIG. 2, the product page storage unit 21 and the product name storage unit 22 will be described prior to the description of each functional unit of the product identification device 1. The product page storage unit 21 is storage means for storing product page data. This product page is a page displayed on an electronic commerce site, and represents a product handled by one or more stores that sell products on the electronic commerce site.

図3は、商品ページ記憶部21に記憶されているデータに基づき表示される商品ページの例を示す図である。商品ページMは、商品ページタイトルTを含む。商品ページMは、商品画像G及び商品説明Hを更に含んでもよい。商品ページタイトルTは、前述のとおり、当該商品ページに係る商品を表すテキストからなり、正式な商品名を示す語及び正式な商品名以外を示す語も含む。商品ページタイトルTには、商品ページのデータにおいて、例えば、タイトルや見出しであることを示す所定のタグが付されているので、そのタグを検索すること等により、商品ページのデータから商品ページタイトルTを抽出することが可能である。また、商品ページのデータにおいて、フォントサイズが他のテキストより大きいテキストや、太字で表されたテキストを商品ページタイトルTとして抽出することとしてもよい。   FIG. 3 is a diagram illustrating an example of a product page displayed based on data stored in the product page storage unit 21. The product page M includes a product page title T. The product page M may further include a product image G and a product description H. As described above, the product page title T includes text representing the product related to the product page, and includes a word indicating an official product name and a word indicating other than the official product name. The product page title T is attached with a predetermined tag indicating, for example, a title or a heading in the product page data. Therefore, by searching for the tag, the product page title is obtained from the product page data. It is possible to extract T. Further, in the product page data, text having a font size larger than other texts or text expressed in bold may be extracted as the product page title T.

商品名記憶部22は、商品特定装置1が属する電子商取引サイトにおいて扱われている商品の正式な商品名を記憶している記憶手段である。正式な商品名は、当該電子商取引サイト及び電子商取引サイトに属する店舗等の管理者により、予め設定及び登録されることとしてもよい。   The product name storage unit 22 is a storage unit that stores an official product name of a product handled in the electronic commerce site to which the product specifying device 1 belongs. The official product name may be set and registered in advance by an administrator of the electronic commerce site and a store belonging to the electronic commerce site.

図4は、商品名記憶部22に記憶されている商品名の例を示す図である。図4に示すように、商品名記憶部22には、例えば「brandA abc08−bk eco」等の種々の商品名が記憶されている。   FIG. 4 is a diagram illustrating an example of product names stored in the product name storage unit 22. As illustrated in FIG. 4, various product names such as “brandA abc08-bk eco” are stored in the product name storage unit 22.

続いて、商品特定装置1の各機能部を説明する。商品ページ取得部11は、処理対象の商品ページを取得する部分である。商品ページ取得部11により取得される商品ページの例は、図3に示したとおりである。図5は、処理対象の商品ページMから抽出された商品ページタイトルの例を示す図である。即ち、図5に示される商品ページタイトルTは、図3に示される商品ページMに含まれる商品ページタイトルTを抽出して得られたテキストである。商品ページタイトルTは、図5に示すように、複数のトークンt11〜t15に分割可能である。Next, each functional unit of the product identification device 1 will be described. The product page acquisition unit 11 is a part that acquires a product page to be processed. An example of the product page acquired by the product page acquisition unit 11 is as shown in FIG. FIG. 5 is a diagram illustrating an example of the product page title extracted from the product page M to be processed. That is, product page title T 1 shown in FIG. 5 is a text obtained by extracting the product page title T included in the product page M shown in FIG. Product Page Title T 1, as shown in FIG. 5, can be divided into a plurality of tokens t 11 ~t 15.

また、商品ページ取得部11は、処理対象の商品ページに加えて、処理対象の商品ページに係る商品を扱う店舗によって入力された、処理対象の商品ページ以外の商品ページを更に取得できることとしてもよい。具体的には、処理対象の商品ページには、当該商品ページに係る商品を扱う店舗の識別子が関連付けられているので、商品ページ取得部11は、当該店舗の識別子を有する商品ページを商品ページ記憶部21から抽出することができる。   In addition to the product page to be processed, the product page acquisition unit 11 may further acquire product pages other than the product page to be processed, which are input by a store that handles products related to the product page to be processed. . Specifically, since the product page to be processed is associated with the identifier of the store that handles the product related to the product page, the product page acquisition unit 11 stores the product page having the identifier of the store in the product page. It can be extracted from the unit 21.

商品名取得部12は、一以上の商品名を取得する部分である。具体的には、商品名取得部12は、商品名記憶部22に記憶された正式な商品名を取得する。商品名取得部12により取得される商品名は、商品ページに係る商品を扱う店舗によって商品ページタイトルとして設定されるような商品名とは異なり、店舗以外の者により設定された商品名であって、当該電子商取引サイトの管理者等により、商品について予め設定された正式な名称である。また、商品名取得部12により取得される商品名は、1以上のトークンを含んで構成される。   The product name acquisition unit 12 is a part that acquires one or more product names. Specifically, the product name acquisition unit 12 acquires the official product name stored in the product name storage unit 22. The product name acquired by the product name acquisition unit 12 is a product name set by a person other than the store, unlike the product name set as the product page title by the store handling the product related to the product page. The formal name preset for the product by the administrator of the electronic commerce site. The product name acquired by the product name acquisition unit 12 includes one or more tokens.

商品名取得部12は、処理対象の商品ページに含まれる商品ページタイトルのトークンを少なくとも一つ含む商品名を取得することとしてもよい。例えば、商品ページ取得部11により取得された処理対象の商品ページMから、図5に示す商品ページタイトルTが抽出された場合には、商品名取得部12は、トークンt11〜t15のいずれかを含む商品名を、商品名記憶部22から抽出する。図6は、商品名取得部12により商品名記憶部22から取得された、トークンt11〜t15のいずれかを含む商品名n1〜n4を示す図である。The product name acquisition unit 12 may acquire a product name including at least one product page title token included in the product page to be processed. For example, a product page M of the obtained processed by the commodity page acquisition unit 11, if the item page titles T shown in FIG. 5 is extracted, trade name acquisition unit 12, either the token t 11 ~t 15 The product name including the above is extracted from the product name storage unit 22. 6, taken from trade name storage unit 22 by the trade name acquisition unit 12 is a diagram showing the trade name n1~n4 containing either the token t 11 ~t 15.

例えば、商品名n1は、トークンt11「brandA」、t12「abc08−bk」及びt13「eco」を含む。また、商品名n2及び商品名n3は、トークンt11「brandA」を含む。また、商品名n4は、トークンt11「brandA」及びt13「eco」を含む。For example, the product name n1 includes tokens t 11 “brandA”, t 12 “abc08-bk”, and t 13 “eco”. The product name n2 and the product name n3 include a token t 11 “brandA”. The product name n4 includes tokens t 11 “brandA” and t 13 “eco”.

このように、処理対象の商品ページに含まれる商品ページタイトルのトークンを含む商品名を処理対象とすることにより、処理に用いる商品名の数を限定することができるので、処理負荷の軽減が可能となる。   In this way, the number of product names used for processing can be limited by setting the product name including the token of the product page title included in the product page to be processed, so the processing load can be reduced. It becomes.

推定部13は、処理対象の商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する部分である。具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された1以上の商品ページ(処理対象の商品ページには限定されない)の特徴に応じて、当該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する。   The estimation unit 13 is a part that estimates a feature related to the number of tokens included in the product page title of the product page to be processed. Specifically, the estimation unit 13 determines the processing target according to the characteristics of one or more product pages (not limited to the processing target product page) input by a store that handles the products related to the processing target product page. The characteristic regarding the token number of the product page title of the product page is estimated.

前述のとおり、商品ページ取得部11は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページ(処理対象の商品ページ及び処理対象の商品ページ以外の商品ページを含む)を取得できるので、推定部13は、商品ページ取得部11を介して推定処理に用いる商品ページを取得する。   As described above, the product page acquisition unit 11 can acquire a product page (including a product page other than the processing target product page and the processing target product page) input by the store that handles the product related to the processing target product page. Therefore, the estimation unit 13 acquires the product page used for the estimation process via the product page acquisition unit 11.

トークン数に関する特徴は、例えば、トークン数が所定の程度より少ないこと、又は、トークン数が所定の程度以上であることを示すことができる。以下に、推定部13による推定処理を詳細に説明する。   The characteristic regarding the number of tokens can indicate, for example, that the number of tokens is less than a predetermined level, or that the number of tokens is equal to or higher than a predetermined level. Below, the estimation process by the estimation part 13 is demonstrated in detail.

推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。   The estimation unit 13 estimates the characteristics related to the token number of the product page title of the product page to be processed based on the data amount constituting the product page input by the store handling the product related to the product page to be processed. Also good.

処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に反映される。即ち、店舗によって入力された複数の商品ページを構成するデータ量が多いほど、当該店舗の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。   The characteristic regarding the token number of the product page title of the product page to be processed is reflected in the data amount constituting the product page input by the store handling the product related to the product page to be processed. That is, as the amount of data constituting a plurality of product pages input by a store increases, the number of tokens of the product page title of the product page of the store tends to increase.

このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定されたトークン数に関する特徴の信頼性が向上される。   In view of such a trend, the characteristics related to the number of tokens of the product page title of the product page to be processed are estimated based on the data amount constituting the product page input by the store handling the product related to the product page to be processed. Thus, the reliability of the feature related to the estimated number of tokens is improved.

より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページのデータ量が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記のデータ量が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、データ量と所定量の比較において、複数の商品ページのデータ量の平均値や合計値等の統計値を用いることとしてもよい。   More specifically, the estimation unit 13 determines the product page title of the product page to be processed when the data amount of the product page input by the store handling the product related to the product page to be processed is equal to or greater than a predetermined amount. When the number of tokens is estimated to be greater than or equal to a predetermined level and the amount of data is less than the predetermined amount, it is estimated that the number of tokens of the product page title of the product page to be processed is less than the predetermined level. In the comparison between the data amount and the predetermined amount, a statistical value such as an average value or a total value of the data amounts of a plurality of product pages may be used.

また、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。即ち、上記推定処理では、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量を用いたが、このデータ量として、商品ページを構成するテキストの語数を用いることとしてもよい。   In addition, the estimation unit 13 estimates a feature related to the number of tokens of the product page title of the product page to be processed based on the number of words of the text that configures the product page input by the store that handles the product related to the product page to be processed. It is good to do. That is, in the above estimation process, the data amount constituting the product page input by the store handling the product related to the product page to be processed is used, but the number of text words constituting the product page is used as this data amount. It is good.

店舗によって入力された複数の商品ページを構成するテキストの語数が多いほど、当該店舗の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。   As the number of texts constituting the plurality of product pages input by the store increases, the number of tokens of the product page title of the product page of the store tends to increase. In view of such a tendency, based on the number of text words constituting the product page input by the store handling the product related to the product page to be processed, there is a feature regarding the token number of the product page title of the product page to be processed. Since it is estimated, the reliability of the estimated feature is improved.

より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記の語数が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、商品ページを構成する語数と所定量の比較において、複数の商品ページの語数の平均値や合計値等の統計値を用いることとしてもよい。   More specifically, when the number of texts constituting the product page input by the store handling the product related to the product page to be processed is equal to or greater than a predetermined amount, the estimation unit 13 determines the product on the product page to be processed. If the number of tokens in the page title is estimated to be greater than or equal to a predetermined level and the number of words is less than a predetermined amount, it is estimated that the number of tokens in the product page title of the product page to be processed is less than a predetermined level. In the comparison between the number of words constituting the product page and a predetermined amount, a statistical value such as an average value or a total value of the number of words of a plurality of product pages may be used.

また、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。即ち、上記推定処理では、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量又は語数を用いたが、これらに代えて、商品ページに含まれる商品ページタイトルのトークン数を用いることとしてもよい。   In addition, the estimation unit 13 relates to the number of tokens of the product page title of the product page to be processed based on the number of tokens of the product page title included in the product page input by the store handling the product related to the product page to be processed. The feature may be estimated. That is, in the estimation process, the data amount or the number of words constituting the product page input by the store handling the product related to the product page to be processed is used, but instead of these, the product page title of the product page included in the product page is used. The number of tokens may be used.

店舗によって入力された複数の商品ページに含まれる商品ページタイトルのトークン数が多いほど、当該店舗の処理対象の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。   As the number of product page title tokens included in a plurality of product pages input by a store increases, the number of product page title tokens of the product page to be processed in the store tends to increase. In view of such a trend, the number of tokens of the product page title of the product page to be processed based on the number of tokens of the product page title included in the product page input by the store handling the product related to the product page to be processed Therefore, the reliability of the estimated feature is improved.

より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記のトークン数が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、商品ページに含まれる商品ページタイトルのトークン数と所定量の比較において、複数の商品ページにおける商品ページタイトルのトークン数の平均値や合計値等の統計値を用いることとしてもよい。   More specifically, when the number of tokens of the product page title included in the product page input by the store that handles the product related to the product page to be processed is equal to or greater than a predetermined amount, the estimation unit 13 performs the product to be processed. If the number of tokens in the product page title of the page is estimated to be greater than or equal to a predetermined level and the number of tokens is less than the predetermined amount, the number of tokens in the product page title of the product page to be processed is less than the predetermined level Estimated. Note that in the comparison between the number of product page title tokens included in the product page and a predetermined amount, a statistical value such as an average value or total value of the number of product page title tokens in a plurality of product pages may be used.

また、推定部13は、商品名取得部12により取得された商品名に含まれるトークン数に対する、処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合が所定割合以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より多いと推定し、割合が所定割合未満である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。商品名取得部12により取得された商品名が複数である場合には、複数の商品名のうち、例えば、トークン数が最大の商品名を推定に用いることとしてもよい。   In addition, when the ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product name acquisition unit 12 is greater than or equal to a predetermined ratio, the estimation unit 13 If the number of tokens in the product page title of the processing target product page is estimated to be greater than the predetermined level and the ratio is less than the predetermined level, the number of tokens in the product page title of the processing target product page is less than the predetermined level It is good also as estimating. When there are a plurality of product names acquired by the product name acquisition unit 12, for example, a product name having the maximum number of tokens may be used for estimation among the plurality of product names.

商品名に含まれるトークン数に対する処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合といった指標値には、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が直接的に反映される。かかる指標値に基づいて、トークン数に関する特徴が推定されるので、推定された特徴の信頼性を向上させることができる。   The index value such as the ratio of the number of tokens of the product page title included in the processing product page to the number of tokens included in the product name directly reflects the characteristics related to the number of tokens of the product page title of the processing product page. The Since the feature regarding the number of tokens is estimated based on the index value, the reliability of the estimated feature can be improved.

実行部14は、推定部13により推定された商品ページの商品ページタイトルに含まれるトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、当該特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する部分である。   The execution unit 14 executes the first process when the feature related to the number of tokens included in the product page title of the product page estimated by the estimation unit 13 indicates that the number of tokens is less than a predetermined level. When the feature indicates that the number of tokens is equal to or greater than a predetermined level, the second processing is executed.

第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。以下に、第1及び第2の処理を詳細に説明する。   The first process is a process in which, when the number of tokens included in the product page title is small, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. On the other hand, the second process is a process in which, when the number of tokens included in the product page title is large, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. . Hereinafter, the first and second processes will be described in detail.

第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出する処理である。   The first process is a score indicating the identity between the product indicated by the product name and the product related to the product page, with the ratio of the other of the token included in the product name and the token included in the product page title being matched. Is calculated as follows.

第1の処理は、例えば、商品名に含まれるトークンの集合及び処理対象の商品ページの商品ページタイトルに含まれるトークンの集合のJaccard係数をスコアとして算出する処理であってもよい。商品名に含まれるトークンの集合をXとして、商品ページタイトルに含まれるトークンの集合をYとすると、集合X及び集合YのJaccard係数J(X,Y)は、以下のように表される。
J(X,Y)=|X∩Y|/|X∪Y|
The first process may be, for example, a process of calculating a Jaccard coefficient of a set of tokens included in the product name and a set of tokens included in the product page title of the product page to be processed as a score. When the set of tokens included in the product name is X and the set of tokens included in the product page title is Y, the Jaccard coefficient J (X, Y) of the set X and the set Y is expressed as follows.
J (X, Y) = | X∩Y | / | X∪Y |

なお、本実施形態では、第1のスコアとしてJaccard係数を算出することとしているが、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を示す指標値であれば、第1のスコアはJaccard係数には限定されない。   In the present embodiment, the Jaccard coefficient is calculated as the first score, but the index value indicating the ratio of the other match to one of the token included in the product name and the token included in the product page title. If so, the first score is not limited to the Jaccard coefficient.

一方、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出する処理である。   On the other hand, in the second process, the ratio of one of the token included in the product name and the token included in the product page title is included in the other, and the identity between the product indicated by the product name and the product related to the product page is determined. It is a process which calculates as a score to show.

第2の処理は、例えば、商品名に含まれるトークン数及び商品ページタイトルに含まれるトークン数のうちの少ない方のトークン数に対する、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンにおいて共起したトークンの数の割合をスコアとして算出する処理であってもよい。   In the second process, for example, the token included in the product name and the token included in the product page title are shared with respect to the smaller number of tokens included in the product name and the token number included in the product page title. It may be a process of calculating the ratio of the number of tokens that have occurred as a score.

以下に、実行部14における第1及び第2の処理によるスコア算出の例を説明する。図7は、図5に示す処理対象の商品ページの商品ページタイトルTと、図6に示す商品名n1〜n4のそれぞれとの、同一性を示すスコアの第1及び第2の処理による算出結果を示す。図7において、スコアAは、第1の処理により算出されたスコアであり、スコアBは、第2の処理により算出されたスコアである。Below, the example of the score calculation by the 1st and 2nd process in the execution part 14 is demonstrated. 7, calculates a product page title T 1 of the product page to be processed shown in FIG. 5, the respective trade names n1~n4 shown in FIG. 6, according to the first and second processing of scores indicating the identity Results are shown. In FIG. 7, the score A is a score calculated by the first process, and the score B is a score calculated by the second process.

商品ページタイトルTと商品名n1との、第1及び第2の処理によるスコア算出を具体的に説明する。まず、第1の処理によるスコアAの算出を説明する。The product page title T 1 and names n1, specifically described the score calculation by the first and second processing. First, calculation of the score A by the first process will be described.

実行部14は、商品ページタイトルT「brandA abc08−bk eco 空気 清浄機」を、5つのトークンに分割する。分割された5つのトークンは、トークンt11「brandA」、トークンt12「abc08−bk」、トークンt13「eco」、トークンt14「空気」、トークンt15「清浄機」である。一方、商品名n1「brandA abc08−bk eco」は、3つのトークン(「brandA」、「abc08−bk」、「eco」)を含む。The execution unit 14 divides the product page title T 1 “brandA abc08-bk eco air cleaner” into five tokens. The divided five tokens are a token t 11 “brandA”, a token t 12 “abc08-bk”, a token t 13 “eco”, a token t 14 “air”, and a token t 15 “purifier”. On the other hand, the product name n1 “brandA abc08-bk eco” includes three tokens (“brandA”, “abc08-bk”, “eco”).

商品ページタイトルTのトークンの集合をXとし、商品名n1のトークンの集合をYとすると、
|X∩Y|=3
|X∪Y|=5
となるので、商品ページタイトルTと商品名n1との同一性を示すスコアAは、
J(X,Y)=0.6(=3/5)
となる。
A set of tokens of the commodity page title T 1 and X, and the set of tokens of trade names n1 and Y,
| X∩Y | = 3
| X∪Y | = 5
Since a, score A indicating the identity of the commodity page title T 1 and the product name n1 is,
J (X, Y) = 0.6 (= 3/5)
It becomes.

続いて、第2の処理によるスコアBの算出を説明する。商品ページタイトルTのトークン及び商品名n1のトークンにおいて、共起するトークンの数は3である。また、商品ページタイトルTのトークン数及び商品名n1のトークン数のうち、少ない方のトークン数は3である。従って、商品ページタイトルTと商品名n1との同一性を示すスコアBは、1(=3/3)となる。商品ページタイトルTと商品名n2〜n4のそれぞれとの同一性を示すスコアA及びスコアBについても、図7に示されるように、同様に算出される。Subsequently, the calculation of the score B by the second process will be described. In token of goods page title T 1 of the token and product names n1, the number of tokens to the co-occurrence is 3. In addition, of the number of tokens products page title T 1 of the token number and product names n1, lesser number of tokens is 3. Therefore, the score B indicating the identity of the commodity page title T 1 and names n1 is 1 (= 3/3). For even scores A and scores B indicates the identity of the respective commodity page title T 1 and names N2 to N4, as illustrated in FIG. 7, is calculated in the same manner.

図7を参照すると、商品名n1に関するスコアAは、商品名n2〜n4に関するスコアAに比べて顕著に大きい値を示している。一方、商品名n1〜n4に関するスコアBの中には、顕著に大きい値を示すものがない。従って、含まれるトークン数が比較的少ない商品ページタイトルTと各商品名との同一性の判断においては、第2の処理によって算出されたスコアBより、第1の処理によって算出されたスコアAの方が好適である。When FIG. 7 is referred, the score A regarding the brand name n1 has shown the value remarkably large compared with the score A regarding the brand names n2-n4. On the other hand, none of the scores B relating to the product names n1 to n4 show a significantly large value. Thus, in the commodity page title T 1 number of tokens is relatively small contained identity determined with each trade name, from the score B calculated by the second processing, the score A calculated by the first processing Is preferred.

次に、含まれるトークン数が比較的多い商品ページタイトルと商品名との同一性を示すスコアの算出について説明する。図8は、図5に示した商品ページタイトルTより多くのトークンを含む商品ページタイトルTを示す。商品ページタイトルTは、18のトークンに分割可能である。図9は、図8に示す処理対象の商品ページの商品ページタイトルTと、図6に示す商品名n1〜n4のそれぞれとの、同一性を示すスコアの第1及び第2の処理による算出結果を示す。図9において、スコアAは、第1の処理により算出されたスコアであり、スコアBは、第2の処理により算出されたスコアである。Next, calculation of a score indicating the identity between a product page title and a product name having a relatively large number of tokens will be described. Figure 8 shows a product page title T 2 containing a number of tokens from the commodity page title T 1 shown in FIG. Product page title T 2 can be divided into 18 tokens. 9, calculates a product page title T 2 of the product page to be processed shown in FIG. 8, with the respective trade names n1~n4 shown in FIG. 6, according to the first and second processing of scores indicating the identity Results are shown. In FIG. 9, the score A is a score calculated by the first process, and the score B is a score calculated by the second process.

商品ページタイトルTと商品名n1との、第1及び第2の処理によるスコア算出を具体的に説明する。まず、第1の処理によるスコアAの算出を説明する。The product page title T 2 and names n1, specifically described the score calculation by the first and second processing. First, calculation of the score A by the first process will be described.

実行部14は、商品ページタイトルT「brandA abc08−bk eco 空気 清浄機 加湿 機能 花粉 ホコリ 黒 送料 無料 代引 不可 カード OK 省エネ 30m」を、18のトークンに分割する。分割された18のトークンは、トークンt201「brandA」、トークンt202「abc08−bk」、トークンt203「eco」、トークンt204「空気」、トークンt205「清浄機」、トークンt206「加湿」、トークンt207「機能」、トークンt208「花粉」、トークンt209「ホコリ」、トークンt210「黒」、トークンt211「送料」、トークンt212「無料」、トークンt213「代引」、トークンt214「不可」、トークンt215「カード」、トークンt216「OK」、トークンt217「省エネ」、トークンt218「30m」である。一方、商品名n1「brandA abc08−bk eco」は、3つのトークン(「brandA」、「abc08−bk」、「eco」)を含む。The execution unit 14 divides the product page title T 2 “brandA abc08-bk eco air purifier humidification function pollen dust black free shipping cash on delivery impossible card OK energy saving 30 m 2 ” into 18 tokens. The divided 18 tokens are token t 201 “brandA”, token t 202 “abc08-bk”, token t 203 “eco”, token t 204 “air”, token t 205 “cleaner”, token t 206 “ Humidification ”, token t 207 “ function ”, token t 208 “ pollen ”, token t 209 “ dust ”, token t 210 “ black ”, token t 211 “ shipping ”, token t 212 “ free ”, token t 213price ” Pull ”, token t 214 “ impossible ”, token t 215 “ card ”, token t 216 “ OK ”, token t 217 “ energy saving ”, token t 218 “ 30 m 2 ”. On the other hand, the product name n1 “brandA abc08-bk eco” includes three tokens (“brandA”, “abc08-bk”, “eco”).

商品ページタイトルTのトークンの集合をXとし、商品名n1のトークンの集合をYとすると、
|X∩Y|=3
|X∪Y|=18
となるので、商品ページタイトルTと商品名n1との同一性を示すスコアAは、
J(X,Y)=0.167(=3/18)
となる。
A set of tokens of the commodity page title T 2 and X, and the set of tokens of trade names n1 and Y,
| X∩Y | = 3
| X∪Y | = 18
Since a, score A indicating the identity of the commodity page title T 2 and the product name n1 is,
J (X, Y) = 0.167 (= 3/18)
It becomes.

続いて、商品ページタイトルTに関する第2の処理によるスコアBの算出を説明する。商品ページタイトルTのトークン及び商品名n1のトークンにおいて、共起するトークンの数は3である。また、商品ページタイトルTのトークン数及び商品名n1のトークン数のうち、少ない方のトークン数は3である。従って、商品ページタイトルTと商品名n1との同一性を示すスコアBは、1(=3/3)となる。商品ページタイトルTと商品名n2〜n4のそれぞれとの同一性を示すスコアA及びスコアBについても、図9に示されるように、同様に算出される。Next, explaining the calculation of the score B according to the second processing on the product page title T 2. In token of the product page title T 2 of the token and product names n1, the number of tokens to the co-occurrence is 3. In addition, of the number of token items of token page title T 2 and product names n1, lesser number of tokens is 3. Therefore, the score B indicating the identity of the commodity page title T 2 and names n1 is 1 (= 3/3). For even scores A and scores B indicates the identity of the respective commodity page title T 1 and names N2 to N4, as illustrated in FIG. 9, is calculated in the same manner.

図9を参照すると、商品名n1〜n4に関するスコアAの中には、顕著に大きい値を示すものがない。一方、商品名n1に関するスコアBは、商品名n2〜n4に関するスコアBに比べて顕著に大きい値を示している。従って、含まれるトークン数が比較的多い商品ページタイトルTと各商品名との同一性の判断においては、第1の処理によって算出されたスコアAより、第2の処理によって算出されたスコアBの方が好適である。Referring to FIG. 9, none of the scores A related to the product names n1 to n4 shows a significantly large value. On the other hand, the score B related to the product name n1 is significantly larger than the score B related to the product names n2 to n4. Therefore, in determining the identity between the product page title T 2 and the product names that contain a relatively large number of tokens, the score B calculated by the second process is calculated from the score A calculated by the first process. Is preferred.

商品ページタイトルのトークン数が多いか少ないかの特徴の推定に際して、基準となる所定値を適切な値に設定することにより、例えば商品ページタイトルTのようなトークン数が比較的少ない商品ページタイトルは、トークン数が少ない特徴を有すると推定され、また、商品ページタイトルTのようなトークン数が比較的多い商品ページタイトルは、トークン数が多い特徴を有すると推定される。In estimating Product Page token number more or less of the features of the title, by setting the predetermined value as a reference to an appropriate value, for example, the token number is relatively small items page title such as Product Page Title T 1 is estimated to have a characteristic number of tokens is smaller, also the token number is relatively large product page titles like products page title T 2 are, are estimated to have a number of features many tokens.

そのようにトークン数も関する特徴が推定されることにより、商品ページタイトルTと各商品名との同一性は、第1の処理により算出されたスコアに基づいて判断され、商品ページタイトルTと各商品名との同一性は、第2の処理により算出されたスコアに基づいて判断されることとなる。なお、トークン数の特徴の推定において基準となる所定値は、例えば、設計的に設定される値である。As such by the features relates token number is estimated, the identity of the commodity page title T 1 and each product name is determined based on the score calculated by the first processing, commodity page title T 2 And the identity of each product name are determined based on the score calculated by the second process. Note that the predetermined value serving as a reference in estimating the characteristics of the number of tokens is, for example, a value set by design.

従って、処理対象の商品ページに応じて、同一性が適切に反映されたスコアを算出することが可能となり、同一性が適切に反映されたスコアが用いられることとなるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。   Therefore, according to the product page to be processed, it is possible to calculate a score that appropriately reflects the identity, and a score that appropriately reflects the identity is used. It is possible to specify a product name having the same identity.

再び図1を参照して、特定部15は、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する部分である。   Referring again to FIG. 1, the specifying unit 15 is a part that specifies a product name having the same identity between the product page and the product according to the score calculated by the first process or the second process.

例えば、商品ページタイトルTを含む商品ページと同一性を有する商品名の特定に際しては、第1の処理によりスコアが算出されるので、特定部15は、図7に示したスコアAに応じて、同一性を有する商品名として商品名n1を特定する。For example, when a specific product name identity with the product page containing product page title T 1, since the score by the first process is calculated, the specifying unit 15, according to the score A shown in FIG. 7 The product name n1 is specified as the product name having the identity.

また、例えば、商品ページタイトルTを含む商品ページと同一性を有する商品名の特定に際しては、第2の処理によりスコアが算出されるので、特定部15は、図9に示したスコアBに応じて、同一性を有する商品名として商品名n1を特定する。Further, for example, upon the particular trade name identity with the product page containing product page title T 2 are, since the score by the second process is calculated, the specifying unit 15, the score B shown in FIG. 9 Accordingly, the product name n1 is specified as the product name having the same identity.

特定部15は、このように特定された正式な商品名を、商品ページ記憶部21において、当該商品ページに関連付けて記憶させることとしてもよい。また、特定部15は、同一性を有するものとして特定された商品名が同一の複数の商品ページのグループを形成するような関連付けデータを生成することとしてもよい。   The specifying unit 15 may store the official product name specified in this way in the product page storage unit 21 in association with the product page. Further, the specifying unit 15 may generate association data that forms a group of a plurality of product pages having the same product name specified as having the same identity.

また、商品特定装置1は、商品ページ記憶部21における商品ページの商品ページタイトルの店舗による更新の状況を監視し、商品ページタイトルの変更の程度が所定範囲内である場合には、第1の処理及び第2の処理のうち従前に用いていた処理によりスコアを算出し、商品ページタイトルの変更の程度が所定範囲を超えた場合に、推定部13によるトークン数に関する特徴の推定処理を経て、推定された特徴に応じて第1の処理及び第2の処理のいずれかの処理によりスコアを算出することとしてもよい。   Further, the product identification device 1 monitors the update status of the product page title of the product page in the product page storage unit 21 by the store, and when the degree of change of the product page title is within a predetermined range, In the process and the second process, the score is calculated by the process used before, and when the degree of change of the product page title exceeds a predetermined range, the estimation unit 13 performs the characteristic estimation process regarding the number of tokens, The score may be calculated by one of the first process and the second process according to the estimated feature.

なお、商品特定装置1は、ある店舗により入力された商品ページと同一性を有する商品名を特定する処理について、第1の処理に比べて第2の処理によりスコアが算出される頻度または割合が所定の程度以上である場合には、正式な商品名以外の語(例えば、いわゆるスパムワード)を商品ページに含ませることの抑制を求める通知を当該店舗に行う通知部を更に有することとしてもよい。   It should be noted that the product identification device 1 has a frequency or rate at which a score is calculated by the second process as compared to the first process for the process of identifying a product name that is identical to the product page input by a certain store. In the case where it is equal to or greater than a predetermined level, it may further include a notification unit that notifies the store of a request for suppression of including words other than the official product name (for example, so-called spam words) in the product page. .

次に、図10を参照して、本実施形態の商品特定装置1の動作について説明する。図10は、商品特定装置1において実施される商品特定方法の処理内容を示すフローチャートである。   Next, with reference to FIG. 10, operation | movement of the goods specific device 1 of this embodiment is demonstrated. FIG. 10 is a flowchart showing the processing content of the product specifying method implemented in the product specifying device 1.

まず、商品ページ取得部11は、処理対象の商品ページを取得する(S1)。次に、商品名取得部12は、商品名記憶部22に記憶された正式な商品名を取得する(S2)。   First, the product page acquisition unit 11 acquires a product page to be processed (S1). Next, the product name acquisition unit 12 acquires the official product name stored in the product name storage unit 22 (S2).

推定部13は、処理対象の商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する(S3)。続いて、実行部14は、ステップS3において推定された商品ページの商品ページタイトルに含まれるトークン数に関する特徴が、トークン数が所定の程度より少ないことを示すか否かを判定する(S4)。トークン数に関する特徴が、トークン数が所定の程度より少ないことを示すと判定された場合には、処理はステップS5に進められる。一方、トークン数に関する特徴が、トークン数が所定の程度より少ないことを示すと判定されなかった場合には、処理はステップS6に進められる。   The estimation unit 13 estimates a feature related to the number of tokens included in the product page title of the product page to be processed (S3). Subsequently, the execution unit 14 determines whether or not the feature related to the number of tokens included in the product page title of the product page estimated in Step S3 indicates that the number of tokens is less than a predetermined level (S4). If it is determined that the characteristic regarding the number of tokens indicates that the number of tokens is less than a predetermined level, the process proceeds to step S5. On the other hand, if it is not determined that the feature related to the number of tokens indicates that the number of tokens is less than a predetermined level, the process proceeds to step S6.

ステップS5において、実行部14は、第1の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する(S5)。一方、ステップS6において、実行部14は、第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する(S6)。   In step S5, the execution unit 14 calculates a score indicating the identity between the product indicated by the product name and the product related to the product page by the first processing (S5). On the other hand, in step S6, the execution unit 14 calculates a score indicating the identity between the product indicated by the product name and the product related to the product page by the second process (S6).

そして、特定部15は、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する(S7)。   And the specific | specification part 15 specifies the goods name which has the identity of a goods page and goods according to the score calculated by the 1st process or the 2nd process (S7).

次に、図11を参照して、コンピュータを商品特定装置1として機能させるための商品特定プログラムを説明する。商品特定プログラムp1は、メインモジュールm10、商品ページ取得モジュールm11、商品名取得モジュールm12、推定モジュールm13、実行モジュールm14及び特定モジュールm15を備える。   Next, a product specifying program for causing a computer to function as the product specifying device 1 will be described with reference to FIG. The product specifying program p1 includes a main module m10, a product page acquisition module m11, a product name acquisition module m12, an estimation module m13, an execution module m14, and a specification module m15.

メインモジュールm10は、商品特定処理を統括的に制御する部分である。商品ページ取得モジュールm11、商品名取得モジュールm12、推定モジュールm13、実行モジュールm14及び特定モジュールm15を実行することにより実現される機能はそれぞれ、図1に示される商品特定装置1の商品ページ取得部11、商品名取得部12、推定部13、実行部14及び特定部15の機能と同様である。   The main module m10 is a part that comprehensively controls the product specifying process. The functions realized by executing the product page acquisition module m11, the product name acquisition module m12, the estimation module m13, the execution module m14, and the specific module m15 are each a product page acquisition unit 11 of the product specification device 1 shown in FIG. The functions of the product name acquisition unit 12, the estimation unit 13, the execution unit 14, and the specification unit 15 are the same.

商品特定プログラムp1は、例えば、CD−ROMやDVD−ROMまたは半導体メモリ等の記憶媒体d1によって提供される。また、商品特定プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。   The product specifying program p1 is provided by a storage medium d1 such as a CD-ROM, a DVD-ROM, or a semiconductor memory, for example. Further, the product identification program p1 may be provided via a communication network as a computer data signal superimposed on a carrier wave.

以上説明した本実施形態の商品特定装置1、商品特定方法及び商品特定プログラムp1によれば、商品ページの商品ページタイトルに含まれるトークン数に関する特徴が推定され、推定された特徴に応じて、第1の処理または第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する処理が実行される。第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。推定されたトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理が実行され、トークン数が所定の程度以上であることを示す場合には第2の処理が実行されるので、処理対象の商品ページに応じて、同一性が適切に反映されたスコアが算出される。そして、同一性が適切に反映されたスコアが用いられるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。   According to the product specifying device 1, the product specifying method, and the product specifying program p1 of the present embodiment described above, the feature regarding the number of tokens included in the product page title of the product page is estimated, and according to the estimated feature, By the process 1 or the second process, a process of calculating a score indicating the identity between the product indicated by the product name and the product related to the product page is executed. The first process is a process in which, when the number of tokens included in the product page title is small, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. On the other hand, the second process is a process in which, when the number of tokens included in the product page title is large, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. . The first process is performed when the characteristic regarding the estimated number of tokens indicates that the number of tokens is less than a predetermined level, and the second process is performed when the number of tokens indicates that the number of tokens is equal to or greater than the predetermined level. Is executed, a score that appropriately reflects the identity is calculated according to the product page to be processed. Since the score appropriately reflecting the identity is used, it is possible to specify the product name having the same identity as the product page with high accuracy.

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。   The present invention has been described in detail based on the embodiments. However, the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the gist thereof.

1…商品特定装置、11…商品ページ取得部、12…商品名取得部、13…推定部、14…実行部、15…特定部、21…商品ページ記憶部、22…商品名記憶部、d1…記憶媒体、m10…メインモジュール、m11…商品ページ取得モジュール、m12…商品名取得モジュール、m13…推定モジュール、m14…実行モジュール、m15…特定モジュール、p1…商品特定プログラム。
DESCRIPTION OF SYMBOLS 1 ... Product specification apparatus, 11 ... Product page acquisition part, 12 ... Product name acquisition part, 13 ... Estimation part, 14 ... Execution part, 15 ... Specification part, 21 ... Product page storage part, 22 ... Product name storage part, d1 ... storage medium, m10 ... main module, m11 ... product page acquisition module, m12 ... product name acquisition module, m13 ... estimation module, m14 ... execution module, m15 ... specific module, p1 ... product specific program.

Claims (10)

処理対象の商品ページを取得する商品ページ取得手段であって、前記商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得手段と、
少なくとも一つの予め設定された商品名を取得する商品名取得手段であって、前記商品名は、1以上の文字からなるトークンを1以上含む商品名取得手段と、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、
前記推定手段により推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行手段であって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行手段と、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定手段と、
を備える商品特定装置。
A product page acquisition means for acquiring a product page to be processed, wherein the product page includes a text representing the product related to the product page and includes a product page title that can be divided into tokens composed of one or more characters. , Product page acquisition means,
Product name acquisition means for acquiring at least one preset product name, wherein the product name includes product name acquisition means including one or more tokens composed of one or more characters;
Estimating means for estimating characteristics relating to the number of tokens included in the product page title of the product page;
When the feature estimated by the estimating means indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, execution means for executing a second process, wherein the first process determines a ratio of the other of the token included in the product name and the token included in the product page title to the other. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution means for calculating a ratio in which one of the two is included in the other as a score indicating the identity;
A specifying means for specifying the product name having the same identity as the product page according to the score calculated by the first process or the second process;
A product identification device comprising:
前記商品名取得手段は、前記処理対象の商品ページに係る商品を扱う店舗以外の者により予め設定された商品名を取得し、
前記推定手段は、前記店舗によって入力された1以上の商品ページの特徴に応じて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する、
請求項1に記載の商品特定装置。
The product name acquisition means acquires a product name set in advance by a person other than the store handling the product related to the processing target product page,
The estimation means estimates a feature related to the number of tokens of the product page title of the product page to be processed according to the feature of one or more product pages input by the store.
The product identification device according to claim 1.
前記推定手段は、前記処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する、
請求項2に記載の商品特定装置。
The estimation means estimates a feature related to the token number of the product page title of the product page to be processed based on a data amount constituting the product page input by a store handling the product related to the product page to be processed. ,
The product identification device according to claim 2.
前記推定手段は、前記データ量が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、データ量が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する、
請求項3に記載の商品特定装置。
The estimation means estimates that the number of tokens of the product page title of the product page to be processed is greater than or equal to a predetermined level when the data amount is greater than or equal to a predetermined amount, and if the data amount is less than the predetermined amount , Estimate that the number of tokens in the product page title of the product page being processed is less than a certain amount,
The product identification device according to claim 3.
前記推定手段は、前記処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する、
請求項3または4に記載の商品特定装置。
The estimation means estimates a feature related to the number of tokens of the product page title of the product page to be processed based on the number of texts constituting the product page input by the store handling the product related to the product page to be processed. ,
The product identification device according to claim 3 or 4.
前記推定手段は、前記処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する、
請求項3または4に記載の商品特定装置。
The estimation means is characterized by the number of tokens of the product page title of the product page to be processed based on the number of tokens of the product page title included in the product page input by the store handling the product related to the product page to be processed. Estimate
The product identification device according to claim 3 or 4.
前記推定手段は、前記商品名取得手段により取得された商品名に含まれるトークン数に対する、前記処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合が所定割合以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より多いと推定し、前記割合が所定割合未満である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する、
請求項2に記載の商品特定装置。
The estimation means performs processing when the ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product name acquisition means is equal to or greater than a predetermined ratio. When the number of tokens of the product page title of the target product page is estimated to be greater than a predetermined level, and the ratio is less than the predetermined level, the number of tokens of the product page title of the target product page is less than the predetermined level To estimate,
The product identification device according to claim 2.
前記商品名取得手段は、前記処理対象の商品ページに含まれる商品ページタイトルのトークンを少なくとも一つ含む商品名を取得する、
請求項1〜7のいずれか一項に記載の商品特定装置。
The product name acquisition means acquires a product name including at least one product page title token included in the product page to be processed.
The product identification device according to any one of claims 1 to 7.
商品特定装置における商品特定方法であって、
処理対象の商品ページを取得する商品ページ取得ステップであって、前記商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得ステップと、
少なくとも一つの予め設定された商品名を取得する商品名取得ステップであって、前記商品名は、1以上の文字からなるトークンを1以上含む、商品名取得ステップと、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定ステップと、
前記推定ステップにおいて推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行ステップであって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行ステップと、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定ステップと、
を有する商品特定方法。
A product identification method in a product identification device,
A product page acquisition step for acquiring a product page to be processed, wherein the product page includes a product page title that includes text representing the product related to the product page and can be divided into tokens including one or more characters. , Product page acquisition step,
A product name acquisition step of acquiring at least one preset product name, wherein the product name includes one or more tokens including one or more characters;
An estimation step of estimating a feature related to the number of tokens included in the product page title of the product page;
If the feature estimated in the estimating step indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, it is an execution step of executing a second process, wherein the first process determines the ratio of the other match to one of the token included in the product name and the token included in the product page title. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution step of calculating a ratio in which one of the two is included in the other as a score indicating the identity;
In accordance with the score calculated by the first process or the second process, a specifying step of specifying the product name having the same product as the product page;
A product identification method.
コンピュータに、
処理対象の商品ページを取得する商品ページ取得機能であって、前記商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得機能と、
少なくとも一つの予め設定された商品名を取得する商品名取得機能であって、前記商品名は、1以上の文字からなるトークンを1以上含む商品名取得機能と、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定機能と、
前記推定機能により推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行機能であって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行機能と、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定機能と、
を実現させる商品特定プログラム。
On the computer,
A product page acquisition function for acquiring a product page to be processed, wherein the product page includes a product page title that includes text representing the product related to the product page and can be divided into tokens including one or more characters. , Product page acquisition function,
A product name acquisition function for acquiring at least one preset product name, wherein the product name includes a product name acquisition function including one or more tokens including one or more characters;
An estimation function for estimating a characteristic regarding the number of tokens included in the product page title of the product page;
When the feature estimated by the estimation function indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, the execution function executes a second process, and the first process determines a matching ratio of the other of the token included in the product name and the token included in the product page title. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution function for calculating a ratio indicating that one of the two is included in the other as a score indicating the identity;
According to the score calculated by the first process or the second process, a specifying function for specifying the product name having the same product as the product page;
Product identification program that realizes
JP2015548519A 2015-05-29 2015-05-29 Product identification device, product identification method, and product identification program Active JP5887031B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/065615 WO2016194062A1 (en) 2015-05-29 2015-05-29 Product identification device, product identification method, and product identification program

Publications (2)

Publication Number Publication Date
JP5887031B1 true JP5887031B1 (en) 2016-03-16
JPWO2016194062A1 JPWO2016194062A1 (en) 2017-06-15

Family

ID=55523992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015548519A Active JP5887031B1 (en) 2015-05-29 2015-05-29 Product identification device, product identification method, and product identification program

Country Status (2)

Country Link
JP (1) JP5887031B1 (en)
WO (1) WO2016194062A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019533246A (en) * 2016-10-11 2019-11-14 イーベイ インク.Ebay Inc. Select product title

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6698041B2 (en) * 2017-02-09 2020-05-27 株式会社Zozoテクノロジーズ Information processing apparatus, method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011105606A1 (en) * 2010-02-26 2011-09-01 楽天株式会社 Information processing device, information processing method, program for information processing device, and recording medium
JP2013101415A (en) * 2010-02-26 2013-05-23 Language Craft Kenkyusho:Kk Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer
JP2013200771A (en) * 2012-03-26 2013-10-03 Rakuten Inc Information processing apparatus, information processing method, information processing program, and recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011105606A1 (en) * 2010-02-26 2011-09-01 楽天株式会社 Information processing device, information processing method, program for information processing device, and recording medium
JP2013101415A (en) * 2010-02-26 2013-05-23 Language Craft Kenkyusho:Kk Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer
JP2013200771A (en) * 2012-03-26 2013-10-03 Rakuten Inc Information processing apparatus, information processing method, information processing program, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019533246A (en) * 2016-10-11 2019-11-14 イーベイ インク.Ebay Inc. Select product title
US11580589B2 (en) 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title

Also Published As

Publication number Publication date
JPWO2016194062A1 (en) 2017-06-15
WO2016194062A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
US20170161375A1 (en) Clustering documents based on textual content
JP5316158B2 (en) Information processing apparatus, full-text search method, full-text search program, and recording medium
CN107704512B (en) Financial product recommendation method based on social data, electronic device and medium
US8073865B2 (en) System and method for content extraction from unstructured sources
US11442694B1 (en) Merging database tables by classifying comparison signatures
WO2017216980A1 (en) Machine learning device
JP5445787B2 (en) Attribute extraction method, system and program
US8396935B1 (en) Discovering spam merchants using product feed similarity
JP2010079657A (en) Information processor, information processing method, and program
JP5670787B2 (en) Information processing apparatus, form type estimation method, and form type estimation program
CN104915440B (en) A kind of commodity rearrangement and system
KR102402466B1 (en) Method and apparatus for summarizing document using keyword clustering
WO2017203672A1 (en) Item recommendation method, item recommendation program, and item recommendation apparatus
JP6003637B2 (en) Information processing apparatus, node extraction program, and node extraction method
JP5887031B1 (en) Product identification device, product identification method, and product identification program
JP4973503B2 (en) File search program, method and apparatus
US20200104901A1 (en) Information processing apparatus
JP2015203961A (en) document extraction system
JP2018005403A (en) Device, method, and program for estimating issues
WO2014061285A1 (en) Corpus generating device, corpus generating method, and corpus generating program
JP5559750B2 (en) Advertisement processing apparatus, information processing system, and advertisement processing method
JP2016110256A (en) Information processing device and information processing program
JP6252296B2 (en) Data identification method, data identification program, and data identification apparatus
US9740681B2 (en) Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer
WO2015159702A1 (en) Partial-information extraction system

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160212

R150 Certificate of patent or registration of utility model

Ref document number: 5887031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250