JP5887031B1 - Product identification device, product identification method, and product identification program - Google Patents
Product identification device, product identification method, and product identification program Download PDFInfo
- Publication number
- JP5887031B1 JP5887031B1 JP2015548519A JP2015548519A JP5887031B1 JP 5887031 B1 JP5887031 B1 JP 5887031B1 JP 2015548519 A JP2015548519 A JP 2015548519A JP 2015548519 A JP2015548519 A JP 2015548519A JP 5887031 B1 JP5887031 B1 JP 5887031B1
- Authority
- JP
- Japan
- Prior art keywords
- product
- product page
- page
- tokens
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 239000000428 dust Substances 0.000 description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
商品特定装置は、処理対象の商品ページを取得する商品ページ取得手段であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得手段と、少なくとも一つの予め設定された商品名を取得する取得手段であって、商品名は、トークンを1以上含む商品名取得手段と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、推定手段により推定された特徴が、トークン数が所定の程度より少ないことを示す場合にはかかる場合に好適な第1の処理を実行し、推定された特徴が、トークン数が所定の程度以上であることを示す場合にはかかる場合に好適な第2の処理を実行する実行手段と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定手段と、を備える。The product specifying device is a product page acquisition unit that acquires a product page to be processed, and the product page includes text representing the product related to the product page and can be divided into tokens including one or more characters. A product page acquisition means including a page title, and an acquisition means for acquiring at least one preset product name, wherein the product name includes a product name acquisition means including one or more tokens, and a product page title of the product page If the estimation means for estimating the feature relating to the number of tokens included in the feature and the feature estimated by the estimation means indicate that the number of tokens is less than a predetermined level, the first processing suitable for such a case is executed, When the estimated feature indicates that the number of tokens is equal to or greater than a predetermined level, execution means for executing a second process suitable for such a case, Comprising processing or in accordance with the calculated scores by the second processing, a specifying means for specifying a product name identity with product pages and product.
Description
本発明は、商品特定装置、商品特定方法及び商品特定プログラムに関する。 The present invention relates to a product specifying device, a product specifying method, and a product specifying program.
従来、2つのテキストデータの内容の同一性を判断する技術が知られている。例えば、特許文献1には、一方のテキストデータを他方のテキストデータに一致させるための変換操作に着目して2つのテキストデータの同一性判断する技術が記載されている。
Conventionally, a technique for determining the identity of two text data contents is known. For example,
同一の商品を異なる複数の店舗が販売しうる電子商取引サイトでは、同一の商品同士を関連付ける必要が生じることがある。例えば、ある商品の商品ページと同一の商品の商品ページとを関連付けて表示させたり、検索または指定された商品と同一の商品を示す商品ページのサムネイルを一つのページに含ませて表示させたりする。このように、同一の商品同士を関連付けるには、複数の店舗間で共通となる商品コードがあれば容易である。
しかし共通となる商品コードが関連付けられていない商品がある場合には、正式な商品名リストと商品ページで扱う商品名とを照合する必要がある。一方、電子商取引サイトにおける商品ページには、検索エンジンによる検索結果において上位に表示されるようにする、いわゆるSEO(Search Engine Optimization)対策のために、様々な語が含まれている場合がある。電子商取引サイトの商品ページが示す商品名と正式な商品名との同一性を判断するために、SEO対策のための語(いわゆるスパムワード)を、辞書を用いることで同一性判断処理において不要な語を除外することが考えられる。しかしながら、商品ページにスパムワードではない語が多数含まれている場合には、同一性判断に不要な語を十分に除外できず、正式な商品名と同一であると判断されるべき商品ページが、同一であると判断されない場合があった。In an electronic commerce site where different stores can sell the same product, the same product may need to be associated with each other. For example, a product page of a product and a product page of the same product are displayed in association with each other, or a thumbnail of a product page indicating the same product as the searched or specified product is included in one page and displayed. . Thus, it is easy to associate the same products with each other if there is a product code that is common among a plurality of stores.
However, if there is a product that is not associated with a common product code, it is necessary to collate the official product name list with the product name handled on the product page. On the other hand, the product page on the electronic commerce site may include various words for so-called SEO (Search Engine Optimization) measures to be displayed at the top in the search results by the search engine. In order to determine the identity of the product name shown on the product page of the electronic commerce site and the official product name, a word for so-called SEO (so-called spam word) is unnecessary in the identity determination process by using a dictionary. It is possible to exclude words. However, if a product page contains many words that are not spam words, it is not possible to sufficiently exclude words that are not necessary for identity determination, and there is a product page that should be judged to be the same as the official product name. In some cases, it was not determined to be the same.
そこで本発明は、商品ページが示す商品名と正式な商品名との同一性をより精度良く判断することを目的とする。 Therefore, an object of the present invention is to more accurately determine the identity between the product name indicated on the product page and the official product name.
上記課題を解決するために、本発明の一形態に係る商品特定装置は、処理対象の商品ページを取得する商品ページ取得手段であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得手段と、少なくとも一つの予め設定された商品名を取得する商品名取得手段であって、商品名は、1以上の文字からなるトークンを1以上含む商品名取得手段と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、推定手段により推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行手段であって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行手段と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定手段と、を備える。 In order to solve the above-described problem, a product specifying device according to an aspect of the present invention is a product page acquisition unit that acquires a product page to be processed, and the product page is based on text representing a product related to the product page. A product page acquisition means including a product page title that can be divided into one or more tokens, and a product name acquisition means for acquiring at least one preset product name, wherein the product name is one or more Product name acquisition means including one or more tokens made up of characters, estimation means for estimating the characteristics relating to the number of tokens included in the product page title of the product page, and the characteristics estimated by the estimation means, The first process is executed when it indicates that the number is low, and the second process is executed when the feature indicates that the number of tokens is equal to or greater than a predetermined level. The first processing is a first process in which the ratio of the other of the token included in the product name and the token included in the product page title is compared with the product indicated by the product name and the product related to the product page. The second process calculates a ratio in which one of the token included in the product name and the token included in the product page title is included in the other as a score indicating the identity. , An executing means, and a specifying means for specifying a product name having the same identity as the product page and the product according to the score calculated by the first process or the second process.
本発明の一形態に係る商品特定方法は、商品特定装置における商品特定方法であって、処理対象の商品ページを取得する商品ページ取得ステップであって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得ステップと、少なくとも一つの予め設定された商品名を取得する商品名取得ステップであって、商品名は、1以上の文字からなるトークンを1以上含む、商品名取得ステップと、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定ステップと、推定ステップにおいて推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行ステップであって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行ステップと、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定ステップと、を有する。 A product specifying method according to an aspect of the present invention is a product specifying method in a product specifying device, and is a product page acquiring step of acquiring a product page to be processed, wherein the product page is a product page related to the product page. A product page acquisition step including a product page title that includes a product page title that is composed of a text representing and can be divided into one or more tokens, and a product name acquisition step of acquiring at least one preset product name, wherein the product name is: A product name acquisition step including one or more tokens including one or more characters, an estimation step for estimating a feature related to the number of tokens included in the product page title of the product page, and a feature estimated in the estimation step is the number of tokens If it indicates that the number is less than the predetermined level, the first process is executed, and the feature is that the number of tokens is equal to or higher than the predetermined level. The execution step of executing the second process in the case of indicating that there is a ratio, wherein the first process is a ratio of the other match to one of the token included in the product name and the token included in the product page title. Is calculated as a score indicating the identity between the product indicated by the product name and the product related to the product page, and the second process is such that one of the token included in the product name and the token included in the product page title is the other The product name having the identity of the product page and the product is identified according to the execution step of calculating the ratio included in the score as a score indicating identity and the score calculated by the first process or the second process. Specific steps to be performed.
本発明の一形態に係る商品特定プログラムは、コンピュータに、処理対象の商品ページを取得する商品ページ取得機能であって、商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上のトークンに分割可能である商品ページタイトルを含む、商品ページ取得機能と、少なくとも一つの予め設定された商品名を取得する商品名取得機能であって、商品名は、1以上の文字からなるトークンを1以上含む商品名取得機能と、商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定機能と、推定機能により推定された特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行機能であって、第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出し、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、同一性を示すスコアとして算出する、実行機能と、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する特定機能と、を実現させる。 A product specifying program according to an aspect of the present invention is a product page acquisition function for acquiring a product page to be processed in a computer, and the product page includes text representing the product related to the product page and at least one product page. A product page acquisition function including a product page title that can be divided into tokens, and a product name acquisition function that acquires at least one preset product name, wherein the product name is a token composed of one or more characters. When the product name acquisition function including one or more, the estimation function for estimating the feature regarding the number of tokens included in the product page title of the product page, and the feature estimated by the estimation function indicate that the number of tokens is less than a predetermined level If the feature indicates that the number of tokens is greater than or equal to a predetermined level, execute the second process. In the first process, the ratio of the other of the token included in the product name and the token included in the product page title is matched between the product indicated by the product name and the product related to the product page. Calculate as a score indicating identity, and the second process calculates, as a score indicating identity, a ratio in which one of the token included in the product name and the token included in the product page title is included in the other. The execution function and a specific function for specifying a product name having the same product as the product page are realized according to the score calculated by the first process or the second process.
上記の形態によれば、商品ページの商品ページタイトルに含まれるトークン数に関する特徴が推定され、推定された特徴に応じて、第1の処理または第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する処理が実行される。第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。推定されたトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理が実行され、トークン数が所定の程度以上であることを示す場合には第2の処理が実行されるので、処理対象の商品ページに応じて、同一性が適切に反映されたスコアが算出される。そして、同一性が適切に反映されたスコアが用いられるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。 According to said form, the characteristic regarding the token number contained in the merchandise page title of a merchandise page is estimated, and the goods and goods which a merchandise name shows by 1st process or 2nd process according to the estimated characteristic. A process of calculating a score indicating the identity with the product related to the page is executed. The first process is a process in which, when the number of tokens included in the product page title is small, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. On the other hand, the second process is a process in which, when the number of tokens included in the product page title is large, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. . The first process is performed when the characteristic regarding the estimated number of tokens indicates that the number of tokens is less than a predetermined level, and the second process is performed when the number of tokens indicates that the number of tokens is equal to or greater than the predetermined level. Is executed, a score that appropriately reflects the identity is calculated according to the product page to be processed. Since the score appropriately reflecting the identity is used, it is possible to specify the product name having the same identity as the product page with high accuracy.
別の形態に係る商品特定装置では、商品名取得手段は、処理対象の商品ページに係る商品を扱う店舗以外の者により予め設定された商品名を取得し、推定手段は、店舗によって入力された1以上の商品ページの特徴に応じて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する。 In the product identification device according to another aspect, the product name acquisition unit acquires a product name preset by a person other than the store handling the product related to the processing target product page, and the estimation unit is input by the store According to the feature of one or more product pages, the feature related to the token number of the product page title of the product page to be processed is estimated.
上記形態において、店舗以外の者により予め設定された商品名が取得されるので、商品ページとの同一性の判断に好適な商品名が取得される。また、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴の推定に用いられる商品ページは、当該商品ページに係る商品を扱う店舗によって入力された商品ページであって、処理対象の商品ページを含むと共に処理対象の商品ページに限定されない商品ページである。このような商品ページは、処理対象の商品ページのトークン数に関する特徴の推定に好適であるので、トークン数に関する特徴が精度良く推定される。 In the said form, since the goods name preset by persons other than a store is acquired, the goods name suitable for judgment of the identity with a goods page is acquired. In addition, the product page used for estimating the characteristics related to the number of tokens of the product page title of the product page to be processed is a product page input by a store handling the product related to the product page, and the product page to be processed is This is a product page that is included and is not limited to the product page to be processed. Since such a product page is suitable for estimating a feature related to the number of tokens of a product page to be processed, a feature related to the number of tokens is estimated with high accuracy.
さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。 In the product identification device according to yet another aspect, the estimation unit is configured to determine the product page of the product page to be processed based on the amount of data constituting the product page input by the store handling the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of a title.
処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に反映される。上記形態によれば、かかるデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。 The characteristic regarding the token number of the product page title of the product page to be processed is reflected in the data amount constituting the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature regarding the token number of the product page title of the product page to be processed is estimated based on the data amount, the reliability of the estimated feature is improved.
さらに別の形態に係る商品特定装置では、上記形態において、推定手段は、データ量が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、データ量が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。 In the product identification device according to another aspect, in the above aspect, the estimation unit may determine that the number of tokens of the product page title of the product page to be processed is equal to or greater than a predetermined level when the data amount is equal to or greater than the predetermined amount. If the estimated amount of data is less than a predetermined amount, it may be estimated that the number of tokens of the product page title of the product page to be processed is less than a predetermined level.
上記形態によれば、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が適切に推定される。 According to the said form, the characteristic regarding the token number of the goods page title of the goods page to be processed is estimated appropriately.
さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。 In the product identification device according to another aspect, the estimation unit is configured to determine the product page of the product page to be processed based on the number of words of the text that configures the product page input by the store handling the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of a title.
処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に反映される。上記形態によれば、かかる語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。 The feature related to the token number of the product page title of the product page to be processed is reflected in the number of text words constituting the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature related to the token number of the product page title of the product page to be processed is estimated based on the number of words, the reliability of the estimated feature is improved.
さらに別の形態に係る商品特定装置では、推定手段は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。 In the product identification device according to another aspect, the estimation unit is configured to process the product page to be processed based on the token number of the product page title included in the product page input by the store that handles the product related to the product page to be processed. It is good also as estimating the characteristic regarding the token number of the product page title.
処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページの商品ページタイトルに含まれるトークン数に反映される。上記形態によれば、かかるトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。 The feature regarding the number of tokens of the product page title of the product page to be processed is reflected in the number of tokens included in the product page title of the product page input by the store handling the product related to the product page to be processed. According to the above aspect, since the feature related to the token number of the product page title of the product page to be processed is estimated based on the number of tokens, the reliability of the estimated feature is improved.
さらに別の形態に係る商品特定装置では、推定手段は、商品名取得手段により取得された商品名に含まれるトークン数に対する、処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合が所定割合以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より多いと推定し、割合が所定割合未満である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。 In the product identification device according to another aspect, the estimation unit has a predetermined ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product name acquisition unit. If the percentage is greater than or equal to the percentage, the number of tokens in the product page title of the product page to be processed is estimated to be greater than the predetermined level, and if the percentage is less than the predetermined percentage, the token of the product page title of the product page to be processed It may be estimated that the number is less than a predetermined level.
上記形態によれば、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が直接的に反映された、商品名に含まれるトークン数に対する処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合に基づいて、該トークン数に関する特徴が推定されるので、推定された特徴の信頼性を向上させることができる。 According to the above embodiment, the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name, which directly reflects the characteristics related to the number of tokens of the product page title of the product page to be processed. Since the feature related to the number of tokens is estimated based on the ratio of, the reliability of the estimated feature can be improved.
さらに別の形態に係る商品特定装置では、商品名取得手段は、処理対象の商品ページに含まれる商品ページタイトルのトークンを少なくとも一つ含む商品名を取得することとしてもよい。 In the product identification device according to another aspect, the product name acquisition unit may acquire a product name including at least one token of a product page title included in the product page to be processed.
上記形態によれば、処理対象の商品ページに含まれる商品ページタイトルのトークンを含む商品名を処理対象とすることにより、処理に用いる商品名の数を限定することができるので、処理負荷が軽減される。 According to the above embodiment, the number of product names used for processing can be limited by setting the product name including the token of the product page title included in the product page to be processed, thereby reducing the processing load. Is done.
本発明の一側面によれば、商品ページが示す商品名と正式な商品名との同一性をより精度良く判断することが可能となる。 According to one aspect of the present invention, it is possible to more accurately determine the identity between the product name indicated on the product page and the official product name.
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and redundant description is omitted.
図1は、本実施形態に係る商品特定装置1の機能的構成を示すブロック図である。商品特定装置1は、商品ページと商品の同一性を有する商品名を特定する装置である。商品ページは、例えば、電子商取引サイトにおいて商品を提示するウェブページであって、商品ページタイトルを含む。
FIG. 1 is a block diagram showing a functional configuration of a
具体的には、商品特定装置1は、処理対象の商品ページに含まれる商品ページタイトルと、予め設定された正式な商品名との同一性を判断する。これにより、商品ページタイトルと同一性を有すると判断された正式な商品名が、商品ページと商品の同一性を有する商品名として特定される。即ち、当該商品ページが示す商品と、特定された商品名が示す商品とは同一である。
Specifically, the
商品ページに含まれる商品ページタイトルは、当該商品ページに係る商品を表すテキストからなる。具体的には、商品ページタイトルは、商品を扱う店舗により設定された、当該商品を表すテキストを含むので、そのテキストは当該商品の商品名を含む場合がある。従って、商品ページタイトルは、正式な商品名を示す語及びそれ以外の語も含む場合がある。また、商品ページタイトルは、例えば、正式な商品名を表す語以外に、SEO対策のための様々な語を含む場合がある。このように、様々な語を含む商品ページタイトルは、トークナイズ(分かち書き)することにより、トークンに分割可能である。 The product page title included in the product page includes text representing the product related to the product page. Specifically, since the product page title includes text representing the product set by the store that handles the product, the text may include the product name of the product. Therefore, the product page title may include a word indicating an official product name and other words. In addition, the product page title may include various words for SEO countermeasures in addition to the word representing the official product name, for example. In this way, the product page title including various words can be divided into tokens by tokenizing (sharing).
このトークンは、例えば、空白を境界とすること等の所定のルールに従って商品ページタイトルを分割することにより得られる。トークンは、1以上の文字からなり、1つの語であってもよいし、意味を有さない文字の集まりであってもよい。 This token is obtained, for example, by dividing the product page title according to a predetermined rule such as a blank as a boundary. The token is composed of one or more characters and may be a single word or a collection of characters having no meaning.
商品名は、上述のとおり、商品について予め設定された正式な名称である。商品名は、1以上のトークンを含んで構成される。従って、商品ページの商品ページタイトルは、当該商品ページが示す商品の正式な商品名に含まれるトークン、及び、正式な商品名に含まれないトークンを含む場合が多い。 As described above, the product name is an official name preset for the product. The product name includes one or more tokens. Accordingly, the product page title of the product page often includes a token included in the official product name of the product indicated by the product page and a token not included in the official product name.
本実施形態の商品特定装置1により、商品ページが示す商品名と同一性を有する正式な商品名を特定することができるので、例えば、電子商取引サイトでは、同一の商品に係る商品ページを精度良く関連付けて表示することができる。例えば、ユーザにより指定された一の商品ページや検索された一の商品ページに関連付けて、同一商品を示す複数の商品ページのサムネイルを一つのページに含ませて表示することが可能となる。
Since the
図1に示すように、商品特定装置1は、機能的には、商品ページ取得部11(商品ページ取得手段)、商品名取得部12(商品名取得手段)、推定部13(推定手段)、実行部14(実行手段)及び特定部15(特定手段)を備える。
As shown in FIG. 1, the
また商品特定装置1は、商品ページ記憶部21及び商品名記憶部22といった記憶手段にアクセス可能である。商品ページ記憶部21及び商品名記憶部22は、商品特定装置1に備えられることとしてもよいし、商品特定装置1からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。
The
図2は、商品特定装置1のハードウェア構成図である。商品特定装置1は、物理的には、図2に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、通信制御装置104などを含むコンピュータシステムとして構成されている。商品特定装置1は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置105及びディスプレイ等の出力装置106をさらに含むこととしてもよい。
FIG. 2 is a hardware configuration diagram of the
図1に示した各機能は、図2に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信制御装置104等を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。
The functions shown in FIG. 1 operate the
再び図2を参照して、商品特定装置1の各機能部の説明に先立って、商品ページ記憶部21及び商品名記憶部22を説明する。商品ページ記憶部21は、商品ページのデータを記憶している記憶手段である。この商品ページは、電子商取引サイトにおいて表示されるページであって、当該電子商取引サイトにおいて商品を販売する一以上の店舗により扱われる商品を表す。
Referring back to FIG. 2, the product
図3は、商品ページ記憶部21に記憶されているデータに基づき表示される商品ページの例を示す図である。商品ページMは、商品ページタイトルTを含む。商品ページMは、商品画像G及び商品説明Hを更に含んでもよい。商品ページタイトルTは、前述のとおり、当該商品ページに係る商品を表すテキストからなり、正式な商品名を示す語及び正式な商品名以外を示す語も含む。商品ページタイトルTには、商品ページのデータにおいて、例えば、タイトルや見出しであることを示す所定のタグが付されているので、そのタグを検索すること等により、商品ページのデータから商品ページタイトルTを抽出することが可能である。また、商品ページのデータにおいて、フォントサイズが他のテキストより大きいテキストや、太字で表されたテキストを商品ページタイトルTとして抽出することとしてもよい。
FIG. 3 is a diagram illustrating an example of a product page displayed based on data stored in the product
商品名記憶部22は、商品特定装置1が属する電子商取引サイトにおいて扱われている商品の正式な商品名を記憶している記憶手段である。正式な商品名は、当該電子商取引サイト及び電子商取引サイトに属する店舗等の管理者により、予め設定及び登録されることとしてもよい。
The product
図4は、商品名記憶部22に記憶されている商品名の例を示す図である。図4に示すように、商品名記憶部22には、例えば「brandA abc08−bk eco」等の種々の商品名が記憶されている。
FIG. 4 is a diagram illustrating an example of product names stored in the product
続いて、商品特定装置1の各機能部を説明する。商品ページ取得部11は、処理対象の商品ページを取得する部分である。商品ページ取得部11により取得される商品ページの例は、図3に示したとおりである。図5は、処理対象の商品ページMから抽出された商品ページタイトルの例を示す図である。即ち、図5に示される商品ページタイトルT1は、図3に示される商品ページMに含まれる商品ページタイトルTを抽出して得られたテキストである。商品ページタイトルT1は、図5に示すように、複数のトークンt11〜t15に分割可能である。Next, each functional unit of the
また、商品ページ取得部11は、処理対象の商品ページに加えて、処理対象の商品ページに係る商品を扱う店舗によって入力された、処理対象の商品ページ以外の商品ページを更に取得できることとしてもよい。具体的には、処理対象の商品ページには、当該商品ページに係る商品を扱う店舗の識別子が関連付けられているので、商品ページ取得部11は、当該店舗の識別子を有する商品ページを商品ページ記憶部21から抽出することができる。
In addition to the product page to be processed, the product
商品名取得部12は、一以上の商品名を取得する部分である。具体的には、商品名取得部12は、商品名記憶部22に記憶された正式な商品名を取得する。商品名取得部12により取得される商品名は、商品ページに係る商品を扱う店舗によって商品ページタイトルとして設定されるような商品名とは異なり、店舗以外の者により設定された商品名であって、当該電子商取引サイトの管理者等により、商品について予め設定された正式な名称である。また、商品名取得部12により取得される商品名は、1以上のトークンを含んで構成される。
The product
商品名取得部12は、処理対象の商品ページに含まれる商品ページタイトルのトークンを少なくとも一つ含む商品名を取得することとしてもよい。例えば、商品ページ取得部11により取得された処理対象の商品ページMから、図5に示す商品ページタイトルTが抽出された場合には、商品名取得部12は、トークンt11〜t15のいずれかを含む商品名を、商品名記憶部22から抽出する。図6は、商品名取得部12により商品名記憶部22から取得された、トークンt11〜t15のいずれかを含む商品名n1〜n4を示す図である。The product
例えば、商品名n1は、トークンt11「brandA」、t12「abc08−bk」及びt13「eco」を含む。また、商品名n2及び商品名n3は、トークンt11「brandA」を含む。また、商品名n4は、トークンt11「brandA」及びt13「eco」を含む。For example, the product name n1 includes tokens t 11 “brandA”, t 12 “abc08-bk”, and t 13 “eco”. The product name n2 and the product name n3 include a token t 11 “brandA”. The product name n4 includes tokens t 11 “brandA” and t 13 “eco”.
このように、処理対象の商品ページに含まれる商品ページタイトルのトークンを含む商品名を処理対象とすることにより、処理に用いる商品名の数を限定することができるので、処理負荷の軽減が可能となる。 In this way, the number of product names used for processing can be limited by setting the product name including the token of the product page title included in the product page to be processed, so the processing load can be reduced. It becomes.
推定部13は、処理対象の商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する部分である。具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された1以上の商品ページ(処理対象の商品ページには限定されない)の特徴に応じて、当該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する。
The
前述のとおり、商品ページ取得部11は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページ(処理対象の商品ページ及び処理対象の商品ページ以外の商品ページを含む)を取得できるので、推定部13は、商品ページ取得部11を介して推定処理に用いる商品ページを取得する。
As described above, the product
トークン数に関する特徴は、例えば、トークン数が所定の程度より少ないこと、又は、トークン数が所定の程度以上であることを示すことができる。以下に、推定部13による推定処理を詳細に説明する。
The characteristic regarding the number of tokens can indicate, for example, that the number of tokens is less than a predetermined level, or that the number of tokens is equal to or higher than a predetermined level. Below, the estimation process by the
推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。
The
処理対象の商品ページの商品ページタイトルのトークン数に関する特徴は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に反映される。即ち、店舗によって入力された複数の商品ページを構成するデータ量が多いほど、当該店舗の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。 The characteristic regarding the token number of the product page title of the product page to be processed is reflected in the data amount constituting the product page input by the store handling the product related to the product page to be processed. That is, as the amount of data constituting a plurality of product pages input by a store increases, the number of tokens of the product page title of the product page of the store tends to increase.
このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定されたトークン数に関する特徴の信頼性が向上される。 In view of such a trend, the characteristics related to the number of tokens of the product page title of the product page to be processed are estimated based on the data amount constituting the product page input by the store handling the product related to the product page to be processed. Thus, the reliability of the feature related to the estimated number of tokens is improved.
より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページのデータ量が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記のデータ量が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、データ量と所定量の比較において、複数の商品ページのデータ量の平均値や合計値等の統計値を用いることとしてもよい。
More specifically, the
また、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。即ち、上記推定処理では、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量を用いたが、このデータ量として、商品ページを構成するテキストの語数を用いることとしてもよい。
In addition, the
店舗によって入力された複数の商品ページを構成するテキストの語数が多いほど、当該店舗の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。 As the number of texts constituting the plurality of product pages input by the store increases, the number of tokens of the product page title of the product page of the store tends to increase. In view of such a tendency, based on the number of text words constituting the product page input by the store handling the product related to the product page to be processed, there is a feature regarding the token number of the product page title of the product page to be processed. Since it is estimated, the reliability of the estimated feature is improved.
より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するテキストの語数が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記の語数が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、商品ページを構成する語数と所定量の比較において、複数の商品ページの語数の平均値や合計値等の統計値を用いることとしてもよい。
More specifically, when the number of texts constituting the product page input by the store handling the product related to the product page to be processed is equal to or greater than a predetermined amount, the
また、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定することとしてもよい。即ち、上記推定処理では、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページを構成するデータ量又は語数を用いたが、これらに代えて、商品ページに含まれる商品ページタイトルのトークン数を用いることとしてもよい。
In addition, the
店舗によって入力された複数の商品ページに含まれる商品ページタイトルのトークン数が多いほど、当該店舗の処理対象の商品ページの商品ページタイトルのトークン数が多くなる傾向が生じる。このような傾向に鑑みて、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数に基づいて、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が推定されるので、推定された特徴の信頼性が向上される。 As the number of product page title tokens included in a plurality of product pages input by a store increases, the number of product page title tokens of the product page to be processed in the store tends to increase. In view of such a trend, the number of tokens of the product page title of the product page to be processed based on the number of tokens of the product page title included in the product page input by the store handling the product related to the product page to be processed Therefore, the reliability of the estimated feature is improved.
より具体的には、推定部13は、処理対象の商品ページに係る商品を扱う店舗によって入力された商品ページに含まれる商品ページタイトルのトークン数が所定量以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度以上であると推定し、上記のトークン数が所定量より少ない場合には、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定する。なお、商品ページに含まれる商品ページタイトルのトークン数と所定量の比較において、複数の商品ページにおける商品ページタイトルのトークン数の平均値や合計値等の統計値を用いることとしてもよい。
More specifically, when the number of tokens of the product page title included in the product page input by the store that handles the product related to the product page to be processed is equal to or greater than a predetermined amount, the
また、推定部13は、商品名取得部12により取得された商品名に含まれるトークン数に対する、処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合が所定割合以上である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より多いと推定し、割合が所定割合未満である場合に、処理対象の商品ページの商品ページタイトルのトークン数が所定の程度より少ないと推定することとしてもよい。商品名取得部12により取得された商品名が複数である場合には、複数の商品名のうち、例えば、トークン数が最大の商品名を推定に用いることとしてもよい。
In addition, when the ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product
商品名に含まれるトークン数に対する処理対象の商品ページに含まれる商品ページタイトルのトークン数の割合といった指標値には、処理対象の商品ページの商品ページタイトルのトークン数に関する特徴が直接的に反映される。かかる指標値に基づいて、トークン数に関する特徴が推定されるので、推定された特徴の信頼性を向上させることができる。 The index value such as the ratio of the number of tokens of the product page title included in the processing product page to the number of tokens included in the product name directly reflects the characteristics related to the number of tokens of the product page title of the processing product page. The Since the feature regarding the number of tokens is estimated based on the index value, the reliability of the estimated feature can be improved.
実行部14は、推定部13により推定された商品ページの商品ページタイトルに含まれるトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、当該特徴が、トークン数が所定の程度以上であることを示す場合には第2の処理を実行する部分である。
The
第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。以下に、第1及び第2の処理を詳細に説明する。 The first process is a process in which, when the number of tokens included in the product page title is small, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. On the other hand, the second process is a process in which, when the number of tokens included in the product page title is large, a score that appropriately reflects the identity between the product indicated by the product name and the product related to the product page is calculated. . Hereinafter, the first and second processes will be described in detail.
第1の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出する処理である。 The first process is a score indicating the identity between the product indicated by the product name and the product related to the product page, with the ratio of the other of the token included in the product name and the token included in the product page title being matched. Is calculated as follows.
第1の処理は、例えば、商品名に含まれるトークンの集合及び処理対象の商品ページの商品ページタイトルに含まれるトークンの集合のJaccard係数をスコアとして算出する処理であってもよい。商品名に含まれるトークンの集合をXとして、商品ページタイトルに含まれるトークンの集合をYとすると、集合X及び集合YのJaccard係数J(X,Y)は、以下のように表される。
J(X,Y)=|X∩Y|/|X∪Y|The first process may be, for example, a process of calculating a Jaccard coefficient of a set of tokens included in the product name and a set of tokens included in the product page title of the product page to be processed as a score. When the set of tokens included in the product name is X and the set of tokens included in the product page title is Y, the Jaccard coefficient J (X, Y) of the set X and the set Y is expressed as follows.
J (X, Y) = | X∩Y | / | X∪Y |
なお、本実施形態では、第1のスコアとしてJaccard係数を算出することとしているが、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を示す指標値であれば、第1のスコアはJaccard係数には限定されない。 In the present embodiment, the Jaccard coefficient is calculated as the first score, but the index value indicating the ratio of the other match to one of the token included in the product name and the token included in the product page title. If so, the first score is not limited to the Jaccard coefficient.
一方、第2の処理は、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、商品名が示す商品と商品ページに係る商品との同一性を示すスコアとして算出する処理である。 On the other hand, in the second process, the ratio of one of the token included in the product name and the token included in the product page title is included in the other, and the identity between the product indicated by the product name and the product related to the product page is determined. It is a process which calculates as a score to show.
第2の処理は、例えば、商品名に含まれるトークン数及び商品ページタイトルに含まれるトークン数のうちの少ない方のトークン数に対する、商品名に含まれるトークン及び商品ページタイトルに含まれるトークンにおいて共起したトークンの数の割合をスコアとして算出する処理であってもよい。 In the second process, for example, the token included in the product name and the token included in the product page title are shared with respect to the smaller number of tokens included in the product name and the token number included in the product page title. It may be a process of calculating the ratio of the number of tokens that have occurred as a score.
以下に、実行部14における第1及び第2の処理によるスコア算出の例を説明する。図7は、図5に示す処理対象の商品ページの商品ページタイトルT1と、図6に示す商品名n1〜n4のそれぞれとの、同一性を示すスコアの第1及び第2の処理による算出結果を示す。図7において、スコアAは、第1の処理により算出されたスコアであり、スコアBは、第2の処理により算出されたスコアである。Below, the example of the score calculation by the 1st and 2nd process in the
商品ページタイトルT1と商品名n1との、第1及び第2の処理によるスコア算出を具体的に説明する。まず、第1の処理によるスコアAの算出を説明する。The product page title T 1 and names n1, specifically described the score calculation by the first and second processing. First, calculation of the score A by the first process will be described.
実行部14は、商品ページタイトルT1「brandA abc08−bk eco 空気 清浄機」を、5つのトークンに分割する。分割された5つのトークンは、トークンt11「brandA」、トークンt12「abc08−bk」、トークンt13「eco」、トークンt14「空気」、トークンt15「清浄機」である。一方、商品名n1「brandA abc08−bk eco」は、3つのトークン(「brandA」、「abc08−bk」、「eco」)を含む。The
商品ページタイトルT1のトークンの集合をXとし、商品名n1のトークンの集合をYとすると、
|X∩Y|=3
|X∪Y|=5
となるので、商品ページタイトルT1と商品名n1との同一性を示すスコアAは、
J(X,Y)=0.6(=3/5)
となる。A set of tokens of the commodity page title T 1 and X, and the set of tokens of trade names n1 and Y,
| X∩Y | = 3
| X∪Y | = 5
Since a, score A indicating the identity of the commodity page title T 1 and the product name n1 is,
J (X, Y) = 0.6 (= 3/5)
It becomes.
続いて、第2の処理によるスコアBの算出を説明する。商品ページタイトルT1のトークン及び商品名n1のトークンにおいて、共起するトークンの数は3である。また、商品ページタイトルT1のトークン数及び商品名n1のトークン数のうち、少ない方のトークン数は3である。従って、商品ページタイトルT1と商品名n1との同一性を示すスコアBは、1(=3/3)となる。商品ページタイトルT1と商品名n2〜n4のそれぞれとの同一性を示すスコアA及びスコアBについても、図7に示されるように、同様に算出される。Subsequently, the calculation of the score B by the second process will be described. In token of goods page title T 1 of the token and product names n1, the number of tokens to the co-occurrence is 3. In addition, of the number of tokens products page title T 1 of the token number and product names n1, lesser number of tokens is 3. Therefore, the score B indicating the identity of the commodity page title T 1 and names n1 is 1 (= 3/3). For even scores A and scores B indicates the identity of the respective commodity page title T 1 and names N2 to N4, as illustrated in FIG. 7, is calculated in the same manner.
図7を参照すると、商品名n1に関するスコアAは、商品名n2〜n4に関するスコアAに比べて顕著に大きい値を示している。一方、商品名n1〜n4に関するスコアBの中には、顕著に大きい値を示すものがない。従って、含まれるトークン数が比較的少ない商品ページタイトルT1と各商品名との同一性の判断においては、第2の処理によって算出されたスコアBより、第1の処理によって算出されたスコアAの方が好適である。When FIG. 7 is referred, the score A regarding the brand name n1 has shown the value remarkably large compared with the score A regarding the brand names n2-n4. On the other hand, none of the scores B relating to the product names n1 to n4 show a significantly large value. Thus, in the commodity page title T 1 number of tokens is relatively small contained identity determined with each trade name, from the score B calculated by the second processing, the score A calculated by the first processing Is preferred.
次に、含まれるトークン数が比較的多い商品ページタイトルと商品名との同一性を示すスコアの算出について説明する。図8は、図5に示した商品ページタイトルT1より多くのトークンを含む商品ページタイトルT2を示す。商品ページタイトルT2は、18のトークンに分割可能である。図9は、図8に示す処理対象の商品ページの商品ページタイトルT2と、図6に示す商品名n1〜n4のそれぞれとの、同一性を示すスコアの第1及び第2の処理による算出結果を示す。図9において、スコアAは、第1の処理により算出されたスコアであり、スコアBは、第2の処理により算出されたスコアである。Next, calculation of a score indicating the identity between a product page title and a product name having a relatively large number of tokens will be described. Figure 8 shows a product page title T 2 containing a number of tokens from the commodity page title T 1 shown in FIG. Product page title T 2 can be divided into 18 tokens. 9, calculates a product page title T 2 of the product page to be processed shown in FIG. 8, with the respective trade names n1~n4 shown in FIG. 6, according to the first and second processing of scores indicating the identity Results are shown. In FIG. 9, the score A is a score calculated by the first process, and the score B is a score calculated by the second process.
商品ページタイトルT2と商品名n1との、第1及び第2の処理によるスコア算出を具体的に説明する。まず、第1の処理によるスコアAの算出を説明する。The product page title T 2 and names n1, specifically described the score calculation by the first and second processing. First, calculation of the score A by the first process will be described.
実行部14は、商品ページタイトルT2「brandA abc08−bk eco 空気 清浄機 加湿 機能 花粉 ホコリ 黒 送料 無料 代引 不可 カード OK 省エネ 30m2」を、18のトークンに分割する。分割された18のトークンは、トークンt201「brandA」、トークンt202「abc08−bk」、トークンt203「eco」、トークンt204「空気」、トークンt205「清浄機」、トークンt206「加湿」、トークンt207「機能」、トークンt208「花粉」、トークンt209「ホコリ」、トークンt210「黒」、トークンt211「送料」、トークンt212「無料」、トークンt213「代引」、トークンt214「不可」、トークンt215「カード」、トークンt216「OK」、トークンt217「省エネ」、トークンt218「30m2」である。一方、商品名n1「brandA abc08−bk eco」は、3つのトークン(「brandA」、「abc08−bk」、「eco」)を含む。The
商品ページタイトルT2のトークンの集合をXとし、商品名n1のトークンの集合をYとすると、
|X∩Y|=3
|X∪Y|=18
となるので、商品ページタイトルT2と商品名n1との同一性を示すスコアAは、
J(X,Y)=0.167(=3/18)
となる。A set of tokens of the commodity page title T 2 and X, and the set of tokens of trade names n1 and Y,
| X∩Y | = 3
| X∪Y | = 18
Since a, score A indicating the identity of the commodity page title T 2 and the product name n1 is,
J (X, Y) = 0.167 (= 3/18)
It becomes.
続いて、商品ページタイトルT2に関する第2の処理によるスコアBの算出を説明する。商品ページタイトルT2のトークン及び商品名n1のトークンにおいて、共起するトークンの数は3である。また、商品ページタイトルT2のトークン数及び商品名n1のトークン数のうち、少ない方のトークン数は3である。従って、商品ページタイトルT2と商品名n1との同一性を示すスコアBは、1(=3/3)となる。商品ページタイトルT1と商品名n2〜n4のそれぞれとの同一性を示すスコアA及びスコアBについても、図9に示されるように、同様に算出される。Next, explaining the calculation of the score B according to the second processing on the product page title T 2. In token of the product page title T 2 of the token and product names n1, the number of tokens to the co-occurrence is 3. In addition, of the number of token items of token page title T 2 and product names n1, lesser number of tokens is 3. Therefore, the score B indicating the identity of the commodity page title T 2 and names n1 is 1 (= 3/3). For even scores A and scores B indicates the identity of the respective commodity page title T 1 and names N2 to N4, as illustrated in FIG. 9, is calculated in the same manner.
図9を参照すると、商品名n1〜n4に関するスコアAの中には、顕著に大きい値を示すものがない。一方、商品名n1に関するスコアBは、商品名n2〜n4に関するスコアBに比べて顕著に大きい値を示している。従って、含まれるトークン数が比較的多い商品ページタイトルT2と各商品名との同一性の判断においては、第1の処理によって算出されたスコアAより、第2の処理によって算出されたスコアBの方が好適である。Referring to FIG. 9, none of the scores A related to the product names n1 to n4 shows a significantly large value. On the other hand, the score B related to the product name n1 is significantly larger than the score B related to the product names n2 to n4. Therefore, in determining the identity between the product page title T 2 and the product names that contain a relatively large number of tokens, the score B calculated by the second process is calculated from the score A calculated by the first process. Is preferred.
商品ページタイトルのトークン数が多いか少ないかの特徴の推定に際して、基準となる所定値を適切な値に設定することにより、例えば商品ページタイトルT1のようなトークン数が比較的少ない商品ページタイトルは、トークン数が少ない特徴を有すると推定され、また、商品ページタイトルT2のようなトークン数が比較的多い商品ページタイトルは、トークン数が多い特徴を有すると推定される。In estimating Product Page token number more or less of the features of the title, by setting the predetermined value as a reference to an appropriate value, for example, the token number is relatively small items page title such as Product Page Title T 1 is estimated to have a characteristic number of tokens is smaller, also the token number is relatively large product page titles like products page title T 2 are, are estimated to have a number of features many tokens.
そのようにトークン数も関する特徴が推定されることにより、商品ページタイトルT1と各商品名との同一性は、第1の処理により算出されたスコアに基づいて判断され、商品ページタイトルT2と各商品名との同一性は、第2の処理により算出されたスコアに基づいて判断されることとなる。なお、トークン数の特徴の推定において基準となる所定値は、例えば、設計的に設定される値である。As such by the features relates token number is estimated, the identity of the commodity page title T 1 and each product name is determined based on the score calculated by the first processing, commodity page title T 2 And the identity of each product name are determined based on the score calculated by the second process. Note that the predetermined value serving as a reference in estimating the characteristics of the number of tokens is, for example, a value set by design.
従って、処理対象の商品ページに応じて、同一性が適切に反映されたスコアを算出することが可能となり、同一性が適切に反映されたスコアが用いられることとなるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。 Therefore, according to the product page to be processed, it is possible to calculate a score that appropriately reflects the identity, and a score that appropriately reflects the identity is used. It is possible to specify a product name having the same identity.
再び図1を参照して、特定部15は、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する部分である。
Referring again to FIG. 1, the specifying
例えば、商品ページタイトルT1を含む商品ページと同一性を有する商品名の特定に際しては、第1の処理によりスコアが算出されるので、特定部15は、図7に示したスコアAに応じて、同一性を有する商品名として商品名n1を特定する。For example, when a specific product name identity with the product page containing product page title T 1, since the score by the first process is calculated, the specifying
また、例えば、商品ページタイトルT2を含む商品ページと同一性を有する商品名の特定に際しては、第2の処理によりスコアが算出されるので、特定部15は、図9に示したスコアBに応じて、同一性を有する商品名として商品名n1を特定する。Further, for example, upon the particular trade name identity with the product page containing product page title T 2 are, since the score by the second process is calculated, the specifying
特定部15は、このように特定された正式な商品名を、商品ページ記憶部21において、当該商品ページに関連付けて記憶させることとしてもよい。また、特定部15は、同一性を有するものとして特定された商品名が同一の複数の商品ページのグループを形成するような関連付けデータを生成することとしてもよい。
The specifying
また、商品特定装置1は、商品ページ記憶部21における商品ページの商品ページタイトルの店舗による更新の状況を監視し、商品ページタイトルの変更の程度が所定範囲内である場合には、第1の処理及び第2の処理のうち従前に用いていた処理によりスコアを算出し、商品ページタイトルの変更の程度が所定範囲を超えた場合に、推定部13によるトークン数に関する特徴の推定処理を経て、推定された特徴に応じて第1の処理及び第2の処理のいずれかの処理によりスコアを算出することとしてもよい。
Further, the
なお、商品特定装置1は、ある店舗により入力された商品ページと同一性を有する商品名を特定する処理について、第1の処理に比べて第2の処理によりスコアが算出される頻度または割合が所定の程度以上である場合には、正式な商品名以外の語(例えば、いわゆるスパムワード)を商品ページに含ませることの抑制を求める通知を当該店舗に行う通知部を更に有することとしてもよい。
It should be noted that the
次に、図10を参照して、本実施形態の商品特定装置1の動作について説明する。図10は、商品特定装置1において実施される商品特定方法の処理内容を示すフローチャートである。
Next, with reference to FIG. 10, operation | movement of the goods
まず、商品ページ取得部11は、処理対象の商品ページを取得する(S1)。次に、商品名取得部12は、商品名記憶部22に記憶された正式な商品名を取得する(S2)。
First, the product
推定部13は、処理対象の商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する(S3)。続いて、実行部14は、ステップS3において推定された商品ページの商品ページタイトルに含まれるトークン数に関する特徴が、トークン数が所定の程度より少ないことを示すか否かを判定する(S4)。トークン数に関する特徴が、トークン数が所定の程度より少ないことを示すと判定された場合には、処理はステップS5に進められる。一方、トークン数に関する特徴が、トークン数が所定の程度より少ないことを示すと判定されなかった場合には、処理はステップS6に進められる。
The
ステップS5において、実行部14は、第1の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する(S5)。一方、ステップS6において、実行部14は、第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する(S6)。
In step S5, the
そして、特定部15は、第1の処理または第2の処理により算出されたスコアに応じて、商品ページと商品の同一性を有する商品名を特定する(S7)。
And the specific |
次に、図11を参照して、コンピュータを商品特定装置1として機能させるための商品特定プログラムを説明する。商品特定プログラムp1は、メインモジュールm10、商品ページ取得モジュールm11、商品名取得モジュールm12、推定モジュールm13、実行モジュールm14及び特定モジュールm15を備える。
Next, a product specifying program for causing a computer to function as the
メインモジュールm10は、商品特定処理を統括的に制御する部分である。商品ページ取得モジュールm11、商品名取得モジュールm12、推定モジュールm13、実行モジュールm14及び特定モジュールm15を実行することにより実現される機能はそれぞれ、図1に示される商品特定装置1の商品ページ取得部11、商品名取得部12、推定部13、実行部14及び特定部15の機能と同様である。
The main module m10 is a part that comprehensively controls the product specifying process. The functions realized by executing the product page acquisition module m11, the product name acquisition module m12, the estimation module m13, the execution module m14, and the specific module m15 are each a product
商品特定プログラムp1は、例えば、CD−ROMやDVD−ROMまたは半導体メモリ等の記憶媒体d1によって提供される。また、商品特定プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。 The product specifying program p1 is provided by a storage medium d1 such as a CD-ROM, a DVD-ROM, or a semiconductor memory, for example. Further, the product identification program p1 may be provided via a communication network as a computer data signal superimposed on a carrier wave.
以上説明した本実施形態の商品特定装置1、商品特定方法及び商品特定プログラムp1によれば、商品ページの商品ページタイトルに含まれるトークン数に関する特徴が推定され、推定された特徴に応じて、第1の処理または第2の処理により、商品名が示す商品と商品ページに係る商品との同一性を示すスコアを算出する処理が実行される。第1の処理は、商品ページタイトルに含まれるトークン数が少ない場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。一方、第2の処理は、商品ページタイトルに含まれるトークン数が多い場合に、商品名が示す商品と商品ページに係る商品との同一性が好適に反映されたスコアが算出される処理である。推定されたトークン数に関する特徴が、トークン数が所定の程度より少ないことを示す場合には第1の処理が実行され、トークン数が所定の程度以上であることを示す場合には第2の処理が実行されるので、処理対象の商品ページに応じて、同一性が適切に反映されたスコアが算出される。そして、同一性が適切に反映されたスコアが用いられるので、精度良く、商品ページと同一性を有する商品名を特定することが可能となる。
According to the
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。 The present invention has been described in detail based on the embodiments. However, the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the gist thereof.
1…商品特定装置、11…商品ページ取得部、12…商品名取得部、13…推定部、14…実行部、15…特定部、21…商品ページ記憶部、22…商品名記憶部、d1…記憶媒体、m10…メインモジュール、m11…商品ページ取得モジュール、m12…商品名取得モジュール、m13…推定モジュール、m14…実行モジュール、m15…特定モジュール、p1…商品特定プログラム。
DESCRIPTION OF
Claims (10)
少なくとも一つの予め設定された商品名を取得する商品名取得手段であって、前記商品名は、1以上の文字からなるトークンを1以上含む商品名取得手段と、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定手段と、
前記推定手段により推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行手段であって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行手段と、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定手段と、
を備える商品特定装置。A product page acquisition means for acquiring a product page to be processed, wherein the product page includes a text representing the product related to the product page and includes a product page title that can be divided into tokens composed of one or more characters. , Product page acquisition means,
Product name acquisition means for acquiring at least one preset product name, wherein the product name includes product name acquisition means including one or more tokens composed of one or more characters;
Estimating means for estimating characteristics relating to the number of tokens included in the product page title of the product page;
When the feature estimated by the estimating means indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, execution means for executing a second process, wherein the first process determines a ratio of the other of the token included in the product name and the token included in the product page title to the other. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution means for calculating a ratio in which one of the two is included in the other as a score indicating the identity;
A specifying means for specifying the product name having the same identity as the product page according to the score calculated by the first process or the second process;
A product identification device comprising:
前記推定手段は、前記店舗によって入力された1以上の商品ページの特徴に応じて、該処理対象の商品ページの商品ページタイトルのトークン数に関する特徴を推定する、
請求項1に記載の商品特定装置。The product name acquisition means acquires a product name set in advance by a person other than the store handling the product related to the processing target product page,
The estimation means estimates a feature related to the number of tokens of the product page title of the product page to be processed according to the feature of one or more product pages input by the store.
The product identification device according to claim 1.
請求項2に記載の商品特定装置。The estimation means estimates a feature related to the token number of the product page title of the product page to be processed based on a data amount constituting the product page input by a store handling the product related to the product page to be processed. ,
The product identification device according to claim 2.
請求項3に記載の商品特定装置。The estimation means estimates that the number of tokens of the product page title of the product page to be processed is greater than or equal to a predetermined level when the data amount is greater than or equal to a predetermined amount, and if the data amount is less than the predetermined amount , Estimate that the number of tokens in the product page title of the product page being processed is less than a certain amount,
The product identification device according to claim 3.
請求項3または4に記載の商品特定装置。The estimation means estimates a feature related to the number of tokens of the product page title of the product page to be processed based on the number of texts constituting the product page input by the store handling the product related to the product page to be processed. ,
The product identification device according to claim 3 or 4.
請求項3または4に記載の商品特定装置。The estimation means is characterized by the number of tokens of the product page title of the product page to be processed based on the number of tokens of the product page title included in the product page input by the store handling the product related to the product page to be processed. Estimate
The product identification device according to claim 3 or 4.
請求項2に記載の商品特定装置。The estimation means performs processing when the ratio of the number of tokens of the product page title included in the product page to be processed with respect to the number of tokens included in the product name acquired by the product name acquisition means is equal to or greater than a predetermined ratio. When the number of tokens of the product page title of the target product page is estimated to be greater than a predetermined level, and the ratio is less than the predetermined level, the number of tokens of the product page title of the target product page is less than the predetermined level To estimate,
The product identification device according to claim 2.
請求項1〜7のいずれか一項に記載の商品特定装置。The product name acquisition means acquires a product name including at least one product page title token included in the product page to be processed.
The product identification device according to any one of claims 1 to 7.
処理対象の商品ページを取得する商品ページ取得ステップであって、前記商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得ステップと、
少なくとも一つの予め設定された商品名を取得する商品名取得ステップであって、前記商品名は、1以上の文字からなるトークンを1以上含む、商品名取得ステップと、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定ステップと、
前記推定ステップにおいて推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行ステップであって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行ステップと、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定ステップと、
を有する商品特定方法。A product identification method in a product identification device,
A product page acquisition step for acquiring a product page to be processed, wherein the product page includes a product page title that includes text representing the product related to the product page and can be divided into tokens including one or more characters. , Product page acquisition step,
A product name acquisition step of acquiring at least one preset product name, wherein the product name includes one or more tokens including one or more characters;
An estimation step of estimating a feature related to the number of tokens included in the product page title of the product page;
If the feature estimated in the estimating step indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, it is an execution step of executing a second process, wherein the first process determines the ratio of the other match to one of the token included in the product name and the token included in the product page title. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution step of calculating a ratio in which one of the two is included in the other as a score indicating the identity;
In accordance with the score calculated by the first process or the second process, a specifying step of specifying the product name having the same product as the product page;
A product identification method.
処理対象の商品ページを取得する商品ページ取得機能であって、前記商品ページは、該商品ページに係る商品を表すテキストからなると共に1以上の文字からなるトークンに分割可能である商品ページタイトルを含む、商品ページ取得機能と、
少なくとも一つの予め設定された商品名を取得する商品名取得機能であって、前記商品名は、1以上の文字からなるトークンを1以上含む商品名取得機能と、
前記商品ページの商品ページタイトルに含まれるトークン数に関する特徴を推定する推定機能と、
前記推定機能により推定された特徴が、前記トークン数が所定の程度より少ないことを示す場合には第1の処理を実行し、前記特徴が、前記トークン数が所定の程度以上であることを示す場合には第2の処理を実行する実行機能であって、前記第1の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方に対する他方の一致の割合を、前記商品名が示す商品と前記商品ページに係る商品との同一性を示すスコアとして算出し、前記第2の処理は、前記商品名に含まれるトークン及び前記商品ページタイトルに含まれるトークンのうちの一方が他方に含まれる割合を、前記同一性を示すスコアとして算出する、実行機能と、
前記第1の処理または前記第2の処理により算出されたスコアに応じて、前記商品ページと商品の同一性を有する前記商品名を特定する特定機能と、
を実現させる商品特定プログラム。On the computer,
A product page acquisition function for acquiring a product page to be processed, wherein the product page includes a product page title that includes text representing the product related to the product page and can be divided into tokens including one or more characters. , Product page acquisition function,
A product name acquisition function for acquiring at least one preset product name, wherein the product name includes a product name acquisition function including one or more tokens including one or more characters;
An estimation function for estimating a characteristic regarding the number of tokens included in the product page title of the product page;
When the feature estimated by the estimation function indicates that the number of tokens is less than a predetermined level, a first process is executed, and the feature indicates that the number of tokens is equal to or higher than a predetermined level. In this case, the execution function executes a second process, and the first process determines a matching ratio of the other of the token included in the product name and the token included in the product page title. , A score indicating the identity between the product indicated by the product name and the product related to the product page is calculated, and the second process includes a token included in the product name and a token included in the product page title. An execution function for calculating a ratio indicating that one of the two is included in the other as a score indicating the identity;
According to the score calculated by the first process or the second process, a specifying function for specifying the product name having the same product as the product page;
Product identification program that realizes
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/065615 WO2016194062A1 (en) | 2015-05-29 | 2015-05-29 | Product identification device, product identification method, and product identification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5887031B1 true JP5887031B1 (en) | 2016-03-16 |
JPWO2016194062A1 JPWO2016194062A1 (en) | 2017-06-15 |
Family
ID=55523992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015548519A Active JP5887031B1 (en) | 2015-05-29 | 2015-05-29 | Product identification device, product identification method, and product identification program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5887031B1 (en) |
WO (1) | WO2016194062A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019533246A (en) * | 2016-10-11 | 2019-11-14 | イーベイ インク.Ebay Inc. | Select product title |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6698041B2 (en) * | 2017-02-09 | 2020-05-27 | 株式会社Zozoテクノロジーズ | Information processing apparatus, method and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011105606A1 (en) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
JP2013101415A (en) * | 2010-02-26 | 2013-05-23 | Language Craft Kenkyusho:Kk | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer |
JP2013200771A (en) * | 2012-03-26 | 2013-10-03 | Rakuten Inc | Information processing apparatus, information processing method, information processing program, and recording medium |
-
2015
- 2015-05-29 JP JP2015548519A patent/JP5887031B1/en active Active
- 2015-05-29 WO PCT/JP2015/065615 patent/WO2016194062A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011105606A1 (en) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
JP2013101415A (en) * | 2010-02-26 | 2013-05-23 | Language Craft Kenkyusho:Kk | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer |
JP2013200771A (en) * | 2012-03-26 | 2013-10-03 | Rakuten Inc | Information processing apparatus, information processing method, information processing program, and recording medium |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019533246A (en) * | 2016-10-11 | 2019-11-14 | イーベイ インク.Ebay Inc. | Select product title |
US11580589B2 (en) | 2016-10-11 | 2023-02-14 | Ebay Inc. | System, method, and medium to select a product title |
Also Published As
Publication number | Publication date |
---|---|
JPWO2016194062A1 (en) | 2017-06-15 |
WO2016194062A1 (en) | 2016-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170161375A1 (en) | Clustering documents based on textual content | |
JP5316158B2 (en) | Information processing apparatus, full-text search method, full-text search program, and recording medium | |
CN107704512B (en) | Financial product recommendation method based on social data, electronic device and medium | |
US8073865B2 (en) | System and method for content extraction from unstructured sources | |
US11442694B1 (en) | Merging database tables by classifying comparison signatures | |
WO2017216980A1 (en) | Machine learning device | |
JP5445787B2 (en) | Attribute extraction method, system and program | |
US8396935B1 (en) | Discovering spam merchants using product feed similarity | |
JP2010079657A (en) | Information processor, information processing method, and program | |
JP5670787B2 (en) | Information processing apparatus, form type estimation method, and form type estimation program | |
CN104915440B (en) | A kind of commodity rearrangement and system | |
KR102402466B1 (en) | Method and apparatus for summarizing document using keyword clustering | |
WO2017203672A1 (en) | Item recommendation method, item recommendation program, and item recommendation apparatus | |
JP6003637B2 (en) | Information processing apparatus, node extraction program, and node extraction method | |
JP5887031B1 (en) | Product identification device, product identification method, and product identification program | |
JP4973503B2 (en) | File search program, method and apparatus | |
US20200104901A1 (en) | Information processing apparatus | |
JP2015203961A (en) | document extraction system | |
JP2018005403A (en) | Device, method, and program for estimating issues | |
WO2014061285A1 (en) | Corpus generating device, corpus generating method, and corpus generating program | |
JP5559750B2 (en) | Advertisement processing apparatus, information processing system, and advertisement processing method | |
JP2016110256A (en) | Information processing device and information processing program | |
JP6252296B2 (en) | Data identification method, data identification program, and data identification apparatus | |
US9740681B2 (en) | Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer | |
WO2015159702A1 (en) | Partial-information extraction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5887031 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |