JP2018128883A - 情報処理装置、方法およびプログラム - Google Patents

情報処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2018128883A
JP2018128883A JP2017021821A JP2017021821A JP2018128883A JP 2018128883 A JP2018128883 A JP 2018128883A JP 2017021821 A JP2017021821 A JP 2017021821A JP 2017021821 A JP2017021821 A JP 2017021821A JP 2018128883 A JP2018128883 A JP 2018128883A
Authority
JP
Japan
Prior art keywords
product
information
specifying information
product specifying
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017021821A
Other languages
English (en)
Other versions
JP6698041B2 (ja
Inventor
雅幸 今村
Masayuki Imamura
雅幸 今村
健弘 塩崎
Takehiro Shiozaki
健弘 塩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zozo Next Inc
Original Assignee
Vasily Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vasily Inc filed Critical Vasily Inc
Priority to JP2017021821A priority Critical patent/JP6698041B2/ja
Publication of JP2018128883A publication Critical patent/JP2018128883A/ja
Application granted granted Critical
Publication of JP6698041B2 publication Critical patent/JP6698041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】商品を特定する情報に統一性がない場合でも、複数の電子商取引サイトに掲載されている商品の名寄せ処理を行うことができる情報処理装置を提供すること。【解決手段】複数の電子商取引サイトの商品に関するページ情報を記憶する記憶部21と、ページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成部12と、商品特定情報生成部12により生成された商品特定情報を登録する登録部13とを備える。登録部13は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、同一である場合には、商品特定情報生成部12により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、同一でない場合には、商品特定情報生成部12により生成された商品特定情報を新規の商品特定情報として登録する。【選択図】図1

Description

本発明は、電子商取引サイトに掲載されている情報を処理する情報処理装置、方法およびプログラムに関する。
現在、電子商取引(EC、electronic commerce)サイトを利用して商品を購入する機会が増えている。
ECサイトの利用者は、PC等の端末を用いてECサイトにアクセスし、表示されている商品の中から任意の商品を選択してクレジットカード決済等を行うと、商品の購入が成立し、その後、商品が指定場所(例えば、利用者の自宅)へ配送される。
このように、利用者は、ECサイトを利用することにより、実店舗を訪れることなく、自宅や職場に居ながら商品を購入することができる。
さらに、複数のECサイトにおいて、同一商品を扱っている場合があり、どこのECサイトが最安値で売っているのかの情報を提供するサービスがある(例えば、特許文献1を参照。)。
特許文献1によれば、複数の販売者に関し、各商品について各販売者が採用する販売価格を、販売者からの入力に基づいて当該販売者の情報に対応づけて記憶して更新する販売者対応工程と、商品ごとに低価格順における上位所定数内に含まれる販売価格及び対応する販売者の情報を抽出し、価格順位情報として記憶して更新する順位記憶工程と、ユーザからの入力に基づいて価格順位情報を読み出し、当該ユーザに対し出力するユーザ対応工程とを備える情報処理システムが開示されている。
特開2001−256356号公報
しかしながら、特許文献1に記載の情報処理システムが対象とする商品は、商品を特定する情報(例えば、ブランド名、商品ID、色、サイズなど)が製造番号などにより会社や業界団体などによって管理され、統一性がある場合に限られ、商品を特定する情報に統一性がない場合には、複数のECサイトで扱われている商品を特定し、名寄せ処理することが困難となり、同一商品がどこのECサイトで扱われているのかを表示することが困難になる。
特に、商品が被服や靴などのファッションアイテムの場合、ECサイトが独自の手法によってブランド名や商品IDや色やサイズなどを付与している場合があり、複数のECサイトに掲載されている商品の名寄せ処理が困難である。
本発明では、商品を特定する情報に統一性がない場合でも、複数のECサイトに掲載されている商品の名寄せ処理を行うことができる情報処理装置、方法およびプログラムを提供することを目的とする。
上記目的を達成するために、本発明の一態様における情報処理装置は、複数の電子商取引サイトの商品に関するページ情報を記憶する記憶部と、前記ページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成部と、前記商品特定情報生成部により生成された商品特定情報を登録する登録部とを備え、前記商品特定情報は、複数の項目から構成され、前記登録部は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、同一である場合には、前記商品特定情報生成部により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、同一でない場合には、前記商品特定情報生成部により生成された商品特定情報を新規の商品特定情報として登録する。
また、本発明の一態様における情報処理方法は、複数の電子商取引サイトの商品に関するページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成工程と、前記商品特定情報生成工程により生成された商品特定情報を登録する登録工程とを備え、前記商品特定情報は、複数の項目から構成され、前記登録工程は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、同一である場合には、前記商品特定情報生成工程により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、同一でない場合には、前記商品特定情報生成工程により生成された商品特定情報を新規の商品特定情報として登録する。
また、本発明の一態様における情報処理プログラムは、複数の電子商取引サイトの商品に関するページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成工程と、前記商品特定情報生成工程により生成された商品特定情報を登録する登録工程と、をコンピュータによって実現するための情報処理プログラムであって、前記商品特定情報は、複数の項目から構成され、前記登録工程は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、同一である場合には、前記商品特定情報生成工程により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、同一でない場合には、前記商品特定情報生成工程により生成された商品特定情報を新規の商品特定情報として登録する。
本発明によれば、商品を特定する情報に統一性がない場合でも、複数のECサイトに掲載されている商品の名寄せ処理を行うことができる。
情報処理装置の構成を示すブロック図である。 登録部により商品特定情報が登録される際に生成されるテーブルを模式的に示す図である。 既登録情報と同一である場合におけるテーブルの登録処理についての説明に供する図である。 既登録情報と同一ではない場合におけるテーブルの登録処理についての説明に供する図である。 Webページのトップページの構成例を示す図である。 商品の詳細ページの構成例を示す図である。 情報処理装置による名寄せ処理の手順についての説明に供するフローチャートである。
以下、本発明の実施形態に係る情報処理装置、方法およびプログラムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。
情報処理装置1は、各電子商取引サイト(以下、「ECサイト」という。)に掲載されている商品情報に基づいて、商品ごとに商品を特定するための商品特定情報を生成し、当該商品特定情報により商品の名寄せ処理を行う。つまり、情報処理装置1は、ECサイト3において、商品を特定するための情報に統一性がない場合でも、SKU(Stock Keeping Unit)レベルで商品特定情報を生成し、横断的に複数のECサイト3に掲載されている商品の名寄せ処理を行う。なお、本実施形態では、商品は、被服や靴等のファッションアイテムを対象とするが、バッグやアクセサリーなどのアイテムであってもよい。また、SKUとは、商品を管理する際の最小単位を意味する。例えば、シャツのブランドおよびサイズはフリーサイズで共通であるが、色が赤、白、黒の三種類ある場合、3つのSKUがあることになる。
情報処理装置1は、図1に示すように、ページ情報抽出部11と、記憶部21とを備える。
ページ情報抽出部11は、ネットワーク2を介してECサイト3にアクセスし、ECサイト3をクロールし、商品に関するページ情報を抽出する。なお、ページ情報抽出部11は、定期的(例えば、1日1回)にECサイト3にアクセスするものとする。また、商品に関するページ情報は、ECサイト3の運営者等から定期的(例えば、1日1回)に提供される構成でもよい。記憶部21は、複数のECサイトの商品に関するページ情報を記憶する。
商品に関するページ情報とは、ECサイト3に掲載されている商品に関連する情報であり、例えば、販売元(商品を販売しているECサイト)の情報や、商品のブランドや、色や、サイズなどの情報である。
ページ情報抽出部11は、予め登録されているECサイト3にアクセスし、ECサイト3のページ構造を解析して、商品に関するページ情報を抽出する。例えば、ページ情報抽出部11は、XPATH(XML Path Language)によりECサイト3のHTMLの要素を抽出して、ページ構造を解析し、例えば、ページのレイアウトを分析したり、テキストデータと画像データを選別する。選別されたテキストデータは、HTMLの要素により、商品名やブランド名などの項目の判別もされる。つまり、商品に関するページ情報には、複数の項目ごとのテキストデータ(以下、「メタデータ」という。)と画像データとが含まれている。
例えば、ページ情報抽出部11は、メタデータの解析結果に基づいて、商品のブランド情報が掲載されている場所からブランド名を特定する。なお、ECサイト3によって同じブランド名でも表記ゆれが生じている場合があるので、正規化処理を行うことにより、ブランド名の統一化を行う。
同様に、ページ情報抽出部11は、メタデータの解析結果に基づいて、商品IDや色情報やサイズ情報を特定する。商品IDとは、ECサイト3の管理者が商品の生産者や提供者に問い合わせるときに利用するIDである。
なお、本実施例では、メタデータには、ブランド情報、商品ID、色情報、サイズ情報が含まれるものとして説明するが、これに限らず、タイトル、商品の説明文、定価情報、割引価格情報、値引き前価格情報、パンくずリスト、性別情報、洗濯情報、素材情報、原産国情報、商品番号、サイズ情報などの他の情報が含まれてもよい。なお、パンくずリストとは、ページの最上部に表示される情報であり、ユーザがWEBサイト内のどの位置にいるのかを視覚的に分かりやすくするため、上位の階層となるWEBページを階層順にリストアップしてリンクを設置したリストのことである。記憶部21には、ページ情報抽出部11により抽出された商品に関するページ情報が記憶される。
また、情報処理装置1は、図1に示すように、商品特定情報生成部12と、登録部13とを備える。
商品特定情報生成部12は、記憶部21に記憶されているページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する。商品特定情報は、複数の項目(例えば、ブランド情報、商品ID、色情報、サイズ情報)から構成されている。
登録部13は、商品特定情報生成部12により生成された商品特定情報を登録する。また、登録部13は、商品特定情報を登録する場合に、既に登録されている商品特定情報(以下、「既登録情報」という。)と同一であるかどうかの判定を行う。登録部13は、同一であると判定した場合には、商品特定情報生成部12により生成された商品特定情報を既登録情報に関連付ける処理を行い、同一でないと判定した場合には、商品特定情報生成部12により生成された商品特定情報を新規の商品特定情報として登録する。登録部13は、新規に商品特定情報を登録する場合、当該商品特定情報に固有のSKUIDを付与する。
具体的には、登録部13は、商品特定情報を登録する場合に商品特定情報に含まれているブランド情報、商品ID、色情報、サイズ情報のそれぞれの一致度に基づいて、既登録情報と同一であるかどうかの判定を行う。
<登録部による登録処理>
ここで、登録部13の具体的な処理について図2を用いて説明する。図2(a)には、商品登録情報が固有のSKUIDに関連付けられているテーブルを模式的に示す。なお、図2(a)に示すテーブルには、商品のブランド情報と、商品IDと、色情報と、サイズ情報とが固有のSKUIDに関連付けられているが、他の情報(例えば、商品の価格情報や原産地情報など)もSKUIDに関連付けてもよい。また、図2(b)は、SKUIDにECサイト3のドメインの情報(URL)が関連付けられているテーブルを模式的に示す。また、図2(c)は、商品IDに画像データのID(画像ID)が関連付けられているテーブルを模式的に示す。
また、以下では、商品特定情報生成部12により、商品特定情報Aと商品特定情報Bが生成された場合を想定して説明する。商品特定情報Aは、ブランド情報が「BBB」、商品IDが「08112444」、色情報が「レッド」、サイズ情報が「S」であるとする。また、商品特定情報Bは、ブランド情報が「CCC」、商品IDが「12499551」、色情報が「ホワイト」、サイズ情報が「L」であるとする。
登録部13は、商品特定情報Aと同一の情報が既登録情報に含まれているかどうかを判断する。登録部13は、図2(a)に示すテーブルを参照し、商品特定情報Aと同一の情報があるかどうかを判断する。登録部13は、商品特定情報AとSKUID「01235569」の情報が同一であると判断し、商品特定情報Aを新規登録しない。
登録部13は、図3(a)に示すように、商品特定情報Aに関連付けられているドメインの情報(URL:http://www.・・・X)をSKUID「01235569」に関連付ける処理を行う。また、登録部13は、図3(b)に示すように、商品特定情報Aに関連付けられている画像データ(画像ID:90882)を商品ID「08112444」に関連付ける処理を行う。
登録部13は、商品特定情報Bと同一の情報が既登録情報に含まれているかどうかを判断する。商品特定情報Bと同一の既登録情報がないので、登録部13は、図4(a)に示すように、商品特定情報Bに固有のSKUID「82584430」を付与して、登録の処理を行う。登録部13は、図4(b)に示すように、商品特定情報Bに関連付けられているドメインの情報(URL:http://www.・・・Y)をSKUID「82584430」に関連付ける処理を行う。また、登録部13は、図4(c)に示すように、商品特定情報Bに関連付けられている画像データ(例えば、3つの画像データがあり、画像ID:30998,30999,30100とする)を商品ID「12499551」に関連付ける処理を行う。
<ルールベース処理>
つぎに、商品特定情報生成部12の動作について説明する。商品特定情報生成部12は、任意に設定したルールに基づいてメタデータを解析処理し、商品特定情報を生成する。ECサイト3では、独自の手法によってブランド名や色などの情報を付与しており、表現に統一性がなく、表記ゆれが生じている。例えば、同一の商品において、色を「赤」と表示しているECサイト3もあれば、「レッド」と表示しているECサイト3などがある。また、「レッド」と表示すべきところを「レット」と誤記表示しているECサイト3もある。
商品特定情報生成部12は、このような表記ゆれや誤記などをルールベースによって正規化し、統一性のある表現に変更する。
例えば、メタデータの文字コードがUnicodeの場合、文字を互換等価性によって分解し、その後、正準等価性によって再結合することによりUnicode正規化(NFKC、Normalization Form Compatibility Composition)を行う。なお、正規化は、NFKCに限らず、互換等価性に基づく分解による正規化(NFKD、Normalization Form Compatibility Decomposition)などでもよい。
また、商品特定情報生成部12は、文字列両端に空白がある場合には、空白を削除する処理(例えば、「 レッド 」→「レッド」)や、括弧とそれに含まれている文字がある場合には、括弧と当該文字を削除する処理(例えば、「レッド(10)」→「レッド」)や、GRAYの表記ゆれを統一する処理(例えば、「GREY」→「GRAY」)などを設定し、ルールベースでメタデータの色情報を正規化処理する。
また、商品特定情報生成部12は、サイズ情報についても同様に、Unicode正規化(例えば、NFKC)処理や、空白を削除する処理や、サイズの先頭にある文字(例えば、「#」など)を削除する処理などを設定し、ルールベースでメタデータのサイズ情報を正規化処理する。
つまり、SKUIDは、ブランド情報と、商品IDと、正規化された色情報と、正規化されたサイズ情報とから構成される。
このようにして、情報処理装置1は、商品特定情報に統一性がない場合でも、商品特定情報生成部12によりルールベースによってメタデータを正規化処理することにより、表記ゆれや誤記などを正規化し、統一性のある商品特定情報を生成するので、複数のECサイト3に掲載されている商品の名寄せ処理を行うことができる。なお、ルールベースで処理できない情報があった場合には、当該情報を統一化できるように、新たなルールを追加する構成を有していてもよい。
<機械学習ベース処理>
また、ルールベースでは、事前に想定された表記ゆれや誤記などの統一化を行うことはできるが、ルールとして設定されていない情報を統一化することが困難である。そこで、情報処理装置1は、ルールベースにより一部の商品特定情報に対して統一化を行うことができなかった場合、機械学習ベースの処理を行うことにより、商品の同一性判定を行う構成を有する。
具体的には、登録部13は、商品特定情報の一部が欠損している場合、機械学習を利用してメタデータを解析処理し、解析処理した結果に基づいて、既登録情報により特定される商品と同一であるかどうかの判定を行う。登録部13は、同一であると判定した場合には、解析処理の対象となった商品の商品特定情報を既登録情報に関連付ける処理を行い、同一でないと判定した場合には、解析処理の対象となった商品の商品特定情報を新規の商品特定情報として登録する。
登録部13は、過去に名寄せ処理を行った商品特定情報を教師データとして保有する。登録部13は、教師データに基づいて、商品の同一性の判定を行うためのモデルを構築する。
よって、情報処理装置1は、機械学習ベースによって商品の組み合わせを学習し、ルールベースでは処理しきれなかった表記ゆれを吸収し、商品の同一性の判定を行うことができる。具体的には、例えばSKUIDを特定するために必須のブランドIDが欠損している場合に、その他に含まれる定価情報や商品の説明文などを上記のモデルに入力することで、商品の同一性の判定を行い、欠損している情報を補完して登録を行うことができる。
なお、上述では、ルールベースでは商品の同一性を判定できなかったときに、機械学習ベースによる商品の同一性の判定を行う場合について説明したが、これに限られず、常に機械学習ベースによる商品の同一性の判定を行う構成であってもよい。当該構成によれば、ルールベースと機械学習ベースを併用することにより、商品の名寄せ処理の精度を向上させることができる。
<画像データに基づく処理>
さらに、情報処理装置1は、画像データに基づく処理を行って、商品の同一性判定を行う構成を有する。
具体的には、登録部13は、商品特定情報の一部が欠損している場合、画像データを解析処理し、解析処理した結果に基づいて、既登録情報に関連付けられている画像データと類似度判定を行う。登録部13は、類似度が所定値以上の場合、解析処理の対象となった画像データの商品特定情報を既登録情報に関連付ける処理を行い、類似度が所定値未満の場合、解析処理の対象となった画像データの商品特定情報を新規の商品特定情報として登録する。
つまり、登録部13は、ルールベースでは既登録情報の商品との同一性を判定できなかった商品の画像データと、既登録情報に関連付けられている画像データの類似度判定を行う。
画像の類似度判定は、例えば、既登録情報の画像データをデータベースに登録し、各画像データの特徴量を計算しておく。そして、同一性を判定できなかった商品の画像データの特徴量を計算し、データベースに登録されている画像データの特徴量とマッチング処理を行うことにより、画像の類似度を判定する。なお、画像の類似度判定は、ディープラーニング等の他の手法を用いて行ってもよい。
よって、情報処理装置1は、画像データの類似度判定によって、ルールベースでは同一性を判定できなかった商品の同一性の判定を行うことができる。
<商品ごとに名寄せしたWebページの生成>
情報処理装置1は、図1に示すように、登録部13により登録された商品特定情報に基づいて、商品ごとに名寄せしたWebページを生成するWebページ生成部14を備える。
Webページは、複数のページから構成されている。トップページは、図5に示すように、性別を選択する領域X1と、商品のカテゴリを選択する領域X2と、商品が表示される領域X3により構成されている。
ユーザは、領域X1において、「すべての商品」、「レディース」、「メンズ」、および「キッズ」の中から所望の項目を選択する。また、PC(Personal Computer)などのユーザ端末4を利用して、領域X1の項目のいずれかにマウスカーソルが重ねられると、カテゴリがポップアップ表示される。ユーザは、ポップアップ表示されている中から所望のカテゴリを選択することができる。
領域X2には、領域X1において選択された項目に応じて選択可能なカテゴリが表示される。また、ユーザ端末4により、領域X2の項目のいずれかにマウスカーソルが重ねられると、項目(例えば、「トップス」)の詳細なカテゴリ(例えば、「Tシャツ・カットソー」、「シャツ・ブラウス」、「ベスト」、「パーカー」など)がポップアップ表示される。ユーザは、ポップアップ表示されている中から所望の詳細なカテゴリ(例えば、「パーカー」)を選択することができる。
領域X3には、領域X1と領域X2の選択に基づく、商品が人気順に表示される。図5に示す例では、領域X1において、「レディース」が選択され、領域X2において、「すべて」のカテゴリが選択されている場合を示している。また、領域X3には、レディースのすべての商品が人気順に表示されている。
また、領域X3は、商品ごとに詳細情報が表示される。詳細情報には、商品の代表画像と、商品の色情報と、商品名情報と、ブランド情報と、価格(割引後価格)情報と、定価からの値引き率情報と、商品を購入可能なサイト数の情報などが含まれている。なお、Webページ生成部14は、複数のECサイト3に掲載されている同一商品の画像データの中から、解像度が最も高い画像データを商品の代表画像に選択する構成でもよい。また、価格情報や定価からの値引き率情報は、代表画像が掲載されているECサイト3の情報を用いてもよいし、最も安い価格情報を用いてもよい。
また、ユーザは、検索領域X4を利用して、所望の商品を直接検索することもできる。検索領域X4に入力されたキーワードに基づいて、商品を検索し、検索された商品の候補が領域X3に表示される。
また、領域X3に表示されている中から所望の商品を選択すると、図6に示すように、商品の詳細ページに遷移する。
商品の詳細ページは、商品の画像データが表示される画像データ表示領域X11と、商品特定情報が表示される領域X12と、商品の購入が可能なECサイト3の情報を示す領域X13とから構成される。
画像データ表示領域X11には、複数のECサイト3において同一と判定された商品の画像データが表示される。画像データ表示領域X11は、商品の画像データが表示される領域X11aと、画像データのサムネイル画像が表示される領域X11bとから構成されている。領域X11bの中からサムネイル画像が選択されると、領域X11aに選択されたサムネイル画像に対応する画像データが表示される。また、領域X11aにマウスカーソルが重ねられると、画像データの一部を拡大した画像がポップアップ表示される。よって、ユーザは、商品をより細かくチェックすることができる。
ここで、Webページ生成部14は、同一の商品に関連付けられている画像データの類似度を判定し、類似度が所定値以上の画像データが複数個存在する場合、一の画像データのみを画像データ表示領域X11に表示するように処理する構成でもよい。
領域X11bには、Webページ生成部14により同一の画像データが表示されないように処理された画像データのサムネイル画像が並ぶことになる。よって、ユーザは、画像データ表示領域X11において画像データを切り替えて表示するときに、同一の画像データを何度も閲覧することなく、快適に様々な同一商品の画像データを閲覧することができる。
また、領域X12には、ブランド情報、商品ID、色情報、サイズ情報などが表示される。図6に示す例では、ブランド情報として「BBB」が表示され、商品IDとして「15559901」が表示され、色情報(色を選ぶ項目)として「ブラック、オフホワイト」が選択可能に表示され、サイズ情報(サイズを選ぶ項目)として「S、M、L」が選択可能に表示されている。また、画像データ表示領域X11には、カテゴリの情報なども表示される。
また、ユーザは、色を選ぶ項目から所望の色を選び、サイズを選ぶ項目から所望のサイズを選ぶと、領域X13に選んだ条件にマッチしたECサイト3の情報が表示される。領域X13には、ユーザが選んだ条件の商品を取り扱っていない場合や、商品の在庫がない場合には、その旨が表示される。
また、ユーザは、領域X13に表示されている販売元の「サイトで購入」を選択すると、販売元のECサイト3に遷移し、当該ECサイト3において商品の購入を行うことができる。
このようにして、情報処理装置1は、複数のECサイト3において、同一商品に対して、統一性のない表記を行っている場合であっても、商品の名寄せ処理を行うことができるので、Webページ生成部14により生成されたWebページにより、同一商品の情報をまとめて提供することができる。よって、情報処理装置1は、複数のECサイト3を閲覧しなくても、情報処理装置1により生成されるWebページを閲覧するだけで、複数のECサイト3で販売されている同一商品の情報をまとめて提供することができるので、利便性の高いサービスをユーザに提供することができる。
<方法>
つぎに、情報処理装置1による商品の名寄せを行う手順について、図7に示すフローチャートを用いて説明する。
ステップS1において、ページ情報抽出部11は、予め登録されているECサイト3にアクセスする。
ステップS2において、ページ情報抽出部11は、ECサイト3のページ構造を解析して、商品に関するページ情報を抽出する。なお、商品に関するページ情報には、複数の項目ごとのテキストデータ(メタデータ)と画像データとが含まれている。
ステップS3において、商品特定情報生成部12は、メタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する。商品特定情報は、複数の項目(例えば、ブランド情報、商品ID、色情報、サイズ情報)から構成されている。
ステップS4において、登録部13は、ステップS3の工程により生成された商品特定情報を登録する場合に、既登録情報と同一であるかどうかの判定を行う。既登録情報と同一であると判定された場合(Yes)には、ステップS5に進み、既登録情報と同一ではないと判定された場合(No)には、ステップS6に進む。
ステップS5において、登録部13は、ステップS3の工程により生成された商品特定情報を既登録情報に関連付ける処理を行う。
ステップS6において、登録部13は、ステップS3の工程により生成された商品特定情報を新規の商品特定情報として登録する。なお、登録部13は、新規に商品特定情報を登録する場合、当該商品特定情報に固有のSKUIDを付与する。
このようにして、情報処理装置1は、商品を特定する情報に統一性がない場合でも、複数のECサイト3に掲載されている商品の名寄せ処理を行うことができる。
<プログラム>
また、本実施例では、主に、商品を特定する情報に統一性がない場合でも、複数のECサイト3に掲載されている商品の名寄せ処理を行う情報処理装置1の構成と動作について説明したが、これに限られず、各構成要素を備え、商品を特定する情報に統一性がない場合でも、複数のECサイト3に掲載されている商品の名寄せ処理を行うための方法、およびプログラムとして構成されてもよい。
また、情報処理装置1を構成する各機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
具体的には、当該プログラムは、複数のECサイト3の商品に関するページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成工程と、商品特定情報生成工程により生成された商品特定情報を登録する登録工程と、をコンピュータによって実現するためのプログラムである。商品特定情報は、複数の項目から構成される。また、登録工程は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、同一であると判定した場合には、商品特定情報生成工程により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、同一でないと判定した場合には、商品特定情報生成工程により生成された商品特定情報を新規の商品特定情報として登録する。
さらに、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間で動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 情報処理装置、2 ネットワーク、3 ECサイト、4 ユーザ端末、11 ページ情報抽出部、12 商品特定情報生成部、13 登録部、14 Webページ生成部、21 記憶部

Claims (12)

  1. 複数の電子商取引サイトの商品に関するページ情報を記憶する記憶部と、
    前記ページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成部と、
    前記商品特定情報生成部により生成された商品特定情報を登録する登録部とを備え、
    前記商品特定情報は、複数の項目から構成され、
    前記登録部は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、
    同一であると判定した場合には、前記商品特定情報生成部により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、
    同一でないと判定した場合には、前記商品特定情報生成部により生成された商品特定情報を新規の商品特定情報として登録する情報処理装置。
  2. 前記商品特定情報生成部は、任意に設定したルールに基づいて前記メタデータを解析処理し、前記商品特定情報を生成する請求項1記載の情報処理装置。
  3. 前記登録部は、前記商品特定情報の一部が欠損している場合、機械学習を利用して前記メタデータを解析処理し、解析処理した結果に基づいて、既に登録されている商品特定情報により特定される商品と同一であるかどうかの判定を行い、
    同一であると判定した場合には、前記解析処理の対象となった商品の商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、
    同一でないと判定した場合には、前記解析処理の対象となった商品の商品特定情報を新規の商品特定情報として登録する請求項1または2に記載の情報処理装置。
  4. 前記登録部は、前記商品特定情報の一部が欠損している場合、前記画像データを解析処理し、解析処理した結果に基づいて、既に登録されている商品特定情報に関連付けられている画像データと類似度判定を行い、
    類似度が所定値以上の場合、前記解析処理の対象となった画像データの商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、
    類似度が所定値未満の場合、前記解析処理の対象となった画像データの商品特定情報を新規の商品特定情報として登録する請求項1から3のいずれか一項に記載の情報処理装置。
  5. 電子商取引サイトのページ構造を解析し、前記商品に関するページ情報を抽出するページ情報抽出部を備え、
    前記記憶部には、前記ページ情報抽出部により抽出された商品に関するページ情報が記憶される請求項1から4のいずれか一項に記載の情報処理装置。
  6. ページ情報抽出部は、XPATH(XML Path Language)により電子商取引サイトのHTMLの要素を抽出することにより、ページ構造を解析する請求項5記載の情報処理装置。
  7. 前記メタデータは、ブランド情報、商品ID、色情報、サイズ情報を含む請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記登録部は、商品特定情報を登録する場合に商品特定情報に含まれているブランド情報、商品ID、色情報、サイズ情報のそれぞれの一致度に基づいて、既に登録されている商品特定情報と同一であるかどうかの判定を行う請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記登録部により登録された商品特定情報に基づいて、商品ごとに名寄せしたWebページを生成するWebページ生成部を備える請求項1から8のいずれか一項に記載の情報処理装置。
  10. 前記Webページは、少なくとも、前記商品特定情報が表示される領域と、商品の画像データが表示される画像データ表示領域とから構成され、
    前記Webページ生成部は、同一の商品に関連付けられている画像データの類似度を判定し、類似度が所定値以上の画像データが複数個存在する場合、一の画像データのみを前記画像データ表示領域に表示するように処理する請求項9記載の情報処理装置。
  11. 複数の電子商取引サイトの商品に関するページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成工程と、
    前記商品特定情報生成工程により生成された商品特定情報を登録する登録工程とを備え、
    前記商品特定情報は、複数の項目から構成され、
    前記登録工程は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、
    同一である場合には、前記商品特定情報生成工程により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、
    同一でない場合には、前記商品特定情報生成工程により生成された商品特定情報を新規の商品特定情報として登録する情報処理方法。
  12. 複数の電子商取引サイトの商品に関するページ情報に含まれているメタデータと画像データに基づいて、商品を特定するための商品特定情報を生成する商品特定情報生成工程と、
    前記商品特定情報生成工程により生成された商品特定情報を登録する登録工程と、をコンピュータによって実現するための情報処理プログラムであって、
    前記商品特定情報は、複数の項目から構成され、
    前記登録工程は、商品特定情報を登録する場合に、既に登録されている商品特定情報と同一であるかどうかの判定を行い、
    同一である場合には、前記商品特定情報生成工程により生成された商品特定情報を既に登録されている商品特定情報に関連付ける処理を行い、
    同一でない場合には、前記商品特定情報生成工程により生成された商品特定情報を新規の商品特定情報として登録する情報処理プログラム。
JP2017021821A 2017-02-09 2017-02-09 情報処理装置、方法およびプログラム Active JP6698041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017021821A JP6698041B2 (ja) 2017-02-09 2017-02-09 情報処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017021821A JP6698041B2 (ja) 2017-02-09 2017-02-09 情報処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018128883A true JP2018128883A (ja) 2018-08-16
JP6698041B2 JP6698041B2 (ja) 2020-05-27

Family

ID=63172957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017021821A Active JP6698041B2 (ja) 2017-02-09 2017-02-09 情報処理装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6698041B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021033285A1 (ja) * 2019-08-21 2021-02-25 日本電気株式会社 処理装置、処理方法及びプログラム
JP2022515617A (ja) * 2018-12-26 2022-02-21 オーディーディー コンセプト インコーポレイテッド ユーザにスワイプジェスチャーを用いたファッションアイテム推薦サービスを提供する方法
US12125088B2 (en) 2019-08-21 2024-10-22 Nec Corporation Processing apparatus, processing method, and non-transitory storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084388A (ja) * 1999-09-14 2001-03-30 Dainippon Printing Co Ltd カタログ制作システム
JP2002049809A (ja) * 2000-08-04 2002-02-15 Abiss:Kk 電子商取引サーバーのデーター管理システム
JP2007280351A (ja) * 2006-03-14 2007-10-25 Dainippon Printing Co Ltd 情報提供システム及び情報提供方法等
JP2012038230A (ja) * 2010-08-11 2012-02-23 Ingni Facilities Co Ltd 検索用インデックス生成システム及び検索用インデックス生成方法、並びに情報検索システム及び情報検索方法
JP2012242933A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 商品名同一性判定装置および商品名同一性判定プログラム
WO2015132886A1 (ja) * 2014-03-04 2015-09-11 楽天株式会社 情報処理装置、情報処理方法、プログラム及び記憶媒体
WO2016194062A1 (ja) * 2015-05-29 2016-12-08 楽天株式会社 商品特定装置、商品特定方法及び商品特定プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084388A (ja) * 1999-09-14 2001-03-30 Dainippon Printing Co Ltd カタログ制作システム
JP2002049809A (ja) * 2000-08-04 2002-02-15 Abiss:Kk 電子商取引サーバーのデーター管理システム
JP2007280351A (ja) * 2006-03-14 2007-10-25 Dainippon Printing Co Ltd 情報提供システム及び情報提供方法等
JP2012038230A (ja) * 2010-08-11 2012-02-23 Ingni Facilities Co Ltd 検索用インデックス生成システム及び検索用インデックス生成方法、並びに情報検索システム及び情報検索方法
JP2012242933A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> 商品名同一性判定装置および商品名同一性判定プログラム
WO2015132886A1 (ja) * 2014-03-04 2015-09-11 楽天株式会社 情報処理装置、情報処理方法、プログラム及び記憶媒体
WO2016194062A1 (ja) * 2015-05-29 2016-12-08 楽天株式会社 商品特定装置、商品特定方法及び商品特定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
前澤敏之、外2名: ""商品カテゴリ"および"取扱店舗"の統計情報を用いた商品タイトルに含まれるフレーズの重要度判定", 言語処理学会第14回年次大会発表論文集, JPN6013050724, 17 March 2008 (2008-03-17), pages 1081 - 1084, ISSN: 0004216479 *
坂地泰紀、外1名: "商品ページからの属性・属性値抽出と同一商品クラスタリング手法", 言語処理学会第16回年次大会発表論文集, JPN6013050723, 8 March 2010 (2010-03-08), pages 371 - 374, ISSN: 0004216480 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022515617A (ja) * 2018-12-26 2022-02-21 オーディーディー コンセプト インコーポレイテッド ユーザにスワイプジェスチャーを用いたファッションアイテム推薦サービスを提供する方法
WO2021033285A1 (ja) * 2019-08-21 2021-02-25 日本電気株式会社 処理装置、処理方法及びプログラム
JPWO2021033285A1 (ja) * 2019-08-21 2021-02-25
JP7380689B2 (ja) 2019-08-21 2023-11-15 日本電気株式会社 処理装置、処理方法及びプログラム
US12125088B2 (en) 2019-08-21 2024-10-22 Nec Corporation Processing apparatus, processing method, and non-transitory storage medium

Also Published As

Publication number Publication date
JP6698041B2 (ja) 2020-05-27

Similar Documents

Publication Publication Date Title
CN103970761B (zh) 一种商品数据搜索方法及装置
US20150339754A1 (en) Systems and methods for customizing search results and recommendations
WO2013161105A1 (ja) タグ管理装置、タグ管理方法、タグ管理プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US20160335693A1 (en) Information providing device, information providing method, program and non-transitory recording medium
JP5711440B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US11195227B2 (en) Visual search, discovery and attribution method, system, and computer program product
JP4958456B2 (ja) 画面の表示方法
JP2019164706A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6037540B1 (ja) 検索システム、検索方法およびプログラム
JP6043745B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP6945518B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6698041B2 (ja) 情報処理装置、方法およびプログラム
KR20220019737A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램
US10417687B1 (en) Generating modified query to identify similar items in a data store
US20160275593A1 (en) System and method for enabling a group-based merchandising and a one touch group checkout
JP4770263B2 (ja) 商品情報提供装置、商品情報提供方法、及び商品情報提供処理プログラム
JP5265414B2 (ja) ネットショッピング管理装置
KR101764361B1 (ko) 소셜 네트워크 서비스 기반 쇼핑몰 서비스 제공 방법 및 이를 위한 장치
WO2017126707A1 (ja) 商品購入支援システム
KR20220044715A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램
JP2016091522A (ja) 商品検索装置、商品検索方法、及び商品検索システム
JP2015028685A (ja) 情報処理装置、情報処理方法及びプログラム
US9652792B1 (en) Dynamically generating resource tracking codes
JP2012243126A (ja) 商品情報検索システム、商品情報検索方法及び商品情報検索プログラム
JP7395696B1 (ja) 検索結果ページ送信装置、検索結果ページ送信方法、及び検索結果ページ送信プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20180907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190320

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200427

R150 Certificate of patent or registration of utility model

Ref document number: 6698041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250