JP7497403B2 - 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム - Google Patents

電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム Download PDF

Info

Publication number
JP7497403B2
JP7497403B2 JP2022171407A JP2022171407A JP7497403B2 JP 7497403 B2 JP7497403 B2 JP 7497403B2 JP 2022171407 A JP2022171407 A JP 2022171407A JP 2022171407 A JP2022171407 A JP 2022171407A JP 7497403 B2 JP7497403 B2 JP 7497403B2
Authority
JP
Japan
Prior art keywords
product
attributes
image
data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022171407A
Other languages
English (en)
Other versions
JP2023066404A (ja
Inventor
ムラリダール ソルター
ベヌゴパル ラオ
パワン ラジュプート
スブハナンダァ タミララス
マンジュナス スリニバス
ガンジ クリシュナ
スリービジャ ラジャクリシュナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Asia Pte. Ltd.
Original Assignee
Rakuten Asia Pte. Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Asia Pte. Ltd. filed Critical Rakuten Asia Pte. Ltd.
Publication of JP2023066404A publication Critical patent/JP2023066404A/ja
Application granted granted Critical
Publication of JP7497403B2 publication Critical patent/JP7497403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

実施形態例による方法、装置、およびシステムは機械学習アルゴリズムを使用する電子商取引(eコマース)環境における商品マッチングに関し、より詳細には、対象商品を電子商取引プラットフォーム上のカタログ商品と照合することに関する。
電子商取引システムでは、商品マッチングが各種ユースケースにおける重要なタスクの1つである。ユースケースは、例えば(1)商品の競争的価格設定、(2)カタログ内の商品の重複排除、(3)各種販売業者からの商品のグループ化、などを含む。
商品マッチングのために、商品カタログから対応する商品が検索される。商品カタログでは、数百万の商品の属性およびカテゴリが数万の分類ノードを有する分類ツリーによって分類される。カタログ内の重複商品を識別する課題を解決するための複雑なモデルが存在するが、そのような複雑なモデルは高いリソースを必要とするか、またはスケーラブルではない。したがって、必要とされる精度を常に得ることができない可能性がある。
1つまたは複数の実施形態例は、分類ツリーを用いて電子商取引の商品を高精度に分類するための方法、装置、およびシステムを提供する。
さらに、1つまたは複数の実施形態例は、電子商取引の商品を高精度に分類するためのディープラーニングモデルおよびスケーラブルアーキテクチャを提供する。
さらに、1つまたは複数の実施形態例は、以下のための方法およびシステムを提供する。(1)分類ノードとして適格な属性を識別する、(2)商品を分類する、(3)テキストおよびイメージ属性を充実化する、(4)複数のインデックスに関して対象商品を検索し、必須属性に基づいて結果をフィルタリングする、(5)検索結果を再ランク付けして、結果のショートリストの関連性を改善する。
実施形態例の一態様によれば、商品マッチングを実行する装置であって、命令を記憶するメモリと、前記命令を実施するプロセッサであって、対象商品に一致するカタログ商品を検索するための検索クエリを受け付け、商品分類ツリーが含む複数の分類ノードのうち、前記対象商品が属する分類ノードを特定して、前記対象商品を前記商品分類ツリーに分類し、前記対象商品に関連付けられた商品データを、内部ソースおよび外部ソースから取得し、カテゴリ固有(L1)属性抽出機械学習モデルに基づいて、前記商品データから属性を抽出し、前記対象商品が属する前記分類ノードで定義された必須属性に対応する属性に応じて、前記属性を検証し、前記検証された属性に基づき、検索結果を提供する、プロセッサと、を含む、商品マッチングを実行する装置が提供される。
プロセッサは、対象商品が属する分類ノードのいずれの必須属性にも対応しない属性に応じて、属性を無効にし、無効にした属性に基づいて検索結果が提供されないように更に構成されてよい。
メモリは、商品分類ツリーと、複数の分類ノードのそれぞれについての必須属性情報を含む属性辞書と、を記憶するように構成されてよい。プロセッサは、商品分類ツリーおよび属性辞書に基づき、属性を検証するように更に構成されてよい。
プロセッサは、対象商品と関連付けられた商品データとして画像を取得し、画像から、画像セグメンテーションおよび色抽出処理に基づいて、商品データから抽出した属性として、画像特徴を抽出するように更に構成されてよい。
画像セグメンテーション処理は、画像を複数の部分に分割すること、複数の部分のうち、対象商品に対応する部分を特定することを含んでよい。
色抽出処理は、対象商品に対応する画像の部分から、色を抽出すること、抽出した色のRGB値に基づいて、抽出した色をクラスタ化すること、抽出した色のクラスタを画像特徴として記憶することを含んでよい。
プロセッサは、対象商品に関連付けられた商品データとしてテキストを取得し、アノテーション処理および固有表現抽出(NER)処理に基づいて、商品データから抽出された属性として、テキストからテキスト属性を抽出するように更に構成されてよい。
アノテーション処理は、シード辞書定義によるラベリングおよびルールによるラベリングに基づいて、テキストにアノテーションを付与してよい。
NER処理は、合成文テンプレートを使用して訓練されるNER機械学習モデルに基づいて、商品データから商品掲載名を抽出することを含んでよい。
プロセッサは、テキストデータおよび画像データを、対象商品に関連付けられた商品データとして取得し、テキストデータおよび画像データのそれぞれから、複数のテキスト属性および複数の画像特徴を抽出し、複数のテキスト属性および複数の画像特徴に基づく検索を、テキストデータ検索スペースと画像データ検索スペースとで平行しておこない、検索より、複数の候補検索結果を取得し、複数の候補検索結果のうち、必須属性を有する1つ以上の検索結果を特定し、検証された属性に基づいて、特定された1つ以上の検索結果を、検索結果として提供するように更に構成されてよい。
実施形態例の一態様によれば、商品マッチングを実行する方法であって、対象商品に一致するカタログ商品を検索するための検索クエリを受け付けること、商品分類ツリーが含む複数の分類ノードのうち、対象商品が属する分類ノードを特定して、対象商品を商品分類ツリーに分類すること、対象商品に関連付けられた商品データを、内部ソースおよび外部ソースから取得すること、属性抽出機械学習モデルに基づいて、商品データから属性を抽出すること、対象商品が属する分類ノードの定義された必須属性に対応する属性に応じて、属性を検証すること、検証された属性に基づき、検索結果を提供すること、を含む方法を提供する。
本方法は、対象商品が属する分類ノードのいずれの必須属性にも対応しない属性に応じて、属性を無効にし、無効にした属性に基づいて検索結果が提供されないようにすることを更に含んでよい。
属性を検証することは、商品分類ツリーと、複数の分類ノードのそれぞれについての必須属性情報を含む属性辞書とに基づいて、属性を検証することを含んでよい。
本方法は、対象商品と関連付けられた商品データとして画像を取得すること、画像から、画像セグメンテーションおよび色抽出処理に基づいて、商品データから抽出した属性として、画像特徴を抽出すること、を更に含んでよい。
画像セグメンテーション処理は、画像を複数の部分に分割すること、複数の部分のうち、対象商品に対応する部分を特定すること、を含んでよい。
色抽出処理は、対象商品に対応する画像の部分から、色を抽出すること、抽出した色のRGB値に基づいて、抽出した色をクラスタ化すること、抽出した色のクラスタを画像特徴として記憶することを含んでよい。
本方法は、対象商品に関連付けられた商品データとして、テキストを取得し、アノテーション処理および固有表現抽出(NER)処理に基づいて、商品データから抽出した属性として、テキスト属性をテキストから抽出することを更に含んでよい。
アノテーション処理は、シード辞書定義によるラベリングおよびルールによるラベリングに基づいて、テキストにアノテーションを付与してよい。
NER処理は、合成文テンプレートを使用して訓練されるNER機械学習モデルに基づいて、商品データから商品掲載名を抽出することを含んでよい。
本方法は、テキストデータおよび画像データを、対象商品に関連付けられた商品データとして取得すること、テキストデータおよび画像データのそれぞれから、複数のテキスト属性および複数の画像属性を抽出すること、複数のテキスト属性および複数の画像属性に基づく検索を、テキストデータ検索スペースと画像データ検索スペースとで平行して行うこと、検索より、複数の候補検索結果を取得すること、複数の候補検索結果のうち、必須属性を有する1つ以上の検索結果を特定すること、特定された1つ以上の検索結果を、検証された属性に基づく検索結果として提供すること、を更に含んでよい。
本開示の一態様によれば、上記で説明した方法、装置、および非一時的なコンピュータ可読記憶媒体が個別に説明されたが、これらの説明はその使用または機能の範囲に関する限定を示唆するものではない。実際のところ、これらの方法、装置、および非一時的なコンピュータ可読媒体は、本開示の他の態様において組み合わされ得る。
上記および他の態様、特徴、ならびに本開示の実施態様は、添付の図面と併せて以下の説明からより明らかになるのであろう。
本開示の実施形態例による電子商取引プラットフォーム上に掲載された商品である。 本開示の実施形態例による商品分類を示す図である。 本開示の実施形態例による商品マッチング処理を示す図である。 本開示の属性抽出処理の一例を示す図である。 本開示の実施形態例によるアノテーション処理を示すフローチャートである。 本開示の画像属性抽出処理の一例を示す図である。 本開示の実施形態例による固有表現抽出(NER)検証演算を示す図である。 本開示の属性検証演算の一例を示す図である。 本開示のデータ充実化処理の一例を示す図である。 本開示の実施形態例による商品データをインデックス化する処理を示す図である。 本開示の実施形態例による検索処理及び再ランク付け処理を示す図である。 本開示の実施形態例による電子商取引プラットフォームを有する商品マッチングシステムの構造を示す図である。
実施形態例は、添付の図面を参照して以下でより詳しく説明される。
以下の説明において、異なる図面においても、同様の要素には同様の図面符号が使用される。詳細な構成および要素などの、説明において定義される事項は、実施形態例の包括的な理解を助けるために提供される。しかしながら、実施形態例は、それらの具体的に定義された事項なしに実施することができることは明らかである。また、周知の機能または構成は、不必要な詳細さによって説明を不明瞭にするため、詳細には説明されない。
なお、本実施形態の説明において、関連技術の詳細な説明が本開示の要旨を不必要に不明瞭にするおそれがあると判断される場合には、省略される。また、本明細書の説明で用いられる数字(例えば、第1、第2)は、要素を区別するための識別子コードである。
本開示全体を通して、「のうちの少なくとも1つ」などの表現は、要素のリストに先行する場合、要素のリスト全体を修正し、リストの個々の要素を修正しない。例えば、「a、bまたはcのうちの少なくとも1つ」という表現はaのみ、bのみ、cのみ、aとbの両方、aとcの両方、bとcの両方、a、b、cのすべて、またはそれらの変形例を示す。
「第1の」、「第2の」などの用語は様々な要素を説明するために使用され得るが、そのような要素は上記の用語に限定されてはならない。上記の用語は、1つの要素を別の要素から区別するためにのみ使用され得る。
図1は、本開示の実施形態例による電子商取引プラットフォーム上に掲載された商品である。
図1に示されるように、実施形態例による電子商取引プラットフォーム上の商品掲載は、分類10、名称20、価格30、サイズセレクタ40などのオプションセレクタ、商品説明50、商品画像60を含み得る。
電子商取引プラットフォームは多数の業者から商品を受け取り、実施形態例による商品マッチングシステムは、以下に説明するように、商品のすべての情報を標準化された体系的な方法で整理し、正確な商品マッチングを行う。電子商取引プラットフォームは、システム内で閲覧されている商品を認識して、閲覧されている商品に一致するカタログ商品を検索することができる。
図2は、本発明の実施形態例による商品分類を示す図である。
実施形態例による商品マッチングシステムは、商品の属性に基づいて、様々な商品をカテゴリに編成し分類する商品分類を記憶することができる。
分類ツリーはエッジを介して接続される複数の分類ノード(例えば、合計33000ノード)を有し、各分類ノードはそれ自体のレベル(例えば、レベル1~レベル29)を有する。ノードnのレベルは、ルートノードからノードnへの経路上のエッジの数を指す。各分類ノードは、所与の商品に適するように定義された必須商品属性(例えば、ブランド、性別、色、材料)を有することができる。
例えば、図2に示すように、レベル1で「ホーム」カテゴリに対応するルートノードは、レベル2で複数の子ノードを持ち、これらは「スポーツ&アウトドア」カテゴリに対応するノードを含む。「スポーツ&アウトドア」カテゴリはレベル3では「ファン・ショップ」、「アウトドアレクリエーション」、「スポーツ&フィットネス」の各カテゴリに分類され、レベル3の「スポーツ&フィットネス」はレベル4では「アクセサリー」を含む複数のサブカテゴリに分類されている。レベル4の「アクセサリー」カテゴリは、レベル5で「ハンドバッグ&アクセサリー」カテゴリを含む複数のサブカテゴリにさらに分類される。このようにして、ある検索クエリが入力されると、対象商品は、レベル1で「ホーム」カテゴリ、レベル2で「スポーツ&アウトドア」カテゴリ、レベル3で「スポーツ&フィットネス」カテゴリ、レベル4で「アクセサリー」カテゴリ、レベル5で「ハンドバッグ&アクセサリー」にマッピングされるように分類される。
商品マッチングシステムは、機械学習アルゴリズム(例えば、ディープラーニングモデル)を使用して商品マッチングを実行する。具体的には、商品の属性に従って、分類ツリー内で商品を分類する。機械学習アルゴリズムを通して、ある商品は、分類ツリー内のあるノードにマッピングされる。
商品の属性は、(1)設定値、(2)値範囲、(3)無制限値、の3つの種類に分類することができる。設定値は、有限集合からの属性値を指し、たとえば材料の属性値(たとえば、コットン、デニム、ムスリン、ボイル、ブロケード、シフォン)である。値範囲は、下限および上限を有する属性値を指し、例えばサイズ、重さ、量、メモリ、帯域幅などである。無制限値の例としては色が含まれ、これは、色の異なる名称は無数に存在することを前提としている。
商品マッチングシステムは、属性辞書に基づいて設定値を有する属性を検証し、また、所定のパターンまたは範囲に基づいて値範囲を有する属性を検証することができる。無制限値を有する属性の場合、商品マッチングシステムは、商品の各色の値をRGB値にマッピングして、マッチングする色およびパターンを特定することができる。
商品マッチングシステムは、ある分類ノードにおける必須属性キーの機能として、所与の商品分類における所与の商品の商品データ品質を使用することができる。商品データ品質がデータ品質閾値よりも高い場合、商品データは有効な属性値を有すると判定される。
電子商取引商品は、データ品質の尺度である関連属性のセットによって特徴付けられる。商品カテゴリごとに、固定された属性のセットが存在し、商品マッチングシステムは、商品マッチングパイプラインにわたるあらゆる段階で、データ品質を測定することができる。
Nが商品を完全に特徴付けるために必須である属性のセットであり、Mが商品マッチングパイプラインの複数の異なる段階において特定された属性のセットである場合、所与のカテゴリについての、所与の商品についてのデータ品質は、以下のように定義される。
NおよびMがバラバラである場合ゼロであり、NおよびMが同一である場合1に等しい。
商品マッチングシステムは、商品マッチングパイプラインプロセスにおいて、複数の異なる段階でデータ品質を測定することができる。例えば、商品分類ツリーおよび商品属性を定義する段階、商品分類ツリー内の商品を分類する段階、商品属性を抽出および充実化する段階、複数の種類のインデックス(例えば、テキストインデックス、画像インデックス、ベクトルインデックス)に基づいて検索およびフィルタリングする段階、マッチング商品の関連性を改善するために検索結果を再ランク付けする段階などである。以下、複数の異なる段階について詳細に説明する。
図3は、本開示の実施形態例による商品マッチング処理を示す。
図3に示すように、商品マッチング処理は、データ取得・分類処理S100、属性抽出処理S110、データ充実化処理S120、インデックス化処理S130、検索処理S140、再ランク付け処理S150を含むことができる。
商品マッチング処理は、電子商取引システムにおいて閲覧されている対象商品を認識するステップと、対象商品に対応する検索クエリを生成するステップとを含むことができる。
データ取得・分類処理S100において、テキスト検索クエリ(例えば、「ABCジャケット」のテキスト検索クエリ)が入力されて対象商品を検索すると、対応する商品データが複数の異なるソースから収集される。異なるソースには、内部データベースや、ブランドの公式ウェブサイトや他の電子商取引ウェブサイトなどの公的に利用可能なウェブサイトなどが含まれる。
例えば、商品データが、対象商品を掲載する他の電子商取引ウェブサイトから収集される場合、商品データは対象商品の分類情報(例えば、「ABC/ABCジャケット/商品ID:3784435」)、対象商品の名称(例えば、「女性用ABCフルジップジャケット」)、対象商品の価格(例えば、55.99ドル)、対象商品のサイズセレクタ(例えば、「Mサイズ」)、対象商品の説明(例えば、「商品ID:3784435」、「材料:100%ポリエステル」「オリンピックカラー」)、対象商品の画像などを含む。
テキスト検索クエリおよび商品データは、機械学習モデルに入力され、対象商品の分類が出力される。商品分類について、機械学習モデルは、fastTextベースのテキスト分類モデルを使用して、分類ツリー内で対象商品を分類することができる。データ取得・分類処理S100において決定された対象商品の分類に応じて、特定の属性抽出モデルが属性抽出処理S110において選択されてもよい。
属性抽出処理S110では、収集した商品データから属性が抽出される。例えば、商品データが、対象商品の分類情報(例えば、「ABC/ABCジャケット/商品ID:3784435」)、対象商品の名称(例えば、「女性用ABCフルジップジャケット」)、対象商品の価格(例えば、55.99ドル)、対象商品のサイズセレクタ(例えば、「Mサイズ」)、対象商品の説明(例えば、「商品ID:3784435」、「材料:100%ポリエステル」「オリンピックカラー」)、対象商品の画像などを含む場合、属性は、分類情報、名称、価格、サイズセレクタ、対象商品の説明、対象商品の画像から抽出されてよい。
対象商品の画像から、画像特徴、色、サイズを抽出するために、画像は、画像特徴検出用の機械学習モデル、画像セグメント化およびRGB値抽出用の機械学習モデル、画像特徴抽出用の機械学習モデルに入力される。そして、対象商品の画像から、画像特徴、色、サイズにそれぞれ対応する属性が抽出される。
属性抽出処理S110では、「設定値」、「値範囲」、「無制限値」の種類のうち、抽出された属性の種類を決定してもよい。属性抽出処理S110については、図4~図8を用いてさらに詳細に説明する。
データ充実化処理S120では、fastText分類を用いた機械学習モデルに基づいて、抽出された属性に関連する追加の属性を取得してもよい。例えば、「白(色)ロング(長さ)グリーン(色)シャツ(種類:トップス)」というアノテーション付き文は、データ充実化により、「白ロンググリーンシャツ」という文と、「ファッションートップス」というカテゴリとから取得することができる。
データ充実化処理S120では、対象商品の画像から抽出された特徴を使用して、追加の属性を取得することができる。例えば、画像がブレザー及びジーンズを着た女性を含む場合、該画像は、女性の顔に対応する第1部分、ブレザーに対応する第2部分、ジーンズに対応する第3部分、女性の左手に対応する第4部分、女性の右手に対応する第5部分に区分することができる。画像の各部分はその部分の名前(例えば、顔、ブレザー、ジーンズ、手)、及びその部分を表すRGB色値でラベル付けされてもよい。データ充実化処理S120については、図9を用いてさらに詳細に説明する。
処理S100~S120を通して、商品マッチングシステムは、商品ごとに十分な数の属性を取得し、正確な商品マッチング結果を得ることができる。何百万もの商品が存在し得ることを考慮すると、正確な商品マッチング結果を得るためには、商品マッチングシステムは、何をインデックスすべきか、どのようにインデックスをインデックス処理S130において構築すべきか、とを特定する必要がある。
インデックス化処理S130は、テキストインデックス化処理、画像インデックス化処理、動画インデックス化処理を含むことができ、これらについては、図10を参照してさらに詳細に説明する。
検索処理S140では、所与の属性のセットに対するインデックス(例えば、テキスト類似度および画像)の数に応じて、1回または複数の検索が行われる。各検索において、N個の結果(Nは自然数)を提供することができる。検索処理S140については、図11を用いてさらに説明する。
再ランク付け処理S150では、所与の属性のセットのコンテキストにおける信頼スコアに基づいて、検索結果を再ランク付けすることができ、最も高い信頼スコアを有する検索結果が複数の検索結果から選択される。適切なマッチング商品を選択するために、特定のユースケースフィルタおよび制約を適用することができる。
図4は、本開示の一例に係る属性抽出処理を示す。
属性抽出処理S110は、テキストデータを処理するテキスト属性抽出処理S110a、画像データを処理する画像属性抽出処理S110b、及び/又は商品データの種類(例えば、テキストデータ、画像データ、動画データ)に応じて動画データを処理するベクトル属性抽出処理を備えることができる。
商品データがテキストデータである場合、テキスト属性抽出処理S110aは、カテゴリ化処理S111、アノテーション処理S112、固有表現抽出(NER)処理S113によって実行される。
具体的には、カテゴリ化処理S111は、カテゴリ化教師データを用いて訓練された機械学習モデル(以下、「カテゴリ化機械学習モデル」という)を用いて行われる。カテゴリ化教師データは、属性辞書を含むことができる。属性辞書は、キー値辞書(例えば、商品識別(ID)番号)、ブランド辞書(例えば、ナイキ、プーマ、アディダス)、サイズチャート(例えば、XS、S、M、L、XL)、色辞書(例えば、RBG値および対応する色の名前)を格納または検索する。
例えば、対象商品の名称及びサイズ選択を表示するウェブサイトから、対象商品データとして「女性用フルジップジャケット」「Mサイズ」のテキストが取得された場合、カテゴリ化機械学習モデルに該テキストが入力され、商品データの1つ以上のカテゴリ(例えば、ジャケットカテゴリ、Mサイズカテゴリ)がカテゴリ化機械学習モデルから出力される。
アノテーション処理S112では、正規表現方法によるラベリング、シード辞書定義によるラベリング、ルールによるラベリング、の各ラベリング機能に基づいて、テキスト形式の商品データにアノテーションを付与する。
正規表現方法によれば、キーワード(例えば、「ネック」)はアスタリスクとキーワードとの組み合わせ(例えば、「*ネック」)を用いて設定され、該キーワードの後に続くワードはいずれも、該キーワードに関連付けられたデータ種別(例えば、「ネック」タイプデータ)としてラベル付けされる。
シード辞書定義はキー値ペアのセット(例えば、(キー、値)ペアとして「赤、色」)を含むことができる。「赤」のテキスト商品データが入力されると、対応する値「色」が追加されて、「赤、色」のキー値ペアが生成される。キー値ペアは、商品マッチングシステムの知識ベースに記憶されてもよい。
規則のセット(例えば、「if...else」関係)を適用して、テキスト商品データにアノテーションを付与することができる。特定のテキストデータのエンティティタイプは、テキストデータが事前に設定した変更トリガワードの後にないか、または先行しない場合、タイプAとして決定され得る。しかし、テキストデータが事前に設定した変更トリガワードの後にあるか、または先行する場合、エンティティタイプはタイプBに変更され得る。例えば、テキストデータ「革」が靴カテゴリデータのタイトルから取得される場合、データは靴の材料の種類として認識されるが、「革」の後に「インソール」が続くか、または「インソール」が先行する場合、エンティティタイプはインソールタイプに変化し得る。
図5は、本発明の実施形態例によるアノテーション処理S112を示すフローチャートである。
S112aでは、商品データ(例えば、「白ロンググリーンシャツ」という文)のテキスト入力及び商品データのカテゴリ(例えば、「ファッションートップス」)の情報を受け付ける。
S112bでは、実施形態例による商品マッチングシステムの知識ベースに商品データのカテゴリが事前に定義されているかを判断する。商品データのカテゴリが予め定義されていない場合、S112fでエラーメッセージが出力される。
商品データの区分が商品マッチングシステムの知識ベースで予め定義されているとの判断に基づき、知識ベースからカテゴリサブグラフが取得され、デフォルトの正規表現がS112cで追加される。
S112dで、入力されたテキストはnグラムに分割され、属性辞書(例えば、キー値辞書、ブランド辞書、サイズチャート、色辞書を含む)を用いて各nグラムにアノテーションが付与される。
S112eで、アノテーションされたnグラムが集計されてアノテーション結果として提供され、S113のNER処理で使用される。
再び図4を参照すると、S113のNER処理は、1つまたは複数のNER機械学習モデルを使用して、テキスト商品データ(例えば、対象商品の「名称」および「説明」から取得されたテキストデータ)から特定の属性を抽出するために実行される。
NER機械学習モデルによって特定された属性は、カテゴリごとにS113のNER処理を通して有効な属性が特定されることを確実にするために、属性辞書に基づいて検証され得る。
S113のNER処理を通して特定された有効な属性はダウンストリームのシステムに流れ、一方、無効な属性は、ダウンストリームのシステムに向かって流れないようにブロックされる。検証プロセスは、図7および図8を参照してさらに説明される。
商品データが画像データである場合、S110bの画像属性抽出処理が実行され、画像データから画像特徴及びサイズチャートが抽出される。
S110bの画像属性抽出処理は、取得された画像からRGB値を抽出する画像特徴抽出処理S114と、取得された画像からサイズチャート又は選択されたサイズを抽出するサイズチャート抽出処理S115とを含んでもよい。
図6を参照すると、画像特徴抽出処理S114は、商品特徴制御部および色辞書を使用して、画像特徴を抽出することができる。
図6に示されるように、商品特徴制御部は、商品画像と、商品画像に対応する属性とを受け付けることができる。商品特徴制御部は商品画像をセグメント化し、商品画像の複数の画素から色を抽出し、色のRGB値に従って色をクラスタ化することができる。
画像セグメント化の処理において、商品画像が例えば、シャツ及びズボンを着ている男性を含む場合、商品画像は、男性の顔に対応する第1の部分、シャツに対応する第2の部分、パンツに対応する第3の部分、男性の左腕に対応する第4の部分、男性の右腕に対応する第5の部分にセグメント化することができる。商品画像の各部分は部分の名前(例えば、顔、シャツ、パンツ、(左)腕、(右)腕)でラベル付けされてもよい。また、商品画像の各部分は、色抽出処理を通じて、その部分を表すRGB色値でラベル付けされてもよい。
より具体的には、色抽出の処理において、商品特徴制御部は色辞書を参照して、商品画像の各部分のRGB値に対応する色名または色識別番号、または対象商品に対応する部分のRGB値(例えば、検索クエリがキーワード「シャツ」を含む場合、シャツでラベル付けされた部分)を見つけることができる。商品特徴制御部は、RGB値、および/またはRGB値に対応する色名または色識別番号を出力することができる。したがって、商品特徴制御部は、対象商品(例えばシャツ)が位置する画素領域を特定し、対象商品が位置する画素領域から色情報(例えば、RGB値、色名、色識別番号)を抽出することができる。
図7は、本発明の実施形態例によるNER検証演算を示す。
図4を参照して説明されたS113のNER処理の検証のために、自動検証パイプラインは、合成文テンプレートを使用して、S113のNER処理を実行するNERモデルをテストする。合成文テンプレートは、ソースとして属性キーを使用しターゲットとして合成タイトルテンプレートを使用してトレーニングされる、ニューラル機械翻訳ベースのパイプラインによって作成される。合成文テンプレートは、ランタイムテストセンテンスを作成するために、知識グラフからのランダム値で満たされる。
図7に示すように、対象商品の名称(例えば、電子商取引ウェブサイト上に掲載された対象商品の名称「女性用ABCフルジップジャケット」)が入力されると、知識ベースを参照して、その名称から合成文テンプレートが作成される。合成文テンプレートは、トレーニング用のトレーニングバケットに格納され、その後、トレーニングサイクルごとに更新される。入力された名称は、トレーニングの結果、属性リスト、知識ベースを用いて、合成した名称に変換される。S113のNER処理は、合成した名称に基づいて検証されてもよい。
図8は、本開示の一例による属性検証演算を示す。
S113のNER処理によって特定される属性は、有効な属性がNERによってカテゴリごとに特定されることを確実にするために、属性辞書によって検証される。属性辞書は、キー値辞書、ブランド辞書、サイズチャート、色辞書を含むか、またはそれらへアクセスすることができる。
商品マッチングシステムは、NERによって特定された属性が属性辞書(または属性辞書に基づいて形成された知識ベース)内で定義されているかどうかを判定することができる。NERによって特定された属性が属性辞書内で定義されている場合、商品マッチングシステムは、特定された属性が有効であると判定する。
NERによって特定された有効な属性は、ダウンストリームのシステムに流れ、一方、無効な属性は、ダウンストリームのシステムに向かって流れないようにブロックされて、分離されたデータベースに収集される。データベースに収集された無効な属性は、アノテーションツールを介してオペレータによって検査され、収集された属性が本当に無効であるかどうかがチェックされる。
有効な属性が存在する場合、有効な属性はフィードバックされる。これにより、さらに有効なエントリが追加されて属性辞書が強化され、時間の経過とともに属性辞書がより改善され、充実化される。すべての有効な属性は、メトリックや標準名などの観点から属性を正規化する正規化モジュールを通過する。例えば、属性「明るい赤」は「赤」に標準化され、属性「4GBおよび1TB」は、「4GBおよび1000GB」に標準化される。この正規化モジュールはカテゴリに依存しないクラスタリングベースのディープラーニングモデルである。
図9は、本開示の一例によるデータ充実化処理S120を示す。
S120のデータ充実化処理では、属性抽出処理S110により、テキスト属性と画像属性を取得し、分類ノード情報(例えば、図2に示す対象商品の「ホーム>スポーツ&アウトドア>スポーツ&フィットネス>アクセサリー>ハンドバッグ&アクセサリー」)を分類ツリーから取得する。また、S120のデータ充実化処理では、商品マッチングシステムに格納されている属性辞書、ブランド辞書(例えば、ナイキ、プーマ、アディダス等のブランド名を格納した辞書)、同義語辞書を検索してもよい。
属性辞書、ブランド辞書、同義語辞書に含まれるテキスト属性、画像属性、分類、情報は、S130においてインデックス化されるデータとして収集される。
図10は、本開示の実施形態例による、商品データをインデックス化する処理を示す。
2つの商品が同じであることを特定するために、実施形態例による商品マッチングシステムは、例えば電子商取引ウェブページからテキストフィールド、画像、メタデータをクロールするツールを使用して、商品データをできる限り重複して収集し、収集したデータを特徴として記憶することができる。
S131で、商品データはインデックスパイプラインに入力され、テキストデータタイプ、イメージインデックスタイプ、動画インデックスタイプの中から、商品データの種別が特定される。
商品データがテキストである場合、テキストデータ(例えば、電子商取引ウェブページ上に掲載される、商品の名前、商品のブランド、商品の説明)に対応する埋め込みやテキストベースの特徴を生成するために、テキストベースのインデックス化が実行され、S132においてテキストデータに意味的に一致する商品を見つける。
商品データが画像である場合、S133でインターネット上で入手可能なウェブ画像を収集してグループ化し、S134で属性形式のメタデータと共に画像ベースのインデックス化を行う。取得された各画像は、訓練されたニューラルネットワークモデルを使用して、埋め込みまたは画像ベースの特徴に変換することができる。
商品データが動画である場合、S135で、ベクトルベースのインデックス化が実行されて、動画データに対応する埋め込みまたはビデオベースの特徴を生成することができる。別の例では、演算負荷を低減するために、S135を省略してもよい。
図11は、本発明の実施形態例による検索処理及び再ランク付け処理を示す。
本開示の一実施形態に係る商品マッチングシステムは、テキストデータ及び画像データのための様々な検索スペースを提供する。
検索のために、正規化されたテキストコンテンツ(例えば、分類、名称、ブランド、必須属性、任意の属性)が商品データから抽出され、正規化されたテキストコンテンツに対応する埋め込みが生成される。また、画像およびメタデータ(例えば、分類、ブランド)が、商品データから抽出されてもよい。
正規化されたテキストコンテンツに対応する埋め込みに基づいて、画像、メタデータ、テキストインデックス、画像インデックスが、S130にて記載したように取得される。また、動画データが収集されるとき、対応する動画インデックスが取得され得る。
S141で対象商品のカタログを検索するための検索クエリを受け付けると、S142、S143、S144で、テキストインデックス、画像インデックス、動画インデックスに基づいて商品検索を行い、複数のマッチング候補商品を示す複数の検索結果を得る。
例えば、テキストインデックス、画像インデックス、及び動画インデックスのそれぞれは、以下のように、分類、名称、ブランド、必須属性、任意属性のデータ形式を有してよい。
テキストインデックス(分類、名称、ブランド、必須属性、任意属性)
画像インデックス(分類、名称、ブランド、必須属性、任意属性)
動画インデックス(分類、名称、ブランド、必須属性、任意属性)
商品マッチングシステムは、ある属性が必須であるか、または任意であるかについての情報を記憶することができる。また、テキストインデックス、画像インデックス、動画インデックスは、上述した形式で記憶されてもよい。
複数の検索結果は、S145で、マッチング候補商品と対象商品との類似度に基づいてランク付けされる。ベクトル検索の場合、商品マッチングシステムは、人工知能(AI)類似性検索スキームを使用して、マッチングリクエストごとに類似商品を見つけることができる。
S146において、複数の検索結果は、S147におけるプリセットフィルタおよび制約の適用に基づいて集約され、S148において、商品マッチングシステムのローカル記憶装置または外部記憶装置に記憶される。
例えば、S147において、プリセットフィルタおよび制約は、必須属性(「設定値」)に関連付けられた検索結果のみを通過させ、次の演算において使用することを可能にする。特に、プリセットフィルタおよび制約は集約された検索結果に適用されて、任意の属性を有する検索結果を除外するので、各分類ノードの定義に基づいて、必須の属性(「値のセット」)を有する検索結果を取得することができる。マッチング商品候補の属性が、対象商品が属する分類(または分類ノード)の必須属性を含まない場合、該マッチング商品候補はノイズであると判定される。したがって、フィルタリングは、商品マッチング結果におけるノイズを低減するという利点を提供することができる。
図12は、本開示の一実施形態例による電子商取引プラットフォームを有する商品マッチングシステムの構成を示す図である。
図12に示されるように、商品マッチングシステム100は、プロセッサ110、メモリ120、通信インタフェース130を含むことができる。商品マッチングシステム100は、電子商取引サーバであってもよい。
プロセッサ110は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せで実装される。プロセッサは、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、または別のタイプの処理コンポーネントであり得る。いくつかの実装形態では、プロセッサは、機能を実行するようにプログラムすることができる1つまたは複数のプロセッサを含む。プロセッサはメモリ120にアクセスし、メモリ120に記憶されたコンピュータ可読プログラム命令を実行することができる。
特に、プロセッサ110は、図3~図11を参照して説明したデータ取得・分類処理S100、属性抽出処理S110、データ充実化処理S120、インデックス化処理S130、検索処理S140、再ランク付け処理S150を実行することができる。
プロセッサ110は分類ツリー(図2参照)および上述の機械学習モデルをメモリ120から取得して、分類ツリー内に対象商品を分類し、対象商品をカタログアイテムと照合することができる。
例えば、プロセッサ110はメモリ120から、fastText分類モデル、画像特徴検出モデル、セグメンテーションおよびRGB値モデル、画像特徴抽出モデル、fastText分類モデル、クラスタリングモデル、fastTextおよびトランスフォーマによる双方向エンコーダ表現(BERT)類似度モデルを取得して、以下の表1に示すように、商品分類、画像特徴抽出、色属性抽出、サイズ抽出、属性充実化、属性検証、再ランク付けの演算をそれぞれ実行することができる。
[表1]商品マッチング機械学習モデル
メモリ120は、軌道推定システムの演算及び利用に関連する、情報、データ、オペレーティングシステム、複数のプログラムモジュールソフトウェアを格納する。例えば、メモリは、ハードディスク(磁気ディスク、光ディスク、光磁気ディスク、および/またはソリッドステートディスク等)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、および/または別のタイプの非一時的コンピュータ可読媒体を、対応するドライブとともに含んでよい。
メモリ120は、上述の機械学習モデルのためのニューラルネットワークパラメータ(重み、バイアス、ネットワークトポロジ、ネットワーク接続情報等)を記憶することができ、データ取得・分類処理S100、属性抽出処理S110、データ充実化処理S120、インデックス化処理S130、検索処理S140のためにプロセッサ110によって実行されるプログラム命令およびコードを記憶することができる。
メモリ120はまた、分類ツリー、抽出された画像およびテキスト属性、属性辞書(キー値辞書、ブランド辞書、サイズチャート、色辞書を含む)、知識ベース、充実化した属性、対象商品のテキストインデックス、画像インデックス、動画インデックスを記憶することができる。
さらに、メモリ120は、各商品分類に対応する分類ノードごとに、1つまたは複数の必須属性を記憶して、プロセッサ110が所与の分類ノードの商品定義によって定義される必須属性に基づいて候補商品をフィルタリングできるようにしてもよい。
通信インタフェース130は、サーバ100がユーザから検索クエリを受信し、インターネットネットワークを介して対応する検索結果をユーザに提供することを可能にする。さらに、通信インタフェース130は、サーバ100が、他の電子商取引ウェブサイトなどの公的に利用可能なソースから商品データを収集することを可能にする。通信インタフェース130は、サーバ100が有線接続、無線接続、または有線接続と無線接続との組合せを介して、他のデバイスと通信することを可能にするトランシーバおよび/または別個の受信機および送信機を含んでもよい。通信インタフェース130は、サーバ100が別のデバイスから情報を受信すること、および/または別のデバイスに情報を提供することを可能にする。例えば、通信インタフェース130は、イーサネット(登録商標)インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数(RF)インタフェース、ユニバーサルシリアルバス(USB)インタフェース、Wi-Fi(登録商標)インタフェース、セルラーネットワークインタフェースなどを含むことができる。
本発明の実施形態例によれば、電子商取引商品は、分類ツリーを使用して高精度に分類される。
実施形態例によれば、(1)分類ノードに適した属性を特定する演算、(2)商品を分類する演算、(3)テキストおよび画像属性を充実化する演算、(4)複数のインデックスにわたる対象商品を検索し、必須属性に基づいて結果をフィルタリングする演算、(5)信頼スコアを用いてフィルタリングされた結果を再ランク付けする演算、が実行されてショートリストの結果の関連性を向上させ、商品マッチングの全体的な性能を改善するために、商品データの品質があらゆる段階で測定される。
これに限定されるものではないが、実施形態例はコンピュータ可読記録媒体上のコンピュータ可読コードとして具現化することができる。コンピュータ可読記録媒体は、コンピュータシステムによって後に読み取ることができるデータを記憶することができる任意のデータ記憶装置である。コンピュータ読み取り可能な記録媒体としては、例えば、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置等が挙げられる。コンピュータ可読記録媒体はまた、コンピュータ可読コードが分散方式で記憶されて実行されるように、ネットワーク結合コンピュータシステムを介して分散されてよい。また、実施形態例は、搬送波などのコンピュータ可読伝送媒体を介して送信されるコンピュータプログラムとして記述され、そのプログラムを実行する汎用または特殊用途のデジタルコンピュータで受信および実装されてもよい。さらに、実施形態例では、上述の装置の1つまたは複数のユニットが回路、プロセッサ、マイクロプロセッサなどを含むことができ、コンピュータ可読媒体に記憶されたコンピュータプログラムを実行することができることを理解されたい。
前述の実施形態例および効果は単なる例示であり、限定して解釈されるべきではない。本教示は、他の種類の装置に容易に適用可能である。また、実施形態例の説明は例示的なものであり、特許請求の範囲を限定するものではなく、多くの代替、修正、及び変形は当業者にとって明らかであろう。

Claims (16)

  1. 商品マッチングを実行する装置であって、
    命令を記憶するメモリと、
    前記命令を実施するプロセッサであって、
    電子商取引システムにおいて閲覧されている対象商品を認識して、前記対象商品に一致するカタログ商品を検索し、
    商品分類ツリーが含む複数の分類ノードのうち、前記対象商品が属する分類ノードを特定して、前記対象商品を前記商品分類ツリーに分類し、
    前記対象商品に関連付けられた商品データとしてテキストを、内部ソースおよび外部ソースから取得し、
    前記電子商取引システムの前記商品データに属する商品名称および商品説明に由来する属性を、関心がある所与のカテゴリに関連するテキストデータを使用して訓練された固有表現抽出(NER)機械学習モデルに基づいて抽出し、
    前記対象商品が属する前記分類ノードの必須属性に対応する属性に応じて、前記属性を検証し、
    前記検証された属性に基づき、マッチング結果を提供する、プロセッサと、
    を含む、商品マッチングを実行する装置。
  2. 前記プロセッサは、対象商品が属する前記分類ノードのいずれの必須属性にも対応しない属性に応じて、前記属性を無効にし、無効にした前記属性に基づいてマッチング結果が提供されないように更に構成された、請求項1に記載の装置。
  3. 前記メモリは、前記商品分類ツリーと、前記複数の分類ノードのそれぞれについての必須属性情報を含む属性辞書と、を記憶し、
    前記プロセッサは、前記商品分類ツリーおよび前記属性辞書に基づき、前記属性を検証するように更に構成された、請求項1に記載の装置。
  4. 前記プロセッサは、
    前記対象商品と関連付けられた前記商品データとして画像を取得し、
    前記画像から、画像セグメンテーションおよび色抽出処理に基づいて、前記商品データから抽出した前記属性として、画像特徴および赤(R)、緑(G)、青(B)の値(RGB色値)を抽出するように更に構成された、請求項1に記載の装置。
  5. 前記画像セグメンテーションおよび色抽出処理は、
    前記画像を複数の部分に分割すること、
    前記複数の部分のうち、前記対象商品に対応する部分を特定すること、
    を含む、請求項4に記載の装置。
  6. 前記画像セグメンテーションおよび色抽出処理は、
    前記対象商品に対応する前記画像の前記部分から、色を抽出すること、
    前記抽出した色のRGB値に基づいて、前記抽出した色をクラスタ化すること、
    前記抽出した色のクラスタを前記画像特徴として記憶すること、
    を含む、請求項5に記載の装置。
  7. 前記プロセッサは、正規表現方法によるラベリング、シード辞書定義によるラベリング、又は、ルールによるラベリングのうちの少なくとも1つを用いて、前記テキストにアノテーションを付与するように更に構成された、請求項に記載の装置。
  8. 前記プロセッサは、
    テキストデータおよび画像データを、前記対象商品に関連付けられた前記商品データとして取得し、
    前記テキストデータおよび前記画像データのそれぞれから、複数のテキスト属性および複数の画像属性を抽出し、
    前記複数のテキスト属性および前記複数の画像属性に基づく検索を、テキストデータ検索スペースと画像データ検索スペースとで平行しておこない、
    前記検索より、複数の候補検索結果を取得し、
    前記複数の候補検索結果のうち、前記必須属性を有する1つ以上の検索結果を特定し、
    前記特定された1つ以上の検索結果を、前記検証された属性に基づく前記検索結果として提供するように更に構成された、請求項1に記載の装置。
  9. 商品マッチングを実行する方法であって、
    商品マッチングを実行する装置が、電子商取引システムにおいて閲覧されている対象商品を認識して、前記対象商品に一致するカタログ商品を検索すること、
    前記装置が、商品分類ツリーが含む複数の分類ノードのうち、前記対象商品が属する分類ノードを特定して、前記対象商品を前記商品分類ツリーに分類すること、
    前記装置が、前記対象商品に関連付けられた商品データとしてテキストを、内部ソースおよび外部ソースから取得すること、
    前記装置が、前記電子商取引システムの前記商品データに属する商品名称および商品説明に由来する属性を、関心がある所与のカテゴリに関連するテキストデータを使用して訓練されたNER機械学習モデルに基づいて抽出すること、
    前記装置が、前記対象商品が属する前記分類ノードの必須属性に対応する属性に応じて、前記属性を検証すること、
    前記装置が、前記検証された属性に基づき、マッチング結果を提供すること、
    を含む商品マッチングを実行する方法。
  10. 前記装置が、前記対象商品が属する前記分類ノードのいずれの必須属性にも対応しない属性に応じて、前記属性を無効にし、無効にした前記属性に基づいてマッチング結果が提供されないようにすることを更に含む、請求項に記載の方法。
  11. 前記属性を検証するステップは、前記装置が、前記商品分類ツリーと、前記複数の分類ノードのそれぞれについての必須属性情報を含む属性辞書と、に基づいて、前記属性を検証することを含む、請求項に記載の方法。
  12. 前記装置が、前記対象商品と関連付けられた前記商品データとして画像を取得すること、
    前記装置が、前記画像から、画像セグメンテーションおよび色抽出処理に基づいて、前記商品データから抽出した前記属性として、画像特徴および赤(R)、緑(G)、青(B)の値(RGB色値)を抽出すること、
    を更に含む、請求項に記載の方法。
  13. 前記画像セグメンテーションおよび色抽出処理は、
    前記装置が、前記画像を複数の部分に分割すること、
    前記装置が、前記複数の部分のうち、前記対象商品に対応する部分を特定すること、
    を含む、請求項12に記載の方法。
  14. 前記画像セグメンテーションおよび色抽出処理は、
    前記装置が、前記対象商品に対応する前記画像の前記部分から、赤(R)、緑(G)、青(B)の値(RGB色値)として色を抽出すること、
    前記装置が、前記抽出した色のRGB色値に基づいて、前記抽出した色をクラスタ化すること、
    前記装置が、前記抽出した色のクラスタを前記画像特徴として記憶すること、
    を含む、請求項13に記載の方法。
  15. 前記装置が、正規表現方法によるラベリング、シード辞書定義によるラベリング、又は、ルールによるラベリングのうちの少なくとも1つを用いて、前記テキストにアノテーションを付与することを更に含む、請求項に記載の方法。
  16. 前記装置が、テキストデータおよび画像データを、前記対象商品に関連付けられた前記商品データとして取得すること、
    前記装置が、前記テキストデータおよび前記画像データのそれぞれから、複数のテキスト属性および複数の画像属性を抽出すること、
    前記装置が、前記複数のテキスト属性および前記複数の画像属性に基づく検索を、テキストデータ検索スペースと画像データ検索スペースとで平行して行うこと、
    前記装置が、前記検索より、複数の候補検索結果を取得すること、
    前記装置が、前記複数の候補検索結果のうち、前記必須属性を有する1つ以上の検索結果を特定すること、
    前記装置が、前記特定された1つ以上の検索結果を、前記検証された属性に基づく前記検索結果として提供すること、
    を更に含む、請求項に記載の方法。
JP2022171407A 2021-10-28 2022-10-26 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム Active JP7497403B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/513,116 US20230139720A1 (en) 2021-10-28 2021-10-28 Method and system for performing product matching on an e-commerce platform
US17/513,116 2021-10-28

Publications (2)

Publication Number Publication Date
JP2023066404A JP2023066404A (ja) 2023-05-15
JP7497403B2 true JP7497403B2 (ja) 2024-06-10

Family

ID=86147089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022171407A Active JP7497403B2 (ja) 2021-10-28 2022-10-26 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム

Country Status (3)

Country Link
US (1) US20230139720A1 (ja)
JP (1) JP7497403B2 (ja)
TW (1) TW202329015A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941076B1 (en) * 2022-09-26 2024-03-26 Dell Products L.P. Intelligent product sequencing for category trees
CN117725995B (zh) * 2024-02-18 2024-05-24 青岛海尔科技有限公司 一种基于大模型的知识图谱构建方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018336A (ja) 2004-06-30 2006-01-19 Toshiba Corp メタデータ生成装置および方法、メタデータ生成プログラム
JP2007026386A (ja) 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
JP2013137626A (ja) 2011-12-28 2013-07-11 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
WO2017141384A1 (ja) 2016-02-18 2017-08-24 楽天株式会社 管理装置、管理方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体
WO2018070026A1 (ja) 2016-10-13 2018-04-19 楽天株式会社 商品情報表示システム、商品情報表示方法、及びプログラム
JP2021039682A (ja) 2019-09-05 2021-03-11 株式会社メルカリ 端末装置、検索方法及び検索プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086643B1 (en) * 2001-06-28 2011-12-27 Jda Software Group, Inc. Translation between product classification schemas
US8726178B2 (en) * 2006-11-10 2014-05-13 Ricoh Company, Ltd. Device, method, and computer program product for information retrieval
US8577823B1 (en) * 2011-06-01 2013-11-05 Omar M. A. Gadir Taxonomy system for enterprise data management and analysis
US9378277B1 (en) * 2013-02-08 2016-06-28 Amazon Technologies, Inc. Search query segmentation
US9460190B1 (en) * 2013-03-28 2016-10-04 Amazon Technologies, Inc. Attribute value dependent classification of items
US10430806B2 (en) * 2013-10-15 2019-10-01 Adobe Inc. Input/output interface for contextual analysis engine
US10783569B2 (en) * 2016-12-20 2020-09-22 Facebook, Inc. Method, media, and system for cluster pruning of item listings
US10740930B2 (en) * 2018-11-07 2020-08-11 Love Good Color LLC Systems and methods for color selection and auditing
US11263756B2 (en) * 2019-12-09 2022-03-01 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
US11935106B2 (en) * 2020-12-30 2024-03-19 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for product recommendation based on multimodal fashion knowledge graph

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018336A (ja) 2004-06-30 2006-01-19 Toshiba Corp メタデータ生成装置および方法、メタデータ生成プログラム
JP2007026386A (ja) 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
JP2013137626A (ja) 2011-12-28 2013-07-11 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
WO2017141384A1 (ja) 2016-02-18 2017-08-24 楽天株式会社 管理装置、管理方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体
WO2018070026A1 (ja) 2016-10-13 2018-04-19 楽天株式会社 商品情報表示システム、商品情報表示方法、及びプログラム
JP2021039682A (ja) 2019-09-05 2021-03-11 株式会社メルカリ 端末装置、検索方法及び検索プログラム

Also Published As

Publication number Publication date
US20230139720A1 (en) 2023-05-04
JP2023066404A (ja) 2023-05-15
TW202329015A (zh) 2023-07-16

Similar Documents

Publication Publication Date Title
JP7497403B2 (ja) 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム
CN104239340B (zh) 搜索结果筛选方法与装置
US10565533B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US11100124B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US10303798B2 (en) Question answering from structured and unstructured data sources
US9652799B2 (en) Product recommendation with product review analysis
US10783159B2 (en) Question answering with entailment analysis
US9846901B2 (en) Product recommendation with ontology-linked product review
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN107122980B (zh) 识别商品所属类目的方法和装置
KR20190108838A (ko) 미술 작품 추천 큐레이션 방법 및 시스템
JP2015518210A (ja) 製品に関連するデータを体系化する方法、装置及びコンピュータ読み取り可能な媒体
EP2480995A1 (en) Searching for information based on generic attributes of the query
JPH11259498A (ja) 文書処理装置および記録媒体
Nandi et al. HAMSTER: using search clicklogs for schema and taxonomy matching
TW201415254A (zh) 語意標註建議方法及其系統
WO2021112984A1 (en) Feature and context based search result generation
CN110543484A (zh) 提示词的推荐方法及装置、存储介质和处理器
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
Paulus et al. Gathering and Combining Semantic Concepts from Multiple Knowledge Bases.
Wu et al. Searching online book documents and analyzing book citations
Minh et al. Integrating meta-path similarity with user preference for top-N recommendation
JP7273888B2 (ja) 決定装置、決定方法、および決定プログラム
El Bouhissi et al. Recommender System for E-Commerce: How Ontologies Support Recommendations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240529

R150 Certificate of patent or registration of utility model

Ref document number: 7497403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150