JP7460709B2 - 機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラム - Google Patents

機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7460709B2
JP7460709B2 JP2022134172A JP2022134172A JP7460709B2 JP 7460709 B2 JP7460709 B2 JP 7460709B2 JP 2022134172 A JP2022134172 A JP 2022134172A JP 2022134172 A JP2022134172 A JP 2022134172A JP 7460709 B2 JP7460709 B2 JP 7460709B2
Authority
JP
Japan
Prior art keywords
order
html
related data
machine
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022134172A
Other languages
English (en)
Other versions
JP2023055629A (ja
Inventor
フェン・シィエ
ジャイ・チョン
アダム・ロス
ムジュタバ・フサイン
ジェイムズ・シーモア-ロック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Publication of JP2023055629A publication Critical patent/JP2023055629A/ja
Application granted granted Critical
Publication of JP7460709B2 publication Critical patent/JP7460709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は概してウェブサイトの管理に関し、より具体的には、機械学習によりウェブページ上の注文関連データを特定するためのシステム及び方法に関する。
ウェブページ上の注文関連データを把握することが求められている。このようなデータの用途は広い。例えば、ユーザに対し購入額に応じて報酬又はポイントを提供するショッピングポータルは、注文関連データを用いて、報酬の概算をリアルタイムでユーザに提供する。ショッピングポータルは、クーポンコードフィールド等の、オートフィルの対象となるフィールドを特定するために、チェックアウトカートのデータを把握したい場合もある。分析及びレポートのために注文関連データが用いられる場合もある。例えば、ショッピングカートに商品が残っていることをより良く認識するのに有用な場合がある。
ウェブページ上の注文関連データを特定するためには多くの場合、正規表現に依存したルールベースの手法が用いられる。しかし、多くの業者のウェブページ上の注文関連データを特定しなくてはならないショッピングポータル及び他のシステムにとって、これは厄介であり、スケーリングが難しい可能性がある。電子商取引のウェブサイト及びチェックアウトのページは頻繁に変更され、また、各業者のウェブサイトは異なる。ルールベースの手法は、多くの場合、業者のウェブサイト毎にカスタマイズが必要であり、各業者のウェブサイトの変更をチェックする必要がある。したがって、多岐にわたる業者のウェブサイト上の注文関連データを特定するための、より良好で、スケーリングがより可能な手法が求められている。より詳細には、業者のウェブサイト上の注文関連データを特定するための機械学習手法が必要とされている。
本開示は、機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラムについて記載するものである。本方法は、サーバ、ストレージシステム、ネットワーク、オペレーティングシステム及びデータベースを含むコンピュータシステムによって実行される。
本発明は、機械学習により、ショピングカートデータ及び注文確認データ等の注文関連データを特定する。本発明を用いて、ユーザが何を購入したか、又はユーザがショッピングカートに何を残した(すなわち、カート内にあるが購入していない)か、を特定することができる。従来の方法では、ルール及び正規表現(すなわち、テキストのパターンマッチング)を用いて、チェックアウトページ及び注文確認ページを特定する。しかし、これは通常、業者ごとにカスタマイズする必要があり、業者がチェックアウト、ショッピングカート又は注文確認ページのレイアウトを変更すると、多くの場合にうまくいかない。また、数百の業者について従来の方法に従ってカスタマイズすることはできるかもしれないが、数千又は数万の業者に対しスケーリングすることは非常に難しい。さらに、注文確認ページを特定し注文関連データを抽出するそのような機械学習方法を用いて、購入後にほぼリアルタイムに顧客に概算キャッシュバック情報を提供することによって、ユーザ体験を向上させることができる。
1つの実施形態において、機械学習によりウェブページ上の注文関連データを特定する方法は、
更なる処理のために、ウェブページ上の1つ以上のHTMLブロックを特定するステップであって、各HTMLブロックは1つ以上のHTMLタグを含み、前記1つ以上のHTMLタグの各々がメタデータ及び値と関連付けられている、ステップと、
HTMLタグのそれぞれについてベクトル表現を作成するステップと、
HTMLタグのそれぞれにニューラルネットワークモデルを適用して、各タグについてのラベル予測を得るステップであって、ニューラルネットワークモデルは、注文関連のラベルを含んだ、HTMLタグに対応するラベルを予測できるようにトレーニングはなされている、ステップと、
HTMLタグについての機械生成によるラベル予測と対応するタグ値とから、ウェブページ上の注文関連データを特定するステップと、
特定された注文関連データを出力するステップと
を含む。
機械学習によりウェブページ上の注文関連データを特定するための、一実施形態による方法を示すフローチャートである。 図1に示す方法の例示的な実施形態を示すフローチャートである。 機械学習予測により概算ユーザ報酬を計算する、一実施形態による方法を示すフローチャートである。 一実施形態による、例示的なソフトウェアアーキテクチャを示すブロック図である。
本開示は、機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラムについて記載する。本方法は、サーバ、ストレージシステム、ネットワーク、オペレーティングシステム及びデータベースを含むコンピュータシステム(「システム」)によって実行される。コンピュータシステムは、1つのユーザコンピューティングデバイス(例えば、ユーザのモバイルフォン又はタブレット)、又は協働するクライアント及びサービスコンピューティングデバイスとすることができる。
ルール及び正規表現(すなわち、テキストパターンマッチング)によりチェックアウトページ及び注文確認ページを特定する従来の方法とは異なり、本発明は、機械学習手法を用いる。機械学習手法は、数百を大幅に超える業者をスケーリングすることが可能であるという利点を有し、業者のウェブサイトの頻繁な変更に対してロバストであり、購入後に、該さんキャッシュバック情報をほぼリアルタイムで顧客に提供することを含む、複数の用途に用いることができる。
方法の例示的な実施態様を、図1~図4を参照してより詳細に説明する。
1.機械学習によりウェブページ上の注文関連データを特定する方法
図1に、機械学習によりウェブページ上の注文関連データを特定する方法を示す。本明細書において、ウェブページとは、モバイルアプリケーション又はモバイルブラウザにおけるウェブコンテンツ、及びウェブブラウザに表示されるウェブページを含む。システムは、更なる処理のために、ウェブページにおける1つ以上のHTMLブロックを特定する(ステップ110)。HTMLブロックは1つ以上のHTMLタグを有し、各HTMLタグは、メタデータ(例えば、タグID、タグ名、タグクラス、タグタイプ、タグの内部テキスト等)及び値と関連付けられる。HTMLブロックは、親子関係及び兄弟関係を含む、元のHTML構造を保持する。HTMLブロックは、通常、関連するHTMLタグに基づいてグループ化される。例えば、ショッピングカートを有するウェブページの場合、全てのタグがショッピングカートに関連付けられたHTMLブロックが存在し得る。或る特定の実施形態において、フィールドがブランクである場合、値はヌルとすることができる。
更なる処理のためにウェブページ上の1つ以上のHTMLを特定することは、ウェブページが注文関連情報を有するか否かに関する予備的判断を行う(例えば、ウェブページがショッピングカートを有するチェックアウトページであるか、又は注文確認ページであるかを判断する)ことを含む。1つの実施形態において、予備的判断を行うことは、カートスクレイパが、URLとウェブページ上の要素との双方を用いて、いずれかが定義リストのキーワードに一致するかを調べることによって、当該カートスクレイパがチェックアウトページ上にいることを検出することを含む。例えば、URLが、「カート」又は「チェックアウト」というキーワードを含む場合、システムは、そのウェブページがチェックアウトページであると判定する。ウェブページ上の要素が「チェックアウト」又は「合計価格」というキーワードを有する場合、システムは同様に、そのウェブページがチェックアウトページであると判断する。このポジティブな、キーワードによる特定と共に、システムは、ネガティブなキーワード(例えば、ホームページ)のリストも用いる。URL又はウェブページ上の要素のいずれかがネガティブなキーワードを含む場合、(ポジティブなキーワードにより特定がなされた場合であっても)そのウェブページはチェックアウトページでないとシステムは判定する。
システムは、HTMLタグのそれぞれをベクトル表現に変換する(ステップ120)。システムは、ニューラルネットワークモデルをベクトル表現のそれぞれに適用し、別のベクトル表現を得る。この別のベクトル表現は、各タグについての機械生成によるラベル予測(すなわち、タグタイプの予測)に変換される(ステップ130)。或る実施形態において、ニューラルネットワークモデルは、双方向型の長・短期記憶(すなわち、双方向型LSTM)ニューラルネットワークである。ニューラルネットワークモデルは、HTMLタグに対応する、注文関連ラベルを含んだラベルを予測できるようにトレーニングされる。注文関連ラベルの例は、商品名、商品URL、商品画像、品質、アイテムの価格、小計価格、配送料、税金、合計価格等を含む。システムは、HTMLタグについての機械生成によるラベル予測及び対応するタグ値から、ウェブページ上の注文関連データを特定する(ステップ140)。システムは、特定された注文関連データを出力し(ステップ150)、これを複数の用途に用いる。
或る実施形態において、注文関連データを特定することは、機械生成によるラベル予測を用いてウェブページ上のショッピングカートを特定することを含む。本明細書において、ショッピングカートとは、チェックアウト処理において用いられるチェックアウトカートを含む。或る実施形態において、ショッピングカートを特定することは、ウェブページ上のHTMLタグの機械生成によるラベル予測がショッピングカートの要件を満たしているか否かを判定することと、ウェブページ上のHTMLタグの機械生成によるラベル予測がショッピングカートの要件を満たしているとの判定に応じて、ウェブページがショッピングカートを含むと結論付けることとを含む。満たされなくてはならないショッピングカートの要件の例は、(1)少なくとも1つの商品名、商品URL又は画像、(2)金額、及び(3)合計価格、を有する予測ラベルを含む。ウェブページが注文関連情報を有するか否かに関する予備的判断の場合と同様に、ショッピングカートの要件は、ウェブページがショッピングカートを含むと結論付けるために、出現し得ない予測ラベルも指定することができる。別の実施形態において、予測ラベルは、ラベル予測に基づいてショッピングカート及び/又は注文確認ページを分類できるようにトレーニングされた第2のニューラルネットワークに入力することができる。
或る実施形態において、注文関連データを特定することは、機械生成によるラベル予測を用いて、カートの小計と、カートの合計と、1つ以上のラインアイテム(明細項目)と、ラインアイテムごとの、ライン合計(明細合計)、商品URL、及び画像URLとを特定することを含む。特定の実施形態において、注文関連データを特定することは、ショッピングカート内に残された商品を特定することを更に含む。
或る実施形態において、注文関連データは、(1)HTMLタグについての機械生成によるラベル予測と、(2)HTMLタグに関連付けられた値とを含む、キーと値のペアの形態で出力される。各キーは予測されたラベルであり、対応する各値は、ラベルが予測されたHTMLタグの値である。特定の実施形態において、キーと値のペアは、クライアントアプリケーションに送られ、クライアントアプリケーションは、キーと値のペアを用いてユーザの報酬を計算する。
或る実施形態において、出力された注文関連データは、推薦システムに送られる。推薦システムは、特定された注文関連データを用いて別の商品をユーザに推薦する。或る実施形態において、本方法は、機械生成によるラベル予測から、ウェブページが注文確認ページであると判定することを更に含む。
或る実施形態において、注文関連情報を特定することは、合計購入額を特定することを含む。或る実施形態において、合計購入額は、税金及び送料を除く、購入した商品又はサービスのコストである。他の実施形態において、合計購入額は、税金及び送料を含むことができる。或る実施形態において、本方法は、特定された合計購入額を用いて、概算報酬をユーザに提供することを更に含む。概算報酬は、合計購入額に応じて定まる。或る実施形態において、概算報酬は、概算キャッシュバック報酬である。或る実施形態において、概算報酬は、概算ポイント特典である。或る実施形態において、合計購入額は、ほぼリアルタイムで特定され、概算報酬は、ほぼリアルタイムでユーザに提供される。
或る実施形態において、HTMLタグのそれぞれをベクトル表現に変換することは、HTMLタグのメタデータ及び内部テキストを連結して、複数の単語を有する文字列を形成することを含む。文字列内の単語ごとに、システムは、予めトレーニングされたword2vecモデルにおける単語埋め込み(すなわち、固定長の数値のベクトル)を取得する。次に、システムは、単語埋め込みから文埋め込みを作成する。或る実施形態において、文埋め込みは、単語埋め込みを平均化することによって作成される。文埋め込みは、タグのベクトル表現である。
2.例示的な実施形態
図2に、図1に示した方法の例示的な実施形態を示す。この実施形態は、クライアントアプリケーション202と、サーバ上でホスティングされる機械学習(ML)モジュール204とを備える。クライアントアプリケーション202は、HTMLブロックをMLモジュール204に送信する(ステップ205)。或る実施形態において、クライアントアプリケーション202は、HTMLブロックをMLモジュール204のAPIに送信する。或る実施形態において、MLモジュール204は、HTMLブロックと共にJSONフォーマットでスクレイピング要求を受け付ける。ここで、スクレイピング要求は、要求IDに関する情報と、モバイルデバイスを特定するユーザIDと、URL情報と、タイムスタンプとを含む。
MLモジュール204は、4つの段階、すなわち、前処理と、HTMLタグの特徴抽出(文埋め込み)と、HTMLタグのラベル予測と、後処理とにおいてHTMLブロックを処理する。前処理段階において、MLモジュール204は、HTMLブロックをクレンジングする(すなわち、アクセント及び小文字を取り除く)(ステップ210)。HTMLタグの特徴抽出段階において、MLモジュール204は、タグデータを連結して文字列を形成し(ステップ215)、予めトレーニングされたword2vecモデル225における単語埋め込みを調べ(ステップ220)、単語埋め込みを用いて文埋め込みを作成する(ステップ230)。
HTMLタグのラベル予測段階において、MLモジュール204は、ディープニューラルネットワーク235を文埋め込みに適用し(ステップ240)、タグのラベル予測を得る(ステップ245)。或る実施形態において、タグのラベル予測は、信頼スコアと共に出力される。後処理段階において、MLモジュール204は、全てのブロックの結果を組み立てて(ステップ250)、HTMLブロック内及びHTMLブロック間の任意のコンフリクトを解消し(ステップ255)、抽出結果を検証し(ステップ260)、タグについてのキーと値のペアを出力する(ステップ270)。
チェックアウトカートページに関するコンフリクトを解消する1つの例として、商品名及びライン合計について1対1の対応関係が存在すべきである。2つの商品名のラベルと3つのライン合計のラベルが存在する場合、システムは、より高い信頼スコアを有する2つのライン合計のみを保持することによってこのコンフリクトを解消することができる。検証抽出結果の1つの例として、システムは、商品価格が合理的な数値であるか否か、及びライン合計の和が小計額に等しいか否かを判定する。或る実施形態において、キーと値のペアには、抽出が品質レビューにパスしたか否かを示すフラグが付けられる。或る実施形態において、抽出結果はデータベースに記憶され、必要に応じてクライアントアプリケーションに返される。
3.機械学習予測により概算ユーザ報酬を計算する方法
図3に、機械学習予測により概算ユーザ報酬を計算する方法を示す。クライアントアプリケーションは、合計購入額を有する可能性のあるウェブページを特定する(例えば、潜在的な注文確認ページ又はショッピングカートを有するチェックアウトページ)(ステップ310)。クライアントアプリケーションは、HTMLタグを含むHTMLブロックを、ウェブページから機械学習(ML)モジュールに送信する(ステップ320)。MLモジュールは、HTMLブロックにおけるHTMLタグのそれぞれについてベクトル表現を作成する(ステップ330)。MLモジュールは、ニューラルネットワークモデルをタグベクトル表現のそれぞれに適用し、HTMLブロック内のHTMLタグのそれぞれについて機械生成によるラベル予測を得る(ステップ340)。MLモジュールは、機械生成によるラベル予測を用いて、ウェブページが合計購入額を含むか否かを判定する(ステップ350)。合計購入額が特定された場合、MLモジュールは、合計購入額をクライアントアプリケーションに提供する(ステップ360)。クライアントアプリケーションは、合計購入額に応じて報酬額を計算する(例えば、キャッシュバック報酬又はポイント報酬)(ステップ370)。クライアントアプリケーションは、ユーザインタフェースにほぼリアルタイムに概算報酬を表示する(ステップ380)。
4.例示的なシステムアーキテクチャ
図4に、本明細書に記載の方法を実行するシステムの例示的なアーキテクチャを示す。しかし、本明細書に記載の方法は、他のシステムにおいて実施されてもよく、例示されるシステムに限定されない。システムは、クライアントアプリケーションと、サーバ430とを備える。クライアントアプリケーションは、モバイルデバイスにおけるモバイルアプリケーション405又はデスクトップにおけるウェブブラウザ420の形態をとることができる。モバイルアプリケーション405の場合、1つ以上のモバイルページスクレイパ410が、HTMLブロックを、サーバ430上の機械学習(ML)モジュール440に送る。MLモジュール440は、テキストの注文関連のキーと値のペアを、モバイルアプリケーション405におけるクライアントスクレイパ管理アプリケーション415に返送する。ウェブブラウザ420の場合、ブラウザ拡張機能425が、HTMLブロックをMLモジュール440に送信する。MLモジュール440は、注文関連のキーと値のペアを、ウェブブラウザ420におけるブラウザ拡張機能425に返送する。
5.全般
図1~図4に関して説明した方法は、ソフトウェアにおいて具現化され、ソフトウェアを実行するコンピュータシステム(1つ以上のコンピューティングデバイスを備える)によって実行される。当業者であれば、コンピュータシステムが、ソフトウェア命令を記憶する1つ以上のメモリユニット、ディスク又は他の物理的コンピュータ可読ストレージ媒体、及びソフトウェア命令を実行する1つ以上のプロセッサを有することを理解するであろう。
当該技術分野に精通した当業者であれば、本発明の趣旨及び本質的な特性から逸脱することなく、本発明を他の特定の形態で具現化することができることを理解するであろう。したがって、上記の開示は、以下の特許請求の範囲に示される本発明の範囲を限定するものではなく、説明するものであることが意図される。

Claims (18)

  1. コンピュータシステムによって実行され、機械学習によりウェブページ上の注文関連データを特定する方法であって、
    更なる処理のために、ウェブページ上の1つ以上のHTMLブロックを特定するステップであって、各HTMLブロックは1つ以上のHTMLタグを含み、前記1つ以上のHTMLタグの各々がメタデータ及び値と関連付けられている、ステップと、
    前記HTMLタグのそれぞれをベクトル表現に変換するステップであって、
    前記HTMLタグのメタデータ及び内部テキストを連結し、複数の単語を有する文字列を形成するステップと、
    前記文字列内の単語ごとに、事前にトレーニングされたword2vecモデルにおける単語埋め込みを取得するステップと、
    前記単語埋め込みから文埋め込みを作成するステップと
    を含むステップと、
    前記ベクトル表現のそれぞれにニューラルネットワークモデルを適用して別のベクトル表現を得るステップであって、前記別のベクトル表現は、各タグについての機械生成によるラベル予測に変換され、前記ニューラルネットワークモデルは、注文関連のラベルを含んだ、HTMLタグに対応するラベルを予測できるようにトレーニングがなされている、ステップと、
    前記HTMLタグについての前記機械生成によるラベル予測と対応するタグ値とから、前記ウェブページ上の注文関連データを特定するステップと、
    特定された前記注文関連データを出力するステップであって、前記注文関連データは、(1)前記HTMLタグについての前記機械生成によるラベル予測と、(2)前記HTMLタグに関連付けられた値とを含む、キーと値のペアの形式で出力される、ステップ
    を含む方法。
  2. 注文関連データの特定は、前記機械生成によるラベル予測を用いた、前記ウェブページ上のショッピングカートの特定を含む、請求項1に記載の方法。
  3. ショッピングカートの特定は、
    前記ウェブページ上の前記HTMLタグについての前記機械生成によるラベル予測がショッピングカートの要件を満たしているかどうかの判定と、
    前記ウェブページ上の前記HTMLタグについての前記機械生成によるラベル予測がショッピングカートの要件を満たしているとの判断に応じた、前記ウェブページがショッピングカートを含むとの結論付けと
    を含む、請求項2に記載の方法。
  4. 前記注文関連データの特定は、前記機械生成によるラベル予測を用いて、カートの小計と、カートの合計と、1つ以上のラインアイテムと、各ラインアイテムのライン合計、商品URL及び画像URLとを特定することを含む、請求項2に記載の方法。
  5. 注文関連データの特定は、ショッピングカート内に残っている商品の特定を更に含む、請求項2に記載の方法。
  6. 前記キーと値のペアはクライアントアプリケーションに送られ、前記クライアントアプリケーションは前記キーと値のペアを用いてユーザの報酬を計算する、請求項に記載の方法。
  7. 出力された前記注文関連データは推薦システムに送られ、前記推薦システムは、特定された前記注文関連データを用いて別の商品をユーザに推薦する、請求項1に記載の方法。
  8. 前記機械生成によるラベル予測から、前記ウェブページが注文確認ページであると判定するステップを更に含む請求項1に記載の方法。
  9. 注文関連情報の特定は合計購入額の特定を含む、請求項1に記載の方法。
  10. 特定された前記合計購入額を用いて、前記合計購入額に応じた概算報酬をユーザに提供するステップを更に含む請求項に記載の方法。
  11. 前記概算報酬が概算キャッシュバック報酬である、請求項10に記載の方法。
  12. 前記概算報酬が概算ポイント特典である、請求項10に記載の方法。
  13. 前記合計購入額がほぼリアルタイムで特定され、概算報酬がほぼリアルタイムでユーザに提供される、請求項に記載の方法。
  14. 前記文埋め込みは、前記単語埋め込みを平均化することによって作成される、請求項に記載の方法。
  15. コンピュータシステムによって実行されると、機械学習によりウェブページ上の注文関連データを特定する処理を前記コンピュータシステムが実行できるようにするコンピュータプログラムを有する非一時的なコンピュータ可読媒体であって、
    前記処理は、
    更なる処理のために、ウェブページ上の1つ以上のHTMLブロックを特定するステップであって、各HTMLブロックは1つ以上のHTMLタグを含み、前記1つ以上のHTMLタグの各々がメタデータ及び値と関連付けられている、ステップと、
    前記HTMLタグのそれぞれをベクトル表現に変換するステップであって、
    前記HTMLタグのメタデータ及び内部テキストを連結し、複数の単語を有する文字列を形成するステップと、
    前記文字列内の単語ごとに、事前にトレーニングされたword2vecモデルにおける単語埋め込みを取得するステップと、
    前記単語埋め込みから文埋め込みを作成するステップと
    を含むステップと、
    前記ベクトル表現のそれぞれにニューラルネットワークモデルを適用して別のベクトル表現を得るステップであって、前記別のベクトル表現は、各タグについての機械生成によるラベル予測に変換され、前記ニューラルネットワークモデルは、注文関連のラベルを含んだ、HTMLタグに対応するラベルを予測できるようにトレーニングがなされている、ステップと、
    前記HTMLタグについての前記機械生成によるラベル予測と対応するタグ値とから、前記ウェブページ上の注文関連データを特定するステップと、
    特定された前記注文関連データを出力するステップであって、前記注文関連データは、(1)前記HTMLタグについての前記機械生成によるラベル予測と、(2)前記HTMLタグに関連付けられた値とを含む、キーと値のペアの形式で出力される、ステップ
    を含む、
    非一時的なコンピュータ可読媒体。
  16. 注文関連データの特定は、前記機械生成によるラベル予測を用いた、前記ウェブページ上のショッピングカートの特定を含む、請求項15に記載の非一時的なコンピュータ可読媒体。
  17. 機械学習によりウェブページ上の注文関連データを特定するためのコンピュータシステムであって、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサに接続され、命令を記憶する1つ以上のメモリユニットと
    を備え、
    前記命令は、前記1つ以上のプロセッサによって実行されると、前記コンピュータシステムに対し、
    更なる処理のために、ウェブページ上の1つ以上のHTMLブロックを特定するステップであって、各HTMLブロックは1つ以上のHTMLタグを含み、前記1つ以上のHTMLタグの各々がメタデータ及び値と関連付けられている、ステップと、
    前記HTMLタグのそれぞれをベクトル表現に変換するステップであって、
    前記HTMLタグのメタデータ及び内部テキストを連結し、複数の単語を有する文字列を形成するステップと、
    前記文字列内の単語ごとに、事前にトレーニングされたword2vecモデルにおける単語埋め込みを取得するステップと、
    前記単語埋め込みから文埋め込みを作成するステップと
    を含むステップと、
    前記ベクトル表現のそれぞれにニューラルネットワークモデルを適用して別のベクトル表現を得るステップであって、前記別のベクトル表現は、各タグについての機械生成によるラベル予測に変換され、前記ニューラルネットワークモデルは、注文関連のラベルを含んだ、HTMLタグに対応するラベルを予測できるようにトレーニングがなされている、ステップと、
    前記HTMLタグについての前記機械生成によるラベル予測と対応するタグ値とから、前記ウェブページ上の注文関連データを特定するステップと、
    特定された前記注文関連データを出力するステップであって、前記注文関連データは、(1)前記HTMLタグについての前記機械生成によるラベル予測と、(2)前記HTMLタグに関連付けられた値とを含む、キーと値のペアの形式で出力される、ステップ
    を実行させる、
    コンピュータシステム。
  18. 注文関連データの特定は、前記機械生成によるラベル予測を用いた、前記ウェブページ上のショッピングカートの特定を含む、請求項17に記載のコンピュータシステム。
JP2022134172A 2021-09-29 2022-08-25 機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラム Active JP7460709B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/489678 2021-09-29
US17/489,678 US20230095226A1 (en) 2021-09-29 2021-09-29 System, method, and computer program for identifying order-related data on a webpage using machine learning

Publications (2)

Publication Number Publication Date
JP2023055629A JP2023055629A (ja) 2023-04-18
JP7460709B2 true JP7460709B2 (ja) 2024-04-02

Family

ID=85706388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022134172A Active JP7460709B2 (ja) 2021-09-29 2022-08-25 機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230095226A1 (ja)
JP (1) JP7460709B2 (ja)
TW (1) TW202318312A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019532434A (ja) 2016-10-13 2019-11-07 イーベイツ インコーポレイテッドEbates Inc. ユーザに価格変更を通知するウェブブラウザ内のウィッシュリストユーザインタフェース
US20200210511A1 (en) 2019-01-02 2020-07-02 Scraping Hub, LTD. System and method for a web scraping tool and classification engine
JP2021018601A (ja) 2019-07-19 2021-02-15 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536641B2 (en) * 2005-04-29 2009-05-19 Google Inc. Web page authoring tool for structured documents
US8112317B1 (en) * 2008-01-15 2012-02-07 SciQuest Inc. Providing substitute items when ordered item is unavailable
US8682977B1 (en) * 2008-03-25 2014-03-25 Egain Communications Corporation Communication associated with a webpage
US20100191594A1 (en) * 2009-01-28 2010-07-29 Brigette White Systems and methods for reward transaction matching and settlement
US20110137717A1 (en) * 2009-12-04 2011-06-09 Reuthe Eric System for Providing Digital Incentives Including a Digital Incentives Switch for Matching Transactions and Incentives
US10311499B1 (en) * 2015-03-23 2019-06-04 Amazon Technologies, Inc. Clustering interactions for user missions
GB2537934A (en) * 2015-05-01 2016-11-02 Salesoptimize Ltd Computer-implemented methods of website analysis
US10755174B2 (en) * 2017-04-11 2020-08-25 Sap Se Unsupervised neural attention model for aspect extraction
US11271718B2 (en) * 2018-09-12 2022-03-08 Bitclave Pte. Ltd. Systems and methods for linking anonymized user activities while preserving strong privacy guarantees
WO2020061064A1 (en) * 2018-09-17 2020-03-26 Piggy Llc Systems, methods, and computer programs for providing users maximum benefit in electronic commerce
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
US10824794B2 (en) * 2019-04-08 2020-11-03 Paypal, Inc. Process for creating a fixed length representation of a variable length input
US11328313B2 (en) * 2019-05-08 2022-05-10 Retailmenot, Inc. Predictive bounding of combinatorial optimizations that are based on data sets acquired post-prediction through high-latency, heterogenous interfaces
US11140451B2 (en) * 2019-08-07 2021-10-05 Hulu, LLC Representation of content based on content-level features
US11144979B1 (en) * 2020-04-01 2021-10-12 Paypal, Inc. Method, medium, and system for automatic data extraction from web pages and analysis thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019532434A (ja) 2016-10-13 2019-11-07 イーベイツ インコーポレイテッドEbates Inc. ユーザに価格変更を通知するウェブブラウザ内のウィッシュリストユーザインタフェース
US20200210511A1 (en) 2019-01-02 2020-07-02 Scraping Hub, LTD. System and method for a web scraping tool and classification engine
JP2021018601A (ja) 2019-07-19 2021-02-15 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Also Published As

Publication number Publication date
JP2023055629A (ja) 2023-04-18
TW202318312A (zh) 2023-05-01
US20230095226A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
US20210256574A1 (en) Method and system for programmatic analysis of consumer reviews
CN107729937B (zh) 用于确定用户兴趣标签的方法及装置
KR102472572B1 (ko) 사용자 의도 프로파일링 방법 및 이를 위한 장치
CN111626832B (zh) 产品推荐方法、装置及计算机设备
CN112200601B (zh) 物品推荐方法、装置及可读存储介质
US20210256541A1 (en) Method and system for programmatic analysis of consumer sentiment with regard to attribute descriptors
CN109189921B (zh) 评论评估模型的训练方法和装置
KR102016065B1 (ko) 머신러닝 딥러닝 방식의 판매자 구매자 요구사항 분석, 협상 결과보고 시스템
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
US11741956B2 (en) Methods and apparatus for intent recognition
US11367117B1 (en) Artificial intelligence system for generating network-accessible recommendations with explanatory metadata
US20220382794A1 (en) System and method for programmatic generation of attribute descriptors
CN115605896A (zh) 产品推荐和集成语言建模的系统和方法
KR102422408B1 (ko) 협업 필터링 신경망을 이용하여 상품을 추천하는 방법 및 장치
CN113781149A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
US11544333B2 (en) Analytics system onboarding of web content
CN116739695A (zh) 基于大数据的电子商务管理系统及其方法
Jie et al. Bidding via clustering ads intentions: an efficient search engine marketing system for ecommerce
JP7460709B2 (ja) 機械学習によりウェブページ上の注文関連データを特定するためのシステム、方法及びコンピュータプログラム
Muniasamy et al. Analyzing online reviews of customers using machine learning techniques
CN111026973A (zh) 一种商品兴趣度预测方法、装置及电子设备
TW202333098A (zh) 用於在行動應用程式中自動填入票券代碼之系統、方法及電腦程式
CN115169583A (zh) 用户行为预测系统的训练方法及装置
CN114579854A (zh) 商品推荐方法、模型训练方法、装置及电子设备
Gollagi et al. Recursive Feature Elimination based Multi-variate Naïve Bayes Classification for Product Recommendation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240321

R150 Certificate of patent or registration of utility model

Ref document number: 7460709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150