JP7427717B2 - マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 - Google Patents

マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 Download PDF

Info

Publication number
JP7427717B2
JP7427717B2 JP2022096137A JP2022096137A JP7427717B2 JP 7427717 B2 JP7427717 B2 JP 7427717B2 JP 2022096137 A JP2022096137 A JP 2022096137A JP 2022096137 A JP2022096137 A JP 2022096137A JP 7427717 B2 JP7427717 B2 JP 7427717B2
Authority
JP
Japan
Prior art keywords
transformer
data
text
classification
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022096137A
Other languages
English (en)
Other versions
JP2023024932A (ja
Inventor
レイ チェン
ホウウェイ チョウ
ヤンディ シァ
ヒロカズ ミヤケ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Publication of JP2023024932A publication Critical patent/JP2023024932A/ja
Application granted granted Critical
Publication of JP7427717B2 publication Critical patent/JP7427717B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像及びテキストデータのトランスフォーマベースのデータ処理を行い、アイテムの分類を容易にする新規なシステム及び方法に関するものである。
オンラインの電子商取引ベースの商品を検索するユーザをサポートするため使用される、核となる記述的素材であるデータセットを、作成・更新する処理の自動化について、関心が高まっている。データセットを作成する自動化処理を強化するために、様々なアプローチが提案されている。データセットは、ユーザの商品検索を容易にするために、構造化され選択的に定義された分類に適合する商品メタデータから、作成される。
アイテム分類(item categorization)(IC)は、現代の電子商取引における中核技術である。電子商取引市場では、数百万の商品と数百のラベルが存在する可能性があるため、購入者が必要な商品を簡単に見つけられるように、商品カテゴリ分類ツリー内の商品の位置を効率的かつ正確に対応付けられることが重要である。商品の分類分けは、電子商取引ウェブサイトの運営を容易にし、オンラインショッピングの際にユーザにとってより魅力的な体験を提供する。したがって、その要求に対処するため、高精度のIC技術が必要とされている。
商品データには、テキスト(タイトルなど)と画像(商品ラベルなど)が含まれる。ほとんどのIC研究は、テキストベースを手がかりに使用することに焦点を当ててきたが、商品の画像も有用な情報を含んでいる。例えば、ファッションのようないくつかのサブエリアでは、画像を通して伝達される情報は、テキストチャンネルを通して伝達される情報よりも豊富で正確である。テキストと画像の両チャンネルを利用して、商品の特徴を抽出することで、より良い分類分けが可能になるかもしれない。
従来、アイテム分類は、テキストデータに着目し、特徴抽出(手作業)という第一段階と、分類という第二段階の二段階の作業で行われていた。最近では、個々の商品に関連するテキストデータと画像データの両方の特徴抽出する方法(MIC又は「マルチモーダルアイテム分類」)が、代替案として検討されている。
トランスフォーマアーキテクチャは、特徴抽出アプローチの主流となり、自然言語処理(NLP)において広く適用されるようになった。初期の研究(ザハビイら「絵は千の言葉より価値がある?」電子商取引における商品分類の深層多層モーダル融合アーキテクチャ、2016、この内容は、全文を再掲したように、参照により組み込まれる。)では、Walmart.comのウェブサイトに掲載された商品について、タイトル(テキスト)と画像の両方を用いたマルチラベル分類を行なうときに、MICが研究された。彼らは、画像から表現を抽出するために、畳み込みニューラルネットワークを使用し、その後、2つのモデルの出力を融合させるために、いくつかのポリシーを設計した。その結果、個々のモデルを別々に使うよりも性能が向上した。
シギル20(SIGIR'20)の電子商取引ワークショップで企画されたMICデータチャレンジでは、テキストタイトル、オプションの詳細説明、商品画像を含む約99,000の商品を含む商品リストが提供された。MICの課題は、4つの主要なジャンル、すなわち、本、子供、家庭、娯楽からなる27のカテゴリラベルを予測することであった。いくつかのチームがMICシステムを提出した。
その問題に対して最もパフォーマンスの高い解決法は、特徴抽出器として機能するように、事前訓練されたテキストと画像のエンコーダを、微調整(fine-tuning)し、次にバイモーダル融合メカニズムを適用して予測を結合することであった。テキスト特徴抽出に関しては、トランスフォーマベースのBERTモデル(デブィンら「言語理解のための深層双方向兼用のトランスフォーマの事前訓練」2019、その内容は参照により組み込まれる。)が使用された。画像特徴抽出については、標準的なResNet-152と最近リリースされたビッグトランスファ(BiT)モデル(コレスニコビットら、2020)を含む、ResNet(ヒーら「画像認識の深層残差学習」2016)が使用された。手法の複雑さに基づいて、単純な決定レベルの後期融合(ビエットら、2020)、ハイウェイネットワーク(チョウら、2020)、共同アテンション(コルディアとビジャイ クーマル、2020)が試され、最も単純な決定レベル融合法がこの枠組み内で最も良い性能を示した。
大きな進歩がある一方、画像データとテキストデータの両方を用いてアイテム分類を試行する場合、しばしば問題が発生する。例えば、トランスフォーマベースのアプローチを使用して、テキストからの抽出を行い、ResNetのような非トランスフォーマベースのアプローチを使用して、画像データの抽出を行う場合、いくつかの問題が発生する。これらのソースを融合する場合、基礎となるアルゴリズムが複雑化し、訓練が困難になる。
本発明の目的は、これらの問題を回避し、より複雑でない処理ステップのセットを提供することにより、より高速な訓練、ひいてはより効率的な検索操作を実現することにある。
本発明の目的は、ユーザからの問い合わせを受け、テキストとイメージの双方の商品データを一括処理することにより作成された分類データセットに基づいて、検索結果応答を生成する、新規なデータ処理システムを提供することにある。
また、本発明の目的は、分類プロセッサによって構成されるデータセットを提供することであり、データセットは、オンライン購入で商業的に取得できる商品に関する選択された分類法に適合していることである。
本発明の他の目的は、データ抽出のためのトランスフォーマ処理を用いて、画像データとテキストデータの双方から構成される分類処理を提供することである。
これらの目的を達成するために、本発明は、単一モデルのチャンネル(ここではテキストと画像)に対してトランスフォーマを用いた特徴抽出処理を適用するモデルを実装したデータ処理システムを提供する。抽出後、システムは、融合ステップにより多モデル表現を得て、多層パーセプトロンヘッドにより最終予測を行う。
この発明の変形例によると、選択的に設定された間隔が、アイテム分類シーケンスに用いられる。まず、データプロセッサは、最初に訓練されていない分類アルゴリズムによりプログラムされる。テキストと画像の双方を含む複数商品のための次のデータ入力が、訓練セッションの一部として、システムによって処理される。分類アルゴリズムのパラメータを最終決定するために、訓練の結果が使用される。そして、この訓練結果は、電子商取引商品の分類されたデータセットの作成をサポートするために使用される。
次の段階では、電子商取引ショッピングポータルに掲載され利用可能な商品について、最終的な結果である分類されたデータセットが作成される。この最終データセットは、次に、ユーザアクセス可能な検索プロセッサをサポートするために適用され、ユーザのリクエストに応じて、電子商取引ショッピングポータル上の商品の位置を容易にする。ユーザデータ要求、検索応答、ユーザからの応答は、分類の性能を評価するために追跡され、問合わせに対する検索回答を提供するシステムの効率性と正確性が評価される。
一実施形態では、PyTorchなどの命令型言語を用いたプログラム命令により、処理は制御され、グラフィックス処理装置(「GPU」)処理を使用して高速訓練を実現する。画像とテキストデータの双方は、トランスフォーマベースのアプローチを使用して処理される。BERT モデルは訓練され、テキストによる商品タイトルを、1024次元のベクトルを形成する埋込みシーケンスにエンコードする。トランスフォーマ画像モデルは、画像P×Pパッチシーケンスに直接適用されるViTに基づくものである。画像をこれらのパッチに変換すると、ViTは、これらのパッチを視覚的なトークンに変換する。各トランスフォーマチャンネルからの出力は、クロスアテンション融合プロセスを用いて集約され、その結果、製品を分類するための単一の予測が得られる。
本発明に対応するシステム機能を示すブロック図である。 テキストのトランスフォーメーションのためのシステムアーキテクチャを示す図である。 テキストのトランスフォーメーションのさらなる説明図である。 画像トランスフォーマのためのシステムアーキテクチャを示す図である。 本発明の例示的な実施例を示す動作フローチャートである。
簡単に概要を説明すると、本発明は、電子商取引操作をサポートするアイテム分類を容易にするものである。電子商取引のウェブポータルでは、一般的に、膨大で多様な商品の集合が提供される。ユーザはリクエストを入力し、ユーザのリクエストによって引き起こされた商品の画像と説明を含む応答性の高いウェブページが提示される。商品のグループ分けは、リクエストと、商品をグループ分けするために使用されるポータルの分類に基づいて、引き出されて提示される。
分類法で定義された分類により、毎日新しい商品がデータセットに追加されるので、商品の分類データセットを作成するプロセスは動的である。ポータルをサポートするデータレイクには、分類エンジンによって分類データが投入される。このエンジンは2つの処理経路で構成される。テキストデータは、商品ごとに取得され、トランスフォーマベースのアルゴリズムとプロセッサで処理される。画像データも同様に、商品ごとに取得され、トランスフォーマベースの画像アルゴリズムとプロセッサで処理される。テキストデータについては、BERTトランスフォーマがテキストを処理し、分類を支援するための手がかりを出力する。画像データは、ViT法などのトランスフォーマアプローチにより処理する。どちらも、トランスフォーマエンジンは、適切にプログラムされたGPUを実装するプロセッサを含む、選択されたトランスフォーマモデルを実装するようにプログラムされたデジタルデータプロセッサである。融合ステップでは、2つのトランスフォーマエンジンの出力を結合して、アイテム(商品)分類のための予測値を形成する。実際の商品データに対して動作させる前に、エンジンは訓練され、精度を高めるためにアルゴリズムが修正される。
次に図1を参照すると、機能ブロック図は、特定の作業環境内における本発明システムを示す。図で構成されているように、本発明は、仮想ショッピングセンタを提供するインターネットのような公衆アクセスネットワークに接続された電子商取引ウェブポータル20をサポートする。ユーザ10、12、14は、オンラインを操作してポータル20に訪れ、商品を検索し、買い物をする。データのストレージは、データレイク24に(他のデータと共に)格納された検索可能な商品のデータベースを含み、ユーザが検索可能な商品と仮想ストアフロントに関する詳細及び記述子がデジタル的に格納されている。
引き続き図1において、データレイク24は、特定の分類法に従った商品のグループ化及び分類に編成された商品データを含む。これにより、検索結果の報告を容易にできる。例えば、革製ブーツのグループ化などのファッションフットウェアにおいて、これらのブーツは、データレイク内の商品を規定する分類法によってグループ化される。通常、複数の商品カテゴリにおいて、分類法の中に何層ものグループ分けが存在する。
引き続き図1において、ブロック34の分類データは、トランスフォーマエンジン35によって生成される。トランスフォーマエンジンは、図2-5においてより詳細に説明されており、テキスト商品データ(例えば、商品タイトル)及び画像データ(例えば、商品の写真)に個別に適用されるトランスフォーマ操作を使用している。エンジン内のトランスフォーマ操作を向上させるため、商品固有データ36を受け取る前に、ブロック32において、選択的訓練データでアルゴリズムを訓練させる。操作は動的であるため、更新された商品データは、定期的にエンジンに供給され、ポータル20での更新された商品提供及び価格設定をサポートする。
図2に、テキストトランスフォーマプロセッサの一般的なシステムアーキテクチャを示す。一般に、このシステムは、図2でそれぞれブロック200と210として記載されたエンコーダとデコーダの両方について、積層されたセルフアテンション、ポイントワイズ、全結合層を使用する(ザハビイら上記参照)。
図3は、BERTとして知られ、特に有用なテキストトランスフォーマモデルの概略図である。操作は、事前訓練と微調整の2つの部分からなる。事前訓練では、モデルは異なる事前訓練タスクのラベル付けされていないデータで訓練される。微調整では、モデルはまず事前訓練されたパラメータで初期化され、下流タスクのラベル付きデータを用いてすべてのパラメータが微調整される(デブリンら、上記参照)。出力層を除けば、事前訓練(300)と微調整(310)の両方で同じアーキテクチャが使用される。
図4は、本発明と共に使用し、説明するための視覚(すなわち画像)トランスフォーマのための高レベルアーキテクチャを示す。パッチと位置データは、固定サイズのパッチに分割された画像ファイルから取り出され、それは埋込み位置で線形に埋め込まれ、得られたベクトルは、標準的なトランスフォーマエンジン、ブロック400と410に供給される。具体的には、ドソビスキイらの上記を参照されたい。
次に、図5を参照して、マルチモデルトランスフォーマエンジンの詳細を説明する。3つの処理経路が示されており、それぞれは共通の初期段階があるが、異なる融合ステップで終了する。操作は順次行われ、アイテム画像とテキストデータの処理から始まる。
図5のシステムは、テキストトランスフォーマエンジンと画像トランスフォーマエンジンからの出力を結合するための3つの融合技術を含んでいる。これらの操作は図5で特定されている。右から左へ進むと、2つの初期融合(early fusion)操作が別々の経路で提供されている。クロスアテンション初期融合と、「浅い」初期融合である。3番目のアプローチは、後期融合(late fusion)と呼ばれ、トランスフォーマエンジンからの出力を結合する最も単純な方法である。テキストトランスフォーマと画像トランスフォーマのモデルによって推定された事後確率を補間するために、重み(アルファ、1-アルファ)が適用される。ここで、アルファは、ホールドアウトセットから推定される。
引き続き図5では、浅い初期融合ブロック120は、全ての入力シーケンスからテキストトランスフォーマモデルへの最初のトークンを取得して、グローバルな表現を提供する。両方のトランスフォーマモデルについて、トークンは、連結されて、マルチクラスカテゴリラベルを予測するために使用されるベクトルとして、MLPへのマルチモーダル入力を作成する。これは、単に特徴の連結であるため、「浅い」方法とラベル付けされている。この方法は、一般的に文献で議論されている(シリワルドハナら「マルチモーダル言語感情認識を改善するための、自己監督されたモデルのようなBERTの調整」2020を参照、その内容は、参照により組み込まれる。)。
引き続き図5では、初期融合ブロック130は、より頑健な融合結果のために、クロスモーダルアテンション層に使用される(チューら「電子商取引商品における、マルチモーダル共同特性予測と値抽出」2020を参照。その内容は、参照により組み込まれる。)。クロスモーダルアテンションは、1つモダリティからのキーバリュー(K-V)と、他のモダリティからの(Q)のペアリングによって計算される。テキストタイトルに関連する画像は、タイトルと意味的に結びつけられた情報を常に運ぶわけではないので、普遍的に2つのモダリティを融合することは、最適でない可能性がある。この問題を最小化する1つのアプローチは、視覚ノイズをフィルタリングするように設計されたゲートを使用する(チューら参照、参照によりここに組み込まれる。)。このアプローチを用いて、"h"と符号化されたテキストタイトルは、2つのアテンションの重み付けアプローチを用いる。まず、テキスト領域のみに対するセルフアテンションと、視覚領域の情報を考慮したクロスモーダルなアテンションである。第2の部分は、ローカルなテキスト表現とグローバルな視覚表現の両方から学習されるゲート「VG」によって制御される(2021年8月5日に出願された仮出願、出願番号63/229,624、名称「トランスフォーマに基づくマルチモーダルアイテム分類」;セクション3.3.3参照)。
好ましい実行は、単一の融合操作を供給することである。特に好ましい実行は、トランスフォーマエンジンからのバイモーダルベクトルをクロスモーダルアテンションモジュールに供給し、バイモーダル信号を最適に組み合わせるためにビジュアルゲート制御を用いて、早期に融合することである。 融合出力はMLPに渡され、予測値を生成する。訓練では、ラベル予測は正解ラベルと比較され、その差はバックプロパゲーション方式でMICモデル全体を訓練するために使用される。
融合前の処理は、図5に示すとおりである。テキスト処理は、融合前に順次処理される単語又はトークンを持つBERTベースのトランスフォーマによって達成される。画像処理は、多層パーセプトロン(MLP)ヘッドを備えたViTベースの画像トランスフォーマを適用し、画像ラベルを推定する(ドソビスキイら「画像は、16x16 ワードの価値がある:スケールでの画像認識のためのトランスフォーマ」2020を参照。その内容は参照により組み込まれる)。
ViTモデルの事前訓練には、膨大な画像データセットに対する教師あり学習が用いられ、より大きな訓練セットによりシステム性能が向上する。事前訓練されたViTモデルは、画像をP-パッチの行列に変換することにより、商品画像をエンコードする。これらをトークンに加工し、画像全体を表す特別な[CLS]視覚トークンと組み合わせた後、M=PxP+1個の長いシーケンスがモデルに入力される。エンコードされた出力は、v= (v0 + v1 + v2+...)、ここでM=PxP、のシーケンスである。この配置では、ViT L-16が好ましい。
上記システムのテストでは、カテゴリ分類の強化が図られている。100万点以上の商品を含む商品カタログを、4つのルートレベルのジャンル分類を用いて処理した。カタログに掲載されている商品の画像とテキストデータから、リーフレベルの商品カテゴリを予測し、採点した。モデルの性能は変化し、2021年8月5日に出願された仮出願、出願番号63/229,624のセクション5の表1及び表2に要約されている。「トランスフォーマに基づくマルチモーダルアイテム分類」と題されている(内容は、以前に参照により組み込まれている)。
この配置のバリエーションは、アプリケーションによって指示するように適用することができる。電子商取引の場合、検索結果は、検索要求に対応するカテゴリ内の商品のグループ化を定め、提示するために、分類データセットによって処理されることになる。他の分類の実行結果は、アプリケーションの目標を満たすように調整される本発明のモデリングによって促進される。
この明細書の説明は、ベストモードを含む開示された技術の特定の実装を開示するために例を用い、また、当業者であれば誰でも、任意の装置又はシステムの製造及び使用、ならびに組み込まれた任意の方法の実行を含む開示された技術の特定の実装を実施できるようにするために例を用いる。開示された技術の特定の実装の特許可能な範囲は、特許請求の範囲において定義され、当業者が考える他の例を含むことができる。そのような他の例は、それらが特許請求の範囲の文言と異ならない構造要素を有する場合、又はそれらが特許請求の範囲の文言と実質的に異ならない同等の構造要素を含む場合に、特許請求の範囲に含まれることが意図される。
本出願は、2021年8月5日に出願された米国仮出願第63/229,624号、タイトルは「Multimodal Item Classification Based on Transformers」、及び2022年1月27日に出願された米国出願第17/586,667号、タイトルは「System and Method for Multi-Modal Transformer-Based Categorization」、これらの利益を主張し、その内容は、参照により、本明細書に完全に開示されたように組み込まれる。

Claims (11)

  1. 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
    前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
    前記デジタルプロセッサは、
    前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
    格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
    前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
    前記融合プロセッサは、クロスモーダルアテンションモジュールにおいて、前記テキストベーストランスフォーマと前記画像ベーストランスフォーマの出力を結合して、マルチモデル表現を形成するための多層パーセプトロンヘッドを含み、前記多層パーセプトロンヘッドがアイテム分類予測を出力する、
    イテム分類システム。
  2. 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
    前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
    前記デジタルプロセッサは、
    前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
    格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
    前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
    前記融合プロセッサの多層パーセプトロンヘッドは、トランスフォーマエンジンの出力を直接受け取り、テキスト及び画像ベースの分類予測を生成し、それらを組み合わせて、重みベースアイテム分類予測を生成する、
    イテム分類システム。
  3. 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
    前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
    前記デジタルプロセッサは、
    前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
    格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
    前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
    前記融合プロセッサは、前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を、多層パーセプトロンヘッドに入力するためにトークンを用いて結合する、多層パーセプトロンヘッドを含む、
    イテム分類システム。
  4. 前記テキストベーストランスフォーマは、商品タイトルデータに対して微調整される、
    請求項1から3の何れか1項に記載のアイテム分類システム。
  5. オンラインで商品を購入する電子商取引ポータルを実現するためのデータ処理システムであって、
    オンライン購入のための商品情報を求めるユーザからの問い合わせを受け付ける検索エンジンと、
    前記電子商取引ポータルに接続され、前記ユーザの検索要求に対応する1つ以上の商品に関する検索データを格納するストレージと、
    前記商品に関連する画像データとテキストデータに基づいて商品を分類し、テキストベーストランスフォーマと画像ベーストランスフォーマを用いて、それぞれが生成する分類の手がかりを用いて分類を実行する、トランスフォーマと、
    前記トランスフォーマによって決定された商品の分類を含み、前記検索要求に対する応答を商品の分類を反映するよう使用される、分類データセットと、を備え、
    前記トランスフォーマは、BERTテキストトランスフォーマモデルとViT画像トランスフォーマモデルを実装し、得られた手がかりを融合ステップに出力して、与えられた商品のカテゴリ分類に関する単一の推薦を実現し、
    前記トランスフォーマは、各トランスフォーマからの手がかりを集約するために、クロスアテンション融合処理を適用する、
    ータ処理システム。
  6. 前記トランスフォーマは、選択された商品の適切な分類におけるモデルの精度を促進するように訓練される、
    請求項に記載のデータ処理システム。
  7. 前記トランスフォーマによって予測された1つのカテゴリ内の商品のグループ化が、ユーザの検索要求に応答して提供される、
    請求項に記載のデータ処理システム。
  8. 商品の種類及びクラスに対応する画像データ及びテキストデータに関連付けられた多数の個別アイテムの大規模な多様なデータセットを分類するデータ処理方法であって、
    商品のテキストデータを第1のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
    前記商品の画像データを第2のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
    前記第1及び第2のトランスフォーマからの手がかりを、その商品のクラスに関する最終予測に集約するステップであり、クロスアテンション融合プロセスを含む、集約ステップと、
    前記商品に関連する前記最終予測を、デジタルアクセスのために保存された分類データセットに出力するステップと、
    を備える、データ処理方法。
  9. 前記トランスフォーマは、既知の分類を有する製品のデータセットに対して訓練される、
    請求項に記載のデータ処理方法。
  10. コンピュータ化された分類システムを訓練するコンピュータ実行方法であって、
    (a)既知のカテゴリ内のアイテムに関連するテキストデータからなる、予め定められた訓練データセットを格納する第1のコンピュータメモリと、
    (b)既知のカテゴリ内のアイテムに関連する画像データからなる、予め定められた訓練データセットを格納する第2のコンピュータメモリと、
    (c)前記テキストデータを、テキストベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
    (d)前記画像データを、画像ベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
    (e)分類されていないデータに対して使用するために、特徴付けられたモデル値を格納するステップと、を備え、
    アイテムの前記分類システムは、分類予測を形成するために、クロスモーダルアテンションモジュールと多層パーセプトロンヘッドをさらに含む、
    ンピュータ実行方法。
  11. アイテムの前記分類システムは、トランスフォーマ及び初期融合プロセッサを用いてテキスト及び画像データを処理する、
    請求項10に記載のコンピュータ実行方法。
JP2022096137A 2021-08-05 2022-06-14 マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 Active JP7427717B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163229624P 2021-08-05 2021-08-05
US63/229,624 2021-08-05
US17/586,667 US20230044152A1 (en) 2021-08-05 2022-01-27 System and method for multi-modal transformer-based catagorization
US17/586,667 2022-01-27

Publications (2)

Publication Number Publication Date
JP2023024932A JP2023024932A (ja) 2023-02-21
JP7427717B2 true JP7427717B2 (ja) 2024-02-05

Family

ID=82849991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022096137A Active JP7427717B2 (ja) 2021-08-05 2022-06-14 マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法

Country Status (3)

Country Link
US (1) US20230044152A1 (ja)
EP (1) EP4131026A1 (ja)
JP (1) JP7427717B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403048B (zh) * 2023-04-17 2024-03-26 哈尔滨工业大学 一种基于多模态数据融合的农作物生长估计模型构建方法
CN117112734B (zh) * 2023-10-18 2024-02-02 中山大学深圳研究院 基于语义的知识产权文本表示与分类方法及终端设备
CN117611245B (zh) * 2023-12-14 2024-05-31 浙江博观瑞思科技有限公司 用于电商运营活动策划的数据分析管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080207A1 (en) 2017-07-06 2019-03-14 Frenzy Labs, Inc. Deep neural network visual product recognition system
JP2020091769A (ja) 2018-12-07 2020-06-11 Thk株式会社 図面管理システム、図面管理方法
JP2021021978A (ja) 2019-07-24 2021-02-18 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021073615A (ja) 2015-04-08 2021-05-13 Lisuto株式会社 データ変形システムおよび方法
WO2021132633A1 (ja) 2019-12-26 2021-07-01 公益財団法人がん研究会 Aiを用いた病理診断支援方法、及び支援装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021073615A (ja) 2015-04-08 2021-05-13 Lisuto株式会社 データ変形システムおよび方法
US20190080207A1 (en) 2017-07-06 2019-03-14 Frenzy Labs, Inc. Deep neural network visual product recognition system
JP2020091769A (ja) 2018-12-07 2020-06-11 Thk株式会社 図面管理システム、図面管理方法
JP2021021978A (ja) 2019-07-24 2021-02-18 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2021132633A1 (ja) 2019-12-26 2021-07-01 公益財団法人がん研究会 Aiを用いた病理診断支援方法、及び支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Osama Mazhar et al.,GEM: Glare or Gloom, I Can Still See You - End-to-End Multi-Modal Object Detection,IEEE Robotics and Automation Letters, Vol. 6, No. 4,2021年06月30日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9468959

Also Published As

Publication number Publication date
US20230044152A1 (en) 2023-02-09
EP4131026A1 (en) 2023-02-08
JP2023024932A (ja) 2023-02-21

Similar Documents

Publication Publication Date Title
JP7427717B2 (ja) マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Dong et al. A hybrid collaborative filtering model with deep structure for recommender systems
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
Yan et al. Learning to respond with deep neural networks for retrieval-based human-computer conversation system
KR20190117584A (ko) 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치
JP2018533148A (ja) データのカテゴリ分類のための方法およびシステム
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
US20150026101A1 (en) Image search system and method for personalized photo applications using semantic networks
Zhang et al. Multiresolution graph attention networks for relevance matching
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN112580352B (zh) 关键词提取方法、装置和设备及计算机存储介质
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
Zhang et al. Channel-spatial attention network for fewshot classification
Xu et al. Evaluation and optimization of intelligent recommendation system performance with cloud resource automation compatibility
Sharma et al. A comprehensive survey on image captioning: from handcrafted to deep learning-based techniques, a taxonomy and open research issues
AbdulHussien Comparison of machine learning algorithms to classify web pages
Zhu et al. Cross-modal retrieval: a systematic review of methods and future directions
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Tautkute et al. What looks good with my sofa: Multimodal search engine for interior design
Katiyar et al. TagIT: a system for image auto-tagging and clustering
Sangeetha et al. An Enhanced Neural Graph based Collaborative Filtering with Item Knowledge Graph
CN116186273A (zh) 一种物料寻源方法和系统
Wang et al. Neural Search-From Prototype to Production with Jina: Build deep learning–powered search systems that you can deploy and manage with ease
Nedelec et al. Content2vec: Specializing joint representations of product images and text for the task of product recommendation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240124

R150 Certificate of patent or registration of utility model

Ref document number: 7427717

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150