JP7427717B2

JP7427717B2 - マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法

Info

Publication number: JP7427717B2
Application number: JP2022096137A
Authority: JP
Inventors: レイチェン; ホウウェイチョウ; ヤンディシァ; ヒロカズミヤケ
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-08-05
Filing date: 2022-06-14
Publication date: 2024-02-05
Anticipated expiration: 2042-06-14
Also published as: US20230044152A1; EP4131026A1; JP2023024932A

Description

本発明は、画像及びテキストデータのトランスフォーマベースのデータ処理を行い、アイテムの分類を容易にする新規なシステム及び方法に関するものである。

オンラインの電子商取引ベースの商品を検索するユーザをサポートするため使用される、核となる記述的素材であるデータセットを、作成・更新する処理の自動化について、関心が高まっている。データセットを作成する自動化処理を強化するために、様々なアプローチが提案されている。データセットは、ユーザの商品検索を容易にするために、構造化され選択的に定義された分類に適合する商品メタデータから、作成される。

アイテム分類（item categorization）（IC）は、現代の電子商取引における中核技術である。電子商取引市場では、数百万の商品と数百のラベルが存在する可能性があるため、購入者が必要な商品を簡単に見つけられるように、商品カテゴリ分類ツリー内の商品の位置を効率的かつ正確に対応付けられることが重要である。商品の分類分けは、電子商取引ウェブサイトの運営を容易にし、オンラインショッピングの際にユーザにとってより魅力的な体験を提供する。したがって、その要求に対処するため、高精度のIC技術が必要とされている。

商品データには、テキスト（タイトルなど）と画像（商品ラベルなど）が含まれる。ほとんどのIC研究は、テキストベースを手がかりに使用することに焦点を当ててきたが、商品の画像も有用な情報を含んでいる。例えば、ファッションのようないくつかのサブエリアでは、画像を通して伝達される情報は、テキストチャンネルを通して伝達される情報よりも豊富で正確である。テキストと画像の両チャンネルを利用して、商品の特徴を抽出することで、より良い分類分けが可能になるかもしれない。

従来、アイテム分類は、テキストデータに着目し、特徴抽出（手作業）という第一段階と、分類という第二段階の二段階の作業で行われていた。最近では、個々の商品に関連するテキストデータと画像データの両方の特徴抽出する方法（MIC又は「マルチモーダルアイテム分類」）が、代替案として検討されている。

トランスフォーマアーキテクチャは、特徴抽出アプローチの主流となり、自然言語処理（NLP）において広く適用されるようになった。初期の研究（ザハビイら「絵は千の言葉より価値がある？」電子商取引における商品分類の深層多層モーダル融合アーキテクチャ、2016、この内容は、全文を再掲したように、参照により組み込まれる。）では、Walmart.comのウェブサイトに掲載された商品について、タイトル（テキスト）と画像の両方を用いたマルチラベル分類を行なうときに、MICが研究された。彼らは、画像から表現を抽出するために、畳み込みニューラルネットワークを使用し、その後、２つのモデルの出力を融合させるために、いくつかのポリシーを設計した。その結果、個々のモデルを別々に使うよりも性能が向上した。

シギル２０（SIGIR'20）の電子商取引ワークショップで企画されたMICデータチャレンジでは、テキストタイトル、オプションの詳細説明、商品画像を含む約99,000の商品を含む商品リストが提供された。MICの課題は、４つの主要なジャンル、すなわち、本、子供、家庭、娯楽からなる27のカテゴリラベルを予測することであった。いくつかのチームがMICシステムを提出した。

その問題に対して最もパフォーマンスの高い解決法は、特徴抽出器として機能するように、事前訓練されたテキストと画像のエンコーダを、微調整（fine-tuning）し、次にバイモーダル融合メカニズムを適用して予測を結合することであった。テキスト特徴抽出に関しては、トランスフォーマベースのBERTモデル（デブィンら「言語理解のための深層双方向兼用のトランスフォーマの事前訓練」2019、その内容は参照により組み込まれる。）が使用された。画像特徴抽出については、標準的なResNet-152と最近リリースされたビッグトランスファ（BiT）モデル（コレスニコビットら、2020）を含む、ResNet（ヒーら「画像認識の深層残差学習」2016）が使用された。手法の複雑さに基づいて、単純な決定レベルの後期融合（ビエットら、2020）、ハイウェイネットワーク（チョウら、2020）、共同アテンション（コルディアとビジャイクーマル、2020）が試され、最も単純な決定レベル融合法がこの枠組み内で最も良い性能を示した。

大きな進歩がある一方、画像データとテキストデータの両方を用いてアイテム分類を試行する場合、しばしば問題が発生する。例えば、トランスフォーマベースのアプローチを使用して、テキストからの抽出を行い、ResNetのような非トランスフォーマベースのアプローチを使用して、画像データの抽出を行う場合、いくつかの問題が発生する。これらのソースを融合する場合、基礎となるアルゴリズムが複雑化し、訓練が困難になる。

本発明の目的は、これらの問題を回避し、より複雑でない処理ステップのセットを提供することにより、より高速な訓練、ひいてはより効率的な検索操作を実現することにある。

本発明の目的は、ユーザからの問い合わせを受け、テキストとイメージの双方の商品データを一括処理することにより作成された分類データセットに基づいて、検索結果応答を生成する、新規なデータ処理システムを提供することにある。

また、本発明の目的は、分類プロセッサによって構成されるデータセットを提供することであり、データセットは、オンライン購入で商業的に取得できる商品に関する選択された分類法に適合していることである。

本発明の他の目的は、データ抽出のためのトランスフォーマ処理を用いて、画像データとテキストデータの双方から構成される分類処理を提供することである。

これらの目的を達成するために、本発明は、単一モデルのチャンネル（ここではテキストと画像）に対してトランスフォーマを用いた特徴抽出処理を適用するモデルを実装したデータ処理システムを提供する。抽出後、システムは、融合ステップにより多モデル表現を得て、多層パーセプトロンヘッドにより最終予測を行う。

この発明の変形例によると、選択的に設定された間隔が、アイテム分類シーケンスに用いられる。まず、データプロセッサは、最初に訓練されていない分類アルゴリズムによりプログラムされる。テキストと画像の双方を含む複数商品のための次のデータ入力が、訓練セッションの一部として、システムによって処理される。分類アルゴリズムのパラメータを最終決定するために、訓練の結果が使用される。そして、この訓練結果は、電子商取引商品の分類されたデータセットの作成をサポートするために使用される。

次の段階では、電子商取引ショッピングポータルに掲載され利用可能な商品について、最終的な結果である分類されたデータセットが作成される。この最終データセットは、次に、ユーザアクセス可能な検索プロセッサをサポートするために適用され、ユーザのリクエストに応じて、電子商取引ショッピングポータル上の商品の位置を容易にする。ユーザデータ要求、検索応答、ユーザからの応答は、分類の性能を評価するために追跡され、問合わせに対する検索回答を提供するシステムの効率性と正確性が評価される。

一実施形態では、PyTorchなどの命令型言語を用いたプログラム命令により、処理は制御され、グラフィックス処理装置（「GPU」）処理を使用して高速訓練を実現する。画像とテキストデータの双方は、トランスフォーマベースのアプローチを使用して処理される。BERT モデルは訓練され、テキストによる商品タイトルを、1024次元のベクトルを形成する埋込みシーケンスにエンコードする。トランスフォーマ画像モデルは、画像P×Pパッチシーケンスに直接適用されるViTに基づくものである。画像をこれらのパッチに変換すると、ViTは、これらのパッチを視覚的なトークンに変換する。各トランスフォーマチャンネルからの出力は、クロスアテンション融合プロセスを用いて集約され、その結果、製品を分類するための単一の予測が得られる。

本発明に対応するシステム機能を示すブロック図である。テキストのトランスフォーメーションのためのシステムアーキテクチャを示す図である。テキストのトランスフォーメーションのさらなる説明図である。画像トランスフォーマのためのシステムアーキテクチャを示す図である。本発明の例示的な実施例を示す動作フローチャートである。

簡単に概要を説明すると、本発明は、電子商取引操作をサポートするアイテム分類を容易にするものである。電子商取引のウェブポータルでは、一般的に、膨大で多様な商品の集合が提供される。ユーザはリクエストを入力し、ユーザのリクエストによって引き起こされた商品の画像と説明を含む応答性の高いウェブページが提示される。商品のグループ分けは、リクエストと、商品をグループ分けするために使用されるポータルの分類に基づいて、引き出されて提示される。

分類法で定義された分類により、毎日新しい商品がデータセットに追加されるので、商品の分類データセットを作成するプロセスは動的である。ポータルをサポートするデータレイクには、分類エンジンによって分類データが投入される。このエンジンは2つの処理経路で構成される。テキストデータは、商品ごとに取得され、トランスフォーマベースのアルゴリズムとプロセッサで処理される。画像データも同様に、商品ごとに取得され、トランスフォーマベースの画像アルゴリズムとプロセッサで処理される。テキストデータについては、BERTトランスフォーマがテキストを処理し、分類を支援するための手がかりを出力する。画像データは、ViT法などのトランスフォーマアプローチにより処理する。どちらも、トランスフォーマエンジンは、適切にプログラムされたGPUを実装するプロセッサを含む、選択されたトランスフォーマモデルを実装するようにプログラムされたデジタルデータプロセッサである。融合ステップでは、2つのトランスフォーマエンジンの出力を結合して、アイテム（商品）分類のための予測値を形成する。実際の商品データに対して動作させる前に、エンジンは訓練され、精度を高めるためにアルゴリズムが修正される。

次に図１を参照すると、機能ブロック図は、特定の作業環境内における本発明システムを示す。図で構成されているように、本発明は、仮想ショッピングセンタを提供するインターネットのような公衆アクセスネットワークに接続された電子商取引ウェブポータル20をサポートする。ユーザ10、12、14は、オンラインを操作してポータル20に訪れ、商品を検索し、買い物をする。データのストレージは、データレイク24に（他のデータと共に）格納された検索可能な商品のデータベースを含み、ユーザが検索可能な商品と仮想ストアフロントに関する詳細及び記述子がデジタル的に格納されている。

引き続き図１において、データレイク24は、特定の分類法に従った商品のグループ化及び分類に編成された商品データを含む。これにより、検索結果の報告を容易にできる。例えば、革製ブーツのグループ化などのファッションフットウェアにおいて、これらのブーツは、データレイク内の商品を規定する分類法によってグループ化される。通常、複数の商品カテゴリにおいて、分類法の中に何層ものグループ分けが存在する。

引き続き図１において、ブロック34の分類データは、トランスフォーマエンジン35によって生成される。トランスフォーマエンジンは、図２－５においてより詳細に説明されており、テキスト商品データ（例えば、商品タイトル）及び画像データ（例えば、商品の写真）に個別に適用されるトランスフォーマ操作を使用している。エンジン内のトランスフォーマ操作を向上させるため、商品固有データ36を受け取る前に、ブロック32において、選択的訓練データでアルゴリズムを訓練させる。操作は動的であるため、更新された商品データは、定期的にエンジンに供給され、ポータル20での更新された商品提供及び価格設定をサポートする。

図２に、テキストトランスフォーマプロセッサの一般的なシステムアーキテクチャを示す。一般に、このシステムは、図２でそれぞれブロック200と210として記載されたエンコーダとデコーダの両方について、積層されたセルフアテンション、ポイントワイズ、全結合層を使用する（ザハビイら上記参照）。

図３は、BERTとして知られ、特に有用なテキストトランスフォーマモデルの概略図である。操作は、事前訓練と微調整の2つの部分からなる。事前訓練では、モデルは異なる事前訓練タスクのラベル付けされていないデータで訓練される。微調整では、モデルはまず事前訓練されたパラメータで初期化され、下流タスクのラベル付きデータを用いてすべてのパラメータが微調整される（デブリンら、上記参照）。出力層を除けば、事前訓練（300）と微調整（310）の両方で同じアーキテクチャが使用される。

図４は、本発明と共に使用し、説明するための視覚（すなわち画像）トランスフォーマのための高レベルアーキテクチャを示す。パッチと位置データは、固定サイズのパッチに分割された画像ファイルから取り出され、それは埋込み位置で線形に埋め込まれ、得られたベクトルは、標準的なトランスフォーマエンジン、ブロック400と410に供給される。具体的には、ドソビスキイらの上記を参照されたい。

次に、図５を参照して、マルチモデルトランスフォーマエンジンの詳細を説明する。３つの処理経路が示されており、それぞれは共通の初期段階があるが、異なる融合ステップで終了する。操作は順次行われ、アイテム画像とテキストデータの処理から始まる。

図５のシステムは、テキストトランスフォーマエンジンと画像トランスフォーマエンジンからの出力を結合するための３つの融合技術を含んでいる。これらの操作は図５で特定されている。右から左へ進むと、2つの初期融合（early fusion）操作が別々の経路で提供されている。クロスアテンション初期融合と、「浅い」初期融合である。３番目のアプローチは、後期融合（late fusion）と呼ばれ、トランスフォーマエンジンからの出力を結合する最も単純な方法である。テキストトランスフォーマと画像トランスフォーマのモデルによって推定された事後確率を補間するために、重み（アルファ、１－アルファ）が適用される。ここで、アルファは、ホールドアウトセットから推定される。

引き続き図５では、浅い初期融合ブロック120は、全ての入力シーケンスからテキストトランスフォーマモデルへの最初のトークンを取得して、グローバルな表現を提供する。両方のトランスフォーマモデルについて、トークンは、連結されて、マルチクラスカテゴリラベルを予測するために使用されるベクトルとして、MLPへのマルチモーダル入力を作成する。これは、単に特徴の連結であるため、「浅い」方法とラベル付けされている。この方法は、一般的に文献で議論されている（シリワルドハナら「マルチモーダル言語感情認識を改善するための、自己監督されたモデルのようなBERTの調整」2020を参照、その内容は、参照により組み込まれる。）。

引き続き図５では、初期融合ブロック130は、より頑健な融合結果のために、クロスモーダルアテンション層に使用される（チューら「電子商取引商品における、マルチモーダル共同特性予測と値抽出」2020を参照。その内容は、参照により組み込まれる。）。クロスモーダルアテンションは、１つモダリティからのキーバリュー（K-V）と、他のモダリティからの（Q）のペアリングによって計算される。テキストタイトルに関連する画像は、タイトルと意味的に結びつけられた情報を常に運ぶわけではないので、普遍的に2つのモダリティを融合することは、最適でない可能性がある。この問題を最小化する１つのアプローチは、視覚ノイズをフィルタリングするように設計されたゲートを使用する（チューら参照、参照によりここに組み込まれる。）。このアプローチを用いて、"h"と符号化されたテキストタイトルは、2つのアテンションの重み付けアプローチを用いる。まず、テキスト領域のみに対するセルフアテンションと、視覚領域の情報を考慮したクロスモーダルなアテンションである。第２の部分は、ローカルなテキスト表現とグローバルな視覚表現の両方から学習されるゲート「VG」によって制御される（2021年8月5日に出願された仮出願、出願番号63/229,624、名称「トランスフォーマに基づくマルチモーダルアイテム分類」；セクション3.3.3参照）。

好ましい実行は、単一の融合操作を供給することである。特に好ましい実行は、トランスフォーマエンジンからのバイモーダルベクトルをクロスモーダルアテンションモジュールに供給し、バイモーダル信号を最適に組み合わせるためにビジュアルゲート制御を用いて、早期に融合することである。融合出力はMLPに渡され、予測値を生成する。訓練では、ラベル予測は正解ラベルと比較され、その差はバックプロパゲーション方式でMICモデル全体を訓練するために使用される。

融合前の処理は、図５に示すとおりである。テキスト処理は、融合前に順次処理される単語又はトークンを持つBERTベースのトランスフォーマによって達成される。画像処理は、多層パーセプトロン（MLP）ヘッドを備えたViTベースの画像トランスフォーマを適用し、画像ラベルを推定する（ドソビスキイら「画像は、16x16 ワードの価値がある：スケールでの画像認識のためのトランスフォーマ」2020を参照。その内容は参照により組み込まれる）。

ViTモデルの事前訓練には、膨大な画像データセットに対する教師あり学習が用いられ、より大きな訓練セットによりシステム性能が向上する。事前訓練されたViTモデルは、画像をP-パッチの行列に変換することにより、商品画像をエンコードする。これらをトークンに加工し、画像全体を表す特別な[CLS]視覚トークンと組み合わせた後、M=PxP+1個の長いシーケンスがモデルに入力される。エンコードされた出力は、v= (v0 + v1 + v2+...)、ここでM=PxP、のシーケンスである。この配置では、ViT L-16が好ましい。

上記システムのテストでは、カテゴリ分類の強化が図られている。100万点以上の商品を含む商品カタログを、４つのルートレベルのジャンル分類を用いて処理した。カタログに掲載されている商品の画像とテキストデータから、リーフレベルの商品カテゴリを予測し、採点した。モデルの性能は変化し、2021年8月5日に出願された仮出願、出願番号63／229，624のセクション5の表１及び表2に要約されている。「トランスフォーマに基づくマルチモーダルアイテム分類」と題されている（内容は、以前に参照により組み込まれている）。

この配置のバリエーションは、アプリケーションによって指示するように適用することができる。電子商取引の場合、検索結果は、検索要求に対応するカテゴリ内の商品のグループ化を定め、提示するために、分類データセットによって処理されることになる。他の分類の実行結果は、アプリケーションの目標を満たすように調整される本発明のモデリングによって促進される。

この明細書の説明は、ベストモードを含む開示された技術の特定の実装を開示するために例を用い、また、当業者であれば誰でも、任意の装置又はシステムの製造及び使用、ならびに組み込まれた任意の方法の実行を含む開示された技術の特定の実装を実施できるようにするために例を用いる。開示された技術の特定の実装の特許可能な範囲は、特許請求の範囲において定義され、当業者が考える他の例を含むことができる。そのような他の例は、それらが特許請求の範囲の文言と異ならない構造要素を有する場合、又はそれらが特許請求の範囲の文言と実質的に異ならない同等の構造要素を含む場合に、特許請求の範囲に含まれることが意図される。

本出願は、2021年8月5日に出願された米国仮出願第63/229,624号、タイトルは「Multimodal Item Classification Based on Transformers」、及び2022年1月27日に出願された米国出願第17/586,667号、タイトルは「System and Method for Multi-Modal Transformer-Based Categorization」、これらの利益を主張し、その内容は、参照により、本明細書に完全に開示されたように組み込まれる。

Claims

少なくとも１つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサは、クロスモーダルアテンションモジュールにおいて、前記テキストベーストランスフォーマと前記画像ベーストランスフォーマの出力を結合して、マルチモデル表現を形成するための多層パーセプトロンヘッドを含み、前記多層パーセプトロンヘッドがアイテム分類予測を出力する、
アイテム分類システム。
少なくとも１つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサの多層パーセプトロンヘッドは、トランスフォーマエンジンの出力を直接受け取り、テキスト及び画像ベースの分類予測を生成し、それらを組み合わせて、重みベースアイテム分類予測を生成する、
アイテム分類システム。
少なくとも１つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、１つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサは、前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を、多層パーセプトロンヘッドに入力するためにトークンを用いて結合する、多層パーセプトロンヘッドを含む、
アイテム分類システム。
前記テキストベーストランスフォーマは、商品タイトルデータに対して微調整される、
請求項１から３の何れか１項に記載のアイテム分類システム。
オンラインで商品を購入する電子商取引ポータルを実現するためのデータ処理システムであって、
オンライン購入のための商品情報を求めるユーザからの問い合わせを受け付ける検索エンジンと、
前記電子商取引ポータルに接続され、前記ユーザの検索要求に対応する１つ以上の商品に関する検索データを格納するストレージと、
前記商品に関連する画像データとテキストデータに基づいて商品を分類し、テキストベーストランスフォーマと画像ベーストランスフォーマを用いて、それぞれが生成する分類の手がかりを用いて分類を実行する、トランスフォーマと、
前記トランスフォーマによって決定された商品の分類を含み、前記検索要求に対する応答を商品の分類を反映するよう使用される、分類データセットと、を備え、
前記トランスフォーマは、BERTテキストトランスフォーマモデルとViT画像トランスフォーマモデルを実装し、得られた手がかりを融合ステップに出力して、与えられた商品のカテゴリ分類に関する単一の推薦を実現し、
前記トランスフォーマは、各トランスフォーマからの手がかりを集約するために、クロスアテンション融合処理を適用する、
データ処理システム。
前記トランスフォーマは、選択された商品の適切な分類におけるモデルの精度を促進するように訓練される、
請求項５に記載のデータ処理システム。
前記トランスフォーマによって予測された１つのカテゴリ内の商品のグループ化が、ユーザの検索要求に応答して提供される、
請求項５に記載のデータ処理システム。
商品の種類及びクラスに対応する画像データ及びテキストデータに関連付けられた多数の個別アイテムの大規模な多様なデータセットを分類するデータ処理方法であって、
商品のテキストデータを第１のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
前記商品の画像データを第２のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
前記第１及び第２のトランスフォーマからの手がかりを、その商品のクラスに関する最終予測に集約するステップであり、クロスアテンション融合プロセスを含む、集約ステップと、
前記商品に関連する前記最終予測を、デジタルアクセスのために保存された分類データセットに出力するステップと、
を備える、データ処理方法。
前記トランスフォーマは、既知の分類を有する製品のデータセットに対して訓練される、
請求項８に記載のデータ処理方法。
コンピュータ化された分類システムを訓練するコンピュータ実行方法であって、
（ａ）既知のカテゴリ内のアイテムに関連するテキストデータからなる、予め定められた訓練データセットを格納する第１のコンピュータメモリと、
（ｂ）既知のカテゴリ内のアイテムに関連する画像データからなる、予め定められた訓練データセットを格納する第2のコンピュータメモリと、
（ｃ）前記テキストデータを、テキストベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
（ｄ）前記画像データを、画像ベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
（ｅ）分類されていないデータに対して使用するために、特徴付けられたモデル値を格納するステップと、を備え、
アイテムの前記分類システムは、分類予測を形成するために、クロスモーダルアテンションモジュールと多層パーセプトロンヘッドをさらに含む、
コンピュータ実行方法。
アイテムの前記分類システムは、トランスフォーマ及び初期融合プロセッサを用いてテキスト及び画像データを処理する、
請求項１０に記載のコンピュータ実行方法。