JP7427717B2 - マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 - Google Patents
マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 Download PDFInfo
- Publication number
- JP7427717B2 JP7427717B2 JP2022096137A JP2022096137A JP7427717B2 JP 7427717 B2 JP7427717 B2 JP 7427717B2 JP 2022096137 A JP2022096137 A JP 2022096137A JP 2022096137 A JP2022096137 A JP 2022096137A JP 7427717 B2 JP7427717 B2 JP 7427717B2
- Authority
- JP
- Japan
- Prior art keywords
- transformer
- data
- text
- classification
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 24
- 238000000034 method Methods 0.000 title claims description 21
- 238000003672 processing method Methods 0.000 title claims 4
- 230000004927 fusion Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims 6
- 238000004891 communication Methods 0.000 claims 3
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000002902 bimodal effect Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001325266 Cordia Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
Claims (11)
- 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサは、クロスモーダルアテンションモジュールにおいて、前記テキストベーストランスフォーマと前記画像ベーストランスフォーマの出力を結合して、マルチモデル表現を形成するための多層パーセプトロンヘッドを含み、前記多層パーセプトロンヘッドがアイテム分類予測を出力する、
アイテム分類システム。 - 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサの多層パーセプトロンヘッドは、トランスフォーマエンジンの出力を直接受け取り、テキスト及び画像ベースの分類予測を生成し、それらを組み合わせて、重みベースアイテム分類予測を生成する、
アイテム分類システム。 - 少なくとも1つのアイテムに個別に関連付けられた画像データとテキストデータを含むアイテムデータのセットを出力するデータ入出力付きデジタルデータストレージと、
前記デジタルデータストレージと接続され通信し、格納されたデータのアイテム分類をするプログラムで制御されたデジタルプロセッサと、を含み、
前記デジタルプロセッサは、
前記テキストデータに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成するテキストベーストランスフォーマと、
格納された前記画像データに基づいて、1つ以上のアイテムの特徴を特定し、デジタル出力を生成する画像ベーストランスフォーマと、
前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を結合してアイテム分類予測を生成する多層パーセプトロンヘッドを含む融合プロセッサと、を備え、
前記融合プロセッサは、前記テキストベーストランスフォーマ及び前記画像ベーストランスフォーマの出力を、多層パーセプトロンヘッドに入力するためにトークンを用いて結合する、多層パーセプトロンヘッドを含む、
アイテム分類システム。 - 前記テキストベーストランスフォーマは、商品タイトルデータに対して微調整される、
請求項1から3の何れか1項に記載のアイテム分類システム。 - オンラインで商品を購入する電子商取引ポータルを実現するためのデータ処理システムであって、
オンライン購入のための商品情報を求めるユーザからの問い合わせを受け付ける検索エンジンと、
前記電子商取引ポータルに接続され、前記ユーザの検索要求に対応する1つ以上の商品に関する検索データを格納するストレージと、
前記商品に関連する画像データとテキストデータに基づいて商品を分類し、テキストベーストランスフォーマと画像ベーストランスフォーマを用いて、それぞれが生成する分類の手がかりを用いて分類を実行する、トランスフォーマと、
前記トランスフォーマによって決定された商品の分類を含み、前記検索要求に対する応答を商品の分類を反映するよう使用される、分類データセットと、を備え、
前記トランスフォーマは、BERTテキストトランスフォーマモデルとViT画像トランスフォーマモデルを実装し、得られた手がかりを融合ステップに出力して、与えられた商品のカテゴリ分類に関する単一の推薦を実現し、
前記トランスフォーマは、各トランスフォーマからの手がかりを集約するために、クロスアテンション融合処理を適用する、
データ処理システム。 - 前記トランスフォーマは、選択された商品の適切な分類におけるモデルの精度を促進するように訓練される、
請求項5に記載のデータ処理システム。 - 前記トランスフォーマによって予測された1つのカテゴリ内の商品のグループ化が、ユーザの検索要求に応答して提供される、
請求項5に記載のデータ処理システム。 - 商品の種類及びクラスに対応する画像データ及びテキストデータに関連付けられた多数の個別アイテムの大規模な多様なデータセットを分類するデータ処理方法であって、
商品のテキストデータを第1のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
前記商品の画像データを第2のトランスフォーマに入力し、その商品がどのクラスに分類されるかの手がかりを得るステップと、
前記第1及び第2のトランスフォーマからの手がかりを、その商品のクラスに関する最終予測に集約するステップであり、クロスアテンション融合プロセスを含む、集約ステップと、
前記商品に関連する前記最終予測を、デジタルアクセスのために保存された分類データセットに出力するステップと、
を備える、データ処理方法。 - 前記トランスフォーマは、既知の分類を有する製品のデータセットに対して訓練される、
請求項8に記載のデータ処理方法。 - コンピュータ化された分類システムを訓練するコンピュータ実行方法であって、
(a)既知のカテゴリ内のアイテムに関連するテキストデータからなる、予め定められた訓練データセットを格納する第1のコンピュータメモリと、
(b)既知のカテゴリ内のアイテムに関連する画像データからなる、予め定められた訓練データセットを格納する第2のコンピュータメモリと、
(c)前記テキストデータを、テキストベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
(d)前記画像データを、画像ベーストランスフォーマで処理し、アイテムを既知のカテゴリにマッチングさせることを最適化する前記テキストベーストランスフォーマ内の値を特徴付けるステップと、
(e)分類されていないデータに対して使用するために、特徴付けられたモデル値を格納するステップと、を備え、
アイテムの前記分類システムは、分類予測を形成するために、クロスモーダルアテンションモジュールと多層パーセプトロンヘッドをさらに含む、
コンピュータ実行方法。 - アイテムの前記分類システムは、トランスフォーマ及び初期融合プロセッサを用いてテキスト及び画像データを処理する、
請求項10に記載のコンピュータ実行方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163229624P | 2021-08-05 | 2021-08-05 | |
US63/229,624 | 2021-08-05 | ||
US17/586,667 US20230044152A1 (en) | 2021-08-05 | 2022-01-27 | System and method for multi-modal transformer-based catagorization |
US17/586,667 | 2022-01-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023024932A JP2023024932A (ja) | 2023-02-21 |
JP7427717B2 true JP7427717B2 (ja) | 2024-02-05 |
Family
ID=82849991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022096137A Active JP7427717B2 (ja) | 2021-08-05 | 2022-06-14 | マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230044152A1 (ja) |
EP (1) | EP4131026A1 (ja) |
JP (1) | JP7427717B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403048B (zh) * | 2023-04-17 | 2024-03-26 | 哈尔滨工业大学 | 一种基于多模态数据融合的农作物生长估计模型构建方法 |
CN117112734B (zh) * | 2023-10-18 | 2024-02-02 | 中山大学深圳研究院 | 基于语义的知识产权文本表示与分类方法及终端设备 |
CN117611245B (zh) * | 2023-12-14 | 2024-05-31 | 浙江博观瑞思科技有限公司 | 用于电商运营活动策划的数据分析管理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080207A1 (en) | 2017-07-06 | 2019-03-14 | Frenzy Labs, Inc. | Deep neural network visual product recognition system |
JP2020091769A (ja) | 2018-12-07 | 2020-06-11 | Thk株式会社 | 図面管理システム、図面管理方法 |
JP2021021978A (ja) | 2019-07-24 | 2021-02-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021073615A (ja) | 2015-04-08 | 2021-05-13 | Lisuto株式会社 | データ変形システムおよび方法 |
WO2021132633A1 (ja) | 2019-12-26 | 2021-07-01 | 公益財団法人がん研究会 | Aiを用いた病理診断支援方法、及び支援装置 |
-
2022
- 2022-01-27 US US17/586,667 patent/US20230044152A1/en active Pending
- 2022-06-14 EP EP22178922.5A patent/EP4131026A1/en active Pending
- 2022-06-14 JP JP2022096137A patent/JP7427717B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021073615A (ja) | 2015-04-08 | 2021-05-13 | Lisuto株式会社 | データ変形システムおよび方法 |
US20190080207A1 (en) | 2017-07-06 | 2019-03-14 | Frenzy Labs, Inc. | Deep neural network visual product recognition system |
JP2020091769A (ja) | 2018-12-07 | 2020-06-11 | Thk株式会社 | 図面管理システム、図面管理方法 |
JP2021021978A (ja) | 2019-07-24 | 2021-02-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
WO2021132633A1 (ja) | 2019-12-26 | 2021-07-01 | 公益財団法人がん研究会 | Aiを用いた病理診断支援方法、及び支援装置 |
Non-Patent Citations (1)
Title |
---|
Osama Mazhar et al.,GEM: Glare or Gloom, I Can Still See You - End-to-End Multi-Modal Object Detection,IEEE Robotics and Automation Letters, Vol. 6, No. 4,2021年06月30日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9468959 |
Also Published As
Publication number | Publication date |
---|---|
US20230044152A1 (en) | 2023-02-09 |
EP4131026A1 (en) | 2023-02-08 |
JP2023024932A (ja) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7427717B2 (ja) | マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
Dong et al. | A hybrid collaborative filtering model with deep structure for recommender systems | |
Xiao et al. | Convolutional hierarchical attention network for query-focused video summarization | |
Yan et al. | Learning to respond with deep neural networks for retrieval-based human-computer conversation system | |
KR20190117584A (ko) | 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치 | |
JP2018533148A (ja) | データのカテゴリ分類のための方法およびシステム | |
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
US20150026101A1 (en) | Image search system and method for personalized photo applications using semantic networks | |
Zhang et al. | Multiresolution graph attention networks for relevance matching | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
Zhang et al. | Channel-spatial attention network for fewshot classification | |
Xu et al. | Evaluation and optimization of intelligent recommendation system performance with cloud resource automation compatibility | |
Sharma et al. | A comprehensive survey on image captioning: from handcrafted to deep learning-based techniques, a taxonomy and open research issues | |
AbdulHussien | Comparison of machine learning algorithms to classify web pages | |
Zhu et al. | Cross-modal retrieval: a systematic review of methods and future directions | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
Tautkute et al. | What looks good with my sofa: Multimodal search engine for interior design | |
Katiyar et al. | TagIT: a system for image auto-tagging and clustering | |
Sangeetha et al. | An Enhanced Neural Graph based Collaborative Filtering with Item Knowledge Graph | |
CN116186273A (zh) | 一种物料寻源方法和系统 | |
Wang et al. | Neural Search-From Prototype to Production with Jina: Build deep learning–powered search systems that you can deploy and manage with ease | |
Nedelec et al. | Content2vec: Specializing joint representations of product images and text for the task of product recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221201 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7427717 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |