CN113850201A - 跨模态商品分类方法及其装置、设备、介质、产品 - Google Patents
跨模态商品分类方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN113850201A CN113850201A CN202111141330.9A CN202111141330A CN113850201A CN 113850201 A CN113850201 A CN 113850201A CN 202111141330 A CN202111141330 A CN 202111141330A CN 113850201 A CN113850201 A CN 113850201A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- commodity
- image
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 495
- 230000004927 fusion Effects 0.000 claims abstract description 103
- 230000003993 interaction Effects 0.000 claims abstract description 73
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000003213 activating effect Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 244000309464 bull Species 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种跨模态商品分类方法及其装置、设备、介质、产品,所述方法包括:获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成;基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量;基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量;根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签。本申请将多个模态的特征深度交互而获得图文融合向量,据此进行分类,能提升分类准确度。
Description
技术领域
本申请涉及电商信息技术领域,尤其涉及一种跨模态商品分类方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
随着跨境电商模式的异军突起,越来越多的海外商家加入电商行业,由于商品来源不同,对如何更好地整合商品信息以便给用户提供更好的购物体验提出了不小的挑战。改善用户购物体验的基础技术之一在于对商品对象进行正确分类,在分类的基础上实现各种下游服务。
早期的商品分类算法大多基于商品的标题提取特征进行分类,然而商品的标题所能提取的特征比较单一,随着商品类别的增加,分类的准确率会降低。随着深度学习的发展,出现了将文本和图片特征拼接后对商品进行分类的算法,然而不同模态的特征间存在信息阻隔,简单的特征拼接并不能很好地融合多模态信息。
此外随着商品品类的逐渐丰富,商品的标签体系也越来越复杂,商品的标签体系一定程度上也可以辅助商品的分类,然而传统的算法未能很好地将这三种模态的信息很好的结合在一起,因此需要另行探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种跨模态商品分类方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种跨模态商品分类方法,包括如下步骤:
获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成;
基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量;
基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量;
根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签。
深化的实施例中,获取商品对象的图文拼接向量,包括如下步骤:
采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息;
将所述图片特征信息展开为以单行向量表示的所述图片编码向量;
将所述商品标题转换为文本编码向量,该文本编码向量由所述商品标题的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成;
将所述图片编码向量与所述文本编码向量拼接为所述的图文拼接向量。
具体化的实施例中,采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息,包括如下步骤:
将所述商品图片进行格式化预处理;
采用图像特征提取模型从所述商品对象的商品图片中提取出图片特征信息;
对所述图片特征信息进行平均池化;
将经池化后的图片特征信息进行激活后输出。
具体化的实施例中,将所述商品标题转换为文本编码向量,包括如下步骤:
对所述商品标题进行分词;
采用文本特征提取模型从分词后的商品标题编码信息中提取出所述的文本特征信息;
将所述文本特征信息进行激活后输出。
深化的实施例中,基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量,每一级的编码过程包括如下步骤:
采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量;
将所有行向量相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;
将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵;
经多层感知器对所述中间信息矩阵进行特征提取,获得图文交互向量,作为下一编码器所需的图文拼接向量,或在最后一个编码器中作为第一图文融合向量直接输出。
深化的实施例中,基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量,包括如下步骤:
获取所述表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量;
基于所述第一图文融合向量构造其各个行向量相对应的查询向量、键向量及值向量;
以所述标签编码向量分别对各行量相对应的所述值向量求点积实现对各个值向量的更新;
根据更新后的值向量,将所有行向量相对应的更新后值向量进行加权求和,各更新后值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;
将加权求和结果乘以转换权重矩阵获得其相对应的第二图文融合向量。
深化的实施例中,根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签,包括如下步骤:
将所述第二图文融合向量全连接输出至分类空间;
根据所述分类空间计算各个分类标签相对应的概率,获得分类结果;
根据分类结果确定其中概率最大的分类标签;
提取所述概率最大的分类标签相对应的表示文本并输出。
适应本申请的目的之一而提供的一种跨模态商品分类装置,包括:向量获取模块、首次交互模块、二次交互模块,以及分类处理模块,其中,所述向量获取模块,用于获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成;所述首次交互模块,用于基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量;所述二次交互模块,基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量;所述分类处理模块,用于根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签。
深化的实施例中,所述向量获取模块包括:图片提取子模块,用于采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息;图片编码子模块,用于将所述图片特征信息展开为以单行向量表示的所述图片编码向量;文本编码子模块,用于将所述商品标题转换为文本编码向量,该文本编码向量由所述商品标题的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成;图文拼接子模块,用于将所述图片编码向量与所述文本编码向量拼接为所述的图文拼接向量。
具体化的实施例中,所述图片提取子模块包括:图片处理单元,用于将所述商品图片进行格式化预处理;图片特征提取单元,用于采用图像特征提取模型从所述商品对象的商品图片中提取出图片特征信息;图片池化处理单元,用于对所述图片特征信息进行平均池化;图片激活输出单元,用于将经池化后的图片特征信息进行激活后输出。
具体化的实施例中,所述文本编码子模块包括:文本分词单元,用于对所述商品标题进行分词;文本特征提取单元,用于采用文本特征提取模型从分词后的商品标题编码信息中提取出所述的文本特征信息;文本激活输出单元,用于将所述文本特征信息进行激活后输出。
深化的实施例中,所述首次交互模块包括:第一构造子模块,用于采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量;第一运算子模块,用于将所有行向量相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;第一转换子模块,用于将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵;第一感知子模块,用于经多层感知器对所述中间信息矩阵进行特征提取,获得图文交互向量,作为下一编码器所需的图文拼接向量,或在最后一个编码器中作为第一图文融合向量直接输出。
深化的实施例中,所述二次交互模块包括:分布获取子模块,用于获取所述表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量;第二构造子模块,用于基于所述第一图文融合向量构造其各个行向量相对应的查询向量、键向量及值向量;交互运算子模块,用于以所述标签编码向量分别对各行量相对应的所述值向量求点积实现对各个值向量的更新;第二运算子模块,用于根据更新后的值向量,将所有行向量相对应的更新后值向量进行加权求和,各更新后值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;第二转换子模块,用于将加权求和结果乘以转换权重矩阵获得其相对应的第二图文融合向量。
深化的实施例中,所述分类处理模块包括:分类映射子模块,用于将所述第二图文融合向量全连接输出至分类空间;概率计算子模块,用于根据所述分类空间计算各个分类标签相对应的概率,获得分类结果;概率优选子模块,用于根据分类结果确定其中概率最大的分类标签;标签输出子模块,用于提取所述概率最大的分类标签相对应的表示文本并输出。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的跨模态商品分类方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的跨模态商品分类方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
本申请分别对商品对象的商品标题、商品图片、商品标签等不同模态信息进行建模得到其相应的特征,这些特征再经过基于多头注意力机制进行多次交互融合在一起,最终获得综合了各种模态信息的深层语义信息的图文融合向量,实现对商品对象的综合表示学习,据此进行商品分类,获得相应的分类结果。
本申请所利用的各模态信息的建模可以相互解耦、相互独立的,相较于传统技术中仅将文本(以商品标题为主有时包括标签)和图片分成两类处理的情况,可适应各种模态信息的特点而灵活自定义不同模态的网络结构,支持不同规模的模态特征融合,可以更灵活地处理多模态信息。
此外,本申请中,对不同模态的信息进行两次融合,第一次是对商品的商品标题和商品图片进行特征融合,第二次是对首次融合后的特征和商品标签的特征进行融合,其中两次融合均应用了多头注意力机制进行充分的特征交互,从而降低了不同模态特征融合的信息阻隔,可以提取到更丰富的商品信息,得到更丰富的特征信息,从而有助于提高商品分类的准确率。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的跨模态商品分类方法的典型实施例的流程示意图;
图2为本申请所采用的模型网络架构的原理示意图;
图3为本申请实施例中获取图文拼接向量的过程的流程示意图;
图4为本申请实施例中提取图片特征信息的过程的流程示意图;
图5为本申请实施例中提取文本编码向量的过程的流程示意图;
图6为本申请实施例中第一次特征交互实施过程的流程示意图;
图7为本申请实施例中第二次特征交互实施过程的流程示意图;
图8为本申请实施例中确定商品对象的分类标签的流程示意图;
图9为本申请的跨模态商品分类装置的原理框图;
图10为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种跨模态商品分类方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
本申请的一个示例性应用场景,是基于独立站的电商平台中的应用,每个独立站即为电商平台的一个商户实例,拥有独立的访问域名,由其实际拥有者负责进行商品的发布和更新。
独立站的商户实例将每个商品发布上线,电商平台获取与该商品相关的商品信息之后,构造出相对应的商品对象进行数据存储。商品信息主要包括商品标题、商品图片、根据电商平台的类目树的层次结构进行标注的商品标签等。
为了适应不同任务实现对商品对象的分类,以服务于商品对象的搜索、排序、推广等不同下游任务的需要,在实施本申请的技术方案时,可以采集商品对象的商品标题、商品图片以及商品标签;商品图片则可以是包含该商品对象的产品外观的主要图片。
请参阅图1的流程示意图,并结合图2所示的网络架构图,本申请的跨模态商品分类方法在其典型实施例中,包括如下步骤:
步骤S1100、获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成:
商品对象的商品信息存储在各个商家实例相对应的商品数据库中,或者可由用户主动提交,所述商品信息主要包括商品对象相应的商品标题、商品图片以及商品标签,所述的商品标签是基于商家实例所属的电商平台的类目树的标签结构而生成的具有层次结构的各级节点标签构成的。
本步骤中,先行获取商品对象的商品图片和商品标题,并且分别获得两者的编码向量,即图片编码向量和文本编码向量,将两个编码向量简单拼接为图文拼接向量。
所述的图片编码向量是所述商品图片经深层语义学习所提取的特征信息,可以采用多种经预训练的图像特征提取模型对所述的商品图片进行深层语义特征提取,以此获得其相对应的图片编码向量,实现对该商品图片的深层语义信息的表示。所述图像特征提取模型一般包括基于CNN实现的适于对图片进行深层语义特征提取的神经网络模型,例如Resnet、EfficientNet等,可由本领域技术人员灵活建模选用。
所述的文本编码向量是所述商品标题经深层语义学习所提取的特征信息,可以采用多种经预训练的文本特征提取模型对所述的商品标题进行深层语义特征提取,以此获得其相对应的文本编码向量,实现对该商品标题的深层语义信息的表示。所述文本特征提取模型一般包括基于统计或基于RNN实现的适于对文本进行深层语义特征提取的模型,例如Bert模型为目前为止较为优秀的能够处理文本时序信息的神经网络模型,可以适用于本申请中负责文本提取工作,同理,Electra模型能以更低参数量获得与Bert模型同等或相近的效果,故也推荐使用。
至于与商品标签相对应的标签编码向量,也将在本申请中作为一个独立的模态相对应的特征信息进行使用,推荐使用基于Bi-LSTM的双向RNN网络架构的标签特征提取模型来处理,由于此类双向短长时记忆模型能够从两个方向来考察上下文信息,因此,对于商品标签这种层次结构,能够更好地进行特征表示。具体而言,可将预训练一个Bi-TreeLSTM模型专门用于本申请中为商品对象提取其商品标签相对应的标签编码向量。与此同理,任何经预训练后适于对商品对象的进行表示学习的基础神经网络模型,理论上均可适用于本申请中充当提取商品标签的标签编码向量的模型,例如Text-RCNN、Bert等,可由本领域技术人员灵活建模。
可以看出,本申请用于实现商品分类所需的各个模态相对应的信息,可以分别采用不同的模型来对其进行相应的编码,获得相应的编码向量,而这些相应的模型可以采用目前已知的各种成熟模型,特别是预训练模型,或由本领域技术人员自行将其训练至收敛亦可。无论采用何种模型来实现,只要能配合本申请所需,实现对各个模态相对应的信息,如商品标题、商品图片、商品标签等进行表示学习,获得相应的编码向量,即可投入本申请的技术方案中使用。
本步骤中,对于一个商品对象而言,通过将其所述的商品图片相对应的图片编码向量与其所述的商品标题相对应的文本编码向量在统一尺度上进行简单拼接,便可获得所述的图文拼接向量。需要注意的是,图文拼接向量仅仅是将两个编码向量进行简单的连接,并未实现对两个编码向量的交互,因此,图文拼接向量并未实现对商品图片和商品标题之间的深度的信息融合。
至于各个模态相对应的编码向量的具体编码过程,后续将通过其他实施例进一步揭示,此处暂且不表。
步骤S1200、基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量:
所述的图文拼接向量,输入到基于多头注意力机制的神经网络模型中进行编码,以获得相应的第一图文融合向量。
此处所采用的基于多头注意力机制的神经网络模型,优选基于Transformer中的编码路径为基础架构的神经网络模型,例如可以优选Bert模型,Bert模型内部即采用了Transformer中的编码路径;又如,也包括更适于处理图文信息的的Vision Transformer(ViT)中的编码路径。此外,其他能够实现本申请的同等功能的变体模型也可等同替换之。
根据Transformer的原理,Transformer的编码路径中,包括多个结构和原理均相同的编码器,每个编码器均包括自注意力层,其以输入其中的图文拼接向量为基础进行特征交互,将交互后的结果传递至该编码器的多层感知器进行高层语义提取后输出。
本申请所采用的基于多头注意力机制的神经网络模型,被预训练至收敛之后启用,鉴于Transformer、Bert、ViT等模型的训练过程均为本领域技术人员所知晓,故对其训练过程恕不详述。该神经网络模型适于对所述的图文拼接向量执行特征层面的编码操作,使得所述图文拼接向量所包含的图片特征向量和文本特征向量在特征层面实现深度交互,从而实现商品图片及其商品标题在深层语义层面的深度融合。后续的实施例将对此一原理做进一步的揭示,此处暂且不表。
经所述神经网络模型对所述的图文拼接向量进行逐级编码过程中,多头注意力机制始终发挥作用,使得编码过程中充分参考相关上下文信息,将图文拼接向量中的图片编码向量和文本编码向量进行深度的交互,最终获得充分考虑了上下文信息的第一图文融合向量。
第一图文融合向量是所述图片编码向量与所述文本编码向量在语义层面进行了充分的特征交互运算后的产物,因此,从表示学习的角度来看,第一图文融合向量成功而且统一地表示了商品对象的商品图片和商品标题之间的关联信息。
步骤S1300、基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量:
与此同理,可以采用前一步骤编码器中自注意力层相同的原理,进一步借助一个基于多头注意力机制的自注意力层,来实现第一图文融合向量与前文所述的表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量的特征交互。
如前所述,标签编码向量是对商品对象在预设类目树标签结构中所归属的商品标签的表示,因此,将标签编码向量与所述第一图文融合向量一起送入自注意力层后,便可进行特征交互。
本步骤所增加的自注意力层,与前一步骤的编码器内的自注意力层在结构和原理上均无差别,实际上,该自注意力层可以是所述的神经网络模型的最后一级的编码器去除前馈神经网络而获得。由此可见,典型的情况下,只需简单改造Bert模型,即可实现本申请所需的神经网络模型,而其训练原理和过程与Bert原型基本同理,本领域技术人员可以根据此处的揭示而自行对模型进行构造和训练。
经本步骤中提供的自注意力层对第一图文融合向量和所述标签编码向量进行特征交互的过程中,多头注意力机制仍发挥作用,在特征交互过程中充分参考相关上下文信息,实现第一图文融合向量与标签编码向量在语义上的深度交互,最终获得充分考虑了上下文信息的第二图文融合向量。
同理,第二图文融合向量是所述图片编码向量、所述文本编码向量、所述标签编码向量在语义层面进行了充分的特征交互运算后的产物,因此,从表示学习的角度来看,第二图文融合向量成功而且统一地表示了商品对象的商品图片、商品标题、商品标签之间的关联信息。
步骤S1400、根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签:
第二图文融合向量会先经过全连接层而被映射到分类空间,然后采用Softmax构造的多分类器对该分类空间进行概率计算,获得第二图文融合向量映射到各个分类标签相对应的概率,即所述的分类结果。根据这一分类结果中的各个分类标签的分类概率,便可判定所述商品对象相对应的分类标签,通常是将分类概率最大的分类标签作为所述商品对象相对应的分类标签,至此,便可以输出该分类标签相对应的表示文本。
至于所述分类标签所属的分类体系,不应与电商平台中的类目树的层次结构中的商品标签的概念相混同,而主要视本申请的技术方案所服务的下游任务而定。例如,在本申请示例性的对商品对象进行属于何种性质的商品的分类的应用场景中,分类体系中存在多个分类标签,分别指示商品对象为{正常商品;危险商品;嫌疑商品;非卖品},基于这样的分类体系,若某一商品对象对应所述“正常商品”的分类标签的分类概率最大时,便可判断与“正常商品”相对应的分类标签为最终的分类结果相对应的分类标签。
本申请的所涉的神经网络模型需经预先训练,本领域技术人员均能理解,通过向本申请所采用的神经网络模型馈入相应的训练样本对其进行迭代训练,可以逐渐将该神经网络模型训练至收敛,当其达致收敛后便可将其投入使用。由于本申请所采用的神经网络模型基于Transformer编码路径的基础架构实现,而对于一架构的实例例如Bert模型的训练过程已为本领域技术人员所能理解,故本申请重点在于给出其训练前的编码过程,而无需再行重点强调该模型的具体训练过程,本领域技术人员可在本申请揭示的技术方案的基础上,自行训练出本申请所需的神经网络模型。
一个实施例中,为了指导本申请所采用的神经网络模型习得分类能力,可以在所述文本编码向量或者所述图片编码向量中添加分类任务标识,当本申请采用Bert模型用于提取文本特征信息,根据Bert模型原理,可在其文本编码向量中添加[CLS]标识来实现,同理,该标识也可添加至图片编码向量中。相应的,在预测阶段,进行图片编码或者文本编码时,也可对应添加该分类任务标识。
通过本典型实施例的揭示可知,本申请至少体现出如下的优势:
本申请分别对商品对象的商品标题、商品图片、商品标签等不同模态信息进行建模得到其相应的特征,这些特征再经过基于多头注意力机制进行多次交互融合在一起,最终获得综合了各种模态信息的深层语义信息的图文融合向量,实现对商品对象的综合表示学习,据此进行商品分类,获得相应的分类结果。
本申请所利用的各模态信息的建模可以相互解耦、相互独立的,相较于传统技术中仅将文本(以商品标题为主有时包括标签)和图片分成两类处理的情况,可适应各种模态信息的特点而灵活自定义不同模态的网络结构,支持不同规模的模态特征融合,可以更灵活地处理多模态信息。
此外,本申请中,对不同模态的信息进行两次融合,第一次是对商品的商品标题和商品图片进行特征融合,第二次是对首次融合后的特征和商品标签的特征进行融合,其中两次融合均应用了多头注意力机制进行充分的特征交互,从而降低了不同模态特征融合的信息阻隔,可以提取到更丰富的商品信息,得到更丰富的特征信息,从而有助于提高商品分类的准确率。
请参阅图3,深化的实施例中,步骤S1100、获取商品对象的图文拼接向量,包括如下步骤:
步骤S1110、采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息:
本实施例中,在对商品图片进行常规的预处理后,采用基于Resnet网络架构的图像特征提取模型对所述商品对象的商品图片进行特征提取,可以采用Resnet50、Resnet101、IResNet等、ResNeXt101等等基于残差卷积神经网络的网络架构,以及较新的EfficienNet等,实践中这些架构的应用均能取得良好的效果。当然,其他效果优秀的网络架构所实现的图像特征提取模型也可在本实施例中等同替换使用。利用图像特征提取模型可以从商品图片中提取出相应的图片特征信息。
步骤S1120、将所述图片特征信息展开为以单行向量表示的所述图片编码向量:
图像特征信息可以压缩为一个二维矩阵,为了适应本申请基于多头注意力机制的神经网络模型的需要,可以对该二维矩阵进行降维,具体是将该二维矩阵在一维向量上展开,即将该二维矩阵中各个行向量顺序拼接,获得一个单行向量,即图片编码向量。不难理解,假设该二维矩阵是N*D的尺度,则其展开后获得的图片编码向量便变为1*(N*D)的尺度,这一尺度对应的行向量维度(N*D)是预先与本申请中的文本特征向量进行统一规定的,以便后续两者能够直接拼接。
步骤S1130、将所述商品标题转换为文本编码向量,该文本编码向量由所述商品标题的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成:
本实施例中,可考虑采用Electra模型来作为文本特征提取模型,对商品对象的商品标题进行特征提取。Electra模型基于生成对抗模型来实施训练,其与Bert同理,应用MLM(Masked Language Model)进行训练,因此与Bert西式可以在本申请中等同替换。适应该文本特征提取模型的需要,从所述商品标题中编码出三个向量,分别是用于表示其各个分词的文本嵌入向量(Token Embedding)、用于表示各个分词的位置信息的位置嵌入向量(Position Embedding)、用于表示句子间区分信息的分句嵌入向量(Segment Embedding),然后由文本特征提取模型根据这些嵌入向量进行文本特征提取,最终获得相应的文本编码向量。对此,本领域技术人员可以灵活实施。
步骤S1140、将所述图片编码向量与所述文本编码向量拼接为所述的图文拼接向量:
在已经获得所述商品对象的图片编码向量与文本编码向量的基础上,只需对两者进行简单的特征拼接,即可获得所述的图文拼接向量。由于图片编码向量的尺度与文本编码向量的尺度已经实现统一,因此,最终获得的图文拼接向量为一个2*(N*D)尺度的向量。
本实施例揭示了分别通过两个不同路径获取商品图片、商品标题的编码向量的原理,最终将两者拼接为同一图文拼接向量,实现了第一次特征交互前的预处理。根据本实施例可以看出,可以采取多种预训练模型来实现所述图文拼接向量的制备,因此无需额外投入大量的训练成本,便可为后续进行特征交互做好准备。
请参阅图4,具体化的实施例中,步骤S1110、采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息,包括如下步骤:
步骤S1111、将所述商品图片进行格式化预处理:
对商品图片进行预处理,主要是为了适应图片特征提取模型输入的需要,将商品图片加工至有助于该模型处理的效果。例如对所述的商品图片进行尺寸缩放、物品识别、图像标准化处理等,对此,本领域技术人员可按需灵活实施。
步骤S1112、采用图像特征提取模型从所述商品对象的商品图片中提取出图片特征信息:
参阅前文各实施例,利用预选的图像特征提取模型,例如前述的EfficientNet模型,便可从所述预处理后的商品图片中提取出相应的图片特征信息。
步骤S1113、对所述图片特征信息进行平均池化:
由于通常情况下图像特征提取模型所提取出来的图片特征信息是多通道的数据,因此,可以借助一个池化层,对多通道的图片特征信息进行平均池化,将其池化为单通道的图片特征信息。
步骤S1114、将经池化后的图片特征信息进行激活后输出:
最后,将该单通道的图片特征信息经应用激活函数进行激活,完成语义信息提取,获得最终的图片特征信息。
本实施例给出商品图片的图片特征信息的提取过程,这一过程实现了从商品图片到图片特征信息的转变,为后续制备图片编码向量奠定基础,可以看出,这一过程是适应图片信息这一模态信息所需而可灵活定制的,因此,本领域技术人员可以根据本实施例揭示的原理,适应图片特征提取模型的具体选型而灵活设计相应的实现过程,只要最终能获得一个以二维矩阵表示的便于进行降维处理的图片特征信息以为构造图片编码向量做好准备即可。
综合前述各实施例中,可以做出如下的变通而获得相应的变通实施例:先将所述的商品图片分割为多个等大的图元,由图像特征提取模型针对各个图元分别提取图片特征信息,同理对图片特征信息进行平均池化、激活后,将每个图元对应的图片特征信息均转换为单行向量,然后将这些单行向量进行顺次连接构造为所述的图片编码向量。诸如此类,本领域技术人员均可灵活变通实施。
请参阅图5,具体化的实施例中,步骤S1130、将所述商品标题转换为文本编码向量,包括如下步骤:
步骤S1131、对所述商品标题进行分词:
本步骤中,先对商品的商品标题进行处理,因为商品的商品标题一般较短,且一些特殊符号在语义表达上起到了关键的作用,因此不对标题做去停用词等预处理,直接采用N-gram、WordPrice、Word2Vec等任意同义模型对标题进行分词即可。
步骤S1132、采用文本特征提取模型从分词后的商品标题编码信息中提取出所述的文本特征信息:
前一步骤中,已先行对所述的商品标题进行分词,根据预设的词典将各个分词转换为相应的文本嵌入向量,同理根据分词所在的位置编码获得位置嵌入向量,以及编码出区分不同分句的分句嵌入向量,然后将这些向量加和融合后传递给文本特征提取模型进行深层语义信息提取,便获得相应的文本特征向量。
如前所述,对摘要文本进行特征提取所采用的文本特征提取模型,可以采用包括Bert、Electra等预训练模型来实现,本领域技术人员可灵活实施。
以Bert模型为例,所述三个嵌入向量,即文本嵌入向量、位置嵌入向量、分句嵌入向量将被进行融合,在融合的基础上,Bert模型对其进行相应的编码,同理也是基于多头注意力机制,最终获得与所述商品标题相对应的文本特征信息。
步骤S1133、将所述文本特征信息进行激活后输出:
进一步将所述的文本特征信息应用激活函数进行特征激活即可获得最终的文本特征信息。
本实施例中,进一步揭示了针对所述商品对象的商品标题的编码过程,推荐使用Electra模型或Bert模型来实现文本编码,充分利用现有技术中的优秀成果,使编码效率更高,所获得的文本编码向量对摘要文本的深层语义的理解更到位。
请参阅图6,深化的实施例中,步骤S1200、基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量,每一级的编码过程包括如下步骤:
步骤S1210、采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量:
如前所述,本申请中,推荐采用基于多头注意力机制的神经网络模型来实现,因此,本实施例中,采用Bert模型或者多层Transformer的编码路径构成的模型来构造本申请所需的神经网络模型,因此,本申请所用的神经网络模型实际上是继承传统Transformer模型固有的编码架构的,因此,本实施例中所用到的编码器,即为Transformer固有架构中的编码器。
Transformer固有编码架构中,包含多个编码器,每个编码器均采用相同的结构,包括一个自注意力层和一个多层感知器(MLP),所述自注意力层实现了多头注意力机制。
据此,每个编码器的自注意力层基于多头注意力机制所固设的算法对其所接收的图文拼接向量进行深度的特征交互之后,将特征交互之后获得的结果传递给其多层感知器进行特征提取,再由多层感知器将特征提取结果提供给下一编码器,以此类推,后一编码器的自注意力层以前一编码器的多层感知器的输出为输入,按照相同的逻辑进行处理,每个编码器中都通过多层感知器对自注意力层的输出结果进行高层语义提取并输出,直至最后一个编码器获得的输出可作为第一图文融合向量输出。
据此,本步骤中,所述的每个编码器中的自注意力层,当其接收到一个向量的输入后,例如第一个编码器以所述图文拼接向量为其输入,而后续的图文拼接向量则以前一级的编码器的多层感知器的输出为输入,当前编码器获取到所输入的图文拼接向量后,根据固有的架构原理,便可为其中的每个行向量构造相应的查询向量(Q)、键向量(K)、值向量(V),构造Q、K、V向量是多头注意力机制的基本原理,是实现特征层面深度交互的基础手段。
步骤S1220、将所有行向量相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值:
根据自注意力机制固有的算法,自注意力层对于每个行向量,先计算其键向量与其他行向量相对应的查询向量的点积,然后采用Softmax函数对这些点积进行归一化,使多个点积的加和总值为1,以这些点积归一化后的数值作为各个行向量相对应的权重。在此基础上,将所有行向量相对应的值向量与其相对应的权重进行相乘后相加,实现加权求和,获得一个加权求和后的求和矩阵。
步骤S1230、将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵:
为了标准化输出尺度,将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵,获得一个与原来的图文拼接向量相同尺度的中间信息矩阵,可以理解,经过Q、K、V间运算,中间信息矩阵中,已经实现了各个行向量之间的深度语义交互。
步骤S1240、经多层感知器对所述中间信息矩阵进行特征提取,获得图文交互向量,作为下一编码器所需的图文拼接向量,或在最后一个编码器中作为第一图文融合向量直接输出:
所述的中间信息矩阵被输出至充当前馈神经网络的多层感知器中进行高层语义特征提取,获得图文交互向量,然后,便可将其输出给下一编码器,对于下一编码器来说,该图文交互向量即也视同第一编码器的图文拼接向量做同理的运算,如果输出图文交互信息的编码器是最后一个编码器,则直接将该图文交互信息作为所述的第一图文融合向量输出。
本实施例中,详细揭示如何结合多头注意力机制来实现本申请的商品对象的商品图片和商品标题之间的深度交互,从而实现深层语义融合,可以看出,本申请有效地利用了现有的技术架构,获得了期望的结果,对于电商平台中商品对象的多模态特征交互融合起到关键贡献作用,为实现根据商品对象的图、文信息进行分类奠定了坚实的技术基础。
请参阅图7,深化的实施例中,根据前一实施例同理,采用一个自注意力层来进一步将所述第一图文交互向量与标签编码向量进行特征交互,因此,步骤S1300、基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量,包括如下步骤:
步骤S1310、获取所述表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量:
如前所述,可以采用预训练的Bi-TreeLSTM来实现对所述商品对象的商品标签的表示学习,从而获得相应的标签编码向量,该标签编码向量表示了该商品对象的商品标签映射到电商平台的类目树的各级标签的概率分布,因此实现了对该商品对象的商品标签的语义表示。
步骤S1320、基于所述第一图文融合向量构造其各个行向量相对应的查询向量、键向量及值向量:
同理,本步骤所采用的自注意力层,当其接收到所述第一图文融合向量的输入后,根据固有的架构原理,便可为其中的每个行向量构造相应的查询向量(Q)、键向量(K)、值向量(V)。
步骤S1330、以所述标签编码向量分别对各行量相对应的所述值向量求点积实现对各个值向量的更新:
为了实现所述标签编码向量与该第一图文融合向量的特征交互,以该标签编码向量对该第一图文融合向量相对应的各个值向量求点积,实现对所述各个值向量的更新。由此标签编码向量表示了商品标签的概率分布,因此,通过求点积,商品标签所隐藏的语义信息便被深度嵌入所述的值向量中,实现了标签编码向量与第一图文融合向量的深度语义交互。
步骤S1340、根据更新后的值向量,将所有行向量相对应的更新后值向量进行加权求和,各更新后值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值:
在所述的值向量被更新的基础上,便可沿用自注意力机制固有的算法,对于每个行向量,先计算其键向量与其他行向量相对应的查询向量的点积,然后采用Softmax函数对这些点积进行归一化,使多个点积的加和总值为1,以这些点积归一化后的数值作为各个行向量相对应的权重。在此基础上,将所有行向量相对应的值向量与其相对应的权重进行相乘后相加,实现加权求和,获得一个加权求和后的求和矩阵。
步骤S1350、将加权求和结果乘以转换权重矩阵获得其相对应的第二图文融合向量:
为了标准化输出尺度,将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵,获得一个与原来的第一图文融合向量相同尺度的矩阵,该矩阵即为所述的第二图文融合向量。
可以理解,通过借助自注意力层来实现第一图文融合向量与标签编码向量的深度语义交互,所获得的第二图文融合向量中,已经实现了多种模态信息即商品图片、商品标题、商品标签之间的深度语义交互,可用于实施下游任务所需的分类。
请参阅图8,深化的实施例中,步骤S1400、根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签,包括如下步骤:
步骤S1410、将所述第二图文融合向量全连接输出至分类空间:
所述第二图文融合向量最后经一个全连接层进行线性转换,将其映射到分类空间中,以便后续由分类器计算该分类空间各个分类标签相对应的分类概率。
步骤S1420、根据所述分类空间计算各个分类标签相对应的概率,获得分类结果:
此处采用一个Softmax构造的简单分类器对该分类空间中的各个分类标签进行归一化计算概率即可,由此获得各个分类标签相对应的概率,所有分类标签的概率加和为1。
步骤S1430、根据分类结果确定其中概率最大的分类标签:
不难理解,概率计算得到的分类结果中,其中概率最大的分类标签,即为所述的商品对象所属的分类相对应的分类标签。
步骤S1440、提取所述概率最大的分类标签相对应的表示文本并输出:
根据所述分类标签便可查找相应的映射词典,确定出该分类标签相对应的表示文本。
根据下游任务的不同,可以适应性地输出所述的表示文本。例如对于一个识别非卖品的分类任务而言,当将商品对象识别为非卖品时,便直接输出该商品对象属于所述表示文本的通知消息,或者只将这一表示文本添加为相应的商品对象的属性数据,在后续处理。诸如此类,本领域技术人员可灵活变通实施。
结合本实施例可以理解,本申请在对商品对象的商品图片、商品标题、商品标签进行特征层面的深度交互获得第二图文融合向量的基础上进行分类,能够获得商品对象相关的更为深层的语义信息,据此对商品对象进行分类,可以获得更为准确的分类结果,更适合服务于与商品对象分类相关的诸如商品推荐、商品搜索、商品安全属性识别等电商平台中的其他下游任务。
根据本申请的原理所调用的神经网络模型,由于本申请基于深度交互的图文融合向量进行分类,其表示学习效果更佳,因此更易被训练至收敛,实践中,训练速度明显优于未对图片编码向量和文本编码向量进行深度交互的情况,由于两种信息在语义层面相交织,因此,一种信息中个别细粒度信息的丢失,也不会影响分类时的识别效果。
请参阅图9,适应本申请的目的之一而提供的一种跨模态商品分类装置,是对本申请的跨模态商品分类方法的功能化体现,该装置包括:向量获取模块1100、首次交互模块1200、二次交互模块1300,以及分类处理模块1400,其中,所述向量获取模块1100,用于获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成;所述首次交互模块1200,用于基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量;所述二次交互模块1300,基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量;所述分类处理模块1400,用于根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签。
深化的实施例中,所述向量获取模块1100包括:图片提取子模块,用于采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息;图片编码子模块,用于将所述图片特征信息展开为以单行向量表示的所述图片编码向量;文本编码子模块,用于将所述商品标题转换为文本编码向量,该文本编码向量由所述商品标题的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成;图文拼接子模块,用于将所述图片编码向量与所述文本编码向量拼接为所述的图文拼接向量。
具体化的实施例中,所述图片提取子模块包括:图片处理单元,用于将所述商品图片进行格式化预处理;图片特征提取单元,用于采用图像特征提取模型从所述商品对象的商品图片中提取出图片特征信息;图片池化处理单元,用于对所述图片特征信息进行平均池化;图片激活输出单元,用于将经池化后的图片特征信息进行激活后输出。
具体化的实施例中,所述文本编码子模块包括:文本分词单元,用于对所述商品标题进行分词;文本特征提取单元,用于采用文本特征提取模型从分词后的商品标题编码信息中提取出所述的文本特征信息;文本激活输出单元,用于将所述文本特征信息进行激活后输出。
深化的实施例中,所述首次交互模块1200包括:第一构造子模块,用于采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量;第一运算子模块,用于将所有行向量相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;第一转换子模块,用于将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵;第一感知子模块,用于经多层感知器对所述中间信息矩阵进行特征提取,获得图文交互向量,作为下一编码器所需的图文拼接向量,或在最后一个编码器中作为第一图文融合向量直接输出。
深化的实施例中,所述二次交互模块1300包括:分布获取子模块,用于获取所述表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量;第二构造子模块,用于基于所述第一图文融合向量构造其各个行向量相对应的查询向量、键向量及值向量;交互运算子模块,用于以所述标签编码向量分别对各行量相对应的所述值向量求点积实现对各个值向量的更新;第二运算子模块,用于根据更新后的值向量,将所有行向量相对应的更新后值向量进行加权求和,各更新后值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;第二转换子模块,用于将加权求和结果乘以转换权重矩阵获得其相对应的第二图文融合向量。
深化的实施例中,所述分类处理模块1400包括:分类映射子模块,用于将所述第二图文融合向量全连接输出至分类空间;概率计算子模块,用于根据所述分类空间计算各个分类标签相对应的概率,获得分类结果;概率优选子模块,用于根据分类结果确定其中概率最大的分类标签;标签输出子模块,用于提取所述概率最大的分类标签相对应的表示文本并输出。
为解决上述技术问题,本申请实施例还提供计算机设备。如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种跨模态商品分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的跨模态商品分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的跨模态商品分类装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的跨模态商品分类方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够根据商品对象的商品图片、商品标题、商品标签进行特征层面的深层语义交互,深化多种模态信息的融合,并据此进行分类,能够以更高准确率获取商品对象的分类结果,适于电商平台中对商品对象进行分类,具有广阔的应用前景。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种跨模态商品分类方法,其特征在于,包括如下步骤:
获取商品对象的图文拼接向量,所述图文拼接向量由商品图片的图片编码向量和商品标题的文本编码向量拼接而成;
基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量;
基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量;
根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签。
2.根据权利要求1所述的跨模态商品分类方法,其特征在于,获取商品对象的图文拼接向量,包括如下步骤:
采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息;
将所述图片特征信息展开为以单行向量表示的所述图片编码向量;
将所述商品标题转换为文本编码向量,该文本编码向量由所述商品标题的文本嵌入向量、位置嵌入向量以及分句嵌入向量融合而成;
将所述图片编码向量与所述文本编码向量拼接为所述的图文拼接向量。
3.根据权利要求2所述的跨模态商品分类方法,其特征在于,采用图像特征提取模型从所述商品对象的商品图片中提取出相应的图片特征信息,包括如下步骤:
将所述商品图片进行格式化预处理;
采用图像特征提取模型从所述商品对象的商品图片中提取出图片特征信息;
对所述图片特征信息进行平均池化;
将经池化后的图片特征信息进行激活后输出。
4.根据权利要求1所述的跨模态商品分类方法,其特征在于,将所述商品标题转换为文本编码向量,包括如下步骤:
对所述商品标题进行分词;
采用文本特征提取模型从分词后的商品标题编码信息中提取出所述的文本特征信息;
将所述文本特征信息进行激活后输出。
5.根据权利要求1所述的跨模态商品分类方法,其特征在于,基于多头注意力机制对所述图文拼接向量进行多级编码,实现所述图片编码向量与所述文本编码向量的第一次特征交互,获得第一图文融合向量,每一级的编码过程包括如下步骤:
采用当前级相对应的编码器对应当前输入的图文拼接向量中的每个行向量构造查询向量、键向量及值向量;
将所有行向量相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;
将加权求和结果乘以转换权重矩阵获得其相对应的中间信息矩阵;
经多层感知器对所述中间信息矩阵进行特征提取,获得图文交互向量,作为下一编码器所需的图文拼接向量,或在最后一个编码器中作为第一图文融合向量直接输出。
6.根据权利要求1所述的跨模态商品分类方法,其特征在于,基于多头注意力机制将第一图文融合向量与表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量进行第二次特征交互,获得第二图文融合向量,包括如下步骤:
获取所述表示该商品对象在预设类目树标签结构中的商品标签的标签编码向量;
基于所述第一图文融合向量构造其各个行向量相对应的查询向量、键向量及值向量;
以所述标签编码向量分别对各行量相对应的所述值向量求点积实现对各个值向量的更新;
根据更新后的值向量,将所有行向量相对应的更新后值向量进行加权求和,各更新后值向量相应的权重为其相对应的键向量与其他行向量相对应的查询向量的点积的归一化分值;
将加权求和结果乘以转换权重矩阵获得其相对应的第二图文融合向量。
7.根据权利要求1所述的跨模态商品分类方法,其特征在于,根据所述第二图文融合向量进行分类,根据分类结果判定所述商品对象的分类标签,包括如下步骤:
将所述第二图文融合向量全连接输出至分类空间;
根据所述分类空间计算各个分类标签相对应的概率,获得分类结果;
根据分类结果确定其中概率最大的分类标签;
提取所述概率最大的分类标签相对应的表示文本并输出。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111141330.9A CN113850201A (zh) | 2021-09-28 | 2021-09-28 | 跨模态商品分类方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111141330.9A CN113850201A (zh) | 2021-09-28 | 2021-09-28 | 跨模态商品分类方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850201A true CN113850201A (zh) | 2021-12-28 |
Family
ID=78980739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111141330.9A Pending CN113850201A (zh) | 2021-09-28 | 2021-09-28 | 跨模态商品分类方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850201A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626455A (zh) * | 2022-03-11 | 2022-06-14 | 北京百度网讯科技有限公司 | 金融信息处理方法、装置、设备、存储介质及产品 |
CN114973294A (zh) * | 2022-07-28 | 2022-08-30 | 平安科技(深圳)有限公司 | 基于图文匹配方法、装置、设备及存储介质 |
CN115063640A (zh) * | 2022-08-15 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 交互检测方法、交互检测模型的预训练方法及设备 |
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
WO2023201990A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种视觉定位方法、装置、设备及介质 |
CN117611245A (zh) * | 2023-12-14 | 2024-02-27 | 浙江博观瑞思科技有限公司 | 用于电商运营活动策划的数据分析管理系统及方法 |
-
2021
- 2021-09-28 CN CN202111141330.9A patent/CN113850201A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626455A (zh) * | 2022-03-11 | 2022-06-14 | 北京百度网讯科技有限公司 | 金融信息处理方法、装置、设备、存储介质及产品 |
WO2023201990A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种视觉定位方法、装置、设备及介质 |
CN114973294A (zh) * | 2022-07-28 | 2022-08-30 | 平安科技(深圳)有限公司 | 基于图文匹配方法、装置、设备及存储介质 |
CN115063640A (zh) * | 2022-08-15 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 交互检测方法、交互检测模型的预训练方法及设备 |
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN116738343B (zh) * | 2023-08-08 | 2023-10-20 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN117611245A (zh) * | 2023-12-14 | 2024-02-27 | 浙江博观瑞思科技有限公司 | 用于电商运营活动策划的数据分析管理系统及方法 |
CN117611245B (zh) * | 2023-12-14 | 2024-05-31 | 浙江博观瑞思科技有限公司 | 用于电商运营活动策划的数据分析管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837102B (zh) | 图文融合分类方法及其装置、设备、介质、产品 | |
CN113850201A (zh) | 跨模态商品分类方法及其装置、设备、介质、产品 | |
CN113869048A (zh) | 商品对象搜索方法及其装置、设备、介质、产品 | |
CN115731425A (zh) | 商品分类方法及其装置、设备、介质 | |
CN113962224A (zh) | 命名实体识别方法及其装置、设备、介质、产品 | |
CN114186056A (zh) | 商品标签标注方法及其装置、设备、介质、产品 | |
CN113962773A (zh) | 同款商品聚合方法及其装置、设备、介质、产品 | |
CN113821589A (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN115689672A (zh) | 聊天式商品导购方法及其装置、设备、介质 | |
CN115018549A (zh) | 广告文案生成方法及其装置、设备、介质、产品 | |
CN113806537B (zh) | 商品类目分类方法及其装置、设备、介质、产品 | |
CN117251795A (zh) | 基于自适应融合的多模态虚假新闻检测方法 | |
CN115099854A (zh) | 广告文案创作方法及其装置、设备、介质、产品 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN116797280A (zh) | 广告文案生成方法及其装置、设备、介质 | |
CN114863440A (zh) | 订单数据处理方法及其装置、设备、介质、产品 | |
CN114782943A (zh) | 票据信息提取方法及其装置、设备、介质、产品 | |
CN114283281A (zh) | 目标检测方法及其装置、设备、介质、产品 | |
CN113806536B (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN115563280A (zh) | 商品标签标注方法及其装置、设备、介质 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN111723649A (zh) | 一种基于语义分解的短视频事件检测方法 | |
CN115205884A (zh) | 票据信息提取方法及其装置、设备、介质、产品 | |
CN115292603A (zh) | 商品搜索方法及其装置、设备、介质 | |
CN115858790A (zh) | 商品分类方法与训练方法、装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |