CN113449808B - 多源图文信息分类方法及其相应的装置、设备、介质 - Google Patents

多源图文信息分类方法及其相应的装置、设备、介质 Download PDF

Info

Publication number
CN113449808B
CN113449808B CN202110790695.8A CN202110790695A CN113449808B CN 113449808 B CN113449808 B CN 113449808B CN 202110790695 A CN202110790695 A CN 202110790695A CN 113449808 B CN113449808 B CN 113449808B
Authority
CN
China
Prior art keywords
image
classified
text
classification
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110790695.8A
Other languages
English (en)
Other versions
CN113449808A (zh
Inventor
曾鹏
刘涛
黄家冕
兴百桥
李保俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202110790695.8A priority Critical patent/CN113449808B/zh
Publication of CN113449808A publication Critical patent/CN113449808A/zh
Application granted granted Critical
Publication of CN113449808B publication Critical patent/CN113449808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种多源图文信息分类方法及其相应的装置、设备、介质,该方法包括:获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;先后融合从待分类图片的第一图样、第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,相应获得预设分类结构所派生的各分类的第一、第二评分值,其中所述第一图样为该待分类图片的原图,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;最后融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。本申请可以获得高准确度的分类结果,特别适用于电商应用场景中。

Description

多源图文信息分类方法及其相应的装置、设备、介质
技术领域
本申请实施例涉及电商信息技术领域,尤其涉及一种多源图文信息分类方法及其相应的装置、设备、介质。
背景技术
网络图片及商家上传图像是电商场景细粒度分类的重要来源,但爬虫抓取的数据或商家上传图像往往存在较多的背景噪声(background noise),往往需要对显著特征区域进行针对性清理,降低了根据这些图片进行分类的效率。
另一方面,对于电商场景所用的图片,往往也伴随着其他的先验信息,包括一些商品描述、电商标题等文本信息,充分利用这些文本信息,也有利于对电商图片的分类做出贡献。
传统技术中,采用多模态融合手段,以图片、文本等多源信息对分类对象进行联合表征后投入网络训练,获得相应的分类模型,后续利用此类分类模型用于对电商产品的图文进行分类。这种情况下,为了尽可能广泛地获得电商图片所表达的多样化细节特征,对训练样本的数据规模的依赖便较为严格,也就降低了训练效率,并且,在训练样本有限的情况下,分类模型难以有效收敛自然不在话下,此外在实际生产中也会造成多模态精度难以提高的现象。因此,现有技术中的对图文进行多模态融合以实现电商图片分类的网络模型,其训练难度大,分类效果不佳。
作为对传统技术的改进,部分现有技术使用可训练的链接强度来增加显著性分块特征的权重,部分现有技术则显式利用attention区域精细处理以提升细粒度性能,但这些细粒度分类方案大多着眼于端到端的特征提取过程中如何聚焦于最具分辨力的区域,无法应对背景噪声较多的情况,比如区分商品上广泛存在的文本(包含规格、批次信息)及轻微外观设计差别(不同应用场合的同类产品),同时现有的多模态融合手段在实际生产中仍然面临样本数据不足、模型难以收敛等实际问题。
发明内容
本申请的目的针对现有技术中存在的至少部分不足而提供一种多源图文信息分类方法及其相应的装置、计算机设备及存储介质。
为解决上述技术问题,本申请采用的一个技术方案是:
本申请的多源图文信息分类方法,其包括如下步骤:
获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;
融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;
融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;
融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
具体化的实施例中,获得所述图文特征信息的过程,包括如下步骤:
调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;
调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;
将所述图像特征信息与所述文本特征信息融合为图文特征信息。
具体化的实施例中,将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程,包括如下步骤:
将所述图像特征信息与文本特征信息分别进行特征泛化处理;
将泛化后的图像特征信息与文本特征信息分别进行全连接;
将全连接后的图像特征信息与文本特征信息分别进行池化;
将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。
具体化的实施例中,对所述图文特征信息进行分类的过程,包括如下步骤:
对所述图文特征信息进行全连接;
调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。
进一步扩展的实施例中,本方法还包括如下前置步骤:
在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;
在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;
在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态。
具体化的实施例中,在所述图像特征提取模型已接入所述分类器的状态下实施迭代训练的过程包括如下步骤:
所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图;
所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
较佳的实施例中,从待分类图片的第二图样提取图像特征信息的过程,包括如下步骤:
将待分类图片的副本按照预设细粒度均匀切分成多个图元;
将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图。
为解决上述技术问题,本申请采用的另一技术方案是:
本申请的多源图文信息分类装置,其包括图文获取模块、原图融合模块、副图融合模块、融合分类模块,其中,所述图文获取模块,用于获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;所述原图融合模块,用于融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;所述副图融合模块,用于融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;所述融合分类模块,用于融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
具体化的实施例中,所述原图融合模块和/或所述副图融合模型,其为获得所述图文特征信息而包括:图像模型子模块,用于调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;文本模型子模块,用于调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;图文融合子模块,用于将所述图像特征信息与所述文本特征信息融合为图文特征信息。
具体化的实施例中,所述图文融合子模块包括:特征泛化二级子模块,用于将所述图像特征信息与文本特征信息分别进行特征泛化处理;特征连接二级子模块,用于将泛化后的图像特征信息与文本特征信息分别进行全连接;特征池化二级子模块,用于将全连接后的图像特征信息与文本特征信息分别进行池化;特征融合二级子模块,用于将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。
具体化的实施例中,所述原图融合模块和/或所述副图融合模型,其为对所述图文特征信息进行分类而包括:图文连接子模块,用于对所述图文特征信息进行全连接;分类评分子模块,用于调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。
进一步扩展的实施例中,本申请的多源图文信息分类装置还包括:图像模型训练模块,用于在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;文本模型训练模块,用于在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;联合模型训练模块,用于在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态。
具体化的实施例中,所述图像模型训练模块和/或所述联合模型训练模块包括:第一训练子模块,被匹配为以所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图;第二训练子模块,被匹配为以所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
较佳的实施例中,所述副图融合模型和/或所述第二训练子模块为从待分类图片的第二图样提取图像特征信息而包括:图元切割子模块,用于将待分类图片的副本按照预设细粒度均匀切分成多个图元;图元重组子模块,用于将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图。
为解决上述技术问题,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述多源图文信息分类方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行所述多源图文信息分类方法的步骤。
与现有技术相比,本申请具有如下优点:
首先,本申请不仅基于待分类图片的原图的图像特征信息与待分类文本的文本特征信息进行多模态信息融合获得融合后分类评分值,还基于对待分类图片进行细粒度切分变形而得的副图的图像特征信息与待分类文本特征信息进行多模态信息融合获得融合后的分类评分值,最终融合两个评分值确定出具有最高评分值的分类所对应的分类标签作为所述待分类图片的分类标签,其中,利用细粒度切分变形而得的副图,区别于常用的图像数据增强技术手段而引入多任务损失,在训练阶段能有效降低多模态训练的难度,能减少实施多模态特征融合的模型对于训练样本数据量的要求,高效快速地使模型达致收敛状态,后续在其投入图片分类的阶段时,能够利用多模态信息,更为精准地对图片进行分类识别。
其次,本申请先后计算待分类图片的第一图样和第二图样相应的图像特征信息分别与文本特征信息融合后的图文特征信息的分类评分值,使其彼此均基于同一预设分类结构实现分类评分,因此在进行评分融合阶段,可以统一到同一分类标准中,基于所述的预设分类结构进行分类一一对应的线性融合,最终以融合结果确定具体的分类标签,也便实现了两次计算所得的评分值的有效融合,无需借助更为复杂的网络架构,便可实现提升分类准确度的效果。
此外,本申请特别适用于电商产品相关特点的电商图片的分类识别,被训练至收敛的相关模型,能够充分挖掘图片、文本等多模态信息,有效兼容待分类图片、待分类文本中的有限噪声,训别出电商产品的明细信息,包括但不限于电商产品的规格、批次以及外观细微差别等,从而实现较为准确的分类结果。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的技术方案所实现并采用的神经网络分类模型的结构示意图;
图2为本申请的多源图文信息分类方法的基本流程示意图;
图3为本申请的多源图文信息分类方法获得图文特征信息的过程的流程示意图;
图4为本申请的多源图文信息分类方法实施图像特征信息与文本特征信息的融合的过程的流程示意图;
图5为本申请的多源图文信息分类方法依据图文特征信息进行分类的过程的流程示意图;
图6为本申请的神经网络分类模型的训练过程的流程示意图;
图7为本申请的神经网络分类模型中图像特征提取模型的训练过程的流程示意图;
图8为本申请的多源图文信息分类方法中制备待分类图片的第二图样的过程的流程示意图;
图9为本申请的多源图文信息分类装置的基本结构示意图;
图10为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请部分技术方案可部署在云端服务器,其可以与业务上相关的服务器实现数据通信连接以协调在线服务,还可与其他相关服务器构成逻辑上相关联的服务机群,来为相关的终端设备例如智能手机、个人计算机、第三方服务器等提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与本申请的服务器建立数据通信链路,以便访问和使用所述服务器所提供的服务。
对于服务器而言,一般通过提供在线服务的服务引擎开放相应的程序接口供各种终端设备进行远程调用,本申请中适于部署于服务器的相关技术方案,便可以此种方式实现于服务器中。
本申请所称的计算机程序,即应用程序,以计算机程序语言开发而成,安装于计算机设备中,包括服务器、终端设备等,用于实现本申请所限定的相关功能,除非特别指定,否则与其所采用的开发语言无关。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1,其为实施本申请的技术方案所实现并采用的神经网络分类模型的结构示意图,该分类模型主要包括图像特征提取模型、文本特征提取模型、融合单元以及分类器,其中,图像特征提取模型,可采用CNN之类的本领域技术人员熟知的卷积神经网络实现,用于提取所输入的待分类图片的图像特征信息;文本特征提取模型,可采用Bert之类的本领域技术人员熟知的适于提取文本特征的NLP语义特征提取器来实现,用于提取所输入的待分类文本的文本特征信息;融合单元,用于将所述图像特征信息与文本特征信息融合为图文特征信息,所述分类器,可采用Softmax之类的本领域技术人员熟知的分类器实现,其依据图文特征信息进行分类,给出映射到预设的分类结果所包含的各个分类的评分值。
应当理解,本申请神经网络分类模型运行时所体现的固有的业务逻辑,不仅将在其训练过程中得以执行,而且在其运行过程中也将得以执行,因此,本申请涉及到对该神经网络分类模型固有的业务逻辑的阐述时,应当理解为其属于通用于本申请的各个实施例、实现各个相关功能所固有的业务逻辑。涉及到该神经网络分类模型的具体功能及训练和运行流程,将结合至本申请的各种方法和装置的阐述中进行介绍,此处暂不详表。
本申请的神经网络分类模型及其内置的各个具体模型,在投入生产阶段使用之前,均需预先训练,使其达到收敛状态。此处所称的收敛状态,也包含其损失函数经训练达到一定的期望精度的情况,该期望精度足以实施本申请的技术方案并取得相应的技术效果。
本申请以下的介绍,主要结合其在电商领域的图文信息处理的应用展开进行说明,其对于电商领域的图文信息的处理较有优势,因电商领域的电商产品图片及其描述信息文本之间一般具有相应性,故本申请充分利用图1所示的神经网络分类模型对其进行处理时,能够发挥该分类模型的优势,实现充分参考了电商产品的待分类图片中的规格、尺寸、外观细节等细节特征的分类。但是,不应以此限定本申请的创造精神所应涵盖的范围,理论上,只要存在图片与文本之间的对应描述关系的相关领域,即可应用本申请的技术方案,例如,在一些地理信息的领域,所提供的地理图片与其摘要文本之间,其中摘要文本一般也是地理图片的描述信息,这种情况下同理可应用本申请的技术方案对相关图文进行分类。推而广之,还可应用到其他多个领域,本领域技术人员根据此处的声明可以罗列,故恕不穷举。
请参阅图2所示本申请的多源图文信息分类方法在其典型实施例中的基本流程示意图,本申请提供的一种多源图文信息分类方法,被编程为应用程序,部署于服务器中开放接口调用,并响应接口调用而返回相应的执行结果,其包括如下步骤:
步骤S1100、获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息:
当本申请所实现的服务被调用时,需要向相应的调用接口传入待分类图片及待分类文本,其中的待分类图片一般是描述同一物品的图像,其中的待分类文本一般也是描述该同一物品的描述信息,两者具有针对该同一物品的相应性。
典型的实施例中,所述待分类图片一般是电商领域所需的电商产品的图片,相应的,所述的待分类文本也是电商产品的描述信息,包括但不限于电商产品的品名、规格、特征等属性信息。将本申请的技术方案应用于其他领域时,其他领域的待分类图片与待分类文本也与此同理。
所述待分类图片与所述待分类文本可以同步传入或先后传入,以不影响在本步骤中获取到待分类图片和待分类文本即可。
所述的待分类图片及待分类文本均可通过爬虫技术从公网中抓取而得,或者也可以是本地预备的,或者是从已有的电商系统的电商产品数据库中获取而得,其数据来源并不影响本实施的实施。
步骤S1200、融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图:
本申请借助所述的神经网络分类模型中的图像特征提取模型来实现对待分类图片的特征提取,其中整个神经网络分类模型及其中的图像特征提取模型、文本特征提取模型、分类器等,均已被预先训练至收敛状态而投入使用。本步骤中,主要是对待分类图片实施第一分支处理业务逻辑,在后一步骤中再进一步对待分类图片实施第二分支处理业务逻辑,两个分支处理业务逻辑在程序实现流程上是相同的,只是彼此所输入的图样不同。
在本步骤的第一分支处理业务逻辑中,以所述待分类图片的原图作为用于馈入至图像特征提取模型的图样,即第一图样。图像特征提取模型对所述第一图样进行特征提取,获得相应的图像特征信息,即第一图样的图像特征信息。可以理解,第一图样的图像特征信息,包含从所述待分类图片的原图中提取出的显著特征。
对于所述的与待分类图片相对应的待分类文本,则调用所述的文本特征提取模型对其进行深层语义推理,获得其深层语义特征,即所述的文本特征信息。
如图1所示,所述的图像特征提取模型与所述的文本特征提取模型可以并行工作,两者的输出,即所述图像特征信息与所述的文本特征信息最终被进行特征融合,以便获得图文特征信息。
所述的分类器基于所述图文特征信息进行分类以便获得相应的评分值,对应于所述第一分支处理业务逻辑,此处所获得的评分值被称为第一评分值。
分类器实施分类所涉的各个类别,在本申请中均派生自预设的分类结构,该分类结构包含n个具体分类,n一般为大于等于2的自然数,每个具体分类具有一个对应的分类标签,以标示该具体分类相应的称谓和/或属性,在表达内容上可以是产品分类标签,分类标签形如“家电”、“厨卫”、“衣服”……等等。
由此可知,对应一个图像特征信息,分类结构所派生的每个具体类别将对应获得一个第一评分值。
步骤S1300、融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图:
与前一步骤同理,通过对本申请的神经网络分类模型执行关于同一待分类图片和待分类文本的第二次调用,实施所述的第二分支处理业务逻辑。
适应第二分支处理业务逻辑,以所述待分类图片的副图作为用于馈入至图像特征提取模型的图样,即第二图样。图像特征提取模型对所述第二图样进行特征提取,获得相应的图像特征信息,即第二图样的图像特征信息。可以理解,第二图样的图像特征信息,包含从所述待分类图片的副图中提取出的显著特征。
所述的副图,一个实施例中,通过先设定预设尺寸的细粒度,以该细粒度对待分类图片进行切分,使其成为多个图元,然后将这些图元随机打乱后,按照待分类图片的原画幅重组成新的图片,该图片即为所述的副图,用作馈入至图像特征提取模型所需的第二图样。
同理,根据该神经网络分类模型固有的业务逻辑,在执行第二分支处理业务逻辑的过程中,仍需对所述的与待分类图片相对应的待分类文本调用所述的文本特征提取模型进行深层语义推理,获得其深层语义特征,即所述的文本特征信息。
根据第二分支处理业务逻辑,所述的图像特征提取模型与所述的文本特征提取模型可以并行工作,两者的输出,即所述图像特征信息与所述的文本特征信息最终被进行特征融合,以便获得图文特征信息。
根据第二分支处理业务逻辑,所述的分类器基于所述图文特征信息进行分类以便获得相应的评分值,对应的,由此获得的评分值被称为第二评分值。由于第二分支处理业务逻辑是基于与第一分支处理业务逻辑同一的神经网络分类模型执行的,因此,所述的分类器为同一分类器,两者为同一结构,均基于相同的预设的分类结构进行分类,将第二评分值投射至该分类结构所派生的各个具体类别,以获得各个具体类别相对应的所述第二评分值。
步骤S1400、融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签:
经过在前的各个步骤,分别获得同一预设分类结构的各个分类相对应的第一评分值和第二评分值,在内存空间中,可以构造用于存储第一评分值的第一分类空间,以及用于存储第二评分值的第二分类空间,以分类结构中的类别总数n为基础,构造一个元素总量为2n的数组,其中索引为1至n的元素集即构成所述的第一分类空间,用于存储所述的第一评分值;索引为n+1至2n的元素集即构成所述的第二分类空间,用于存储所述的第二评分值。此举便于提升对第一评分值和第二评分值进行融合时的运算效率,具体而言,对于同一待分类图片和待分类文本所得的前后两份图文特征信息而言,序号为x(x为1至n之间的自然数)的分类的第一评分值存储于第一分类空间中下标为x的元素中,其对应的第二评分值则存储于第二分类空间中下标为n+x的元素中,当然第一分类空间与第二分类空间应以所述的预设的分类结构中各个分类的排序关系进行顺序上的一致性映射,以便确保两个分类空间可以通过以上揭示的数学换算关系来确定同一分类相应的第一评分值和第二评分值。
根据以上揭示的原理,便可在本步骤中确定所述预设的分类结构中各个分类相对应的第一评分值和第二评分值,将两者进行融合,获得综合评分值。至于融合的方式,可以简单将同一分类所对应的第一评分值和第二评分值简单求取代数和,也可求均值等等,均不影响本申请创造精神的体现。
获得所述预设分类结构中的各个分类的综合评分值后,进一步求取各个分类中综合评分值最大者,确定综合评分值最大的分类为待分类图片与待分类文本相对应的分类,然后确定其分类标签,将该分类标签输出即可完成整个分类过程。
本申请的典型实施例中,不仅基于待分类图片的原图的图像特征信息与待分类文本的文本特征信息进行多模态信息融合获得融合后分类评分值,还基于对待分类图片进行细粒度切分变形而得的副图的图像特征信息与待分类文本特征信息进行多模态信息融合获得融合后的分类评分值,最终融合两个评分值确定出具有最高评分值的分类所对应的分类标签作为所述待分类图片的分类标签,其中,利用细粒度切分变形而得的副图,区别于常用的图像数据增强技术手段而引入多任务损失,在训练阶段能有效降低多模态训练的难度,能减少实施多模态特征融合的模型对于训练样本数据量的要求,高效快速地使模型达致收敛状态,后续在其投入图片分类的阶段时,能够利用多模态信息,更为精准地对图片进行分类识别。
其次,本申请先后计算待分类图片的第一图样和第二图样相应的图像特征信息分别与文本特征信息融合后的图文特征信息的分类评分值,使其彼此均基于同一预设分类结构实现分类评分,因此在进行评分融合阶段,可以统一到同一分类标准中,基于所述的预设分类结构进行分类一一对应的线性融合,最终以融合结果确定具体的分类标签,也便实现了两次计算所得的评分值的有效融合,无需借助更为复杂的网络架构,便可实现提升分类准确度的效果。
此外,本申请特别适用于电商产品相关特点的电商图片的分类识别,被训练至收敛的相关模型在本申请技术方案的协同作用下,能够充分挖掘图片、文本等多模态信息,有效兼容待分类图片、待分类文本中的有限噪声,训别出电商产品的明细信息,包括但不限于电商产品的规格、批次以及外观细微差别等,从而实现较为准确的分类结果。
请参阅图3,为具体化体现本申请优势而提出的实施例中,所述步骤S1200和/或所述步骤S1300中,其获得所述图文特征信息的过程,依赖于本申请的神经网络分类模型固有的业务逻辑所实施,包括如下具体步骤:
步骤S2100、调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息:
本申请的被预训练至收敛状态的神经网络分类模型,当其被调用运行之后,其中同样被训练至收敛状态的图像特征提取模型负责接收馈入的图样进行图像特征信息的提取,所述的图样,根据调用的处理业务逻辑的具体分支不同,相应的,可以是如前所述的适用于第一分支的第一图样或适用于第二分支的第二图样。如前所述,典型的情况下,采用CNN卷积神经网络作为所述图像特征提取模型对所述的图样进行特征提取,从而获得相应的图像特征信息。
步骤S2200、调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息:
对于本申请的被预训练至收敛状态的神经网络分类模型,同时也将其所获取的待分类文本馈入至预先被训练至收敛状态的所述文本特征提取模型中进行深层语义特征提取,获得待分类文本的文本特征信息。如前所述,本实施例推荐采用Bert模型来实现所述文本特征信息的提取。
步骤S2300、将所述图像特征信息与所述文本特征信息融合为图文特征信息:
获得所述图样的图像特征信息与文本特征信息之后,本申请的被预训练至收敛状态的神经网络分类模型,便借助其融合单元对两者进行特征融合。此处的特征融合,即实现图像特征信息与文本特征信息的多模态信息融合,使据此所获得的图文特征信息包含所述待分类图片的显著特征及所述待分类文本的语义特征,实现联合表征。具体而言,对于依据第一图样获得的图文特征信息,其所包含的待分类图片的显著特征是其原图所包含的显著特征;对于依据第二图样获得的图文特征信息,其所包含的待分类图片的显著特征则是其原图变形构成副图之后所包含的显著特征。至于实现多模态信息融合的方式,在本实施例中可以简单采用通道拼接的方式,在根据本实施例变换的其他实施例中,可采用其他本领域技术人员所熟知的图文特征融合方式实现。后文的其他实施例中将进一步揭示其具体的融合过程,此处暂且不表。
可见,本实施例实质上揭示了本申请所采用的神经网络分类模型的工作原理及其工作过程,其原理及工作过程不仅在其被调用用于实现待分类图片和待分类文本的分类时发挥作用,自然也在其被训练的过程中发挥作用。可以看出,本申请的神经网络分类模型的结构简单,部署成本较低,且运行效率高效。
请参阅图4,为具体化本申请所采用的神经网络分类模型的融合单元的工作过程的实施例中,所述步骤S1200和/或所述步骤S1300中,将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程,或者具体到前一实施例的所述步骤S2300,其包括如下步骤:
步骤S3100、将所述图像特征信息与文本特征信息分别进行特征泛化处理:
对图像特征信息与文本特征信息进行特征泛化处理,可以防止出现过拟合现象,主要借助分别为图像特征提取模型和文本特征提取模型服务的Dropout层来实现,本领域技术人员知晓此一原理,借助Dropout层来实现避免图像特征信息、文本特征信息的过拟合,以降低训练阶段与测试、运行阶段的分类准确度的差异。
步骤S3200、将泛化后的图像特征信息与文本特征信息分别进行全连接:
服务于所述的图像特征提取模型和文本特征提取模型泛化后的图像特征信息与文本特征信息的输出,分别采用全连接层对所述图像特征信息、文本特征信息泛化后的特征进行综合。
步骤S3300、将全连接后的图像特征信息与文本特征信息分别进行池化:
服务于所述的图像特征提取模型和文本特征提取模型全连接后的图像特征信息与文本特征信息的输出,分别采用池化层对所述图像特征信息、文本特征信息进行池化,实现降采样。本领域技术人员可以按需采用公知的池化方式实施,例如可以适用最大值池化或平均值池化等。
实际上,在某些实施例中,本实施例所用到的Dropout层、全连接层、池化层,所述图像特征提取模型、文本特征提取模型均各自配备,构成这两个模型各自固有的部件,以便各自最终输出池化后的图像特征信息和文本特征信息。本实施例将其纳入本申请神经网络分类模型的融合单元中进行阐述,主要是为了逻辑上理解的便利,但不应理解为某种限定性质,本领域技术人员对此应当知晓。
步骤S3400、将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息:
池化后的图像特征信息与文本特征信息,本实施例中,可以由融合单元实施concat操作而直接进行通道合并以实现多模态特征融合,从而获得所述的图文特征信息。
本实施例所揭示的实施多模态融合以获得联合表征了所述图像特征信息和文本特征信息的图文特征信息的方案,其实现简单,实现成本低,而运行效率高,能够有效地防止过拟合现象,尽量确保本申请的神经网络分类模型在训练阶段和运行阶段在分类准确度上的一致性。
请参阅图5,适应本申请的神经网络分类模型中的分类器实现分类操作的实施例中,所述步骤S1200和/或所述步骤S1300中,对所述图文特征信息进行分类的过程,包括如下具体步骤:
步骤S4100、对所述图文特征信息进行全连接:
为了综合图文特征信息从其前层所获得的特征信息,本实施例中,所述神经网络分类模型采用一个全连接层对图文特征信息进行全连接。
步骤S4200、调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值:
本申请的神经网络分类模型调用已预先被训练至收敛状态的所述的分类器,对全连接后输出的图文特征信息进行分类,由于该分类器在训练阶段已经习得了对待分类图片的不同图样的分类能力,这种情况下,该分类器便可依据所述的图文特征信息相应计算出其对应所述预设分类结构所派生的各个具体分类的评分值,相应的,如果所述图文特征信息是针对待分类图片的第一图样获得的,那么此处的评分值即为第一评分值,被映射至第一分类空间存储;如果所述图文特征信息是针对待分类图片的第二图样获得的,那么此处的评分值即为第二评分值,被映射至第二分类空间存储。
本实施例通过具体化分类器的能力,使得本申请所调用的神经网络分类模型能对在前获得的图文特征信息进行有效的分类,获得相应的评分值。
请参阅图6,为了实施对本申请的神经网络分类模型的训练而提出的实施例中,本申请的多源图文信息分类方法还包括如下前置步骤:
步骤S5100、在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态:
为了使分类器适于对待分类图片的第一图样和表示其第二图样进行分类,需要对所述图像特征提取模型单独实施迭代训练,因此,在此一训练阶段,将本申请的神经网络分类模型去除所述的文本特征提取模型,仅将所述图像特征提取模型接入所述的分类器,在此基础上,分别采用训练样本(待分类图片)对其实施迭代训练。对于同一训练样本的待分类图片,一般均需针对其第一图样与第二图样对称进行训练,这一状态下,对分类器的分类结果的监督结果,将其反向传播至图像特征提取模型中,使该图像特征提取模型的损失函数的值随着迭代次数的增加而不断趋近于0,直至最终达致收敛状态或者满足一定的精度要求,至此,即完成了针对图像特征提取模型的独立训练。
可以理解,引入第二图样对图像特征提取模型进行训练,能够使图像特征提取模型从第二图样中习得待分类图片的细节特征,例如待分类图片所表现的产品对象的规格、外观细节、批次信息等,从而有助于分类器参考这些语义特征实施更为精准的分类。
步骤S5200、在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态:
同理,为了使分类器适于对待分类文本进行分类,需要对所述文本特征提取模型单独实施迭代训练,因此,在此一训练阶段,将本申请的神经网络分类模型去除所述的图像特征提取模型,仅将所述文本特征提取模型接入所述的分类器,在此基础上,分别采用训练样本(待分类文本)对其实施迭代训练。这一状态下,对分类器的分类结果的监督结果,将其反向传播至文本特征提取模型中,使文本特征提取模型的损失函数的值随着迭代次数的增加而不断趋近于0,直接最终达致收敛状态或者满足一定的精度要求,至此,即完成了针对文本特征提取模型的独立训练。
可以理解,步骤S5100与步骤S5200的执行先后并不影响本申请创造精神的体现,在实际训练时,也可先执行步骤S5200再执行步骤S5100。
步骤S5300、在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态:
在完成了所述的图像特征提取模型和文本特征提取模型的训练后,可以将这两个模型全部接入所述的融合单元和分类器,以实施对该分类器的迭代训练,使其习得或提升其依据联合表征的多模态融合信息进行分类的能力。
所述的训练样本自然需要事先预备,且其中应当建立起待分类图片与其待分类文本之间的对应性,以便并行地将待分类图片馈入至所述的图像特征提取模型中进行图像特征提取、将与待分类图片相对应的待分类文本馈入至所述的文本特征提取模型中进行文本特征提取,以此实施对分类器的训练。分类器由此便按照本申请所实现神经网络分类模型的固有的业务逻辑,依据训练样本的输入,针对以同一训练样本中的待分类图片的第一图样的图文特征信息确定第一评分值,针对以同一训练样本中的待分类图片的第二图样的图文特征信息确定第二评分值,然后以对评分值的监督结果反向传播修正自身的权重参数,通过不断执行这样的迭代训练,使分类器的损失函数的值不断超近于0,最终达致收敛状态,至此,即完成了针对整个神经网络分类模型的训练。
参照前述,为了便于将所述第一评分值和第二评分值进行融合,即使在训练的阶段,也可如前所述,将所述第一评分值和第二评分值映射至不同的分类空间中,以便后续进行融合计算。
所述图像特征模型、文本特征模型、分类器的损失函数,均可适用交叉熵函数,本领域技术人员可以灵活实施。
本步骤对分类器进行训练时,可以按照数倍例如10倍于对所述图像特征提取模型的学习率对该分类器实施训练,以便在保证图像特征提取模型、文本特征提取模型的精度的条件下,提升整个神经网络分类模型的精度。
本实施例进一步给出对实现本申请的多源图文信息分类方法的相关神经网络分类模型的训练过程。可以看出,本实施例借助第二图样加入多任务损失,降低了对本申请所调用的神经网络分类模型进行多模态训练的难度,能够减少该分类模型对训练样本的依赖而提升训练效率,可以较少量的样本使该分类模型习得分类能力。本实施例所采取的训练步骤,体现了半监督训练策略,增强了整个分类模型对于图片细节的识别和分类能力,对于基于待分类图片在细粒度层面进行分类而得的结果而言,其效果自然会更加友好。
请参阅图7,一个实施例中,所述步骤S5100和/或所述步骤S5300中,在所述图像特征提取模型已接入所述分类器的状态下实施迭代训练的过程,包括如下步骤:
步骤S5311、所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图:
概而言之,无论是在所述图像特征提取模型独立训练阶段,还是其与文本特征提取模型联合训练阶段,均可以执行本步骤,使得其对馈入的训练样本中的待分类图片的第一图样,也即其原图,进行特征提取,最终将其图像特征信息相对应的由分类器计算的分类结果投射至所述的第一分类空间进行存储,第一分类空间存储的分类结果为各个分类的评分值,即所述的第一评分值。
步骤S5322、所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
同理,无论是在所述图像特征提取模型独立训练阶段,还是其与文本特征提取模型联合训练阶段,均可以执行本步骤,使得其对馈入的训练样本中的待分类图片的第二图样,也即其依据原图以预设细粒度切分后乱序拼接的副图,进行特征提取,最终将其图像特征信息相对应的由分类器计算的分类结果投射至所述的第二分类空间进行存储,第二分类空间存储的分类结果为各个分类的评分值,即所述的第二评分值。
本实施例进一步明确了无论是在所述图像特征提取模型独立训练的阶段,还是在其与文本特征提取模型联合训练的阶段,均需对本申请的神经网络分类模型实施针对同一待分类图片的两种不同图样的训练,由此,确保最终训练出的神经网络分类模型习得本申请所阐述的各种相应的能力。
请参阅图8,适应本申请所揭示的各个实施例所需,本申请涉及从待分类图片的第二图样提取图像特征信息的过程,例如见于所述步骤S1300、所述步骤S5100与步骤S5300,以及所述步骤S5322等,包括如下步骤:
步骤S6100、将待分类图片的副本按照预设细粒度均匀切分成多个图元:
前置于图像特征提取模型对图样进行特征提取的操作,可以先获取待分类图片的原图副本,然后按照预设的细粒度对其进行均匀切分。所述的细粒度,其尺寸可以按需灵活设定,例如本实施例中采用7像素*7像素的粒度大小,按照这个尺寸对该副本进行切分,将待分类图片的副本切分为多个图元。
步骤S6200、将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图:
将切分出来的所有图元执行随机打乱的操作,使图元之间的组织失序,然后将其重新拼接为一张副图。所述的副图恢复至待分类图片的原图一样的原画幅大小,由此,便获得所述的第二图样。第二图样(副图)与第一图样(原图)是等尺寸的,方便本申请的各个模型进行标准化处理。但是,第二图样的图像内容本身相对于第一图样的图像内容而言是杂乱的,但突出了其细粒度信息。
由此,将这一实施细节应用于本申请的神经网络分类模型中,可以以此为所述待分类图片制备在训练阶段和测试、运行阶段所需的第二图样,从而确保本申请的神经网络分类模型正常工作,能够深入到细节层面参考待分类图片的细节信息对其实施分类,确保本申请的技术方案取得应有的优势。
请参阅图9,本申请实施例还提供一种多源图文信息分类装置,其包括图文获取模块1100、原图融合模块1200、副图融合模块1300、融合分类模块1400,其中,所述图文获取模块1100,用于获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;所述原图融合模块1200,用于融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;所述副图融合模块1300,用于融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;所述融合分类模块1400,用于融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
具体化的实施例中,所述原图融合模块1200和/或所述副图融合模型1300,其为获得所述图文特征信息而包括:图像模型子模块,用于调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;文本模型子模块,用于调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;图文融合子模块,用于将所述图像特征信息与所述文本特征信息融合为图文特征信息。
具体化的实施例中,所述图文融合子模块包括:特征泛化二级子模块,用于将所述图像特征信息与文本特征信息分别进行特征泛化处理;特征连接二级子模块,用于将泛化后的图像特征信息与文本特征信息分别进行全连接;特征池化二级子模块,用于将全连接后的图像特征信息与文本特征信息分别进行池化;特征融合二级子模块,用于将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。
具体化的实施例中,所述原图融合模块1200和/或所述副图融合模型1300,其为对所述图文特征信息进行分类而包括:图文连接子模块,用于对所述图文特征信息进行全连接;分类评分子模块,用于调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。
进一步扩展的实施例中,本申请的多源图文信息分类装置还包括:图像模型训练模块,用于在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;文本模型训练模块,用于在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;联合模型训练模块,用于在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态。
具体化的实施例中,所述图像模型训练模块和/或所述联合模型训练模块包括:第一训练子模块,被匹配为以所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图;第二训练子模块,被匹配为以所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
较佳的实施例中,所述副图融合模型1300和/或所述第二训练子模块为从待分类图片的第二图样提取图像特征信息而包括:图元切割子模块,用于将待分类图片的副本按照预设细粒度均匀切分成多个图元;图元重组子模块,用于将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图。
本申请实施例还提供计算机设备,如图10所示,该计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种多源图文信息分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种多源图文信息分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有多源图文信息分类装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的多源图文信息分类方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请利用描述同一对象的待分类图片和待分类文本进行多模态特征信息融合的过程中,不仅利用了待分类图片的原图进行特征融合,也利用了待分类图片被以细粒度切分重装后的副图进行特征融合,在特征融合所得的图文特征信息的基础上对被描述的对象进行分类,最终在语义层面实现对待分类图片中的细节信息的参考引用,对分类结果进行融合并确定相对应的分类标签,由此可以获得高准确度的分类结果,特别适用于以电商产品为被描述的对象的应用场景中。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种多源图文信息分类方法,其特征在于,包括如下步骤:
获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;
融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;
融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设尺寸的细粒度切分成多个图元后,按照待分类图片原画幅大小乱序拼接而成的副图;
融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
2.根据权利要求1所述的多源图文信息分类方法,其特征在于,获得所述图文特征信息的过程,包括如下步骤:
调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;
调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;
将所述图像特征信息与所述文本特征信息融合为图文特征信息。
3.根据权利要求2所述的多源图文信息分类方法,其特征在于,将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程,包括如下步骤:
将所述图像特征信息与文本特征信息分别进行特征泛化处理;
将泛化后的图像特征信息与文本特征信息分别进行全连接;
将全连接后的图像特征信息与文本特征信息分别进行池化;
将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。
4.根据权利要求1所述的多源图文信息分类方法,其特征在于,对所述图文特征信息进行分类的过程,包括如下步骤:
对所述图文特征信息进行全连接;
调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。
5.根据权利要求2所述的多源图文信息分类方法,其特征在于,本方法还包括如下前置步骤:
在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;
在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;
在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态。
6.根据权利要求5所述的多源图文信息分类方法,其特征在于,在所述图像特征提取模型已接入所述分类器的状态下实施迭代训练的过程,包括如下步骤:
所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图;
所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
7.根据权利要求1至6中任意一项所述的多源图文信息分类方法,其特征在于,从待分类图片的第二图样提取图像特征信息的过程,包括如下步骤:
将待分类图片的副本按照预设细粒度均匀切分成多个图元;
将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图。
8.一种多源图文信息分类装置,其特征在于,其包括:
图文获取模块,用于获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;
原图融合模块,用于融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;
副图融合模块,用于融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设尺寸的细粒度切分成多个图元后,按照待分类图片原画幅大小乱序拼接而成的副图;
融合分类模块,用于融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述的多源图文信息分类方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的多源图文信息分类方法的步骤。
CN202110790695.8A 2021-07-13 2021-07-13 多源图文信息分类方法及其相应的装置、设备、介质 Active CN113449808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790695.8A CN113449808B (zh) 2021-07-13 2021-07-13 多源图文信息分类方法及其相应的装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790695.8A CN113449808B (zh) 2021-07-13 2021-07-13 多源图文信息分类方法及其相应的装置、设备、介质

Publications (2)

Publication Number Publication Date
CN113449808A CN113449808A (zh) 2021-09-28
CN113449808B true CN113449808B (zh) 2022-06-21

Family

ID=77816025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790695.8A Active CN113449808B (zh) 2021-07-13 2021-07-13 多源图文信息分类方法及其相应的装置、设备、介质

Country Status (1)

Country Link
CN (1) CN113449808B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186056B (zh) * 2021-12-14 2024-10-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN116701637B (zh) * 2023-06-29 2024-03-08 中南大学 一种基于clip的零样本文本分类方法、系统及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065589A1 (en) * 2016-03-25 2019-02-28 Quad Analytix Llc Systems and methods for multi-modal automated categorization
CN112101410B (zh) * 2020-08-05 2021-08-06 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112989041A (zh) * 2021-03-10 2021-06-18 中国建设银行股份有限公司 基于bert的文本数据处理方法及装置
CN113034506B (zh) * 2021-05-24 2021-08-06 湖南大学 遥感图像语义分割方法、装置、计算机设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统

Also Published As

Publication number Publication date
CN113449808A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN108564029B (zh) 基于级联多任务学习深度神经网络的人脸属性识别方法
US12001474B2 (en) Information determining method and apparatus, computer device, and storage medium
CN109815903A (zh) 一种基于自适应融合网络的视频情感分类方法
CN111258995B (zh) 数据处理方法、装置、存储介质及设备
CN113449808B (zh) 多源图文信息分类方法及其相应的装置、设备、介质
Lai et al. Real-time micro-expression recognition based on ResNet and atrous convolutions
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
CN113806537B (zh) 商品类目分类方法及其装置、设备、介质、产品
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN109447273A (zh) 模型训练方法、广告推荐方法、相关装置、设备及介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN113792786A (zh) 商品对象自动分类方法及其装置、设备、介质、产品
CN116975349A (zh) 图像检索方法、装置、电子设备及存储介质
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
WO2024061073A1 (zh) 一种多媒体信息的生成方法及装置、计算机可读存储介质
Jiang et al. Cross-level reinforced attention network for person re-identification
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统
CN116977692A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN108805628B (zh) 一种电子商务推荐方法
Li et al. VR+ HD: Video Semantic Reconstruction from Spatio-temporal Scene Graphs
Chai et al. An artistic analysis model based on sequence cartoon images for scratch
CN114694177B (zh) 基于多尺度特征和属性关联挖掘的细粒度人物属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant