CN110909755B - 对象特征处理方法及装置 - Google Patents

对象特征处理方法及装置 Download PDF

Info

Publication number
CN110909755B
CN110909755B CN201811082250.9A CN201811082250A CN110909755B CN 110909755 B CN110909755 B CN 110909755B CN 201811082250 A CN201811082250 A CN 201811082250A CN 110909755 B CN110909755 B CN 110909755B
Authority
CN
China
Prior art keywords
modes
mode
fusion
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811082250.9A
Other languages
English (en)
Other versions
CN110909755A (zh
Inventor
樊珈珮
熊涛
杜用
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811082250.9A priority Critical patent/CN110909755B/zh
Publication of CN110909755A publication Critical patent/CN110909755A/zh
Application granted granted Critical
Publication of CN110909755B publication Critical patent/CN110909755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对象特征处理方法及装置。其中,该方法包括:获取对象在至少两个模态的特征向量;在至少两个模态中的每个模态的特征向量中加入预定格式的数据;以及将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征。本发明解决了相关技术中,不能简单地获取模态随意组合后特征的技术问题。

Description

对象特征处理方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种对象特征处理方法及装置。
背景技术
在相关技术中,针对电商平台上的商品,卖家们都会编辑和发布商品,而为了保障卖家在平台上销售的商品都是符合国家及电商平台的规定,都会对卖家发布的商品的内容进行审核,判断其是否违规。然而由于每天发布的商品量数以亿计,每天人工需要审核的商品量十分庞大。且随着多媒体的发展,商品的信息越来越丰富,包括文本,图片和视频等信息,审核成本不断增长。
为提高审核效率,在相关技术中可以对具有一定相似度的商品集中处理。判断商品是否相似时,可以依据商品的模态特征进行判断,例如,在模态特征的相似度较高时,可以将这些商品放在一起集中处理。而商品在模态可以为多种数据类型,在对商品的多种模态特征进行判断时,为实现对相似度的准确判断,可以将该多种数据类型对应的模态特征进行融合。但在相关技术中,对多种模态的特征进行融合时,均是将多种模态下的特征进行简单的叠加,融合后也仅仅能够获得全部模态融合后的特征。而在多种模态下,多种模态是可以随意组合的,并且随意组合后的特征在一定程度上也可以用于进行相似性的判断。因此,对于一定的对象(例如,商品)而言,在相关技术中,不能简单地获取模态随意组合后特征。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种对象特征处理方法及装置,以至少解决相关技术中,不能简单地获取模态随意组合后特征的技术问题。
根据本发明实施例的一个方面,提供了一种对象特征处理方法,包括:获取对象在至少两个模态的特征向量;在所述至少两个模态中的每个模态的特征向量中加入预定格式的数据;将加入了所述预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,所述融合矩阵中包括:所述至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征。
根据本发明实施例的另一方面,还提供了一种对象特征处理方法,包括:接收展示请求,其中,所述展示请求中携带有请求展示的对象的模态;响应于所述展示请求,从融合矩阵中调用请求的模态对应的特征,其中,所述融合矩阵中包括:所述至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征;展示所述对象在请求的模态下对应的特征。
根据本发明实施例的另一方面,还提供了一种对象特征处理装置,包括:获取模块,用于获取对象在至少两个模态的特征向量;处理模块,用于在所述至少两个模态中的每个模态的特征向量中加入预定格式的数据;所述处理模块,还用于将加入了所述预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,所述融合矩阵中包括:所述至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的对象特征处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的对象特征处理方法。
在本发明实施例中,采用在多模态融合的时候加入预定格式的数据的方式,通过在实现多模态融合的同时,保留了单一模态和双模态,甚至更多模态融合的信息,达到了同时查看随意模态组合的特征的目的,进而解决了相关技术中,不能简单地获取模态随意组合后特征的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现对象特征处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例一的对象特征处理方法的流程图;
图3是相关技术中特征融合的示意图一;
图4是相关技术中特征融合的示意图二;
图5是根据本发明实施例的对象特征处理方法的流程图;
图6是根据本发明实施例的文本的特征向量获取过程的示意图;
图7是根据本发明实施例的图片的特征向量获取过程的示意图;
图8是根据本发明实施例的视频的特征向量获取过程的示意图;
图9是根据本发明实施例一的对象特征处理方法的优选流程图;
图10是根据本发明实施例的双模态融合示意图;
图11是根据本发明实施例的三模态融合示意图;
图12是根据本发明实施例的对象特征处理方法的流程图;
图13是根据本发明实施例的对象特征处理装置的结构框图;
图14是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
多模态(multi-modal):指数据可以包括多种形态,数据可以来自多种模态,如标题,音频,视频,图片和文本等都属于不同的模态。
双模态(bimodal):指数据来两种模态;
多模态融合:整合多个模态的数据信息。
自然语言处理(Nature Language Processing,简称为NLP)。
实施例1
根据本发明实施例,还提供了一种对象特征处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现对象特征处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的对象特征处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的对象特征处理方法。图2是根据本发明实施例一的对象特征处理方法的流程图。如图2所示,该流程包括如下步骤:
步骤S202,获取对象在至少两个模态的特征向量。
作为一种可选的实施例,上述步骤的执行主体可以为特征采集工具,上述特征采集工具可以是专门用于采集对象不同模态下的特征的,还可以是具有电商平台或者其他网站中使用的特征采集工具,用于用户快速获取与对象有关的模态。
作为一种可选的实施例,上述获取的方式可以多种,例如,可以是采用预定的软件程序自动获取,也可以是依据一定的筛选条件进行人工获取。在选择获取方式时,可以依据具体的对象不同来进行选择,也可以依据对象的特征的复杂方式来灵活选择。
作为一种可选的实施例,上述至少两个模态可以是两个模态的组合,也可以是多于两个模态的组合,例如,可以是三个模态的组合,也可以是四个模态的组合等。需要说明的是,模态的多少与对象的特征有关,当对象的特征多一些时,对应的模态也相对较多。
作为一种可选的实施例,上述所描述的特征向量是指用于描述对象的特征的,是一种可以较为定量或者定性描述对象的一种表示方式。该特征向量可以理解为数学上用于表示某一物理量的,并且在一定维度空间内的矢量。对应地,特征向量的维度可以依据模态的数量而定,比如,当组合的是两个模态时,对应的特征向量就是平面内的向量;又比如,当组合的是三个模态时,对应的特征向量就是三维空间内的向量;还比如,当组合的四个模态时,对应的特征向量就是四维空间内的矢量。
作为一种可选的实施例,获取对象在至少两个模态的特征向量可以采用以下处理方式:先获取至少两个模态中每个模态的特征;之后,对每个模态的特征采用全连接的方式进行降维;最后对降维后的特征进行类目分类,得到每个模态对应的特征向量。
步骤S204,在至少两个模态中的每个模态的特征向量中加入预定格式的数据。
作为一种可选的实施例,为使得在融合后的特征中能够较为方便地查看出随意组合的模态所对应的特征,可以对获取的至少两个模态的特征向量进行对应的矩阵运算,从而使得运算后的结果能够较为明显地看出对应的特征。例如,当至少两个模态为三个模态时,在运算后的结果中既可以显示:一个模态对应的特征,也可以显示任意两个模态组合后的特征,还可以显示三个模态组合后的整体特征。即在一个运算结果(即融合特征)中,可以看出任意模态的组合的特征。
作为一种可选的实施例,在对获取的至少两个模态的特征向量进行对应的矩阵运算时,由于所进行的运算主要是用于在运算结果中同时能够显示出多个模态随意组合后的所有特征,因此,在对至少两个模态的特征向量进行对应的矩阵运算之前,可以在每个模态的特征向量中加入预定格式的数据,该预定格式的数据可以有多种形式,其主要功能即是为了使得运算后的结果能够方便地分离出多个模态随意组合的特征。
作为一种可选的实施例,该预定格式的数据可以是数字,也可以是矩阵,还可以是一些标示符。
优选地,为使得矩阵运算简便,该预定格式的数据可以是数字。较优地,为进一步提高运算的简便性,可以将数字选择为非零整数。再优地,还可以直接将该数字选择为自然数。最优地,可以直接将该数字选择为1。选择数字1不仅简单,而且后续对特征的查看也方便,直接。
作为一种可选地实施例,为使得融合矩阵中包括的融合特征展示得更为清楚,或者更容易体现,可以在至少两个模态中的每个模态的特征向量对应矩阵的端部中加入上述预定格式的数据。
例如,为使得至少两个模态中各个模态的单模特征,或者至少两个模态中任意模态融合的融合特征,更为清楚,直观,在不需要复杂的查看方法就可以看出需要查看的模态下对应的特征时,可以在进行矩阵叉乘运算之前,在每个模态的特征向量对应矩阵的特定位置加入上述预定格式的数据,例如,可以在每个模态的特征向量对应矩阵的端部加入上述预定格式的数据。例如,可以在每个模态的特征向量对应矩阵的最下面加入上述预定格式的数据,也可以在每个模态的特征向量对应矩阵的最上面加入上述预定格式的数据,还可以在每个模态的特征向量对应矩阵的最左边加入上述预定格式的数据,还可以在每个模态的特征向量对应矩阵的最右边加入上述预定格式的数据。需要说明的是,还可以在每个模态的特征向量对应矩阵的其它特殊位置加入上述预定格式的数据,只要能够使得进行矩阵叉乘运算之后得到的融合矩阵中能够清楚地显示各个需要的特征,即均属于本发明实施例所包括的。
步骤S206,将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征。
作为一种可选的实施例,将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵后,由于该融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征,因此,在需要至少两个模态中任意模态的组合时,可以直接从该融合矩阵中得到。
在相关技术中,对多模态进行融合时,多模态融合的方案都是分别embedding得到每个模态的特征,图3是相关技术中特征融合的示意图一,图4是相关技术中特征融合的示意图二,如图3,4所示,在进行特征融合时,要么通过一定的公式将多个模态整合到一起,整合后仅能得到最终融合多个模态的信息,实现多模态的相似判断。但是并不支持其中任一或者组合其中部分的相似匹配。要么,简单的将每个模态的信息拼接在一起,但是这样融合的效果较差。
在本发明实施例中,以对象为商品为例,为找出相似商品,在实现抽取多个模态融合的特征时,可以保留单个模态的特征信息及双模态的特征信息。例如,在实现融合文本,视频,图片信息整合相似的同时,还可以实现对其中任一或者任两个维度的相似计算。一次可以满足多种不同的相似需求。这样。在商品审核时,审核人员可以按需选择相似的维度(如标题,图片和视频单个维度,或者同时选择多个维度)。从而将满足需求的相似的商品一起分发给审核人员,这样可以有效的提高审核人员的工作效率。需要说明的是,上述方法还可以用于多模态之间内容的匹配判断,如类目错放,图文不符等等。
作为一种可选的实施例,至少两个模态包括以下数据形态中的至少两个:标题,文本,图片,音频,视频。下面选择文本,图片,视频为三个模态组合为例进行说明。
图5是根据本发明实施例的对象特征处理方法的流程图,如图5所示,该流程包括:首先,分别提取出商品中的标题,所有图片,商品视频以及对应的商品类目信息,商品类目信息作为分类的label;之后,对提出的特征进行融合处理。其中,特征的提取包括:文本的特征向量获取过程,图片的特征微量获取过程以及视频的特征向量获取过程。下面分别说明。
文本的特征向量获取过程:图6是根据本发明实施例的文本的特征向量获取过程的示意图,如图6所示,对于文本,首先分词,然后通过GloVe(还可以使用Word2Vector)得到每个单词的词向量(300维),然后通过LSTM(还可以使用GRU,且可以加入attention网络),在经过1个或者多个全连接,将特征降到128维,然后经过softmax,做基于商品的类目做多分类。模型训练好之后,从中提取出分类前的全连接层,作为这个文本的特征向量。如图6中zt,zt∈R128
图片的特征微量获取过程:图7是根据本发明实施例的图片的特征向量获取过程的示意图,如图7所示,对于图片,假设总共有N幅图片,首先通过inception V3模型提取出每一幅图片的特征(2048维)Vi(1≤i≤N),然后通过attention网络,在过一层或者多层全连接,将特征降到128维,经过一个softmax分类器,做类目的多分类。如图6,在此过程中,提取出最后一个全连接层,作为图片的特征向量,为Zp,Zp∈R128。需要说明的是,图片处理的网络框架还可以是其它的,例如,可以采用其他的网络框架,如VGG16,VGG19,ReNet等。
视频的特征向量获取过程:图8是根据本发明实施例的视频的特征向量获取过程的示意图,如图8所示,对于视频,首先抽取视频的每一帧,这样,图片按照截桢的顺序,形成了一个时间序列。通过inception V3提取每一帧图片的特征(2018维),并将每一幅图片(图片向量)作为时间序列的一个点(即图6中的一个单词),接入LSTM模型,然后经过一个attention获得每个图片的权重,然后再经过1次过多次全连接,将视频维度降为128,然后再接入一个softmax分类器(如图8),将视频所对应的商品类目作为label,进行训练。将最后一个全连接层作为视频的特征向量ZV,Zv∈R128
作为一种可选的实施例,在模态为视频的情况下,获取视频的特征包括:将视频的每一帧作为图片,形成时序;确定时序上每个图片的权重;基于权重确定视频的特征。需要说明的是,视频处理的网络框架还可以是其它的,例如,可以是3D CNN等其他网络框架。
图9是根据本发明实施例一的对象特征处理方法的优选流程图。如图9所示,该流程除包括图2所示的步骤外,还包括如下步骤:
步骤S902,获取多个对象对应的融合特征;
步骤S904,基于多个对象对应的融合特征,从多个对象中查找相似对象。
作为一种可选的实施例,从对象对应的融合特征中选择需要查看的模态对应的特征,并将选择的模态对应的特征当作用于查找相似对象的特征。需要说明的是,不同的相似对象的比较,可能选择的模态是不同的。例如,当相似对象的相似程度可能较高时,可以选择较少的模态来确定是否相似,当相似对象的相似程度可能较低时,可以选择较多的模态来确定是否相似。
在对模态的特征进行融合,得到融合特征时,可以依据选择的模态来确定对应的融合特征。下面以双模态的融合,以及三模态的融合为例进行说明。
双模态的融合:
用Zt表示一个模态的特征微量,用Zp表示另一个模态的特征向量,在Zt和Zp的基础上加入1,如以下公式:
Figure BDA0001802265560000091
图10是根据本发明实施例的双模态融合示意图,如图10所示,通过引入数字1之后,在二维平面可以在拥有双模态信息的同时,同时保留单个模态的特征。
三模态的融合:
Figure BDA0001802265560000092
表示第三个模态的特征向量,三个模态融合的公式如下:
Figure BDA0001802265560000093
图11是根据本发明实施例的三模态融合示意图,如图11所示,给每个模态加入1之后,在三维空间中,如图7,不仅保留了三个模态融合的特征信息,而且保留了双模态融合以及单个模态的特征。
需要说明的是,在智能审核平台页面,用户可以选择按文本,图片,视频,可以选择以任意组合或者单一方式选择。
通过上述实施例及优选实施方式,通过在多模态融合的时候引入单位向量即数字1,在实现多模态融合的同时,保留了单一模态和双模态,甚至更多模态融合的信息。另外,视频模态处理时,将视频的每一帧作为图片,形成时序,然后通过LSTM+ATTENTION的方式来进行特征提取。相对于相关技术中,要么将三个维度的信息简单的拼接在一起,虽然可以实现单个模态和多模态的比较,但是将三个不同的维度拼接在一起进行比较,embedding的效果较差;要么将三个模态通过某种方式映射到同一个空间,这样的embedding表征虽然较好,但是不易抽取单个维度的信息,也不易识别双模态的融合和比较。
通过本发明的上述实施例,在整合多模态的同时,通过引入单位矩阵的方式,巧妙的将三个不同模态的数据分别映射到了空间相互正交的三个维度,在实现三种模态综合mbedding的同时,可以获取任意一个模态的embedding(坐标轴)和任意两个模态的embedding(由这两个维度为坐标轴形成的平面)。这样,在交互时用户可以任意选择需要相似计算的维度,有利于满足不同业务的快速审核的不同需求。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种优选的对象特征处理方法,图12是根据本发明实施例的对象特征处理方法的流程图,如图12所示,该流程包括如下步骤:
步骤S1202,接收展示请求,其中,展示请求中携带有请求展示的对象的模态;
步骤S1204,响应于展示请求,从融合矩阵中调用请求的模态对应的特征,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征;
步骤S1206,展示对象在请求的模态下对应的特征。
通过在多模态融合的处理,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征,即在实现多模态融合的同时,保留了单一模态和双模态,甚至更多模态融合的信息,即实现了同时显示任意模态组合的融合特征。
作为一个可选实施例,融合矩阵为通过在对象的至少两个模态中的每个模态的特征向量中加入预定格式的数据,并将加入了预定格式的数据的特征向量进行矩阵叉乘运算得到的。
作为一个可选实施例,预定格式的数据为自然数。
实施例3
根据本发明实施例,还提供了一种用于实施上述对象特征处理方法,图13是根据本发明实施例的对象特征处理装置的结构框图,如图13所示,该装置包括:获取模块132和处理模块134,下面对该装置进行说明。
获取模块132,用于获取对象在至少两个模态的特征向量;处理模块134,连接至上述获取模块132,用于在至少两个模态中的每个模态的特征向量中加入预定格式的数据;处理模块134,还用于将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征。
此处需要说明的是,上述获取模块132和处理模块134对应于实施例1中的步骤S202-步骤S206,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的对象特征处理方法中以下步骤的程序代码:获取对象在至少两个模态的特征向量;在至少两个模态中的每个模态的特征向量中加入预定格式的数据;以及将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征。
可选地,图14是根据本发明实施例的一种计算机终端的结构框图。如图14所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器142、存储器144、以及显示器等。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:预定格式的数据为非零整数。
可选的,上述处理器还可以执行如下步骤的程序代码:非零整数为自然数。
可选的,上述处理器还可以执行如下步骤的程序代码:获取对象在至少两个模态的特征向量包括:获取至少两个模态中每个模态的特征;对每个模态的特征采用全连接的方式进行降维;对降维后的特征进行类目分类,得到每个模态对应的特征向量。
可选的,上述处理器还可以执行如下步骤的程序代码:至少两个模态包括以下数据形态中的至少两个:标题,文本,图片,音频,视频。
可选的,上述处理器还可以执行如下步骤的程序代码:在模态为视频的情况下,获取视频的特征包括:将视频的每一帧作为图片,形成时序;确定时序上每个图片的权重;基于权重确定视频的特征。
可选的,上述处理器还可以执行如下步骤的程序代码:获取多个对象对应的融合特征;基于多个对象对应的融合特征,从多个对象中查找相似对象。
在本实施例中,上述计算机终端可以执行应用程序的对象特征处理方法中以下步骤的程序代码:接收展示请求,其中,展示请求中携带有请求展示的对象的模态;响应于展示请求,从融合矩阵中调用请求的模态对应的特征,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征;展示对象在请求的模态下对应的特征。
可选的,上述计算机终端所包括的处理器还可以执行如下步骤的程序代码:融合矩阵为通过在对象的至少两个模态中的每个模态的特征向量中加入预定格式的数据,并将加入了预定格式的数据的特征向量进行矩阵叉乘运算得到的。
可选的,上述处理器还可以执行如下步骤的程序代码:预定格式的数据为自然数。
采用本发明实施例,提供了一种对象特征处理方法。通过在多模态融合的时候引入特殊的运算处理,在实现多模态融合的同时,保留了单一模态和双模态,甚至更多模态融合的信息,从而达到了同时查看随意模态组合的特征的目的,进而解决了相关技术中,不能简单地获取模态随意组合后特征的技术问题。
本领域普通技术人员可以理解,图14所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图14所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的对象特征处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取对象在至少两个模态的特征向量;在至少两个模态中的每个模态的特征向量中加入预定格式的数据;以及将加入了预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:预定格式的数据为非零整数。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:非零整数为自然数。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取对象在至少两个模态的特征向量包括:获取至少两个模态中每个模态的特征;对每个模态的特征采用全连接的方式进行降维;对降维后的特征进行类目分类,得到每个模态对应的特征向量。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:至少两个模态包括以下数据形态中的至少两个:标题,文本,图片,音频,视频。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在模态为视频的情况下,获取视频的特征包括:将视频的每一帧作为图片,形成时序;确定时序上每个图片的权重;基于权重确定视频的特征。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取多个对象对应的融合特征;基于多个对象对应的融合特征,从多个对象中查找相似对象。
作为另一个优选实施例,存储介质还设置为存储用于执行以下步骤的程序代码:接收展示请求,其中,展示请求中携带有请求展示的对象的模态;响应于展示请求,从融合矩阵中调用请求的模态对应的特征,其中,融合矩阵中包括:至少两个模态中各个模态的单模特征,至少两个模态中任意模态融合的融合特征;展示对象在请求的模态下对应的特征。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:融合矩阵为通过在对象的至少两个模态中的每个模态的特征向量中加入预定格式的数据,并将加入了预定格式的数据的特征向量进行矩阵叉乘运算得到的。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:预定格式的数据为自然数。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种对象特征处理方法,其特征在于,包括:
获取对象在至少两个模态的特征向量;
在所述至少两个模态中的每个模态的特征向量中加入预定格式的数据;
将加入了所述预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,所述融合矩阵中包括:所述至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征;
其中,所述至少两个模态包括以下数据形态中的至少两个:标题,文本,图片,音频,视频;
其中,在所述模态为视频的情况下,获取所述视频的特征包括:将所述视频的每一帧作为图片,形成时序;确定时序上每个图片的权重;基于所述权重确定所述视频的特征。
2.根据权利要求1所述的方法,其特征在于,所述预定格式的数据为非零整数。
3.根据权利要求2所述的方法,其特征在于,所述非零整数为自然数。
4.根据权利要求1所述的方法,其特征在于,在所述至少两个模态中的每个模态的特征向量中加入预定格式的数据包括:
在所述至少两个模态中的每个模态的特征向量对应矩阵的端部中加入所述预定格式的数据。
5.根据权利要求1所述的方法,其特征在于,获取对象在至少两个模态的特征向量包括:
获取所述至少两个模态中每个模态的特征;
对每个模态的特征采用全连接的方式进行降维;
对降维后的特征进行类目分类,得到每个模态对应的特征向量。
6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:
获取多个对象对应的融合特征;
基于所述多个对象对应的融合特征,从所述多个对象中查找相似对象。
7.根据权利要求6所述的方法,其特征在于,所述对象为商品。
8.一种对象特征处理方法,其特征在于,包括:
接收展示请求,其中,所述展示请求中携带有请求展示的对象的模态;
响应于所述展示请求,从融合矩阵中调用请求的模态对应的特征,其中,所述融合矩阵中包括:至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征;
展示所述对象在请求的模态下对应的特征。
9.根据权利要求8所述的方法,其特征在于,所述融合矩阵为通过在所述对象的至少两个模态中的每个模态的特征向量中加入预定格式的数据,并将加入了所述预定格式的数据的特征向量进行矩阵叉乘运算得到的。
10.根据权利要求9所述的方法,其特征在于,所述预定格式的数据为自然数。
11.一种对象特征处理装置,其特征在于,包括:
获取模块,用于获取对象在至少两个模态的特征向量;
处理模块,用于在所述至少两个模态中的每个模态的特征向量中加入预定格式的数据;
所述处理模块,还用于将加入了所述预定格式的数据的特征向量进行矩阵叉乘运算,得到融合矩阵,其中,所述融合矩阵中包括:所述至少两个模态中各个模态的单模特征,所述至少两个模态中任意模态融合的融合特征;
其中,所述至少两个模态包括以下数据形态中的至少两个:标题,文本,图片,音频,视频;
其中,在所述模态为视频的情况下,所述获取模块还用于:将所述视频的每一帧作为图片,形成时序;确定时序上每个图片的权重;基于所述权重确定所述视频的特征。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的对象特征处理方法。
CN201811082250.9A 2018-09-17 2018-09-17 对象特征处理方法及装置 Active CN110909755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811082250.9A CN110909755B (zh) 2018-09-17 2018-09-17 对象特征处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811082250.9A CN110909755B (zh) 2018-09-17 2018-09-17 对象特征处理方法及装置

Publications (2)

Publication Number Publication Date
CN110909755A CN110909755A (zh) 2020-03-24
CN110909755B true CN110909755B (zh) 2023-05-30

Family

ID=69813741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811082250.9A Active CN110909755B (zh) 2018-09-17 2018-09-17 对象特征处理方法及装置

Country Status (1)

Country Link
CN (1) CN110909755B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581510B (zh) * 2020-05-07 2024-02-09 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331412A (zh) * 2014-09-23 2015-02-04 北京工业大学 一种在规格化三维人脸库中进行人脸检索的方法
CN104590588A (zh) * 2014-12-04 2015-05-06 哈尔滨工业大学 一种基于隔离余量方法与脉宽融合策略的挠性卫星姿态轨道耦合控制方法
CN108038501A (zh) * 2017-12-08 2018-05-15 桂林电子科技大学 基于多模态压缩双线性池化的高光谱图像分类方法
CN108537773A (zh) * 2018-02-11 2018-09-14 中国科学院苏州生物医学工程技术研究所 针对胰腺癌与胰腺炎性疾病进行智能辅助鉴别的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282462B2 (en) * 2016-10-31 2019-05-07 Walmart Apollo, Llc Systems, method, and non-transitory computer-readable storage media for multi-modal product classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331412A (zh) * 2014-09-23 2015-02-04 北京工业大学 一种在规格化三维人脸库中进行人脸检索的方法
CN104590588A (zh) * 2014-12-04 2015-05-06 哈尔滨工业大学 一种基于隔离余量方法与脉宽融合策略的挠性卫星姿态轨道耦合控制方法
CN108038501A (zh) * 2017-12-08 2018-05-15 桂林电子科技大学 基于多模态压缩双线性池化的高光谱图像分类方法
CN108537773A (zh) * 2018-02-11 2018-09-14 中国科学院苏州生物医学工程技术研究所 针对胰腺癌与胰腺炎性疾病进行智能辅助鉴别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Brendan Duke等.Generalized Hadamard-Product Fusion Operators for Visual Question Answering.《arXiv》.2018,第1-8页. *
雷刚 ; 蒲亦菲 ; 张卫华 ; 周激流 ; .张量典型相关分析及其在人脸识别中的应用.电子科技大学学报.2012,(03),全文. *

Also Published As

Publication number Publication date
CN110909755A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
TWI781554B (zh) 物品名稱確定方法、裝置、電腦設備及儲存媒體
CN104765891A (zh) 一种基于图像的搜索购物方法
CN110598021B (zh) 获取图片的知识图谱的方法、装置和系统
CN108121943B (zh) 基于图片的判别方法及装置和计算设备
US9483853B2 (en) Systems and methods to display rendered images
CN111523413A (zh) 生成人脸图像的方法和装置
CN111062964A (zh) 图像分割方法及相关装置
US20200211413A1 (en) Method, apparatus and terminal device for constructing parts together
CN114168777A (zh) 图像数据的处理方法、装置、存储介质和处理器
CN113989476A (zh) 对象识别方法及电子设备
CN110209858B (zh) 展示图片确定、对象搜索、展示方法、装置、设备和介质
CN114398973B (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN110909755B (zh) 对象特征处理方法及装置
CN111737565A (zh) 显示控制方法、设备、系统、客户端、服务器及存储介质
CN112287945A (zh) 碎屏确定方法、装置、计算机设备及计算机可读存储介质
CN111782850A (zh) 一种基于手绘图的物品搜索方法和装置
CN110781388A (zh) 针对图像信息的信息推荐方法及装置
CN108304425B (zh) 一种图文信息推荐方法、装置及系统
CN115269494A (zh) 数据归档方法及装置
CN107403353A (zh) 一种基于增强现实的比价信息获取方法及装置
CN104572598A (zh) 数字出版物的排版方法和装置
CN111125501B (zh) 用于处理信息的方法和装置
CN114764733A (zh) 对象处理方法、装置、存储介质及计算机设备
CN111242734A (zh) 商品展示方法、服务器、终端、系统、电子设备及存储介质
CN112884538A (zh) 物品推荐的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant