CN116524524B - 一种内容识别方法、装置、设备及存储介质 - Google Patents
一种内容识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116524524B CN116524524B CN202310457146.8A CN202310457146A CN116524524B CN 116524524 B CN116524524 B CN 116524524B CN 202310457146 A CN202310457146 A CN 202310457146A CN 116524524 B CN116524524 B CN 116524524B
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- identified
- picture
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 155
- 238000000605 extraction Methods 0.000 claims abstract description 134
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 239000000969 carrier Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 101100501281 Caenorhabditis elegans emb-1 gene Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,公开了一种内容识别方法、装置、设备及存储介质,包括:将待识别数据中的待识别图片和待识别文本输入内容识别模型;内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;利用第一特征提取网络对所述待识别图片进行特征提取得到图片语义特征,利用第二特征提取网络对所述待识别文本进行特征提取得到文本语义特征;利用特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;利用分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。本申请通过提升图文模态的相关性来从多模态语义角度判断数据是否优质。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种内容识别方法、装置、设备及存储介质。
背景技术
内容建设是在海量数据下获取信息优势的重要举措之一,而优质内容识别是内容建设的重要技术之一,由于大部分类型的内容呈多样化分布,例如,对于帖子内容,一般需要通过有效手段来识别优质内容,以支持推荐、运营等内容建设。在目前的生态内容建设项目中,还没有针对帖子识别的应用场景和技术框架,也即相关技术中尚且不存在一种完善的识别机制来识别优质帖子,而优质内容建设是大数据时代的大势所趋,如何提供一种完善的内容识别方案是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种内容识别方法、装置、设备及存储介质,能够通过提升图文模态的相关性来从多模态语义角度判断数据是否优质,从而提高识别精确度。其具体方案如下:
本申请的第一方面提供了一种内容识别方法,包括:
将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
可选的,如果存在多张所述待识别图片,所述利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,包括:
利用所述第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征;
所述利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征之后,还包括:
分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征;
所述利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征,包括:
利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征;所述特征融合网络包括第一特征融合网络和第二特征融合网络。
可选的,所述分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度之前,还包括:
对各所述局部图片语义特征和所述文本语义特征进行归一化操作,得到相应的各归一化局部图片语义特征及归一化文本语义特征,以便计算各所述归一化局部图片语义特征与所述归一化文本语义特征之间的特征相似度。
可选的,所述内容识别方法,还包括:
对多张所述待识别图片进行拼接操作,得到对应的拼接图像;
利用所述第一特征提取网络对所述拼接图像进行特征提取,得到所述待识别数据的全局图片语义特征;
利用所述第二特征融合网络将所述全局图片语义特征与所述局部多模融合特征进行特征融合,得到全局多模融合特征。
可选的,所述对多张所述待识别图片进行拼接操作,得到对应的拼接图像,包括:
利用Mosaic工具对多张所述待识别图片进行拼接操作,得到对应的所述拼接图像。
可选的,所述第一特征提取网络为CLIP架构下的图片编码器,所述第二特征提取网络为CLIP架构下的文本编码器。
可选的,所述特征融合网络为基于交叉注意力机制的骨干网络。
本申请的第二方面提供了一种内容识别装置,包括:
模型输入模块,用于将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
特征提取模块,用于利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
特征融合模块,用于利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
分类识别模块,用于利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述内容识别方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述内容识别方法。
本申请中,先将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型中包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;然后利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;接着利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;最后利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。可见,本申请利用搭建的内容识别模型来识别数据的质量调性,该内容识别模型是一个融合多模态特征的表征结构,以数据中的图片和文本这两个内容载体作为识别对象,通过提升图文模态的相关性来从多模态语义角度判断数据是否优质,从而提高识别精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种内容识别方法流程图;
图2为本申请提供的一种具体的内容识别方法流程图;
图3为本申请提供的一种具体的内容识别方法流程图;
图4为本申请提供的一种具体的内容识别模型框架图;
图5为本申请提供的一种内容识别装置结构示意图;
图6为本申请提供的一种内容识别电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在目前的生态内容建设项目中,尚且不存在一种完善的识别机制来识别优质内容数据。针对上述技术缺陷,本申请提供一种内容识别方案,利用搭建的内容识别模型来识别数据的质量调性,该内容识别模型是一个融合多模态特征的表征结构,以数据中的图片和文本这两个内容载体作为识别对象,通过提升图文模态的相关性来从多模态语义角度判断数据是否优质,从而提高识别精确度。
图1为本申请实施例提供的一种内容识别方法流程图。参见图1所示,该内容识别方法包括:
S11:将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络。
构建内容识别模型,该内容识别模型也即优质内容识别模型。本实施例中的待识别数据以图片和文本作为内容的主要载体,以帖子数据为例,据统计,图文类型帖子占比98%以上,因此本实施例将图片和文本作为内容的主要载体。将待识别数据中的待识别图片和待识别文本输入内容识别模型,利用所述内容识别模型来识别优质数据。其中,所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络,特征提取网络用于提取图文语义特征,特征融合网络用于融合图文语义特征,分类器网络用于生成是否优质的分类标签。主要应用在生态内容建设,为优质内容识别提供算法识别能力。
本实施例中,所述第一特征提取网络为CLIP架构下的图片编码器,所述第二特征提取网络为CLIP架构下的文本编码器,使用预训练好的CLIP架构作为图片和文本的特征提取器,提取效果较好。所述特征融合网络为基于交叉注意力机制(cross-attention)的骨干网络。需要强调的是,在模型训练阶段,可以先冻住CLIP架构下的图片编码器和文本编码器,对下游的特征融合网络及分类器网络进行微调训练,训练方式是标注好的优质数据。分类器网络的损失函数监督信号是标注好的优质/非优质标签,属于二分类任务,目标函数选择交叉熵损失函数。
当然,除了CLIP架构下的图片编码器和基于交叉注意力机制的骨干网络,也可以采用其他结构的网络,本实施例对此不进行限定。
S12:利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征。
本实施例中,一方面利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,另一方面利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征。具体的,使用预训练好的CLIP架构下的图片编码器提取的嵌入特征embedding维度为768,同样的,使用预训练好的CLIP架构下的文本编码器提取的嵌入特征embedding维度也为768,即图片语义特征和文本语义特征均为维度768的特征向量。
S13:利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征。
本实施例中,上述第一特征提取网络和第二特征提取网络均为单一模态网络,单一模态的网络只能从单模态语义的角度理解内容,即要么表现文本维度的优质属性,要么表现图片维度的优质属性,只能反应数据(例如帖子)的单模态属性,具有较大的局限性。因此需要利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征。所述局部多模融合特征能够提升图文模态的相关性。本实施例不是通过构建映射的方式从两个结果变为一个结果,而是从语义的角度理解内容,克服了单模态网络的局限性。
S14:利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
本实施例中,利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。上述分类器网络可以为MLP分类网络,本实施例对其类型不进行限定。在优质内容的场景下,内容的质量调性可以通过标签来体现,标签可以划分为优质和非优质两个类别,故本实施例的优质内容识别本质是通过机器学习等手段实现对内容的质量调性类别标签的预测。
可见,本申请实施例先将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型中包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;然后利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;接着利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;最后利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。本申请实施例利用搭建的内容识别模型来识别数据的质量调性,该内容识别模型是一个融合多模态特征的表征结构,以数据中的图片和文本这两个内容载体作为识别对象,通过提升图文模态的相关性来从多模态语义角度判断数据是否优质,从而提高识别精确度。
图2为本申请实施例提供的一种具体的内容识别方法流程图。参见图2所示,该内容识别方法包括:
S21:将待识别数据中的待识别图片和待识别文本输入内容识别模型。
本实施例中,关于上述步骤S21的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S22:如果存在多张所述待识别图片,利用第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征。
本实施例中,数据中的图片数量一般是不等的,以帖子场景下的图片数量为例,一般由1至4张图片组成,对于包含多张所述待识别图片的帖子,需要利用第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征。例如,如果存在4张图片,CLIP结构的图片编码器那么就会提取出4个768维度的局部图片语义特征。之所以称为局部图片语义特征,是因为在多图片场景下,固定一张图片输入,这种情况下得到的往往是一种局部特征。
S23:利用第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征。
本实施例中,关于上述步骤S22的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S24:分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征。
S25:利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征。
S26:利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
本实施例中,在多图片场景下,为了更好地提升图文模态的相关性,在提取出各待识别图片的各局部图片语义特征以及待识别文本的文本语义特征之后,还需要通过相似度策略过滤后再进行融合的方式提升图文多模态向量特征的相关性,以增强局部信息特征的表达。具体的,先分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,然后将特征相似度最大的所述局部图片语义特征确定为种子特征。在此基础上,利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征。所述特征融合网络包括第一特征融合网络和第二特征融合网络,第一特征融合网络和第二特征融合网络均为cross-attention结构。
本实施例中,为了使得各特征在计算特征相似度时属于同一个量纲,在相似度计算之前,还需要对特征进行归一化处理,具体的,对各所述局部图片语义特征和所述文本语义特征进行归一化操作,得到相应的各归一化局部图片语义特征及归一化文本语义特征,以便计算各所述归一化局部图片语义特征与所述归一化文本语义特征之间的特征相似度。上述特征相似度可以为余弦相似度,本实施例对此不进行限定。选择相似度最高的局部图片语义特征与文本语义特征通过cross-attention结构进行多模融合,得到局部多模融合特征emb1。
图3为本申请实施例提供的一种具体的内容识别方法流程图。参见图3所示,该内容识别方法包括:。
S31:将待识别数据中的待识别图片和待识别文本输入内容识别模型。
S32:如果存在多张所述待识别图片,利用第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征。
S33:利用第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征。
S34:分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征。
S35:利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征。
本实施例中,关于上述步骤S31至步骤S35的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S36:对多张所述待识别图片进行拼接操作,得到对应的拼接图像。
S37:利用所述第一特征提取网络对所述拼接图像进行特征提取,得到所述待识别数据的全局图片语义特征。
S38:利用所述第二特征融合网络将所述全局图片语义特征与所述局部多模融合特征进行特征融合,得到全局多模融合特征。
S39:利用所述分类器网络对所述全局多模融合特征进行处理,以识别出所述待识别数据的质量调性。
优质是一个抽象化概念,与全局信息相关,在多图片场景下,除了考虑图片的局部特征,还需要综合考虑图片的全局特征。本实施中主要通过对多张所述待识别图片进行拼接操作得到对应的拼接图像,并利用所述第一特征提取网络对所述拼接图像进行特征提取得到所述待识别数据的全局图片语义特征的方式来获取全局特征,即在抽取图片特征时,除了单图片提取分支,还需要设计额外的分支,将4张图片的拼接图输入到图片编码器提取全局画风特征。在上述场景下的优质内容识别模型在抽取特征时,通过一个特征抽取策略同时提取图片的全局特征和局部特征,用于增强特征的抽象化表达。
本实施例中,具体可以利用Mosaic工具对多张所述待识别图片进行拼接操作,得到对应的所述拼接图像。例如,如果存在4张待识别图片,则直接利用Mosaic工具对输入的4张图片进行拼接得到一张完整的拼接图即可,经过CLIP图片编码器处理输出一个768维度的全局图片语义特征。如果待识别图片不足4张,则先接利用Mosaic工具拼接,然后通过padding的方式补全,从而对齐4张图片。
此外,在多模态场景下,优质评估需要考虑文本和图片的语义对齐,也需要考虑其内容的局部特征,因此无论是上述的局部特征还是全局特征都无法直接使用,仍然需要与文本语义特征进行结合。即需要利用所述第二特征融合网络将所述全局图片语义特征与所述局部多模融合特征进行特征融合,得到全局多模融合特征。将全局图片语义特征和局部多模融合特征通过cross-attention融合得到最终的全局多模融合特征,将全局多模融合特征送入MLP分类器,得到最终的预测结果。上述文本语义特征也属于局部特征,在语义层面上通过全局特征和局部特征融合的方式增强内容信息的表达,既能表征内容的局部语义,也能表征内容的抽象画风调性。
图4为本实施例提供的一个具体的内容识别模型框架图,结合该框架图对上述过程进行总体描述。在预训练特征抽取阶段,通过预训练好的图片编码器和文本编码器分别抽取局部图片特征(包含基础4张图片的特征)、全局图片特征(拼接图特征)和文本特征,上述特征均为768维度。在多模态特征融合阶段,先将4个基础图片的特征与文本特征分别计算相似度,将相似度值最高的局部图片特征与文本特征通过cross-attention得到融合的局部多模融合特征emb1。在局部特征与全局特征融合阶段,将全局图片特征和emb1通过cross-attention计算得到全局多模融合特征emb2,将emb2送入MLP分类器,得到最终的预测结果。
参见图5所示,本申请实施例还相应公开了一种内容识别装置,包括:
模型输入模块11,用于将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
特征提取模块12,用于利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
特征融合模块13,用于利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
分类识别模块14,用于利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
可见,本申请实施例先将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型中包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;然后利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;接着利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;最后利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。本申请实施例利用搭建的内容识别模型来识别数据的质量调性,该内容识别模型是一个融合多模态特征的表征结构,以数据中的图片和文本这两个内容载体作为识别对象,通过提升图文模态的相关性来从多模态语义角度判断数据是否优质,从而提高识别精确度。
在一些具体实施例中,如果存在多张所述待识别图片,所述特征提取模块12,具体还用于利用所述第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征。
在一些具体实施例中,如果存在多张所述待识别图片,所述内容识别装置还包括:
归一化模块,用于对各所述局部图片语义特征和所述文本语义特征进行归一化操作,得到相应的各归一化局部图片语义特征及归一化文本语义特征,以便计算各所述归一化局部图片语义特征与所述归一化文本语义特征之间的特征相似度;
相似度计算模块,用于分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征;
相应的,所述特征融合模块13,具体用于利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征;所述特征融合网络包括第一特征融合网络和第二特征融合网络;
拼接模块,用于对多张所述待识别图片进行拼接操作,得到对应的拼接图像;
全局特征提取模块,用于利用所述第一特征提取网络对所述拼接图像进行特征提取,得到所述待识别数据的全局图片语义特征;
全局特征融合模块,用于利用所述第二特征融合网络将所述全局图片语义特征与所述局部多模融合特征进行特征融合,得到全局多模融合特征。
在一些具体实施例中,所述拼接模块,具体用于利用Mosaic工具对多张所述待识别图片进行拼接操作,得到对应的所述拼接图像。
在一些具体实施例中,所述内容识别装置中的所述第一特征提取网络为CLIP架构下的图片编码器,所述第二特征提取网络为CLIP架构下的文本编码器。
在一些具体实施例中,所述内容识别装置中的所述特征融合网络为基于交叉注意力机制的骨干网络。
进一步的,本申请实施例还提供了一种电子设备。图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以至少实现如下步骤:
将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述质内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的内容识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的图片和文本等数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,以至少实现如下步骤:
将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的内容识别方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种内容识别方法,其特征在于,包括:
将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性;
如果存在多张所述待识别图片,所述利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,包括:
利用所述第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征;
所述利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征之后,还包括:
分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征;
所述利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征,包括:
利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征;所述特征融合网络包括第一特征融合网络和第二特征融合网络。
2.根据权利要求1所述的内容识别方法,其特征在于,所述分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度之前,还包括:
对各所述局部图片语义特征和所述文本语义特征进行归一化操作,得到相应的各归一化局部图片语义特征及归一化文本语义特征,以便计算各所述归一化局部图片语义特征与所述归一化文本语义特征之间的特征相似度。
3.根据权利要求1所述的内容识别方法,其特征在于,还包括:
对多张所述待识别图片进行拼接操作,得到对应的拼接图像;
利用所述第一特征提取网络对所述拼接图像进行特征提取,得到所述待识别数据的全局图片语义特征;
利用所述第二特征融合网络将所述全局图片语义特征与所述局部多模融合特征进行特征融合,得到全局多模融合特征;
利用所述分类器网络对所述全局多模融合特征进行处理,以识别出所述待识别数据的质量调性。
4.根据权利要求3所述的内容识别方法,其特征在于,所述对多张所述待识别图片进行拼接操作,得到对应的拼接图像,包括:
利用Mosaic工具对多张所述待识别图片进行拼接操作,得到对应的所述拼接图像。
5.根据权利要求1至4任一项所述的内容识别方法,其特征在于,所述第一特征提取网络为CLIP架构下的图片编码器,所述第二特征提取网络为CLIP架构下的文本编码器。
6.根据权利要求1至4任一项所述的内容识别方法,其特征在于,所述特征融合网络为基于交叉注意力机制的骨干网络。
7.一种内容识别装置,其特征在于,包括:
模型输入模块,用于将待识别数据中的待识别图片和待识别文本输入内容识别模型;所述内容识别模型包括第一特征提取网络、第二特征提取网络、特征融合网络及分类器网络;
特征提取模块,用于利用所述第一特征提取网络对所述待识别图片进行特征提取得到相应的图片语义特征,并利用所述第二特征提取网络对所述待识别文本进行特征提取得到相应的文本语义特征;
特征融合模块,用于利用所述特征融合网络将所述图片语义特征与所述文本语义特征进行特征融合,得到局部多模融合特征;
分类识别模块,用于利用所述分类器网络对所述局部多模融合特征进行处理,以识别出所述待识别数据的质量调性;
如果存在多张所述待识别图片,所述特征提取模块,具体还用于利用所述第一特征提取网络对各所述待识别图片进行特征提取,得到所述待识别数据的各局部图片语义特征;还包括相似度计算模块,用于分别计算各所述局部图片语义特征与所述文本语义特征之间的特征相似度,并将特征相似度最大的所述局部图片语义特征确定为种子特征;相应的,所述特征融合模块,具体用于利用第一特征融合网络将所述种子特征与所述文本语义特征进行特征融合,得到所述局部多模融合特征;所述特征融合网络包括第一特征融合网络和第二特征融合网络。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的内容识别方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至6任一项所述的内容识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457146.8A CN116524524B (zh) | 2023-04-25 | 2023-04-25 | 一种内容识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457146.8A CN116524524B (zh) | 2023-04-25 | 2023-04-25 | 一种内容识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116524524A CN116524524A (zh) | 2023-08-01 |
CN116524524B true CN116524524B (zh) | 2024-03-15 |
Family
ID=87389696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310457146.8A Active CN116524524B (zh) | 2023-04-25 | 2023-04-25 | 一种内容识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524524B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118691909A (zh) * | 2024-08-26 | 2024-09-24 | 鹏城实验室 | 多源遥感数据融合分类方法、装置、设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查系统及方法 |
CN112257661A (zh) * | 2020-11-11 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 低俗图像的识别方法、装置、设备及计算机可读存储介质 |
CN113590849A (zh) * | 2021-01-27 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 多媒体资源分类模型训练方法和多媒体资源推荐方法 |
CN113627447A (zh) * | 2021-10-13 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 标签识别方法、装置、计算机设备、存储介质及程序产品 |
CN113822045A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市易平方网络科技有限公司 | 一种基于多模态数据的影评质量的识别方法及相关装置 |
CN113901954A (zh) * | 2021-11-17 | 2022-01-07 | 上海高德威智能交通系统有限公司 | 一种文档版面的识别方法、装置、电子设备及存储介质 |
CN114064974A (zh) * | 2021-11-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
CN114943960A (zh) * | 2022-06-23 | 2022-08-26 | 平安科技(深圳)有限公司 | 一种文本识别方法、系统、电子设备及存储介质 |
CN115269781A (zh) * | 2022-08-04 | 2022-11-01 | 腾讯科技(武汉)有限公司 | 模态关联度预测方法、装置、设备、存储介质及程序产品 |
CN115909390A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 低俗内容识别方法、装置、计算机设备以及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319733B (zh) * | 2018-03-29 | 2020-08-25 | 华中师范大学 | 一种基于地图的教育大数据分析方法及系统 |
CN111581510B (zh) * | 2020-05-07 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
-
2023
- 2023-04-25 CN CN202310457146.8A patent/CN116524524B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查系统及方法 |
CN112257661A (zh) * | 2020-11-11 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 低俗图像的识别方法、装置、设备及计算机可读存储介质 |
CN113590849A (zh) * | 2021-01-27 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 多媒体资源分类模型训练方法和多媒体资源推荐方法 |
CN113822045A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市易平方网络科技有限公司 | 一种基于多模态数据的影评质量的识别方法及相关装置 |
CN115909390A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 低俗内容识别方法、装置、计算机设备以及存储介质 |
CN113627447A (zh) * | 2021-10-13 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 标签识别方法、装置、计算机设备、存储介质及程序产品 |
CN114064974A (zh) * | 2021-11-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
CN113901954A (zh) * | 2021-11-17 | 2022-01-07 | 上海高德威智能交通系统有限公司 | 一种文档版面的识别方法、装置、电子设备及存储介质 |
CN114943960A (zh) * | 2022-06-23 | 2022-08-26 | 平安科技(深圳)有限公司 | 一种文本识别方法、系统、电子设备及存储介质 |
CN115269781A (zh) * | 2022-08-04 | 2022-11-01 | 腾讯科技(武汉)有限公司 | 模态关联度预测方法、装置、设备、存储介质及程序产品 |
Non-Patent Citations (3)
Title |
---|
IFR: Iterative Fusion Based Recognizer for Low Quality Scene Text Recognition;Zhiwei Jia等;PRCV 2021: Pattern Recognition and Computer Vision;180–191 * |
基于文本语义与关联网络双链路融合的用户生成内容价值早期识别研究;王松等;数据分析与知识发现;第7卷(第11期);101-113 * |
基于深度学习的高质量内容识别算法研究与应用;王金光;中国优秀硕士学位论文全文数据库 信息科技辑;I138-1199 * |
Also Published As
Publication number | Publication date |
---|---|
CN116524524A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106383875B (zh) | 基于人工智能的人机交互方法和装置 | |
CN110674350B (zh) | 视频人物检索方法、介质、装置和计算设备 | |
CN110796098B (zh) | 内容审核模型的训练及审核方法、装置、设备和存储介质 | |
CN111523413A (zh) | 生成人脸图像的方法和装置 | |
CN113469298B (zh) | 模型训练方法及资源推荐方法 | |
CN113766299B (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN116524524B (zh) | 一种内容识别方法、装置、设备及存储介质 | |
CN110287375B (zh) | 视频标签的确定方法、装置及服务器 | |
CN114332679A (zh) | 视频处理方法、装置、设备、存储介质和计算机程序产品 | |
CN113220940A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN115294501A (zh) | 视频识别方法、视频识别模型训练方法、介质及电子设备 | |
CN117789099B (zh) | 视频特征提取方法及装置、存储介质及电子设备 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN111797266B (zh) | 图像处理方法和装置、存储介质和电子设备 | |
CN117764115A (zh) | 多模态模型的多任务预训练方法、多模态识别方法及设备 | |
CN117953898A (zh) | 视频数据的语音识别方法、服务器及存储介质 | |
CN117036827A (zh) | 多模态分类模型训练、视频分类方法、装置、介质及设备 | |
CN117676121A (zh) | 视频质量评估方法、装置、设备及计算机存储介质 | |
CN113704544A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN115205757B (zh) | 风险识别方法、装置、设备和存储介质 | |
CN113542866B (zh) | 视频处理方法、装置、设备及计算机可读存储介质 | |
CN118152668B (zh) | 媒体信息处理方法及装置、设备、存储介质、程序产品 | |
CN114663868B (zh) | 基于组合学习的视频平台logo检测方法及系统及设备 | |
CN112764601B (zh) | 信息显示方法、装置及电子设备 | |
CN116778534B (zh) | 图像处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |