CN116842479B - 图像处理方法、装置、计算机设备和存储介质 - Google Patents
图像处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116842479B CN116842479B CN202311093875.6A CN202311093875A CN116842479B CN 116842479 B CN116842479 B CN 116842479B CN 202311093875 A CN202311093875 A CN 202311093875A CN 116842479 B CN116842479 B CN 116842479B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- sample
- features
- psychological discomfort
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 196
- 238000012545 processing Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 200
- 238000012549 training Methods 0.000 claims description 199
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 78
- 230000004927 fusion Effects 0.000 claims description 61
- 238000013508 migration Methods 0.000 claims description 54
- 230000005012 migration Effects 0.000 claims description 54
- 238000002372 labelling Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 46
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000010586 diagram Methods 0.000 claims description 35
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 5
- 208000002874 Acne Vulgaris Diseases 0.000 description 10
- 206010000496 acne Diseases 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 7
- 208000017520 skin disease Diseases 0.000 description 6
- 230000000153 supplemental effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000238631 Hexapoda Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003340 mental effect Effects 0.000 description 3
- 201000004624 Dermatitis Diseases 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 2
- 208000026935 allergic disease Diseases 0.000 description 2
- 230000007815 allergy Effects 0.000 description 2
- 208000010668 atopic eczema Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009336 multiple cropping Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及机器学习领域,具体涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待检测图像和待检测图像的图像标题,并对待检测图像和图像标题分别进行特征提取处理,得到图像特征和标题特征;对图像特征和标题特征进行融合,得到第一多模态特征;获取标签关系特征;将第一多模态特征分别与标签关系特征中的各信息特征进行融合,得到多个心理不适标签各自对应的第二多模态特征;根据多个心理不适标签各自对应的第二多模态特征,从多个心理不适标签中,确定与待检测图像相匹配的目标标签;目标标签用于标注出待检测图像中的心理不适信息。采用本方法能够提升心理不适信息的确定效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像处理方法、装置、计算机设备和存储介质。
背景技术
近年来,随着移动互联网的高速发展,用户在浏览阅读资讯上花费的时间越来越多,资讯的质量对于用户的阅读体验至关重要。然而,网络上每天充斥的资讯的质量参差不齐,其中一些资讯包含有惊悚、恶心、令人反感的图片,这严重影响了用户的阅读体验。相关技术领域将上述影响用户阅读体验、令用户感觉不适的图片定义为心理不适图片,识别资讯中包含的心理不适图片,对于提升内容生态、提高用户的资讯阅读体验至关重要。
传统技术中,主要是依靠人工审核的方式来检测图像是否为心理不适图片,然而通过人工审核的方式来对图片进行检测存在检测效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够检测效率的图像处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像处理方法,所述方法包括:
获取待检测图像和所述待检测图像的图像标题,并对所述待检测图像和所述图像标题分别进行特征提取处理,得到图像特征和标题特征;
对所述图像特征和所述标题特征进行融合,得到第一多模态特征;
获取标签关系特征;所述标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;所述多个心理不适标签表征心理不适类别下的多个细分类别;针对每个所述心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括所述标签关系图中与所述所针对心理不适标签相连接心理不适标签的标签信息;
将所述第一多模态特征分别与所述标签关系特征中的各信息特征进行融合,得到所述多个心理不适标签各自对应的第二多模态特征;
根据所述多个心理不适标签各自对应的第二多模态特征,从所述多个心理不适标签中,确定与所述待检测图像相匹配的目标标签;所述目标标签用于标注出所述待检测图像中的心理不适信息。
第二方面,本申请还提供了一种图像处理装置,所述装置包括:
第一多模态特征确定模块,用于获取待检测图像和所述待检测图像的图像标题,并对所述待检测图像和所述图像标题分别进行特征提取处理,得到图像特征和标题特征;对所述图像特征和所述标题特征进行融合,得到第一多模态特征;
第二多模态特征确定模块,用于获取标签关系特征;所述标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;所述多个心理不适标签表征心理不适类别下的多个细分类别;针对每个所述心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括所述标签关系图中与所述所针对心理不适标签相连接心理不适标签的标签信息;将所述第一多模态特征分别与所述标签关系特征中的各信息特征进行融合,得到所述多个心理不适标签各自对应的第二多模态特征;
心理不适信息确定模块,用于根据所述多个心理不适标签各自对应的第二多模态特征,从所述多个心理不适标签中,确定与所述待检测图像相匹配的目标标签;所述目标标签用于标注出所述待检测图像中的心理不适信息。
在其中一个实施例中,所述图像处理装置还包括标签关系特征确定模块,用于获取标签关系图;所述标签关系图包括多个心理不适标签,且具有关联关系的心理不适标签之间通过连线连接;根据所述标签关系图构建邻接矩阵和编码数据矩阵;所述编码数据矩阵包括所述多个心理不适标签各自对应的编码数据;所述邻接矩阵用于表征所述多个心理不适标签之间的连接关系;将所述邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵;从所述首轮之后的第二轮次起的当前轮次中,将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合,得到当前轮次输出的数据融合矩阵;将下一轮次作为当前轮次,并返回至将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合的步骤继续执行,直至达到第一预设停止条件时停止;根据最后一个轮次输出的数据融合矩阵,确定标签关系特征。
在其中一个实施例中,所述编码数据矩阵中的编码矩阵行与心理不适标签一一对应,所述邻接矩阵中的邻接矩阵行与心理不适标签一一对应;在所述编码数据矩阵和所述邻接矩阵中,相同行数的编码矩阵行和邻接矩阵行所对应的心理不适标签相同;所述标签关系特征确定模块还用于将所述邻接矩阵与所述编码数据矩阵相乘,得到相乘矩阵,并将所述相乘矩阵与所述编码数据矩阵相叠加,得到叠加矩阵;对所述叠加矩阵进行归一化处理,得到首个轮次的数据融合矩阵。
在其中一个实施例中,所述第一多模态特征确定模块还用于通过图像特征提取模型中的首个残差块对所述待检测图像进行特征提取处理,得到提取图像特征;从所述首轮之后的第二轮次起的当前轮次中,确定所述图像特征提取模型中除首个残差块之外的与所述当前轮次相对应的当前残差块;通过所述当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;将所述前一个残差块输出的提取图像特征与所述中间图像特征进行叠加,得到所述当前残差块输出的提取图像特征;将下一轮次作为当前轮次,并返回确定所述图像特征提取模型中除首个残差块之外的与所述当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;根据最后一个轮次输出的提取图像特征,确定所述待检测图像的图像特征。
在其中一个实施例中,所述第一多模态特征确定模块还用于对于所述图像标题中的每一个句子,对当前句子的标识进行编码,得到与所述当前句子对应的段编码向量;对于所述当前句子中的每个分词,确定当前分词在所述当前句子中的位置信息,并对所述位置信息进行编码,得到与所述当前分词对应的位置编码向量;对所述当前分词进行词嵌入处理,得到与所述当前分词对应的词编码向量,并根据与所述当前句子对应的段编码向量、及与所述当前分词对应的位置编码向量和词编码向量,得到与所述当前分词对应的编码数据;根据所述图像标题中各分词各自对应的编码数据,确定所述图像标题的标题特征。
在其中一个实施例中,所述第一多模态特征确定模块还用于获取与所述图像特征对应的权重集和与所述标题特征对应的权重集;每个所述权重集为对相应预设权重张量进行低秩分解得到的低秩权重张量的集合;将与所述图像特征对应的权重集中的每个低秩权重张量,分别与所述图像特征进行融合,得到多个加权图像特征;将与所述标题特征对应的权重集中的每个低秩权重张量,分别与所述标题特征进行融合,得到多个加权标题特征;对所述多个加权图像特征和所述多个加权标题特征进行融合,得到第一多模态特征。
在其中一个实施例中,所述第一多模态特征确定模块还用于获取与所述图像特征对应的预设权重张量; 确定与所述图像特征对应的预设权重张量的秩;所述与所述图像特征对应的预设权重张量的秩,表征与所述图像特征对应的预设权重张量的维数;将与所述图像特征对应的预设权重张量分解为多个秩为1的低秩权重张量;分解得到的低秩权重张量的数量,与所述图像特征所对应的预设权重张量的秩相同。
在其中一个实施例中,所述图像处理装置还包括训练模块,所述训练模块用于获取训练样本集;所述训练样本集包括多张样本图像、所述多张样本图像各自对应的样本标题和标注标签;针对所述多张样本图像中的每张样本图像,对所针对的样本图像和相应样本标题分别进行特征提取处理,得到预测图像特征和预测标题特征;对所述预测图像特征和预测标题特征进行融合,得到第一多模态预测特征;获取标签样本关系特征;所述标签样本关系特征,包括标签关系样本图中多个心理不适标签样本各自对应的样本信息特征;针对每个所述心理不适标签样本,所针对心理不适标签样本的样本信息特征,包括所针对心理不适标签样本的标签信息,还包括所述标签关系样本图中与所述所针对心理不适标签样本相连接的心理不适标签样本的标签信息;将所述第一多模态预测特征分别与所述标签样本关系特征中各样本信息特征进行融合,得到所述多个心理不适标签样本各自对应的第二多模态预测特征;根据所述多个心理不适标签样本各自对应的第二多模态预测特征,确定所述多个心理不适标签样本中与所述针对的样本图像相匹配的预测标签样本,并根据所述预测标签样本和与所述所针对的样本图像相对应的标注标签之间的差异,调整所述图像处理模型的模型参数。
在其中一个实施例中,所述图像处理模型包括图像特征提取模型;所述训练模块还用于确定所述训练样本集的大小和所述多个心理不适标签样本的标签数量;根据所述多个心理不适标签样本的标签数量,确定迁移训练任务的难度;获取初始图像特征提取模型,根据所述训练样本集的大小和所述迁移训练任务的难度,确定所述初始图像特征提取模型中的非冻结层;通过所述训练样本集对所述初始图像特征提取模型进行迁移训练,以调整所述初始图像特征提取模型中非冻结层的模型参数,得到迁移训练后的图像特征提取模型;其中,所述迁移训练后的图像特征提取模型,用于对所述训练样本集中的样本图像进行特征提取。
在其中一个实施例中,所述训练模块还用于对所述训练样本集中的每张样本图像分别进行尺寸调整处理,得到相同尺寸的多张样本图像;对相同尺寸的多张样本图像分别进行随机裁剪处理,得到多张裁剪图像;通过所述多张裁剪图像对所述初始图像特征提取模型进行迁移训练。
在其中一个实施例中,所述训练模块还用于针对所述训练样本集中的每张样本图像,确定所针对的样本图像的标注标签;所述所针对的样本图像的标注标签为值序列的形式;所述值序列中的每个值对应于一个心理不适标签样本,且表征所针对的训练样本是否与对应的心理不适标签样本相匹配;根据所述值序列中每个值的大小,确定每个值各自对应的数值调整方式;按照每个值各自对应的数值调整方式,对所述值序列中每个值进行调整,得到数值调整的标注标签;基于所述训练样本集中每张样本图像各自对应的数值调整的标注标签,对所述初始图像特征提取模型进行迁移训练。
在其中一个实施例中,所述训练模块还用于获取测试样本集,并通过模型参数调整后的图像处理模型对所述测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;当所述预测结果的准确度未满足预设高准确度条件时,对所述训练样本集中的样本标题和所述测试样本集中的测试标题进行高频分词统计处理,得到多个高频词汇;每个所述高频词汇,为在所述训练样本集和所述测试样本集中出现频次满足预设高频次条件的词汇;确定多个预设的图像获取源,并从多个图像获取源中获取所述多个高频词汇各自关联的图像,得到多张补充样本图像;基于所述训练样本集和所述多张补充样本图像,对所述模型参数后的图像处理模型再次进行训练。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例提供的任一种图像处理方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种图像处理方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的任一种图像处理方法中的步骤。
上述图像处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待检测图像和对应的图像标题,可得到待检测图像的图像特征和图像标题的标题特征,从而可对图像特征和标题特征进行融合,得到第一多模态特征。通过得到第一多模态特征,可将第一多模态特征与预设标签关系特征中的各信息特征进行融合,得到多个第二多模态特征,从而基于多个第二多模态特征确定与待检测图像相匹配的目标标签。相比于传统的通过人工审核的方式来确定心理不适信息,由于本申请可自动确定用以标注心里不适信息的目标标签,因此,大大提升了心理不适信息的确定效率。此外,由于本申请是基于多模态信息来确定目标标签的,还提升了目标标签的确定准确性。
附图说明
图1为一个实施例中图像处理方法的应用环境图;
图2为一个实施例中图像处理方法的流程示意图;
图3为一个实施例中待检测图像和对应图像标题的示意图;
图4为一个实施例中图像特征提取模型的示意图;
图5为另一个实施例中图像特征提取模型的示意图;
图6为一个实施例中多个心理不适标签的示意图;
图7为一个实施例中标签关系图的示意图;
图8为一个实施例中图像处理的整体流程示意图;
图9为一个实施例中残差块的示意图;
图10为一个实施例中第一多模态特征的生成示意图;
图11为一个实施例中热力图的示意图;
图12为一个实施例中补充样本图像的确定示意图;
图13为一个具体实施例中图像处理方法的流程示意图;
图14为一个实施例中图像处理装置的结构框图;
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102和服务器104均可单独用于执行本申请实施例中提供的图像处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的图像处理方法。以终端102和服务器104可协同用于执行本申请实施例中提供的图像处理方法为例进行说明。终端102可接收用户上传的待检测图像集,并将待检测图像集发送至服务器104,以使服务器104对待检测图像集中的每张待检测图像进行处理,以确定每张待检测图像各自对应的目标标签。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请涉及人工智能领域,比如,本申请的目标标签是通过人工智能模型输出得到的。人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
需要说明的是,本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”,“多份”指“至少两份”。
本申请实施例提供的方案涉及人工智能的计算机视觉、自然语言处理、机器学习等技术,具体通过如下实施例进行说明:
在一个实施例中,如图2所示,提供了一种图像处理方法,以该方法应用于计算机设备为例进行说明。计算机设备可为图1中的终端或者服务器。图像处理方法包括以下步骤:
步骤202,获取待检测图像和待检测图像的图像标题,并对待检测图像和图像标题分别进行特征提取处理,得到图像特征和标题特征。
其中,待检测图像是指待确定心理不适信息的图像,比如,图3中的301即为一张待检测图像。图像标题是待检测图像的文字标题,比如,图3中的302即为待检测图像所对应的图像标题。图像特征是用于反映图像的特征数据,图像特征可以反映出图像的颜色特征、纹理特征、图像中各元素的形状特征和空间关系特征等等。标题特征是用于反映文字特征的数据,标题特征可以反映出各文字之间的上下文关系、各文字的语义等等。图3示出了一个实施例中待检测图像和对应图像标题的示意图。
具体地,计算机设备可获取待检测图像和待检图像的图像标题。计算机设备中部署有训练完成的图像处理模型,该图像处理模型包括图像特征提取模型和标题特征提取模型。其中,训练完成的图像处理模型中的图像特征提取模型是已训练完成的通用的具有图像特征提取能力的机器学习模型。训练完成的图像处理模型中的标题特征提取模型是已训练完成的通用的具有文字特征提取能力的机器学习模型。
在其中一个实施例中,参考图4,图像特征提取模型包括多个卷积模块,每两个卷积模块之间具有卷积分解模块。其中,每个卷积模块可包括多个卷积层。卷积分解模型可将大卷积分解为多个小卷积。比如,可5*5的卷积分解为两个3*3的卷积,通过将大卷积进行分解,可节约计算资源,减少参数量,比如,可将299*299*3的数据降维至8*8*2048的数据。图4示出了一个实施例中图像特征提取模型的示意图。
在其中一个实施例中,参考图5,图像特征提取模型可包括特征提取模块和注意力模块,其中,特征提取模块可包括上述的多个卷积模块和每两个卷积模块之间具有卷积分解模块。注意力模块包括全局池化层(例如,Global Average Pooling)、两个全连接层(例如,Fully Connected)和一个激活层(例如,Sigmoid)。通过两个全连接层可建模通道间的相关性,然后将建模的通道间的相关性激活后获得0至1之间归一化的每个通道各自对应的权重,最后通过特征缩放函数将归一化后的权重加权到相应通道的特征上。图5示出了另一个实施例中图像特征提取模型的示意图。
在其中一个实施例中,在对图像特征提取模型进行训练时,可采用focal_loss,focal_loss可以降低易分类样本的损失,使得模型更加关注困难样本,增强模型学习能力。
步骤204,对图像特征和标题特征进行融合,得到第一多模态特征。
具体地,当获得图像特征和标题特征后,计算机设备可将图像特征和标题特征进行融合,以得到第一多模态特征。比如,计算机设备可将图像特征与标题特征相乘,以得到第一多模态特征。又比如,计算机设备可将图像特征与标题特征进行拼接,得到第一多模态特征。
步骤206,获取标签关系特征;标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;多个心理不适标签表征心理不适类别下的多个细分类别;针对每个心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括标签关系图中与所针对心理不适标签相连接心理不适标签的标签信息。
具体地,计算机设备还可额外获取标签关系特征。其中,标签关系特征是对标签关系图进行特征提取得到的数据。标签关系图是基于预先设置的多个心理不适标签之间的关联关系而生成的关系图。标签关系图包括多个心理不适标签,且心理不适标签之间可通过连线连接,以表征心理不适标签之间的关联关系。比如,参考图6,可设置有多个心理不适标签,从而通过图6中的多个心理不适标签生成如图7所示标签关系图。参考图7,心理不适标签可包括“青春痘”、“皮肤病”、“害怕”、“惊悚”、“密集恐惧”等,由于“青春痘”与“皮肤病”和“密集恐惧”之间均具有直接关联关系,因此,将“青春痘”与“皮肤病”通过连线相连接,以及将“青春痘”与“密集恐惧”通过连线相连接。又由于“皮肤病”与“害怕”之间具有直接关联关系,因此,将“皮肤病”与“害怕”通过连线相连接。图6示出了一个实施例中多个心理不适标签的示意图。图7示出了一个实施例中标签关系图的示意图。
标签关系特征中包括多个心理不适标签各自对应的信息特征,针对多个心理不适标签中的每个心理不适标签,所针对的心理不适标签的信息特征,不仅包括所针对的心理不适标签的标签信息,还包括与所针对的心理不适标签相连接的心理不适标签的标签信息。比如,对于心里不适标签“青春痘”,“青春痘”的信息特征,不仅包括“青春痘”信息,还包括有“皮肤病”和“密集恐惧”的信息。如此,便可使得标签关系特征能够表征多个心理不适标签之间的相关性。
步骤208,将第一多模态特征分别与标签关系特征中的各信息特征进行融合,得到多个心理不适标签各自对应的第二多模态特征。
具体地,当获得标签关系特征时,计算机设备可将第一多模态特征分别与每个心理不适标签各自对应的信息特征进行融合,得到每个心理不适标签各自对应的第二多模态特征。比如,计算机设备可将第一多模态特征分别乘以每个信息特征,以得到每个心理不适标签各自对应的第二多模态特征。又比如,计算机设备可将每个第二多模态特征分别与各信息特征进行拼接,以得到每个心理不适标签各自对应的第二多模态特征。
步骤210,根据多个心理不适标签各自对应的第二多模态特征,从多个心理不适标签中,确定与待检测图像相匹配的目标标签;目标标签用于标注出待检测图像中的心理不适信息。
具体地,计算机设备可根据多个心理不适标签各自对应的第二多模态特征,确定每个心理不适标签分别与待检测图像之间的匹配度,并根据匹配度来从多个心理不合适标签中筛选出与待检测图像相匹配的目标标签。比如,计算机设备可将具有最高匹配度的心理不适标签,作为与待检测图像相匹配的目标标签。
在其中一个实施例中,由于对于每个心理不适标签而言,当前心理不适标签所对应的第二多模态特征不仅包括有图像特征、标题特征,还包括有当前心理不适标签的标签信息,以及与当前不适标签相连接的心理不适标签的标签信息,因此,计算机设备可通过蕴含有多种信息的第二多模态特征,准确确定当前标签是否与待检测图像相匹配,从而提升了匹配度的确定准确性。
在其中一个实施例中,参考图8,可通过图像处理模型来输出待检测图像的目标标签。图像处理模型包括图像特征提取模型、标题特征提取模型、多模态特征融合模型、标签关系特征提取模型和目标标签输出模型。其中,通过图像特征提取模型可输出待检测图像的图像特征,通过标题特征提取模型可输出图像标题的标题特征,通过多模态特征融合模型可将图像特征与标题特征进行融合,得到第一多模态特征。通过标签关系特征提取模型可输出标签关系特征,通过目标标签输出模型可将标签关系特征与第一多模态特征进行融合,得到多个第二多模态特征,并基于多个第二多模态特征输出各心理不适标签各自对应的匹配度,基于匹配度从多个心理不适标签中筛选出与待检测图像相匹配的目标标签,以通过目标标签标注出待检测图像的心理不适信息。比如,在待检测图像的整体风格较为恐怖时,从多个心理不适标签中筛选出目标标签可为“恐惧”,以通过“恐惧”标注出待检测图像的整体图像风格较为恐怖。在待检测图像中包括虫子时,从多个心理不适标签中筛选出目标标签可为“虫子”,以通过“虫子”标注出待检测图像具有虫子这一心理不适信息。图8示出了一个实施例中图像处理的整体流程示意图。
上述图像处理方法中,通过获取待检测图像和对应的图像标题,可得到待检测图像的图像特征和图像标题的标题特征,从而可对图像特征和标题特征进行融合,得到第一多模态特征。通过得到第一多模态特征,可将第一多模态特征与预设标签关系特征中的各信息特征进行融合,得到多个第二多模态特征,从而基于多个第二多模态特征确定与待检测图像相匹配的目标标签。相比于传统的通过人工审核的方式来确定心理不适信息,由于本申请可自动确定用以标注心里不适信息的目标标签,因此,大大提升了心理不适信息的确定效率。此外,通过构建多标签细粒度标签体系,能够精确识别图片中不适元素。由于本申请是基于多模态信息来确定目标标签的,还提升了目标标签的确定准确性。
在其中一个实施例中,在获取标签关系特征之前,方法还包括:获取标签关系图;标签关系图包括多个心理不适标签,且具有直接关联关系的心理不适标签之间通过连线连接;根据标签关系图构建邻接矩阵和编码数据矩阵;编码数据矩阵包括多个心理不适标签各自对应的编码数据;邻接矩阵用于表征多个心理不适标签之间的连接关系;将邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵;从首轮之后的第二轮次起的当前轮次中,将前一轮次输出的数据融合矩阵与邻接矩阵进行融合,得到当前轮次输出的数据融合矩阵;将下一轮次作为当前轮次,并返回至将前一轮次输出的数据融合矩阵与邻接矩阵进行融合的步骤继续执行,直至达到第一预设停止条件时停止;根据最后一个轮次输出的数据融合矩阵,确定标签关系特征。
具体地,在获取得到标签关系特征之前,还需要构建标签关系图。标签关系图包括多个心理不适标签之间的关联关系。当需要基于构建的标签关系图得到标签关系特征时,计算机设备可先基于标签关系图生成一个邻接矩阵和编码数据矩阵。为了描述方便,下述将邻接矩阵中的行称作邻接矩阵行,将编码数据矩阵中的行称作编码矩阵行。编码数据矩阵中的每一行对应于一个心理不适标签,邻接矩阵中的每一行也对应一个心理不适标签。对于相同行的编码矩阵行和邻接矩阵行,其对应于相同的心理不适标签。比如,编码数据矩阵中的第二行和邻接矩阵中的第二行,均对应于心理不适标签“密集恐惧”。编码数据矩阵中的每一行为相应心里不适标签的编码数据,比如,可对心理不适标签“密集恐惧”进行编码,以得到编码数据矩阵中的第二行数据。邻接矩阵中的每一行用于表征相应心理不适标签的连接关系。比如,对于邻接矩阵中的第二行,其代表与心理不适标签“密集恐惧”相连接的心理不适标签是哪些。邻接矩阵中的每一列可代表一个心理不适标签,比如,在上述举例中,邻接矩阵中的第一列代表心理不适标签“青春痘”、第二列代表心理不适标签“密集恐惧”、第三列代表心理不适标签“皮肤病”、第四列代表心理不适标签“害怕”。当邻接矩阵中的第二行为“1,0,1,0”时,可认为与心里不适标签“密集恐惧”相连接的心理不适标签为“青春痘”和“皮肤病”,其中,“1”代表相连接,“0”代表未连接。
进一步地,当基于标签关系图得到邻接矩阵和编码数据矩阵时,计算机设备可将邻接矩阵和编码数据矩阵相连接,以得到首个轮次输出的数据融合矩阵。其中,数据融合矩阵中的每一行均对应于一个心理不适标签,且每一行不仅包括对应心理不适标签的标签信息,还包括相连接的心理不适标签的标签信息。进一步地,计算机设备将数据融合矩阵再次与邻接矩阵相融合,以得到相应轮次输出的数据融合矩阵,如此迭代,直至达到第一预设停止条件时停止,得到最后一个轮次输出的数据融合矩阵,并将最后一个轮次输出的数据融合矩阵作为标签关系特征。其中,第一预设停止条件可根据需求自由设置,比如,可在到达预设轮次次数后,确定达到第一预设停止条件。
本实施例中,通过构建标签关系图,可基于标签关系图得到标签关系特征,从而基于标签关系特征表征各心理不适标签之间的复杂内在关系,进而使得后续可基于能够表达各心理不适标签之间的复杂内在关系的标签关系特征准确确定与待检测图像相匹配的目标标签。
在其中一个实施例中,编码数据矩阵中的每个编码矩阵行与心理不适标签一一对应,邻接矩阵中的各邻接矩阵行与心理不适标签一一对应;在编码数据矩阵和邻接矩阵中,相同行的编码矩阵行和邻接矩阵行所对应的心理不适标签相同;将邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵,包括:将邻接矩阵与编码数据矩阵相乘,得到相乘矩阵,并将相乘矩阵与编码数据矩阵相叠加,得到叠加矩阵;对叠加矩阵进行归一化处理,得到首个轮次的数据融合矩阵。
具体地,计算机设备可按照矩阵相乘的原理,将邻接矩阵和编码数据矩阵相乘,得到相乘矩阵。对于相乘矩阵中的每一行来说,在获取得到相连接心理不适标签的标签信息后,自身的标签信息却丢失了,因此,需要将相乘矩阵与编码数据数据进行叠加,以得到不仅包括自身心理不适标签的标签信息,还包括相连接的心理不适标签的标签信息的叠加矩阵。由于在经过一次矩阵相乘之后,叠加矩阵中的数值相比于编码数据矩阵中的数值会变大,也即,特征向量在经过多轮次的矩阵相乘之后,数值就会变得越来越大,因此,需要对叠加矩阵进行归一化,将归一化后的叠加矩阵作为数据融合矩阵。
在其中一个实施例中,待检测图像的特征提取步骤包括:通过图像特征提取模型中的首个残差块对待检测图像进行特征提取处理,得到提取图像特征;从首轮之后的第二轮次起的当前轮次中,确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块;通过当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;将前一个残差块输出的提取图像特征与中间图像特征进行叠加,得到当前残差块输出的提取图像特征;将下一轮次作为当前轮次,并返回确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;根据最后一个轮次输出的提取图像特征,确定待检测图像的图像特征。
具体地,图像特征提取模型可为包括多个残差块的机器学习模型。残差块可包括卷积层、激活层和特征融合层,比如,残差块可为如图9所示,包括卷积层(CNN)、特征融合层和激活层(Relu)。其中,图像特征提取模型中的首个残差块可不包括特征融合层。图像特征提取模型可将待检测图像输入至图像特征提取模型,从而通过图像特征提取模型中的首个残差块对待检测图像进行特征提取处理,得到提取图像特征。比如,首个残差块可对待检测图像进行卷积处理,得到卷积特征并通过Relu激活函数对卷积特征进行处理,首个残差块输出的提取图像特征。图9示出了一个实施例中残差块的示意图。
进一步地,从首轮之后的第二轮次起的当前轮次中,图像特征提取模型将前一轮次输出的提取图像特征输入至与当前轮次相对应的当前残差块中,以通过当前残差块对前一个轮次输出的提取图像特征进行特征提取处理,得到中间图像特征。比如,在当前轮次为第二轮次时,可将图像特征提取模型中的第二个残差块作为当前残差块,并将首个轮次输出的提取图像特征输入至当前残差块,以得通过当前残差块中的卷积层和卷积层之间的激活层对输入的提取图像特征进行处理,得到当前残差块中最后一个卷积层输出的中间图像特征。进一步地,图像特征提取模型通过当前残差块中的特征融合层,将前一个残差块输出的提取图像特征与该中间图像特征进行叠加,得到当前残差块输出的提取图像特征。比如,在当前轮次为第二轮次时,图像特征提取模型中的第二个残差块可将首个残差块输出的提取图像特征与第二个残差块输出的中间图像特征进行叠加,得到第二个残差块输出的提取图像特征。如此迭代,直至得到最后一个残差块输出的提取图像特征,并将最后一个残差块输出的提取图像特征作为待检测图像的图像特征,也即,将最后一个轮次输出的提取图像特征作为待检测图像的图像特征。
本实施例中,在特征提取应用中,当深度学习网络层数越深时,理论上表达能力会更强,但是当深度学习网络层数达到一定深度后再加深,则会导致网络收敛更缓慢,准确率也随之降低。通过本申请中的残差块结构通过跳跃连接可解决梯度消失的问题,使得尽管当深度学习网络层数达到一定深度后模型也能够收敛,输出准确的结果。
在其中一个实施例中,图像标题的特征提取步骤包括:对于图像标题中的每一个句子,对当前句子的标识进行编码,得到与当前句子对应的段编码向量;对于当前句子中的每个分词,确定当前分词在当前句子中的位置信息,并对位置信息进行编码,得到与当前分词对应的位置编码向量;对当前分词进行词嵌入处理,得到与当前分词对应的词编码向量,并根据与当前句子对应的段编码向量、及与当前分词对应的位置编码向量和词编码向量,得到与当前分词对应的编码数据;根据图像标题中各分词各自对应的编码数据,确定图像标题的标题特征。
具体地,在图文或者视频场景中,图片一般都会存在相关的描述。这些描述包含了图片的一些特性,可以作为图片识别的辅助信息,因此可使用图像标题来辅助图片进行识别。进一步地,计算机设备可通过标题特征提取模型来提取图像标题的特征。更具体地,对于图像标题中的每一个句子,均可按照下述方式进行处理。比如,对于当前句子,标题特征提取模型可确定当前句子的句子标识,并对当前句子的句子标识进行编码,得到当前句子所对应的段编码向量。当前句子在图像标题中位置信息,作为当前句子的句子标识。比如,在当前句子为图像标题中的首句时,可将“1”作为当前句子的句子标识;在当前句子为图像标题中的第二句时,可将“2”作为当前句子的句子标识。
进一步地,对于当前句子中的每个分词,均可按照下述方式进行处理。比如,对于当前句子中的当前分词,标题特征提取模型可确定当前分词在当前句子中的位置信息,并对当前分词在当前句子中的位置信息进行编码,得到与当前分词对应的位置编码向量。比如,在当前分词为当前句子中的首个分词时,可对表征首个分词的“1”进行编码,得到与当前分词对应的位置编码向量。进一步地,标题特征提取模型还可对当前分词进行词嵌入处理,得到与当前分词对应的词编码向量,比如,可对当前分词进行卷积处理,以得到与当前分词对应的词编码向量。进一步地,标题特征提取模型将当前句子所对应的段编码向量、当前分词所对应的位置编码向量、当前分词所对应的词编码向量进行叠加,得到与当前分词对应的编码数据。
当得到图像标题中的每个分词各自对应的编码数据时,标题特征提取模型即可根据每个分词各自对应的编码数据,得到图像标题的标题特征。比如,标题特征提取模型可将各分词各自对应的编码数据进行拼接,得到标题特征。
本实施例中,通过按照上述方式进行编码,使得标题特征提取模型可以更好地理解语言结构和上下文之间的关系,使得生成的标题特征不仅可以包含每个分词的信息还可包含分词之间的上下文语义关系,进而后续可基于包含各分词信息和各分词之间的上下文语义关系的标题特征得到更为准确目标标签。
在其中一个实施例中,对图像特征和标题特征进行融合,得到第一多模态特征,包括:获取与图像特征对应的权重集和与标题特征对应的权重集;每个权重集为对相应预设权重张量进行低秩分解得到的低秩权重张量的集合;将与图像特征对应的权重集中的每个低秩权重张量,分别与图像特征进行融合,得到多个加权图像特征;将与标题特征对应的权重集中的每个低秩权重张量,分别与标题特征进行融合,得到多个加权标题特征;对多个加权图像特征和多个加权标题特征进行融合,得到第一多模态特征。
其中,低秩权重张量是指秩小于等于预设数值的张量。
具体地,计算机设备可通过多模态融合模型来对图像特征和标题特征进行融合。更具体地,多模态融合模型可获取与图像特征对应的权重集,以及获取与标题特征对应权重集。为了描述方便,下述将与图像特征对应的权重集称作第一权重集,将与标题特征对应的权重集称作第二权重集。其中,第一权重集是对与图像特征对应的预设权重张量进行低秩分解得到的权重集合,第二权重集是对与标题特征对应的预设权重张量进行低秩分解得到的权重集合。为了描述方便,下述将与图像特征对应的预设权重称作第一预设权重张量,将与标题特征对应的预设权重称作第二预设权重张量。第一预设权重张量可为对图像处理模型进行训练后,得到的模型参数W1,该模型参数W1是用于对图像特征进行处理的参数。第二预设权重张量可为对图像处理模型进行训练后,得到的模型参数W2,该模型参数W2是用于对标题特征进行处理的参数。
进一步地,当得到第一权重集时,多模态融合模型可将第一权重集中的每个低秩权重张量分别与图像特征进行融合,得到多个加权图像特征。比如,参考图10,第一权重集可包括低秩权重张量,多模态融合模型可将分别与图像特征/>相乘,以得到多个加权图像特征。相应的,当得到第二权重集时,多模态融合模型可将第二权重集中的每个低秩权重张量分为与标题特征进行融合,得到多个加权标题特征。比如,参考图10,第二权重集可包括低秩权重张量,多模态融合模型可将
分别与标题特征/>相乘,以得到多个加权标题特征。
进一步地,多模态融合模型可将多个加权图像特征和多个加权标题特征进行融合,得到第一多模态特征。比如,多个加权图像特征可构成一个加权图像特征矩阵,多个加权标题特征可构成一个加权标题特征矩阵,多模态融合模型可将加权图像特征矩阵与加权标题特征矩阵相乘,得到第一多模态特征。图10示出了一个实施例中第一多模态特征的生成示意图。
在其中一个实施例中,与图像特征对应的权重集的获取步骤包括:获取与图像特征对应的预设权重张量;确定与图像特征对应的预设权重张量的秩;与图像特征对应的预设权重张量的秩,表征与图像特征对应的预设权重张量的维数;将与图像特征对应的预设权重张量分解为多个秩为1的低秩权重张量;分解得到的低秩权重张量的数量,与图像特征所对应的预设权重张量的秩相同。
具体地,当得到第一预设权重张量时,多模态融合模型可通过低秩分解的方式来得到第一权重集。多模态融合模型可确定第一预设权重张量的秩。其中,一般一维数组称之为向量,二维数组称之为矩阵,三维数组以及多维数组,称之为张量。张量的秩是指张量中存在的维数,比如,秩为1到6的张量分别称为一阶,二阶一直到六阶张量,一阶张量可以理解成一个向量,二阶张量可以理解成矩阵,三阶张量可以理解成立方体。进一步地,多模态融合模型将第一预设权重张量分解为多个秩为1的低秩权重张量,以得到第一权重集。其中,第一权重集中的低秩权重张量的数量,与第一预设权重张量的秩相同。
在其中一个实施例中,多模态融合模型可通过CP 分解( Canonical PolyadicDecomposition ,CPD)的方式,将一个N阶的张量分解为R个秩为1的张量和的形式,其中,R为N阶的张量的秩。
容易理解地,多模态融合模型也可通过上述方式对第二预设权重张量进行分解,以得到第二权重集。
上述实施例中,通过将高维度的预设权重分解为低秩权重张量,相比于在高维度上进行特征的融合,可通过分解后的低秩权重张量减少特征融合时所使用的参数数量,从而提升了模型的计算效率。
在其中一个实施例中,目标心理不适标签是通过图像处理模型输出得到;图像处理模型的训练步骤包括:获取训练样本集;训练样本集包括多张样本图像、多张样本图像各自对应的样本标题和标注标签;针对多张样本图像中的每张样本图像,对所针对的样本图像和相应样本标题分别进行特征提取处理,得到预测图像特征和预测标题特征;对预测图像特征和预测标题特征进行融合,得到第一多模态预测特征;获取标签样本关系特征;标签样本关系特征,包括标签关系样本图中多个心理不适标签样本各自对应的样本信息特征;针对每个心理不适标签样本,所针对心理不适标签样本的样本信息特征,包括所针对心理不适标签样本的标签信息,还包括标签关系样本图中与所针对心理不适标签样本相连接的心理不适标签样本的标签信息;将第一多模态预测特征分别与标签样本关系特征中的各样本信息特征进行融合,得到多个心理不适标签样本各自对应的第二多模态预测特征;根据多个心理不适标签样本各自对应的第二多模态预测特征,确定多个心理不适标签样本中与针对的样本图像相匹配的预测标签样本,并根据预测标签样本和与所针对的样本图像相对应的标注标签之间的差异,调整图像处理模型的模型参数。
具体地,在基于图像处理模型确定待检测图像的目标标签之前,还需要对图像处理模型进行训练。当需要对图像处理模型进行训练时,计算机设备可获取训练样本集。训练样本集中包括有多张样本图像、各样本图像各自对应的样本标题,以及各样本图像各自对应的标注标签。其中,样本标题是指样本图像的标题,标注标签是指为样本图像标注的标签,该标签为正确无误的与样本图像相匹配的标签。进一步地,可将样本图像和样本图像的样本标题输入至图像处理模型,通过图像处理模型对样本图像进行特征提取处理,得到预测图像特征,以及通过图像处理模型对样本标题进行特征提取处理,得到预测标题特征。其中,对样本图像进行特征提取处理的步骤以及对样本标题进行特征提取的方式,可参照上述的对待检测图像的特征提取步骤以及对图像标题进行特征提取的方式。
进一步地,当得到预测图像特征和预测标题特征时,图像处理模型可将预测图像特征和预测标题特征进行融合,得到第一多模态预测特征。将预测图像特征和预测标题特征进行融合的方式,可参照上述的将图像特征和标题特征进行融合,以得到第一多模态特征的方式。
进一步地,图像处理模型可获取标签样本关系特征,该标签样本关系特征是对标签关系样本图进行特征提取处理得到的。标签关系样本图中可包括多个心理不适标签样本,标签样本关系特征包括标签关系样本图中的每个心理不适标签样本各自对应的样本信息特征,与心理不适标签样本对应的样本信息特征不仅包括该心理不适标签样本的标签信息,还包括标签关系样本图中与该心理不合适标签样本相连接的心理不适标签样本的标签信息。容易理解地,本实施将在训练过程中使用的标签关系图称作标签关系样本图,将在训练过程中使用的心理不适标签称作心理不适标签样本,以及将在训练过程中使用的标签关系特征称作标签样本关系特征。因此,基于标签关系样本图得到标签样本关系特征的方式,可参照上述的基于标签关系图得到标签关系特征的方式。
进一步地,图像处理模型将第一多模态预测特征分别与标签样本关系特征中的各样本信息特征进行融合,以得到标签关系样本图中各心理不适标签样本各自对应的第二多模态特征。将第一多模态预测特征分别与标签样本关系特征中的样本信息特征进行融合的方式,可参照上述的将第一多模态特征分别与标签样本关系特征中的信息特征进行融合的方式。图像处理模型可根据多个心理不适标签样本各自对应的第二多模态特征,确定心里不适标签样本中与样本图像相匹配的预测标签样本,并朝着预测标签样本与标注标签接近的方向调整图像处理模型的模型参数。
容易理解地,可对图像处理模型进行多轮次的迭代训练,直至满足预设训练停止条件时停止,得到训练好的图像处理模型。预设训练停止条件可根据需求自由设置,比如,可在迭代训练至一定轮次之后,确定达到预设训练停止条件。
本实施例中,通过对图像处理模型进行训练,使得后续可通过训练好的图像处理模型准确输出与待检测图像相匹配的目标标签。
在其中一个实施例中,图像处理模型包括图像特征提取模型;对训练样本集中的样本图像进行特征提取处理之前,上述方法还包括:确定训练样本集的大小和多个心理不适标签样本的标签数量;根据多个心理不适标签样本的标签数量,确定迁移训练任务的难度;获取初始图像特征提取模型,根据训练样本集的大小和迁移训练任务的难度,确定初始图像特征提取模型中的非冻结层;通过训练样本集对初始图像特征提取模型进行迁移训练,以调整初始图像特征提取模型中非冻结层的模型参数,得到迁移训练后的图像特征提取模型;其中,迁移训练后的图像特征提取模型,用于对训练样本集中的样本图像进行特征提取。
具体地,图像处理模型中可包括有图像特征提取模型,可通过迁移训练的方式来得到用以对样本图像进行特征提取处理的图像特征提取模型,也即可通过对初始图像特征提取模型进行迁移训练的方式,来得到在对样本图像进行特征提取处理时使用的图像特征提取模型。
进一步地,当需要对初始图像特征提取模型进行迁移训练时,可冻结预训练的初始图像特征提取模型中的部分网络层,只训练全连接层。然而,通过试验发现,可根据训练数据量的大小以及任务的难易程度确定冻结的最佳层数,训练数据越多,目标任务越困难,被冻结的层数要相应减少。因此,可预先通过试验的方式确定训练数据量和任务难度与冻结层数之间的对应关系,例如,可预先通过试验确定对于几千~几万的数据量、类别较少的分类任务,只调整最后一个模块(又称作,block)即可达到较好的效果。
因此,当需要对初始图像特征提取模型进行迁移训练时,计算机设备可确定训练样本集的大小,以及确定用以构建标签关系样本图中的多个心理不适标签样本的标签数量。计算机设备可根据心理不适标签样本的数量来确定迁移任务的任务难度,比如,当心理不适标签样本的数量越多时,表征需要对样本图像进行更细粒度的分类,当分类的粒度越细时,则迁移任务的任务难度就越高。比如,初始图像特征提取模型为一个用以对图像进行二分类时使用的特征提取模型,则将该初始图像特征提取模型迁移至用以对图像进行多分类时使用的特征提取模型的任务难度,高于将该初始图像特征提取模型迁移至用以对图像进行类别较少分类时使用的特征提取模型的任务难度。
进一步地,计算机设备基于训练样本集的大小和任务难度,并根据预设的训练数据量和任务难度与冻结层数之间的对应关系,确定迁移训练时初始图像特征提取模型中的非冻结层,并在迁移训练时仅调整非冻结层的模型参数,而固定冻结层的模型参数。
在其中一个实施例中,初始图像特征提取模型可以为一个预训练的图像特征提取模型,比如,可为对图像进行二分类任务的基础上训练得到的图像特征提取模型。由于本申请中的心里不适标签有多个,因此,本申请是需要对图像进行多分类,因此,本申请中的迁移训练的目的是将一个预训练得到的初始图像特征提取模型迁移至适用于本申请任务的一个特征提取模型。
在其中一个实施例中,在进行迁移训练时,可将训练样本集输入至初始图像特征提取模型,通过初始图像特征提取模型输出对训练样本的预测标签,并基于初始图像特征提取模型输出的预测标签与相应标注标签之间的差异,朝着减小差异的方向来调整初始图像特征提取模型中的非冻结层的模型参数,以得到迁移训练好的图像特征提取模型。容易理解地,在通过迁移训练好的图像特征提取模型来对样本图像进行处理时,迁移训练好的图像特征提取模型可以仅提取样本图像的图像特征,得到预测图像特征,而不执行基于预测图像特征来得到预测标签的步骤。
在其中一个实施例中,参考图11,通过热力图的对比发现经过迁移训练后的图像特征提取模型更好地关注到了样本中心理不适的区域。图11示出了一个实施例中热力图的示意图。其中,区域1101代表模型更加关注的区域。
本实施例中,通过对初始图像特征提取模型进行迁移训练,相比于重新训练一个图像特征提取模型,可大大减少训练的复杂度以及减少训练时所耗费的计算资源。由于可以训练样本集的大小和迁移训练任务的难度,确定可以被非冻结的网络层,相比于传统的对初始图像特征提取模型中的全部网络层均进行调整,本实施例还可进一步地减少训练的复杂度以及减少训练时所耗费的计算资源。
在其中一个实施例中,通过训练样本集对初始图像特征提取模型进行迁移训练,包括:对训练样本集中的每张样本图像分别进行尺寸调整处理,得到相同尺寸的多张样本图像;对相同尺寸的多张样本图像分别进行随机裁剪处理,得到多张裁剪图像;通过多张裁剪图像对初始图像特征提取模型进行迁移训练。
具体地,为了增加模型的鲁棒性,在基于训练样本集对初始图像特征提取模型进行迁移训练之前,可先对训练样本集中的样本图像进行处理。计算机设备可调整训练样本集中的训练样本的尺寸,得到尺寸一致的训练样本,并对尺寸一致的训练样本进行随机裁剪处理,得到多张裁剪图像。比如,计算机设备可随机裁剪训练样本中的部分区域,每张样本图像的被裁剪区域的位置可各不相同,裁剪区域的大小也可各不相同。进一步地,当得到多张裁剪图像时,计算机设备即可基于多张裁剪图像对初始图像特征提取模型进行迁移训练。
本实施例中,通过裁剪图像来对初始图像特征提取模型进行迁移训练,可提升迁移训练后的图像特征提取模型的鲁棒性,避免模型更关注图像边缘信息。
在其中一个实施例中,通过训练样本集对初始图像特征提取模型进行迁移训练,包括:根据值序列中每个值的大小,确定每个值各自对应的数值调整方式;按照每个值各自对应的数值调整方式,对值序列中每个值进行调整,得到数值调整的标注标签;基于训练样本集中每张训练样本各自对应的数值调整的标注标签,对初始图像特征提取模型进行迁移训练。
具体地,在对初始图像提取模型进行迁移训练时,可增加标注标签的平滑性,防止过拟合。也即,可通过标签平滑的方式来对标注标签进行处理。在传统的方案中,若具有四个分类,某一图像所对应的标注标签可为(1,0,0,0),其中,1代表图像属于某一个分类,比如,1代表该图像属于飞机;0代表图像不属于某一个分类,比如,该标注标签中的后三个0代表该图像不属于鸟、猫和狗。为了避免模型对于正确标签过于自信,使得预测正负样本的输出值差别不那么大,从而避免过拟合,提高模型的泛化能力,可在标注标签中随机增加一些噪声,比如,可将上述的标注标签变化为(0.85,0.05,0.05,0.05),从而通过变化后的标注标签来对初始图像提取模型进行迁移训练。
在其中一个实施例中,可通过下述公式来对标注标签中的数值增加噪声:当值序列中的数值为1时,则加入噪声后的数值变为α/K;当值序列中的数值为0时,则入噪声后的数值变为1-α;其中,α为超参数,例如为0.1;K为多张心理不适标签样本的数量,也即,为分类的数量。
上述实施例中,通过在标注标签中增加噪声,可基于增加噪声后的标注标签提高模型的泛化能力。
在其中一个实施例中,在调整图像处理模型的模型参数之后,上述方法还包括:获取测试样本集,并通过模型参数后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;当预测结果的准确度未满足预设高准确度条件时,对训练样本集中的样本标题和测试样本集中的测试标题进行高频分词统计处理,得到多个高频词汇;每个高频词汇,为在训练样本集和测试样本集中出现频次满足预设高频次条件的词汇;确定多个预设的图像获取源,并从多个图像获取源中获取多个高频词汇各自关联的图像,得到多张补充样本图像;基于训练样本集和多张补充样本图像,对模型参数后的图像处理模型再次进行训练。
具体地,在通过训练样本集对图像处理模型进行训练后,还可通过测试样本集对训练后的图像处理模型进行检验,以确定图像处理模型的准确率。比如,计算机设备可将测试样本集中的测试图像输入至图像处理模型中,通过图像处理模型输出预测结果。计算机设备可确定预测结果的准确度,比如,计算机设备可将预测结果与测试图像的标注标签进行一致性比较,得到与标注标签一致的预测结果的数量,并将该数量除以测试样本集中的测试样本的总数量,得到预测结果的准确度。计算机设备确定准确度是否满足预设高准确度条件,比如,计算机设备确定准确度是否大于或等于预设准确度阈值,若大于或等于预设准确度阈值,则确定预测结果的准确度满足预设高准确度条件。相应的,若小于预设准确度阈值,则确定不满足预设高准确度条件。
当预测结果不满足预设高准确度条件时,则计算机设备对训练样本集中的每个样本标题进行分词处理,得到多个分词,以及对测试样本集中的每个测试标题进行分词处理,得到多个分词。计算机设备将对各样本标题进行分词处理得到的多个分词和对测试标题进行分词处理得到的出个分词,共同存放至在一个集合中,得到分词集合。计算机设备对分词集合中的分词进行聚类,将相同分词归为一类,或者,将相同分词和相近语义的分词归为一类,以得到至少一个聚类簇。针对至少一个聚类簇中的每个聚类簇,计算机设备确定所针对的聚类簇中的分词的数量,并判断该数量是否大于或等于预设分词数量阈值。若大于或等于预设分词数量阈值,则确定所针对的聚类簇中的分词为高频词汇。
进一步地,当得到高频词汇时,计算机设备可确定预设的多个图像获取源,并从多个图像获取源中检索各高频词汇各自关联的图像,以得到多张补充样本图像。比如,在高频词汇为“皮肤”、“湿疹”、“过敏”时,计算机设备即可从各图像获取源中,获取标题包含“皮肤”的图像、获取标题包含“湿疹”的图像以及获取标题包含“过敏”的图像,并将获取得到的图像作为补充样本图像。
进一步地,可对各补充样本图像进行标签标注处理,得到各补充样本图像各自的标注标签,并获取各补充样本图像各自对应的样本标题,将各补充样本图像、各补充样本图像各自对应的标注标签和样本标题,共同作为补充样本集。计算机设备通过补充样本集合和训练样本集,对图像处理模型再次进行训练。
容易理解地,若再次训练后的图像处理模型输出的预测结果的准确度依旧未满足高准确度条件,则还可以按照上述方式再次获取补充样本图像,并通过补充样本图像再次对图像处理模型进行训练,直至训练后的图像处理模型输出的预测结果满足高准确度条件。
在其中一个实施例中,若随机获取训练样本图像,则从1000张图片中只能标注出4张心理不适图片,效率低下,消耗大量标注人力。因此本实施例构建了一套半自动化样本标注流程,通过构建多路召回丰富训练集,提高标注有效率。参考图12,通过对各标题进行高频分词统计处理,可确定高频词汇,从而通过高频词汇从各图像获取源中获取补充样本图像,进而基于补充样本图像对模型再次进行训练。图12示出了一个实施例中补充样本图像的确定示意图。
人工总结心理不适关键词以抓取图片存在费时费力、覆盖面不全的问题。因此我们统计已有标注图片中的标题词汇,通过计算频率得到高频词汇,这些高频词汇往往具有一定心理不适倾向性,之后利用图片抓取工具将这些高频词汇作为关键词,自动从多图像获取源(业务数据、网络爬取、开源数据集等)上抓取对应图片,弥补人工收集心理不合关键词的不足。通过多路筛选策略可以得到多维度多粒度且噪声较小的待标注图像,人工复标出的心理不适图片比例大约在20%,远高于自然分布下的随机标注(0.4%比例),有效地提高了标注效率。
在其中一个实施例中,参考图13,提供了一个具体实施例中图像处理方法的流程示意图:
步骤1302,确定训练样本集的大小和多个心理不适标签样本的标签数量;根据多个心理不适标签样本的标签数量,确定迁移训练任务的难度;获取初始图像特征提取模型,根据训练样本集的大小和迁移训练任务的难度,确定初始图像特征提取模型中的非冻结层;通过训练样本集对初始图像特征提取模型进行迁移训练,以调整初始图像特征提取模型中非冻结层的模型参数,得到迁移训练后的图像特征提取模型。
步骤1304,获取训练样本集,针对训练样本集中多张样本图像中的每张样本图像,通过迁训练后的图像特征提取模型对所针对的样本图像进行特征提取处理,得到预测图像特征,并通过标题特征提取模型对样本标题进行特征提取,得到预测标题特征,并对预测图像特征和预测标题特征进行融合,得到第一多模态预测特征。
步骤1306,获取标签样本关系特征,将第一多模态预测特征分别与标签样本关系特征中各样本信息特征进行融合,得到多个心理不适标签样本各自对应的第二多模态预测特征。
步骤1308,根据多个心理不适标签样本各自对应的第二多模态预测特征,确定多个心理不适标签样本中与针对的样本图像相匹配的预测标签样本,并根据预测标签样本和与所针对的样本图像相对应的标注标签之间的差异,调整图像处理模型的模型参数。
步骤1310,获取测试样本集,并通过模型参数后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;当预测结果的准确度未满足预设高准确度条件时,对训练样本集中的样本标题和测试样本集中的测试标题进行高频分词统计处理,得到多个高频词汇。
步骤1312,确定多个预设的图像获取源,并从多个图像获取源中获取多个高频词汇各自关联的图像,得到多张补充样本图像;基于训练样本集和多张补充样本图像,对模型参数后的图像处理模型再次进行训练,直至得到的训练好的图像处理模型。
步骤1314,获取待检测图像,并通过图像特征提取模型中的首个残差块对待检测图像进行特征提取处理,得到提取图像特征。
步骤1316,从首轮之后的第二轮次起的当前轮次中,确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块;通过当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;将前一个残差块输出的提取图像特征与中间图像特征进行叠加,得到当前残差块输出的提取图像特征。
步骤1318,将下一轮次作为当前轮次,并返回确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;根据最后一个轮次输出的提取图像特征,确定待检测图像的图像特征。
步骤1320,对于图像标题中的每一个句子,对当前句子的标识进行编码,得到与当前句子对应的段编码向量;对于当前句子中的每个分词,确定当前分词在当前句子中的位置信息,并对位置信息进行编码,得到与当前分词对应的位置编码向量;对当前分词进行词嵌入处理,得到与当前分词对应的词编码向量,并根据与当前句子对应的段编码向量、及与当前分词对应的位置编码向量和词编码向量,得到与当前分词对应的编码数据;根据图像标题中各分词各自对应的编码数据,确定图像标题的标题特征。
步骤1322,获取与图像特征对应的权重集和与标题特征对应的权重集;将与图像特征对应的权重集中的每个低秩权重张量,分别与图像特征进行融合,得到多个加权图像特征。
步骤1324,将与标题特征对应的权重集中的每个低秩权重张量,分别与标题特征进行融合,得到多个加权标题特征;对多个加权图像特征和多个加权标题特征进行融合,得到第一多模态特征。
步骤1326,获取标签关系特征,将第一多模态特征分别与标签关系特征中的各信息特征进行融合,得到多个心理不适标签各自对应的第二多模态特征。
步骤1328,根据多个心理不适标签各自对应的第二多模态特征,从多个心理不适标签中,确定与待检测图像相匹配的目标标签;目标标签用于标注出待检测图像中的心理不适信息。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供一种应用场景,该应用场景应用上述的图像处理方法。具体地,该图像处理方法在该应用场景的应用如下:
在用户将图像进行发布之前,比如,当用户需要将图像发布至社交平台之前,计算机设备可对待发布的图像进行审核。计算机设备可获取待发布的图像,并将待发布的图像输入至图像处理模型中,通过图像处理模型输出与待发布的图像相匹配的目标标签,该目标标签可标注出待发布的图像中的心理不适信息。计算机设备将目标标签是否为预设不适标签,若为预设不适标签,则告知用户其待发布的图像可能会造成观看者心理不适,因此,暂停将待发布图像发布至社交平台。预设不适标签可为预先设定的一些关键词。比如,可设置预设不适标签为“密集恐惧”、“青春痘”等,从而当确定的目标标签为“青春痘”时,认为该待发布的图像可能会造成观看者心理不适,从而暂停将待发布图像发布至社交平台。
本申请还另外提供一种应用场景,该应用场景应用上述的图像处理方法。具体地,该图像处理方法在该应用场景的应用如下:
在将视频发布之前,可对视频进行审核,以确定视频中是否包含有可能会造成观看者心理不适的视频帧。当需要对视频进行审核时,计算机设备可将视频中的各视频帧输入至图像处理模型,以通过图像处理模型确定各视频帧各自对应的目标标签,从而基于各视频帧各自对应的目标标签,确定视频中是否包含有可能会造成观看者心理不适的视频帧。比如,当具有“青春痘”标签的视频帧时,则可认为视频中包含有可能会造成观看者心理不适的视频帧。
上述应用场景仅为示意性的说明,可以理解,本申请各实施例所提供的图像处理方法的应用不局限于上述场景。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像处理方法的图像处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像处理装置实施例中的具体限定可以参见上文中对于图像处理方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种图像处理装置1400,包括:第一多模态特征确定模块1402、第二多模态特征确定模块1404和心理不适信息确定模块1406,其中:
第一多模态特征确定模块1402,用于获取待检测图像和待检测图像的图像标题,并对待检测图像和图像标题分别进行特征提取处理,得到图像特征和标题特征;对图像特征和标题特征进行融合,得到第一多模态特征;
第二多模态特征确定模块1404,用于获取标签关系特征;标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;多个心理不适标签表征心理不适类别下的多个细分类别;针对每个心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括标签关系图中与所针对心理不适标签相连接心理不适标签的标签信息;将第一多模态特征分别与标签关系特征中的各信息特征进行融合,得到多个心理不适标签各自对应的第二多模态特征;
心理不适信息确定模块1406,用于根据多个心理不适标签各自对应的第二多模态特征,从多个心理不适标签中,确定与待检测图像相匹配的目标标签;目标标签用于标注出待检测图像中的心理不适信息。
在其中一个实施例中,图像处理装置1400还包括标签关系特征确定模块,用于获取标签关系图;标签关系图包括多个心理不适标签,且具有直接关联关系的心理不适标签之间通过连线连接;根据标签关系图构建邻接矩阵和编码数据矩阵;编码数据矩阵包括多个心理不适标签各自对应的编码数据;邻接矩阵用于表征多个心理不适标签之间的连接关系;将邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵;从首轮之后的第二轮次起的当前轮次中,将前一轮次输出的数据融合矩阵与邻接矩阵进行融合,得到当前轮次输出的数据融合矩阵;将下一轮次作为当前轮次,并返回至将前一轮次输出的数据融合矩阵与邻接矩阵进行融合的步骤继续执行,直至达到第一预设停止条件时停止;根据最后一个轮次输出的数据融合矩阵,确定标签关系特征。
在其中一个实施例中,编码数据矩阵中的每个编码矩阵行与心理不适标签一一对应,邻接矩阵中的各邻接矩阵行与心理不适标签一一对应;在编码数据矩阵和邻接矩阵中,相同行的编码矩阵行和邻接矩阵行所对应的心理不适标签相同;标签关系特征确定模块还用于将邻接矩阵与编码数据矩阵相乘,得到相乘矩阵,并将相乘矩阵与编码数据矩阵相叠加,得到叠加矩阵;对叠加矩阵进行归一化处理,得到首个轮次的数据融合矩阵。
在其中一个实施例中,第一多模态特征确定模块1402还用于通过图像特征提取模型中的首个残差块对待检测图像进行特征提取处理,得到提取图像特征;从首轮之后的第二轮次起的当前轮次中,确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块;通过当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;将前一个残差块输出的提取图像特征与中间图像特征进行叠加,得到当前残差块输出的提取图像特征;将下一轮次作为当前轮次,并返回确定图像特征提取模型中除首个残差块之外的与当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;根据最后一个轮次输出的提取图像特征,确定待检测图像的图像特征。
在其中一个实施例中,第一多模态特征确定模块1402还用于对于图像标题中的每一个句子,对当前句子的标识进行编码,得到与当前句子对应的段编码向量;对于当前句子中的每个分词,确定当前分词在当前句子中的位置信息,并对位置信息进行编码,得到与当前分词对应的位置编码向量;对当前分词进行词嵌入处理,得到与当前分词对应的词编码向量,并根据与当前句子对应的段编码向量、及与当前分词对应的位置编码向量和词编码向量,得到与当前分词对应的编码数据;根据图像标题中各分词各自对应的编码数据,确定图像标题的标题特征。
在其中一个实施例中,第一多模态特征确定模块1402还用于获取与图像特征对应的权重集和与标题特征对应的权重集;每个权重集为对相应预设权重张量进行低秩分解得到的低秩权重张量的集合;将与图像特征对应的权重集中的每个低秩权重张量,分别与图像特征进行融合,得到多个加权图像特征;将与标题特征对应的权重集中的每个低秩权重张量,分别与标题特征进行融合,得到多个加权标题特征;对多个加权图像特征和多个加权标题特征进行融合,得到第一多模态特征。
在其中一个实施例中,第一多模态特征确定模块1402还用于获取与图像特征对应的预设权重张量; 确定与图像特征对应的预设权重张量的秩;与图像特征对应的预设权重张量的秩,表征与图像特征对应的预设权重张量的维数;将与图像特征对应的预设权重张量分解为多个秩为1的低秩权重张量;分解得到的低秩权重张量的数量,与图像特征所对应的预设权重张量的秩相同。
在其中一个实施例中,图像处理装置1400还包括训练模块,训练模块用于获取训练样本集;训练样本集包括多张样本图像、多张样本图像各自对应的样本标题和标注标签;针对多张样本图像中的每张样本图像,对所针对的样本图像和相应样本标题分别进行特征提取处理,得到预测图像特征和预测标题特征;对预测图像特征和预测标题特征进行融合,得到第一多模态预测特征;获取标签样本关系特征;标签样本关系特征,包括标签关系样本图中多个心理不适标签样本各自对应的样本信息特征;针对每个心理不适标签样本,所针对心理不适标签样本的样本信息特征,包括所针对心理不适标签样本的标签信息,还包括标签关系样本图中与所针对心理不适标签样本相连接的心理不适标签样本的标签信息;将第一多模态预测特征分别与标签样本关系特征中各样本信息特征进行融合,得到多个心理不适标签样本各自对应的第二多模态预测特征;根据多个心理不适标签样本各自对应的第二多模态预测特征,确定多个心理不适标签样本中与针对的样本图像相匹配的预测标签样本,并根据预测标签样本和与所针对的样本图像相对应的标注标签之间的差异,调整图像处理模型的模型参数。
在其中一个实施例中,图像处理模型包括图像特征提取模型;训练模块还用于确定训练样本集的大小和多个心理不适标签样本的标签数量;根据多个心理不适标签样本的标签数量,确定迁移训练任务的难度;获取初始图像特征提取模型,根据训练样本集的大小和迁移训练任务的难度,确定初始图像特征提取模型中的非冻结层;通过训练样本集对初始图像特征提取模型进行迁移训练,以调整初始图像特征提取模型中非冻结层的模型参数,得到迁移训练后的图像特征提取模型;其中,迁移训练后的图像特征提取模型,用于对训练样本集中的样本图像进行特征提取。
在其中一个实施例中,训练模块还用于对训练样本集中的每张样本图像分别进行尺寸调整处理,得到相同尺寸的多张样本图像;对相同尺寸的多张样本图像分别进行随机裁剪处理,得到多张裁剪图像;通过多张裁剪图像对初始图像特征提取模型进行迁移训练。
在其中一个实施例中,训练模块还用于针对训练样本集中的每张训练样本,确定所针对的训练样本的标注标签;所针对的训练样本的标注标签为值序列的形式;值序列中的每个值对应于一个心理不适标签样本,且表征所针对的训练样本是否与对应的心理不适标签样本相匹配;根据值序列中每个值的大小,确定每个值各自对应的数值调整方式;按照每个值各自对应的数值调整方式,对值序列中每个值进行调整,得到数值调整的标注标签;基于训练样本集中每张训练样本各自对应的数值调整的标注标签,对初始图像特征提取模型进行迁移训练。
在其中一个实施例中,训练模块还用于获取测试样本集,并通过模型参数后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;当预测结果的准确度未满足预设高准确度条件时,对训练样本集中的样本标题和测试样本集中的测试标题进行高频分词统计处理,得到多个高频词汇;每个高频词汇,为在训练样本集和测试样本集中出现频次满足预设高频次条件的词汇;确定多个预设的图像获取源,并从多个图像获取源中获取多个高频词汇各自关联的图像,得到多张补充样本图像;基于训练样本集和多张补充样本图像,对模型参数后的图像处理模型再次进行训练。
上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像处理数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (22)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待检测图像和所述待检测图像的图像标题,并对所述待检测图像和所述图像标题分别进行特征提取处理,得到图像特征和标题特征;
对所述图像特征和所述标题特征进行融合,得到第一多模态特征;
获取标签关系特征;所述标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;所述多个心理不适标签表征心理不适类别下的多个细分类别;针对每个所述心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括所述标签关系图中与所述所针对心理不适标签相连接心理不适标签的标签信息;
将所述第一多模态特征分别与所述标签关系特征中的各信息特征进行融合,得到所述多个心理不适标签各自对应的第二多模态特征;
根据所述多个心理不适标签各自对应的第二多模态特征,从所述多个心理不适标签中,确定与所述待检测图像相匹配的目标标签;所述目标标签用于标注出所述待检测图像中的心理不适信息;
所述目标标签是通过图像处理模型输出得到;所述图像处理模型的训练步骤包括:
获取初始图像特征提取模型,根据训练样本集的大小和迁移训练任务的难度,确定所述初始图像特征提取模型中的非冻结层;所述迁移训练任务的难度,是根据多个心理不适标签样本的标签数量确定得到的;
通过所述训练样本集对所述初始图像特征提取模型进行迁移训练,以调整所述初始图像特征提取模型中非冻结层的模型参数,得到迁移训练的图像特征提取模型;所述迁移训练的图像特征提取模型用以对样本图像进行特征提取;
通过训练样本集对包括所述迁移训练的图像特征提取模型的图像处理模型进行训练,并通过训练后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;
当所述预测结果的准确度未满足预设高准确度条件时,对所述训练样本集中的样本标题和所述测试样本集中的测试标题进行高频分词统计处理,得到多个出现频次满足预设高频次条件的高频词汇;
确定多个预设的图像获取源,并从多个图像获取源中获取多个高频词汇各自关联的图像,得到多张补充样本图像;
基于所述训练样本集和多张补充样本图像,对模型参数后的图像处理模型再次进行训练,并返回通过训练后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测的步骤继续执行,直至预测结果的准确度满足预设高准确度条件为止,以得到训练好的图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述标签关系图包括多个心理不适标签,且具有关联关系的心理不适标签之间通过连线连接;
获取标签关系图,并根据所述标签关系图构建邻接矩阵和编码数据矩阵;所述编码数据矩阵包括所述多个心理不适标签各自对应的编码数据;所述邻接矩阵用于表征所述多个心理不适标签之间的连接关系;
将所述邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵;
从首轮之后的第二轮次起的当前轮次中,将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合,得到当前轮次输出的数据融合矩阵;
将下一轮次作为当前轮次,并返回至将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合的步骤继续执行,直至达到第一预设停止条件时停止;
根据最后一个轮次输出的数据融合矩阵,确定标签关系特征。
3.根据权利要求2所述的方法,其特征在于,所述编码数据矩阵中的编码矩阵行与心理不适标签一一对应,所述邻接矩阵中的邻接矩阵行与心理不适标签一一对应;在所述编码数据矩阵和所述邻接矩阵中,相同行数的编码矩阵行和邻接矩阵行所对应的心理不适标签相同;
所述将所述邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵,包括:
将所述邻接矩阵与所述编码数据矩阵进行矩阵相乘,得到相乘矩阵;
将所述相乘矩阵与所述编码数据矩阵相叠加,得到叠加矩阵;
对所述叠加矩阵进行归一化处理,得到首个轮次的数据融合矩阵。
4.根据权利要求1所述的方法,其特征在于,所述待检测图像的特征提取步骤包括:
确定图像特征提取模型;所述图像特征提取模型包括多个串联的残差块;
通过所述图像特征提取模型中的首个残差块对所述待检测图像进行特征提取处理,得到提取图像特征;
从首轮之后的第二轮次起的当前轮次中,确定所述图像特征提取模型中与所述当前轮次相对应的当前残差块;
通过所述当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;
将所述前一个残差块输出的提取图像特征与所述中间图像特征进行叠加,得到所述当前残差块输出的提取图像特征;
将下一轮次作为当前轮次,返回确定所述图像特征提取模型中与所述当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;
根据最后一个轮次输出的提取图像特征,确定所述待检测图像的图像特征。
5.根据权利要求1所述的方法,其特征在于,所述图像标题的特征提取步骤包括:
对于所述图像标题中的每一个句子,对当前句子的标识进行编码,得到与所述当前句子对应的段编码向量;
对于所述当前句子中的每个分词,确定当前分词在所述当前句子中的位置信息,并对所述位置信息进行编码,得到与所述当前分词对应的位置编码向量;
对所述当前分词进行词嵌入处理,得到与所述当前分词对应的词编码向量,并根据与所述当前句子对应的段编码向量、及与所述当前分词对应的位置编码向量和词编码向量,得到与所述当前分词对应的编码数据;
根据所述图像标题中各分词各自对应的编码数据,确定所述图像标题的标题特征。
6.根据权利要求1所述的方法,其特征在于,所述对所述图像特征和所述标题特征进行融合,得到第一多模态特征,包括:
获取与所述图像特征对应的权重集和与所述标题特征对应的权重集;每个所述权重集为对相应预设权重张量进行低秩分解得到的低秩权重张量的集合;
将与所述图像特征对应的权重集中的每个低秩权重张量,分别与所述图像特征进行融合,得到多个加权图像特征;
将与所述标题特征对应的权重集中的每个低秩权重张量,分别与所述标题特征进行融合,得到多个加权标题特征;
对所述多个加权图像特征和所述多个加权标题特征进行融合,得到第一多模态特征。
7.根据权利要求6所述的方法,其特征在于,所述与所述图像特征对应的权重集的获取步骤包括:
获取与所述图像特征对应的预设权重张量;
确定与所述图像特征对应的预设权重张量的秩;所述与所述图像特征对应的预设权重张量的秩,表征与所述图像特征对应的预设权重张量的维数;
将与所述图像特征对应的预设权重张量分解为多个秩为1的低秩权重张量;分解得到的低秩权重张量的数量,与所述图像特征所对应的预设权重张量的秩相同。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述通过训练样本集对包括所述迁移训练的图像特征提取模型的图像处理模型进行训练,包括:
获取训练样本集;所述训练样本集包括多张样本图像、所述多张样本图像各自对应的样本标题和标注标签;
针对所述多张样本图像中的每张样本图像,对所针对的样本图像和相应样本标题分别进行特征提取处理,得到预测图像特征和预测标题特征;
对所述预测图像特征和预测标题特征进行融合,得到第一多模态预测特征;
获取标签样本关系特征;所述标签样本关系特征,包括标签关系样本图中多个心理不适标签样本各自对应的样本信息特征;针对每个所述心理不适标签样本,所针对心理不适标签样本的样本信息特征,包括所针对心理不适标签样本的标签信息,还包括所述标签关系样本图中与所述所针对心理不适标签样本相连接的心理不适标签样本的标签信息;
将所述第一多模态预测特征分别与所述标签样本关系特征中各样本信息特征进行融合,得到所述多个心理不适标签样本各自对应的第二多模态预测特征;
根据所述多个心理不适标签样本各自对应的第二多模态预测特征,确定所述多个心理不适标签样本中与所述针对的样本图像相匹配的预测标签样本,并根据所述预测标签样本和与所述所针对的样本图像相对应的标注标签之间的差异,调整包括所述迁移训练的图像特征提取模型的图像处理模型的模型参数。
9.根据权利要求1所述的方法,其特征在于,所述通过所述训练样本集对所述初始图像特征提取模型进行迁移训练,包括:
对所述训练样本集中的每张样本图像分别进行尺寸调整处理,得到相同尺寸的多张样本图像;
对相同尺寸的多张样本图像分别进行随机裁剪处理,得到多张裁剪图像;
通过所述多张裁剪图像对所述初始图像特征提取模型进行迁移训练。
10.根据权利要求1所述的方法,其特征在于,所述通过所述训练样本集对所述初始图像特征提取模型进行迁移训练,包括:
针对所述训练样本集中的每张样本图像,确定所针对的样本图像的标注标签;所述所针对的样本图像的标注标签为值序列的形式;所述值序列中的每个值分别对应于一个心理不适标签样本,且表征所述所针对的样本图像是否与对应的心理不适标签样本相匹配;
根据所述值序列中每个值的大小,确定每个值各自对应的数值调整方式;
按照每个值各自对应的数值调整方式,对所述值序列中每个值进行调整,得到数值调整的标注标签;
基于所述训练样本集中每张样本图像各自对应的数值调整的标注标签,对所述初始图像特征提取模型进行迁移训练。
11.一种图像处理装置,其特征在于,所述装置包括:
第一多模态特征确定模块,用于获取待检测图像和所述待检测图像的图像标题,并对所述待检测图像和所述图像标题分别进行特征提取处理,得到图像特征和标题特征;对所述图像特征和所述标题特征进行融合,得到第一多模态特征;
第二多模态特征确定模块,用于获取标签关系特征;所述标签关系特征,包括预设的标签关系图中多个心理不适标签各自对应的信息特征;所述多个心理不适标签表征心理不适类别下的多个细分类别;针对每个所述心理不适标签,所针对心理不适标签的信息特征,包括所针对心理不适标签的标签信息,还包括所述标签关系图中与所述所针对心理不适标签相连接心理不适标签的标签信息;将所述第一多模态特征分别与所述标签关系特征中的各信息特征进行融合,得到所述多个心理不适标签各自对应的第二多模态特征;
心理不适信息确定模块,用于根据所述多个心理不适标签各自对应的第二多模态特征,从所述多个心理不适标签中,确定与所述待检测图像相匹配的目标标签;所述目标标签用于标注出所述待检测图像中的心理不适信息;
训练模块,用于获取初始图像特征提取模型,根据训练样本集的大小和迁移训练任务的难度,确定所述初始图像特征提取模型中的非冻结层;所述迁移训练任务的难度,是根据多个心理不适标签样本的标签数量确定得到的;通过所述训练样本集对所述初始图像特征提取模型进行迁移训练,以调整所述初始图像特征提取模型中非冻结层的模型参数,得到迁移训练的图像特征提取模型;所述迁移训练的图像特征提取模型用以对样本图像进行特征提取;通过训练样本集对包括所述迁移训练的图像特征提取模型的图像处理模型进行训练,并通过训练后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测,得到预测结果;当所述预测结果的准确度未满足预设高准确度条件时,对所述训练样本集中的样本标题和所述测试样本集中的测试标题进行高频分词统计处理,得到多个出现频次满足预设高频次条件的高频词汇;确定多个预设的图像获取源,并从多个图像获取源中获取多个高频词汇各自关联的图像,得到多张补充样本图像;基于所述训练样本集和多张补充样本图像,对模型参数后的图像处理模型再次进行训练,并返回通过训练后的图像处理模型对测试样本集中的测试图像进行心理不适标签的预测的步骤继续执行,直至预测结果的准确度满足预设高准确度条件为止,以得到训练好的图像处理模型;所述训练好的图像处理模型用于输出目标标签。
12.根据权利要求11所述的装置,其特征在于,所述标签关系图包括多个心理不适标签,且具有关联关系的心理不适标签之间通过连线连接;所述图像处理装置还包括标签关系特征确定模块,用于获取标签关系图,并根据所述标签关系图构建邻接矩阵和编码数据矩阵;所述编码数据矩阵包括所述多个心理不适标签各自对应的编码数据;所述邻接矩阵用于表征所述多个心理不适标签之间的连接关系;将所述邻接矩阵与编码数据矩阵进行融合,得到首个轮次的数据融合矩阵;从首轮之后的第二轮次起的当前轮次中,将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合,得到当前轮次输出的数据融合矩阵;将下一轮次作为当前轮次,并返回至将前一轮次输出的数据融合矩阵与所述邻接矩阵进行融合的步骤继续执行,直至达到第一预设停止条件时停止;根据最后一个轮次输出的数据融合矩阵,确定标签关系特征。
13.根据权利要求12所述的装置,其特征在于,所述编码数据矩阵中的编码矩阵行与心理不适标签一一对应,所述邻接矩阵中的邻接矩阵行与心理不适标签一一对应;在所述编码数据矩阵和所述邻接矩阵中,相同行数的编码矩阵行和邻接矩阵行所对应的心理不适标签相同;所述标签关系特征确定模块还用于将所述邻接矩阵与所述编码数据矩阵相乘,得到相乘矩阵,并将所述相乘矩阵与所述编码数据矩阵相叠加,得到叠加矩阵;对所述叠加矩阵进行归一化处理,得到首个轮次的数据融合矩阵。
14.根据权利要求11所述的装置,其特征在于,所述第一多模态特征确定模块还用于通过图像特征提取模型中的首个残差块对所述待检测图像进行特征提取处理,得到提取图像特征;从首轮之后的第二轮次起的当前轮次中,确定所述图像特征提取模型中除首个残差块之外的与所述当前轮次相对应的当前残差块;通过所述当前残差块对前一个残差块输出的提取图像特征进行特征提取处理,得到中间图像特征;将所述前一个残差块输出的提取图像特征与所述中间图像特征进行叠加,得到所述当前残差块输出的提取图像特征;将下一轮次作为当前轮次,并返回确定所述图像特征提取模型中除首个残差块之外的与所述当前轮次相对应的当前残差块的步骤继续执行,直至达到第二预设停止条件时停止;根据最后一个轮次输出的提取图像特征,确定所述待检测图像的图像特征。
15.根据权利要求11所述的装置,其特征在于,所述第一多模态特征确定模块还用于对于所述图像标题中的每一个句子,对当前句子的标识进行编码,得到与所述当前句子对应的段编码向量;对于所述当前句子中的每个分词,确定当前分词在所述当前句子中的位置信息,并对所述位置信息进行编码,得到与所述当前分词对应的位置编码向量;对所述当前分词进行词嵌入处理,得到与所述当前分词对应的词编码向量,并根据与所述当前句子对应的段编码向量、及与所述当前分词对应的位置编码向量和词编码向量,得到与所述当前分词对应的编码数据;根据所述图像标题中各分词各自对应的编码数据,确定所述图像标题的标题特征。
16.根据权利要求11所述的装置,其特征在于,所述第一多模态特征确定模块还用于获取与所述图像特征对应的权重集和与所述标题特征对应的权重集;每个所述权重集为对相应预设权重张量进行低秩分解得到的低秩权重张量的集合;将与所述图像特征对应的权重集中的每个低秩权重张量,分别与所述图像特征进行融合,得到多个加权图像特征;将与所述标题特征对应的权重集中的每个低秩权重张量,分别与所述标题特征进行融合,得到多个加权标题特征;对所述多个加权图像特征和所述多个加权标题特征进行融合,得到第一多模态特征。
17.根据权利要求16所述的装置,其特征在于,所述第一多模态特征确定模块还用于获取与所述图像特征对应的预设权重张量; 确定与所述图像特征对应的预设权重张量的秩;所述与所述图像特征对应的预设权重张量的秩,表征与所述图像特征对应的预设权重张量的维数;将与所述图像特征对应的预设权重张量分解为多个秩为1的低秩权重张量;分解得到的低秩权重张量的数量,与所述图像特征所对应的预设权重张量的秩相同。
18.根据权利要求11所述的装置,其特征在于,所述图像处理装置还包括训练模块,所述训练模块用于获取训练样本集;所述训练样本集包括多张样本图像、所述多张样本图像各自对应的样本标题和标注标签;针对所述多张样本图像中的每张样本图像,对所针对的样本图像和相应样本标题分别进行特征提取处理,得到预测图像特征和预测标题特征;对所述预测图像特征和预测标题特征进行融合,得到第一多模态预测特征;获取标签样本关系特征;所述标签样本关系特征,包括标签关系样本图中多个心理不适标签样本各自对应的样本信息特征;针对每个所述心理不适标签样本,所针对心理不适标签样本的样本信息特征,包括所针对心理不适标签样本的标签信息,还包括所述标签关系样本图中与所述所针对心理不适标签样本相连接的心理不适标签样本的标签信息;将所述第一多模态预测特征分别与所述标签样本关系特征中各样本信息特征进行融合,得到所述多个心理不适标签样本各自对应的第二多模态预测特征;根据所述多个心理不适标签样本各自对应的第二多模态预测特征,确定所述多个心理不适标签样本中与所述针对的样本图像相匹配的预测标签样本,并根据所述预测标签样本和与所述所针对的样本图像相对应的标注标签之间的差异,调整包括所述迁移训练的图像特征提取模型的图像处理模型的模型参数。
19.根据权利要求11所述的装置,其特征在于,所述训练模块还用于对所述训练样本集中的每张样本图像分别进行尺寸调整处理,得到相同尺寸的多张样本图像;对相同尺寸的多张样本图像分别进行随机裁剪处理,得到多张裁剪图像;通过所述多张裁剪图像对所述初始图像特征提取模型进行迁移训练。
20.根据权利要求11所述的装置,其特征在于,所述训练模块还用于针对所述训练样本集中的每张样本图像,确定所针对的样本图像的标注标签;所述所针对的样本图像的标注标签为值序列的形式;所述值序列中的每个值对应于一个心理不适标签样本,且表征所针对的训练样本是否与对应的心理不适标签样本相匹配;根据所述值序列中每个值的大小,确定每个值各自对应的数值调整方式;按照每个值各自对应的数值调整方式,对所述值序列中每个值进行调整,得到数值调整的标注标签;基于所述训练样本集中每张样本图像各自对应的数值调整的标注标签,对所述初始图像特征提取模型进行迁移训练。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311093875.6A CN116842479B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311093875.6A CN116842479B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116842479A CN116842479A (zh) | 2023-10-03 |
CN116842479B true CN116842479B (zh) | 2023-12-12 |
Family
ID=88163812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311093875.6A Active CN116842479B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842479B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109120395A (zh) * | 2018-06-08 | 2019-01-01 | 中国银联股份有限公司 | 标签数据生成方法、标签及基于nfc标签的数据处理 |
CN111210024A (zh) * | 2020-01-14 | 2020-05-29 | 深圳供电局有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN112487207A (zh) * | 2020-12-09 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像的多标签分类方法、装置、计算机设备及存储介质 |
CN112883731A (zh) * | 2021-04-29 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 内容分类方法和装置 |
CN113392236A (zh) * | 2021-01-04 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据分类方法、计算机设备及可读存储介质 |
CN113627447A (zh) * | 2021-10-13 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 标签识别方法、装置、计算机设备、存储介质及程序产品 |
CN113707214A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 代谢物标记方法、装置、计算机设备及存储介质 |
CN114398973A (zh) * | 2022-01-07 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容标签识别方法、装置、设备及存储介质 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
CN116383401A (zh) * | 2023-03-09 | 2023-07-04 | 大连理工大学 | 一种融合文本描述与图卷积机制的知识图谱补全方法 |
CN116433936A (zh) * | 2023-03-17 | 2023-07-14 | 上海识装信息科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN116578688A (zh) * | 2023-05-31 | 2023-08-11 | 平安科技(深圳)有限公司 | 基于多轮问答的文本处理方法、装置、设备及存储介质 |
-
2023
- 2023-08-29 CN CN202311093875.6A patent/CN116842479B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109120395A (zh) * | 2018-06-08 | 2019-01-01 | 中国银联股份有限公司 | 标签数据生成方法、标签及基于nfc标签的数据处理 |
CN111210024A (zh) * | 2020-01-14 | 2020-05-29 | 深圳供电局有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN112487207A (zh) * | 2020-12-09 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像的多标签分类方法、装置、计算机设备及存储介质 |
CN113392236A (zh) * | 2021-01-04 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据分类方法、计算机设备及可读存储介质 |
CN112883731A (zh) * | 2021-04-29 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 内容分类方法和装置 |
CN113707214A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 代谢物标记方法、装置、计算机设备及存储介质 |
CN113627447A (zh) * | 2021-10-13 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 标签识别方法、装置、计算机设备、存储介质及程序产品 |
CN114398973A (zh) * | 2022-01-07 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容标签识别方法、装置、设备及存储介质 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
CN116383401A (zh) * | 2023-03-09 | 2023-07-04 | 大连理工大学 | 一种融合文本描述与图卷积机制的知识图谱补全方法 |
CN116433936A (zh) * | 2023-03-17 | 2023-07-14 | 上海识装信息科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN116578688A (zh) * | 2023-05-31 | 2023-08-11 | 平安科技(深圳)有限公司 | 基于多轮问答的文本处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116842479A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
US10650245B2 (en) | Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks | |
Han et al. | Scene classification based on a hierarchical convolutional sparse auto-encoder for high spatial resolution imagery | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN112487207A (zh) | 图像的多标签分类方法、装置、计算机设备及存储介质 | |
US20220391433A1 (en) | Scene graph embeddings using relative similarity supervision | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN113762138A (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN113591529A (zh) | 动作分割模型的处理方法、装置、计算机设备和存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN114627282A (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN116933854A (zh) | 图像生成模型的处理方法、装置、设备和存储介质 | |
CN116842479B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
US20220383031A1 (en) | Decompositional learning for color attribute prediction | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
Yan et al. | Semantic-aware multi-task learning for image aesthetic quality assessment | |
Yin et al. | Perceptually learning multi-view sparse representation for scene categorization | |
CN115909390B (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 | |
CN114936327B (zh) | 元素识别模型的获取方法、装置、计算机设备和存储介质 | |
CN109408706B (zh) | 一种图像过滤方法 | |
Sarangi et al. | Automatic Image Annotation Using Convex Deep Learning Models. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |