CN115565038A - 内容审核、内容审核模型的训练方法及相关装置 - Google Patents

内容审核、内容审核模型的训练方法及相关装置 Download PDF

Info

Publication number
CN115565038A
CN115565038A CN202211138260.6A CN202211138260A CN115565038A CN 115565038 A CN115565038 A CN 115565038A CN 202211138260 A CN202211138260 A CN 202211138260A CN 115565038 A CN115565038 A CN 115565038A
Authority
CN
China
Prior art keywords
image
text
encoder
content
adapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211138260.6A
Other languages
English (en)
Inventor
陈德健
项伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wangxing Information Technology Co Ltd
Original Assignee
Guangzhou Wangxing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wangxing Information Technology Co Ltd filed Critical Guangzhou Wangxing Information Technology Co Ltd
Priority to CN202211138260.6A priority Critical patent/CN115565038A/zh
Publication of CN115565038A publication Critical patent/CN115565038A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种内容审核、内容审核模型的训练方法及相关装置,该内容审核方法包括:加载预设的内容审核模型,内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;将待内容审核的图像数据输入图像编码器中提取第一图像特征;将第一图像特征输入图像适配器中映射至目标空间、得到第二图像特征;将表征内容审核中类别的文本信息输入文本编码器中提取第一文本特征;将第一文本特征输入文本适配器中映射至目标空间、得到第二文本特征;将第二图像特征与第二文本特征进行比较,以对图像数据生成审核结果。本实施例中使用多模态进行内容审核,迭代更新内容审核模型的样本量大大降低,扩展性强,提高了内容审核的响应速度。

Description

内容审核、内容审核模型的训练方法及相关装置
技术领域
本申请涉及内容审核的技术领域,尤其涉及一种内容审核、内容审核模型的训练方法及相关装置。
背景技术
随着互联网的技术发展,各种视觉内的内容应用于各个互联网产品中,如直播、短视频等,针对视觉类的内容审核是否符合规范是互联网产品中的一部分,有利于建设良好的产品生态环境,视觉类的内容审核系统能够减少内容审核的人力成本、减少违规内容的曝光频率。
目前,视觉类的内容审核主要是基于图像单模态的神经网络,针对特定的类别,收集大量违规的图像数据(正样本)与非违规的图像数据(负样本)训练神经网络进行分类。
但是,基于图像单模态的神经网络调整难度较大,如果审核的规则发生变化,则要求对训练的图像数据重新清洗、迭代周期长;并且,基于图像单模态的神经网络扩展性较低,新增类别要重新收集大量违规的图像数据,重训迭代神经网络,代价较高。
发明内容
本申请提供了一种内容审核、内容审核模型的训练方法及相关装置,以解决视觉类的内容审核调整难度较大、扩展性较低的问题。
根据本申请的一方面,提供了一种内容审核方法,包括:
加载预设的内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;
将待内容审核的图像数据输入所述图像编码器中提取第一图像特征;
将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
将表征内容审核中类别的文本信息输入所述文本编码器中提取第一文本特征;
将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果。
根据本申请的另一方面,提供了一种内容审核模型的训练方法,包括:
确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特映射映射至所述目标空间、得到第二文本特征;
以对抗与分类的方式将所述图像编码器训练至适配内容审核;
若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
根据本申请的另一方面,提供了一种内容审核装置,包括:
内容审核模型加载模块,用于加载预设的内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;
第一图像特征提取模块,用于将待内容审核的图像数据输入所述图像编码器中提取第一图像特征;
第二图像特映射模块,用于将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
第一文本特征提取模块,用于将表征内容审核中类别的文本信息输入所述文本编码器中提取第一文本特征;
第二文本特映射模块,用于将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
审核结果生成模块,用于将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果。
根据本申请的另一方面,提供了一种内容审核模型的训练装置,包括:
内容审核模型确定模块,用于确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特映射映射至所述目标空间、得到第二文本特征;
编码器训练模块,用于以对抗与分类的方式将所述图像编码器训练至适配内容审核;
适配器训练模块,用于若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的内容审核方法或者内容审核模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本申请任一实施例所述的内容审核方法或者内容审核模型的训练方法。
根据本申请的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本申请任一实施例所述的内容审核方法或者内容审核模型的训练方法。
在本实施例中,加载预设的内容审核模型,内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;将待内容审核的图像数据输入图像编码器中提取第一图像特征;将第一图像特征输入图像适配器中映射至目标空间、得到第二图像特征;将表征内容审核中类别的文本信息输入文本编码器中提取第一文本特征;将第一文本特征输入文本适配器中映射至目标空间、得到第二文本特征;将第二图像特征与第二文本特征进行比较,以对图像数据生成审核结果。本实施例将内容审核模型拆分为两部分,第一部分为泛化行要求更高的图像编码器、文本编辑器,第二部分为适配性要求更高的图像适配器与文本适配器,分阶段实现内容审核网络的泛化性与适配性,可以保证内容审核网络的性能。此外,本实施例中使用图像数据、文本信息的多模态进行内容审核,可以充分利用语言文字之间的内在关联,有更强的泛化性、推理性,在确保内容审核的准确率的情况下,迭代更新内容审核模型的样本量从几十万、几百万降低至几十、几百,样本量大大降低,方便采集到足够的样本,在审核规则的变化、新增的违规的类别时,可以快速采集样本迭代更新内容审核模型,扩展性强,提高了内容审核的响应速度。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例一提供的一种内容审核模型的训练方法的流程图;
图2是根据本申请实施例一提供的一种训练图像编码器的架构图;
图3是根据本申请实施例一提供的一种训练图像适配器与文本适配器的架构图;
图4是根据本申请实施例二提供的一种内容审核方法的流程图;
图5是根据本申请实施例二提供的一种内容审核模型的架构图;
图6是根据本申请实施例三提供的一种内容审核模型的训练装置的结构示意图;
图7是根据本申请实施例四提供的一种内容审核装置的结构示意图;
图8是实现本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本申请实施例一提供的一种内容审核模型的训练方法的流程图,本实施例可适用于训练图文多模态的内容审核模型的情况,该方法可以由内容审核模型的训练装置来执行,该内容审核模型的训练装置可以采用硬件和/ 或软件的形式实现,该内容审核模型的训练装置可配置于电子设备中,例如,服务器、刀片式服务器、大型计算机和其它适合的计算机。如图1所示,该方法包括:
步骤101、确定内容审核模型。
在本实施例中,可以预先构建基于图文多模态的内容审核模型,即,针对视觉类的内容,内容审核模型可检测该视觉类的内容是否符合规范。
在实际应用中,业务系统已经上线一套机审流程,累积一定量级的、与业务相关的违规的图像数据,业务系统中有审核人力在维持审核规则,每个审核规则有一定量(如几十到几百个)违规的类别(名称)、图例、图例描述,这些数据可用于训练内容审核模型。
进一步而言,如图2、图3所示,内容审核模型包括图像编码器G、图像适配器H、文本编码器T与文本适配器S。
图像编码器G、图像适配器H、文本编码器T与文本适配器S的结构相互独立,图像编码器G与图像适配器H的结构并不相同,文本编码器T与文本适配器S的结构并不相同。
图像编码器G提供图像特征的泛化能力,图像适配器H提供图像特征的映射能力,即,图像编码器G用于从图像数据x中提取第一图像特征,图像适配器H用于将第一图像特征映射至统一的目标空间、得到第二图像特征,第一图像特征属于低维度的特征,多为512或1024维向量,第二图像特征属于高纬度的特征,因而图像编码器G的结构通常比图像适配器H的结构庞大。
示例性地,图像编码器G可为卷积神经网络(Convolutional Neural Networks,CNN),如ResNet(残差网络)、DenseNet(密集连接的卷积网络)等,或者,基于Transformer(一种基于自注意力机制的深度学习模型) 的结构,如ViT(Vision Transformer,视觉类的Transformer)等,图像适配器H可为多层感知机(Multilayer Perceptron,MLP)。
文本编码器T提供文本特征的泛化能力,文本适配器S提供文本特征的映射能力,即,文本编码器T用于从文本信息中提取第一文本特征,文本适配器S用于将第一文本特征映射统一的目标空间、得到第二文本特征,第一文本特征属于低维度的特征,第二文本特征属于高纬度的特征,因而文本编码器T的结构通常比文本适配器S的结构庞大。
示例性地,文本编码器T可为文本类的预训练模型,如基于Transformer 的Bert,文本适配器S可为多层感知机。
当然,内容审核模型包括图像编码器G、图像适配器H、文本编码器T与文本适配器S的结构均不局限于人工设计的神经网络,也可以通过模型量化方法优化的神经网络,通过NAS(Neural Architecture Search,神经网络结构搜索)方法针对内容审核的特性搜索的神经网络,等等,本实施例对此不加以限制。
步骤102、以对抗与分类的方式将图像编码器训练至适配内容审核。
在本实施例中,划分两个阶段的训练,考虑到图像编码器G的结构较为庞大,为提高图像编码器的泛化能力,在第一个阶段的训练中,可共同使用对抗与分类这两种方式单独对图像编码器G进行训练,使得图像编码器G适配视觉类的内容审核。
其中,对抗是将图像编码器G与第三方的网络结构进行博弈,提升其提取图像特征的能力,分类是将图像编码器G应用于视觉类的内容审核的分类,提升其提取的图像特征的分类能力。
由于开源的数据集中与业务相关的违规图像数据较少,因此,本实施例可以通过业务系统累积的、与业务相关的违规图像数据训练图像编码器G。
此外,在内容审核中,违规类的文本信息的语义较为狭窄,如果对文本编码器T进行训练、适配内容审核,可能会降低其泛化能力,因而在本实施例中,可直接应用文本类的预训练模型作为文本编码器T,并不对文本编码器T进行训练。
在本申请的一个实施例中,步骤102可以包括如下步骤:
步骤1021、确定分类支路、对抗支路。
在本实施例中,可使用第三方的网络结构辅助训练图像编码器G,这些网络结构与图像编码器G分别组成分类支路、对抗支路,即,对抗支路包含图像编码器G与第三方的网络结构,分类支路包含图像编码器G与第三方的网络结构。
其中,对抗支路以对抗的方式训练图像编码器G,用于以对抗的方式训练图像编码器G,以使第一图像特征区分适用于内容审核。
此外,分类支路以分类的方式训练图像编码器G,用于训练图像编码器G,以使所述第一图像特征适用于划分内容审核中的各个类别。
步骤1022、在每次迭代训练中,依次更新分类支路与对抗支路,以将图像编码器训练至适配内容审核。
一般情况下,经过多轮迭代训练分类支路、对抗支路,在每次迭代训练中,可以同步或异步执行分类支路与对抗支路,依次更新分类支路与对抗支路,即,先更新分类支路,后更新对抗支路,考虑到在一轮迭代中更新一次图像编码器G,因此,图像编码器G在分类支路中更新,此后更新对抗支路中第三方的网络结构,以提高训练的效果,以将图像编码器训练至适配内容审核。
在本申请的一个实施例中,如图2所示,对抗支路中具有图像编码器G、适配非特定操作的通用编码器P与判别器D,分类支路中具有图像编码器G 与前馈网络F。
其中,通用编码器P、判别器D、前馈网络F均为第三方的网络结构。
通用编码器P为对图像数据进行编码的编码器,其可使用大量通用的图像数据进行训练,使得通用编码器P并不适配任一特定操作,所谓特征操作,可以指特定适配某一领域中的操作,例如,内容审核、人脸识别、人体姿态识别、自动驾驶,等等。
判别器D提供图像数据是否适配内容审核的判别能力,其输出的维度为 2维。
示例性地,判别器D可为多层感知机。
前馈网络F提供图像特征的映射能力,即,前馈网络F用于将第一图像特征映射至分类空间、得到第四图像特征,第一图像特征属于低维度的特征,第四图像特征属于高纬度的特征,因而图像编码器G的结构通常比图像适配器H的结构庞大。
示例性地,前馈网络F可为多层感知机。
在本实施例中,步骤1022进一步可以包括如下步骤:
步骤10221、将作为样本的图像数据分别输入图像编码器中提取第一图像特征、输入通用编码器中提取第三图像特征。
在本实施例中,可以通过公开的数据集、业务系统中由人审或机审(如基于图像单模态)累积与业务相关的违规图像数据等方式采集图像数据,作为训练图像编码器G的样本。
按照审核规则可将样本划分为正常的图像数据,违规的图像数据。
在每轮迭代训练时,如图2所示,在对抗支路与分类支路中,均将作为样本的图像数据x输入图像编码器G中,图像编码器G按照其结构对图像数据x进行处理、输出从图像数据x中提取的第一图像特征,对第一图像特征进行正向传播。
在对抗支路中,将作为样本的图像数据x输入通用编码器P中,通用编码器P按照其结构对图像数据x进行处理、输出从图像数据x中提取的第三图像特征。
步骤10222、在判别器中使用第一图像特征对图像数据生成是否适配内容审核的第一对抗标签、使用第三图像特征对图像数据生成是否适配内容审核的第二对抗标签。
在每轮迭代训练时,如图2所示,在对抗支路中,一方面,将图像编码器G生成的第一图像特征输入判别器D中,判别器D按照其结构对第一图像特征进行处理、输出第一对抗标签。另一方面,将通用编码器P生成的第三图像特征输入判别器D中,判别器D按照其结构对第三图像特征进行处理、输出第二对抗标签。
其中,该对抗标签(即第一对抗标签、第二对抗标签)表示图像数据x 是否适配内容审核。如果对抗标签为1,则表示图像数据x适配内容审核,即,图像数据的内容违规,如果对抗标签为1,则表示图像数据x并不适配内容审核,即,图像数据的内容正常、并未违规。
通用编码器P具有较强的泛化能力,具有较强的提取图像特征的能力,通用编码器P与图像编码器G在判别器D处相互对抗,从而辅助提升图像编码器G提取图像特征的能力,使G(x)分布收敛于P(x),其中,x表示图像数据,G(x)表示图像编码器G生成的第一图像特征,P(x)表示通用编码器P生成的第三图像特征。
步骤10223、在前馈网络中将第一图像特征映射至分类空间、得到第四图像特征。
在每轮迭代训练时,如图2所示,在分支网络中,将图像编码器G生成的第一图像特征输入前馈网络F,前馈网络F按照其结构对第一图像特征进行处理,将第一图像特征映射至分类空间中、得到第四图像特征。
步骤10224、将第四图像特征映射为图像数据属于各个适配内容审核的类别的概率。
在本实施例中,可以预先按照审核规则设置多个适配内容审核的类别,例如,水烟、香烟、骰子、扑克,等等。
在每轮迭代训练时,如图2所示,在分支网络中,可以将第四图像特征输入softmax、sigmoid等激活函数,从而将第四图像特征映射为图像数据x 属于各个适配内容审核的类别的概率y’。
步骤10225、根据第一对抗标签与概率对更新图像编码器的参数与前馈网络的参数。
在本实施例中,可以综合考虑图像编码器G对应的第一对抗标签与概率的情况,对图像编码器G计算其提取第一图像特征时的损失,依据该损失更新图像编码器G的参数与前馈网络F的参数。
在一个计算损失的方式中,如图2所示,针对既定的类别,可以基于该类别的概率y’生成分类标签y,分类标签y表示图像数据x是否属于该类别,分类标签y为1时表示图像数据x属于该类别,分类标签y为0时表示图像数据x不属于该类别。
对1减去图像编码器G对应的第一对抗标签得到的差值取平方,得到第一候选值,将各个分类标签y与概率y’的导数之间的乘积求和,得到第二候选值,将第一候选值与第二候选值的负数线性融合为第一损失值LG,以表征图像编码器G提取第一图像特征时的损失,从而按照第一损失值LG更新图像编码器G的参数与前馈网络F的参数。
示例性地,第一损失值LG表示如下:
Figure BDA0003852281170000101
y′=softmax(F(G(x)))
其中,c为类别的数量,i∈c,y为分类标签,y'为概率,yi'为y'的第i个分量,yi为y的第i个分量,G为图像编码器,F为前馈网络,D为判别器,x为图像数据,G(x)为第一图像特征,F(G(x))为第四图像特征,D(G(x))为图像编码器G对应的第一对抗标签,λ为超参数。
在本方式中,对分类支路进行反向传播,将第一损失值LG代入SGD (stochasticgradient descent,随机梯度下降)、Adam(Adaptive momentum,自适应动量)等优化算法中,分别对图像编码器G的参数与前馈网络P的参数计算梯度,从而按照该梯度分别更新图像编码器G的参数与前馈网络P的参数。
步骤10226、在维持图像编码器的参数不变的条件下,根据第一对抗标签与第二对抗标签更新判别器的参数。
在每轮迭代训练中,如图2所示,如果完成更新分类支路,则可以更新对抗分支,在对抗分支中,维持图像编码器G的参数在本轮迭代训练不变,在此条件下,可以综合考虑图像编码器G对应的第一对抗标签与通用编码器 P对应的第二对抗标签的情况,对判别器D计算其判别图像数据x是否适配内容审核时的损失,依据该损失更新判别器D的参数。
在一种计算损失的方式中,如图2所示,对图像编码器G对应的第一对抗标签取平方,得到第三候选值;对1减去通用编码器P对应的第二对抗标签得到的差值取平方,得到第四候选值;将第三候选值与第四候选值线性融合为第二损失值LD,以表征判别器D判别图像数据x是否适配内容审核时的损失,从而在维持图像编码器G的参数不变的条件下,按照第二损失值LD更新前馈网络F的参数。
示例性地,第二损失值LD表示如下:
LD=(1-D(P(x)))2+D(G(x))2
其中,G为图像编码器,P为通用编码器,D为判别器,x为图像数据,G(x) 为第一图像特征,P(x)为第三图像特征,D(G(x))为图像编码器G对应的第一对抗标签,D(P(x)为通用编码器P对应的第二对抗标签。
在本方式中,对分类支路进行反向传播,将第二损失值LD代入SGD、Adam 等优化算法中,对判别器D的参数计算梯度,从而按照该梯度更新判别器D 的参数,反向传播在图像编码器G前截止,并不更新图像编码器G的参数,维持图像编码器G在本次迭代训练的对抗支路中学习的参数。
进一步而言,在某些架构中,可以支持合并计算概率与第二损失值,在某些架构中,在前馈网络F中计算概率,独立于前馈网络F计算第二损失值,本实施例对此不加以限制。
步骤10227、判断是否满足预设的第一训练条件;若是,则执行步骤10228,若否,则返回执行步骤10221-步骤10227。
步骤10228、确定图像编码器完成训练。
本实施例中,可以预先对训练图像编码器G设置第一训练条件,作为停止训练的条件,例如,迭代训练的次数达到某个阈值,第一损失值连续多次的变化幅度小于某个阈值且第二损失值连续多次的变化幅度小于某个阈值,第一损失值小于某个阈值且第二损失值小于某个阈值,等等,在每轮迭代训练中,判断当前迭代训练时记录的数据是否满足第一训练条件。
如果满足第一训练条件,则可以认为图像编码器G完成训练,此时,输出图像编码器G中的参数,并持久化至config等配置文件中。
如果未满足第一训练条件,则可以进入下一轮迭代训练,重新执行步骤步骤10221-步骤10227,如此循环迭代训练,直至图像编码器G完成训练。
步骤103、若完成训练图像编码器,则在固定图像编码器、文本编码器的条件下,以分类的方式将图像适配器与文本适配器训练至适配内容审核。
在本实施例中,考虑到图像适配器H与文本适配器S多为轻量化的结构,为提高图像适配器H与文本适配器S适配内容审核的能力,在第二个阶段的训练中,可使用分类的方式共同对图像适配器H与文本适配器S进行训练,使得图像适配器H与文本适配器S适配视觉类的内容审核。
其中,分类是将图像编码器G、图像适配器H、文本编码器T与文本适配器S应用于视觉类的内容审核的分类。
进一步而言,第一阶段训练得到图像编码器G,对于内容审核的图像数据已经有一定的分类能力,对于审核规则的变化、新增的违规的类别,可能还缺乏调整能力。
考虑到语言是人类思维的符号,有更强的泛化性、推理性,相比于图像单模态,本实施例中使用图像数据、文本信息的多模态进行内容审核,可以充分利用语言文字之间的内在关联。
基于图像单模态的神经网络要求收集几十万、几百万量级的样本(图像数据)进行迭代更新,本实施例中的内容审核模型要求几十张、几百张量级的样本(图像数据及其文本信息)等进行迭代更新,以适应审核规则的变化、新增的违规的类别。
在本申请的一个实施例中,步骤103可以包括如下步骤:
步骤1031、将作为样本的图像数据输入图像编码器中提取第一图像特征。
在本实施例中,可以通过公开的数据集、业务系统中由人审或机审(如基于图像单模态的神经网络)累积与业务相关的违规图像数据等方式采集图像数据,作为训练图像适配器H与文本适配器S的样本。
按照审核规则可将样本划分为正常的图像数据,违规的图像数据。
在每轮迭代训练时,如图3所示,将作为样本的图像数据x输入图像编码器G中,图像编码器G按照其结构对图像数据x进行处理、输出从图像数据x中提取的第一图像特征。
步骤1032、将第一图像特征输入图像适配器中映射至目标空间、得到第二图像特征。
在每轮迭代训练时,如图3所示,将第一图像特征输入图像适配器H中,图像适配器H按照其结构对第一图像特征进行处理,将图像适配器H映射至目标空间、得到第二图像特征。
步骤1033、将作为样本的文本信息输入文本编码器中提取第一文本特征。
在本实施例中,如图3所示,可以通过公开的数据集、业务系统中由人审或机审(如基于图像单模态的神经网络)累积与业务相关的数据(类别(名称)、图例、图例描述)等方式采集文本信息t,作为训练图像适配器H与文本适配器S的样本。
此时,图像数据x(如图例)与文本信息t(如类别、图例描述)是成对的数据。
在确定违规的图像数据x(如图例)的情况下,按照审核规则可将与图像数据x相关的文本信息t(如类别、图例描述)划分为正样本tp,将与图像数据x无关的文本信息划t分为负样本tn
进一步而言,如图3所示,为提高采集负样本的效率,针对当前的图像数据x进行负采样,即,从与其他图像数据x相关的文本信息t中随机采集文本信息t,作为与当前图像数据x无关的文本信息t,其他图像数据x为除当前图像数据x之外的图像数据x。
在每轮迭代训练时,如图3所示,将作为样本的文本信息t(包括正样本tp、负样本tn)输入文本编码器T中,文本编码器T按照其结构对文本信息t进行处理、输出从文本信息t中提取的第一文本特征。
步骤1034、将第一文本特征输入文本适配器中映射至目标空间、得到第二文本特征。
在每轮迭代训练时,如图3所示,将第一文本特征输入文本适配器S中,文本适配器S按照其结构对第一文本特征进行处理,将第一文本特征映射至目标空间、得到第二文本特征。
步骤1035、在维持图像编码器的参数、文本编码器的参数不变的条件下,将第二图像特征与第二文本特征进行比较,以更新图像适配器的参数与文本适配器的参数。
在每轮迭代训练中,维持图像编码器G的参数、文本编辑器T的参数在本轮迭代训练不变,在此条件下,在同一空间向量中对第二图像特征与第二文本特征进行比较,依据第二图像特征与第二文本特征之间差异情况,对图像适配器H与文本适配器S计算映射特征时适配内容审核的损失,依据该损失更新图像适配器H的参数与文本适配器S的参数。
在一种计算损失的方式中,如图3所示,作为样本的文本信息包括与图像数据相关的正样本tp、与图像数据无关的负样本tn
一方面,针对各个图像数据x,计算第二图像特征与正样本tp对应的第二文本特征之间的第一相似度,对1减去第一相似度得到的差值取平方,作为第五候选值。
示例性地,针对各个图像数据,计算第二图像特征与正样本tp对应的第二文本特征之间乘积,作为第一点积;计算第二图像特征的长度与正样本tp对应的第二文本特征的长度之间的乘积,作为第一模长积;计算第一点积与第一模长积之间的比值,作为第一相似度,即,第一相似度为第二图像特征与正样本对应的第二文本特征之间的夹角的余弦,其数值的范围为[-1,1], -1为完全不相似,1为完全相似。
另一方面,针对各个图像数据,计算第二图像特征与负样本tn对应的第二文本特征之间的第二相似度,对第二相似度取平方,作为第六候选值。
示例性地,针对各个图像数据,计算第二图像特征与负样本tn对应的第二文本特征之间的乘积,作为第二点积;计算第二图像特征的长度与负样本 tn对应的第二文本特征的长度之间的乘积,作为第二模长积;计算第二点积与第二模长积之间的比值,作为第二相似度,即,第二相似度为第二图像特征与负样本对应的第二文本特征之间的夹角的余弦,其数值的范围为[-1,1], -1为完全不相似,1为完全相似。
针对所有图像数据,将所有第五候选值之间的和值与所有第六候选值之间的和值线性融合为第三损失值L,以表征图像适配器H与文本适配器S映射特征时适配内容审核的损失,从而在维持图像编码器G的参数、文本编码器T的参数不变的条件下,按照第三损失值L更新图像适配器H的参数与文本适配器S的参数。
示例性地,第三损失值L表示如下:
Figure BDA0003852281170000151
Figure BDA0003852281170000152
Figure BDA0003852281170000153
其中,G为图像编码器,H为图像适配器,T为文本编辑器,S为文本适配器,x为图像数据,G(x)为第一图像特征,H(G(x))为第二图像特征,n为每帧图像数据对应的文本信息的数量,i∈n,tpi为正样本,tni为负样本,T(tpi) 为正样本对应的第一文本特征,S(T(tpi))为正样本对应的第二文本特征, T(tni)为负样本对应的第一文本特征,S(T(tni))为负样本对应的第二文本特征, sim为相似度,||为长度。
在本方式中,对内容审核模型进行反向传播,将第三损失值L代入SGD、 Adam等优化算法中,对图像适配器H与文本适配器S的参数计算梯度,从而按照该梯度更新图像适配器H与文本适配器S的参数,反向传播在图像编码器G、文本编辑器T前截止,并不更新图像编码器G的参数、文本编辑器T 的参数,维持图像编码器G在第一轮训练时学习的参数,维持文本编辑器T 原有的参数(如预训练学习的参数)。
步骤1036、判断是否满足预设的第二训练条件;若是,则执行步骤1037,若否,则返回执行步骤1031-步骤1036。
步骤1037、确定图像适配器与文本适配器完成训练。
本实施例中,可以预先对训练图像适配器H与文本适配器S设置第二训练条件,作为停止训练的条件,例如,迭代训练的次数达到某个阈值,第三损失值连续多次的变化幅度小于某个阈值,第三损失值小于某个阈值,等等,在每轮迭代训练中,判断当前迭代训练时记录的数据是否满足第二训练条件。
如果满足第二训练条件,则可以认为图像适配器H与文本适配器S完成训练,此时,输出图像适配器H的参数与文本适配器S的参数,并持久化至 config等配置文件中。
如果未满足第一训练条件,则可以进入下一轮迭代训练,重新执行步骤步骤1031-步骤1036,如此循环迭代训练,直至图像适配器H与文本适配器 S完成训练。
在图像适配器H与文本适配器S完成训练时,整个内容审核网络完成训练,可等待测试、应用于互联网产品。
在本实施例中,确定内容审核模型,内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,图像编码器用于从图像数据中提取第一图像特征,图像适配器用于将第一图像特征映射至目标空间、得到第二图像特征,文本编码器用于从文本信息中提取第一文本特征,文本适配器用于将第一文本特征映射目标空间、得到第二文本特征;以对抗与分类的方式将图像编码器训练至适配内容审核;若完成训练图像编码器,则在固定图像编码器、文本编码器的条件下,以分类的方式将图像适配器与文本适配器训练至适配内容审核。本实施例中使用图像数据、文本信息的多模态进行内容审核,可以充分利用语言文字之间的内在关联,有更强的泛化性、推理性,在确保内容审核的准确率的情况下,迭代更新内容审核模型的样本量从几十万、几百万降低至几十、几百,样本量大大降低,方便采集到足够的样本,在审核规则的变化、新增的违规的类别时,可以快速采集样本迭代更新内容审核模型,扩展性强,提高了内容审核的响应速度;此外,本实施例分两阶段的训练,第一阶段单独训练泛化行要求更高的图像编码器,第二阶段联合训练轻量化的图像适配器与文本适配器,分阶段实现内容审核网络的泛化性与适配性,可以保证内容审核网络的性能,提高训练速度。
实施例二
图4为本申请实施例二提供的一种内容审核方法的流程图,本实施例可适用于基于图文多模态的内容审核模型进行内容审核的情况,该方法可以由内容审核装置来执行,该内容审核装置可以采用硬件和/或软件的形式实现,该内容审核装置可配置于电子设备中,例如,服务器、刀片式服务器、大型计算机和其它适合的计算机。如图4所示,该方法包括:
步骤401、加载预设的内容审核模型。
在本实施例中,可以预先训练内容审核模型,如图5所示,内容审核模型包括图像编码器G、图像适配器H、文本编码器T与文本适配器S。
其中,训练的方法如下:
确定内容审核模型,内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,图像编码器用于从图像数据中提取第一图像特征,图像适配器用于将第一图像特征映射至目标空间、得到第二图像特征,文本编码器用于从文本信息中提取第一文本特征,文本适配器用于将第一文本特征映射至目标空间、得到第二文本特征;
以对抗与分类的方式将图像编码器训练至适配内容审核;
若完成训练图像编码器,则在固定图像编码器、文本编码器的条件下,以分类的方式将图像适配器与文本适配器训练至适配内容审核。
在本实施例中,由于训练内容审核模型的方法与实施例一的应用基本相似,所以描述的比较简单,相关之处参见实施例一的部分说明即可,本实施例在此不加以详述。
在互联网产品上线时,可加载预设的内容审核模型至内存运行,为该互联网产品提供内容审核的服务。
步骤402、将待内容审核的图像数据输入图像编码器中提取第一图像特征。
在实际应用中,用户通过客户端将一份文件上传至互联网产品(如直播应用、短视频应用等)中,该文件中具有一帧或多帧图像数据,对于不同的业务,文件的形态有所不同,如用户封面(部分情况下复用为用户头像)、自定义的表情、短视频、直播数据等,意图在互联网产品中发布该文件,让其他用户传阅、浏览。
按照业务、法律等因素可制定内容审核的审核规则,在发布文件之前,按照该审核规范对该视频文件的内容进行审核,过滤掉一些内容不符合审核规则的文件,从而发布一些内容符合审核规则的文件。
进一步而言,如果文件为短视频、直播数据等视频数据,可以对每帧图像数据进行内容审核,也可以以跳帧的方式从视频数据中抽取多帧图像数据进行内容审核,例如,每间隔一段时间抽取一帧图像数据,随机抽取图像数据,等等,以降低资源的消耗,本实施例对此不加以限制。
在内容审核时,如图5所示,将待内容审核的图像数据x输入图像编码器G中,图像编码器G按照其结构对图像数据x进行处理、输出从图像数据 x中提取的第一图像特征。
步骤403、将第一图像特征输入图像适配器中映射至目标空间、得到第二图像特征。
如图5所示,将第一图像特征输入图像适配器H中,图像适配器H按照其结构对第一图像特征进行处理,将第一图像特征映射至目标空间、得到第二图像特征。
步骤404、将表征内容审核中类别的文本信息输入文本编码器中提取第一文本特征。
在本实施例中,可以预先按照审核规则设置多个适配内容审核的类别,例如,水烟、香烟、骰子、扑克,等等。
如图5所示,这些类别以文本信息t的形式表示,在内容审核时,将表征内容审核中类别的文本信息t(即文本信息本身,如水烟、香烟、骰子、扑克等)输入文本编码器T中,文本编码器T按照其结构对文本信息t进行处理、输出从文本信息中提取的第一文本特征。
步骤405、将第一文本特征输入文本适配器中映射至目标空间、得到第二文本特征。
如图5所示,将第一文本特征输入文本适配器S中,文本适配器S按照其结构对第一文本特征进行处理,将第一文本特征映射至目标空间、得到第二文本特征。
步骤406、将第二图像特征与第二文本特征进行比较,以对图像数据生成审核结果。
在同一空间向量中对第二图像特征与第二文本特征进行比较,从而依据比较的结果对图像数据生成审核结果。
在具体实现中,如图5所示,计算第二图像特征与第二文本之间的相似度sim。
示例性地,计算第二图像特征与第二文本特征之间乘积,作为点积;计算第二图像特征的长度与第二文本特征的长度之间的乘积,作为模长积;计算点积与模长积之间的比值,作为相似度,即,相似度为第二图像特征与第二文本特征之间的夹角的余弦,其数值的范围为[-1,1],-1为完全不相似, 1为完全相似。
将相似度与预设的阈值进行比较。
若相似度大于预设的阈值,则确定图像数据的审核结果为图像数据的内容属于类别,图像数据的内容违规,属于高风险的图像数据,可以由技术人员进一步审核。
若相似度小于或等于预设的阈值,则确定图像数据的审核结果为图像数据的内容不属于类别,若图像数据不属于任一类别,则可以确定该图像数据的内容未违规,属于低风险的图像数据。
在本实施例中,加载预设的内容审核模型,内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;将待内容审核的图像数据输入图像编码器中提取第一图像特征;将第一图像特征输入图像适配器中映射至目标空间、得到第二图像特征;将表征内容审核中类别的文本信息输入文本编码器中提取第一文本特征;将第一文本特征输入文本适配器中映射至目标空间、得到第二文本特征;将第二图像特征与第二文本特征进行比较,以对图像数据生成审核结果。本实施例将内容审核模型拆分为两部分,第一部分为泛化行要求更高的图像编码器、文本编辑器,第二部分为适配性要求更高的图像适配器与文本适配器,分阶段实现内容审核网络的泛化性与适配性,可以保证内容审核网络的性能。此外,本实施例中使用图像数据、文本信息的多模态进行内容审核,可以充分利用语言文字之间的内在关联,有更强的泛化性、推理性,在确保内容审核的准确率的情况下,迭代更新内容审核模型的样本量从几十万、几百万降低至几十、几百,样本量大大降低,方便采集到足够的样本,在审核规则的变化、新增的违规的类别时,可以快速采集样本迭代更新内容审核模型,扩展性强,提高了内容审核的响应速度。
实施例三
图6为本申请实施例三提供的一种内容审核模型的训练装置的结构示意图。如图6所示,该装置包括:
内容审核模型确定模块601,用于确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特征映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特征映射至所述目标空间、得到第二文本特征;
编码器训练模块602,用于以对抗与分类的方式将所述图像编码器训练至适配内容审核;
适配器训练模块603,用于若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
在本申请的一个实施例中,所述编码器训练模块602包括:
支路确定模块,用于确定分类支路、对抗支路,所述分类支路用于训练所述图像编码器,以使所述第一图像特征适用于划分内容审核中的各个类别,所述对抗支路用于以对抗的方式训练所述图像编码器,以使所述第一图像特征区分适用于内容审核;
支路更新模块,用于在每次迭代训练中,依次更新所述分类支路与所述对抗支路,以将所述图像编码器训练至适配内容审核。
在本申请的一个实施例中,所述对抗支路中具有所述图像编码器、适配非特定操作的通用编码器与判别器,所述分类支路中具有所述图像编码器与前馈网络;
所述支路更新模块包括:
编码模块,用于将作为样本的图像数据分别输入所述图像编码器中提取第一图像特征、输入所述通用编码器中提取第三图像特征;
判别模块,用于在所述判别器中使用所述第一图像特征对所述图像数据生成是否适配内容审核的第一对抗标签、使用所述第三图像特征对所述图像数据生成是否适配内容审核的第二对抗标签;
前馈模块,用于在所述前馈网络中将所述第一图像特征映射至分类空间、得到第四图像特征;
概率计算模块,用于将所述第四图像特征映射为所述图像数据属于各个适配内容审核的类别的概率;
分类支路更新模块,用于根据所述第一对抗标签与所述概率更新所述图像编码器的参数与所述前馈网络的参数;
对抗支路更新模块,用于在维持所述图像编码器的参数不变的条件下,根据所述第一对抗标签与所述第二对抗标签更新所述判别器的参数;
第一训练条件判断模块,用于判断是否满足预设的第一训练条件;若是,则调用第一完成确定模块,若否,则返回调用所述编码模块;
第一完成确定模块,用于确定所述图像编码器完成训练。
在本申请的一个实施例中,所述分类支路更新模块包括:
第一损失值计算模块,用于基于所述概率生成分类标签,所述分类标签表示所述图像数据是否属于所述类别;对1减去所述第一对抗标签得到的差值取平方,得到第一候选值;将各个所述分类标签与所述概率的导数之间的乘积求和,得到第二候选值;将所述第一候选值与所述第二候选值的负数线性融合为第一损失值;
第一损失值更新模块,用于按照所述第一损失值更新所述图像编码器的参数与所述前馈网络的参数。
在本申请的一个实施例中,所述对抗支路更新模块包括:
第二损失值计算模块,用于对所述第一对抗标签取平方,得到第三候选值;对1减去所述第二对抗标签得到的差值取平方,得到第四候选值;将所述第三候选值与所述第四候选值线性融合为第二损失值;
第二损失值更新模块,用于在维持所述图像编码器的参数不变的条件下,按照所述第二损失值更新所述前馈网络的参数。
在本申请的一个实施例中,所述适配器训练模块603包括:
第一图像特征提取模块,用于将作为样本的图像数据输入所述图像编码器中提取第一图像特征;
第一图像特征映射模块,用于将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
第一文本特征提取模块,用于将作为样本的文本信息输入所述文本编码器中提取第一文本特征;
第二文本特征映射模块,用于将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
适配器更新模块,用于在维持所述图像编码器的参数、所述文本编码器的参数不变的条件下,将所述第二图像特征与所述第二文本特征进行比较,以更新所述图像适配器的参数与所述文本适配器的参数;
第二训练条件判断模块,用于判断是否满足预设的第二训练条件;若是,则调用第二完成确定模块,若否,则返回调用所述第一图像特征提取模块;
第二完成确定模块,用于确定所述图像适配器与所述文本适配器完成训练。
在本申请的一个实施例中,作为样本的所述文本信息包括与所述图像数据相关的正样本、与所述图像数据无关的负样本;
所述适配器更新模块包括:
第三损失值计算模块,用于针对各个所述图像数据,计算所述第二图像特征与所述正样本对应的所述第二文本特征之间的第一相似度;对1减去所述第一相似度得到的差值取平方,作为第五候选值;针对各个所述图像数据,计算所述第二图像特征与所述负样本对应的所述第二文本特征之间的第二相似度;对所述第二相似度取平方,作为第六候选值;将所有所述第五候选值之间的和值与所有所述第六候选值之间的和值线性融合为第三损失值;
第三损失值更新模块,用于在维持所述图像编码器的参数、所述文本编码器的参数不变的条件下,按照所述第三损失值更新所述图像适配器的参数与所述文本适配器的参数。
在本申请的一个实施例中,所述第三损失值计算模块还用于:
针对各个所述图像数据,计算所述第二图像特征与所述正样本对应的所述第二文本特征之间的乘积,作为第一点积;
计算所述第二图像特征的长度与所述正样本对应的所述第二文本特征的长度之间的乘积,作为第一模长积;
计算所述第一点积与所述第一模长积之间的比值,作为第一相似度。
在本申请的一个实施例中,所述第三损失值计算模块还用于:
针对各个所述图像数据,计算所述第二图像特征与所述负样本对应的所述第二文本特征之间的乘积,作为第二点积;
计算所述第二图像特征的长度与所述负样本对应的所述第二文本特征的长度之间的乘积,作为第二模长积;
计算所述第二点积与所述第二模长积之间的比值,作为第二相似度。
本申请实施例所提供的内容审核模型的训练装置可执行本申请任意实施例所提供的内容审核模型的训练方法,具备执行内容审核模型的训练方法相应的功能模块和有益效果。
实施例四
图7为本申请实施例四提供的一种内容审核装置的结构示意图。如图7 所示,该装置包括:
内容审核模型加载模块701,用于加载预设的内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;
第一图像特征提取模块702,用于将待内容审核的图像数据输入所述图像编码器中提取第一图像特征;
第二图像特征映射模块703,用于将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
第一文本特征提取模块704,用于将表征内容审核中类别的文本信息输入所述文本编码器中提取第一文本特征;
第二文本特征映射模块705,用于将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
审核结果生成模块706,用于将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果。
其中,所述内容审核模型的训练方法如下:
确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特征映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特征映射至所述目标空间、得到第二文本特征;
以对抗与分类的方式将所述图像编码器训练至适配内容审核;
若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
在本申请的一个实施例中,所述审核结果生成模块706包括:
相似度计算模块,用于计算所述第二图像特征与所述第二文本之间的相似度;
第一结果生成模块,用于若所述相似度大于预设的阈值,则确定所述图像数据的审核结果为所述图像数据的内容属于所述类别;
第二结果生成模块,用于若所述相似度小于或等于预设的阈值,则确定所述图像数据的审核结果为所述图像数据的内容不属于所述类别。
在本申请的一个实施例中,所述相似度计算模块包括:
点积计算模块,用于计算所述第二图像特征与所述第二文本特征之间的乘积,作为点积;
模长积计算模块,用于计算所述第二图像特征的长度与所述第二文本特征的长度之间的乘积,作为模长积;
比值计算模块,用于计算所述点积与所述模长积之间的比值,作为相似度。
本申请实施例所提供的内容审核装置可执行本申请任意实施例所提供的内容审核方法,具备执行内容审核方法相应的功能模块和有益效果。
实施例五
图8示出了可以用来实施本申请的实施例的电子设备10的结构示意图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM) 13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器 11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18 加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,如内容审核方法或者内容审核模型的训练方法。
在一些实施例中,内容审核方法或者内容审核模型的训练方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的内容审核方法或者内容审核模型的训练方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行内容审核方法或者内容审核模型的训练方法。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
实施例六
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序在被处理器执行时实现如本申请任一实施例所提供的内容审核方法或者内容审核模型的训练方法。
计算机程序产品在实现的过程中,可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (15)

1.一种内容审核方法,其特征在于,包括:
加载预设的内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;
将待内容审核的图像数据输入所述图像编码器中提取第一图像特征;
将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
将表征内容审核中类别的文本信息输入所述文本编码器中提取第一文本特征;
将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果,包括:
计算所述第二图像特征与所述第二文本之间的相似度;
若所述相似度大于预设的阈值,则确定所述图像数据的审核结果为所述图像数据的内容属于所述类别;
若所述相似度小于或等于预设的阈值,则确定所述图像数据的审核结果为所述图像数据的内容不属于所述类别。
3.一种内容审核模型的训练方法,其特征在于,包括:
确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特映射至所述目标空间、得到第二文本特征;
以对抗与分类的方式将所述图像编码器训练至适配内容审核;
若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
4.根据权利要求3所述的方法,其特征在于,所述以对抗与分类的方式将所述图像编码器训练至适配内容审核,包括:
确定分类支路、对抗支路,所述分类支路用于训练所述图像编码器,以使所述第一图像特征适用于划分内容审核中的各个类别,所述对抗支路用于以对抗的方式训练所述图像编码器,以使所述第一图像特征区分适用于内容审核;
在每次迭代训练中,依次更新所述分类支路与所述对抗支路,以将所述图像编码器训练至适配内容审核。
5.根据权利要求4所述的方法,其特征在于,所述对抗支路中具有所述图像编码器、适配非特定操作的通用编码器与判别器,所述分类支路中具有所述图像编码器与前馈网络;
所述在每次迭代训练中,依次更新所述分类支路与所述对抗支路,以将所述图像编码器训练至适配内容审核,包括:
将作为样本的图像数据分别输入所述图像编码器中提取第一图像特征、输入所述通用编码器中提取第三图像特征;
在所述判别器中使用所述第一图像特征对所述图像数据生成是否适配内容审核的第一对抗标签、使用所述第三图像特征对所述图像数据生成是否适配内容审核的第二对抗标签;
在所述前馈网络中将所述第一图像特映射至分类空间、得到第四图像特征;
将所述第四图像特映射为所述图像数据属于各个适配内容审核的类别的概率;
根据所述第一对抗标签与所述概率更新所述图像编码器的参数与所述前馈网络的参数;
在维持所述图像编码器的参数不变的条件下,根据所述第一对抗标签与所述第二对抗标签更新所述判别器的参数;
判断是否满足预设的第一训练条件;若是,则确定所述图像编码器完成训练,若否,则返回执行所述将作为样本的图像数据分别输入所述图像编码器中提取第一图像特征、输入适配非特定操作的通用编码器中提取第三图像特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一对抗标签与所述概率对更新所述图像编码器的参数与所述前馈网络的参数,包括:
基于所述概率生成分类标签,所述分类标签表示所述图像数据是否属于所述类别;
对1减去所述第一对抗标签得到的差值取平方,得到第一候选值;
将各个所述分类标签与所述概率的导数之间的乘积求和,得到第二候选值;
将所述第一候选值与所述第二候选值的负数线性融合为第一损失值;
按照所述第一损失值更新所述图像编码器的参数与所述前馈网络的参数。
7.根据权利要求5所述的方法,其特征在于,所述在维持所述图像编码器的参数不变的条件下,根据所述第一对抗标签与所述第二对抗标签更新所述判别器的参数,包括:
对所述第一对抗标签取平方,得到第三候选值;
对1减去所述第二对抗标签得到的差值取平方,得到第四候选值;
将所述第三候选值与所述第四候选值线性融合为第二损失值;
在维持所述图像编码器的参数不变的条件下,按照所述第二损失值更新所述前馈网络的参数。
8.根据权利要求3-7中任一项所述的方法,其特征在于,所述在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核,包括:
将作为样本的图像数据输入所述图像编码器中提取第一图像特征;
将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
将作为样本的文本信息输入所述文本编码器中提取第一文本特征;
将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
在维持所述图像编码器的参数、所述文本编码器的参数不变的条件下,将所述第二图像特征与所述第二文本特征进行比较,以更新所述图像适配器的参数与所述文本适配器的参数;
判断是否满足预设的第二训练条件;若是,则确定所述图像适配器与所述文本适配器完成训练,若否,则返回执行所述将作为样本的图像数据输入所述图像编码器中提取第一图像特征。
9.根据权利要求8所述的方法,其特征在于,作为样本的所述文本信息包括与所述图像数据相关的正样本、与所述图像数据无关的负样本;
所述在维持所述图像编码器的参数、所述文本编码器的参数不变的条件下,将所述第二图像特征与所述第二文本特征进行比较,以更新所述图像适配器的参数与所述文本适配器的参数,包括:
针对各个所述图像数据,计算所述第二图像特征与所述正样本对应的所述第二文本特征之间的第一相似度;
对1减去所述第一相似度得到的差值取平方,作为第五候选值;
针对各个所述图像数据,计算所述第二图像特征与所述负样本对应的所述第二文本特征之间的第二相似度;
对所述第二相似度取平方,作为第六候选值;
将所有所述第五候选值之间的和值与所有所述第六候选值之间的和值线性融合为第三损失值;
在维持所述图像编码器的参数、所述文本编码器的参数不变的条件下,按照所述第三损失值更新所述图像适配器的参数与所述文本适配器的参数。
10.根据权利要求9所述的方法,其特征在于,
所述针对各个所述图像数据,计算所述第二图像特征与所述正样本对应的所述第二文本特征之间的第一相似度,包括:
针对各个所述图像数据,计算所述第二图像特征与所述正样本对应的所述第二文本特征之间的乘积,作为第一点积;
计算所述第二图像特征的长度与所述正样本对应的所述第二文本特征的长度之间的乘积,作为第一模长积;
计算所述第一点积与所述第一模长积之间的比值,作为第一相似度;
所述针对各个所述图像数据,计算所述第二图像特征与所述负样本对应的所述第二文本特征之间的第二相似度,包括:
针对各个所述图像数据,计算所述第二图像特征与所述负样本对应的所述第二文本特征之间的乘积,作为第二点积;
计算所述第二图像特征的长度与所述负样本对应的所述第二文本特征的长度之间的乘积,作为第二模长积;
计算所述第二点积与所述第二模长积之间的比值,作为第二相似度。
11.一种内容审核装置,其特征在于,包括:
内容审核模型加载模块,用于加载预设的内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器;
第一图像特征提取模块,用于将待内容审核的图像数据输入所述图像编码器中提取第一图像特征;
第二图像特映射模块,用于将所述第一图像特征输入所述图像适配器中映射至目标空间、得到第二图像特征;
第一文本特征提取模块,用于将表征内容审核中类别的文本信息输入所述文本编码器中提取第一文本特征;
第二文本特映射模块,用于将所述第一文本特征输入所述文本适配器中映射至所述目标空间、得到第二文本特征;
审核结果生成模块,用于将所述第二图像特征与所述第二文本特征进行比较,以对所述图像数据生成审核结果。
12.一种内容审核模型的训练装置,其特征在于,包括:
内容审核模型确定模块,用于确定内容审核模型,所述内容审核模型包括图像编码器、图像适配器、文本编码器与文本适配器,所述图像编码器用于从图像数据中提取第一图像特征,所述图像适配器用于将所述第一图像特映射至目标空间、得到第二图像特征,所述文本编码器用于从文本信息中提取第一文本特征,所述文本适配器用于将所述第一文本特映射映射至所述目标空间、得到第二文本特征;
编码器训练模块,用于以对抗与分类的方式将所述图像编码器训练至适配内容审核;
适配器训练模块,用于若完成训练所述图像编码器,则在固定所述图像编码器、所述文本编码器的条件下,以分类的方式将所述图像适配器与所述文本适配器训练至适配内容审核。
13.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-2中任一项所述的内容审核方法或者权利要求3-10中任一项所述的内容审核模型的训练方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现权利要求1-2中任一项所述的内容审核方法或者权利要求3-10中任一项所述的内容审核模型的训练方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-2中任一项所述的内容审核方法或者权利要求3-10中任一项所述的内容审核模型的训练方法。
CN202211138260.6A 2022-09-19 2022-09-19 内容审核、内容审核模型的训练方法及相关装置 Pending CN115565038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211138260.6A CN115565038A (zh) 2022-09-19 2022-09-19 内容审核、内容审核模型的训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211138260.6A CN115565038A (zh) 2022-09-19 2022-09-19 内容审核、内容审核模型的训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN115565038A true CN115565038A (zh) 2023-01-03

Family

ID=84741787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211138260.6A Pending CN115565038A (zh) 2022-09-19 2022-09-19 内容审核、内容审核模型的训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN115565038A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292395A (zh) * 2023-09-27 2023-12-26 自然资源部地图技术审查中心 审图模型的训练方法和训练装置及审图的方法和装置
CN117351331A (zh) * 2023-10-24 2024-01-05 北京云上曲率科技有限公司 一种为视觉大模型添加适配器的方法及装置
CN117473339A (zh) * 2023-12-28 2024-01-30 智者四海(北京)技术有限公司 内容审核方法、装置、电子设备及存储介质
WO2024183592A1 (zh) * 2023-03-07 2024-09-12 北京字跳网络技术有限公司 一种图像处理方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024183592A1 (zh) * 2023-03-07 2024-09-12 北京字跳网络技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN117292395A (zh) * 2023-09-27 2023-12-26 自然资源部地图技术审查中心 审图模型的训练方法和训练装置及审图的方法和装置
CN117292395B (zh) * 2023-09-27 2024-05-24 自然资源部地图技术审查中心 审图模型的训练方法和训练装置及审图的方法和装置
CN117351331A (zh) * 2023-10-24 2024-01-05 北京云上曲率科技有限公司 一种为视觉大模型添加适配器的方法及装置
CN117473339A (zh) * 2023-12-28 2024-01-30 智者四海(北京)技术有限公司 内容审核方法、装置、电子设备及存储介质
CN117473339B (zh) * 2023-12-28 2024-04-30 智者四海(北京)技术有限公司 内容审核方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111177792B (zh) 基于隐私保护确定目标业务模型的方法及装置
CN115565038A (zh) 内容审核、内容审核模型的训练方法及相关装置
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN109408574B (zh) 基于文本挖掘技术的投诉责任认定系统
CN110490304B (zh) 一种数据处理方法及设备
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN113780367A (zh) 分类模型训练和数据分类方法、装置、电子设备
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113590807A (zh) 一种基于大数据挖掘的科技企业信用评价方法
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN117592778A (zh) 风险预警系统
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN114357160B (zh) 基于生成传播结构特征的早期谣言检测方法及装置
CN114610576A (zh) 一种日志生成监控方法和装置
CN112698977A (zh) 服务器故障定位方法方法、装置、设备及介质
CN112348257A (zh) 一种多源数据融合与时序分析驱动的选举预测方法
Kavatagi et al. VTU_BGM at CheckThat! 2022: An Autoregressive Encoding Model for Detecting Check-worthy Claims
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN113535847B (zh) 区块链地址分类的方法和装置
CN117573809B (zh) 一种基于事件图谱的舆情推演方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination