CN117078970A - 一种图片识别方法、装置、电子设备及存储介质 - Google Patents
一种图片识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117078970A CN117078970A CN202311048949.4A CN202311048949A CN117078970A CN 117078970 A CN117078970 A CN 117078970A CN 202311048949 A CN202311048949 A CN 202311048949A CN 117078970 A CN117078970 A CN 117078970A
- Authority
- CN
- China
- Prior art keywords
- picture
- data
- picture data
- similarity value
- modification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004048 modification Effects 0.000 claims abstract description 89
- 238000012986 modification Methods 0.000 claims abstract description 88
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 14
- 238000005286 illumination Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 17
- 238000001514 detection method Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种图片识别方法、装置、电子设备及存储介质,该方法包括:计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值;对图片数据进行修改识别,获得修改结果;根据相似度值和修改结果识别出图片数据的类别,图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。在上述方案的实现过程中,通过计算出多模态数据中的文本数据与图片数据之间的相似度值,并根据该相似度值和该图片数据的修改结果来确定图片数据的类别,改善了通过图片数据的修改结果来进行图片识别的准确率较低的情况,有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。
Description
技术领域
本申请涉及图像处理和图片识别的技术领域,具体而言,涉及一种图片识别方法、装置、电子设备及存储介质。
背景技术
人工智能生成内容(Artificial Intelligence Generated Content,AIGC),是指利用人工智能(AI)技术生成的各种类型的内容,如文本、图像、音频等。AIGC可以根据输入的数据和模型进行自主创作和生成,而无需人类直接参与创作过程。AIGC图片是指使用AIGC技术生成的图片或图像,例如:使用stablediffusion工具生成的图片或图像。
目前,AIGC图片的识别方式大都是通过检测原始采集图片是否被修改的方式,例如:使用基于图像结构的检测算法、基于纹理分析的算法、基于光照一致性的算法来检测图片是否被AI修改过的AIGC图片。然而在实践的过程中发现,被修图软件修改过的图片也会被认为是AIGC图片,也就是说,通过检测原始采集图片是否被修改的方式来进行图片识别的准确率较低。
发明内容
本申请实施例的目的在于提供一种图片识别方法、装置、电子设备及存储介质,用于改善图片识别的准确率较低的问题。
本申请实施例提供了一种图片识别方法,包括:计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值;对图片数据进行修改识别,获得修改结果;根据相似度值和修改结果识别出图片数据的类别。在上述方案的实现过程中,通过计算出多模态数据中的文本数据与图片数据之间的相似度值,并根据该相似度值和该图片数据的修改结果来确定图片数据的类别,改善了通过图片数据的修改结果来进行图片识别的准确率较低的情况,有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。
可选地,在本申请实施例中,在计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值之前,还包括:从社区平台系统的数据库中获取多模态数据;或者,接收社区平台系统的服务器发送的多模态数据。在上述方案的实现过程中,通过从社区平台系统的数据库中获取多模态数据,或者,接收社区平台系统的服务器发送的多模态数据,从而改善了单独写程序采集多模态数据的效率较低的情况,有效地提高了多模态数据的获取效率。
可选地,在本申请实施例中,计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值,包括:使用对比文本图像的预训练CLIP模型计算出文本数据与图片数据之间的相似度值。在上述方案的实现过程中,通过使用对比文本图像的预训练CLIP模型计算出文本数据与图片数据之间的相似度值,从而有效地计算出了文本数据与图片数据之间的相似度值,并根据该相似度值和该图片数据的修改结果来确定图片数据的类别,改善了通过图片数据的修改结果来进行图片识别的准确率较低的情况。
可选地,在本申请实施例中,对图片数据进行修改识别,包括:根据图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对图片数据进行修改识别。在上述方案的实现过程中,通过根据图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对图片数据进行修改识别,从而改善了识别出图片数据是否被修改的正确率较低的情况,有效地提高了对图片数据进行修改识别的正确率。
可选地,在本申请实施例中,根据相似度值和修改结果识别出图片数据的类别,包括:判断修改结果和相似度值是否满足预设条件,预设条件包括:修改结果为图片数据被修改过,且相似度值大于预设阈值;若是,则将图片数据的类别确定为人工智能生成内容AIGC图片。在上述方案的实现过程中,通过在修改结果为图片数据被修改过,且相似度值大于预设阈值的情况下,才将图片数据的类别确定为人工智能生成内容AIGC图片,从而有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。
可选地,在本申请实施例中,在判断修改结果和相似度值是否满足预设条件之后,还包括:若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值,则将图片数据的类别确定为用户生成内容UGC图片。在上述方案的实现过程中,通过在修改结果为图片数据被修改过,且相似度值小于或等于预设阈值的情况下,才将图片数据的类别确定为用户生成内容UGC图片,从而有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。
可选地,在本申请实施例中,根据相似度值和修改结果识别出图片数据的类别,包括:若修改结果为图片数据没有被修改过,则将图片数据的类别确定为原始采集图片。在上述方案的实现过程中,通过在修改结果为图片数据没有被修改过的情况下,才将图片数据的类别确定为原始采集图片,从而改善了确定原始采集图片的效率较低的情况,有效地提高了原始采集图片的效率。
本申请实施例还提供了一种图片识别装置,包括:相似度值计算模块,用于计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值;修改结果获得模块,用于对图片数据进行修改识别,获得修改结果;图片类别识别模块,用于根据相似度值和修改结果识别出图片数据的类别,图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。
可选地,在本申请实施例中,图片识别装置,还包括:模态数据获取模块,用于从社区平台系统的数据库中获取多模态数据;或者,模态数据接收模块,用于接收社区平台系统的服务器发送的多模态数据。
可选地,在本申请实施例中,相似度值计算模块,包括:模型处理子模块,用于使用对比文本图像的预训练CLIP模型计算出文本数据与图片数据之间的相似度值。
可选地,在本申请实施例中,修改结果获得模块,包括:修改识别子模块,用于根据图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对图片数据进行修改识别。
可选地,在本申请实施例中,图片类别识别模块,包括:相似度值判断子模块,用于判断修改结果和相似度值是否满足预设条件,预设条件包括:修改结果为图片数据被修改过,且相似度值大于预设阈值;AIGC图片确定子模块,用于若修改结果和相似度值满足预设条件,则将图片数据的类别确定为人工智能生成内容AIGC图片。
可选地,在本申请实施例中,图片类别识别模块,还包括:UGC图片确定子模块,用于若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值,则将图片数据的类别确定为用户生成内容UGC图片。
可选地,在本申请实施例中,图片类别识别模块,包括:原始采集图片确定子模块,用于若修改结果为图片数据没有被修改过,则将图片数据的类别确定为原始采集图片。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的图片识别方法的流程示意图;
图2示出的本申请实施例提供的计算相似度值的过程示意图;
图3示出的本申请实施例提供的图片识别装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请实施例中的附图仅起到说明和描述的目的,并不用于限定本申请实施例的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请实施例中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请实施例内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请实施例的一部分,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例的选定实施例。
可以理解的是,本申请实施例中的“第一”“第二”用于区别类似的对象。本领域技术人员可以理解“第一”“第二”等字样并不对数量和执行次序进行限定,并且“第一”“第二”等字样也并不限定一定不同。在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
在介绍本申请实施例提供的图片识别方法之前,先介绍本申请实施例中所涉及的一些概念:
图片识别(Image Recognition),又被称为图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标对象的技术;其中,常见的图像识别任务例如:字符识别、目标检测和语义分割图像等等。
用户生产内容(User Generated Content,UGC),是指以用户需求为起点,人人都可以在平台中发布内容,然后由系统审核或者人工审核通过以后,就可以在平台中展示,以这种方式生产的内容(例如文字数据或图片数据)就可以称之为UGC。
需要说明的是,本申请实施例提供的图片识别方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的终端设备或者服务器,终端设备例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该图片识别方法适用的应用场景,这里的应用场景包括但不限于:在由注册用户发布文字和图片的社区图文治理场景下,可以使用该图片识别方法来识别出用户发布的图片数据的类别,此处的图片数据类别包括但不限于:AIGC图片或UGC图片等。上述的社区图文治理场景包括但不限于:传统的问答社区、短视频创作平台、文字图片发布平台、知识管理系统或者内容管理系统(Content Management System,CMS)等等。在这种社区图文治理场景中,大部分都是采用了发布内容的奖励机制,为了减小平台的审核压力,可以识别出AIGC图片的类别,然后对生成AIGC图片的用户进行提醒和禁止发布(一段时间)等操作,从而增加平台中的图片数据是UGC图片的概率。
请参见图1示出的本申请实施例提供的图片识别方法的流程示意图;该图片识别方法的主要思路是,通过计算出多模态数据中的文本数据与图片数据之间的相似度值,并根据该相似度值和该图片数据的修改结果来确定图片数据的类别,有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。上述图片识别方法的实施方式可以包括:
步骤S110:计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值。
多模态数据指的是来自不同感知模态(例如图片、文本/或语音等)表达的多种类型数据的组合,多模态数据可以提供更加丰富的信息,例如:在传统的问答社区或者文字图片发布平台中,通常在提问内容中除了增加文本数据之外,还会增加图片数据,此处的文本数据和图片数据可以理解为上面多模态数据。
可以理解的是,上述多模态数据中的文本数据与的图片数据之间的相似度值表示该文本数据与的图片数据在语义上的相关性,在具体实践过程中发现,通常AIGC技术同时生成文本数据和图片数据时,文本数据与的图片数据之间的相似度值会比较高(例如相似度值大于预设阈值0.8),而用户生成内容UGC中的文本数据与的图片数据之间的相似度值会比较低(例如相似度值小于预设阈值0.8)。因此,可以根据表示语义上的相关性的相似度来区分出AIGC图片和UGC图片这两种类别。
步骤S120:对图片数据进行修改识别,获得修改结果。
可以理解的是,图片数据是否被修改是指是否对相机拍照获得的原始采集图片进行修改,例如:用户使用Photoshop软件或者图像修改软件对原始采集图片进行修改,或者,用户使用stablediffusion工具对原始采集图片或者修改后的图像进行修改。
步骤S130:根据相似度值和修改结果识别出图片数据的类别,图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。
可以理解的是,如果图片数据没有被修改,那么说明该图片仍然是原始采集图片,因此,可以将图片数据的类别确定为原始采集图片。如果图片数据已经被修改过,那么可以根据表示语义上的相关性的相似度来区分出AIGC图片和UGC图片这两种类别,例如:若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值(例如0.8),则将图片数据的类别确定为用户生成内容UGC图片;若修改结果为图片数据被修改过,且相似度值大于预设阈值(例如0.8),则将图片数据的类别确定为人工智能生成内容AIGC图片。
在上述方案的实现过程中,通过计算出多模态数据中的文本数据与图片数据之间的相似度值,并根据该相似度值和该图片数据的修改结果来确定图片数据的类别,改善了通过图片数据的修改结果来进行图片识别的准确率较低的情况,有效地利用了文本数据与图片数据之间的相似度值来提高图片识别的准确率。
作为上述图片识别方法的一种可选实施方式,在计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值之前,还可以先获取多模态数据,该实施方式包括但不限于:
第一种实施方式,电子设备从社区平台系统的数据库中获取多模态数据,例如:电子设备从社区平台系统的关系型数据库或者非关系型数据库中获取多模态数据,其中,可以使用的关系型数据库例如:Mysql、PostgreSQL、Oracle和SQLSever等,可以使用的非关系型数据库包括:grakn数据库、Hadoop子系统HBase、MongoDB和CouchDB等。如果是从关系型数据库中获取多模态数据,还可以通过关系型数据库的二进制日志(binlog)来恢复出多模态数据。
第二种实施方式,电子设备接收社区平台系统的服务器发送的多模态数据,例如:电子设备通过传输控制协议(Transmission Control Protocol,TCP)或者用户数据报协议(User Datagram Protocol,UDP)接收社区平台系统的服务器发送的多模态数据。可以理解的是,社区平台系统的服务器中存储的多模态数据可以是用户通过终端设备的应用程序接口(Application Programming Interface,API)提交或发布的。
作为上述步骤S110的一种可选实施方式,可以采用模型来计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值,该实施方式可以包括:
步骤S111:使用样本数据集训练对比文本图像的预训练(Contrastive Language-Image Pre-training,CLIP)模型,该样本数据集包括文本数据和图片数据。
上述步骤S111的实施方式例如:在社区图文治理场景的社区平台系统中,可以从数据库或者服务器中获取图片数据和文字数据,并将图片数据和文字数据打包成用于训练CLIP模型的样本数据集,然后,使用样本数据集来训练CLIP模型。
步骤S112:使用对比文本图像的预训练CLIP模型计算出文本数据与图片数据之间的相似度值。
由于CLIP模型通过联合学习图片数据的表示和文字数据的表示,将图片数据和文字数据映射到同一共享空间中,使得相似的图片数据和文本数据在该共享空间中距离较近,不相似的则距离较远。因此,可以通过CLIP模型来计算文本数据与图片数据在这个共享空间中的相似度值,该相似度值可以衡量它们之间在语义上的相关性联系。
请参见图2示出的本申请实施例提供的计算相似度值的过程示意图;上述步骤S112的实施方式例如:CLIP模型使用了两个不同的编码器来处理图片数据和文本数据,分别是图像编码器来处理图片数据,以及文本编码器来处理文本数据。首先,使用CLIP模型中的图像预处理函数对图片数据进行预处理,获得预处理后的图像,例如:用Python图像(Python Imaging Library,PIL)库对图片数据进行加载(Load)、调整大小和裁剪,以适应CLIP模型的输入要求,并将其转换为模型所需的张量格式,获得预处理后的图像。然后,将预处理后的图像输入到CLIP模型的图像编码器(Image Encoder)中,获得图片特征向量。然后使用CLIP模型的分词函数对文本数据进行分词和编码,并将文本数据的字符串转换为整数表示的标记序列,然后将该标记序列输入到CLIP模型的文本编码器(Text Encoder)中,获得文本特征向量。最后,利用余弦相似度或欧氏距离等算法,将图片特征向量和文本特征向量进行相似度计算,获得文本数据与图片数据之间的相似度值(例如:该相似度可以是余弦相似度或者根据欧式距离计算出来的相似度)。
可选地,在具体实践过程中,还可以将相似度值进行打标签,即将相似度值按照范围区间进行标记,例如:当相似度值在0.7至1的范围内时,表示文本数据与图片数据在大部分方面是相似的,有一些细微的差异。当相似度值在0.3至0.7的范围内时,表示文本数据与图片数据在一些方面是相似的,有一些方面的差异。当相似度值在0至0.3的范围内时,表示文本数据与图片数据在大部分方面存在一些差异。
作为上述步骤S120的一种可选实施方式,对图片数据进行修改识别的实施方式可以包括:
步骤S121:根据图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对图片数据进行修改识别,获得修改结果。
修改结果,是指图片数据是否存在篡改、修改、伪造或编辑过的识别结果,也就是说,该图片数据是否是将原始采集图片进行修改获得的,上述的修改结果可以是图片数据被修改过,或者,图片数据没有被修改过。
上述步骤S121的实施方式包括但不限于:
第一种篡改检测方式,使用基于图像结构的检测算法、基于纹理分析的算法、基于光照一致性的算法对图片数据进行篡改识别,获得修改结果。
第二种拼接检测方式,使用基于边缘一致性的检测算法、基于纹理一致性的算法对图片数据进行拼接识别,获得修改结果。
第三种重采样原图检测方式,使用基于离散余弦变换(Discrete CosineTransform,DCT)、小波变换和频域统计特征的检测算法来检测图片数据是否是原始采集图片。
第四种模糊检测方式,使用基于边缘锐化、基于频域分析的检测算法、图像对比度的检测算法来对图片数据进行模糊窜改检测。
第五种光源真实性检测方式,使用基于颜色一致性、基于光照估计和光照模型的检测算法来确定该图片数据中的光源光影是否真实,若该图片数据中的光源光影是真实的,则确定该图片数据是没有被修改过的。
第六种压缩块边界或统计特征检测方式,使用基于JPEG压缩参数、基于压缩块边界和基于JPEG估计的统计特征检测算法等,对JPEG格式的图片数据进行篡改检测,获得修改结果。
作为上述步骤S130的一种可选实施方式,根据相似度值和修改结果识别出图片数据的类别的实施方式可以包括:
步骤S131:判断修改结果和相似度值是否满足预设条件,预设条件包括:修改结果为图片数据被修改过,且相似度值大于预设阈值。
步骤S132:若修改结果和相似度值满足预设条件,则将图片数据的类别确定为人工智能生成内容AIGC图片。
上述步骤S131至步骤S132的实施方式例如:假设预设阈值为0.8,那么可以使用预设编程语言编译或者解释的可执行程序判断修改结果和相似度值是否满足预设条件,该预设条件包括:修改结果为图片数据被修改过,且相似度值大于预设阈值。其中,可以使用的编程语言例如:C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。
作为上述步骤S130的一种可选实施方式,在判断修改结果和相似度值是否满足预设条件之后,还包括:
步骤S133:若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值,则将图片数据的类别确定为用户生成内容UGC图片。
上述步骤S133的实施方式例如:若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值,则电子设备使用预设编程语言编译或者解释的可执行程序,将图片数据的类别标记确定为用户生成内容UGC图片,即将该图片数据的类别打上UGC图片的标签。
作为上述步骤S130的一种可选实施方式,根据相似度值和修改结果识别出图片数据的类别,包括:
步骤S134:若修改结果为图片数据没有被修改过,则将图片数据的类别确定为原始采集图片。
上述步骤S134的实施方式例如:若修改结果为图片数据没有被修改过,则电子设备使用预设编程语言编译或者解释的可执行程序,将图片数据的类别确定为原始采集图片,即将该图片数据的类别打上原始采集图片的标签。其中,可以使用的编程语言例如:C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。
请参见图3示出的本申请实施例提供的图片识别装置的结构示意图;本申请实施例提供了一种图片识别装置200,包括:
相似度值计算模块210,用于计算多模态数据中的文本数据与多模态数据中的图片数据之间的相似度值。
修改结果获得模块220,用于对图片数据进行修改识别,获得修改结果。
图片类别识别模块230,用于根据相似度值和修改结果识别出图片数据的类别,图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。
可选地,在本申请实施例中,图片识别装置,还包括:
模态数据获取模块,用于从社区平台系统的数据库中获取多模态数据;或者,
模态数据接收模块,用于接收社区平台系统的服务器发送的多模态数据。
可选地,在本申请实施例中,相似度值计算模块,包括:
模型处理子模块,用于使用对比文本图像的预训练CLIP模型计算出文本数据与图片数据之间的相似度值。
可选地,在本申请实施例中,修改结果获得模块,包括:
修改识别子模块,用于根据图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对图片数据进行修改识别。
可选地,在本申请实施例中,图片类别识别模块,包括:
相似度值判断子模块,用于判断修改结果和相似度值是否满足预设条件,预设条件包括:修改结果为图片数据被修改过,且相似度值大于预设阈值。
AIGC图片确定子模块,用于若修改结果和相似度值满足预设条件,则将图片数据的类别确定为人工智能生成内容AIGC图片。
可选地,在本申请实施例中,图片类别识别模块,还包括:
UGC图片确定子模块,用于若修改结果为图片数据被修改过,且相似度值小于或等于预设阈值,则将图片数据的类别确定为用户生成内容UGC图片。
可选地,在本申请实施例中,图片类别识别模块,包括:
原始采集图片确定子模块,用于若修改结果为图片数据没有被修改过,则将图片数据的类别确定为原始采集图片。
应理解的是,该装置与上述的图片识别方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质330,该计算机可读存储介质330上存储有计算机程序,该计算机程序被处理器310运行时执行如上的方法。其中,计算机可读存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。此外,在本说明书的描述中,参考术语“一个实施例”“一些实施例”“示例”“具体示例”“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种图片识别方法,其特征在于,包括:
计算多模态数据中的文本数据与所述多模态数据中的图片数据之间的相似度值;
对所述图片数据进行修改识别,获得修改结果;
根据所述相似度值和所述修改结果识别出所述图片数据的类别,所述图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。
2.根据权利要求1所述的方法,其特征在于,在所述计算多模态数据中的文本数据与所述多模态数据中的图片数据之间的相似度值之前,还包括:
从社区平台系统的数据库中获取所述多模态数据;
或者,接收社区平台系统的服务器发送的所述多模态数据。
3.根据权利要求1所述的方法,其特征在于,所述计算多模态数据中的文本数据与所述多模态数据中的图片数据之间的相似度值,包括:
使用对比文本图像的预训练CLIP模型计算出所述文本数据与所述图片数据之间的相似度值。
4.根据权利要求1所述的方法,其特征在于,所述对所述图片数据进行修改识别,包括:
根据所述图片数据的纹理一致性、光照一致性、颜色一致性、边缘一致性、压缩块边界或统计特征对所述图片数据进行修改识别。
5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度值和所述修改结果识别出所述图片数据的类别,包括:
判断所述修改结果和所述相似度值是否满足预设条件,所述预设条件包括:所述修改结果为所述图片数据被修改过,且所述相似度值大于预设阈值;
若是,则将所述图片数据的类别确定为人工智能生成内容AIGC图片。
6.根据权利要求5所述的方法,其特征在于,在所述判断所述修改结果和所述相似度值是否满足预设条件之后,还包括:
若所述修改结果为所述图片数据被修改过,且所述相似度值小于或等于预设阈值,则将所述图片数据的类别确定为用户生成内容UGC图片。
7.根据权利要求1所述的方法,其特征在于,所述根据所述相似度值和所述修改结果识别出所述图片数据的类别,包括:
若所述修改结果为所述图片数据没有被修改过,则将所述图片数据的类别确定为原始采集图片。
8.一种图片识别装置,其特征在于,包括:
相似度值计算模块,用于计算多模态数据中的文本数据与所述多模态数据中的图片数据之间的相似度值;
修改结果获得模块,用于对所述图片数据进行修改识别,获得修改结果;
图片类别识别模块,用于根据所述相似度值和所述修改结果识别出所述图片数据的类别,所述图片数据的类别包括:人工智能生成内容AIGC图片、用户生成内容UGC图片和原始采集图片。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311048949.4A CN117078970A (zh) | 2023-08-18 | 2023-08-18 | 一种图片识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311048949.4A CN117078970A (zh) | 2023-08-18 | 2023-08-18 | 一种图片识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078970A true CN117078970A (zh) | 2023-11-17 |
Family
ID=88705601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311048949.4A Pending CN117078970A (zh) | 2023-08-18 | 2023-08-18 | 一种图片识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078970A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765133A (zh) * | 2024-02-22 | 2024-03-26 | 青岛海尔科技有限公司 | 生成文本的修正方法及装置、存储介质、电子设备 |
-
2023
- 2023-08-18 CN CN202311048949.4A patent/CN117078970A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765133A (zh) * | 2024-02-22 | 2024-03-26 | 青岛海尔科技有限公司 | 生成文本的修正方法及装置、存储介质、电子设备 |
CN117765133B (zh) * | 2024-02-22 | 2024-05-24 | 青岛海尔科技有限公司 | 生成文本的修正方法及装置、存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304835B (zh) | 文字检测方法和装置 | |
US11373390B2 (en) | Generating scene graphs from digital images using external knowledge and image reconstruction | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
CN112465828B (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
CN111489401B (zh) | 一种图像颜色恒常性处理方法、系统、设备和存储介质 | |
CN109285181B (zh) | 用于识别图像的方法和装置 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
CN117078970A (zh) | 一种图片识别方法、装置、电子设备及存储介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN110610131B (zh) | 人脸运动单元的检测方法、装置、电子设备及存储介质 | |
CN111783734B (zh) | 原版视频识别方法及装置 | |
CN111898544B (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN112613373A (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN114266901A (zh) | 文档轮廓提取模型构建方法、装置、设备及可读存储介质 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN114329024A (zh) | 一种iconfont图标搜索方法和系统 | |
CN113240723A (zh) | 一种单目深度估计方法、装置以及深度评估设备 | |
CN112232431A (zh) | 水印检测模型训练方法、水印检测方法、系统、设备及介质 | |
CN117540306B (zh) | 一种多媒体数据的标签分类方法、装置、设备及介质 | |
CN110909688B (zh) | 人脸检测小模型优化训练方法、人脸检测方法及计算机系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |