CN115937574A - 敏感图片检测方法、装置、存储介质及终端 - Google Patents

敏感图片检测方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN115937574A
CN115937574A CN202211369504.1A CN202211369504A CN115937574A CN 115937574 A CN115937574 A CN 115937574A CN 202211369504 A CN202211369504 A CN 202211369504A CN 115937574 A CN115937574 A CN 115937574A
Authority
CN
China
Prior art keywords
picture
sensitive
category
detected
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211369504.1A
Other languages
English (en)
Inventor
潘宣辰
赵腾
胡雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Antiy Mobile Security Co ltd
Original Assignee
Wuhan Antiy Mobile Security Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Antiy Mobile Security Co ltd filed Critical Wuhan Antiy Mobile Security Co ltd
Priority to CN202211369504.1A priority Critical patent/CN115937574A/zh
Publication of CN115937574A publication Critical patent/CN115937574A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明实施例提供一种敏感图片检测方法、装置、存储介质及终端,所述方法包括:将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。本发明通过图像敏感信息检测和文本敏感信息检测相结合的方法,对移动设备中的敏感图片进行检测,可以高效准确的识别敏感图片。

Description

敏感图片检测方法、装置、存储介质及终端
技术领域
本发明设涉及图像处理、计算机视觉、机器学习、自然语言处理等技术领域,尤其涉及一种敏感图片检测方法、装置、存储介质及终端。
背景技术
随着计算机技术的发展,无线通信技术已经从4G时代迈向5G 时代,相比于过去,移动通信也逐渐取代PC成为人们远程沟通和娱乐的主要方式,大量的各种各样的图片在移动设备上通过互联网进行传输,其中可能参杂着各种敏感图片,而用户在浏览图片时,很难识别大量的图片中是否包含敏感图片或图片内文字是否包含敏感内容,因此移动端敏感图片的检测面临着前所未有的挑战,需要提供一种能够将图片提取内容并识别是否为敏感图片的方法。如今移动设备硬件水平迅猛发展,大规模GPU的并行计算能力飞速提高,进而使得移动端应用机器学习技术解决计算机视觉中的问题成为可能。
发明内容
本发明实施例提供了一种敏感图片检测方法、装置、存储介质及终端,可以高效准确的识别移动设备中存在的敏感图片。
第一方面,本发明实施例提供了一种敏感图片检测方法,包括:
将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
第二方面,本发明实施例提供了一种敏感图片检测装置,包括:
第一检测模块,用于将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
第二检测模块,用于若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述第一个方面所述的方法步骤。
第四方面,本发明实施例提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的方法步骤。
本发明实施例提供了一种敏感图片检测方法,包括:将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。本发明通过图像敏感信息检测和文本敏感信息检测相结合的方法,对移动设备中的敏感图片进行检测,可以高效准确的识别敏感图片。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种敏感图片检测方法流程图;
图2为本发明实施例提供的一种敏感图片分类模型训练流程图;
图3为本发明实施例提供的一种敏感图片检测装置的结构示意图;
图4为本发明实施例提供的一种终端的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明实施例提供的一种敏感图片检测方法流程图。如图 1所示,本发明实施例的所述方法可以包括以下步骤:
S101,将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
S102,若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
当移动设备中有大量的图片进行流转和传播时,其中可能包含暴恐、政治、军事等敏感信息,因此需要对移动设备中的图片进行敏感检测。但图片可以是包括图像内容的图片,包括文本信息的图片和同时包括文本信息和图像内容的图片,因此敏感信息也包括图像类敏感信息和文本类敏感信息,单独的对图片进行图像类敏感信息检测或文本类敏感信息检测均无法完全的检出敏感图片。因此,本发明实施例中,当对待检测图片进行敏感检测时,首先利用敏感图片分类模型确定待检测图片是否为敏感图片类别,即是否包括图像敏感信息,若是,则可确定待检测图片是敏感图片;若图片为文档类图片,不包括图像敏感信息,则需要进一步提取图片中文字内容,利用敏感词检测模型确定图片中的文字内容是否包含敏感信息,进而确定图片是否为敏感图片。此种方法利用图像敏感信息检测和文本敏感信息检测相结合,可以准确高效的识别敏感图片。
本发明实施例中,在将待检测图片输入到敏感图片分类模型之前,首先需要通过训练得到敏感图片分类模型,具体训练过程可参考图2,图2为本发明实施例提供的一种敏感图片分类模型训练流程图。
S201,确定图片数据集,将所述图片数据集中的每张图片进行标注分类,确定所述每张图片的图片类别。
可选地,进行模型训练需要一定量的数据。本发明实施例中是训练敏感图片分类模型,因此需要获取一定量的图片数据,具体数量可根据实际情况自由设置,例如可选取5万张左右的图片以供模型训练,此处不作限定。图片可通过公开渠道或被许可渠道获取,如网络图片、手机实拍图片、新闻报道图片等,此处不作限定。
可选地,进行分类模型训练时,需要将多种类型的数据输入分类模型进行训练。因此本发明实施例中,进行敏感图片分类模型训练时,除了确保图片的数量,还要确保图片的种类,例如可选取军装类图片、文档类图片和其他类图片等。其中,军装类图片可从军种出发,包括海军、陆军、空军等,可从场景出发,包括训练、站岗、演习等;文档类图片则是图片中包含较多文字的图片等。获取的图片的类别可根据实际情况设定特定类型,此处不作限定。
可选地,根据上述描述,可选取多种与特定关键字相关的5万张左右的图片,确定为图片数据集,由于图片数据集中包含多种类型的图片,为了供后续模型训练,需要对图片数据集中的每张图片进行标注,确定每张图片的图片类别。
具体地,可将图片数据集中所有图片的图片类别分为n种,n>1,且n为整数,图片类别分别为A1、A2、…、An,n的具体数值可根据情况自由设定,此处不作限定。本发明实施例是进行敏感图片检测,并包括图像敏感信息和文本敏感信息,所以最终将图片分为敏感类别、文档类别以及其他类别三类,但图片数据集中的n种类别的图片中,为敏感类别的图片又包含多种情况,如军装类图片、红头文件类图片等,因此具体将A1、A2、…、An-2归为敏感类别、An-1归为文档类别、An归为其他类别。
可选地,确定图片数据集所有图片的图片类别后,对每张图片进行标注,确定其具体类别,可利用多重确认法,例如A,B,C三方, A方和B方对同一张图片标注结果相同,类别为A1,则该图片为A1 类别,如果两人标注的结果不同,再由C进行确认标注,确定最终图片类别,具体方式可自由选择,此处不作限定。
S202,将所述每张图片转换为预设格式,将转换格式后的所述图片数据集分为训练集和测试集。
本发明实施例中,确定图片数据集中每张图片的图片类别后,由于图片的来源和类别均有多种,所以每张图片的大小、格式等信息均可能不同,为了便于模型训练,需将每张图片进行预处理,转换为统一的格式。因此可根据情况设定一个预设格式,将图片数据集中的每张图片转换为统一的预设格式。
具体地,首先为统一图片的大小并保证图片处理过程中在不同的终端保持一致,可利用Opencv、最近邻插值算法等方法将图片压缩为预设大小,如长宽为224*224,具体的压缩方法和大小可自由设置,此处不作限定。敏感图片中的敏感信息包括图像敏感信息和文本敏感信息,敏感分类模型主要是对图像敏感信息的检测,而图片中的图像由红、绿、蓝三通道像素构成,因此可进一步将压缩为预设大小的图片转换为RGB三通道像素值格式,如224*224*3,并为了便于计算将上述数据经过归一化处理,最终将图片转换为预设格式。具体的预设格式和转换方法均可自由设置,此处不作限定。然后将转换为预设格式的图片数据集划分为训练集和测试集,划分比例可采用7:3或 8:2等,此处不作限定。
S203,将所述训练集输入设定的机器学习模型中进行训练,得到敏感图片分类训练模型。
本发明实施例中,根据设定的比例将图片数据集划分为训练集和测试集后,训练集和测试集中都均匀的包含各种类别的图片,然后将训练集输入到设定的机器学习模型中进行模型训练,以得到敏感图片分类训练模型,考虑到主要是针对移动端进行敏感图片检测,设定的机器学习模型可选择MobileNet网络模型,如MobileNetV1网络模型、MobileNetV2网络模型等,此处不作限定。
S204,将所述测试集输入所述敏感图片分类训练模型,得到所述测试集中每张图片的预测类别,将所述每张图片的预测类别与所述每张图片的类别进行对比,得到所述敏感图片分类训练模型的准确率;
S205,当所述敏感图片分类训练模型的准确率达到最优时,得到所述敏感图片分类模型。
本发明实施例中,将训练集输入到设定的机器学习模型中进行训练,得到敏感图片分类训练模型后,需要进一步确定敏感图片分类训练模型的效果,即能否准确的识别每张图片的类别,因此需要进一步利用测试集对敏感图片分类训练模型进行测试。
具体地,将测试集输入敏感图片分类训练模型,得到测试集中每张图片与上文预设的n种图片类别的相似度,如预设5种图片类别,则得到每张图片与这5种图片类别的相似度,相似度越高说明图片属于这种图片类别的可能性越大,为了确定图片属于哪种类别,针对每种预设的图片类别,设定对应的阈值,如预设5种图片类别,则设置 5个对应的阈值,然后将每张图片与这预设的5种图片类别的相似度与对应的阈值进行对比,如果某一相似度大于等于其对应图片类别的预设阈值,则说明图片属于此阈值对应的图片类别,各种图片类别对应的阈值可自由设置,此处不作限定。
根据上文可得到测试集中每张图片的预测类别,然后将测试集中每张图片的预测类别与对应的每张图片的真实类别进行对比,得到敏感图片分类训练模型的准确率。例如可根据混肴矩阵进行计算,利用测试集中每张图片的预测类别和真实类别形成混肴矩阵,计算出准确率、召回率、精准率、F值等作为评价指标,评价敏感图片分类训练模型的准确度,具体评价方式可自由设定,此处不作限定。当敏感图片分类训练模型的准确率未达到最优时,可根据时间因素及业务背景的影响,对模型的参数、迭代次数、模型结构等进行调整,重复进行训练和测试,直至敏感图片分类训练模型的准确率达到最优,此时确定为最终的敏感图片分类模型。
基于上述任一可选实施例,S101,将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片。
本发明实施例中,通过训练得到敏感图片分类模型后,将待检测图片输入敏感图片分类模型,确定待检测图片的图片类别,具体步骤包括:
S101.1,将所述待检测图片转换为预设格式,将转换格式后的所述待检测图片输入所述敏感图片分类模型,得到所述待检测图片与预设各个图片类别的相似度;
S101.2,将各个相似度与预设图片类别的预设阈值进行对比,若某个相似度大于或等于其对应图片类别的预设阈值,则确定所述待检测图片为所述对应图片类别。
本发明实施例中,由于待检测图片的来源和种类均有多种,其大小与格式也有多种情况,为了便于检测,首先需将待检测图片转换为固定格式,可与上文步骤S202一致,转换为预设格式。
可选地,由于针对图片的检测主要在移动端进行,而移动端在拍摄图片后会将图片转为横向,但在对图片进行检测时,均为正向检测,因此在将图片转换格式后,为了确保检测正确,将横向图片转换后的的格式数据进行旋转为正向,得到最终的预设格式数据。另外,由于移动终端的内存有限,在将待检测图片转换为预设格式之前,还可先利用图片重采样等方法将待检测图片等比例缩小,以减少内存占用,提高检测效率。
可选地,将待检测图片转换为预设格式后,输入敏感图片分类模型,得到待检测图片与预设的各种图片类别的相似度,如预设5种图片类别,则得到每张图片与这5种类别图片的相似度,相似度越高说明图片属于这种图片类别的可能性越大,为了确定待检测图片属于哪种类别,针对每种预设的类别,设定对应的阈值,如预设5种图片类别,则设置5个对应的阈值,然后将待检测图片与预设的5种图片类别的相似度与对应的阈值进行比较,如果某一相似度大于等于其对应图片类别的预设阈值,则说明待检测图片属于此图片类别,各种图片类别对应的阈值可自由设置,此处不作限定。根据前文可知,本发明实施例中将图片类别分为n种,n>1,且n为整数,并且分别设定为 A1、A2、…、An,但由于敏感类别的图片又包含多种情况,如军装类图片、红头文件类图片等,因此具体将A1、A2、…、An-2归为敏感类别、An-1归为文档类别、An归为其他类别。因此,确定待检测图片的具体类别后,需进一步判断待检测图片的图片类别是否属于敏感图片类别中的一种,即是否包含敏感图像信息,若是,则待检测图片为敏感图片,若不是,则进一步判断是否为文档类别图片,则需进行下一步,若不是,则为其他类别,即不是敏感图片。
基于上述任一可选实施例,S102,若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
本发明实施例中,根据上述步骤S101判断待检测图片为文档类别图片后,由于文本信息中也可能包含敏感信息,需进一步提取待检测图片中文字内容,判断文字内容中是否包含敏感信息。
可选地,首先需提取待检测图片中的文字内容,可通过基于 LSTM的OCR(OpticalCharacter Recognition,光学字符识别)技术对文档类型的图片进行文字内容的提取,具体提取方式此处不作限定。提取待检测图片中的文字内容后,将文字内容输入敏感词检测模型,得到敏感词检测结果,根据敏感词检测结果确定待检测图片是否为敏感图片,具体步骤包括:
S102.1,通过预设算法确定所述文字内容中的字符串在预设敏感词词典中的位置;
S102.2,利用敏感词检测模型将所述每个字符串与所述预设敏感词词典中对应位置的敏感词进行对比,若所述文字内容包含所述预设敏感词词典中的任一敏感词,则确定所述待检测图片的图片类别为敏感文档类别,所述待检测图片为敏感图片。
本发明实施例中,在将待检测图片的文字内容输入到敏感词检测模型中之前,需要先通过训练得到敏感词检测模型。进行敏感词检测模型的训练,首先需要选取一个用于训练的模型,例如gensim工具包word2vec模型,具体不作限定。设定好训练模型之后,还需要根据实际情况预设一个敏感词词典。首先由于实际情况中有许多词语已被停用,因此可以准备一个停用词词典,以便训练时去除停用词的干扰。而在一般的词典中,当名词比较长时,如果直接分词,很大情况下会被分开,例如:北京故宫博物院,可能会被分成:北京、故宫、博物院,这会影响模型的训练效果,因此为保证模型的准确度可采用自定义词典,最终结合停用词词典和自定义词典形成一个预设敏感词词典。确定好用于训练的预设模型和预设敏感词词典后,利用预设模型对预设敏感词词典进行训练,得到敏感词检测模型。
可选地,通过训练得到敏感词检测模型后,将提取的待检测图片中的文字内容输入敏感词检测模型,检测文字内容是否包含敏感词词典中的任一敏感词,但在检测时由于敏感词词典中包含敏感词众多,如果将文字内容中的每个词语都与敏感词词典中每个敏感词进行对比,需要花费大量的时间,因此为了提高检测效率,可以先利用预设算法确定文字内容中每个字符串在敏感词词典中的位置,预设算法可自由设定,例如Aho-Corasick算法,此处不作限定。确定文字内容中每个字符串在预设敏感词词典中的具体位置后,再利用敏感词检测模型将每个字符串与预设敏感词词典中对应位置的敏感词进行对比,若某一字符串与预设敏感词词典中对应位置的敏感词相同,即文字内容包含敏感词词典中的任一敏感词,则确定待检测图片为敏感图片,若不包含,则待检测图片为敏感图片不是敏感图片。
综上所述,本发明实施例提供了一种敏感图片检测方法,当需要对图片进行敏感检测时,将待检测图片输入训练好的敏感图片分类模型,确定待检测图片的图片类别,若图片类别为敏感类别,则确定待检测图片为敏感图片;若图片类别为文档类别,则提取待检测图片中的文字内容,确定文字内容中的每个字符串在预设敏感词词典中的位置后,利用训练好的敏感词检测模型将每个字符串与预设敏感词词典中对应位置的敏感词进行对比,若某一字符串与预设敏感词词典中对应位置的敏感词相同,即文字内容包含预设敏感词词典中的任一敏感词,则所述待检测图片为敏感图片。本发明实施例通过将图像敏感信息检测和文本敏感信息检测相结合,不仅可以准确检测敏感图片,而且大大提高了检测效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图3,为本发明实施例提供的一种敏感图片检测装置的结构示意图。
本发明实施例中的敏感图片检测装置300包括:第一检测模块 301和第二检测模块302。
第一检测模块301,用于将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
第二检测模块302,用于若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
需要说明的是,上述实施例提供的敏感图片检测装置在执行敏感图片检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的敏感图片检测装置与敏感图片检测方法实施例属于同一构思,因此对于本发明系统实施例中未披露的细节,请参照本发明上述的敏感图片检测方法的实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本发明实施例还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
图4为本发明实施例提供了的一种终端的框图。请参见图4,本发明实施例提供一种终端400,包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行如下方法,包括:将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
本发明实施例中示出的终端结构框图并不构成对终端400的限定,终端400可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种敏感图片检测方法,其特征在于,包括:
将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
2.根据权利要求1所述方法,其特征在于,所述敏感图片分类模型通过如下方法训练得到,包括:
确定图片数据集,将所述图片数据集中的每张图片进行标注分类,确定所述每张图片的图片类别;
将所述每张图片转换为预设格式,将转换格式后的所述图片数据集分为训练集和测试集;
将所述训练集输入设定的机器学习模型中进行训练,得到敏感图片分类训练模型;
将所述测试集输入所述敏感图片分类训练模型,得到所述测试集中每张图片的预测类别,将所述每张图片的预测类别与所述每张图片的图片类别进行对比,得到所述敏感图片分类训练模型的准确率;
当所述敏感图片分类训练模型的准确率达到最优时,得到所述敏感图片分类模型。
3.根据权利要求2所述方法,其特征在于,所述将所述图片数据集中的每张图片进行标注分类,确定所述每张图片的图片类别,包括:
将所述图片数据集中所有图片的图片类别分为n种,n>1,且n为整数,分别为A1、A2、…、An,其中所述A1、A2、…、An-2归为敏感类别、所述An-1归为文档类别、所述An归为其他类别。
4.根据权利要求3所述方法,其特征在于,所述将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,包括:
将所述待检测图片转换为预设格式,将转换格式后的所述待检测图片输入所述敏感图片分类模型,得到所述待检测图片与预设各个图片类别的相似度;
将各个相似度与预设图片类别的预设阈值进行对比,若某个相似度大于或等于其对应图片类别的预设阈值,则确定所述待检测图片为所述对应图片类别。
5.根据权利要求2至4任一项所述方法,其特征在于,所述将所述每张图片转换为预设格式,包括:
将所述每张图片压缩为预设大小,将压缩后的所述每张图片转换为三通道像素值,并经过归一化处理,得到所述每张图片的预设格式。
6.根据权利要求1所述方法,其特征在于,所述将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片,包括:
通过预设算法确定所述文字内容中的每个字符串在预设敏感词词典中的位置;
利用敏感词检测模型将所述每个字符串与所述预设敏感词词典中对应位置的敏感词进行对比,若所述文字内容包含所述预设敏感词词典中的任一敏感词,则确定所述待检测图片的图片类别为敏感文档类别,所述待检测图片为敏感图片。
7.一种敏感图片检测装置,其特征在于,包括:
第一检测模块,用于将待检测图片输入敏感图片分类模型,确定所述待检测图片的图片类别,若所述图片类别为敏感图片类别,则确定所述待检测图片为敏感图片;
第二检测模块,用于若所述图片类别为文档类别,则提取所述待检测图片中的文字内容,将所述文字内容输入敏感词检测模型,得到敏感词检测结果,若根据所述敏感词检测结果确定所述待检测图片的图片类别为敏感文档类别,则确定所述待检测图片为敏感图片。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法。
CN202211369504.1A 2022-11-03 2022-11-03 敏感图片检测方法、装置、存储介质及终端 Pending CN115937574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211369504.1A CN115937574A (zh) 2022-11-03 2022-11-03 敏感图片检测方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211369504.1A CN115937574A (zh) 2022-11-03 2022-11-03 敏感图片检测方法、装置、存储介质及终端

Publications (1)

Publication Number Publication Date
CN115937574A true CN115937574A (zh) 2023-04-07

Family

ID=86647958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211369504.1A Pending CN115937574A (zh) 2022-11-03 2022-11-03 敏感图片检测方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN115937574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558000A (zh) * 2023-06-14 2024-02-13 北京数美时代科技有限公司 一种敏感标志的检测方法、系统、介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558000A (zh) * 2023-06-14 2024-02-13 北京数美时代科技有限公司 一种敏感标志的检测方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
US11710293B2 (en) Target detection method and apparatus, computer-readable storage medium, and computer device
US9619735B1 (en) Pure convolutional neural network localization
KR101880004B1 (ko) 텔레비전 채널 정보를 식별하기 위한 방법 및 장치
US10282643B2 (en) Method and apparatus for obtaining semantic label of digital image
CN111476309A (zh) 图像处理方法、模型训练方法、装置、设备及可读介质
US11856277B2 (en) Method and apparatus for processing video, electronic device, medium and product
CN108366052B (zh) 验证短信的处理方法及系统
CN112580643A (zh) 一种基于深度学习的车牌识别方法、装置及存储介质
CN115443490A (zh) 影像审核方法及装置、设备、存储介质
CN103854019A (zh) 图像中的字段提取方法及装置
CN115937574A (zh) 敏感图片检测方法、装置、存储介质及终端
CN116633804A (zh) 网络流量检测模型的建模方法、防护方法及相关设备
CN115311664A (zh) 图像中文本类别的识别方法、装置、介质及设备
CN113888760B (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
US11749021B2 (en) Retrieval device, control method, and non-transitory storage medium
CN111353536B (zh) 图像的标注方法、装置、可读介质和电子设备
CN109784226B (zh) 人脸抓拍方法及相关装置
CN113033373A (zh) 用于训练人脸识别模型及识别人脸的方法及相关装置
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
CN111918137B (zh) 一种基于视频特征的推送方法、装置、存储介质及终端
CN113657230B (zh) 训练新闻视频识别模型的方法、检测视频的方法及其装置
CN113364702B (zh) 广告流量异常检测方法、系统、存储介质及电子设备
US20200219235A1 (en) Method and device for sensitive data masking based on image recognition
CN111985483A (zh) 一种拍屏文件图片检测方法、装置及存储介质
CN115422917A (zh) 一种敏感信息识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination