CN111444362B - 恶意图片拦截方法、装置、设备和存储介质 - Google Patents
恶意图片拦截方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111444362B CN111444362B CN202010245287.XA CN202010245287A CN111444362B CN 111444362 B CN111444362 B CN 111444362B CN 202010245287 A CN202010245287 A CN 202010245287A CN 111444362 B CN111444362 B CN 111444362B
- Authority
- CN
- China
- Prior art keywords
- picture
- checked
- malicious
- text
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012550 audit Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请公开了一种恶意图片拦截方法、装置、设备和存储介质,属于信息安全技术领域。该方法包括:提取待审核图片的图像指纹;若待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及待审核图片的高维度图像指纹与恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对待审核图片进行拦截;若待审核图片/的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及待审核图片的高维度图像指纹与恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则对待审核图片进行文字识别;当识别到待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截待审核图片。
Description
技术领域
本申请涉及信息安全技术领域,尤其涉及一种恶意图片拦截方法、装置、设备和存储介质。
背景技术
信息化时代,信息的传输和发布都不需进行严格监管。例如,带有恶意文字的恶意图片,通常被用来传播色情、赌博、营销信息,为了避免这些图片的传播,需要在发布前对用户要发布的图片进行审核。
在互联网行业中,恶意账号发布恶意图片是高频变化的,在实现本发明的过程中,发明人发现相关技术采用单一指纹提取算法对恶意图片拦截非常有限,只能拦截图片内容完全相同或局部内容有少量不同的图片,当恶意图片发生变化时,又无法进行准确有效的拦截。
发明内容
本申请实施例提供了一种恶意图片拦截方法、装置、设备和存储介质,在减小计算量的同时保证拦截准确性。所述技术方案如下:
一方面,提供了一种恶意图片拦截方法,所述方法包括:
提取待审核图片的图像指纹,得到所述待审核图片的低维度图像指纹和高维度图像指纹;
若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对所述待审核图片进行拦截;
若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则对所述待审核图片进行文字识别;
当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截所述待审核图片。
一方面,提供了一种恶意图片拦截装置,所述装置包括:
指纹提取模块,被配置为提取待审核图片的图像指纹,得到所述待审核图片的低维度图像指纹和高维度图像指纹;
拦截模块,被配置为若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对所述待审核图片进行拦截;
文字识别模块,被配置为若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则对所述待审核图片进行文字识别;
所述拦截模块,还被配置为当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截所述待审核图片。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述恶意图片拦截方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述恶意图片拦截方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,通过图像指纹提取对待审核图片是否为恶意图片进行初步判断,由于同时提取了待审核图片的低维度图像指纹和高维度图像指纹,这样既可以拦截完全相同的恶意图片,也可以拦截主体相同局部发生变化的恶意图片;另外,由于图像指纹提取的计算量相对较少,这种情况,恶意图片拦截所需的计算资源少,保证了在图片量较大的场景下,能够快速判断和拦截,不影响用户的图片发布,降低企业审核成本;如果初步判断不是恶意图片,则再采用文字识别的方式进行第二步判断,从而保证避免恶意图片未被识别而正常传播,保证了恶意图片拦截的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个示例性实施例的系统结构示意图;
图2为本申请一个示意性实施例的恶意图片拦截方法的流程示意图;
图3是图2中采用图像指纹进行拦截的流程示意图;
图4示出了本申请提供的业务场景示意图;
图5是本申请提供的低维度指纹的提取流程图;
图6是本申请提供的高维度指纹的提取流程图;
图7是图2中文字识别的流程示意图;
图8是本申请一个示例性实施例提供的文字检测流程图;
图9是文本检测和识别的详细流程示意图;
图10是文本聚类的详细流程示意图;
图11为本申请一个示意性实施例的恶意图片拦截方法的流程示意图;
图12为本申请实施例的恶意图片拦截装置的结构框图;
图13是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1为本申请一个示例性实施例的系统结构示意图。参见图1,该系统为一个数据传输网络,所述数据传输网络包括服务器集群10,该服务器集群10包括一个或多个拦截服务器。
该系统还包括终端20,终端20中安装有可以发送图片(发微博、朋友圈、聊天等)、在云端存储图片或采用图片作为头像等的应用,例如微博、微信、微云等。
终端20在执行发送图片、在云端存储图片或采用图片作为头像等动作时,拦截服务器10会获取到该图片,通过检测该图片是否为携带有恶意文字的恶意图片,从而确定是否进行拦截,如果确定为恶意图片,需要拦截,则终端20无法完成后续发送图片、在云端存储图片或采用图片作为头像等动作。如果确定不是恶意图片,则不需要进行拦截,则终端20可以完成上述动作。这里,恶意文字是指传播色情、赌博、营销广告、涉政言论及其他不当言论的文字。
在本公开实施例中,上述终端20包括但不限于计算机、平板电脑、手机、智能手表等设备。
在本公开实施例中,上述拦截服务器可以为云端服务器。
图2为本申请一个示意性实施例的恶意图片拦截方法的流程示意图。该方法可以由前述拦截服务器执行。如图2所示,该方法可以包括:
在步骤101中:提取待审核图片的图像指纹,得到所述待审核图片的低维度图像指纹和高维度图像指纹。
在本公开实施例中,图像指纹用于描述该待审核图片的特征,因此,通过提取待审核图片的低维度图像指纹和高维度图像指纹与恶意图片库中的图片的图像指纹进行比对,初步确定是否为恶意图片。
若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则执行步骤103;若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则执行步骤102。
在本公开实施例的一种实现方式中,第一条件可以为相似度大于阈值,第二条件可以为相似度不大于阈值。在其他实现方式中,该第一条件和第二条件还可以采用其他设定,本申请对此不做限制。
当两张图片的图像指纹相差较小时,说明两张图片具有相同或相似的特征,据此,如果所述待审核图片的图像指纹与恶意图片库中的图片的图像指纹相似度大于阈值,可以确定待审核图片为恶意图片。
在步骤102中:对所述待审核图片进行文字识别。当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,执行步骤103;否则结束流程。
通过指纹对比可以确定待审核图片是否是恶意图片库中的图片,或者与恶意图片库中的图片相近的恶意图片。但如果不属于恶意图片库中的图片,或者不是与恶意图片库中的图片相近的恶意图片,也不能排除该待审核图片不是恶意图片,因为可能是该恶意图片库中没有收录的图片。此时,可以通过文字识别的方式进一步确定该图片是否为恶意图片。若识别出该图片中存在与恶意文本内容库中文本的匹配度高于阈值的文本,依然说明该图片为恶意图片。
在步骤103中,拦截所述待审核图片。
这里,当待审核图片为恶意图片时,拦截服务器可以拦截该待审核图片,例如丢弃该图片,避免其被群发、分享、作为头像等操作,阻止了其传播。
在本申请实施例中,通过图像指纹提取对待审核图片是否为恶意图片进行初步判断,由于同时提取了待审核图片的低维度图像指纹和高维度图像指纹,这样既可以拦截完全相同的恶意图片,也可以拦截主体相同局部发生变化的恶意图片;另外,由于图像指纹提取的计算量相对较少,这种情况,恶意图片拦截所需的计算资源少,保证了在图片量较大的场景下,能够快速判断和拦截,不影响用户的图片发布,降低企业审核成本;如果初步判断不是恶意图片,则再采用文字识别的方式进行第二步判断,从而保证避免恶意图片未被识别而正常传播,保证了恶意图片拦截的准确性。
图3是图2中步骤101采用图像指纹进行拦截的流程示意图。参见图3,该流程可以包括:
在步骤201中:获取待审核图片。
在互联网时代,能够发布图片的应用均可能存在通过图片传播恶意文字的情况。因此,这里可以获取至少一个应用的待审核图片。也即,本申请的拦截服务器可以同时对一个或多个应用的图片进行拦截防护。图4示出了本申请提供的业务场景示意图,参见图4,拦截服务器可以获取(1)用户头像、(2)相册照片、(3)群聊发图、(4)朋友圈发图、(5)其他图片传播等场景下的图片进行审核。也即本申请的方案可以同时实现头像审核业务、相册审核业务、群聊发图审核业务、分享圈发图审核业务等。这里的其他图片传播场景可以是音乐软件中的个人作品封面、专辑封面等。总之一切具备传播性、互动性、交流性的图像场景都可以利用本公开的拦截方案进行准确、高效、高对抗性的图像安全拦截。
上述场景可以针对一款应用(产品),也可以是针对多款应用。
在步骤202中:对所述待审核图片进行哈希计算,得到所述待审核图片的低维度指纹。
图像指纹是一种可以用来表征图像信息唯一性和独特性的数据,一般可以采用向量来表示,不同的算法提取的图像指纹也是不同的。这里,低维度指纹也即低维度的图像指纹,表示的是图片中各个像素点的灰度间的关系。下面结合图5对低维度指纹的提取方法进行说明。
图5是本申请提供的低维度指纹的提取流程图。参见图5,步骤202可以包括:
步骤221:对待审核图片尺寸进行归一化。
该步骤是指对待审核图片通过裁剪缩放等处理,将待审核图片调整到设定的尺寸。
步骤222:对归一化后的图片进行灰度化处理。
也即将彩色图片调整为灰度图片。
步骤223:采用哈希算法对图片进行哈希计算,输出图片的低维度指纹。
在该步骤中,哈希算法也即本申请采用的低维度指纹的提取算法,该哈希算法可以采用经典的哈希算法,例如ahash、phash或dhash等算法。哈希算法通过运算提取图像像素在空间上的数值分布特点,得到低维度指纹。
在步骤203中,通过神经网络分类模型,得到所述待审核图片的高维度指纹。
高维度指纹实际包含了待审核图片的语义特征。这里的语义特征可以是指该指纹图片进行分类时,各个类别的概率。
利用深度学习技术,设计并训练了轻量化卷积神经网络(Convolutional NeuralNetworks,CNN)分类模型(比如mobilenet),然后提取其高维特征向量,该高维特征向量也即高维度指纹,高维特征向量的每个维度表示该图片在一个分类下的概率。
图6是本申请提供的高维度指纹的提取流程图。参见图6,步骤203可以包括:
步骤231:训练神经网络分类模型。
例如,采用已标记的样本数据,进行图片分类任务的训练,使得该神经网络分类模型可以完成多种类别的图片分类。
步骤232:通过神经网络分类模型,得到高维度指纹。
步骤233:采用主成分分析(Principal Components Analysis,PCA)算法对所述待审核图片的高维度指纹进行降维。
为了进一步降低后续对比计算的处理量,对高维度指纹进行PCA算法特征降维,然后利用降维后的特征作为高维度指纹进行后续对比。
在步骤204中,将所述待审核图片的低维度指纹和高维度指纹分别与所述恶意图片库中的图片的低维度指纹和高维度指纹进行对比。这里的对比实际就是计算相似度。
恶意图片库存储有多个图片及其指纹,需要将待审核图片依次与恶意图片库中的图片进行对比,直到出现相似度高于阈值的图片,或者直到恶意图片库中所有图片对比完。
本公开利用双图像指纹技术从待审核图片提取双重指纹,利用两种指纹分别的低维表征与高维表征的能力。由于同时存在两个相似度比较,可以在只采用一种指纹识别方案的基础上降低相似度比较的阈值,既可以准确地对恶意图片及其变种图片(如主体相同局部内容存在差异)进行拦截,又不会将非恶意图片拦截,相比于只采用一种指纹识别算法,实现了较好的鲁棒性和精准性。
值得说明的是,不同于文字识别形式的恶意图片拦截,本申请的恶意图片库中,除了可以包括携带恶意文字的恶意图片外,还可以携带图片本身具有恶意的图片,例如涉黄、血腥暴力等图片。因此,采用图像指纹方式进行拦截,除了可以拦截携带恶意文字的恶意图片外,还可以拦截图片本身具有恶意的图片。
图7是图2中步骤102进行文字识别的流程示意图。参见图7,该流程可以包括:
在步骤301中:检测所述待审核图片中是否有文字。当所述待审核图片中存在文字时,执行步骤302;否则,结束流程。
本申请的文字识别采用的是光学文本识别(optical character recognition,OCR)技术。当然除了OCR技术,也可以采用其他类型的图像分类识别技术或者图像描述生成技术进行文字识别,本申请对此不做限制。下面结合图8对步骤301的过程进行说明。
图8是本申请一个示例性实施例提供的文字检测流程图。如图8所示:
步骤311:通过轻量化神经网络模型,确定所述待审核图片中是否包含文字,得到确定结果。
轻量化神经网络模型也即压缩神经网络模型,通过对卷积核的改进、通道数的减少等措施,减少卷积计算的计算量,加速检测过程。轻量化神经网络模型采用轻量化的CNN神经网络,例如mobilenet网络。
轻量化神经网络模型主要考虑高效性和高召回率。高效性主要是模型处理量更小、运算速度更快,高召回率主要是在保证尽量多召回文本图像的前提下,降低误检测率,这两种特性实现主要通过轻量化网络设计和合适的阈值选择实现。
图9是文本检测和识别的详细流程示意图。参见图9,该步骤311可以包括:
步骤311A:训练轻量化神经网络模型。
例如,采用已标记的样本数据,进行图片文本检测任务的训练,使得该神经网络分类模型可以完成图片文本检测。这里,轻量化神经网络模型的结构和阈值设计均从加速检测的方向考虑。例如设计较少的通道数和较宽松的阈值等。
步骤31BA:将待审核图片输入到轻量化神经网络模型进行检测,得到检测结果。该检测结果指示是否存在文字。
步骤312:当所述确定结果为包含文字时,通过深度神经网络检测模型,确定所述待审核图片中是否包含文字以及包含文字时的文字位置。
该步骤312中,深度神经网络检测模型也即高精度文本检测模型,该模型主要考虑检测文本内容的准确性,不但可以确定是否包含文字,而且在确定包含文字的情况下还可以确定文字位置,为后续的文本识别提供基础。文字位置可以包括文本框数量以及位置坐标(如中心坐标、四角坐标等),例如图片在三个位置分别有3个词,则对应三个文本框,每个文本框具有各自的坐标。深度神经网络检测模型可以采用CNN神经网络,这里,深度神经网络检测模型的结构和阈值设计均从精确检测的方向考虑。例如设计较多的通道数和较严格的阈值等。
由于海量图像审查业务中存在文本的图片占比很少,如果采用现有主流的OCR识别技术对于计算资源的需求是巨大的,而且大部分都浪费在无文本的图片分析上。为了解决这一问题,本公开提供了一种级联设计的文本检测模型,首先利用轻量化神经网络模型对不存在文本的图片快速进行检测过滤,实现对于海量图片的快速筛选,然后对可能存在文本的图片进行高精度的文本检测,该检测的精度较高,保证了最终文本检测的准确性,因此该级联的文本检测模型在保证检测精度的情况下极大节省了不必要的计算资源。
在步骤302中:对所述待审核图片中的文字进行识别,得到文本。
在步骤301确定待审核图片中存在文字时,利用高精度的文本识别模型进行图片中的文字的识别,得到文本识别结果。
这里,高精度的文本识别模型可以采用CNN神经网络。
在步骤303中:将所述文本与恶意文本内容库进行匹配,得到匹配度。
如果识别到文本内容,则将文本与已经建立的恶意文本内容库进行智能匹配算法判断。例如,先将文本向量化,然后通过计算向量间的距离作为匹配度。恶意文本内容库包括携带恶意的文字的文本,这些文本可以是从人工加入的,也可以是从其他数据库导入的,也可以是本申请的拦截过程中获取到加入的。
通过将所述文本与恶意文本内容库进行匹配,得到匹配度,避免所有文本都需要进行审核。
在步骤304中:如果匹配度高于阈值,则确定所述文本包含恶意文字。否则,结束流程。
在步骤305中:当所述待审核图片中存在文字时,对所述待审核图片的文本信息进行存储。
这里,所述待审核图片的文本信息包括以下至少一种:文本中的文字位置、文本内容、恶意关键词。
图10是文本聚类的详细流程示意图。参见图10,将待审核图片的文本信息进行存储。
在步骤306中:对存储的多张所述待审核图片的文本信息进行聚类。
再次参见图10,由于存在文字位置、文本内容、恶意关键词三种信息,因此聚类时,可以分别进行聚类,例如,将文字位置相同的图片进行聚类,得到聚类内容;或者,将文本内容相同或相似的进行聚类,得到聚类内容;或者,将具有相同恶意关键词的图片进行聚类,得到高危内容。
在该步骤中,同一类别的图片具有相同的文字信息。这里,对于文字位置相同的图片而言,由于其位置信息包括文本框数量以及位置坐标,当位置信息完全相同时,说明携带的文字内容也相同,因此通过位置信息聚类,也可以将相同文字的图片聚类到一起。
另外,还可以按照聚类的图片数量进行打分,得到高频聚类内容,数量越多得分越高。对于具有恶意关键词的图片分类,还可以按照关键词的恶意程度进行打分。得分越高的类型,可以优先进行展示,从而使得审核人员进行优先审核。
在步骤307中:从同一类别中选取至少一张所述待审核图片进行展示。
由于聚类后图片具有相同的文字信息,因此从中挑选1张或几张进行审核,即可确定这一类图片是否含有恶意文字。
在步骤308中:接收审核人员基于展示的所述待审核图片的审核结果。
这里,步骤307和步骤308也可以采用机器审核的方式来完成,例如采用自然语言处理(NLP)算法对同一类别的图片中的文本进行审核,确定是否存在恶意。然后并基于机器审核的结果来确定是否为恶意图片。
在步骤309中:当所述审核结果为恶意图片时,将所述待审核图片的文本加入所述恶意文本内容库,将所述待审核图片加入所述恶意图片库;将所述待审核图片加入所述恶意图片库。
另外,在步骤301的同时还可以对这一类图片进行拦截处理,防止该图片未在步骤303和304的过程被拦截。
通过步骤305~步骤309,可以将文本内容相同和十分相似的文本内容进行聚集,使得人工审核时,只需要对一类中的极少数进行审核,具有对抗小变化变种的作用;对高频聚类内容和恶意打分内容图像进行排序,然后通知人工审核进行高频高危内容的审核确认,人工将恶意的内容文本和图片分别加入恶意文本内容库和恶意图片库,使得恶意图像可以在后续用图像指纹方式拦截,实现了恶意图片的自动加入恶意文本内容库和恶意图片库功能,避免了人工审核后再由人工加入造成的滞后性,以及解决了人工难以获得近期高频恶意图片的难点。同时,这种方案可以对抗恶意图片高频变化的特点,使得该方案具有高对抗性,本申请中的图像指纹技术依赖于恶意图片库中存在的恶意内容,所以对于新出现的恶意图片内容无法做到及时对抗,而配合上前述分析聚类审核技术可以快速发现新出现的恶意内容,再反馈加入到恶意图片库中,可以极大提高对抗性,实现对出现变种以及动态更新的恶意图片的拦截能力。
另外,在本公开中,步骤305~步骤309的聚类打分审核过程可以和步骤303的匹配过程可以同时进行,因为,即使步骤303中与恶意文本内容库进行匹配的结果是存在恶意文字,但也不能说明这里的恶意文字存在于恶意文本内容库,以及该恶意图片存在于恶意图片库。因此,需要在步骤303的同时执行步骤305~步骤309,保证恶意文本内容库和恶意图片库的完整性,为后续判断节省时间。
例如,恶意文本内容库包括“加微信1234567”,新出现的恶意文字是“加微信12345678”,虽然基于恶意文本内容库可以对“加微信12345678”进行拦截,但是如果下次再出现恶意文字是“加微信123456789”,则可能无法再拦截。而如果本次将“加微信12345678”加入恶意文本内容库,则可以保证下次对“加微信123456789”的拦截。
图11为本申请一个示意性实施例的恶意图片拦截方法的流程示意图。该方法可以由前述拦截服务器执行,该方法与图2所示方法的区别包括在指纹提取前采用去重处理,以及在拦截后进行账号打击及拦截信息记录。如图11所示,该方法可以包括:
在步骤401中:计算所述待审核图片的消息摘要算法(Message DigestAlgorithm,MD)5值。
由于恶意图片常常都是大量反复出现的,因此对完全相同的图片反复进行算法分析是十分浪费资源和效率的,而MD5值的计算量小,且可以唯一表示一张图片,因此,采用MD5值可以完成图片去重,使得与恶意图片库中完全一样的图片可以不计算指纹,直接进行过滤。大大提高了整个体统的效率,降低了成本。
在步骤402中:将所述待审核图片的MD5值与恶意图片MD5值库中的MD5值进行比较;当所述待审核图片的MD5值与恶意图片MD5值库中的任一个MD5值相同时,执行步骤406;当所述待审核图片的MD5值与恶意图片MD5值库中的所有MD5值均不相同时,执行步骤403。
这里的恶意图片MD5值库中保存了恶意图片库中各恶意图片的MD5值,所以当恶意图片库更新时,这里的恶意图片MD5值库也需要相应地更新。
恶意图片MD5值库可以采用Key-Value的方式存储,其中Key为图片,Value为MD5值。
在步骤403中:提取待审核图片的图像指纹,得到所述待审核图片的低维度图像指纹和高维度图像指纹。
该步骤的详细过程可以参见前述步骤101。
在步骤404中:将所述待审核图片的图像指纹与恶意图片库中的图片的图像指纹进行对比。若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则执行步骤406;若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则执行步骤405。
该步骤的详细过程可以参见前述步骤101。
在步骤405中:对所述待审核图片进行文字识别。当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,执行步骤406,否则结束流程。
该步骤的详细过程可以参见前述步骤103。
在步骤406中,拦截所述待审核图片。
该步骤的详细过程可以参见前述步骤104。
在步骤407中,对发布待审核图片的用户进行账号打击处理。例如,对该账号后续发布的图片进行直接拦截过滤,或者进行账号处罚或者封号处理。
在步骤408中,在拦截所述待审核图片时,对拦截记录信息进行存储。
每次拦截都会更新拦截记录信息。拦截记录信息可以包括时间、拦截的图片、原因、用户等。拦截原因可以为MD5值拦截、指纹拦截、OCR识别拦截等。
通过记录拦截记录信息,可以在用户申诉时,调取记录对用户申诉进行审核。另外,还可以利用拦截记录信息进行恶意图片的统计分析。
本申请实施例通过的图片拦截方法可以精准、高效、高对抗性的应对海量图像安全审查业务,关键在于图片去重拦截模块、图片指纹拦截模块、OCR识别聚类拦截模块的层层配合。一方面,这三个模块的流程越靠前复杂度越低,效率越高,能够快速应对更多的分析处理量。另一方面,越靠后的模块提供更多更精准的信息,而且可以为前面的模块提供拦截依据,因此在应对实际海量业务时,计算成本大大降低,并且不会牺牲任何拦截性能。另外,本公开提供的方案通过双重指纹拦截,对于恶意图片的变种具有高对抗能力;同时通过对图片进行聚类打分,然后通过人工审核后自动将具有恶意的图片加入恶意文本内容库和恶意图片库,解决了恶意图片变种变化周期短的难题。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图12为本申请实施例的恶意图片拦截装置的结构框图。该装置可以实现成为调度中心设备全部或一部分。如图12所示,该装置包括:指纹提取模块501、拦截模块502和文字识别模块503。
指纹提取模块501,被配置为提取待审核图片的图像指纹,得到所述待审核图片的低维度图像指纹和高维度图像指纹;
拦截模块502,被配置为若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对所述待审核图片进行拦截;
文字识别模块503,被配置为若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则对所述待审核图片进行文字识别;
所述拦截模块502,还被配置为当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截所述待审核图片。
可选地,所述指纹提取模块501,包括:
低维度指纹提取子模块511,被配置为对所述待审核图片进行哈希计算,得到所述待审核图片的低维度指纹;
高维度指纹提取子模块512,被配置为通过神经网络分类模型,得到所述待审核图片的高维度指纹。
可选地,所述文字识别模块503,包括:
文字检测子模块541,被配置为通过轻量化神经网络模型,确定所述待审核图片中是否包含文字,得到确定结果;当所述确定结果为包含文字时,通过深度神经网络检测模型,确定所述待审核图片中是否包含文字以及包含文字时的文字位置。
可选地,所述文字识别模块503还包括:
文本信息存储子模块542,被配置为当所述待审核图片中存在文字时,对所述待审核图片的文本信息进行存储;
聚类子模块543,被配置为对存储的多张所述待审核图片的文本信息进行聚类;
审核子模块544,被配置为从同一类别中选取至少一张所述待审核图片进行审核,得到审核结果;
存储子模块545,被配置为当所述审核结果为恶意图片时,将所述待审核图片的文本加入所述恶意文本内容库,将所述待审核图片加入所述恶意图片库。
可选地,所述待审核图片的文本信息包括以下至少一种:文本中的文字位置、文本内容、恶意关键词。
可选地,所述指纹提取模块501还包括:
降维子模块513,被配置为采用PCA算法对所述待审核图片的高维度指纹进行降维;
所述对比模块504,被配置为将降维后的所述待审核图片的高维度指纹与所述恶意图片库中的和高维度指纹进行对比。
可选地,所述装置还包括:
计算模块505,被配置为在提取待审核图片的图像指纹之前,计算所述待审核图片的MD5值;
MD5比较模块506,被配置为将所述待审核图片的MD5值与恶意图片MD5值库中的MD5值进行比较;
所述拦截模块502,还被配置为当所述待审核图片的MD5值与恶意图片MD5值库中的任一个MD5值相同时,对所述待审核图片进行拦截;
所述指纹提取模块501,被配置为当所述待审核图片的MD5值与恶意图片MD5值库中的所有MD5值均不相同时,提取所述待审核图片的图像指纹。
本申请实施例还提供了一种电子设备,该电子设备可以是前述拦截服务器。该电子设备可以包括处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述方法。
图13是本申请实施例提供的一种服务器的结构示意图。参见图13,服务器600包括中央处理单元(Central Processing Unit,CPU)601、包括随机存取存储器(Random AccessMemory,RAM)602和只读存储器(Read-Only Memory,ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储(Electrically Erasable Programmable read only memory,EEPROM)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本公开的各种实施例,服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。CPU 601通过执行该一个或一个以上程序来实现前述恶意图片拦截方法。
本领域技术人员可以理解,图9中示出的结构并不构成对服务器600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种恶意图片拦截方法,其特征在于,所述方法包括:
将待审核图片的MD5值与恶意图片MD5值库中的MD5值进行比较;当所述待审核图片的MD5值与所述恶意图片MD5值库中的任一个MD5值相同时,拦截所述待审核图片;
当所述待审核图片的MD5值与恶意图片MD5值库中的所有MD5值均不相同时,对所述待审核图片进行哈希计算,得到所述待审核图片的低维度指纹;通过神经网络分类模型,得到所述待审核图片的高维度指纹;所述高维度指纹的每个维度表示图片在一个分类下的概率;
若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对所述待审核图片进行拦截;
若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则通过轻量化神经网络模型,确定所述待审核图片中是否包含文字,得到确定结果;当所述确定结果为包含文字时,通过深度神经网络检测模型,确定所述待审核图片中是否包含文字以及包含文字时的文字位置;利用高精度的文本识别模型进行所述待审核图片中的文字的识别,得到文本识别结果;所述第一条件为相似度大于阈值,所述第二条件为相似度不大于阈值;
当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截所述待审核图片。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待审核图片中存在文字时,对所述待审核图片的文本信息进行存储;
对存储的多张所述待审核图片的文本信息进行聚类;
从同一类别中选取至少一张所述待审核图片进行审核,得到审核结果;
当所述审核结果为恶意图片时,将所述待审核图片的文本加入所述恶意文本内容库,将所述待审核图片加入所述恶意图片库。
3.根据权利要求2所述的方法,其特征在于,所述待审核图片的文本信息包括以下至少一种:文本中的文字位置、文本内容、恶意关键词。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
采用主成分分析PCA算法对所述待审核图片的高维度指纹进行降维;
将降维后的所述待审核图片的高维度指纹与所述恶意图片库中的高维度指纹进行对比。
5.一种恶意图片拦截装置,其特征在于,所述装置包括:
MD5比较模块,被配置将待审核图片的MD5值与恶意图片MD5值库中的MD5值进行比较;
拦截模块,被配置为当所述待审核图片的MD5值与所述恶意图片MD5值库中的任一个MD5值相同时,拦截所述待审核图片;
指纹提取模块,包括:低维度指纹提取子模块,被配置为当所述待审核图片的MD5值与恶意图片MD5值库中的所有MD5值均不相同时,对所述待审核图片进行哈希计算,得到所述待审核图片的低维度指纹;高维度指纹提取子模块,被配置为通过神经网络分类模型,得到所述待审核图片的高维度指纹;所述高维度指纹的每个维度表示图片在一个分类下的概率;
所述拦截模块,还被配置为若所述待审核图片的低维度图像指纹与恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度均满足第一条件,则对所述待审核图片进行拦截;
文字识别模块,被配置为若所述待审核图片的低维度图像指纹与所述恶意图片库中的图片的低维度图像指纹的相似度,以及所述待审核图片的高维度图像指纹与所述恶意图片库中的图片的高维度图像指纹的相似度中的至少一个满足第二条件,则通过轻量化神经网络模型,确定所述待审核图片中是否包含文字,得到确定结果;当所述确定结果为包含文字时,通过深度神经网络检测模型,确定所述待审核图片中是否包含文字以及包含文字时的文字位置;利用高精度的文本识别模型进行所述待审核图片中的文字的识别,得到文本识别结果;所述第一条件为相似度大于阈值,所述第二条件为相似度不大于阈值;
所述拦截模块,还被配置为当识别到所述待审核图片中的文本与恶意文本内容库中文本的匹配度高于阈值时,拦截所述待审核图片。
6.根据权利要求5所述的装置,其特征在于,所述文字识别模块,包括:
文本信息存储子模块,被配置为当所述待审核图片中存在文字时,对所述待审核图片的文本信息进行存储;
聚类子模块,被配置为对存储的多张所述待审核图片的文本信息进行聚类;
审核子模块,被配置为从同一类别中选取至少一张所述待审核图片进行审核,得到审核结果;
存储子模块,被配置为当所述审核结果为恶意图片时,将所述待审核图片的文本加入所述恶意文本内容库,将所述待审核图片加入所述恶意图片库。
7.根据权利要求6所述的装置,其特征在于,所述待审核图片的文本信息包括以下至少一种:文本中的文字位置、文本内容、恶意关键词。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述指纹提取模块,包括:
降维子模块,被配置为采用PCA算法对所述待审核图片的高维度指纹进行降维;
所述装置还包括:对比模块,被配置为将降维后的所述待审核图片的高维度指纹与所述恶意图片库中的和高维度指纹进行对比。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245287.XA CN111444362B (zh) | 2020-03-31 | 2020-03-31 | 恶意图片拦截方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245287.XA CN111444362B (zh) | 2020-03-31 | 2020-03-31 | 恶意图片拦截方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444362A CN111444362A (zh) | 2020-07-24 |
CN111444362B true CN111444362B (zh) | 2024-04-16 |
Family
ID=71649457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010245287.XA Active CN111444362B (zh) | 2020-03-31 | 2020-03-31 | 恶意图片拦截方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444362B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836160A (zh) * | 2021-01-29 | 2021-05-25 | 世纪龙信息网络有限责任公司 | 一种内容审核方法、装置和设备 |
CN113901369A (zh) * | 2021-10-09 | 2022-01-07 | 北京小川在线网络技术有限公司 | 违规图片的数据拦截方法及装置 |
CN114881615A (zh) * | 2022-06-06 | 2022-08-09 | 山东浪潮爱购云链信息科技有限公司 | 一种采购平台中论坛数据交互的方法、设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303734A (zh) * | 2008-06-25 | 2008-11-12 | 腾讯科技(深圳)有限公司 | 图片检测系统及方法 |
CN104036285A (zh) * | 2014-05-12 | 2014-09-10 | 新浪网技术(中国)有限公司 | 垃圾图片识别方法及系统 |
CN106021442A (zh) * | 2016-05-16 | 2016-10-12 | 江苏大学 | 一种网络新闻概要提取方法 |
CN107291737A (zh) * | 2016-04-01 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 敏感图像识别方法及装置 |
CN107609536A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息生成方法和装置 |
CN108304431A (zh) * | 2017-06-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像检索方法及装置、设备、存储介质 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
-
2020
- 2020-03-31 CN CN202010245287.XA patent/CN111444362B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303734A (zh) * | 2008-06-25 | 2008-11-12 | 腾讯科技(深圳)有限公司 | 图片检测系统及方法 |
CN104036285A (zh) * | 2014-05-12 | 2014-09-10 | 新浪网技术(中国)有限公司 | 垃圾图片识别方法及系统 |
CN107291737A (zh) * | 2016-04-01 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 敏感图像识别方法及装置 |
CN106021442A (zh) * | 2016-05-16 | 2016-10-12 | 江苏大学 | 一种网络新闻概要提取方法 |
CN108304431A (zh) * | 2017-06-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像检索方法及装置、设备、存储介质 |
CN107609536A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息生成方法和装置 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111444362A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444362B (zh) | 恶意图片拦截方法、装置、设备和存储介质 | |
US9330142B2 (en) | Biometric matching engine | |
CN111784528B (zh) | 异常社群检测方法、装置、计算机设备及存储介质 | |
US8073263B2 (en) | Multi-classifier selection and monitoring for MMR-based image recognition | |
US20200004815A1 (en) | Text entity detection and recognition from images | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN109871490B (zh) | 媒体资源匹配方法、装置、存储介质和计算机设备 | |
Theisen et al. | Automatic discovery of political meme genres with diverse appearances | |
CN108734106B (zh) | 基于对比的快速暴恐视频识别方法 | |
CN110472011B (zh) | 一种诉讼成本预测方法、装置及终端设备 | |
CN110598019B (zh) | 重复图像识别方法及装置 | |
US20150254342A1 (en) | Video dna (vdna) method and system for multi-dimensional content matching | |
CN109214904B (zh) | 财务造假线索的获取方法、装置、计算机设备和存储介质 | |
CN111738120A (zh) | 人物识别方法、装置、电子设备及存储介质 | |
CN111444387A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN111191591B (zh) | 一种水印检测、视频处理方法和相关设备 | |
CN112380169A (zh) | 存储装置、数据处理方法、装置、设备、介质和系统 | |
CN113705468B (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN112818868B (zh) | 基于行为序列特征数据的违规用户识别方法和装置 | |
CN114840477B (zh) | 一种基于云会议的文件敏感指数确定方法及相关产品 | |
US11948391B2 (en) | Model training method and apparatus, electronic device and readable storage medium | |
Dong et al. | Research on fast face retrieval optimization algorithm based on fuzzy clustering | |
CN113392208A (zh) | It运维故障处理经验积累的方法、装置及存储介质 | |
CN111708988A (zh) | 侵权视频识别方法、装置、电子设备及存储介质 | |
CN110909798A (zh) | 一种多算法智能研判方法、系统及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |