CN108052523A - 基于卷积神经网络的赌博网站识别方法和系统 - Google Patents

基于卷积神经网络的赌博网站识别方法和系统 Download PDF

Info

Publication number
CN108052523A
CN108052523A CN201711070078.0A CN201711070078A CN108052523A CN 108052523 A CN108052523 A CN 108052523A CN 201711070078 A CN201711070078 A CN 201711070078A CN 108052523 A CN108052523 A CN 108052523A
Authority
CN
China
Prior art keywords
webpage
website
convolutional neural
neural networks
webpage capture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711070078.0A
Other languages
English (en)
Inventor
陈立国
张跃冬
袁晓彤
耿光刚
延志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN201711070078.0A priority Critical patent/CN108052523A/zh
Publication of CN108052523A publication Critical patent/CN108052523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/34Betting or bookmaking, e.g. Internet betting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于卷积神经网络的赌博网站识别方法和系统。该方法包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。该系统包括批量网页截图模块、网站类别标注模块、模型训练模块和预测模块。本发明通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。

Description

基于卷积神经网络的赌博网站识别方法和系统
技术领域
本发明属于信息技术领域,涉及赌博网站检测技术,具体涉及一种基于卷积神经网络的赌博网站识别方法和系统。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。
现有的针对赌博网站的检测技术主要包括提取网页的文本内容,对文本进行预处理、分词、特征选择、分类训练等步骤,通过基于文本的机器学习方法对网页进行分类,从而实现对网站分类的目的。
然而随着不良网站的不断迭代,基于多重JS加载形式的网站越来越多,由于难以提取文本内容,原本基于文本的检测方法难以奏效。又由于不良网站的模板不断迭代,基于文本的方法需要根据不同的模板通过人工不断更新提取文本的规则,费时费力。
发明内容
本发明提供一种基于卷积神经网络的赌博网站识别方法和系统,能够解决文本特征方法难以处理新出现的网站模板的问题,提高赌博网站检测的准确率。
判断一个网站是否为赌博网站,标准在于网页加载完成后是否具有赌博内容。因此本发明通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。
本发明采用的技术方案如下:
一种基于卷积神经网络的赌博网站识别方法,包括以下步骤:
批量获取网站的网页截图;
标注网页截图的类别;
以标注的网页截图作为训练数据,训练卷积神经网络模型;
利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
进一步地,对标注的网站网页截图进行预处理操作,以便于进行模型训练。
进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
进一步地,所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
进一步地,采用人工方式标注网站网页截图的类别。
进一步地,所述卷积神经网络模型包括:输入层、两层卷积层、两层池化层、扁平化层、两层随机丢弃层和全连接层。
一种基于卷积神经网络的赌博网站识别系统,其包括:
批量网页截图模块,用于批量获取网站的网页截图;
网站类别标注模块,用于标注网页截图的类别;
模型训练模块,用于以标注的网页截图作为训练数据,训练卷积神经网络模型;
预测模块,用于利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
进一步地,还包括截图预处理模块,用于对网站类别标注模块标注的网页截图进行预处理操作,以便于进行模型训练。
进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
进一步地,所述批量网页截图模块使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
进一步地,所述网站类别标注模块采用人工方式标注网页截图的类别。
本发明使用标注的网页截图作为训练数据训练网站分类器,并将卷积神经网络模型用于网站的分类中,具有以下有益效果:
1)本发明不再依赖网页文本信息来进行网站分类,从而解决了对于某些JS加载类型的网站无法获取文本的问题。
2)本发明直接对赌博网站的图片特征进行学习,从根本上解决了因为网站模板不断更新而导致的需要不断更新文本特征提取方法的问题。
3)与基于网页内图片识别的方法相比,本发明因抓取并统筹考虑了整个网页快照,既能覆盖未包含任何图片的赌博网页,也能充分的将网页布局、文字式样等视觉信息考虑在内,覆盖更广、适应性也更强。
4)本发明具有较高的检测准确率。在使用3920个样本作为训练数据的条件下,测试集的准确率达到89%。
附图说明
图1:赌博网站示例图。
图2:网站的源码示例图。
图3:基于文本特征的网站分类方法流程图。
图4:基于卷积神经网络的网站分类方法流程图。
图5:卷积神经网络结构示意图。
图6:训练集与测试集的获取与应用流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
以一个赌博网站为例,图1是该赌博网站的首页截图,对该网页截图进行人工判断很容易确定该网站是赌博网站,但是如果依照提取网页文本的方法来处理该类型的网站则极容易出错。
图2是该赌博网站中网页的源码信息摘取的片段,从该网站的源码中可以看出,该网页所包含的文本内容为正常内容,但是这部分文本内容实际上没有显示,而显示出来的内容则是通过JS加载出来的包含赌博内容的框架(Frame)。如果根据图3所示的基于文本特征的方法来检测该网站,则在第二步提取文本特征时提取得到的是正常的文本,从而导致模型对该网站的误判。
由于网页文本可以被伪造从而干扰模型判断,本发明使用网站页面快照(网页截图)来进行训练和分类。考虑到系统的效率,本发明优选采用网站的首页截图来进行训练和分类。下面以网站的首页截图为例进行说明。
图4是本实施例的基于卷积神经网络的网站分类方法流程图。首先获取网站的首页截图并进行人工标注。因为快照截图为彩色图像,有RGB三个通道,本发明采用基于均值的方法将彩色图像转换成为灰度图像。为了减小模型训练的计算量,在转换为灰度图之后对图片进行了缩放操作,将原有网站截图从1024×768缩放到256×192,再对得到的图片进行白化操作。
将人工标注后的图片进行上述操作后,作为卷积神经网络的输入,将网站的类别作为卷积神经网络的输出,来训练卷积神经网络图片分类模型,然后利用训练好的模型对网站进行分类。类别共有两类:0,表示正常网站;1,表示赌博网站。
本发明所采用的卷积神经网络结构如图5所示,其中:
InputLayer为输入层,其中64为每批输入图片的个数,252为图片长度,192为图片宽度,1为默认值。
Conv2dLayer为卷积层,模型中共有两层卷积层。其中shape为卷积核的形状,strides为卷积核的滑动参数,pad为对边缘补全像素的填充方法,act为采用的激活函数。
PoolLayer为池化层,模型中共有两层池化层。其中ksize为池化单元的大小,strides为池化单元滑动参数,padding为对边缘补全像素的填充方法,pool为池化方法。
FlattenLayer为扁平化层,将池化层的结果扁平化处理后输出到DropoutLayer。
DropoutLayer为随机丢弃层,模型中共有两层随机丢弃层,以keep的概率随机选择是否更新权重,is_fix为随机丢弃标志。
DenseLayer为全连接层,负责链接FlattenLayer和输出层。
本发明的另一实施例提供一种采用上述方法的基于卷积神经网络的赌博网站识别系统。该系统主要包括以下几个部分:批量网页截图模块、网站类别标注模块、截图预处理模块、模型训练模块和预测模块。下面将按顺序介绍每个模块所做的工作。
a)批量网页截图模块,用于批量截取训练集和测试集的网站首页的截图。使用多线程的网页加载渲染工具可以快速的实现大批量网页的加载和渲染,实现快速的首页截图。
b)网站类别标注模块,用于采用人工方式标注网站的首页截图的类别。
c)截图预处理模块,用于对截取的图片进行转灰度、缩放、白化操作。白化操作是对前两步得到的图像进行去冗余和零方差处理,上述步骤都是常见的图像处理步骤,有众多开源或非开源的实现库。
d)模型训练模块,用于对已经标注好的且经过预处理后的图片数据进行训练,得到卷积神经网络模型。图6为模型训练过程中训练集与测试集的获取与应用流程。图片数据在此之前是需要人工标注的,与基于文本的标注方法相同,但由于图片的可视化程度强,标注的速度比文本标注的速度更快。训练集与测试集按照图6中所示的a:(1-a)的比例划分。本实施例采用7:3的比例划分,即图6中a值在训练过程中选择0.7。可用的模型训练框架很多,该模型训练模块可以采用现有技术实现。如图6所示,使用测试集进行预测时,根据预测结果调节模型的参数,最终得到训练好的卷积神经网络模型。
e)预测模块,利用模型训练模块得到的卷积神经网络模型来做出预测。将待预测的首页截图进行预处理(转灰度、缩放、白化处理)之后输入卷积神经网络模型即可得到该图像的预测类别。由于预测模块不会进行迭代训练,所以速度快,可以快速进行批量处理。
本实施例在实验过程中使用共3920个测试样本,其中赌博网站2000个,正常网站1920个。实验分成A、B两组进行,A组使用基于首页截图的CNN检测模型预测,B组使用基于网页源码的检测模型预测,表1为A、B两组实验结果的对比。可以看出,与使用基于网页源码的检测模型进行预测相比,采用本发明的方法能够取得更好的技术效果,能够明显提高赌博网站检测的精确率、召回率、准确率和F1值。
表1:A、B组预测结果对比
精确率 召回率 准确率 F1值
A 88.55% 90.10% 89% 89.32%
B 63.10% 66.10% 62.98% 64.57%
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于卷积神经网络的赌博网站识别方法,其特征在于,包括以下步骤:
批量获取网站的网页截图;
标注网页截图的类别;
以标注的网页截图作为训练数据,训练卷积神经网络模型;
利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
2.如权利要求1所述的方法,其特征在于,对标注的网页截图进行预处理操作,以便于进行模型训练。
3.如权利要求2所述的方法,其特征在于,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
4.如权利要求1所述的方法,其特征在于,所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
5.如权利要求1所述的方法,其特征在于,采用人工方式标注网站网页截图的类别。
6.如权利要求1所述的方法,其特征在于,所述卷积神经网络模型包括:输入层、两层卷积层、两层池化层、扁平化层、两层随机丢弃层和全连接层。
7.一种基于卷积神经网络的赌博网站识别系统,其特征在于,包括:
批量网页截图模块,用于批量获取网站的网页截图;
网站类别标注模块,用于标注网页截图的类别;
模型训练模块,用于以标注的网页截图作为训练数据,训练卷积神经网络模型;
预测模块,用于利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
8.如权利要求7所述的系统,其特征在于,还包括截图预处理模块,用于对网站类别标注模块标注的网页截图进行预处理操作,以便于进行模型训练。
9.如权利要求8所述的系统,其特征在于,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
10.如权利要求7所述的系统,其特征在于,所述批量网页截图模块使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
CN201711070078.0A 2017-11-03 2017-11-03 基于卷积神经网络的赌博网站识别方法和系统 Pending CN108052523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711070078.0A CN108052523A (zh) 2017-11-03 2017-11-03 基于卷积神经网络的赌博网站识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711070078.0A CN108052523A (zh) 2017-11-03 2017-11-03 基于卷积神经网络的赌博网站识别方法和系统

Publications (1)

Publication Number Publication Date
CN108052523A true CN108052523A (zh) 2018-05-18

Family

ID=62119488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711070078.0A Pending CN108052523A (zh) 2017-11-03 2017-11-03 基于卷积神经网络的赌博网站识别方法和系统

Country Status (1)

Country Link
CN (1) CN108052523A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189648A (zh) * 2018-07-26 2019-01-11 深圳市沃特沃德股份有限公司 游戏监控方法及装置
CN109408947A (zh) * 2018-10-19 2019-03-01 杭州刀豆网络科技有限公司 一种基于机器学习的侵权网页判断方法
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
CN109886022A (zh) * 2019-02-20 2019-06-14 北京丁牛科技有限公司 Cms类型识别方法及装置
CN110275958A (zh) * 2019-06-26 2019-09-24 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN110807197A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 识别模型的训练方法及装置、风险网站识别方法及装置
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN111078869A (zh) * 2019-11-07 2020-04-28 国家计算机网络与信息安全管理中心 基于神经网络对金融网站进行分类的方法及装置
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN111597301A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 文本预测方法、装置以及电子设备
CN111626309A (zh) * 2020-05-26 2020-09-04 北京墨云科技有限公司 一种基于深度学习的网站指纹识别方法
CN111651658A (zh) * 2020-06-05 2020-09-11 杭州安恒信息技术股份有限公司 一种基于深度学习的自动化识别网站的方法和计算机设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN113034331A (zh) * 2021-05-06 2021-06-25 国家计算机网络与信息安全管理中心上海分中心 一种基于多模态融合的安卓赌博应用识别方法和系统
CN113112469A (zh) * 2021-04-06 2021-07-13 上海深至信息科技有限公司 一种b超图像选取方法及系统
CN113268691A (zh) * 2021-04-30 2021-08-17 杭州安恒信息技术股份有限公司 网站行业类型的分类方法、装置、电子装置和存储介质
CN113285957A (zh) * 2021-06-15 2021-08-20 广州数智网络科技有限公司 基于clickhouse的赌博网站检测方法
CN113312568A (zh) * 2021-03-25 2021-08-27 罗普特科技集团股份有限公司 一种基于HTML源代码和网页快照的Web信息抽取方法与系统
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN105763543A (zh) * 2016-02-03 2016-07-13 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN105843816A (zh) * 2015-01-15 2016-08-10 阿里巴巴集团控股有限公司 一种用于确定图片陈列信息的方法及设备
CN105989330A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 一种图片检测方法及设备
CN106951848A (zh) * 2017-03-13 2017-07-14 平安科技(深圳)有限公司 图片识别的方法及系统
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
CN107229946A (zh) * 2017-05-11 2017-10-03 宸盛科华(北京)科技有限公司 基于人工神经网络的色情图片检测方法及装置
CN107294918A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种钓鱼网页检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN105843816A (zh) * 2015-01-15 2016-08-10 阿里巴巴集团控股有限公司 一种用于确定图片陈列信息的方法及设备
CN105989330A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 一种图片检测方法及设备
CN105763543A (zh) * 2016-02-03 2016-07-13 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
CN107294918A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种钓鱼网页检测方法及装置
CN106951848A (zh) * 2017-03-13 2017-07-14 平安科技(深圳)有限公司 图片识别的方法及系统
CN107229946A (zh) * 2017-05-11 2017-10-03 宸盛科华(北京)科技有限公司 基于人工神经网络的色情图片检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沙泓州等: "恶意网页识别研究综述", 《计算机学报》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189648A (zh) * 2018-07-26 2019-01-11 深圳市沃特沃德股份有限公司 游戏监控方法及装置
CN109408947A (zh) * 2018-10-19 2019-03-01 杭州刀豆网络科技有限公司 一种基于机器学习的侵权网页判断方法
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
CN109886022A (zh) * 2019-02-20 2019-06-14 北京丁牛科技有限公司 Cms类型识别方法及装置
CN110275958B (zh) * 2019-06-26 2021-07-27 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN110275958A (zh) * 2019-06-26 2019-09-24 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN110807197A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 识别模型的训练方法及装置、风险网站识别方法及装置
CN111078869A (zh) * 2019-11-07 2020-04-28 国家计算机网络与信息安全管理中心 基于神经网络对金融网站进行分类的方法及装置
CN111597301A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 文本预测方法、装置以及电子设备
CN111626309A (zh) * 2020-05-26 2020-09-04 北京墨云科技有限公司 一种基于深度学习的网站指纹识别方法
CN111651658A (zh) * 2020-06-05 2020-09-11 杭州安恒信息技术股份有限公司 一种基于深度学习的自动化识别网站的方法和计算机设备
CN111488953B (zh) * 2020-06-28 2020-10-13 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN113312568A (zh) * 2021-03-25 2021-08-27 罗普特科技集团股份有限公司 一种基于HTML源代码和网页快照的Web信息抽取方法与系统
CN113312568B (zh) * 2021-03-25 2022-06-17 罗普特科技集团股份有限公司 一种基于HTML源代码和网页快照的Web信息抽取方法与系统
CN113112469A (zh) * 2021-04-06 2021-07-13 上海深至信息科技有限公司 一种b超图像选取方法及系统
CN113112469B (zh) * 2021-04-06 2023-04-28 上海深至信息科技有限公司 一种b超图像选取方法及系统
CN113268691A (zh) * 2021-04-30 2021-08-17 杭州安恒信息技术股份有限公司 网站行业类型的分类方法、装置、电子装置和存储介质
CN113268691B (zh) * 2021-04-30 2022-07-22 杭州安恒信息技术股份有限公司 网站行业类型的分类方法、装置、电子装置和存储介质
CN113034331A (zh) * 2021-05-06 2021-06-25 国家计算机网络与信息安全管理中心上海分中心 一种基于多模态融合的安卓赌博应用识别方法和系统
CN113285957A (zh) * 2021-06-15 2021-08-20 广州数智网络科技有限公司 基于clickhouse的赌博网站检测方法
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108052523A (zh) 基于卷积神经网络的赌博网站识别方法和系统
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN104794504B (zh) 基于深度学习的图形图案文字检测方法
CN108230339A (zh) 一种基于伪标签迭代标注的胃癌病理切片标注补全方法
CN109741332A (zh) 一种人机协同的图像分割与标注方法
CN106650740B (zh) 一种车牌识别方法及终端
CN108710866A (zh) 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN108446621A (zh) 票据识别方法、服务器及计算机可读存储介质
CN110276402B (zh) 一种基于深度学习语义边界增强的盐体识别方法
TW201732651A (zh) 一種單詞的分割方法和裝置
CN109086652A (zh) 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN109241383A (zh) 一种基于深度学习的网页类型智能识别方法及系统
CN109840520A (zh) 一种发票关键信息识别方法及系统
CN107845092A (zh) 服装logo效果检测方法、装置及电子设备
Kumar et al. Multi-script robust reading competition in ICDAR 2013
CN110516676A (zh) 一种基于图像处理的银行卡号识别系统
CN114170608A (zh) 超分辨文本图像识别方法、装置、设备及存储介质
CN109189965A (zh) 图像文字检索方法及系统
CN106530247A (zh) 一种基于结构信息的多尺度图像修复算法
CN109063720A (zh) 手写字训练样本获取方法、装置、计算机设备及存储介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN111950457A (zh) 油田安全生产图像识别方法及系统
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN104281850A (zh) 一种文字区域识别方法和装置
CN108764248A (zh) 图像特征点的提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518

RJ01 Rejection of invention patent application after publication