CN114372144A - 基于证书和域名解析的赌博域名识别方法 - Google Patents

基于证书和域名解析的赌博域名识别方法 Download PDF

Info

Publication number
CN114372144A
CN114372144A CN202111577064.4A CN202111577064A CN114372144A CN 114372144 A CN114372144 A CN 114372144A CN 202111577064 A CN202111577064 A CN 202111577064A CN 114372144 A CN114372144 A CN 114372144A
Authority
CN
China
Prior art keywords
domain name
gambling
chinese
certificate
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111577064.4A
Other languages
English (en)
Inventor
张兆心
孙国营
程亚楠
许海燕
常利婷
李冷文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202111577064.4A priority Critical patent/CN114372144A/zh
Publication of CN114372144A publication Critical patent/CN114372144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于证书和域名解析的赌博域名识别方法,其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,其步骤包括建立基于Bert微调构建中文分类模型;分别对所述中文赌博域名及良性域名进行数字证书解析;通过N‑gram方法获取域名的文本特征向量;通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名的数字证书解析特征向量和域名文本特征向量进行训练和测试,构建中文赌博域名挖掘模型。本发明可广泛应于中文赌博域名的识别。

Description

基于证书和域名解析的赌博域名识别方法
技术领域
本发明涉及计算机领域,特别是涉及一种基于证书和域名解析的赌博域名识别方法。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理,能够有效的避免网络通信过程中的中间人攻击,很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书,从而增加用户对中文赌博网站的信任度,并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的,而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外,还没有较好的赌博域名分类方法,导致赌博域名难于有效识别管理。
发明内容
本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,提供一种识别准确率高且省时快捷的基于证书和域名解析的赌博域名识别方法。
本发明提供一种基于证书和域名解析的赌博域名识别方法,其具体步骤包括:
步骤(1)、建立基于Bert微调构建中文分类模型:利用预训练好的中文Bert模型进行微调,获得具有数字证书的中文赌博域名,从Alex Top 100万获得等量的具有数字证书的良性域名;
步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析:根据rfc5280的规定,对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量;
步骤(3)、通过N-gram方法获取域名的文本特征向量:利用N-gram方法将Alex Top20万的域名数据集拆分成子字符串,构建域名白名单子字符串集合,通过对中文赌博域名以及良性域名进行分词操作,计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数,得到域名文本特征向量;
步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试,构建中文赌博域名挖掘模型。
优选地,所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名,Bert模型的分类准确度为97.76%;预训练好的中文Bert模型的数据来源包括:一、利用THUCTC数据集获得标注的文本数据集;二、从手动标注中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三、从Alex Top 100万中筛选出排名靠前的中文域名,利用百度的API进行标注。
优选地,所述步骤(2)中数字证书解析特征向量长度为50,其具体方法包括:
1、基本域解析:获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容,并将这些内容转化为整形数值;
2、获取Extensions字段;
3、判断Extensions字段是否符合rfc5280的约束:判断Extensions字段中的每个字段是否被设置为critical。
优选地,所述步骤(3)中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为:选用Alex Top 20万的域名来构建域名的白名单子字符串集合,每一个域名去除特殊符号后被尺寸为N的滑动窗口拆分,从最左边开始,每相邻的N个字符拆分得到一个子字符串,并向右滑动一个字符,直到滑动窗口的最右端第一次到达字符串的最右边为止,合并相同的子字符串,构建域名白名单子字符串集合,所述N的值为3,4,5,6。
优选地,所述步骤(4)中RNN学习算法构造双层的训练模型,第一层的记忆体个数设置为300,使用0.2的Droupout,第二层的记忆体个数设置为200,使用0.2的Droupout。
优选地,所述步骤(4)中训练和测试的比例设置为8:2,并通过Accuracy、Precision、Recall以及F1对测试结果进行评价。
本发明的有益效果:
本发明在不需要获取域名网页文本内容的情况下,同时通过域名的数字证书以及域名的文本特征构建的特征向量进行中文赌博域名分类,方法简单快捷,并且分类准确度高。通过使用6种不同的机器学习和深度学习算法,获得的Accuracy,Precision,Recalland F1的最优值均分别为0.9936,0.9936,0.9939,0.9936,这均优于大部分已知的最优的分类算法。通过本发明所提方法结合简单的机器学习方法,就可以准确且快速的识别中文赌博域名。
附图说明
图1是本发明的模型结构示意图;
图2是本发明的Bert中文文本分类模型流程图;
图3是本发明不同机器(深度)学习模型获得的Accuracy,Precision,Recall和F1值的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明,以使本发明所属技术领域的技术人员能够实施本发明。
如图1所示,本发明所提供基于证书和域名解析的赌博域名识别方法,其具体步骤包括:(1)建立基于Bert微调构建中文分类模型;(2)进行数字证书解析;(3)通过N-gram方法获取域名的文本特征向量;(4)通过深度学习和机器学习方法进行中文赌博域名分类挖掘。
(1)基于Bert微调构建中文分类模型
2018年,DEVLIN等人提出的Bert模型利用Transformers的结构设计而来,它只保留Transformers的编码器,并通过在所有层中共同对上下文进行调节来预训练深度双向表示。因此,利用预训练的Bert再加上一个softmax输出进行微调,就可以非常轻易又精确的实现文本分类任务。
网页源码中含有丰富的文本信息,通过网页源码文本信息对网页域名进行分类是一种比较常见的域名分类方法。本发明利用预训练好的中文Bert模型进行微调,预训练好的中文Bert模型是开源的,可以从网上获得,预训练好的中文Bert模型对包含财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、赌博域名在内的14种类型共包括42923条标注的文本数据集进行训练,用于正确的分类赌博域名,过程如图2所示。数据集来自3部分:一是利用THUCTC(http://thuctc.thunlp.org/)数据集获得了31923条标注的文本数据集;二是从手动标注1000条中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三是从Alex Top 100万中筛选出10000条排名比较靠前的中文域名,利用百度的API进行标注。由于本发明选用的预训练好的中文Bert模型的输入字符的长度为512,在文本获取的过程中,首先获取网页的title和description等具有较强指示性的信息,然后获取其他文本内容,去除文本内容中的空格、换行符以及特殊字符(例如*、%、@等),如果最终得到的文本长度超过512个字符,则舍弃多余的部分;否则,在文本的末尾补齐空格,使其长度达到512个字符。通过预训练好的中文Bert模型对预处理以后的文本数据集进行训练,然后加上一个softmax层,将batch size设置为32,epochs设置为20,lr设置为0.00001,使用交叉熵损失和Adam优化器进行微调。实验结果显示,经过20个批次的训练以后,文本分类的准确度可以达到97.76%。
(2)数字证书解析
根据rfc5280的约定,证书中一共包括3个SEQUENCE字段,分别是tbsCertificate,signatureAlgorithm以及signatureValue,其中,tbsCertificate又根据证书version的不同分为三种类型,证书的version主要有1,2,3三种类型,无论哪种类型的证书,均包括Version、SerialNumber、Signature、Issuer、Validity以及Subject,当Version=2时,会增加IssuerUniqueID和SubjectUniqueID,当Version=3时,会在Version=2的基础上增加Extensions。Extensions主要包括KeyUsage、AuthorityInfoAccess、CertificatePolicies、BasicConstraints、CRLDistributionPoints、SubjectAltName、IssuerAltName、ExtendedKeyUsage、AuthorityKeyIdentifier、SubjectKeyIdentifier、SignedCertificateTimestampList、InhibitAnyPolicy、PolicyConstraints以及NameConstraints。
根据这些字段的特点以及rfc5280的规定,3个角度来对证书进行解析。
1、基本域解析
获取证书中3个版本都包含的字段内容,并将这些内容转换成整形数值。处理后的结果如表1所示。
特征名称 描述 类别
signatureAlgorithm 数字证书的签名算法 int
version 数字证书的版本号 int
serialNumber_length 序列号长度 int
issuer_is_empty 颁发者信息是否为空 int
issuer_cn_exist 颁发者是否存在CN值 int
issuer_CN 颁发者国家 int
subject_is_empty 使用者信息是否为空 int
subject_cn_exist 使用者是否存在CN值 int
subject_CN 使用者国家 int
validity_length 数字证书有效时间长度 int
validity_so_far 到目前为止数字证书的有效时间 int
expired 数字证书是否过期 int
表1
由表1可以看出,解析出了证书的signatureAlgorithm、Version字段,计算了SerialNumber的长度,判断了Issuer和Subject是否为空,得到了Issuer和Subject字段的CN值,有效时间的长度以及证书是否过期。对于signatureAlgorithm,使用0-16分别表示md5WithRSAEncryption、sha1WithRSAEncryption、sha224WithRSAEncryption、sha256WithRSAEncryption、sha384WithRSAEncryption、sha512WithRSAEncryption、RSASSA-PSS、ecdsa-with-SHA1、ecdsa-with-SHA224、ecdsa-with-SHA256、ecdsa-with-SHA384、ecdsa-with-SHA512、dsa-with-sha1、dsa-with-sha224、dsa-with-sha256、ed25519以及ed448。对于Issuer和Subject字段的CN值,使用0-246来表示世界上的247个国家。
2、获取Extensions字段
获取Extensions字段的结果如表2所示。
Figure BDA0003425589660000061
Figure BDA0003425589660000071
表2
从表2可以看出,获取Extensions字段主要判断证书中是否具有Extensions字段以及Extensions字段中是否包括KeyUsage、AuthorityInfoAccess、CertificatePolicies、BasicConstraints、CRLDistributionPoints、SubjectAltName、IssuerAltName、ExtendedKeyUsage、AuthorityKeyIdentifier、SubjectKeyIdentifier、SignedCertificateTimestampList、InhibitAnyPolicy、PolicyConstraints以及NameConstraints。keyUsage定义了密钥的用途,能体现出证书的不同使用目的,因此进一步对keyUsage的内容进行解析。
3、判断Extensions字段是否符合rfc5280的约束
根据rfc5280,Extensions字段中的某些字段必须设置为critical,某些字段必须设置为non-critical。因此,如表3所示判断Extensions字段中的每个字段是否被设置为critical。
Figure BDA0003425589660000072
Figure BDA0003425589660000081
表3
(3)通过N-gram方法获取域名的文本特征向量
1)构建域名的白名单子字符串集合
①域名拆分
Alex排名越高,域名为良性域名的可能性越大,因此,选用Alex Top20万的域名来构建域名的白名单子字符串集合。
在构建域名的白名单子字符串集合的过程中,每一个域名去除特殊符号(例如.,*,/等)后会被一个尺寸为N的滑动窗口拆分。以“login.tmall.com”为例,讲解当N=6时的分解过程。首先,去除特殊符合后得到”logintmallcom”,然后,从最左边开始,每相邻的6个字符拆分得到一个子字符串,并向右滑动一个字符,直到滑动窗口的最右端第一次到达”logintmallcom”最右边的字符为止。最终得到的子字符串集合为{logint,ogintm,gintma,intmal,ntmall,tmallc,mallco,allcom}。将N值分别设置为2-10,并获取Alex Top20万的域名的子字符串集合的数目,结果如表4所示:
Figure BDA0003425589660000082
表4
②子字符串统计
通过上一步获得了大量的拆分的子字符串,但是有很多子字符串是重复出现的,因此,要对子字符串进行统计,合并相同的子字符串,统计后的结果如表5所示。
Figure BDA0003425589660000091
表5
从表4和表5可以看出,当N大于6时,拆分的子字符串数量除以统计的子字符串数量的值小于2,这说明绝大多数子字符串出现的次数为1,这对下一步要进行域名挖掘的域名拆分以后的子字符串统计结果影响会非常小,因此,不再考虑N大于6的情况。当N=2时,拆分的子字符串数量除以统计的子字符串数量的值为1845,而当N为3,4,5,6时,拆分的子字符串数量除以统计的子字符串数量的值分别为81,12,4and 2,这说明当N=2时每一个子字符串的数据量都远远大于N为3,4,5,6的时候,这对下一步要进行域名挖掘的域名拆分以后的子字符串统计结果影响过大,因此,也不考虑N=2的情况。综合上述分析,最终选定N的值为3,4,5,6来构建域名白名单子字符串集合,得到的子字符串的个数一共是1356439。
2)域名文本特征向量的获得
使用N-gram方法,将要进行分类的每一个域名拆分成长度为3,4,5,6的子串。设SNi(l)表示域名l在不同的N值时第i个子字符串在域名白名单子字符串集合中出现的个数,AN(l)表示域名l在不同的N值时的子字符串在域名白名单子字符串集合中出现的总个数,设
Figure BDA0003425589660000092
分别计算每个域名在N为3,4,5,6时的A值以及每个域名的AL值,得到如表6所示的新的特征向量:
Figure BDA0003425589660000093
Figure BDA0003425589660000101
表6
(4)中文赌博域名分类挖掘
本发明中,将赌博域名定义为正向样本,将良性域名定义为反向样本。将正确预测的赌博域名的域名个数定义为TP,将错误预测为赌博域名的域名个数定义为FP,将正确预测为良性域名的域名个数定义为TN,将错误预测为良性域名的域名个数定义为FN。
构建RNN,Decision Tree,Extra Tree,Random Forest,KNN and SVM六种深度学习和机器学习算法对中文赌博域名以及良性域名的特征向量进行训练和测试,将训练集和测试集的比例设置为8:2对于RNN,构造一个双层的训练模型,第一层的记忆体个数设置为300,使用0.2的Droupout,第二层的记忆体的个数设置为200,使用0.2的Droupout。对于Decision Tree,Extra Tree,Random Forest,KNN and SVM,均采用默认设置。
通过Accuracy,Precision,Recall以及F1来评价算法的优劣,并测量不同算法在训练和测试过程中所用的时间。Accuracy,Precision,Recall以及F1的定义如下:
Figure BDA0003425589660000102
Figure BDA0003425589660000103
Figure BDA0003425589660000104
Figure BDA0003425589660000105
实验例:
1、实验环境
所有的实验均在一台安装windows10操作系统的华为电脑上进行了,该电脑配置有i7的处理器,16G的内存以及512G的固态硬盘。
2、实验数据获取
通过步骤(1)基于Bert微调的中文分类模型获取10000带有数字证书的赌博域名,从Alex Top100万中选取排除构建域名白名单子字符串集合过程中使用的20万域名以为排名比较靠前的10000个域名作为良性域名。按步骤(2)数字证书解析方法获得赌博域名和良性域名通过数字证书解析获得的长度为50的特征向量,并按步骤(3)通过N-gram方法获取域名的文本特征向量的方法获得赌博域名和良性域名通过域名本身的文本特征获取的长度为5的特征向量,将数字证书解析的特征向量和域名本身的文本特征向量合并为长度为55的域名特征向量。
3、实验结果及分析
将10000个赌博域名随机均匀的拆分成5组数据G1,G2,G3,G4 and G5,将10000个良性域名随机均匀的拆分成5组数据B1,B2,B3,B4 and B5,分别选取G1+B1,G2+B2,G3+B3,G4+B4and G5+B5作为测试集,剩余的数据作为训练集,进行5次实验,并选取5次实验的平均值作为最终的结果。通过使用RNN,Decision Tree,Extra Tree,Random Forest,KNN以及SVM获得的5次实验的Accuracy,Precision,Recall,F1,时间以及这些指标的平均值分别如表7所示:
Figure BDA0003425589660000111
Figure BDA0003425589660000121
表7
为了更加直观的展示本实施例实验的结果,通过图3展示六种算法获得的Accuracy,Precision,Recall and F1及其六种算法的平均值。
从图3可以看出,Random Forest和Extra Tree获得了最优的结果,这两种算法得到的Accuracy,Precision,Recall and F1均大于0.99,其中,Random Forest的Accuracy,Recall和F1最优,分别为0.9936,0.9939and 0.9936,Extra Tree的Precision最优,为0.9936。RNN和SVM得到了最差的结果,但是Accuracy,Precision,Recall and F1也几乎都在0.85以上。除了最优值,还计算了6种算法获得的Accuracy,Precision,Recall and F1的平均值,分别为0.9409,0.9251,0.9705and 0.9452。四个评价参数在6种算法中的平均值均大于0.92,达到了比较理想的结果。从time上来看,Decision Tree最优,所用时间为0.131s,RNN最次,所用时间为38.099s。
本实施例中,首次提出了同时通过域名的数字证书以及域名的文本特征构建的特征向量进行中文赌博域名分类的方法。另外,为了获得可靠性更高的原始数据集,还构建了基于Bert微调的中文文本分类模型。通过使用6种不同的机器学习和深度学习算法,本实施例获得的Accuracy,Precision,Recall and F1的最优值均分别为0.9936,0.9936,0.9939,0.9936.这均优于大部分已知的最优的分类算法。通过本实施例所提方法结合一些简单的机器学习方法,就可以帮助中国的网络安全维护人员准确的识别中文赌博域名,这对于中国互联网安全建设会有很大的帮助。
以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内,所做的任何修改、等同替换、改进等,均应在本发明的保护范围之内。

Claims (6)

1.一种基于证书和域名解析的赌博域名识别方法,其特征是,其具体步骤包括:
步骤(1)、建立基于Bert微调构建中文分类模型:利用预训练好的中文Bert模型进行微调,获得具有数字证书的中文赌博域名,从Alex Top 100万获得等量的具有数字证书的良性域名;
步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析:根据rfc5280的规定,对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量;
步骤(3)、通过N-gram方法获取域名的文本特征向量:利用N-gram方法将Alex Top 20万的域名数据集拆分成子字符串,构建域名白名单子字符串集合,通过对中文赌博域名以及良性域名进行分词操作,计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数,得到域名文本特征向量;
步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试,构建中文赌博域名挖掘模型。
2.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名,Bert模型的分类准确度为97.76%;预训练好的中文Bert模型的数据来源包括:一、利用THUCTC数据集获得标注的文本数据集;二、从手动标注中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三、从Alex Top 100万中筛选出排名靠前的中文域名,利用百度的API进行标注。
3.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(2)中数字证书解析特征向量长度为50,其具体方法包括:
1、基本域解析:获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容,并将这些内容转化为整形数值;
2、获取Extensions字段;
3、判断Extensions字段是否符合rfc5280的约束:判断Extensions字段中的每个字段是否被设置为critical。
4.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(3)中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为:选用AlexTop 20万的域名来构建域名的白名单子字符串集合,每一个域名去除特殊符号后被尺寸为N的滑动窗口拆分,从最左边开始,每相邻的N个字符拆分得到一个子字符串,并向右滑动一个字符,直到滑动窗口的最右端第一次到达字符串的最右边为止,合并相同的子字符串,构建域名白名单子字符串集合,所述N的值为3,4,5,6。
5.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(4)中RNN学习算法构造双层的训练模型,第一层的记忆体个数设置为300,使用0.2的Droupout,第二层的记忆体个数设置为200,使用0.2的Droupout。
6.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(4)中训练和测试的比例设置为8:2,并通过Accuracy、Precision、Recall以及F1对测试结果进行评价。
CN202111577064.4A 2021-12-22 2021-12-22 基于证书和域名解析的赌博域名识别方法 Pending CN114372144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111577064.4A CN114372144A (zh) 2021-12-22 2021-12-22 基于证书和域名解析的赌博域名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111577064.4A CN114372144A (zh) 2021-12-22 2021-12-22 基于证书和域名解析的赌博域名识别方法

Publications (1)

Publication Number Publication Date
CN114372144A true CN114372144A (zh) 2022-04-19

Family

ID=81140101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111577064.4A Pending CN114372144A (zh) 2021-12-22 2021-12-22 基于证书和域名解析的赌博域名识别方法

Country Status (1)

Country Link
CN (1) CN114372144A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277211A (zh) * 2022-07-29 2022-11-01 哈尔滨工业大学(威海) 基于文本和图像的多模态色情和赌博域名自动检测方法
CN115984031A (zh) * 2023-03-20 2023-04-18 山东青鸟工业互联网有限公司 一种工业互联网标识分类采集与快速解析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277211A (zh) * 2022-07-29 2022-11-01 哈尔滨工业大学(威海) 基于文本和图像的多模态色情和赌博域名自动检测方法
CN115277211B (zh) * 2022-07-29 2023-07-28 哈尔滨工业大学(威海) 基于文本和图像多模态色情和赌博域名自动检测方法
CN115984031A (zh) * 2023-03-20 2023-04-18 山东青鸟工业互联网有限公司 一种工业互联网标识分类采集与快速解析方法

Similar Documents

Publication Publication Date Title
US7565350B2 (en) Identifying a web page as belonging to a blog
Cao et al. Open knowledge enrichment for long-tail entities
CN114372144A (zh) 基于证书和域名解析的赌博域名识别方法
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN111758098A (zh) 利用遗传编程的命名实体识别和提取
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN113051500A (zh) 一种融合多源数据的钓鱼网站识别方法及系统
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
Saunders et al. Using automated comparisons to quantify handwriting individuality
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN106202349B (zh) 网页分类字典生成方法及装置
Kar et al. Are fake images bothering you on social network? Let us detect them using recurrent neural network
CN113438209B (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
CN118114650A (zh) 一种基于深度学习的案由提取方法和装置
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
Jiang et al. Watermark-based Detection and Attribution of AI-Generated Content
Zhang et al. Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics
CA3144052A1 (en) Method and apparatus for recognizing new sql statements in database audit systems
CN114528908B (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
KR101271171B1 (ko) 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법
Shi A method of discriminating user's identity similarity based on username feature greedy matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination