CN111754338B - 一种套路贷网站团伙识别方法及系统 - Google Patents
一种套路贷网站团伙识别方法及系统 Download PDFInfo
- Publication number
- CN111754338B CN111754338B CN202010615836.8A CN202010615836A CN111754338B CN 111754338 B CN111754338 B CN 111754338B CN 202010615836 A CN202010615836 A CN 202010615836A CN 111754338 B CN111754338 B CN 111754338B
- Authority
- CN
- China
- Prior art keywords
- website
- trepanning
- list
- loan
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005516 engineering process Methods 0.000 claims abstract description 27
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 42
- 230000009193 crawling Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012261 overproduction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/101—Access control lists [ACL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种套路贷团伙识别方法及系统,包括构建套路贷网站识别模型;根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,最终识别团伙。本发明结合犯罪分子即贷款网站层面构建特征,挖掘潜在套路贷网站,并基于套路贷网站特征构对已识别出的套路贷网站构建无向图,然后计算识别出套路贷网站团伙,兼顾了套路贷网站识别的广度和深度。
Description
技术领域
本发明涉及计算机数据安全技术领域,具体为一种套路贷网站团伙识别方法及系统。
背景技术
所谓套路贷,即假借民间“借贷”之名,通过“虚增债务”、“签订虚假借款协议”、“制造资金走账流水”、“肆意认定违约”、“转单平账”等方式,采用欺骗、胁迫、滋扰、纠缠、非法拘禁、敲诈勒索、虚假诉讼等手段,非法占用他人财产目的的违法行为。
套路贷途径主要有电话诈骗和贷款网站。目前,运营商基于用户的行为画像和DPI数据,已对一些不良网站打标,建立企业黑名单库,但这种手段单一且滞后,无法防范于未然,套路贷网站对运营商普通用户的财产安全仍存在重大威胁,如何挖掘更多的非法贷款网站并有效的识别贷款网站团伙进而分析套路贷网站之间的联系是运营商关注和需要解决的问题。
如申请号为201911049749.4公开的一种套路贷团伙的识别方法及系统,根据套路贷运行过程中涉及到的特征数据建立对应的关系图,并根据该关系图建立仅包含人物关系的关系图;通过权重之间的迭代对仅包含人物关系的关系图划分为若干个节点集,并根据节点集中出现套路贷犯罪分子的数量判断各个节点集作为套路贷团伙的概率,进而可以根据现有的套路贷犯罪分子的数据识别与对应的套路贷团伙。但是该发明申请仅从受害者行为特征层面分析,如运营商基于用户的行为画像和DPI数据,分析哪些用户曾遭遇套路贷诈骗,存在一定滞后性;且现有技术只识别出非法贷款网站个体,未对非法网站之间的关系进行分析,存在一定的片面性。
发明内容
本发明所要解决的技术问题在于提供一种识别套路贷团伙的方法。
本发明通过以下技术手段实现解决上述技术问题的:
一种套路贷团伙识别方法,包括以下步骤:
S1.构建套路贷网站识别模型;
S2.套路贷网站挖掘,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;
S3.套路贷网站团伙识别,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模。
进一步的,所述步骤S1具体包括:
S101.样本数据的获取,获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,爬取的网页内容记为po-text,然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本,并通过爬虫爬取的网页内容记为ne-text,然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
S102.数据预处理,对正负样本进行文本词向量处理;
S103.模型的训练,采用BiLSTM算法进行模型训练,获得目标模型。
进一步的,所述步骤S2具体包括
S201.套路贷网站特征分析,通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式,分别记为title、css;然后对title进行关键词提取,并去前n名作为套路贷网站特征,得到标题特征列表title_lis;对页面样式css进行去重得到页面样式列表css_list;
S202.爬取疑似套路贷网站,通过标题列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list;然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list,然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list;
S203.套路贷网站识别,利用步骤S01中的目标模型对S022中疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站。
进一步的,所述步骤S3具体包括
S301.特征构建,获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点;
S302.建图,首先对特征url、host、ip进行处理,即将url列与host列、host列与ip列进行拼接,构建无向图g;
S303.计算顶点的连通图信息,具体为:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数;通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。
本发明还提供一种套路贷团伙识别系统,应用于上述的方法,包括
模型构建模块,构建套路贷网站识别模型;
套路贷网站挖掘模块,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;
套路贷网站团伙识别模块,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模。
进一步的,所述模型构建模块的构建过程为:
S101.样本数据的获取,获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,爬取的网页内容记为po-text,然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本,并通过爬虫爬取的网页内容记为ne-text,然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
S102.数据预处理,对正负样本进行文本词向量处理;
S103.模型的训练,采用BiLSTM算法进行模型训练,获得目标模型。
进一步的,所述套路贷网站挖掘模块具体执行过程为
S201.套路贷网站特征分析,通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式,分别记为title、css;然后对title进行关键词提取,并去前n名作为套路贷网站特征,得到标题特征列表title_lis;对页面样式css进行去重得到页面样式列表css_list;
S202.爬取疑似套路贷网站,通过标题列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list;然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list,然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list;
S203.套路贷网站识别,利用步骤S01中的目标模型对S022中疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站。
进一步的,所述套路贷网站团伙识别模块具体执行过程为
S301.特征构建,获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点;
S302.建图,首先对特征url、host、ip进行处理,即将url列与host列、host列与ip列进行拼接,构建无向图g;
S303.计算顶点的连通图信息,具体为:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数;通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。
本发明还提供一种存储介质,其中存储多条指令,所述指令适于处理器加载并执行,所述多条指令为:
模型构建,构建套路贷网站识别模型;
套路贷网站挖掘,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;
套路贷网站团伙识别,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模。
本发明的优点在于:
本发明首先以企业黑名单库中的套路贷网站作为正样本,其他非套路贷网站(比如银行网站、彩票网站、正常贷款网站等)为负样本,训练出套路贷网站识别模型;再通过套路贷网站特征,如网站的名称、host、css等,利用这些特征信息结合网络爬虫技术爬取更多相关的贷款网站,并通过预测模型对爬取的网站进行套路贷网站识别;最后基于套路贷网站特征对已识别出的套路贷网站构建无向图,利用连通子图原理和方法,识别出套路贷网站团伙。该方法兼顾了套路贷网站识别的广度和深度,有效弥补了该领域的技术空缺。
本发明结合犯罪分子即贷款网站层面构建特征,利用网络爬虫技术挖掘出更多潜在风险的套路贷网站,并基于套路贷网站特征构对已识别出的套路贷网站构建无向图,利用广度优先算法遍历图的节点,计算出每个特征节点所在的子图的信息,识别出套路贷网站团伙,兼顾了套路贷网站识别的广度和深度。
附图说明
图1为本发明实施例中套路贷团伙识别方法流程图;
图2为本发明实施例中套路贷团伙识别方法中模型训练效果展示截图;
图3为本发明实施例中套路贷团伙识别方法中套路贷网站的三个特征表;
图4为图3中三个特征拼接图示;
图5为图4中的v1、v2作为节点输入到关系图中构建的无向图g;
图6为图5利用连通子图原理后得到的团伙图示。
具体实施方式
为使本实施例的目的、技术方案和优点更加清楚,下面将结合本实施例,对本实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种套路贷团伙识别方法,包括以下步骤,
步骤1:套路贷网站识别模型
为了挖掘更多潜在的套路贷网站,这里首先建立套路贷网站识别模型,用于套路贷网站的预测。
以企业黑名单库中的套路贷网站作为正样本,其他非套路贷网站(比如银行网站、彩票网站、正常贷款网站等)为负样本,这里提取样本网站的页面文字数据作为模型的输入特征,网站识别模型则转化为文本分类模型。
文本分类是自然语言处理的基本任务。传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取,并且使用TFIDF对n-gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。但是,上述的特征提取方法存在数据稀疏和维度爆炸等问题,这对分类器来说是灾难性的,并且使得训练的模型泛化能力有限。
这里我们采用深度学习中的BERT作为文本特征与数据预处理策略进行融合,再利用BiLSTM进行模型训练,可大大提高模型精度。
步骤101:样本数据的获取
获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,本发明的实例中用到的是python语言中的requests和BeautifulSoup爬虫包,爬取的网页内容记为po-text。然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本。本发明实例中,利用python的fofa包接口,通过标题为“银行”、“彩票”抓取相关网站的url,同样利用python语言中的requests和BeautifulSoup爬虫包,爬取的网页内容记为ne-text。然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
步骤102:数据预处理
这里的数据预处理是指文本词向量处理,顾名思义是将文本数据处理成计算机算法能够识别的、符合算法输入的形式,即对文本里的词或者字进行编码,生成向量形式,便于计算机通过学习和训练,进而输出结果。
传统的词袋模型一般先分词再做编码,分词过程会存在歧义和误差,因此我们这里选用基于字的向量模型。BERT模型不仅基于单个字做编码,其优势还在于,它在训练双向语言模型时以较小的概率把少量的字进行隐藏,替换成Mask或者另一个随机的字,目的在于使模型被迫增加对上下文的记忆,这样,输出的向量更符合文本的上下文语意。
步骤103:模型的训练
自然语言文本分类任务中通常使用神经网络深度学习,本发明实例中我们选用BiLSTM算法。传统的文本处理方法在将词的表示组合成句子的表示时,采用相加的方法,即将所有词的表示进行加和,或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序,BiLSTM通过结合向前和向后的编码方式,可以更好的捕捉双向的语义依赖。
模型训练是一个不断重复验证的过程,通过选用不同的建模方案,结合评估指标,调整训练参数,最后我们选取在验证集上得分最高的模型进行保存,这里记为finance-model。
图5为本发明实例中模型的效果,其中acc是指模型训练精度,val_acc是指模型在验证集上的精度,loss是训练的损失值(模型精度的高低一定程度上依赖训练样本的数量和质量)。
步骤2:套路贷网站挖掘
运营商基于用户的行为画像和DPI数据,已对一些不良网站打标,建立企业套路贷网站黑名单库。本步骤会对黑名单库中的网站进行分析,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过S1中的套路贷网站识别模型finance-model,检测出更多套路贷网站,进而解决企业黑名单库中套路贷网站数量少、覆盖面窄的问题。
步骤201:套路贷网站特征分析
对企业黑名单库中已有的套路贷网站进行特征分析:
1)通过网络爬虫技术爬取该套路贷网站url对应的标题、页面样式,本发明的实例中用到的是python语言中的requests和BeautifulSoup爬虫包,爬取的网页标题记为title,页面样式记为css;
2)对套路贷网站标题title进行关键字提取,并取top5作为套路贷网站特征。本发明实例中用到的是tf_idf关键词提取技术,得到标题特征列表title_list;对页面样式css进行去重得到页面样式列表css_list;
步骤202:爬取疑似套路贷网站
利用套路贷网站标题相近、页面样式相似的特点来挖掘出疑似套路贷网站。本发明实例中,利用python的fofa包接口,通过标题列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list。
同样利用python语言中的requests和BeautifulSoup爬虫包,爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list。然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list。
步骤203:套路贷网站识别
利用步骤1中的套路贷网站识别模型finance-model,对步骤202中的疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站。
步骤3:套路贷网站团伙识别
将运营商套路贷网站黑名单库中的网站与S2中扩展识别出的套路贷网站进行汇总,然后通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙的规模;
步骤301:特征构建
根据网络协议相关知识,对套路贷网站构建特征,作为关系图的节点;
1)url:统一资源定位系统(uniform resource locator;URL)是因特网的万维网服务程序上用于指定信息位置的表示方法,是套路贷网站的强特征;
2)host域名:利用网络爬虫技术,本发明实例中用到python的tldextract包,爬取套路贷网站的host;
3)ip:利用python的socket包,获取套路贷网站的ip地址;
如图6表中每一行代表一个套路贷网站,三列分别为该套路贷网站的三个特征。
步骤302:建图
首先对步骤301中构建的套路贷网站的三个特征列进行处理,url列与host列、host列与ip列进行拼接,本发明实例利用python的numpy和pandas包,具体过程:
1)新建list列表v1、v2;
2)循环套路贷网站的三个特征列,v1=url列+host列,v2=host列+ip列;如图4所示,v1、v2作为节点输入到关系图中,本发明实例中用到python的graph_tool接口包,这里构建的是无向图g如图5所示。
图中,每个点称作顶点,一个顶点代表其中一个套路贷网站的特征:url、ip段、host,顶点之间的连线代表两个特征之间存在联系,在本发明实例中,这种联系代表两个顶点属于同一个套路贷网站。例如套路贷网站w,其url与host、host与ip之间就会出现一条无箭头指向的连接线。
步骤303:计算顶点的连通图信息
在图论中,连通图基于连通的概念。在一个无向图G中,若从顶点i到顶点j有路径相连(当然从j到i也一定有路径),则称i和j是连通的。
本发明实例中,由套路贷网站的特征url、host、ip构建的关系图g中,实际是由n个连通子图构成,这里的连通子图体现了套路贷网站特征之间存在联系,则定义为一个团伙。因此需要统计出图g中每个顶点所在的连通子图的节点数以及节点信息,具体步骤如下:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;
以上,则得到图g中每个节点对应的其所在连通子图的节点列表和节点数。可以通过控制套路贷网站url这个特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙,比如在本发明实例中,当控制vertice_num大于20的时候,套路贷网站团伙画图如图6所示。
通过分析该图的节点之间关联关系得知该套路贷团伙包含多少个套路贷网站,以及他们之间是由哪些host和ip共用而产生联系的。
本实施例还提供一种套路贷团伙识别系统,包括
模型构建模块
为了挖掘更多潜在的套路贷网站,这里首先建立套路贷网站识别模型,用于套路贷网站的预测。
以企业黑名单库中的套路贷网站作为正样本,其他非套路贷网站(比如银行网站、彩票网站、正常贷款网站等)为负样本,这里提取样本网站的页面文字数据作为模型的输入特征,网站识别模型则转化为文本分类模型。
文本分类是自然语言处理的基本任务。传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取,并且使用TFIDF对n-gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。但是,上述的特征提取方法存在数据稀疏和维度爆炸等问题,这对分类器来说是灾难性的,并且使得训练的模型泛化能力有限。
这里我们采用深度学习中的BERT作为文本特征与数据预处理策略进行融合,再利用BiLSTM进行模型训练,可大大提高模型精度。
步骤101:样本数据的获取
获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,本发明的实例中用到的是python语言中的requests和BeautifulSoup爬虫包,爬取的网页内容记为po-text。然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本。本发明实例中,利用python的fofa包接口,通过标题为“银行”、“彩票”抓取相关网站的url,同样利用python语言中的requests和BeautifulSoup爬虫包,爬取的网页内容记为ne-text。然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
步骤102:数据预处理
这里的数据预处理是指文本词向量处理,顾名思义是将文本数据处理成计算机算法能够识别的、符合算法输入的形式,即对文本里的词或者字进行编码,生成向量形式,便于计算机通过学习和训练,进而输出结果。
传统的词袋模型一般先分词再做编码,分词过程会存在歧义和误差,因此我们这里选用基于字的向量模型。BERT模型不仅基于单个字做编码,其优势还在于,它在训练双向语言模型时以较小的概率把少量的字进行隐藏,替换成Mask或者另一个随机的字,目的在于使模型被迫增加对上下文的记忆,这样,输出的向量更符合文本的上下文语意。
步骤103:模型的训练
自然语言文本分类任务中通常使用神经网络深度学习,本发明实例中我们选用BiLSTM算法。传统的文本处理方法在将词的表示组合成句子的表示时,采用相加的方法,即将所有词的表示进行加和,或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序,BiLSTM通过结合向前和向后的编码方式,可以更好的捕捉双向的语义依赖。
模型训练是一个不断重复验证的过程,通过选用不同的建模方案,结合评估指标,调整训练参数,最后我们选取在验证集上得分最高的模型进行保存,这里记为finance-model。
图5为本发明实例中模型的效果,其中acc是指模型训练精度,val_acc是指模型在验证集上的精度,loss是训练的损失值(模型精度的高低一定程度上依赖训练样本的数量和质量)。
套路贷网站挖掘模块
运营商基于用户的行为画像和DPI数据,已对一些不良网站打标,建立企业套路贷网站黑名单库。本步骤会对黑名单库中的网站进行分析,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过S1中的套路贷网站识别模型finance-model,检测出更多套路贷网站,进而解决企业黑名单库中套路贷网站数量少、覆盖面窄的问题。
步骤201:套路贷网站特征分析
对企业黑名单库中已有的套路贷网站进行特征分析:
1)通过网络爬虫技术爬取该套路贷网站url对应的标题、页面样式,本发明的实例中用到的是python语言中的requests和BeautifulSoup爬虫包,爬取的网页标题记为title,页面样式记为css;
2)对套路贷网站标题title进行关键字提取,并取top5作为套路贷网站特征。本发明实例中用到的是tf_idf关键词提取技术,得到标题特征列表title_list;对页面样式css进行去重得到页面样式列表css_list;
步骤202:爬取疑似套路贷网站
利用套路贷网站标题相近、页面样式相似的特点来挖掘出疑似套路贷网站。本发明实例中,利用python的fofa包接口,通过标题列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list。
同样利用python语言中的requests和BeautifulSoup爬虫包,爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list。然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list。
步骤203:套路贷网站识别
利用步骤1中的套路贷网站识别模型finance-model,对步骤202中的疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站。
套路贷网站团伙识别模块
将运营商套路贷网站黑名单库中的网站与S2中扩展识别出的套路贷网站进行汇总,然后通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙的规模;
步骤301:特征构建
根据网络协议相关知识,对套路贷网站构建特征,作为关系图的节点;
1)url:统一资源定位系统(uniform resource locator;URL)是因特网的万维网服务程序上用于指定信息位置的表示方法,是套路贷网站的强特征;
2)host域名:利用网络爬虫技术,本发明实例中用到python的tldextract包,爬取套路贷网站的host;
3)ip:利用python的socket包,获取套路贷网站的ip地址;
如图6表中每一行代表一个套路贷网站,三列分别为该套路贷网站的三个特征。
步骤302:建图
首先对步骤301中构建的套路贷网站的三个特征列进行处理,url列与host列、host列与ip列进行拼接,本发明实例利用python的numpy和pandas包,具体过程:
1)新建list列表v1、v2;
2)循环套路贷网站的三个特征列,v1=url列+host列,v2=host列+ip列;如图4所示,v1、v2作为节点输入到关系图中,本发明实例中用到python的graph_tool接口包,这里构建的是无向图g如图5所示。
图5中,每个点称作顶点,一个顶点代表其中一个套路贷网站的特征:url、ip段、host,顶点之间的连线代表两个特征之间存在联系,在本发明实例中,这种联系代表两个顶点属于同一个套路贷网站。例如套路贷网站w,其url与host、host与ip之间就会出现一条无箭头指向的连接线。
步骤303:计算顶点的连通图信息
在图论中,连通图基于连通的概念。在一个无向图G中,若从顶点i到顶点j有路径相连(当然从j到i也一定有路径),则称i和j是连通的。
本发明实例中,由套路贷网站的特征url、host、ip构建的关系图g中,实际是由n个连通子图构成,这里的连通子图体现了套路贷网站特征之间存在联系,则定义为一个团伙。因此需要统计出图g中每个顶点所在的连通子图的节点数以及节点信息,具体步骤如下:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;
以上,则得到图g中每个节点对应的其所在连通子图的节点列表和节点数。可以通过控制套路贷网站url这个特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙,比如在本发明实例中,当控制vertice_num大于20的时候,套路贷网站团伙画图如图6所示。
通过分析该图的节点之间关联关系得知该套路贷团伙包含多少个套路贷网站,以及他们之间是由哪些host和ip共用而产生联系的。
本实施例还提供一种存储介质,其中存储多条指令,所述指令适于处理器加载并执行,所述多条指令为:
模型构建,构建套路贷网站识别模型;
套路贷网站挖掘,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;
套路贷网站团伙识别,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种套路贷团伙识别方法,其特征在于:包括以下步骤:
S1.构建套路贷网站识别模型;
S2.套路贷网站挖掘,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;所述步骤S2具体包括:
S201.套路贷网站特征分析,通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式,分别记为title、css;然后对title进行关键词提取,并取前n名作为套路贷网站特征,得到标题特征列表title_list;对页面样式css进行去重得到页面样式列表css_list;
S202.爬取疑似套路贷网站,通过标题特征列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list;然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list,然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list;
S203.套路贷网站识别,利用步骤S1中的识别模型对S202中疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站;
S3.套路贷网站团伙识别,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模;
所述步骤S3具体包括:
S301.特征构建,获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点;
S302.建图,首先对特征url、host、ip进行处理,即将url列与host列、host列与ip列进行拼接,构建无向图g;具体过程为:1)新建list列表v1、v2;2)循环套路贷网站的三个特征列,v1=url列+host列,v2=host列+ip列;v1、v2作为节点输入到关系图中,构建无向图g;每个点称作顶点,一个顶点代表其中一个套路贷网站的特征:url、ip段、host,顶点之间的连线代表两个特征之间存在联系;
S303.计算顶点的连通图信息,具体为:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数;通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。
2.根据权利要求1所述的一种套路贷团伙识别方法,其特征在于:所述步骤S1具体包括:
S101.样本数据的获取,获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,爬取的网页内容记为po-text,然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本,并通过爬虫爬取的网页内容记为ne-text,然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
S102.数据预处理,对正负样本进行文本词向量处理;
S103.模型的训练,采用BiLSTM算法进行模型训练,获得目标模型。
3.一种套路贷团伙识别系统,应用于权利要求1至2任一所述的方法,其特征在于:包括
模型构建模块,构建套路贷网站识别模型;
套路贷网站挖掘模块,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;所述套路贷网站挖掘模块具体执行过程为:
S201.套路贷网站特征分析,通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式,分别记为title、css;然后对title进行关键词提取,并取前n名作为套路贷网站特征,得到标题特征列表title_list;对页面样式css进行去重得到页面样式列表css_list;
S202.爬取疑似套路贷网站,通过标题特征列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list;然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list,然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list;
S203.套路贷网站识别,利用步骤S1中的识别模型对S202中疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站;
套路贷网站团伙识别模块,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模,所述套路贷网站团伙识别模块具体执行过程为:
S301.特征构建,获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点;
S302.建图,首先对特征url、host、ip进行处理,即将url列与host列、host列与ip列进行拼接,构建无向图g;具体过程为:1)新建list列表v1、v2;2)循环套路贷网站的三个特征列,v1=url列+host列,v2=host列+ip列;v1、v2作为节点输入到关系图中,构建无向图g;每个点称作顶点,一个顶点代表其中一个套路贷网站的特征:url、ip段、host,顶点之间的连线代表两个特征之间存在联系;
S303.计算顶点的连通图信息,具体为:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数;通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。
4.根据权利要求3所述的一种套路贷团伙识别系统,其特征在于:所述模型构建模块的构建过程为:
S101.样本数据的获取,获取运营商内部套路贷网站黑名单库中的网站url,并通过网络爬虫技术爬取该url对应的网页内容,爬取的网页内容记为po-text,然后通过正则提取po-text中的中文部分,记为po-sample,以此作为训练文本分类模型的正样本;
获取与套路贷网站页面内容比较相近的网站作为负样本,并通过爬虫爬取的网页内容记为ne-text,然后通过正则提取ne-text中的中文部分,记为ne-sample,以此作为训练文本分类模型的负样本;
S102.数据预处理,对正负样本进行文本词向量处理;
S103.模型的训练,采用BiLSTM算法进行模型训练,获得目标模型。
5.一种存储介质,其中存储多条指令,所述指令适于处理器加载并执行,其特征在于:所述多条指令为:
模型构建,构建套路贷网站识别模型;
套路贷网站挖掘,根据套路贷网站黑名单库,获取套路贷网站的主要特征,并利用网络爬虫技术,爬取更多疑似套路贷网站的页面内容,并通过所述的套路贷网站识别模型进行识别,然后将识别为套路贷网站放入黑名单库中,得到新的黑名单库;所述套路贷网站挖掘具体执行过程为:
套路贷网站特征分析,通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式,分别记为title、css;然后对title进行关键词提取,并取前n名作为套路贷网站特征,得到标题特征列表title_list;对页面样式css进行去重得到页面样式列表css_list;
爬取疑似套路贷网站,通过标题特征列表title_list中的标题关键词搜索,抓取标题中包含这些关键词的相关网站;通过列表css_list中的网页样式特征搜索,抓取与套路贷网站样式一致的相关网站;爬取的疑似套路贷网站列表url_list;然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串,网站页面内容串列表记为text_list,然后通过正则提取列表text_list中每个字符串里的中文部分,记为sample_list;
套路贷网站识别,利用识别模型对疑似套路贷网站特征列表sample_list进行预测,预测结果为1的标识是套路贷网站,预测结果为0的表示非套路贷网站;
套路贷网站团伙识别,针对新的黑名单库,通过套路贷网站的特征数据构建关系图,计算出每个特征节点所在的连通子图以及连通子图的节点数,每个连通子图即为一个团伙,连通子图的节点数为团伙规模,所述套路贷网站团伙识别模块具体执行过程为:
S301.特征构建,获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点;
S302.建图,首先对特征url、host、ip进行处理,即将url列与host列、host列与ip列进行拼接,构建无向图g;具体过程为:1)新建list列表v1、v2;2)循环套路贷网站的三个特征列,v1=url列+host列,v2=host列+ip列;v1、v2作为节点输入到关系图中,构建无向图g;每个点称作顶点,一个顶点代表其中一个套路贷网站的特征:url、ip段、host,顶点之间的连线代表两个特征之间存在联系;
S303.计算顶点的连通图信息,具体为:
1)随机取图g中的一个节点v,v对应的连通子图节点数变量为vertice_num,节点名称列表为vertice_list;
2)以v为顶点,按照广度优先算法遍历图g,每遍历到一个节点存入变量vertice_list中,vertice_num加1;
3)循环以上过程,直到遍历g中所有节点;然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数;通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615836.8A CN111754338B (zh) | 2020-06-30 | 2020-06-30 | 一种套路贷网站团伙识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615836.8A CN111754338B (zh) | 2020-06-30 | 2020-06-30 | 一种套路贷网站团伙识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111754338A CN111754338A (zh) | 2020-10-09 |
CN111754338B true CN111754338B (zh) | 2024-02-23 |
Family
ID=72676864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615836.8A Active CN111754338B (zh) | 2020-06-30 | 2020-06-30 | 一种套路贷网站团伙识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111754338B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112968875B (zh) * | 2021-01-29 | 2022-11-01 | 上海安恒时代信息技术有限公司 | 网络关系构建方法及系统 |
CN113364764B (zh) * | 2021-06-02 | 2022-07-12 | 中国移动通信集团广东有限公司 | 基于大数据的信息安全防护方法及装置 |
CN113591088B (zh) * | 2021-07-30 | 2023-08-29 | 百度在线网络技术(北京)有限公司 | 一种标识识别方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523130A (zh) * | 2011-12-06 | 2012-06-27 | 中国科学院计算机网络信息中心 | 不良网页检测方法及装置 |
CN103324615A (zh) * | 2012-03-19 | 2013-09-25 | 哈尔滨安天科技股份有限公司 | 基于搜索引擎优化的钓鱼网站探测方法及系统 |
CN106301978A (zh) * | 2015-05-26 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 团伙成员账号的识别方法、装置及设备 |
CN108777674A (zh) * | 2018-04-24 | 2018-11-09 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
CN109510815A (zh) * | 2018-10-19 | 2019-03-22 | 杭州安恒信息技术股份有限公司 | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 |
CN110224859A (zh) * | 2019-05-16 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 用于识别团伙的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2555801A (en) * | 2016-11-09 | 2018-05-16 | F Secure Corp | Identifying fraudulent and malicious websites, domain and subdomain names |
-
2020
- 2020-06-30 CN CN202010615836.8A patent/CN111754338B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523130A (zh) * | 2011-12-06 | 2012-06-27 | 中国科学院计算机网络信息中心 | 不良网页检测方法及装置 |
CN103324615A (zh) * | 2012-03-19 | 2013-09-25 | 哈尔滨安天科技股份有限公司 | 基于搜索引擎优化的钓鱼网站探测方法及系统 |
CN106301978A (zh) * | 2015-05-26 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 团伙成员账号的识别方法、装置及设备 |
CN108777674A (zh) * | 2018-04-24 | 2018-11-09 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
CN109510815A (zh) * | 2018-10-19 | 2019-03-22 | 杭州安恒信息技术股份有限公司 | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 |
CN110224859A (zh) * | 2019-05-16 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 用于识别团伙的方法和系统 |
Non-Patent Citations (7)
Title |
---|
Blocking pornographic, illegal websites by internet host domain using FPGA and Bloom Filter;Hua Yu等;《2010 2nd IEEE InternationalConference on Network Infrastructure and Digital Content》;全文 * |
卢誉声.《移动平台深度神经网络实战 原理、架构与优化》.北京:机械工业出版社,2020,24-25. * |
基于BERT-BiLSTM的短文本情感分析;杨奎河;刘智鹏;;信息通信(06);86-87 * |
基于模板检测的违法网站识别;张瀚珑;《中国优秀硕士学位论文全文数据库信息科技辑》(第03期);全文 * |
基于爬虫的有害网站发现与判别系统的实现;王庆广等;《信息网络安全》;20120810(第08期);全文 * |
基于特征提取的恶意软件行为及能力分析方法研究;冯胥睿瑞;刘嘉勇;程芃森;;信息网络安全(12);78-84 * |
面向多领域社区发现的实体聚类及聚类融合算法研究;徐宏斌;《中国优秀硕士学位论文全文数据库信息科技辑》(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111754338A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754338B (zh) | 一种套路贷网站团伙识别方法及系统 | |
Buber et al. | NLP based phishing attack detection from URLs | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
Chai et al. | An explainable multi-modal hierarchical attention model for developing phishing threat intelligence | |
Das Guptta et al. | Modeling hybrid feature-based phishing websites detection using machine learning techniques | |
CN111181922A (zh) | 一种钓鱼链接检测方法及系统 | |
Yuan et al. | A novel approach for malicious URL detection based on the joint model | |
Ren et al. | A bi-directional lstm model with attention for malicious url detection | |
Kascheev et al. | The detecting cross-site scripting (XSS) using machine learning methods | |
CN115080756A (zh) | 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 | |
Khan | Detection of phishing websites using deep learning techniques | |
Hu et al. | Cross-site scripting detection with two-channel feature fusion embedded in self-attention mechanism | |
Chen et al. | XSS adversarial example attacks based on deep reinforcement learning | |
Valiyaveedu et al. | Survey and analysis on AI based phishing detection techniques | |
Yan et al. | Cross-site scripting attack detection based on a modified convolution neural network | |
Shyni et al. | Phishing detection in websites using parse tree validation | |
CN115001763B (zh) | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 | |
CN111414621A (zh) | 一种恶意网页文件识别方法及装置 | |
KR102483004B1 (ko) | 유해 url 탐지 방법 | |
Elnagar et al. | A cognitive framework for detecting phishing websites | |
Chen et al. | Killing one bird with two stones: Model extraction and attribute inference attacks against bert-based apis | |
Kaibassova et al. | SOLVING THE PROBLEM OF DETECTING PHISHING WEBSITES USING ENSEMBLE LEARNING MODELS | |
Dai et al. | SecNLP: An NLP classification model watermarking framework based on multi-task learning | |
Sun et al. | Padetective: A systematic approach to automate detection of promotional attackers in mobile app store | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |