CN111754338A

CN111754338A - 一种套路贷网站团伙识别方法及系统

Info

Publication number: CN111754338A
Application number: CN202010615836.8A
Authority: CN
Inventors: 马影; 梁淑云; 刘胜; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09
Anticipated expiration: 2040-06-30
Also published as: CN111754338B

Abstract

本发明公开了一种套路贷团伙识别方法及系统，包括构建套路贷网站识别模型；根据套路贷网站黑名单库，获取套路贷网站的主要特征，并利用网络爬虫技术，爬取更多疑似套路贷网站的页面内容，并通过所述的套路贷网站识别模型进行识别，然后将识别为套路贷网站放入黑名单库中，得到新的黑名单库；针对新的黑名单库，通过套路贷网站的特征数据构建关系图，计算出每个特征节点所在的连通子图以及连通子图的节点数，最终识别团伙。本发明结合犯罪分子即贷款网站层面构建特征，挖掘潜在套路贷网站，并基于套路贷网站特征构对已识别出的套路贷网站构建无向图，然后计算识别出套路贷网站团伙，兼顾了套路贷网站识别的广度和深度。

Description

一种套路贷网站团伙识别方法及系统

技术领域

本发明涉及计算机数据安全技术领域，具体为一种套路贷网站团伙识别方法及系统。

背景技术

所谓套路贷，即假借民间“借贷”之名，通过“虚增债务”、“签订虚假借款协议”、“制造资金走账流水”、“肆意认定违约”、“转单平账”等方式，采用欺骗、胁迫、滋扰、纠缠、非法拘禁、敲诈勒索、虚假诉讼等手段，非法占用他人财产目的的违法行为。

套路贷途径主要有电话诈骗和贷款网站。目前，运营商基于用户的行为画像和DPI数据，已对一些不良网站打标，建立企业黑名单库，但这种手段单一且滞后，无法防范于未然，套路贷网站对运营商普通用户的财产安全仍存在重大威胁，如何挖掘更多的非法贷款网站并有效的识别贷款网站团伙进而分析套路贷网站之间的联系是运营商关注和需要解决的问题。

如申请号为201911049749.4公开的一种套路贷团伙的识别方法及系统，根据套路贷运行过程中涉及到的特征数据建立对应的关系图，并根据该关系图建立仅包含人物关系的关系图；通过权重之间的迭代对仅包含人物关系的关系图划分为若干个节点集，并根据节点集中出现套路贷犯罪分子的数量判断各个节点集作为套路贷团伙的概率，进而可以根据现有的套路贷犯罪分子的数据识别与对应的套路贷团伙。但是该发明申请仅从受害者行为特征层面分析，如运营商基于用户的行为画像和DPI数据，分析哪些用户曾遭遇套路贷诈骗，存在一定滞后性；且现有技术只识别出非法贷款网站个体，未对非法网站之间的关系进行分析，存在一定的片面性。

发明内容

本发明所要解决的技术问题在于提供一种识别套路贷团伙的方法。

本发明通过以下技术手段实现解决上述技术问题的：

一种套路贷团伙识别方法，包括以下步骤：

S1.构建套路贷网站识别模型；

S2.套路贷网站挖掘，根据套路贷网站黑名单库，获取套路贷网站的主要特征，并利用网络爬虫技术，爬取更多疑似套路贷网站的页面内容，并通过所述的套路贷网站识别模型进行识别，然后将识别为套路贷网站放入黑名单库中，得到新的黑名单库；

S3.套路贷网站团伙识别，针对新的黑名单库，通过套路贷网站的特征数据构建关系图，计算出每个特征节点所在的连通子图以及连通子图的节点数，每个连通子图即为一个团伙，连通子图的节点数为团伙规模。

进一步的，所述步骤S1具体包括：

S101.样本数据的获取，获取运营商内部套路贷网站黑名单库中的网站 url，并通过网络爬虫技术爬取该url对应的网页内容，爬取的网页内容记为po-text，然后通过正则提取po-text中的中文部分，记为po-sample，以此作为训练文本分类模型的正样本；

获取与套路贷网站页面内容比较相近的网站作为负样本，并通过爬虫爬取的网页内容记为ne-text，然后通过正则提取ne-text中的中文部分，记为ne-sample，以此作为训练文本分类模型的负样本；

S102.数据预处理，对正负样本进行文本词向量处理；

S103.模型的训练，采用BiLSTM算法进行模型训练，获得目标模型。

进一步的，所述步骤S2具体包括

S201.套路贷网站特征分析，通过网络爬虫技术爬取企业黑名单库中已有的套路贷网站url对应的标题和页面样式，分别记为title、css；然后对title进行关键词提取，并去前n名作为套路贷网站特征，得到标题特征列表title_lis；对页面样式css进行去重得到页面样式列表css_list；

S202.爬取疑似套路贷网站，通过标题列表title_list中的标题关键词搜索，抓取标题中包含这些关键词的相关网站；通过列表css_list中的网页样式特征搜索，抓取与套路贷网站样式一致的相关网站；爬取的疑似套路贷网站列表url_list；然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串，网站页面内容串列表记为text_list，然后通过正则提取列表text_list中每个字符串里的中文部分，记为 sample_list；

S203.套路贷网站识别，利用步骤S01中的目标模型对S022中疑似套路贷网站特征列表sample_list进行预测，预测结果为1的标识是套路贷网站，预测结果为0的表示非套路贷网站。

进一步的，所述步骤S3具体包括

S301.特征构建，获取新的黑名单库中套路贷网站的特征url、host、 ip作为关系图的节点；

S302.建图，首先对特征url、host、ip进行处理，即将url列与host 列、host列与ip列进行拼接，构建无向图g；

S303.计算顶点的连通图信息，具体为：

1)随机取图g中的一个节点v，v对应的连通子图节点数变量为 vertice_num，节点名称列表为vertice_list；

2)以v为顶点，按照广度优先算法遍历图g，每遍历到一个节点存入变量vertice_list中，vertice_num加1；

3)循环以上过程，直到遍历g中所有节点；然后得到图g中每个节点对应的其所在连通子图的节点列表和节点数；通过控制套路贷网站url特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙。

本发明还提供一种套路贷团伙识别系统，应用于上述的方法，包括

模型构建模块，构建套路贷网站识别模型；

套路贷网站挖掘模块，根据套路贷网站黑名单库，获取套路贷网站的主要特征，并利用网络爬虫技术，爬取更多疑似套路贷网站的页面内容，并通过所述的套路贷网站识别模型进行识别，然后将识别为套路贷网站放入黑名单库中，得到新的黑名单库；

套路贷网站团伙识别模块，针对新的黑名单库，通过套路贷网站的特征数据构建关系图，计算出每个特征节点所在的连通子图以及连通子图的节点数，每个连通子图即为一个团伙，连通子图的节点数为团伙规模。

进一步的，所述模型构建模块的构建过程为：

S102.数据预处理，对正负样本进行文本词向量处理；

进一步的，所述套路贷网站挖掘模块具体执行过程为

进一步的，所述套路贷网站团伙识别模块具体执行过程为

S303.计算顶点的连通图信息，具体为：

本发明还提供一种存储介质，其中存储多条指令，所述指令适于处理器加载并执行，所述多条指令为：

模型构建，构建套路贷网站识别模型；

套路贷网站挖掘，根据套路贷网站黑名单库，获取套路贷网站的主要特征，并利用网络爬虫技术，爬取更多疑似套路贷网站的页面内容，并通过所述的套路贷网站识别模型进行识别，然后将识别为套路贷网站放入黑名单库中，得到新的黑名单库；

套路贷网站团伙识别，针对新的黑名单库，通过套路贷网站的特征数据构建关系图，计算出每个特征节点所在的连通子图以及连通子图的节点数，每个连通子图即为一个团伙，连通子图的节点数为团伙规模。

本发明的优点在于：

本发明首先以企业黑名单库中的套路贷网站作为正样本，其他非套路贷网站(比如银行网站、彩票网站、正常贷款网站等)为负样本，训练出套路贷网站识别模型；再通过套路贷网站特征，如网站的名称、host、css 等，利用这些特征信息结合网络爬虫技术爬取更多相关的贷款网站，并通过预测模型对爬取的网站进行套路贷网站识别；最后基于套路贷网站特征对已识别出的套路贷网站构建无向图，利用连通子图原理和方法，识别出套路贷网站团伙。该方法兼顾了套路贷网站识别的广度和深度，有效弥补了该领域的技术空缺。

本发明结合犯罪分子即贷款网站层面构建特征，利用网络爬虫技术挖掘出更多潜在风险的套路贷网站，并基于套路贷网站特征构对已识别出的套路贷网站构建无向图，利用广度优先算法遍历图的节点，计算出每个特征节点所在的子图的信息，识别出套路贷网站团伙，兼顾了套路贷网站识别的广度和深度。

附图说明

图1为本发明实施例中套路贷团伙识别方法流程图；

图2为本发明实施例中套路贷团伙识别方法中模型训练效果展示截图；

图3为本发明实施例中套路贷团伙识别方法中套路贷网站的三个特征表；

图4为图3中三个特征拼接图示；

图5为图4中的v1、v2作为节点输入到关系图中构建的无向图g；

图6为图5利用连通子图原理后得到的团伙图示。

具体实施方式

为使本实施例的目的、技术方案和优点更加清楚，下面将结合本实施例，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种套路贷团伙识别方法，包括以下步骤，

步骤1：套路贷网站识别模型

为了挖掘更多潜在的套路贷网站，这里首先建立套路贷网站识别模型，用于套路贷网站的预测。

以企业黑名单库中的套路贷网站作为正样本，其他非套路贷网站(比如银行网站、彩票网站、正常贷款网站等)为负样本，这里提取样本网站的页面文字数据作为模型的输入特征，网站识别模型则转化为文本分类模型。

文本分类是自然语言处理的基本任务。传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取，并且使用TFIDF对 n-gram特征权重进行调整，然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。但是，上述的特征提取方法存在数据稀疏和维度爆炸等问题，这对分类器来说是灾难性的，并且使得训练的模型泛化能力有限。

这里我们采用深度学习中的BERT作为文本特征与数据预处理策略进行融合，再利用BiLSTM进行模型训练，可大大提高模型精度。

步骤101：样本数据的获取

获取运营商内部套路贷网站黑名单库中的网站url，并通过网络爬虫技术爬取该url对应的网页内容，本发明的实例中用到的是python语言中的 requests和BeautifulSoup爬虫包，爬取的网页内容记为po-text。然后通过正则提取po-text中的中文部分，记为po-sample，以此作为训练文本分类模型的正样本；

获取与套路贷网站页面内容比较相近的网站作为负样本。本发明实例中，利用python的fofa包接口，通过标题为“银行”、“彩票”抓取相关网站的url，同样利用python语言中的requests和BeautifulSoup爬虫包，爬取的网页内容记为ne-text。然后通过正则提取ne-text中的中文部分，记为ne-sample，以此作为训练文本分类模型的负样本；

步骤102：数据预处理

这里的数据预处理是指文本词向量处理，顾名思义是将文本数据处理成计算机算法能够识别的、符合算法输入的形式，即对文本里的词或者字进行编码，生成向量形式，便于计算机通过学习和训练，进而输出结果。

传统的词袋模型一般先分词再做编码，分词过程会存在歧义和误差，因此我们这里选用基于字的向量模型。BERT模型不仅基于单个字做编码，其优势还在于，它在训练双向语言模型时以较小的概率把少量的字进行隐藏，替换成Mask或者另一个随机的字，目的在于使模型被迫增加对上下文的记忆，这样，输出的向量更符合文本的上下文语意。

步骤103：模型的训练

自然语言文本分类任务中通常使用神经网络深度学习，本发明实例中我们选用BiLSTM算法。传统的文本处理方法在将词的表示组合成句子的表示时，采用相加的方法，即将所有词的表示进行加和，或者取平均等方法，但是这些方法没有考虑到词语在句子中前后顺序，BiLSTM通过结合向前和向后的编码方式，可以更好的捕捉双向的语义依赖。

模型训练是一个不断重复验证的过程，通过选用不同的建模方案，结合评估指标，调整训练参数，最后我们选取在验证集上得分最高的模型进行保存，这里记为finance-model。

图5为本发明实例中模型的效果，其中acc是指模型训练精度，val_acc 是指模型在验证集上的精度，loss是训练的损失值(模型精度的高低一定程度上依赖训练样本的数量和质量)。

步骤2：套路贷网站挖掘

运营商基于用户的行为画像和DPI数据，已对一些不良网站打标，建立企业套路贷网站黑名单库。本步骤会对黑名单库中的网站进行分析，获取套路贷网站的主要特征，并利用网络爬虫技术，爬取更多疑似套路贷网站的页面内容，并通过S1中的套路贷网站识别模型finance-model，检测出更多套路贷网站，进而解决企业黑名单库中套路贷网站数量少、覆盖面窄的问题。

步骤201：套路贷网站特征分析

对企业黑名单库中已有的套路贷网站进行特征分析：

1)通过网络爬虫技术爬取该套路贷网站url对应的标题、页面样式，本发明的实例中用到的是python语言中的requests和BeautifulSoup爬虫包，爬取的网页标题记为title，页面样式记为css；

2)对套路贷网站标题title进行关键字提取，并取top5作为套路贷网站特征。本发明实例中用到的是tf_idf关键词提取技术，得到标题特征列表title_list；对页面样式css进行去重得到页面样式列表css_list；

步骤202：爬取疑似套路贷网站

利用套路贷网站标题相近、页面样式相似的特点来挖掘出疑似套路贷网站。本发明实例中，利用python的fofa包接口，通过标题列表title_list 中的标题关键词搜索，抓取标题中包含这些关键词的相关网站；通过列表 css_list中的网页样式特征搜索，抓取与套路贷网站样式一致的相关网站；爬取的疑似套路贷网站列表url_list。

同样利用python语言中的requests和BeautifulSoup爬虫包，爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串，网站页面内容串列表记为text_list。然后通过正则提取列表text_list中每个字符串里的中文部分，记为sample_list。

步骤203：套路贷网站识别

利用步骤1中的套路贷网站识别模型finance-model，对步骤202中的疑似套路贷网站特征列表sample_list进行预测，预测结果为1的标识是套路贷网站，预测结果为0的表示非套路贷网站。

步骤3：套路贷网站团伙识别

将运营商套路贷网站黑名单库中的网站与S2中扩展识别出的套路贷网站进行汇总，然后通过套路贷网站的特征数据构建关系图，计算出每个特征节点所在的连通子图以及连通子图的节点数，每个连通子图即为一个团伙，连通子图的节点数为团伙的规模；

步骤301：特征构建

根据网络协议相关知识，对套路贷网站构建特征，作为关系图的节点；

1)url：统一资源定位系统(uniform resource locator；URL)是因特网的万维网服务程序上用于指定信息位置的表示方法，是套路贷网站的强特征；

2)host域名：利用网络爬虫技术，本发明实例中用到python的 tldextract包，爬取套路贷网站的host；

3)ip：利用python的socket包，获取套路贷网站的ip地址；

如图6表中每一行代表一个套路贷网站，三列分别为该套路贷网站的三个特征。

步骤302：建图

首先对步骤301中构建的套路贷网站的三个特征列进行处理，url列与 host列、host列与ip列进行拼接，本发明实例利用python的numpy和 pandas包，具体过程：

1)新建list列表v1、v2；

2)循环套路贷网站的三个特征列，v1＝url列+host列，v2＝host列+ip 列；如图4所示，v1、v2作为节点输入到关系图中，本发明实例中用到python 的graph_tool接口包，这里构建的是无向图g如图5所示。

图中，每个点称作顶点，一个顶点代表其中一个套路贷网站的特征： url、ip段、host，顶点之间的连线代表两个特征之间存在联系，在本发明实例中，这种联系代表两个顶点属于同一个套路贷网站。例如套路贷网站w，其url与host、host与ip之间就会出现一条无箭头指向的连接线。

步骤303：计算顶点的连通图信息

在图论中，连通图基于连通的概念。在一个无向图G中，若从顶点i 到顶点j有路径相连(当然从j到i也一定有路径)，则称i和j是连通的。

本发明实例中，由套路贷网站的特征url、host、ip构建的关系图g 中，实际是由n个连通子图构成，这里的连通子图体现了套路贷网站特征之间存在联系，则定义为一个团伙。因此需要统计出图g中每个顶点所在的连通子图的节点数以及节点信息，具体步骤如下：

3)循环以上过程，直到遍历g中所有节点；

以上，则得到图g中每个节点对应的其所在连通子图的节点列表和节点数。可以通过控制套路贷网站url这个特征节点所在的连通子图的节点个数vertice_num来筛选需要分析的套路贷网站团伙，比如在本发明实例中，当控制vertice_num大于20的时候，套路贷网站团伙画图如图6所示。

通过分析该图的节点之间关联关系得知该套路贷团伙包含多少个套路贷网站，以及他们之间是由哪些host和ip共用而产生联系的。

本实施例还提供一种套路贷团伙识别系统，包括

模型构建模块

步骤101：样本数据的获取

步骤102：数据预处理

步骤103：模型的训练

套路贷网站挖掘模块

步骤201：套路贷网站特征分析

对企业黑名单库中已有的套路贷网站进行特征分析：

步骤202：爬取疑似套路贷网站

步骤203：套路贷网站识别

套路贷网站团伙识别模块

步骤301：特征构建

3)ip：利用python的socket包，获取套路贷网站的ip地址；

步骤302：建图

首先对步骤301中构建的套路贷网站的三个特征列进行处理，url列与host列、host列与ip列进行拼接，本发明实例利用python的numpy和 pandas包，具体过程：

1)新建list列表v1、v2；

图5中，每个点称作顶点，一个顶点代表其中一个套路贷网站的特征： url、ip段、host，顶点之间的连线代表两个特征之间存在联系，在本发明实例中，这种联系代表两个顶点属于同一个套路贷网站。例如套路贷网站w，其url与host、host与ip之间就会出现一条无箭头指向的连接线。

步骤303：计算顶点的连通图信息

1)随机取图g中的一个节点v，v对应的连通子图节点数变量为vertice_num，节点名称列表为vertice_list；

3)循环以上过程，直到遍历g中所有节点；

本实施例还提供一种存储介质，其中存储多条指令，所述指令适于处理器加载并执行，所述多条指令为：

模型构建，构建套路贷网站识别模型；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种套路贷团伙识别方法，其特征在于：包括以下步骤：

S1.构建套路贷网站识别模型；

2.根据权利要求1所述的一种套路贷团伙识别方法，其特征在于：所述步骤S1具体包括：

S101.样本数据的获取，获取运营商内部套路贷网站黑名单库中的网站url，并通过网络爬虫技术爬取该url对应的网页内容，爬取的网页内容记为po-text，然后通过正则提取po-text中的中文部分，记为po-sample，以此作为训练文本分类模型的正样本；

S102.数据预处理，对正负样本进行文本词向量处理；

3.根据权利要求2所述的一种套路贷团伙识别方法，其特征在于：所述步骤S2具体包括

S202.爬取疑似套路贷网站，通过标题列表title_list中的标题关键词搜索，抓取标题中包含这些关键词的相关网站；通过列表css_list中的网页样式特征搜索，抓取与套路贷网站样式一致的相关网站；爬取的疑似套路贷网站列表url_list；然后爬取疑似套路贷网站列表url_list中的每个网站对应的页面内容字符串，网站页面内容串列表记为text_list，然后通过正则提取列表text_list中每个字符串里的中文部分，记为sample_list；

4.根据权利要求2所述的一种套路贷团伙识别方法，其特征在于：所述步骤S3具体包括

S301.特征构建，获取新的黑名单库中套路贷网站的特征url、host、ip作为关系图的节点；

S302.建图，首先对特征url、host、ip进行处理，即将url列与host列、host列与ip列进行拼接，构建无向图g；

S303.计算顶点的连通图信息，具体为：

5.一种套路贷团伙识别系统，应用于权利要求1至4任一所述的方法，其特征在于：包括

模型构建模块，构建套路贷网站识别模型；

6.根据权利要求5所述的一种套路贷团伙识别系统，其特征在于：所述模型构建模块的构建过程为：

S102.数据预处理，对正负样本进行文本词向量处理；

7.根据权利要求6所述的一种套路贷团伙识别系统，其特征在于：所述套路贷网站挖掘模块具体执行过程为

8.根据权利要求6所述的一种套路贷团伙识别系统，其特征在于：所述套路贷网站团伙识别模块具体执行过程为

S303.计算顶点的连通图信息，具体为：

9.一种存储介质，其中存储多条指令，所述指令适于处理器加载并执行，其特征在于：所述多条指令为：

模型构建，构建套路贷网站识别模型；