CN111078978A

CN111078978A - 一种基于网站文本内容的网贷网站实体识别方法及系统

Info

Publication number: CN111078978A
Application number: CN201911209943.4A
Authority: CN
Inventors: 梁淑云; 刘胜; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-28
Anticipated expiration: 2039-11-29
Also published as: CN111078978B

Abstract

本发明提供一种基于网站文本内容的网贷网站实体识别方法及系统，包括S01、构建训练集域名表；S02、构建预测集域名表；S03、数据清洗与预处理；S04、文本分类模型训练，得到目标文本分类模型；S05、网贷网站识别，将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型，输出每个样本对应的是否为网贷网站字段；S06、命名实体识别模型训练，得到目标命名实体识别模型；S07、实体名称标注。本发明基于运营商DPI数据，获取用户访问的网站域名host，获得网页内容并识别出网贷网站，同时利用命名实体识别技术提取出网贷网站中实体名称，进而结合外部黑名单数据，对一些不良网站打标，建立企业黑名单库，这种方法准确率高，时效性高。

Description

一种基于网站文本内容的网贷网站实体识别方法及系统

技术领域

本发明涉及网贷网站识别技术领域，具体来说是一种基于网站文本内容的网贷网站实体识别方法及系统。

背景技术

随着互联网技术的迅速发展，网站的建立更便捷，门槛也更低，从而导致很多不良、不法网站如不法网贷网站、钓鱼网站、赌博网站等层出不穷。近年来，P2P公司跑路、网络诈骗、电信诈骗等事件频繁发生，给网民造成了较为严重的财产损失，有些甚至危害到了个人人身安全，同时产生了不良的社会影响。对网贷网站的准确高效识别，进而及时提醒用户谨慎操作，能够避免用户的财产等受到损失，同时提高了企业的社会责任及企业形象。

中文文本分类属于自然语言处理技术中的一项任务，是通过算法对输入的文本自动归类的过程，该过程能够根据网站的中文文本内容，识别出该网站是否归属网贷网站。随着网络文化的快速发展，网络用语中新词层出不穷，某些旧词语义日新月异，如饿了么、柠檬精、比特狗等，其中大部分新词新义都是实体词汇。命名实体识别是从文本中识别命名性指称项，狭义上，是识别出人名、地名和组织机构名等实体，但是，在特定的领域中，会相应的定义各个领域内的各种实体类型。通过命名实体识别技术，能够抽取出网贷网站中网贷公司名称，关联网站黑名单，从而更精准的提醒用户。

目前如何对网站进行精准分类一直是业界难题，不同领域关注的类别也不尽相同，当前还是以人工标注、机器学习作为主要的技术手段。对文本内容进行命名实体识别，目前仍以简单词典、规则匹配、简单的机器学习模型等识别方法为主。

人工标注方法，成本高、效率低，当样本量较少时，虽然能准确完成分类，但当面对大量文本时，就很难仅仅依靠人工标注识别网站是否为网贷网站。简单词典、规则匹配、机器学习模型等识别方法准确率较低，时效性较差，同时需要依赖较为专业准确的词库。

发明内容

本发明所要解决的技术问题在于现有技术方案存在的准确率低、时效性差、依赖专业词语较强。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于网站文本内容的网贷网站实体识别方法，包括以下步骤：

S01、构建训练集域名表，训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段；

S02、构建预测集域名表，训练集域名表至少包含域名、网页内容两个；

S03、数据清洗与预处理，针对训练集域名表和测试集域名表的网页内容字段进行数据清理，保留符合要求的文本数据，并针对该文本数据进行分词，然后去除无意义词，得到目标网页内容；

S04、文本分类模型训练，基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练，得到目标文本分类模型；

S05、网贷网站识别，将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型，输出每个样本对应的是否为网贷网站字段；

S06、命名实体识别模型训练，基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型，得到目标命名实体识别模型；

S07、实体名称标注，利用步骤S06中的目标命名实体识别模型标注步骤S05中识别出的网贷网站中的实体名称。

优选的，步骤S07后还包括

S08、建立网贷网站库，基于步骤S05的网贷网站识别及S07中命名实体的提取，关联诈骗网贷网站黑名单，建立网贷网站库。

优选的，所述步骤S01具体为：

收集已知网站类型的网站域名，通过爬虫技术获得这些域名对应网页内容文本，同时标注这些网站类型，其中1表示是网贷网站，0表示其它网站；如果该网站是网贷网站，标注出该网贷网站实体名称，如果非网贷网站，则为空；从而生成训练集域名表。

优选的，所述步骤S02具体为：

获取运营商DPI数据，抽取数据中域名字段，剔重处理后，形成域名集合，遍历域名集合，通过爬虫技术获得每个域名对应网页内容文本，从而生成预测集的域名表。

优选的，所述步骤S04中目标文本分类模型具体训练过程为：

S041.基于训练集中的目标网页内容，截取目标网页内容的前设定长度文本，若目标网页内容长度小于设定长度，则在文本后面用空白符补充，使其长度达到设定长度，从而生成目标文本；将目标文本每个字或标点符号等作为一个词，加载词典，建立词到id的映射关系即；把每个样本转换成特征，包含4个数据：input_ids，input_mask，segment_ids，label_id，其中input_mask为如果字符真实存在于词典则为1，否则为0；segment_ids为句子A和句子B分隔符；label_id即该样本对应的是否为网贷网站字段；

S042.将样本转换为特征后，加载初始化文本分类模型，设置模型参数learning_rate和batch_size，将特征送入初始化文本分类模型训练，将模型输出再次输入softmax层，最后输出目标文本分类模型。

优选的，所述步骤S05具体操作过程为：

将预测集域名表中每个样本的目标网页内容字段进行如S041处理，转换为特征后，送入如S042得到的目标文本分类模型中，从而输出每个样本对应的是否为网贷网站字段。

优选的，：所述步骤S06中命名实体识别模型的训练过程具体为：

S061.基于训练集中的目标网页内容，截取目标网页内容的前设定长度字符，若目标网页内容长度小于设定长度，则在文本后面用空白符补充，使其长度达到设定长度，从而生成目标文本；采用BIO标注方法对目标文本进行命名实体标注；

S062.基于采用BIO标注的数据，利用bert预训练模型生成字向量，通过双向长短期记忆神经网络及条件随机场(Conditional Random Fields，简称CRF)构成的模型进行训练，如果模型输出结果中，有多个实体出现，则将出现次数最多的实体作为最终输出结果，从而生成命名实体标注模型。

相对应的，还提供一种基于网站文本内容的网贷网站实体识别系统，包括

构建训练集域名表模块，训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段；

构建预测集域名表模块，训练集域名表至少包含域名、网页内容两个；

数据清洗与预处理模块，针对训练集域名表和测试集域名表的网页内容字段进行数据清理，保留符合要求的文本数据，并针对该文本数据进行分词，然后去除无意义词，得到目标网页内容；

文本分类模型训练模块，基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练，得到目标文本分类模型；

网贷网站识别模块，将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型，输出每个样本对应的是否为网贷网站字段；

命名实体识别模型训练模块，基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型，得到目标命名实体识别模型；

实体名称标注模块，利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称。

本发明的优点在于：

本发明基于运营商DPI数据，获取用户访问的网站域名host，通过爬虫技术获得网页内容，利用文本分类算法识别出网贷网站，同时利用命名实体识别技术提取出网贷网站中实体名称，进而结合外部黑名单数据，对一些不良网站打标，建立企业黑名单库，这种方法准确率高，时效性高。

附图说明

图1为本发明实施例1中基于网站文本内容的网贷网站实体识别方法的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于网站文本内容的网贷网站实体识别方法，具体步骤如下：

S01，构建训练集域名表，收集已知网站类型的网站域名host，通过爬虫技术获得这些域名host对应网页内容文本，同时标注这些网站类型label，其中1表示是网贷网站，0表示其它网站。如果该网站是网贷网站，标注出该网贷网站实体名称，如果非网贷网站，则为空。从而生成训练集的域名表T_host，该表包含域名host、网页内容content、是否网贷网站label、实体名称entity；

S02，构建预测集域名表，获取运营商DPI数据，抽取数据中域名host字段，剔重处理后，形成host集合，遍历host集合，通过爬虫技术获得每个域名host对应网页内容文本，从而生成预测集的域名表T_host，该表包含域名host、网页内容content两个字段；

所述DPI(Deep Packet Inspection)，是一种基于数据包的深度检测技术，针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测，通过对报文的有效载荷检测决定其合法性，用户访问网站的相关信息都可以通过该技术处理后被记录到DPI数据中。

所述域名(Domain Name)，是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时对计算机的定位标识；

S03，数据清洗与预处理，针对训练集域名表和测试集域名表的网页内容字段进行数据清理，清洗域名表T_host的content字段，使用正则表达式删除HTML标签、URL地址、unicode等非文本内容以及非中文字符标点符号连续超过10个以上的非中文字符，使用jieba分词后，结合停词表删除无意义词；

S04，文本分类模型训练，基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练，得到目标文本分类模型；基于训练集域名表T_host中的content字段、label字段训练文本分类模型。具体训练过程如下：

41)、content字段为每个域名对应的文本内容，本发明中设置max_seq_length参数为256，即截取文本的前256个字符，如果文本长度小于256，则在文本后面用空白符补充(padding)，使其长度达到256。将每个字或标点符号等作为一个词，加载词典，建立词到id的映射关系即input_ids，如“专”对应“683”，“利”对应“1164”。把每个样本转换成特征，包含4个数据：input_ids，input_mask，segment_ids，label_id。其中input_mask为如果字符真实存在于词典则为1，否则为0；segment_ids句子A和句子B分隔符，在此处均为0；label_id即该样本对应的label；

42)将样本转换为特征后，加载bert预训练好的超参数及模型等初始化文本分类模型，将模型参数learning_rate设置为0.00001，将模型参数batch_size设置为4，将特征送入模型训练，将模型输出再次输入softmax层，从而生成文本分类模型clf_model；

S05，网贷网站识别，同样对于预测集的每个样本如步骤41)处理，转换为特征后，送入训练好的文本分类模型clf_model，从而输出每个样本对应的标签label即是否为网贷网站。

S06，命名实体识别模型训练，利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称，具体为：基于训练集域名表T_host中的content字段、entity字段训练命名实体识别模型。具体训练过程如下：

61)训练集及预测集的content字段均为每个域名对应的文本内容，本发明中此处设置max_seq_length参数为320，即截取文本的前320个字符，如果文本长度小于320，则在文本后面用空白符补充(padding)，使其长度达到320，从而生成新的截取后的content字段。对content字段的命名实体采用BIO标注方法进行标注，其中BIO标注方法中包含BIO标注集即{B，I，O}，B表示实体词语的开头Begin，I表示实体词语的其余部分Inside，O表示不属于实体词语的部分。例如content为“上海观安是一家大数据+泛安全的安全公司”，entity为“上海观安”，经过BIO标注后为：”上”“B-org”，“海”“I-org”，“观”“I-org”，“安”“I-org”，“是”“O”，“一”“O”，…，“司”“O”；即每行第一个是字或标点符号等，第二个是它对应的标签(B-org、I-org、O中的一个)，两者使用空格分隔。

62)基于BIO标注的数据集，利用bert预训练模型生成字向量，通过双向长短期记忆神经网络(Bi-directional Long Short-Term Memory，简称Bi-LSTM)及条件随机场(Conditional Random Fields，简称CRF)构成的模型进行训练，如果模型输出结果中，有多个实体出现，如上海观安、观安，则将出现次数最多的实体作为最终输出结果，从而生成命名实体标注模型ner_model。该模型主要包括embedding、Bi-LSTM、CRF三层。其中第一层(embedding)该层主要是将样本中content的每个字或词映射成字或词嵌入向量，从而作为模型的输入层，因为计算机是没法识别文本的，所以必须通过该层将文本转换为计算机能识别的内容；第二层(Bi-LSTM)将第一层得到的字嵌入向量作为该层的输入，通过双向LSTM神经网络训练，输出content的每个字作为所有标签的各自得分；第三层(CRF)该层会随机初始化转移矩阵，使用Bi-LSTM层的输出即每个字作为不同标签的各自得分作为发射矩阵，在模型训练迭代过程中，不断更新转移矩阵，直到训练过程结束，实际上转移矩阵也就是模型的参数。

S07，实体名称标注，利用训练好的命名实体模型ner_model标注S05步骤中识别出的网贷网站中的实体名称。

S08，建立网贷网站库，基于步骤S05的网贷网站识别及S07中命名实体的提取，关联诈骗网贷网站黑名单，建立网贷网站库，完善企业信息库，近实时提醒阻止用户访问这些不法网站。

本实施例基于运营商DPI数据，获取用户访问的网站域名host，通过爬虫技术获得网页内容，利用文本分类算法识别出网贷网站，同时利用命名实体识别技术提取出网贷网站中实体名称，进而结合外部黑名单数据，对一些不良网站打标，建立企业黑名单库，这种方法准确率高，时效性高。

实施例2

与实施例1相对应的，本实施例还提供一种基于网站文本内容的网贷网站实体识别系统，包括

构建训练集域名表模块，收集已知网站类型的网站域名host，通过爬虫技术获得这些域名host对应网页内容文本，同时标注这些网站类型label，其中1表示是网贷网站，0表示其它网站。如果该网站是网贷网站，标注出该网贷网站实体名称，如果非网贷网站，则为空。从而生成训练集的域名表T_host，该表包含域名host、网页内容content、是否网贷网站label、实体名称entity；

构建预测集域名表模块，获取运营商DPI数据，抽取数据中域名host字段，剔重处理后，形成host集合，遍历host集合，通过爬虫技术获得每个域名host对应网页内容文本，从而生成预测集的域名表T_host，该表包含域名host、网页内容content两个字段；

数据清洗与预处理模块，针对训练集域名表和测试集域名表的网页内容字段进行数据清理，具体为：清洗域名表T_host的content字段，使用正则表达式删除HTML标签、URL地址、unicode等非文本内容以及非中文字符标点符号连续超过10个以上的非中文字符，使用jieba分词后，结合停词表删除无意义词；

文本分类模型训练模块，基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练，得到目标文本分类模型；具体为：基于训练集域名表T_host中的content字段、label字段训练文本分类模型。具体训练过程如下：

网贷网站识别模块，同样对于预测集的每个样本如步骤41)处理，转换为特征后，送入训练好的文本分类模型clf_model，从而输出每个样本对应的标签label即是否为网贷网站；

命名实体识别模型训练模块，基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型，得到目标命名实体识别模型；具体为：

基于训练集域名表T_host中的content字段、entity字段训练命名实体识别模型。具体训练过程如下：

实体名称标注模块，利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称；

建立网贷网站库模块，基于网贷网站识别及命名实体的提取，关联诈骗网贷网站黑名单，建立网贷网站库，完善企业信息库，近实时提醒阻止用户访问这些不法网站。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于网站文本内容的网贷网站实体识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：步骤S07后还包括

3.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：所述步骤S01具体为：

4.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：所述步骤S02具体为：

5.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：所述步骤S04中目标文本分类模型具体训练过程为：

6.根据权利要求5所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：所述步骤S05具体操作过程为：

7.根据权利要求1至6任一所述的一种基于网站文本内容的网贷网站实体识别方法，其特征在于：所述步骤S06中命名实体识别模型的训练过程具体为：

S062.基于采用BIO标注的数据，利用bert预训练模型生成字向量，通过双向长短期记忆神经网络及条件随机场(ConditionalRandom Fields，简称CRF)构成的模型进行训练，如果模型输出结果中，有多个实体出现，则将出现次数最多的实体作为最终输出结果，从而生成命名实体标注模型。

8.一种基于网站文本内容的网贷网站实体识别系统，其特征在于：包括