CN111078978A - 一种基于网站文本内容的网贷网站实体识别方法及系统 - Google Patents
一种基于网站文本内容的网贷网站实体识别方法及系统 Download PDFInfo
- Publication number
- CN111078978A CN111078978A CN201911209943.4A CN201911209943A CN111078978A CN 111078978 A CN111078978 A CN 111078978A CN 201911209943 A CN201911209943 A CN 201911209943A CN 111078978 A CN111078978 A CN 111078978A
- Authority
- CN
- China
- Prior art keywords
- website
- domain name
- training
- entity
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 101
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 18
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000001502 supplementing effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000007689 inspection Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000012546 transfer Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 244000248349 Citrus limon Species 0.000 description 1
- 235000005979 Citrus limon Nutrition 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种基于网站文本内容的网贷网站实体识别方法及系统,包括S01、构建训练集域名表;S02、构建预测集域名表;S03、数据清洗与预处理;S04、文本分类模型训练,得到目标文本分类模型;S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;S06、命名实体识别模型训练,得到目标命名实体识别模型;S07、实体名称标注。本发明基于运营商DPI数据,获取用户访问的网站域名host,获得网页内容并识别出网贷网站,同时利用命名实体识别技术提取出网贷网站中实体名称,进而结合外部黑名单数据,对一些不良网站打标,建立企业黑名单库,这种方法准确率高,时效性高。
Description
技术领域
本发明涉及网贷网站识别技术领域,具体来说是一种基于网站文本内容的网贷网站实体识别方法及系统。
背景技术
随着互联网技术的迅速发展,网站的建立更便捷,门槛也更低,从而导致很多不良、不法网站如不法网贷网站、钓鱼网站、赌博网站等层出不穷。近年来,P2P公司跑路、网络诈骗、电信诈骗等事件频繁发生,给网民造成了较为严重的财产损失,有些甚至危害到了个人人身安全,同时产生了不良的社会影响。对网贷网站的准确高效识别,进而及时提醒用户谨慎操作,能够避免用户的财产等受到损失,同时提高了企业的社会责任及企业形象。
中文文本分类属于自然语言处理技术中的一项任务,是通过算法对输入的文本自动归类的过程,该过程能够根据网站的中文文本内容,识别出该网站是否归属网贷网站。随着网络文化的快速发展,网络用语中新词层出不穷,某些旧词语义日新月异,如饿了么、柠檬精、比特狗等,其中大部分新词新义都是实体词汇。命名实体识别是从文本中识别命名性指称项,狭义上,是识别出人名、地名和组织机构名等实体,但是,在特定的领域中,会相应的定义各个领域内的各种实体类型。通过命名实体识别技术,能够抽取出网贷网站中网贷公司名称,关联网站黑名单,从而更精准的提醒用户。
目前如何对网站进行精准分类一直是业界难题,不同领域关注的类别也不尽相同,当前还是以人工标注、机器学习作为主要的技术手段。对文本内容进行命名实体识别,目前仍以简单词典、规则匹配、简单的机器学习模型等识别方法为主。
人工标注方法,成本高、效率低,当样本量较少时,虽然能准确完成分类,但当面对大量文本时,就很难仅仅依靠人工标注识别网站是否为网贷网站。简单词典、规则匹配、机器学习模型等识别方法准确率较低,时效性较差,同时需要依赖较为专业准确的词库。
发明内容
本发明所要解决的技术问题在于现有技术方案存在的准确率低、时效性差、依赖专业词语较强。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于网站文本内容的网贷网站实体识别方法,包括以下步骤:
S01、构建训练集域名表,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;
S02、构建预测集域名表,训练集域名表至少包含域名、网页内容两个;
S03、数据清洗与预处理,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;
S04、文本分类模型训练,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;
S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;
S06、命名实体识别模型训练,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;
S07、实体名称标注,利用步骤S06中的目标命名实体识别模型标注步骤S05中识别出的网贷网站中的实体名称。
优选的,步骤S07后还包括
S08、建立网贷网站库,基于步骤S05的网贷网站识别及S07中命名实体的提取,关联诈骗网贷网站黑名单,建立网贷网站库。
优选的,所述步骤S01具体为:
收集已知网站类型的网站域名,通过爬虫技术获得这些域名对应网页内容文本,同时标注这些网站类型,其中1表示是网贷网站,0表示其它网站;如果该网站是网贷网站,标注出该网贷网站实体名称,如果非网贷网站,则为空;从而生成训练集域名表。
优选的,所述步骤S02具体为:
获取运营商DPI数据,抽取数据中域名字段,剔重处理后,形成域名集合,遍历域名集合,通过爬虫技术获得每个域名对应网页内容文本,从而生成预测集的域名表。
优选的,所述步骤S04中目标文本分类模型具体训练过程为:
S041.基于训练集中的目标网页内容,截取目标网页内容的前设定长度文本,若目标网页内容长度小于设定长度,则在文本后面用空白符补充,使其长度达到设定长度,从而生成目标文本;将目标文本每个字或标点符号等作为一个词,加载词典,建立词到id的映射关系即;把每个样本转换成特征,包含4个数据:input_ids,input_mask,segment_ids,label_id,其中input_mask为如果字符真实存在于词典则为1,否则为0;segment_ids为句子A和句子B分隔符;label_id即该样本对应的是否为网贷网站字段;
S042.将样本转换为特征后,加载初始化文本分类模型,设置模型参数learning_rate和batch_size,将特征送入初始化文本分类模型训练,将模型输出再次输入softmax层,最后输出目标文本分类模型。
优选的,所述步骤S05具体操作过程为:
将预测集域名表中每个样本的目标网页内容字段进行如S041处理,转换为特征后,送入如S042得到的目标文本分类模型中,从而输出每个样本对应的是否为网贷网站字段。
优选的,:所述步骤S06中命名实体识别模型的训练过程具体为:
S061.基于训练集中的目标网页内容,截取目标网页内容的前设定长度字符,若目标网页内容长度小于设定长度,则在文本后面用空白符补充,使其长度达到设定长度,从而生成目标文本;采用BIO标注方法对目标文本进行命名实体标注;
S062.基于采用BIO标注的数据,利用bert预训练模型生成字向量,通过双向长短期记忆神经网络及条件随机场(Conditional Random Fields,简称CRF)构成的模型进行训练,如果模型输出结果中,有多个实体出现,则将出现次数最多的实体作为最终输出结果,从而生成命名实体标注模型。
相对应的,还提供一种基于网站文本内容的网贷网站实体识别系统,包括
构建训练集域名表模块,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;
构建预测集域名表模块,训练集域名表至少包含域名、网页内容两个;
数据清洗与预处理模块,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;
文本分类模型训练模块,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;
网贷网站识别模块,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;
命名实体识别模型训练模块,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;
实体名称标注模块,利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称。
本发明的优点在于:
本发明基于运营商DPI数据,获取用户访问的网站域名host,通过爬虫技术获得网页内容,利用文本分类算法识别出网贷网站,同时利用命名实体识别技术提取出网贷网站中实体名称,进而结合外部黑名单数据,对一些不良网站打标,建立企业黑名单库,这种方法准确率高,时效性高。
附图说明
图1为本发明实施例1中基于网站文本内容的网贷网站实体识别方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种基于网站文本内容的网贷网站实体识别方法,具体步骤如下:
S01,构建训练集域名表,收集已知网站类型的网站域名host,通过爬虫技术获得这些域名host对应网页内容文本,同时标注这些网站类型label,其中1表示是网贷网站,0表示其它网站。如果该网站是网贷网站,标注出该网贷网站实体名称,如果非网贷网站,则为空。从而生成训练集的域名表T_host,该表包含域名host、网页内容content、是否网贷网站label、实体名称entity;
S02,构建预测集域名表,获取运营商DPI数据,抽取数据中域名host字段,剔重处理后,形成host集合,遍历host集合,通过爬虫技术获得每个域名host对应网页内容文本,从而生成预测集的域名表T_host,该表包含域名host、网页内容content两个字段;
所述DPI(Deep Packet Inspection),是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测,通过对报文的有效载荷检测决定其合法性,用户访问网站的相关信息都可以通过该技术处理后被记录到DPI数据中。
所述域名(Domain Name),是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识;
S03,数据清洗与预处理,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,清洗域名表T_host的content字段,使用正则表达式删除HTML标签、URL地址、unicode等非文本内容以及非中文字符标点符号连续超过10个以上的非中文字符,使用jieba分词后,结合停词表删除无意义词;
S04,文本分类模型训练,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;基于训练集域名表T_host中的content字段、label字段训练文本分类模型。具体训练过程如下:
41)、content字段为每个域名对应的文本内容,本发明中设置max_seq_length参数为256,即截取文本的前256个字符,如果文本长度小于256,则在文本后面用空白符补充(padding),使其长度达到256。将每个字或标点符号等作为一个词,加载词典,建立词到id的映射关系即input_ids,如“专”对应“683”,“利”对应“1164”。把每个样本转换成特征,包含4个数据:input_ids,input_mask,segment_ids,label_id。其中input_mask为如果字符真实存在于词典则为1,否则为0;segment_ids句子A和句子B分隔符,在此处均为0;label_id即该样本对应的label;
42)将样本转换为特征后,加载bert预训练好的超参数及模型等初始化文本分类模型,将模型参数learning_rate设置为0.00001,将模型参数batch_size设置为4,将特征送入模型训练,将模型输出再次输入softmax层,从而生成文本分类模型clf_model;
S05,网贷网站识别,同样对于预测集的每个样本如步骤41)处理,转换为特征后,送入训练好的文本分类模型clf_model,从而输出每个样本对应的标签label即是否为网贷网站。
S06,命名实体识别模型训练,利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称,具体为:基于训练集域名表T_host中的content字段、entity字段训练命名实体识别模型。具体训练过程如下:
61)训练集及预测集的content字段均为每个域名对应的文本内容,本发明中此处设置max_seq_length参数为320,即截取文本的前320个字符,如果文本长度小于320,则在文本后面用空白符补充(padding),使其长度达到320,从而生成新的截取后的content字段。对content字段的命名实体采用BIO标注方法进行标注,其中BIO标注方法中包含BIO标注集即{B,I,O},B表示实体词语的开头Begin,I表示实体词语的其余部分Inside,O表示不属于实体词语的部分。例如content为“上海观安是一家大数据+泛安全的安全公司”,entity为“上海观安”,经过BIO标注后为:”上”“B-org”,“海”“I-org”,“观”“I-org”,“安”“I-org”,“是”“O”,“一”“O”,…,“司”“O”;即每行第一个是字或标点符号等,第二个是它对应的标签(B-org、I-org、O中的一个),两者使用空格分隔。
62)基于BIO标注的数据集,利用bert预训练模型生成字向量,通过双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,简称Bi-LSTM)及条件随机场(Conditional Random Fields,简称CRF)构成的模型进行训练,如果模型输出结果中,有多个实体出现,如上海观安、观安,则将出现次数最多的实体作为最终输出结果,从而生成命名实体标注模型ner_model。该模型主要包括embedding、Bi-LSTM、CRF三层。其中第一层(embedding)该层主要是将样本中content的每个字或词映射成字或词嵌入向量,从而作为模型的输入层,因为计算机是没法识别文本的,所以必须通过该层将文本转换为计算机能识别的内容;第二层(Bi-LSTM)将第一层得到的字嵌入向量作为该层的输入,通过双向LSTM神经网络训练,输出content的每个字作为所有标签的各自得分;第三层(CRF)该层会随机初始化转移矩阵,使用Bi-LSTM层的输出即每个字作为不同标签的各自得分作为发射矩阵,在模型训练迭代过程中,不断更新转移矩阵,直到训练过程结束,实际上转移矩阵也就是模型的参数。
S07,实体名称标注,利用训练好的命名实体模型ner_model标注S05步骤中识别出的网贷网站中的实体名称。
S08,建立网贷网站库,基于步骤S05的网贷网站识别及S07中命名实体的提取,关联诈骗网贷网站黑名单,建立网贷网站库,完善企业信息库,近实时提醒阻止用户访问这些不法网站。
本实施例基于运营商DPI数据,获取用户访问的网站域名host,通过爬虫技术获得网页内容,利用文本分类算法识别出网贷网站,同时利用命名实体识别技术提取出网贷网站中实体名称,进而结合外部黑名单数据,对一些不良网站打标,建立企业黑名单库,这种方法准确率高,时效性高。
实施例2
与实施例1相对应的,本实施例还提供一种基于网站文本内容的网贷网站实体识别系统,包括
构建训练集域名表模块,收集已知网站类型的网站域名host,通过爬虫技术获得这些域名host对应网页内容文本,同时标注这些网站类型label,其中1表示是网贷网站,0表示其它网站。如果该网站是网贷网站,标注出该网贷网站实体名称,如果非网贷网站,则为空。从而生成训练集的域名表T_host,该表包含域名host、网页内容content、是否网贷网站label、实体名称entity;
构建预测集域名表模块,获取运营商DPI数据,抽取数据中域名host字段,剔重处理后,形成host集合,遍历host集合,通过爬虫技术获得每个域名host对应网页内容文本,从而生成预测集的域名表T_host,该表包含域名host、网页内容content两个字段;
所述DPI(Deep Packet Inspection),是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测,通过对报文的有效载荷检测决定其合法性,用户访问网站的相关信息都可以通过该技术处理后被记录到DPI数据中。
所述域名(Domain Name),是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识;
数据清洗与预处理模块,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,具体为:清洗域名表T_host的content字段,使用正则表达式删除HTML标签、URL地址、unicode等非文本内容以及非中文字符标点符号连续超过10个以上的非中文字符,使用jieba分词后,结合停词表删除无意义词;
文本分类模型训练模块,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;具体为:基于训练集域名表T_host中的content字段、label字段训练文本分类模型。具体训练过程如下:
41)、content字段为每个域名对应的文本内容,本发明中设置max_seq_length参数为256,即截取文本的前256个字符,如果文本长度小于256,则在文本后面用空白符补充(padding),使其长度达到256。将每个字或标点符号等作为一个词,加载词典,建立词到id的映射关系即input_ids,如“专”对应“683”,“利”对应“1164”。把每个样本转换成特征,包含4个数据:input_ids,input_mask,segment_ids,label_id。其中input_mask为如果字符真实存在于词典则为1,否则为0;segment_ids句子A和句子B分隔符,在此处均为0;label_id即该样本对应的label;
42)将样本转换为特征后,加载bert预训练好的超参数及模型等初始化文本分类模型,将模型参数learning_rate设置为0.00001,将模型参数batch_size设置为4,将特征送入模型训练,将模型输出再次输入softmax层,从而生成文本分类模型clf_model;
网贷网站识别模块,同样对于预测集的每个样本如步骤41)处理,转换为特征后,送入训练好的文本分类模型clf_model,从而输出每个样本对应的标签label即是否为网贷网站;
命名实体识别模型训练模块,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;具体为:
基于训练集域名表T_host中的content字段、entity字段训练命名实体识别模型。具体训练过程如下:
61)训练集及预测集的content字段均为每个域名对应的文本内容,本发明中此处设置max_seq_length参数为320,即截取文本的前320个字符,如果文本长度小于320,则在文本后面用空白符补充(padding),使其长度达到320,从而生成新的截取后的content字段。对content字段的命名实体采用BIO标注方法进行标注,其中BIO标注方法中包含BIO标注集即{B,I,O},B表示实体词语的开头Begin,I表示实体词语的其余部分Inside,O表示不属于实体词语的部分。例如content为“上海观安是一家大数据+泛安全的安全公司”,entity为“上海观安”,经过BIO标注后为:”上”“B-org”,“海”“I-org”,“观”“I-org”,“安”“I-org”,“是”“O”,“一”“O”,…,“司”“O”;即每行第一个是字或标点符号等,第二个是它对应的标签(B-org、I-org、O中的一个),两者使用空格分隔。
62)基于BIO标注的数据集,利用bert预训练模型生成字向量,通过双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,简称Bi-LSTM)及条件随机场(Conditional Random Fields,简称CRF)构成的模型进行训练,如果模型输出结果中,有多个实体出现,如上海观安、观安,则将出现次数最多的实体作为最终输出结果,从而生成命名实体标注模型ner_model。该模型主要包括embedding、Bi-LSTM、CRF三层。其中第一层(embedding)该层主要是将样本中content的每个字或词映射成字或词嵌入向量,从而作为模型的输入层,因为计算机是没法识别文本的,所以必须通过该层将文本转换为计算机能识别的内容;第二层(Bi-LSTM)将第一层得到的字嵌入向量作为该层的输入,通过双向LSTM神经网络训练,输出content的每个字作为所有标签的各自得分;第三层(CRF)该层会随机初始化转移矩阵,使用Bi-LSTM层的输出即每个字作为不同标签的各自得分作为发射矩阵,在模型训练迭代过程中,不断更新转移矩阵,直到训练过程结束,实际上转移矩阵也就是模型的参数。
实体名称标注模块,利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称;
建立网贷网站库模块,基于网贷网站识别及命名实体的提取,关联诈骗网贷网站黑名单,建立网贷网站库,完善企业信息库,近实时提醒阻止用户访问这些不法网站。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于网站文本内容的网贷网站实体识别方法,其特征在于:包括以下步骤:
S01、构建训练集域名表,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;
S02、构建预测集域名表,训练集域名表至少包含域名、网页内容两个;
S03、数据清洗与预处理,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;
S04、文本分类模型训练,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;
S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;
S06、命名实体识别模型训练,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;
S07、实体名称标注,利用步骤S06中的目标命名实体识别模型标注步骤S05中识别出的网贷网站中的实体名称。
2.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:步骤S07后还包括
S08、建立网贷网站库,基于步骤S05的网贷网站识别及S07中命名实体的提取,关联诈骗网贷网站黑名单,建立网贷网站库。
3.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S01具体为:
收集已知网站类型的网站域名,通过爬虫技术获得这些域名对应网页内容文本,同时标注这些网站类型,其中1表示是网贷网站,0表示其它网站;如果该网站是网贷网站,标注出该网贷网站实体名称,如果非网贷网站,则为空;从而生成训练集域名表。
4.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S02具体为:
获取运营商DPI数据,抽取数据中域名字段,剔重处理后,形成域名集合,遍历域名集合,通过爬虫技术获得每个域名对应网页内容文本,从而生成预测集的域名表。
5.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S04中目标文本分类模型具体训练过程为:
S041.基于训练集中的目标网页内容,截取目标网页内容的前设定长度文本,若目标网页内容长度小于设定长度,则在文本后面用空白符补充,使其长度达到设定长度,从而生成目标文本;将目标文本每个字或标点符号等作为一个词,加载词典,建立词到id的映射关系即;把每个样本转换成特征,包含4个数据:input_ids,input_mask,segment_ids,label_id,其中input_mask为如果字符真实存在于词典则为1,否则为0;segment_ids为句子A和句子B分隔符;label_id即该样本对应的是否为网贷网站字段;
S042.将样本转换为特征后,加载初始化文本分类模型,设置模型参数learning_rate和batch_size,将特征送入初始化文本分类模型训练,将模型输出再次输入softmax层,最后输出目标文本分类模型。
6.根据权利要求5所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S05具体操作过程为:
将预测集域名表中每个样本的目标网页内容字段进行如S041处理,转换为特征后,送入如S042得到的目标文本分类模型中,从而输出每个样本对应的是否为网贷网站字段。
7.根据权利要求1至6任一所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S06中命名实体识别模型的训练过程具体为:
S061.基于训练集中的目标网页内容,截取目标网页内容的前设定长度字符,若目标网页内容长度小于设定长度,则在文本后面用空白符补充,使其长度达到设定长度,从而生成目标文本;采用BIO标注方法对目标文本进行命名实体标注;
S062.基于采用BIO标注的数据,利用bert预训练模型生成字向量,通过双向长短期记忆神经网络及条件随机场(ConditionalRandom Fields,简称CRF)构成的模型进行训练,如果模型输出结果中,有多个实体出现,则将出现次数最多的实体作为最终输出结果,从而生成命名实体标注模型。
8.一种基于网站文本内容的网贷网站实体识别系统,其特征在于:包括
构建训练集域名表模块,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;
构建预测集域名表模块,训练集域名表至少包含域名、网页内容两个;
数据清洗与预处理模块,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;
文本分类模型训练模块,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;
网贷网站识别模块,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;
命名实体识别模型训练模块,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;
实体名称标注模块,利用所述目标命名实体识别模型标注识别出的网贷网站中的实体名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911209943.4A CN111078978B (zh) | 2019-11-29 | 2019-11-29 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911209943.4A CN111078978B (zh) | 2019-11-29 | 2019-11-29 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078978A true CN111078978A (zh) | 2020-04-28 |
CN111078978B CN111078978B (zh) | 2024-02-27 |
Family
ID=70312351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911209943.4A Active CN111078978B (zh) | 2019-11-29 | 2019-11-29 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078978B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111752727A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种基于日志分析的数据库三层关联的识别方法 |
CN112215006A (zh) * | 2020-10-22 | 2021-01-12 | 上海交通大学 | 机构命名实体归一化方法和系统 |
CN112256840A (zh) * | 2020-11-12 | 2021-01-22 | 北京亚鸿世纪科技发展有限公司 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113392633A (zh) * | 2021-08-05 | 2021-09-14 | 中国医学科学院阜外医院 | 一种医疗命名实体识别的方法、装置及存储介质 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN116822502A (zh) * | 2023-08-30 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 网页内容识别方法、装置、计算机设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
CN103229479A (zh) * | 2012-12-28 | 2013-07-31 | 华为技术有限公司 | 一种网站识别方法、装置及网络系统 |
WO2015101337A1 (en) * | 2014-01-03 | 2015-07-09 | Tencent Technology (Shenzhen) Company Limited | Malicious website address prompt method and router |
CN106484919A (zh) * | 2016-11-15 | 2017-03-08 | 任子行网络技术股份有限公司 | 一种基于网页独立词的行业网站分类方法和系统 |
CN107992978A (zh) * | 2017-12-21 | 2018-05-04 | 连连银通电子支付有限公司 | 一种网贷平台的风险预警方法及相关装置 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109753660A (zh) * | 2019-01-07 | 2019-05-14 | 福州大学 | 一种基于lstm的中标网页命名实体抽取方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
-
2019
- 2019-11-29 CN CN201911209943.4A patent/CN111078978B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
CN103229479A (zh) * | 2012-12-28 | 2013-07-31 | 华为技术有限公司 | 一种网站识别方法、装置及网络系统 |
WO2015101337A1 (en) * | 2014-01-03 | 2015-07-09 | Tencent Technology (Shenzhen) Company Limited | Malicious website address prompt method and router |
CN106484919A (zh) * | 2016-11-15 | 2017-03-08 | 任子行网络技术股份有限公司 | 一种基于网页独立词的行业网站分类方法和系统 |
CN107992978A (zh) * | 2017-12-21 | 2018-05-04 | 连连银通电子支付有限公司 | 一种网贷平台的风险预警方法及相关装置 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109753660A (zh) * | 2019-01-07 | 2019-05-14 | 福州大学 | 一种基于lstm的中标网页命名实体抽取方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
冯国震: "大数据环境下基于决策树的恶意URL检测模型", 《信息与电脑(理论版)》 * |
冯国震: "大数据环境下基于决策树的恶意URL检测模型", 《信息与电脑(理论版)》, no. 03, 15 February 2018 (2018-02-15) * |
林春雨等: "基于大数据技术的P2P网贷平台风险预警模型", 《大数据》 * |
林春雨等: "基于大数据技术的P2P网贷平台风险预警模型", 《大数据》, no. 04, 20 November 2015 (2015-11-20) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111752727B (zh) * | 2020-06-30 | 2023-06-20 | 上海观安信息技术股份有限公司 | 一种基于日志分析的数据库三层关联的识别方法 |
CN111752727A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种基于日志分析的数据库三层关联的识别方法 |
CN112215006B (zh) * | 2020-10-22 | 2022-08-09 | 上海交通大学 | 机构命名实体归一化方法和系统 |
CN112215006A (zh) * | 2020-10-22 | 2021-01-12 | 上海交通大学 | 机构命名实体归一化方法和系统 |
CN112256840A (zh) * | 2020-11-12 | 2021-01-22 | 北京亚鸿世纪科技发展有限公司 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN113051500B (zh) * | 2021-03-25 | 2022-08-16 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113591971B (zh) * | 2021-07-28 | 2024-05-07 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113392633B (zh) * | 2021-08-05 | 2021-12-24 | 中国医学科学院阜外医院 | 一种医疗命名实体识别的方法、装置及存储介质 |
CN113392633A (zh) * | 2021-08-05 | 2021-09-14 | 中国医学科学院阜外医院 | 一种医疗命名实体识别的方法、装置及存储介质 |
CN116822502A (zh) * | 2023-08-30 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 网页内容识别方法、装置、计算机设备和存储介质 |
CN116822502B (zh) * | 2023-08-30 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 网页内容识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111078978B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078978B (zh) | 一种基于网站文本内容的网贷网站实体识别方法及系统 | |
Kong et al. | Fake news detection using deep learning | |
US11531834B2 (en) | Moderator tool for moderating acceptable and unacceptable contents and training of moderator model | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN111198995B (zh) | 一种恶意网页识别方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN110223675B (zh) | 用于语音识别的训练文本数据的筛选方法及系统 | |
WO2007143914A1 (fr) | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web | |
WO2017173093A1 (en) | Method and device for identifying spam mail | |
CN107273465A (zh) | Sql注入检测方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Islam et al. | An evolutionary approach to comparative analysis of detecting Bangla abusive text | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN112257444A (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
Alhazmi et al. | Arabic opinion target extraction from tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |