CN109948154A

CN109948154A - 一种基于邮箱名的人物获取及关系推荐系统和方法

Info

Publication number: CN109948154A
Application number: CN201910183749.7A
Authority: CN
Inventors: 孙国梓; 吕建伟; 李华康
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-06-28
Anticipated expiration: 2039-03-12
Also published as: CN109948154B

Abstract

本发明提出了一种基于邮箱名的人物获取及关系推荐系统，包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块；数据采集模块用于从大批量网络数据中采集网络中的公开匿名数据；实体识别模块用于按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中；相似度计算模块用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后，再计算二者相似度，获得邮箱名与人名实体相似度的值；邮箱用户分析模块用于对推荐出的用户及用户关系做统一的可视化展现。本发明在语料识别中无需基于句义分析进行实体抽取，能够识别中英文混合文本中的相关实体，可以发现邮箱的真实用户以及与该用户关系密切的相关用户。

Description

一种基于邮箱名的人物获取及关系推荐系统和方法

技术领域

本发明涉及一种海量公开弱可信数据下匿名人物关联分析技术，具体的是一种基于邮箱名的人物获取及关系推荐系统和方法，属于知识图谱分析及挖掘技术领域。

背景技术

匿名人物关联分析是指通过爬虫技术从互联网搜索引擎中得到相关匿名用户的数据，并用命名实体抽取和向量化的方法对海量匿名数据进行实体抽取处理。在抽取得到的结果的基础上，总结用户与用户间未有公开数据显示的关联规律，排序输出匿名邮箱用户的真实姓名、住址、工作单位等相关信息，以及与邮箱真实主人相关联的用户的信息。这样能够掌握用户的身份特征，对于挖掘用户潜在的人物关系具有重要的意义。因此，目前需要从用户使用邮箱的角度出发，通过对邮箱在搜索引擎中搜索后存留痕迹的研究，设计一个有效的人物关系检测方法，快速发现相关用户的关联关系。

目前，各种人物关系检测算法主要分为两类：

(1)基于人工标注的分析方法，经检索发现，公开号为CN106778878A的中国专利公开了一种人物关系分类方法与装置；

(2)基于强关联用户的关系分析方法，经检索发现，公开号为CN106708922A的中国专利公开了一种基于海量数据的人物关系图谱分析方法，公开号为CN106484675A公开了一种融合分布式语义和句义特征的人物关系抽取方法。

上述方法存在着一定的局限性，以上专利实体抽取都依赖于语义关系,对语料中语义的人工标注直接决定了后期的实体识别的准确性；它们都在在中文实体识别进行加工处理，而对与目前网络上中英文夹杂的文本无法进行处理。

发明内容

本发明根据上述所要解决的技术问题，克服现有技术的不足而提供一种基于邮箱名的人物获取及关系推荐系统和方法。

本发明的目的之一是提出一种无需基于句义分析的实体抽取方法；

本发明的目的之二是提出一种识别中英文混合文本中实体的方法；

本发明的目的之三是提出一种新的数据获取依据方式—邮箱名，通过邮箱名在搜索引擎的反馈，得到中英文夹杂的文本，从而进行相对应的实体识别，最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系的方法。

本发明提供一种基于邮箱名的人物获取及关系推荐系统，包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块；所述数据采集模块，用于从大批量网络数据中采集网络中的公开匿名数据，并将采集的数据存储到分布式数据库中；

所述实体识别模块，用于在训练集中定义需要抽取的实体种类，对采集的原始数据进行清洗，然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中；

所述相似度计算模块，用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后，计算二者相似度，获得邮箱名与人名实体相似度的值；

所述邮箱用户分析模块，用于对推荐出的用户及用户关系做统一的可视化展现。

本发明提出一种基于邮箱名的人物获取及关系推荐系统，在语料预处理中将无需人工标注句子中的语义关系，只需直接定义中英文中需要抽取的实体的特征，能够对中英文夹杂的文本同时进行处理，从而进行相对应的实体识别，最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系。此外，本发明采用基于实体间相关系数算法，在发现多个用户潜在关系时具有明显的优势，准确率高。

作为本发明的进一步技术方案，所述数据采集模块主要由若干台可进行分布式数据获取的主机组成，其中一台主机作为控制节点，其余主机作为爬虫节点。

进一步的，所述控制节点主要包含邮箱管理器，所述邮箱管理器负责从文件中获取已获得的邮箱名，并将邮箱名传递给各个爬虫节点下的URL控制器；所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器，所述URL控制器用于接收从邮箱管理器获取的邮箱名，并根据已获得的邮箱和搜索引擎的搜索首页的URL(网址)拼接成一个完整的搜索地址，将搜索地址提供给爬虫节点进行数据获取操作；所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，然后将该数据提供给HTML解析器；所述HTML解析器，用于使用Beautifulsoup第三方库解析得到的HTML数据，并将获得的相关数据提供给数据存储器；所述数据存储器，用于将获得的数据存入MongoDB集群，进行集群化存储。

本发明还提供了一种基于邮箱名的人物获取及关系推荐方法，包括以下步骤：

步骤一、数据采集，使用多台主机进行分布式爬取，以获得待分必须的公开匿名数据；转至步骤二；

步骤二、选用与识别任务相关的语料，并用当前的主流工具word2vector，GloVe对语料进行实体标注，然后将语料分为两部分，一部分作为训练语料输入模型中进行反复训练，一部分作为测试语料进行预测，并将预测结果加入训练集中，再次进行模型训练，并对模型进行调优，直至获得最佳的学习率F1值；转至步骤三；

步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取，并将抽取出的如(<邮箱名，可能用户1，2，3…，可能住址信息1，2，3…，可能机构名1，2，3…>)结构的实体数据存入关系型数据库中；转至步骤四；

步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算，再将得出的值输入到支持向量机模型(SVM)中，以得出邮箱主人的真实信息，然后将其余实体与该实体进行距离相似度计算，以输出用户之间的关联关系，表示其亲疏程度。

在所述步骤一中，一台主机作为控制节点，其余主机作为爬虫节点，爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器；所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名，并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址，将拼接生成的URL地址存储到Redis服务器，以提供给爬虫节点执行数据爬取操作；所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，将该数据提供给HTML解析器；所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据，再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。

其特征在于，在所述步骤二中，将语料分为5份，其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练，1份作为测试语料进行预测，并将预测结果进行修正之后加入训练集中，再次进行模型的训练，使得模型在有自身语料的情况下进行调优，直到获得最佳的学习率F1值为止。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明在语料识别中无需基于句义分析进行实体抽取，并能够识别中英文混合文本中的相关实体，可以有效地发现邮箱的真实用户以及与该用户关系密切的相关用户，弥补了其他分析方法的不足。此外，本发明基于用户的相似度算法，在实体识别后对用户间关联关系的发现具有明显的优势，关系分析率高，推荐准确率高。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明中基于邮箱名的人物获取及关系推荐系统的模块及流程示意图。

图2为本发明中数据获取流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

本实施例提出了一种基于邮箱名的人物获取及关系推荐系统，如图1所示，包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块。数据采集模块，包括Redis+Requests分布式大批量网络数据采集技术抓取网络中公开匿名数据及对大批量原始数据的分布式存储技术--MongoDB技术，用于从大批量网络数据中采集网络中的公开匿名数据，并将采集的数据存储到分布式数据库中。其中，数据采集模块主要由多台可进行分布式数据获取的主机组成，其中一台主机作为控制节点，其余主机作为爬虫节点。控制节点主要包含邮箱管理器，邮箱管理器负责从文件中获取已获得的邮箱名，并将邮箱名传递给各个爬虫节点下的URL控制器；作为爬虫节点的主机结构如图2所示，爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器，URL控制器用于接收从邮箱管理器获取的邮箱名，并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址，将搜索地址提供给爬虫节点进行数据获取操作；HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，然后将该数据提供给HTML解析器；HTML解析器，用于使用Beautifulsoup第三方库解析得到的HTML数据，并将获得的相关数据提供给数据存储器；数据存储器，用于将获得的数据存入MongoDB集群，进行集群化存储。

实体识别模块，用于在训练集中定义需要抽取的实体种类，对采集的原始数据进行清洗，然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中。具体来讲是在训练集中定义需要抽取实体的种类(例如人名、地址、机构名、电话/手机号码，邮编……)，将数据采集模块中原始数据进行清洗，并按照一定规则识别抽取出指定实体存入分布式数据库。

相似度计算模块，用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后，计算二者相似度，获得邮箱名与人名实体相似度的值。即将实体识别模块中识别抽取出来的实体与邮箱名的前缀(例如zhangsan@qq.com，前缀zhangsan)计算编辑距离，其中需要将中文先转化为拼音，再进行相似度计算。

邮箱用户分析模块，用于对根据SVM和KNN模型推荐出的用户及其用户关系做统一的可视化展现。

本实施例一种基于邮箱名的人物获取及关系推荐方法，包括以下步骤：

步骤一、数据采集，数据采集模块使用多台主机进行分布式爬取，以获得待分必须的公开匿名数据。数据采集具体包括以下步骤：

(11)数据定向获取：多台主机进行分布式数据获取，一台主机作为控制节点，其余主机作为爬虫节点，控制节点主要为邮箱管理器，负责从文件中获取已获得的邮箱名，并将邮箱名传递给各个节点下的URL控制器；爬虫节点主要包含URL管理器，HTML下载器，HTML解析器和数据存储器，URL控制器主要负责接收从邮箱管理器获取的邮箱名，并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址，提供给爬虫节点进行数据获取操作；HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，将其数据提供给HTML解析器；HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据，获得的相关数据存入MongoDB集群，进行集群化存储。

(12)减少冗余数据：随机挑取N条邮箱，放入三大搜索引擎(google,bing,baidu)搜索，根据网站反馈的相关信息页面排名，筛选出前topN有效的强关联数据信息，为大规模采集的网页信息提供依据，统计计算后，再反馈调整原先的数据采集的任务，避免爬取无效、冗余的信息，降低下一模块的识别效率和准确度；

(13)反爬虫技术升级：该步骤涉及三种技术：一是设置随机休眠时间(random(6，30))，在6～30s时间间隔内，发出随机请求，避免频繁请求被限制IP；二是设置IP地址池，随机挑选地址池中的IP地址；三是随机变换IP请求报头数据。

步骤二、实体识别，选用与识别任务相关的语料，并用当前的主流工具word2vector，GloVe对语料进行实体标注，然后将语料分为两部分，一部分作为训练语料输入模型中进行反复训练，一部分作为测试语料进行预测，并将预测结果加入训练集中，再次进行模型训练，并对模型进行调优，直至获得最佳的学习率F1值。

步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取，并将抽取出的如(<邮箱名，可能用户1，2，3…，可能住址信息1，2，3…，可能机构名1，2，3…>)结构的实体数据存入关系型数据库中。

上述步骤二、三中，实体识别具体包括以下步骤：

(21)无需基于语义的训练集训练：选取符合网络文本特征的短文本训练集，并使用BRAT(https://github.com/nlplab/brat)+人工对文本进行标注；

(22)中英文文本分离：将数据采集模块中的数据统一编码为Unicode编码，并将\u4e00'～u'\u9fff'之间的数据划分到中文识别模型中，u'\u0041'～u'\u005a'或u'\u0061'～u'\u007a'之间的编入英文识别模型中；

(23)实体识别：将语料分为5份，其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练，1份作为测试语料，进行预测，并将预测结果进行修正之后加入训练集中，再次进行模型的训练，使得模型在有我们自身的语料的情况下进行调优，直到获得最佳的学习率F1值为止，然后将迭代完的BI-LSTM-CRF模型分别对步骤(22)中的数据进行实体识别和抽取，抽取出如(<邮箱名，可能用户1，2，3…，可能住址信息1，2，3…，可能机构名1，2，3…，电话/手机号码1，2，3…，邮编1,2,3…>)结构的实体数据存入关系型数据库中。

步骤四、相似度计算与邮箱用户分析，将步骤三中获得的实体与邮箱名的前缀进行相似度计算，再将得出的值输入到支持向量机模型(SVM)中，以得出邮箱主人的真实信息，然后将其余实体与该实体进行距离相似度计算，将实体间相似度的值放入到K-近邻(KNN)模型中，以输出与该实体有关联的用户，最后对与该实体有关联的用户进行排序，以输出用户之间的关联关系，表示其亲疏程度。

相似度计算的具体步骤如下：(41)邮箱与实体的相似度计算：将实体识别模块中识别抽取出来的中文人名实体转化为拼音，再与邮箱名的前缀(例如zhangsan@qq.com，前缀为zhangsan)计算编辑距离Levenshtein，即可得到邮箱名与人名实体的相似度值sim(x_i，y_i)，其中若为英文人名的实体，则直接进行相似度计算，得到邮箱名与人名实体的相似度值，最后将邮箱名与人名实体的相似度值放入支持向量机模型(SVM)中，为邮箱匹配出最可能的主人：

其中，表示中文实体转化后的拼音x_i或英文实体x_i长度，表示对应邮箱名y_i的前缀，sim(x_i，y_i)表示x_i与y_i的相似度；

(42)实体间的相似度计算：定义候选实体i为e_i，对每个候选实体e_i进行频率统计，以及页面位置统计，再计算实体之间的相似度值，然后将实体之间的相似度值输入K-近邻(KNN)模型中，为每个邮箱用户推荐出有实际关联关系的用户：

其中表示第i个候选实体的数量。

邮箱用户分析的具体步骤如下：

设置阈值α大小，并采用下式对用户关系以值的大小进行排序，以输出值最大的top3用户(即前三名关联用户),作为邮箱关联用户的潜在联系人：

其中α表示两者的相对权重，用于进一步优化实体排序情况，表示实体e_i的可信度。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于邮箱名的人物获取及关系推荐系统，其特征在于，包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块；所述数据采集模块，用于从大批量网络数据中采集网络中的公开匿名数据，并将采集的数据存储到分布式数据库中；

2.根据权利要求1 所述一种基于邮箱名的人物获取及关系推荐系统，其特征在于，所述数据采集模块主要由若干台可进行分布式数据获取的主机组成，其中一台主机作为控制节点，其余主机作为爬虫节点。

3.根据权利要求2所述一种基于邮箱名的人物获取及关系推荐系统，其特征在于，所述控制节点主要包含邮箱管理器，所述邮箱管理器负责从文件中获取已获得的邮箱名，并将邮箱名传递给各个爬虫节点下的URL控制器；所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器，所述URL控制器用于接收从邮箱管理器获取的邮箱名，并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址，将搜索地址提供给爬虫节点进行数据获取操作；所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，然后将该数据提供给HTML解析器；所述HTML解析器，用于使用Beautifulsoup第三方库解析得到的HTML数据，并将获得的相关数据提供给数据存储器；所述数据存储器，用于将获得的数据存入MongoDB集群，进行集群化存储。

4.一种基于邮箱名的人物获取及关系推荐方法，其特征在于，包括以下步骤：

步骤二、选用与识别任务相关的语料，并对语料进行实体标注，然后将语料分为两部分，一部分作为训练语料输入模型中进行反复训练，一部分作为测试语料进行预测，并将预测结果加入训练集中，再次进行模型训练，并对模型进行调优，直至获得最佳的学习率F1值；转至步骤三；

步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取，并将抽取出的实体数据存入关系型数据库中；转至步骤四；

步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算，再将得出的值输入到支持向量机模型中，以得出邮箱主人的真实信息，然后将其余实体与该实体进行距离相似度计算，以输出用户之间的关联关系，表示其亲疏程度。

5.根据权利要求4所述一种基于邮箱名的人物获取及关系推荐方法，其特征在于，在所述步骤一中，一台主机作为控制节点，其余主机作为爬虫节点，爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器；所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名，并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址，将拼接生成的URL地址存储到Redis服务器，以提供给爬虫节点执行数据爬取操作；所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据，将该数据提供给HTML解析器；所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据，再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。

6.根据权利要求5所述一种基于邮箱名的人物获取及关系推荐方法，其特征在于，在所述步骤二中，将语料分为5份，其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练，1份作为测试语料进行预测，并将预测结果进行修正之后加入训练集中，再次进行模型的训练，使得模型在有自身语料的情况下进行调优，直到获得最佳的学习率F1值为止。