CN109948154B - 一种基于邮箱名的人物获取及关系推荐系统和方法 - Google Patents
一种基于邮箱名的人物获取及关系推荐系统和方法 Download PDFInfo
- Publication number
- CN109948154B CN109948154B CN201910183749.7A CN201910183749A CN109948154B CN 109948154 B CN109948154 B CN 109948154B CN 201910183749 A CN201910183749 A CN 201910183749A CN 109948154 B CN109948154 B CN 109948154B
- Authority
- CN
- China
- Prior art keywords
- mailbox
- entity
- data
- name
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 230000009193 crawling Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000004622 sleep time Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于邮箱名的人物获取及关系推荐系统,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;数据采集模块用于从大批量网络数据中采集网络中的公开匿名数据;实体识别模块用于按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;相似度计算模块用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,再计算二者相似度,获得邮箱名与人名实体相似度的值;邮箱用户分析模块用于对推荐出的用户及用户关系做统一的可视化展现。本发明在语料识别中无需基于句义分析进行实体抽取,能够识别中英文混合文本中的相关实体,可以发现邮箱的真实用户以及与该用户关系密切的相关用户。
Description
技术领域
本发明涉及一种海量公开弱可信数据下匿名人物关联分析技术,具体的是一种基于邮箱名的人物获取及关系推荐系统和方法,属于知识图谱分析及挖掘技术领域。
背景技术
匿名人物关联分析是指通过爬虫技术从互联网搜索引擎中得到相关匿名用户的数据,并用命名实体抽取和向量化的方法对海量匿名数据进行实体抽取处理。在抽取得到的结果的基础上,总结用户与用户间未有公开数据显示的关联规律,排序输出匿名邮箱用户的真实姓名、住址、工作单位等相关信息,以及与邮箱真实主人相关联的用户的信息。这样能够掌握用户的身份特征,对于挖掘用户潜在的人物关系具有重要的意义。因此,目前需要从用户使用邮箱的角度出发,通过对邮箱在搜索引擎中搜索后存留痕迹的研究,设计一个有效的人物关系检测方法,快速发现相关用户的关联关系。
目前,各种人物关系检测算法主要分为两类:
(1)基于人工标注的分析方法,经检索发现,公开号为CN106778878A的中国专利公开了一种人物关系分类方法与装置;
(2)基于强关联用户的关系分析方法,经检索发现,公开号为CN106708922A的中国专利公开了一种基于海量数据的人物关系图谱分析方法,公开号为CN106484675A公开了一种融合分布式语义和句义特征的人物关系抽取方法。
上述方法存在着一定的局限性,以上专利实体抽取都依赖于语义关系,对语料中语义的人工标注直接决定了后期的实体识别的准确性;它们都在在中文实体识别进行加工处理,而对与目前网络上中英文夹杂的文本无法进行处理。
发明内容
本发明根据上述所要解决的技术问题,克服现有技术的不足而提供一种基于邮箱名的人物获取及关系推荐系统和方法。
本发明的目的之一是提出一种无需基于句义分析的实体抽取方法;
本发明的目的之二是提出一种识别中英文混合文本中实体的方法;
本发明的目的之三是提出一种新的数据获取依据方式—邮箱名,通过邮箱名在搜索引擎的反馈,得到中英文夹杂的文本,从而进行相对应的实体识别,最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系的方法。
本发明提供一种基于邮箱名的人物获取及关系推荐系统,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;所述数据采集模块,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中;
所述实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;
所述相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值;
所述邮箱用户分析模块,用于对推荐出的用户及用户关系做统一的可视化展现。
本发明提出一种基于邮箱名的人物获取及关系推荐系统,在语料预处理中将无需人工标注句子中的语义关系,只需直接定义中英文中需要抽取的实体的特征,能够对中英文夹杂的文本同时进行处理,从而进行相对应的实体识别,最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系。此外,本发明采用基于实体间相关系数算法,在发现多个用户潜在关系时具有明显的优势,准确率高。
作为本发明的进一步技术方案,所述数据采集模块主要由若干台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。
进一步的,所述控制节点主要包含邮箱管理器,所述邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,所述URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL(网址)拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;所述HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;所述数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
本发明还提供了一种基于邮箱名的人物获取及关系推荐方法,包括以下步骤:
步骤一、数据采集,使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据;转至步骤二;
步骤二、选用与识别任务相关的语料,并用当前的主流工具word2vector,GloVe对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值;转至步骤三;
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…>)结构的实体数据存入关系型数据库中;转至步骤四;
步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型(SVM)中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,以输出用户之间的关联关系,表示其亲疏程度。
在所述步骤一中,一台主机作为控制节点,其余主机作为爬虫节点,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器;所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名,并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址,将拼接生成的URL地址存储到Redis服务器,以提供给爬虫节点执行数据爬取操作;所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将该数据提供给HTML解析器;所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。
其特征在于,在所述步骤二中,将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有自身语料的情况下进行调优,直到获得最佳的学习率F1值为止。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明在语料识别中无需基于句义分析进行实体抽取,并能够识别中英文混合文本中的相关实体,可以有效地发现邮箱的真实用户以及与该用户关系密切的相关用户,弥补了其他分析方法的不足。此外,本发明基于用户的相似度算法,在实体识别后对用户间关联关系的发现具有明显的优势,关系分析率高,推荐准确率高。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明中基于邮箱名的人物获取及关系推荐系统的模块及流程示意图。
图2为本发明中数据获取流程图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
本实施例提出了一种基于邮箱名的人物获取及关系推荐系统,如图1所示,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块。数据采集模块,包括Redis+Requests分布式大批量网络数据采集技术抓取网络中公开匿名数据及对大批量原始数据的分布式存储技术--MongoDB技术,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中。其中,数据采集模块主要由多台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。控制节点主要包含邮箱管理器,邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;作为爬虫节点的主机结构如图2所示,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中。具体来讲是在训练集中定义需要抽取实体的种类(例如人名、地址、机构名、电话/手机号码,邮编……),将数据采集模块中原始数据进行清洗,并按照一定规则识别抽取出指定实体存入分布式数据库。
相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值。即将实体识别模块中识别抽取出来的实体与邮箱名的前缀(例如zhangsan@qq.com,前缀zhangsan)计算编辑距离,其中需要将中文先转化为拼音,再进行相似度计算。
邮箱用户分析模块,用于对根据SVM和KNN模型推荐出的用户及其用户关系做统一的可视化展现。
本实施例一种基于邮箱名的人物获取及关系推荐方法,包括以下步骤:
步骤一、数据采集,数据采集模块使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据。数据采集具体包括以下步骤:
(11)数据定向获取:多台主机进行分布式数据获取,一台主机作为控制节点,其余主机作为爬虫节点,控制节点主要为邮箱管理器,负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个节点下的URL控制器;爬虫节点主要包含URL管理器,HTML下载器,HTML解析器和数据存储器,URL控制器主要负责接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,提供给爬虫节点进行数据获取操作;HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将其数据提供给HTML解析器;HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,获得的相关数据存入MongoDB集群,进行集群化存储。
(12)减少冗余数据:随机挑取N条邮箱,放入三大搜索引擎(google,bing,baidu)搜索,根据网站反馈的相关信息页面排名,筛选出前topN有效的强关联数据信息,为大规模采集的网页信息提供依据,统计计算后,再反馈调整原先的数据采集的任务,避免爬取无效、冗余的信息,降低下一模块的识别效率和准确度;
(13)反爬虫技术升级:该步骤涉及三种技术:一是设置随机休眠时间(random(6,30)),在6~30s时间间隔内,发出随机请求,避免频繁请求被限制IP;二是设置IP地址池,随机挑选地址池中的IP地址;三是随机变换IP请求报头数据。
步骤二、实体识别,选用与识别任务相关的语料,并用当前的主流工具word2vector,GloVe对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值。
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…>)结构的实体数据存入关系型数据库中。
上述步骤二、三中,实体识别具体包括以下步骤:
(21)无需基于语义的训练集训练:选取符合网络文本特征的短文本训练集,并使用BRAT(https://github.com/nlplab/brat)+人工对文本进行标注;
(22)中英文文本分离:将数据采集模块中的数据统一编码为Unicode编码,并将\u4e00'~u'\u9fff'之间的数据划分到中文识别模型中,u'\u0041'~u'\u005a'或u'\u0061'~u'\u007a'之间的编入英文识别模型中;
(23)实体识别:将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料,进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有我们自身的语料的情况下进行调优,直到获得最佳的学习率F1值为止,然后将迭代完的BI-LSTM-CRF模型分别对步骤(22)中的数据进行实体识别和抽取,抽取出如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…,电话/手机号码1,2,3…,邮编1,2,3…>)结构的实体数据存入关系型数据库中。
步骤四、相似度计算与邮箱用户分析,将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型(SVM)中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,将实体间相似度的值放入到K-近邻(KNN)模型中,以输出与该实体有关联的用户,最后对与该实体有关联的用户进行排序,以输出用户之间的关联关系,表示其亲疏程度。
相似度计算的具体步骤如下:(41)邮箱与实体的相似度计算:将实体识别模块中识别抽取出来的中文人名实体转化为拼音,再与邮箱名的前缀(例如zhangsan@qq.com,前缀为zhangsan)计算编辑距离Levenshtein,即可得到邮箱名与人名实体的相似度值sim(xi,yi),其中若为英文人名的实体,则直接进行相似度计算,得到邮箱名与人名实体的相似度值,最后将邮箱名与人名实体的相似度值放入支持向量机模型(SVM)中,为邮箱匹配出最可能的主人:
(42)实体间的相似度计算:定义候选实体i为ei,对每个候选实体ei进行频率统计,以及页面位置统计,再计算实体之间的相似度值,然后将实体之间的相似度值输入K-近邻(KNN)模型中,为每个邮箱用户推荐出有实际关联关系的用户:
邮箱用户分析的具体步骤如下:
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种基于邮箱名的人物获取及关系推荐系统,其特征在于,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;所述数据采集模块,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中;
所述实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;采用迭代完的BI-LSTM-CRF模型对数据进行实体识别和抽取;
所述相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值,输出用户之间的关联关系,表示其亲疏程度;邮箱与实体的相似度计算方式为:将实体识别模块中识别抽取出来的中文人名实体转化为拼音,再与邮箱名的前缀计算编辑距离Levenshtein,即可得到邮箱名与人名实体的相似度值sim(xi,yi),其中若为英文人名的实体,则直接进行相似度计算,得到邮箱名与人名实体的相似度值,最后将邮箱名与人名实体的相似度值放入支持向量机模型中,为邮箱匹配出最可能的主人:
所述邮箱用户分析模块,用于对推荐出的用户及用户关联关系做统一的可视化展现。
2.根据权利要求1所述一种基于邮箱名的人物获取及关系推荐系统,其特征在于,所述数据采集模块主要由若干台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。
3.根据权利要求2所述一种基于邮箱名的人物获取及关系推荐系统,其特征在于,所述控制节点主要包含邮箱管理器,所述邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,所述URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;所述HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;所述数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
4.一种基于邮箱名的人物获取及关系推荐方法,其特征在于,包括以下步骤:
步骤一、数据采集,使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据;转至步骤二;
步骤二、选用与识别任务相关的语料,并对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值;转至步骤三;
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的实体数据存入关系型数据库中;转至步骤四;
步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,以输出用户之间的关联关系,表示其亲疏程度;邮箱与实体的相似度计算方式为:将实体识别模块中识别抽取出来的中文人名实体转化为拼音,再与邮箱名的前缀计算编辑距离Levenshtein,即可得到邮箱名与人名实体的相似度值sim(xi,yi),其中若为英文人名的实体,则直接进行相似度计算,得到邮箱名与人名实体的相似度值,最后将邮箱名与人名实体的相似度值放入支持向量机模型中,为邮箱匹配出最可能的主人:
5.根据权利要求4所述一种基于邮箱名的人物获取及关系推荐方法,其特征在于,在所述步骤一中,一台主机作为控制节点,其余主机作为爬虫节点,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器;所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名,并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址,将拼接生成的URL地址存储到Redis服务器,以提供给爬虫节点执行数据爬取操作;所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将该数据提供给HTML解析器;所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。
6.根据权利要求5所述一种基于邮箱名的人物获取及关系推荐方法,其特征在于,在所述步骤二中,将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有自身语料的情况下进行调优,直到获得最佳的学习率F1值为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910183749.7A CN109948154B (zh) | 2019-03-12 | 2019-03-12 | 一种基于邮箱名的人物获取及关系推荐系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910183749.7A CN109948154B (zh) | 2019-03-12 | 2019-03-12 | 一种基于邮箱名的人物获取及关系推荐系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948154A CN109948154A (zh) | 2019-06-28 |
CN109948154B true CN109948154B (zh) | 2023-05-05 |
Family
ID=67009490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910183749.7A Active CN109948154B (zh) | 2019-03-12 | 2019-03-12 | 一种基于邮箱名的人物获取及关系推荐系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948154B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090801B (zh) * | 2019-12-18 | 2023-06-09 | 创新奇智(青岛)科技有限公司 | 一种专家人脉关系图谱绘制方法及系统 |
SG10202000249YA (en) * | 2020-01-10 | 2020-04-29 | Alipay Labs Singapore Pte Ltd | A system for verifying authenticity of user email, and an apparatus and a processing method in association thereto |
CN112464667B (zh) * | 2020-11-18 | 2021-11-16 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN115099832B (zh) * | 2022-06-29 | 2024-07-05 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN107908749B (zh) * | 2017-11-17 | 2020-04-10 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
CN108920445B (zh) * | 2018-04-23 | 2022-06-17 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
-
2019
- 2019-03-12 CN CN201910183749.7A patent/CN109948154B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109948154A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN107491534B (zh) | 信息处理方法和装置 | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
US9489401B1 (en) | Methods and systems for object recognition | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN106776567B (zh) | 一种互联网大数据分析提取方法及系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
WO2007143914A1 (fr) | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
US11379527B2 (en) | Sibling search queries | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN111339424B (zh) | 基于关键词进行搜索的方法、装置、设备及存储介质 | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
CN106599215A (zh) | 一种基于深度学习的问句生成方法和问句生成系统 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN113254671B (zh) | 基于query分析的图谱优化方法、装置、设备及介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN111444414A (zh) | 一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型 | |
CN115640439A (zh) | 一种网络舆情监控的方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |