CN109948154A - 一种基于邮箱名的人物获取及关系推荐系统和方法 - Google Patents

一种基于邮箱名的人物获取及关系推荐系统和方法 Download PDF

Info

Publication number
CN109948154A
CN109948154A CN201910183749.7A CN201910183749A CN109948154A CN 109948154 A CN109948154 A CN 109948154A CN 201910183749 A CN201910183749 A CN 201910183749A CN 109948154 A CN109948154 A CN 109948154A
Authority
CN
China
Prior art keywords
data
mailbox
entity
name
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910183749.7A
Other languages
English (en)
Other versions
CN109948154B (zh
Inventor
孙国梓
吕建伟
李华康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910183749.7A priority Critical patent/CN109948154B/zh
Publication of CN109948154A publication Critical patent/CN109948154A/zh
Application granted granted Critical
Publication of CN109948154B publication Critical patent/CN109948154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提出了一种基于邮箱名的人物获取及关系推荐系统,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;数据采集模块用于从大批量网络数据中采集网络中的公开匿名数据;实体识别模块用于按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;相似度计算模块用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,再计算二者相似度,获得邮箱名与人名实体相似度的值;邮箱用户分析模块用于对推荐出的用户及用户关系做统一的可视化展现。本发明在语料识别中无需基于句义分析进行实体抽取,能够识别中英文混合文本中的相关实体,可以发现邮箱的真实用户以及与该用户关系密切的相关用户。

Description

一种基于邮箱名的人物获取及关系推荐系统和方法
技术领域
本发明涉及一种海量公开弱可信数据下匿名人物关联分析技术,具体的是一种基于邮箱名的人物获取及关系推荐系统和方法,属于知识图谱分析及挖掘技术领域。
背景技术
匿名人物关联分析是指通过爬虫技术从互联网搜索引擎中得到相关匿名用户的数据,并用命名实体抽取和向量化的方法对海量匿名数据进行实体抽取处理。在抽取得到的结果的基础上,总结用户与用户间未有公开数据显示的关联规律,排序输出匿名邮箱用户的真实姓名、住址、工作单位等相关信息,以及与邮箱真实主人相关联的用户的信息。这样能够掌握用户的身份特征,对于挖掘用户潜在的人物关系具有重要的意义。因此,目前需要从用户使用邮箱的角度出发,通过对邮箱在搜索引擎中搜索后存留痕迹的研究,设计一个有效的人物关系检测方法,快速发现相关用户的关联关系。
目前,各种人物关系检测算法主要分为两类:
(1)基于人工标注的分析方法,经检索发现,公开号为CN106778878A的中国专利公开了一种人物关系分类方法与装置;
(2)基于强关联用户的关系分析方法,经检索发现,公开号为CN106708922A的中国专利公开了一种基于海量数据的人物关系图谱分析方法,公开号为CN106484675A公开了一种融合分布式语义和句义特征的人物关系抽取方法。
上述方法存在着一定的局限性,以上专利实体抽取都依赖于语义关系,对语料中语义的人工标注直接决定了后期的实体识别的准确性;它们都在在中文实体识别进行加工处理,而对与目前网络上中英文夹杂的文本无法进行处理。
发明内容
本发明根据上述所要解决的技术问题,克服现有技术的不足而提供一种基于邮箱名的人物获取及关系推荐系统和方法。
本发明的目的之一是提出一种无需基于句义分析的实体抽取方法;
本发明的目的之二是提出一种识别中英文混合文本中实体的方法;
本发明的目的之三是提出一种新的数据获取依据方式—邮箱名,通过邮箱名在搜索引擎的反馈,得到中英文夹杂的文本,从而进行相对应的实体识别,最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系的方法。
本发明提供一种基于邮箱名的人物获取及关系推荐系统,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;所述数据采集模块,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中;
所述实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;
所述相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值;
所述邮箱用户分析模块,用于对推荐出的用户及用户关系做统一的可视化展现。
本发明提出一种基于邮箱名的人物获取及关系推荐系统,在语料预处理中将无需人工标注句子中的语义关系,只需直接定义中英文中需要抽取的实体的特征,能够对中英文夹杂的文本同时进行处理,从而进行相对应的实体识别,最后通过优化排序输出与邮箱最有关联的候选人和候选人的用户信息及相关用户的关联关系。此外,本发明采用基于实体间相关系数算法,在发现多个用户潜在关系时具有明显的优势,准确率高。
作为本发明的进一步技术方案,所述数据采集模块主要由若干台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。
进一步的,所述控制节点主要包含邮箱管理器,所述邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,所述URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL(网址)拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;所述HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;所述数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
本发明还提供了一种基于邮箱名的人物获取及关系推荐方法,包括以下步骤:
步骤一、数据采集,使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据;转至步骤二;
步骤二、选用与识别任务相关的语料,并用当前的主流工具word2vector,GloVe对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值;转至步骤三;
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…>)结构的实体数据存入关系型数据库中;转至步骤四;
步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型(SVM)中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,以输出用户之间的关联关系,表示其亲疏程度。
在所述步骤一中,一台主机作为控制节点,其余主机作为爬虫节点,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器;所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名,并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址,将拼接生成的URL地址存储到Redis服务器,以提供给爬虫节点执行数据爬取操作;所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将该数据提供给HTML解析器;所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。
其特征在于,在所述步骤二中,将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有自身语料的情况下进行调优,直到获得最佳的学习率F1值为止。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明在语料识别中无需基于句义分析进行实体抽取,并能够识别中英文混合文本中的相关实体,可以有效地发现邮箱的真实用户以及与该用户关系密切的相关用户,弥补了其他分析方法的不足。此外,本发明基于用户的相似度算法,在实体识别后对用户间关联关系的发现具有明显的优势,关系分析率高,推荐准确率高。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明中基于邮箱名的人物获取及关系推荐系统的模块及流程示意图。
图2为本发明中数据获取流程图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
本实施例提出了一种基于邮箱名的人物获取及关系推荐系统,如图1所示,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块。数据采集模块,包括Redis+Requests分布式大批量网络数据采集技术抓取网络中公开匿名数据及对大批量原始数据的分布式存储技术--MongoDB技术,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中。其中,数据采集模块主要由多台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。控制节点主要包含邮箱管理器,邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;作为爬虫节点的主机结构如图2所示,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中。具体来讲是在训练集中定义需要抽取实体的种类(例如人名、地址、机构名、电话/手机号码,邮编……),将数据采集模块中原始数据进行清洗,并按照一定规则识别抽取出指定实体存入分布式数据库。
相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值。即将实体识别模块中识别抽取出来的实体与邮箱名的前缀(例如zhangsan@qq.com,前缀zhangsan)计算编辑距离,其中需要将中文先转化为拼音,再进行相似度计算。
邮箱用户分析模块,用于对根据SVM和KNN模型推荐出的用户及其用户关系做统一的可视化展现。
本实施例一种基于邮箱名的人物获取及关系推荐方法,包括以下步骤:
步骤一、数据采集,数据采集模块使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据。数据采集具体包括以下步骤:
(11)数据定向获取:多台主机进行分布式数据获取,一台主机作为控制节点,其余主机作为爬虫节点,控制节点主要为邮箱管理器,负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个节点下的URL控制器;爬虫节点主要包含URL管理器,HTML下载器,HTML解析器和数据存储器,URL控制器主要负责接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,提供给爬虫节点进行数据获取操作;HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将其数据提供给HTML解析器;HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,获得的相关数据存入MongoDB集群,进行集群化存储。
(12)减少冗余数据:随机挑取N条邮箱,放入三大搜索引擎(google,bing,baidu)搜索,根据网站反馈的相关信息页面排名,筛选出前topN有效的强关联数据信息,为大规模采集的网页信息提供依据,统计计算后,再反馈调整原先的数据采集的任务,避免爬取无效、冗余的信息,降低下一模块的识别效率和准确度;
(13)反爬虫技术升级:该步骤涉及三种技术:一是设置随机休眠时间(random(6,30)),在6~30s时间间隔内,发出随机请求,避免频繁请求被限制IP;二是设置IP地址池,随机挑选地址池中的IP地址;三是随机变换IP请求报头数据。
步骤二、实体识别,选用与识别任务相关的语料,并用当前的主流工具word2vector,GloVe对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值。
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…>)结构的实体数据存入关系型数据库中。
上述步骤二、三中,实体识别具体包括以下步骤:
(21)无需基于语义的训练集训练:选取符合网络文本特征的短文本训练集,并使用BRAT(https://github.com/nlplab/brat)+人工对文本进行标注;
(22)中英文文本分离:将数据采集模块中的数据统一编码为Unicode编码,并将\u4e00'~u'\u9fff'之间的数据划分到中文识别模型中,u'\u0041'~u'\u005a'或u'\u0061'~u'\u007a'之间的编入英文识别模型中;
(23)实体识别:将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料,进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有我们自身的语料的情况下进行调优,直到获得最佳的学习率F1值为止,然后将迭代完的BI-LSTM-CRF模型分别对步骤(22)中的数据进行实体识别和抽取,抽取出如(<邮箱名,可能用户1,2,3…,可能住址信息1,2,3…,可能机构名1,2,3…,电话/手机号码1,2,3…,邮编1,2,3…>)结构的实体数据存入关系型数据库中。
步骤四、相似度计算与邮箱用户分析,将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型(SVM)中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,将实体间相似度的值放入到K-近邻(KNN)模型中,以输出与该实体有关联的用户,最后对与该实体有关联的用户进行排序,以输出用户之间的关联关系,表示其亲疏程度。
相似度计算的具体步骤如下:(41)邮箱与实体的相似度计算:将实体识别模块中识别抽取出来的中文人名实体转化为拼音,再与邮箱名的前缀(例如zhangsan@qq.com,前缀为zhangsan)计算编辑距离Levenshtein,即可得到邮箱名与人名实体的相似度值sim(xi,yi),其中若为英文人名的实体,则直接进行相似度计算,得到邮箱名与人名实体的相似度值,最后将邮箱名与人名实体的相似度值放入支持向量机模型(SVM)中,为邮箱匹配出最可能的主人:
其中,表示中文实体转化后的拼音xi或英文实体xi长度,表示对应邮箱名yi的前缀,sim(xi,yi)表示xi与yi的相似度;
(42)实体间的相似度计算:定义候选实体i为ei,对每个候选实体ei进行频率统计,以及页面位置统计,再计算实体之间的相似度值,然后将实体之间的相似度值输入K-近邻(KNN)模型中,为每个邮箱用户推荐出有实际关联关系的用户:
其中表示第i个候选实体的数量。
邮箱用户分析的具体步骤如下:
设置阈值α大小,并采用下式对用户关系以值的大小进行排序,以输出值最大的top3用户(即前三名关联用户),作为邮箱关联用户的潜在联系人:
其中α表示两者的相对权重,用于进一步优化实体排序情况,表示实体ei的可信度。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于邮箱名的人物获取及关系推荐系统,其特征在于,包括数据采集模块、实体识别模块、相似度计算模块和邮箱用户分析模块;所述数据采集模块,用于从大批量网络数据中采集网络中的公开匿名数据,并将采集的数据存储到分布式数据库中;
所述实体识别模块,用于在训练集中定义需要抽取的实体种类,对采集的原始数据进行清洗,然后按照一定规则识别抽取出指定实体并将指定实体存入分布式数据库中;
所述相似度计算模块,用于将识别抽取出的指定实体与邮箱名的前缀进行编辑距离计算后,计算二者相似度,获得邮箱名与人名实体相似度的值;
所述邮箱用户分析模块,用于对推荐出的用户及用户关系做统一的可视化展现。
2.根据权利要求1 所述一种基于邮箱名的人物获取及关系推荐系统,其特征在于,所述数据采集模块主要由若干台可进行分布式数据获取的主机组成,其中一台主机作为控制节点,其余主机作为爬虫节点。
3.根据权利要求2所述一种基于邮箱名的人物获取及关系推荐系统,其特征在于,所述控制节点主要包含邮箱管理器,所述邮箱管理器负责从文件中获取已获得的邮箱名,并将邮箱名传递给各个爬虫节点下的URL控制器;所述爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器,所述URL控制器用于接收从邮箱管理器获取的邮箱名,并根据已获得的邮箱和搜索引擎的搜索首页的URL拼接成一个完整的搜索地址,将搜索地址提供给爬虫节点进行数据获取操作;所述HTML下载器用于从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,然后将该数据提供给HTML解析器;所述HTML解析器,用于使用Beautifulsoup第三方库解析得到的HTML数据,并将获得的相关数据提供给数据存储器;所述数据存储器,用于将获得的数据存入MongoDB集群,进行集群化存储。
4.一种基于邮箱名的人物获取及关系推荐方法,其特征在于,包括以下步骤:
步骤一、数据采集,使用多台主机进行分布式爬取,以获得待分必须的公开匿名数据;转至步骤二;
步骤二、选用与识别任务相关的语料,并对语料进行实体标注,然后将语料分为两部分,一部分作为训练语料输入模型中进行反复训练,一部分作为测试语料进行预测,并将预测结果加入训练集中,再次进行模型训练,并对模型进行调优,直至获得最佳的学习率F1值;转至步骤三;
步骤三、采用迭代完的BI-LSTM-CRF模型对步骤一中的数据进行实体识别和抽取,并将抽取出的实体数据存入关系型数据库中;转至步骤四;
步骤四、将步骤三中获得的实体与邮箱名的前缀进行相似度计算,再将得出的值输入到支持向量机模型中,以得出邮箱主人的真实信息,然后将其余实体与该实体进行距离相似度计算,以输出用户之间的关联关系,表示其亲疏程度。
5.根据权利要求4所述一种基于邮箱名的人物获取及关系推荐方法,其特征在于,在所述步骤一中,一台主机作为控制节点,其余主机作为爬虫节点,爬虫节点主要包含URL控制器、HTML下载器、HTML解析器和数据存储器;所述URL控制器主要负责接收从控制节点的邮箱管理器获取的邮箱名,并根据提供的邮箱名和搜索引擎的搜索首页的URL拼接成一个完整的URL地址,将拼接生成的URL地址存储到Redis服务器,以提供给爬虫节点执行数据爬取操作;所述HTML下载器主要负责从Redis服务器中获取URL并使用Requests库下载相应的HTML数据,将该数据提供给HTML解析器;所述HTML解析器主要负责使用Beautifulsoup第三方库解析得到的HTML数据,再将获得的相关数据交给数据存储器的MongoDB集群进行集群化存储。
6.根据权利要求5所述一种基于邮箱名的人物获取及关系推荐方法,其特征在于,在所述步骤二中,将语料分为5份,其中4份作为训练语料输入BI-LSTM-CRF模型中进行反复训练,1份作为测试语料进行预测,并将预测结果进行修正之后加入训练集中,再次进行模型的训练,使得模型在有自身语料的情况下进行调优,直到获得最佳的学习率F1值为止。
CN201910183749.7A 2019-03-12 2019-03-12 一种基于邮箱名的人物获取及关系推荐系统和方法 Active CN109948154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910183749.7A CN109948154B (zh) 2019-03-12 2019-03-12 一种基于邮箱名的人物获取及关系推荐系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910183749.7A CN109948154B (zh) 2019-03-12 2019-03-12 一种基于邮箱名的人物获取及关系推荐系统和方法

Publications (2)

Publication Number Publication Date
CN109948154A true CN109948154A (zh) 2019-06-28
CN109948154B CN109948154B (zh) 2023-05-05

Family

ID=67009490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910183749.7A Active CN109948154B (zh) 2019-03-12 2019-03-12 一种基于邮箱名的人物获取及关系推荐系统和方法

Country Status (1)

Country Link
CN (1) CN109948154B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090801A (zh) * 2019-12-18 2020-05-01 创新奇智(青岛)科技有限公司 一种专家人脉关系图谱绘制方法及系统
CN112464667A (zh) * 2020-11-18 2021-03-09 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
CN112667981A (zh) * 2020-01-10 2021-04-16 支付宝实验室(新加坡)有限公司 验证用户电子邮件真实性的系统及关联的装置和处理方法
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107908749A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种基于搜索引擎的人物检索系统及方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107908749A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种基于搜索引擎的人物检索系统及方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090801A (zh) * 2019-12-18 2020-05-01 创新奇智(青岛)科技有限公司 一种专家人脉关系图谱绘制方法及系统
CN112667981A (zh) * 2020-01-10 2021-04-16 支付宝实验室(新加坡)有限公司 验证用户电子邮件真实性的系统及关联的装置和处理方法
CN112464667A (zh) * 2020-11-18 2021-03-09 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN109948154B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN105824959B (zh) 舆情监控方法及系统
US8073877B2 (en) Scalable semi-structured named entity detection
CN100405371C (zh) 一种提取新词的方法和系统
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN104199965B (zh) 一种语义信息检索方法
CN110222160A (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN105045875B (zh) 个性化信息检索方法及装置
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
WO2016201511A1 (en) Methods and systems for object recognition
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
US11379527B2 (en) Sibling search queries
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN103226601B (zh) 一种图片搜索的方法和装置
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN114238735B (zh) 一种互联网数据智能采集方法
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant