CN109492027B - 一种基于弱可信数据的跨社群潜在人物关系分析方法 - Google Patents

一种基于弱可信数据的跨社群潜在人物关系分析方法 Download PDF

Info

Publication number
CN109492027B
CN109492027B CN201811310355.5A CN201811310355A CN109492027B CN 109492027 B CN109492027 B CN 109492027B CN 201811310355 A CN201811310355 A CN 201811310355A CN 109492027 B CN109492027 B CN 109492027B
Authority
CN
China
Prior art keywords
user
graph
community
nodes
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811310355.5A
Other languages
English (en)
Other versions
CN109492027A (zh
Inventor
孙国梓
吕建伟
李华康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201811310355.5A priority Critical patent/CN109492027B/zh
Publication of CN109492027A publication Critical patent/CN109492027A/zh
Application granted granted Critical
Publication of CN109492027B publication Critical patent/CN109492027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物属性标签无监督实体识别方法抽取出实体,使用层次结构来测量不同属性社群下用户节点的相似度,构建多层图来编码结构相似性,为节点生成由多重身份特征的用户根据不同特征聚类形成的结构性网络关系图,从而发现网络上无关联而现实中可能相似的潜在人物关系。此外,该方法基于用户相关系数算法,在发现无直接边相连的两个用户节点潜在关系具有明显的优势,准确率高。

Description

一种基于弱可信数据的跨社群潜在人物关系分析方法
技术领域
本发明涉及大数据分析及挖掘领域,尤其是在弱可信数据下潜在人物关系分析领域,具体为一种基于弱可信数据的跨社群潜在人物关系分析方法。
背景技术
潜在人物关系分析是指从互联网搜索引擎或者社交网站得到相关匿名用户的数据,并用关键词抽取和数理分析的方法对匿名数据进行处理。通过分析得到的结果,发现用户在不同属性关系网下的结构身份,总结用户与用户间未有公开数据显示的关联规律。能够掌握用户在不同属性关系网下的结构身份,对于挖掘用户潜在行为及潜在关系具有重要的意义。本发明从用户在不同属性关系网下的结构身份角度出发,通过对网络用户日常上网行为痕迹分析方法的研究,设计一个有效的潜在人物关系检测方法,快速发现弱关联用户中的强关系。
目前,各种人物关系检测算法主要分为两类:
(1)基于人工标注或半监督的分析方法,现有专利包括:一种人物关系分类方法与装置(专利号:CN106778878A)。
(2)基于强关联用户的关系分析方法,现有专利包括:一种基于海量数据的人物关系图谱分析方法(专利号:CN106708922A),融合分布式语义和句义特征的人物关系抽取方法(专利号:CN106484675A)。
上述方法存在着一定的局限性,预处理时人工标注的语料直接决定了后期的关系识别的准确性,而如何定义人工标注的量,以及如何进行标注,都无法科学量化;通过抽取、语义、句义特征分析的方法只能发现强关联用户中的强关系,而对于那些在互联网上无直接边连接、只是通过多个中间人单连接的用户之间潜在关系的发现问题等还没有很好的解决。
发明内容
发明目的:为解决上述技术问题,本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物标签,以无监督实体识别方法抽取出实体,再用层次结构来测量不同属性社群下用户节点的相似度,通过构建多层图来编码结构相似性,为节点生成结构性网络关系图。本发明中引进结构性网络关系图的概念,结构性网络关系图是由多重身份特征的用户根据不同特征聚类形成的结构性人际关系网,通过结构相似的关系图来发现网络上无关联而现实中可能相识的潜在人物关系。
技术方案:为实现上述技术效果,本发明提出以下技术方案:
一种基于弱可信数据的跨社群潜在人物关系分析方法,包括步骤:
(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;
(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;
(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;
(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;
(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。
进一步的,所述用户间的结构身份相似度的计算方法为:
将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展k跳邻居,得到用户社群G(u),以v为中心节点扩展k跳邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0
Figure BDA0001854521110000021
其中,Rk(u)表示G中距离u为k跳的节点的集合,Rk(v)表示在G中距离v为k跳的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u)),s(Rk(v))之间的距离;d(a,b)表示距离函数,其中,a为s(Rk(u))中的元素,b为s(Rk(v))中的元素;max(a,b)表示取a,b中的最大值,min(a,b)表示取a,b中的最小值。
进一步的,所述社群图结构相似度的计算方法为:
(3-1)构造一个加权多层图,所述用户社群图中的所有节点存在于加权多层图的每一层中,定义加权多层图的第k层中u和v之间边的权重为Wk(u,v),
Figure BDA0001854521110000033
k*为在无向图G中所能取到的k的最大值;
(3-2)根据步骤(3-1)计算出的权重,计算加权多层图的第k层的社群图结构相似度为:
Figure BDA0001854521110000032
进一步的,所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为:
设m和n为两个无直接边相连的用户节点,m∈G(u),n∈G(v);d(u,v)用户节点u和v在图G中相似距离,gk(u,m)表示所述加权多层图的第k层中m距离u的跳数;定义m和n之间的相关系数为η,η越大表示m和n之间的潜在关系越近;η的计算公式为:η(m,n)=α*d(m,n)+(1-α)(gk(u,m)+gl(v,n)),α为常数系数。
进一步的,所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为:
借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫,从网页或社交网站上爬取匿名用户的公开数据。
进一步的,所述属性包括:用户ID,姓名,邮箱,电话,从事工作类型,工作单位,好友,加入的群组,所在城市,签到过的地点,兴趣爱好,教育背景。有益效果:与现有技术相比,本发明具有以下优势:
该方法基于用户结构特征进行挖掘,无需依赖用户的身份标签等人工标注的特征因素,只通过用户的相互联系来计算用户特征的相似度,有效地提取出用户在社群网中的结构身份,弥补其他分析方法的不足。此外,该方法基于用户结构身份相似度算法,在跨社群用户关系发现方面具有明显优势,关系发现率高,运行速度快。
附图说明
图1为本发明的流程图;
图2为实施例中用户社群图的示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法,其流程图1所示,包括以下几个部分:
步骤1)数据采集:包括redis+requests分布式大批量数据采集技术抓取网络公开匿名数据与MongoDB分布式大批量数据存储技术存储获取后的原始数据;
步骤2)实体识别:定义相关实体与属性,将步骤1)中的原始数据进行清洗,并按照一定规则识别抽取出指定信息存入实体属性数据库;
步骤3)图的结构挖掘:基于步骤2)实体属性数据库中某个用户节点边特征(关系),生成用户与用户间的社群联系图;
步骤4)相似度算法:由步骤3)生成的用户社群关系图,再通过图的结构相似度算法计算出用户的结构身份相似度和相关系数;
步骤5)跨社群用户关系分析:比较社群结构相似度接近的图,通过已关联的用户发现跨社群中无直接边关联用户的潜在关系
上述方法中,在步骤1)中,数据采集具体包括:
步骤11)数据定向获取:首先由控制节点借助redis内存数据库依据需求向各爬虫节点分发爬取任务,在获得了定向公开信息的相关数据后,移交给MongoDB集群,对数据进行集群存储数据存储器进行处理。
步骤12)反爬虫技术升级:设置随机休眠时间,在一定的时间间隔内,随机发出请求,避免频繁请求被限制工P;设置IP地址池,随机变换IP地址。
上述方法中,所述步骤2)主要包括:
步骤21)数据清洗:根据信息来源网站的相关信息页面排名,采用抽样调查的方式,筛选出前M个有效的强关联数据信息,再反馈调整之前的数据采集的任务,避免爬取无效、冗余的信息,提高下一步骤的识别效率和准确度。
步骤22)实体识别:大规模无标注语料中自动学习到句法和语义信息转化为词向量,然后进入Bi-LSTM模型,再将预测结果进行修正之后加入训练集中,进行二次模型地训练,得出类似于(王某,地址,工作单位),社交关系方面(王某,某种联系,李某)等结果,存入实体属性数据库。
上述方法中,所述步骤3)的结构挖掘包括:
步骤31)定义用户节点边特征:比如谁转发过谁的消息(who-follow-who),谁在消息中提及谁(who-mention-who),将相关消息的主题提取出来,划分为指定大类中,形成基于某种特征的社群。
步骤32)构建社群图:根据上一步骤形成的节点与边,构建如图2的社群图;
上述方法中,所述步骤4)涉及的步骤包括:
41)计算用户节点间的结构相似度
42)社群图结构相似度算法
43)用户节点相关系数
上述方法中,所述步骤41)中的社群内用户节点结构相似度为:
确定不同邻域大小的图中每个顶点对之间的结构相似性,这提供了更多信息来评估层次结构中每个层次的结构相似性,具体算法如下。
G=(V,E)表示由用户节点集合V和边集合E构成的无权重的无向网络,其中n表示图中节点的数量。假设Rk(u)表示在图G中距离u节点恰好为k跳的节点集合,Rk(v)表示在图G中距离v为k跳的节点的集合;s(S)表示集合S的有序度序列,k≥0。
通过比较u和v以及k跳内环的有序的度序列,我们增加一个层次结构来计算结构相似性。令fk(u,v)表示分别以u和v为中心节点扩展k跳邻居形成社群图中的u,v的结构距离,并采用动态时间规整算法来度量两个有序度序列之间的距离和对序列片段进行松散度比较:
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0
Figure BDA0001854521110000051
其中,g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u)),s(Rk(v))之间的距离;d(a,b)表示距离函数,其中,a,b分别为两个有序度序列的元素;max(a,b)表示取a,b中的最大值,min(a,b)表示取a,b中的最小值。
上述方法中,所述步骤42)中的社群图结构相似度算法可分为:
社群图的结构相似度算法:构造一个加权多层图,对节点之间的结构相似性进行编码。其中网络中的所有节点都存在于每一层中,每层内每个节点对之间的边权重Wk(u,v)与其结构相似性成反比:
Figure BDA0001854521110000061
其中,k*为在无向图G中所能取到的k的最大值。
使用多层图为每个节点生成上下文pk(u,v)。具体而言,多层图上的偏向随机游走用于生成节点序列。这些序列可能包括结构更类似的节点,最终得到社群图的结构相似度:
Figure BDA0001854521110000062
上述方法中,所述步骤43)中的用户节点相关系数计算方法为:
定义m,n为两个无直接边相连的两个用户节点,m∈G(u),n∈G(v),u,v直接相连;d(u,v)为用户节点u和v在图中相似距离,gk(u,m)表示表示所述加权多层图的第k层中m距离u的跳数;定义m和n之间的相关系数为η,η越大表示m和n之间的潜在关系越近,就能够更精确的描述跨社群用户间潜在关系及相似程度;
η的计算公式为:η(m,n)=α*d(m,n)+(1-α)(gk(u,m)+gl(v,n))。
上述方法中,所述跨社群用户关系分析方法具体为:
根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;采用KNN算法选取G1中与用户u关系最紧密的用户节点,显然这些用户节点与v之间无连接关系,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:
(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;
(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;
(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;
(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;
(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户节点u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户;
所述用户间的结构身份相似度的计算方法为:
将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展加权多层图的第k层邻居,得到用户社群G(u),以v为中心节点扩展加权多层图的第k层邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0
Figure FDA0003236417160000011
其中,Rk(u)表示G中距离u为加权多层图的第k层的节点的集合,Rk(v)表示在G中距离v为加权多层图的第k层的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u)),s(Rk(v))之间的距离;d(a,b)表示距离函数,其中,a为s(Rk(u))中的元素,b为s(Rk(v))中的元素;max(a,b)表示取a,b中的最大值,min(a,b)表示取a,b中的最小值;
所述社群图结构相似度的计算方法为:
(3-1)构造一个加权多层图,所述用户社群图中的所有节点存在于加权多层图的每一层中,定义加权多层图的第k层中u和v之间边的权重为Wk(u,v),
Figure FDA0003236417160000021
k*为在无向图G中所能取到的k的最大值;
(3-2)根据步骤(3-1)计算出的权重,计算加权多层图的第k层的社群图结构相似度为:
Figure FDA0003236417160000022
所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为:
设m和n为两个无直接边相连的用户节点,m∈G(u),n∈G(v);d(u,v)用户节点u和v在图G中相似距离,gk(u,m)表示所述加权多层图的第k层中m距离u的跳数;定义m和n之间的相关系数为η,η越大表示m和n之间的潜在关系越近;η的计算公式为:η(m,n)=α*d(m,n)+(1-α)(gk(u,m)+gl(v,n)),α为常数系数;
所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为:
借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫,从网页或社交网站上爬取匿名用户的公开数据;
所述属性包括:用户ID,姓名,邮箱,电话,从事工作类型,工作单位,好友,加入的群组,所在城市,签到过的地点,兴趣爱好,教育背景。
CN201811310355.5A 2018-11-05 2018-11-05 一种基于弱可信数据的跨社群潜在人物关系分析方法 Active CN109492027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811310355.5A CN109492027B (zh) 2018-11-05 2018-11-05 一种基于弱可信数据的跨社群潜在人物关系分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811310355.5A CN109492027B (zh) 2018-11-05 2018-11-05 一种基于弱可信数据的跨社群潜在人物关系分析方法

Publications (2)

Publication Number Publication Date
CN109492027A CN109492027A (zh) 2019-03-19
CN109492027B true CN109492027B (zh) 2022-02-08

Family

ID=65694984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811310355.5A Active CN109492027B (zh) 2018-11-05 2018-11-05 一种基于弱可信数据的跨社群潜在人物关系分析方法

Country Status (1)

Country Link
CN (1) CN109492027B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232834B (zh) * 2020-09-29 2024-04-26 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN112559639B (zh) * 2020-11-30 2022-08-19 武汉烽火众智数字技术有限责任公司 一种基于图谱结构的跨境组织分析方法
CN112650932B (zh) * 2021-01-04 2022-09-23 重庆邮电大学 一种融合社交和位置关系的神经协同过滤poi推荐方法
CN115858875B (zh) * 2023-02-10 2023-05-23 武汉中科通达高新技术股份有限公司 基于频繁图模式挖掘的企业员工层级关系发现方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606787B1 (en) * 2010-09-15 2013-12-10 Google Inc. Social network node clustering system and method
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN106708922A (zh) * 2016-10-21 2017-05-24 天津海量信息技术股份有限公司 一种基于海量数据的人物关系图谱分析方法
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107741999A (zh) * 2017-09-01 2018-02-27 美林数据技术股份有限公司 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731962B (zh) * 2015-04-03 2018-10-12 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN108304380B (zh) * 2018-01-24 2020-09-22 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606787B1 (en) * 2010-09-15 2013-12-10 Google Inc. Social network node clustering system and method
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN106708922A (zh) * 2016-10-21 2017-05-24 天津海量信息技术股份有限公司 一种基于海量数据的人物关系图谱分析方法
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107741999A (zh) * 2017-09-01 2018-02-27 美林数据技术股份有限公司 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DeepWalk: online learning of social representations;Bryan Perozzi等;《Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining》;20140831;第701-710页 *
node2vec: Scalable Feature Learning for Networks;Aditya Grover等;《Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining》;20160831;第855-864页 *
节点相似度标签传播在社会网络中的应用研究;夏磊等;《计算机工程与应用》;20141130;第50卷(第14期);第103-109页 *
面向社会网络应用的人物关系抽取方法研究;洪军建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160815(第08期);第42-76页 *

Also Published As

Publication number Publication date
CN109492027A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN109492027B (zh) 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
Compton et al. Geotagging one hundred million twitter accounts with total variation minimization
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
McKenzie et al. Weighted multi-attribute matching of user-generated points of interest
US10437868B2 (en) Providing images for search queries
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN104615687B (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN105045875B (zh) 个性化信息检索方法及装置
US20100241647A1 (en) Context-Aware Query Recommendations
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
Ghahremanlou et al. Geotagging twitter messages in crisis management
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN111382276B (zh) 一种事件发展脉络图生成方法
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
US20130204835A1 (en) Method of extracting named entity
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
Han et al. Linking social network accounts by modeling user spatiotemporal habits
CN112527981A (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN110674313A (zh) 一种基于用户日志动态更新知识图谱的方法
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant