CN111680498A - 实体消歧方法、装置、存储介质及计算机设备 - Google Patents
实体消歧方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111680498A CN111680498A CN202010418304.5A CN202010418304A CN111680498A CN 111680498 A CN111680498 A CN 111680498A CN 202010418304 A CN202010418304 A CN 202010418304A CN 111680498 A CN111680498 A CN 111680498A
- Authority
- CN
- China
- Prior art keywords
- expert
- relation
- relationship
- entity
- disambiguated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种实体消歧方法、装置、存储介质及计算机设备,涉及信息技术领域,主要目的在于通过在创建专家关系图谱时,引入机构字段,并通过社交网络关系分析技术对构建的待消歧子网进行处理,从而最大化实现知识图谱中实体的消歧处理,减少后期消歧的工作量,提高知识图谱构建的效率,节约人力资源。所述方法包括:根据合作关系模型以及预先创建的专家‑机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。本发明适用于实体的消歧。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种实体消歧方法、装置、存储介质及计算机设备。
背景技术
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。而专家关系图谱是通过对大量文献的挖掘、抽取、集成等多种途径获取专家相关信息,对其进行标准化处理,使用相关算法建立专家、机构、相关研究等关系网络。
目前,通常通过专家合作关系为基础构建专家关系图谱。然而,通过这种方法构建的专家关系图谱存在大量的同名专家节点,例如专家名字为P的所有同名专家发表论文M篇,则需要进行处理的专家歧义对将达到C2m,后期人工进行消歧的工作量巨大,导致知识图谱构建的效率降低,且耗费大量的人力资源。
发明内容
有鉴于此,本发明提供一种实体消歧方法、装置、存储介质及计算机设备,主要目的在于通过在创建专家关系图谱时,引入机构字段,并通过社交网络关系分析技术对构建的待消歧子网进行处理,从而最大化实现知识图谱中实体的消歧处理,减少后期消歧的工作量,提高知识图谱构建的效率,节约人力资源。
依据本发明一个方面,提供了一种实体消歧的方法,包括:
根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;
利用整体分析法对所述专家关系图谱进行消歧处理。
进一步地,所述根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱,包括:
提取所述专家-机构关系表中各实体字段信息和关系信息;
将所述实体字段信息添加至所述合作关系模型的实体集合中;
将所述关系信息添加至所述合作关系模型的关系集合中,以构建所述专家关系图谱。
进一步地,所述利用整体分析法对所述专家关系图谱进行消歧处理,包括:
根据选取的待消歧专家节点构建待消歧子网;
利用社交网络分析技术对所述待消歧子网进行消歧处理。
进一步地,所述预先创建专家-机构关系表,包括:
根据获取的专家信息与机构信息,判断所述专家与机构是否为多对多的对应关系;
若否,则直接提取所述专家与机构的对应关系,并保存至所述专家-机构关系表;
若是,则只提取第一专家与第一机构的对应关系,并保存至所述专家-机构关系表。
进一步地,所述利用整体分析法对所述专家关系图谱进行消歧处理之前,所述方法还包括:
基于相似度聚类算法对获取的待消歧实体进行消歧处理。
进一步地,所述构建专家关系图谱,包括:
利用gephi工具、所述合作关系模型以及所述预先创建的专家-机构关系表,生成专家关系图谱。
依据本发明二个方面,提供了一种实体消歧装置,包括:
构建单元,用于根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;
处理单元,用于利用整体分析法对所述专家关系图谱进行消歧处理。
进一步地,所述构建单元,包括:
提取模块,用于提取所述专家-机构关系表中各实体字段信息和关系信息;
添加模块,用于将所述实体字段信息添加至所述合作关系模型的实体集合中;
所述添加模块具体还用于将所述关系信息添加至所述合作关系模型的关系集合中,以构建所述专家关系图谱。
进一步地,所述处理单元包括:
构建模块,用于根据选取的待消歧专家节点构建待消歧子网;
处理模块,用于利用社交网络分析技术对所述待消歧子网进行消歧处理。
进一步地,所述构建单元包括:
判断模块,用于根据获取的专家信息与机构信息,判断所述专家与机构是否为多对多的对应关系;
第一提取模块,用于若是,则只提取第一专家与第一机构的对应关系,并保存至所述专家-机构关系表;
第二提取模块,用于若否,则直接提取所述专家与机构的对应关系,并保存至所述专家-机构关系表。
进一步地,所述装置还包括:
聚类单元,用于基于相似度聚类算法对获取的待消歧实体进行消歧处理。
进一步地,所述构建单元具体还用于利用gephi工具、所述合作关系模型以及所述预先创建的专家-机构关系表,生成专家关系图谱。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。
本发明提供一种实体消歧方法、装置、存储介质及计算机设备,与现有技术通过专家合作关系为基础构建专家关系图谱相比,本发明通过将根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。从而能够通过在创建专家关系图谱时,引入机构字段,并通过社交网络关系分析技术对构建的待消歧子网进行处理,从而最大化实现知识图谱中实体的消歧处理,减少后期消歧的工作量,提高知识图谱构建的效率,节约人力资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种实体消歧方法流程图;
图2示出了本发明实施例提供的一种专家-机构关系表的创建流程示意图;
图3示出了本发明实施例提供的一种专家关系图谱示意图;
图4示出了本发明实施例提供的一种待消歧子网构建示意图;
图5示出了本发明实施例提供的一种实体消歧装置的结构示意图;
图6示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,通常通过专家合作关系为基础构建专家关系图谱。然而,通过这种方法构建的专家关系图谱存在大量的同名专家节点,例如专家名字为P的所有同名专家发表论文M篇,则需要进行处理的专家歧义对将达到后期人工进行消歧的工作量巨大,导致知识图谱构建的效率降低,且耗费大量的人力资源。
为了解决上述问题,本发明实施例提供了一种实体消歧方法,如图1所示,所述方法包括:
101、根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱。
其中,所述合作关系模型可以为现有技术中通过专家的合作关系生成专家关系图谱的图模型,具体可以如下所示:
GM={V,E}
V={v1,v1,v1,v1,v1,v1,v1}
E={(x,y)|x∈V,y∈V,x≠y}
vi={Identifier,Name,Publicationsi}
Publicationsi={pi1,pi1,pi1,pi1,pi1,pi1,}
其中,GM可以表示所述专家关系图谱,V可以表示专家节点集合,E可以表示合作关系集合,每个实体vi可以包括Identifier,Name和Publications三个字段,所述Identifier可以表示标识符,Name可以表示专家名称,所述Publications可以表示文献名称,每个实体对应的文献名称可以为一个或者多个。
所述专家-机构关系表具体可以为预先建立的专家与对应机构的关系集合,通过所述专家-机构关系表可以更加精准的区分同名专家,使构建的专家关系图谱中存在的同名歧义更少,减少后期消歧工作量。需要说明的是,现有技术中构建专家关系图谱时,一般只通过专家的合作关系来构建图结构,而舍弃独著专家的论文,图的顶点表示专家,边代表合著关系,专家属性包括论文标题、关键词等几个字段。这样的算法实现相对比较简单,但是由于生成的专家关系图谱丧失了机构这个重要属性,也会将不同机构同一名字的两位专家合并成一个顶点,给下一步的同名专家拆分增加工作量。对于本发明实施例,将机构信息引入专家关系图谱的构建过程,不仅丰富了专家关系网络的属性信息,更重要的是能够减少同名拆分环节的工作量。
102、利用整体分析法对所述专家关系图谱进行消歧处理。
其中,所述整体分析法是相对于现有的路径分析法而言的。现有的路径分析法,根据专家间的合作关系以及专家与机构间的隶属关系构造实体关系图,采用广度优先搜索策略搜索图中两两同名专家间的有效路径;根据有效路径长度、数目及路径上边的类型,计算两个同名专家间的连接强度,并将其与阈值进行比较,实现同名消歧。而本发明实施例中所述的整体分析法,则可以通过抽取同名专家之间的特征子网,并对所述特征子网进行社交网络分析,从而实现同名消歧。具体地,在初步构建专家关系图谱之后,可以利用整体分析的方法,抽取待消歧子网,利用社会网络分析技术对所述待消歧子网进行处理,从而实现同名消歧。
进一步的,为了更好的说明上述实体消歧方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
在本发明的一个可选实施例,所述步骤101具体可以包括:提取所述专家-机构关系表中各实体字段信息和关系信息;将所述实体字段信息添加至所述合作关系模型的实体集合中;将所述关系信息添加至所述合作关系模型的关系集合中,以构建所述专家关系图谱。
其中,所述合作关系模型以及所述专家-机构关系表上文已经说明,此处不再赘述。具体地,提取所述专家-机构关系表,可以得到所述专家实体字段信息,如姓名字段信息、著作字段信息和机构字段信息等。另外,还可以提取所述专家-机构关系表中的专家-机构关系。将所述专家实体字段信息、机构实体字段信息添加到所述合作关系模型中的实体集合中,并将所述专家-机构关系信息添加到所述合作关系模型中的关系集合中,从而构建可视化的专家关系图谱。本发明实施例通过利用图模型以及预先构建的专家-机构关系表构建专家关系图谱,能够解决现有文献中专家实体与机构实体无法一一对应的问题,从而可以快速生成专家关系图谱,提高生成效率。
在本发明的一个可选实施例,所述步骤102具体可以包括:根据在所述专家关系图谱中获取的待消歧实体,构建待消歧子网;利用社交网络分析技术对所述特征子网进行消歧处理。
其中,所述待消歧子网可以基于待消歧两实体之间的最短路径进行构建。在专家关系图谱中,路径存在与否是两个实体关联性的反映,而最短路径更是能直接反映关联性的强弱,因此本发明实施例通过最短路径原理来进行待消歧子网构建。具体地,假设待消歧的两个专家节点最短路径为n,待消歧子网最大路径为w,w>n,则待消歧子网可以为由n到w之间所有的路径构成的网络,其中w的值可以由两个待消歧实体的度数和发文量决定。w的设置决定了待消歧子网的规模,而规模选择是否合适是决定消歧准确率重要的前提,如果子网规模设置过小,则可能无法把该有的相似关系提取出来,如果设置过大则会消耗很大的计算资源。本发明实施例根据大量样本分析子网规模与路径之间的关系,如图4所示,提供了两个典型样本的待消歧子网抽取示意图,图中两个样本子网起始的最短路径都为4,m1和m2为待消歧的两个实体,图a到d分别为路径设置为4、5、6、7时的待消歧子网规模变化情况;图e到h代表n1和n2两个实体之间的路径设置为4、5、6、7时的待消歧子网规模变化情况。m1和m2构建的待消歧子网规模随着路径增加迅速变大,当路径为5时可以满足特征提取的需求,而n1和n2构建的待消歧子网规模随路径增加变化不明显,路径设置为5、6、7时都没有明显变化。对于本发明实施例,由于路径每增加一个专家节点,对应的待消歧子网计算速度就会增加大量时间,如图4中待消歧子网c计算时间为30秒,而待消歧子网d的路径增加了一个专家节点,计算时间约为5分钟,因此,可以设置w-n=1、2、3这三种情况,即构建最短路径为n,最长路径分别为n+1、n+2、n+3的待消歧子网,所述最长路径具体取值可以根据w设定。
对于本发明实施例,所述待消歧子网规模变化由两个待消歧实体的度数和发文量决定。其中,所述待消歧实体的度数可以为连接所述实体的边的数量,所述发文量可以为所述实体每个边对应的文献数量。所述待消歧子网规模变化的具体公式可以包括:
M=Dx*0.7+Fx*0.3
其中,M可以表示待消歧子网规模变化,Dx可以表示对两个待消歧实体的度数进行均值归一化处理,Fx可以表示对两个待消歧实体的发文量进行均值归一化处理,其中Dx的权重系数可以为0.7,Fx的权重系数可以为0.3。
对于本发明实施例,所述待消歧子网的最长路径可以通过所述待消歧子网规模变化量决定。其中,所述待消歧子网规模变化量可以为上述的M值。具体地,所述待消歧子网最长路径的具体公式可以包括:
其中,w可以为待消歧子网最长路径,M可以为所述待消歧子网规模变化量,0.3和0.5可以为预设的待消歧子网规模变化阈值,所述权重系数可以根据经验设置,本发明实施例不做明确规定。
在本发明的又一个可选实施例,所述步骤101具体可以包括:根据获取的专家信息与机构信息,判断所述专家与机构是否为多对多的对应关系;若是,则只提取第一专家与第一机构的对应关系,并保存至专家-机构关系表。
其中,所述第一专家具体可以是指所述文献署名中位置顺序排列为第一个的专家,同理所述第一机构可以是指所述文献署名中位置顺序排列为第一个的机构。所述专家信息与机构信息可以从文献中获取,所述专家信息可以包括专家名称,所述机构信息可以包括机构名称,具体可以通过爬虫软件在文献数据库中爬取专家信息与机构信息。所述多对多的对应关系具体可以包括:文献中署名的专家名称为2个及以上,对应的机构名称也为2个及以上。例如,对于一篇文献,署名的专家名称包括张三,李四,王五,赵六,对应的机构名称包括机构1、机构2、机构3,由于专家名称与机构名称数量不相等,因此无法直接一一对应匹配,但是,按照一般文献要求,第一专家和第一机构是具有正确的对应关系,即张三与机构1必然存在对应关系,但是李四可能属于机构2、也可能属于机构3,因此,本发明实施例对于这种专家名称与机构名称多对多的情况,只提取第一专家名称以及第一机构名称。需要说明的是,对于本发明实施例,由于实现的是实体的消歧过程,因此,本发明实施例所涉及的专家都需要至少存在一篇第一专家署名的文献,也就是说,即使一位作者拥有多篇文献署名,但是没有一篇第一专家的文献署名,也不能算作本申请的专家范畴。这样可以保证本发明实施例范围内的所有专家与机构的对应关系都能够被采集。具体地,若判断所述专家名称与所述机构名称属于多对多的对应关系,则只提取第一专家名称与第一机构名称的对应关系,并保存至所述专家-机构关系表。
对于本发明实施例,所述步骤101具体还可以包括:若否,则直接提取所述专家与机构的对应关系,并保存至所述专家-机构关系表。
其中,若判断所述专家名称与机构名称不是多对多的关系,则其只可能存在三种关系,即1:1、1:n、n:1三种关系,如图2所示,而对于这三种关系,都可以唯一地确定专家名称与机构名称的对应关系,例如:对于一篇文献,1)若只有一个署名专家张三,且只有一个机构1,则二者具有唯一对应关系;2)若只有一个署名专家张三,且具有两个机构,机构1和机构2,则也可以确定张三同时属于机构1和机构2,此种情况可以出现在所述专家求学阶段或者就职单位变迁时;3)若有两个署名专家,张三、李四,且只有一个机构1,则可以确定张三、李四属于机构1。因此,当判断所述专家名称与机构名称不属于多对多的关系时,可以直接提取专家与机构的对应关系,保存至所述专家-机构关系表。
通过上述步骤,在预先建立的文献数据库中爬取每一篇文献中的专家信息及机构信息,并将对应关系保存至所述专家-机构关系表中。当遍历完所有的文献之后,即可以获取数据库中所有专家与机构的对应关系。构建完成所述专家-机构关系表,就可以依据该表解决上述n:n条件下专家与机构的匹配问题,首先获取专家字段的第一位专家,在专家与机构关系表中查找该专家所对应的机构列表,再与该篇论文的所有机构进行取交集操作,得到的结果就是该专家对应的机构,以此类推,获取其余专家对应的机构信息。
需要说明的是,现有的通过合作关系构建专家关系图谱的方法会将独著专家的论文舍弃掉,只使用合著专家的论文,也就是说,现有技术中舍弃了上述的1:1和1:n两种情况下的专家文献,导致构建的专家关系图谱缺少了很多实体,造成图谱的不完整;而本发明实施例在现有技术的基础上加入了机构名称的字段,并通过创建专家-机构关系表,从而可以实现对独著实体的提取。
在本发明的再一个可选实施例,所述方法还包括:基于相似度聚类算法对获取的待消歧实体进行消歧处理。
具体地,所述基于相似度聚类算法对获取的待消歧实体进行消歧处理的具体过程可以包括:S1:利用Word2Vec工具将实体的专家名以及合作关系这2个属性特征分别训练成为词向量,且将每个词向量均归一化为(0,1)之间的小数,将2个归一化后的小数组成特征向量用来表示该实体;S2:取所有同名的实体,通过计算任意两个同名的实体之间的相似度,并与相似度阈值比较,取大于相似度阈值的最大相似度值,将最大相似度值所对应的两个同名的实体聚类为一簇,得到一个实体集,计算相似度的公式具体可以为:
其中,Sij可以表示两个同名实体ai与实体aj之间的相似度,simattr()可以表示相似度计算函数;S3:取与所述实体集同名的其他任一实体,若与实体集中任一个实体之间的相似度大于相似度阈值,则将该实体加入该实体集;S4:将剩余的同名实体,按步骤S2和S3进行处理,直到对所有同名实体匹配到相应的实体集;S5:将同一实体集中的所有实体合并为同一个实体。
在本发明的再一个可选实施例,所述步骤101具体还包括:利用gephi工具、所述合作关系模型以及所述预先创建的专家-机构关系表,生成专家关系图谱。
其中,所述gephi工具是一款开源免费跨平台基于JVM的复杂网络分析软件,,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。对于本发明实施例,利用所述合作关系模型,以及预先创建的专家-机构关系表,可以生成对应的专家关系图谱,此时生成的专家关系图谱是存在专家名称歧义的专家关系图谱,需要后续通过本发明实施例提供的消歧子网抽取方法进行消歧处理,从而得到消歧后的专家关系图谱。
进一步地,作为图1的具体实现,本发明实施例提供了一种实体消歧装置,如图5所示,所述装置包括:构建单元21、处理单元22。
所述构建单元21,可以用于利用整体分析法对所述专家关系图谱进行消歧处理;
所述处理单元22,可以用于利用整体分析法对所述专家关系图谱进行消歧处理。
进一步地,所述构建单元21,包括:
提取模块211,可以用于提取所述专家-机构关系表中各实体字段信息和关系信息;
添加模块212,可以用于将所述实体字段信息添加至所述合作关系模型的实体集合中;
所述添加模块212具体还可以用于将所述关系信息添加至所述合作关系模型的关系集合中,以构建所述专家关系图谱。
进一步地,所述处理单元22包括:
构建模块221,可以用于根据在所述专家关系图谱中获取的待消歧实体,构建待消歧子网;
处理模块222,可以用于利用社交网络分析技术对所述待消歧子网进行消歧处理。
进一步地,所述装置还包括:
判断模块23,可以用于根据获取的专家信息与机构信息,判断所述专家与机构是否为多对多的对应关系;
提取单元24,可以用于若是,则只提取第一专家与第一机构的对应关系,并保存至所述专家-机构关系表;
所述提取单元24具体还可以用于若否,则直接提取所述专家与机构的对应关系,并保存至所述专家-机构关系表。
进一步地,所述装置还包括:
聚类单元25,可以用于基于相似度聚类算法对获取的待消歧实体进行消歧处理。
进一步地,所述构建单元21具体还可以用于利用gephi工具、所述合作关系模型以及所述预先创建的专家-机构关系表,生成专家关系图谱。
需要说明的是,本发明实施例提供的一种实体消歧装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。
基于上述如图1所示方法和如图5所示装置的实施例,本发明实施例还提供了一种计算机设备,如图6所示,处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33、以及通信总线34。其中:处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口34,用于与其它设备比如用户端或其它服务器等的网元通信。处理器31,用于执行程序,具体可以执行上述实体消歧方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器33,用于存放程序。存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作:根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。
通过本发明的技术方案,能够通过将根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;利用整体分析法对所述专家关系图谱进行消歧处理。从而能够通过在创建专家关系图谱时,引入机构字段,并通过社交网络关系分析技术对构建的待消歧子网进行处理,从而最大化实现知识图谱中实体的消歧处理,减少后期消歧的工作量,提高知识图谱构建的效率,节约人力资源。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种实体消歧方法,其特征在于,包括:
根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;
利用整体分析法对所述专家关系图谱进行消歧处理。
2.根据权利要求1所述的方法,其特征在于,所述根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱,包括:
提取所述专家-机构关系表中各实体字段信息和关系信息;
将所述实体字段信息添加至所述合作关系模型的实体集合中;
将所述关系信息添加至所述合作关系模型的关系集合中,以构建所述专家关系图谱。
3.根据权利要求1所述的方法,其特征在于,所述利用整体分析法对所述专家关系图谱进行消歧处理,包括:
根据在所述专家关系图谱中获取的待消歧实体,构建待消歧子网;
利用社交网络分析技术对所述待消歧子网进行消歧处理。
4.根据权利要求1所述的方法,其特征在于,所述根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱之前,所述方法还包括:
根据获取的专家信息与机构信息,判断所述专家与机构是否为多对多的对应关系;
若是,则只提取第一专家与第一机构的对应关系,并保存至所述专家-机构关系表;
若否,则直接提取所述专家与机构的对应关系,并保存至所述专家-机构关系表。
5.根据权利要求1所述的方法,其特征在于,所述利用整体分析法对所述专家关系图谱进行消歧处理之前,所述方法还包括:
基于相似度聚类算法对获取的待消歧实体进行消歧处理。
6.根据权利要求1所述的方法,其特征在于,所述构建专家关系图谱,包括:
利用gephi工具、所述合作关系模型以及所述预先创建的专家-机构关系表,生成专家关系图谱。
7.一种实体消歧装置,其特征在于,包括:
构建单元,用于根据合作关系模型以及预先创建的专家-机构关系表,构建专家关系图谱;
处理单元,用于利用整体分析法对所述专家关系图谱进行消歧处理。
8.根据权利要求7所述的装置,其特征在于,所述处理单元包括:
构建模块,用于根据在所述专家关系图谱中获取的待消歧实体,构建待消歧子网;
处理模块,用于利用社交网络分析技术对所述待消歧子网进行消歧处理。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-6中任一项所述的实体消歧方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的实体消歧对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418304.5A CN111680498B (zh) | 2020-05-18 | 2020-05-18 | 实体消歧方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418304.5A CN111680498B (zh) | 2020-05-18 | 2020-05-18 | 实体消歧方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680498A true CN111680498A (zh) | 2020-09-18 |
CN111680498B CN111680498B (zh) | 2023-04-07 |
Family
ID=72434137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010418304.5A Active CN111680498B (zh) | 2020-05-18 | 2020-05-18 | 实体消歧方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680498B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905589A (zh) * | 2021-01-27 | 2021-06-04 | 上海市研发公共服务平台管理中心 | 科技人才数据加工方法、系统、存储介质及终端 |
CN113554175A (zh) * | 2021-09-18 | 2021-10-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN114385829A (zh) * | 2022-01-12 | 2022-04-22 | 北京百度网讯科技有限公司 | 知识图谱创建方法、装置、设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653590A (zh) * | 2015-12-21 | 2016-06-08 | 青岛智能产业技术研究院 | 一种中文文献作者重名消歧的方法 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN109684625A (zh) * | 2018-10-31 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 实体处理方法、装置和存储介质 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
CN110969019A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 人名消歧的方法及装置 |
-
2020
- 2020-05-18 CN CN202010418304.5A patent/CN111680498B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653590A (zh) * | 2015-12-21 | 2016-06-08 | 青岛智能产业技术研究院 | 一种中文文献作者重名消歧的方法 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN110969019A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 人名消歧的方法及装置 |
CN109684625A (zh) * | 2018-10-31 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 实体处理方法、装置和存储介质 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
Non-Patent Citations (9)
Title |
---|
BAICHUAN ZHANG , NOMAN MOHAMMED, VACHIK S. DAVE , MOHAMMA: "Feature Selection for Classification under Anonymity Constraint", 《TRANSACTIONS ON DATA PRIVACY》 * |
TASLEEM ARIF;M. ASGER;MAJID BASHIR MALIK;RASHID ALI: "Extracting academic social networks among conference participants", 《 2015 EIGHTH INTERNATIONAL CONFERENCE ON CONTEMPORARY COMPUTING (IC3)》 * |
刘宏涛等: "基于位置的机构合作网络构建方法研究", 《地理信息世界》 * |
周湘超等: "专家知识图谱构建研究", 《电脑知识与技术》 * |
尚玉玲等: "基于合作作者与隶属机构信息的同名排歧方法", 《计算机科学》 * |
展金梅等: "基于聚类的人名消歧研究综述", 《现代信息科技》 * |
李子茂,聂梦妍,尹帆,陈思敏: "BSAED:一种基于双向语义关联的实体消歧算法", 《中南民族大学学报(自然科学版)》 * |
江瑾: "融合社会关系的属性图聚类专家消歧方法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
马江涛: "基于社交网络的知识图谱构建技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905589A (zh) * | 2021-01-27 | 2021-06-04 | 上海市研发公共服务平台管理中心 | 科技人才数据加工方法、系统、存储介质及终端 |
CN113554175A (zh) * | 2021-09-18 | 2021-10-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN113554175B (zh) * | 2021-09-18 | 2021-11-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN114385829A (zh) * | 2022-01-12 | 2022-04-22 | 北京百度网讯科技有限公司 | 知识图谱创建方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111680498B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
Cavallari et al. | Embedding both finite and infinite communities on graphs [application notes] | |
CN111680498B (zh) | 实体消歧方法、装置、存储介质及计算机设备 | |
WO2017137000A1 (zh) | 对描述同一实体的不同实例进行合并的方法、装置及设备 | |
Tang et al. | Identifying evolving groups in dynamic multimode networks | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
CN110704743A (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN109840533B (zh) | 一种应用拓扑图识别方法及装置 | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
Sun et al. | Distributed graph clustering and sparsification | |
CN110162637B (zh) | 信息图谱构建方法、装置及设备 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN103838803A (zh) | 一种基于节点Jaccard相似度的社交网络社团发现方法 | |
CN109408681A (zh) | 一种字符串匹配方法、装置、设备及可读存储介质 | |
Xia et al. | Effectively identifying the influential spreaders in large-scale social networks | |
CN112084781B (zh) | 一种标准术语确定方法、装置及存储介质 | |
CN111400448A (zh) | 对象的关联关系分析方法及装置 | |
Lin et al. | Automatic tagging web services using machine learning techniques | |
Epasto et al. | Massively parallel and dynamic algorithms for minimum size clustering | |
Gao et al. | Accelerating graph mining algorithms via uniform random edge sampling | |
CN109948040A (zh) | 对象信息的存储、推荐方法及系统、设备和存储介质 | |
CN102708104B (zh) | 对文档排序的方法和设备 | |
Liu et al. | Robust Multi-Relational Clustering via ℓ1-Norm Symmetric Nonnegative Matrix Factorization | |
CN112883703B (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |