CN110162591A - 一种面向数字教育资源的实体对齐方法及系统 - Google Patents
一种面向数字教育资源的实体对齐方法及系统 Download PDFInfo
- Publication number
- CN110162591A CN110162591A CN201910431436.9A CN201910431436A CN110162591A CN 110162591 A CN110162591 A CN 110162591A CN 201910431436 A CN201910431436 A CN 201910431436A CN 110162591 A CN110162591 A CN 110162591A
- Authority
- CN
- China
- Prior art keywords
- entity
- resource
- similarity
- digital education
- knowledge point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。
Description
技术领域
本发明涉及一种数字教育资源实体对齐的方法及系统,属于数字教育资源领域。
背景技术
随着当今技术的发展,基于网络的数字教育资源变得愈加丰富,人们可以通过网络不受地域限制得方便获取大量符合自身需求的优质教育资源,极大得提高了自身的主观能动性。如今,个性化的数字教育资源服务已成为传统教育模式的有力补充,成为一种不可忽视的有效教育渠道。
然而随着数据量的增长,现有的数字化教育资源服务暴露出一些缺点:1)可获取的资源总量过多,导致学生可能需要消耗大量时间进行信息筛选,无法快速获取有效资源;2)网络数字教育资源有着标准不统一、结构不一致,内容分散片面等问题,导致资源分发用户体验不佳。因此,加强数字教育资源整合力度,提高信息资源的融合水平,构建高质量的数字教育资源库,从而进一步提高知用户体验是数字教育资源服务中亟待解决的重要问题之一。
实体对齐是知识融合的关键技术支撑。实体对齐相关问题从数据库诞生之日起就被人们所重视,从20世纪六七十年代提出到现在,实体匹配技术也经历了一系列的发展变化。知识库实体对齐是实体匹配发展到Web3.0后,在不同知识库的链接过程中提出的一种问题,这个问题可以通过将经典的实体匹配技术应用到知识库领域,结合知识库的特点进行实体匹配来解决。
实体对齐算法可以分为成对实体对齐和集体实体对齐。成对实体对齐方法,即将实体对齐问题看作是根据属性相似性评分判断待匹配实体对匹配与否的分类问题,Fellegi和Sunter在1969年就提出了该类实体对齐分类方法的概率模型。后来,Winkler等人在此基础上进行大量研究,构建出一种实体对齐概率模型,在实体对齐中取得较好匹配效果。该模型使用属性值的近似比较代替相等与否的二值比较,将待匹配属性值出现的频率代入到属性值相等概率的计算中,并结合贝叶斯网络对属性的相关性建模,并使用最大估计算法对参数进行估计。随着基于Fellegi-Sunter模型的概率实体对齐方法取得的大量的研究成果,机器学习及统计学习的快速发展,很多机器学习方法也应用到实体对齐领域,并取得了巨大的进展,但仍属于成对实体对齐。集体实体对齐,是在成对实体对齐基础上将实体间关系考虑在内,计算实体对间的结构相似性,综合考虑属性相似性与结构相似性来匹配实体对。Suchanek等人提出了一种新型的基于概率的全局算法,PARIS算法。该算法在不需要任何参数调节的条件下不仅能够有效对齐实体还对齐了实体的类别、属性和关系。常规实体对齐做法需要遍历两个知识库中所有实体对,计算复杂度随着知识库规模二次增长,因此,现有知识库实体对齐研究中存在知识库实体量大,实体对齐复杂度高的挑战。当前提高对齐效率的主要方法是引入数据库中分区技术构建知识库实体的分区索引体系,有效加快实体对齐速度,提高效率。
在语义万维网发展的推动下,针对多源知识库实体对齐国内外开展了很多相关工作,但是大多适用于英文知识库,对于中文知识库的研究较少。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。本发明实体对齐方法准确高效,对海量的网络数字教育资源进行有效融合,解决了数字教育资源重复冗余、分布散乱等问题,提高数字教育资源服务质量。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向数字教育资源的实体对齐方法,包括以下步骤:
步骤1,对数字化教育资源进行分块。
步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。
步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签。
步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej}。最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en}。若E={},则将该资源直接加入资源库。
步骤5,计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性:
其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table)。
步骤6,计算实体对属性值相似度。依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。
步骤7,计算实体对中文本资源相似度。获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2)。
步骤8,构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树。
步骤9,判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐。若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中。若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
优选的:步骤1中参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇。
优选的:步骤2中以资源实体的知识点标签为索引键值,构建关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到同一桶内。
一种采用面向数字教育资源的实体对齐方法制成的系统,包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。
本发明相比现有技术,具有以下有益效果:
本发明所提出的基于教育资源的实体对齐方法,能够有效解决数字教育资源重复冗余、分布散乱等问题。通过对海量数字教育资源进行学科分块,采用hash索引构建分区索引体系,能够有效提高实体对齐速度,降低实体对齐复杂度;使用LDA主题模型与余弦相似度计算公式计算两个文本间相似度,提高语义相似度计算精度;结合决策树判定实体对是否对齐,充分考虑实体对间不同特征值对实体对相似性影响权重不同,能够提高实体对齐准确性。
附图说明
图1数字教育资源实体对齐方法流程图
图2知识点标签抽取方法流程图
图3候选实体对集筛选流程图
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向数字教育资源的实体对齐方法,首先对已有教育资源库进行分块并构建分区索引体系;然后提取待对齐数字教育资源的知识点标签,通过索引筛选实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过决策树判定实体对对齐结果,如图1-3所示,具体包括以下步骤:
步骤1.对海量的数字化教育资源进行分块。参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇,减少不必要实体对候选集的产生。
将步骤1中的方法进行封装,得到对海量的数字化教育资源进行分块模块,用来运行步骤1中的方法。
步骤2.构建分区索引体系。在步骤1基础上,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。在本专利中以资源实体的知识点标签为索引键值,构建一个关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到同一桶内,有效提高知识点标签匹配速度。并且实体对齐工作只在该桶内进行,大幅度降低实体对齐复杂度。
将步骤2中的方法进行封装,得到构建分区索引体系模块,用来运行步骤2中的方法。
步骤3.提取待对齐数字教育资源的知识点标签。对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签。
将步骤3中的方法进行封装,得到提取待对齐数字教育资源的知识点标签模块,用来运行步骤3中的方法。
步骤4.筛选候选实体对。根据第三步中得到的教育资源的知识点标签,分别在第二步中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej}。最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en}。若E={},则将该资源直接加入资源库。
将步骤4中的方法进行封装,得到筛选候选实体对模块,用来运行步骤4中的方法。
步骤5.计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性。
A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table)。
将步骤5中的方法进行封装,得到计算实体对知识点标签相似性模块,用来运行步骤5中的方法。
步骤6.计算实体对属性值相似度。不同于通用知识库,在教育资源领域实体属性较为简单,可以通过人工编订映射规则。依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离(Jaro距离)计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。
将步骤6中的方法进行封装,得到计算实体对属性值相似度模块,用来运行步骤6中的方法。
步骤7.计算实体对中文本资源相似度。获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2)。
将步骤7中的方法进行封装,得到计算实体对中文本资源相似度模块,用来运行步骤7中的方法。
步骤8.构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树。
将步骤8中的方法进行封装,得到构建判断实体对齐的决策树模块,用来运行步骤8中的方法。
步骤9.判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐。若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
将步骤9中的方法进行封装,得到判定候选实体对是否匹配模块,用来运行步骤9中的方法。
一种面向数字教育资源的实体对齐系统,包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。
数字教育资源实体对齐过程具体步骤如下所示:
1.按照学科类别将数字教育资源进行聚簇,对海量的数字化教育资源进行分块。
2.在每个资源块内以数字教育资源的知识点标签为键值构建hash索引。
3.利用SKE算法提取待对齐数字教育资源的知识点标签。
4.根据第四步中得到的知识点标签在对应资源块中进行hash索引搜索,筛选得到实体对候选集。
5.依次计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度。
6.将计算得到的知识点标签相似性、属性值相似度和文本资源相似度作为实体对的特征值输入,通过构建好的决策树自动判定对齐结果,并依据结果对待对齐资源做相应处理。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:
步骤1,对数字化教育资源进行分块;
步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;
步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签;
步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej};最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en};若E={},则将该资源直接加入资源库;
步骤5,计算实体对知识点标签相似性;使用Jaccard相似系数来计算两实体间知识点相似性:
其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);
步骤6,计算实体对属性值相似度;依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);
步骤7,计算实体对中文本资源相似度;获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值;最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2);
步骤8,构建判断实体对齐的决策树;前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集;以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树;
步骤9,判定候选实体对是否匹配;通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
2.根据权利要求1所述面向数字教育资源的实体对齐方法,其特征在于:步骤1中参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树;然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇。
3.根据权利要求2所述面向数字教育资源的实体对齐方法,其特征在于:步骤2中以资源实体的知识点标签为索引键值,构建关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到同一桶内。
4.一种采用权利要求3所述面向数字教育资源的实体对齐方法制成的系统,其特征在于:包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910431436.9A CN110162591B (zh) | 2019-05-22 | 2019-05-22 | 一种面向数字教育资源的实体对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910431436.9A CN110162591B (zh) | 2019-05-22 | 2019-05-22 | 一种面向数字教育资源的实体对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162591A true CN110162591A (zh) | 2019-08-23 |
CN110162591B CN110162591B (zh) | 2022-08-19 |
Family
ID=67632035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910431436.9A Active CN110162591B (zh) | 2019-05-22 | 2019-05-22 | 一种面向数字教育资源的实体对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162591B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN110750588A (zh) * | 2019-10-29 | 2020-02-04 | 珠海格力电器股份有限公司 | 面向多源异构的数据融合方法、系统、装置及存储介质 |
CN110909533A (zh) * | 2019-11-19 | 2020-03-24 | 浙江蓝鸽科技有限公司 | 资源主题判定方法和系统 |
CN110928894A (zh) * | 2019-11-18 | 2020-03-27 | 精硕科技(北京)股份有限公司 | 实体对齐的方法及装置 |
CN111930792A (zh) * | 2020-06-23 | 2020-11-13 | 北京大米科技有限公司 | 数据资源的标注方法、装置、存储介质及电子设备 |
CN112417163A (zh) * | 2020-11-13 | 2021-02-26 | 中译语通科技股份有限公司 | 基于实体线索片段的候选实体对齐方法及装置 |
CN112650821A (zh) * | 2021-01-20 | 2021-04-13 | 济南浪潮高新科技投资发展有限公司 | 一种融合Wikidata的实体对齐方法 |
CN113297213A (zh) * | 2021-04-29 | 2021-08-24 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN113934866A (zh) * | 2021-12-17 | 2022-01-14 | 鲁班(北京)电子商务科技有限公司 | 一种基于集合相似度的商品实体匹配方法及装置 |
CN114329003A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
CN115906796A (zh) * | 2022-09-23 | 2023-04-04 | 北京市应急管理科学技术研究院 | 一种安全生产隐患实体的对齐方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
CN105045863A (zh) * | 2015-07-13 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种用于实体匹配的方法及系统 |
WO2017079217A1 (en) * | 2015-11-05 | 2017-05-11 | Microsoft Technology Licensing, Llc | Techniques for digital entity correlation |
CN109359172A (zh) * | 2018-08-02 | 2019-02-19 | 浙江大学 | 一种基于图划分的实体对齐优化方法 |
-
2019
- 2019-05-22 CN CN201910431436.9A patent/CN110162591B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
CN105045863A (zh) * | 2015-07-13 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种用于实体匹配的方法及系统 |
WO2017079217A1 (en) * | 2015-11-05 | 2017-05-11 | Microsoft Technology Licensing, Llc | Techniques for digital entity correlation |
CN109359172A (zh) * | 2018-08-02 | 2019-02-19 | 浙江大学 | 一种基于图划分的实体对齐优化方法 |
Non-Patent Citations (2)
Title |
---|
SHIRIN SALIM等: ""Decision tree based rules for entity identification"", 《 2016 INTERNATIONAL CONFERENCE ON COMMUNICATION SYSTEMS AND NETWORKS (COMNET)》 * |
张伟莉等: ""基于半监督协同训练的百科知识库实体对齐"", 《计算机与现代化》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN110750588A (zh) * | 2019-10-29 | 2020-02-04 | 珠海格力电器股份有限公司 | 面向多源异构的数据融合方法、系统、装置及存储介质 |
CN110928894A (zh) * | 2019-11-18 | 2020-03-27 | 精硕科技(北京)股份有限公司 | 实体对齐的方法及装置 |
CN110909533B (zh) * | 2019-11-19 | 2023-07-18 | 浙江蓝鸽科技有限公司 | 资源主题判定方法和系统 |
CN110909533A (zh) * | 2019-11-19 | 2020-03-24 | 浙江蓝鸽科技有限公司 | 资源主题判定方法和系统 |
CN111930792A (zh) * | 2020-06-23 | 2020-11-13 | 北京大米科技有限公司 | 数据资源的标注方法、装置、存储介质及电子设备 |
CN111930792B (zh) * | 2020-06-23 | 2024-04-12 | 北京大米科技有限公司 | 数据资源的标注方法、装置、存储介质及电子设备 |
CN112417163A (zh) * | 2020-11-13 | 2021-02-26 | 中译语通科技股份有限公司 | 基于实体线索片段的候选实体对齐方法及装置 |
CN112650821A (zh) * | 2021-01-20 | 2021-04-13 | 济南浪潮高新科技投资发展有限公司 | 一种融合Wikidata的实体对齐方法 |
CN113297213A (zh) * | 2021-04-29 | 2021-08-24 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN113297213B (zh) * | 2021-04-29 | 2023-09-12 | 军事科学院系统工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN113722509B (zh) * | 2021-09-07 | 2022-03-01 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN113934866A (zh) * | 2021-12-17 | 2022-01-14 | 鲁班(北京)电子商务科技有限公司 | 一种基于集合相似度的商品实体匹配方法及装置 |
CN114329003A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
CN115906796A (zh) * | 2022-09-23 | 2023-04-04 | 北京市应急管理科学技术研究院 | 一种安全生产隐患实体的对齐方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110162591B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162591A (zh) | 一种面向数字教育资源的实体对齐方法及系统 | |
CN112699246B (zh) | 基于知识图谱的领域知识推送方法 | |
CN110941692B (zh) | 互联网政治外交类新闻事件抽取方法 | |
WO2018196561A1 (zh) | 应用的标签信息生成方法、装置及存储介质 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN106504746B (zh) | 一种从语音数据中提取结构化交通路况信息的方法 | |
CN108509425A (zh) | 一种基于新颖度的中文新词发现方法 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN107515873A (zh) | 一种垃圾信息识别方法及设备 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN105677640A (zh) | 一种面向开放文本的领域概念抽取方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN101620615A (zh) | 一种基于决策树学习的自动图像标注与翻译的方法 | |
US20160170993A1 (en) | System and method for ranking news feeds | |
CN107515849A (zh) | 一种成词判定模型生成方法、新词发现方法及装置 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN110489745A (zh) | 基于引文网络的论文文本相似性的检测方法 | |
CN114706559A (zh) | 一种基于需求识别的软件规模度量方法 | |
CN110321434A (zh) | 一种基于词义消歧卷积神经网络的文本分类方法 | |
CN111368563A (zh) | 一种融合聚类算法的维汉机器翻译系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |