CN113761208A - 一种基于知识图谱的科技创新资讯分类方法和存储设备 - Google Patents

一种基于知识图谱的科技创新资讯分类方法和存储设备 Download PDF

Info

Publication number
CN113761208A
CN113761208A CN202111091874.9A CN202111091874A CN113761208A CN 113761208 A CN113761208 A CN 113761208A CN 202111091874 A CN202111091874 A CN 202111091874A CN 113761208 A CN113761208 A CN 113761208A
Authority
CN
China
Prior art keywords
knowledge
data
entity
extraction
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111091874.9A
Other languages
English (en)
Inventor
石宝玉
黄丽丽
薄拾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Institute Of Data Technology Co ltd
Original Assignee
Fuzhou Institute Of Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Institute Of Data Technology Co ltd filed Critical Fuzhou Institute Of Data Technology Co ltd
Priority to CN202111091874.9A priority Critical patent/CN113761208A/zh
Publication of CN113761208A publication Critical patent/CN113761208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,特别涉及一种基于知识图谱的科技创新资讯分类方法和存储设备。所述一种基于知识图谱的科技创新资讯分类方法,包括步骤:获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;进行实体对齐,形成标准知识表示;进行质量评估形成知识图谱;以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;根据知识关联结果对目标资讯进行分类。

Description

一种基于知识图谱的科技创新资讯分类方法和存储设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于知识图谱的科技创新资讯分类方法和存储设备。
背景技术
众所周知,科技创新是人类社会发展的重要引起,是应对许多全球性挑战的有力武器。相关单位和企业纷纷布局建立科技创新平台,广泛收集整理科技创新资讯,挖掘科技创新动力。随着信息资源快速增长,高效准确地将海量科技创新资讯进行智能化分类,能够帮助科研及专业人员进行有效分析,推动科技创新进程。
如:专利号CN110851607A公开了“资讯分类模型的训练方法及装置”,通过采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率。
以上专利存在以下缺点:
专利号CN110851607A对训练集依赖度大,样本数量差别大会对算法结果带来负面影响,分类结果容易偏向于样本数量多的类型。并且有领域可扩充性不强、领域类别细粒度差异带来精度差异等问题。
专利号CN113239201A公开了“一种基于知识图谱的科技文献分类方法”,包括以下步骤:文献获取步骤:获取待分类的科技文献;文本预处理步骤:将科技文献进行词法分析,得到词性标注,根据该词性标注进行过滤;特征提取步骤:统计科技文献中每个词语出现的次数,并根据包含该词语的科技文献的个数,计算每篇科技文献中的词向量,进行文本特征向量化表示;文献分类步骤:根据文本特征向量化表示的结构进行文献分类。
以上专利存在以下缺点:
专利号CN113239201A针对科技文献中的单位、作者进行数据关系清洗与消歧,文献内容部分采用FastText模型进行文献分类,对术语概念的实体抽取与关系挖掘不足。
发明内容
为此,需要提供一种基于知识图谱的科技创新资讯分类方法,用以解决现有科技咨询分类方法适用性低及分类准确度低等技术问题,具体技术方案如下:
一种基于知识图谱的科技创新资讯分类方法,包括步骤:
获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;
进行实体对齐,形成标准知识表示;
进行质量评估形成知识图谱;
以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;
根据知识关联结果对目标资讯进行分类。
进一步的,所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
进一步的,所述“进行实体对齐,形成标准知识表示”,具体还包括步骤:
对采集到的数据进行基于语义的命名实体消歧及融合。
进一步的,所述“以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联”,具体还包括步骤:
建立知识链接;
所述“建立知识链接”,具体还包括步骤:
进行特征选取,并通过神经排序模型建立知识链接。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:
获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;
进行实体对齐,形成标准知识表示;
进行质量评估形成知识图谱;
以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;
根据知识关联结果对目标资讯进行分类。
进一步的,所述指令集还用于执行:
所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
进一步的,所述指令集还用于执行:所述“进行实体对齐,形成标准知识表示”,具体还包括步骤:
对采集到的数据进行基于语义的命名实体消歧及融合。
进一步的,所述指令集还用于执行:所述“以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联”,具体还包括步骤:
建立知识链接;
所述“建立知识链接”,具体还包括步骤:
进行特征选取,并通过神经排序模型建立知识链接。
本发明的有益效果是:一种基于知识图谱的科技创新资讯分类方法,包括步骤:获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;进行实体对齐,形成标准知识表示;进行质量评估形成知识图谱;以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;根据知识关联结果对目标资讯进行分类。通过以上方法建立对应的知识图谱,深入科技资讯内容,在此基础上再以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;根据知识关联结果对目标资讯进行分类,即定位类目,并与指定平台领域目录匹配,具有普遍适用性的同时也使得分类准确性提高。
附图说明
图1为具体实施方式所述一种基于知识图谱的科技创新资讯分类方法的流程图;
图2为具体实施方式所述知识图谱构建流程示意图;
图3为具体实施方式所述概念术语抽取流程示意图;
图4为具体实施方式所述实体抽取流程示意图;
图5为具体实施方式所述属性抽取流程示意图;
图6为具体实施方式所述关系抽取流程示意图;
图7为具体实施方式所述命名实体消歧架构示意图;
图8为具体实施方式所述实体链接的神经排序模型示意图;
图9为具体实施方式所述词向量输入层结构示意图;
图10为具体实施方式所述一种存储设备的模块示意图。
附图标记说明:
1000、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1至图9,在本实施方式中,一种基于知识图谱的科技创新资讯分类方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体技术方案如下:
步骤S101:获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示。
步骤S102:进行实体对齐,形成标准知识表示。
步骤S103:进行质量评估形成知识图谱。
步骤S104:以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联。
步骤S105:根据知识关联结果对目标资讯进行分类。
本申请的核心技术思想在于:以AMiner平台(https://aminer.cn)科创资讯数据、科技文献为基础,基于知识抽取、知识融合和实体排岐等核心算法实现从科创相关数据中提取科技创新领域的关键概念、实例、属性等实体,以及实体间的关联关系,并发掘更多隐含的知识和关联关系。解决大量数据中的实体歧义问题,实现高质量的知识图谱,为后续的科技资讯分类提供核心知识基础。融合高精度、全领域科技知识和科创服务相关知识的大规模复合型知识图谱,提供结构化、用户友好的科创领域知识分类体系。采用专用图数据库存储,支持图检索和浅层推理。
以下结合图2对知识图谱的创建先具体展开说明:
所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
其中知识抽取是构建知识图谱的一个重要的步骤,原始数据包括科技数据、创新创业数据等数据。原始数据分为结构化数据、半结构化数据和非结构化数据,结构化的数据主要包括已经精细化处理的科创数据,半结构化的数据包括从外部抓取的网页数据,非结构的数据为内部上传或从外部抓取的文本数据。根据不同的数据类型,采用不同的方法进行处理。
(1)结构化数据处理针对结构化数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的数据转换为RDF数据(linked data),普遍采用的技术是D2R技术。D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言。
(2)半结构化数据处理半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,采用包装器的方式进行处理。
(3)非结构化数据处理对于非结构化的文本数据,抽取的知识包括实体、关系、属性。实体抽取,也称为命名实体识别,此处的实体包括概念,政策,组织,时间等。关系抽取,也就是实体和实体之间的关系,也是文本中的重要知识,采用关系抽取(RelationExtraction)技术将关系信息提取出来。属性抽取,也就是实体的属性信息,和关系比较类似,关系反映实体的外部联系,属性体现实体的内部特征。
如图3所示,术语概念抽取。术语概念是特殊化的关键词,术语概念抽取是基于关键词和外部数据源(搜索引擎等)完成的。流程见图3。
1、种子集为构建模型前由人工整理;
2、候选集为构建模型前由人工整理,用于模型训练;
3、结构化的科创大数据为科创大数据采集与融合子系统采集的结构化搜索引擎信息;
4、质量评估子系统记录人工操作并根据操作对算法进行正向或负向补偿
输入:人工整理的术语概念种子集和术语概念候选集质量评估子系统给予的质量评估反馈科创大数据采集与融合子系统收集的结构化科创大数据(如搜索引擎等)。
输出:扩展的术语概念列表。
其中实体抽取如图4所示,属性抽取如图5所示,关系抽取如图6所示。以下均展开具体说明:
实体抽取实体是有特指意义的关键词,实体抽取是基于关键词和外部数据源(如搜索引擎等)等完成的。
1、种子集为构建模型前由人工整理;
2、候选集为构建模型前由人工整理,用于模型训练;
3、结构化的科创大数据:科创大数据采集与融合子系统采集的结构化搜索引擎信息;
4、质量评估子系统记录人工操作并根据操作对算法进行正向或负向补偿。
输入:人工整理的实体种子集和实体候选集、质量评估子系统给予的质量评估反馈、科创大数据采集与融合子系统收集的结构化科创大数据(如搜索引擎等)。
输出:扩展的实体词列表。
属性抽取属性是实体和概念的一部分,因此属性词的生成过程是基于实体词和术语概念词的上下文关系生成的。
1、种子集为构建模型前由人工整理的实体词和术语概念词与属性词的关系;
2、原始文本为实体词、术语概念词、属性词出现的原文;
3、结构化的科创大数据是科创大数据采集与融合子系统采集的结构化搜索引擎信息;
4、质量评估子系统记录人工操作并根据操作对算法进行正向或负向补偿。
输入:人工整理的属性种子集和原始文本、质量评估子系统给予的质量评估反馈、科创大数据采集与融合子系统收集的结构化科创大数据(如搜索引擎等)。
输出:扩展的属性词列表。
关系抽取关系抽取包括相关性关系、分类关系抽取。
1资讯集为提取出对应关键词的资讯原文;
2质量评估子系统记录人工操作并根据操作对算法进行正向或负向补偿。
输入:关键词集(包括关键词、实体词、术语概念词)和抽取关键词的资讯原文集质量评估子系统给予的衡量指标。
输出:两两关键和其之间的关系向量期望值。
通过对概念、政策、组织、时间等实体进行抽取,更贴合科技创新咨询特点,也有助于支持指定平台从不同维度进行分类。
形成初步知识表示后,所述“进行实体对齐,形成标准知识表示”,具体还包括步骤:
对采集到的数据进行基于语义的命名实体消歧及融合。具体可如下:
知识获取阶段由于数据来源的不同,可能会抽取得到语义上同一个实体的不同属性和关系集合,这些知识之间可能存在互补、冲突、冗余重复等多种情况。针对这些情况,采用集体实体对齐的方法对获取的科创知识进行必要的融合处理。集体实体对齐在成对实体对齐的基础上在计算实体相似度时加入了实体间的相互关系。具体算法上,基于相似性传播的方法通过初始匹配以“bootstrapping”方式迭代地产生新的匹配。以更适合大规模知识图谱融合SiGMa算法模型为基础,结合科创知识图谱的特点,形成人工辅助的精准科创知识融合算法工具。
针对中英文双语知识的融合问题,通过跨语言知识图谱提供的跨语言链接为种子集,进而使用跨语言实体链接技术自动预测中英文对齐的科创知识实体。中英文跨语言链接种子集从大规模跨语言百科知识图谱XLORE(https://xlore.org)中获取。XLORE是目前国内最大规模的中英文跨语言百科知识图谱。
针对来自不同知识源的数据出现数据冲突的问题,充分考虑知识源的可靠性以及不同信息在各知识源中出现的频度等因素,对数据源的可信度进行评分,结合数据在不同来源中出现的次数,对数据项进行排序筛选,最终补充到相应的知识图谱结果中。
针对异构实体对齐时可能出现的实体异构、实体歧义、大规模匹配等问题,针对图谱中实体的特征设计匹配模型。
对于人才匹配:由于人才姓名的歧义性可能很严重,对于每对候选匹配人才,提取其局部子图(包括职称,联系方式,获奖情况等),已经匹配上的实体会使得这两个子图连通。然后,可以采用异构图注意力网络(heterogeneous graph attention network,HGAT)在子图上学习每对候选人才是否匹配。
对于政策匹配:可以利用政策的多种属性,例如政策题目和发布时间,由于政策数量达到上亿级别,先利用局部敏感哈希(LSH)进行快速匹配,匹配不上的政策,对两则政策的属性构造相似度矩阵,利用卷积神经网络(CNN)进行精确匹配。
对于机构地点匹配:主要利用全名信息,全名中单词的相对顺序比较重要,针对相同的机构地点可能有不同长度的表示(多前缀或后缀)现象,采用基于长短时记忆网络(LSTM)的方法来匹配。
在本实施方式中,采用一种基于语义的命名实体消歧方法,首先利用融合全局和局部信息的表示学习方法将实体投影到低维空间计算文档之间的相似度;然后使用随机采样方式建立伪训练集来预估候选集重名个数;最后采用群智学习策略提高数据结果的准确性。方法框架如图7所示。
为了高效计算文档之间的相似度,首先使用一种监督的全局嵌入函数将输入文档表示为向量空间形式;然后使用局部语境信息优化每个候选集的全局嵌入表示。该阶段设计了两个损失函数,一个是对比损失函数,一个是三元组损失函数。此外,使用层次凝聚聚类算法(hierarchical agglomerative clustering algorithm)来聚类相似文档。在聚类任务中,最重要的问题是确认类簇数量。在估计类簇数量时,采用RNN作为编码器,并尝试将一组嵌入向量映射到该集合中集群的真实数目。其中,采用图的随机取样算法来构建一种伪数据集训练RNN编码器模型。
形成标准知识表示后,生成知识图谱,以下对生成知识图谱的过程展开具体说明:
数据规范
构建面向学术画像的开放标准测试数据集,采用基于深度语义的科研行为画像准确性验证方法,形成科研行为画像数据的有效评价模型和体系,解决科研行为画像结果的完整性、准确性和实时性验证问题。构建开放标准测试数据集,主要针对科研行为画像结果缺乏科学的评价体系、测试数据以及评判标准等问题,形成科研行为画像验证的样本数据模型、样本数据采集策略,构建科研行为画像结果的评价数据样本集,实现对科研行为画像准确性的综合评价。
质量评估
质量评估重在知识图谱的检错与扩展,即对自身内部知识的推理与外部只是的理解。采用基于关系敏感嵌入式技术,进行知识图谱的检错与拓展。利用RESA模型对知识图谱中离散的事实三元组进行连续向量空间上的映射,并通过三元组索对应的向量计算实现对知识图谱更加精准的推理目的,包括对错误事实的检测任务与缺失事实的预测任务。
关系敏感嵌入式RSEA模型形式为:
Figure BDA0003267817650000111
关联关系向量
Figure BDA0003267817650000112
表示关联关系之间所带来的影响,
Figure BDA0003267817650000113
Figure BDA0003267817650000114
k为一个簇中的聚类点数,Si则是通过概率关联函数P或关联函数V计算算得到的关联度得分。
S(ri)与O(ri)分别代表了关系ri在知识图谱中所对应的主语实体集与宾语实体机。N代表了知识图谱中的实体总数量。因此
Figure BDA0003267817650000115
Figure BDA0003267817650000116
分别表示了一个实体可能为关系ri的主语或宾语的概率。
Figure BDA0003267817650000117
则表示了关系ri与rj可能在主语实体集上共享实体的概率。同理
Figure BDA0003267817650000121
代表了宾语实体集上共享实体的概率。因此关系ri与rj可能在主语实体集上的PMI分值为:
Figure BDA0003267817650000122
同理,宾语实体集上的PMI分值为:
Figure BDA0003267817650000123
将PMI进行正则化处理,并使得正则化后的PMI取值在[-1,+1]区间,此时主语实体集与宾语实体集上的NPMI分值分别为:
Figure BDA0003267817650000124
此外,由于两个关系至少有零个共享实体对,因此两个关系的负关联度并不成立。为了更直观展示两个关系ri与rj之间的相互关联度,将以上NPMI的取值映射到[0,1]区间后,将基于概率的关联的函数定义为以下形式:
Figure BDA0003267817650000125
S+(ri)与O+(ri)分别为关系ri的所有主语实体集中的实体向量之和与宾语实体集中的实体向量之和,并且关系ri的向量表示为E+(ri)=S+(ri)+O+(ri),即利用了关系ri的所有主语实体集与宾语实体集中的实体向量之和作为其向量表示。基于向量的关联度函数定义:
Figure BDA0003267817650000131
形成知识图谱后,所述“以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联”,具体还包括步骤:
建立知识链接;
所述“建立知识链接”,具体还包括步骤:
进行特征选取,并通过神经排序模型建立知识链接。具体可如下:
根据不同机构科技创新平台的资讯,以知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联,实现符合特点机构分类标准的科技创新资讯智能分类。
知识链接:
自动识别和关联特点机构收集关注的科创资讯、政策等多种文本资源中的关键知识实体,输出实体的结构化知识数据。
为了保证实体链接的结果可以回传到上下文LSTM层,使用有监督的实体链接方法——神经排序模型。实体链接部分主要包括两个部分:特征选取;神经排序模型。
特征选取
选取的特征有三部分:1)实体相关的特征,包括实体的先验概率;2)实体和上下文的相似度;3)实体和实体提及的相似度,包括实体的向量表示和实体提及向量表示的语义相关度,以及实体的名称和实体提及字符串的相似度;4)实体和上下文中其它实体的相似度。
实体的先验概率P(e),表示实体在知识库中的出现概率。
Figure BDA0003267817650000141
其中,Ae,*是指向实体e的锚文本集合,A*,*是知识库中所有锚文本的集合。α=0表示实体先验为1,即其取值对后验概率P(e|m)没有任何影响,α=1表示先验概率不受任何控制。
实体的流行度P(e|m)表示实体的提及m指向实体e的概率,使用维基中锚文本指向不同实体的频次比来表示P(e|m)。
Figure BDA0003267817650000142
其中,Ae,m表示实体提及m指向实体e的锚文本集合,A*,m表示实体提及m指向所有实体的锚文本集合。
实体和实体提及的语义相关度指实体的向量表示和实体提及(片段)的向量表示之间的相似度,片段的向量表示为:
Figure BDA0003267817650000143
由于实体的向量表示和片段的向量表示未必是相同的,因此将片段的向量表示和实体的向量表示通过一个全连接神经网络来计算相似度:
Figure BDA0003267817650000144
实体和实体提及的字符串相似度是基于编辑距离计算的实体名称和实体提及字符串的相似度,使用归一化的编辑距离来计算:
Figure BDA0003267817650000145
其中,
Figure BDA0003267817650000146
表示实体名称和实体提及字符串的编辑距离,
Figure BDA0003267817650000147
表示字符串的长度。
实体和上下文的语义相关度表示实体和实体提及上下文文本之间的相似度。由于上下文中未必所有的词都对实体链接有帮助,着重采用注意力加权的上下文词向量的平均来表示上下文向量:
Figure BDA0003267817650000151
其中,akj表示第k个单词的注意力权重,用来挑选上下文中与实体最相关的词,对无关词分配的权重较小。其计算方式为:
Figure BDA0003267817650000152
实体和上下文中其它实体的相似度表示了文本中实体的一致性。使用上下文实体集合中所有实体向量的平均向量来表示上下文实体集合,使用候选实体向量和上下文实体集合向量的余弦相似度来表示两者之间的相似度。在预测时,对于第一个处理的实体来说,上下文实体集合为空,这时强制设置候选实体集合中所有实体的该特征值为1,因此,对于第一个被处理的实体提及-候选实体集合来说,实体链接的结果取决于其它特征。
其中,神经排序模型如图8所示,
以上述特征作为输入,构造三层的神经网络来学习特征之间的相互关系。对每个候选实体集合中的实体构造特征,并对特征值构造特征空间,输入全连接神经网络中,网络的输出为每个候选实体的分数。对每个候选实体集合,选取分数最高的实体作为最终预测实体。
神经排序模型的目标函数为:
Figure BDA0003267817650000153
Figure BDA0003267817650000154
Figure BDA0003267817650000155
表示给定实体提及m,候选实体e的预测分数,ye,m表示真实的标记分数,对于真实的链接结果设置其分数为1.0,非链接结果设置其分数为-1.0。
输入层
两种输入层结构:1)直接输入预训练的词表示,2)预先训练的词表示和词的字符表示相拼接。词的字符表示通过LSTM模型动态学习,如图9,将从左往右顺序的字符LSTM的最后一个输出向量和从右向左的字符LSTM的最后一个输出向量进行拼接,作为词的字符表示。研究表明基于LSTM网络的字符表示比基于CNN的字符表示更能够捕获词形特征,如前后缀信息、词的大小写信息。
另外,参考Ganea等人的工作,词的表示使用在GoogleNews上训练的Word2vec,实体的表示通过最小化实体和相关词之间的距离来学习。相关词的获取从维基百科语料中获得,具体地,1)实体的描述页面中包含的词是和该实体相关的,2)锚文本的上下文中包含的词和锚文本指向的实体是相关的。并且,词和实体的相关度正比于词和实体的共现次数,根据词和实体的共现可以采样出相关的词作为正例,同时随机选取一些词作为负例,最后通过最小化目标函数得到实体的表示。目标函数为:
Figure BDA0003267817650000161
h(z;w;u)=[γ-〈z,vw-vu>]+
Figure BDA0003267817650000162
资讯领域分类
对科技创新资源进行聚类分析,提取热点话题,发现领域内的热点话题和相关资源。
对资源聚类可以较为清晰的看出资源之间的关联关系,资源的聚类使用层次聚类(Agglomerative Hierarchical clustering),该方法描述如下:
输入:类数K,资源组W
1、初始状态设置每一个节点(资源)为一个类。
2、找出当前类中相似度最高的一对,将其合并。
3、计算当前新生成的类和其余类两两之间的相似度。
4、查看当前类数,若当前类数小于等于K,则结束,否则循环2、3。
其中,类之间的相似度算法采用Average Linkage clustering,即
Figure BDA0003267817650000171
节点相似度采用word2vec方法计算出的资源相似度。
采用超大规模对齐技术实现知识图谱与指定平台领域目录的匹配,具有普遍适用性。针对平台已有的领域目录,采用MuGNN、RDGCN、AliNet、OAG:LinKG等方法,解决知识图谱与领域目录匹配中的本体匹配、实体对齐、知识融合等问题。本体匹配是侧重发现模式层等价或相似的类、属性或关系,也称为本体映射(mapping)、本体对齐(alignment)。实体对齐侧重发现指称真实世界相同对象的不同实例,也称为实体消解(resolution)、实例匹配(instance matching)。知识融合(knowledge fusion)通过冲突检测、真值发现等技术消解知识图谱融合过程中的冲突,再对知识进行关联与合并,最终形成一个一致的结果。
通过以上方法建立对应的知识图谱,深入科技资讯内容,在此基础上再以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;根据知识关联结果对目标资讯进行分类,即定位类目,并与指定平台领域目录匹配,具有普遍适用性的同时也使得分类准确性提高。
请参阅图10,在本实施方式中,一种存储设备1000的具体实施方式如下:
一种存储设备1000,其中存储有指令集,所述指令集用于执行上述所提及的一种基于知识图谱的科技创新资讯分类方法中的任意步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (8)

1.一种基于知识图谱的科技创新资讯分类方法,其特征在于,包括步骤:
获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;
进行实体对齐,形成标准知识表示;
进行质量评估形成知识图谱;
以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;
根据知识关联结果对目标资讯进行分类。
2.根据权利要求1所述的一种基于知识图谱的科技创新资讯分类方法,其特征在于,所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
3.根据权利要求1所述的一种基于知识图谱的科技创新资讯分类方法,其特征在于,所述“进行实体对齐,形成标准知识表示”,具体还包括步骤:
对采集到的数据进行基于语义的命名实体消歧及融合。
4.根据权利要求1所述的一种基于知识图谱的科技创新资讯分类方法,其特征在于,所述“以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联”,具体还包括步骤:
建立知识链接;
所述“建立知识链接”,具体还包括步骤:
进行特征选取,并通过神经排序模型建立知识链接。
5.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:
获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;
进行实体对齐,形成标准知识表示;
进行质量评估形成知识图谱;
以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;
根据知识关联结果对目标资讯进行分类。
6.根据权利要求5所述的一种存储设备,其特征在于,所述指令集还用于执行:
所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
7.根据权利要求5所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“进行实体对齐,形成标准知识表示”,具体还包括步骤:
对采集到的数据进行基于语义的命名实体消歧及融合。
8.根据权利要求5所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联”,具体还包括步骤:
建立知识链接;
所述“建立知识链接”,具体还包括步骤:
进行特征选取,并通过神经排序模型建立知识链接。
CN202111091874.9A 2021-09-17 2021-09-17 一种基于知识图谱的科技创新资讯分类方法和存储设备 Pending CN113761208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111091874.9A CN113761208A (zh) 2021-09-17 2021-09-17 一种基于知识图谱的科技创新资讯分类方法和存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111091874.9A CN113761208A (zh) 2021-09-17 2021-09-17 一种基于知识图谱的科技创新资讯分类方法和存储设备

Publications (1)

Publication Number Publication Date
CN113761208A true CN113761208A (zh) 2021-12-07

Family

ID=78796307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111091874.9A Pending CN113761208A (zh) 2021-09-17 2021-09-17 一种基于知识图谱的科技创新资讯分类方法和存储设备

Country Status (1)

Country Link
CN (1) CN113761208A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357121A (zh) * 2022-03-10 2022-04-15 四川大学 一种基于数据驱动的创新方案设计方法和系统
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN117272073A (zh) * 2023-11-23 2023-12-22 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置
CN117708350A (zh) * 2024-02-06 2024-03-15 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备
CN117708350B (zh) * 2024-02-06 2024-05-14 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN110543573A (zh) * 2019-08-28 2019-12-06 珠海格力电器股份有限公司 一种基于知识图谱的垃圾分类方法及装置
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN110543573A (zh) * 2019-08-28 2019-12-06 珠海格力电器股份有限公司 一种基于知识图谱的垃圾分类方法及装置
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357121A (zh) * 2022-03-10 2022-04-15 四川大学 一种基于数据驱动的创新方案设计方法和系统
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN115859987B (zh) * 2023-01-19 2023-06-16 阿里健康科技(中国)有限公司 实体提及识别模块及其链接方法、设备和介质
CN117272073A (zh) * 2023-11-23 2023-12-22 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置
CN117272073B (zh) * 2023-11-23 2024-03-08 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置
CN117708350A (zh) * 2024-02-06 2024-03-15 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备
CN117708350B (zh) * 2024-02-06 2024-05-14 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
Zhou et al. Resolving surface forms to wikipedia topics
CN113761208A (zh) 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents
Brochier et al. Impact of the query set on the evaluation of expert finding systems
Sun et al. GEDIT: geographic-enhanced and dependency-guided tagging for joint POI and accessibility extraction at baidu maps
Liu et al. Resume parsing based on multi-label classification using neural network models
Cousseau et al. Linking place records using multi-view encoders
Song et al. Cross-language record linkage based on semantic matching of metadata
James et al. Ontology matching for the semantic annotation of images
Maynard et al. Change management for metadata evolution
CN114238735B (zh) 一种互联网数据智能采集方法
TWI793432B (zh) 工程專案文件管理方法與系統
Kalinowski et al. A Survey of Embedding Space Alignment Methods for Language and Knowledge Graphs
Ahmed et al. Temporal positional lexicon expansion for federated learning based on hyperpatism detection
CN111723301A (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
Perkins Separating the Signal from the Noise: Predicting the Correct Entities in Named-Entity Linking
Giannini et al. A Logic-based approach to Named-Entity Disambiguation in the Web of Data
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
Stork et al. Automated semantic annotation of species names in handwritten texts
Dobrescu et al. Multi-modal CBIR algorithm based on Latent Semantic Indexing
Farokhnejad et al. Classifying Micro-text Document Datasets: Application to Query Expansion of Crisis-Related Tweets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211207