CN109189943A - 一种能力知识抽取及能力知识图谱构建的方法 - Google Patents

一种能力知识抽取及能力知识图谱构建的方法 Download PDF

Info

Publication number
CN109189943A
CN109189943A CN201811095330.8A CN201811095330A CN109189943A CN 109189943 A CN109189943 A CN 109189943A CN 201811095330 A CN201811095330 A CN 201811095330A CN 109189943 A CN109189943 A CN 109189943A
Authority
CN
China
Prior art keywords
data
capability knowledge
capability
knowledge
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811095330.8A
Other languages
English (en)
Other versions
CN109189943B (zh
Inventor
郭橙
康子路
龚军
熊梓策
刘佩云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201811095330.8A priority Critical patent/CN109189943B/zh
Publication of CN109189943A publication Critical patent/CN109189943A/zh
Application granted granted Critical
Publication of CN109189943B publication Critical patent/CN109189943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本法发明公开了一种能力知识抽取方法,包括:数据采集,从网络以及被网络连接的物体中获取文本数据;数据识别,采用自然语言处理方法对所述文本数据进行处理;数据理解,根据具体规则对经过自然语言处理的文本数据进行标签;数据筛选,通过多种模型对标签后的数据进行能力知识的提取和筛选;数据归纳,对筛选后数据中的标签进行识别、归纳,进而获取能力知识。还公开了一种能力知识图谱的构建方法,包括:通过数据采集、识别、理解、筛选以及归纳过程抽取能力本体;采用机器学习方法对能力本体的抽取过程进行学习;将知识本体分类存储,进而获得能力知识图谱。本发明解决了物联网异构资源的互通和共享问题,实现了能力本体提取的自动化和智能化。

Description

一种能力知识抽取及能力知识图谱构建的方法
技术领域
本发明涉及物联网领域,具体涉及了一种能力知识抽取及能力知识图谱的构建方法。
背景技术
物联网是将各种信息传感设备,例如射频识别(RFID)装置、传感器网络、红外感应器、全球定位系统、激光扫描器等设备,按照约定的协议将物品与互联网连接起来通过信息的交换,从而实现智能化识别、定位、跟踪、监控和管理而形成的一个巨大网络。
随着物联网技术的发展,物联网设备的种类愈加丰富,感知和控制能力得到极大提升,同时物联网应用也得到发展,但其系统规模却愈加庞大,不同系统间的关系也变得复杂。在各类繁杂的智能设备被广泛应用的同时,产生了海量的、多源而异构的感知数据,使得物联网内部系统间的资源交互、数据关联等操作出现困难。这些数据在表现形式、衡量单位、组织结构等方面均不相同,彼此之间毫无关联,这便使得物品信息的使用主体(即普通人或机器)对其的理解能力不足,即客体的多样性与主体的有限性成为制约物联网进一步智能化发展的矛盾。因而,在物联网中引入语义技术有助于在建立机器可理解的物联网物品的自描述数据,进一步提升其智能化水平。
语义技术是一种描述真实世界中数据和实体的技术,以便机器能够根据语义描述对数据和实体进行理解并做出处理。1998年,万维网之父蒂姆·伯纳斯 -李将语义技术引入到互联网,并提出语义网(Semantic Web)概念,以推动互联网在未来能够智能化处理信息。
语义网是在本体论理论基础之上对现有Web所进行的扩展,其目标是使Web 上的信息具有计算机可以理解的语义,在本体的支持下实现信息系统间语义上的互操作性,以及对Web资源所进行的智能访问和检索。Web服务是独立的、模块化的应用程序,能够在网络上被描述、发布、查找和调用。作为一种分布式计算模型,Web服务是Web上数据和信息集成的有效机制。但是,目前Web服务中用XML语法来描述的Web服务协议缺乏定义良好的语义信息,同时也缺乏 Web服务相互交互的表达能力,因而并不能满足Web服务自动发现、执行、合成、监控和恢复的需求。语义网服务(semanticweb services,SWS)用本体作为其数据模型,在完整的语义描述框架的基础上,通过对服务能做什么、怎样与它交互,提供机器可理解的语义描述,来解决这一问题。语义网服务的支撑技术有3个:Web服务描述本体,用来描述Web服务和相关方面的完整的描述框架;语义网,以本体作为底层的数据模型以支持机器对Web数据的解释;Web服务,为Web服务使用过程的自动化定义语义驱动的技术。
物联网(Internet of Things)作为互联网向物体层面的延伸,同样引入了语义技术,语义物联网应运而生。
语义物联网指的是“基于标准通信协议建立的,面向可寻址的互联对象的全球性网络”。语义技术提供了机器可理解(或更适宜机器处理的)的数据描述,使计算机能够更好地反映相关信息。近年来,为了解决物联网系统中由于资源异构及分布式特征引起的互操作性问题,物联网研究逐步将语义Web技术引入到物联网中,同时为了实现这一目标,一些建模方法和本体被用于注视和描述物联网数据,语义描述和注释主要用来表述设备、真实世界的物体和事件、服务和业务流程模型。这些语义描述将支撑起自动化管理以及物联网系统中不同资源间的互联互通。语义互操作性指的是不同资源间可以基于语义去访问和明确解析相互数据。物联网中的资源需要在不同资源及用户间交换数据,提供机器及软件可明确解析和处理的数据描述是物联网信息自动化处理及交互的关键因素。通过数据的语义标注能够提供机器可解析的数据描述,包括数据的表示对象、数据的起源、与周边环境的关系、提供者的信息以及质量、技术等属性信息。
考虑到现有的物联网系统尚未形成一套比较完善的语义系统用以支持资源描述和语义互操作性,这将会导致以下两个方面的问题:
(1)平台内终端设备与服务多样化、异构化,同时缺少完善的资源描述体系,导致开放资源的可读性差。
(2)平台间资源描述体系相对独立,缺乏领域知识库支持,资源互通性差,导致跨平台的信息共享困难。
发明内容
针对目前已有的物联网领域存在着本体结构复杂、不易理解而且不适于在实际工程中应用的问题。本发明方法从物联网中被连接的物体(涵盖设备、服务及资源)出发,提出了物联网能力本体的概念,以及能力知识图谱。其中,所述能力知识图谱本质上是结构化的语义知识库,可以利用符号形式描述物理世界中的概念及其相互关系,其用于对物体能力的规范化描述,解决了物联网中能力的语义表达问题,如,能力的概念、属性及关系等。而所述能力是物联网物体本质的体现,物体所具有的能力决定了物体是什么和可以做什么。因此,在物联网中的为物体添加基于能力的语义信息至关重要,能力知识的抽取也成为实现语义物联网智能化的有效途径。
根据本发明的一个方面,公开了一种能力知识抽取方法,包括:数据采集,从网络以及被网络连接的物体中获取文本数据;数据识别,采用自然语言处理方法对所述文本数据进行处理;数据理解,根据具体规则对经过自然语言处理的文本数据进行标签标记;数据筛选,通过多种模型对标签后的数据进行能力知识的提取和筛选;数据归纳,对筛选后数据中的标签进行识别、归纳,进而获取能力知识。
进一步的,在所述数据识别的过程中采用到的自然语言处理方法包括:提取所述文本数据中的字向量或词向量;以及对所述文本数据进行词性标注,进而根据所述词性标注进行分词。
进一步的,所述数据理解中所述具体规则为,根据所述自然语言处理的结果以及所述数据筛选过程中的多种模型经训练获得。
进一步的,所述数据筛选中,所述多种模型包括:空间模型,用于对输入数据中的能力知识进行提取和筛选,并保留筛选后数据的空间结构特征;时序模型,用于对输入数据中的能力知识进行提取,并完成对输入数据的时序分析。
更进一步的,所述空间模型采用了卷积模型,其具体包括卷积过程和池化过程;其中,卷积过程用于能力知识的提取,池化过程用于能力知识的筛选。
更进一步的,所述卷积模型中包含一次或多次卷积过程和池化过程。
更进一步的,所述时序模型采用了递归神经网络,和长短记忆模型,用于进行时序分析,和解决时序分析过程中随着文本长度增加而导致文本信息梯度消失的问题。
更进一步,所述递归神经网络以卷积模型的输出作为输入,从而同时保留了能力知识的空间结构和时序特征。
进一步的,在所述数据归纳中,所述对筛选后数据中的标签进行识别、归纳,进而获取能力知识包括:以概率图模型作为标签识别规则的载体,通过条件随机场的判别实现对筛选后数据中的标签的识别;通过维特比算法,对条件随机场判别结果进行组合优化,选出标签的最优规划路径,从而获得具体的能力知识。
进一步的,在所述数据识别前还包括:表格数据的整理、标点符号的识别以及无用字符的筛除。
根据本发明的另一个方面公开了一种能力知识图谱的构建方法,包括:
根据权利要求1-10中任一项所述的能力知识抽取方法,获得能力本体;
采用机器学习方法对能力本体的抽取过程进行学习;将知识本体分类存储,进而获得能力知识图谱。
进一步的,所述能力本体包括:能力实体以及命名实体,其中,所述命名实体为现实中对物体的具体抽象概念;所述能力实体为对应所述抽象概念的能力或性质。
更进一步的,所述能力或性质用于建立物体间的联系。
进一步的,所述能力知识图谱具体为能力本体的集合,所述能力本体为具有结构化语义的能力知识。
本发明的优点在于,
(1)构建的物联网能力本体有利于物联网异构资源的互通和共享。
(2)抽取的能力本体为物联网资源描述添加语义信息,并采用了机器学习方法,有利于计算机自动理解物联网资源,在无人干预情况下实现更高智能。
(3)抽取的能力本体含有文本的上下文特征。
(4)通过空间模型和时序模型的结合使得抽取的效果有所提升。
(5)可以抽取特定范围的关键词(可以有指向性,全凭任务要求可以改动模型,其中改动可在具体模型的训练过程中实现)。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本法明的能力知识抽取工作流程图。
图2示出了链式条件随机场的结构示意图。
图3示出了本发明的空间模型和时序模型的训练过程示意图。
图4示出了本发明的空间模型结构示意图。
图5示出了本发明的能力知识图谱的构建过程示意图。
图6示出了本发明的实体抽取流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
物联网能力实体是对接入物联网物体的能力及其相关概念进行的规范化描述。能力实体作为能力知识图谱中的关键节点,其实现手段“对文本库进行能力知识信息的抽取”成为关键技术。其中,能力实体即能力抽象概念的具体表达,而能力知识图谱即为物体能力概念的集合。下面将先对能力知识的提取进行介绍;再对在所述能力知识提取基础上构建能力知识图谱的过程进行介绍。具体情况如下所述:
知识能力的抽取
正如前面所述的能力知识图谱本质上是结构化的语义知识库,或者说是物体能力概念的集合,其中不可忽视的一点是,在提取语义的过程中对整个语义结构的保留。为此,本发明提出了一种能力知识抽取的方法,其中,在能力知识提取过程中,文本数据依次经过空间模型以及时序模型的能力知识抽取,使得获得的能力知识保留了原有信息的空间结构和时序的特性。
如图1所示,为本法明的能力知识抽取工作流程图。其中,所述能力知识抽取包括:数据采集,从网络以及被网络连接的物体中获取文本数据;数据识别,采用自然语言处理方法对所述文本数据进行处理;数据去燥,包括表格数据的整理、标点符号的识别以及无用字符的筛除;数据理解,根据具体规则对经过自然语言处理的文本数据进行标签标记;数据筛选,通过多种模型对标签后的数据进行能力知识提取和筛选;数据归纳,对筛选后数据中的标签进行识别、归纳,进而获取能力知识。
具体的,所述数据采集包括,通过百科类网站、购物网站等门户,采集与电子设备相关的信息,其中,所述相关信息可以为非结构化的描述性文字、半结构化的商品信息等;此外,也可以通过与互联网相连的具体设备中,读取该设备的名称、型号以及参数信息,如手机、电脑以及其它智能产品。在数据识别前,需要建立语料库用于为自然语言处理方法提供处理基础,并统一文件存储格式,便于后续处理。
所述数据识别,其目的是通过自然语言处理方法对获得的文本数据进行抽象处理以及分析,其中,所述抽象处理以及分析包括:提取所述文本数据中的字向量或词向量;以及,对所述文本数据进行词性标注。其中,转化为字向量或词向量的目的是对文本数据进行抽象,并方便后续的特征提取。对能力知识的提取本质上也是一种特征提取,通过对提取特征的词性的分析,从而筛选包含能力信息的知识。
所述数据理解即对数据标注的过程,根据任务需要,对语料库中的文本进行字级别或词级别的标签标注;标注的过程以上一步中的词性标注为依据,根据标签方法中相应的标签规则进行标签标注,标签标注的过程可以理解为对字或词语的进一步理解。所述标签标注包括:序列标注、位置标注、频率标注等。本发明中选用了成熟的BIESO标签方法实现这一过程。
所述数据筛选为,将经过数据理解标签过的文本数据依次经过空间模型以及时序模型对其中的知识能力进行提取以及筛选,使得获得的能力知识仍然具有原有文本数据的空间结构特性以及时序特性,通过这种方法,也很好的解决了对非结构化数据或半结构化数据中能力知识的提取。更具体的,所述空间模型和所述时序模型为根据文本数据,设计并构建出的基于规则或统计的模型,其具体通过一定量的样本训练获得。由于在筛选前,文本数据已经标有标签,在经过空间模型和时序模型的筛选后,每个字向量或词向量对应的标签依然保留。最终,通过数据归纳对这些标签的识别以及归纳,完成对原始文本数据中能力知识的抽取。
所述数据归纳,其以概率图模型作为标签识别规则的载体,通过条件随机场的判别实现对筛选后数据中的标签的识别,并通过维特比算法,对条件随机场判别结果进行组合优化,选出标签的最优规划路径,从而获得具体的能力知识。其中,所述条件随机场的结构如下所述:
如图2所示,为链式条件随机场的结构示意图。其中,条件随机场是变量Y,在给定的随机变量X这一条件下的马尔科夫随机场。条件随机场是一种判别式模型,其广义的定义为:设X与Y是随机变量,P(Y|X)表示在条件X下,变量 Y的条件概率分布。由随机变量Y构成的无向图G=(V,E)表示的马尔科夫随机场,即满足:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)
当关于这一等式的马尔科夫随机场,对任意结点v或w均成立,则条件概率分布P(Y|X)成为条件随机场。其中,最常用的是链式条件随机场。
对于如何获取本发明所需要的空间模型和时序模型,其具体叙述如下:
如图3所示,为本发明的空间模型和时序模型的训练过程示意图。其中,所述训练的具体过程包括:字向量的嵌入,即通过自然语言方式将样本数据转化为对应的字向量或词向量;卷积层、前向长短句分析以后向长短句分析的处理,其中卷积层即为本发明中构建的空间模型,前向长短句分析以后向长短句分析即为本发明在循环递归神经网络上建立的双向长短记忆模型,用于文本数据的时序分析,其输入为卷积层的输出。通过这种级联方式,可以使得获得的能力知识保留原有文本数据的空间结构和时序特性;输出层,将经过两种模型提取和筛选后的带有标记的能力知识进行概率打分,从而对标签进行组合优化,选出标签的最优规划路径,从而获得具体的能力知识。在上述过程中,通过对能力知识进行评估,从而对空间模型、时序模型甚至是标签标记规则进行修改,直至获得满意的能力知识,此时,获得的空间模型和时序模型即可用于后续能力知识的识别。为了让人理解空间模型和时序模型对文本数据中能力知识的抽取过程,空间模型和时序模型的具体结构如下:
如图4所示,为本发明的空间模型结构示意图。其中,C1和C3层为卷积层,用于字向量或词向量的特征提取;S2和S4是池化层用于特征的筛选,最后一层是全连接层,用于将权重映射成向量然后送入分类器,实现能力知识的识别任务。
对于时序模型,本发明通过将循环递归神经网络以及双向长短记忆模型相结合实现。其中,所述循环递归神经网络(Recurrent neural network,RNN) 是一种常见的时序分析框架,其可以针对包含时序特点的输入数据进行预测和特征提取,但其面临的梯度消失问题使得其无法对长句子有很好的识别能力。因此,本发明中通过在循环递归神经网络中增加双向长短记忆模型,通过控制双向长短记忆模型的输入门、遗忘门以及输出门,很好的解决了RNN的梯度消失问题,实现了对变长句子和长句子的时序分析处理。
另外,对于上述提到的非结构化数据和半结构化数据的概述如下:
非结构化数据,非结构化数据与结构化数据的差别在于,其不可以通过固有键值来获取信息,例如图片、文件、视频等。在自然语言处理领域,常见的非结构化数据本身就包括了原始的文本描述信息。
半结构化数据,半结构化数据介于结构化数据与非结构化数据之间,其存在一定的结构,可以通过灵活多变的键值来获取对应信息。其数据格式并不固定,半结构化数据存储的信息可以包含数值型,文本型,又或者是列表型等。
针对上述中文结构特点,本发明中通过对文本数据进行“词”级别的预处理,如,分词技术处理,进而对关键词(特征的一种表现)进行抽取,并根据关键词的词性进行标签标记,进而根据标签完成能力知识的识别。目前的中文分词的方式可以分为三类,基于词典的分词方法、基于统计模型的分词方法和基于序列标注的分词方法。其中,基于序列标注的分词方法取得了较好成果。本发明中正是采用基于序列标注的分词,其的原理是,通过对词性进行标注实现分词。在基于上述知识能力抽取方法的基础上,本发明中还公布一种能力知识图谱的构建方法,具体内容如下:
能力知识图谱的构建
能力知识图谱本质上为一种具有结构化特征的语义知识库,或者说是能力本体的集合。其中,所述能力本体由能力实体以及命名实体构成,其中,所述命名实体为现实中对事务的具体抽象概念,如,人名、机构名、地名、时间、日期、货币和百分比。所述能力实体为对应所述抽象概念具有的能力或性质。能力知识的提取过程即为能力知识的提取过程,通过将能力知识中的命名实体和能力实体进行区分,进而构建出能力知识图谱。
能力知识图谱的构建方法分为自顶向下和自底向上两类。所谓自顶向下是指以能力知识图谱的构建为先,即从百科网站、专业数据库等高质量的数据源中,提取已有的能力知识本体及其模式信息,添加到新知识库中进而直接形成能力知识图谱。而自底向上是指以实体层为初始,通过相关技术从庞杂的数据中对实体进行识别、提取、对齐等,再进行模式提取、人工审核等步骤,最终添加到能力知识图谱中。
本发明中采取了自底向上的构建模式,通过解决了对能力知识图谱中,命名实体及能力实体的智能化抽取问题,为构建完整的能力知识图谱提供了支撑。下面将对知识提取以及能力知识图谱的构建进行详细的说明:
如图5所示,为本发明的能力知识图谱的构建过程示意图。其中,能力知识图谱的构建过程包括:
能力本体抽取,通过数据采集、识别、理解、筛选以及归纳过程抽取能力本体(包括命名实体与能力实体);机器学习,采用机器学习方法对能力本体的抽取过程进行学习;知识本体存储,将能力本体按实体类型分类存储,进而获得能力知识图谱。实体的提取过程如图6所示;
如图6所示,为本发明的实体抽取流程图。其中,实体的抽取过程包括:获取文本数据;经过预处理(包括数据去噪以及自然语言的处理)通过BIESO 方法进行标签标注;标注后的数据输入卷积模型进行特征提取和特征筛选,获得保留由原始文本数据空间结构特征的数据,简称为文本特征;将文本特征输入到时序模型中再次进行特征提取以及时序分析;而后,通过概率分布模型进行优化;最后将优化后的数据进行解码,从而完成实体的抽取过程。其中,实体的抽取过程包括命名实体和能力实体的抽取,二者抽取过程的区别在于词性特征以及标签的选取不同。
具体实施例
对于下面一段文本数据:“换气功能是最新运用在挂壁式空调的技术,保证家里有新鲜空气,防止空调病的产生……此外,静音和节能设计也很重要……冷暖型的挂壁式空调,要注意选择制热量大于制冷量的空调,以确保制热效果。如果有电辅热加热功能,就能保证在超低温环境下(最低-10摄氏度)也能制热……。”本发明的处理过程如下:
上述一段关于挂壁式空调的描述来自网络百科网站,可以看到能力关键词涵盖在该短文字中,以使用五位词的BIESO结构的标注方式为例(也有四位词、六位词等标注方式),其中,BISEO分别代表中文语言结构的五个部分,分别为: B-Begin起始位、I-Intermediate中间位、E-End末位、S-Singal单个字或词、 O-Other其它无关。通过B、I、E、S以及O五种标签分别对上述文本数据进行标签,标签后的结果为:
空(B)调(E)又(O)称(O)空(B)气(I)调(I)节(I)器(E). (O)是(O)指(O)采(O)取(O)人(O)工(O)手(O)段(O)对(O) 室(O)内(O)环(O)境(O)空(O)气(O)的(O)温(O)度(O)、(O) 湿(O)度(O)、(O)洁(O)净(O)度(O)、(O)速(O)度(O)等(O)进 (O)行(O)调(B)节(E)与(O)控(B)制(E)的(O)过(O)程(O)。 (O)
即,通过BIESO标注方法,最终将示例文本归纳为:空调又称空气调节器. 是指采取人工手段对室内环境空气的温度、湿度、洁净度、速度等机型调节与控制的过程。
最后需指出是,本发明方法中的空间模型以及时序模型并不限于本文中所提到的卷积模型或在循环递归神经网络框架下的双向长短记忆模型。其它任何可以通过改进实现空间结构提取以及特征提取的空间模型,和通过改进实现时序分析和特征提取的时序模型均在本发明的保护范围之内。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种能力知识抽取方法,其特征在于,包括:
数据采集,从网络以及被网络连接的物体中获取文本数据;
数据识别,采用自然语言处理方法对所述文本数据进行处理;
数据理解,根据具体规则对经过自然语言处理的文本数据进行标签标记;
数据筛选,通过多种模型对标签后的数据进行能力知识的提取和筛选;
数据归纳,对筛选后数据中的标签进行识别、归纳,进而获取能力知识。
2.根据权利要求1所述的能力知识抽取方法,其特征在于,在所述数据识别的过程中采用到的自然语言处理方法包括:
提取所述文本数据中的字向量或词向量;以及,
对所述文本数据进行词性标注,进而根据所述词性标注进行分词。
3.根据权利要求1所述的能力知识抽取方法,其特征在于,所述数据理解中所述具体规则为,根据所述自然语言处理的结果以及所述数据筛选过程中的多种模型经训练获得。
4.根据权利要求1所述的能力知识抽取方法,其特征在于,所述数据筛选中,所述多种模型包括:
空间模型,用于对输入数据中的能力知识进行提取和筛选,并保留筛选后数据的空间结构特征;
时序模型,用于对输入数据中的能力知识进行提取,并完成对输入数据的时序分析。
5.根据权利要求4所述的能力知识抽取方法,其特征在于,所述空间模型采用了卷积模型,其具体包括卷积过程和池化过程;
其中,卷积过程用于能力知识的提取,池化过程用于能力知识的筛选。
6.根据权利要求5所述的能力知识抽取方法,其特征在于,所述卷积模型中包含一次或多次卷积过程和池化过程。
7.根据权利要求4所述的能力知识抽取方法,其特征在于,所述时序模型采用了递归神经网络,和长短记忆模型,用于进行时序分析,和解决时序分析过程中随着文本长度增加而导致文本信息梯度消失的问题。
8.根据权利要求7所述的能力知识抽取方法,其特征在于,所述递归神经网络以卷积模型的输出作为输入,从而同时保留了能力知识的空间结构和时序特征。
9.根据权利要求1所述的能力知识抽取方法,其特征在于,在所述数据归纳中,所述对筛选后数据中的标签进行识别、归纳,进而获取能力知识包括:
以概率图模型作为标签识别规则的载体,通过条件随机场的判别实现对筛选后数据中的标签的识别;
通过维特比算法,对条件随机场判别结果进行组合优化,选出标签的最优规划路径,从而获得具体的能力知识。
10.根据权利要求1所述的能力知识抽取方法,其特征在于,在所述数据识别前还包括:表格数据的整理、标点符号的识别以及无用字符的筛除。
11.一种能力知识图谱的构建方法,其特征在于,包括:
根据权利要求1-10中任一项所述的能力知识抽取方法,获得能力本体;
采用机器学习方法对能力本体的抽取过程进行学习;
将知识本体分类存储,进而获得能力知识图谱。
12.根据权利要求11所述的能力知识图谱的构建方法,其特征在于,所述能力本体包括:能力实体以及命名实体,其中,所述命名实体为现实中对物体的具体抽象概念;所述能力实体为对应所述抽象概念的能力或性质。
13.根据权利要求12所述的能力知识图谱的构建方法,其特征在于,所述能力或性质用于建立物体间的联系。
14.根据权利要求11所述的能力知识图谱的构建方法,其特征在于,所述能力知识图谱具体为能力本体的集合,所述能力本体为具有结构化语义的能力知识。
CN201811095330.8A 2018-09-19 2018-09-19 一种能力知识抽取及能力知识图谱构建的方法 Active CN109189943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811095330.8A CN109189943B (zh) 2018-09-19 2018-09-19 一种能力知识抽取及能力知识图谱构建的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811095330.8A CN109189943B (zh) 2018-09-19 2018-09-19 一种能力知识抽取及能力知识图谱构建的方法

Publications (2)

Publication Number Publication Date
CN109189943A true CN109189943A (zh) 2019-01-11
CN109189943B CN109189943B (zh) 2021-06-04

Family

ID=64908646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811095330.8A Active CN109189943B (zh) 2018-09-19 2018-09-19 一种能力知识抽取及能力知识图谱构建的方法

Country Status (1)

Country Link
CN (1) CN109189943B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120001A (zh) * 2019-05-08 2019-08-13 成都佳发安泰教育科技股份有限公司 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN112559760A (zh) * 2020-12-06 2021-03-26 复旦大学 一种面向文本描述的cps资源能力知识图谱构建方法
CN113254668A (zh) * 2021-06-11 2021-08-13 云南大学 一种基于场景纬度的知识图谱构建方法及系统
CN114945028A (zh) * 2021-02-10 2022-08-26 中国移动通信有限公司研究院 基于物联网设备的信息处理方法、相关设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324464A1 (en) * 2014-05-06 2015-11-12 Baidu Online Network Technology (Beijing) Co., Ltd Searching method and apparatus
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324464A1 (en) * 2014-05-06 2015-11-12 Baidu Online Network Technology (Beijing) Co., Ltd Searching method and apparatus
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120001A (zh) * 2019-05-08 2019-08-13 成都佳发安泰教育科技股份有限公司 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110197280B (zh) * 2019-05-20 2021-08-06 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN112559760A (zh) * 2020-12-06 2021-03-26 复旦大学 一种面向文本描述的cps资源能力知识图谱构建方法
CN112559760B (zh) * 2020-12-06 2022-04-12 复旦大学 一种面向文本描述的cps资源能力知识图谱构建方法
CN114945028A (zh) * 2021-02-10 2022-08-26 中国移动通信有限公司研究院 基于物联网设备的信息处理方法、相关设备及存储介质
CN114945028B (zh) * 2021-02-10 2023-08-01 中国移动通信有限公司研究院 基于物联网设备的信息处理方法、相关设备及存储介质
CN113254668A (zh) * 2021-06-11 2021-08-13 云南大学 一种基于场景纬度的知识图谱构建方法及系统

Also Published As

Publication number Publication date
CN109189943B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109189943A (zh) 一种能力知识抽取及能力知识图谱构建的方法
Zheng Methodologies for cross-domain data fusion: An overview
CN104933113B (zh) 一种基于语义理解的表情输入方法和装置
Chiarello et al. Towards ESCO 4.0–Is the European classification of skills in line with Industry 4.0? A text mining approach
CN113704388A (zh) 多任务预训练模型的训练方法、装置、电子设备和介质
CN109471938A (zh) 一种文本分类方法及终端
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN110795657A (zh) 文章推送及模型训练方法、装置、存储介质和计算机设备
Shastri et al. Multi-cohort intelligence algorithm: an intra-and inter-group learning behaviour based socio-inspired optimisation methodology
Jain et al. Video captioning: a review of theory, techniques and practices.
CN111582587B (zh) 一种视频舆情的预测方法及预测系统
Özdağoğlu et al. A predictive filtering approach for clarifying bibliometric datasets: an example on the research articles related to industry 4.0
CN116129286A (zh) 基于知识图谱的图神经网络遥感图像分类方法
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN116975199A (zh) 一种文本预测方法、装置、设备和存储介质
CN108876643A (zh) 一种社交策展网络上采集(Pin)的多模态表示方法
Wang et al. Big Data and Deep Learning‐Based Video Classification Model for Sports
Huang et al. Design knowledge graph-aided conceptual product design approach based on joint entity and relation extraction
Zhang et al. Bilinear graph neural network-enhanced Web services classification
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
Guo et al. [Retracted] Data Analysis Deep Learning Research on Spatiotemporal Preposition Construction Network
Mottaghi et al. A decision-making system for detecting fake Persian news by improving deep learning algorithms–case study of Covid-19 news
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
Li Application of an Internet of things oriented network education platform in English language teaching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant