CN113268608A - 知识概念构建方法和装置 - Google Patents

知识概念构建方法和装置 Download PDF

Info

Publication number
CN113268608A
CN113268608A CN202110606634.1A CN202110606634A CN113268608A CN 113268608 A CN113268608 A CN 113268608A CN 202110606634 A CN202110606634 A CN 202110606634A CN 113268608 A CN113268608 A CN 113268608A
Authority
CN
China
Prior art keywords
concept
concepts
original data
extracting
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110606634.1A
Other languages
English (en)
Inventor
李涓子
刘丁枭
侯磊
张鹏
唐杰
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110606634.1A priority Critical patent/CN113268608A/zh
Publication of CN113268608A publication Critical patent/CN113268608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识概念层数据构建方法和装置,其中,方法包括获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据。基于所述概念层数据对大规模知识图谱进行更新。本发明通过上述步骤实现对知识图谱的动态更新以及在使用过程中进行扩展。

Description

知识概念构建方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种知识概念构建方法和装置。
背景技术
知识图谱是在2012年正式提出的概念,它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,更好的服务特定领域。但是目前知识图谱基本上都是直接构建完成然后投入使用,很少会有动态更新以及从使用过程中进行扩展的方法。
发明内容
本发明提供一种知识概念构建方法和装置,用以解决现有技术中不对知识图谱进行动态更新和扩展的缺陷,实现对知识图谱的动态更新和在使用中扩展。
第一方面,本发明提供一种知识概念构建方法,包括:
获取原始数据和大规模知识图谱;
对原始数据进行概念抽取,得到多个概念;
对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;
基于所述概念层数据对大规模知识图谱进行更新。
进一步,本发明提供一种知识概念构建方法,其中,所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性。
进一步,本发明提供一种知识概念构建方法,其中,所述对所述概念和所述原始数据进行概念上下位关系抽取,包括:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法和/或基于监督训练的方法进行概念上下位关系抽取。
进一步,本发明提供一种知识概念构建方法,其中,所述对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
第二方面,本发明提供一种知识概念构建装置,包括:
第一处理模块,用于获取原始数据和大规模知识图谱;
第二处理模块,用于对原始数据进行概念抽取,得到多个概念;
第三处理模块,用于对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
第四处理模块,用于对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
第五处理模块,用于将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
第六处理模块,用于将所述概念、所述概念的上下位关系、所述概念属性、所述概念相关信息相融合,得到完整的概念层数据;
第七处理模块,用于基于所述概念层数据对大规模知识图谱进行更新。
进一步,本发明提供一种知识概念构建装置,其中,所述第五处理模块中所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性;
进一步,本发明提供一种知识概念构建装置,其中,所述第三处理模块使用的方法,包括以下的一种或多种:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法或者监督训练的方法进行概念上下位关系抽取。
进一步,本发明提供一种知识概念构建装置,其中,所述第四处理模块对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识概念构建方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识概念构建方法的步骤。
本发明提供的知识概念构建方法和装置,通过获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;基于所述概念层数据对大规模知识图谱进行更新。本发明通过上述将原始数据和大规模知识图谱进行结合,得到更加全面的概念层数据,进而能够利用该概念层数据对大规模知识图谱进行更新,实现对大规模知识图谱的动态更新和在使用中的扩展。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识概念构建方法的流程示意图之一;
图2是本发明提供的知识概念构建方法的流程示意图之二;
图3是本发明提供的知识概念构建装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明的实施例中,知识概念构建方法,包括:
步骤100,获取原始数据和大规模知识图谱;
原始数据(data)是用来构建知识图谱的数据,可以是文本、视频、语音等或者几种格式的混合;而大规模知识图谱是指全领域/某领域单语言或者跨语言融合的大规模知识图谱。其中知识图谱是指存储知识的一种数据库,里面存储的是一些三元组,如(球员A,出生地,城市S)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,球员A和城市S是节点,出生地是球员A指向城市S的一条有向有标签的边。现有的大规模知识图谱可以选择使用XLORE、CYC常识知识库、多语言维基百科(Wikipedia)、Dbpedia、Freebase、YAGO、Wikidata、Nell、Probase、BabelNet、ConceptNet、Schema.org等。本发明实施例中通过获取原始数据和大规模知识图谱,为新的知识图谱的构建以及对大规模知识图谱的更新做准备。举例来说,在建构BJ城市旅游图谱中,选择“BJ城市旅游网”的相关文档包括文本、图片、视频等作为原始数据,选择XLORE作为待使用的大规模知识图谱。
步骤200,对原始数据进行概念抽取,得到多个概念;
其中,概念是指知识图谱中的一类实体,例如水果、梨果等。本实施例中通过对原始数据进行概念抽取。概念抽取即是从文本、知识库、网页等资源中获取足量的概念,并将它们进行评价和收集的任务。概念抽取主要包括两部分是候选概念生成以及候选概念排序。
候选概念生成:候选概念生成的任务目标是从语料中对足量的,有可能成为概念的词条或单词进行选取和生成,这一部分是概念抽取的准备阶段。概念具有以下的性质:第一,概念一般指一个名词结构的短语,具有丰富的语义信息;第二,从内容上看,概念往往是一个有一定概括性的科学术语,并与当前任务的目标领域相关,即概念应该具有:短语性即一个概念是一个语法正确的短语,一般具有名词性;相关性即一个概念应当属于或与目标领域相关。由于概念是一个词组或者单词,本发明实施例中采用规则分词、统计分词、规则和统计混合分词三种方法中的一种或多种进行分词处理。
其中,规则分词是指通过维护字典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,如果匹配成功,则切分,否则不切分;其中,匹配方法包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。而统计分词是指统计预设文本,如果相连接的字在不同的文本中出现次数越多,则说明这些相连接的字为一个词;统计分词方法包括两步,第一步是建立统计语言模型,第二步是对文本进行词语划分;其中,统计分词包括有基于隐含马尔科夫HMM、条件随机场CRF方法。所述规则和统计混合分词是指先基于词典的方法进行分词,然后再用统计分词的方法进行辅助。比如,“BJ城市朝阳”是由两个名词构成的复合名词,因此在进分词时可能出现“BJ城市”、“朝阳”以及“BJ城市朝阳”三种情形,故而,需要在分词时采用一定的方法使分词的结果符合上下文语境。因此,在本发明实施例中可以先采用维护词典的方法之后,再对文本进行统计确定哪一个是文本中的概念。
再由于概念具有名词性,采用词性标注的方法对不同的词组、短语进行标注。其中词性是词汇基本的语法属性,词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程即对采用分词方法得到的分词结果按照语法规则对各个结果标注词性。举例来说,“最终,10人应战的球队A3比1战胜球队B。”,可以得到为精确分词结果为“最终/,/10/人/应战/的/球队A/3/比/1/战胜/球队B/。”,词性标注结果为“最终d/,wp/10m/人n/应战v/的u/球队A ni/3m/比v/1m/战胜v/球队B ni/。Wp”。其中d代表副词,wp代表标点符号,m代表数词,n代表名字,v代表动词,u代表助词,ni代表机构团队。
候选概念排序。候选概念排序的任务目标是将候选概念生成步骤中得到的候选概念进行合理评价,一般方法是为每一个候选概念生成一个置信度分数,然后进行排序,因此,在进行模型评测时,也往往采取评价排序的指标。这一阶段是概念抽取的质量提升的核心环节。采用置信度评价的方式可以区别出哪些概念是可以是真正的概念即是作为实体的类别的概念。本发明实施例中候选概念排序方法有基于统计的方法(TF-IDF等)、基于图的方法(PageRank、TextRank等)等。
采用上述方法,针对“BJ城市旅游网”得到的概念有“景区”、“路线”、“酒店”、“遗产古迹”、“皇家园林”、“世界文化遗产”等。
步骤300,对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
概念上下位学习即判断给定的两个概念之间,或者概念和实例之间是否存在上下位关系,比如判断“机器学习”是否为“人工智能”的下位概念。本实施例中针对原始数据的方法为从文本中进行抽取,基于文本抽取的构建方法,可以分为两步,首先从文本中抽取上下位关系对,其次,将上下位关系对组织成分类体系然后使用大规模知识图谱对获取得到概念直接调用前面抽取到的概念的上下位数据。最后将这两部分上下位关系融合即可。
步骤400,对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
概念属性抽取,即为一个概念抽取它最有代表性的一组属性,通过这组属性,就可以很好地刻画这个概念下的实体。比如对于国家这个概念,要抽取的属性包括,首都,人口,国旗,国歌等等。
步骤500,将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
上文中以及说明对原始数据进行概念抽取获取原始数据中的概念。进而,将所获取的概念作为关键词输入大规模知识图谱中进行检索,获取该概念在大规模知识图谱中的概念相关信息,其中包括该概念在大规模知识图谱中的概念相关信息。通过概念抽取部分得到的概念调用大规模知识图谱中对应的概念的相应数据即可以实现对概念属性的补充。
步骤600,将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;
将上文中从原始数据中获取的概念,将概念与原始数据结合起来得到的概念的上下位关系,将概念与原始数据结合得到的概念的属性信息,以及从大规模知识图谱中获取的概念相关信息相互融合,进而得到完整而全面的概念层数据,其中,融合是指将不同来源的知识形成统一的知识表示和关联。
步骤700,基于所述概念层数据对大规模知识图谱进行更新。
具体地,由于新的知识图谱中的信息来源于两个方面,即原始数据和大规模知识图谱,因此,得到新的知识图谱中存在的三元组可能是大规模知识图谱中不存在的,因此利用获取的新的知识图谱,能够对大规模知识图谱进行更新。
本发明提供的知识概念构建方法,通过获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;基于所述概念层数据对大规模知识图谱进行更新。本发明通过上述将原始数据和大规模知识图谱进行结合,得到更加全面的概念层数据,进而能够利用该概念层数据对大规模知识图谱进行更新,实现对大规模知识图谱的动态更新和在使用中的扩展。
进一步,在本发明提供的实施例中,知识概念构建方法,其中,所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性。
具体地,XLORE为概念上下位关系和概念属性提供数据支持。对原始数据处理后得到的某个概念,XLORE中的数据可以对概念数据使用关键词为条件查询XLORE中的概念,并获得概念的简要信息,包括概念的名称,上级概念、下级概念和概念属性等信息,例如对“BJ城市旅游”进行查询可以得到上层概念有“中国各城市旅游”“BJ城市”等概念,下层概念有“BJ城市旅游景点”、“BJ城市酒店”等概念。再查阅概念“BJ城市酒店”的相关信息可以得到“地点”、“营业时间”等属性,“BJ城市博物馆”等相关概念。
进一步,在本发明提供的实施例中,知识概念构建方法,其中,所述对所述概念和所述原始数据进行概念上下位关系抽取,包括:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法和/或基于监督训练的方法进行概念上下位关系抽取。
其中针对上下位关系对抽取,有以下几种方法可以使用。基于启发式规则的方法是主要利用概念的词法、句法等信息来进行推断。有些模板可以推荐,例如A包括B、A举例B、A such as B、A,including B等等可以得到A和B的上下位关系。基于有监督训练的方法是把上下位关系识别任务作为二分类问题,构造监督数据集来训练上下位关系分类器。
进一步,在本发明提供的实施例中,知识概念构建方法,其中,所述对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
关于概念属性抽取,采用基于模板的方法抽取属性,例如A属于B、A的B、A of B、at/in A of C、by A of C等;也可以采用实体和属性联合抽取的方法,如果一个属性是某个概念的重要属性,那么这个属性会被该概念下许多实体共享,反过来一个实体如果是某个概念下重要的实体,那么这个实体会拥有这个概念下的许多重要属性。针对大规模知识图谱部分,对抽取得到的概念数据抽取其在大规模知识图谱中的属性即可。
结合上述知识概念构建方法,给出具体实施例说明如下:
为了构建BJ城市旅游知识图谱概念体系。现有的大规模知识图谱可以选择使用CYC常识知识库、多语言维基百科(Wikipedia)、Dbpedia、Freebase、YAGO、Wikidata、Nell、Probase、BabelNet、ConceptNet、Schema.org等。选择大规模跨语言知识图谱XLORE。原始数据是“BJ城市旅游网”的相关文档包括文本、图片、视频等,现有的大规模知识图谱使用大规模跨语言知识图谱XLORE。XLORE共包含约235万概念、75万概念上下位关系,是包含中文结构化知识最多的知识图谱。
知识建模部分主要包括概念获取、概念上下位关系学习、概念属性学习等。针对“BJ城市旅游网”得到对旅游领域进行概念抽取。其中候选概念生成部分使用词性标注法的方法,候选概念排序方法使用基于统计的方法。得到概念有“景区”、“路线”、“酒店”、“遗产古迹”、“皇家园林”、“世界文化遗产”等。本发明采用基于文本抽取的上下位关系学习方法,其中上下位关系对使用基于规则的方法进行抽取。通过上下位关系学习可以得到“遗产古迹”是“景区”的下位概念、“皇家园林”是“遗产古迹”的下位概念。对于原始数据,利用模板的方法抽取概念下的属性。例如,可以得到概念“景区”有“门票价格”、“地址”、“营业时间”等属性。
XLORE为概念上下位关系和概念属性提供数据支持。对原始数据处理后得到的某个概念,XLORE中的数据可以对概念数据使用关键词为条件查询XLORE中的概念,并获得概念的简要信息,包括概念的名称,上级概念、下级概念和概念属性等信息,例如,对“BJ城市旅游”进行查询可以得到上层概念有“中国各城市旅游”“BJ城市”等概念,下层概念有“BJ城市旅游景点”、“BJ城市酒店”等概念。再查阅概念“BJ城市酒店”的相关信息可以得到“地点”、“营业时间”等属性,“BJ城市博物馆”等相关概念。
将这两部分融合在一起,可以得到一个较为完整的上层概念体系。
“BJ城市旅游网”经过概念抽取、概念上下位学习以及概念属性抽取过程可以实现对XLORE概念层数据的更新。
在本发明实施例中,一种知识概念构建装置,包括:
第一处理模块31,用于获取原始数据和大规模知识图谱;
第二处理模块32,用于对原始数据进行概念抽取,得到多个概念;
第三处理模块33,用于对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
第四处理模块34,用于对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
第五处理模块35,用于将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
第六处理模块36,用于将所述概念、所述概念的上下位关系、所述概念属性、所述概念相关信息相融合,得到完整的概念层数据;
第七处理模块37,用于基于所述概念层数据对大规模知识图谱进行更新。
由于本发明实施例提供的装置,可以用于执行上述实施例所述的方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
进一步,在本发明提供的实施例中,知识概念构建装置,其中,第五处理模块35中所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性。
具体地,XLORE为概念上下位关系和概念属性提供数据支持。对原始数据处理后得到的某个概念,XLORE中的数据可以对概念数据使用关键词为条件查询XLORE中的概念,并获得概念的简要信息,包括概念的名称,上级概念、下级概念和概念属性等信息,例如对“BJ城市旅游”进行查询可以得到上层概念有“中国各城市旅游”“BJ城市”等概念,下层概念有“BJ城市旅游景点”、“BJ城市酒店”等概念。再查阅概念“BJ城市酒店”的相关信息可以得到“地点”、“营业时间”等属性,“BJ城市博物馆”等相关概念。
进一步,在本发明提供的实施例中,知识概念构建装置,其中,第三处理模块33中所述对所述概念和所述原始数据进行概念上下位关系抽取,包括:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法和/或基于监督训练的方法进行概念上下位关系抽取。
其中针对上下位关系对抽取,有以下几种方法可以使用。基于启发式规则的方法是主要利用概念的词法、句法等信息来进行推断。有些模板可以推荐,例如A包括B、A举例B、A such as B、A,including B等等可以得到A和B的上下位关系。基于有监督训练的方法是把上下位关系识别任务作为二分类问题,构造监督数据集来训练上下位关系分类器。
进一步,在本发明提供的实施例中,知识概念构建装置,其中,第四处理模块34中所述对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
关于概念属性抽取,采用基于模板的方法抽取属性,例如A属于B、A的B、A of B、at/in A of C、by A of C等;也可以采用实体和属性联合抽取的方法,如果一个属性是某个概念的重要属性,那么这个属性会被该概念下许多实体共享,反过来一个实体如果是某个概念下重要的实体,那么这个实体会拥有这个概念下的许多重要属性。针对大规模知识图谱部分,对抽取得到的概念数据抽取其在大规模知识图谱中的属性即可。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行知识概念构建方法,该方法包括:获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;基于所述概念层数据对大规模知识图谱进行更新。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的知识概念构建方法,该方法包括:获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;基于所述概念层数据对大规模知识图谱进行更新。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的知识概念构建方法,该方法包括:获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;基于所述概念层数据对大规模知识图谱进行更新。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识概念构建方法,其特征在于,包括:
获取原始数据和大规模知识图谱;
对原始数据进行概念抽取,得到多个概念;
对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据;
基于所述概念层数据对大规模知识图谱进行更新。
2.根据权利要求1所述的知识概念构建方法,其特征在于,所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性。
3.根据权利要求1所述的知识概念构建方法,其特征在于,所述对所述概念和所述原始数据进行概念上下位关系抽取,包括:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法和/或基于监督训练的方法进行概念上下位关系抽取。
4.根据权利要求1所述的知识概念构建方法,其特征在于,所述对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
5.一种知识概念构建装置,其特征在于,包括:
第一处理模块,用于获取原始数据和大规模知识图谱;
第二处理模块,用于对原始数据进行概念抽取,得到多个概念;
第三处理模块,用于对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;
第四处理模块,用于对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;
第五处理模块,用于将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;
第六处理模块,用于将所述概念、所述概念的上下位关系、所述概念属性、所述概念相关信息相融合,得到完整的概念层数据;
第七处理模块,用于基于所述概念层数据对大规模知识图谱进行更新。
6.根据权利要求5所述的知识概念构建装置,其特征在于,所述第五处理模块中所述获取所述概念在大规模知识图谱中的概念相关信息,具体包括:
获取所述概念在大规模知识图谱中的概念名称、上位概念、下位概念以及第二概念属性。
7.根据权利要求5所述的知识概念构建装置,其特征在于,所述第三处理模块使用的方法,包括以下的一种或多种:
对所述概念和所述原始数据基于启发式规则的方法、基于模板的方法或者监督训练的方法进行概念上下位关系抽取。
8.根据权利要求5所述的知识概念构建装置,其特征在于,所述第四处理模块对所述概念和所述原始数据进行概念属性抽取的方法,包括:
对所述概念和所述原始数据基于模板的方法和/或基于实体与概念联合抽取的方法进行概念属性抽取。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述知识概念层数据构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述知识概念层数据构建方法的步骤。
CN202110606634.1A 2021-05-27 2021-05-27 知识概念构建方法和装置 Pending CN113268608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606634.1A CN113268608A (zh) 2021-05-27 2021-05-27 知识概念构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606634.1A CN113268608A (zh) 2021-05-27 2021-05-27 知识概念构建方法和装置

Publications (1)

Publication Number Publication Date
CN113268608A true CN113268608A (zh) 2021-08-17

Family

ID=77233890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606634.1A Pending CN113268608A (zh) 2021-05-27 2021-05-27 知识概念构建方法和装置

Country Status (1)

Country Link
CN (1) CN113268608A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961717A (zh) * 2021-10-26 2022-01-21 上海石湾科技有限公司 一种基于知识图谱的搜寻系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
US20180189284A1 (en) * 2016-12-29 2018-07-05 Wipro Limited System and method for dynamically creating a domain ontology
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN111651614A (zh) * 2020-07-16 2020-09-11 宁波方太厨具有限公司 药膳知识图谱的构建方法、系统、电子设备及存储介质
CN112527924A (zh) * 2020-12-18 2021-03-19 清华大学 动态更新的知识图谱扩展方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189284A1 (en) * 2016-12-29 2018-07-05 Wipro Limited System and method for dynamically creating a domain ontology
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN111651614A (zh) * 2020-07-16 2020-09-11 宁波方太厨具有限公司 药膳知识图谱的构建方法、系统、电子设备及存储介质
CN112527924A (zh) * 2020-12-18 2021-03-19 清华大学 动态更新的知识图谱扩展方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961717A (zh) * 2021-10-26 2022-01-21 上海石湾科技有限公司 一种基于知识图谱的搜寻系统

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US10496756B2 (en) Sentence creation system
US8510308B1 (en) Extracting semantic classes and instances from text
Al-Zoghby et al. Arabic semantic web applications–a survey
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN113268606A (zh) 知识图谱构建的方法和装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN114462384B (zh) 一种面向数字对象建模的元数据自动生成装置
CN106897274B (zh) 一种跨语种的点评复述方法
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
Ding et al. Scoring tourist attractions based on sentiment lexicon
CN102117285A (zh) 一种基于语义索引的检索方法
CN113268608A (zh) 知识概念构建方法和装置
Zhang et al. A tag recommendation system for folksonomy
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Atwan et al. Arabic query expansion: A review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817

RJ01 Rejection of invention patent application after publication