CN111625622A - 领域本体构建方法、装置、电子设备及存储介质 - Google Patents
领域本体构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111625622A CN111625622A CN202010350377.5A CN202010350377A CN111625622A CN 111625622 A CN111625622 A CN 111625622A CN 202010350377 A CN202010350377 A CN 202010350377A CN 111625622 A CN111625622 A CN 111625622A
- Authority
- CN
- China
- Prior art keywords
- domain
- determining
- keyword
- field
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种领域本体构建方法及装置,方法包括:基于领域内文档和领域外文档,确定领域关键词集合;使用外部语义网络,确定领域关键词集合中每个领域关键词的上位词集合;根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;确定领域关键词的属性和规则约束;根据概念关系依存树以及领域关键词的属性和规则约束,构建领域本体;本发明实施例通过领域本体的关键词自动抽取,不需要人工介入,提升了自动化程度,使领域本体构建更完整,更高效。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种领域本体构建方法、装置、电子设备及存储介质。
背景技术
近些年,知识图谱的迅速发展,使得领域知识图谱(Domain-specific KnowledgeGraph:DKG)取得了显著的落地效果。语义网络在知识图谱的构建和建模中起着关键作用,也有研究者认为知识图谱本质就是一个“大规模语义网络”。除了语义网络之外,专家们研制出了类别多样的知识表示形式,如本体表示、产生式表示、框架表示,还有决策树、贝叶斯网络、马尔可夫逻辑网络等。领域知识图谱不同于通用知识图谱 (General-purposeKnowledge Graph:GKG),主要表现在:一方面,从知识表示层面,DKG涉及的知识面虽窄,但是知识深度要求更高,尤其体现在概念图谱的层级体系上;另一方面,从知识获取层面,DKG对知识的质量要求较为苛刻,这也意味着人工干预的需求更高。此外,领域知识图谱的知识并不是闭合的,往往会超出预设的边界,可以说GKG对DKG 有着一定的支撑作用。然而,表达与处理DKG中较深层次的概念是个巨大挑战,此外,过多的人力干预降低了自动化程度,因此,提供良好地自动化方法是领域图谱落地的关键。
语义本体具有良好的概念层次结构,能实现复杂的语义关系,并且支持逻辑推理,是领域知识建模的重要方法之一。本体的通过5个建模元语 (概念、属性、函数、公理、实例)来描述对象,其目标是将该领域的认知框架梳理出来,并转换成机器能接受的语言。通用领域的知识往往具有二义性,而领域知识则具有比较强的针对性。本体最基本的元素是领域概念,领域本体的构建包括概念抽取、概念间关系抽取、属性抽取以及规则约束获取。构建本体目前大多由领域专家手工完成,建设周期长,成本昂贵,难以形成不断学习进化的迭代系统。
发明内容
针对现有技术中的问题,本发明实施例提供一种领域本体构建方法及装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种领域本体构建方法,包括:基于领域内文档和领域外文档,确定领域关键词集合;
使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;
根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;
确定领域关键词的属性和规则约束;
根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
进一步地,所述基于领域内文档和领域外文档,确定领域关键词集合,具体包括:
基于领域内文档,确定领域内实体词的TextRank权重;
基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;
基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合。
进一步地,所述基于领域内文档和领域外文档,确定领域内实体词的 TfIDF权重,具体包括:
基于领域内文档,确定领域内实体词的词频;
基于领域外文档,确定所述领域内实体词的逆文档频率指数;
根据所述领域内实体词的词频以及所述领域内实体词的逆文档频率指数,确定领域内实体词的TfIDF权重。
进一步地,所述根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树,具体包括:
将领域关键词作为底层的实例;
循环遍历每个领域关键词,获取每个领域关键词的上位词集合,按照每个领域关键词顺序采用迭代的方式去除后序每个领域关键词中的重复上位词集合,得到概念集合层次划分;
根据相邻层间概念对的相似度,确定置信度满足预设条件的概念对,根据是否为上下位关系指定两个概念间的关系为subClassOf关系。
进一步地,所述确定领域关键词的属性,具体包括:
基于句法分析确定领域关键词的属性。
进一步地,所述基于句法分析确定领域关键词的属性,具体包括:
基于pyltp依存句法分析器抽取领域关键词集;
筛选出包含所述领域关键词集的句子集;
逐个遍历所述领域关键词集中每个领域关键词,获取包含所述领域关键词的句子集合;
对包含所述领域关键词的句子集合进行依存句法分析,提取与所述领域关键词存在ATT依存关系的所述领域关键词;得到领域关键词集的属性集。
第二方面,本发明实施例还提供了一种领域本体构建装置,包括:第一确定模块,用于基于领域内文档和领域外文档,确定领域关键词集合;
第二确定模块,用于使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;
第三确定模块,用于根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;
第四确定模块,用于确定领域关键词的属性和规则约束;
构建模块,用于根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
进一步地,所述第一确定模块,具体用于:
基于领域内文档,确定领域内实体词的TextRank权重;
基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;
基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述领域本体构建方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述领域本体构建方法。
由上面技术方案可知,本发明实施例提供的领域本体构建方法及装置,通过基于领域内文档和领域外文档,确定领域关键词集合;使用外部语义网络,确定领域关键词集合中每个领域关键词的上位词集合;根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;确定领域关键词的属性和规则约束;根据概念关系依存树以及领域关键词的属性和规则约束,构建领域本体;在领域本体构建过程中可以不需要人工介入,提升了自动化程度,使领域本体构建更完整,更高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的领域本体构建方法的流程图;
图2为本发明一实施例提供的领域本体构建装置的结构示意图;
图3为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的领域本体构建方法的流程图。如图1所示,本发明实施例提供的领域本体构建方法包括如下步骤:
步骤101:基于领域内文档和领域外文档,确定领域关键词集合。
在本步骤中,举例来说,采用THUCNews数据集,该数据集来自14个领域(财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐)的数据,例如以时政领域文本作为领域内文本,其他数据作为领域外文本,来确定领域关键词集合,例如确定出的领域关键词集合为Q国、K省、张三、R市、P国、李四、王五、赵六、X岛。
步骤102:使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合。
在本步骤中,举例来说,外部语义网络使用复旦大学知识工场实验室研发的CN-Probase大规模中文概念图谱,包含约1700万实体、27万概念和 3300万isa关系,准确率在95%以上,例如得到领域关键词“Q国”的上位词为国家、行政区域;得到领域关键词“K省”的上位词为行政区划、岛屿、省级行政区划;得到领域关键词“张三”的上位词为人物、官员、政治人物、律师;得到领域关键词“R市”的上位词为(空);则每个领域关键词的上位词集合为国家、行政区域、行政区域、岛屿、省级行政区划、人物、官员、政治人物、律师。
步骤103:根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树。
在本步骤中,借助Hownet中词距离计算方法,例如领域关键词“Q国”和上位词“国家”为1.00/1.00的词距离,领域关键词“Q国”和上位词“行政区域”为0.60/1.00的词距离,确定“国家”与“行政区域”依存关系例如为isa关系,并采用自底向上的方式构建概念关系依存树。
步骤104:确定领域关键词的属性和规则约束。
在本步骤中,添加概念属性和规则约束。
步骤105:根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
在本步骤中,根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
在本发明实施例中需要说明的是,本体概念是本体的基本元素,本体概念的质量对后续的本体模型至关重要。概念关系主要有分类关系和非分类关系,分类关系是本体的基本骨架。知网(HowNet)作为一种中文常识性知识库,提供了强大的词语级的概念对象,并揭示了概念与概念之间以及概念所具有的属性之间的关系。因此,HowNet常常被作为本体构建的重要工具。《知网》中有两个主要的概念:“概念”与“义原”。“义原”是用于描述一个“概念”的最小意义单位。整个HowNet网络都是以义原为基础建立起来的概念性系统。HowNet与一般的语义词典(如《同义词词林》或WordNet)不同,《知网》并不是简单地将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。HowNet描述的语义关系主要有:上下位关系、同义关系、反义关系、部件-整体关系、属性-宿主关系、材料-成品关系等,其中上下位关系是概念的主要特征。
由上面技术方案可知,本发明实施例提供的领域本体构建方法,基于领域内文档和领域外文档,确定领域关键词集合;使用外部语义网络,确定领域关键词集合中每个领域关键词的上位词集合;根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;确定领域关键词的属性和规则约束;根据概念关系依存树以及领域关键词的属性和规则约束,构建领域本体;本发明实施例通过领域本体的关键词自动抽取和概念关系的自动构建,不需要人工介入,提升了自动化程度,领域本体构建更完整,更高效。
在上述实施例的基础上,在本实施例中,所述基于领域内文档和领域外文档,确定领域关键词集合,具体包括:
基于领域内文档,确定领域内实体词的TextRank权重;
基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;
基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合。
在本实施例中,为方便理解,确定领域关键词集合可以如下表1所示。
表1领域文本关键词自动抽取算法
在本实施例中,需要说明的是初始化为空,输入关键词个数,输入领域内和领域外文档;对领域内文档进行预处理,例如分词处理及词性标注处理,得到领域内文档包括的领域内实体词(以名词性为主);对领域外文档进行预处理,例如分词处理及词性标注处理,得到领域外文档包括的领域内实体词和领域外实体词(以名词性为主);确定领域内实体词的TextRank权重;基于领域内文档和领域外文档,确定领域内实体词在所述领域内文档和领域外文档中的分布情况,并根据所述分布情况,确定所述领域内实体词的TfIDF 权重;基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,例如将领域内实体词的TextRank权重和领域内实体词的TfIDF权重,进行加权求和,将求和后的权重按顺序排列,假设选出排在前三十的关键词作为最终确定的领域关键词集合。
在本实施例中,使用分析器对领域内文档和领域外文档进行分词处理和词性标注处理,分词器使用多领域分词工具pkuseg,该分词器是北大的一个开源的中文分词工具包pkuseg,它在多个分词数据集上都有非常高的分词准确率。其他分词器还有jieba、清华大学的THULAC、HanLp、pynlpir等。
由上面技术方案可知,本发明实施例提供的领域本体构建方法,基于领域内文档,确定领域内实体词的TextRank权重;基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合,所述方法综合考虑了领域内实体词的TextRank权重和领域内实体词的TfIDF权重,进而使得确定得到的领域关键词具有针对性,更加高效和全面。
在上述实施例的基础上,为了使关键词抽取更加可靠和全面,在本实施例中,所述基于领域内文档和领域外文档,确定领域内实体词的TfIDF权重,具体包括:
基于领域内文档,确定领域内实体词的词频;
基于领域外文档,确定所述领域内实体词的逆文档频率指数;
根据所述领域内实体词的词频以及所述领域内实体词的逆文档频率指数,确定领域内实体词的TfIDF权重。
在本实施例中,举例来说,计算领域内实体词的TfIDF权重计算过程如下:
实体词倒排索引,转成wi–>Docs(wi)),即“键”为候选关键词,“值”为包含该候选词的文档列表;
(领域内文档)将Dict(wi,Docs(wi))按照文档个数倒排,并按照集合覆盖思想进行动态重新划分,旨在减少非重点的文档例如:
w1->d1,d2
w2->d1,d2,d4
w3->d1,d3,d5,d6
w4->d3,d4,d5,d6
动态划分完为:
w3->d1,d3,d5,d6
w2->d2,d4
(领域外文档)计算每个词wi的TfIdf权重:
计算归一后的词频TF(wi):wi文档数Docs(wi)/最多的wj文档数,如为 w2的词频为2/4=0.5;
计算的逆文档频率:1+log2(领域外文档总数/包含该词的领域外文档总数 +1);
归一化逆文档频率IDF(wi):每个wi的逆文档频率/最大wj的逆文档频率;
计算TFIDF:TF(wi)*IDF(wi),即得到每个词的TFIDF权重值。
需要说明的是,使用单一的TextRank或TFIDF计算权重,都缺乏稳定性,两者权重加权后筛选出的关键词更具可靠性;逆文档频率计算采用了借助领域外文本,实现了领域内经常出现但是领域外不常出现的词更应该是关键词的假设
由上面技术方案可知,本发明实施例提供的领域本体构建方法,基于领域内文档,确定领域内实体词的词频;基于领域外文档,确定所述领域内实体词的逆文档频率指数;根据所述领域内实体词的词频以及所述领域内实体词的逆文档频率指数,确定领域内实体词的TfIDF权重,可以筛选出更具可靠性关键词,实现了领域内经常出现但是领域外不常出现的关键词全面抽取,从而使领域本体构建更加高效和全面。
在上述实施例的基础上,为了实现基于远距离监督的概念关系抽取,在本实施例中,所述根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树,具体包括:
将领域关键词作为底层的实例;
循环遍历每个领域关键词,获取每个领域关键词的上位词集合,按照每个领域关键词顺序采用迭代的方式去除后序每个领域关键词中的重复上位词集合,得到概念集合层次划分;
根据相邻层间概念对的相似度,确定置信度满足预设条件的概念对,根据是否为上下位关系指定两个概念间的关系为subClassOf关系。
在本实施例中,为方便理解,举例来说,包括如下几个步骤:
步骤1:输入领域关键词集合,迭代最大次数T。
步骤2:递归获取每个关键词的上位词集合。
步骤3:根据上位词的依存关系和词距离自底向上构建概念关系依存树,依存关系为isa(subClassOf)。
步骤4:基于依存句法分词从原始语料抽取出关键词的候选属性集合。
步骤5:将生成的概念关系及数据属性存储到OWL文件。
其中,步骤3:根据关键词与其上位词的依存关系和词距离自底向上构建概念关系依存树,依存关系为isa(subClassOf),举例来说:
1)将关键词作为底层的实例;
2)循环遍历每个关键词,获取其上位词集合ki->C(ki),按照关键词顺序去除后序关键词中的重复上位词集合;
3)假设第n层的概念集合为Cn,n从0到T-1,迭代开始:
循环遍历集合Cn中的每个词cj,循环开始:
依次获取当前词的上位词集C(cj),判断Cn与C(cj)是否有交集。
是:去掉Cn中的交集部分,即Cn=Cn-(Cn∩C(cj)),依次添加到Cn+1中;
否:将C(cj)依次添加到Cn+1中;
n自增1;
判断Cn+1是否为空
是:提前结束迭代;
4)结束迭代,得到n个概念集合Cn;
示例:
例如,假设得到关键词依次为:Q国、K省、张三、R市、P国、李四、王五、赵六、X岛。
经过步骤2)得到:
Q国->国家,行政区划
K省->行政区划、岛屿、省级行政区划
张三->人物、官员、政治人物、律师
R市->(空)
P国->(空)
李四->人物、官员、学者、政治人物、元首
王五->人物、官员、政治人物
赵六->人物、官员、政治人物、
X岛->(空)
按序去重后得到:
Q国->国家、行政区划
K省->岛屿、省级行政区划
张三->人物、官员、政治人物、律师
李四->学者、元首
迭代第1次:C0=(行政区划、岛屿、省级行政区划、人物、官员、政治人物、律师、学者、元首)
迭代第2次:根据【省级行政区划->行政区划,官员->(人物),律师->(人物),学者->(人物),元首->(政治人物、行业人物),】,得到 C0=(岛屿、省级行政区划、官员、政治人物、律师、学者、元首)C1=(行政区划、人物、行业人物、政治人物)
迭代第3次:C0=(岛屿、省级行政区划、官员、政治人物、律师、学者、元首)C1=(行政区划、行业人物、政治人物)C2=(人物)
根据Ci和Ci+1中的概念词间的相似度筛选出置信度高的概念对,例如义原和义项相似度均不小于0.6,0.6为经验值,根据是否为上下位关系指定这两个概念间的关系为subClassOf关系;
为方便理解,在本实施例中,OWL指的是web本体语言,被设计用作计算机的读取和存储,其构建在RDF语言之上,使用XML编写,是一个本体描述的常用Web标准语言。
由上面技术方案可知,本发明实施例提供的领域本体构建方法,通过将领域关键词作为底层的实例;循环遍历每个领域关键词,获取每个领域关键词的上位词集合,按照每个领域关键词顺序采用迭代的方式去除后序每个领域关键词中的重复上位词集合,得到概念集合层次划分;根据相邻层间概念对的相似度,确定置信度满足预设条件的概念对,根据是否为上下位关系指定两个概念间的关系为subClassOf关系,可以使领域本体形成不断学习进化的迭代系统,同时使领域本体具备更强的针对性。
在上述实施例的基础上,为了从语法层面确定词之间的从属关系,进而来抽取数据或关系的属性,因此,借助句法分析确定领域关键词的属性,在本实施例中,所述确定领域关键词的属性,具体包括:
基于句法分析确定领域关键词的属性。
在上述实施例的基础上,在本实施例中,所述基于句法分析确定领域关键词的属性,具体包括:
基于pyltp依存句法分析器抽取领域关键词集;
筛选出包含所述领域关键词集的句子集;
逐个遍历所述领域关键词集中每个领域关键词,获取包含所述领域关键词的句子集合;
对包含所述领域关键词的句子集合进行依存句法分析,提取与所述领域关键词存在ATT依存关系的所述领域关键词;得到领域关键词集的属性集。
在本实施例中,ATT为定中关系,例如,实例(刘七),在原始领域文本假设为(现在P国是由P国总统刘七领导的),这里的P国总统和刘七就是定中关系(ATT),加之P国总统的词性如果是职位,那就可以确定为刘七有职位这个属性,并且属性值为P国总统,即(刘七-职位-P国总统)。
在本实施例中,举例来说,本实施例中属性抽取主要指数据属性,即关键词(或者叫实例)的属性,抽取流程如下:
1)初始化:pyltp依存句法分析器,抽取出的关键词集K。
2)筛选出包含关键词集K的最小句子集,方法与上述的集合覆盖划分思路一致。
3)逐个遍历K中的每个关键词ki,获取包含该ki的句子集合S(ki)。
4)对S(ki)中的句子进行依存句法分析,判断是否存在与ki的依存关系为ATT的关键词。
是:将该词添加到ki的候选属性集合DPi中;
5)最终得到每个关键词ki的属性集,即ki->DPi。
由上面技术方案可知,本发明实施例提供的领域本体构建方法,基于 pyltp依存句法分析器抽取领域关键词集;筛选出包含所述领域关键词集的句子集;逐个遍历所述领域关键词集中每个领域关键词,获取包含所述领域关键词的句子集合;对包含所述领域关键词的句子集合进行依存句法分析,提取与所述领域关键词存在ATT依存关系的所述领域关键词;得到领域关键词集的属性集,可以借助句法分析确定领域关键词的属性,从而将出现在领域文本中与指定关键词具备ATT关系(定中关系)的词指定为该关键词的属性,从语法结构层面自动抽取出属性。
图2为本发明一实施例提供的领域本体构建装置的结构示意图,如图 2所示,该装置包括:第一确定模块201、第二确定模块202,第三确定模块 203、第四确定模块204、构建模块205、其中:
其中,第一确定模块,用于基于领域内文档和领域外文档,确定领域关键词集合;
第二确定模块,用于使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;
第三确定模块,用于根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;
第四确定模块,用于确定领域关键词的属性和规则约束;
构建模块,用于根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
本发明实施例提供的领域本体构建装置具体可以用于执行上述实施例所述的领域本体构建方法,其技术原理和有益效果类似,具体可参见上述实施例,此处不再赘述。
基于相同的发明构思,本发明实施例提供一种电子设备,参见图3,所述电子设备具体包括如下内容:处理器310、通信接口320、存储器330和通信总线340;
其中,所述处理器310、通信接口320、存储器330通过所述总线340完成相互间的通信;所述通信接口320用于实现各建模软件及智能制造装备模块库等相关设备之间的信息传输;所述处理310用于调用所述存储器330 中的计算机程序,所述处理器执行所述计算机程序时实现上述各方法实施例所提供的方法,例如,所述处理器执行所述计算机程序时实现下述步骤:基于领域内文档和领域外文档,确定领域关键词集合;使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;确定领域关键词的属性和规则约束;根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
基于相同的发明构思,本发明又一实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的方法,例如,基于领域内文档和领域外文档,确定领域关键词集合;使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;确定领域关键词的属性和规则约束;根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种领域本体构建方法,其特征在于,包括:
基于领域内文档和领域外文档,确定领域关键词集合;
使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;
根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;
确定领域关键词的属性和规则约束;
根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
2.根据权利要求1所述的领域本体构建方法,其特征在于,所述基于领域内文档和领域外文档,确定领域关键词集合,具体包括:
基于领域内文档,确定领域内实体词的TextRank权重;
基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;
基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合。
3.根据权利要求2所述的领域本体构建方法,其特征在于,所述基于领域内文档和领域外文档,确定领域内实体词的TfIDF权重,具体包括:
基于领域内文档,确定领域内实体词的词频;
基于领域外文档,确定所述领域内实体词的逆文档频率指数;
根据所述领域内实体词的词频以及所述领域内实体词的逆文档频率指数,确定领域内实体词的TfIDF权重。
4.根据权利要求1所述的领域本体构建方法,其特征在于,所述根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树,具体包括:
将领域关键词作为底层的实例;
循环遍历每个领域关键词,获取每个领域关键词的上位词集合,按照每个领域关键词顺序采用迭代的方式去除后序每个领域关键词中的重复上位词集合,得到概念集合层次划分;
根据相邻层间概念对的相似度,确定置信度满足预设条件的概念对,根据是否为上下位关系指定两个概念间的关系为subClassOf关系。
5.根据权利要求1所述的领域本体构建方法,其特征在于,所述确定领域关键词的属性,具体包括:
基于句法分析确定领域关键词的属性。
6.根据权利要求5所述的领域本体构建方法,其特征在于,所述基于句法分析确定领域关键词的属性,具体包括:
基于pyltp依存句法分析器抽取领域关键词集;
筛选出包含所述领域关键词集的句子集;
逐个遍历所述领域关键词集中每个领域关键词,获取包含所述领域关键词的句子集合;
对包含所述领域关键词的句子集合进行依存句法分析,提取与所述领域关键词存在ATT依存关系的所述领域关键词;得到领域关键词集的属性集。
7.一种领域本体构建装置,其特征在于,包括:
第一确定模块,用于基于领域内文档和领域外文档,确定领域关键词集合;
第二确定模块,用于使用外部语义网络,确定所述领域关键词集合中每个领域关键词的上位词集合;
第三确定模块,用于根据每个领域关键词的上位词集合,借助词距离确定各个上位词之间的依存关系,并自底向上构建概念关系依存树;
第四确定模块,用于确定领域关键词的属性和规则约束;
构建模块,用于根据所述概念关系依存树以及所述领域关键词的属性和规则约束,构建领域本体。
8.根据权利要求7所述的领域本体构建装置,其特征在于,所述第一确定模块,具体用于:
基于领域内文档,确定领域内实体词的TextRank权重;
基于领域内文档和领域外文档,确定所述领域内实体词的TfIDF权重;
基于领域内实体词的TextRank权重和领域内实体词的TfIDF权重,确定领域关键词集合。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的领域本体构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的领域本体构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350377.5A CN111625622B (zh) | 2020-04-28 | 2020-04-28 | 领域本体构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350377.5A CN111625622B (zh) | 2020-04-28 | 2020-04-28 | 领域本体构建方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625622A true CN111625622A (zh) | 2020-09-04 |
CN111625622B CN111625622B (zh) | 2022-02-15 |
Family
ID=72270852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350377.5A Active CN111625622B (zh) | 2020-04-28 | 2020-04-28 | 领域本体构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625622B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632287A (zh) * | 2020-12-03 | 2021-04-09 | 清华大学 | 电力知识图谱构建方法和装置 |
CN112733538A (zh) * | 2021-01-19 | 2021-04-30 | 广东工业大学 | 一种基于文本的本体构建方法及装置 |
CN113298911A (zh) * | 2021-07-26 | 2021-08-24 | 湖南高至科技有限公司 | 一种基于lambda规则的图形化概念建模方法 |
CN113688209A (zh) * | 2021-09-01 | 2021-11-23 | 江苏省城市规划设计研究院有限公司 | 一种通过调节关键词依存关系的文本语义网络构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740225A (zh) * | 2016-01-19 | 2016-07-06 | 齐鲁工业大学 | 一种融合句子局部上下文与文档领域信息的词义消歧方法 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109471971A (zh) * | 2018-02-06 | 2019-03-15 | 华南师范大学 | 一种面向教育领域资源云存储的语义预取系统及方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110502642A (zh) * | 2019-08-21 | 2019-11-26 | 武汉工程大学 | 一种基于依存句法分析与规则的实体关系抽取方法 |
-
2020
- 2020-04-28 CN CN202010350377.5A patent/CN111625622B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740225A (zh) * | 2016-01-19 | 2016-07-06 | 齐鲁工业大学 | 一种融合句子局部上下文与文档领域信息的词义消歧方法 |
CN109471971A (zh) * | 2018-02-06 | 2019-03-15 | 华南师范大学 | 一种面向教育领域资源云存储的语义预取系统及方法 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110502642A (zh) * | 2019-08-21 | 2019-11-26 | 武汉工程大学 | 一种基于依存句法分析与规则的实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
ANA B. RIOS-ALVARADO等: "Learning concept hierarchies from textual resources for ontologies construction", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
蒋婷等: "领域学术本体概念等级关系抽取研究", 《情报学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632287A (zh) * | 2020-12-03 | 2021-04-09 | 清华大学 | 电力知识图谱构建方法和装置 |
CN112632287B (zh) * | 2020-12-03 | 2024-01-30 | 清华大学 | 电力知识图谱构建方法和装置 |
CN112733538A (zh) * | 2021-01-19 | 2021-04-30 | 广东工业大学 | 一种基于文本的本体构建方法及装置 |
CN113298911A (zh) * | 2021-07-26 | 2021-08-24 | 湖南高至科技有限公司 | 一种基于lambda规则的图形化概念建模方法 |
CN113298911B (zh) * | 2021-07-26 | 2021-10-08 | 湖南高至科技有限公司 | 一种基于lambda规则的图形化概念建模方法 |
CN113688209A (zh) * | 2021-09-01 | 2021-11-23 | 江苏省城市规划设计研究院有限公司 | 一种通过调节关键词依存关系的文本语义网络构建方法 |
CN113688209B (zh) * | 2021-09-01 | 2023-08-25 | 江苏省城市规划设计研究院有限公司 | 一种通过调节关键词依存关系的文本语义网络构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111625622B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625622B (zh) | 领域本体构建方法、装置、电子设备及存储介质 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
Gaeta et al. | Ontology extraction for knowledge reuse: The e-learning perspective | |
Tiun et al. | Automatic topic identification using ontology hierarchy | |
CN110147436A (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
US10496756B2 (en) | Sentence creation system | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN102750316B (zh) | 基于语义共现模型的概念关系标签抽取方法 | |
CN105279264B (zh) | 一种文档的语义相关度计算方法 | |
CN106126620A (zh) | 基于机器学习的中文自动文摘方法 | |
CN104991891A (zh) | 一种短文本特征提取方法 | |
Hakimov et al. | Semantic question answering system over linked data using relational patterns | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Wang et al. | Analyzing structures and evolution of digital humanities based on correspondence analysis and co-word analysis | |
Karpagam et al. | A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet | |
Hassan et al. | Automatic document topic identification using wikipedia hierarchical ontology | |
Wang et al. | TF-IDF keyword extraction method combining context and semantic classification | |
CN115757819A (zh) | 裁判文书中引用法条信息获取方法及装置 | |
Lezama Sanchez et al. | A Behavior Analysis of the Impact of Semantic Relationships on Topic Discovery | |
Seneviratne et al. | Inductive logic programming in an agent system for ontological relation extraction | |
Kalender et al. | Semantic tagprint-tagging and indexing content for semantic search and content management | |
Chen et al. | Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System | |
Kardana et al. | A novel approach for keyword extraction in learning objects using text mining and WordNet | |
Jain et al. | A new approach for unsupervised word sense disambiguation in Hindi language using graph connectivity measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |