CN103207856A - 一种本体概念及层次关系生成方法 - Google Patents

一种本体概念及层次关系生成方法 Download PDF

Info

Publication number
CN103207856A
CN103207856A CN2013101140315A CN201310114031A CN103207856A CN 103207856 A CN103207856 A CN 103207856A CN 2013101140315 A CN2013101140315 A CN 2013101140315A CN 201310114031 A CN201310114031 A CN 201310114031A CN 103207856 A CN103207856 A CN 103207856A
Authority
CN
China
Prior art keywords
concept
word
term
document
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101140315A
Other languages
English (en)
Other versions
CN103207856B (zh
Inventor
王俊丽
王志成
赵卫东
柳先辉
余淼淼
梁梅连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201310114031.5A priority Critical patent/CN103207856B/zh
Publication of CN103207856A publication Critical patent/CN103207856A/zh
Application granted granted Critical
Publication of CN103207856B publication Critical patent/CN103207856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及本体学习领域,特别涉及到一种本体概念及层次关系生成方法。本发明的技术方案是将PAM概率主题模型应用于本体概念及层次的抽取,改进本体概念及层次关系学习的效果,以达到更加准确有效地生成本体概念。该方法首先通过建立基于PAM的本体概念及层次生成模型,将领域本体概念学习问题有效地转化为基于领域文档集的统计推断问题,采用Gibbs抽样的方法来获取概率分布特征向量;然后进行基于Wordnet的语义相似度计算,根据相似度关联关系生成概念,从而得到本体概念的集合及其层次关系。本发明能够更加准确有效地获取领域本体中的概念集合及概念间层次关系。

Description

一种本体概念及层次关系生成方法
技术领域
本发明涉及本体学习领域,特别涉及到一种本体概念及层次关系生成方法。
背景技术
在语义网体系结构中,用于表示Web信息语义的本体是系统的核心和关键所在。作为一种能在语义和知识层次上描述概念模型的建模工具和表达知识的共享概念模型,本体在语义Web、知识工程、自然语言处理、多Agent系统、信息检索、智能信息集成等相关领域中发挥着重要作用。
本体学习是通过机器学习和统计学等技术自动或半自动地从已有的数据资源中获取期望的本体知识。由于实现完全自动的知识获取技术尚不现实,所以,通常整个本体学习过程是在用户指导下进行的一个半自动的过程。
概念是构成本体的一个基本要素,是对领域内知识实体的抽象描述。概念学习就是从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。本体概念及层次的抽取在本体学习具体任务的层次中处于核心位置。
自动或半自动本体概念的获取方法大体上可以分为三类:基于语言学的方法、基于统计学的方法和两者混合方法。
基于语言学的方法依赖于自然语言处理工具,使用浅层解析技术或模板方法获取概念。这类方法在语言消歧、准确率等方面有明显优势,但是在很多情况下,是依赖于具体语言的。
基于统计学的方法主要思想是依据样本中词汇单元的共现来证明语义关系。优点是易于实现且不依赖于某一专门领域和任何外部资源。
混合方法是采用语言学和数学统计方法相结合来获取概念。其中,语言学规则侧重于获取待选概念,而数学统计方法则用以获取前或者获取后的筛选,从而提高概念获取的准确性和效率。目前大多数的本体学习系统一般都采用混合方法来获取本体概念。
概率主题模型是在潜在语义分析技术基础上发展起来的,它使用概率图模型和主题模型的理论和方法,通过使用图表示联合概率分布,将图论和概率论进行有机结合,从而使用一个多变量进行统计模拟的形式体系。可以在不需要计算机真正理解自然语言的情况下,提取可以被人理解的、相对稳定的隐含语义结构,为大规模数据集中的文档寻找一个相对短的描述。概率主题模型可以为本体学习中概念获取提供数理基础和准确性保障,从而提高了概念获取的可靠性。
PAM是目前应用非常广泛的概率主题模型之一,它将每个文档表示成主题的混合,而主题是单词或其他主题上的的多项式分布,不但可以获得词之间的关联,而且可以的到不同主题之间的相关性。特殊形式的四层PAM(PAM4L),是一个多层的生成式概率模型,该模型包含四层:第一层是文本,第二层是S个主题,第三层是S′个主题,最底层是单词。根节点和所有超主题相关联,每个超主题和所有子主题全相关,每个子主题是词集上的全分布。不但可以获取词和主题的关联,而且可以得到主题之间的关联性。
发明内容
本发明目的要克服现有技术中本体概念及层次学习效果欠佳的不足,提供一种改进的本体概念及层次关系生成方法,结合基于概率统计和基于语言学模式的本体概念学习方法,将PAM概率主题模型应用于本体的概念学习阶段,改进本体概念及层次学习的效果,以达到更加准确有效地生成本体概念及层次关系。
为达到上述发明目的,本发明采用结合词性标注、词干提取、去除停用词和相似度计算等语言学方法和PAM概率主题模型等统计学方法的混合方法,来实现本体学习过程中最核心的概念及概念层次学习。本发明首先在对语料库进行预处理后,使用PAM概率主题模型的方法自动获取主题层次信息,然后使用基于Wordnet的相似度计算方法从主题集合中提取概念,从而建立完整的本体概念及层次结构。
本发明需要保护的技术方案表征为:
一种本体概念及层次关系生成方法,其特征在于,包括如下步骤:
(1)文档预处理,构建本体术语集合:
给定关于某专业领域的一组文档集合,通过词性标注、词干提取、去掉停用词等预处理技术,获取语料库中的有用信息,进而构成术语集;
(2)词频统计,生成词频矩阵:
基于文档中术语出现频率的统计,生成一个文档-术语的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率;
(3)模型推断:
概率主题模型通过引入隐藏变量的中间层以表达文档和词之间的连接关系,根据语料库中的文档以及文档中观测到的词频矩阵,通过PAM概率主题模型的迭代,采用Gibbs抽样算法,统计推断出隐含变量的后验分布信息,每个概念主题关联的术语及其关联概率特征项;
(4)语义关联度判定,概念学习:
通过基于Wordnet的Jiang&Conrath语义相似度判定方法,结合已获得的后验分布信息,根据每个子主题分布下的一组术语间的语义相似度来抽象出一个概念;
(5)关系抽取:
根据步骤(3)得出的后验分布信息,重复所述步骤(4),直至所有的主题-词分布都抽样生成概念,得到概念集;再根据主题间的概率分布以及相似度计算方法,抽样得到超主题层对应的概念,从而得到概念集中概念间的层次关系。在上述方法中,所述步骤(3)进一步包括下列步骤:
a)确定所使用PAM概率主题模型主题数,将术语集中的每个术语都随机初始化分布指派到某一个主题下,得到初始模型分布信息,变量服从后验分布:P(zw=ti,z′w=t′j|D,z-w,z′-w,α,β);
b)进入PAM概率主题模型的迭代过程,采用Gibbs抽样算法,按照a)中所列后验分布公式将单词进行分配,得到模型分布的下一个状态;
c)确定抽样间距和抽样次数,重复执行步骤b)到一定的次数,得到目标最优分布,
其中变量zw和z′w是每个词的超主题分布和子主题分布,zw=ti,z′w=t′j表示将标记为w的单词分配给超主题i和子主题j′;-w表示除了词w以外的所有观测值和主题分布;D是整个文档集;α是超主题的先验,β是子主题的先验。
在上述方法中,所述步骤(4)采用Jiang&Conrath相似度计算方法,同时使用了共享父节点和被比较概念词所包含的信息内容,计算公式为:Sim(c1,c2)=-2lnpmis(c1,c2)-(lnp(c1)+lnp(c2)),
其中c为实例概念词,p(c)为实例概念词出现的概率,ic(c)=-lnp(c)为实例概念词c所包含的信息内容;
Figure BDA00003007043400041
为被比较概念词c1和c2的公共父节点概念词最小的那个。
在上述方法中,所述步骤(4)进一步包括下列子步骤:
a)对经过步骤(3)迭代得到的每个子主题-词分布对应的术语集合{t1,t2,...,tn}中的每个术语对进行Jiang&Conrath相似度计算sim(ti,tj)(1<i<n,1<j<n);
b)选择相似度值最大的术语对(tx,ty),根据Wordnet上位词得到公共父节点tz
c)将得到的新的术语值tz并入集合T,取代tx和ty
d)重复调用步骤(a)和(b),直至集合T中只有一个术语时止,最终得到的值就是提取出的概念。
本发明的技术方案是将PAM概率主题模型应用于本体概念及层次的抽取,改进本体概念及层次关系学习的效果,以达到更加准确有效地生成本体概念。该方法首先通过建立基于PAM的本体概念及层次生成模型,将领域本体概念学习问题有效地转化为基于领域文档集的统计推断问题,采用Gibbs抽样的方法来获取概率分布特征向量;然后进行基于Wordnet的语义相似度计算,根据相似度关联关系生成概念,从而得到本体概念的集合及其层次关系。与现有技术相比,本发明的有益效果:将PAM概率主题模型这一具有层次关系的模型应用于本体概念及层次学习阶段,能够更加准确有效地获取领域本体中的概念集合及概念间层次关系
附图说明
图1是本发明结构的方框图。
图2是本发明PAM概率主题模型的结构图。
图3是本发明的一个具体实施例学习的概念及层次关系图。
具体实施方式
如图1的结构框图所示,将本发明方法应用于生物医学领域本体知识学习,本应用例的本体概念及层次学习方法实施步骤为:
1)术语提取模块:
本实施例采用本发明本体概念及层次关系生成方法,使用生物医学领域的Genia语料库来进行预处理,由2000篇摘要组成,共有168384个生物学术语。使用Pos-tagger进行词性标注、Stemming进行词干提取,并且按照停用词表去掉停用词,经过这些自然语言处理技术的处理之后,得到的词语集合就是领域术语集T。
2)统计推断模块:
本实施例将提取出来的术语集合T,进行词频统计处理,基于文档中术语出现频率的统计,生成一个文档-术语的频率矩阵,即词频矩阵M。矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率。
本实施例根据观测到的词频矩阵M,进行PAM4L概率主题模型的迭代,确定所使用PAM4L概率主题模型的超主题数和子主题数,将术语集中的每个术语都随机初始化分布指派到某一个主题下,得到初始模型分布信息。采用Gibbs抽样算法,按照后验分布公式P(zw=ti,z′w=t′j|D,z-w,z′-w,α,β)将单词进行分配,得到模型分布的下一个状态。确定抽样间距和抽样次数,重复执行达到一定的次数,得到目标稳定分布。从而确定每个概念主题关联的术语及其关联概率特征项集合F。
其中变量zw和z′w是每个词的超主题分布和子主题分布,zw=ti,z′w=t′j表示将标记为w的单词分配给超主题i和子主题j′;-w表示除了词w以外的所有观测值和主题分布;D是整个文档集;α是超主题的先验,β是子主题的先验。
经过统计推断模块的处理后,得到主题分布信息,包括文档的超主题分布,超主题下的子主题分布,子主题和术语词的概率分布信息。
附表1举例展示了本实施例中超主题1对应子主题分布信息和主题比例,也就是说超主题1由如下图示的四个子主题构成。
Figure BDA00003007043400061
附表2展示了本实施例中子主题5对应的主题词和每个词的权重。
3)概念获取模块:
本实施例使用Jiang&Conrath相似度计算方法,对每个子主题分布下的术语词两两进行相似度计算。该方法同时使用了共享父节点和被比较概念词所包含的信息内容,计算公式为:Sim(c1,c2)=-2lnpmis(c1,c2)-(lnp(c1)+lnp(c2))。
其中c为实例概念词,p(c)为实例概念词出现的概率,ic(c)=-lnp(c)为实例概念词c所包含的信息内容;
Figure BDA00003007043400063
为被比较概念词c1和c2的公共父节点概念词最小的那个。
选择相似度值最大的术语对(tx,ty),根据Wordnet寻找公共上位词得到术语tz;用tz取代tx和ty,并入术语集合;重复进行相似度计算和术语的替换,直至集合中只有一个术语词时止,最终得到的这个值就是提取出的概念c。将每个子主题-词分布抽象得到的概念c合并形成概念集合C1
比如本实施例中子主题5的主题词集合为{neutrophil,platelet,lymphocyte,erythrocyte,monocyte},基于Wordnet使用Jiang&Conrath相似度计算方法,对术语词两两进行相似度计算。经过计算可知Sim(neutrophil,lymphocyte)=0.5065648201964191是最大的,通过寻找上位词得到术语词leukocyte,将该词并入集合取代neutrophil和lymphocyte,得到新的集合{leukocyte,platelet,erythrocyte,monocyte}。
重复以上过程,直至集合中只有一个术语词{cell}。可以得到子主题5对应概念cell(细胞)。对子主题382、41和92,同样按照上述过程进行相似度计算得到对应概念blood(血液)、tissue(组织)和organ(器官),由此得到超主题1对应的四个子主题概念,如图3示。
4)关系抽取模块:
根据子主题层对应的概念集合C1,以及已经得到的超主题-子主题分布,再次使用Jiang&Conrath相似度计算方法,抽象得到超主题层对应的概念集C2,从而得到概念集之间的层次关系R。
比如本实施例中超主题1对应的四个子主题概念集为{cell,blood,tissue,organ},使用基于Wordnet的Jiang&Conrath相似度计算方法,重复步骤3)的过程,得到超主题1对应的概念anatomy(解剖学)。
本实施例提取了该领域的本体概念集合及概念层次关系,生成的部分概念及层次关系如图3示。

Claims (4)

1.一种本体概念及层次关系生成方法,其特征在于,包括如下步骤:
(1)文档预处理,构建本体术语集合:
给定关于某专业领域的一组文档集合,通过词性标注、词干提取、去掉停用词等预处理技术,获取语料库中的有用信息,进而构成术语集;
(2)词频统计,生成词频矩阵:
基于文档中术语出现频率的统计,生成一个文档-术语的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率;
(3)模型推断:
概率主题模型通过引入隐藏变量的中间层以表达文档和词之间的连接关系,根据语料库中的文档以及文档中观测到的词频矩阵,通过PAM概率主题模型的迭代,采用Gibbs抽样算法,统计推断出隐含变量的后验分布信息,每个概念主题关联的术语及其关联概率特征项;
(4)语义关联度判定,概念学习:
通过基于Wordnet的Jiang&Conrath语义相似度判定方法,结合已获得的后验分布信息,根据每个子主题分布下的一组术语间的语义相似度来抽象出一个概念;
(5)关系抽取:
根据步骤(3)得出的后验分布信息,重复所述步骤(4),直至所有的主题-词分布都抽样生成概念,得到概念集;再根据主题间的概率分布以及相似度计算方法,抽样得到超主题层对应的概念,从而得到概念集中概念间的层次关系。
2.根据权利要求1所述的方法,其特征在于,所述步骤(3)进一步包括下列步骤:
a)确定所使用PAM概率主题模型主题数,将术语集中的每个术语都随机初始化分布指派到某一个主题下,得到初始模型分布信息,变量服从后验分布:P(zw=ti,z′w=t′j|D,z-w,z-w,α,β);
b)进入PAM概率主题模型的迭代过程,采用Gibbs抽样算法,按照a)中所列后验分布公式将单词进行分配,得到模型分布的下一个状态;
C)确定抽样间距和抽样次数,重复执行步骤b)到一定的次数,得到目标最优分布,
其中变量zw和z′w是每个词的超主题分布和子主题分布,zw=ti,z′w=t′j表示将标记为w的单词分配给超主题i和子主题j′;-w表示除了词w以外的所有观测值和主题分布;D是整个文档集;α是超主题的先验,β是子主题的先验。
3.根据权利要求1所述的方法,其特征在于,所述步骤(4)采用Jiang&Conrath相似度计算方法,同时使用了共享父节点和被比较概念词所包含的信息内容,计算公式为:Sim(c1,c2)=-2lnpmis(c1,c2)-(lnp(c1)+lnp(c2)),
其中c为实例概念词,p(c)为实例概念词出现的概率,ic(c)=-lnp(c)为实例概念词c所包含的信息内容;
Figure FDA00003007043300021
为被比较概念词c1和c2的公共父节点概念词最小的那个。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)进一步包括下列子步骤:
a)对经过步骤(3)迭代得到的每个子主题-词分布对应的术语集合{t1,t2,...,tn}中的每个术语对进行Jiang&Conrath相似度计算sim(ti,tj)(1<i<n,1<j<n);
b)选择相似度值最大的术语对(tx,ty),根据Wordnet上位词得到公共父节点tz
c)将得到的新的术语值tz并入集合T,取代tx和ty
d)重复调用步骤(a)和(b),直至集合T中只有一个术语时止,最终得到的值就是提取出的概念。
CN201310114031.5A 2013-04-03 2013-04-03 一种本体概念及层次关系生成方法 Active CN103207856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310114031.5A CN103207856B (zh) 2013-04-03 2013-04-03 一种本体概念及层次关系生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310114031.5A CN103207856B (zh) 2013-04-03 2013-04-03 一种本体概念及层次关系生成方法

Publications (2)

Publication Number Publication Date
CN103207856A true CN103207856A (zh) 2013-07-17
CN103207856B CN103207856B (zh) 2015-10-28

Family

ID=48755081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310114031.5A Active CN103207856B (zh) 2013-04-03 2013-04-03 一种本体概念及层次关系生成方法

Country Status (1)

Country Link
CN (1) CN103207856B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699522A (zh) * 2013-12-13 2014-04-02 东软集团股份有限公司 基于混合主题的文本标注方法及系统
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
CN105843791A (zh) * 2015-01-15 2016-08-10 克拉玛依红有软件有限责任公司 一种基于6w语义标识的语义网络模型构建方法
CN103810282B (zh) * 2014-02-19 2017-02-15 清华大学 一种罗杰斯特‑正态模型话题提取方法
CN107451124A (zh) * 2017-08-18 2017-12-08 山东省医药卫生科技信息研究所 一种考虑概念间关系的语义相关度计算方法
CN107679226A (zh) * 2017-10-23 2018-02-09 中国科学院重庆绿色智能技术研究院 基于主题的旅游本体构建方法
CN108052583A (zh) * 2017-11-17 2018-05-18 康成投资(中国)有限公司 电商本体构建方法
CN108628959A (zh) * 2018-04-13 2018-10-09 长安大学 一种基于交通大数据的本体构建方法
CN108776706A (zh) * 2018-06-13 2018-11-09 北京信息科技大学 一种基于本体的专利技术主题聚类方法
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN110430185A (zh) * 2019-07-31 2019-11-08 中国工商银行股份有限公司 用于检测命令执行漏洞的方法和检测设备
US10521410B2 (en) 2015-11-20 2019-12-31 International Business Machines Corporation Semantic graph augmentation for domain adaptation
CN110874395A (zh) * 2019-10-14 2020-03-10 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
CN110874412A (zh) * 2018-08-31 2020-03-10 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
WO2020108641A1 (zh) * 2018-11-30 2020-06-04 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
CN111401053A (zh) * 2020-03-15 2020-07-10 北京理工大学 一种基于词组的概念化主题建模方法
CN112364175A (zh) * 2020-10-22 2021-02-12 首都师范大学 基于web资源的本体概念层次获取方法、系统及存储介质
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统
CN112861523A (zh) * 2021-03-06 2021-05-28 东南大学 一种面向本体的多元可信评估方法
CN112912839A (zh) * 2018-11-01 2021-06-04 日立安斯泰莫株式会社 软件管理装置
TWI735380B (zh) * 2019-11-20 2021-08-01 中央研究院 自然語言處理方法與其計算裝置
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI W ET AL: "Pachinko Allocation: DAG-structured Mixture Models of Topic Correlations", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, 25 June 2006 (2006-06-25), pages 577 - 584 *
孙海霞 等: "基于本体的语义相似度计算方法研究综述", 《现代图书情报技术》, no. 1, 25 January 2010 (2010-01-25), pages 51 - 56 *
尤波: "科技新闻热点发现关键技术研究", 《万方学术论文数据库》, 25 December 2012 (2012-12-25), pages 9 - 11 *
张玉芳 等: "基于上下文的领域本体概念和关系的提取", 《计算机应用研究》, vol. 27, no. 1, 15 January 2010 (2010-01-15), pages 74 - 76 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
US10643145B2 (en) 2013-11-27 2020-05-05 Micro Focus Llc Relationship extraction
CN103699522B (zh) * 2013-12-13 2016-06-22 东软集团股份有限公司 基于混合主题的文本标注方法及系统
CN103699522A (zh) * 2013-12-13 2014-04-02 东软集团股份有限公司 基于混合主题的文本标注方法及系统
CN103810282B (zh) * 2014-02-19 2017-02-15 清华大学 一种罗杰斯特‑正态模型话题提取方法
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
CN105843791B (zh) * 2015-01-15 2018-08-03 克拉玛依红有软件有限责任公司 一种基于6w语义标识的语义网络模型构建方法
CN105843791A (zh) * 2015-01-15 2016-08-10 克拉玛依红有软件有限责任公司 一种基于6w语义标识的语义网络模型构建方法
US10521410B2 (en) 2015-11-20 2019-12-31 International Business Machines Corporation Semantic graph augmentation for domain adaptation
CN107451124A (zh) * 2017-08-18 2017-12-08 山东省医药卫生科技信息研究所 一种考虑概念间关系的语义相关度计算方法
CN107679226A (zh) * 2017-10-23 2018-02-09 中国科学院重庆绿色智能技术研究院 基于主题的旅游本体构建方法
CN107679226B (zh) * 2017-10-23 2019-03-05 中国科学院重庆绿色智能技术研究院 基于主题的旅游本体构建方法
CN108052583B (zh) * 2017-11-17 2020-07-24 康成投资(中国)有限公司 电商本体构建方法
CN108052583A (zh) * 2017-11-17 2018-05-18 康成投资(中国)有限公司 电商本体构建方法
CN108628959A (zh) * 2018-04-13 2018-10-09 长安大学 一种基于交通大数据的本体构建方法
CN108776706A (zh) * 2018-06-13 2018-11-09 北京信息科技大学 一种基于本体的专利技术主题聚类方法
CN110874412A (zh) * 2018-08-31 2020-03-10 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110874412B (zh) * 2018-08-31 2022-07-26 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN112912839A (zh) * 2018-11-01 2021-06-04 日立安斯泰莫株式会社 软件管理装置
WO2020108641A1 (zh) * 2018-11-30 2020-06-04 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
CN111259161A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
CN111259161B (zh) * 2018-11-30 2022-02-08 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
CN110430185A (zh) * 2019-07-31 2019-11-08 中国工商银行股份有限公司 用于检测命令执行漏洞的方法和检测设备
CN110874395A (zh) * 2019-10-14 2020-03-10 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
CN110874395B (zh) * 2019-10-14 2022-05-31 中国船舶重工集团公司第七0九研究所 一种基于上下文相关性的抽象概念实例化方法
TWI735380B (zh) * 2019-11-20 2021-08-01 中央研究院 自然語言處理方法與其計算裝置
CN111401053B (zh) * 2020-03-15 2021-12-24 北京理工大学 一种基于词组的概念化主题建模方法
CN111401053A (zh) * 2020-03-15 2020-07-10 北京理工大学 一种基于词组的概念化主题建模方法
CN112364175A (zh) * 2020-10-22 2021-02-12 首都师范大学 基于web资源的本体概念层次获取方法、系统及存储介质
CN112364175B (zh) * 2020-10-22 2024-03-12 首都师范大学 基于web资源的本体概念层次获取方法、系统及存储介质
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统
CN112861523A (zh) * 2021-03-06 2021-05-28 东南大学 一种面向本体的多元可信评估方法
CN112861523B (zh) * 2021-03-06 2024-04-23 东南大学 一种面向本体的多元可信评估方法
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Also Published As

Publication number Publication date
CN103207856B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN103207856B (zh) 一种本体概念及层次关系生成方法
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN102117281B (zh) 一种构建领域本体的方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
US11775594B2 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN110851566B (zh) 一种应用于命名实体识别的可微分网络结构搜索的方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
Jayawardana et al. Semi-supervised instance population of an ontology using word vector embedding
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Zhao et al. Synchronously improving multi-user English translation ability by using AI
Jayawardana et al. Word vector embeddings and domain specific semantic based semi-supervised ontology instance population
CN104572633A (zh) 一种确定多义词词义的方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
Lin et al. Implanting rational knowledge into distributed representation at morpheme level
Tang et al. Tourism domain ontology construction from the unstructured text documents
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
Ahmed et al. Developing an ontology of concepts in the Qur'an
CN107895012B (zh) 一种基于Topic Model的本体构建方法
CN108763361A (zh) 一种基于主题模型的多标签分类框架方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant