CN103116574A - 从自然语言文本挖掘领域过程本体的方法 - Google Patents
从自然语言文本挖掘领域过程本体的方法 Download PDFInfo
- Publication number
- CN103116574A CN103116574A CN2013100561942A CN201310056194A CN103116574A CN 103116574 A CN103116574 A CN 103116574A CN 2013100561942 A CN2013100561942 A CN 2013100561942A CN 201310056194 A CN201310056194 A CN 201310056194A CN 103116574 A CN103116574 A CN 103116574A
- Authority
- CN
- China
- Prior art keywords
- concept
- word
- logic
- natural language
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种从自然语言文本挖掘领域过程本体的方法,包括以下步骤:A、创建过程本体模型;B、将创建的过程本体模型实例化;C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。本发明还公开了一种基于上述过程本体模型的智能搜索方法,根据上述过程本体模型以及接收到的文本数据进行语义搜索。通过本发明提供的从自然语言文本挖掘领域过程本体的方法可以构建出可自动更新的动态的过程本体模型,并将构建的过程本体模型存储到AG知识库中,便于进行语义搜索。
Description
技术领域
本发明涉及本体;更具体地涉及一种从自然语言文本挖掘领域过程本体的方法。
背景技术
在本说明书中,以下属于非特别指出都以所指明的意义被使用:
-“本体”:本体是一种对于某种概念体系(概念表达、概念化、概念化体系或者说概念化过程)明确而又详细的说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点。本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,可以为知识库的构建提供一个基本的结构;可以将某个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的实际应用提供便利,在构建智能化的检索系统、构建语义web等方面有很重要的意义。
-“过程本体”:过程是由一组为了完成预定目标或达到期望状态的活动构成的。过程本体以一种声明的方式描述领域相关过程模型,为Web Services的查找、执行和合成提供关于业务过程的共享知识。
-“实例化”:根据类创建对象的过程。
-“RDF三元组”:资源描述框架(Resource Description Framework,RDF)是由W3C制定发展的规范,它用于表达关于网络资源的元数据,表达简单的资源陈述,其中每个陈述都是由主语(subject),谓语(predicate),宾语(object)组成的,可标识资源与资源之间的关系,并可作为逻辑推论的基础资料模型。RDF提供了一种基本的结构,用于在Web上对元数据(meta-data)进行编码、交换和重用,其基本句法是<主语谓词宾语>三元组,主语为URI或匿名结点ID,宾语为URI、匿名结点ID或文字(literal),谓词则是一个URI。
-“AG知识库”:AllegroGraph(AG)是一个高效的RDF三元组数据存储管理系统(Knowledge Base-知识数据库),采用了高速的B+tree数据仓库和先进的知识推理及查询技术,是目前世界上最先进的知识管理数据库,在生物计算、信息安全、知识挖掘等领域都有着广泛的应用。
-“智能搜索”:用户可以通过各种操作与系统进行交互,真正参与到问题求解的过程中,且系统会根据相应的操作进行反馈。
到目前为止,从自然语言文本中开发本体的方法已经存在,但是构建出来的本体大多是静态的结构化的本体,其语义搜索在以前的基于关键字的搜索基础上有所进展,但缺乏动态性和过程性,且对涉及过程的语义搜索无能为力。对于过程本体,目前也有相关的研究,但基本是基于领域专家的手工构建,且构建出的过程本体无法自动更新,无法实现可持续性。经检索,对于过程本体的自动构建,尤其是关于领域问题求解的过程本体的自动构建还没有这方面的报道。
因此,需要一种从文本数据自动产生过程本体的方法,并为问题求解中的智能化语义搜索提供解决方案。
发明内容
本发明的目的在于,针对上述现有技术的不足,提供一种从自然语言文本挖掘领域过程本体的方法,构建出可自动更新的动态的过程本体模型。
本发明的另一个目的在于:提供一种基于过程本体模型的智能搜索方法。
为达到上述目的,本发明采取的技术方案是:提供一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤:
A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系;
B、将创建的过程本体模型实例化;
C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。
步骤A包括以下分步骤:
A1、解析文本,接收领域文本数据;
A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3;若不存在逻辑分段,创建过程文本模型步骤结束;
A3、解析逻辑分段,所述逻辑分段由条件、结论以及从条件到结论的原因三部分构成;所述条件或结论中含有至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从所述条件到结论的原因;从所述条件到结论的原因包括公理、定理、定义、推论;
A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。
所述语义单元是一个主谓结构或主谓宾结构。
若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型。
在前逻辑分段的结论作为在后逻辑分段的条件。
类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成;属性由构成上述概念的元素的存在和上述结论的存在构成。
所述领域文本数据对应服务查询的文本。
一种基于上述过程本体模型的智能搜索方法,其特征在于:根据上述过程本体模型以及接收到的文本数据进行语义搜索。
通过本发明提供的从自然语言文本挖掘领域过程本体的方法可以构建出可自动更新的动态的过程本体模型,并将构建的过程本体模型存储到AG知识库中,便于进行语义搜索。
附图说明
图1为构建过程本体模型的流程图;
图2为本发明的方法的一个实施例步骤流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述,但它们不是对本发明的进一步限制。
本发明提供的一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤:
A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系;
B、将创建的过程本体模型实例化;
C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。
A步骤包括以下分步骤:
A1、解析文本,接收领域文本数据;
A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3;若不存在逻辑分段,创建过程文本模型步骤结束;
A3、解析逻辑分段,逻辑分段由条件、结论以及从条件到结论的原因三部分构成;条件或结论中含有至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从条件到结论的原因;从条件到结论的原因包括公理、定理、定义、推论;
A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。
若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型;直至创建完所有的逻辑分段。
在前逻辑分段的结论作为在后逻辑分段的条件;在前逻辑分段指的是与在后逻辑分段相比,创建在前逻辑分段的过程本体模型先于在后逻辑分段的过程本体模型,但两者不一定是顺次的两个过程;例如若A2根据接收的领域文本数据判断存在四个逻辑分段;第一个逻辑分段的结论可以是第四个逻辑分段的条件。
语义单元是一个主谓结构或者是主谓宾结构。
类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成;属性由构成上述概念的元素的存在和上述结论的存在构成。
上述领域文本数据对应服务查询的文本。
下面以一个实施例来进行详细的说明。
已知:等腰三角形ABC底边是BC,AD平分BC,求证:三角形ABD全等于三角形ACD。实例化上述例题步骤如下:
1、解析文本,接收领域文本数据“已知:等腰三角形ABC底边是BC,AD平分BC,求证:三角形ABD全等于三角形ACD;
2、判断是否存在逻辑分段,对接收到的领域文本数据进行逻辑分段得到三个逻辑分段“因为等腰三角形ABC底边是BC,所以AB等于AC(利用的是等腰三角形的性质定理)”、“因为AD平分BC,所以BC等于CD(利用的是线段中点性质定理)”和“因为AB等于AC、BD等于CD和AD等于AD,所以三角形ABD全等于三角形ACD(全等三角形边边边判定定理)”,分别分析三个逻辑分段,建立三个逻辑分段的过程本体模型;
3、解析逻辑分段,即处理分析上诉步骤中产生的实际例题的三个逻辑分段;如,首先解析第一个逻辑分段“因为等腰三角形ABC底边是BC,所以AB等于AC(利用的是等腰三角形的性质定理)”,其中“等腰三角形ABC底边是BC”是条件1,“AB等于AC”是结论1;“等腰三角形的性质定理”是从条件1到结论1的原因1;该逻辑分段包括两个语义单元“等腰三角形ABC底边是BC”和“AB等于AC”,提取这两个语义单元中表述概念的词(“等腰三角形”、“线段”、“点”)以及定理(等腰三角形的性质定理);
4、创建本体模型,根据提取表述概念的词以及表述概念与概念之间关系的词以及公理、定理、定义、推论创建类、属性以及类与类之间的关系;本实施例中类包括“等腰三角形”、“线段”、“点”和“等腰三角形的性质定理”,属性包括“有端点”、“有边”、“有顶点”;建立类与类的关系;
5、实例化,即对上述的本体模型实例化;如,三角形类的个体有ABC,线段类的个体包括BC、AB、AC,点类的个体包括A、B、C。实例化的三元组关系包括,三角形ABC有边BC、三角形ABC有边AC、三角形有边AB等;
6、之后再依次对逻辑分段“因为AD平分BC,所以BC等于CD(利用的是线段中点性质定理)”和“因为AB等于AC、BD等于CD和AD等于AD,所以三角形ABD全等于三角形ACD(全等三角形边边边判定定理)”创建过程本体模型;其中,“AD平分BC”是条件2,“BD等于CD”是结论2,“线段中点性质定理”是从条件2到结论2的原因2;“AB等于AC、BD等于CD和AD等于AD”是条件11、条件21和条件31,“三角形ABD全等于三角形ACD”是总结论,“全等三角形边边边判定定理”是从条件11、条件21和条件31到总结论的原因3;
7、将所有逻辑分段创建完成后,并将整个构建好的过程本体模型RDF三元组的基于XML语言存储为标准的问题求解过程,并存储到AG知识库。
当用户输入相关题目并提交,搜索系统会基于此过程本体模型,查询与当前题目语义相似的一系列题目返回给用户。
还可以将本发明提供的从自然语言文本挖掘领域过程本体的方法应用于平面几何问题求解,还可将通过该方法建立的过程本体模型模块嵌入到移动学习平台(基于iOS操作系统的平台,如iPad),为用户提供基于移动平台的智能搜索服务。
Claims (8)
1.一种从自然语言文本挖掘领域过程本体的方法,其特征在于:包括以下步骤:
A、创建过程本体模型,通过解析文本,找出逻辑分段,提取逻辑分段中表述概念的词、表述概念与概念之间关系的词以及公理、定理、定义和推论,创建类、属性以及类与类之间的关系;
B、将创建的过程本体模型实例化;
C、将上述过程本体模型以及实例化的过程本体模型采用RDF三元组进行表示并存储到AG知识库。
2.根据权利要求1所述的从自然语言文本挖掘领域过程本体的方法,其特征在于:步骤A包括以下分步骤:
A1、解析文本,接收领域文本数据;
A2、判断是否存在逻辑分段,根据接收的领域文本数据判断是否存在逻辑分段,若存在逻辑分段进入步骤A3;若不存在逻辑分段,创建过程文本模型步骤结束;
A3、解析逻辑分段,所述逻辑分段由条件、结论以及从条件到结论的原因三部分构成;所述条件或结论中含有至少一个语义单元;提取语义单元中表述概念的词以及表述概念与概念之间关系的词;提取从所述条件到结论的原因;从所述条件到结论的原因包括公理、定理、定义、推论;
A4、创建过程本体模型,根据提取的表述概念的词,表述概念与概念之间关系词,以及公理、定理、定义、推论创建类、属性以及类与类之间的关系。
3.根据权利要求2所述的从自然语言文本挖掘领域过程本体的方法,其特征在于:所述语义单元是一个主谓结构或主谓宾结构。
4.根据权利要求2或3所述的从自然语言文本挖掘领域过程文本的方法,其特征在于:若步骤A2根据接收的领域文本数据判断存在至少两个逻辑分段,步骤B对上一个逻辑分段创建的过程本体模型实例化之后返回步骤A2,创建下一个逻辑分段的过程本体模型。
5.根据权利要求4所述的从自然语言文本挖掘过程本体的方法,其特征在于:在前逻辑分段的结论作为在后逻辑分段的条件。
6.根据权利要求2或3所述的从自然语言文本挖掘过程本体的方法,其特征在于:类由上述表述概念的词、表述概念与概念之间关系的词,以及公理、定理、定义、推论构成;属性由构成上述概念的元素的存在和上述结论的存在构成。
7.根据权利要求1至3任一所述的自然语言文本挖掘过程本体的方法,其特征在于:所述领域文本数据对应服务查询的文本。
8.一种基于上述过程本体模型的智能搜索方法,其特征在于:根据上述过程本体模型以及接收到的文本数据进行语义搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310056194.2A CN103116574B (zh) | 2013-02-22 | 2013-02-22 | 从自然语言文本挖掘领域过程本体的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310056194.2A CN103116574B (zh) | 2013-02-22 | 2013-02-22 | 从自然语言文本挖掘领域过程本体的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103116574A true CN103116574A (zh) | 2013-05-22 |
CN103116574B CN103116574B (zh) | 2015-08-26 |
Family
ID=48414951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310056194.2A Active CN103116574B (zh) | 2013-02-22 | 2013-02-22 | 从自然语言文本挖掘领域过程本体的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103116574B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473224A (zh) * | 2013-09-30 | 2013-12-25 | 成都景弘智能科技有限公司 | 基于问题求解过程的习题语义化方法 |
CN103500208A (zh) * | 2013-09-30 | 2014-01-08 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和系统 |
CN105184372A (zh) * | 2015-10-09 | 2015-12-23 | 电子科技大学 | 知识网络构建方法及装置 |
CN105808547A (zh) * | 2014-12-30 | 2016-07-27 | 中国科学院沈阳自动化研究所 | 一种基于本体理论的油田广义数据管理模型的构建方法 |
CN105824938A (zh) * | 2016-03-18 | 2016-08-03 | 点击律(上海)网络科技有限公司 | 一种基于双向映射的检索方法和系统 |
CN107423287A (zh) * | 2017-07-05 | 2017-12-01 | 华中师范大学 | 平面几何证明题自动解答方法及系统 |
WO2017222410A1 (ru) * | 2016-06-20 | 2017-12-28 | Общество с ограниченной ответственностью "ЭсДиАй Рисёчь" | Способ семантического поиска в объектно-процессной модели данных |
CN109684376A (zh) * | 2018-12-11 | 2019-04-26 | 孙炜 | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 |
CN110110078A (zh) * | 2018-01-11 | 2019-08-09 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
US10628743B1 (en) | 2019-01-24 | 2020-04-21 | Andrew R. Kalukin | Automated ontology system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090117110A (ko) * | 2008-05-08 | 2009-11-12 | 주식회사 케이티 | 연관어 기반 온톨로지 생성 장치 및 그 방법 |
CN101634993A (zh) * | 2009-08-26 | 2010-01-27 | 中国科学院地理科学与资源研究所 | 基于过程本体的农业信息协同服务系统及其实现方法 |
-
2013
- 2013-02-22 CN CN201310056194.2A patent/CN103116574B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090117110A (ko) * | 2008-05-08 | 2009-11-12 | 주식회사 케이티 | 연관어 기반 온톨로지 생성 장치 및 그 방법 |
CN101634993A (zh) * | 2009-08-26 | 2010-01-27 | 中国科学院地理科学与资源研究所 | 基于过程本体的农业信息协同服务系统及其实现方法 |
Non-Patent Citations (2)
Title |
---|
刘鹏程: "软件过程中知识本体构建与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
钟秀琴等: "基于本体与Prolog的平面几何定理证明", 《电子科技大学学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500208A (zh) * | 2013-09-30 | 2014-01-08 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和系统 |
CN103500208B (zh) * | 2013-09-30 | 2016-08-17 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和系统 |
CN103473224A (zh) * | 2013-09-30 | 2013-12-25 | 成都景弘智能科技有限公司 | 基于问题求解过程的习题语义化方法 |
CN105808547A (zh) * | 2014-12-30 | 2016-07-27 | 中国科学院沈阳自动化研究所 | 一种基于本体理论的油田广义数据管理模型的构建方法 |
CN105184372A (zh) * | 2015-10-09 | 2015-12-23 | 电子科技大学 | 知识网络构建方法及装置 |
CN105184372B (zh) * | 2015-10-09 | 2018-11-02 | 电子科技大学 | 知识网络构建方法及装置 |
CN105824938B (zh) * | 2016-03-18 | 2019-11-08 | 点击律(上海)网络科技有限公司 | 一种基于双向映射的检索方法和系统 |
CN105824938A (zh) * | 2016-03-18 | 2016-08-03 | 点击律(上海)网络科技有限公司 | 一种基于双向映射的检索方法和系统 |
WO2017222410A1 (ru) * | 2016-06-20 | 2017-12-28 | Общество с ограниченной ответственностью "ЭсДиАй Рисёчь" | Способ семантического поиска в объектно-процессной модели данных |
CN107423287A (zh) * | 2017-07-05 | 2017-12-01 | 华中师范大学 | 平面几何证明题自动解答方法及系统 |
CN110110078A (zh) * | 2018-01-11 | 2019-08-09 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110110078B (zh) * | 2018-01-11 | 2024-04-30 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN109684376A (zh) * | 2018-12-11 | 2019-04-26 | 孙炜 | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 |
US10628743B1 (en) | 2019-01-24 | 2020-04-21 | Andrew R. Kalukin | Automated ontology system |
Also Published As
Publication number | Publication date |
---|---|
CN103116574B (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103116574B (zh) | 从自然语言文本挖掘领域过程本体的方法 | |
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
CN107368468B (zh) | 一种运维知识图谱的生成方法及系统 | |
CN109739994B (zh) | 一种基于参考文档的api知识图谱构建方法 | |
CN102033748B (zh) | 一种数据处理流程代码的生成方法 | |
Li et al. | Learning ontology from relational database | |
CN107798387B (zh) | 一种适用于高端装备全生命周期的知识服务系统及方法 | |
CN105117387A (zh) | 一种智能机器人交互系统 | |
Hajmoosaei et al. | Museum ontology-based metadata | |
CN111159427B (zh) | 一种基于众包的知识图谱构建方法及系统 | |
Yongsiriwit et al. | A semantic framework for configurable business process as a service in the cloud | |
Wątróbski | Ontology learning methods from text-an extensive knowledge-based approach | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
Rani et al. | A survey of tools for social network analysis | |
CN102663108A (zh) | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 | |
Soylu et al. | Towards exploiting query history for adaptive ontology-based visual query formulation | |
Schaaf et al. | Semantic complex event processing | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN105354339A (zh) | 基于上下文的内容个性化提供方法 | |
JP2017037544A (ja) | 未来シナリオ生成装置及び方法、並びにコンピュータプログラム | |
Czarnecki et al. | Ontologies vs. rules—comparison of methods of knowledge representation based on the example of IT services management | |
Bizid et al. | Integration of heterogeneous spatial databases for disaster management | |
US20140067874A1 (en) | Performing predictive analysis | |
Rodríguez et al. | Unsupervised learning for detecting refactoring opportunities in service-oriented applications | |
CN104111965B (zh) | 基于差别矩阵的ogc地理信息服务描述词汇约简方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Zhong Xiuqin Document name: payment instructions |