CN110008340A - 一种多源文本知识表示、获取与融合系统 - Google Patents
一种多源文本知识表示、获取与融合系统 Download PDFInfo
- Publication number
- CN110008340A CN110008340A CN201910235149.0A CN201910235149A CN110008340A CN 110008340 A CN110008340 A CN 110008340A CN 201910235149 A CN201910235149 A CN 201910235149A CN 110008340 A CN110008340 A CN 110008340A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- button
- source
- text
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多源文本知识表示、获取与融合系统,具体涉及知识库中自然语言知识分类领域。其解决了现有技术中的全智能系统自主获取知识的知识库建立方式,自主进行知识的检索、获取和合并技术相对匮乏,建立好的知识库准确率和精确度相对较低,全人工操作的方式会耗费大量的资源,出错率较高的不足。该系统从资源消耗和知识库准确性两者中找到一个平衡点,具体包括可视化界面、控制按钮和知识合并界面,控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮,该系统从已知知识源中对文本分割保存,抽取关键字,利用关键字进行知识填充,对知识消歧、校验后存储生成知识库。
Description
技术领域
本发明涉及知识库中自然语言知识分类领域,具体涉及一种多源文本知识表示、获取与融合系统。
背景技术
自然语言知识服务系统是人工智能中一个十分活跃的分支领域。一个自然语言知识服务系统就涉及到知识工程、数据库技术、人-机界面设计、大数据分析技术和个性化推荐服务等多个方面。
大量实践证明要使计算机系统真正具有智能不仅需要大型的知识库,更需要知识之间广泛而有意义的联通。因此,有如下三个关键点:一是作为查询系统的知识来源,首先要建立精度高、粒度小、协调且具有良好联通性的领域知识库;二是开发友好而美观的知识界面;三是查询系统应具有强大的知识处理能力,以提供给用户高质量的知识服务。为此,要解决如下三个关键技术问题:一是在知识获取阶段,如何在大数据背景下对知识进行有效地获取、修正、精简和整合,特别是如何在“知识孤岛”之间建立“由此及彼”的桥梁;二是在知识服务阶段,如何建立用户模型、如何对原有知识库中的知识进行广泛而有意义的重组和联通,以满足不同用户的不同层次的复杂的知识需求;三是如何通过深度学习等技术提供给用户主动的知识服务,例如个性化推荐服务。
随着科技的发展,人工智能越来越多的应用到人们的生活中,智能系统获取自然语言知识,进行学习和理解是人工智能发展的重要部分。当下,智能系统学习自然语言的方法有多种,大致分为智能化方式、半智能化方式和全人工操作方式。智能化方式是完全利用智能系统自主建立知识体系,完成文本知识获取,建立知识库;半智能化方式是通过人工操作和系统相结合,人机交互进行文本知识获取,建立知识库;全人工操作方式则是通过完全人工输入,使系统进行文本知识获取,建立知识库。
全智能系统自主获取知识是最理想的知识库建立方式,能够最大程度的节省资源,并且保证知识库建立的准确性,但是系统建立过程中,智能系统自主进行知识的检索、获取和合并技术相对匮乏,建立好的知识库准确率和精确度相对较低。
全人工操作的方式则完全利用人工输入来建立知识库,这种方式会耗费大量的资源,而且出错率较高。
发明内容
本发明的目的是针对上述不足,提出了一种能够从资源消耗和知识库准确性两者中找到一个平衡点,在保证准确率的前提下,最大可能的节省资源半智能化方式的多源文本知识表示、获取与融合系统。
本发明具体采用如下技术方案:
一种多源文本知识表示、获取与融合系统,包括可视化界面、控制按钮和知识合并界面,控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮,其特征在于,该系统从已知知识源中对文本分割保存,抽取关键字,利用关键字进行知识填充,对知识消歧、校验后存储生成知识库,具体包括以下步骤:
11.文本知识分割:将对话框的初始化函数OnInitDialog中对文字以“。”为分隔符进行分割,分割结果存储到字符串数组中;
12.关键字搜索、获取、显示和传递:根据句式特点,抽取关键字;
其中,搜索关键字按钮的单击函数OnKey()用来从知识来源文字中获取关键字,并将关键字在相应的编辑框中显示出来;
知识识别按钮的单击函数OnIdenity()用来从知识源中获取关键字对应的知识内容,并将其在相应的编辑框中显示出来;
知识合并按钮的单击函数Onmerge()用来调用程序的另外一个对话框CMergeDlg,并将知识分类的结果作为传递到CMergeDlg中;
13.文本知识扩充性合并:获取知识源一按钮的单击函数Onone()用来接收CMatchDlg对话框的处理结果,并将其显示到相应的编辑框中;获取知识源二按钮的单击函数Onsecond()用来对第二段文字进行分割,关键字抽取及知识获取,将处理结果显示相应的编辑框中;合并知识源按钮的单击函数Onmerge()用来合并两个两段文字的处理结果,并将最终的内容显示到最终的编辑框中;
14.将合并后的知识存储建立知识库。
优选地,所述可化界面包括显示知识来源控件、关键字控件和知识获取控件,知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。
本发明具有如下有益效果:
本系统从资源消耗和知识库准确性两者中找到一个平衡点,在保证准确率的前提下,最大可能的节省资源;
结合多种知识源的特点,提出从多种知识源获取知识的半自动/自动化方法,并提出知识修正、精简和整合的方法,在“知识孤岛”之间建立“由此及彼”的桥梁,力求创建一个具有良好联通性的领域专业知识;探索分布式知识获取方法,以得到一致的、精度较高的和粒度较小的领域知识。
附图说明
图1为该系统的工作流程框图;
图2为以某高校的一端自然语言文字简介文本知识内容进行文本知识表示示意图;
图3为以某高校的一端自然语言文字简介文本知识内容进行关键字抽取示意图;
图4为以某高校的一端自然语言文字简介文本知识内容进行关键字划分的知识类别,知识的获取与填充示意图;
图5为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果示意图
图6为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果示意图;
图7为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果,对知识进行合并入库示意图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图1所示,一种多源文本知识表示、获取与融合系统,包括可视化界面、控制按钮和知识合并界面,控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮,其特征在于,该系统从已知知识源中对文本分割保存,抽取关键字,利用关键字进行知识填充,对知识消歧、校验后存储生成知识库,具体包括以下步骤:
11.文本知识分割:将对话框的初始化函数OnInitDialog中对文字以“。”为分隔符进行分割,分割结果存储到字符串数组中;
12.关键字搜索、获取、显示和传递:根据句式特点,抽取关键字;
其中,搜索关键字按钮的单击函数OnKey()用来从知识来源文字中获取关键字,并将关键字在相应的编辑框中显示出来;
知识识别按钮的单击函数OnIdenity()用来从知识源中获取关键字对应的知识内容,并将其在相应的编辑框中显示出来;
知识合并按钮的单击函数Onmerge()用来调用程序的另外一个对话框CMergeDlg,并将知识分类的结果作为传递到CMergeDlg中;
13.文本知识扩充性合并:获取知识源一按钮的单击函数Onone()用来接收CMatchDlg对话框的处理结果,并将其显示到相应的编辑框中;获取知识源二按钮的单击函数Onsecond()用来对第二段文字进行分割,关键字抽取及知识获取,将处理结果显示相应的编辑框中;合并知识源按钮的单击函数Onmerge()用来合并两个两段文字的处理结果,并将最终的内容显示到最终的编辑框中;
14.将合并后的知识存储建立知识库。
可化界面包括显示知识来源控件、关键字控件和知识获取控件,知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。
如图2-图7所示,以上述系统对某高校的将一段关于高校的自然语言文字进行通过标志性的文字进行分割,对知识进行抽取分类和存储,并实现知识的扩充性合并:
如图2所示,文本知识内容:
介绍的学校校名是***。学校的创建时间是1955年。学校的校训是学而不厌,诲人不倦。学校的校风是勤奋,朴实,团结,进取。学校的校区有**、**。学校的总面积是2653.41亩。校舍的建筑面积是102.5万余平方米。学校的固定资产总额是13.1亿元。学校的教学科研仪器设备总值是1.90亿元。学校的在校本专科学生有25939人。学校的在读博士、硕士研究生有3271人。学校的成人教育在读生有13584人。学校的外国留学生是68人。
创建时间是1955年。学校的类型是普通本科。学校的网址是***。学校的邮箱是***。学校的校训是学而不厌,诲人不倦。学校的校区有**、**。学校的总面积是2653.41亩。学校的名誉校长有**。学校的现任校长是**。
如图3所示关键字抽取:
第一段文字可抽取到如下关键字:学校校名、创建时间、校训、校风、校区、总面积、建筑面积、固定资产总额、教学科研仪器设备总值、在校本专科学生、在读博士硕士研究生、成人教育在读生、外国留学生。
第二段文字可抽取到如下关键字:创建时间、类型、网址、邮箱、校训、校区、总面积、名誉校长、现任校长。
如图4所示,知识获取:对应于关键字划分的知识类别,进行知识的获取与填充。
第一段文字处理结果如下:学校校名:***、创建时间:1955年、校训:学而不厌,诲人不倦、校风:勤奋,朴实,团结,进取、校区:**,**、总面积:2653.41亩、建筑面积:102.5万余平方米、固定资产总额:13.1亿元、教学科研仪器设备总值:1.90亿元、在校本专科学生:25939人、在读博士硕士研究生:3271人、成人教育在读生:13584人、外国留学生:68人。
第二段文字可抽取到如下关键字:创建时间:1955年、类型:普通本科、网址:***、邮箱:***、校训:学而不厌,诲人不倦、校区:**,**、总面积:2653.41亩、名誉校长:**、现任校长:**。
如图5-图7所示,知识合并:比较两段文字的处理结果,对知识进行合并入库。
学校校名:***、创建时间:1955年、校训:学而不厌,诲人不倦、校风:勤奋,朴实,团结,进取、校区:曲阜,日照、总面积:2653.41亩、建筑面积:102.5万余平方米、固定资产总额:13.1亿元、教学科研仪器设备总值:1.90亿元、在校本专科学生:25939人、在读博士硕士研究生:3271人、成人教育在读生:13584人、外国留学生:68人、创建时间:1955年、类型:普通本科、网址:***、邮箱:***、校训:学而不厌,诲人不倦、校区:曲阜,日照、总面积:2653.41亩、名誉校长:**、现任校长:**。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (2)
1.一种多源文本知识表示、获取与融合系统,其特征在于,包括可视化界面、控制按钮和知识合并界面,控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮,其特征在于,该系统从已知知识源中对文本分割保存,抽取关键字,利用关键字进行知识填充,对知识消歧、校验后存储生成知识库,具体包括以下步骤:
11.文本知识分割:将对话框的初始化函数OnInitDialog中对文字以“。”为分隔符进行分割,分割结果存储到字符串数组中;
12.关键字搜索、获取、显示和传递:根据句式特点,抽取关键字;
其中,搜索关键字按钮的单击函数OnKey()用来从知识来源文字中获取关键字,并将关键字在相应的编辑框中显示出来;
知识识别按钮的单击函数OnIdenity()用来从知识源中获取关键字对应的知识内容,并将其在相应的编辑框中显示出来;
知识合并按钮的单击函数Onmerge()用来调用程序的另外一个对话框CMergeDlg,并将知识分类的结果作为传递到CMergeDlg中;
13.文本知识扩充性合并:获取知识源一按钮的单击函数Onone()用来接收CMatchDlg对话框的处理结果,并将其显示到相应的编辑框中;获取知识源二按钮的单击函数Onsecond()用来对第二段文字进行分割,关键字抽取及知识获取,将处理结果显示相应的编辑框中;合并知识源按钮的单击函数Onmerge()用来合并两个两段文字的处理结果,并将最终的内容显示到最终的编辑框中;
14.将合并后的知识存储建立知识库。
2.如权利要求1所述的一种多源文本知识表示、获取与融合系统,其特征在于,所述可化界面包括显示知识来源控件、关键字控件和知识获取控件,知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235149.0A CN110008340A (zh) | 2019-03-27 | 2019-03-27 | 一种多源文本知识表示、获取与融合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235149.0A CN110008340A (zh) | 2019-03-27 | 2019-03-27 | 一种多源文本知识表示、获取与融合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110008340A true CN110008340A (zh) | 2019-07-12 |
Family
ID=67168293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910235149.0A Pending CN110008340A (zh) | 2019-03-27 | 2019-03-27 | 一种多源文本知识表示、获取与融合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008340A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442716A (zh) * | 2019-08-05 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 智能文本数据处理方法和装置、计算设备、存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458692A (zh) * | 2007-12-14 | 2009-06-17 | 北京神州数码有限公司 | 一种战略物资行业知识库的平台及其构建方法 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN101853250A (zh) * | 2009-04-03 | 2010-10-06 | 华为技术有限公司 | 对文档进行分类的方法及装置 |
US20110191270A1 (en) * | 2010-02-02 | 2011-08-04 | Samsung Electronics Co. Ltd. | Intelligent decision supporting system and method for making intelligent decision |
US20110213749A1 (en) * | 2009-11-27 | 2011-09-01 | Thales | Method, device and system for the fusion of information originating from several sensors |
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
CN105512316A (zh) * | 2015-12-15 | 2016-04-20 | 中国科学院自动化研究所 | 一种结合移动终端的知识服务系统 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
US20180090142A1 (en) * | 2016-09-27 | 2018-03-29 | Fmr Llc | Automated software execution using intelligent speech recognition |
CN108021691A (zh) * | 2017-12-18 | 2018-05-11 | 深圳前海微众银行股份有限公司 | 答案查找方法、客服机器人以及计算机可读存储介质 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
CN109033272A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种基于概念的知识自动关联方法及装置 |
CN109101551A (zh) * | 2018-07-10 | 2018-12-28 | 广州极天信息技术股份有限公司 | 一种问答知识库的构建方法及装置 |
-
2019
- 2019-03-27 CN CN201910235149.0A patent/CN110008340A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
CN101458692A (zh) * | 2007-12-14 | 2009-06-17 | 北京神州数码有限公司 | 一种战略物资行业知识库的平台及其构建方法 |
CN101853250A (zh) * | 2009-04-03 | 2010-10-06 | 华为技术有限公司 | 对文档进行分类的方法及装置 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
US20110213749A1 (en) * | 2009-11-27 | 2011-09-01 | Thales | Method, device and system for the fusion of information originating from several sensors |
US20110191270A1 (en) * | 2010-02-02 | 2011-08-04 | Samsung Electronics Co. Ltd. | Intelligent decision supporting system and method for making intelligent decision |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
CN105512316A (zh) * | 2015-12-15 | 2016-04-20 | 中国科学院自动化研究所 | 一种结合移动终端的知识服务系统 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
US20180090142A1 (en) * | 2016-09-27 | 2018-03-29 | Fmr Llc | Automated software execution using intelligent speech recognition |
CN108021691A (zh) * | 2017-12-18 | 2018-05-11 | 深圳前海微众银行股份有限公司 | 答案查找方法、客服机器人以及计算机可读存储介质 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
CN109033272A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种基于概念的知识自动关联方法及装置 |
CN109101551A (zh) * | 2018-07-10 | 2018-12-28 | 广州极天信息技术股份有限公司 | 一种问答知识库的构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈娟 等: ""基于多文本知识源的历史知识修正与获取"", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442716A (zh) * | 2019-08-05 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 智能文本数据处理方法和装置、计算设备、存储介质 |
CN110442716B (zh) * | 2019-08-05 | 2022-08-09 | 腾讯科技(深圳)有限公司 | 智能文本数据处理方法和装置、计算设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN107004000A (zh) | 一种语料生成装置和方法 | |
CN104133848B (zh) | 藏语实体知识信息抽取方法 | |
CN100595760C (zh) | 一种获取口语词条的方法、装置以及一种输入法系统 | |
CN109829159A (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN111914074B (zh) | 基于深度学习与知识图谱的限定领域对话生成方法及系统 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN113673943B (zh) | 一种基于履历大数据的人员任免辅助决策方法及系统 | |
CN101937430A (zh) | 一种汉语句子中事件句式的抽取方法 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN110888989B (zh) | 一种智能学习平台及其构建方法 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN114218333A (zh) | 一种地质知识图谱构建方法、装置、电子设备及存储介质 | |
CN117216293A (zh) | 一种多方式查询高校档案知识图谱构建方法及管理平台 | |
CN110008340A (zh) | 一种多源文本知识表示、获取与融合系统 | |
TW201316185A (zh) | 製作知識地圖的方法 | |
CN116975403A (zh) | 内容检索模型及内容检索处理方法、装置和计算机设备 | |
CN112765359B (zh) | 一种基于少样本的文本分类方法 | |
CN114970547A (zh) | 多层级多类型的规划内容差异识别与冲突消除方法 | |
Luo | Instrumental Music Dissemination of Southwest Ethnic Minorities Based on Big Data Technology | |
Wang | Automatic Scoring of English Online Translation Based on Machine Learning Algorithm | |
MingXuan et al. | Application of Natural Language in Intelligent Media AI Writing | |
Zhou et al. | A survey on social image understanding | |
Yang | Visualization analysis of English think tank data based on genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190712 |
|
RJ01 | Rejection of invention patent application after publication |