CN110008340A

CN110008340A - 一种多源文本知识表示、获取与融合系统

Info

Publication number: CN110008340A
Application number: CN201910235149.0A
Authority: CN
Inventors: 雷玉霞; 田晶莹; 陈娟; 韩永花; 闫昱姝
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-12

Abstract

本发明公开了一种多源文本知识表示、获取与融合系统，具体涉及知识库中自然语言知识分类领域。其解决了现有技术中的全智能系统自主获取知识的知识库建立方式，自主进行知识的检索、获取和合并技术相对匮乏，建立好的知识库准确率和精确度相对较低，全人工操作的方式会耗费大量的资源，出错率较高的不足。该系统从资源消耗和知识库准确性两者中找到一个平衡点，具体包括可视化界面、控制按钮和知识合并界面，控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮，该系统从已知知识源中对文本分割保存，抽取关键字，利用关键字进行知识填充，对知识消歧、校验后存储生成知识库。

Description

一种多源文本知识表示、获取与融合系统

技术领域

本发明涉及知识库中自然语言知识分类领域，具体涉及一种多源文本知识表示、获取与融合系统。

背景技术

自然语言知识服务系统是人工智能中一个十分活跃的分支领域。一个自然语言知识服务系统就涉及到知识工程、数据库技术、人-机界面设计、大数据分析技术和个性化推荐服务等多个方面。

大量实践证明要使计算机系统真正具有智能不仅需要大型的知识库，更需要知识之间广泛而有意义的联通。因此，有如下三个关键点：一是作为查询系统的知识来源，首先要建立精度高、粒度小、协调且具有良好联通性的领域知识库；二是开发友好而美观的知识界面；三是查询系统应具有强大的知识处理能力，以提供给用户高质量的知识服务。为此，要解决如下三个关键技术问题：一是在知识获取阶段，如何在大数据背景下对知识进行有效地获取、修正、精简和整合，特别是如何在“知识孤岛”之间建立“由此及彼”的桥梁；二是在知识服务阶段，如何建立用户模型、如何对原有知识库中的知识进行广泛而有意义的重组和联通，以满足不同用户的不同层次的复杂的知识需求；三是如何通过深度学习等技术提供给用户主动的知识服务，例如个性化推荐服务。

随着科技的发展，人工智能越来越多的应用到人们的生活中，智能系统获取自然语言知识，进行学习和理解是人工智能发展的重要部分。当下，智能系统学习自然语言的方法有多种，大致分为智能化方式、半智能化方式和全人工操作方式。智能化方式是完全利用智能系统自主建立知识体系，完成文本知识获取，建立知识库；半智能化方式是通过人工操作和系统相结合，人机交互进行文本知识获取，建立知识库；全人工操作方式则是通过完全人工输入，使系统进行文本知识获取，建立知识库。

全智能系统自主获取知识是最理想的知识库建立方式，能够最大程度的节省资源，并且保证知识库建立的准确性，但是系统建立过程中，智能系统自主进行知识的检索、获取和合并技术相对匮乏，建立好的知识库准确率和精确度相对较低。

全人工操作的方式则完全利用人工输入来建立知识库，这种方式会耗费大量的资源，而且出错率较高。

发明内容

本发明的目的是针对上述不足，提出了一种能够从资源消耗和知识库准确性两者中找到一个平衡点，在保证准确率的前提下，最大可能的节省资源半智能化方式的多源文本知识表示、获取与融合系统。

本发明具体采用如下技术方案：

一种多源文本知识表示、获取与融合系统，包括可视化界面、控制按钮和知识合并界面，控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮，其特征在于，该系统从已知知识源中对文本分割保存，抽取关键字，利用关键字进行知识填充，对知识消歧、校验后存储生成知识库，具体包括以下步骤：

11.文本知识分割：将对话框的初始化函数OnInitDialog中对文字以“。”为分隔符进行分割，分割结果存储到字符串数组中；

12.关键字搜索、获取、显示和传递：根据句式特点，抽取关键字；

其中，搜索关键字按钮的单击函数OnKey()用来从知识来源文字中获取关键字，并将关键字在相应的编辑框中显示出来；

知识识别按钮的单击函数OnIdenity()用来从知识源中获取关键字对应的知识内容，并将其在相应的编辑框中显示出来；

知识合并按钮的单击函数Onmerge()用来调用程序的另外一个对话框CMergeDlg，并将知识分类的结果作为传递到CMergeDlg中；

13.文本知识扩充性合并：获取知识源一按钮的单击函数Onone()用来接收CMatchDlg对话框的处理结果，并将其显示到相应的编辑框中；获取知识源二按钮的单击函数Onsecond()用来对第二段文字进行分割，关键字抽取及知识获取，将处理结果显示相应的编辑框中；合并知识源按钮的单击函数Onmerge()用来合并两个两段文字的处理结果，并将最终的内容显示到最终的编辑框中；

14.将合并后的知识存储建立知识库。

优选地，所述可化界面包括显示知识来源控件、关键字控件和知识获取控件，知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。

本发明具有如下有益效果：

本系统从资源消耗和知识库准确性两者中找到一个平衡点，在保证准确率的前提下，最大可能的节省资源；

结合多种知识源的特点，提出从多种知识源获取知识的半自动/自动化方法，并提出知识修正、精简和整合的方法，在“知识孤岛”之间建立“由此及彼”的桥梁，力求创建一个具有良好联通性的领域专业知识；探索分布式知识获取方法，以得到一致的、精度较高的和粒度较小的领域知识。

附图说明

图1为该系统的工作流程框图；

图2为以某高校的一端自然语言文字简介文本知识内容进行文本知识表示示意图；

图3为以某高校的一端自然语言文字简介文本知识内容进行关键字抽取示意图；

图4为以某高校的一端自然语言文字简介文本知识内容进行关键字划分的知识类别，知识的获取与填充示意图；

图5为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果示意图

图6为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果示意图；

图7为以某高校的一端自然语言文字简介文本知识内容为例比较两段文字的处理结果，对知识进行合并入库示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

如图1所示，一种多源文本知识表示、获取与融合系统，包括可视化界面、控制按钮和知识合并界面，控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮，其特征在于，该系统从已知知识源中对文本分割保存，抽取关键字，利用关键字进行知识填充，对知识消歧、校验后存储生成知识库，具体包括以下步骤：

14.将合并后的知识存储建立知识库。

可化界面包括显示知识来源控件、关键字控件和知识获取控件，知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。

如图2-图7所示，以上述系统对某高校的将一段关于高校的自然语言文字进行通过标志性的文字进行分割，对知识进行抽取分类和存储，并实现知识的扩充性合并：

如图2所示，文本知识内容：

介绍的学校校名是***。学校的创建时间是1955年。学校的校训是学而不厌，诲人不倦。学校的校风是勤奋，朴实，团结，进取。学校的校区有**、**。学校的总面积是2653.41亩。校舍的建筑面积是102.5万余平方米。学校的固定资产总额是13.1亿元。学校的教学科研仪器设备总值是1.90亿元。学校的在校本专科学生有25939人。学校的在读博士、硕士研究生有3271人。学校的成人教育在读生有13584人。学校的外国留学生是68人。

创建时间是1955年。学校的类型是普通本科。学校的网址是***。学校的邮箱是***。学校的校训是学而不厌，诲人不倦。学校的校区有**、**。学校的总面积是2653.41亩。学校的名誉校长有**。学校的现任校长是**。

如图3所示关键字抽取：

第一段文字可抽取到如下关键字：学校校名、创建时间、校训、校风、校区、总面积、建筑面积、固定资产总额、教学科研仪器设备总值、在校本专科学生、在读博士硕士研究生、成人教育在读生、外国留学生。

第二段文字可抽取到如下关键字：创建时间、类型、网址、邮箱、校训、校区、总面积、名誉校长、现任校长。

如图4所示，知识获取：对应于关键字划分的知识类别，进行知识的获取与填充。

第一段文字处理结果如下：学校校名：***、创建时间：1955年、校训：学而不厌，诲人不倦、校风：勤奋，朴实，团结，进取、校区：**，**、总面积：2653.41亩、建筑面积：102.5万余平方米、固定资产总额：13.1亿元、教学科研仪器设备总值：1.90亿元、在校本专科学生：25939人、在读博士硕士研究生：3271人、成人教育在读生：13584人、外国留学生：68人。

第二段文字可抽取到如下关键字：创建时间：1955年、类型：普通本科、网址：***、邮箱：***、校训：学而不厌，诲人不倦、校区：**，**、总面积：2653.41亩、名誉校长：**、现任校长：**。

如图5-图7所示，知识合并：比较两段文字的处理结果，对知识进行合并入库。

学校校名：***、创建时间：1955年、校训：学而不厌，诲人不倦、校风：勤奋，朴实，团结，进取、校区：曲阜，日照、总面积：2653.41亩、建筑面积：102.5万余平方米、固定资产总额：13.1亿元、教学科研仪器设备总值：1.90亿元、在校本专科学生：25939人、在读博士硕士研究生：3271人、成人教育在读生：13584人、外国留学生：68人、创建时间：1955年、类型：普通本科、网址：***、邮箱：***、校训：学而不厌，诲人不倦、校区：曲阜，日照、总面积：2653.41亩、名誉校长：**、现任校长：**。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种多源文本知识表示、获取与融合系统，其特征在于，包括可视化界面、控制按钮和知识合并界面，控制按钮包括搜索关键字按钮、知识识别按钮、知识合并按钮和退出按钮，其特征在于，该系统从已知知识源中对文本分割保存，抽取关键字，利用关键字进行知识填充，对知识消歧、校验后存储生成知识库，具体包括以下步骤：

14.将合并后的知识存储建立知识库。

2.如权利要求1所述的一种多源文本知识表示、获取与融合系统，其特征在于，所述可化界面包括显示知识来源控件、关键字控件和知识获取控件，知识合并界面包括显示两个知识来源内容显示控件进、知识合并结果显示控件、获取知识源一按钮、获取知识源二按钮、合并知识源按钮和退出按钮。