CN112199960B

CN112199960B - 一种标准知识元粒度解析系统

Info

Publication number: CN112199960B
Application number: CN202011263652.6A
Authority: CN
Inventors: 王兆君; 金震; 李明
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-05-25
Anticipated expiration: 2040-11-12
Also published as: CN112199960A

Abstract

本发明涉及知识元解析系统技术领域，具体为一种标准知识元粒度解析系统，包括：知识元规则建立模块，用于知识元抽取规则的建立；知识元抽取模块，通于对标准中的知识元进行识别、理解、筛选和规范化，并对数据标准中的各个知识元进行抽取；知识链规则建立模块，基于预置规则对所述知识元抽取模块抽取的知识元进行动态链接；知识链展示模块，通过知识链管理，对不同类型标准的知识链进行关联查询和引用查询；知识链结构化展现模块，用于通过知识链规则将知识链展现给用户。本发明根据预定规则自动解析标准的知识元，减少人为干预，大幅提升准确性和速度，本系统自动进行知识元的解析，保证解析结果颗粒度一致，方便获取结果，提高应用的便利性。

Description

一种标准知识元粒度解析系统

技术领域

本发明涉及一种知识元解析系统，特别是涉及一种标准知识元粒度解析系统，属于知识元解析系统技术领域。

背景技术

针对标准的知识元抽取和展示，目前比较成熟的应用是人工将标准中可以结构化的信息录入到信息系统中，以便在用到相关信息时，用户可以快速调用相关信息进行参考或者进行相关业务的控制。

现有的知识元粒度解析系统存在的问题：

1、采用人工方式将标准结构化，需要较大的人力投入，并且速度较慢、出错率较高；

2、采用人工方式将标准结构化，知识元的颗粒度会受到操作人员的主观影响，难以统一，在应用到相关信息时，用户往往还需要从颗粒度不一的信息中再进行一次加工，因此为后续利用带来不便。

发明内容

本发明的目的是提供一种标准知识元粒度解析系统，根据预定规则自动解析标准的知识元，可以减少人为干预，大幅提升准确性和速度，并且可以降低人工工作强度，解放劳动力，本系统自动进行知识元的解析，可以保证解析结果颗粒度一致，方便获取结果，提高应用的便利性。

为了达到上述目的，本发明采用的主要技术方案包括：

一种标准知识元粒度解析系统，包括如下步骤：

S1：知识元规则建立模块，用于知识元抽取规则的建立；

S2：知识元抽取模块，构建知识元抽取功能，通于对标准中的知识元进行识别、理解、筛选和规范化，并对数据标准中的各个知识元进行抽取；

S3：知识链规则建立模块，基于预置规则对所述知识元抽取模块抽取的知识元进行动态链接；

S4：知识链展示模块，通过知识链管理，对不同类型标准的知识链进行关联查询和引用查询；

S5：知识链结构化展现模块，用于通过知识链规则将知识链展现给用户。

优选的，所述知识元抽取模块支持从篇章层次到句段层次进行抽取。

优选的，所述知识元抽取模块用于抽取多种格式的知识元数据，所述知识元抽取模块抽取的知识元数据包括结构化数据、半结构化数据和纯文本数据，所述结构化数据包括链接数据和数据库，所述半结构化数据包括表格、列表和Infobox，所述纯文本数据包括TXT。

优选的，所述知识元抽取模块用于知识元抽取过程中定义知识元类型和知识元划分颗粒度。

优选的，所述知识元抽取模块基于自然语言分析算法自动抽取数据中的知识元，所述知识元抽取规则模块为预先设定规则或抽取时设定规则，所述知识元抽取模块抽取的知识元存储在所述数据库中。

优选的，所述知识链规则模块通过自定义建立，基于链接字段存在关系的所述知识元，形成所述知识链。

优选的，所述知识链结构化展现模块基于用户的需求进行结构化展示，所述知识链结构化展现模块包括精确匹配展现、模糊匹配展现和递进查询。

优选的，所述知识链结构化展现模块展现过程中的知识元数据转化为其它格式的文件，所述其它格式的文件包括XML文档和EXCEL文档。

优选的，所述知识元抽取模块实现知识元抽取的过程包括：

A1、确定知识元抽取规则；

将预先设定的抽取规则记为A，表示为：

A＝{α_i}，i＝1，2，……

其中，α_i表示所述预先设定的第i条抽取规则；

A2、根据下述公式对所述预先设定的抽取规则进行判断；

上述公式中，w_ij表示所述预先设定的第i条抽取规则与第j条抽取规则重合度，α_ik表示所述预先设定的第i条抽取规则中的第k个属性，α_jk表示所述预先设定的第j条抽取规则中的第k个属性；

A3、根据所述预先设定的抽取规则的判断结果进行抽取；

当存在w_ij大于预设阈值时，根据下述公式对知识元进行抽取；

C₁＝{β_k|sim(α₁，β_k)＞99％}，β_k∈Ω

C₂＝{β_k|sim(α₂，β_k)＞99％}，β_k∈Ω-C₁

……

上述公式中，C₁表示所述预先设定的第1条抽取规则抽取的知识元，C₂表示所述预先设定的第2条抽取规则抽取的知识元，β_k表示第k个知识元，Ω表示知识元集合，sim(α₁，β_k)表示第k个知识元与预先设定的第1条抽取规则的复合度，sim(α₂，β_k)表示第k个知识元与预先设定的第2条抽取规则的复合度；

当任意w_ij均不大于预设阈值时，根据下述公式对知识元进行抽取；

C₁＝{β_k|sim(α₁，β_k)＞99％}，β_k∈Ω

C₂＝{β_k|sim(α₂，β_k)＞99％}，β_k∈Ω

……

上述公式中，C₁表示所述预先设定的第1条抽取规则抽取的知识元，C₂表示所述预先设定的第2条抽取规则抽取的知识元，β_k表示第k个知识元，Ω表示知识元集合，sim(α₁，β_k)表示第k个知识元与预先设定的第1条抽取规则的复合度，sim(α₂,β_k)表示第k个知识元与预先设定的第2条抽取规则的复合度；

A4、将抽取的知识元存储在所述数据库中。

本发明至少具备以下有益效果：

1、本系统根据预定规则自动解析标准的知识元，可以减少人为干预，大幅提升准确性和速度，并且可以降低人工工作强度，解放劳动力。

2、本系统自动进行知识元的解析，可以保证解析结果颗粒度一致，在应用这些数据时，可以更方便的获取到结果，提高应用的便利性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的系统图；

图2为本发明的知识元抽取模块示意图；

图3为本发明的EXCEL文档示意图；

图4为本发明的知识链展示模块示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

如图1-图4所示，本实施例提供的标准知识元粒度解析系统，包括如下步骤：

S1：知识元规则建立模块，用于知识元抽取规则的建立，知识元抽取规则模块为预先设定规则或抽取时设定规则，抽取过程中通过规则的完善可以提高抽取的速度和准确性，所谓知识元，是指不可再分割的具有完备知识表达的知识单位，从类型上分，包括概念知识元、事实知识元和数值型知识元等；

知识元可以归纳出的如下特性：

1、知识元是显性知识的最小可控单位，所谓显性知识，是相较于存在于人脑中的隐性知识而言的，能用文字和数字表达出来，容易以硬数据的形式交流和共享，并且经编辑整理的知识，显性知识是以一定的形式记载在一定的载体上，如文献等，显性知识载体上的内容是诸多知识元的组合，人们对知识的控制还停留在文献的层次，使得文献内包含的知识元没有得到应有的揭示，也就得不到应有的利用；

2、知识元是完备的，即一个知识元在逻辑上是完整的，能表达一个完整的事实、原理、方法、技巧等；

3、知识元是有一定结构的，而且由于这种结构性，导致了知识表达的一系列方法仍对表达知识元适用，所以，也可以说，知识元是可以表达的；

4、众多的知识元通过一定的语义连接在一起，可以导致知识价值的增值，甚至是催生新的知识，通过知识元的链接和发掘各知识元的相关联系，是知识元服务的重要手段和目的，以此来揭示知识元之间的各种关联，得以创造新的知识；

5、数据仓库和数据挖掘等原理和技术仍适用于对知识元的存储和利用；

S2：知识元抽取模块，构建知识元抽取功能，通过对标准中的知识元进行识别、理解、筛选和规范化，并对数据标准中的各个知识元进行抽取，知识元抽取模块支持从篇章层次到句段层次进行抽取，实现标准在知识元层级的组织、管理和利用，知识元抽取模块用于抽取多种格式的知识元数据，知识元抽取模块抽取的知识元数据包括结构化数据、半结构化数据和纯文本数据，结构化数据包括链接数据和数据库，半结构化数据包括表格、列表和Infobox，表格，又称为表，既是一种可视化交流模式，又是一种组织整理数据的手段，人们在通讯交流、科学研究以及数据分析活动当中广泛采用着形形色色的表格，各种表格常常会出现在印刷介质、手写记录、计算机软件、建筑装饰、交通标志等许许多多地方，随着上下文的不同，用来确切描述表格的惯例和术语也会有所变化，此外，在种类、结构、灵活性、标注法、表达方法以及使用方面，不同的表格之间也炯然各异，在各种书籍和技术文章当中，表格通常放在带有编号和标题的浮动区域内，以此区别于文章的正文部分，表格应用于各种软件中，有表格应用软件也有表格控件，典型的像Office Word，Excel，表格是最常用的数据处理方式之一，主要用于输入、输出、显示、处理和打印数据，可以制作各种复杂的表格文档，甚至能帮助用户进行复杂的统计运算和图表化展示等。表格控件还可常用于数据库中数据的呈现和编辑、数据录入界面设计、数据交换、数据报表及分发等，比如Spread，ComponentOne的FlexGrid；以表格为容器，装载着文字或图表的一种形式，叫列表，在互联网发展的同时，还衍生了一种在以网上形式发表的列表，简称“网表”，列表是一种数据项构成的有限序列，即按照一定的线性顺序，排列而成的数据项的集合，在这种数据结构上进行的基本操作包括对元素的的查找、插入和删除，列表的两种主要表现是数组和链表，栈和队列是两种特殊类型的列表；纯文本数据包括TXT，纯文本文档，就是没有任何文本修饰的，没有任何粗体，下划线，斜体，图形，符号或特殊字符及特殊打印格式的文本，只保存文本，不保存其格式设置。将所有的分节符、分页符、新行字符转换为段落标记，纯文本文档包含内容：1、用ANSI字符设置：只有在目标程序无法阅读任何其他有效的文件格式时才选择这种格式；2、常见的纯文本格式文件的扩展名：TXT、HTM、ASP、BAT、C、BAS、PRG、CMD等；3、与纯文本格式对应的有富文本格式：RTF是RICH TEXT FORMAT的缩写，意即多文本格式，这是一种类似DOC格式的文件，有很好的兼容性，使用Windows“附件”中的“写字板”就能打开并进行编辑，使用“写字板”打开一个RTF格式文件时，将看到文件的内容；如果要查看RTF格式文件的源代码，只要使用“记事本”将它打开就行了，完全可以像编辑HTML文件一样，使用“记事本”来编辑RTF格式文件对普通用户而言，RTF格式是一个的文件格式转换工具，用于在不同应用程序之间进行格式化文本文档的传送，rtf文件和doc文件的功能几乎一样，唯一不同的是rtf不支持宏，而doc则可以，所以如果不需要用到宏的话建议使用rtf格式，这样可以避免宏病毒；4、纯文本格式的编辑器：常用的有windows自带的记事本，vi，TED Notepad，TXTediter，Notepad++，Quickpad等；5、认定纯文本格式的标准：全世界计算机上最基本的编码表是ASCII码，它是7个bit的编码表，用一个字节表示的话，最高位必须为零。其本意是用二进制码代表26个大小写的字符，以及数字符号0-9的字符，还有一些标点符号等，这些符号用于记录你的键盘输入的符号，如果将这些符号送显示的话，显示器硬件会根据你的ASCII码显示出相应的符号，另外，在ASCII码中，还定义了几个基本的控制符号，如回车、换行等，这些控制符号送到显示器的话，不会显示什么字符了，而是控制显示的方式，如将光标回到最左面并下移一行并下，知识元抽取模块抽取的知识元存储在数据库中，作为知识元利用的数据源，知识元抽取模块用于知识元抽取过程中定义知识元类型和知识元划分颗粒度；

S3：知识链规则建立模块，基于预置规则对知识元抽取模块抽取的知识元进行动态链接，比如由于标准的版本更新而导致的某些知识元的纵向变化、不同地区之间适用的标准的知识元的横向对比等，知识元抽取模块基于自然语言分析算法自动抽取数据中的知识元，知识链规则通过自定义建立，基于链接字段存在关系的知识元，形成知识链，知识链的构建可以更加快速便捷地发掘知识元的变化，为标准的选择、管理、利用带来便利，知识链概念的提出对于知识型企业有重要意义，它揭示企业的经营活动不再是以物流活动为中心而是以知识流的活动为中心，围绕知识的创新而展开，知识链功能特征：

1、知识链具有传播性；

2、知识链具有动态性；

3、知识链具有制衡性；

4、知识链具有收益递增性；

知识链是一种思维方法，在不同知识间，通过知识的相关、相似性进行链接，帮助思维进行推进与跨越，帮助学生、工作者提高思考能力，从而提高解题能力，与处理工作上新问题的能力；

S4：知识链展示模块，通过知识链管理，对不同类型标准的知识链进行关联查询和引用查询，发现知识元之间的替代关系、修改关系、引用关系等，在关联子查询中，对于外部查询返回的每一行数据，内部查询都要执行一次，另外，在关联子查询中是信息流是双向的，外部查询的每行数据传递一个值给子查询，然后子查询为每一行数据执行一次并返回它的记录。然后，外部查询根据返回的记录做出决策，关联子查询与嵌套子查询不同的是，信息传播是双向而不是单向的，在嵌套子查询中，仅处理内部查询一次，并向外部查询传递信息，本质上提供相同值或者列出录入的清单，但是内部查询利用关联子查询涉及外部查询提供的信息，反之亦然，这种说法似乎有点令人混淆，但它可以分为三步进行处理：

1、外部查询得到一条记录并传递到内部查询中；

2、内部查询基于输入值执行；

3、内部查询把返回值输出到外部查询中，并用这些值结束内部查询；

S5：知识链结构化展现模块，用于通过知识链规则将知识链展现给用户，知识元链接，是以知识网络中心为基础，对作者、机构、刊名、关键词以及相关作者、相关机构、相关关键词等设置链接，通过这些链接可检索知识网络中心配制的数据库的相应字段，获取检索结果，又称为知识链接，知识链结构化展现基于用户的需求进行结构化展示，知识链结构化展现模块包括精确匹配展现、模糊匹配展现和递进查询，用户还可以根据习惯和业务需要自定义展示风格，知识链结构化展现模块展现过程中的知识元数据转化为其它格式的文件，其它格式的文件包括XML文档和EXCEL文档；

XML文档为可扩展标记语言，标准通用标记语言的子集，简称XML，是一种用于标记电子文件使其具有结构性的标记语言，可扩展标记语言与Access，Oracle和SQL Server等数据库不同，数据库提供了更强有力的数据存储和分析能力，例如：数据索引、排序、查找、相关一致性等，可扩展标记语言仅仅是存储数据，事实上它与其他数据表现形式最大的不同是：可扩展标记语言极其简单，这是一个看上去有点琐细的优点，但正是这点使它与众不同，XML的简单易于在任何应用程序中读/写数据，这使XML很快成为数据交换的唯一公共语言，虽然不同的应用软件也支持其他的数据交换格式，但不久之后它们都将支持XML，那就意味着程序可以更容易的与Windows、Mac OS、Linux以及其他平台下产生的信息结合，然后可以很容易加载XML数据到程序中并分析它，并以XML格式输出结果；

XML具有以下特点：

1、XML可以从HTML中分离数据，即能够在HTML文件之外将数据存储在XML文档中，这样可以使开发者集中精力使用HTML做好数据的显示和布局，并确保数据改动时不会导致HTML文件也需要改动，从而方便维护页面，XML也能够将数据以“数据岛”的形式存储在HTML页面中，开发者依然可以把精力集中到使用HTML格式化和显示数据上；

2、XML可用于交换数据，基于XML可以在不兼容的系统之间交换数据，计算机系统和数据库系统所存储的数据有多种形式，对于开发者来说，最耗时间的工作就是在遍布网络的系统之间交换数据，把数据转换为XML格式存储将大大减少交换数据时的复杂性，还可以使这些数据能被不同的程序读取；

3、XML可应用于B2B中，例如在网络中交换金融信息，目前XML正成为遍布网络的商业系统之间交换信息所使用的主要语言，许多与B2B有关的完全基于XML的应用程序正在开发中；

4、利用XML可以共享数据，XML数据以纯文本格式存储，这使得XML更易读、更便于记录、更便于调试，使不同系统、不同程序之间的数据共享变得更加简单；

5、XML可以充分利用数据，XML是与软件、硬件和应用程序无关的，数据可以被更多的用户、设备所利用，而不仅仅限于基于HTML标准的浏览器。其他客户端和应用程序可以把XML文档作为数据源来处理，就像操作数据库一样，XML的数据可以被各种各样的“阅读器”处理；

6、XML可以用于创建新的语言，比如，WAP和WML语言都是由XML发展来的，WML是用于标识运行于手持设备上的Intemet程序的工具，它就采用了XML的标准；

总之，XML使用一个简单而又灵活的标准格式，为基于Web的应用提供了一个描述数据和交换数据的有效手段，但是，XML并非是用来取代HTML的，HTML着重如何描述将文件显示在浏览器中，而XML与SGML相近，它着重描述如何将数据以结构化方式表示；

Excel文档包括：

1、工作簿，工作簿是计算和存储数据的文件，也就是通常意义上的Excel文件，每一个工作簿可由一个或多个工作表组成，在默认的情况下是由3个工作表组成的工作表；

2、工作表，它是工作簿的一部分，也称作电子报表。

本系统根据预定规则自动解析标准的知识元，可以减少人为干预，大幅提升准确性和速度，并且可以降低人工工作强度，解放劳动力；

系统自动进行知识元的解析，可以保证解析结果颗粒度一致，在应用这些数据时，可以更方便的获取到结果，提高应用的便利性。

如图1和图4所示，本实施例提供的标准知识元粒度解析系统的原理如下：知识元规则建立，用于知识元抽取规则的建立，知识元抽取规则可以预先设定，也可以抽取时设定，知识元规则建立完成后，然后进行知识元抽取，构建知识元抽取功能，通于对标准中的知识进行识别、理解、筛选和规范化，并对数据标准中的各个知识元进行抽取，并进行持久化，知识元抽取支持从篇章层次到句段层次，知识元抽取用于抽取多种格式的知识元数据，知识元抽取的知识元存储在数据库中，作为知识元利用的数据源，知识元抽取用于知识元抽取过程中定义知识元类型和知识元划分颗粒度，然后对抽取的知识元进行知识链规则建立，基于预置规则对知识元抽取的知识元进行动态链接，知识元抽取基于自然语言分析算法自动抽取数据中的知识元，知识链规则通过自定义建立，基于链接字段存在关系的知识元，形成知识链，知识链展示，通过知识链管理，对不同类型标准的关联查询和引用查询，知识链规则建立完成后进行知识链结构化展现，用于知识链通过知识链规则展现给用户，知识链结构化展现基于用户的需求进行结构化展示，知识链结构化展现包括精确匹配展现、模糊匹配展现和递进查询，用户还可以根据习惯和业务需要自定义展示风格，知识链结构化展现过程中的知识元数据转化为其它格式的文件，本系统根据预定规则自动解析标准的知识元，可以减少人为干预，大幅提升准确性和速度，并且可以降低人工工作强度，解放劳动力，系统自动进行知识元的解析，可以保证解析结果颗粒度一致，在应用这些数据时，可以更方便的获取到结果，提高应用的便利性。

本实施例提供的标准知识元粒度解析系统中，所述知识元抽取模块实现知识元抽取的过程包括：

A1、确定知识元抽取规则；

将预先设定的抽取规则记为A，表示为：

A＝{α_i}，i＝1，2，……

其中，α_i表示所述预先设定的第i条抽取规则；

A2、根据下述公式对所述预先设定的抽取规则进行判断；

A3、根据所述预先设定的抽取规则的判断结果进行抽取；

C₁＝{β_k|sim(α₁，β_k)＞99％}，β_k∈Ω

C₂＝{β_k|sim(α₂，β_k)＞99％}，β_k∈Ω-C₁

……

C₁＝{β_k|sim(α₁，β_k)＞99％}，β_k∈Ω

C₂＝{β_k|sim(α₂，β_k)＞99％}，β_k∈Ω

……

A4、将抽取的知识元存储在所述数据库中。

通过上述技术方案所述知识元抽取模块进行知识元抽取，不仅能够将符合抽取规则的知识元抽取出来，而且能够将抽取出来的知识元存储到数据库中，此外在根据抽取规则进行知识元抽取时，先对抽取规则进行判断，然后根据判断结果进行抽取，使得抽取的结果更加精确，还避免了抽取过程中遗漏知识元的现象，进而提高整个过程的准确性。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的商品或者系统中还存在另外的相同要素。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。