CN109522396B

CN109522396B - 一种面向国防科技领域的知识处理方法及系统

Info

Publication number: CN109522396B
Application number: CN201811226250.1A
Authority: CN
Inventors: 晏裕生; 廖镇; 孙孟阳; 姚晗; 江洋
Original assignee: China Institute Of Marine Technology & Economy
Current assignee: China Institute Of Marine Technology & Economy
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2020-12-25
Anticipated expiration: 2038-10-22
Also published as: CN109522396A

Abstract

本发明公开一种面向国防科技领域的知识处理方法及系统。所述知识处理方法包括：获取国防科技领域的多个文本资料；从所述文本资料中提取初始的知识本体；所述初始的知识本体为三元组集合，每一个三元组都包括实体、关系和描述三个元素；对所述多个文本资料进行分词，得到多个词段；对于每个所述词段，确定对应的词段组合；将共现概率大于设定概率阈值的词段组合，确定为新的知识本体；将所述新的知识本体补充入所述初始的知识本体中，形成更新后的知识本体；所述更新后的知识本体用于国防科技领域智能问答时使用。采用本发明的知识处理方法，对国防科技领域的知识实现了系统的处理，构建了完整的知识本体，实现了国防科技领域的智能问答。

Description

一种面向国防科技领域的知识处理方法及系统

技术领域

本发明涉及国防科技领域领域，特别是涉及一种面向国防科技领域的知识处理方法及系统。

背景技术

随着现在智能问答系统的普及，对于各个领域的知识信息的处理方式越来越多。智能问答系统以一问一答形式，精确的定位用户所需要的提问知识，通过后台知识本体存储的内容，确定用户所需要的答案，然后推送给用户，完成智能问答过程。通常智能问答系统应用于一些系统或者网站中，也有一些独立的智能问答机器人。智能问答系统是将积累的无序语料信息，进行有序和科学的整理，并建立知识本体，这些知识本体可以指导语料咨询和服务信息，节约人力资源，提高信息处理的自动性，降低网站运行成本。

而对于国防科技领域，智能问答的应用受到一定程度的限制，主要是因为对于国防科技领域的知识处理没有系统的方法，导致后台知识本体的构建困难，而且构建好的知识本体也无法实时更新，对于国防科技领域智能问答的应用造成一定程度的阻碍。

发明内容

本发明的目的是提供一种面向国防科技领域的知识处理方法及系统，以对国防科技领域的知识实现系统的处理，构建完整的知识本体，以实现国防科技领域的智能问答。

为实现上述目的，本发明提供了如下方案：

一种面向国防科技领域的知识处理方法，所述知识处理方法包括：

获取国防科技领域的多个文本资料；

从所述文本资料中提取初始的知识本体；所述初始的知识本体为三元组集合，每一个三元组都包括实体、关系和描述三个元素；

对所述多个文本资料进行分词，得到多个词段；

对于每个所述词段，确定对应的词段组合；

将共现概率大于设定概率阈值的词段组合，确定为新的知识本体；

将所述新的知识本体补充入所述初始的知识本体中，形成更新后的知识本体；所述更新后的知识本体用于国防科技领域智能问答时使用。

可选的，所述从所述文本资料中提取初始的知识本体，具体包括：

从所述文本资料中识别出命名实体，完成实体抽取过程；

从国防科技领域语料库中提取实体之间的关联关系，通过关系将实体联系起来，完成关系抽取过程；

从多个数据源中获取每个实体的属性信息，形成每个实体的描述元素，完成属性抽取的过程；

根据每个命名实体、实体之间的关联关系和每个实体的属性信息，形成每个实体对应的三元组，进而形成所述初始的知识本体。

可选的，所述对于每个所述词段，确定对应的词段组合，具体包括：

对每个所述词段的上文和下文分别进行倒序排列索引，形成上下文倒排表，所述上下文倒排表包括多个词段组合。

可选的，所述将共现概率大于设定概率阈值的词段组合，确定为新的知识本体，之前还包括：

计算每个所述词段组合的信息熵；

根据所述信息熵的数值，筛选出信息熵大于设定信息熵阈值的词段组合，形成筛选后的词段组合；

将所述筛选后的词段组合在所述上下文倒排表中遍历，计算每个筛选后的词段组合的共现概率；

根据共现概率的数值，筛选出共现概率大于设定概率阈值的词段组合。

可选的，所述将共现概率大于设定概率阈值的词段组合，确定为新的知识本体，之后还包括：

将所述新的知识本体上传至专家审核系统；所述专家审核系统用于多名专家对所述新的知识本体进行审核；

获取专家的审核意见；

根据所述专家的审核意见对所述新的知识本体进行修正。

一种面向国防科技领域的知识处理系统，所述知识处理系统包括：

文本资料获取模块，用于获取国防科技领域的多个文本资料；

初始的知识本体提取模块，用于从所述文本资料中提取初始的知识本体；所述初始的知识本体为三元组集合，每一个三元组都包括实体、关系和描述三个元素；

分词模块，用于对所述多个文本资料进行分词，得到多个词段；

词段组合确定模块，用于对于每个所述词段，确定对应的词段组合；

新的知识本体确定模块，用于将共现概率大于设定概率阈值的词段组合，确定为新的知识本体；

更新后的知识本体形成模块，用于将所述新的知识本体补充入所述初始的知识本体中，形成更新后的知识本体；所述更新后的知识本体用于国防科技领域智能问答时使用。

可选的，所述初始的知识本体提取模块具体包括：

实体抽取单元，用于从所述文本资料中识别出命名实体，完成实体抽取过程；

关系抽取单元，用于从国防科技领域语料库中提取实体之间的关联关系，通过关系将实体联系起来，完成关系抽取过程；

属性抽取单元，用于从多个数据源中获取每个实体的属性信息，形成每个实体的描述元素，完成属性抽取的过程；

三元组形成单元，用于根据每个命名实体、实体之间的关联关系和每个实体的属性信息，形成每个实体对应的三元组，进而形成所述初始的知识本体。

可选的，对于每个所述词段，所述词段组合确定模块对所述词段的上文和下文分别进行倒序排列索引，形成上下文倒排表，所述上下文倒排表包括多个词段组合。

可选的，所述系统还包括：

信息熵计算模块，用于将共现概率大于设定概率阈值的词段组合，确定为新的知识本体之前，计算每个所述词段组合的信息熵；

第一筛选模块，用于根据所述信息熵的数值，筛选出信息熵大于设定信息熵阈值的词段组合，形成筛选后的词段组合；

共现概率计算模块，用于将所述筛选后的词段组合在所述上下文倒排表中遍历，计算每个筛选后的词段组合的共现概率；

第二筛选模块，用于根据共现概率的数值，筛选出共现概率大于设定概率阈值的词段组合。

可选的，所述系统还包括：

审核上传模块，用于将共现概率大于设定概率阈值的词段组合，确定为新的知识本体之后，将所述新的知识本体上传至专家审核系统；所述专家审核系统用于多名专家对所述新的知识本体进行审核；

审核意见获取模块，用于获取专家的审核意见；

修正模块，用于根据所述专家的审核意见对所述新的知识本体进行修正。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于原始材料已有内容，对国防科技领域的知识进行处理，形成知识本体，为国防科技领域的智能问答提供基础。同时，对国防科技领域的新概念词汇进行自动识别与提取，对知识本体进行进一步的补充扩展，实现了对瞬息万变的军事知识的有效管理，而且能够实现实时更新的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明面向国防科技领域的知识处理方法的流程示意图；

图2为本发明面向国防科技领域的知识处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明面向国防科技领域的知识处理方法的流程示意图。如图1所示，所述知识处理方法包括以下步骤：

步骤100：获取国防科技领域的多个文本资料。收集国防科技领域中大量文本资料。

步骤200：从文本资料中提取初始的知识本体。所述初始的知识本体为三元组集合，每一个三元组都包括实体、关系和描述三个元素。通过本体构建规则，从原始文本中提取知识本体。知识本体在信息领域的含义是共享概念模型的明确的形式化规范说明，共享指在业界得到共同认可，明确指理解上一致而无歧义，形式化指可被计算机理解或处理，概念模型则是对业界所关注问题的描述。本体的构造规则包括实体抽取，关系抽取，属性抽取三种类型。

实体抽取又称命名实体识别(named entityrecognitionNER)，指从文本资料中自动识别出命名实体，是信息抽取中最基础和关键的部分。

关系抽取是指从相关语料中提取实体之间的关联关系，通过关系将实体联系起来。

属性抽取是指从不同数据源中采集特定实体的属性信息，，形成每个实体的描述元素。

上述三种抽取方式都可以通过机器学习方法完成。

步骤300：对原始的多个文本资料进行分词，得到多个词段。将已有的军事概念词汇集合作为背景知识库，对军事信息客体(文本资料)，按照相应的语言粒度(可以设置为字、词或者短语，也可以回退为字节的n-gram)进行词汇化过程完成分词，其中：汉语分词与词性标注，采用某汉语分词系统；对于小众化语言采用字节的交叉n-gram算法(如：ABCD的Bigram为AB，BC，CD)。

步骤400：对于每个词段，确定对应的词段组合。对于分词后的每个词段，对其上文与下文分别进行快速倒叙排列索引，如在p位置出现的词段w的上文为L，下文为R；则w的倒叙排列存储为上文倒排链<p，L>，<p，R>，以此形成词段w的多个词段组合。

步骤500：将共现概率大于设定概率阈值的词段组合，确定为新的知识本体。确定新的知识本体的过程如下：

首先计算上下文信息熵：对于高频字符串w，本项目引入上下文信息熵计算每个词段组合在大数据中的重要程度，计算公式如下：

Entropy(w)＝∑{-p_llnp_l}+∑{-p_rlnp_r}，

其中，Entropy(w)表示高频字符串w的信息熵，p_l表示高频字符串w在上文出现的概率，p_r表示高频字符串w在下文出现的概率，p_l(w,x)表示高频字符串w和x词段组合的上下文信息熵，L(w,x)表示表示高频字符串w和x共同出现的频数。

然后，按照信息熵值对词段组合进行排序，将信息熵大于设定信息熵阈值的词段组合作为种子，在其上下文倒排表中遍历，按照共现概率排序，筛选出共现概率大于设定概率阈值的词段组，如上文组合<l，w>，生成语义新组合字符串lw，作为新概念，形成新的知识本体。

最后，利用新的知识本体作为背景知识库，对已有的大数据文本资料反复迭代，直至新的背景知识库收敛，不再产生新概念词段位置。

当然，这里还需要说明的是：完全靠上述算法产生的新概念存在不准确的词汇；其次，同一范畴同一概念不同形态的词汇，在这里无法区分。解决方法是：增加部分专家启发式规则，对新的知识本体进行部分筛选过滤，同时，语义概念和对应词不做严格区分，通过大数据语义关联可以实现同类词的聚合。具体的，将新的知识本体上传至专家审核系统；所述专家审核系统用于多名专家对所述新的知识本体进行审核；然后获取专家的审核意见；最后根据所述专家的审核意见对所述新的知识本体进行修正。例如，专家的审核意见为通过时，将新概念词段加入新的知识本体，当专家的审核意见为不通过时，舍弃该新概念词段；或者，当专家的审核意见通过率大于设定的数值时，将新概念词段加入新的知识本体，当专家的审核意见通过率不大于设定的数值时，舍弃该新概念词段。前期工作中，采用该算法，在军事文献大数据的基础上，发现了部分空袭的语义概念。

步骤600：将新的知识本体补充入初始的知识本体中，形成更新后的知识本体。所述更新后的知识本体用于国防科技领域智能问答时使用。

本发明中知识本体的存储形如“(对象，属性，值)”形式的三元组，这里的属性应给予广义的理解，它既包括领域客体固有的属性，也包括领域客体之间以及客体与抽象类概念之间的联系。RDF(Resource Description Frame资源描述框架)是目前通用的知识本体存储格式，使用业内统一标准的RDF、RDFS规范，进行知识的组织。

智能问答应用中的知识推理从根本上说就是把隐含在显示定义和声明中的知识通过一种处理机制提取出来。对本体的开发人员来说，可以用于检测本体定义中存在的冲突，消除不一致性，优化本体表达和实现本体融合；而对于知识管理、语义检索、自然语言理解等诸多领域的本体使用者来说，本体的推理可以获得本体中特定形式的知识集合并用于解决实际问题。

通过知识本体的构建进行智能问答。当用户输入问题时，根据语义分析提取相关联的知识本体和属性，通过查询RDF和知识推理给出最终答案。智能问答与搜索引擎的区别在于搜索引擎的结果是包含关键字的文档列表，而智能问答的结果是答案。例如，A的妻子是B，B的父亲是C，如提问“A的岳父”，搜索引擎会把包含“A”，“岳父”，“A的岳父”等关键词的文档列表返回，而智能问答能够根据知识本体及其属性直接给出答案“C”。

图2为本发明面向国防科技领域的知识处理系统的结构示意图。如图2所示，所述知识处理系统包括：

文本资料获取模块201，用于获取国防科技领域的多个文本资料；

初始的知识本体提取模块202，用于从所述文本资料中提取初始的知识本体；所述初始的知识本体为三元组集合，每一个三元组都包括实体、关系和描述三个元素；

分词模块203，用于对原始的所述多个文本资料进行分词，得到多个词段；

词段组合确定模块204，用于对于每个所述词段，确定对应的词段组合；

新的知识本体确定模块205，用于将共现概率大于设定概率阈值的词段组合，确定为新的知识本体；

更新后的知识本体形成模块206，用于将所述新的知识本体补充入所述初始的知识本体中，形成更新后的知识本体；所述更新后的知识本体用于国防科技领域智能问答时使用。

其中，所述初始的知识本体提取模块202具体包括：

对于每个所述词段，所述词段组合确定模块204对所述词段的上文和下文分别进行倒序排列索引，形成上下文倒排表，所述上下文倒排表包括多个词段组合。

所述系统还包括：

审核意见获取模块，用于获取专家的审核意见；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向国防科技领域的知识处理方法，其特征在于，所述知识处理方法包括：

获取国防科技领域的多个文本资料；

对所述多个文本资料进行分词，得到多个词段；

对于每个所述词段，确定对应的词段组合；

所述对于每个所述词段，确定对应的词段组合，具体包括：

对每个所述词段的上文和下文分别进行倒序排列索引，形成上下文倒排表，所述上下文倒排表包括多个词段组合；

计算每个所述词段组合的信息熵；

根据共现概率的数值，筛选出共现概率大于设定概率阈值的词段组合；

2.根据权利要求1所述的知识处理方法，其特征在于，所述从所述文本资料中提取初始的知识本体，具体包括：

从所述文本资料中识别出命名实体，完成实体抽取过程；

3.根据权利要求1所述的知识处理方法，其特征在于，所述将共现概率大于设定概率阈值的词段组合，确定为新的知识本体，之后还包括：

获取专家的审核意见；

根据所述专家的审核意见对所述新的知识本体进行修正。

4.一种面向国防科技领域的知识处理系统，其特征在于，所述知识处理系统包括：

词段组合确定模块，用于对于每个所述词段，确定对应的词段组合；对于每个所述词段，所述词段组合确定模块对所述词段的上文和下文分别进行倒序排列索引，形成上下文倒排表，所述上下文倒排表包括多个词段组合；

第二筛选模块，用于根据共现概率的数值，筛选出共现概率大于设定概率阈值的词段组合；

5.根据权利要求4所述的知识处理系统，其特征在于，所述初始的知识本体提取模块具体包括：

6.根据权利要求4所述的知识处理系统，其特征在于，所述系统还包括：

审核意见获取模块，用于获取专家的审核意见；