CN115563311A

CN115563311A - 一种文档标注和知识库管理方法及知识库管理系统

Info

Publication number: CN115563311A
Application number: CN202211297917.3A
Authority: CN
Inventors: 冯国平; 李明久; 胡健坤; 徐晓曼; 卢雪莹; 金钟炜; 付强
Original assignee: China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd
Current assignee: China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-03
Anticipated expiration: 2042-10-21
Also published as: CN115563311B

Abstract

本发明公开了一种文档标注和知识库管理方法及知识库管理系统，包括以下步骤：在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题。本发明所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题，以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性，而且作为标注类别标签的知识主题来自于对待标注文档的分析，无需人为设定，通用性强，且导致标注准确性得到提高。

Description

一种文档标注和知识库管理方法及知识库管理系统

技术领域

本发明涉及文档标注技术领域，具体涉及一种文档标注和知识库管理方法及知识库管理系统。

背景技术

文本标注是对文本进行特征标记的过程，对其打上具体的语义、构成、语境、目的、情感等原数据标签，通过标汪好的训练数据，我们就可以教会机器如何来识别文本中所隐含的意图或者情感，使机器可以更加人性化的理解语言。因此我们必须要全面且准确的完成高质量的文本数据、才能保证机器可以准确无误的识别到人的意图，如果文本处理不当那么机聚无法理解我们标注的内容。文档标注具有广泛的应用范畴：语义识别，情绪识别，实体识别等等。

现有技术CN201910265223.3公开了一种医学文档专业词汇自动化标注方法，包括：对输入的医学文档进行数据预处理，得到预处理后的医学文档文本；获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合，作为词的编码向量；将分词后的医学文档文本的词标注分类得到标注数据集；对每一个词输出一个多维向量作为词的空间表示；获取增强后的标注数据集；进行训练建模，并最终输出标注结果，其采用半监督学习算法对大量未标注数据进行标注，成功地克服了现有医疗行业标注数据过少的缺陷，有效地提高了模型能够使用的数据量，并大幅提升算法对于关键词和专业词汇的标注准确率，可广泛用于医疗文献处理中。

上述现有技术在标注方面的取得了一定的有益效果，但是也存在一定的缺陷，标注适用性单一化，需要人为参与设定标注类别标签，通用性差，标注准确度受人为制定的标注类别标签影响，具有一定的人为主观性，导致标注准确性有待商榷。

发明内容

本发明的目的在于提供一种文档标注和知识库管理方法及知识库管理系统，以解决现有技术中需要人为参与设定标注类别标签，通用性差，标注准确度受人为制定的标注类别标签影响，具有一定的人为主观性，导致标注准确性有待商榷的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种文档标注和知识库管理方法，包括以下步骤：

步骤S1、将各个待标注文档依次进行分词得到多个语义词向量，并将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数；

步骤S2、在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题，以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性；

步骤S3、利用多个知识主题对各个待标注文档进行主题标注，并将各个已标注文档依据知识主题在知识库中分类存储，以供依据知识主题进行文档搜索。

作为本发明的一种优选方案，所述各个待标注文档依次进行分词得到多个语义词向量，包括：

依次对每个待标注文档进行分词形成单个数组，存储每个待标注文档中的每个词和标点符号，并去除停用词，以及提取词干和词形还原得到以单词形式组合成的单词数组；

利用Word2Vec算法对各个待标注文档的单词数组进行编码得到对应每个单词的语义词向量。

作为本发明的一种优选方案，所述将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数，包括：

利用斯皮尔曼相关系数衡量各个语义词向量与知识主题的相关性得到所述准度优化目标函数，所述准度优化目标函数的函数表达式为：

式中，SP为准度优化目标函数值，y_i、y_i分别第i个语义词向量、第j个语义词向量，n为语义词向量总数量，i，j为计量常数；

利用协方差公式衡量各个语义词向量与知识主题的冗余性得到所述广度优化目标函数，所述广度优化目标函数的函数表达式为：

式中，CP为广度优化目标值，cov(y_i,y_j)为y_i和y_j的协方差运算符，i、j为计量常数。

作为本发明的一种优选方案，所述在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，包括：

为所述准度优化目标函数设定最大化自适应算子，以随搜索算法中搜索进程发展达到准度优化目标自适应调整至最大化来保障知识主题与待标注文档的标注匹配准度自适应调整至最大化，所述最大化自适应算子的函数表达式为：

式中，f为最大化自适应算子，m为搜索算法中的搜索迭代次数，p为常系数；

为所述广度优化目标函数设定最小化自适应算子，以随搜索算法中搜索进程发展达到冗余性目标自适应调整至最小化来保障知识主题与待标注文档的标注匹配广度自适应调整至最小化，所述最小化自适应算子的函数表达式为：

式中，h为最小化自适应算子，m为搜索算法中的搜索迭代次数，p为常系数；

将所述最大化自适应算子和最小化自适应算子分别与准度优化目标函数和广度优化目标函数进行组合得到所述动态自适应优化目标函数，所述动态自适应优化目标函数的函数表达式为：

F＝max(f*SP-h*CP)；

式中，F为动态自适应优化目标函数值，max为最大化运算符。

作为本发明的一种优选方案，所述利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题，包括：

利用搜索算法以动态自适应优化目标函数在所有语义词向量中进行搜索出多个实现最大相关性和最小冗余性的语义词向量，并将多个实现最大相关性和最小冗余性的语义词向量对应的单词作为各个待标注文档的多个知识主题。

作为本发明的一种优选方案，所述利用多个知识主题对各个待标注文档进行主题标注，包括：

在待标注文档中选取多个待标注文档作为多个样本文档，对多个样本文档进行知识主题的匹配，并将样本文档的单词数组作为神经网络的输入项，将样本文档的知识主题作为神经网络的输出项，利用神经网络对所述输入项和所述输出项进行模型训练得到所述主题标注模型；

将除样本文档外的待标注文档的单词数组输入至主题标注模型得到所述待标注文档的知识主题，以实现对待标注文档的模型化主题标注。

作为本发明的一种优选方案，所述主题标注模型的模型表达式为：

Label＝CNN(S)；

式中，Label为知识主题，S为单词数组，CNN为神经网络。

作为本发明的一种优选方案，所述知识库中以已标注文档的知识主题作为已标注文档的检索项，通过在知识库中输入所述检索项检索出与检索项具有相同知识主题的已标注文档。

作为本发明的一种优选方案，若检索项为知识库的各个知识主题中的一项或多项，则在知识库中直接提取出与检索项对应的已标注文档；

若检索项与知识库的各个知识主题均不一致，则将检索项与各个已标注文档的知识主题进行相似度测算，并以与检索项相似度由高到低顺序显示已标注文档。

作为本发明的一种优选方案，本发明提供了一种实施所述的文档标注和知识库管理方法的知识库管理系统，包括知识库、交互门户，所述交互门户与知识库通讯连接，所述交互门户包括搜索模块、显示模块，所述知识库包括存储已标注文档的数据库，所述搜索模块用于输入检索项，所述显示模块用于显示表征检索结果的已标注文档。

本发明与现有技术相比较具有如下有益效果：

本发明所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题，以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性，而且作为标注类别标签的知识主题来自于对待标注文档的分析，无需人为设定，通用性强，且导致标注准确性得到提高。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的文档标注和知识库管理方法流程图；

图2为本发明实施例提供的知识库管理系统结构框图。

图中的标号分别表示如下：

1-知识库；2-交互门户；201-搜索模块；202-显示模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种文档标注和知识库管理方法，包括以下步骤：

各个待标注文档依次进行分词得到多个语义词向量，包括：

将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数，包括：

利用斯皮尔曼相关系数衡量各个语义词向量与知识主题的相关性得到准度优化目标函数，准度优化目标函数的函数表达式为：

利用协方差公式衡量各个语义词向量与知识主题的冗余性得到广度优化目标函数，广度优化目标函数的函数表达式为：

本实施例在待标注文档中选取知识主题(标注类别标签)，自动获取待标注文档的知识内容，无需事先由人员去人工了解待标注文档所涉及的内容，以及进一步制定知识主题(标注类别标签)，使得本发明无需掌握先验知识即可进行文档标注，通用性更强，而且利用待标注文档筛选知识主题(标注类别标签)能够使得知识主题(标注类别标签)更符合待标注文档的内容，立于文档内容进行标注实现更强的标注客观性，提高标注准确性，避免人工设置知识主题(标注类别标签)的随机性和主观性。

在待标注文档内容中筛选知识主题(标注类别标签)，需要实现知识主题(标注类别标签)与待标注内容的最大相关性和最小冗余性，其中，知识主题(标注类别标签)与待标注文档能够呈现最大相关性，从而在后续搜索知识主题(标注类别标签)或查看知识主题(标注类别标签)时，能够迅速提取待标注文档或了解待标注文档的内容，标注准确度得以提高，因此本实施例在筛选知识主题(标注类别标签)时，将相关性作为一个优化目标，即准度优化目标，知识主题(标注类别标签)和标注文档能够呈现最小冗余性，从而实现知识主题(标注类别标签)的独一性，无异议性，知识主题(标注类别标签)与标注文档的一一对应性，不会出现多个知识主题(标注类别标签)具有相似含义主题，导致待标注文档的标注出现多类型标注，最终影响标注准确度和标注效率，因此本实施例在筛选知识主题(标注类别标签)时，将冗余性最为另一个优化目标，即广度优化目标。

步骤S2、在准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题，以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性；

在准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，包括：

为准度优化目标函数设定最大化自适应算子，以随搜索算法中搜索进程发展达到准度优化目标自适应调整至最大化来保障知识主题与待标注文档的标注匹配准度自适应调整至最大化，最大化自适应算子的函数表达式为：

为广度优化目标函数设定最小化自适应算子，以随搜索算法中搜索进程发展达到冗余性目标自适应调整至最小化来保障知识主题与待标注文档的标注匹配广度自适应调整至最小化，最小化自适应算子的函数表达式为：

将最大化自适应算子和最小化自适应算子分别与准度优化目标函数和广度优化目标函数进行组合得到动态自适应优化目标函数，动态自适应优化目标函数的函数表达式为：

F＝max(f*SP-h*CP)；

式中，F为动态自适应优化目标函数值，max为最大化运算符。

利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题，包括：

为准度优化目标函数设定最大化自适应算子，为广度优化目标函数设定最小化自适应算子，能够使在搜索算法初期，搜索算法搜索空间中的语义词向量较多，此时设置f*SP值较小，h*CP较大，能够提高搜索算法的全局搜索能力，避免算法早熟收敛，搜索算法末期，搜索算法搜索空间中语义词已经接近最优解，此时设定f*SP值较大，h*CP较小，能够提高搜索算法的局部搜索能力，加快算法收敛速度，并且在算法末期能够实现最大化相关性和最小化冗余性的效果，实现精准标注。

利用多个知识主题对各个待标注文档进行主题标注，包括：

在待标注文档中选取多个待标注文档作为多个样本文档，对多个样本文档进行知识主题的匹配，并将样本文档的单词数组作为神经网络的输入项，将样本文档的知识主题作为神经网络的输出项，利用神经网络对输入项和输出项进行模型训练得到主题标注模型；

将除样本文档外的待标注文档的单词数组输入至主题标注模型得到待标注文档的知识主题，以实现对待标注文档的模型化主题标注。

主题标注模型的模型表达式为：

Label＝CNN(S)；

式中，Label为知识主题，S为单词数组，CNN为神经网络，利用模型标注提升标注速率。

知识库中以已标注文档的知识主题作为已标注文档的检索项，通过在知识库中输入检索项检索出与检索项具有相同知识主题的已标注文档。

若检索项为知识库的各个知识主题中的一项或多项，则在知识库中直接提取出与检索项对应的已标注文档；

如图2所示，基于上述文档标注和知识库管理方法，本发明提供了一种知识库管理系统，包括知识库1、交互门户2，交互门户与知识库通讯连接，交互门户1包括搜索模块201、显示模块202，知识库包括存储已标注文档的数据库，搜索模块用于输入检索项，显示模块用于显示表征检索结果的已标注文档，实现对已标注文档依据知识主题进行分类管理。

本发明准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题，以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性，而且作为标注类别标签的知识主题来自于对待标注文档的分析，无需人为设定，通用性强，且导致标注准确性得到提高。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种文档标注和知识库管理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种文档标注和知识库管理方法，其特征在于：所述各个待标注文档依次进行分词得到多个语义词向量，包括：

3.根据权利要求2所述的一种文档标注和知识库管理方法，其特征在于：所述将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数，包括：

4.根据权利要求3所述的一种文档标注和知识库管理方法，其特征在于：所述在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数，包括：

F＝max(f*SP-h*CP)；

式中，F为动态自适应优化目标函数值，max为最大化运算符。

5.根据权利要求4所述的一种文档标注和知识库管理方法，其特征在于：所述利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题，包括：

6.根据权利要求5所述的一种文档标注和知识库管理方法，其特征在于：所述利用多个知识主题对各个待标注文档进行主题标注，包括：

7.根据权利要求6所述的一种文档标注和知识库管理方法，其特征在于，所述主题标注模型的模型表达式为：

Label＝CNN(S)；

式中，Label为知识主题，S为单词数组，CNN为神经网络。

8.根据权利要求7所述的一种文档标注和知识库管理方法，其特征在于，所述知识库中以已标注文档的知识主题作为已标注文档的检索项，通过在知识库中输入所述检索项检索出与检索项具有相同知识主题的已标注文档。

9.根据权利要求8所述的一种文档标注和知识库管理方法，其特征在于，若检索项为知识库的各个知识主题中的一项或多项，则在知识库中直接提取出与检索项对应的已标注文档；

10.一种实施权利要求1-9任一项所述的文档标注和知识库管理方法的知识库管理系统，其特征在于，包括知识库、交互门户，所述交互门户与知识库通讯连接，所述交互门户包括搜索模块、显示模块，所述知识库包括存储已标注文档的数据库，所述搜索模块用于输入检索项，所述显示模块用于显示表征检索结果的已标注文档。