CN115563311A - 一种文档标注和知识库管理方法及知识库管理系统 - Google Patents

一种文档标注和知识库管理方法及知识库管理系统 Download PDF

Info

Publication number
CN115563311A
CN115563311A CN202211297917.3A CN202211297917A CN115563311A CN 115563311 A CN115563311 A CN 115563311A CN 202211297917 A CN202211297917 A CN 202211297917A CN 115563311 A CN115563311 A CN 115563311A
Authority
CN
China
Prior art keywords
knowledge
document
objective function
optimization objective
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211297917.3A
Other languages
English (en)
Other versions
CN115563311B (zh
Inventor
冯国平
李明久
胡健坤
徐晓曼
卢雪莹
金钟炜
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd
Original Assignee
China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd filed Critical China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd
Priority to CN202211297917.3A priority Critical patent/CN115563311B/zh
Publication of CN115563311A publication Critical patent/CN115563311A/zh
Application granted granted Critical
Publication of CN115563311B publication Critical patent/CN115563311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档标注和知识库管理方法及知识库管理系统,包括以下步骤:在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题。本发明所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性,而且作为标注类别标签的知识主题来自于对待标注文档的分析,无需人为设定,通用性强,且导致标注准确性得到提高。

Description

一种文档标注和知识库管理方法及知识库管理系统
技术领域
本发明涉及文档标注技术领域,具体涉及一种文档标注和知识库管理方法及知识库管理系统。
背景技术
文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等原数据标签,通过标汪好的训练数据,我们就可以教会机器如何来识别文本中所隐含的意图或者情感,使机器可以更加人性化的理解语言。因此我们必须要全面且准确的完成高质量的文本数据、才能保证机器可以准确无误的识别到人的意图,如果文本处理不当那么机聚无法理解我们标注的内容。文档标注具有广泛的应用范畴:语义识别,情绪识别,实体识别等等。
现有技术CN201910265223.3公开了一种医学文档专业词汇自动化标注方法,包括:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合,作为词的编码向量;将分词后的医学文档文本的词标注分类得到标注数据集;对每一个词输出一个多维向量作为词的空间表示;获取增强后的标注数据集;进行训练建模,并最终输出标注结果,其采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。
上述现有技术在标注方面的取得了一定的有益效果,但是也存在一定的缺陷,标注适用性单一化,需要人为参与设定标注类别标签,通用性差,标注准确度受人为制定的标注类别标签影响,具有一定的人为主观性,导致标注准确性有待商榷。
发明内容
本发明的目的在于提供一种文档标注和知识库管理方法及知识库管理系统,以解决现有技术中需要人为参与设定标注类别标签,通用性差,标注准确度受人为制定的标注类别标签影响,具有一定的人为主观性,导致标注准确性有待商榷的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
一种文档标注和知识库管理方法,包括以下步骤:
步骤S1、将各个待标注文档依次进行分词得到多个语义词向量,并将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数;
步骤S2、在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性;
步骤S3、利用多个知识主题对各个待标注文档进行主题标注,并将各个已标注文档依据知识主题在知识库中分类存储,以供依据知识主题进行文档搜索。
作为本发明的一种优选方案,所述各个待标注文档依次进行分词得到多个语义词向量,包括:
依次对每个待标注文档进行分词形成单个数组,存储每个待标注文档中的每个词和标点符号,并去除停用词,以及提取词干和词形还原得到以单词形式组合成的单词数组;
利用Word2Vec算法对各个待标注文档的单词数组进行编码得到对应每个单词的语义词向量。
作为本发明的一种优选方案,所述将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数,包括:
利用斯皮尔曼相关系数衡量各个语义词向量与知识主题的相关性得到所述准度优化目标函数,所述准度优化目标函数的函数表达式为:
Figure BDA0003902726800000031
式中,SP为准度优化目标函数值,yi、yi分别第i个语义词向量、第j个语义词向量,n为语义词向量总数量,i,j为计量常数;
利用协方差公式衡量各个语义词向量与知识主题的冗余性得到所述广度优化目标函数,所述广度优化目标函数的函数表达式为:
Figure BDA0003902726800000032
式中,CP为广度优化目标值,cov(yi,yj)为yi和yj的协方差运算符,i、j为计量常数。
作为本发明的一种优选方案,所述在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,包括:
为所述准度优化目标函数设定最大化自适应算子,以随搜索算法中搜索进程发展达到准度优化目标自适应调整至最大化来保障知识主题与待标注文档的标注匹配准度自适应调整至最大化,所述最大化自适应算子的函数表达式为:
Figure BDA0003902726800000033
式中,f为最大化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
为所述广度优化目标函数设定最小化自适应算子,以随搜索算法中搜索进程发展达到冗余性目标自适应调整至最小化来保障知识主题与待标注文档的标注匹配广度自适应调整至最小化,所述最小化自适应算子的函数表达式为:
Figure BDA0003902726800000041
式中,h为最小化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
将所述最大化自适应算子和最小化自适应算子分别与准度优化目标函数和广度优化目标函数进行组合得到所述动态自适应优化目标函数,所述动态自适应优化目标函数的函数表达式为:
F=max(f*SP-h*CP);
式中,F为动态自适应优化目标函数值,max为最大化运算符。
作为本发明的一种优选方案,所述利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题,包括:
利用搜索算法以动态自适应优化目标函数在所有语义词向量中进行搜索出多个实现最大相关性和最小冗余性的语义词向量,并将多个实现最大相关性和最小冗余性的语义词向量对应的单词作为各个待标注文档的多个知识主题。
作为本发明的一种优选方案,所述利用多个知识主题对各个待标注文档进行主题标注,包括:
在待标注文档中选取多个待标注文档作为多个样本文档,对多个样本文档进行知识主题的匹配,并将样本文档的单词数组作为神经网络的输入项,将样本文档的知识主题作为神经网络的输出项,利用神经网络对所述输入项和所述输出项进行模型训练得到所述主题标注模型;
将除样本文档外的待标注文档的单词数组输入至主题标注模型得到所述待标注文档的知识主题,以实现对待标注文档的模型化主题标注。
作为本发明的一种优选方案,所述主题标注模型的模型表达式为:
Label=CNN(S);
式中,Label为知识主题,S为单词数组,CNN为神经网络。
作为本发明的一种优选方案,所述知识库中以已标注文档的知识主题作为已标注文档的检索项,通过在知识库中输入所述检索项检索出与检索项具有相同知识主题的已标注文档。
作为本发明的一种优选方案,若检索项为知识库的各个知识主题中的一项或多项,则在知识库中直接提取出与检索项对应的已标注文档;
若检索项与知识库的各个知识主题均不一致,则将检索项与各个已标注文档的知识主题进行相似度测算,并以与检索项相似度由高到低顺序显示已标注文档。
作为本发明的一种优选方案,本发明提供了一种实施所述的文档标注和知识库管理方法的知识库管理系统,包括知识库、交互门户,所述交互门户与知识库通讯连接,所述交互门户包括搜索模块、显示模块,所述知识库包括存储已标注文档的数据库,所述搜索模块用于输入检索项,所述显示模块用于显示表征检索结果的已标注文档。
本发明与现有技术相比较具有如下有益效果:
本发明所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性,而且作为标注类别标签的知识主题来自于对待标注文档的分析,无需人为设定,通用性强,且导致标注准确性得到提高。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的文档标注和知识库管理方法流程图;
图2为本发明实施例提供的知识库管理系统结构框图。
图中的标号分别表示如下:
1-知识库;2-交互门户;201-搜索模块;202-显示模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种文档标注和知识库管理方法,包括以下步骤:
步骤S1、将各个待标注文档依次进行分词得到多个语义词向量,并将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数;
各个待标注文档依次进行分词得到多个语义词向量,包括:
依次对每个待标注文档进行分词形成单个数组,存储每个待标注文档中的每个词和标点符号,并去除停用词,以及提取词干和词形还原得到以单词形式组合成的单词数组;
利用Word2Vec算法对各个待标注文档的单词数组进行编码得到对应每个单词的语义词向量。
将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数,包括:
利用斯皮尔曼相关系数衡量各个语义词向量与知识主题的相关性得到准度优化目标函数,准度优化目标函数的函数表达式为:
Figure BDA0003902726800000071
式中,SP为准度优化目标函数值,yi、yi分别第i个语义词向量、第j个语义词向量,n为语义词向量总数量,i,j为计量常数;
利用协方差公式衡量各个语义词向量与知识主题的冗余性得到广度优化目标函数,广度优化目标函数的函数表达式为:
Figure BDA0003902726800000072
式中,CP为广度优化目标值,cov(yi,yj)为yi和yj的协方差运算符,i、j为计量常数。
本实施例在待标注文档中选取知识主题(标注类别标签),自动获取待标注文档的知识内容,无需事先由人员去人工了解待标注文档所涉及的内容,以及进一步制定知识主题(标注类别标签),使得本发明无需掌握先验知识即可进行文档标注,通用性更强,而且利用待标注文档筛选知识主题(标注类别标签)能够使得知识主题(标注类别标签)更符合待标注文档的内容,立于文档内容进行标注实现更强的标注客观性,提高标注准确性,避免人工设置知识主题(标注类别标签)的随机性和主观性。
在待标注文档内容中筛选知识主题(标注类别标签),需要实现知识主题(标注类别标签)与待标注内容的最大相关性和最小冗余性,其中,知识主题(标注类别标签)与待标注文档能够呈现最大相关性,从而在后续搜索知识主题(标注类别标签)或查看知识主题(标注类别标签)时,能够迅速提取待标注文档或了解待标注文档的内容,标注准确度得以提高,因此本实施例在筛选知识主题(标注类别标签)时,将相关性作为一个优化目标,即准度优化目标,知识主题(标注类别标签)和标注文档能够呈现最小冗余性,从而实现知识主题(标注类别标签)的独一性,无异议性,知识主题(标注类别标签)与标注文档的一一对应性,不会出现多个知识主题(标注类别标签)具有相似含义主题,导致待标注文档的标注出现多类型标注,最终影响标注准确度和标注效率,因此本实施例在筛选知识主题(标注类别标签)时,将冗余性最为另一个优化目标,即广度优化目标。
步骤S2、在准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性;
在准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,包括:
为准度优化目标函数设定最大化自适应算子,以随搜索算法中搜索进程发展达到准度优化目标自适应调整至最大化来保障知识主题与待标注文档的标注匹配准度自适应调整至最大化,最大化自适应算子的函数表达式为:
Figure BDA0003902726800000081
式中,f为最大化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
为广度优化目标函数设定最小化自适应算子,以随搜索算法中搜索进程发展达到冗余性目标自适应调整至最小化来保障知识主题与待标注文档的标注匹配广度自适应调整至最小化,最小化自适应算子的函数表达式为:
Figure BDA0003902726800000091
式中,h为最小化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
将最大化自适应算子和最小化自适应算子分别与准度优化目标函数和广度优化目标函数进行组合得到动态自适应优化目标函数,动态自适应优化目标函数的函数表达式为:
F=max(f*SP-h*CP);
式中,F为动态自适应优化目标函数值,max为最大化运算符。
利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题,包括:
利用搜索算法以动态自适应优化目标函数在所有语义词向量中进行搜索出多个实现最大相关性和最小冗余性的语义词向量,并将多个实现最大相关性和最小冗余性的语义词向量对应的单词作为各个待标注文档的多个知识主题。
为准度优化目标函数设定最大化自适应算子,为广度优化目标函数设定最小化自适应算子,能够使在搜索算法初期,搜索算法搜索空间中的语义词向量较多,此时设置f*SP值较小,h*CP较大,能够提高搜索算法的全局搜索能力,避免算法早熟收敛,搜索算法末期,搜索算法搜索空间中语义词已经接近最优解,此时设定f*SP值较大,h*CP较小,能够提高搜索算法的局部搜索能力,加快算法收敛速度,并且在算法末期能够实现最大化相关性和最小化冗余性的效果,实现精准标注。
步骤S3、利用多个知识主题对各个待标注文档进行主题标注,并将各个已标注文档依据知识主题在知识库中分类存储,以供依据知识主题进行文档搜索。
利用多个知识主题对各个待标注文档进行主题标注,包括:
在待标注文档中选取多个待标注文档作为多个样本文档,对多个样本文档进行知识主题的匹配,并将样本文档的单词数组作为神经网络的输入项,将样本文档的知识主题作为神经网络的输出项,利用神经网络对输入项和输出项进行模型训练得到主题标注模型;
将除样本文档外的待标注文档的单词数组输入至主题标注模型得到待标注文档的知识主题,以实现对待标注文档的模型化主题标注。
主题标注模型的模型表达式为:
Label=CNN(S);
式中,Label为知识主题,S为单词数组,CNN为神经网络,利用模型标注提升标注速率。
知识库中以已标注文档的知识主题作为已标注文档的检索项,通过在知识库中输入检索项检索出与检索项具有相同知识主题的已标注文档。
若检索项为知识库的各个知识主题中的一项或多项,则在知识库中直接提取出与检索项对应的已标注文档;
若检索项与知识库的各个知识主题均不一致,则将检索项与各个已标注文档的知识主题进行相似度测算,并以与检索项相似度由高到低顺序显示已标注文档。
如图2所示,基于上述文档标注和知识库管理方法,本发明提供了一种知识库管理系统,包括知识库1、交互门户2,交互门户与知识库通讯连接,交互门户1包括搜索模块201、显示模块202,知识库包括存储已标注文档的数据库,搜索模块用于输入检索项,显示模块用于显示表征检索结果的已标注文档,实现对已标注文档依据知识主题进行分类管理。
本发明准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性,而且作为标注类别标签的知识主题来自于对待标注文档的分析,无需人为设定,通用性强,且导致标注准确性得到提高。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种文档标注和知识库管理方法,其特征在于:包括以下步骤:
步骤S1、将各个待标注文档依次进行分词得到多个语义词向量,并将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数;
步骤S2、在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,并利用搜索算法求解动态自适应优化目标得到各个待标注文档的多个知识主题,以自适应实现知识主题与待标注文档的标注精准性来达到以知识主题搜索标注文档的快速性;
步骤S3、利用多个知识主题对各个待标注文档进行主题标注,并将各个已标注文档依据知识主题在知识库中分类存储,以供依据知识主题进行文档搜索。
2.根据权利要求1所述的一种文档标注和知识库管理方法,其特征在于:所述各个待标注文档依次进行分词得到多个语义词向量,包括:
依次对每个待标注文档进行分词形成单个数组,存储每个待标注文档中的每个词和标点符号,并去除停用词,以及提取词干和词形还原得到以单词形式组合成的单词数组;
利用Word2Vec算法对各个待标注文档的单词数组进行编码得到对应每个单词的语义词向量。
3.根据权利要求2所述的一种文档标注和知识库管理方法,其特征在于:所述将多个语义词向量以知识主题相关性和知识主题冗余性为目标构建出准度优化目标函数和广度优化目标函数,包括:
利用斯皮尔曼相关系数衡量各个语义词向量与知识主题的相关性得到所述准度优化目标函数,所述准度优化目标函数的函数表达式为:
Figure FDA0003902726790000011
式中,SP为准度优化目标函数值,yi、yi分别第i个语义词向量、第j个语义词向量,n为语义词向量总数量,i,j为计量常数;
利用协方差公式衡量各个语义词向量与知识主题的冗余性得到所述广度优化目标函数,所述广度优化目标函数的函数表达式为:
Figure FDA0003902726790000021
式中,CP为广度优化目标值,cov(yi,yj)为yi和yj的协方差运算符,i、j为计量常数。
4.根据权利要求3所述的一种文档标注和知识库管理方法,其特征在于:所述在所述准度优化目标函数和广度优化目标函数中融合自适应算法得到知识主题的动态自适应优化目标函数,包括:
为所述准度优化目标函数设定最大化自适应算子,以随搜索算法中搜索进程发展达到准度优化目标自适应调整至最大化来保障知识主题与待标注文档的标注匹配准度自适应调整至最大化,所述最大化自适应算子的函数表达式为:
Figure FDA0003902726790000022
式中,f为最大化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
为所述广度优化目标函数设定最小化自适应算子,以随搜索算法中搜索进程发展达到冗余性目标自适应调整至最小化来保障知识主题与待标注文档的标注匹配广度自适应调整至最小化,所述最小化自适应算子的函数表达式为:
Figure FDA0003902726790000023
式中,h为最小化自适应算子,m为搜索算法中的搜索迭代次数,p为常系数;
将所述最大化自适应算子和最小化自适应算子分别与准度优化目标函数和广度优化目标函数进行组合得到所述动态自适应优化目标函数,所述动态自适应优化目标函数的函数表达式为:
F=max(f*SP-h*CP);
式中,F为动态自适应优化目标函数值,max为最大化运算符。
5.根据权利要求4所述的一种文档标注和知识库管理方法,其特征在于:所述利用搜索算法求解动态自适应优化目标函数得到各个待标注文档的多个知识主题,包括:
利用搜索算法以动态自适应优化目标函数在所有语义词向量中进行搜索出多个实现最大相关性和最小冗余性的语义词向量,并将多个实现最大相关性和最小冗余性的语义词向量对应的单词作为各个待标注文档的多个知识主题。
6.根据权利要求5所述的一种文档标注和知识库管理方法,其特征在于:所述利用多个知识主题对各个待标注文档进行主题标注,包括:
在待标注文档中选取多个待标注文档作为多个样本文档,对多个样本文档进行知识主题的匹配,并将样本文档的单词数组作为神经网络的输入项,将样本文档的知识主题作为神经网络的输出项,利用神经网络对所述输入项和所述输出项进行模型训练得到所述主题标注模型;
将除样本文档外的待标注文档的单词数组输入至主题标注模型得到所述待标注文档的知识主题,以实现对待标注文档的模型化主题标注。
7.根据权利要求6所述的一种文档标注和知识库管理方法,其特征在于,所述主题标注模型的模型表达式为:
Label=CNN(S);
式中,Label为知识主题,S为单词数组,CNN为神经网络。
8.根据权利要求7所述的一种文档标注和知识库管理方法,其特征在于,所述知识库中以已标注文档的知识主题作为已标注文档的检索项,通过在知识库中输入所述检索项检索出与检索项具有相同知识主题的已标注文档。
9.根据权利要求8所述的一种文档标注和知识库管理方法,其特征在于,若检索项为知识库的各个知识主题中的一项或多项,则在知识库中直接提取出与检索项对应的已标注文档;
若检索项与知识库的各个知识主题均不一致,则将检索项与各个已标注文档的知识主题进行相似度测算,并以与检索项相似度由高到低顺序显示已标注文档。
10.一种实施权利要求1-9任一项所述的文档标注和知识库管理方法的知识库管理系统,其特征在于,包括知识库、交互门户,所述交互门户与知识库通讯连接,所述交互门户包括搜索模块、显示模块,所述知识库包括存储已标注文档的数据库,所述搜索模块用于输入检索项,所述显示模块用于显示表征检索结果的已标注文档。
CN202211297917.3A 2022-10-21 2022-10-21 一种文档标注和知识库管理方法及知识库管理系统 Active CN115563311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211297917.3A CN115563311B (zh) 2022-10-21 2022-10-21 一种文档标注和知识库管理方法及知识库管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211297917.3A CN115563311B (zh) 2022-10-21 2022-10-21 一种文档标注和知识库管理方法及知识库管理系统

Publications (2)

Publication Number Publication Date
CN115563311A true CN115563311A (zh) 2023-01-03
CN115563311B CN115563311B (zh) 2023-09-15

Family

ID=84767576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211297917.3A Active CN115563311B (zh) 2022-10-21 2022-10-21 一种文档标注和知识库管理方法及知识库管理系统

Country Status (1)

Country Link
CN (1) CN115563311B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117852632A (zh) * 2023-04-27 2024-04-09 深圳市中京政通科技有限公司 知识库运营服务系统和融合知识库管理方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
KR20090078986A (ko) * 2008-01-16 2009-07-21 재단법인서울대학교산학협력재단 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법
US20100280985A1 (en) * 2008-01-14 2010-11-04 Aptima, Inc. Method and system to predict the likelihood of topics
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
CN107391613A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档自动消歧方法及装置
CN110059185A (zh) * 2019-04-03 2019-07-26 天津科技大学 一种医学文档专业词汇自动化标注方法
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN111695344A (zh) * 2019-02-27 2020-09-22 阿里巴巴集团控股有限公司 文本的标注方法和装置
CN111813933A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 一种技术图谱中技术领域的自动识别方法
WO2021001243A1 (en) * 2019-07-01 2021-01-07 Siemens Aktiengesellschaft Method of and system for multi-view and multi-source transfers in neural topic modelling
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113255344A (zh) * 2021-05-13 2021-08-13 淮阴工学院 一种融合主题信息的关键词生成方法
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113886606A (zh) * 2021-12-08 2022-01-04 北京海致星图科技有限公司 一种基于知识图谱的数据标注方法、装置、介质及设备
CN114610776A (zh) * 2022-02-21 2022-06-10 中国能源建设集团广东省电力设计研究院有限公司 一种基于标签的数字化解决方案推荐方法及装置
EP4060516A1 (en) * 2021-03-18 2022-09-21 Tata Consultancy Services Limited Method and system for document indexing and retrieval

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US20100280985A1 (en) * 2008-01-14 2010-11-04 Aptima, Inc. Method and system to predict the likelihood of topics
KR20090078986A (ko) * 2008-01-16 2009-07-21 재단법인서울대학교산학협력재단 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
CN107391613A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档自动消歧方法及装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN111695344A (zh) * 2019-02-27 2020-09-22 阿里巴巴集团控股有限公司 文本的标注方法和装置
CN110059185A (zh) * 2019-04-03 2019-07-26 天津科技大学 一种医学文档专业词汇自动化标注方法
WO2021001243A1 (en) * 2019-07-01 2021-01-07 Siemens Aktiengesellschaft Method of and system for multi-view and multi-source transfers in neural topic modelling
CN111813933A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 一种技术图谱中技术领域的自动识别方法
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
EP4060516A1 (en) * 2021-03-18 2022-09-21 Tata Consultancy Services Limited Method and system for document indexing and retrieval
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113255344A (zh) * 2021-05-13 2021-08-13 淮阴工学院 一种融合主题信息的关键词生成方法
CN113886606A (zh) * 2021-12-08 2022-01-04 北京海致星图科技有限公司 一种基于知识图谱的数据标注方法、装置、介质及设备
CN114610776A (zh) * 2022-02-21 2022-06-10 中国能源建设集团广东省电力设计研究院有限公司 一种基于标签的数字化解决方案推荐方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WESSAM H. EL-BEHAIDY: "An Ensemble Multi-label Themes-Based Classification for Holy Qur’an Verses Using Word2Vec Embedding", RESEARCH ARTICLE-COMPUTER ENGINEERING AND COMPUTER SCIENCE, pages 3519 *
王睿: "基于词嵌入与生成式神经网络的主题模型研究", 中国博士学位论文电子期刊网, pages 1 - 154 *
邓罗丹: "微信公众号文本的类别标注方法研究", 中国优秀硕士学位论文全文数据库(电子期刊), pages 1 - 86 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117852632A (zh) * 2023-04-27 2024-04-09 深圳市中京政通科技有限公司 知识库运营服务系统和融合知识库管理方法

Also Published As

Publication number Publication date
CN115563311B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN107122416B (zh) 一种中文事件抽取方法
CN106997376B (zh) 一种基于多级特征的问题和答案句子相似度计算方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN110298033B (zh) 关键词语料标注训练提取系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111079419A (zh) 一种基于大数据的国防科技热词发现方法及系统
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN112862569A (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法
CN115840812A (zh) 一种根据政策文本智能匹配企业的方法及系统
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant