CN110427623B - 半结构化文档知识抽取方法、装置、电子设备及存储介质 - Google Patents
半结构化文档知识抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110427623B CN110427623B CN201910675370.8A CN201910675370A CN110427623B CN 110427623 B CN110427623 B CN 110427623B CN 201910675370 A CN201910675370 A CN 201910675370A CN 110427623 B CN110427623 B CN 110427623B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- extracted
- relationship
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种半结构化文档知识抽取方法、装置、电子设备及存储介质,该方法包括:从目标文档中确定待抽取知识区域;通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。本申请实施例有利于提高专业领域文档知识抽取的准确率。
Description
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种半结构化文档知识抽取方法、装置、电子设备及存储介质。
背景技术
近年来,面对互联网上类型多样且数量庞大的文本,文本处理自动化的知识抽取系统热度持续上涨,研究知识抽取技术的论文、期刊或博文也不断更新,足以证明知识抽取在构建知识库中的重要性。现有三元组形式的知识抽取技术一般基于自由文本,抽取流程一般为实体识别、触发词识别、关系识别、三元组生成以及知识融合。但是基于自由文本的知识抽取技术流程长,互相依赖,有误差放大效应,整体效果不能满足专业领域文本抽取的准确度和召回率要求。专业领域的半结构化文本一般格式固定,用语规范,蕴涵的知识密集且互相关联,常见的例如:合同、条款、法律文书等,而目前大部分基于单个关系分类、再将多关系融合的知识抽取方法在准确率上仍不能满足实际需要。
发明内容
针对上述问题,本申请提供了一种半结构化文档知识抽取方法、装置、电子设备及存储介质,有利于提高专业领域文档知识抽取的准确率。
本申请实施例第一方面提供了一种半结构化文档知识抽取方法,该方法包括:
从目标文档中确定待抽取知识区域;
通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
在一种可行的实施方式中,所述从目标文档中确定待抽取知识区域,包括:
读取目标文档以确定目标文档的语义信息或篇章结构信息;
根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
在一种可行的实施方式中,所述通过实体识别技术识别出所述待抽取知识区域内的实体,包括:
采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体。
在一种可行实施例中,所述基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体,包括:
将所述待抽取知识区域内的文本以句子为单位进行切分;
将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
在一种可行的实施方式中,所述通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率,包括:
将该任意两个实体以预训练或随机初始化的词向量表示;
将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
在一种可行的实施方式中,所述方法还包括:
若所述实体关系网为一个,则直接输出所述实体关系网;
若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出。
本申请实施例第二方面提供了一种半结构化文档知识抽取装置,包括:
区域确定模块,用于从目标文档中确定待抽取知识区域;
实体识别模块,用于通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
关系识别模块,用于通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
关系网获取模块,用于根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
可选的,所述区域确定模块,包括:
文档读取单元,用于读取目标文档以确定目标文档的语义信息或篇章结构信息;
区域确定单元,用于根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
可选的,所述实体识别模块,包括:
第一实体识别单元,用于采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
第二实体识别单元,用于基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体。
可选的,所述第二实体识别单元,包括:
文本切分单元,用于将所述待抽取知识区域内的文本以句子为单位进行切分;
序列生成单元,用于将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
第一特征抽取单元,用于将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
结果获取单元,用于将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
可选的,所述关系识别模块,包括:
实体向量化单元,用于将该任意两个实体以预训练或随机初始化的词向量表示;
第二特征抽取单元,用于将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
关系获取单元,用于将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
可选的,所述装置还包括:
第一关系输出模块,用于若所述实体关系网为一个,则直接输出所述实体关系网;
第二关系输出模块,用于若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出。
本申请实施例第三方面提供了一种电子设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的半结构化文档知识抽取方法中的步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的半结构化文档知识抽取方法中的步骤。
本申请的上述方案至少包括以下有益效果:本申请实施例通过从目标文档中确定待抽取知识区域;然后通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;再通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。从而相比基于自由文本的知识抽取技术,本申请考虑到专业文本知识密集且互相关联的特性,最大程度地利用领域先验知识,并将其以特征的形式与机器学习模型结合,有利于提高专业领域文档知识抽取的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种半结构化文档知识抽取方法的流程示意图;
图2为本申请实施例提供的一种实体关系网的表格示例图;
图3为本申请实施例提供的另一种半结构化文档知识抽取方法的流程示意图;
图4为本申请实施例提供的一种实体识别结果的表格示例图;
图5为本申请实施例提供的一种半结构化文档知识抽取装置的结构示意图;
图6为本申请实施例提供的另一种半结构化文档知识抽取装置的结构示意图;
图7为本申请实施例提供的另一种半结构化文档知识抽取装置的结构示意图;
图8为本申请实施例提供的另一种半结构化文档知识抽取装置的结构示意图;
图9为本申请实施例提供的另一种半结构化文档知识抽取装置的结构示意图;
图10为本申请实施例提供的另一种半结构化文档知识抽取装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
请参见图1,图1为本申请实施例提供的一种半结构化文档知识抽取方法的流程示意图,如图1所示,包括步骤:
S101,从目标文档中确定待抽取知识区域。
本申请具体实施例中,目标文档即为专业领域中用语规范、知识密集且互相关联的半结构化文档,例如:合同、法律判决书等,待抽取知识区域为即将要进行知识抽取的一段或一部分文本内容。
可选的,上述从目标文档中确定待抽取知识区域,包括:读取目标文档以确定目标文档的语义信息或篇章结构信息;根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。语义信息即目标文档中所包括的关键词和目标文档的特定样式,例如:民事判决书中抽取判决结果时,知识区域的开头通常以“本法院根据《XX法》第X条第X款,判决如下:……”的形式呈现。篇章结构信息指目标文档的多级目录,表格,排版,缩进等,例如:从公司财务报表中抽取公司基本信息时,先定位“一、公司基本信息”,再根据其随后文字的标题样式及缩进格式锁定待抽取知识区域。
S102,通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集。
本申请具体实施例中,实体包括命名实体,如人名、地名、公司名、机构名等;数值类实体,如金额、日期、年龄等;专业领域实体,如诉讼角色(原告、被告、委托人、第三人)、财经术语(总股本、流通股)等。实体识别技术可以选用基于先验知识的关键词词典、文本模板、机器学习分类模型、机器学习序列标注模型等,具体并不限定,旨在从待抽取知识区域准确抽取出实体。实体集可以仅仅是单独的实体的集合,例如:“判决被告刘某赔偿原告王某医药费8.6万元”这句话中的被告,刘某,原告,王某,医药费,8.6万;另外也可以是任意两个实体组成的实体对的集合,例如:刘某-王某,刘某-原告,王某-医药费等。
S103,通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率。
本申请具体实施例中,预设分类模型可以是线性或双线性模型接Softmax分类器,采用大量文本样本训练而成,其输入为一组实体的特征,输出为两实体间的关系属于预先定义的关系类型的得分或概率。具体的,实体的特征可以是领域知识抽取出的一元、二元特征,文本结构特征(段落结构、实体距离等),语法特征(词性标注结果、依存句法分析结果等),语义特征(实体类别,字、词的预训练向量表示等),该特征可直接输入分类模型,也可经过特征抽取器后输入分类模型,特征抽取器可以是循环神经网络(Recurrent NeuralNetwork,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)或者它们的变体。预先定义的关系类型有多个,例如:1-[赔偿方]-2、1-[受益方]-2等,为每个预先定义的关系生成标签r。假设步骤S102中识别出10个实体,预先定义的关系类型有5个,那么实体候选集中所有实体可能的关系将会是10*9*5种,预设分类模型将会输出450个概率。
S104,根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
本申请实施例中,基于分类模型输出的上述概率,如图2所示,采用可学习全局依赖关系的机器学习模型(具体可以是贝叶斯网络或解析器)输出概率大于预设阈值的实体关系网,例如:当使用基于图的解析器(Graph-based Parser)学习时,实体关系网的得分或概率为学到的生成树的所有边的得分之和或者概率之乘积,而“所有子节点最多只能有一个父节点”的全局规则被暗含在了图解析器的学习过程中。当然,该实体关系网可能是一个,也可能是多个,图2仅仅是一种示例,并不对本申请实施例造成任何限定。
可以看出,本申请实施例通过从目标文档中确定待抽取知识区域;然后通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;再通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。从而相比基于自由文本的知识抽取技术,本申请考虑到专业文本知识密集且互相关联的特性,最大程度地利用领域先验知识,并将其以特征的形式与机器学习模型结合,有利于提高专业领域文档知识抽取的准确率。
请参见图3,图3位本申请实施例提供的另一种半结构化文档知识抽取方法的流程示意图,如图3所示,包括步骤:
S301,从目标文档中确定待抽取知识区域;
S302,通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集。
其中,步骤S302进一步包括:
S3021,采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
S3022,基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体,得到所述实体候选集。
可以理解的,专业领域实体和数值类实体,如原告、被告、日期、金额等识别难度并不高,因此可采用基于先验知识的关键词词典和文本模板进行识别。作为一种可选的实施方式,在识别出数值类实体之后,所述方法还包括:对所述数值类实体进行单位转化和归一化处理,例如:将时间区间“30日”、“2周”、“3个月”归一化为“30日”、“14日”、“90日”。
在一种可行的实施方式中,上述基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体,包括:
将所述待抽取知识区域内的文本以句子为单位进行切分;
将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
本申请具体实施例中,序列标注模型主要由双向长短时记忆网络层(Long ShortTerm Memory networks,LSTM)和条件随机场(conditional random field,CRF)分类器构成,在应用序列标注模型之前,先对待识别区域的文本进行预处理,以标点符号为切分点对待抽取知识区域内的文本以句子为单位进行切分,然后将识别出的专业领域实体和数值类实体替换成相应的标签tag,例如:诉讼角色替换成<tag@诉讼角色>,金额名目替换成<tag@金额>,之后将句子中不是专业领域实体和数值类实体的文本进行分词tokenization得到单词序列token,并用预训练或随机初始化的词向量表示。最后经过双向LSTM层进行特征抽取,经过CRF分类器进行标注,标注采用BIO规则,B表示实体词开始,I表示实体词内部,O表示外部(不是实体词),标注的类别是预先定义的,例如:自然人、金额名目等,最后输出识别结果。例如:“判决被告刘某赔偿原告王某医药费8.6万元”这句文本,先用关键词和文本模板方法识别出“原告”,“被告”,“医药费”,“8.6万元”等实体,并将它们替换成标签tag,随后被序列标注模型识别为:[判:O][决:O][<tag@诉讼角色>:O][刘:自然人B][某:自然人I][赔:O][偿:O][<tag@诉讼角色>:O][王:自然人B][某:自然人I][<tag@金额名目>:O][<tag@金额>:O],从该结果中便可得到命名实体:刘某-自然人和王某-自然人,最后的实体识别结果或实体候选集可如图4。
S303,通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
S304,根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
需要说明的是,图3所示的实施例中部分步骤在图1所示的实施例中已有相关说明,为避免重复,此处不再赘述。
在一种可行的实施方式中,所述通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率,包括:
将该任意两个实体以预训练或随机初始化的词向量表示;
将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
本申请具体实施例中,首先对任意两个实体和该两个实体的实体类别进行预处理,得到实体的词向量和实体类别的Embedding表达,Embedding表达即嵌入层Embedding的编码输出,二者经过LSTM模型抽取到特征ai,将特征ai输入双线性模型进行计算,计算公式如下:
Lr=Wai+b,其中,Lr表示该任意两个实体抽取到的特征ai属于预先定义的关系类型r的得分,W表示一个权重矩阵,b为偏置向量。计算出的得分输入Softmax分类器,经过Softmax函数归一化后得到一个条件分布函数,其表示该任意两个实体间的关系属于预先定义的关系类型的概率。
在一种可行的实施方式中,所述方法还包括:
若所述实体关系网为一个,则直接输出所述实体关系网;
若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出。
进一步的,所述对多个所述实体关系网进行排序,包括:根据所述任意两个实体间的关系属于预先定义的关系类型的概率获取多个所述实体关系网中每个实体关系网的概率;将该每个实体关系网的概率和基于先验知识构建的全局特征作为最大熵排序模型的输入,得到多个所述实体关系网的排序结果。所述全局特征是手段编写的,例如:法律文书知识抽取时,根据领域知识,同一个人不会同时是原告和被告,所以当实体关系网中同时出现:“某甲--诉讼角色-->原告”以及“某甲--诉讼角色-->被告”时,不符合领域知识,在排序中位置会下调。假设得到如图2所示的实体关系网,其实体关系表示为:1-[赔偿方]-2,1-[受益方]-4,1-[赔偿金额]-7,2-[诉讼角色]-3,4-[诉讼角色]-5,7-[金额名目]-6;现还得到另外一个实体关系网,其实体关系表示为:1-[赔偿方]-2,1-[赔偿方]-4,1-[赔偿金额]-7,2-[诉讼角色]-3,4-[诉讼角色]-5,7-[金额名目]-6;如果这两个实体关系网的概率一样,那么光凭概率就无法只输出一个实体关系网了,如果在排序中加入符合法律常识的全局特征:“n(赔偿方)=1and n(受益方)=1”,图2所示的实体关系网的排序会高于另一个实体关系网,并被选为正确结果作为最后输出。
可以看出,本申请全局关系学习和排序的思想充分考虑了知识间的关联,从待抽取知识区域中一次性抽取出最可信的一组知识点,准确率高于一般的每个知识点分别评估的方法。
请参见图5,图5为本申请实施例提供的一种半结构化文档知识抽取装置的结构示意图,如图5所示,该装置包括:
区域确定模块51,用于从目标文档中确定待抽取知识区域;
实体识别模块52,用于通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
关系识别模块53,用于通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
关系网获取模块54,用于根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
可选的,如图6所示,所述区域确定模块51,包括:
文档读取单元5101,用于读取目标文档以确定目标文档的语义信息或篇章结构信息;
区域确定单元5102,用于根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
可选的,如图7所示,所述实体识别模块52,包括:
第一实体识别单元5201,用于采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
第二实体识别单元5202,用于基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体。
可选的,如图8所示,所述第二实体识别单元5202,包括:
文本切分单元52021,用于将所述待抽取知识区域内的文本以句子为单位进行切分;
序列生成单元52022,用于将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
第一特征抽取单元52023,用于将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
结果获取单元52024,用于将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
可选的,如图9所示,所述关系识别模块53,包括:
实体向量化单元5301,用于将该任意两个实体以预训练或随机初始化的词向量表示;
第二特征抽取单元5302,用于将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
关系获取单元5303,用于将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
可选的,如图10所示,所述装置还包括:
第一关系输出模块55,用于若所述实体关系网为一个,则直接输出所述实体关系网;
第二关系输出模块56,用于若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出。
本申请实施例提供的半结构化文档知识抽取装置能够应用于实际知识抽取场景中,且能实现图1和图3所示的实施例中的半结构化文档知识抽取方法,且能达到相同或相似的有益效果。
请参见图11,图11为本申请实施例提供的一种电子设备的结构示意图,如图11所示,包括:存储器1101,用于存储计算机程序;处理器1102,用于调用存储器1101存储的计算机程序实现上述半结构化文档知识抽取方法的实施例中的步骤;输入输出接口1103,用于进行输入输出,该输入输出接口1103可以为一个或多个。其中,处理器1102具体用于调用计算机程序执行如下步骤:
从目标文档中确定待抽取知识区域;
通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网。
可选的,处理器1102用于执行所述从目标文档中确定待抽取知识区域,包括:
读取目标文档以确定目标文档的语义信息或篇章结构信息;
根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
可选的,处理器1102用于执行所述通过实体识别技术识别出所述待抽取知识区域内的实体,包括:
采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体。
可选的,处理器1102用于执行基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体,包括:
将所述待抽取知识区域内的文本以句子为单位进行切分;
将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
可选的,处理器1102用于执行所述通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率,包括:
将该任意两个实体以预训练或随机初始化的词向量表示;
将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
可选的,处理器1102还用于:
若所述实体关系网为一个,则直接输出所述实体关系网;
若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出。
示例性的,上述电子设备可以是计算机、笔记本电脑、平板电脑、掌上电脑、服务器等区块链节点设备。电子设备可包括但不仅限于处理器1102、存储器1101、输入输出接口1103。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,由于电子设备的处理器1102执行计算机程序时实现上述的半结构化文档知识抽取方法中的步骤,因此上述半结构化文档知识抽取方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的半结构化文档知识抽取方法中的步骤。
示例性的,计算机可读存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,由于计算机可读存储介质的计算机程序被处理器执行时实现上述的半结构化文档知识抽取方法中的步骤,因此上述半结构化文档知识抽取方法的所有例均适用于该计算机可读存储介质,且均能达到相同或相似的有益效果。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种半结构化文档知识抽取方法,其特征在于,所述方法包括:
从目标文档中确定待抽取知识区域;
通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网;
若所述实体关系网为一个,则直接输出所述实体关系网;
若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出;
其中,所述对多个所述实体关系网进行排序,包括:根据所述任意两个实体间的关系属于预先定义的关系类型的概率获取多个所述实体关系网中每个实体关系网的概率;将该每个实体关系网的概率和基于先验知识构建的全局特征作为最大熵排序模型的输入,得到多个所述实体关系网的排序结果;
所述通过实体识别技术识别出所述待抽取知识区域内的实体,包括:
采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体;
所述待抽取知识区域内的实体包括专业领域实体和数值类实体,在识别出所述数值类实体之后,所述方法还包括:
对所述数值类实体进行单位转化和归一化处理。
2.根据权利要求1所述的方法,其特征在于,所述从目标文档中确定待抽取知识区域,包括:
读取目标文档以确定目标文档的语义信息或篇章结构信息;
根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
3.根据权利要求1所述的方法,其特征在于,所述基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体,包括:
将所述待抽取知识区域内的文本以句子为单位进行切分;
将句子中识别出的所述专业领域实体和所述数值类实体以相应的标签进行表示,以及将句子中的其他文本进行分词得到单词序列;
将所述单词序列以预训练或随机初始化的词向量表示,输入双向LSTM层进行特征抽取;
将抽取到的特征输入CRF分类器以对所述单词序列中的每个单词进行标注,输出所述待抽取知识区域内的文本的识别结果,从该识别结果中得到所述待抽取知识区域内的命名实体。
4.根据权利要求1所述的方法,其特征在于,所述通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率,包括:
将该任意两个实体以预训练或随机初始化的词向量表示;
将该任意两个实体的词向量及该任意两个实体所属的实体类别的Embedding表达输入LSTM模型进行特征抽取;其中,该任意两个实体所属的实体类别的Embedding表达是随时初始化得到的;
将抽取到的特征输入双线性模型进行预测,得到该任意两个实体间的关系属于预先定义的关系类型的得分,再经过Softmax分类器最终得到该任意两个实体间的关系属于预先定义的关系类型的概率。
5.一种半结构化文档知识抽取装置,其特征在于,所述装置包括:
区域确定模块,用于从目标文档中确定待抽取知识区域;
实体识别模块,用于通过实体识别技术识别出所述待抽取知识区域内的实体,得到实体候选集;
关系识别模块,用于通过预设分类模型获取所述实体候选集中任意两个实体间的关系属于预先定义的关系类型的概率;
关系网获取模块,用于根据该任意两个实体间的关系属于预先定义的关系类型的概率获得实体关系网;
所述关系网获取模块,还用于若所述实体关系网为一个,则直接输出所述实体关系网;若所述实体关系网为多个,则对多个所述实体关系网进行排序,选取最优的实体关系网进行输出;
在对多个所述实体关系网进行排序方面,所述关系网获取模块具体用于:
根据所述任意两个实体间的关系属于预先定义的关系类型的概率获取多个所述实体关系网中每个实体关系网的概率;将该每个实体关系网的概率和基于先验知识构建的全局特征作为最大熵排序模型的输入,得到多个所述实体关系网的排序结果;
在通过实体识别技术识别出所述待抽取知识区域内的实体方面,所述实体识别模块具体用于:
采用关键词词典和文本模板对所述待抽取知识区域内的文本进行匹配,以识别出所述待抽取知识区域内的专业领域实体和数值类实体;
基于识别出的所述专业领域实体和数值类实体,将所述待抽取知识区域内的文本输入训练好的序列标注模型以识别出所述待抽取知识区域内的命名实体;
所述待抽取知识区域内的实体包括专业领域实体和数值类实体,所述实体识别模块,还用于对所述数值类实体进行单位转化和归一化处理。
6.根据权利要求5所述的装置,其特征在于,所述区域确定模块,包括:
文档读取单元,用于读取目标文档以确定目标文档的语义信息或篇章结构信息;
区域确定单元,用于根据所述语义信息或所述篇章结构信息从所述目标文档中确定待抽取知识区域。
7.一种电子设备,其特征在于,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的半结构化文档知识抽取方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的半结构化文档知识抽取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675370.8A CN110427623B (zh) | 2019-07-24 | 2019-07-24 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675370.8A CN110427623B (zh) | 2019-07-24 | 2019-07-24 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427623A CN110427623A (zh) | 2019-11-08 |
CN110427623B true CN110427623B (zh) | 2021-09-21 |
Family
ID=68412372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910675370.8A Active CN110427623B (zh) | 2019-07-24 | 2019-07-24 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427623B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126064A (zh) * | 2019-11-14 | 2020-05-08 | 四川隧唐科技股份有限公司 | 金额识别方法、装置、计算机设备和可读存储介质 |
CN112948535B (zh) * | 2019-12-10 | 2022-06-14 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN111125377B (zh) * | 2019-12-24 | 2023-04-07 | 东软集团股份有限公司 | 一种实体关系识别方法、装置及设备 |
CN111144116B (zh) * | 2019-12-25 | 2024-02-02 | 国网江苏省电力有限公司电力科学研究院 | 一种文档知识结构化的抽取方法及装置 |
CN111209729A (zh) * | 2019-12-31 | 2020-05-29 | 上海犀语科技有限公司 | 一种基于序列标注的财务科目计算关系识别方法及装置 |
CN111177393B (zh) * | 2020-01-02 | 2023-03-24 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111259659B (zh) * | 2020-01-14 | 2023-07-04 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111339314B (zh) * | 2020-02-19 | 2024-02-13 | 北京百度网讯科技有限公司 | 一种三元组数据的生成方法、装置和电子设备 |
CN111400451B (zh) * | 2020-03-16 | 2023-05-09 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
CN111581363B (zh) * | 2020-04-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 知识抽取方法、装置、设备及存储介质 |
CN111476035B (zh) * | 2020-05-06 | 2023-09-05 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN111651575B (zh) * | 2020-05-29 | 2023-09-12 | 泰康保险集团股份有限公司 | 会话文本处理方法、装置、介质及电子设备 |
US11615246B2 (en) * | 2020-06-03 | 2023-03-28 | Sap Se | Data-driven structure extraction from text documents |
CN111859968A (zh) * | 2020-06-15 | 2020-10-30 | 深圳航天科创实业有限公司 | 一种文本结构化方法、文本结构化装置及终端设备 |
CN112115720A (zh) * | 2020-08-31 | 2020-12-22 | 北京字节跳动网络技术有限公司 | 一种实体间关联关系的确定方法、装置、终端设备及介质 |
CN112527981B (zh) * | 2020-11-20 | 2022-11-11 | 清华大学 | 开放式信息抽取方法、装置、电子设备及存储介质 |
CN112732897A (zh) * | 2020-12-28 | 2021-04-30 | 平安科技(深圳)有限公司 | 文档处理方法、装置、电子设备及存储介质 |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112613306A (zh) * | 2020-12-31 | 2021-04-06 | 恒安嘉新(北京)科技股份公司 | 抽取实体关系的方法、装置、电子设备、及存储介质 |
CN112732993B (zh) * | 2020-12-31 | 2024-03-08 | 京东科技控股股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113297347A (zh) * | 2021-06-29 | 2021-08-24 | 中国人民解放军国防科技大学 | 一种专业文书阅读的智能辅助方法、系统及存储介质 |
CN113505588A (zh) * | 2021-07-14 | 2021-10-15 | 京东科技控股股份有限公司 | 信息抽取方法、装置和电子设备 |
CN113298914B (zh) * | 2021-07-28 | 2021-10-15 | 北京明略软件系统有限公司 | 知识组块提取方法、装置、电子设备和存储介质 |
CN115130435B (zh) * | 2022-06-27 | 2023-08-11 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN116070602B (zh) * | 2023-01-05 | 2023-10-17 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109472032A (zh) * | 2018-11-14 | 2019-03-15 | 北京锐安科技有限公司 | 一种实体关系图的确定方法、装置、服务器及存储介质 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102012404B1 (ko) * | 2017-08-18 | 2019-08-20 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN107622050B (zh) * | 2017-09-14 | 2021-02-26 | 武汉烽火普天信息技术有限公司 | 基于Bi-LSTM和CRF的文本序列标注系统及方法 |
CN108052576B (zh) * | 2017-12-08 | 2021-04-23 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108304911B (zh) * | 2018-01-09 | 2020-03-13 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
-
2019
- 2019-07-24 CN CN201910675370.8A patent/CN110427623B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109472032A (zh) * | 2018-11-14 | 2019-03-15 | 北京锐安科技有限公司 | 一种实体关系图的确定方法、装置、服务器及存储介质 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110427623A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN106919673B (zh) | 基于深度学习的文本情绪分析系统 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
Kumar et al. | Automating reading comprehension by generating question and answer pairs | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
Varaprasad et al. | Applications and Techniques of Natural Language Processing: An Overview. | |
Wong et al. | isentenizer-: Multilingual sentence boundary detection model | |
Abarna et al. | An ensemble model for idioms and literal text classification using knowledge-enabled BERT in deep learning | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Saifullah et al. | Cyberbullying Text Identification based on Deep Learning and Transformer-based Language Models | |
Grijzenhout et al. | Opinion mining in dutch hansards | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |