CN113051887A - 一种公告信息元素抽取方法、系统及装置 - Google Patents
一种公告信息元素抽取方法、系统及装置 Download PDFInfo
- Publication number
- CN113051887A CN113051887A CN201911364864.0A CN201911364864A CN113051887A CN 113051887 A CN113051887 A CN 113051887A CN 201911364864 A CN201911364864 A CN 201911364864A CN 113051887 A CN113051887 A CN 113051887A
- Authority
- CN
- China
- Prior art keywords
- training
- bulletin
- text
- model
- announcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000000605 extraction Methods 0.000 claims abstract description 75
- 238000013145 classification model Methods 0.000 claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 40
- 238000012795 verification Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 9
- 238000002372 labelling Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 230000003416 augmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种公告信息元素抽取方法、系统及装置。方法包括:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;使用公告信息元素抽取模型预测字序列的类别;根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。本发明使用避开了由于对中文文本分词可能造成的不好效果的影响,效果更好,效率更高,适用于长文本的信息元素抽取。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种公告信息元素抽取方法、系统及装置。
背景技术
随着现代科学技术的高速发展以及互联网的火热,近几年文本信息数据爆发式增长,人们每天能接触到海量的文本信息,而如何从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,借助信息元素抽取摘要技术可以使得文本信息以结构化的形式展现,让人很快地从大量数据中获取重要信息。信息元素抽取方法一般通过对文本中的实体、关系、事件进行抽取,提取出其中有用的的部分内容,根据文档结构信息进行填充,从而得到快速展示信息的结构化文本。目前,主要采用深度学习和序列文本标注等技术进行信息元素抽取。
【1】深度学习技术。深度学习是一种机器学习方法,可以学习样本数据的内在规律和表示层次,在这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。
【2】特征向量化。在对文本信息处理的过程中,将信息转化为数字信息更方便于计算机的处理,在很多的自然语言处理的工程中,会将数据转换成向量形式来表示文本特征,进而通过文本的特征对数据进行各种操作。在传统的向量化处理中,一般先将文本进行分词,对词进行向量化,用向量来表示文本的特征,从而得到一种与原始文本有着某种关系的特征向量表达方式,以这种特征向量化后的数据为起点进行后面的各种数据处理工作,例如:文本分类任务,命名实体识别任务等。
【3】序列标注。序列标注问题是自然语言中最常见的问题,在深度学习火起来之前,常见的序列标注问题的解决方案都是借助于HMM(Hidden Markov Model,隐马尔可夫模型)模型、最大熵模型、CRF(conditional random field algorithm,条件随机场算法)模型。尤其是CRF,是解决序列标注问题的主流方法。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。我们只要在做序列标注时给定特定的标签集合,就可以进行序列标注。其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。
现有技术中,申请号为“CN201811549314.1”的专利申请公开了一种基于文档结构与深度学习的金融类公告信息抽取方法,包括:S1:生成文档结构树;S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;S4:训练词向量:预训练上下文的词向量,并利用CNN训练字符词向量;S5:抽取结构化信息:构建基于Bi-LSTM-CRF的深度学习模型,训练该模型进行字段识别。
该发明能快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息,但是,存在如下问题:对于结构不清晰的公告,生成文档结构树的难度大且效果不佳,节点信息也更难以表示,对于长文本的信息抽取,可能使得结构树层次太多,冗余性大且规则难以定义,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,给信息抽取带来很大的困难。
实践发现,现有技术的信息抽取技术存在如下缺陷:
1.目前传统的信息抽取技术,都要通过对文本进行分词,再对词进行特征向量化后,才继续下一步处理。但是在中文文本中,词与词之间并没有明显的分界线,所以分词的好坏会影响到最后的信息抽取结果。
2.在序列标注中,需要花费大量时间对文本进行标注,特别是对文本块进行标注的时候,因为文本较长,结构不清晰,标注花费人力较大。现在分类算法一般有基于无监督学习、半监督学习和监督学习。其中监督分类方法使用得比较多,是现在分类技术的主流,并且效果较好,但是准确率基于受训练样本的数量和标注质量的,所以需要耗费大量的人力和时间去训练或者标注数据。而无监督分类方法的目的是对样本中潜在的结构或者分布作相似对比,把相似的对象堆叠在一起,并没有明确的类别划分和确切的答案,该方法虽然节省了人力和时间,但是训练效果不明确。
3.传统深度学习是一种批量学习,在每一次学习前需要准备好所有的处理完毕的语料数据,对于每次学习都要重新训练模型,这会耗费大量的时间和空间,从而影响效率。
发明内容
本发明实施例的主要目的在于提供一种效果更好、效率更高的公告信息元素抽取方法。
本发明的目的还在于提供相应的系统及装置。
为实现上述发明目的,本发明采用的技术方案如下:
第一方面,提供一种公告信息元素抽取方法,包括:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;使用公告信息元素抽取模型预测字序列的类别;根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
结合第一方面,在一种可能的实现方式中,所述预先训练公告特征段分类模型,包括:数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
结合第一方面,在一种可能的实现方式中,所述预先训练公告信息元素抽取模型,包括:数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
结合第一方面,在一种可能的实现方式中,所述公告特征段分类模型包括归一化指数函数Softmax;所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
第二方面,提供一种公告信息元素抽取系统,包括:数据预处理模块,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;公告核心文本块分类模块,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;文本块信息元抽取模块,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;结构化处理模块,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
结合第二方面,在一种可能的实现方式中,所述公告核心文本块分类模块预先训练公告特征段分类模型,包括:数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
结合第二方面,在一种可能的实现方式中,所述文本块信息元抽取模块预先训练公告信息元素抽取模型,包括:数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
结合第二方面,在一种可能的实现方式中,所述公告特征段分类模型包括归一化指数函数Softmax;所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
第三方面,提供一种计算机设备,包括处理器和存储器,所述存储器中存储有程序,所述程序包括计算机执行指令,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如第一方面所述的公告信息元素抽取方法。
第四方面,提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括计算机执行指令,所述计算机执行指令当被计算机设备执行时,使所述计算机设备执行如第一方面所述的公告信息元素抽取方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
1.本发明会对长文本进行识别,使用句子特征向量化和字特征向量化,避开了由于对中文文本分词可能造成的不好效果的影响,同时可使用对向量进行矩阵增广的数据增强技术,增强训练样本的特征表达。
2.本发明采用了监督学习的学习形式,在训练结果中,可以得到了准确度比较高的分类效果。
3.本发明适用于长文本的信息元素抽取,具有更高的效率。在长文本中,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,需要把信息元素的位置信息考虑在内;有助于提高按照正则表达式来做信息抽取的复杂性和性能不稳定性。
4.本发明可以根据所摘取出的结构信息做分类,从而也可以根据公告结构来对公告进行分类。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种公告信息元素抽取方法的流程示意图;
图2是本发明实施例提供的一种公告信息元素抽取系统的结构示意图;
图3是本发明实施例中一种分类模型结构图;
图4是本发明实施例中一种分类模型训练图;
图5是本发明实施例中一种公告信息元素抽取系统的结构框架原理图;
图6是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面通过具体实施例,进行详细的说明。
请参考图1,本发明的一个实施例,提供一种公告信息元素抽取方法。所述公告是政府、企业等各种不同主体对外公开宣告的信息。该方法通过预先训练公告特征段分类模型(简称分类模型),以及,预先训练公告信息元素抽取模型(简称抽取模型),使用两个模型实现公告信息元素抽取,即,从公告中抽取重要的内容。
如图1所示,该方法可包括以下步骤:
步骤S1:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型。
步骤S2:获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;其中,可以对句序列进行向量化,得到句向量集合;可以对字序列进行向量化,得到字向量集合。
步骤S3:使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子。所述句向量集合可作为所述公告特征段分类模型的输入。
步骤S4:使用公告信息元素抽取模型预测字序列的类别。所述字向量集合可作为所述公告信息元素抽取模型的输入。
步骤S5:根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,按规则构建结构化的公告信息元素。至此,完成公告信息元素的抽取。
如上所述,该方法将公告的句子转换成向量作为分类模型的输入,通过分类模型预测句序列的类别,识别公告核心文本块,找出包含待抽取信息元素的句子;然后,通过抽取模型,对分类好的包含待抽取信息元素的句子,使用命名实体识别技术,抽取出所需要的信息元素。
请参考图2,本发明的一个实施例,还提供一种公告信息元素抽取系统,该系统主要包括:数据预处理模块,基于文本分类的公告核心文本块分类模块(简称分类模块),和基于命名实体识别技术的文本块信息元抽取模块(简称抽取模块),以及结构化处理模块。
数据预处理模块21,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;
公告核心文本块分类模块22,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;
文本块信息元抽取模块23,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;
结构化处理模块24,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,按规则构建结构化的公告信息元素。
该系统中,分类模块和抽取模块是主要组成模块。为了减少分词对处理结果的影响,分类模块中,直接将句子转换成向量作为分类模型的输入,对句子进行分类,找出包含待抽取信息元素的句子;然后,在抽取模块中,对分类好的包含待抽取信息元素的句子,使用命名实体识别技术,抽取出所需要的信息元素。
下面,对本发明的技术方案做进一步详细说明。
【一】训练公告特征段分类模型
本发明中,由基于文本分类的公告特征句分类模块,来训练公告特征段分类模型。分类模型主要包括归一化指数函数(Softmax),还可以包括卷积神经网络(ConvolutionalNeural Networks,CNN)、双向门控循环单元(BiGRU)、或来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)。对于一份公告,可能涵盖多个方面的内容,可经分类模型进行分类,根据需要例如可以分为T个类,T为正整数,而关注的重要信息元素可以只在其中某一个或几个类中,可抽取出该类后交由抽取模块进行命名实体识别,提取出所需要的信息元素。训练分类模型的过程如下。
(1)数据预处理
A)获取用作语料的公告文本,对公告文本D={D_1…D_m}进行分句,其中D_m表示第m个公告文本。形成句序列s={st_1…st_n},其中,st_n表示第n个句子。n和m均为正整数。
B)对公告文本段落进行划分,其中有M%划分为训练集e_set,N%划分为验证集d_set,最后剩下的100%-M%-N%划分为未标注集u_set。其中M,N为工程经验参数。
C)对训练集e_set和验证集d_set进行标注,例如人工标注,标注可分为4种,分别为:s-block(开始边界文本块),c-block(核心文本块),e-block(结束边界文本块),O(其他文本块)。
D)将训练集e_set、未标注集u_set以及验证集d_set经过中文预训练模型例如BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表征量)模型处理,转成形状为[I,J,K]的特征向量集,其中I表示使用第几层的输出作为句向量,J表示为一个句子的最大长度,若一个句子超过J个字符,句子长度则截断为J,若一个句子少于J个字符,则可以填充“[PAD]”(该词为BERT的空填充词),K为BERT模型的隐藏层数目。I、J、K为工程经验参数。
(2)分类模型训练
用于文本分类的分类模型可采用卷积神经网络(Convolutional NeuralNetworks,CNN),主要分为4个结构,包括输入层、卷积层、池化层和全连接层。其中输入层通过h*k的卷积核的卷积层之后,得到列数为1的特征图(feature map),其中h表示纵向句子的个数,k表示句向量的维度。第三个是池化层,使用最大池化法的时候一般认为池化层中提取的最大,一般是最具有代表意义的或者是最重要的,最终提取出来成为一个一维向量。最后一个是带有归一化指数函数(Softmax)的全连接层作为输出层。分类模型结构图如图3所示,分类模型训练图如图4所示。训练过程如下。
A)将经过BERT中文预训练模型转成形状为[I,J,K]的特征向量训练集e_set作为CNN的输入。
B)CNN的filter(卷积核)的大小都为h*k,即每个filter扫过的区域是从上往下覆盖到一个word的所有embedding长度(其中h为filter的窗口长度)。
C)选取几个不同大小(h不同的)filter去学习句子的特征,每个filter(这里表示为w)所学习到的特征即如下表示:ci=f(W·Xi:i+h-1+b)。
D)做卷积计算,每个filter扫一遍句子,可以得到这个filter的feature map,因为filter的窗口长度为h,所以feature map中共得到n-h+1个feature。
E)每个卷积核的feature map做一个最大池化(max-pooling),即max(c),使使长度不同的句子经过这个卷积核后得到的特征都为1维,以及保证卷积核都能取得很高的卷积值。
F)执行全连接,经过一个softmax分类器对文本进行分类。
经以上步骤完成对公告特征段分类模型的训练。
【二】训练公告信息元素抽取模型
基于命名实体识别技术的公告信息元抽取模型,主要由双向门控循环单元(BiGRU)+卷积神经网络(CNN)+条件随机场(CRF)模型构成。对于经分类模型摘取的某些类型的公告文本,可以利用抽取模型进行命名实体识别,提取所需要的信息元素。训练抽取模型的步骤如下。
(1)数据预处理
A)获取公告文本D=(D_1…D_m),其中D_m表示第m个公告文本。然后对公告数据文本D={D_1…D_m}进行分句,形成句序列S=(S_1…S_n),其中S_n表示第n个句子。n和m均为正整数。
B)把句序列S=(S_1…S_n)分割成为字序列w={wd_1…wd_n},其中wd_n表示第n个字。
C)对于得到的字序列w={wd_1…wd_n},我们要用BERT中文预训练模型(已有技术)对其进行字向量化,并且进行人工标注,得到一个标注好了的字向量集v=(v_1…v_n)。
D)把经过预处理的字向量集v进行分割,数据集的R%分为训练集e_set,数据集的100%-R%分为测试集t_set,其中训练集的N%为验证集d_set,其中R为工程经验参数。
(2)神经网络训练
A)将向量训练集e_set用来初始化公告信息元素抽取模型(BiGRU+CNN+CRF),得到一个模型m1。
B)将验证集d_set作为模型m1的输入,检验模型m1的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m1_v。
C)将测试集t_set作为模型m1_v的输入,预测出测试集t_set的标签,并就预测标签和测试集人工标注的标签对比,评估模型m1_v的性能。
D)利用新的输出语意特征来做实体标注,可得到新的实体标签。
经以上步骤完成对公告信息元素抽取模型的训练。
以上,对分类模型和抽取模型的训练过程进行详细说明。
下面,利用具体应用场景的实施例进一步说明本发明方案中公告信息元素抽取过程。
请参考图5,是一个实施例中,公告信息元素抽取系统结构框架原理图,图中信息元素简称为信息元。基于该系统的公告信息元素抽取方法包括以下步骤:
A)获取需要抽取信息元素的公告文本D=(D_1…D_m),其中D_m表示第m个公告文本块。然后对公告文本D={D_1…D_m}进行分句,形成句序列S=(S_1…S_n),其中S_n表示第n个句子。n和m均为正整数。以及可选的,对句序列进行向量化,得到句向量集合。
B)把句序列S=(S_1…S_n)分割成为字序列w={wd_1…wd_n},其中wd_n表示第n个字。对于得到的字序列wd={wd_1…wd_n},可以用BERT中文预训练模型对其进行字向量化,并且可以进行人工标注,得到一个标注好了的字向量集合v=(v_1…v_n)。
C)使用公告特征段分类模型(CNN+Softmax)预测公告句序列S的类别,找出包含待抽取信息元素的句子。
D)使用公告信息元抽取模型(BiGRU+CNN+CRF)预测公告字序列wd的类别。
E)根据找出的包含待抽取信息元素的句子,使用对应的公告句子类别,组装公告字序列的实体词。
F)按规则构建结构化的公告信息元素,完成公告信息元素的抽取。
以上,本发明实施例公开了一种公告信息元素抽取方法和系统。从以上技术方案可以看出,本发明实施例具有以下优点:
1.本发明会对长文本进行识别,使用句子特征向量化和字特征向量化,避开了由于对中文文本分词可能造成的不好效果的影响,同时可使用对向量进行矩阵增广的数据增强技术,增强训练样本的特征表达。
2.本发明采用了监督学习的学习形式,在训练结果中,可以得到了准确度比较高的分类效果。
3.本发明适用于长文本的信息元素抽取,具有更高的效率。在长文本中,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,需要把信息元素的位置信息考虑在内;有助于提高按照正则表达式来做信息抽取的复杂性和性能不稳定性。
4.本发明可以根据所摘取出的结构信息做分类,从而也可以根据公告结构来对公告进行分类。
请参考图6,本发明实施例还提供一种计算机设备60,包括处理器61和存储器62,所述存储器62中存储有程序,所述程序包括计算机执行指令,当所述计算机设备60运行时,所述处理器61执行所述存储器62存储的所述计算机执行指令,以使所述计算机设备60执行如上文所述的公告信息元素抽取方法。
本发明实施例还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括计算机执行指令,所述计算机执行指令当被计算机设备执行时,使所述计算机设备执行如上文所述的公告信息元素抽取方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
上述实施例仅用以说明本发明的技术方案,而非对其限制;本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种公告信息元素抽取方法,其特征在于,包括:
预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;
获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;
使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;
使用公告信息元素抽取模型预测字序列的类别;
根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
2.根据权利要求1所述的方法,其特征在于,所述预先训练公告特征段分类模型,包括:
数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;
分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
3.根据权利要求1所述的方法,其特征在于,所述预先训练公告信息元素抽取模型,包括:
数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;
神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
4.根据权利要求1所述的方法,其特征在于,
所述公告特征段分类模型包括归一化指数函数Softmax;
所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
5.一种公告信息元素抽取系统,其特征在于,包括:
数据预处理模块,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;
公告核心文本块分类模块,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;
文本块信息元抽取模块,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;
结构化处理模块,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
6.根据权利要求5所述的系统,其特征在于,所述公告核心文本块分类模块预先训练公告特征段分类模型,包括:
数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;
分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
7.根据权利要求5所述的系统,其特征在于,所述文本块信息元抽取模块预先训练公告信息元素抽取模型,包括:
数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;
神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
8.根据权利要求5所述的系统,其特征在于,
所述公告特征段分类模型包括归一化指数函数Softmax;
所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
9.一种计算机设备,包括处理器和存储器,所述存储器中存储有程序,所述程序包括计算机执行指令,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如权利要求1-4中任一项所述的公告信息元素抽取方法。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括计算机执行指令,所述计算机执行指令当被计算机设备执行时,使所述计算机设备执行如权利要求1-4中任一项所述的公告信息元素抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911364864.0A CN113051887A (zh) | 2019-12-26 | 2019-12-26 | 一种公告信息元素抽取方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911364864.0A CN113051887A (zh) | 2019-12-26 | 2019-12-26 | 一种公告信息元素抽取方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113051887A true CN113051887A (zh) | 2021-06-29 |
Family
ID=76505984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911364864.0A Pending CN113051887A (zh) | 2019-12-26 | 2019-12-26 | 一种公告信息元素抽取方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051887A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486141A (zh) * | 2021-07-29 | 2021-10-08 | 宁波薄言信息技术有限公司 | 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN115033702A (zh) * | 2022-03-04 | 2022-09-09 | 贵州电网有限责任公司 | 一种基于集成学习的变电站选址知识抽取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110609896A (zh) * | 2019-07-19 | 2019-12-24 | 中国人民解放军国防科技大学 | 基于二次解码的军事想定文本事件信息抽取方法及装置 |
-
2019
- 2019-12-26 CN CN201911364864.0A patent/CN113051887A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110609896A (zh) * | 2019-07-19 | 2019-12-24 | 中国人民解放军国防科技大学 | 基于二次解码的军事想定文本事件信息抽取方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486141A (zh) * | 2021-07-29 | 2021-10-08 | 宁波薄言信息技术有限公司 | 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN113705218B (zh) * | 2021-09-03 | 2023-03-21 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN115033702A (zh) * | 2022-03-04 | 2022-09-09 | 贵州电网有限责任公司 | 一种基于集成学习的变电站选址知识抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825845B (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN114461804B (zh) | 一种基于关键信息与动态路由的文本分类方法、分类器及系统 | |
CN113420548A (zh) | 一种基于知识蒸馏和pu学习的实体抽取采样方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN110826298A (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN112015903B (zh) | 题目判重方法、装置、存储介质、计算机设备 | |
CN113505222A (zh) | 一种基于文本循环神经网络的政务文本分类方法及系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN116401373A (zh) | 一种试题知识点的标注方法、存储介质及设备 | |
CN114996442A (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110543560A (zh) | 基于卷积神经网络的长文本分类识别方法、装置及介质 | |
Sun et al. | Text sentiment polarity classification method based on word embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |