CN112329477A - 基于预训练模型的信息抽取方法、装置、设备及存储介质 - Google Patents

基于预训练模型的信息抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112329477A
CN112329477A CN202011352108.9A CN202011352108A CN112329477A CN 112329477 A CN112329477 A CN 112329477A CN 202011352108 A CN202011352108 A CN 202011352108A CN 112329477 A CN112329477 A CN 112329477A
Authority
CN
China
Prior art keywords
model
training
information extraction
text
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011352108.9A
Other languages
English (en)
Inventor
杨洋
万建伟
潘仰耀
张琛
李锋
万化
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202011352108.9A priority Critical patent/CN112329477A/zh
Publication of CN112329477A publication Critical patent/CN112329477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种基于预训练模型的信息抽取方法、装置、设备及存储介质,该方法包括:获取待处理金融文本;根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。说明书实施例可以提高信息抽取模型的预测准确性。

Description

基于预训练模型的信息抽取方法、装置、设备及存储介质
技术领域
本说明书涉及自然语言处理技术领域,尤其是涉及一种基于预训练模型的信息抽取方法、装置、设备及存储介质。
背景技术
信息抽取(Information Extraction,IE)的工作主要是从非结构化的文本中抽取结构化的信息,是自然语言处理(Natural LanguageProcessing,NLP)中非常重要的一个子领域。在进行信息抽取时需要先识别出要抽取的命名实体识别(NamedEntitiesRecognitio,NER),因此NER是信息抽取中必不可少的组成部分,其目的是识别语料(文本)中人名、地名、组织机构名等命名实体。
目前,现有的信息抽取模型在预训练时,一般采用词嵌入(Word Embedding)的词向量处理方式。然而,基于这种方式所获得的词向量缺乏变化,尤其是在多义词上存在很大的局限性;多义词在嵌入(Embedding)矩阵中对应一个固定的向量,但在实际上,不同词语在不同语境下往往有不同含义。如此,容易导致训练出的信息抽取模型缺少泛化能力(即信息抽取模型在面对新鲜样本时适应性较差),从而影响了信息抽取模型的预测准确性。
发明内容
本说明书实施例的目的在于提供一种基于预训练模型的信息抽取方法、装置、设备及存储介质,以提高信息抽取模型的预测准确性。
为达到上述目的,一方面,本说明书实施例提供了一种基于预训练模型的信息抽取方法,包括:
获取待处理金融文本;
根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
在本说明书一实施例中,所述信息抽取模型通过以下步骤训练得到:
对采集到的目标金融文本进行预处理;
对预处理后的目标金融文本进行多维度标注,生成包含多维度标注的标签文本语句;
基于所述上下文预训练模型中的Transformer编码器,将所述标签文本语句进行向量化,并据此形成所述标签文本语句的多维特征矩阵;
根据所述多维特征矩阵训练所述上下文预训练模型,获得信息抽取模型。
在本说明书一实施例中,所述对采集到的目标金融文本进行预处理,包括:
对采集到的目标金融文本进行数据清洗;
确认清洗后的目标金融文本的长度是否等于指定长度;
当所述目标金融文本的长度大于所述指定长度时,按照所述指定长度对所述目标金融文本进行分片,以获得定长语句;
当所述目标金融文本的长度小于所述指定长度,或所述目标金融文本被分片后的剩余长度小于所述指定长度时,对所述目标金融文本或所述剩余长度进行边缘填充,以使其长度等于所述指定长度。
在本说明书一实施例中,所述对预处理后的目标金融文本进行多维度标注,包括:
基于BIO标注方法对所述定长语句进行多维度标注。
在本说明书一实施例中,所述根据所述多维特征矩阵训练所述上下文预训练模型,包括:
利用所述多维特征矩阵对所述上下文预训练模型进行训练,并利用条件随机场层对上下文预训练模型的输出进行约束;
计算每训练轮次后上下文预训练模型的损失函数值;
当所述损失函数值满足预设条件时,将对应训练轮次后的上下文预训练模型作为信息抽取模型。
在本说明书一实施例中,所述上下文预训练模型为具有Transformer编码器的预训练模型。
在本说明书一实施例中,所述具有Transformer编码器的预训练模型包括以下中的任意一种:
BERT模型;
XLNet模型;
ALBERT模型。
另一方面,本说明书实施例还提供了一种基于预训练模型的信息抽取装置,包括:
文本获取模块,用于获取待处理金融文本;
要素抽取模块,用于根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,在本说明书实施例中,由于预设的信息抽取模型是通过训练上下文预训练模型得到的,在对上下文预训练模型的训练过程中,对输入文本向量化,就不再像Word Embedding那样局限于捕获字符级的语义含义,还可以捕获词级(即字符间)、甚至是句子级的语义含义,从而增强了词向量模型的泛化能力,进而使得向量化后得到的特征的表征能力更强。因此,本说明书实施例的信息抽取模型具有更好的预测准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中基于预训练模型的信息抽取的流程图;
图2示出了本说明书一实施例中信息抽取模型的信息抽取示意图;
图3示出了本说明书一实施例中信息抽取模型的训练示意图;
图4示出了本说明书一些实施例中基于预训练模型的信息抽取装置的结构框图;
图5示出了本说明书一些实施例中计算机设备的结构框图。
【附图标记说明】
41、文本获取模块;
42、要素抽取模块;
502、计算机设备;
504、处理器;
506、存储器;
508、驱动机构;
510、输入/输出模块;
512、输入设备;
514、输出设备;
516、呈现设备;
518、图形用户接口;
520、网络接口;
522、通信链路;
524、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书涉及自然语言处理中的信息抽取技术。其可以应用于任何需要从语料文本中识别并抽取特定要素的应用场景中。例如,在本说明书一些实施例中,所述信息抽取技术可以应用于金融文本的信息抽取。但是,本领域技术人员可以理解,这种应用于金融文本的示例性说明不应理解为对本说明书的唯一限定。
本说明书实施例提供了基于预训练模型的信息抽取方法,其可以应用于计算机设备侧。参考图1所示,在本说明书一些实施例中,所述基于预训练模型的信息抽取方法可以包括以下步骤:
S101、获取待处理金融文本。
S102、根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
在本说明书实施例中,由于预设的信息抽取模型是通过训练上下文预训练模型得到的,在对上下文预训练模型的训练过程中,对输入文本向量化,就不再像Word Embedding那样局限于捕获字符级的语义含义,还可以捕获词级(即字符间)、甚至是句子级的语义含义,从而增强了词向量模型的泛化能力,进而使得向量化后得到的特征的表征能力更强。因此,本说明书实施例的信息抽取模型具有更好的预测准确性。
在本说明书的实施例中,预训练模型是指预训练语言模型(Pre-trainedLanguage Models,PLMs)。虽然早期的PTMs(如Skip-Gram和GloVe等)可以捕获单个字符的语义含义,但它们是与上下文无关的,不能捕获文本的高级概念(如语法和语义等),从而无法解决一词多义(例如“这瓶墨水是黑色的”中的“墨水”,与“他肚里还是有点墨水”中的“墨水”含义不同)问题,从而无法理解复杂的语境。
上下文预训练模型是指可以捕获字符级、词级(即字符之间)以及句子级(即句子之间)的语义含义的预训练语言模型。在本说明书一实施例中,上下文预训练模型例如可以为具有Transformer编码器的预训练模型。其中,Transformer编码器是Transformer模型(谷歌公司于2017年发布)中的一个独立部分。其中,Transformer模型本质上是一个编码器-解码器(Encoder-Decoder)的结构。编码器由6个编码模块(block)组成(编码器中每个编码模块由自注意力(self-attention)和前向反馈神经网络组成)。同样,解码器是由6个解码模块组成(解码器中每个解码模块由self-attention、编码器-解码器注意力(encoder-decoder attention)以及前向反馈神经网络组成),编码器的输出可以作为解码器的输入。由于训练上下文预训练模型的目的是为了得到信息抽取模型,因此,可以仅需要Transformer模型中的编码器。
在一示例性实施例中,典型的具有Transformer编码器的预训练模型例如可以包括但不限于:BERT(Bidirectional Encoder Representation from Transformers)模型、XLNet模型、ALBERT(A Lite BERT)模型和ERNIE(Enhanced Representation throughKnowledge Integration)模型等。
在本说明书的实施例中,待处理金融文本是用自然语言描述的金融文本,其可以包括一句或多句文字信息。例如,在一示例性实施例中,待处理金融文本可以为“同意开立履约保函人民币19527.70元。”这样的文字信息。再如,在另一示例性实施例中,待处理金融文本可以为“同意AAAA有限公司额度内申请短期流贷6亿元,期限2年,用于归还他行贷款,到期结清。其他执行原审批意见。”
在本说明书一实施例中,计算机设备可以通过用户界面(User Interface,UI)等接收外部输入的待处理金融文本。在本说明书另一实施例中,计算机设备还可以从指定的内部存储路径或外部存储路径读取文件,从而获得待处理金融文本。
在本说明书一些实施例中,根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素可以包括以下步骤:
1)、将获取到的待处理金融文本进行预处理,预处理的目的在于对数据进行清洗,以剔除其中的异常值、缺失值和无语义的字符(例如空格等)。
例如,在一示例性实施例中,以文本格式的审批意见原文的预处理为例,可以将原始的语料中的“&nbsp;”替换为空格;将“html<>”这种形式的标签换成“。”;将“。\s*。+”这种连续的没有语义的符号替换为一个“。”。
2)、将预处理后的目标金融文本转换为一个或多个定长语句。例如可以通过截断和边缘填充等操作,将预处理后的目标金融文本转换为一个或多个定长语句。例如,在图2所示的示例性实施例中,每个定长语句的字数相等。具体而言,检测预处理后的目标金融文本的长度是否等于指定长度。当所述目标金融文本的长度大于所述指定长度时,按照所述指定长度对所述目标金融文本进行分片,以获得定长语句。当所述目标金融文本的长度小于所述指定长度,或所述目标金融文本被分片后的剩余长度小于所述指定长度时,对所述目标金融文本或所述剩余长度进行边缘填充(例如padding补零操作),以使其长度等于所述指定长度。
3)、将定长语句输入预设的信息抽取模型,经过信息抽取模型处理后可以得到输出标签,再利用条件随机场层(Conditional Random Field,CRF)对输出标签进行约束,就可以得到抽取出的目标要素。由于只使用信息抽取模型容易导致输出标签之间的关系出现不合理的情况,因此需要加上一层CRF层,以降低输出标签中非法标签出现的概率。当然,CRF层的数量应与信息抽取模型的分支结构数量匹配(当信息抽取模型有多个分支结构时,可并行处理多个定长语句)。例如在如图2所示的示例性实施例中,信息抽取模型的分支结构有两个(图中未画出)可并行处理两个定长语句,则CRF层对应也是两个。
例如,在如图2所示的示例性实施例中,预设的信息抽取模型是基于BERT模型训练得到。当输入文本为“同意开立履约保函”时,经过预处理可以得到“同意开立”和“履约保函”两个定长语句。将其输入至信息抽取模型中的BERT模型进行向量化表示,可以得到令牌嵌入(Token Embedding)、分段嵌入(Segment Embedding)和位置嵌入(PositionEmbedding)。其中,令牌嵌入为单个字符的向量化(即对单个字符的编码,例如图2中将“同”编码为“E”),分段嵌入为语句的向量化(即对词或句子的编码,例如图2中将“同意开立”语句编码为“EA”),位置嵌入为对字符位置的向量化(即对字符在文本中的位置的编码,例如图2中将“意”在文本中的位置编码为“E1”)。如此就得到了“同意开立”和“履约保函”每个定长语句的向量表示。将每个定长语句的向量表示并行输入信息抽取模型中的BERT模型的多头自注意力(Multi-head Self-Attention)层进行处理,每个头都会得到相应的特征向量。然后将多个头的结果拼接起来,构成一个和输入向量维度相同的向量矩阵,与输入向量做残差连接,再输入全连接层进行特征提取,接着进行降维处理,再将此处的输出结果与上次残差连接后的结果做一个残差连接,即可以得到新的输出结果。然后再将该新的输出结果作为新的输入向量输入下一个多头自注意力层。如此,通过多个多头自注意力层的循环操作,就可以得到信息抽取模型的输出特征向量,在此基础上,再利用CRF层对输出标签进行约束,就可以最终得到抽取出的目标要素。
由此可见,在图2所示的实施例中,由于预设的信息抽取模型是基于BERT模型训练得到的,而基于双向Transformer的BERT模型能够捕捉短时间的局部信息和长时间的单词依赖关系,更容易并行计算。因此,这种信息抽取模型可具有更高的抽取效率。
在本说明书的实施例中,自注意力、编码器-解码器注意力及多头自注意力均为不同种类的attention机制。attention机制其主要思想是:把注意力集中放在重要的特征上,而忽略其他不重要的特征。attention机制类似于人类的视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。
在本说明书一些实施例中,信息抽取模型可以通过以下步骤训练得到:
(一)、对采集到的目标金融文本进行预处理。
在本说明书一实施例中,所述对采集到的目标金融文本进行预处理,可以包括:
1)、对采集到的目标金融文本进行数据清洗;以剔除其中的异常值、缺失值和无语义的字符(例如空格等)。
2)、确认清洗后的目标金融文本的长度是否等于指定长度。
3)、当所述目标金融文本的长度大于所述指定长度时,按照所述指定长度对所述目标金融文本进行分片,以获得定长语句。当所述目标金融文本的长度小于所述指定长度,或所述目标金融文本被分片后的剩余长度小于所述指定长度时,对所述目标金融文本或所述剩余长度进行边缘填充(例如padding补零操作),以使其长度等于所述指定长度。
(二)、对预处理后的目标金融文本进行多维度标注,生成包含多维度标注的标签文本语句。
在本说明书一实施例中,所述对预处理后的目标金融文本进行多维度标注可以包括:基于BIO标注方法对预处理阶段得到的定长语句进行多维度标注。
对定长语句进行标注目的是为了后续对比验证训练出的模型是否满足设定的评价指标值(例如准确率、召回率、置信度等)。由于同一文本可能会存在同时属于多个要素的情况,因此需要将文本进行多维度标注(即文本的同一位置标注多种标签)。例如,以“人民币”为例,其包含“币种”和“金额”两种要素,这两种要素信息都是业务方所需抽取的,如果只标注一种标签,则只能抽取出“币种”或“金额”中的一种,从而无法满足业务要求。在此情况下,就需要将每个文字标注成两列标签(即进行两个维度的标注)。当然,如需要抽取更多的要素,则需要进行更多维度的标注。
在本说明书一实施例中,可以采用BIO(Begin、Inside、Other)标注方法进行训练语料标注。例如,在一示例性实施例中,以“同意开立履约保函人民币19527.70元。”中抽取“币种”或“金额”为例,可以将“同意开立履约保函人民币19527.70元。”进行两个维度的标注(例如下表1所示)
表1
Figure BDA0002801609610000081
Figure BDA0002801609610000091
(三)、基于所述上下文预训练模型中的Transformer编码器,将所述标签文本语句进行向量化,并据此形成所述标签文本语句的多维特征矩阵。
本说明书实施例的向量化同样包括令牌嵌入、分段嵌入和位置嵌入。具体请参见上文有关部分的解释,在此不再赘述。在本说明书的实施例中,所述形成标签文本语句的多维特征矩阵是指,可以将标签文本语句的令牌嵌入、分段嵌入和位置嵌入对应的向量特征组合在一起,从而形成标签文本语句的多维特征矩阵。例如,以图2所示的示例性实施例为例,令牌嵌入对应的向量(E[CSL]~E[SEP])、分段嵌入对应的向量(E[A]~E[B])和位置嵌入对应的向量(E[0]~E[10])组合在一起形成了一个3行11列的多维特征矩阵。
(四)、根据所述多维特征矩阵训练所述上下文预训练模型,获得信息抽取模型。
在本说明书的实施例中,在训练阶段根据所述多维特征矩阵训练所述上下文预训练模型,与上述在生产上线阶段根据信息抽取模型从待处理金融文本中抽取目标要素类似。不同之处在于,在生产上线阶段,针对文本的要素抽取执行一次即可,且信息抽取模型一般是固定不变的。而在训练阶段,针对训练文本的训练需要循环迭代执行,上下文预训练模型是动态变化的(即每训练一轮次,上下文预训练模型就会变化一次)。
在本说明书一些实施例中,所述根据多维特征矩阵训练上下文预训练模型,可以包括:
1)、利用所述多维特征矩阵对所述上下文预训练模型进行训练,并利用条件随机场层对上下文预训练模型的输出进行约束;
2)、计算每训练轮次后上下文预训练模型的损失函数值,并判断损失函数值是否满足预设条件(即进行如图3中所示的模型评估)。当所述损失函数值不满足预设条件即如图3中所示的模型评估未通过)时,可以重新调整预处理、多维标注和/或上下文预训练模型,以便于在调整后再次进行训练。
3)、当所述损失函数值满足预设条件时,可以停止训练,并将对应训练轮次后的上下文预训练模型作为信息抽取模型。其中,损失函数值满足预设条件可以是指损失函数值达到最小化。
可以理解的是,当BERT模型有多个分支结构,可以并行输入多个定长语句时,在每一训练轮次后,上下文预训练模型都会出输出对应数量的预测子结果,此时需要计算每个预测子结果的损失函数值。在此情况下,当某一训练轮次后,各个预测子结果的损失函数值的平均值达到最小化时,可以认为满足了预设条件。例如在图2所示的示例性实施例中,BERT模型有两个分支结构(图中未画出),可并行输入两个定长语句;则BERT模型在每训练轮次后都会输出两个预测子结果,则当某一训练轮次后,两个预测子结果的损失函数值的平均值达到最小化时,可以认为满足了预设条件。
在本说明书一些实施例中,损失函数值的计算可以参照如下方式:
对输入句子Sentence={w1,w2,w3,...,wn},其中wn为句子中的每个字,经过模型处理后得到预测的标签序列y={y1,y2,y3,...yn},其概率如下。
Figure BDA0002801609610000101
其中,X为句子Sentence的多维特征向量;矩阵T为转移矩阵(转移矩阵就是一个标签转到另外不同标签的概率);
Figure BDA0002801609610000102
表示标签yi转移到yi+1的概率,y0和yn+1(yi中i的取值范围从0到n,当i=n时,yi+1就是yn+1)表示预测句子开始和结束的标签;
Figure BDA0002801609610000103
表示向量组合wi得到yi标签的概率。
Score(X,y)的预测包含多种可能,可以通过Softmax函数实现Score概率分类输出,概率高的y作为输出标签。语句Sentence产生标签序列y的概率为:
Figure BDA0002801609610000111
其中,p(y|X)为概率,YX表示所有可能的标签集合,
Figure BDA0002801609610000112
为YX中的元素,S(X,y)表示正确标签序列的得分(Score),
Figure BDA0002801609610000113
表示每种可能标签序列的Score,e为自然常数。P(y|X)值越大,表示预测出正确标签的可能性越高。故损失函数可以定义如下形式:
Figure BDA0002801609610000114
经softmax函数输出概率最大的一组序列为有效合理的输出序列,其表达式为:
Figure BDA0002801609610000115
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的基于预训练模型的信息抽取方法对应,本说明书实施例还提供了一种基于预训练模型的信息抽取装置。如图4所示,所述基于预训练模型的信息抽取装置可以包括:
文本获取模块41,可以用于获取待处理金融文本;
要素抽取模块42,可以用于根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
在本说明书一实施例中,所述信息抽取模型可以通过以下步骤训练得到:
对采集到的目标金融文本进行预处理;
对预处理后的目标金融文本进行多维度标注,生成包含多维度标注的标签文本语句;
基于所述上下文预训练模型中的Transformer编码器,将所述标签文本语句进行向量化,并据此形成所述标签文本语句的多维特征矩阵;
根据所述多维特征矩阵训练所述上下文预训练模型,获得信息抽取模型。
在本说明书一实施例中,所述对采集到的目标金融文本进行预处理,可以包括:
对采集到的目标金融文本进行数据清洗;
确认清洗后的目标金融文本的长度是否等于指定长度;
当所述目标金融文本的长度大于所述指定长度时,按照所述指定长度对所述目标金融文本进行分片,以获得定长语句;
当所述目标金融文本的长度小于所述指定长度,或所述目标金融文本被分片后的剩余长度小于所述指定长度时,对所述目标金融文本或所述剩余长度进行边缘填充,以使其长度等于所述指定长度。
在本说明书一实施例中,所述对预处理后的目标金融文本进行多维度标注,可以包括:
基于BIO标注方法对所述定长语句进行多维度标注。
在本说明书一实施例中,所述根据所述多维特征矩阵训练所述上下文预训练模型,可以包括:
利用所述多维特征矩阵对所述上下文预训练模型进行训练,并利用条件随机场层对上下文预训练模型的输出进行约束;
计算每训练轮次后上下文预训练模型的损失函数值;
当所述损失函数值满足预设条件时,将对应训练轮次后的上下文预训练模型作为信息抽取模型。
在本说明书一实施例中,所述上下文预训练模型可以为具有Transformer编码器的预训练模型。
在本说明书一实施例中,所述具有Transformer编码器的预训练模型可以包括以下中的任意一种:
BERT模型;
XLNet模型;
ALBERT模型。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
在本说明书一些实施例中,如图5所示,还提供一种计算机设备502。计算机设备502可以包括一个或多个处理器504,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备502还可以包括任何存储器506,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器506上并可在处理器504上运行的计算机程序,所述计算机程序被所述处理器504运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器506可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备502的固定或可移除部件。在一种情况下,当处理器504执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备502可以执行相关联指令的任一操作。计算机设备502还包括用于与任何存储器交互的一个或多个驱动机构508,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备502还可以包括输入/输出模块510(I/O),其用于接收各种输入(经由输入设备512)和用于提供各种输出(经由输出设备514)。一个具体输出机构可以包括呈现设备516和相关联的图形用户接口518(GUI)。在其他实施例中,还可以不包括输入/输出模块510(I/O)、输入设备512以及输出设备514,仅作为网络中的一台计算机设备。计算机设备502还可以包括一个或多个网络接口520,其用于经由一个或多个通信链路522与其他设备交换数据。一个或多个通信总线524将上文所描述的部件耦合在一起。
通信链路522可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路522可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于预训练模型的信息抽取方法,其特征在于,包括:
获取待处理金融文本;
根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
2.如权利要求1所述的基于预训练模型的信息抽取方法,其特征在于,所述信息抽取模型通过以下步骤训练得到:
对采集到的目标金融文本进行预处理;
对预处理后的目标金融文本进行多维度标注,生成包含多维度标注的标签文本语句;
基于所述上下文预训练模型中的Transformer编码器,将所述标签文本语句进行向量化,并据此形成所述标签文本语句的多维特征矩阵;
根据所述多维特征矩阵训练所述上下文预训练模型,获得信息抽取模型。
3.如权利要求2所述的基于预训练模型的信息抽取方法,其特征在于,所述对采集到的目标金融文本进行预处理,包括:
对采集到的目标金融文本进行数据清洗;
确认清洗后的目标金融文本的长度是否等于指定长度;
当所述目标金融文本的长度大于所述指定长度时,按照所述指定长度对所述目标金融文本进行分片,以获得定长语句;
当所述目标金融文本的长度小于所述指定长度,或所述目标金融文本被分片后的剩余长度小于所述指定长度时,对所述目标金融文本或所述剩余长度进行边缘填充,以使其长度等于所述指定长度。
4.如权利要求3所述的基于预训练模型的信息抽取方法,其特征在于,所述对预处理后的目标金融文本进行多维度标注,包括:
基于BIO标注方法对所述定长语句进行多维度标注。
5.如权利要求2所述的基于预训练模型的信息抽取方法,其特征在于,所述根据所述多维特征矩阵训练所述上下文预训练模型,包括:
利用所述多维特征矩阵对所述上下文预训练模型进行训练,并利用条件随机场层对上下文预训练模型的输出进行约束;
计算每训练轮次后上下文预训练模型的损失函数值;
当所述损失函数值满足预设条件时,将对应训练轮次后的上下文预训练模型作为信息抽取模型。
6.如权利要求1所述的基于预训练模型的信息抽取方法,其特征在于,所述上下文预训练模型为具有Transformer编码器的预训练模型。
7.如权利要求6所述的基于预训练模型的信息抽取方法,其特征在于,所述具有Transformer编码器的预训练模型包括以下中的任意一种:
BERT模型;
XLNet模型;
ALBERT模型。
8.一种基于预训练模型的信息抽取装置,其特征在于,包括:
文本获取模块,用于获取待处理金融文本;
要素抽取模块,用于根据预设的信息抽取模型从所述待处理金融文本中抽取目标要素;所述信息抽取模型通过训练上下文预训练模型得到。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
CN202011352108.9A 2020-11-27 2020-11-27 基于预训练模型的信息抽取方法、装置、设备及存储介质 Pending CN112329477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352108.9A CN112329477A (zh) 2020-11-27 2020-11-27 基于预训练模型的信息抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352108.9A CN112329477A (zh) 2020-11-27 2020-11-27 基于预训练模型的信息抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112329477A true CN112329477A (zh) 2021-02-05

Family

ID=74308121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352108.9A Pending CN112329477A (zh) 2020-11-27 2020-11-27 基于预训练模型的信息抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112329477A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128232A (zh) * 2021-05-11 2021-07-16 济南大学 一种基于albert与多重词信息嵌入的命名实体识别方法
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113704513A (zh) * 2021-07-27 2021-11-26 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
CN113779994A (zh) * 2021-08-25 2021-12-10 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113806551A (zh) * 2021-07-20 2021-12-17 国网天津市电力公司 一种基于多文本结构数据的领域知识抽取方法
CN114429106A (zh) * 2021-12-29 2022-05-03 北京百度网讯科技有限公司 页面信息处理方法、装置、电子设备和存储介质
CN116776886A (zh) * 2023-08-15 2023-09-19 浙江同信企业征信服务有限公司 一种信息抽取方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN110889287A (zh) * 2019-11-08 2020-03-17 创新工场(广州)人工智能研究有限公司 一种用于命名实体识别的方法与装置
WO2020086115A1 (en) * 2018-10-24 2020-04-30 Jia Cui Multi-task training architecture and strategy for attention- based speech recognition system
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111523318A (zh) * 2020-04-02 2020-08-11 言图科技有限公司 一种汉语短语分析方法、系统、存储介质及电子设备
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020086115A1 (en) * 2018-10-24 2020-04-30 Jia Cui Multi-task training architecture and strategy for attention- based speech recognition system
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN110889287A (zh) * 2019-11-08 2020-03-17 创新工场(广州)人工智能研究有限公司 一种用于命名实体识别的方法与装置
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN111523318A (zh) * 2020-04-02 2020-08-11 言图科技有限公司 一种汉语短语分析方法、系统、存储介质及电子设备
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
(美)考希克•巴拉克里希南著: "《TensorFlow强化学习快速入门指南 使用Python动手搭建自学习的智能体》", 机械工业出版社, pages: 71 - 72 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128232A (zh) * 2021-05-11 2021-07-16 济南大学 一种基于albert与多重词信息嵌入的命名实体识别方法
CN113806551A (zh) * 2021-07-20 2021-12-17 国网天津市电力公司 一种基于多文本结构数据的领域知识抽取方法
CN113704513A (zh) * 2021-07-27 2021-11-26 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
CN113779994A (zh) * 2021-08-25 2021-12-10 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113779994B (zh) * 2021-08-25 2024-01-23 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113449528B (zh) * 2021-08-30 2021-11-30 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN114429106A (zh) * 2021-12-29 2022-05-03 北京百度网讯科技有限公司 页面信息处理方法、装置、电子设备和存储介质
CN116776886A (zh) * 2023-08-15 2023-09-19 浙江同信企业征信服务有限公司 一种信息抽取方法、装置、设备及存储介质
CN116776886B (zh) * 2023-08-15 2023-12-05 浙江同信企业征信服务有限公司 一种信息抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112329477A (zh) 基于预训练模型的信息抽取方法、装置、设备及存储介质
Audebert et al. Multimodal deep networks for text and image-based document classification
US11455527B2 (en) Classification of sparsely labeled text documents while preserving semantics
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Tang et al. FontRNN: Generating Large‐scale Chinese Fonts via Recurrent Neural Network
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
CN112163092A (zh) 实体及关系抽取方法及系统、装置、介质
CN113222022A (zh) 一种网页分类识别方法及装置
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN113255829B (zh) 基于深度学习的零样本图像目标检测方法和装置
CN113051910A (zh) 一种用于预测人物角色情绪的方法和装置
Zhu et al. Continuous sign language recognition via temporal super-resolution network
CN116416637A (zh) 医学文档信息抽取方法、装置、电子设备及可读介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN115544210A (zh) 基于持续学习的事件抽取的模型训练、事件抽取的方法
CN113688843A (zh) 一种基于Transformer-VAE的零样本目标识别方法
CN113806536A (zh) 文本分类方法及其装置、设备、介质、产品
Sellami et al. EDNets: deep feature learning for document image classification based on multi-view encoder-decoder neural networks
Sreenivasulu et al. Adaptive inception based on transfer learning for effective visual recognition
Sartinas et al. A 2-D Wrist Motion Based Sign Language Video Summarization.
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
Hu et al. Towards accurate alignment and sufficient context in scene text recognition
Ramalakshmi et al. Image Caption Generation Using Attention Model
CN111368526B (zh) 一种序列标注方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication