CN113779994B - 一种要素抽取方法、装置、计算机设备和存储介质 - Google Patents

一种要素抽取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113779994B
CN113779994B CN202110981191.4A CN202110981191A CN113779994B CN 113779994 B CN113779994 B CN 113779994B CN 202110981191 A CN202110981191 A CN 202110981191A CN 113779994 B CN113779994 B CN 113779994B
Authority
CN
China
Prior art keywords
text
element extraction
layer
extraction
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110981191.4A
Other languages
English (en)
Other versions
CN113779994A (zh
Inventor
杨洋
李锋
张琛
万化
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202110981191.4A priority Critical patent/CN113779994B/zh
Publication of CN113779994A publication Critical patent/CN113779994A/zh
Application granted granted Critical
Publication of CN113779994B publication Critical patent/CN113779994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种要素抽取方法、装置、计算机设备和存储介质,通过获取待识别文本语料,将所述待识别文本语料输入至要素抽取模型,并通过要素抽取模型的长文本要素抽取分支对所述待识别文本语料进行命名实体识别,得到长文本抽取结果,实现了长句的抽取;通过要素抽取模型的短文本要素抽取分支对所述待识别文本语料进行命名实体识别,得到短文本抽取结果,从而根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据,不仅实现所述长文本抽取结果以及所述短文本抽取结果的结合,可以提升要素抽取准确率达97%以上,还可以解决要素重叠的问题。

Description

一种要素抽取方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种要素抽取方法、装置、计算机设备和存储介质。
背景技术
随着自然语言处理技术(Natural Language Processing,NLP)的发展,出现了信息抽取。且命名实体识别技术(Named Entities Recognition,NER)是信息抽取是必不可少的组成部分,其目的是识别语料中人名、地名、组织机构名等命名实体。
传统技术中,利用深度学习模型LSTM(Long Short Term Mermory)进行信息抽取。然而,传统方法中信息抽取方法仅能断断续续地抽取零散要素,无法完成长句的抽取。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决传统技术中仅能抽取零散要素不能抽取长句问题的要素抽取方法、装置、计算机设备和存储介质。
一种要素抽取方法,所述方法包括:
获取待识别文本语料;
将所述待识别文本语料输入至要素抽取模型,所述要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,所述长文本要素抽取分支包括至少两层的第一要素抽取层,所述短文本要素抽取分支包括一层第二要素抽取层;
通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果;
通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果;
根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据。
在其中一个实施例中,所述长文本要素抽取分支包括与最后一层的第一要素抽取层连接的第一约束层,所述短文本要素抽取分支包括与所述第二要素抽取层连接的第二约束层;所述根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据,包括:
通过所述第一约束层对所述长文本抽取结果进行关系判断,得到所述待识别文本语料的第一预测标签;
通过所述第二约束层对所述短文本抽取结果进行关系判断,得到所述待识别文本语料的第二预测标签;
对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据。
在其中一个实施例中,所述长文本要素抽取分支设有第一评估权重,所述短文本要素抽取分支具有第二评估权重;所述对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据,包括:
根据所述第一评估权重以及所述第二评估权重对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据。
在其中一个实施例中,所述对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据,包括:
在与任一命名实体对应的第一预测标签以及第二预测标签中,舍弃置信度较低的预测标签,保留置信度较高的预测标签。
在其中一个实施例中,所述第一要素抽取层以及所述第二要素抽取层采用BERT模型;
所述第一约束层和所述第二约束层采用条件随机场统计模型。
在其中一个实施例中,所述要素抽取模型还包括嵌入层,所述第二要素抽取层以及第一层的第一要素抽取层分别连接于所述嵌入层;在所述将所述待识别文本语料输入至要素抽取模型之后,所述方法还包括:
通过所述嵌入层对所述待识别文本语料进行嵌入表示,得到所述待识别文本语料的词向量表达数据。
在其中一个实施例中,所述第一层的第一要素抽取层与所述第二要素抽取层采用同一要素抽取层。
一种要素抽取装置,所述装置包括:
语料获取模块,用于获取待识别文本语料;
语料输入模块,用于将所述待识别文本语料输入至要素抽取模型,所述要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,所述长文本要素抽取分支包括至少两层的第一要素抽取层,所述短文本要素抽取分支包括一层第二要素抽取层;
长文本抽取模块,用于通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果;
短文本抽取模块,用于通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果;
约束处理模块,根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述要素抽取方法、装置、计算机设备和存储介质,通过获取待识别文本语料,将所述待识别文本语料输入至要素抽取模型,并通过要素抽取模型的长文本要素抽取分支对所述待识别文本语料进行命名实体识别,得到长文本抽取结果,实现了长句的抽取;通过要素抽取模型的短文本要素抽取分支对所述待识别文本语料进行命名实体识别,得到短文本抽取结果,从而根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据,不仅实现所述长文本抽取结果以及所述短文本抽取结果的结合,可以提升要素抽取准确率达97%以上,还可以解决要素重叠的问题。
附图说明
图1为一个实施例中要素抽取方法的应用环境图;
图2a为一个实施例中要素抽取方法的流程示意图;
图2b为一个实施例中要素抽取模型的结构示意图;
图3a为一个实施例中要素抽取模型的结构示意图;
图3b为一个实施例中步骤S250的流程示意图;
图4a至图4b为一个实施例中要素抽取模型的结构示意图;
图5为一个实施例中要素抽取装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着金融业的迅速发展,金融业已形成一个庞大的经济体系,它与国民经济发展息息相关。如何在金融业相关文本(比如银行贷款审批意见)中抽取有用信息是一件很有意义的工作。将命名实体识别应用到金融领域,是相关金融行业在构建知识图谱、意见挖掘和舆情分析等研究工作的技术支撑。
在传统技术中,基于规则和词典的方法往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误。进一步地,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。此外,它对语料库质量的依赖也比较大,这制约着基于统计的方法。基于深度学习的LSTM方法往往需要标注数量庞大的标签数据,但是针对生产中存在的各种不同句式的文本语料,识别效果却一般。并且,LSTM算法在处理序列问题时不能并行计算,将LSTM作为解码器时,在第t个时间节点的预测向量(prediction vector)会依赖t-1时刻的近期记忆(hiddenstate),这导致计算效率很低。此外,该方法不能表征字词的多义性。很多字词在不同的语境中有不同的含义,而该方法会将字词映射为固定维度的向量,并不能准确地表达字词的多义性,与真实语境相悖。
基于此,本申请提供一种要素抽取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104可以搭建待训练的要素抽取模型,并获取训练数据,训练数据可以是对银行审批意见原文进行数据清洗、限制语料长度等预处理,得到固定长度的文本语料,还可以对各文本语料进行检查。要素抽取模型可以包括至少一个短文本要素抽取分支和至少一个长文本要素抽取分支。长文本要素抽取分支包括至少两层第一要素抽取层和一层第一约束层,短文本要素抽取分支包括一层第二要素抽取层和一层第二约束层。第一要素抽取层和第二要素抽取层可以采用BERT模型,第一约束层和第二约束层可以采用CRF算法模型,即本申请中的要素抽取模型可以采用BERT模型与CRF算法模型进行搭建。服务器104利用训练数据对待训练的要素抽取模型进行训练,满足模型训练的停止条件时,得到要素抽取模型。可以将要素抽取模型部署至终端102,终端102获取待识别文本语料;将所述待识别文本语料输入至要素抽取模型;通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果;通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果;根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2a所示,提供了一种要素抽取方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S210、获取待识别文本语料。
S220、将待识别文本语料输入至要素抽取模型。
其中,待识别文本语料可以是使用自然语言的形成的一句或者多句文字信息。待识别文本语料还可以是使用自然语言形成的一段文本。待识别文本语料包括短文本要素和长文本要素,短文本要素可以是字符数量小于预设数量阈值的字词信息,长文本要素可以是字符数量超过预设数量阈值的长句信息。示例性地,一审批意见为“拟同意向A公司贷款1000万元,期限3个月,利率3%,抵押人为B夫妇,抵押物为其在上海市黄浦区南京东路M号XX小区Y号NN03的房产,同时抵押其在上海市GG区FF路8号的厂房,TT为本次贷款提供联合抵押,将提供其在ZZ公司的股权信息。”其中长句“抵押物为其在上海市黄浦区南京东路M号XX小区Y号NN03的房产,同时抵押其在上海市GG区FF路8号的厂房,TT为本次贷款提供联合抵押,将提供其在ZZ公司的股权信息”为要素“抵押物”,“B夫妇”为要素“抵押人”。可见,要素“抵押物”记为长文本要素,要素“抵押人”为短文本要素。
具体地,需要从待识别文本语料中抽取长文本要素和短文本要素,因此,可以从终端本地获取待识别文本语料,也可以从与终端连接的计算机设备获取待识别文本语料,将待识别文本语料输入至要素抽取模型,通过要素抽取模型对待识别文本语料进行特征提取。
S230、通过各第一要素抽取层对待识别文本语料进行命名实体识别,得到长文本抽取结果。
S240、通过第二要素抽取层对待识别文本语料进行命名实体识别,得到短文本抽取结果。
其中,如图2b所示,要素抽取模型包括长文本要素抽取分支202和短文本要素抽取分支204,长文本要素抽取分支202包括至少两层的第一要素抽取层,长文本要素抽取分支202通过多层的第一要素抽取层对待识别文本语料进行长文本要素的提取,利用抽取到的相关要素形成长文本,实现长句的抽取。短文本要素抽取分支204包括一层第二要素抽取层。短文本要素抽取分支通过第二要素抽取层对待识别文本语料进行短文本要素的提取,得到断断续续的相关要素。需要说明的是,本实施例对长文本要素抽取分支202的数量以及短文本要素抽取分支204的数量不做限定。
具体地,将待识别文本语料输入至要素抽取模型,要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,通过长文本要素抽取分支和短文本要素抽取分支并行对待识别文本材料进行命名实体识别,得到长文本抽取结果和短文本抽取结果。
示例性地,第一要素抽取层与各第二要素抽取层可以是基于多头注意力机制进行处理。以第一要素抽取层为例进行说明,每个头均会得到相应的特征向量。将多个头得到的特征向量拼接起来,构成一个与待识别文本语料对应的输入向量维度相同的向量矩阵,与该输入向量做残差连接,并输入至全连接层进行特征提取。接着进行降维处理,降维处理后的输出结果与残差连接后的输出结果进行残差连接,得到新的输出结果,并将新的输出结果作为新的输入向量,通过多层注意力层(attention layer)循环操作,得到最终的输出结果。
S250、根据长文本抽取结果以及短文本抽取结果进行约束处理,得到待识别文本语料的结构化数据。
其中,要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支至少两个分支,不同的分支可以输出不同的预测结果,需要对各分支所输出的预测结果进行融合处理,从中筛选出满足条件的要素。具体地,对长文本抽取结果进行约束处理,得到长文本要素抽取分支的预测标签。对短文本抽取结果进行约束处理,得到短文本要素抽取分支的预测标签。对长文本要素抽取分支的预测标签以及短文本要素抽取分支的预测标签进行融合,得到待识别文本语料的结构化数据。
上述要素抽取方法中,通过获取待识别文本语料,将待识别文本语料输入至要素抽取模型,并通过要素抽取模型的长文本要素抽取分支对待识别文本语料进行命名实体识别,得到长文本抽取结果,实现了长句的抽取;通过要素抽取模型的短文本要素抽取分支对待识别文本语料进行命名实体识别,得到短文本抽取结果,从而根据长文本抽取结果以及短文本抽取结果进行约束处理,得到待识别文本语料的结构化数据,不仅实现长文本抽取结果以及短文本抽取结果的结合,可以提升要素抽取准确率达97%以上,还可以解决要素重叠的问题。
在一个实施例中,如图3a所示,长文本要素抽取分支包括与最后一层的第一要素抽取层连接的第一约束层,短文本要素抽取分支包括与第二要素抽取层连接的第二约束层。如图3b所示,在步骤S250中,根据长文本抽取结果以及短文本抽取结果进行约束处理,得到待识别文本语料的结构化数据,包括:
S310、通过第一约束层对长文本抽取结果进行关系判断,得到待识别文本语料的第一预测标签。
S320、通过第二约束层对短文本抽取结果进行关系判断,得到待识别文本语料的第二预测标签。
S330、对第一预测标签以及第二预测标签进行融合,得到结构化数据。
其中,由于第一要素抽取层以及第二要素抽取层的输出数据可能存在不合理的情况,因此设置与最后一层的第一要素抽取层连接的第一约束层以及与第二要素抽取层连接的第二约束层。具体地,将长文本抽取结果输入至第一约束层,第一约束层可以采用CRF(Conditional Random Fields,条件随机场)层,通过第一约束层对短文本抽取结果进行关系判断,做进一步的约束处理,得到待识别文本语料的第一预测标签。将短文本抽取结果输入至第二约束层,第二约束层也可以采用CRF(Conditional Random Fields,条件随机场)层,通过第二约束层对短文本抽取结果进行关系判断,做进一步的约束处理,得到待识别文本语料的第二预测标签。
本实施例中,通过第一约束层和第二约束层执行进一步的约束处理,能够达到从长文本抽取结果和短文本抽取结果剔除不准确的要素,提升要素抽取准确率。
在一个实施例中,长文本要素抽取分支设有第一评估权重,短文本要素抽取分支具有第二评估权重。对第一预测标签以及第二预测标签进行融合,得到结构化数据,包括:根据第一评估权重以及第二评估权重对第一预测标签以及第二预测标签进行融合,得到结构化数据。
其中,第一评估权重可以大于第二评估取值。第一评估权重以及第二评估取值的数值可以设置为经验值。第一评估权重的数值可以取决于长文本要素抽取分支中第一要素抽取层的层数,比如第一评估权重与第一要素抽取层的层数正相关。具体地,针对任一命名实体,通过长文本要素抽取分支对其进行预测,得到第一预测标签。通过短文本要素抽取分支对其进行预测,得到第二预测标签,第一预测标签可能不同于第二预测标签,因此,通过本申请中的要素抽取模型,存在一个命名实体对应有第一预测标签以及第二预测标签。需要根据第一评估权重以及第二评估权重从第一预测标签以及第二预测标签中确定更准确的预测标签。示例性的,若第一评估权重大于第二评估权重,则保留第一预测标签,舍弃第二预测标签。若第二评估权重大于第一评估权重,则保留第二预测标签,舍弃第一预测标签。
在一些实施方式中,第一评估权重可以等于第二评估取值,可以获取第一预测标签和第二预测标签的置信度,若第一预测标签的置信度大于第二预测标签的置信度,则保留第一预测标签,舍弃第二预测标签。若第一预测标签的置信度小于第二预测标签的置信度,则保留第二预测标签,舍弃第一预测标签。
在一些实施方式中,要素抽取模型可以包括多个长文本要素抽取分支和多个短文本要素抽取分支。每个分支设有自己的投票权,每个分支的投票权可以相等,也可以不等。若针对任一命名实体,各分支对其预测得到对应的预测标签。统计各个分支的投票权,得到各预测标签的投票总权重,根据投票总权重确定该任一命名实体的预测标签。
在一个实施例中,对第一预测标签以及第二预测标签进行融合,得到结构化数据,包括:在与任一命名实体对应的第一预测标签以及第二预测标签中,舍弃置信度较低的预测标签,保留置信度较高的预测标签。
具体地,若第一预测标签的置信度高于第二预测标签的置信度,舍弃置信度较低的第二预测标签,保留置信度较高的第一预测标签。若第二预测标签的置信度高于第一预测标签的置信度,舍弃置信度较低的第一预测标签,保留置信度较高的第二预测标签。
在一个实施例中,第一要素抽取层以及第二要素抽取层采用BERT模型。第一约束层和第二约束层采用条件随机场统计模型(CRF)。如图4a所示,第一层的第一要素抽取层与第二要素抽取层采用同一要素抽取层。
进一步地,如图4b所示,要素抽取模型还包括嵌入层,第二要素抽取层以及第一层的第一要素抽取层分别连接于嵌入层;在将待识别文本语料输入至要素抽取模型之后,该方法还包括:通过嵌入层对待识别文本语料进行嵌入表示,得到待识别文本语料的词向量表达数据。其中,嵌入层可以采用BERT模型,通过BERT模型和微调的方式可以得到待识别文本语料中每个字所对应的词向量。
在一些实施方式中,BERT模型使用Transformer体系结构对句子进行编码。原始形式的Transformer包含两种独立的机制:读取文本输入的编码器(Encoder)和为任务生成预测的解码器(Decoder)。由于本申请中BERT模型的目标是生成语言模型,因此仅需要Encoder机制。BERT模型通过接受两项不同的任务而学习了有用的文本表示形式,这两项任务包含如下部分:
1)随机选择语料中15%的单词,然后对15%单词中的80%进行掩码(mask),代替原始单词,15%单词中的10%被随机换为另一个单词,15%单词中的剩下10%保持原单词不变,然后训练模型以使模型可以正确预测被选中的单词。
2)构建语料正负样本,正样本表示语料中相邻的两句话有上下文关系,负样本表示语料中相邻的两句话没有上下文关系。
使用这两个任务进行预训练的好处在于,可在网络上使用大量无标记的文本来训练通用语言表示模型,在此过程中学习丰富的语言表示形式,还可以根据选择的任务对BERT模型的最后几层进行微调。
模型在进行语料训练前,首先需要获取命名实体识别的审批意见文本语料,对语料进行预处理(比如删除特殊字符、空格符号等),再进行语料标注。语料标注需要标识边界,可以一般采用BIO(Begin、Inside、Other)标注方法定义的训练语料集,其中B表示实体开始部分,I表示实体内部部分,O表示非实体部分。由于同一文本存在同时属于多个实体的情况,即同一位置存在多种标签。鉴于以上情况,将获取的若干语料的每个文字标注成两列标签。示例性的,语料“同意为A公司办理贷款20万元。”的标注标签(其中,客户标签的后缀为kehu,业务品种标签的后缀为yewupinzhong,金额标签的后缀为jine。),具体如下表1:
可以对标注语料进行预处理,将语料切分成一句句的话,每句话具有相应的标签。句首置[CLS]标签,句尾置[SEP]标签,示例性地:
[CLS]同意为AAA有限公司办理短期流动资金贷款200万元。[SEP]
对应的,两列标签也做类似处理,句首置[CLS]标签,句尾置[SEP]标签,具体如下:
Label:
[CLS]O O O B-kehu I-kehu I-kehu I-kehu I-kehu I-kehu I-kehu O O B-yewupinzhong I-yewupinzhong I-yewupinzhong I-yewupinzhong I-yewupinzhong I-yewupinzhong I-yewupinzhong I-yewupinzhong O O O O O O[SEP]
Label_sub:
[CLS]O O O B-kehu I-kehu I-kehu I-kehuI-kehu I-kehu I-kehu O O O O OO O O O O B-jine I-jine I-jine I-jine I-jine O[SEP]
表1
语料 第一标注标签 第二标注标签
O O
O O
O O
A B-kehu B-kehu
I-kehu I-kehu
I-kehu I-kehu
O O
O O
I-yewupinzhong O
I-yewupinzhong O
2 O B-jine
0 O I-jine
O I-jine
O I-jine
O O
进一步地,固定经过预处理后的每条标注语料的长度,当输入语料长度小于指定长度时进行补零操作(padding),当输入语料长度大于指定长度时进行截断操作,保证输入语料长度一致。语料长度处理完后,再将定长语料输入模型进行训练。
对定长语料进行嵌入表示(Emdedding),得到对应的词向量。可以通过下载Bert模型用作嵌入层。
标注好语料数据后,需要将输入文本向量化,对输入文本进行词向量转换操作,将输入数据转换为计算机能够运算的词向量矩阵,利用预训练BERT模型能够完成词向量嵌入。首先将输入文本中的每个字转换为数字索引,通过在预训练BERT模型提供的词典中查找得到语料中每个字对应的索引,然后结合预训练模型获取词向量表达形式,将输入语料的每句话变换为一个多维的特征矩阵,作为第一层BERT模型的输入数据。输入的特征矩阵传入第一层BERT模型后,会经过多头注意力机制进行处理,每个头都会得到相应的特征向量,然后将多个头的结果拼接起来,构成一个和输入向量维度相同的向量矩阵,与输入向量做残差连接,再输入全连接层进行特征提取,接着进行降维处理,再将此处的输出结果与上次残差连接后的结果做一个残差连接,得到新的输出结果。然后再将该输出结果作为新的输入向量,通过多层attention layer循环操作,得到最终的输出特征向量。对于上面标注的两列标签,就第一列标签而言,根据第一列标签的个数构建一个全连接层,将第一层BERT模型的输出向量作为新的输入向量传入该层进行运算后,得到每个字对应的标签字典中每个标签的概率。由于只使用第一层BERT模型会导致输出标签之间的关系出现不合理的情况,因此加上一层CRF模型,将第一层BERT模型得到的向量输入至CRF模型,利用CRF模型对第一层BERT模型抽取出的要素标签进行关系判断,做进一步约束处理后,得到第一列预测标签。原理的具体过程如下:
对输入句子Sentence={w1,w2,w3,…,wn},其中wn为句子中的每个字,经过模型处理后得到预测序列y={y1,y2,y3,…yn},其概率如下。
其中,X为句子Sentence的词向量;矩阵T为转移矩阵,Tyi,yi+1表示标签yi转移到yi+1的概率,y0和yn+1表示预测句子开始和结束的标签;Pi,yi表示向量组合wi得到yi标签的概率。
Score(X,y)的预测包含多种可能,通过Softmax实现Score概率分类输出,概率高的y作为输出标签。语句Sentence产生标记序列y的概率为:
其中,YX表示所有可能的标记集合,分子S函数表示正确标签序列的Score,分母S函数表示每种可能的标记Score。P(y|X)值越大,表示预测标签的可能性越高。故损失函数可以定义如下形式:
经softmax输出概率最大的一组序列为有效合理的输出序列,其表达式如下。
对第二列标签而言,处理方式与第一列标签类似,得到第二列预测标签。对比预测标签与真实标签的结果,根据误差函数计算出两列标签各自的误差,再将两列标签的误差累加起来,采用随机梯度下降方法根据总误差结果不断调整模型。命名实体识别得到的结果,可以抽取出所需多个要素的结构化数据,得到最合理的结果。
在一个实施例中,本申请提供一种要素抽取方法,该方法包括:
S510、获取待识别文本语料。
S520、将待识别文本语料输入至要素抽取模型。
其中,要素抽取模型包括嵌入层、长文本要素抽取分支和短文本要素抽取分支,长文本要素抽取分支包括至少两层的第一要素抽取层以及与最后一层的第一要素抽取层连接的第一约束层,短文本要素抽取分支包括一层第二要素抽取层以及与第二要素抽取层连接的第二约束层。第二要素抽取层以及第一层的第一要素抽取层分别连接于嵌入层。
在一些实施方式中,第一要素抽取层以及第二要素抽取层采用BERT模型;第一约束层和第二约束层采用条件随机场统计模型。进一步地,第一层的第一要素抽取层与第二要素抽取层可以采用同一要素抽取层。
S530、通过嵌入层对待识别文本语料进行嵌入表示,得到待识别文本语料的词向量表达数据。
S540、通过各第一要素抽取层对待识别文本语料进行命名实体识别,得到长文本抽取结果。
S550、通过第二要素抽取层对待识别文本语料进行命名实体识别,得到短文本抽取结果。
S560、通过第一约束层对长文本抽取结果进行关系判断,得到待识别文本语料的第一预测标签。
S570、通过第二约束层对短文本抽取结果进行关系判断,得到待识别文本语料的第二预测标签。
S580、对第一预测标签以及第二预测标签进行融合,得到待识别文本语料的结构化数据。
在一些实施方式中,长文本要素抽取分支设有第一评估权重,短文本要素抽取分支具有第二评估权重;根据第一评估权重以及第二评估权重对第一预测标签以及第二预测标签进行融合,得到结构化数据。
在一些实施方式中,在与任一命名实体对应的第一预测标签以及第二预测标签中,舍弃置信度较低的预测标签,保留置信度较高的预测标签。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种要素抽取装置500,包括:语料获取模块502、语料输入模块504、长文本抽取模块506、短文本抽取模块508、和约束处理模块510,其中:
语料获取模块502,用于获取待识别文本语料。
语料输入模块504,用于将所述待识别文本语料输入至要素抽取模型,所述要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,所述长文本要素抽取分支包括至少两层的第一要素抽取层,所述短文本要素抽取分支包括一层第二要素抽取层。
长文本抽取模块506,用于通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果。
短文本抽取模块508,用于通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果。
约束处理模块510,根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据。
在一个实施例中,所述长文本要素抽取分支包括与最后一层的第一要素抽取层连接的第一约束层,所述短文本要素抽取分支包括与所述第二要素抽取层连接的第二约束层;约束处理模块510,还用于通过所述第一约束层对所述长文本抽取结果进行关系判断,得到所述待识别文本语料的第一预测标签;通过所述第二约束层对所述短文本抽取结果进行关系判断,得到所述待识别文本语料的第二预测标签;对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据。
在一个实施例中,所述长文本要素抽取分支设有第一评估权重,所述短文本要素抽取分支具有第二评估权重;约束处理模块510,还用于根据所述第一评估权重以及所述第二评估权重对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据。
在一个实施例中,约束处理模块510,还用于在与任一命名实体对应的第一预测标签以及第二预测标签中,舍弃置信度较低的预测标签,保留置信度较高的预测标签。
在一个实施例中,所述第一要素抽取层以及所述第二要素抽取层采用BERT模型;所述第一约束层和所述第二约束层采用条件随机场统计模型。
在一个实施例中,所述要素抽取模型还包括嵌入层,所述第二要素抽取层以及第一层的第一要素抽取层分别连接于所述嵌入层;该装置还包括嵌入表示模块,用于通过所述嵌入层对所述待识别文本语料进行嵌入表示,得到所述待识别文本语料的词向量表达数据。
在一个实施例中,所述第一层的第一要素抽取层与所述第二要素抽取层采用同一要素抽取层。
关于要素抽取装置的具体限定可以参见上文中对于要素抽取方法的限定,在此不再赘述。上述要素抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种要素抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施例中的方法步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的方法步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种要素抽取方法,其特征在于,所述方法包括:
获取待识别文本语料;
将所述待识别文本语料输入至要素抽取模型,所述要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,所述长文本要素抽取分支包括至少两层的第一要素抽取层,所述短文本要素抽取分支包括一层第二要素抽取层;所述长文本要素抽取分支包括与最后一层的第一要素抽取层连接的第一约束层,所述短文本要素抽取分支包括与所述第二要素抽取层连接的第二约束层;所述长文本要素抽取分支设有第一评估权重,所述短文本要素抽取分支具有第二评估权重;
通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果;
通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果;
根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据;其中,所述根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据,包括:
通过所述第一约束层对所述长文本抽取结果进行关系判断,得到所述待识别文本语料的第一预测标签;
通过所述第二约束层对所述短文本抽取结果进行关系判断,得到所述待识别文本语料的第二预测标签;
对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据;其中,所述对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据,包括:
根据所述第一评估权重以及所述第二评估权重对所述第一预测标签以及所述第二预测标签进行融合,得到所述结构化数据;
或;
在与任一命名实体对应的第一预测标签以及第二预测标签中,舍弃置信度较低的预测标签,保留置信度较高的预测标签。
2.根据权利要求1所述的方法,其特征在于,所述第一要素抽取层以及所述第二要素抽取层采用BERT模型;
所述第一约束层和所述第二约束层采用条件随机场统计模型。
3.根据权利要求1或2所述的方法,其特征在于,所述要素抽取模型还包括嵌入层,所述第二要素抽取层以及第一层的第一要素抽取层分别连接于所述嵌入层;在所述将所述待识别文本语料输入至要素抽取模型之后,所述方法还包括:
通过所述嵌入层对所述待识别文本语料进行嵌入表示,得到所述待识别文本语料的词向量表达数据。
4.根据权利要求3所述的方法,其特征在于,所述第一层的第一要素抽取层与所述第二要素抽取层采用同一要素抽取层。
5.一种要素抽取装置,其特征在于,用于实现权利要求1至4中任一项所述的方法,所述装置包括:
语料获取模块,用于获取待识别文本语料;
语料输入模块,用于将所述待识别文本语料输入至要素抽取模型,所述要素抽取模型包括长文本要素抽取分支和短文本要素抽取分支,所述长文本要素抽取分支包括至少两层的第一要素抽取层,所述短文本要素抽取分支包括一层第二要素抽取层;
长文本抽取模块,用于通过各所述第一要素抽取层对所述待识别文本语料进行命名实体识别,得到长文本抽取结果;
短文本抽取模块,用于通过所述第二要素抽取层对所述待识别文本语料进行命名实体识别,得到短文本抽取结果;
约束处理模块,根据所述长文本抽取结果以及所述短文本抽取结果进行约束处理,得到所述待识别文本语料的结构化数据。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202110981191.4A 2021-08-25 2021-08-25 一种要素抽取方法、装置、计算机设备和存储介质 Active CN113779994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110981191.4A CN113779994B (zh) 2021-08-25 2021-08-25 一种要素抽取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110981191.4A CN113779994B (zh) 2021-08-25 2021-08-25 一种要素抽取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113779994A CN113779994A (zh) 2021-12-10
CN113779994B true CN113779994B (zh) 2024-01-23

Family

ID=78839302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110981191.4A Active CN113779994B (zh) 2021-08-25 2021-08-25 一种要素抽取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113779994B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330345B (zh) * 2021-12-24 2023-01-17 北京百度网讯科技有限公司 命名实体识别方法、训练方法、装置、电子设备及介质
CN114490934A (zh) * 2022-01-21 2022-05-13 中国平安人寿保险股份有限公司 业务环节的要素检测方法、装置、计算机设备和存储介质
CN117786088B (zh) * 2024-01-15 2024-08-30 广州大学 一种威胁的语言模型分析方法、装置、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置
CN112241631A (zh) * 2020-10-23 2021-01-19 平安科技(深圳)有限公司 文本语义识别方法、装置、电子设备及存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
JP2021106017A (ja) * 2020-09-21 2021-07-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストの創作方法、装置、機器及び記憶媒体
WO2021159613A1 (zh) * 2020-02-14 2021-08-19 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置
WO2021159613A1 (zh) * 2020-02-14 2021-08-19 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
JP2021106017A (ja) * 2020-09-21 2021-07-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストの創作方法、装置、機器及び記憶媒体
CN112241631A (zh) * 2020-10-23 2021-01-19 平安科技(深圳)有限公司 文本语义识别方法、装置、电子设备及存储介质
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113779994A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN110110335B (zh) 一种基于层叠模型的命名实体识别方法
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
KR102155768B1 (ko) 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111967264B (zh) 一种命名实体识别方法
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN113127604B (zh) 基于评论文本的细粒度物品推荐方法及系统
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN114881014A (zh) 实体别名关系获取方法、训练方法、装置及存储介质
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
Wei et al. GP-GCN: Global features of orthogonal projection and local dependency fused graph convolutional networks for aspect-level sentiment classification
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
Sinapoy et al. Comparison of lstm and indobert method in identifying hoax on twitter
CN114329051A (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114036921A (zh) 一种政策信息匹配方法和装置
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115965020A (zh) 一种面向广域地理信息知识图谱构建的知识抽取方法
CN114116971A (zh) 用于生成相似文本的模型训练方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant