CN113361253B - 识别模型训练方法及装置 - Google Patents

识别模型训练方法及装置 Download PDF

Info

Publication number
CN113361253B
CN113361253B CN202110595230.7A CN202110595230A CN113361253B CN 113361253 B CN113361253 B CN 113361253B CN 202110595230 A CN202110595230 A CN 202110595230A CN 113361253 B CN113361253 B CN 113361253B
Authority
CN
China
Prior art keywords
target
text
document
sample
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110595230.7A
Other languages
English (en)
Other versions
CN113361253A (zh
Inventor
王安
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202110595230.7A priority Critical patent/CN113361253B/zh
Publication of CN113361253A publication Critical patent/CN113361253A/zh
Application granted granted Critical
Publication of CN113361253B publication Critical patent/CN113361253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供识别模型训练方法及装置,其中,所述方法包括获取多个目标样本文档,并将每个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。

Description

识别模型训练方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
目前的合同信息抽取,一般采用的是传统的NER(实体识别)方法,识别预先定义好的实体类型,比如预先定义人名、组织名等实体类型,通过大量数据训练BRET网络,预测实体BIO标签与文本的关系;但是当合同中出现新的感兴趣的实体类型时,之前的BRET网络就需要重新训练,BRET网络的推广性较差,用户体验不好。
发明内容
有鉴于此,本申请实施例提供了一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的网络的推广性较差,用户体验不好的技术问题。
根据本申请实施例的第一方面,提供了一种识别模型训练方法,包括:
对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
根据本申请实施例的第二方面,提供了一种文档识别方法,包括:
接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
根据本申请实施例的第三方面,提供了一种识别模型训练装置,包括:
目标样本文档获取模块,被配置为对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
关联关系确定模块,被配置为基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
训练样本数据构建模块,被配置为将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
识别模型训练模块,被配置为基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
根据本申请实施例的第四方面,提供了一种文档识别装置,包括:
文档接收模块,被配置为接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
目标文本识别模块,被配置为将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述识别模型训练方法或所述文档识别方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述识别模型训练方法或所述文档识别方法的步骤。
本申请提供的一种识别模型训练方法及装置,其中,所述方法包括对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。具体的,所述方法可以基于解析模型获得每个目标样本文档的多个目标文本以及每个目标文本的抽象实体类型,结合目标文本之间的距离信息,构造训练样本数据,通过构造的训练样本数据实现对识别模型的训练,使得后续识别模型在具体应用时可以不限定实体类型,当出现新的实体时,可以迅速训练网络进行识别,使得训练获得的识别模型可以识别不同实体间的关系,极大的提高了识别模型的适用范围,提升用户体验。
附图说明
图1是本申请一实施例提供的一种识别模型训练方法的流程图;
图2是本申请一实施例提供的一种识别模型训练方法中初始样本文档的示意图;
图3是本申请一实施例提供的一种文档识别方法的的流程图;
图4是本申请一实施例提供的一种所述文档识别方法在对合同信息识别的示意图;
图5是本申请一实施例提供的一种识别模型训练装置的结构示意图;
图6是本申请一实施例提供的一种文档识别装置的结构示意图;
图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
NER:实体识别,全称Named Entity Recognition,指识别文本中具有特定意义的实体,包括人名,地名,组织名等。
MRC:机器阅读理解,指让机器像人类一样阅读文本,提炼文本信息并回答相关问题。自然语言理解(NLU)中的一项重要且长期的目标,旨在训练机器理解文本后准确地回答问题。
BERT:全称Bidirectional Encoder Representation from Transformers,是指双向Transformer模型的编码器部分,是一种自编码语言模型。即自然语言处理中的一种预训练语言模型,对模型输入进行编码,生成对应词向量。
键值对配对关系:在进行关系分类时,要根据NER识别出的实体,进行实体间关系的配对。
BIO标注:B-begin,I-inside,O-outside,其中,B-begin代表实体的开头,I-inside代表实体的中间或者结尾,O-outside代表不属于实体。实现对每个元素进行标注。
在本申请中,提供了一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本申请一实施例提供的一种识别模型训练方法的流程图,具体包括以下步骤。
步骤102:对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。
其中,目标样本文档包括但不限于任意一种格式的文档,例如pdf格式的文档、txt格式的文档、或者doc格式的文档等。
具体实施时,可以通过预先训练的解析模型对每个目标样本文档进行解析,也可以通过其他的解析方式(如BIO标注的方式)对每个目标样本文档进行解析,以获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。
具体的,以通过预先训练的解析模型对每个目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型进行详细说明:
所述对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型,包括:
将获取的多个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。
实际应用中,在训练识别模型之前,需要对解析模型进行训练,其具体的,解析模型的训练步骤如下所述:
所述解析模型通过以下步骤训练:
获取多个初始样本文档,并确定每个初始样本文档中的目标文本以及所述目标文本的实体类型;
将所述目标文本作为初始样本文本,将所述目标文本的实体类型作为初始样本标签;
基于所述初始样本文本以及所述初始样本文本对应的初始样本标签对解析模型进行训练,以获得训练后的所述解析模型。
其中,所述识别模型可以理解为BERT模型,所述解析模型可以理解为Layout模型。
而初始样本文档可以与目标样本文档相同,也可以与目标样本文档不同,实际应用时,初始样本文档也包括但不限于任意一种格式的文档,例如pdf格式的文档、txt格式的文档、或者doc格式的文档等。
具体的,在对解析模型进行训练之前,需要构建训练样本数据。以初始样本文档为pdf格式的合同为例,对训练样本数据的构建过程进行详细描述。
首先,获取多个pdf格式的合同,并解析获得每个合同中的目标文本,且确定每个目标文本的实体类型。
其中,目标文本可以理解为每个合同中包含实体的文本,例如包含人名、地名、组织名的文本。而实体类型为预设实体类型,即抽象实体类型,包括question(问题),answer(答案)和title(标题)实体类型。
然后,将所有的目标文本作为初始样本文本,将每个目标文本的实体类型作为初始样本标签,通过初始样本文本以及对应的初始样本标签构建解析模型的训练样本数据。
最后,基于该训练样本数据对解析模型进行训练,以获得训练后的解析模型,该解析模型可以输出每个文档的所有目标文本,以及每个目标文本的实体类型。
本申请实施例中,通过初始样本文档的目标文本以及目标文本的抽象实体类型构建训练样本数据,基于该训练样本数据对解析模型进行训练,获得训练后的解析模型,使得该解析模型在后续应用中,不会因为出现新的实体而发生实体类型识别不准确的现象发生。
具体实施时,所确定每个初始样本文档中的目标文本以及所述目标文本的实体类型,包括:
通过BIO标注确定每个初始样本文档中的目标文本,且为所述目标文本设置对应的实体类型。
实际应用时,首先通过BIO标注方法对每个初始样本文档中的元素(如中文、数字、字母和/或标点符号等)进行标注,通过标注结果确定每个初始样本文档中的目标文本,即包含实体的目标文本。然后将包含实体的目标文本抽取出来,并为每个包含实体的目标文本设置对应的实体类型。
本申请实施例中,可以通过BIO标注的方式快速的获取每个初始样本文档中的目标文本,并为每个目标文本配置对应的实体类型,便于后续基于目标文本以及对应的实体类型实现对解析模型的训练。
本说明书另一实施例中,所述解析获得每个初始样本文档中的目标文本,且确定所述目标文本的实体类型,包括:
对每个初始样本文档进行分区获得多个初始文本,将每个初始文本输入实体识别模型,获得包含实体的初始文本;
将包含实体的初始文本作为目标文本,且为所述目标文本设置对应的实体类型。
另外一种实现方式下,可以先将获取的每个初始样本文档进行分区(如通过初始样本文档中文字之间的密集度、现有的一些聚类算法或者预先训练的文本分区模型,实现对每个初始样本文档的分区),获得分区后的多个初始文本,该初始文本中存在包含实体的文本,也存在不包含实体的文本;然后将每个初始文本均输入预先训练好的实体识别模型中,通过实体识别模型获得包含实体的初始文本;最后将包含实体的初始文本作为目标文本,且为每个目标文本设置对应的实体类型。
本申请实施例中,可以通过实体识别模型准确的获取每个初始样本文档中的目标文本,并为每个目标文本配置对应的实体类型,便于后续基于目标文本以及对应的实体类型实现对解析模型的训练。
参见图2,图2示出了根据本申请一实施例提供的一种识别模型训练方法中初始样本文档的示意图。
仍以初始样本文档为pdf格式的合同为例,可以基于上述两种实现方式获取该合同中的目标文本,例如“设备租赁合同、甲方、北京****公司、地址...邮编、000000”等,然后为每个目标文本设置对应的实体类型,例如实体类型包括question,answer和title,那么则为图2中的目标文本“设备租赁合同”对应的实体类型设置为title,目标文本“甲方、地址、邮编、乙方”对应的实体类型设置为question,目标文本“北京****公司、北京市海淀区***2号、000000等”对应的实体类型设置为answer。
步骤104:基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系。
具体的,在训练获得解析模型后,再获取多个与初始样本文档相同或者不同的目标样本文档,然后将每个目标样本文档输入解析模型,以获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。从而可以基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系。
具体实施时,所述基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系,包括:
确定与每个目标文本的实体类型对应的关联实体类型,并确定所述关联实体类型对应的其他目标文本;
确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离;
实际应用中,可以通过计算每个目标文本与其他目标文本之间的编辑距离,来确定与每个目标文本存在关联关系的其他目标文本。
仍以图2为例,目标文本“甲方”对应的目标文本为“北京****公司”,那么则基于目标文本“甲方”的位置,以及对应的目标文本“北京****公司”的位置,计算目标文本“甲方”与其对应的目标文本“北京****公司”之间的编辑距离。
后续在进行识别模型训练时,在训练数据中加入目标文本与其他目标文本之间的编辑距离,以及目标文本的实体类型与其他目标文本的实体类型之间的关联关系,使得训练获得识别模型在进行目标文本与其他目标文本的关联关系预测时,可以从编辑距离以及实体类型两方面进行更加准确的预测;其中,每个实体类型与其他实体类型之间的关联关系是在实体类型确定时已经预先设置的,比如实体类型为question、answer以及title,那么与实体类型question存在关联关系的实体类型为answer以及title。
实际应用中,在计算每个目标文本的关联目标文本时,还应该考虑每个目标文本的关联实体类型,要将目标文本与该目标文本的关联实体类型对应的其他目标文本之间的编辑距离进行计算,才可以准确获得该目标文本的关联目标文本。
沿用上例,目标文本“甲方”,目标文本“甲方”的实体类型为question,那么与目标文本“甲方”的实体类型为question对应的关联实体类型则为answe r以及title,此时,则确定title对应的其他目标文本为“设备租赁合同”,answ er对应的其他目标文本“北京****公司、北京市海淀区***2号、000000、北京**公司、北京市朝阳区***9号、000000”。
在确定了其他目标文本之后,则计算该目标文本与上述每个其他目标文本之间的编辑距离,然后将该目标文本与每种关联实体类型对应的编辑距离作为特征进行后续的识别模型训练。即目标文本“甲方”与关联实体类型title对应的其他目标文本为“设备租赁合同”为第一个关联目标文本;且关联实体类型a nswer对应的其他目标文本为“北京****公司”为第二个关联目标文本。
实际应用中,实体类型之间不存在关联关系的目标文本,目标文本之间不会存在关联,例如两个目标文本的实体类型均为answer,那么这两个目标文本之间不会存在任何的关联,因此本说明书实施例中,基于每个目标文本的实体类型对应的关联实体类型,确定待计算的其他目标文本;再基于每个目标文本与其对应的其他目标文本之间的编辑距离,确定每个目标文本的关联目标文本,避免将每个目标文本与所有的其他目标文本进行编辑距离计算,以提升识别模型的训练速度。
步骤106:将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签。
具体的,在获取每个目标文本的关联目标文本之后,则可以基于所有目标文本以及每个目标文本的关联目标文本构建训练样本数据,具体实现方式如下所述:
所述将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签,包括:
将所述目标文本作为目标样本文本,将所述关联目标文本作为所述目标样本文本的目标样本标签。
具体实施时,将所有的目标文本作为目标样本文本,然后将每个目标文本的关联目标文本作为该目标样本文本的目标样本标签,基于该目标样本文本以及对应的目标样本标签构建样本训练数据,以实现后续对识别模型的训练,使得训练获得的识别模型可以准确的输出每个目标样本文本对应的目标样本标签。
步骤108:基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
其中,识别模型输出每个目标样本文本与其他目标样本文本的关联关系,以及每个目标样本文本的关联目标样本文本。
具体的,基于该目标样本文本以及该目标样本文本对应的目标样本标签构建样本训练数据,基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
本申请实施例中,所述识别模型训练方法可以基于解析模型获得每个目标样本文档的多个目标文本以及每个目标文本的抽象实体类型,结合目标文本之间的距离信息,构造训练样本数据,通过构造的训练样本数据实现对识别模型的训练,使得后续识别模型在具体应用时可以不限定实体类型,当出现新的感兴趣实体时,可以迅速训练网络进行识别,极大的提高了识别模型的适用范围,提升用户体验。
参见图3,图3示出了本申请一实施例提供的一种文档识别方法的的流程图,具体包括以下步骤。
步骤302:接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型。
步骤304:将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
其中,所述解析模型与上述实施例的识别模型训练方法中的解析模型一致,所述识别模型与上述实施例的识别模型训练方法训练获得的识别模型一致,在此不再赘述。
具体实施时,文档识别方法基于解析模型、识别模型实现对目标文档内容的识别。
首先,在接收携带有目标文档的文档识别请求后,先将该目标文档输入预先训练的解析模型,该解析模型输出该目标文档的多个目标文本以及每个目标文本的实体类型,其中,目标文档的详细介绍可以参见上述初始样本文档以及目标样本文档的介绍。实际应用中,目标文档可以理解为合同,目标文本可以理解为合同中的某个部分的文字内容,而目标文本中的具体文字内容可以作为该目标文本的实体类型设置的依据,例如目标文本中的具体文字内容为“地址”,那么可以将该目标文本的实体类型设置为“question”,若目标文本中的具体文字内容为“北京市**区**小区**单元”,那么可以将该目标文本的实体类型设置为“answer”等。
然后,将该目标文档的多个目标文本以及每个目标文本的实体类型输入识别模型,该识别模型输出该目标文档的每个目标文本以及每个目标文本对应的关联目标文本。
仍以图2为例,实际应用中,先将图2中的合同输入解析模型,获得该合同的多个目标文本以及每个目标文本的实体类型;例如目标文本“甲方”,实体类型:question等。
然后将该合同的多个目标文本以及每个目标文本的实体类型输入识别模型,获得该合同的每个目标文本以及每个目标文本的关联目标文本,例如目标文本“甲方”,关联目标文本“北京****公司”。
实际应用中,即可以理解为将合同输入解析模型以及识别模型,可以保证该合同的内容均是以键值对配对的方式进行输出,以提取出合同中的关键信息,沿用上例,比如输入的目标文本为“甲方”的情况下,识别模型可以提取出该合同中的关键信息“北京****公司”。
本申请实施例中,所述文档识别方法并不限定特定的实体类型,采用question,answer和title等抽象的实体类型,首先通过解析模型对合同信息进行分区,然后根据合同的分区信息,通过识别模型接着做question和answer的配对,从而提取出合同中的关键信息,以提升用户体验。
下述结合附图4,以本申请提供的所述文档识别方法在对合同信息识别的应用为例,对所述文档识别方法进行进一步说明。具体包括以下步骤。
第一步:将pdf格式的合同输入Layout解析网络。
具体的,Layout解析网络可以理解为上述实施例的解析模型。
第二步:Layout解析网络输出该合同中包含实体的目标文本以及每个目标文本的实体类型。
例如,Layout解析网络输出该合同中包含实体的目标文本以及每个目标文本的实体类型为:“甲方”,实体类型为question,“北京****公司”,实体类型为answer。
第三步:将该合同中包含实体的目标文本“甲方”以及该目标文本的关联目标文本“北京****公司”输入BERT模型。
第四步:BERT模型输出目标文本“甲方”以及该目标文本的关联目标文本“北京****公司”为配对键值对的信息。
本申请实施例中,所述文档识别方法采用question,answer和title等抽象的实体类型,首先通过识别抽象实体对合同进行分区,然后根据合同的分区信息,通过BERT模型接着做question和answer的配对,从而提取合同中的关键信息。
与上述方法实施例相对应,本申请还提供了识别模型训练装置实施例,图5示出了本申请一实施例提供的一种识别模型训练装置的结构示意图。如图5所示,该装置包括:
目标样本文档获取模块502,被配置为对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
关联关系确定模块504,被配置为基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
训练样本数据构建模块506,被配置为将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
识别模型训练模块508,被配置为基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
可选地,所述目标样本文档获取模块502,进一步被配置为:
将获取的多个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。
可选地,所述目标样本文档获取模块502,进一步被配置为:
获取多个初始样本文档,并确定每个初始样本文档中的目标文本以及所述目标文本的实体类型;
将所述目标文本作为初始样本文本,将所述目标文本的实体类型作为初始样本标签;
基于所述初始样本文本以及所述初始样本文本对应的初始样本标签对解析模型进行训练,以获得训练后的所述解析模型。
可选地,所述目标样本文档获取模块502,进一步被配置为:
通过BIO标注确定每个初始样本文档中的目标文本,且为所述目标文本设置对应的实体类型。
可选地,所述目标样本文档获取模块502,进一步被配置为:
对每个初始样本文档进行分区获得多个初始文本,将每个初始文本输入实体识别模型,获得包含实体的初始文本;
将包含实体的初始文本作为目标文本,且为所述目标文本设置对应的实体类型。
可选地,所述关联关系确定模块504,进一步被配置为:
确定与每个目标文本的实体类型对应的关联实体类型,并确定所述关联实体类型对应的其他目标文本;
确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离;
将编辑距离最小的所述其他目标文本作为所述目标文本的关联目标文本。
可选地,所述训练样本数据构建模块506,进一步被配置为:
将所述目标文本作为目标样本文本,将所述关联目标文本作为所述目标样本文本的目标样本标签。
可选地,所述解析模型包括Layout模型,所述识别模型为BERT模型。
本申请实施例中,所述识别模型训练装置可以基于解析模型获得每个目标样本文档的多个目标文本以及每个目标文本的抽象实体类型,结合目标文本之间的距离信息,构造训练样本数据,通过构造的训练样本数据实现对识别模型的训练,使得后续识别模型在具体应用时可以不限定实体类型,当出现新的感兴趣实体时,可以迅速训练网络进行识别,极大的提高了识别模型的适用范围,提升用户体验。
上述为本实施例的一种识别模型训练装置的示意性方案。需要说明的是,该识别模型训练装置的技术方案与上述的识别模型训练方法的技术方案属于同一构思,识别模型训练装置的技术方案未详细描述的细节内容,均可以参见上述识别模型训练方法的技术方案的描述。
与上述方法实施例相对应,本申请还提供了文档识别装置实施例,图6示出了本申请一实施例提供的一种文档识别装置的结构示意图。如图6所示,该装置包括:
文档接收模块602,被配置为接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
目标文本识别模块604,被配置为将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
可选地,所述解析模型采用上述识别模型训练方法中对解析模型的步骤训练获得;所述识别模型采用上述识别模型训练方法训练获得。
本申请实施例中,所述文本关系确定装置采用question,answer和title等抽象的实体类型,首先通过识别抽象实体对合同进行分区,然后根据合同的分区信息,通过BERT模型接着做question和answer的配对,从而提取合同中的关键信息。
上述为本实施例的一种文档识别装置的示意性方案。需要说明的是,该文档识别装置的技术方案与上述的文档识别方法的技术方案属于同一构思,文档识别装置的技术方案未详细描述的细节内容,均可以参见上述文档识别方法的技术方案的描述。
图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令,所述指令时实现所述的识别模型训练方法或所述文档识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的识别模型训练方法或所述文档识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述识别模型训练方法或所述文档识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述识别模型训练方法或所述文档识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的识别模型训练方法或所述文档识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述识别模型训练方法或所述文档识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种识别模型训练方法,其特征在于,包括:
对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
确定与每个目标文本的实体类型对应的关联实体类型,并确定所述关联实体类型对应的其他目标文本;
确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离;
将编辑距离最小的所述其他目标文本作为所述目标文本的关联目标文本;
将所述目标文本作为目标样本文本,将所述关联目标文本作为所述目标样本文本的目标样本标签;
基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
2.根据权利要求1所述的识别模型训练方法,其特征在于,所述对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型,包括:
将获取的多个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。
3.根据权利要求2所述的识别模型训练方法,其特征在于,所述解析模型通过以下步骤训练:
获取多个初始样本文档,并确定每个初始样本文档中的目标文本以及所述目标文本的实体类型;
将所述目标文本作为初始样本文本,将所述目标文本的实体类型作为初始样本标签;
基于所述初始样本文本以及所述初始样本文本对应的初始样本标签对解析模型进行训练,以获得训练后的所述解析模型。
4.根据权利要求3所述的识别模型训练方法,其特征在于,所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型,包括:
通过BIO标注确定每个初始样本文档中的目标文本,且为所述目标文本设置对应的实体类型。
5.根据权利要求3所述的识别模型训练方法,其特征在于,所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型,包括:
对每个初始样本文档进行分区获得多个初始文本,将每个初始文本输入实体识别模型,获得包含实体的初始文本;
将包含实体的初始文本作为目标文本,且为所述目标文本设置对应的实体类型。
6.根据权利要求1-5任意一项所述的识别模型训练方法,其特征在于,所述解析模型包括Layout模型,所述识别模型包括BERT模型。
7.一种文档识别方法,其特征在于,包括:
接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本,其中,所述识别模型采用权利要求1-6任意一项的识别模型训练方法训练获得。
8.根据权利要求7所述的文档识别方法,其特征在于,所述解析模型采用权利要求3的步骤训练获得。
9.一种识别模型训练装置,其特征在于,包括:
目标样本文档获取模块,被配置为对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
关联关系确定模块,被配置为确定与每个目标文本的实体类型对应的关联实体类型,并确定所述关联实体类型对应的其他目标文本;确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离;将编辑距离最小的所述其他目标文本作为所述目标文本的关联目标文本;
训练样本数据构建模块,被配置为将所述目标文本作为目标样本文本,将所述关联目标文本作为所述目标样本文本的目标样本标签;
识别模型训练模块,被配置为基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
10.一种文档识别装置,其特征在于,包括:
文档接收模块,被配置为接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
目标文本识别模块,被配置为将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本,其中,所述识别模型采用权利要求1-8任意一项的识别模型训练方法训练获得。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-6或7-8任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6或7-8任意一项所述方法的步骤。
CN202110595230.7A 2021-05-28 2021-05-28 识别模型训练方法及装置 Active CN113361253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110595230.7A CN113361253B (zh) 2021-05-28 2021-05-28 识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110595230.7A CN113361253B (zh) 2021-05-28 2021-05-28 识别模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN113361253A CN113361253A (zh) 2021-09-07
CN113361253B true CN113361253B (zh) 2024-04-09

Family

ID=77528296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110595230.7A Active CN113361253B (zh) 2021-05-28 2021-05-28 识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN113361253B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412852A (zh) * 2013-08-21 2013-11-27 广东电子工业研究院有限公司 一种自动提取英文文献关键信息的方法
AU2015202043A1 (en) * 2008-01-16 2015-05-14 Ab Initio Technology Llc Managing an archive for approximate string matching
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN108959254A (zh) * 2018-06-29 2018-12-07 中教汇据(北京)科技有限公司 一种用于期刊pdf文件中文章内容的解析方法
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质
CN111401375A (zh) * 2020-03-09 2020-07-10 苏宁云计算有限公司 文本识别模型训练方法、文本识别方法、装置及设备
CN111814785A (zh) * 2020-06-11 2020-10-23 浙江大华技术股份有限公司 发票识别方法及相关模型的训练方法以及相关设备、装置
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
US10853580B1 (en) * 2019-10-30 2020-12-01 SparkCognition, Inc. Generation of text classifier training data
WO2020252919A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质
CN112732897A (zh) * 2020-12-28 2021-04-30 平安科技(深圳)有限公司 文档处理方法、装置、电子设备及存储介质
CN112818687A (zh) * 2021-03-25 2021-05-18 杭州数澜科技有限公司 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN113221565A (zh) * 2021-05-07 2021-08-06 北京百度网讯科技有限公司 实体识别模型的训练方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110255788A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents using external data
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US10482323B2 (en) * 2017-08-22 2019-11-19 Autonom8, Inc. System and method for semantic textual information recognition
US11250331B2 (en) * 2017-10-31 2022-02-15 Microsoft Technology Licensing, Llc Distant supervision for entity linking with filtering of noise
CN108052577B (zh) * 2017-12-08 2022-06-14 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015202043A1 (en) * 2008-01-16 2015-05-14 Ab Initio Technology Llc Managing an archive for approximate string matching
CN103412852A (zh) * 2013-08-21 2013-11-27 广东电子工业研究院有限公司 一种自动提取英文文献关键信息的方法
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN108959254A (zh) * 2018-06-29 2018-12-07 中教汇据(北京)科技有限公司 一种用于期刊pdf文件中文章内容的解析方法
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
WO2020252919A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质
US10853580B1 (en) * 2019-10-30 2020-12-01 SparkCognition, Inc. Generation of text classifier training data
CN111401375A (zh) * 2020-03-09 2020-07-10 苏宁云计算有限公司 文本识别模型训练方法、文本识别方法、装置及设备
CN111814785A (zh) * 2020-06-11 2020-10-23 浙江大华技术股份有限公司 发票识别方法及相关模型的训练方法以及相关设备、装置
CN112732897A (zh) * 2020-12-28 2021-04-30 平安科技(深圳)有限公司 文档处理方法、装置、电子设备及存储介质
CN112818687A (zh) * 2021-03-25 2021-05-18 杭州数澜科技有限公司 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN113221565A (zh) * 2021-05-07 2021-08-06 北京百度网讯科技有限公司 实体识别模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113361253A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US11620321B2 (en) Artificial intelligence based method and apparatus for processing information
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110020009B (zh) 在线问答方法、装置及系统
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN111324713B (zh) 对话自动回复方法、装置、存储介质和计算机设备
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN111539228B (zh) 向量模型训练方法及装置、相似度确定方法及装置
CN116595026A (zh) 信息查询方法
CN114120342A (zh) 简历文档识别方法、装置、计算设备及存储介质
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN113361253B (zh) 识别模型训练方法及装置
CN115759293A (zh) 模型训练方法、图像检索方法、装置及电子设备
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114547313A (zh) 资源类型识别方法以及装置
CN111222342B (zh) 一种翻译方法和装置
CN114492410A (zh) 合约信息提取方法及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN117577348B (zh) 一种循证医学证据的识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant