CN113505224A - 结构化信息提取及模型构建方法、设备及存储介质 - Google Patents
结构化信息提取及模型构建方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113505224A CN113505224A CN202110772702.1A CN202110772702A CN113505224A CN 113505224 A CN113505224 A CN 113505224A CN 202110772702 A CN202110772702 A CN 202110772702A CN 113505224 A CN113505224 A CN 113505224A
- Authority
- CN
- China
- Prior art keywords
- statement
- sentence
- sample
- information extraction
- structured information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种结构化信息提取及模型构建方法、设备及存储介质,涉及文本处理技术领域。该结构化信息提取模型构建方法包括:获取样本集合,其中,样本集合包括每个语句类别对应的正样本语句和负样本语句,正样本语句的真实语句类别为正样本语句对应的语句类别,负样本语句的真实语句类别和负样本语句对应的语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别;提取样本集合中每条样本的语句表示特征和字表示特征;将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。本申请用以解决相似度高但属于不同类别的句子分类准确性差的问题。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种结构化信息提取及模型构建方法、设备及存储介质。
背景技术
随着现代化信息科技技术的发展,各行各业都在进行信息数字化的建设。当前,在各个公司和企业的合同管理系统存有很多的各种类型的文件。合同文档是每个公司的财务审核,法务审核等审核校验的重中之重。其中,对文档信息进行结构化可以方便进行项目信息的校验以及存储,而且结构化信息也是行业知识图谱构建的基础。
提取合同文档的结构化信息,主要是提取合同文档中业务人员关注的句子的语句类别、句子中包含的实体以及实体对应的类别。例如:甲方转给乙方10%的股权,语句类别为股权转让,实体为甲方、乙方和10%,实体对应的类别为甲方为转让方、乙方为受让方以及10%为股权占比。
现有的模型是针对不同类别的句子,先进行分类,再识别实体,对于相似度高但属于不同类别的句子,容易分类错误,进而导致结构化信息提取错误。
发明内容
本申请提供了一种结构化信息提取及模型构建方法、设备及存储介质,用以解决相似度高但属于不同类别的句子分类准确性差的问题。
第一方面,本申请实施例提供了一种结构化信息提取模型构建方法,包括:
获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应的语句类别,所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同,且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别;
提取所述样本集合中每条样本的语句表示特征和字表示特征;
将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至所述初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
可选地,所述获取样本集合,包括:
获取初始样本集合,所述初始样本集合包括初始样本语句和所述初始样本语句的真实语句类别;
提取所述初始样本集合中每条样本的语句表示特征;
将所述初始样本集合中每条样本的所述语句表示特征,输入至所述初始结构化信息提取模型,获得所述初始结构化信息提取模型输出的所述初始样本语句对应的预测语句类别;
比较所述初始样本语句的真实语句类别和所述初始样本语句对应的预测语句类别,获得比较结果;
若所述比较结果为所述真实语句类别和所述预测语句类别相同,则将所述初始样本语句作为所述预测语句类别对应的所述正样本语句;
若所述比较结果为所述真实语句类别和所述预测语句类别不同,则将所述初始样本语句作为所述预测语句类别对应的所述负样本语句。
可选地,所述获取初始样本集合,包括:
获取原始文本;
将所述原始文本按照标点符号划分为至少两个原始语句;
从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句;
将至少两个所述初始语句的文本格式统一,获得所述初始样本语句;
获取所述初始样本语句的真实语句类别。
可选地,所述从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句,包括:
从至少两个所述原始语句中,查找数字文本,包含所述数字文本的所述原始语句作为所述初始语句;
和/或
从至少两个所述原始语句中,查找特殊符号,包含所述特殊符号的所述原始语句作为所述初始语句;
和/或
从至少两个所述原始语句中,查找预设句式,包含所述预设句式的所述原始语句作为所述初始语句。
可选地,所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型,包括:
根据所述样本集合中每条样本的所述语句表示特征和所述字表示特征,获取损失,其中,所述损失包括正负样本距离,所述损失和所述正负样本距离成正相关;
根据所述损失,优化所述初始结构化信息提取模型的参数后,返回执行所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型的步骤,直至所述损失趋于稳定时,将所述初始结构化信息提取模型作为最终的所述结构化信息提取模型。
可选地,所述正负样本距离的获取过程包括:
获取所述正样本语句的语句表示特征和所述负样本语句的语句表示特征之间的相似度;
将所述相似度作为所述正负样本距离。
第二方面,本申请实施例提供了一种结构化信息提取方法,包括:
获取待结构化语句;
提取所述待结构化语句的语句表示特征和字表示特征;
将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,其中,所述结构化信息包括所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别;
其中,所述结构化信息提取模型为采用第一方面所述的方法构建得到。
可选地,所述将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,包括:
将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型;
所述结构化信息提取模型根据所述待结构化语句的语句表示特征,计算所述待结构化语句属于每个语句类别的概率;
所述结构化信息提取模型根据所述待结构化语句属于每个语句类别的概率,确定所述待结构化语句对应的预测语句类别;
所述结构化信息提取模型根据所述待结构化语句的字表示特征,通过BIO标注,获得所述待结构化语句中包含的实体;
所述结构化信息提取模型根据所述实体对应的字表示特征,计算所述实体属于每个实体类别的概率;
所述结构化信息提取模型根据所述实体属于每个实体类别的概率,确定所述实体对应的预测实体类别;
所述结构化信息提取模型将所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别输出。
第三方面,本申请实施例提供了一种结构化信息提取模型构建装置,包括:
第一获取模块,用于获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应的语句类别,所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同,且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别;
第一提取模块,用于提取所述样本集合中每条样本的语句表示特征和字表示特征;
第一处理模块,用于将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至所述初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
第四方面,本申请实施例提供了一种结构化信息提取装置,包括:
第二获取模块,用于获取待结构化语句;
第二提取模块,用于提取所述待结构化语句的语句表示特征和字表示特征;
第二处理模块,用于将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,其中,所述结构化信息包括所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别;
其中,所述结构化信息提取模型为采用第一方面所述的方法构建得到。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的结构化信息提取模型构建方法,或者,实现第二方面所述的结构化信息提取方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的结构化信息提取模型构建方法,或者,实现第二方面所述的结构化信息提取方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过将被初始结构化信息提取模型识别为正样本语句对应的语句类别,但真实语句类别与正样本语句对应的语句类别不同的语句作为负样本语句,将每个语句类别对应的正样本语句和负样本语句作为样本集合,提取样本集合中每条样本的语句表示特征和字表示特征,将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。同一个语句类别对应的正样本语句和负样本语句相似度高,但真实语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别,通过将每个语句类别对应的正样本语句和负样本语句作为样本集合,对初始结构化信息提取模型进行训练,能够使构建的结构化信息提取模型更容易区分相似度高的句子的语句类别,提高提取句子的预测语句类别的准确性,解决了相似度高但属于不同类别的句子分类准确性差的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中结构化信息提取模型构建的方法流程示意图;
图2为本申请一个具体实施例中获取样本集合的方法流程示意图;
图3为本申请实施例中结构化信息提取的方法流程示意图;
图4为本申请一个具体实施例中根据待结构化语句的语句表示特征和字表示特征,获得结构化信息的方法流程示意图;
图5为本申请实施例中结构化信息提取模型构建装置的结构示意图;
图6为本申请实施例中结构化信息提取装置的结构示意图;
图7为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,提供了一种结构化信息提取模型构建方法以及利用构建的结构化信息提取模型进行结构化信息提取的方法,该方法可以应用于服务器,当然,也可以应用于其他电子设备,例如终端(手机、平板电脑等)。本申请实施例中,以将该方法应用于服务器为例进行说明。
本申请实施例中,如图1所示,结构化信息提取模型构建的方法流程主要包括:
步骤101,获取样本集合,其中,样本集合包括每个语句类别对应的正样本语句和负样本语句,正样本语句的真实语句类别为正样本语句对应的语句类别,负样本语句的真实语句类别和负样本语句对应的语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别。
例如:句子A:在乙方取得增持的项目公司10%的股权、取得项目公司新的营业执照后的当天日内,乙方支付13400万元至甲方两家公司书面指定的银行账号。句子B:乙方按照注册资本平价受让甲方持有的33%项目公司股权,甲乙双方应于本协议签订后30日内,办理目标股权转让的工商变更登记以及相应章程、董事、监事人员变更登记。句子A的真实语句类别为支付金额类,句子B的真实语句类别为股权转让类。但是,由于句子A描述了股权信息,句子A被初始结构化信息提取模型识别为股权转让类。因此,将句子A作为股权转让类对应的负样本语句,将句子B作为股权转让类对应的正样本语句。
其中,样本集合中还可以包括正样本语句的真实语句类别、负样本语句的真实语句类别、正样本语句中每个字的真实字类别、负样本语句中每个字的真实字类别。真实语句类别和真实字类别可以通过人工标注。
一个具体实施例中,如图2所示,获取样本集合的方法流程主要包括:
步骤201,获取初始样本集合,初始样本集合包括初始样本语句和初始样本语句的真实语句类别。
一个具体实施例中,获取初始样本集合主要包括:获取原始文本;将原始文本按照标点符号划分为至少两个原始语句;从至少两个原始语句中,通过文本匹配,查找到至少两个初始语句;将至少两个初始语句的文本格式统一,获得初始样本语句;获取初始样本语句的真实语句类别。
具体地,原始文本可以是至少一个合同文档。将原始文本按照标点符号划分为至少两个原始语句,可以是将原始文本按照句号划分为至少两个原始语句。从至少两个原始语句中,通过文本匹配,查找到至少两个初始语句,是从大量原始语句中,筛选出业务人员关注的初始语句,去除业务人员并不关注的大量无效样本。将至少两个初始语句的文本格式统一,获得初始样本语句,可以是将初始语句中的大写字母改为小写字母,中文符号改为英文符号,统一文本格式,统一文本格式后的语句即为初始样本语句,方便后续处理。
其中,从至少两个原始语句中,通过文本匹配,查找到至少两个初始语句的方式有很多种,包括但不限于以下列举的几种方式:
方式一
从至少两个原始语句中,查找数字文本,包含数字文本的原始语句作为初始语句。
例如:业务人员关注的是支付金额类句子,支付金额类句子一般包含数字文本,将包含数字文本的原始语句作为初始语句,能够去除部分无效样本。
方式二
从至少两个原始语句中,查找特殊符号,包含特殊符号的原始语句作为初始语句。
例如:业务人员关注的是股权转让类句子,股权转让类句子一般包含百分号%,将包含%的原始语句作为初始语句,能够去除部分无效样本。
方式三
从至少两个原始语句中,查找预设句式,包含预设句式的原始语句作为初始语句。
例如:业务人员关注的是股权转让类句子,预设句式可以是“……把……股权转让给……”,将包含“……把……股权转让给……”的原始语句作为初始语句,能够去除部分无效样本。
需要说明的是,以上所列举的查找到至少两个初始语句的方式,可以任意一种方式单独使用,也可以两种或两种以上方式相互组合使用。
步骤202,提取初始样本集合中每条样本的语句表示特征。
一个具体实施例中,提取初始样本集合中每条样本的语句表示特征,可以是通过BERT(Bidirectional Encoder Representation from Transformers,双向编码模型)进行,也可以是通过RoBERTa(A Robustly Optimized BERT Pretraining Approach,稳健优化的BERT模型)或者ALBERT(A Lite BERT,精简BERT模型)等优化的BERT模型进行。
步骤203,将初始样本集合中每条样本的语句表示特征,输入至初始结构化信息提取模型,获得初始结构化信息提取模型输出的初始样本语句对应的预测语句类别。
一个具体实施例中,初始结构化信息提取模型可以是softmax回归模型,也可以是CRF(Conditional Random Fields,条件随机场)。
步骤204,比较初始样本语句的真实语句类别和初始样本语句对应的预测语句类别,获得比较结果。
步骤205,若比较结果为真实语句类别和预测语句类别相同,则将初始样本语句作为预测语句类别对应的正样本语句。
例如:句子B:乙方按照注册资本平价受让甲方持有的33%项目公司股权,甲乙双方应于本协议签订后30日内,办理目标股权转让的工商变更登记以及相应章程、董事、监事人员变更登记。句子B的真实语句类别为股权转让类。句子B的预测语句类别也是股权转让类。因此,将句子B作为股权转让类对应的正样本语句。
步骤206,若比较结果为真实语句类别和预测语句类别不同,则将初始样本语句作为预测语句类别对应的负样本语句。
例如:句子A:在乙方取得增持的项目公司10%的股权、取得项目公司新的营业执照后的当天日内,乙方支付13400万元至甲方两家公司书面指定的银行账号。句子A的真实语句类别为支付金额类。但是,由于句子A描述了股权信息,句子A的预测语句类别为股权转让类。因此,将句子A作为股权转让类对应的负样本语句。
步骤102,提取样本集合中每条样本的语句表示特征和字表示特征。
其中,语句表示特征是指整个语句对应的语句表示向量,字表示特征是指语句中每个字对应的字表示向量。提取样本集合中每条样本的语句表示特征和字表示特征可以是通过BERT进行,也可以是通过RoBERTa或者ALBERT等优化的BERT模型进行。
一个具体实施例中,针对每个正样本语句S+,正样本语句的语句表示特征为S+_encoding[0]=BERT(CLS+),CLS+为整个正样本语句的语句向量,将CLS+输入至BERT模型中,得到正样本语句的语句表示特征S+_encoding[0],正样本语句的字表示特征为S+_encoding[1:N]=BERT(we+1,we+2,……,we+N),we+i为整个正样本语句中的第i个字的字向量,N为整个正样本语句的总字数,i为大于1小于N的整数,将整个正样本语句中每个字的字向量we+1,we+2,……,we+N输入至BERT模型中,得到正样本语句的字表示特征为S+_encoding[1:N]。
针对正样本语句S+对应的负样本语句S-,负样本语句的语句表示特征为S-_encoding[0]=BERT(CLS-),CLS-为整个负样本语句的语句向量,将CLS-输入至BERT模型中,得到正样本语句的语句表示特征S-_encoding[0],负样本语句的字表示特征为S-_encoding[1:M]=BERT(we-1,we-2,……,we-M),we-i为整个负样本语句中的第i个字的字向量,M为整个负样本语句的总字数,i为大于1小于M的整数,将整个负样本语句中每个字的字向量we-1,we-2,……,we-M输入至BERT模型中,得到负样本语句的字表示特征为S-_encoding[1:M]。
步骤103,将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
一个具体实施例中,结构化信息提取模型为孪生网络,孪生网络由两个结构相同,且权重共享的网络拼接而成。这两个子网络分别用于处理正样本语句和负样本语句。
一个具体实施例中,将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型,包括:根据样本集合中每条样本的语句表示特征和字表示特征,获取损失,其中,损失包括正负样本距离,损失和正负样本距离成正相关;根据损失,优化初始结构化信息提取模型的参数后,返回执行将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型的步骤,直至损失趋于稳定时,将初始结构化信息提取模型作为最终的结构化信息提取模型。
其中,正负样本距离用于表征正样本语句和负样本语句之间的相似程度。正负样本距离越大,则正样本语句和负样本语句之间的相似程度越高,区别越小,越不容易区分;正负样本距离越小,则正样本语句和负样本语句之间的相似程度越低,区别越大,越容易区分。
由于在损失中加入了正负样本距离,且损失和正负样本距离成正相关,则正样本语句和负样本语句之间的相似程度越高,正负样本距离越大,在初始结构化信息提取模型的其他参数不变的情况下,损失也会越大,通过训练使损失趋于稳定,能够导致最终的结构化信息提取模型中,正样本语句和负样本语句更容易区分。
一个具体实施例中,正负样本距离的获取过程包括:获取正样本语句的语句表示特征和负样本语句的语句表示特征之间的相似度;将相似度作为正负样本距离。
相似度可以是余弦相似度。正负样本距离为Distance(S+,S-)=COS(S+_encoding[0],S-_encoding[0]),其中,S+_encoding[0]为正样本语句的语句表示特征,S-_encoding[0]为负样本语句的语句表示特征。
一个具体实施例中,损失还包括类别预测损失和实体识别损失。
损失Loss=类别预测损失Loss_class+实体识别损失Loss_ner+正负样本距离Distance(S+,S-)。
根据样本集合中每条样本的语句表示特征和字表示特征,获取损失,包括:根据正样本语句的语句表示特征,计算正样本语句属于正样本语句的真实语句类别的概率,并且根据负样本语句的语句表示特征,计算负样本语句属于负样本语句的真实语句类别的概率;根据正样本语句中每个字的字表示特征,计算正样本语句中每个字属于正样本语句中每个字的真实字类别的概率,并且根据负样本语句中每个字的字表示特征,计算负样本语句中每个字属于负样本语句中每个字的真实字类别的概率;根据正样本语句的真实语句类别、正样本语句属于正样本语句的真实语句类别的概率、负样本语句的真实语句类别和负样本语句属于负样本语句的真实语句类别的概率,获得类别预测损失;根据正样本语句中每个字的真实字类别、正样本语句中每个字属于正样本语句中每个字的真实字类别的概率、负样本语句中每个字的真实字类别和负样本语句中每个字属于负样本语句中每个字的真实字类别的概率,获得实体识别损失。
一个具体实施例中,正样本语句属于正样本语句的真实语句类别的概率为P+_class=softmax(S+_encoding[0]),将正样本语句的语句表示特征S+_encoding[0]输入softmax模型,得到正样本语句属于正样本语句的真实语句类别的概率P+_class。负样本语句属于负样本语句的真实语句类别的概率P-_class=softmax(S-_encoding[0]),将负样本语句的语句表示特征S-_encoding[0]输入softmax模型,得到负样本语句属于负样本语句的真实语句类别的概率P-_class。
正样本语句中每个字属于正样本语句中每个字的真实字类别的概率P+_ner=softmax(S+_encoding[1:N]),将正样本语句的字表示特征S+_encoding[1:N]输入softmax模型,得到正样本语句中每个字属于正样本语句中每个字的真实字类别的概率P+_ner。负样本语句中每个字属于负样本语句中每个字的真实字类别的概率P-_ner=softmax(S-_encoding[1:M]),将负样本语句的字表示特征S-_encoding[1:M]输入softmax模型,得到负样本语句中每个字属于负样本语句中每个字的真实字类别的概率P-_ner。
类别预测损失Loss_class=SUM(y+log(P+_class))+SUM(y-log(P-_class)),y+为正样本语句的真实语句类别,P+_class为正样本语句属于正样本语句的真实语句类别的概率,y-为负样本语句的真实语句类别,P-_class为负样本语句属于负样本语句的真实语句类别的概率,相当于计算每个样本语句的真实语句类别和初始结构化信息提取模型预测出的这个样本语句属于这个真实语句类别的概率的log值的乘积,然后再把样本集合的所有样本语句的这个乘积进行求和,即为类别预测损失。
实体识别损失Loss_ner=SUM(SUM(y+_ner_i log(P+_ner_i)))+SUM(SUM(y-_ner_i log(P-_ner_i))),y+_ner_i为正样本语句中第i个字的真实字类别,P+_ner_i为正样本语句中第i个字属于正样本语句中第i个字的真实字类别的概率,y-_ner_i为负样本语句中第i个字的真实字类别,P-_ner_i为负样本语句中第i个字属于负样本语句中第i个字的真实字类别的概率,相当于计算每个样本语句中每个字的真实字类别和初始结构化信息提取模型预测出的这个字属于这个真实字类别的概率的log值的乘积,再将这个样本语句中每个字的乘积求和,再将样本集合的所有样本语句的这个和再求和,即为实体识别损失。
本申请实施例中,如图3所示,基于以上所构建的结构化信息提取模型,进行结构化信息提取的方法流程主要包括:
步骤301,获取待结构化语句。
步骤302,提取待结构化语句的语句表示特征和字表示特征。
步骤303,将待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得结构化信息提取模型输出的结构化信息,其中,结构化信息包括待结构化语句对应的预测语句类别、待结构化语句中包含的实体和实体对应的预测实体类别。
例如:待结构化语句为乙方同意将项目公司的51%股权转让予丙方。结构化信息提取模型输出的结构化信息为:待结构化语句对应的预测语句类别是股权转让类,待结构化语句中包含的实体为乙方、项目公司、51%、股权和丙方,实体对应的预测实体类别为乙方是转让方、项目公司是目标公司、51%是比例、股权是转让对象、丙方是受让方。
一个具体实施例中,如图4所示,将待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得结构化信息提取模型输出的结构化信息,包括:
步骤401,将待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型。
步骤402,结构化信息提取模型根据待结构化语句的语句表示特征,计算待结构化语句属于每个语句类别的概率。
步骤403,结构化信息提取模型根据待结构化语句属于每个语句类别的概率,确定待结构化语句对应的预测语句类别。
其中,结构化语句属于每个语句类别的概率的最大值对应的语句类别即为待结构化语句对应的预测语句类别。
步骤404,结构化信息提取模型根据待结构化语句的字表示特征,通过BIO标注,获得待结构化语句中包含的实体。
其中,实体是指业务人员关注的关键要素。例如:甲方转给乙方10%的股权,语句类别为股权转让,实体为甲方、乙方和10%,实体对应的类别为甲方为转让方、乙方为受让方以及10%为股权占比。
BIO标注是指将每个字标注为B、I或O,B表示实体的开始字,I表示实体的中间字,O表示不属于实体的字。标注为B的字和标注为I的字相连的词语即为实体。
步骤405,结构化信息提取模型根据实体对应的字表示特征,计算实体属于每个实体类别的概率。
根据实体中包含的字对应的字表示特征,能够得到实体中包含的字属于每个字类别的概率,进而得到实体属于每个实体类别的概率。
步骤406,结构化信息提取模型根据实体属于每个实体类别的概率,确定实体对应的预测实体类别。
其中,实体属于每个实体类别的概率的最大值对应的实体类别即为实体对应的预测实体类别。
步骤407,结构化信息提取模型将待结构化语句对应的预测语句类别、待结构化语句中包含的实体和实体对应的预测实体类别输出。
综上,本申请实施例提供的该方法,通过将被初始结构化信息提取模型识别为正样本语句对应的语句类别,但真实语句类别与正样本语句对应的语句类别不同的语句作为负样本语句,将每个语句类别对应的正样本语句和负样本语句作为样本集合,提取样本集合中每条样本的语句表示特征和字表示特征,将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。同一个语句类别对应的正样本语句和负样本语句相似度高,但真实语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别,通过将每个语句类别对应的正样本语句和负样本语句作为样本集合,对初始结构化信息提取模型进行训练,能够使构建的结构化信息提取模型更容易区分相似度高的句子的语句类别,提高提取句子的预测语句类别的准确性,解决了相似度高但属于不同类别的句子分类准确性差的问题。
基于同一构思,本申请实施例中提供了一种结构化信息提取模型构建装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图5所示,该装置主要包括:
第一获取模块501,用于获取样本集合,其中,样本集合包括每个语句类别对应的正样本语句和负样本语句,正样本语句的真实语句类别为正样本语句对应的语句类别,负样本语句的真实语句类别和负样本语句对应的语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别;
第一提取模块502,用于提取样本集合中每条样本的语句表示特征和字表示特征;
第一处理模块503,用于将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
基于同一构思,本申请实施例中提供了一种结构化信息提取装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图6所示,该装置主要包括:
第二获取模块601,用于获取待结构化语句;
第二提取模块602,用于提取待结构化语句的语句表示特征和字表示特征;
第二处理模块603,用于将待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得结构化信息提取模型输出的结构化信息,其中,结构化信息包括待结构化语句对应的预测语句类别、待结构化语句中包含的实体和实体对应的预测实体类别。
基于同一构思,本申请实施例中还提供了一种电子设备,如图7所示,该电子设备主要包括:处理器701、存储器702和通信总线703,其中,处理器701和存储器702通过通信总线703完成相互间的通信。其中,存储器702中存储有可被处理器701执行的程序,处理器701执行存储器702中存储的程序,实现如下步骤:
获取样本集合,其中,样本集合包括每个语句类别对应的正样本语句和负样本语句,正样本语句的真实语句类别为正样本语句对应的语句类别,负样本语句的真实语句类别和负样本语句对应的语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别;提取样本集合中每条样本的语句表示特征和字表示特征;将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型;
或者,
获取待结构化语句;提取待结构化语句的语句表示特征和字表示特征;将待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得结构化信息提取模型输出的结构化信息,其中,结构化信息包括待结构化语句对应的预测语句类别、待结构化语句中包含的实体和实体对应的预测实体类别。
上述电子设备中提到的通信总线703可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线703可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器702可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的结构化信息提取模型构建方法,或者,结构化信息提取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种结构化信息提取模型构建方法,其特征在于,包括:
获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应的语句类别,所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同,且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别;
提取所述样本集合中每条样本的语句表示特征和字表示特征;
将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至所述初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
2.根据权利要求1所述的结构化信息提取模型构建方法,其特征在于,所述获取样本集合,包括:
获取初始样本集合,所述初始样本集合包括初始样本语句和所述初始样本语句的真实语句类别;
提取所述初始样本集合中每条样本的语句表示特征;
将所述初始样本集合中每条样本的所述语句表示特征,输入至所述初始结构化信息提取模型,获得所述初始结构化信息提取模型输出的所述初始样本语句对应的预测语句类别;
比较所述初始样本语句的真实语句类别和所述初始样本语句对应的预测语句类别,获得比较结果;
若所述比较结果为所述真实语句类别和所述预测语句类别相同,则将所述初始样本语句作为所述预测语句类别对应的所述正样本语句;
若所述比较结果为所述真实语句类别和所述预测语句类别不同,则将所述初始样本语句作为所述预测语句类别对应的所述负样本语句。
3.根据权利要求2所述的结构化信息提取模型构建方法,其特征在于,所述获取初始样本集合,包括:
获取原始文本;
将所述原始文本按照标点符号划分为至少两个原始语句;
从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句;
将至少两个所述初始语句的文本格式统一,获得所述初始样本语句;
获取所述初始样本语句的真实语句类别。
4.根据权利要求3所述的结构化信息提取模型构建方法,其特征在于,所述从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句,包括:
从至少两个所述原始语句中,查找数字文本,包含所述数字文本的所述原始语句作为所述初始语句;
和/或
从至少两个所述原始语句中,查找特殊符号,包含所述特殊符号的所述原始语句作为所述初始语句;
和/或
从至少两个所述原始语句中,查找预设句式,包含所述预设句式的所述原始语句作为所述初始语句。
5.根据权利要求1至4任一项所述的结构化信息提取模型构建方法,其特征在于,所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型,包括:
根据所述样本集合中每条样本的所述语句表示特征和所述字表示特征,获取损失,其中,所述损失包括正负样本距离,所述损失和所述正负样本距离成正相关;
根据所述损失,优化所述初始结构化信息提取模型的参数后,返回执行所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型的步骤,直至所述损失趋于稳定时,将所述初始结构化信息提取模型作为最终的所述结构化信息提取模型。
6.根据权利要求5所述的结构化信息提取模型构建方法,其特征在于,所述正负样本距离的获取过程包括:
获取所述正样本语句的语句表示特征和所述负样本语句的语句表示特征之间的相似度;
将所述相似度作为所述正负样本距离。
7.一种结构化信息提取方法,其特征在于,包括:
获取待结构化语句;
提取所述待结构化语句的语句表示特征和字表示特征;
将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,其中,所述结构化信息包括所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别;
其中,所述结构化信息提取模型为采用权利要求1至6任一项所述的方法构建得到。
8.根据权利要求7所述的结构化信息提取方法,其特征在于,所述将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,包括:
将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型;
所述结构化信息提取模型根据所述待结构化语句的语句表示特征,计算所述待结构化语句属于每个语句类别的概率;
所述结构化信息提取模型根据所述待结构化语句属于每个语句类别的概率,确定所述待结构化语句对应的预测语句类别;
所述结构化信息提取模型根据所述待结构化语句的字表示特征,通过BIO标注,获得所述待结构化语句中包含的实体;
所述结构化信息提取模型根据所述实体对应的字表示特征,计算所述实体属于每个实体类别的概率;
所述结构化信息提取模型根据所述实体属于每个实体类别的概率,确定所述实体对应的预测实体类别;
所述结构化信息提取模型将所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别输出。
9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至6任一项所述的结构化信息提取模型构建方法,或者,实现权利要求7至8任一项所述的结构化信息提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的结构化信息提取模型构建方法,或者,实现权利要求7至8任一项所述的结构化信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772702.1A CN113505224B (zh) | 2021-07-08 | 2021-07-08 | 结构化信息提取及模型构建方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772702.1A CN113505224B (zh) | 2021-07-08 | 2021-07-08 | 结构化信息提取及模型构建方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505224A true CN113505224A (zh) | 2021-10-15 |
CN113505224B CN113505224B (zh) | 2023-01-10 |
Family
ID=78011757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772702.1A Active CN113505224B (zh) | 2021-07-08 | 2021-07-08 | 结构化信息提取及模型构建方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505224B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274397A (zh) * | 2020-01-20 | 2020-06-12 | 北京百度网讯科技有限公司 | 建立实体关系检测模型的方法以及装置 |
CN111651606A (zh) * | 2020-06-05 | 2020-09-11 | 深圳市慧择时代科技有限公司 | 一种文本处理方法、装置及电子设备 |
US20200410167A1 (en) * | 2019-03-12 | 2020-12-31 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating statement |
CN112287069A (zh) * | 2020-10-29 | 2021-01-29 | 平安科技(深圳)有限公司 | 基于语音语义的信息检索方法、装置及计算机设备 |
CN112860726A (zh) * | 2021-02-07 | 2021-05-28 | 天云融创数据科技(北京)有限公司 | 结构化查询语句分类模型训练方法和装置 |
CN112966102A (zh) * | 2021-02-10 | 2021-06-15 | 万翼科技有限公司 | 分类模型构建及文本语句分类方法、设备及存储介质 |
-
2021
- 2021-07-08 CN CN202110772702.1A patent/CN113505224B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200410167A1 (en) * | 2019-03-12 | 2020-12-31 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating statement |
CN111274397A (zh) * | 2020-01-20 | 2020-06-12 | 北京百度网讯科技有限公司 | 建立实体关系检测模型的方法以及装置 |
CN111651606A (zh) * | 2020-06-05 | 2020-09-11 | 深圳市慧择时代科技有限公司 | 一种文本处理方法、装置及电子设备 |
CN112287069A (zh) * | 2020-10-29 | 2021-01-29 | 平安科技(深圳)有限公司 | 基于语音语义的信息检索方法、装置及计算机设备 |
CN112860726A (zh) * | 2021-02-07 | 2021-05-28 | 天云融创数据科技(北京)有限公司 | 结构化查询语句分类模型训练方法和装置 |
CN112966102A (zh) * | 2021-02-10 | 2021-06-15 | 万翼科技有限公司 | 分类模型构建及文本语句分类方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113505224B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230075341A1 (en) | Semantic map generation employing lattice path decoding | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN112966102A (zh) | 分类模型构建及文本语句分类方法、设备及存储介质 | |
Aralikatte et al. | Fault in your stars: an analysis of android app reviews | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
WO2022072237A1 (en) | Lifecycle management for customized natural language processing | |
WO2021217866A1 (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN112527969A (zh) | 增量意图聚类方法、装置、设备及存储介质 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
Geist et al. | Leveraging machine learning for software redocumentation—A comprehensive comparison of methods in practice | |
CN113505224B (zh) | 结构化信息提取及模型构建方法、设备及存储介质 | |
CN111126073A (zh) | 语义检索方法和装置 | |
CN115730237A (zh) | 垃圾邮件检测方法、装置、计算机设备及存储介质 | |
CN115511606A (zh) | 对象识别方法、装置、设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN111708819B (zh) | 用于信息处理的方法、装置、电子设备和存储介质 | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN110909777A (zh) | 一种多维特征图嵌入方法、装置、设备及介质 | |
CN112417886A (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN111382244B (zh) | 一种深度检索匹配分类方法、装置及终端设备 | |
CN112732913B (zh) | 一种非均衡样本的分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |