CN114757172A - 一种基于段落区间划分的篇章级合同抽取方法 - Google Patents
一种基于段落区间划分的篇章级合同抽取方法 Download PDFInfo
- Publication number
- CN114757172A CN114757172A CN202210286174.3A CN202210286174A CN114757172A CN 114757172 A CN114757172 A CN 114757172A CN 202210286174 A CN202210286174 A CN 202210286174A CN 114757172 A CN114757172 A CN 114757172A
- Authority
- CN
- China
- Prior art keywords
- text
- chapter
- paragraph
- information
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于段落区间划分的篇章级合同抽取方法,首先获取篇章级文本,然后对篇章级文本进行段落分割,拆分为多个段落文本;基于篇章级文本中章节信息的模式,结合正则表达式,抽取出对应的章节文本内容,并获取章节信息的索引下标;通过章节信息的索引下标获取每个段落文本的章节所属,并添加至段落文本的起始位置;对添加章节内容后的段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;通过条件随机场从文本表征中获取对应句子的上下文信息,抽取出篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入,在面对长文本内容时,能够以较高准确率抽出长文本要素信息。
Description
技术领域
本发明涉及自然语言技术领域,特别是涉及一种基于段落区间划分的篇章级合同抽取方法。
背景技术
目前,在面对文本要素抽取任务时,现有技术中的方案是将篇章级文本按照段落内容进行划分,然后以单个段落文本为基本单位作为模型输入,这使得模型无法利用当前段落的章节信息,缺少章节信息限制,对易混淆字段会产生偏置。此外,由于现有任务方法无法利用章节信息,同时易混淆字段的文本内容特征差异性不大,从而缺少章节信息的限制,导致易混淆字段信息错误率较高。因此,目前的要素抽取模型在抽取篇章级要素信息时,还存在以下问题:(1)篇章级文本段落较长,当前段落无法利用章节信息;(2)对于易混淆字段,由于文本内容特征差异性不大,容易识别错误,准确率低。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于段落区间划分的篇章级合同抽取方法,用于解决现有技术在进行文本要素抽取时抽取不完整和准确率低的问题。
为实现上述目的及其他相关目的,本发明提供一种基于段落区间划分的篇章级合同抽取方法,所述方法包括以下步骤:
获取待进行文本要素抽取的篇章级文本;
按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;
基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;
通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;
获取添加章节内容后的段落文本,记为目标段落文本;
利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;
通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。
可选地,利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征的过程包括:
将所述章节信息和每个目标段落文本建模为由批次大小和文本长度构成的二维矩阵;
将所述二维矩阵输入至所述预训练模型中进行编码,获取由批次大小、文本长度和隐层维度构成的三维矩阵;
通过注意力机制,聚合所述章节信息与句子之间的文本信息,得到包含章节信息的文本表征。
可选地,所述章节信息包括以下至少之一:甲方信息、乙方信息、开票信息。
可选地,所述预设分隔符包括换行符。
可选地,从所述篇章级文本中抽取的文本要素字段包括以下至少之一:甲方账户名、乙方账户名、合同名称、合同编号。
如上所述,本发明提供一种基于段落区间划分的篇章级合同抽取方法,具有以下有益效果:
本发明首先获取待进行文本要素抽取的篇章级文本;然后按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;再基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;并通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;然后获取添加章节内容后的段落文本,记为目标段落文本;以及利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;最后通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入,在面对长文本内容时,能够以较高准确率抽出长文本要素信息。而且本发明为了能够更好利用章节信息和区分易混淆字段信息,提出了基于章节信息划分段落区间的要素抽取发明。同时,在当前业界主流的合同要素抽取产品的平均准确率只有80%,地址、金额等易混淆字段的准确率只有75%的条件下,本发明能够以90%的准确率抽取出易混淆要素字段。
附图说明
图1为一实施例提供的基于段落区间划分的篇章级合同抽取方法的流程示意图;
图2为一实施例提供的基于段落区间划分的篇章级合同抽取方法中的模型结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1所示,本发明提供一种基于段落区间划分的篇章级合同抽取方法,包括以下步骤:
获取待进行文本要素抽取的篇章级文本;
按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;
基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;在本实施例中,章节信息的下标是从所有段落文本的下标中获取到的。
通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;
获取添加章节内容后的段落文本,记为目标段落文本;
利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;
通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。
具体地,在一示例性实施例中,利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征的过程包括:
将所述章节信息和每个目标段落文本建模为由批次大小和文本长度构成的二维矩阵;
将所述二维矩阵输入至所述预训练模型中进行编码,获取由批次大小、文本长度和隐层维度构成的三维矩阵;
通过注意力机制,聚合所述章节信息与句子之间的文本信息,得到包含章节信息的文本表征。
根据上述记载,本方法中的章节信息包括但不限于:甲方信息、乙方信息、开票信息,所述预设分隔符包括换行符,从所述篇章级文本中抽取的文本要素字段包括但不限于:甲方账户名、乙方账户名、合同名称、合同编号。
请参阅图2所示,本发明还提供一种基于段落区间划分的篇章级合同抽取方法,包括以下步骤:
1.段落分割,将篇章级文本内容按照原有段落将文本内容按照换行符“\n”进行段落级文本内容的拆分,并获取所有段落文本的下标。
2.章节信息抽取,根据篇章文本中章节信息的模式,如:“一、”,利用正则表达式,抽取出对应的章节文本内容并获取到章节信息的索引下标。
3.段落区间划分,通过章节的索引下标,获取到每个段落的章节所属,并把章节内容追加在段落开头。
4.模型结构,为了能够更好区分易混淆字段,充分利用章节信息与结构信息内容。模型结构如图2所示。
5.将每个句子都经过预训练模型进行编码,然后通过注意力机制进行聚合句子内部信息,获取本句的表征。最后通过条件随机场得到上下文信息,最后输出结果。
综上所述,本发明提供一种基于段落区间划分的篇章级合同抽取方法,首先获取待进行文本要素抽取的篇章级文本;然后按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;再基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;并通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;然后获取添加章节内容后的段落文本,记为目标段落文本;以及利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;最后通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。本发明采用段落级文本内容作为模型输入,在面对长文本内容时,能够以较高准确率抽出长文本要素信息。而且本发明为了能够更好利用章节信息和区分易混淆字段信息,提出了基于章节信息划分段落区间的要素抽取发明。同时,在当前业界主流的合同要素抽取产品的平均准确率只有80%,地址、金额等易混淆字段的准确率只有75%的条件下,本发明能够以90%的准确率抽取出易混淆要素字段。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (5)
1.一种基于段落区间划分的篇章级合同抽取方法,其特征在于,所述方法包括以下步骤:
获取待进行文本要素抽取的篇章级文本;
按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;
基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;
通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;
获取添加章节内容后的段落文本,记为目标段落文本;
利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;
通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。
2.根据权利要求1所述的基于段落区间划分的篇章级合同抽取方法,其特征在于,利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征的过程包括:
将所述章节信息和每个目标段落文本建模为由批次大小和文本长度构成的二维矩阵;
将所述二维矩阵输入至所述预训练模型中进行编码,获取由批次大小、文本长度和隐层维度构成的三维矩阵;
通过注意力机制,聚合所述章节信息与句子之间的文本信息,得到包含章节信息的文本表征。
3.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法,其特征在于,所述章节信息包括以下至少之一:甲方信息、乙方信息、开票信息。
4.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法,其特征在于,所述预设分隔符包括换行符。
5.根据权利要求1或2所述的基于段落区间划分的篇章级合同抽取方法,其特征在于,从所述篇章级文本中抽取的文本要素字段包括以下至少之一:甲方账户名、乙方账户名、合同名称、合同编号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210286174.3A CN114757172A (zh) | 2022-03-25 | 2022-03-25 | 一种基于段落区间划分的篇章级合同抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210286174.3A CN114757172A (zh) | 2022-03-25 | 2022-03-25 | 一种基于段落区间划分的篇章级合同抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114757172A true CN114757172A (zh) | 2022-07-15 |
Family
ID=82327830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210286174.3A Pending CN114757172A (zh) | 2022-03-25 | 2022-03-25 | 一种基于段落区间划分的篇章级合同抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757172A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688138A (zh) * | 2024-02-02 | 2024-03-12 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
-
2022
- 2022-03-25 CN CN202210286174.3A patent/CN114757172A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688138A (zh) * | 2024-02-02 | 2024-03-12 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
CN117688138B (zh) * | 2024-02-02 | 2024-04-09 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN106294350B (zh) | 一种文本聚合方法及装置 | |
CN103593418B (zh) | 一种面向大数据的分布式主题发现方法及系统 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN109740164B (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN106610931A (zh) | 话题名称的提取方法及装置 | |
CN109308311A (zh) | 一种多源异构数据融合系统 | |
CN105159917A (zh) | 一种电子病历的非结构化信息转化为结构化的泛化方法 | |
CN105488471B (zh) | 一种字形识别方法及装置 | |
CN114757172A (zh) | 一种基于段落区间划分的篇章级合同抽取方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN111061873A (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN111027322A (zh) | 基于情感词典的财经新闻中细粒度实体的情感分析方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
CN105573981A (zh) | 一种提取中文人名地名的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 3005, No.9, Lane 803, Shuangcheng Road, Baoshan District, Shanghai 201900 Applicant after: Shanghai Ouye Jincheng Information Service Co.,Ltd. Address before: Room 3005, No.9, Lane 803, Shuangcheng Road, Baoshan District, Shanghai 201900 Applicant before: SHANGHAI OUYE FINANCE INFORMATION SERVICE Co.,Ltd. |