CN109582772A - 合同信息提取方法、装置、计算机设备和存储介质 - Google Patents
合同信息提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109582772A CN109582772A CN201811425043.9A CN201811425043A CN109582772A CN 109582772 A CN109582772 A CN 109582772A CN 201811425043 A CN201811425043 A CN 201811425043A CN 109582772 A CN109582772 A CN 109582772A
- Authority
- CN
- China
- Prior art keywords
- contract
- information
- field
- text
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000000284 extract Substances 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,提供一种合同信息提取方法、装置、计算机设备和存储介质,所述方法包括:获取待处理文本,待处理文本包括多个合同信息;对合同信息进行标注,得到对应的合同标注结果;根据合同标注结果确定合同信息对应的候选字段;对候选字段进行字段对齐,得到对齐字段;将对齐字段输入已训练的关联模型进行关联,得到关联记录信息;将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果;根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息,能够在多篇合同信息中完整的获取多条记录。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种合同信息提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术领域的高速发展,人们每天都在面对海量的合同信息,当人们需要提取一篇文本中的某一些信息时,需要花费大量的时间去查找、提取以及查错。
传统的对于合同信息的提取是基于正则表达式,但是编写正则表达式需要大量阅读公告,消耗大量人力,并且正则表达式之间可能会有矛盾冲突,牵一发而动全身。单纯序列标注的方法现在比较流行的就是使用Bi-LSTM-CRF模型,但序列本身只能获得单字段,无法获得一条完整的记录,无法解决在多篇合同信息中完整的获取多条记录的情况。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在多篇合同信息中完整的获取多条记录的合同信息提取方法、装置、计算机设备和存储介质。
一种合同信息提取方法,所述方法包括:
获取待处理文本,所述待处理文本包括多个合同信息;
对所述合同信息进行标注,得到对应的合同标注结果;
根据所述合同标注结果确定所述合同信息对应的候选字段;
对所述候选字段进行字段对齐,得到对齐字段;
将所述对齐字段输入已训练的关联模型进行关联,得到关联记录信息;
将所述关联记录信息输入已训练的概率统计模型,得到所述关联记录信息对应的概率统计结果;
根据所述概率统计结果对所述关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
在其中一个实施例中,所述方法还包括:
获取与所述待处理文本对应的指代消解规则;
根据所述指代消解规则从所述合同信息提取与所述标注序列对应的所述候选字段。
在其中一个实施例中,所述方法还包括:
将各个候选字段进行任意组合,形成候选字段对;
计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;
获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;
对所述相似字段集合中的各个候选字段进行对齐,得到所述待处理文本对应的对齐字段。
在其中一个实施例中,所述方法还包括:
获取所述待处理文本的段落信息;
根据所述段落信息将占位符填充至所述待处理文本中;
根据所述占位符将所述待处理文本进行切分得到多个待处理子文本;
分别对所述待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;
根据各个合同子标注结果获取所述合同标注结果。
在其中一个实施例中,所述方法还包括:
显示所述合同提取信息并获取与所述合同提取信息对应的更正信息;
根据所述更正信息更新所述关联模型和所述概率统计模型。
一种合同信息提取装置,所述装置包括:
文本获取模块,用于获取待处理文本,所述待处理文本包括多个合同信息;
文本标注模块,用于对所述合同信息进行标注,得到对应的合同标注结果;
字段确定模块,用于根据所述合同标注结果确定所述合同信息对应的候选字段;
字段对齐模块,用于对所述候选字段进行字段对齐,得到对齐字段;
字段关联模块,用于将所述对齐字段输入已训练的关联模型进行关联,得到关联记录信息;
概率统计模块,用于将所述关联记录信息输入已训练的概率统计模型,得到所述关联记录信息对应的概率统计结果;
信息输出模块,用于根据所述概率统计结果对所述关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
在其中一个实施例中,所述装置还包括:
标注消解模块,用于获取与所述待处理文本对应的指代消解规则;
候选字段确定模块,用于根据所述指代消解规则从所述合同信息提取与所述标注序列对应的所述候选字段。
在其中一个实施例中,所述装置还包括:
字段组合模块,用于将各个候选字段进行任意组合,形成候选字段对;
相似度计算模块,用于计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;
集合获取模块,用于获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;
候选字段对齐模块,用于对所述相似字段集合中的各个候选字段进行对齐,得到所述待处理文本对应的对齐字段。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
上述合同信息提取方法、装置、计算机设备和存储介质,通过获取待处理文本,所述待处理文本包括多个合同信息,能够对包含多个合同的文本信息进行提取记录,再对合同信息进行标注,得到对应的合同标注结果,然后根据合同标注结果确定合同信息对应的候选字段,能够进一步提取出符合需求的字段,接着对候选字段进行字段对齐,就得到对齐字段,能够去除含义相同表述不一致的内容,将对齐字段输入已训练的关联模型进行关联,得到关联记录信息,使得零碎的候选字段能够关联起来形成一条完整的字段,然后将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果,最后根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息,能够在一篇文本信息中完整的获取多条记录。
附图说明
图1为一个实施例中合同信息提取方法的应用环境图;
图2为一个实施例中合同信息提取方法的方法流程图;
图3为一个实施例中合同信息提取方法中确定候选字段的方法流程图;
图4为一个实施例中合同信息提取方法中确定对齐字段的方法流程图;
图5为一个实施例中合同信息提取方法装置的结构示意图;
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例中所提供的合同信息提取方法可以应用于如图1所示的应用环境中,服务器120获取待处理文本,其中待处理文本可为终端110上传的文本,待处理文本包括多个合同信息,服务器120再对合同信息进行标注,得到对应的合同标注结果,服务器120再根据合同标注结果确定合同信息对应的候选字段,对候选字段进行字段对齐,得到对齐字段,服务器120将对齐字段输入已训练的关联模型进行关联,得到关联记录信息,服务器120再将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果,最后服务器120根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息,合同提取信息可发送至终端110。
下述实施方式以合同信息提取方法应用于图1的服务器102为例进行说明,但需要说明的是,实际应用中该方法并不仅限应用于上述服务器。
如图2所示,为一个实施例中的合同信息提取方法的流程图,该方法具体包括以下步骤:
步骤202,获取待处理文本,待处理文本包括多个合同信息。
其中,待处理文本可以是各类文本信息、合同信息或重大合同公告等。具体地,各类文本信息可以是终端用户输入的文本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,各类合同信息可以但不限于是买卖合同、赠与合同、借款合同、租赁合同、融资租赁合同、承揽合同和建设工程合同。合同公告即包含了多个合同关系,例如在一篇公告中,A公司声称与B公司做了某项目,与C公司做了某项目;A公司声称子公司A1与B公司做了某项目,子公司A2与C公司做了某项目,这些关系都存在于一个公告里面,存在多个项目/合同记录。对于重大合同公告而言,一个重大合同公告中某个字段可能会出现多个,即在一个合同公告中可能会存在多个合同/项目信息。例如,一份重大合同公告中可能会有多个甲方和多个乙方,所以,对重大合同公告最后提取出的合同提取信息包括了甲方、乙方、项目名称、合同名称、合同金额、联合体成员。可以理解的是,待处理文本并不限于文本的长短,可以是短文本,也可以是非短文本。举个例子,待处理文本可以是中标项目公告,公告内容为:收到广西建设局发来的中标内容:广西PPP项目,中标联合体:牵头人—北京A公司;联合体成员--北京B公司、北京C公司,项目总投资—-五千万。则本中标项目公告最终需要提取的记录为,甲方-广西建设局,乙方-北京A公司,项目名称-广西PPP项目,合同名称-中标公告,合同金额-五千万,联合体成员-北京B公司、北京C公司。
步骤204,对合同信息进行标注,得到对应的合同标注结果。
其中,标注过程的进行是以序列标注方法为基础,使用Lattice LSTM(LongShort-Term Memory,长短期记忆网络)+CRF(Conditional Random Field,条件随机场)模型,利用序列标注思想,使用深度学习模型学习各字段的内在联系和特征。标注的输入是一个序列,其输出也是一个序列,进行标注过程中可用词性标注(Pos Tagging)方法进行标注,得到对应的合同标注结果。例如,一句话为:大宝的进球帮助中国队在长沙击败韩国队,那么序列标注后得到的标注结果就可以是大宝为人名,中国队和韩国队为组织名,长沙为地名,而“的进球帮助在击败”为其他信息。
步骤206,根据合同标注结果确定合同信息对应的候选字段。
其中,候选字段是与标注结果所对应的,存在于待处理文本中的字段信息。通过对待处理文本进行标注得到标注结果,再利用标注结果进一步定位各个候选字段。例如,当得到的标注结果为:大宝为人名,中国队和韩国队为组织名,长沙为地名,“的进球帮助在击败”为其他信息时,通过标注结果获取与人名、地名、组织名以及其他信息对应的候选字段,即大宝,中国队、韩国队、长沙、“的进球帮助在击败”。具体地,确定与待处理文本对应的各个候选字段是使用指代消解找到合同公告中的指代词的实际对象,指代消解就是在篇章中确定代词指向哪个名词短语的问题,指代词即可理解为存在于标注结果中的信息,实际对象为候选字段。
步骤208,对候选字段进行字段对齐,得到对齐字段。
其中,对齐字段为经过统一后的字段信息。合同公告中常常出现多个不同表述但指向同一对象的公司名称、合同及项目名称,因此须对各个候选字段进行对齐。对齐过程根据文中的全简称提示、外部词典、词向量相似度以及汉明距离进行对齐。例如有两个候选字段分别为“苹果”和“苹果集团”,当两个候选字段进行对齐后,两个候选字段将会统一为“苹果集团”,因为实际上“苹果”和“苹果集团”表述的意思为同一含义的意思。即对齐的过程是将含义重复但表述不一致的内容统一。由于合同公告比较规范,因此公司全简称主要通过文中的全简称提示及外部词典获得,如果上述两种方法无法获得,则使用词向量相似度来进行对齐,合同及项目名称通过文中全简称提示及汉明距离计算相似性,将相似度高的作为同一个对象。
步骤210,将对齐字段输入已训练的关联模型进行关联,得到关联记录信息。
其中,关联过程用于生成一条完整的记录,即包含甲方、乙方、项目名称、合同名称、合同金额、联合体成员的完整的记录。关联的过程为将甲方和乙方作为联合主键,主键用于进一步匹配除“甲方、乙方”外的剩余字段。主键在任务前需要提前假设,假设合同公告中提出的信息主键存在且唯一对应一条记录,这是由于合同公告一定存在乙方,但不一定存在甲方。当对齐字段信息输入已训练的关联模型进行关联后,输出与对齐字段信息对应的合同提取信息。合同提取信息是指用户需要提取的完整的记录信息,例如,最后从合同公告中提取出的完整记录信息可以是“甲方-广西建设局,乙方-北京A公司,项目名称-广西PPP项目,合同名称-中标公告,合同金额-五千万,联合体成员-北京B公司、北京C公司”。
步骤212,将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果。
其中,将获得的关联记录信息输入概率统计模型进行统计,其中概率统计模型使用随机森林进行建模,随机森林用于产生各个关联记录信息是完整记录信息的概率。对于相同的关键字段信息(可理解为相同的甲方、乙方),取是一条记录概率最高为真。将存在主键外非空元素的记录作为输出,得到关联记录信息对应的概率统计结果。例如,一条关联记录信息1为“甲方-广西建设局,乙方-北京A公司,项目名称-广西PPP项目,合同名称-中标公告,合同金额-五千万,联合体成员-北京B公司、北京C公司”,另一条关联记录信息2为“甲方-广西建设局,乙方-北京A公司,项目名称-广西XXX项目,合同名称-中标公告,合同金额-五千万,联合体成员-北京D公司、北京F公司”,通过输入概率模型进行概率统计,假设关联记录信息1为完整记录概率最高的记录时,将关联记录信息1确定为合同提取信息,通过关联模型和概率统计模型能准确一次提取多条完整的合同提取信息。
步骤214,根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
其中,目标关联记录信息是组成合同提取信息的子记录信息,将各个目标关联记录信息进行组合拼装就能得到与待处理文本对应的合同提取信息。
本实施例中,首先获取待处理文本,再通过标注过程获得待处理文本的标注结果,再通过标注结果确定各个候选字段,再将每个候选字段进行对齐,去除含义重复但表述不一致的内容,再根据关联模型进行判断字段是一条记录的可能性,最后输出完整的合同提取信息,能够在一篇文本信息中完整的获取多条记录。
在一个实施例中,如图3所示,该方法还包括以下步骤:
步骤302,获取与待处理文本对应的指代消解规则。
步骤304,根据指代消解规则从合同信息提取与标注序列对应的候选字段。
其中,指代消解信息就是在篇章中确定代词指向哪个名词短语的问题,根据标注消解信息能确定各个候选字段。根据指代消解规则从合同信息中提取出与标注序列对应的候选字段,指代消解规则明确序列指向字段的问题,能够精确的确定待提取的候选字段。
本实施例中,通过获取与待处理文本对应的指代消解规则,再根据指代消解规则从合同信息提取与标注序列对应的候选字段,能够准确的提取需要的候选字段,进一步为后续对齐及关联过程提供准确合同信息。
在一个实施例中,如图4所示,该方法还包括以下步骤:
步骤402,将各个候选字段进行任意组合,形成候选字段对。
其中,候选字段对为进行候选字段的任意组合后得到的候选字段的排列组合结果。举个例子,假设甲方提取出甲1、甲2,乙方提取出乙1、乙2,则可以获得一组排列组合为(甲1,乙1),(甲2,乙1),(空,乙1),(甲1,乙2),(甲2,乙2),(空,乙2)。甲方可为空,但乙方一定存在,故不为空,即甲方增加空元素后与乙方集合进行笛卡尔积,笛卡尔积可理解为一种排列组合方法,指的是第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。将关系关联问题转化为分类问题,即给定关键字段信息及一个其他集合的元素,判定是否是一条记录。
步骤404,计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度。
其中,各个候选字段对对应的相似度可通过衡量各个候选字段的重合率进行确定。利用文中的全简称提示、外部词典、词向量相似度以及汉明距离计算两个候选字段之间的相似度,以用于统一含义相同但表述不一致的内容。
步骤406,获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合。
具体地,当多个候选字段的相似度超过预设的阈值时,将会判定为相似字段,将相似字段统一到集合中,形成相似字段集合。
步骤408,对相似字段集合中的各个候选字段进行对齐,得到待处理文本对应的对齐字段。
其中,将相似字段集合中的各个候选字段进行对齐即将相似字段集合中的含义相同但表述不一致的内容进行统一,利用文中的全简称提示、外部词典、词向量相似度以及汉明距离得到待处理文本对应的对齐字段。
本实施例中,通过将各个候选字段进行任意组合,能够形成候选字段对,再计算候选字段对中候选字段之间的相似度,当候选字段之间的相似度超过了预设的阈值时,将会判定该候选字段间形成相似候选字段,将相似候选字段组合形成相似字段集合,再对相似字段集合中的各个候选字段进行对齐,得到对齐字段,能够去除含义一致但表述不一致的内容,使得的合同提取信息更加准确。
在一个实施例中,该方法还包括:获取待处理文本的段落信息;根据段落信息将占位符填充至待处理文本中;根据占位符将待处理文本进行切分得到多个待处理子文本;分别对待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;根据各个合同子标注结果获取合同标注结果。
其中,将占位符填充到待处理文本中,能够将待处理文本切分得到多个待处理子文本。由于将待处理文本全文作为一个输入,会因为样本长度过大而影响标注模型的效率,也会影响标注模型的效果,因此使用段落作为一个样本的输入,但在每个样本前加入维数据,即上一段落的段落向量,段落向量即将段落转化为一个向量。若第一段则使用<first>进行标记。通过将待处理文本信息分段进行标注,能提高标注模型的效率和标注的效果。
在一个实施例中,该方法还包括:显示合同提取信息并获取与合同提取信息对应的更正信息;根据更正信息更新关联模型和概率统计模型。
其中,与合同提取信息对应的更正信息为展示给对应终端合同提取信息时,终端所做出的更正操作,根据更正信息进一步更新关联模型和概率统计模型,并重新确定即更新合同提取信息。
本实施例中,通过显示合同提取信息并获取与合同提取信息对应的更正信息,再根据更正信息更新关联模型和概率统计模型,能做到关联模型和概率统计模型的在线学习更新,能进一步更加准确的确定合同提取信息。
如图5所示,为一实施例中的合同信息提取装置的示意图,该装置包括:
文本获取模块502,用于获取待处理文本,待处理文本包括多个合同信息;
文本标注模块504,用于对合同信息进行标注,得到对应的合同标注结果;
字段确定模块506,用于根据合同标注结果确定合同信息对应的候选字段;
字段对齐模块508,用于对候选字段进行字段对齐,得到对齐字段
字段关联模块510,用于将对齐字段输入已训练的关联模型进行关联,得到关联记录信息;
概率统计模块512,用于将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果;
信息输出模块514,用于根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
在一个实施例中,合同标注结果为标注序列,字段确定模块包括:标注消解模块,用于获取与待处理文本对应的指代消解规则;候选字段确定模块,用于根据指代消解规则从合同信息提取与标注序列对应的候选字段。
在一个实施例中,字段对齐模块包括:字段组合模块,用于将各个候选字段进行任意组合,形成候选字段对;相似度计算模块,用于计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;集合获取模块,用于获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;候选字段对齐模块,用于对相似字段集合中的各个候选字段进行对齐,得到待处理文本对应的对齐字段。
在一个实施例中,合同标注结果获取模块包括:获取待处理文本的段落信息;根据段落信息将占位符填充至待处理文本中;根据占位符将待处理文本进行切分得到多个待处理子文本;分别对待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;根据各个合同子标注结果获取合同标注结果。
在一个实施例中,模型更新模块包括:显示合同提取信息并获取与合同提取信息对应的更正信息;根据更正信息更新关联模型和概率统计模型。
关于合同信息提取装置的具体限定可以参见上文中对于合同信息提取方法的限定,在此不再赘述。上述合同信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述合同信息提取装置可以实现为一种计算机程序的形式。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为终端时,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种合同信息提取方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器执行程序时实现以下步骤:获取待处理文本,待处理文本包括多个合同信息;对合同信息进行标注,得到对应的合同标注结果;根据合同标注结果确定合同信息对应的候选字段;对候选字段进行字段对齐,得到对齐字段;将对齐字段输入已训练的关联模型进行关联,得到关联记录信息;将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果;根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
在一个实施例中,处理器执行程序时还可以实现以下步骤:获取与待处理文本对应的指代消解规则;根据指代消解规则从合同信息提取与标注序列对应的候选字段。
在一个实施例中,处理器执行程序时还可以实现以下步骤:将各个候选字段进行任意组合,形成候选字段对;计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;对相似字段集合中的各个候选字段进行对齐,得到待处理文本对应的对齐字段。
在一个实施例中,处理器执行程序时还可以实现以下步骤:获取待处理文本的段落信息;根据段落信息将占位符填充至待处理文本中;根据占位符将待处理文本进行切分得到多个待处理子文本;分别对待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;根据各个合同子标注结果获取合同标注结果。
在一个实施例中,处理器执行程序时还可以实现以下步骤:显示合同提取信息并获取与合同提取信息对应的更正信息;根据更正信息更新关联模型和概率统计模型。
上述对于计算机设备的限定可以参见上文中对于合同信息提取方法的具体限定,在此不再赘述。
请继续参阅图6,还提供一种计算机可读存储介质,其上存储有计算机程序,如图6中所示的非易失性存储介质,其中,该程序被处理器执行时实现以下步骤:获取待处理文本,待处理文本包括多个合同信息;对合同信息进行标注,得到对应的合同标注结果;根据合同标注结果确定合同信息对应的候选字段;对候选字段进行字段对齐,得到对齐字段;将对齐字段输入已训练的关联模型进行关联,得到关联记录信息;将关联记录信息输入已训练的概率统计模型,得到关联记录信息对应的概率统计结果;根据概率统计结果对关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:获取与待处理文本对应的指代消解规则;根据指代消解规则从合同信息提取与标注序列对应的候选字段。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:将各个候选字段进行任意组合,形成候选字段对;计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;对相似字段集合中的各个候选字段进行对齐,得到待处理文本对应的对齐字段。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:获取待处理文本的段落信息;根据段落信息将占位符填充至待处理文本中;根据占位符将待处理文本进行切分得到多个待处理子文本;分别对待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;根据各个合同子标注结果获取合同标注结果。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:显示合同提取信息并获取与合同提取信息对应的更正信息;根据更正信息更新关联模型和概率统计模型。
上述对于计算机可读存储介质的限定可以参见上文中对于合同信息提取方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种合同信息提取方法,所述方法包括:
获取待处理文本,所述待处理文本包括多个合同信息;
对所述合同信息进行标注,得到对应的合同标注结果;
根据所述合同标注结果确定所述合同信息对应的候选字段;
对所述候选字段进行字段对齐,得到对齐字段;
将所述对齐字段输入已训练的关联模型进行关联,得到关联记录信息;
将所述关联记录信息输入已训练的概率统计模型,得到所述关联记录信息对应的概率统计结果;
根据所述概率统计结果对所述关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
2.根据权利要求1所述的方法,其特征在于,所述合同标注结果为标注序列,根据所述合同标注结果确定所述合同信息对应的候选字段,包括:
获取与所述待处理文本对应的指代消解规则;
根据所述指代消解规则从所述合同信息提取与所述标注序列对应的所述候选字段。
3.根据权利要求1所述的方法,其特征在于,所述对所述候选字段进行字段对齐,得到对齐字段,包括:
将各个候选字段进行任意组合,形成候选字段对;
计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;
获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;
对所述相似字段集合中的各个候选字段进行对齐,得到所述待处理文本对应的对齐字段。
4.根据权利要求1所述的方法,其特征在于,所述对所述合同信息进行标注,得到对应的合同标注结果,包括:
获取所述待处理文本的段落信息;
根据所述段落信息将占位符填充至所述待处理文本中;
根据所述占位符将所述待处理文本进行切分得到多个待处理子文本;
分别对所述待处理子文本进行标注,得到各个待处理子文本对应的合同子标注结果;
根据各个合同子标注结果获取所述合同标注结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述概率统计结果对所述关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息之后,还包括:
显示所述合同提取信息并获取与所述合同提取信息对应的更正信息;
根据所述更正信息更新所述关联模型和所述概率统计模型。
6.一种合同信息提取装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理文本,所述待处理文本包括多个合同信息;
文本标注模块,用于对所述合同信息进行标注,得到对应的合同标注结果;
字段确定模块,用于根据所述合同标注结果确定所述合同信息对应的候选字段;
字段对齐模块,用于对所述候选字段进行字段对齐,得到对齐字段;
字段关联模块,用于将所述对齐字段输入已训练的关联模型进行关联,得到关联记录信息;
概率统计模块,用于将所述关联记录信息输入已训练的概率统计模型,得到所述关联记录信息对应的概率统计结果;
信息输出模块,用于根据所述概率统计结果对所述关联记录信息进行筛选得到目标关联记录信息,根据目标关联记录信息获取合同提取信息。
7.根据权利要求6所述的装置,其特征在于,所述合同标注结果为标注序列,所述字段确定模块包括:
标注消解模块,用于获取与所述待处理文本对应的指代消解规则;
候选字段确定模块,用于根据所述指代消解规则从所述合同信息提取与所述标注序列对应的所述候选字段。
8.根据权利要求6所述的装置,其特征在于,所述字段对齐模块包括:
字段组合模块,用于将各个候选字段进行任意组合,形成候选字段对;
相似度计算模块,用于计算各个候选字段对对应的两个候选字段之间的相似度,得到各个候选字段对对应的相似度;
集合获取模块,用于获取相似度超过预设阈值且具有相同候选字段的候选字段对形成相似字段集合;
候选字段对齐模块,用于对所述相似字段集合中的各个候选字段进行对齐,得到所述待处理文本对应的对齐字段。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811425043.9A CN109582772B (zh) | 2018-11-27 | 2018-11-27 | 合同信息提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811425043.9A CN109582772B (zh) | 2018-11-27 | 2018-11-27 | 合同信息提取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582772A true CN109582772A (zh) | 2019-04-05 |
CN109582772B CN109582772B (zh) | 2024-09-17 |
Family
ID=65924894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811425043.9A Active CN109582772B (zh) | 2018-11-27 | 2018-11-27 | 合同信息提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582772B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334343A (zh) * | 2019-06-12 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种合同中个人隐私信息抽取的方法和系统 |
CN110490538A (zh) * | 2019-07-04 | 2019-11-22 | 平安科技(深圳)有限公司 | 信息链生成方法、装置、计算机设备和存储介质 |
CN110705252A (zh) * | 2019-08-23 | 2020-01-17 | 上海市研发公共服务平台管理中心 | 技术合同判定方法、电子置、计算机设备和存储介质 |
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111144373A (zh) * | 2019-12-31 | 2020-05-12 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN111292116A (zh) * | 2019-12-12 | 2020-06-16 | 江苏中健之康信息技术有限公司 | 一种医药流通企业上下游返利管理、预测、监控的方法及系统 |
WO2021051867A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN112950372A (zh) * | 2021-03-03 | 2021-06-11 | 上海天旦网络科技发展有限公司 | 自动交易关联的方法及系统 |
CN112989795A (zh) * | 2021-02-09 | 2021-06-18 | 苏宁金融科技(南京)有限公司 | 一种文本信息提取方法、装置、计算机设备及存储介质 |
CN113177401A (zh) * | 2021-04-25 | 2021-07-27 | 鼎富智能科技有限公司 | 信息提取方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327115A1 (en) * | 2008-01-30 | 2009-12-31 | Thomson Reuters Global Resources | Financial event and relationship extraction |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
CN102929930A (zh) * | 2012-09-24 | 2013-02-13 | 南京大学 | 小样本自动化Web文本数据抽取模板生成与抽取方法 |
CN107480134A (zh) * | 2017-07-28 | 2017-12-15 | 国信优易数据有限公司 | 一种数据处理方法和系统 |
CN107766376A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 数据对齐方法及装置 |
CN107977345A (zh) * | 2017-11-14 | 2018-05-01 | 福建亿榕信息技术有限公司 | 一种通用文本信息抽取方法以及系统 |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN108629043A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
-
2018
- 2018-11-27 CN CN201811425043.9A patent/CN109582772B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327115A1 (en) * | 2008-01-30 | 2009-12-31 | Thomson Reuters Global Resources | Financial event and relationship extraction |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
CN102929930A (zh) * | 2012-09-24 | 2013-02-13 | 南京大学 | 小样本自动化Web文本数据抽取模板生成与抽取方法 |
CN107766376A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 数据对齐方法及装置 |
CN107480134A (zh) * | 2017-07-28 | 2017-12-15 | 国信优易数据有限公司 | 一种数据处理方法和系统 |
CN107977345A (zh) * | 2017-11-14 | 2018-05-01 | 福建亿榕信息技术有限公司 | 一种通用文本信息抽取方法以及系统 |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN108629043A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334343A (zh) * | 2019-06-12 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种合同中个人隐私信息抽取的方法和系统 |
CN110490538A (zh) * | 2019-07-04 | 2019-11-22 | 平安科技(深圳)有限公司 | 信息链生成方法、装置、计算机设备和存储介质 |
CN110490538B (zh) * | 2019-07-04 | 2023-08-22 | 平安科技(深圳)有限公司 | 信息链生成方法、装置、计算机设备和存储介质 |
CN110705252A (zh) * | 2019-08-23 | 2020-01-17 | 上海市研发公共服务平台管理中心 | 技术合同判定方法、电子置、计算机设备和存储介质 |
WO2021051867A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111292116A (zh) * | 2019-12-12 | 2020-06-16 | 江苏中健之康信息技术有限公司 | 一种医药流通企业上下游返利管理、预测、监控的方法及系统 |
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111144373A (zh) * | 2019-12-31 | 2020-05-12 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN111126029B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN112989795A (zh) * | 2021-02-09 | 2021-06-18 | 苏宁金融科技(南京)有限公司 | 一种文本信息提取方法、装置、计算机设备及存储介质 |
CN112950372A (zh) * | 2021-03-03 | 2021-06-11 | 上海天旦网络科技发展有限公司 | 自动交易关联的方法及系统 |
CN113177401A (zh) * | 2021-04-25 | 2021-07-27 | 鼎富智能科技有限公司 | 信息提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109582772B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582772A (zh) | 合同信息提取方法、装置、计算机设备和存储介质 | |
CN110765770B (zh) | 一种合同自动生成方法及装置 | |
CN110909176B (zh) | 数据推荐方法、装置、计算机设备以及存储介质 | |
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
US10055391B2 (en) | Method and apparatus for forming a structured document from unstructured information | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
US10678786B2 (en) | Translating search queries on online social networks | |
CN109643325B (zh) | 在自动聊天中推荐朋友 | |
US20190108282A1 (en) | Parsing and Classifying Search Queries on Online Social Networks | |
CN102567509B (zh) | 视觉信息辅助的即时通信方法及系统 | |
CN111259144A (zh) | 多模型融合文本匹配方法、装置、设备和存储介质 | |
US11436446B2 (en) | Image analysis enhanced related item decision | |
US20190243912A1 (en) | Rapid design, development, and reuse of blockchain environment and smart contracts | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN113821592B (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
WO2021098491A1 (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN110096591A (zh) | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 | |
CN112805715A (zh) | 识别实体属性关系 | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN104391969B (zh) | 确定用户查询语句句法结构的方法及装置 | |
CN109063184A (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN115840808B (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN116775815B (zh) | 对话数据的处理方法、装置、电子设备及存储介质 | |
CN112528638A (zh) | 异常对象识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |