CN110046637B - 一种合同段落标注模型的训练方法、装置及设备 - Google Patents

一种合同段落标注模型的训练方法、装置及设备 Download PDF

Info

Publication number
CN110046637B
CN110046637B CN201811590119.3A CN201811590119A CN110046637B CN 110046637 B CN110046637 B CN 110046637B CN 201811590119 A CN201811590119 A CN 201811590119A CN 110046637 B CN110046637 B CN 110046637B
Authority
CN
China
Prior art keywords
contract
paragraph
paragraphs
feature
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811590119.3A
Other languages
English (en)
Other versions
CN110046637A (zh
Inventor
梁山雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN202310914529.3A priority Critical patent/CN116702723A/zh
Priority to CN201811590119.3A priority patent/CN110046637B/zh
Publication of CN110046637A publication Critical patent/CN110046637A/zh
Application granted granted Critical
Publication of CN110046637B publication Critical patent/CN110046637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种合同段落标注模型的训练方法、装置及设备。本说明书实施例所提供的方案,使用深度学习模型对合同的每个段落进行编码,基于提取的段落特征使用序列标注模型自动的去学习段落之间的结构关系,进行模型训练,进而可以使用训练好的模型自动对合同进行段落标注,对合同文档结构的识别具有更强的适应性和准确性,效率更高,且不需要人工编写相关规则,更不需要后期对规则的维护更新。

Description

一种合同段落标注模型的训练方法、装置及设备
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种合同段落标注模型的训练方法、装置及设备。
背景技术
当前的合同文件大多都以纸质版的形式存放,对合同文件的电子归档需要对纸质版文件进行扫描,得到无结构的纯文本内容,而无法还原文档的结构信息,带来很多不便。一方面,没有合同结构查阅起来很不方便。另一方面,对文本的后续文本分析处理依赖于合同文档的结构信息。
例如,对于合同而言,提取某个标题下的子条款,提取合同中所有的条款,根据合同标题定位具体内容等,都需要有合同标题、条款等结构信息。如果对于合同的结构标注,都采用人工的方式,则效率太低。
基于此,需要一种对于非结构化的合同进行结构化段落标注的方案。
发明内容
针对现有合同标注效率太低的问题,为实现更高效的合同标注方案,第一方面,本说明书实施例提供一种合同段落标注模型的训练方法,具体包括:
获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明;
针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量;
以所述段落特征向量序列作为训练样本的特征值,以所述真实结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型;
其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以预测结构标签序列作为输出值,所述预测结构标签序列中的结构标签按顺序对应于各合同段落。
第二方面,本说明书实施例还提供一种基于上述合同段落标注模型的合同段落标注方法,包括:
获取合同文本内容,所述合同文本内容包括多个合同段落;
确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;
其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
与第一方面对应的,本说明书实施例还提供一种合同段落标注模型的训练装置,包括:
获取模块,获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明;
确定模块,针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量;
训练模块,以所述段落特征向量序列作为训练样本的特征值,以所述真实结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型;
其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以预测结构标签序列作为输出值,所述预测结构标签序列中的结构标签按顺序对应于各合同段落。
与第二方面对应的,本说明书实施例还提供一种基于上述合同段落标注模型的合同段落标注装置,包括:
获取模块,获取合同文本内容,所述合同文本内容包括多个合同段落;
确定模块,确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
标注模块,以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;
其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
本说明书实施例所提供的方案,使用深度学习模型对合同的每个段落进行编码,基于提取的段落特征使用序列标注模型自动的去学习段落之间的结构关系,进行模型训练,进而可以使用训练好的模型自动对合同进行段落标注,对合同文档结构的识别具有更强的适应性和准确性,而不需要人工编写相关规则,更不需要后期对规则的维护更新。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为一种示例性的合同内容的示意图;
图2为本说明书实施例提供的一种合同段落标注模型的训练方法的流程示意图;
图3为本说明书实施例所提供的模型训练的整体架构的示意图;
图4为本说明书实施例提供的一种合同段落标注方法的流程示意图;
图5为本说明书实施例提供的一种合同段落标注模型的训练装置的结构示意图;
图6为本说明书实施例提供的一种合同段落标注装置的结构示意图;
图7为用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
在一份合同中,其可以包含有多个段落,每个段落通常是标题、合同条款或者一些解释性的声明。如图1所示,图1为一种示例性的合同内容的示意图。其中,标题可以包括多种级别不同的标题,例如一级标题、二级标题等等。而条款内容通常是一些限定条件,例如,“2.1,甲方解除对乙方委托的”,通常,在条款内容之前都会带有数字,用以标识该条款内容的序列,以便日后查询。合同声明内容则主要用于对标题和条款内容的执行条件以及环境,进行具体的解释。例如,在标题“委托权限”下,进行声明“本合同的委托期限自本协议生效之日开始,到以下情形之一发生之日终止”,其中的“以下情形”通常就会包括多个条款内容,用来限定合同终止的条件,以及,还可能包括对于条款内容的进一步阐述性的解释等等。
业务方经常需要对合同进行拆解,以进行逐条分析。当前的合同文件大多都以纸质版的形式存放,对合同文件的电子归档需要对纸质版文件进行扫描,得到无结构的纯文本内容。在这些合同中,由于格式混乱,没有明显的层级关系,需要通过人工对合同内容逐个段落进行标注。基于此,本说明书实施例提供一种合同段落标注模型的训练方案,用于训练合同段落标注模型,以提高对合同段落的标注效率。
以下结合附图,详细说明本说明书各实施例提供的技术方案。如图2所示,图2是本说明书实施例提供的一种合同段落标注模型的训练方法的流程示意图,该流程具体包括如下步骤:
S201,获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明。
在本说明书实施例中,可以将一份合同按照顺序进行拆分,得到同一份合同的多个段落。其中,每一个段落都有一个结构标签。此处的结构标签即为前述的标题、条款内容或者合同声明内容。在合同中,标题还可以分为多种不同层级的标题。例如,一级标题的结构标签为(<title_1>)、二级标题的结构标签为(<title_2>)、条款内容的结构标签为(<term>)、合同声明内容的结构标签为(<state>)等等。在实际操作中可根据业务需求具体定义,此处不做限定。
在这种方式下,将各段落的结构标签按照顺序组合起来,即得到一个对应于该合同的结构标签序列,也可以称为真实结构标签序列。多个合同段落和该结构标签序列共同构成了一个完整的训练样本。容易理解,在一份合同对应的训练样本中,如果包含有N个段落,则结构标签序列也包含有N个结构标签。
需要说明的是,由于实际应用中,各合同格式不同,以及还有很多合同内容也不够规范,若直接采用原始信息,会为后面的处理带来一定困难。因此,在对合同内容进行分段并且打上标签以后,还可以对各段落的内容进行进一步地的清洗。
对于已标注内容而言具体的清洗方式可以包括:大小写转换以及全角半角转换等等。此处的清洗目的主要是为了进行文本格式的统一,根据具体应用需求,可以将大写统一转换为小写,也可以将小写统一转换为大写,以及,可以将全角统一转换为半角,或者半角统一转换为全角。
S203,针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量。
对于每个段落而言,可以对该段落的每一个字符生成一个字符编码向量,进而合成一个段落特征向量/矩阵;或者,还可以对该段落先进行分词,然后对每一个词生成对应的词编码向量,进而拼接一个段落特征向量/矩阵。形式上,段落特征向量/矩阵是一个稠密的实数值向量/矩阵,稠密即指向量/矩阵中元素值是实数并且不会出现大量的0。编码得到的段落表征向量表征了该部分段落内容的语义信息。
例如,可以采用诸如双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)模型或者基于双向门限递归单元(Bidirectional Gated Recurrent Unit,Bi-GRU)模型对各合同段落进行编码。进而,可以将各段落表征向量进行组合得到对应于该合同的段落特征向量序列。生成的段落特征向量序列可以认为是包含了合同各段落的语义信息,以及各段落之间的顺序信息,即可以作为训练样本的特征值。
S205,以所述段落特征向量序列作为训练样本的特征值,以所述结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型。
模型的输出为训练样本的预测结构标签序列,而训练样本的标签则是训练样本中已经包含的真实结构标签序列。在有监督训练的过程中,模型有一些参数需要训练学习,训练过程即为根据计算得到的损失函数(预测结构标签序列和真实结构标签序列的差异来确定)来不断调整模型参数的值的过程。如图3所示,图3为本说明书实施例所提供的模型训练的整体架构的示意图。当损失函数低于一定的预设值时(表征了预测结构标签序列和真实结构标签序列的差异已经达到可接受的范围),模型即迭代完毕,得到可用的目标标注模型。其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以结构标签序列作为输出值,所述结构标签序列中的结构标签按顺序对应于各合同段落。
在使用该目标标注模型时,由于其输出的是一串结构标注序列。即形式上如{(<title_1>),(<title_2>),(<term>),(<term>),(<state>)……},此时,只需按照合同中各段落的顺序将结构标签依次赋予各段落,并进行相应的结构标签解码即可得到合同各段落的结构标签。
本说明书实施例所提供的方案,使用深度学习模型对合同的每个段落进行编码,基于提取的段落特征使用序列标注模型自动的去学习段落之间的结构关系,进行模型训练,进而可以使用训练好的模型自动对合同进行段落标注,对合同文档结构的识别具有更强的适应性和准确性,而不需要人工编写相关规则,更不需要后期对规则的维护更新。
在一种具体的实施方式中,对于步骤S203,针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,可以包括如下方式:选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量,如图3所示,图3中的char embedding即表征通过字符表征向量合成得到段落特征向量。
具体对于一个段落而言,可以首先确定该段落中每个字符的嵌入(embeddi ng)向量,向量的维度可以可根据实际情形确定。每一个字符embedding时得到一个字符向量,比如是n维,整个段落的enbedding就是把每个字的字符向量,按照顺序拼接成一个段落特征表征矩阵,段落如果有m个字符(包括标点),段落特征表征矩阵就是m*n维。由于字符的嵌入向量本身就包含了字符在段落中的语义信息,因此,拼接得到的段落特征矩阵包含了该合同段落的所有字符的语义信息,以及,在按照顺序拼接时还包括了临近字符之间的局部特征。
此处的局部特征可以理解为比较短的文本特征,例如,在合同条款内容中经常出现的形式可能有:“一、……”、“二、……”或者,“1……”、“2……”等等,换言之,在合同条款中会有一个明显的“一”和“、”这种字符组合特征,那么在局部特征也已经包含在了段落特征表征矩阵中,可以通过某种方式把该特征提取出来,有利于模型训练。
基于此,可以从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵。例如,使用双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)模型提取段落的全局语义特征向量,以及使用卷积神经网络(Convolutional NeuralNetworks,CNN)提取出局部字符组合特征矩阵。
此外,由于各种不同类型的段落的长度通常会有明显不同,例如标题的长度较短,而合同声明内容的长度较长,条款内容的长度一般介于二者之间,在合同中,对于不同结构标签的段落而言,段落的长度有较为明显的区分度。因此,还可以单独将各段落的长度特征作为一种特征表征,即确定一个各段落的长度特征向量即可。
进而可以根据前述的全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量。由于全局语义特征向量是一个向量,局部字符组合特征经过CNN提取后是一个矩阵,长度特征为向量。因此,一种可实施的方式即为,将所述局部字符特征矩阵进行矩阵重排列,生成局部特征向量;拼接所述全局语义特征向量、局部特征向量和长度特征向量,生成一维的段落特征向量。此处的一维向量指的是一个一行多元向量,其形式类似于数组。或者,也可以是采用另一神经网络模型,将全局语义特征向量、局部特征向量和长度特征向量作为一个全连接层的输入,生成段落特征向量。通过提取全局语义特征向量、局部特征向量和长度特征向量并生成段落特征向量,可以更好的表征出在合同中不同段落类型的区别,有利于目标模型的训练。
在一种具体的实施方式下,由于本方案的目标是在于对段落的标签进行标注,因此,为在对每个合同段落进行清洗时,还可以采用同一字符串替换合同段落中的实体名称,所述实体名称包括人名、地名或者组织名,从而将出现的实体替换为一个统一标记,例如,将所有的实体名称均用“NN”代替,又例如,将人名都替换为“NR”,将地名都替换为“NS”,将组织名都替换为“NT”等等。这样做的目的是消除模型对段落中实体名的学习,避免过拟合情况,使模型更倾向于学习段落语义结构,实现更好的标注效果。
在一种实施方式下,对训练样本集合进行训练时,还可以首先根据段落特征向量序列生成一个中间答案标记序列;然后从所述中间答案标记序列中去除不符合预设语义规则的标记,生成预测答案标记序列;根据所述预测答案标记序列和真实答案标记序列的差异,确定预测模型损失函数的损失值,以进行模型训练。
例如,基于实际经验可以知道,在一份真实的合同中,条款内容一般不会出现在一级标题之后,即在真实结构标签序列中,(<title_1>)后面一般不会出现(<term>)。因此,可以在预测答案的过程中考虑进去这一点,在模型训练中加入约束算法,使得模型可以学习和文本内容相关的语义规则,使得预测结构标签序列更符合实际应用场景,加速模型的训练,提高预测的准确度。在实际应用中即可以采用在模型训练中加入一层条件随机场算法(Conditional RandomField,CRF)进行条件约束,如图3中所示。
第二方面,在训练得到可用的目标合同段落标注模型以后,本说明书实施例还提供一种合同段落标注方法,如图4所示,图4是本说明书实施例提供的一种合同段落标注方法的流程示意图,该流程具体包括如下步骤包括:
S401,获取合同文本内容,所述合同文本内容包括多个合同段落;
S403,确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
S405,以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
与第一方面对应的,本说明书实施例还提供一种合同段落标注模型的训练装置,如图5所示,图5是本说明书实施例提供的一种合同段落标注模型的训练装置的结构示意图,包括:
获取模块501,获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明;
确定模块503,针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量;
训练模块505,以所述段落特征向量序列作为训练样本的特征值,以所述真实结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型;
其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以预测结构标签序列作为输出值,所述预测结构标签序列中的结构标签按顺序对应于各合同段落。
进一步地,所述确定模块503,选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量。
进一步地,所述装置还包括数据清洗模块507,采用同一字符串替换合同段落中的实体名称,所述实体名称包括人名、地名或者组织名。
进一步地,所述确定模块503,将所述局部字符特征矩阵进行矩阵重排列,生成局部特征向量;拼接所述全局语义特征向量、局部特征向量和长度特征向量,生成一维的段落特征向量。
与第二方面对应的,本说明书实施例还提供一种基于上述合同段落标注模型的合同段落标注装置,如图6所示,图6是本说明书实施例提供的一种合同段落标注装置的结构示意图,包括:
获取模块601,获取合同文本内容,所述合同文本内容包括多个合同段落;
确定模块603,确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
标注模块605,以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;
其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图2或者图4所示的方法。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
与第一方面对应的,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2所示的合同段落标注模型的训练方法。
与第二方面对应的,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图4所示的合同段落标注方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (9)

1.一种合同段落标注模型的训练方法,包括:
获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明;
针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量;
其中,确定各合同段落的段落特征向量,包括:
选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;
从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;
根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量;
以所述段落特征向量序列作为训练样本的特征值,以所述真实结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型;
其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以预测结构标签序列作为输出值,所述预测结构标签序列中的结构标签按顺序对应于各合同段落。
2.如权利要求1所述的方法,在针对任一训练样本,确定各合同段落的段落特征向量之前,还包括:
采用同一字符串替换合同段落中的实体名称,所述实体名称包括人名、地名或者组织名。
3.如权利要求1所述的方法,根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量,包括:
将所述局部字符组合特征矩阵进行矩阵重排列,生成局部特征向量;
拼接所述全局语义特征向量、局部特征向量和长度特征向量,生成一维的段落特征向量。
4.一种基于权利要求1至3任一项所述的合同段落标注模型的合同段落标注方法,包括:
获取合同文本内容,所述合同文本内容包括多个合同段落;
确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
所述确定各合同段落的段落特征向量,包括:
选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;
从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;
根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量;
以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;
其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
5.一种合同段落标注模型的训练装置,包括:
获取模块,获取训练样本集合,每一训练样本中包括由同一合同拆分得到的多个具有结构标签的合同段落,和,按照合同段落顺序组合得到的真实结构标签序列,其中,所述结构标签包括标题、条款内容和合同声明内容,所述合同声明内容包括对条款内容的使用声明和对标题的解释声明;
确定模块,针对任一训练样本,确定该训练样本中各合同段落的段落特征向量,并按合同段落顺序组合得到段落特征向量序列,其中,所述段落特征向量序列和真实结构标签序列所包含的元素数量等同于合同段落数量;
其中,所述确定模块,选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量;
训练模块,以所述段落特征向量序列作为训练样本的特征值,以所述真实结构标签序列作为训练样本的标签,采用有监督学习训练得到目标标注模型;
其中,所述目标标注模型以合同的段落特征向量序列作为输入值,以预测结构标签序列作为输出值,所述预测结构标签序列中的结构标签按顺序对应于各合同段落。
6.如权利要求5所述的装置,还包括数据清洗模块,采用同一字符串替换合同段落中的实体名称,所述实体名称包括人名、地名或者组织名。
7.如权利要求5所述的装置,所述确定模块,将所述局部字符组合特征矩阵进行矩阵重排列,生成局部特征向量;拼接所述全局语义特征向量、局部特征向量和长度特征向量,生成一维的段落特征向量。
8.一种基于权利要求5至7任一项所述的合同段落标注模型的合同段落标注装置,包括:
获取模块,获取合同文本内容,所述合同文本内容包括多个合同段落;
确定模块,确定各合同段落的段落特征向量,按顺序组合生成段落特征向量序列;
其中,所述确定模块,选取任一合同段落,确定该合同段落中每个字符的字符表征向量,按被选取的合同段落中的字符顺序,拼接字符表征向量得到被选取的合同段落的特征表征矩阵;从所述特征表征矩阵提取出全局语义特征向量和局部字符组合特征矩阵,以及,确定被选取的合同段落的长度特征向量;根据所述全局语义特征向量、局部字符组合特征矩阵和长度特征向量生成被选取的合同段落的段落特征向量;
标注模块,以所述段落特征向量序列作为所述合同段落标注模型的输入值,以使得所述合同段落标注模型输出对于所述合同文本内容的预测结构标签序列,并按照合同段落的顺序确定各合同段落的预测结构标签;
其中,所述段落特征向量序列和预测结构标签序列所包含的元素数量等同于合同段落数量,所述结构标签包括标题、条款内容和合同声明内容。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。
CN201811590119.3A 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备 Active CN110046637B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310914529.3A CN116702723A (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备
CN201811590119.3A CN110046637B (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811590119.3A CN110046637B (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310914529.3A Division CN116702723A (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110046637A CN110046637A (zh) 2019-07-23
CN110046637B true CN110046637B (zh) 2023-08-08

Family

ID=67274019

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310914529.3A Pending CN116702723A (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备
CN201811590119.3A Active CN110046637B (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310914529.3A Pending CN116702723A (zh) 2018-12-25 2018-12-25 一种合同段落标注模型的训练方法、装置及设备

Country Status (1)

Country Link
CN (2) CN116702723A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443291B (zh) * 2019-07-24 2023-04-14 创新先进技术有限公司 一种模型训练方法、装置及设备
CN110674254B (zh) * 2019-09-24 2023-03-10 中电鸿信信息科技有限公司 基于深度学习和统计提取模型的智能合同信息提取方法
CN110688411A (zh) * 2019-09-25 2020-01-14 北京地平线机器人技术研发有限公司 一种文本识别方法及装置
CN111259623A (zh) * 2020-01-09 2020-06-09 江苏联著实业股份有限公司 一种基于深度学习的pdf文档段落自动提取系统及装置
CN112001183B (zh) * 2020-07-26 2021-11-19 湖南省侍禾教育科技有限公司 一种基于段落语义的中小学试题分割提取方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN108763368A (zh) * 2018-05-17 2018-11-06 爱因互动科技发展(北京)有限公司 抽取新知识点的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060210171A1 (en) * 2005-03-16 2006-09-21 Kabushiki Kaisha Toshiba Image processing apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN108763368A (zh) * 2018-05-17 2018-11-06 爱因互动科技发展(北京)有限公司 抽取新知识点的方法

Also Published As

Publication number Publication date
CN116702723A (zh) 2023-09-05
CN110046637A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046637B (zh) 一种合同段落标注模型的训练方法、装置及设备
US20210406465A1 (en) Stylistic Text Rewriting for a Target Author
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111274815A (zh) 用于挖掘文本中的实体关注点的方法和装置
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
US20150169676A1 (en) Generating a Table of Contents for Unformatted Text
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN111046659B (zh) 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
KR20210090576A (ko) 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
US11790953B2 (en) Smart summarization, indexing, and post-processing for recorded document presentation
CN111611797A (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
WO2022116827A1 (en) Automatic delineation and extraction of tabular data in portable document format using graph neural networks
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN111104520B (zh) 一种基于人物身份的人物实体链接方法
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN117236340A (zh) 问答方法、装置、设备和介质
CN111602129B (zh) 针对注释和墨迹的智能搜索
CN111898762B (zh) 深度学习模型目录创建
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN111222321B (zh) 一种标点符号的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant