CN110765188A - 合同相对方信息的结构化方法及装置 - Google Patents

合同相对方信息的结构化方法及装置 Download PDF

Info

Publication number
CN110765188A
CN110765188A CN201910838971.6A CN201910838971A CN110765188A CN 110765188 A CN110765188 A CN 110765188A CN 201910838971 A CN201910838971 A CN 201910838971A CN 110765188 A CN110765188 A CN 110765188A
Authority
CN
China
Prior art keywords
attribute information
situation
target
contract text
content block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910838971.6A
Other languages
English (en)
Inventor
任宁
晋耀红
李德彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Dingfu (beijing) Science And Technology Development Co Ltd
Original Assignee
Zhongke Dingfu (beijing) Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Dingfu (beijing) Science And Technology Development Co Ltd filed Critical Zhongke Dingfu (beijing) Science And Technology Development Co Ltd
Priority to CN201910838971.6A priority Critical patent/CN110765188A/zh
Publication of CN110765188A publication Critical patent/CN110765188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了合同相对方信息的结构化方法及装置,首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。

Description

合同相对方信息的结构化方法及装置
技术领域
本申请涉及自然语言处理领域,尤其涉及一种合同相对方信息的结构化方法及装置。
背景技术
合同,又称为契约、协议,是平等的当事人之间设立、变更、终止民事权利义务关系的协议。在合同文本中,当事人又称为相对方或相对方主体,例如,甲方、乙方等。一份合同文本至少包括两个相对方主体,即甲方和乙方,有时则包括多个相对方,如甲方、乙方、丙方、丁方等。
由于合同与公民个人的生活、社会经济的运行息息相关,例如公民购房需要签订购房合同、企业之间经济往来需要签订买卖合同等,尤其是对于企业来说,其在运行过程中将产生大量的合同,因此为了规避合同履行过程中的法律风险,随之产生了合同审核需求。
近年来,为了节约人力资源并提高合同审核的准确性,基于机器学习技术的机器辅助审核方式逐渐取代人工审核。其中,由于相对方主体的属性信息是广泛存在于不同类型的合同文本中的重要信息,因此对相对方主体的属性信息的审核,对完成一份完整合同文本的审核尤为重要。进而,如何实现合同文本中相对方信息的抽取及结构化处理,是机器辅助审核过程中亟待解决的问题。
发明内容
本申请提供一种合同相对方信息的结构化方法及装置,以解决如何实现合同文本中相对方信息的抽取及结构化处理的问题。
第一方面,本申请提供一种合同相对方信息的结构化方法,所述方法包括:
利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;
按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;
从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
第二方面,本申请还提供一种合同相对方信息的结构化处理装置,所述装置包括:
抽取模块,用于利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;
切分模块,用于按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;
归类模块,用于从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
由以上技术方案可知,本申请实施例提供的合同相对方信息的结构化方法及装置,首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请根据一示例性实施例示出的合同相对方信息的结构化方法流程图;
图2为本申请根据一示例性实施例示出的合同相对方信息的结构化方法的另一流程图;
图3为本申请根据一示例性实施例示出的合同相对方信息的结构化装置框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供一种合同相对方信息的结构化方法,用于实现合同中相对方信息的抽取及结构化处理,应用于合同的机器辅助审核方法中,使机器根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。其中,合同相对方信息即合同文本中所包括的相对方主体的属性信息。
实际上,合同可以具有不同的形式,包括书面形式、口头形式和其他形式,多为书面形式。本申请方法的处理对象,为书面形式的合同,即合同文本。合同文本作为载体,记载了合同的内容。
需要说明的是,在一些场景中,不乏将其他形式的合同转换成合同文本,再进行下一步处理的情况,对此,需要强调的是,经其他形式的合同转换得到的合同文本,也是本申请方法的应用对象。
图1为本申请合同相对方信息的结构化方法的流程图,如图1所示,该方法可以包括:
步骤101,利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。
合同文本可以以不同的版式来记载合同内容。在本实施例中,根据合同的常见版式,将各类合同文本划分成两种情形,分别为第一情形和第二情形。该两种情形的相同之处在于,均包括至少两个相对方主体,其不同之处在于,属于第一情形的合同文本中,不同相对方主体的属性信息同行,而属于第二情形的合同文本中,每个相对方主体的至少一条属性信息单独成行。
示例性地,以下“发明专利转让合同”属于第一情形。
发明专利转让合同
甲方(转让方):_________ 乙方(受让方):_________
职务:_________ 职务:_________
地址:____市____路___号 地址:___市____路____号
代理人:_________ 代理人:_________
鉴于转让方合法拥有一项非职务发明创造……
双方认为,……经双方友好协商,就下述内容达成协议:
转让方将_________发明专利申请权有偿转让给受让方。
……
转让方:_________(签章) 受让方:_________(签章)
_________年____月____日 _________年____月____日
上述“发明专利转让合同”文本中,甲方(转让方):___、职务:___、地址:____市____路___号、代理人:____等,属于甲方的属性信息,同理,乙方的属性信息也包括乙方(受让方):___、职务:___、地址:____市____路___号、代理人:____等。从该“发明专利转让合同”文本中,可以看出,分别属于不同相对方主体的属性信息位于同一行中。
示例性地,以下“劳动合同”和“物业管理合同”属于第二情形。
劳动合同
甲方(名称):_____________________
法定代表人或委托代理人:___________
注册地址:_________________________
通讯地址:_________________________
邮政编码:_________________________
乙方(姓名):_____________________
性别:_____________________________
居民身份证号码:___________________
出生日期:_________________________
家庭住址:_________________________
邮政编码:_________________________
户口所在地:_______________________
通讯地址:_________________________
邮政编码:_________________________
电话:_____________________________
鉴于乙方……,甲乙双方经平等协商一致,自愿签订本劳务协议,共同遵守本协议所列条款。
第一条本协议期限为________年。
……
第十六条本合同一式两份,甲乙双方各执一份。
甲方:(公章)_______________
日期:_______年_____月_____日
乙方:(签章)_______________
日期:_______年_____月_____日
乙方家属意见:_______________
签字:_______________________
与乙方关系:_________________
身份证号码:_________________
从以上“劳动合同”可以看出,一个相对方(甲方或者乙方)的每一条属性信息均单独成行,例如,甲方(名称):____单独成行。
物业管理合同
甲方(委托方):____地址:____邮码:___电话:________
法定代表人:_____职务:___
乙方(受委托方):____地址:____邮码:____电话:________
法定代表人:______职务:___
为加强……经双方友好协商,达成如下协议。
……
甲方:____
代表人:____
____年____月____日
乙方:____
代表人:____
____年____月____日
从以上“物业管理合同”可以看出,一个相对方(甲方或者乙方)的多条属性信息同行,例如,甲方的属性信息甲方(委托方):____地址:____邮码:___电话:_____同行。
在一种可能的实现方式中,目录树以目录节点的形式,对各类合同文本中的各种关键信息进行概括,其中,多个目录节点顺序地列出合同文本中可能会出现的关键信息的主题,例如,相对方信息(相对方主体的属性信息)即为合同文本中的一种关键信息的主题,此外,还包括诸如甲方权利与义务信息、乙方权利与义务信息等主题。
示例性地,一种目录树部分结构如下:
……
合同审核信息抽取
相对方信息抽取-----------<抽取表达式>
甲方权利与义务信息抽取--<抽取表达式>
乙方权利与义务信息抽取--<抽取表达式>
……
可以看出,每个目录节点包括至少一个抽取表达式,用于从合同文本中抽取该节点对应的段落。抽取表达式预先定义在目录树中,表达式中包括抽取前界、抽取前界与抽取内容之间的距离、抽取后界,以及抽取后界与与抽取内容之间的距离。
示例性地,一种抽取表达式结构如下:
c_甲方{0,0}@.*@{0,0}c_乙方
该抽取表达式的作用是,抽取前界“甲方”之后的0个距离与后界“乙方”之前的0个距离之间的任意字符。
另外,为了实现更多功能,上述目录树中,每个目录节点还可以包括子节点,每个子节点对应至少一个抽取表达式,用于从合同文本中抽取该节点对应的段落。由于不同子节点对应的抽取表达式会不同,因此,可以同于定义每个子节点的抽取表达式,实现针对不同的情形的合同文本进行处理。
基于上述目录树,另一示例性目录树结构如下:
……
合同审核信息抽取
相对方信息抽取-----------<抽取表达式>
多相对方信息--------<抽取表达式>
相对方同行-----------<抽取表达式>
多属性同行-----------<抽取表达式>
甲方权利与义务信息抽取--<抽取表达式>
甲方权利--------------<抽取表达式>
甲方义务--------------<抽取表达式>
乙方权利与义务信息抽取--<抽取表达式>
乙方权利--------------<抽取表达式>
乙方义务--------------<抽取表达式>
……
作为一种可能的实现方式,“多相对方信息”这一子节点可以针对包括两个以上相对方主体的合同文本进行处理,“相对方同行”这一子节点可以针对属于第一情形的合同文本进行处理,等等。
需要说明的是,本申请中,目录树不局限于上述示例中示出的结构,目录树的结构可以根据用户的合同文本中相对方信息的处理需求做出改变。
在上述步骤101中,将合同文本的内容按行输入到目录树中,可以抽取出至少一个内容区块。每个内容区块包括至少一行文本内容,当其包含多行文本内容时,所包含的多行文本内容是连续的,或者说是相邻的。
具体实现时,可以首先获取合同文本所属的情形,然后再根据合同文本所属的情形,从目录树中选择相应的目录节点或子节点,以利用所选择的节点的抽取表达式,抽取出包括相对方信息的内容区块。
示例性地,以上述“发明专利转让合同”为例,由于该合同文本属于第一情形,即其不同相对方主体(甲方和乙方)的属性信息同行,因此,可以选择上述示例性目录树中的“相对方同行”这一节点对该合同文本进行处理。抽取结果如下:
甲方(转让方):_________ 乙方(受让方):_________
职务:_________ 职务:_________
地址:____市____路___号 地址:___市____路____号
代理人:_________ 代理人:_________
---------------------------------------------------------------------
转让方:_________(签章) 受让方__________(签章)
_________年____月____日 _________年____月____日
可以看出,该抽取结果包括两个内容区块,实际上,这两个内容区块分别为:在合同文本的首部段落罗列的相对方信息,和,在尾部段落罗列的相对方信息。该首部和尾部对应的内容区块中,分别包括连续的多行内容,但首部对应的内容区块的最后一行与尾部对应的内容区块的第一行不相邻。
另一示例性地,以上述“劳动合同”为例,由于该合同文本属于第二情形,并且,其中,每个相对方主体的仅一条属性信息单独成行,因此,可以选择上述示例性目录树中的“相对方信息抽取”这一目录节点对合同文本进行处理。
抽取结果如下:
甲方(名称):_______________________
法定代表人或委托代理人:___________
注册地址:_________________________
通讯地址:_________________________
邮政编码:_________________________
乙方(姓名):_______________________
性别:_____________________________
居民身份证号码:___________________
出生日期:_________________________
家庭住址:_________________________
邮政编码:_________________________
户口所在地:_______________________
通讯地址:_________________________
邮政编码:_________________________
电话:_____________________________
---------------------------------------------------------------------
甲方:(公章)_______________
日期:_______年_____月_____日
乙方:(签章)_______________
日期:_______年_____月_____日
乙方家属意见:_______________
签字:_______________________
与乙方关系:_________________
身份证号码:_________________
可以看出,该抽取结果包括两个内容区块,由于与上述“发明专利转让合同”的抽取结果类似,此处不再赘述。
以上两个示例,仅仅是本申请方法根据合同文本所属的情形,选择从目录树中选择相应的目录节点或子节点,以利用所选择的节点的抽取表达式,抽取出包括相对方信息的内容区块的示例性说明。
当然,随着用户的处理需求的改变,以及目录树结构的改变,本申请方法还可以有更多示例。例如,如果某份合同文本中包含四个相对方主体,则除了可以使用上述“相对方信息”这一目录节点外,还可以选择使用诸如“多相对方”节点的其他节点,以方便在后续步骤中根据相对方主体的数量,对抽取出的相对方信息进行结构化处理。例如,使用“多相对方”或“识别三相对方”、“识别四相对方”、“识别五相对方”中的一个或多个节点对合同文本(同时)进行处理,如果其中“识别三相对方”具有抽取结果,则说明该合同文本中至少存在三个相对方主体,如果其中“识别四相对方”具有抽取结果,则说明该合同文本中至少存在四个相对方主体,当多个目录树节点均具有抽取结果时,则以相对方数量较多的结果为准。
步骤102,按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应。
对内容区块进行切分,即分行处理,目的是使得到的每一目标行仅包含一条属性信息。在步骤102中,如果一个内容区块中,一行内容仅对应一条属性信息,则切分后的行与切分前的行,在所包含内容上,并无不同。如果一个内容区块中,一行内容对应多条属性信息,则经切分,原本的一行内容会形成多个目标行。
基于此,步骤102在具体实现时,对于每个内容区块,可以首先利用预设目录树识别内容区块中包含一条以上属性信息的行。
具体的,在一种可能的方式中,可以利用相应的目录节点,对整份合同文本进行处理,以从中抽取出包含一条以上属性信息的行,再结合已抽取出的内容区块,即可得到该内容区块中包含一条以上属性信息的行。
需要说明的是,由于多属性同行的情形,不但包括同一个相对方主体的不同属性信息同行的情形,如上述属于第二情形的“物业管理合同”,还包括不同相对方主体的属性信息同行的情形,如上述属于第一情形的“发明专利转让合同”。因此,如果合同文本所属的情形为第二情形,则利用预设目录树识别所述内容区块中包含一条以上属性信息的行;如果合同文本所属的情形为第一情形,由于其对应的内容区块的每一行必然会包括至少两条属性信息,因此,无需再次识别。
以上述“物业管理合同”为例,由于该合同属于第二情形,因此根据步骤101,一方面,可以选择“相对方信息”这一目录节点,从中抽取出至少一个内容区块,抽取结果如下:
甲方(委托方):____地址:____邮码:___电话:________
法定代表人:_____职务:___
乙方(受委托方):____________物业管理公司
地址:________________邮码:____________电话:________
法定代表人:________________职务:________
------------------------------------------------------------------
甲方:____
代表人:____
____年____月____日
乙方:____
代表人:____
____年____月____日
另一方面,为了识别出以上两个内容区块中包含一条以上相对方属性信息的行,需要同时利用目录树中相应的目录节点对该合同文本进行处理,例如使用上述示例目录树中的“多属性同行”这一子节点进行识别。识别结果如下:
甲方(委托方):____地址:____邮码:___电话:________
法定代表人:_____职务:___
乙方(受委托方):______地址:________邮码:________电话:________
法定代表人:_______职务:________
--------------------------------------------------------------------
Figure BDA0002193089410000092
Figure BDA0002193089410000093
Figure BDA0002193089410000094
Figure BDA0002193089410000095
Figure BDA0002193089410000096
上述示例性展示的识别结果中,未划线的行中包括一条以上的属性信息,并且,同一个相对方主体的不同属性信息同行。
另一示例性地,对上述“发明专利转让合同”对应的内容区块进行识别,识别到的包括一条以上属性信息的行,如下:
甲方(转让方):_________ 乙方(受让方):_________
职务:_________ 职务:_________
地址:____市____路___号 地址:___市____路____号
代理人:_________ 代理人:_________
--------------------------------------------------------------------
转让方:_________(签章) 受让方:_________(签章)
_________年____月____日 _________年____月____日
可见,对于该两个内容区块,每个内容区块中的每一行,均包括两条属性信息,这两条属性信息分别属于甲方和乙方。
步骤102在具体实现时,识别出每个内容区块中包含一条以上属性信息的行之后,对于包含一条以上属性信息的行,在每一条属性信息的首部(或者尾部)设置切分点,而对于仅包含一条以上属性信息的行,在所述行的首部(或者尾部)设置切分点;最后,按照设置的切分点,将所述内容区块切分成若干目标行。
需要说明的是,可以通过在切分点处插入间隔符,来间隔相邻的属性信息,从而达到将内容区块切分成目标行的目的,也就是说,设置切分点即是先行确定间隔符的插入位置。切分得到的每一目标行则仅包括一条属性信息。
示例性地,按照属性信息,分别对“物业管理合同”对应的两个内容区块进行切分,得到若干目标行,结果如下:
甲方(委托方):____\n
地址:____\n
邮码:___\n
电话:________\n
法定代表人:_____\n
职务:___\n
乙方(受委托方):_______\n
地址:________\n
邮码:________\n
电话:________\n
法定代表人:________\n
职务:________\n
---------------------------------------------------------------------
甲方:____\n
代表人:____\n
____年____月____日\n
乙方:____\n
代表人:____\n
____年____月____日\n
另一示例性地,按照属性信息,分别对“发明专利转让合同”对应的两个内容区块进行切分,得到若干目标行,结果如下:
甲方(转让方):______\n
乙方(受让方):______\n
职务:_______\n
职务:_______\n
地址:____市____路___号\n
地址:___市____路____号\n
代理人:_______\n
代理人:_______\n
---------------------------------------------------------------------
转让方:_________(签章)\n
受让方:_________(签章)\n
_________年____月____日\n
_________年____月____日\n
上述示例中,\n即为间隔符。
步骤103,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
由上述实施例可知,将包含相对方属性信息的内容区块切分成若干目标行后,每一条属性信息单独存在于一个目标行中,因此从切分得到的目标行中,可以分别提取出每个相对方主体的属性信息。
具体实现时,首先按照属性信息在合同文本中的位置顺序,对目标行进行排序;然后,根据如果合同文本所属的情形获取相应的提取规则:如果合同文本所属的情形为第一情形,则获取第一情形预设的第一提取规则;使用第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;如果合同文本所属的情形为第二情形,则获取第二情形预设的第二提取规则;使用第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
需要说明的是,第一提取规则为第一情形的合同文本预设的提取规则,用于从此类合同文本经处理得到的若干目标行中,提取出每个相对方主体的属性信息。第一提取规则中包括每个相对方主体的属性信息在合同文本中的位置规律。例如,由于在第一情形中,不同相对方主体的属性信息同行,因此各个相对方主体的第一条属性信息顺序地记载在内容区块的第一行中,各个相对方主体的第二条属性信息则顺序地记载在内容区块的第二行中,各个相对方主体的第三条属性信息则顺序地记载在内容区块的第三行中,以此类推……,当目标行的排列顺序与其在合同文本中的位置顺序一致的情况下,即可根据第一提取规则,分别提取出每个相对方主体的属性信息。
示例性地,将上述“发明专利转让合同”对应的若干目标行按照其在合同文本中的位置顺序进行排序,得到:
甲方(转让方):______\n
乙方(受让方):______\n
职务:_______\n
职务:_______\n
地址:____市____路___号\n
地址:___市____路____号\n
代理人:_______\n
代理人:_______\n
---------------------------------------------------------------------
转让方:_________(签章)\n
受让方:_________(签章)\n
_________年____月____日\n
_________年____月____日\n
根据第一提取规则,将上述若干目标行中位置序号为奇数的目标行提取出来,则可以得到甲方的属性信息,剩余的目标行则为乙方的属性信息,分别如下:
甲方(转让方):______\n
职务:_______\n
地址:____市____路___号\n
代理人:_______\n
---------------------------------------------------------------------
乙方(受让方):______\n
职务:_______\n
地址:____市____路___号\n
代理人:_______\n
---------------------------------------------------------------------
转让方:_________(签章)\n
_________年____月____日\n
---------------------------------------------------------------------
受让方:_________(签章)\n
_________年____月____日\n
与上述第一提取规则类似,第二提取规则为第二情形的合同文本预设的提取规则,用于从此类合同文本经处理得到的若干目标行中,提取出每个相对方主体的属性信息。第二提取规则中包括相对方主体的属性信息在合同文本中的位置规律。例如,由于在第二情形的合同文本中,甲方的属性信息先于乙方的属性信息出现,如果存在丙方,则乙方的属性信息会先于丙方的属性信息出现……而当目标行的排列顺序与其在合同文本中的位置顺序一致的情况下,即可根据第二提取规则,分别提取出每个相对方主体的属性信息。
示例性地,将上述“物业管理合同”对应的若干目标行按照其在合同文本中的位置顺序排序得到:
甲方(委托方):____\n
地址:____\n
邮码:___\n
电话:________\n
法定代表人:_____\n
职务:___\n
乙方(受委托方):_______\n
地址:________\n
邮码:________\n
电话:________\n
法定代表人:________\n
职务:________\n
---------------------------------------------------------------------
甲方:____\n
代表人:____\n
____年____月____日\n
乙方:____\n
代表人:____\n
____年____月____日\n
根据第二提取规则,将位于字符“甲方”的前一个字符与字符“乙方”之间的目标行抽取出来,即可得到甲方的属性信息,剩余的目标行则为乙方的属性信息,分别如下:
甲方(委托方):____\n
地址:____\n
邮码:___\n
电话:________\n
法定代表人:_____\n
职务:___\n
---------------------------------------------------------------------
乙方(受委托方):_______\n
地址:________\n
邮码:________\n
电话:________\n
法定代表人:________\n
职务:________\n
---------------------------------------------------------------------
甲方:____\n
代表人:____\n
____年____月____日\n
---------------------------------------------------------------------
乙方:____\n
代表人:____\n
____年____月____日\n
还需说明的是,在步骤103具体实现时,可以将由同一个内容区块切分得到的目标行放入到保存到同一个字符串中,以便针对不同的内容区别分别处理。
由以上实施例可知,本申请提供一种合同相对方信息的结构化方法,包括:利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
该方法首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。
图2为本申请合同相对方信息的结构化方法的另一实施例流程图,该实施例为基于图1所示的实施例的细化实施例。如图2所示,一种合同相对方信息的结构化方法,可以包括:
步骤201,获取所述合同文本所属的情形。
其中,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行。
步骤202,如果合同文本所属的情形为第一情形,则选择第一目录节点从所述合同文本中抽取至少一个所述内容区块。
步骤203,如果合同文本所属的情形为第二情形,则选择第二目录节点从所述合同文本中抽取至少一个所述内容区块。
其中,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。每个目录节点包括至少一个抽取表达式,第一目录节点的抽取表达式与第二目录节点的抽取表达式不同。
在步骤203之后,执行步骤204,利用预设目录树识别所述内容区块中包含一条以上属性信息的行。
在步骤202和步骤204之后,执行步骤205,在每一条属性信息的首部或者尾部设置切分点,按照设置的所述切分点,将所述内容区块切分成若干目标行,以使每一目标行仅包含一条属性信息。
其中,对于仅包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点。
步骤206,按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序。
如果所述合同文本所属的情形为第一情形,则在步骤206后执行步骤207,则获取所述第一情形预设的第一提取规则。
步骤208,使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
如果所述合同文本所属的情形为第二情形,则在步骤206后执行步骤209,获取所述第二情形预设的第二提取规则。
步骤210,使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
本实施例中,首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。
根据本申请实施例提供的合同相对方信息的结构化方法,本申请实施例还提供一种合同相对方信息的结构化装置。图3为本申请示例性示出的装置框图,如图3所示,该装置可以包括:
抽取模块301,用于利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。
切分模块302,用于按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应。
归类模块303,用于从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
在一个实施例中,抽取模块301,包括:获取单元,用于获取所述合同文本所属的情形,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行;选择单元,用于根据所述合同文本所属的情形,选择用于从合同文本中抽取所述内容区块的目录节点,所述目录节点包括至少一个抽取表达式;抽取单元,用于利用选择的目录节点从所述合同文本中抽取至少一个所述内容区块。
在一个实施例中,所述切分模块302,包括:识别单元,用于如果所述合同文本所属的情形为第二情形,利用预设目录树识别所述内容区块中包含一条以上属性信息的行。切分单元,用于对于识别出的包含一条以上属性信息的行,在每一条属性信息的首部或者尾部设置切分点;对于识别出的未包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点;按照设置的所述切分点,将所述内容区块切分成若干目标行。
在一个实施例中,所述归类模块303,包括:排序单元,用于按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序;获取单元,用于如果所述合同文本所属的情形为第一情形,则获取所述第一情形预设的第一提取规则;如果所述合同文本所属的情形为第二情形,则获取所述第二情形预设的第二提取规则;提取单元,用于使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;或者,使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的呼叫方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种合同相对方信息的结构化方法,其特征在于,所述方法包括:
利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;
按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;
从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
2.根据权利要求1所述的方法,其特征在于,所述利用预设目录树从合同文本中抽取至少一个内容区块,包括:
获取所述合同文本所属的情形,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行;
根据所述合同文本所属的情形,选择用于从合同文本中抽取所述内容区块的目录节点,所述目录节点包括至少一个抽取表达式;
利用选择的目录节点从所述合同文本中抽取至少一个所述内容区块。
3.根据权利要求2所述的方法,其特征在于,所述按照属性信息,将所述内容区块切分成若干目标行,包括:
利用预设目录树识别所述内容区块中包含一条以上属性信息的行;
对于识别出的包含一条以上属性信息的行,在每一条属性信息的首部或者尾部设置切分点;
对于识别出的未包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点;
按照设置的所述切分点,将所述内容区块切分成若干目标行。
4.根据权利要求3所述的方法,其特征在于,所述利用预设目录树识别所述内容区块中包含一条以上属性信息的行,包括:
如果所述合同文本所属的情形为第二情形,则利用预设目录树识别所述内容区块中包含一条以上属性信息的行。
5.根据权利要求2所述的方法,其特征在于,所述从若干目标行中分别提取出每个相对方主体的属性信息,包括:
按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序;
如果所述合同文本所属的情形为第一情形,则获取所述第一情形预设的第一提取规则;
使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;
如果所述合同文本所属的情形为第二情形,则获取所述第二情形预设的第二提取规则;
使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
6.一种合同相对方信息的结构化处理装置,其特征在于,所述装置包括:
抽取模块,用于利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;
切分模块,用于按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;
归类模块,用于从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。
7.根据权利要求6所述的装置,其特征在于,所述抽取模块,包括:
获取单元,用于获取所述合同文本所属的情形,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行;
选择单元,用于根据所述合同文本所属的情形,选择用于从合同文本中抽取所述内容区块的目录节点,所述目录节点包括至少一个抽取表达式;
抽取单元,用于利用选择的目录节点从所述合同文本中抽取至少一个所述内容区块。
8.根据权利要求7所述的装置,其特征在于,所述切分模块,包括:
识别单元,用于利用预设目录树识别所述内容区块中包含一条以上属性信息的行;
切分单元,用于对于识别出的包含一条以上属性信息的行,在每一条属性信息的首部或者尾部设置切分点;对于识别出的未包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点;按照设置的所述切分点,将所述内容区块切分成若干目标行。
9.根据权利要求8所述的装置,其特征在于,所述识别单元,具体用于:
如果所述合同文本所属的情形为第二情形,则利用预设目录树识别所述内容区块中包含一条以上属性信息的行。
10.根据权利要求7所述的装置,其特征在于,所述归类模块,包括:
排序单元,用于按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序;
获取单元,用于如果所述合同文本所属的情形为第一情形,则获取所述第一情形预设的第一提取规则;如果所述合同文本所属的情形为第二情形,则获取所述第二情形预设的第二提取规则;
提取单元,用于使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;或者,使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。
CN201910838971.6A 2019-09-05 2019-09-05 合同相对方信息的结构化方法及装置 Pending CN110765188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910838971.6A CN110765188A (zh) 2019-09-05 2019-09-05 合同相对方信息的结构化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910838971.6A CN110765188A (zh) 2019-09-05 2019-09-05 合同相对方信息的结构化方法及装置

Publications (1)

Publication Number Publication Date
CN110765188A true CN110765188A (zh) 2020-02-07

Family

ID=69330429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910838971.6A Pending CN110765188A (zh) 2019-09-05 2019-09-05 合同相对方信息的结构化方法及装置

Country Status (1)

Country Link
CN (1) CN110765188A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283766A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 合同管理方法、装置、电子设备及存储介质
CN113609837A (zh) * 2021-04-19 2021-11-05 鼎富智能科技有限公司 一种笔录信息的提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156817A1 (en) * 2001-02-22 2002-10-24 Volantia, Inc. System and method for extracting information
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN107679038A (zh) * 2017-10-16 2018-02-09 北京神州泰岳软件股份有限公司 一种文本段落的抽取方法及装置
CN109033249A (zh) * 2018-07-05 2018-12-18 北京神州泰岳软件股份有限公司 公检法领域结构化文书的信息提取方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156817A1 (en) * 2001-02-22 2002-10-24 Volantia, Inc. System and method for extracting information
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN107679038A (zh) * 2017-10-16 2018-02-09 北京神州泰岳软件股份有限公司 一种文本段落的抽取方法及装置
CN109033249A (zh) * 2018-07-05 2018-12-18 北京神州泰岳软件股份有限公司 公检法领域结构化文书的信息提取方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江苏省教育委员会: "《语文教程 下》", 31 August 1996 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609837A (zh) * 2021-04-19 2021-11-05 鼎富智能科技有限公司 一种笔录信息的提取方法及装置
CN113283766A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 合同管理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Hoenigswald et al. Biological metaphor and cladistic classification: An interdisciplinary perspective
CN106681739A (zh) 一种智能合约的自动化生成方法
CN108009137B (zh) 一种基于配置文件的规范文书处理方法、装置及系统
CN111310446A (zh) 裁判文书的信息抽取方法及装置
CN105630938A (zh) 一种智能问答系统
CN110134842B (zh) 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN109918375B (zh) 一种基于区块链和分布式存储的大文本存储、索引及检索方法
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN110765188A (zh) 合同相对方信息的结构化方法及装置
CN110851576A (zh) 问答处理方法、装置、设备及可读介质
CN111160345A (zh) 一种企业合同智能生成系统及方法
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN107665442A (zh) 获取目标用户的方法及装置
CN108121693B (zh) 一种幻灯片美化方法及装置
CN110378795B (zh) 一种条款文件的生成方法、装置、存储介质和服务器
CN111931479A (zh) 基于合同纠纷判决书的信息抽取方法及装置
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN109657010B (zh) 文档处理方法、装置和存储介质
CN113609271A (zh) 基于知识图谱的业务处理方法、装置、设备及存储介质
CN112819622A (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN113688190A (zh) 一种客户关系的获取方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN108268436B (zh) 一种幻灯片美化匹配的方法及装置
Mounce et al. A machine-compiled microbial supertree from figure-mining thousands of papers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co.,Ltd.

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207

RJ01 Rejection of invention patent application after publication