CN113722421A - 一种合同审计方法和系统,及计算机可读存储介质 - Google Patents

一种合同审计方法和系统,及计算机可读存储介质 Download PDF

Info

Publication number
CN113722421A
CN113722421A CN202010450563.6A CN202010450563A CN113722421A CN 113722421 A CN113722421 A CN 113722421A CN 202010450563 A CN202010450563 A CN 202010450563A CN 113722421 A CN113722421 A CN 113722421A
Authority
CN
China
Prior art keywords
contract
data
rule
preset
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010450563.6A
Other languages
English (en)
Other versions
CN113722421B (zh
Inventor
王飞翔
郭宇晨
唐海庆
张国宏
张丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010450563.6A priority Critical patent/CN113722421B/zh
Publication of CN113722421A publication Critical patent/CN113722421A/zh
Application granted granted Critical
Publication of CN113722421B publication Critical patent/CN113722421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种合同审计方法和系统,及计算机可读存储介质,上述合同审计方法包括:采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑,从而在进行合同审计时能够大大减少误差,提高了合同审计的准确性。

Description

一种合同审计方法和系统,及计算机可读存储介质
技术领域
本发明涉及数据检测技术,尤其涉及一种合同审计方法和系统,及计算机可读存储介质。
背景技术
合同是记录公司主要经济事项的重要媒介,是众多审计领域的关键资料。其中,合同审计是指内部审计机构和人员对合同的签订、履行、变更、终止过程及合同管理进行独立客观的监督和评价活动。合同审计的核心是合同关键信息抽取和审计逻辑设计。目前,主要通过规则匹配的方案进行关键信息的抽取,同时,利用固定的审计逻辑进行审计结果的确定。
然而,规则匹配的抽取方法并没有学习能力,同时审计逻辑设计无法满足真实的审计需求,且缺乏错误反馈机制及模型自动更新机制。也就是说,待审计合同的类型和其中的关键信息是复杂多变的,在合同审计业务中仅仅依靠规则匹配的抽取方案和固定的审计逻辑在海量的合同中进行审计工作,得到的审计结果往往存在较大的误差,降低了合同审计的准确性。
发明内容
为解决上述技术问题,本发明期望提供一种合同审计方法和系统,及计算机可读存储介质,在进行合同审计时能够大大减少误差,提高了合同审计的准确性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种合同审计方法,所述方法包括:
采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;
基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;
根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;
根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
在上述方案中,所述按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据,包括:
解析所述合同文档数据,获得所述合同文档数据对应的目标文本数据;
根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据;
对所述筛选后数据进行标注处理,获得已标注语料和未标注语料;
将所述已标注语料确定为所述训练数据,将所述未标注语料确定为测试数据。
在上述方案中,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:
确定所述合同文档数据对应的合同类型;
根据所述合同类型和所述关键信息获取第一触发词集;
按照所述第一触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
由此可见,在本发明中,合同审计系统在确定训练数据和测试数据时,可以基于关键信息,对从合同文档数据中解析获得的目标文本数据进行筛选,从而可以有效地提高训练数据和测试数据的数据质量
在上述方案中,所述基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型,包括:
基于所述训练数据,根据所述机器学习法和/或所述深度学习法训练获得初始抽取模型;
利用所述测试数据对所述初始抽取模型进行测试处理,获得所述目标抽取模型。
在上述方案中,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:
根据所述合同类型和所述关键信息获取近义词库;
利用所述近义词库对所述关键信息进行替换处理,获得替换后的关键信息;
根据所述合同类型和所述替换后的关键信息获取第二触发词集;
按照所述第二触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
由此可见,在本发明中,合同审计系统还可以利用与合同类型和关键信息相对应的近义词库进行训练数据和测试数据的扩展和增强,从而可以大大减少后续标注处理的复杂程度。
在上述方案中,所述预设规则库包括:特殊格式匹配规则、正则表达规则以及筛选排序规则,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果,包括:
根据所述特殊格式匹配规则获取待审计合同对应的语句数据;
利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果;
基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果。
由此可见,在本发明中,合同审计系统可以结合预设规则库和目标抽取模型对语句数据进行目标抽取结果的获取,从而可以大大提高抽取获得的关键信息的准确程度。
在上述方案中,所述根据所述特殊格式匹配规则获取待审计合同对应的语句数据,包括:
解析所述待审计合同,获得所述待审计合同对应的待审计文本数据;
若所述待审计文本数据不满足所述特殊格式匹配规则,则直接按行处理所述待审计文本数据,获得所述语句数据;
若所述待审计文本数据满足所述特殊格式匹配规则,则利用预设特殊模板获取所述待审计文本数据对应的所述语句数据。
由此可见,在本发明中,为了能够更加准确的获取待审计合同中的语句数据,合同审计系统可以通过预设特殊模板对待审计文本数据中的特殊格式进行识别和处理,从而可以完成不同类型和格式的数据的解析,大大提高了语句数据的精确程度。
在上述方案中,所述利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果,包括:
分别按照所述正则表达规则、所述机器学习法以及所述深度学习法对所述语句数据进行抽取处理,获得抽取信息列表;
根据所述抽取信息列表获得所述初始抽取结果。
在上述方案中,所述筛选排序规则包括关键词权重设置规则、白样本库设置规则以及Drools字段候选规则,所述基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果,包括:
根据所述关键词权重设置规则、所述白样本库设置规则以及所述Drools字段候选规则中的至少一个规则,确定所述初始抽取结果对应的权重值;
根据所述权重值确定所述目标抽取结果。
在上述方案中,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果之后,所述方法还包括:
展示所述目标抽取结果;
接收所述目标抽取结果对应的反馈指示。
在上述方案中,所述反馈指示包括抽取正确和抽取错误,所述根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果之后,所述方法还包括:
若所述反馈指示为所述抽取正确,则按照预设展示模式展示所述审计结果;
若所述反馈指示为所述抽取错误,则根据所述反馈指示确定所述待审计合同对应的修正后结果。
由此可见,在本发明中,用户在前端标注后,合同审计系统可以采用错误结果自动更新训练语料,同时触发模型重新训练和模型测试测试的负反馈模型自动学习方法,增强合同审计系统自学习能力。
本发明提供了一种合同审计系统,所述合同审计系统包括:采集单元,获取单元,
所述采集单元,用于采集合同文档数据;
所述获取单元,用于按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;以及基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;以及根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;以及根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
本发明提供了一种合同审计系统,所述合同审计系统包括处理器、存储有所述处理器可执行指令的存储器、通信接口,和用于连接所述处理器、所述存储器以及所述通信接口的总线,当所述指令被所述处理器执行时,实现如上所述的合同审计方法。
本发明提供了一种计算机可读存储介质,其上存储有程序,应用于合同审计系统中,所述程序被处理器执行时,实现如上所述的合同审计方法。
本发明提出的一种合同审计方法和系统,及计算机可读存储介质,采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本发明中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
附图说明
图1为合同审计方法的实现流程示意图一;
图2为合同审计方法的实现流程示意图二;
图3为合同审计方法的实现流程示意图三;
图4为合同审计方法的实现流程示意图四;
图5为合同审计方法的实现流程示意图五;
图6为合同审计方法的实现流程示意图六;
图7为合同审计方法的实现流程示意图七;
图8为合同审计方法的实现模块示意图;
图9为合同审计系统进行合同审计的示意图;
图10为合同审计流程图;
图11为合同审计系统的组成结构示意图一;
图12为合同审计系统的组成结构示意图二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
目前,进行合同审计的过程中往往存在以下几种问题:
(1)、由于基于规则匹配的抽取方法没有学习能力,当合同类别较多、合同表述不同或抽取字段需要考虑上下文内容时,该方法无法完成信息抽取。
(2)、真实审计业务中,审计逻辑及关键信息字段的定义是复杂和多变的,固定且单一的字段定义及审计逻辑设计无法满足真实的审计需求。
(3)、当出现合同关键信息抽取错误后,由于缺乏错误反馈机制及模型自动更新机制,需要开发人员修改规则并重新进行规则测试,所需优化时间长,开发投入高。
为了解决上述问题,本申请实施例提出的一种合同审计方法,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。
具体地,在本发明中,合同审计系统采用深度学习加规则库技术,提高信息抽取泛化能力的同时保证准确性;采用同近义词的数据增强方法生成合同训练数据,减少人工标注工作量;采用基于drools规则引擎的关键字段及审计逻辑设计方法,将业务逻辑与代码逻辑相分离,支持用户自定义关键字段和审计逻辑;采用基于用户前端标注反馈的模型更新方法,用户在使用合同审计系统的同时,合同审计系统完成负反馈学习。
可以理解的是,在本发明中,正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
实施例一
本申请实施例提出了一种合同审计方法,图1为合同审计方法的实现流程示意图一,如图1所示,在本申请的实施例中,合同审计系统进行合同审计的方法可以包括以下步骤:
步骤101、采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据。
在本申请的实施例中,合同审计系统可以先采集合同文档数据,然后按照预设处理策略对合同文档数据进行预处理,从而可以获得训练数据和测试数据。其中,训练数据用于对目标抽取模型的训练,相应地,测试数据用于对目标抽取模型的校正和测试。
进一步地,在本申请的实施例中,合同审计系统在获取合同文档数据时,可以从合同管理系统中采集合同文档数据。示例性的,合同审计系统可以从企业的合同管理系统中采集获得合同文档数据。
需要说明的是,在本申请的实施例中,合同审计系统在采集合同文档数据的同时,还可以从合同管理系统中采集与合同文档数据相关的结构化数据。其中,与合同文档数据相关的结构化数据,在后续处理中可以用于对预设审计规则的设计。
进一步地,在本申请的实施例中,预设处理策略用于进行解析处理、筛选处理以及标注处理。也就是说,预设处理策略可以用于对合同文档数据进行不同方式的预处理。
可以理解的是,在本申请的实施例中,图2为合同审计方法的实现流程示意图二,如图2所示,合同审计系统按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据的方法可以包括以下步骤:
步骤201、解析合同文档数据,获得合同文档数据对应的目标文本数据。
在本申请的实施例中,合同审计系统在采集获得合同文档数据之后,可以先对合同文档数据进行解析处理,从而可以获得与合同文档数据对应的目标文本数据。
需要说明的是,在本申请的实施例中,合同审计系统获得的合同文档数据可以为pdf,doc,docx等多种格式中的任意一种,因此,合同审计系统可以通过解析处理,将所有合同文档数据均转换为txt文本数据。
示例性的,在本申请的实施例中,合同审计系统可以使用文档解析工具将pdf,doc,docx等格式的非结构化数据的合同文档数据解析为txt文本数据,获得目标文本数据。也就是说,在本申请中,目标文本数据的格式为txt。
步骤202、根据合同文档数据对应的关键信息对目标文本数据进行筛选处理,获得筛选后数据。
在本申请的实施例中,合同审计系统在通过解析合同文档数据获得目标文本数据之后,可以继续根据合同文档数据对应的关键信息对目标文本数据进行筛选处理,从而可以获得筛选后数据。
需要说明的是,在本申请的实施例中,合同审计系统可以基于合同文档数据确定与其对应的关键信息,然后便可以利用关键信息对目标文本数据进行筛选处理。
可以理解的是,在本申请的实施例中,合同文档数据的关键信息可以包括但不限于合同标题、甲乙方名称、合同付款信息、合同知识产权归属、合同开始和结束时间等多个类型的具体信息。
进一步地,在本申请的实施例中,合同审计系统在根据关键信息对目标文本数据进行筛选处理时,可以先确定合同文档数据对应的合同类型,然后根据合同类型和关键信息获取第一触发词集,最终便可以按照第一触发词集对目标文本数据进行筛选处理,获得筛选后数据。
需要说明的是,在本申请的实施例中,第一触发词集是与合同类型和关键信息相对应的,也就是说,对于不同的合同文档数据,对应有不同的第一触发词集。
步骤203、对筛选后数据进行标注处理,获得已标注语料和未标注语料。
在本申请的实施例中,合同审计系统在利用第一触发词集对目标文本数据进行筛选处理,获得筛选后数据之后,可以继续对筛选后数据进行标注处理,从而可以获得已标注语料和未标注语料。
需要说明的是,在本申请的实施例中,合同审计系统在对筛选后数据进行标注处理时,可以利用分词工具对筛选后数据进行分词处理及词性标注,然后可以根据用户操作继续进行人工标注,从而可以从筛选后数据中获得已标注语料和未标注语料。
步骤204、将已标注语料确定为训练数据,将未标注语料确定为测试数据。
在本申请的实施例中,合同审计系统在对筛选后数据进行标注处理,获得已标注语料和未标注语料之后,便可以将已标注语料确定为训练数据,同时可以将未标注语料确定为测试数据。
进一步地,在本申请的实施例中,合同审计系统通过标注处理将筛选后数据区分为已标注语料和未标注语料之后,可以将已标注语料作为训练数据对目标抽取模型进行训练,同时,可以将未标注语料作为测试数据,用于对目标抽取模型进行校正和测试。
在本申请的实施例中,进一步地,对于上述步骤202,合同审计系统在根据合同文档数据对应的关键信息对目标文本数据进行筛选处理,获得筛选后数据时,可以利用关键信息对应的近义词库对训练数据和测试数据进行数据的扩展和增强。
具体地,在本申请的实施例中,合同审计系统可以先根据合同类型和关键信息获取近义词库,然后可以利用近义词库对关键信息进行替换处理,获得替换后的关键信息,接着,合同审计系统可以根据合同类型和替换后的关键信息获取第二触发词集,最终便可以按照第二触发词集对目标文本数据进行筛选处理,获得筛选后数据。
需要说明的是,在本申请的实施例中,近义词库是与合同类型和关键信息相对应的,因此,对于不同的合同文档数据,对应有不同的近义词库。
进一步地,在本申请的实施例中,关键信息的近义词库中可以存储有关键信息在不同领域或不同类型的合同中的相近信息。
需要说明的是,在本申请的实施例中,由于近义词库是与合同类型和关键信息相对应的,因此第二触发词集也是与合同类型和关键信息相对应的,也就是说,对于不同的合同文档数据,对应有不同的第二触发词集。
可以理解的是,在本申请的实施例中,由于合同审计系统可以利用关键信息对应的近义词库对训练数据和测试数据进行数据的扩展和增强,因此,合同审计系统在根据合同文档数据对应的关键信息对目标文本数据进行筛选处理时,既可以按照关键信息对应的第一触发词集筛选目标文本数据,也可以按照替换后的关键信息对应的第二触发词集筛选目标文本数据,还可以同时按照第一触发词集和第二触发词集筛选目标文本数据。
需要说明的是,在本申请的实施例中,利用关键信息对应的近义词库对训练数据和测试数据进行数据的扩展和增强,还可以减少人工标注的工作量。
由此可见,通过上述步骤201至步骤204的方法,一方面,合同审计系统在确定训练数据和测试数据时,可以基于关键信息,对从合同文档数据中解析获得的目标文本数据进行筛选,从而可以有效地提高训练数据和测试数据的数据质量;另一方面,合同审计系统还可以利用与合同类型和关键信息相对应的近义词库进行训练数据和测试数据的扩展和增强,从而可以大大减少后续标注处理的复杂程度。也就是说,通过上述步骤201至步骤204的方法,合同审计系统进而可以更加快速地获取质量更高的、用于进行模型训练和测试的数据集。
步骤102、基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型。
在本申请的实施中,合同审计系统在采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据之后,便可以基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,从而可以获得目标抽取模型。
需要说明的是,在本申请的实施例中,目标抽取模型是具有学习能力的、用于对合同中的关键信息进行抽取处理的模型。
示例性的,在本申请中,目标抽取模型可以包括利用机器学习法获得的机器学习模型,如条件随机场算法(conditional random field algorithm,CRF),还可以包括利用深度学习法获得的深度学习模型,如前向的长短时记忆网络(Long Short MemoryNetwork,LSTM)与后向的LSTM结合成的BiLSTM,并结合CRF。其中,机器学习模型CRF++主要解决短距离特征识别问题,深度学习模型BiLSTM+CRF侧重解决长距离特征识别问题。
进一步地,在本申请的实施例中,合同审计系统在对采集到的合同文档数据进行预处理获得训练数据和测试数据之后,可以分别利用训练数据和测试数据进行目标抽取模型的建立和测试。
可以理解的是,在本申请的实施例中,合同审计系统在建立和测试目标抽取模型时,可以先基于训练数据,根据机器学习法和/或深度学习法训练获得初始抽取模型,然后可以继续利用测试数据对初始抽取模型进行测试处理,从而可以获得目标抽取模型。
需要说明的是,在本申请的实施例中,由于合同审计系统可以利用关键信息对应的近义词库对训练数据和测试数据进行数据的扩展和增强,因此,合同审计系统既可以按照第一触发词集筛选目标文本数据,也可以按照第二触发词集筛选目标文本数据,还可以同时按照第一触发词集和第二触发词集筛选目标文本数据。相应地,合同审计系统在进行目标抽取模型的训练和测试时,既可以基于第一触发词集对应的训练数据和测试数据确定目标抽取模型,也可以基于第二触发词集对应的、扩展增强后的训练数据和测试数据确定目标抽取模型,还可以同时基于第一触发词集对应的训练数据和测试数据、第二触发词集对应的、扩展增强后的训练数据和测试数据确定目标抽取模型。
步骤103、根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果。
在本申请的实施例中,合同审计系统在基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型之后,便可以根据预设规则库和目标抽取模型,进一步获得待审计合同对应的目标抽取结果。
进一步地,在本申请的实施例中,合同审计系统在根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果之前,可以先建立预设规则库。
需要说明的是,在本申请的实施例中,合同审计系统建立的预设规则库可以包括特殊格式匹配规则、正则表达规则以及筛选排序规则等不同类型的规则。其中,特殊格式匹配规则可以用于判断是否使用预设特殊模板进行语句数据的获取;正则表达规则可以用于对关键信息进行提取;筛选排序规则可以用于对多个关键信息进行筛选和按照权重进行排序。
进一步地,在本申请的实施例中,图3为合同审计方法的实现流程示意图三,如图3所示,合同审计系统根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果可以包括以下步骤:
步骤301、根据特殊格式匹配规则获取待审计合同对应的语句数据。
在本申请的实施例中,合同审计系统可以先根据特殊格式匹配规则,从待审计合同中获取待审计合同对应的语句数据。
具体地,合同审计系统可以先解析待审计合同,获得待审计合同对应的待审计文本数据;在解析获得待审计文本数据之后,如果待审计文本数据不满足特殊格式匹配规则,那么合同审计系统可以直接按行处理待审计文本数据,获得语句数据;如果待审计文本数据满足特殊格式匹配规则,那么合同审计系统可以利用预设特殊模板获取待审计文本数据对应的语句数据。
进一步地,在本申请的实施例中,合同审计系统在对待审计合同进行审计时,需要先确定待审计合同的语句数据。具体地,图4为合同审计方法的实现流程示意图四,如图4所示,合同审计系统根据特殊格式匹配规则获取待审计合同对应的语句数据的方法可以包括以下步骤:
步骤301a、解析待审计合同,获得待审计合同对应的待审计文本数据。
在本申请的实施例中,合同审计系统可以先解析待审计合同,从而可以获得待审计合同对应的待审计文本数据。
需要说明的是,在本申请的实施例中,待审计合同可以为pdf,doc,docx等多种格式中的任意一种,因此,合同审计系统可以通过解析处理,将待审计合同转换为txt文本数据。
示例性的,在本申请的实施例中,合同审计系统可以使用文档解析工具将pdf,doc,docx等格式的非结构化数据的待审计合同解析为txt文本数据,获得待审计文本数据。也就是说,在本申请中,待审计文本数据的格式为txt。
步骤301b、若待审计文本数据不满足特殊格式匹配规则,则直接按行处理待审计文本数据,获得语句数据。
在本申请的实施例中,合同审计系统在解析待审计合同,获得待审计合同对应的待审计文本数据之后,如果待审计文本数据不满足特殊格式匹配规则,那么合同审计系统可以直接按行处理待审计文本数据,从而可以获得语句数据。
可以理解的是,在本申请的实施例中,特殊格式匹配规则可以用于对预设特殊格式进行确定,其中,预设特殊格式可以包括表格、固定表述、多级列表等多种特殊格式,在此不作具体限定。
进一步地,在本申请的实施例中,合同审计系统在获得待审计合同对应的待审计文本数据之后,可以先确定待审计文本数据是否满足特殊格式匹配规则,即确定待审计文本数据中是否包括预设特殊格式,如果不包括,则可以直接基于待审计文本数据获得对应的语句数据。具体地,合同审计系统可以按行处理待审计文本数据,以获取待审计合同对应的语句数据。
步骤301c、若待审计文本数据满足特殊格式匹配规则,则利用预设特殊模板获取待审计文本数据对应的语句数据。
在本申请的实施例中,合同审计系统在解析待审计合同,获得待审计合同对应的待审计文本数据之后,如果待审计文本数据满足特殊格式匹配规则,那么合同审计系统可以便不能直接按行处理待审计文本数据,而是需要利用预设特殊模板对待审计文本数据进行抽取处理,从而可以获得语句数据。
进一步地,在本申请的实施例中,合同审计系统在获得待审计合同对应的待审计文本数据之后,可以先确定待审计文本数据是否满足特殊格式匹配规则,即确定待审计文本数据中是否包括预设特殊格式,如果包括,就需要按照预设特殊模板获得对应的语句数据。
具体地,在本申请的实施例中,预设特殊模板可以包括表格模板、固定表述模板以及段落拼接模板等多种处理方式,在此不作具体限定。
需要说明的是,在本申请的实施例中,合同审计系统可以先配置特殊格式匹配规则,其中,特殊格式匹配规则用于判断是否使用预设特殊模板进行语句数据的获取。
由此可见,通过上述步骤301a至步骤301b的方法,为了能够更加准确的获取待审计合同中的语句数据,合同审计系统可以通过预设特殊模板对待审计文本数据中的特殊格式进行识别和处理,从而可以完成不同类型和格式的数据的解析,大大提高了语句数据的精确程度。
步骤302、利用正则表达规则和目标抽取模型,获得语句数据对应的初始抽取结果。
在本申请的实施例中,合同审计系统在根据特殊格式匹配规则获取待审计合同对应的语句数据之后,便可以利用正则表达规则和目标抽取模型,进一步获取语句数据对应的初始抽取结果。
需要说明的是,在本申请的实施例中,合同审计系统可以利用正则表达规则和目标抽取模型对待审计合同进行关键信息的抽取处理。具体地,合同审计系统可以分别按照正则表达规则、机器学习法以及深度学习法对语句数据进行抽取处理,获得抽取信息列表,然后便可以根据抽取信息列表获得初始抽取结果。
可以理解的是,在本申请的实施例中,合同审计系统在获取待审计合同对应的语句数据之后,便可以分别利用正则表达规则、机器学习法以及深度学习法对语句数据进行抽取处理,具体地,合同审计系统可以利用正则表达规则对语句数据进行抽取处理,获得第一抽取信息结果,同时,合同审计系统也可以利用机器学习法对语句数据进行抽取处理,获得第二抽取信息结果,进一步地,合同审计系统还可以利用深度学习法对语句数据进行抽取处理,获得第三抽取信息结果,在分别获得第一抽取信息结果、第二抽取信息结果以及第三抽取信息结果之后,合同审计系统便可以基于上述三个抽取信息结果,生成抽取信息列表。
进一步,在本申请的实施例中,合同审计系统在获得抽取信息列表之后,可以通过合法性校验剔除抽取信息列表中的无效抽取信息,从而可以完成对抽取信息列表的筛选处理,以获得初始抽取结果。
步骤303、基于筛选排序规则,获取初始抽取结果对应的目标抽取结果。
在本申请的实施例中,合同审计系统在利用正则表达规则和目标抽取模型,获得语句数据对应的初始抽取结果之后,可以继续基于筛选排序规则,获取初始抽取结果对应的目标抽取结果。
需要说明的是,在本申请的实施例中,预设规则库中的筛选排序规则可以包括关键词权重设置规则、白样本库设置规则以及Drools字段候选规则。
进一步地,在本申请的实施例中,合同审计系统在按照筛选排序规则进行目标抽取结果的获取时,可以根据关键词权重设置规则、白样本库设置规则以及Drools字段候选规则中的至少一个规则,确定初始抽取结果对应的权重值,然后可以根据权重值确定目标抽取结果。
示例性的,在本申请的实施例中,在获取初始抽取结果之后,合同审计系统可以使用关键词权重设置规则、白样本库设置规则以及Drools字段候选规则中的一种或多种规则,确定出初始抽取结果中的每一个抽取结果的权重值,即获得带权重的候选抽取。然后可以将候选抽取中权重最大的一个抽取结果设置为目标抽取结果,或者,将选抽取中权重较大的前几个抽取结果设置为目标抽取结果。
由此可见,通过上述步骤301至步骤303的方法,合同审计系统可以结合预设规则库和目标抽取模型对语句数据进行目标抽取结果的获取,从而可以大大提高抽取获得的关键信息的准确程度。
步骤104、根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。
在本申请的实施例中,合同审计系统在根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果之后,便可以继续根据预设审计规则和目标抽取结果,进一步获得待审计合同对应的审计结果。
需要说明的是,在本申请的实施例中,合同审计系统可以预先对预设审计规则进行设计。其中,预设审计规则可以为基于Drools规则引擎的审计规则,预设审计规则可以包括文字筛选规则和审计逻辑规则。
示例性的,在本申请的实施例中,合同审计系统可以基于Drools规则引擎来设计预设审计规则,其中,在进行预设审计规则的建立时,主要包含开发单元和规则配置单元两部分。开发单元通过在业务代码中集成符合Drools语言规范编写的Java类和业务规则drl文件使业务生效。规则配置单元则进一步分为两种类型,第一种是字段抽取结果筛选规则配置,主要用于设计规则影响字段候选结果,即配置获得文字筛选规则;第二种是审计逻辑规则配置,可以基于各抽取字段属性、值或共现关系,配置审计线索,即配置获得审计逻辑规则。具体地,所需配置规则包含规则名称,规则编码,规则描述字段信息。
综上所述,本申请提出的一种合同审计方法,一方面,合同审计系统可以采用深度学习加规则库技术,在提高信息抽取泛化能力的同时保证准确性;另一方面,合同审计系统可以采用同近义词的数据增强方法生成合同训练数据,减少人工标注工作量;再一方面,合同审计系统可以采用基于drools规则引擎的关键字段及审计逻辑设计方法,将业务逻辑与代码逻辑相分离,支持用户自定义关键字段和审计逻辑。
本发明提出的一种合同审计方法,合同审计系统采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本申请的实施例中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
实施例二
基于上述实施例一,在本申请的又一实施例中,图5为合同审计方法的实现流程示意图五,如图5所示,合同审计系统在根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果之后,即步骤103之后,合同审计系统进行合同审计的方法还可以包括以下步骤:
步骤105、展示目标抽取结果。
在本申请的实施例中,合同审计系统在基于预设规则库和目标抽取模型获得目标抽取结果之后,可以将目标抽取结果进行展示。
需要说明的是,在本申请的实施例中,合同审计系统可以配置有显示装置,进而可以将目标抽取结果显示在显示装置上,以完成对目标抽取结果的展示。
步骤106、接收目标抽取结果对应的反馈指示。
在本申请的实施例中,合同审计系统在展示目标抽取结果之后,可以接收与目标抽取结果对应的反馈指示。其中,反馈指示可以包括抽取正确和抽取错误两种。
进一步地,在本申请的实施例中,反馈指示可以用于对目标抽取结果的准确程度进行确定。具体地,合同审计系统在将目标抽取结果展示给审计人员之后,审计人员可以对目标抽取结果正确性进行评价,从而生成反馈指示。
在本申请的实施例中,进一步地,合同审计系统在接收目标抽取结果对应的反馈指示之前,即步骤106之前,在展示目标抽取结果的同时,还可以展示语句数据、预设规则库、初始抽取结果以及权重值中的一个或者多个。
示例性的,在本申请的实施例中,合同审计系统的前端模块可以用于展示待审计合同的原始文档、初始抽取结果、目标抽取结果、相关的结构化数据、审计线索、预设规则库以及审计结果等。
图6为合同审计方法的实现流程示意图六,如图6所示,合同审计系统在根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果之后,即步骤104之后,合同审计系统进行合同审计的方法还可以包括以下步骤:
步骤107、若反馈指示为抽取正确,则按照预设展示模式展示审计结果。
在本申请的实施例中,合同审计系统在根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果之后,如果展示目标抽取结果所获得的反馈指示为抽取正确,说明目标抽取结果是准确的,进而反映基于目标抽取结果获得的审计结果也较为准确,因此,合同审计系统可以对审计结果进行展示。
需要说明的是,在本申请的实施例中,合同审计系统在将待审计合同的审计结果进行展示时,可以按照预设展示模型来将审计结果展示给审计人员。
进一步地,在本申请的实施例中,预设展示模式可以包括合同展示模式和逻辑展示模式展示,因此,合同审计系统在按照预设展示模式展示审计结果时,具体可以为按照合同展示模式和/或逻辑展示模式展示审计结果。
示例性的,在本申请中,合同审计系统在对审计结果进行展示时,既可以展示包含审计人员选择的一个合同的合同内容和该合同的审计线索,即按照合同展示模式进行展示;也可以展示审计人员输入的审计规则和该审计线索下的所有合同的疑似问题,即按照逻辑展示模式进行展示。
步骤108、若反馈指示为抽取错误,则根据反馈指示确定待审计合同对应的修正后结果。
在本申请的实施例中,合同审计系统在根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果之后,如果展示目标抽取结果所获得的反馈指示为抽取错误,说明目标抽取结果是不准确的,进而反映基于目标抽取结果获得的审计结果准确性也较低,因此,合同审计系统需要进一步根据反馈指示确定待审计合同对应的修正后结果。
需要说明的是,在本申请的实施例中,反馈指示中还可以携带更正信息,如果反馈指示为抽取错误,那么合同审计系统在根据反馈指示确定待审计合同对应的修正后结果时,可以按照反馈指示中的更正信息对审计结果进行修改,从而获得修正后结果。
示例性的,在本申请的实施例中,目标抽取结果可以为抽取信息列表中的最高权重的抽取结果,合同审计系统在将目标抽取结果和抽取信息列表进行展示的同时,审计人员可以在前端纠正目标抽取结果或修改抽取信息列表中的候选排序。当目标抽取结果被审计人员纠正后,合同审计系统便可以获取到反馈指示中携带的更正信息,从而可以利用更正信息重新确定出待审计合同的审计结果,即获得修正后结果。
图7为合同审计方法的实现流程示意图七,如图7所示,合同审计系统在根据反馈指示确定待审计合同对应的修正后结果之后,即步骤108之后,合同审计系统进行合同审计的方法还可以包括以下步骤:
步骤109、利用审计结果和修正后结果对目标抽取模型和预设规则库进行更新。
在本申请的实施例中,如果反馈指示为抽取错误,那么合同审计系统在利用反馈指示中携带的更正信息获得修正后结果之后,便可以利用错误的结果,即原来的审计结果,和正确的结果,即修正后结果,共同对目标抽取模型和预设规则库进行修正,从而实现对目标抽取模型和预设规则库的更新。
示例性的,在本申请中,当目标抽取结果被审计人员纠正为修正后结果之后,合同审计系统在利用审计结果和修正后结果对目标抽取模型和预设规则库进行更新时,可以将原来错误的目标抽取结果及其所在的语句数据加入至预设负语料,同时将纠正的修正后结果及其所在的语句数据加入至预设正语料,从而可以基于预设负语料和预设正语料对目标抽取模型和预设规则库进行优化和更新。
示例性的,在本申请中,如果反馈指示中携带的更正信息是审计人员更改过顺序后的抽取信息列表,合同审计系统便可以依据修改后的抽取信息列表中的顺序调整筛选排序规则,增加或修改相应的权重值,从而实现对预设规则库进行优化和更新。
可以理解的是,在本申请中,合同审计系统对目标抽取模型和预设规则库进行更新的开启时机,既可以是通过审计人员手动操作获取到的开启指令,也可以是根据纠正数量阈值自动触发的开启条件,本申请不做具体限定。
综上所述,通过上述步骤105至步骤109所述的合同审计方法,可以采用基于用户前端标注反馈的模型更新方法,用户在使用合同审计系统的同时,合同审计系统完成负反馈学习。也就是说,用户在前端标注后,合同审计系统可以采用错误结果自动更新训练语料,同时触发模型重新训练和模型测试测试的负反馈模型自动学习方法,增强合同审计系统自学习能力。
本发明提出的一种合同审计方法,合同审计系统采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本发明中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
实施例三
基于上述实施例一和实施例二,在本申请的再一实施例中,图8为合同审计方法的实现模块示意图,如图8所示,合同审计系统10可以由数据采集及预处理模块11、合同关键信息抽取模块12、字段及审计规则管理模块13、结果展示及反馈学习模块14这几部分构成。
图9为合同审计系统进行合同审计的示意图,如图9所示,数据采集及预处理模块11可以用于数据采集及解析、生成训练数据与数据增强。合同关键信息抽取模块12可以用于建立规则库与模型训练、模型预测与候选筛选。字段及审计规则管理模块13可以用于基于Drools规则引擎的字段候选和审计规则设计。结果展示及反馈学习模块14可以用于审计结果输出与模型自学习。
需要说明的是,在本申请的实施例中,数据采集及预处理模块11可以从企业合同管理系统采集合同文档数据及相应结构化数据,然后使用文档解析工具将pdf,doc,docx三种格式非结构合同数据解析为txt文本数据。
进一步地,在本申请的实施例中,数据采集及预处理模块11可以定义关键信息的触发词集,对部分合同txt数据根据触发词筛选并使用中文分词工具分词及词性标注。对处理后语句进行人工标注,构建初始小规模标注语料。基于小规模训练语料,使用机器学习方法CRF++(条件随机场)和深度学习方法BiLSTM+CRF(双向长短期记忆模型+条件随机场)进行模型训练并对未标注语料进行识别,输出算法标注语料并进行人工审查纠正。重复以上两步直至训练语料基本覆盖合同各类型且质量较高。
可以理解的是,在本申请的实施例中,由人工不断对抽取语料梳理更新得到关键词及其同近义词库与生成训练数据同步进行。其中关键词为字段名称及抽取信息常见词,关键词的同近义词为合同领域的同近义词。词库构建完成后,使用同近义词替换语料关键词,进行训练数据增强,并使用增强后数据进行模型训练和识别。
需要说明的是,在本申请的实施例中,合同关键信息抽取模块12建立的规则库可以分为三类,第一类是各个字段的正则表达式规则;第二类是抽取候选筛选排序规则,包含关键词权重设置,白样本库设置和Drools规则文件三种类型;第三类是表格、固定表述、多级列表等特殊格式匹配规则。
进一步地,在本申请的实施例中,合同关键信息抽取模块12建立的模型有两个,第一种为机器学习模型CRF++,主要解决短距离特征识别问题,第二种为深度学习模型BiLSTM+CRF侧重解决长距离特征识别问题。
示例性的,在申请中,合同关键信息抽取模块12可以根据抽取内容特征制定各字段正则表达式规则库,根据抽取结果迭代制定基于关键词和白样本库相似度的权重规则库,根据合同特征迭代制定常见字段表格模板和连续列表匹配规则库。
可以理解的是,在本申请中,合同关键信息抽取模块12根据模型测试指标调整CRF++模型和BiLSTM+CRF模板文件及神经网络参数,寻找最优参数进行训练。
进一步地,在本申请的实施例中,规则库及模型初步建立后,合同关键信息抽取模块12将合同解析后语句基于特殊格式匹配规则判断是否需要使用特殊模板抽取,特殊模板处理包含表格模板、固定表述模板或段落拼接等处理逻辑。
无论是否匹配规则模板,下一步对语句分别进行正则表达式,机器学习方法和深度学习方法的信息抽取,并将抽取结果加入各字段候选列表。候选列表信息通过合法性校验剔除无效抽取后,基于用户抽取结果筛选排序规则库,使用关键词权重、白样本库相似度计算或Drools规则三种排序方法的一种或多种,生成带权重的候选抽取。最后,合同关键信息抽取模块12可以将候选抽取中权重最大抽取设置为抽取结果。
需要说明的是,在本申请的实施例中,字段及审计规则管理模块13基于Drools规则引擎设计的审计规则主要包含开发单元和规则配置单元两部分。开发单元通过在业务代码中集成符合Drools语言规范编写的Java类和业务规则drl文件使业务生效。规则配置单元则进一步分为两种类型,第一种是字段抽取结果筛选规则配置,主要用于设计规则影响字段候选结果,第二种是审计逻辑规则配置,用户可以基于各抽取字段属性、值或共现关系,配置审计线索,输出审计结果。其中,所需配置规则包含规则名称,规则编码,规则描述字段信息。
需要说明的是,在本申请的实施例中,结果展示及反馈学习模块14提供了前端模块用于展示合同原始文档、抽取结果、关联的结构化数据、审计线索及审计结果,审计结果包含用户选择合同输出合同内容及审计线索及用户输入审计规则输出当前线索下疑似问题合同两种展示类型。
抽取结果将高权重结果置顶展示,但同时用户可以在前端纠正抽取内容或拖动修改候选排序。当抽取结果内容被用户纠正后,结果展示及反馈学习模块14会将原错误抽取及所在句加入负语料,纠正后内容及句子加入正语料。当抽取顺序被用户纠正后,合同审计系统会依据抽取候选排序规则文件,增加或修改相应权重值;以上两项更新可由用户手动或合同审计系统根据纠正数量阈值自动触发。
综上所述,在本申请中,合同审计系统可以通过采用CRF++及BiLSTM+CRF深度学习技术结合规则库技术解决合同信息抽取的学习能力问题,与此同时采用数据增强方法减少深度学习对人工标注语料需求。合同审计系统也可以通过采用基于Drools规则引擎的规则设计,解决关键字段及审计逻辑用户自定义问题,满足复杂多变的审计需求。合同审计系统还可以采用错误结果用户前端标注后合同审计系统自动更新训练语料,同时触发模型重新训练和模型测试测试的负反馈模型自动学习方法。
本发明提出的一种合同审计方法,合同审计系统采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本发明中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
实施例四
基于上述实施例一至实施例三,图10为合同审计流程图,如图10所示,合同审计系统在对待审计合同进行审计时,具体可以包括以下步骤:
步骤401、对待审计合同进行格式转换,获得待审计文本数据。
在本申请的实施例中,待审计合同可以为pdf,doc,docx等多种格式中的任意一种,因此,合同审计系统可以通过解析处理,将待审计合同转换为txt文本数据。
示例性的,在本申请的实施例中,合同审计系统可以使用文档解析工具将pdf,doc,docx等格式的非结构化数据的待审计合同解析为txt文本数据,获得待审计文本数据。也就是说,在本申请中,待审计文本数据的格式为txt。
步骤402、待审计文本数据是否满足特殊格式匹配规则,若满足,执行步骤403,若不满足,执行步骤404。
在本申请的实施例中,特殊格式匹配规则可以用于对预设特殊格式进行确定,其中,预设特殊格式可以包括表格、固定表述、多级列表等多种特殊格式,在此不作具体限定。
进一步地,在本申请的实施例中,合同审计系统在获得待审计合同对应的待审计文本数据之后,可以先确定待审计文本数据是否满足特殊格式匹配规则,即确定待审计文本数据中是否包括预设特殊格式,
步骤403、利用预设特殊模板对待审计文本数据进行抽取处理。
在本申请的实施例中,如果待审计文本数据满足特殊格式匹配规则,那么合同审计系统需要利用预设特殊模板对待审计文本数据进行抽取处理。其中,预设特殊模板可以包括表格模板、固定表述模板以及段落拼接模板等多种处理方式,在此不作具体限定。
需要说明的时,在本申请的实施例中,合同审计系统利用预设特殊模板对待审计文本数据进行抽取处理之后,可以获得文本数据和/或结构化数据,对于文本数据,合同审计系统可以按照步骤404进行后续处理,对于结构化数据,合同审计系统可以直接将其作为目标抽取结果。
步骤404、按行处理,获得语句数据。
在本申请的实施例中,合同审计系统可以按行处理待审计文本数据,从而可以获得语句数据。
步骤405、利用正则表达规则对语句数据进行抽取处理。
步骤406、利用机器学习法对语句数据进行抽取处理。
步骤407、利用深度学习法对语句数据进行抽取处理。
在本申请的实施例中,合同审计系统可以利用正则表达规则和目标抽取模型对待审计合同进行关键信息的抽取处理。具体地,合同审计系统可以分别按照正则表达规则、机器学习法以及深度学习法对语句数据进行抽取处理,获得抽取信息列表,然后便可以根据抽取信息列表获得初始抽取结果。
可以理解的是,在本申请的实施例中,合同审计系统可以利用正则表达规则对语句数据进行抽取处理,获得第一抽取信息结果,同时,合同审计系统也可以利用机器学习法对语句数据进行抽取处理,获得第二抽取信息结果,进一步地,合同审计系统还可以利用深度学习法对语句数据进行抽取处理,获得第三抽取信息结果。
步骤408、生成初始抽取结果。
在本申请的实施例中,在分别获得第一抽取信息结果、第二抽取信息结果以及第三抽取信息结果之后,合同审计系统便可以基于上述三个抽取信息结果,生成抽取信息列表。
进一步,在本申请的实施例中,合同审计系统在获得抽取信息列表之后,可以通过合法性校验剔除抽取信息列表中的无效抽取信息,从而可以完成对抽取信息列表的筛选处理,以获得初始抽取结果。
步骤409、基于筛选排序规则,获取初始抽取结果对应的目标抽取结果。
在本申请的实施例中,合同审计系统在利用正则表达规则和目标抽取模型,获得语句数据对应的初始抽取结果之后,可以继续基于筛选排序规则,获取初始抽取结果对应的目标抽取结果。
需要说明的是,在本申请的实施例中,预设规则库中的筛选排序规则可以包括关键词权重设置规则、白样本库设置规则以及Drools字段候选规则。
进一步地,在本申请的实施例中,合同审计系统在按照筛选排序规则进行目标抽取结果的获取时,可以根据关键词权重设置规则、白样本库设置规则以及Drools字段候选规则中的至少一个规则,确定初始抽取结果对应的权重值,然后可以根据权重值确定目标抽取结果。
步骤4010、根据预设审计规则获得待审计合同对应的审计结果。
在本申请的实施例中,合同审计系统根据预设审计规则和目标抽取结果,进一步获得待审计合同对应的审计结果。其中,预设审计规则可以为基于Drools规则引擎的审计规则,预设审计规则可以包括文字筛选规则和审计逻辑规则。
步骤4011、展示目标抽取结果,并接收反馈指示。
步骤4012、判断反馈指示是否为抽取错误,如果是抽取错误,执行步骤4014;否则执行步骤4013。
步骤4013、按照预设展示模式展示审计结果。
在本申请的实施例中,合同审计系统在将待审计合同的审计结果进行展示时,可以按照预设展示模型来将审计结果展示给审计人员。
进一步地,在本申请的实施例中,预设展示模式可以包括合同展示模式和逻辑展示模式展示,因此,合同审计系统在按照预设展示模式展示审计结果时,具体可以为按照合同展示模式和/或逻辑展示模式展示审计结果。
步骤4014、根据反馈指示确定待审计合同对应的修正后结果。
在本申请的实施例中,反馈指示中还可以携带更正信息,如果反馈指示为抽取错误,那么合同审计系统在根据反馈指示确定待审计合同对应的修正后结果时,可以按照反馈指示中的更正信息对审计结果进行修改,从而获得修正后结果。
步骤4015、利用审计结果和修正后结果对目标抽取模型和预设规则库进行更新。
在本申请的实施例中,如果反馈指示为抽取错误,那么合同审计系统在利用反馈指示中携带的更正信息获得修正后结果之后,便可以利用错误的结果,即原来的审计结果,和正确的结果,即修正后结果,共同对目标抽取模型和预设规则库进行修正,从而实现对目标抽取模型和预设规则库的更新。
本申请实施例提出的一种合同审计方法,采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本发明中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
实施例五
基于上述实施例一至实施例四,图11为合同审计系统的组成结构示意图一,如图11所示,在本发明的实施例中,合同审计系统10包括接:采集单元15,获取单元16,
所述采集单元15,用于采集合同文档数据;
所述获取单元16,用于按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;以及基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;以及根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;以及根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
图12为合同审计系统的组成结构示意图二,如图12所示,本申请实施例提出的合同审计系统10还可以包括处理器17、存储有处理器17可执行指令的存储器18,进一步地,合同审计系统10还可以包括通信接口19,和用于连接处理器17、存储器18以及通信接口19的总线110。
在本申请的实施例中,处理器17可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgRAMmable Logic Device,PLD)、现场可编程门阵列(Field ProgRAMmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。合同审计系统10还可以包括存储器18,该存储器18可以与处理器17连接,其中,存储器18用于存储可执行程序代码,该程序代码包括计算机操作指令,存储器18可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少两个磁盘存储器。
在本申请的实施例中,总线110用于连接通信接口19、处理器17以及存储器18以及这些器件之间的相互通信。
在本申请的实施例中,存储器18,用于存储指令和数据。
进一步地,在本申请的实施例中,处理器17,用于采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
在实际应用中,存储器18可以是易失性存储器(volatile memor),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard DiskDrive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器17提供指令和数据。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提出的一种合同审计系统,该合同审计系统采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑。也就是说,在本本发明中,合同审计系统利用机器学习法和/或深度学习法进行目标抽取模型的训练和检测,通过预设规则库和目标抽取模型对待审计合同进行关键信息的抽取,获得目标抽取结果,然后基于预设审计规则,根据目标抽取结果获得待审计合同的审计结果。正是由于目标抽取模型和预设规则库的结合,能够使合同审计系统获取到更加准确的目标抽取结果,同时,基于Drools规则引擎设计的预设审计规则能够满足复杂多变的审计需求,由此可见,在本发明中,合同审计系统在进行合同审计时能够大大减少误差,提高了合同审计的准确性。并且,实现起来简单方便,便于普及,适用范围更广。
本申请实施例提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的合同审计方法。
具体来讲,本实施例中的一种合同审计方法对应的程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种合同审计方法对应的程序指令被一电子设备读取或被执行时,包括如下步骤:
采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;
基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;
根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;
根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
本领域内的技术人员应明白,本申请的实施例可提供为方法、显示器、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (23)

1.一种合同审计方法,其特征在于,所述方法包括:
采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;
基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;
根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;
根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
2.根据权利要求1所述的方法,其特征在于,所述采集合同文档数据,包括:
从合同管理系统中采集所述合同文档数据。
3.根据权利要求1所述的方法,其特征在于,所述按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据,包括:
解析所述合同文档数据,获得所述合同文档数据对应的目标文本数据;
根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据;
对所述筛选后数据进行标注处理,获得已标注语料和未标注语料;
将所述已标注语料确定为所述训练数据,将所述未标注语料确定为测试数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:
确定所述合同文档数据对应的合同类型;
根据所述合同类型和所述关键信息获取第一触发词集;
按照所述第一触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
5.根据权利要求1、3或4所述的方法,其特征在于,所述基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型,包括:
基于所述训练数据,根据所述机器学习法和/或所述深度学习法训练获得初始抽取模型;
利用所述测试数据对所述初始抽取模型进行测试处理,获得所述目标抽取模型。
6.根据权利要求4所述的方法,其特征在于,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:
根据所述合同类型和所述关键信息获取近义词库;
利用所述近义词库对所述关键信息进行替换处理,获得替换后的关键信息;
根据所述合同类型和所述替换后的关键信息获取第二触发词集;
按照所述第二触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
7.根据权利要求1所述的方法,其特征在于,所述预设规则库包括:特殊格式匹配规则、正则表达规则以及筛选排序规则。
8.根据权利要求7所述的方法,其特征在于,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果,包括:
根据所述特殊格式匹配规则获取待审计合同对应的语句数据;
利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果;
基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述特殊格式匹配规则获取待审计合同对应的语句数据,包括:
解析所述待审计合同,获得所述待审计合同对应的待审计文本数据;
若所述待审计文本数据不满足所述特殊格式匹配规则,则直接按行处理所述待审计文本数据,获得所述语句数据;
若所述待审计文本数据满足所述特殊格式匹配规则,则利用预设特殊模板获取所述待审计文本数据对应的所述语句数据。
10.根据权利要求8所述的方法,其特征在于,所述利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果,包括:
分别按照所述正则表达规则、所述机器学习法以及所述深度学习法对所述语句数据进行抽取处理,获得抽取信息列表;
根据所述抽取信息列表获得所述初始抽取结果。
11.根据权利要求8所述的方法,其特征在于,所述筛选排序规则包括关键词权重设置规则、白样本库设置规则以及Drools字段候选规则,所述基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果,包括:
根据所述关键词权重设置规则、所述白样本库设置规则以及所述Drools字段候选规则中的至少一个规则,确定所述初始抽取结果对应的权重值;
根据所述权重值确定所述目标抽取结果。
12.根据权利要求1所述的方法,其特征在于,所述预设审计规则包括文字筛选规则和审计逻辑规则,所述根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果,包括:
基于所述目标抽取结果,按照所述文字筛选规则和/或所述审计逻辑规则对所述待审计合同进行审计处理,获得所述审计结果。
13.根据权利要求11所述的方法,其特征在于,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果之后,所述方法还包括:
展示所述目标抽取结果;
接收所述目标抽取结果对应的反馈指示。
14.根据权利要求13所述的方法,其特征在于,所述接收所述目标抽取结果对应的反馈指示之前,所述方法还包括:
展示所述语句数据、所述预设规则库、所述初始抽取结果以及所述权重值中的一个或者多个。
15.根据权利要求13所述的方法,其特征在于,所述反馈指示包括抽取正确和抽取错误,所述根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果之后,所述方法还包括:
若所述反馈指示为所述抽取正确,则按照预设展示模式展示所述审计结果;
若所述反馈指示为所述抽取错误,则根据所述反馈指示确定所述待审计合同对应的修正后结果。
16.根据权利要求15所述的方法,其特征在于,所述按照预设展示模式展示所述审计结果,包括:
按照合同展示模式和/或逻辑展示模式展示所述审计结果。
17.根据权利要求15所述的方法,其特征在于,所述反馈指示携带更正信息,所述根据所述反馈指示确定所述待审计合同对应的修正后结果,包括:
根据所述更正信息对所述审计结果进行修改,获得所述修正后结果。
18.根据权利要求15或17所述的方法,其特征在于,所述根据所述反馈指示确定所述待审计合同对应的修正后结果之后,所述方法还包括:
利用所述审计结果和所述修正后结果对所述目标抽取模型和所述预设规则库进行更新。
19.根据权利要求1或7所述的方法,其特征在于,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果之前,所述方法还包括:
建立所述预设规则库。
20.根据权利要求1或12所述的方法,其特征在于,所述根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果之前,所述方法还包括:
设计所述预设审计规则。
21.一种合同审计系统,其特征在于,所述合同审计系统包括:采集单元,获取单元,
所述采集单元,用于采集合同文档数据;
所述获取单元,用于按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;以及基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;以及根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;以及根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
22.一种合同审计系统,其特征在于,所述合同审计系统包括处理器、存储有所述处理器可执行指令的存储器、通信接口,和用于连接所述处理器、所述存储器以及所述通信接口的总线,当所述指令被所述处理器执行时,实现如权利要求1-20任一项所述的方法。
23.一种计算机可读存储介质,其上存储有程序,应用于合同审计系统中,其特征在于,所述程序被处理器执行时,实现如权利要求1-20任一项所述的方法。
CN202010450563.6A 2020-05-25 2020-05-25 一种合同审计方法和系统,及计算机可读存储介质 Active CN113722421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010450563.6A CN113722421B (zh) 2020-05-25 2020-05-25 一种合同审计方法和系统,及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010450563.6A CN113722421B (zh) 2020-05-25 2020-05-25 一种合同审计方法和系统,及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113722421A true CN113722421A (zh) 2021-11-30
CN113722421B CN113722421B (zh) 2024-04-09

Family

ID=78671798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010450563.6A Active CN113722421B (zh) 2020-05-25 2020-05-25 一种合同审计方法和系统,及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113722421B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451660A (zh) * 2023-04-11 2023-07-18 浙江法之道信息技术有限公司 一种法律文本专业性审查与智能批注系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047580B1 (en) * 2007-08-13 2015-06-02 Phillip Marlowe Method, system, and computer readable medium for electronic auditing
CN109767320A (zh) * 2018-12-17 2019-05-17 深圳壹账通智能科技有限公司 订单审核方法、装置、计算机设备和存储介质
CN109886845A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 合同的智能审核方法、装置、计算机设备及存储介质
US20190303541A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Auditing smart contracts configured to manage and document software audits
CN110399617A (zh) * 2019-08-30 2019-11-01 广西电网有限责任公司南宁供电局 审计数据处理方法、系统和可读存储介质
CN110852065A (zh) * 2019-11-07 2020-02-28 达而观信息科技(上海)有限公司 一种文档审核方法、装置、系统、设备及存储介质
US20200133964A1 (en) * 2017-10-13 2020-04-30 Kpmg Llp System and method for analysis and determination of relationships from a variety of data sources

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047580B1 (en) * 2007-08-13 2015-06-02 Phillip Marlowe Method, system, and computer readable medium for electronic auditing
US20200133964A1 (en) * 2017-10-13 2020-04-30 Kpmg Llp System and method for analysis and determination of relationships from a variety of data sources
US20190303541A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Auditing smart contracts configured to manage and document software audits
CN109767320A (zh) * 2018-12-17 2019-05-17 深圳壹账通智能科技有限公司 订单审核方法、装置、计算机设备和存储介质
CN109886845A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 合同的智能审核方法、装置、计算机设备及存储介质
CN110399617A (zh) * 2019-08-30 2019-11-01 广西电网有限责任公司南宁供电局 审计数据处理方法、系统和可读存储介质
CN110852065A (zh) * 2019-11-07 2020-02-28 达而观信息科技(上海)有限公司 一种文档审核方法、装置、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷洁;赵瑞雪;李思经;鲜国建;寇远涛;: "知识图谱驱动的科研档案大数据管理系统构建研究", 数字图书馆论坛, no. 02, 25 February 2020 (2020-02-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451660A (zh) * 2023-04-11 2023-07-18 浙江法之道信息技术有限公司 一种法律文本专业性审查与智能批注系统
CN116451660B (zh) * 2023-04-11 2023-09-19 浙江法之道信息技术有限公司 一种法律文本专业性审查与智能批注系统

Also Published As

Publication number Publication date
CN113722421B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Chen et al. BigGorilla: An open-source ecosystem for data preparation and integration.
US20160162492A1 (en) Confidence Ranking of Answers Based on Temporal Semantics
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN110008309A (zh) 一种短语挖掘方法及装置
Deléger et al. Translating medical terminologies through word alignment in parallel text corpora
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN113159969A (zh) 一种金融长文本复核系统
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN111062832A (zh) 智能提供专利答辩意见的辅助分析方法及装置
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
Kurmi et al. Text summarization using enhanced MMR technique
CN115908027A (zh) 一种金融长文本复核系统的金融数据一致性审核模块
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Fabo et al. Mapping the Bentham Corpus: concept-based navigation
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN112668284A (zh) 一种法律文书分段方法及系统
CN112579444B (zh) 基于文本认知的自动分析建模方法、系统、装置及介质
CN114357990B (zh) 文本数据标注方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant