CN110096626A

CN110096626A - 合同文本数据的处理方法、装置、设备及存储介质

Info

Publication number: CN110096626A
Application number: CN201910204738.2A
Authority: CN
Inventors: 朱峰
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-08-06

Abstract

本发明涉及计算机技术领域，提供了一种合同文本数据的处理方法、装置、设备及存储介质，所述方法包括：根据预设的用于过滤网页标签的正则表达式，对获取到的原始合同数据进行标签过滤，得到原始合同数据对应的无标签文本数据；根据预设的用于匹配预设字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的预设字符串进行处理，得到纯文本数据；获取源合同文件的合同类型，并从预设的模板库中获取合同类型对应的合同模板；将纯文本数据导入的合同模板中，生成标准合同数据，并将源合同文件的合同类型和标准合同数据对应保存至合同数据库中。本发明能够提高对合同数据的处理效率和查询效率。

Description

合同文本数据的处理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种合同文本数据的处理方法、装置、设备及存储介质。

背景技术

随着计算机技术的应用范围越来越广泛，电子文件的应用也越来越广泛，各类文件格式数据都能在网络上获取到，尤其是一些具备固定格式要求的文书，例如各种合同、协议或证明文件等，但对于不同的应用场景，获取到的文件的内容形式和文件数据格式不尽相同，容易出现用户查询失败或查询到的内容存在形式错误，导致查询准确率和效率降低，或者是为了解析不同文件格式和各类内容形式的合同文件数据，使得合同文件数据规范化，需要开发人员针对每种内容形式和文件格式来开发对应的应用程序，增加了开发人员的工作量，导致对合同数据的处理效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种合同文本数据的处理方法、装置、设备及存储介质，以解决传统合同文本数据的处理方法对合同数据的处理效率低和查询效率低的问题。

一种合同文本数据的处理方法，包括：

获取源合同文件，并读取所述源合同文件中的内容，得到所述源合同文件对应的原始合同数据；

根据预设的用于过滤网页标签的正则表达式，对所述原始合同数据进行标签过滤，得到所述原始合同数据对应的无标签文本数据；

根据预设的用于匹配预设字符串的正则表达式，对所述无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的所述预设字符串进行处理，得到所述无标签文本数据对应的纯文本数据；

获取所述源合同文件的合同类型，并从预设的模板库中获取所述合同类型对应的合同模板；

将所述纯文本数据导入所述的合同模板中，生成标准合同数据，并将所述源合同文件的合同类型和所述标准合同数据对应保存至合同数据库中。

一种合同文本数据的处理装置，包括：

文件获取模块，用于获取源合同文件，并读取所述源合同文件中的内容，得到所述源合同文件对应的原始合同数据；

标签过滤模块，用于根据预设的用于过滤网页标签的正则表达式，对所述原始合同数据进行标签过滤，得到所述原始合同数据对应的无标签文本数据；

数据处理模块，用于根据预设的用于匹配预设字符串的正则表达式，对所述无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的所述预设字符串进行处理，得到所述无标签文本数据对应的纯文本数据；

模板获取模块，用于获取所述源合同文件的合同类型，并从预设的模板库中获取所述合同类型对应的合同模板；

数据保存模块，用于将所述纯文本数据导入所述的合同模板中，生成标准合同数据，并将所述源合同文件的合同类型和所述标准合同数据对应保存至合同数据库中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述合同文本数据的处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述合同文本数据的处理方法。

上述合同文本数据的处理方法、装置、设备及存储介质，通过根据预设的网页标签的正则表达式，对获取到的原始合同数据进行标签过滤，得到无标签文本数据，并根据预设的字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的字符串进行处理，得到纯文本数据，然后，将纯文本数据导入预设的合同模板中，生成标准合同数据，并将标准合同数据保存至合同数据库中，这种通过使用预设的正则表达式对获取到的原始合同数据进行内容形式的处理，得到内容形式统一的纯文本数据，无需开发人员针对每种内容形式和文件格式来开发对应的应用程序，减小开发人员的工作量，节约了开发成本，且避免出现乱码或字体形式不统一等情况，便于对文本数据的管理和使用，从而提高对合同数据的处理效率，然后，将纯文本数据导入预设的合同模板中，得到文件格式统一规范的标准合同数据，能够根据合同类型快速准确地获取到文件格式统一规范的标准合同数据，从而提高对合同数据查询的准确率和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中合同文本数据的处理方法的一应用环境示意图；

图2是本发明一实施例中合同文本数据的处理方法的一流程图；

图3是本发明一实施例中合同文本数据的处理方法中步骤S3的一实现流程图；

图4是本发明一实施例中合同文本数据的处理方法中步骤S1的一实现流程图；

图5是本发明一实施例中合同文本数据的处理方法中步骤S1的另一实现流程图；

图6是本发明一实施例中合同文本数据的处理方法中对合同数据进行查询的一实现流程图；

图7是本发明一实施例中合同文本数据的处理装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于将用户上传的源合同文件发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于处理合同数据，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的合同文本数据的处理方法应用于服务端。

请参阅图2，图2示出本实施例提供的合同文本数据的处理方法的实现流程。详述如下：

S1：获取源合同文件，并读取源合同文件中的内容，得到源合同文件对应的原始合同数据。

具体地，获取源合同文件，并读取源合同文件中的内容，具体可以是自动定时从第三方的网络合同文件平台中爬取源合同文件，并对爬取到的源合同文件进行文件的内容读取，具体是通过网络爬取(Web Crawler)，依次爬取网络合同文件平台中每个合同网站，来获取该合同网站中包含的所有文件类型的源合同文件，进而读取合同网站中每个源合同文件的内容数据，按照此方法，获取所有合同网站中每个源合同文件的内容数据作为原始合同数据。

其中，网络爬取又称全网爬虫(Scalable Web Crawler)，爬行对象从一些种子URL(Uniform Resource Locator，统一资源定位符)扩充到整个Web(World Wide Web，全球广域网)，主要为门户站点搜索引擎和大型Web服务提供商采集数据。网络爬取的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，网络爬取的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬取会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

其中，深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。

其中，广度优先策略是按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点。

优选地，本实施例采用的爬行策略为广度优先策略。

具体地，针对每个源合同文件，通过网络爬取，依次爬取网络合同平台中每个合同网站，来获取该合同网站中包含的所有源合同文件，进而得到合同网站中每个源合同文件中的内容数据具体可以是先获取预设的待爬取的网站域名，爬取该网站域名中包含的源合同文件，然后使用用于进行文件内容解析的网站解析工具，如Python(面向对象的解释型)程序中的BeautifulSoup工具，对待爬取的网站域名对应的源合同文件中的文件内容进行解析，并将解析出的文件内容保存为源合同文件的原始合同数据。

S2：根据预设的用于过滤网页标签的正则表达式，对原始合同数据进行标签过滤，得到原始合同数据对应的无标签文本数据。

具体地，由于每个源合同文件对应一种合同类型，使得在对获取到的源文件进行文件内容读取时，读取到的原始合同数据中容易出现乱码、标点错误或者参数错误的情况，不利于对原始合同数据的使用和管理，因此，本实施例通过根据预设的用于过滤网页标签的正则表达式，对原始合同数据进行标签过滤，使得原始合同数据初步规范化，具体可以是采用预设的网页标签的正则表达式中的特定预设的标签字符，作为原始文本数据中对应预设的网页标签出现的规则，对原始合同数据中匹配满足该规则的网页标签，并将匹配到的网页标签确定为待处理标签，其中，正则表达式(Regular Expression)包括普通字符，例如，a到z之间的字母，以及特殊字符，如元字符或制表符等，正则表达式是通过使用一些特定字符来描述字符串里字符出现的规则，能够用于匹配、识别、提取或者替换符合该规则的字符串，正则表达式还可以用来查找或删除字符串，因此使用正则表达式能够实现快速查找和精准查找。

例如，在一具体实施例中，假设原始合同数据中存在html格式的网页标签为“<h1></h1>”，假如预设的网页标签的正则表达式为：“String regex_html＝"<[^>]+>"”，其中，String表示网页标签的数据类型，regex表示正则表达式的形式，即Regular Expression，在正则表达式中常简写为regex、regexp或RE，用于表示一条规则数据为正则表达式，html表示网页标签字符为“html”，"<[^>]+>"表示可以识别的网页标签字符“html”的标签格式具体可以是<html>或<html></html>的形式，因此可以根据该预设的网页标签的正则表达式识别出原始合同数据中的网页标签“<h1></h1>”，并将该网页标签确定为待处理标签。

进一步地，为了实现原始合同数据的初步规范化，可以对获取到的待处理标签进行过滤，得到原始合同数据对应的无标签文本数据，其中，过滤待处理标签的方式具体可以是将待处理标签返回空白或者返回空格，或是直接将待处理标签进行删除，具体可以根据实际应用需求进行设置，此处不做限制，其中，将原始合同数据中的待处理标签返回空白，即将待处理标签设置为空，以及将原始合同数据中的待处理标签返回空格，是用空格字符覆盖掉待处理标签，能够得到有间隔的无标签文本数据，而直接将待处理标签进行删除，可以得到无间隔的无标签文本数据。

需要说明的是，由于在原始合同数据中，可以存在如“<(小于号)”、“>(大于号)”或者“<h1></h1>(网页标签)”等，在匹配的过程中，若先根据预设的标点符号的正则表达式或特殊字符参数的正则表达式，对原始数据进行识别，则容易出现将网页标签中的“<”或“>”识别为标点符号或者特殊字符参数等，并对匹配到的字符串进行过滤，导致后续继续执行网页标签的正则表达式时，无法识别出原始合同数据中的标签，造成标签错漏，不利于合同数据规范化，因此，需要优先对原始合同数据进行网页标签识别，以保证合同数据处理规范化，从而提高对合同数据的处理效率。

S3：根据预设的用于匹配预设字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的预设字符串进行处理，得到无标签文本数据对应的纯文本数据。

在本实施例中，预设的用于匹配预设字符串的正则表达式包括但不限于标点符号的正则表达式、乱码或者特定参数字符的正则表达式，具体可以根据实际应用需求进行设置，此处不做具体限制，其中，每种预设的用于匹配预设字符串的正则表达式对应一种预设的处理方式。

具体地，根据预设的用于匹配预设字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的预设字符串进行处理，具体可以是通过多种预设的用于匹配预设字符串的正则表达式同时并行执行对无标签文本数据的字符串匹配，也可以是对每种预设的用于匹配预设字符串的正则表达式设置优先级，并按照该优先级依次执行预设的用于匹配预设字符串的正则表达式对无标签文本数据的字符串匹配，然后，按照每种预设的用于匹配预设字符串的正则表达式对应的预设的处理方式，对根据该种正则表达式匹配成功的预设字符串进行处理，如预设的乱码或者特定参数字符的正则表达式对应的预设的处理方式是将直接删除，即当根据预设的乱码或者特定字符参数的正则表达式匹配到无标签文本数据中的乱码或特定字符参数时，则将该乱码或特定字符参数直接进行删除，得到无标签文本数据对应的纯文本数据。

S4：获取源合同文件的合同类型，并从预设的模板库中获取合同类型对应的合同模板。

在本实施例中，预设的合同模板是根据实际应用需求进行设置的，此处不做限制，其中，每种合同类型对应一种合同模板，合同类型包括但不限于租赁合同、买卖合同、融资租赁合同、承揽合同、建设工程合同、运输合同、技术合同或保管合同等类型，合同模板具体可以包括但不限于合同名称、合同条例、签约方或签约时间等模板标签，具体可以根据每种合同类型的实际应用需求进行设置，此处不做限制。

具体地，获取源合同文件的合同类型具体可以是根据获取到的源合同文件所储存的文件名称来确定该源合同文件属于的合同类型，也可以根据读取到的源合同文件的原始合同数据中的合同名称来确定该源合同文件的合同类型，还可以通过其他方式来获取源合同文件的合同类型，此处不做限制，然后，根据每种合同类型和预设的合同模板的对应关系，能够从预设的模板库中快速准确地获取到该合同类型对应的合同模板。

S5：将纯文本数据导入的合同模板中，生成标准合同数据，并将源合同文件的合同类型和标准合同数据对应保存至合同数据库中。

具体地，将纯文本数据导入的合同模板中，生成标准合同数据具体可以是根据预设合同标签，在纯文本数据中查找到与预设合同标签相同的词语作为合同关键词，并将查找到两个相邻的合同关键词之间的文本数据，确定为前一个合同关键词对应的关键词数据，然后，根据获取到的合同模板中的合同标签，将与该模板标签相同的合同关键词对应的关键词数据导入该模板标签对应的位置中，得到标准合同数据。

进一步地，可以将标准合同数据与源合同文件的合同类型自动对应存储在合同数据库中，能够得到每种合同类型对应的标准合同数据的内容形式都是统一规范的，便于对合同数据的保存和管理，以及对合同数据的查询和调用，从而提高对合同数据的查询效率。

本实施例中，通过根据预设的网页标签的正则表达式，对获取到的原始合同数据进行标签过滤，得到无标签文本数据，并根据预设的字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的字符串进行处理，得到纯文本数据，然后，将纯文本数据导入预设的合同模板中，生成标准合同数据，并将标准合同数据保存至合同数据库中，这种通过使用预设的正则表达式对获取到的原始合同数据进行内容形式的处理，得到内容形式统一的纯文本数据，无需开发人员针对每种内容形式和文件格式来开发对应的应用程序，减小开发人员的工作量，节约了开发成本，且避免出现乱码或字体形式不统一等情况，便于对文本数据的管理和使用，从而提高对合同数据的处理效率，然后，将纯文本数据导入预设的合同模板中，得到文件格式统一规范的标准合同数据，能够根据合同类型快速准确地获取到文件格式统一规范的标准合同数据，从而提高对合同数据查询的准确率和效率。

在一实施例中，如图3所示，步骤S3中，预设字符串包括英文字符串、标点符号和预设的参数字符，所述正则表达式包括英文正则表达式、标点符号正则表达式和参数字符正则表达式，即根据预设的用于匹配预设字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的预设字符串进行处理，得到无标签文本数据对应的纯文本数据具体包括如下步骤：

S301：根据英文正则表达式，对无标签文本数据进行匹配，并按照预设的英文格式，对匹配到的英文字符串进行格式转换，得到无标签文本数据对应的标准英文数据。

在本实施例中，预设的英文格式具体可以是英文单词的小写格式，但不限于此，具体可以根据实际应用需求进行设置，此处不做限制。

具体地，根据英文正则表达式，对无标签文本数据进行匹配，当匹配到无标签文本数据中的英文单词时，若该英文单词是符合预设的小写英文格式，则无需对该匹配到的英文单词进行格式转换，继续对无标签文本数据进行英文单词匹配；若匹配到的英文单词为大写格式，则按照预设的小写英文格式，将该英文单词中出现的大写字母转换为小写格式，可以得到英文单词格式统一的标准英文数据，便于后续查找时的快速识别，从而提高合同数据查询效率。例如，匹配到的英文单词为“Annual”、“Tom”等英文单词，则按照预设的小写英文格式，将“Annual”转换为“annual”，将“Tom”转换为“tom”的小写英文格式。

S302：根据标点符号正则表达式，对标准英文数据进行匹配，并按照预设的符号格式，对匹配到的标点符号进行格式转换，得到标准符号数据。

在本实施例中，预设的符号格式具体可以是中文格式，但不限于此，具体可以根据实际应用需求进行设置，此处不做限制。

例如，在一具体实施例中，假设预设的标点符号的正则表达式为：“String regEx_colon＝"："”，该预设的标点符号的正则表达式中的特定预设的标点符号字符为“colon”，表示可以根据该预设的标点符号的正则表达式匹配到标准英文数据中的冒号，即“：”，然后，若该冒号的符号格式是符合预设的中文格式，则无需对该匹配到的冒号进行格式转换，继续对标准英文数据进行符号匹配；若匹配到的该冒号为英文格式或其他格式，则按照预设的中文格式，将该冒号转换为中文格式，可以得到标点符号格式统一的标准符号数据。

S303：根据参数字符正则表达式，对标准符号数据进行匹配，并过滤匹配到的参数字符，得到纯文本数据。

具体地，过滤匹配到的参数字符具体可以是将直接将匹配到的参数字符进行删除，或者匹配到的参数字符进行字符替换，或者是匹配到的参数字符返回空格等，还可以是其他过滤方式，此处不做限制。

例如，在一具体实施例中，假设预设的参数字符正则表达式为：StringregEx_dollor＝"\\$\\{[\\w+\\.\\u4e00-\\u9fa5]+\\}\\￥\\"，该预设的参数字符正则表达式中的特定预设的参数字符为“dollor”，"\\$\\{[\\w+\\.\\u4e00-\\u9fa5]+\\}\\￥\\"表示可以匹配到标准符号数据中的特定字符参数，如“$”、“{}”或“￥”等，然后，可以将匹配到的标准符号数据中的这些特定字符参数进行直接删除或者替换，可以替换为预设的标准字符如“*”或“#”等。

需要说明的是预设的用于匹配预设字符串的正则表达式还可以是脚本正则表达式、样式正则表达式等，可以理解的是预设的用于匹配预设字符串的正则表达式之间可以无优先级关系，可以同时并行执行多种预设的用于匹配预设字符串的正则表达式，从而提高对合同数据的处理效率，而对预设的用于匹配预设字符串的正则表达式设置优先级，并分步执行每种预设的用于匹配预设字符串的正则表达式，能够保证对合同数据处理的精度，保证处理得到的纯文本数据的规范化。

例如，在一具体实施例中，假设预设的样式正则表达式为：String regEx_style＝"<style[^>]*？>[\\s\\S]*？<\\/style>"，则可以根据该预设的样式正则表达式匹配无标签文本数据中的字符样式为“style”的样式，如“style”可以对应的是“字体类型”或“字体大小”等，后续可以对匹配到的字体类型进行类型转换处理或是其他处理方式，此处不做限制。

在本实施例中，通过根据英文正则表达式，对无标签文本数据进行匹配，并按照预设的英文格式，对匹配到的英文字符串进行格式转换，得到无标签文本数据对应的标准英文数据，根据标点符号正则表达式，对标准英文数据进行匹配，并按照预设的符号格式，对匹配到的标点符号进行格式转换，得到标准符号数据，根据参数字符正则表达式，对标准符号数据进行匹配，并过滤匹配到的参数字符，得到纯文本数据，能够将最大程度地将合同数据中容易出现的内容形式错误进行过滤和修正，保证对合同数据处理的精度，保证处理得到的纯文本数据的规范化，且该方法适用于各种合同类型的合同数据的规范化处理，无需针对每种合同类型分别开发对应的应用程序来对合同数据进行内容形式的规范化处理，从而提高对合同数据的处理效率。

在一实施例中，如图4所示，在步骤S1，即获取源合同文件，并读取源合同文件中的内容，得到源合同文件对应的原始合同数据具体包括如下步骤：

S101：接收客户端发送的源合同文件。

具体地，接收客户端发送的源合同文件具体可以是当客户端接收用户输入的文件地址时，则可以获取该文件地址中存储源合同文件，然后，客户端可以通过网络协议将将获取到的源合同文件发送到服务端进行数据处理。

S102：获取源合同文件的文件类型，并按照文件类型对应的内容读取方式对源合同文件进行读取，得到原始合同数据。

在本实施例中，文件类型具体可以是Excel的表格文件类型、PDF的文本文件类型，或是Word的文本文件类型，此处不做限制。

具体地获取源合同文件的文件类型具体可以是根据源合同文件储存的文件后缀名来确定该源合同文件的文件类型，或者是根据客户端发送的源合同文件备注的文件类型来确定该源合同文件的文件类型，还可以是通过其他方式来获取该源合同文件的文件类型，此处不做限制，然后，按照文件类型对应的内容读取方式对源合同文件进行读取，得到源合同文件中的原始合同数据，其中，每种文件类型对应一种内容读取方式，如PDF的文本文件类型对应的内容读取方式是只对文件中的文字数据进行文本行提取，不对文件中的样式进行提取，可以得到包含若干行的文本数据，即文本数据按行排布的原始合同数据，如Excel的表格文件类型对应的内容读取方式是对文件中的数据和表格样式进行完整提取，得到内容完整的原始合同数据，内容读取方式具体可以根据实际应用需求进行设置，此处不做限制。

在本实施例中，通过接收客户端发送的源合同文件，然后，获取源合同文件的文件类型，并按照文件类型对应的内容读取方式对源合同文件进行读取的，得到原始合同数据，从而能够对用户选定的源合同文件进行文本内容形式的规范化处理。

在一实施例中，如图5所示，在步骤S1中，即获取源合同文件，并读取源合同文件中的内容，得到源合同文件对应的原始合同数据具体还包括如下步骤：

S103：启动合同文件定时获取任务，并根据预设的目标文件类型，从预设的文件数据库中获取预设的目标文件类型对应的源合同文件。

在本实施例中，启动合同文件定时获取任务具体可以是按照预设的时间间隔进行文件获取。优选地，时间间隔可以设置为20分钟、10分钟或5分钟，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不做限制。预设的目标文件类型可以是合同数据常用的文件储存类型，如PDF的文本文件类型、exe的文本文件类型或者Word的文本文件类型等，可以理解的是，将预设的目标文件类型设置为合同数据常用的文件储存类型，可以保证在定时获取该目标文件类型对应的源合同文件时，能够获取到大批量的源合同文件，保证源合同文件的获取量。

具体地，启动源合同文件定时获取任务，间隔预定的时间间隔自动从本地合同文件数据库中获取预设的目标文件类型对应的源合同文件。

S104：按照目标文件类型对应的内容读取方式对源合同文件进行读取，得到原始合同数据。

在本实施例中，该步骤的具体实现方式与步骤S102相同，此处不再赘述。

在本实施中，通过启动合同文件定时获取任务，并根据预设的目标文件类型，从预设的文件数据库中获取预设的目标文件类型对应的源合同文件，然后，按照目标文件类型对应的内容读取方式对源合同文件进行读取，得到原始合同数据，能够针对不同的文件类型，并按照文件类型对应的内容读取方式能够快速充分地获取每个源合同文件中的原始合同数据，保证获取到的原始合同数据的准确性和完整性。

在一实施例中，如图6所示，在步骤S5之后，该合同文本数据的处理方法还包括对合同数据的查询处理，具体如下步骤：

S6：若接收到客户端发送的查询请求，则获取查询请求中包含的合同类型和查询字段。

具体地，获取查询请求中查询字段具体可以包括一个或多个查询关键词，或者是具体的数值或时间等，其中，查询关键词具体可以是签约方的姓名，如“李明”，或者是合同条例对应的“条例一”等，查询字段中的数值或时间具体可以是资金款项对应的数据值如“20万”、奖金的数据值“5000”或签约时间对应的“2018.1.15”等，此处不做限制，对接收到的客户端发送的查询请求中包含的合同类型和查询字段进行获取，能够根据该合同类型和查询字段在合同数据库中实现对用户所需和合同数据的快速查找。

S7：在合同数据库中，获取与合同类型对应的标准合同数据，作为基础合同数据。

具体地，根据在步骤S6中获取到的合同类型，在合同数据库中查找与该合同类型相同的目标类型，然后，获取该目标类型对应的标准合同数据，并将该标准合同数据作为基础合同数据，使得后续步骤对获取到的基础合同数据进行进一步的确认，保证查询的合同数据的准确性。

S8：对基础合同数据进行遍历，获取包含查询字段的基础合同数据作为目标合同数据，并将目标合同数据发送给客户端。

具体地，对基础合同数据进行遍历，获取包含查询字段的基础合同数据作为目标合同数据，具体可以是在获取到的每个基础合同数据中查找与查询字段完全一致的合同关键词，若一基础合同数据中完全包含有查询字段中所有的查询关键词、具体数值或时间等相同的数据，则将该基础合同数据作为目标合同数据，并将目标合同数据发送给客户端，能够实现对合同数据的精确查找，保证合同数据查询的准确率。

其中，将目标合同数据发送给客户端具体可以是将目标合同数据，以及备注目标合同数据的合同类型，目标合同数据保存在合同数据库中的文件类型等包含在发送给客户端的内容中，具体可以是以邮件、即时信息等形式发送给客户端，此处不做限制。

在本实施例中，通过接收到客户端发送的查询请求，并获取查询请求中包含的合同类型和查询字段，然后，在合同数据库中，获取与合同类型对应的标准合同数据，作为基础合同数据，进而对基础合同数据进行遍历，获取包含查询字段的基础合同数据作为目标合同数据，并将目标合同数据发送给客户端，能够实现对用户所需的合同数据的精确查找，提高对合同数据的查询准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种合同文本数据的处理装置，该合同文本数据的处理装置与上述实施例中合同文本数据的处理方法一一对应。如图7所示，该合同文本数据的处理装置包括文件获取模块701、标签过滤模块702、数据处理模块703、模板获取模块704和数据保存模块705。各功能模块详细说明如下：

文件获取模块701，用于获取源合同文件，并读取源合同文件中的内容，得到源合同文件对应的原始合同数据；

标签过滤模块702，用于根据预设的用于过滤网页标签的正则表达式，对原始合同数据进行标签过滤，得到原始合同数据对应的无标签文本数据；

数据处理模块703，用于根据预设的用于匹配预设字符串的正则表达式，对无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的预设字符串进行处理，得到无标签文本数据对应的纯文本数据；

模板获取模块704，用于获取源合同文件的合同类型，并从预设的模板库中获取合同类型对应的合同模板；

数据保存模块705，用于将纯文本数据导入的合同模板中，生成标准合同数据，并将源合同文件的合同类型和标准合同数据对应保存至合同数据库中。

进一步地，数据处理模块703包括：

英文转换单元7031，用于根据英文正则表达式，对无标签文本数据进行匹配，并按照预设的英文格式，对匹配到的英文字符串进行格式转换，得到无标签文本数据对应的标准英文数据；

符号转换单元7032，用于根据标点符号正则表达式，对标准英文数据进行匹配，并按照预设的符号格式，对匹配到的标点符号进行格式转换，得到标准符号数据；

字符过滤单元7033，用于根据参数字符正则表达式，对标准符号数据进行匹配，并过滤匹配到的参数字符，得到纯文本数据。

进一步地，文件获取模块701包括：

文件接收单元7011，用于接收客户端发送的源合同文件；

数据读取单元7012，用于获取源合同文件的文件类型，并按照文件类型对应的内容读取方式对源合同文件进行读取，得到原始合同数据。

进一步地，文件获取模块701还包括：

任务启动单元7013，用于启动合同文件定时获取任务，并根据预设的目标文件类型，从预设的文件数据库中获取预设的目标文件类型对应的源合同文件；

内容读取单元7014，用于按照目标文件类型对应的内容读取方式对源合同文件进行读取，得到原始合同数据。

进一步地，该合同文本数据的处理装置还包括：

请求接收模块706，用于若接收到客户端发送的查询请求，则获取查询请求中包含的合同类型和查询字段；

标准获取模块707，用于在合同数据库中，获取与合同类型对应的标准合同数据，作为基础合同数据；

数据发送模块708，用于对基础合同数据进行遍历，获取包含查询字段的基础合同数据作为目标合同数据，并将目标合同数据发送给客户端。

关于合同文本数据的处理装置的具体限定可以参见上文中对于合同文本数据的处理方法的限定，在此不再赘述。上述合同文本数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于保存合同数据信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种合同文本数据的处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例合同文本数据的处理方法的步骤，例如图2所示的步骤S1至步骤S5。或者，处理器执行计算机程序时实现上述实施例中合同文本数据的处理装置的各模块/单元的功能，例如图7所示模块701至模块705的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中合同文本数据的处理方法，或者，该计算机程序被处理器执行时实现上述装置实施例中合同文本数据的处理装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种合同文本数据的处理方法，其特征在于，所述合同文本数据的处理方法包括：

2.如权利要求1所述的合同文本数据的处理方法，其特征在于，预设字符串包括英文字符串、标点符号和预设的参数字符，所述正则表达式包括英文正则表达式、标点符号正则表达式和参数字符正则表达式，所述根据预设的用于匹配预设字符串的正则表达式，对所述无标签文本数据进行字符串匹配，并按照预设的处理方式，对匹配成功的所述预设字符串进行处理，得到所述无标签文本数据对应的纯文本数据包括：

根据所述英文正则表达式，对所述无标签文本数据进行匹配，并按照预设的英文格式，对匹配到的所述英文字符串进行格式转换，得到所述无标签文本数据对应的标准英文数据；

根据所述标点符号正则表达式，对所述标准英文数据进行匹配，并按照预设的符号格式，对匹配到的所述标点符号进行格式转换，得到标准符号数据；

根据所述参数字符正则表达式，对所述标准符号数据进行匹配，并过滤匹配到的所述参数字符，得到所述纯文本数据。

3.如权利要求1所述的合同文本数据的处理方法，其特征在于，所述获取源合同文件，并按照预设的合同类型，读取所述源合同文件中的内容，得到每种所述合同类型对应的原始合同数据包括：

接收客户端发送的所述源合同文件；

获取所述源合同文件的文件类型，并按照所述文件类型对应的内容读取方式对所述源合同文件进行读取，得到所述原始合同数据。

4.如权利要求1所述的合同文本数据的处理方法，其特征在于，所述获取源合同文件，并按照预设的合同类型，读取所述源合同文件中的内容，得到每种所述合同类型对应的原始合同数据还包括：

启动合同文件定时获取任务，并根据预设的目标文件类型，从预设的文件数据库中获取所述预设的目标文件类型对应的所述源合同文件；

按照所述目标文件类型对应的内容读取方式对所述源合同文件进行读取，得到所述原始合同数据。

5.如权利要求1所述的合同文本数据的处理方法，其特征在于，所述将所述纯文本数据导入所述的合同模板中，生成标准合同数据，并将所述源合同文件的合同类型和所述标准合同数据对应保存至合同数据库中之后，所述合同文本数据的处理方法还包括：

若接收到客户端发送的查询请求，则获取所述查询请求中包含的合同类型和查询字段；

在所述合同数据库中，获取与所述合同类型对应的标准合同数据，作为基础合同数据；

对所述基础合同数据进行遍历，获取包含所述查询字段的基础合同数据作为目标合同数据，并将所述目标合同数据发送给所述客户端。

6.一种合同文本数据的处理装置，其特征在于，所述合同文本数据的处理装置包括：

7.如权利要求6所述的合同文本数据的处理装置，其特征在于，所述数据处理模块包括：

英文转换单元，用于根据所述英文正则表达式，对所述无标签文本数据进行匹配，并按照预设的英文格式，对匹配到的所述英文字符串进行格式转换，得到所述无标签文本数据对应的标准英文数据；

符号转换单元，用于根据所述标点符号正则表达式，对所述标准英文数据进行匹配，并按照预设的符号格式，对匹配到的所述标点符号进行格式转换，得到标准符号数据；

字符过滤单元，用于根据所述参数字符正则表达式，对所述标准符号数据进行匹配，并过滤匹配到的所述参数字符，得到所述纯文本数据。

8.如权利要求6所述的合同文本数据的处理装置，其特征在于，所述文件获取模块包括：

文件接收单元，用于接收客户端发送的所述源合同文件；

数据读取单元，用于获取所述源合同文件的文件类型，并按照所述文件类型对应的内容读取方式对所述源合同文件进行读取，得到所述原始合同数据。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述合同文本数据的处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述合同文本数据的处理方法的步骤。