文件评估方法和装置
技术领域
本发明涉及文件管理领域,具体而言,涉及一种文件评估方法和装置。
背景技术
随着市场经济的深化和企业工作的发展,各企业间的交流合作不断增多,企业中有大量的文件需要处理,随着企业文件数量的增多,对文件的管理也出现了大量不确定的随机因素,对企业间的交流合作以及工程项目的顺利开展产生了较大的影响。文件管理是企业重要管理内容之一,其主要目标是优化文件管理流程、降低文件管理风险、提高文件管理效率。这需要对文件管理的一般流程和文件管理风险进行评估。目前对文件进行风险评估主要是通过人工对文件进行策划、拟定、审核,其对文件的管理步骤繁琐,工作量大,而且对与相似的文件需要重新撰写,耗时耗力。
针对现有技术中人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件评估方法和装置,以至少解决现有技术中人工对文件进行评估时操作繁琐以及工作量大的技术问题。
根据本发明实施例的一个方面,提供了一种文件评估方法,包括:获取目标文件;将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;从差异内容中提取一个或多个关键词;根据一个或多个关键词对目标文件的内容进行评估。
根据本发明实施例的另一方面,还提供了一种文件评估装置,包括:获取模块,用于获取目标文件;匹配模块,用于将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;提取模块,用于从差异内容中提取一个或多个关键词;评估模块,用于根据一个或多个关键词对目标文件的内容进行评估。
在本发明实施例中,采用机器自助匹配的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了现有技术中人工对文件进行评估时操作繁琐以及工作量大的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文件评估方法流程图;
图2(a)是根据本发明实施例的一种可选的目标文件示意图;
图2(b)是根据本发明实施例的一种可选的模板文件示意图;
图3是根据本发明实施例的一种可选的从差异内容中提取关键词的方法流程图;
图4是根据本发明实施例的一种可选的从差异内容中提取关键词的方法流程图;
图5是根据本发明实施例的一种可选的根据关键词评估目标文件内容的方法流程图;
图6是根据本发明实施例的一种可选的根据关键词评估目标文件内容的方法流程图;
图7是根据本发明实施例的一种可选的根据关键词等级评估目标文件内容的方法流程图;
图8是根据本发明实施例的一种可选的文件评估方法流程图;
图9是根据本发明实施例的一种文件评估装置的结构示意图;
图10是根据本发明实施例的一种可选的提取模块的结构示意图;
图11是根据本发明实施例的一种可选的评估模块的结构示意图;以及
图12是根据本发明实施例的一种可选的文件评估装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文件评估方法实施例。图1是根据本发明实施例的文件评估方法,如图1所示,该方法包括如下步骤:
步骤S102,获取目标文件;
步骤S104,将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;
步骤S106,从差异内容中提取一个或多个关键词;
步骤S108,根据一个或多个关键词对目标文件的内容进行评估。
作为一种可选的实施例,以目标文件为租赁合同为例进行说明,目标文件与模板文件为同一类文件,即目标文件也为租赁合同,如图2所示,图2(a)为目标文件,图2(b)为模板文件。将目标文件与模板文件进行比对,由于目标文件与模板文件为同一种类型的文件,所以这两种文件的布局是相同的。由图2可知,目标文件中的“日期”与模板文件中的“甲方”处在相同的位置上,所以“甲方”和“日期”即为差异内容的关键词,根据该关键词对该目标文件的租赁合同进行风险评估。其中,对目标文件与模板文件进行比对时,例如,可以是对两份合同逐字进行匹配,也可以对两份合同进行整体的匹配。
在一个可选的实施方式中,模板文件可以是用户预先设置的,也可以是机器根据多个同一类别的文件学习得到的,例如,已经有了100份合同,可以自动比对这些合同,找到这100份合同的共同之处作为模板,然后使用该模板与目标文件进行比较。
在本发明实施例中,可以采用机器自主匹配的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题。
可选地,如图3所示,从差异内容中提取一个或多个关键词的方法包括如下步骤:
步骤S202,获取预先配置的多个关键词;
步骤S204,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个关键词;
步骤S206,从差异内容中提取一个或多个关键词。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,预先配置的多个关键词可以为:“甲方”、“乙方”、“日期”、“证件编码”、“租金”等,目标文件与模板文件的差异内容为“甲方”和“日期”,从差异内容中可以得到关键词“甲方”和“日期”。
在另一个可选的实施方式中,关键词可以从多个用户收集而来,例如,可以通过向用户发送问卷的方式,让用户填写对于合同关心的内容,然后从这些内容中提取关键词。这些关键词的新增、编辑、删除等管理权限可以赋给不同的用户。
关键词的生成还可以使管理员或者有管理权限的用户输入关键词,然后以这些关键词作为基础,通过预定的服务器检索到这些关键词的相近似的词语,将这些相近似的词语也同样作为关键词使用。
关键词的筛选和使用有很多种方式,可选地,图4中示出了一种关键词的处理方式,如图4所示,从差异内容中提取一个或多个关键词的方法可以包括如下步骤:
步骤S302,根据预先配置的多个关键词,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词;
步骤S304,查找与一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词;
步骤S306,将一个或多个第一关键词和一个或多个第二关键词作为从差异内容中提取的一个或多个关键词。
这里引入另外一个观点,对于合同比较关心的是金额,这里表达的意思可能并不是对“金额”这个词感兴趣,而是对“金额”后面的数字感兴趣,此时,“金额”作为第一关键词,而“金额”后面的数字作为第二关键词,提取这两类关键词。
位置关系可以是第一关键词和第二关键词间隔的字符数量,也可以是第一关键词和第二关键词之间间隔了预定特殊字符,例如,“金额”和“数字”之间间隔了一个“:”。
作为另一个可选的实施例,还可以将特殊字符作为关键词。无论是特殊字符还是“金额”这类的关键词,其实关心的还都是词语本身的内容。关键词还可以包括带格式的预定词语,例如,将所有带下划线的词语都作为关键词,或者将所有加粗的词语也作为关键词。当然,这两种方式也可以结合使用,例如,将带下划线的“金额”作为关键词,而并没有带下划线的“金额”并不是关键词等等。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,从差异内容“甲方”和“日期”中查找到与预先配置的多个关键词相符合的第一关键词“甲方”,然后根据“甲方”后面的内容可以提取到甲方究竟是谁,例如,A公司,可以将A公司也作为关键词来进行评估。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程度,如图5所示,根据一个或多个关键词对目标文件的内容进行评估的方法包括如下步骤:
步骤S402,获取一个或多个关键词对应的等级;
步骤S404,根据一个或多个关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,对每个关键词分配不同的等级,对预先配置的多个关键词:“甲方”、“乙方”、“日期”、“证件编码”、“租金”进行等级分配可能如表1所示:
表1
关键词 |
甲方 |
乙方 |
日期 |
证件编号 |
租金 |
等级 |
1 |
1 |
4 |
2 |
3 |
其中,表1中的等级数值越大表示关键词的等级越低。根据表1中相应关键词所对应的等级数值来对目标文件的内容进行评估,可使评估结果数值化,为用户对目标文件进行风险评估提供了数值基础。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程度,如图6所示,根据一个或多个关键词对目标文件的内容进行评估的方法包括如下步骤:
步骤S502,获取根据预先配置的多个关键词对应的等级获取一个或多个第一关键词对应的等级;
步骤S504,根据一个或多个第二关键词表示出的内容确定一个或多个第二关键词分别对应的等级;
步骤S506,根据一个或多个第二关键词对应的等级,或者,一个或多个第二关键词和一个或多个第一关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例并结合表1进行说明,由表1可知,第一关键词是“甲方”,其等级对应的数值为1;第二关键词为“日期”,其等级对应的数值为4。根据第一关键词的等级数值1和第二关键词的等级数值4对目标文件进行风险评估。
在另外一个可选的实施例中,第一关键词的等级可以是动态的,即第一关键词的等级并不是预先配置好的,而是根据与第一关键词具有特定关系的第二关键词的内容来决定的。例如,第一关键词是甲方,甲方后面的公司的名称作为第二关键词,此时,如果第二关键词是A公司,则第一关键词的等级为2,如果第二关键词是B公司,则第一关键词的等级是3。通过这样动态调整的方式,可以使第一关键词的重要性更加得到合理的体现。
在获取到关键词的等级之后,可以使用该等级做多种方式的评估。图7提供了一种示例,如图7所示,根据一个或多个关键词对应的等级对目标文件的内容进行评估的方法可以包括如下步骤:
步骤S602,根据一个或多个关键词中每个关键词的等级确定每个关键词的评分;
步骤S604,根据一个或多个关键词的评分得到目标文件的评分,将目标文件的评分作为目标文件的内容的评估结果。
作为一种可选的实施例,仍以目标文件为租赁合同并结合表1为例进行说明,每个关键词的等级对应一个评分,其评分与等级之间可能满足表2:
表2
等级 |
1 |
2 |
3 |
4 |
评分 |
90 |
80 |
70 |
60 |
则第一关键词“甲方”的评分为90,第二关键词“日期”的评分为60。根据关键词的评分得到目标文件的评分,而该目标文件的评分作为该文件风险的评估结果。在只有一个关键词的情况下,该关键词的评分即为该目标文件的评估结果。当关键词为多个时,可以通过计算所有关键词所对应评分的平均值或加权平均值作为评估结果。
可选地,如图8所示,上述方法还包括如下步骤:
步骤S702,从差异内容中提取的一个或多个关键词分别对应于差异内容的一个或多个部分;
步骤S704,在一个或多个关键词对应的差异内容的一个或多个部分中显示该关键词的等级;或者,在一个或多个关键词上显示该关键词对应的等级。
作为一种可选的实施例,差异内容可分为多个部分,例如,在租赁合同中,可以分为:基本信息部分、基本条款部分和补充条款部分等,从差异内容中提取的关键词分别位于差异内容的不同部分之中,可以在差异内容的不同部分中显示关键词的等级,也可以在不同的关键词上显示该关键词的等级。
实施例2
根据本发明实施例,提供了一种文件评估装置实施例。
图9是根据本发明实施例的文件评估装置的结构示意图,如图9所示,该装置包括获取模块901、匹配模块903、提取模块905和评估模块907。
获取模块901,用于获取目标文件。
匹配模块903,用于将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的。
提取模块905,用于从差异内容中提取一个或多个关键词。
评估模块907,用于根据一个或多个关键词对目标文件的内容进行评估。
作为一种可选的实施例,以目标文件为租赁合同为例进行说明,目标文件与模板文件为同一类文件,即目标文件也为租赁合同,如图2所示,图2(a)为目标文件,图2(b)为模板文件。将目标文件与模板文件进行比对,由于目标文件与模板文件为同一种类型的文件,所以这两种文件的布局是相同的。由图2可知,目标文件中的“日期”与模板文件中的“甲方”处在相同的位置上,所以“甲方”和“日期”即为差异内容的关键词,根据该关键词对该目标文件的租赁合同进行风险评估。其中,对目标文件与模板文件进行比对时,例如,可以是对两份合同逐字进行匹配,也可以对两份合同进行整体的匹配。
在一个可选的实施方式中,模板文件可以是用户预先设置的,也可以是机器根据多个同一类别的文件学习得到的,例如,已经有了100份合同,可以自动比对这些合同,找到这100份合同的共同之处作为模板,然后使用该模板与目标文件进行比较。
在本发明实施例中,采用机器学习的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题。
可选地,如图10所示,提取模块905包括:
第一获取模块9051,用于获取预先配置的多个关键词。
第一匹配模块9053,用于从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个关键词。
第一提取模块9505,用于从差异内容中提取一个或多个关键词。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,预先配置的多个关键词可以为:“甲方”、“乙方”、“日期”、“证件编码”、“租金”等,目标文件与模板文件的差异内容为“甲方”和“日期”,从差异内容中可以得到关键词“甲方”和“日期”。
在另一个可选的实施方式中,关键词可以从多个用户收集而来,例如,可以通过向用户发送问卷的方式,让用户填写对于合同关心的内容,然后从这些内容中提取关键词。这些关键词的新增、编辑、删除等管理权限可以赋给不同的用户。
关键词的生成还可以使管理员或者有管理权限的用户输入关键词,然后以这些关键词作为基础,通过预定的服务器检索到这些关键词的相近似的词语,将这些相近似的词语也同样作为关键词使用。
关键词的筛选和使用有很多种方式,可选地,如图10所示,第一提取模块9505包括:
第二匹配模块1001,用于根据预先配置的多个关键词,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词。
检索模块1003,用于查找与一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词。
第三提取模块1005,用于将一个或多个第一关键词和一个或多个第二关键词作为从差异内容中提取的一个或多个关键词。
这里引入另外一个观点,对于合同比较关心的是金额,这里表达的意思可能并不是对“金额”这个词感兴趣,而是对“金额”后面的数字感兴趣,此时,“金额”作为第一关键词,而“金额”后面的数字作为第二关键词,提取这两类关键词。
位置关系可以是第一关键词和第二关键词间隔的字符数量,也可以是第一关键词和第二关键词之间间隔了预定特殊字符,例如,“金额”和“数字”之间间隔了一个“:”。
作为另一个可选的实施例,还可以将特殊字符作为关键词。无论是特殊字符还是“金额”这类的关键词,其实关心的还都是词语本身的内容。关键词还可以包括带格式的预定词语,例如,将所有带下划线的词语都作为关键词,或者将所有加粗的词语也作为关键词。当然,这两种方式也可以结合使用,例如,将带下划线的“金额”作为关键词,而并没有带下划线的“金额”并不是关键词等等。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,从差异内容“甲方”和“日期”中查找到与预先配置的多个关键词相符合的第一关键词“甲方”,然后根据“甲方”后面的内容可以提取到甲方究竟是谁,例如,A公司,可以将A公司也作为关键词来进行评估。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程序,如图11所示,评估模块907包括:
第二获取模块1101,用于获取一个或多个关键词对应的等级。
第一评估模块1103,用于根据一个或多个关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,对每个关键词分配不同的等级,对预先配置的多个关键词:“甲方”、“乙方”、“日期”、“证件编码”、“租金”进行等级分配可能如表3所示:
表3
关键词 |
甲方 |
乙方 |
日期 |
证件编号 |
租金 |
等级 |
1 |
1 |
4 |
2 |
3 |
其中,表3中的等级数值越大表示关键词的等级越低。根据表3中相应关键词所对应的等级数值来对目标文件的内容进行评估,可使评估结果数值化,为用户对目标文件进行风险评估提供了数值基础。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程序,评估模块907包括:
第三获取模块1105,用于获取根据预先配置的多个关键词对应的等级获取一个或多个第一关键词对应的等级。
第四获取模块1107,用于根据一个或多个第二关键词表示出的内容确定一个或多个第二关键词分别对应的等级。
第二评估模块1109,用于根据一个或多个第二关键词对应的等级,或者,一个或多个第二关键词和一个或多个第一关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例并结合表3进行说明,由表3可知,第一关键词是“甲方”,其等级对应的数值为1;第二关键词为“日期”,其等级对应的数值为4。根据第一关键词的等级数值1和第二关键词的等级数值4对目标文件进行风险评估。
在另外一个可选的实施例中,第一关键词的等级可以是动态的,即第一关键词的等级并不是预先配置好的,而是根据与第一关键词具有特定关系的第二关键词的内容来决定的。例如,第一关键词是甲方,甲方后面的公司的名称作为第二关键词,此时,如果第二关键词是A公司,则第一关键词的等级为2,如果第二关键词是B公司,则第一关键词的等级是3。通过这样动态调整的方式,可以使第一关键词的重要性更加得到合理的体现。
可选地,第一评估模块1103包括:
第一计算模块1111,用于根据一个或多个关键词中每个关键词的等级确定每个关键词的评分。
第二计算模块1113,用于根据一个或多个关键词的评分得到目标文件的评分,将目标文件的评分作为目标文件的内容的评估结果。
作为一种可选的实施例,仍以目标文件为租赁合同并结合表3为例进行说明,每个关键词的等级对应一个评分,其评分与等级之间可能满足表4:
表4
等级 |
1 |
2 |
3 |
4 |
评分 |
90 |
80 |
70 |
60 |
则第一关键词“甲方”的评分为90,第二关键词“日期”的评分为60。根据关键词的评分得到目标文件的评分,而该目标文件的评分作为该文件风险的评估结果。在只有一个关键词的情况下,该关键词的评分即为该目标文件的评估结果。当关键词为多个时,可以通过计算所有关键词所对应评分的平均值或加权平均值作为评估结果。
可选地,如图12所示,上述装置还包括:
差异提取模块1201,用于从差异内容中提取的一个或多个关键词分别对应于差异内容的一个或多个部分。
显示模块1203,用于在一个或多个关键词对应的差异内容的一个或多个部分中显示该关键词的等级;或者,在一个或多个关键词上显示该关键词对应的等级。
作为一种可选的实施例,差异内容可分为多个部分,例如,在租赁合同中,可以分为:基本信息部分、基本条款部分和补充条款部分等,从差异内容中提取的关键词分别位于差异内容的不同部分之中,可以在差异内容的不同部分中显示关键词的等级,也可以在不同的关键词上显示该关键词的等级。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。