CN107870927A - 文件评估方法和装置 - Google Patents

文件评估方法和装置 Download PDF

Info

Publication number
CN107870927A
CN107870927A CN201610851787.1A CN201610851787A CN107870927A CN 107870927 A CN107870927 A CN 107870927A CN 201610851787 A CN201610851787 A CN 201610851787A CN 107870927 A CN107870927 A CN 107870927A
Authority
CN
China
Prior art keywords
keywords
keyword
content
grade
file destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610851787.1A
Other languages
English (en)
Other versions
CN107870927B (zh
Inventor
席强辉
米维聪
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wisdom Mdt Infotech Ltd
Original Assignee
Shanghai Wisdom Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wisdom Mdt Infotech Ltd filed Critical Shanghai Wisdom Mdt Infotech Ltd
Priority to CN201610851787.1A priority Critical patent/CN107870927B/zh
Priority to PCT/CN2017/099553 priority patent/WO2018054199A1/zh
Publication of CN107870927A publication Critical patent/CN107870927A/zh
Application granted granted Critical
Publication of CN107870927B publication Critical patent/CN107870927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件评估方法和装置。其中,该方法包括:获取目标文件;将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;从差异内容中提取一个或多个关键词;根据一个或多个关键词对目标文件的内容进行评估。本发明解决了现有技术中人工对文件进行评估时操作繁琐以及工作量大的技术问题。

Description

文件评估方法和装置
技术领域
本发明涉及文件管理领域,具体而言,涉及一种文件评估方法和装置。
背景技术
随着市场经济的深化和企业工作的发展,各企业间的交流合作不断增多,企业中有大量的文件需要处理,随着企业文件数量的增多,对文件的管理也出现了大量不确定的随机因素,对企业间的交流合作以及工程项目的顺利开展产生了较大的影响。文件管理是企业重要管理内容之一,其主要目标是优化文件管理流程、降低文件管理风险、提高文件管理效率。这需要对文件管理的一般流程和文件管理风险进行评估。目前对文件进行风险评估主要是通过人工对文件进行策划、拟定、审核,其对文件的管理步骤繁琐,工作量大,而且对与相似的文件需要重新撰写,耗时耗力。
针对现有技术中人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件评估方法和装置,以至少解决现有技术中人工对文件进行评估时操作繁琐以及工作量大的技术问题。
根据本发明实施例的一个方面,提供了一种文件评估方法,包括:获取目标文件;将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;从差异内容中提取一个或多个关键词;根据一个或多个关键词对目标文件的内容进行评估。
根据本发明实施例的另一方面,还提供了一种文件评估装置,包括:获取模块,用于获取目标文件;匹配模块,用于将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;提取模块,用于从差异内容中提取一个或多个关键词;评估模块,用于根据一个或多个关键词对目标文件的内容进行评估。
在本发明实施例中,采用机器自助匹配的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了现有技术中人工对文件进行评估时操作繁琐以及工作量大的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文件评估方法流程图;
图2(a)是根据本发明实施例的一种可选的目标文件示意图;
图2(b)是根据本发明实施例的一种可选的模板文件示意图;
图3是根据本发明实施例的一种可选的从差异内容中提取关键词的方法流程图;
图4是根据本发明实施例的一种可选的从差异内容中提取关键词的方法流程图;
图5是根据本发明实施例的一种可选的根据关键词评估目标文件内容的方法流程图;
图6是根据本发明实施例的一种可选的根据关键词评估目标文件内容的方法流程图;
图7是根据本发明实施例的一种可选的根据关键词等级评估目标文件内容的方法流程图;
图8是根据本发明实施例的一种可选的文件评估方法流程图;
图9是根据本发明实施例的一种文件评估装置的结构示意图;
图10是根据本发明实施例的一种可选的提取模块的结构示意图;
图11是根据本发明实施例的一种可选的评估模块的结构示意图;以及
图12是根据本发明实施例的一种可选的文件评估装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文件评估方法实施例。图1是根据本发明实施例的文件评估方法,如图1所示,该方法包括如下步骤:
步骤S102,获取目标文件;
步骤S104,将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的;
步骤S106,从差异内容中提取一个或多个关键词;
步骤S108,根据一个或多个关键词对目标文件的内容进行评估。
作为一种可选的实施例,以目标文件为租赁合同为例进行说明,目标文件与模板文件为同一类文件,即目标文件也为租赁合同,如图2所示,图2(a)为目标文件,图2(b)为模板文件。将目标文件与模板文件进行比对,由于目标文件与模板文件为同一种类型的文件,所以这两种文件的布局是相同的。由图2可知,目标文件中的“日期”与模板文件中的“甲方”处在相同的位置上,所以“甲方”和“日期”即为差异内容的关键词,根据该关键词对该目标文件的租赁合同进行风险评估。其中,对目标文件与模板文件进行比对时,例如,可以是对两份合同逐字进行匹配,也可以对两份合同进行整体的匹配。
在一个可选的实施方式中,模板文件可以是用户预先设置的,也可以是机器根据多个同一类别的文件学习得到的,例如,已经有了100份合同,可以自动比对这些合同,找到这100份合同的共同之处作为模板,然后使用该模板与目标文件进行比较。
在本发明实施例中,可以采用机器自主匹配的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题。
可选地,如图3所示,从差异内容中提取一个或多个关键词的方法包括如下步骤:
步骤S202,获取预先配置的多个关键词;
步骤S204,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个关键词;
步骤S206,从差异内容中提取一个或多个关键词。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,预先配置的多个关键词可以为:“甲方”、“乙方”、“日期”、“证件编码”、“租金”等,目标文件与模板文件的差异内容为“甲方”和“日期”,从差异内容中可以得到关键词“甲方”和“日期”。
在另一个可选的实施方式中,关键词可以从多个用户收集而来,例如,可以通过向用户发送问卷的方式,让用户填写对于合同关心的内容,然后从这些内容中提取关键词。这些关键词的新增、编辑、删除等管理权限可以赋给不同的用户。
关键词的生成还可以使管理员或者有管理权限的用户输入关键词,然后以这些关键词作为基础,通过预定的服务器检索到这些关键词的相近似的词语,将这些相近似的词语也同样作为关键词使用。
关键词的筛选和使用有很多种方式,可选地,图4中示出了一种关键词的处理方式,如图4所示,从差异内容中提取一个或多个关键词的方法可以包括如下步骤:
步骤S302,根据预先配置的多个关键词,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词;
步骤S304,查找与一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词;
步骤S306,将一个或多个第一关键词和一个或多个第二关键词作为从差异内容中提取的一个或多个关键词。
这里引入另外一个观点,对于合同比较关心的是金额,这里表达的意思可能并不是对“金额”这个词感兴趣,而是对“金额”后面的数字感兴趣,此时,“金额”作为第一关键词,而“金额”后面的数字作为第二关键词,提取这两类关键词。
位置关系可以是第一关键词和第二关键词间隔的字符数量,也可以是第一关键词和第二关键词之间间隔了预定特殊字符,例如,“金额”和“数字”之间间隔了一个“:”。
作为另一个可选的实施例,还可以将特殊字符作为关键词。无论是特殊字符还是“金额”这类的关键词,其实关心的还都是词语本身的内容。关键词还可以包括带格式的预定词语,例如,将所有带下划线的词语都作为关键词,或者将所有加粗的词语也作为关键词。当然,这两种方式也可以结合使用,例如,将带下划线的“金额”作为关键词,而并没有带下划线的“金额”并不是关键词等等。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,从差异内容“甲方”和“日期”中查找到与预先配置的多个关键词相符合的第一关键词“甲方”,然后根据“甲方”后面的内容可以提取到甲方究竟是谁,例如,A公司,可以将A公司也作为关键词来进行评估。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程度,如图5所示,根据一个或多个关键词对目标文件的内容进行评估的方法包括如下步骤:
步骤S402,获取一个或多个关键词对应的等级;
步骤S404,根据一个或多个关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,对每个关键词分配不同的等级,对预先配置的多个关键词:“甲方”、“乙方”、“日期”、“证件编码”、“租金”进行等级分配可能如表1所示:
表1
关键词 甲方 乙方 日期 证件编号 租金
等级 1 1 4 2 3
其中,表1中的等级数值越大表示关键词的等级越低。根据表1中相应关键词所对应的等级数值来对目标文件的内容进行评估,可使评估结果数值化,为用户对目标文件进行风险评估提供了数值基础。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程度,如图6所示,根据一个或多个关键词对目标文件的内容进行评估的方法包括如下步骤:
步骤S502,获取根据预先配置的多个关键词对应的等级获取一个或多个第一关键词对应的等级;
步骤S504,根据一个或多个第二关键词表示出的内容确定一个或多个第二关键词分别对应的等级;
步骤S506,根据一个或多个第二关键词对应的等级,或者,一个或多个第二关键词和一个或多个第一关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例并结合表1进行说明,由表1可知,第一关键词是“甲方”,其等级对应的数值为1;第二关键词为“日期”,其等级对应的数值为4。根据第一关键词的等级数值1和第二关键词的等级数值4对目标文件进行风险评估。
在另外一个可选的实施例中,第一关键词的等级可以是动态的,即第一关键词的等级并不是预先配置好的,而是根据与第一关键词具有特定关系的第二关键词的内容来决定的。例如,第一关键词是甲方,甲方后面的公司的名称作为第二关键词,此时,如果第二关键词是A公司,则第一关键词的等级为2,如果第二关键词是B公司,则第一关键词的等级是3。通过这样动态调整的方式,可以使第一关键词的重要性更加得到合理的体现。
在获取到关键词的等级之后,可以使用该等级做多种方式的评估。图7提供了一种示例,如图7所示,根据一个或多个关键词对应的等级对目标文件的内容进行评估的方法可以包括如下步骤:
步骤S602,根据一个或多个关键词中每个关键词的等级确定每个关键词的评分;
步骤S604,根据一个或多个关键词的评分得到目标文件的评分,将目标文件的评分作为目标文件的内容的评估结果。
作为一种可选的实施例,仍以目标文件为租赁合同并结合表1为例进行说明,每个关键词的等级对应一个评分,其评分与等级之间可能满足表2:
表2
等级 1 2 3 4
评分 90 80 70 60
则第一关键词“甲方”的评分为90,第二关键词“日期”的评分为60。根据关键词的评分得到目标文件的评分,而该目标文件的评分作为该文件风险的评估结果。在只有一个关键词的情况下,该关键词的评分即为该目标文件的评估结果。当关键词为多个时,可以通过计算所有关键词所对应评分的平均值或加权平均值作为评估结果。
可选地,如图8所示,上述方法还包括如下步骤:
步骤S702,从差异内容中提取的一个或多个关键词分别对应于差异内容的一个或多个部分;
步骤S704,在一个或多个关键词对应的差异内容的一个或多个部分中显示该关键词的等级;或者,在一个或多个关键词上显示该关键词对应的等级。
作为一种可选的实施例,差异内容可分为多个部分,例如,在租赁合同中,可以分为:基本信息部分、基本条款部分和补充条款部分等,从差异内容中提取的关键词分别位于差异内容的不同部分之中,可以在差异内容的不同部分中显示关键词的等级,也可以在不同的关键词上显示该关键词的等级。
实施例2
根据本发明实施例,提供了一种文件评估装置实施例。
图9是根据本发明实施例的文件评估装置的结构示意图,如图9所示,该装置包括获取模块901、匹配模块903、提取模块905和评估模块907。
获取模块901,用于获取目标文件。
匹配模块903,用于将目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,模板文件为预先获得的。
提取模块905,用于从差异内容中提取一个或多个关键词。
评估模块907,用于根据一个或多个关键词对目标文件的内容进行评估。
作为一种可选的实施例,以目标文件为租赁合同为例进行说明,目标文件与模板文件为同一类文件,即目标文件也为租赁合同,如图2所示,图2(a)为目标文件,图2(b)为模板文件。将目标文件与模板文件进行比对,由于目标文件与模板文件为同一种类型的文件,所以这两种文件的布局是相同的。由图2可知,目标文件中的“日期”与模板文件中的“甲方”处在相同的位置上,所以“甲方”和“日期”即为差异内容的关键词,根据该关键词对该目标文件的租赁合同进行风险评估。其中,对目标文件与模板文件进行比对时,例如,可以是对两份合同逐字进行匹配,也可以对两份合同进行整体的匹配。
在一个可选的实施方式中,模板文件可以是用户预先设置的,也可以是机器根据多个同一类别的文件学习得到的,例如,已经有了100份合同,可以自动比对这些合同,找到这100份合同的共同之处作为模板,然后使用该模板与目标文件进行比较。
在本发明实施例中,采用机器学习的方式,通过首先获取需要进行评估的目标文件,并将目标文件与模板文件进行匹配,查找出差异的内容,从差异内容中提取关键词,根据提取的关键词对目标文件进行评估,达到了方便快捷的对文件进行评估的目的,从而实现了对文件进行分类管理,快速对文件进行风险评估的技术效果,进而解决了人工对文件进行评估时所带来的操作繁琐、工作量大的技术问题。
可选地,如图10所示,提取模块905包括:
第一获取模块9051,用于获取预先配置的多个关键词。
第一匹配模块9053,用于从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个关键词。
第一提取模块9505,用于从差异内容中提取一个或多个关键词。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,预先配置的多个关键词可以为:“甲方”、“乙方”、“日期”、“证件编码”、“租金”等,目标文件与模板文件的差异内容为“甲方”和“日期”,从差异内容中可以得到关键词“甲方”和“日期”。
在另一个可选的实施方式中,关键词可以从多个用户收集而来,例如,可以通过向用户发送问卷的方式,让用户填写对于合同关心的内容,然后从这些内容中提取关键词。这些关键词的新增、编辑、删除等管理权限可以赋给不同的用户。
关键词的生成还可以使管理员或者有管理权限的用户输入关键词,然后以这些关键词作为基础,通过预定的服务器检索到这些关键词的相近似的词语,将这些相近似的词语也同样作为关键词使用。
关键词的筛选和使用有很多种方式,可选地,如图10所示,第一提取模块9505包括:
第二匹配模块1001,用于根据预先配置的多个关键词,从差异内容中查找到与预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词。
检索模块1003,用于查找与一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词。
第三提取模块1005,用于将一个或多个第一关键词和一个或多个第二关键词作为从差异内容中提取的一个或多个关键词。
这里引入另外一个观点,对于合同比较关心的是金额,这里表达的意思可能并不是对“金额”这个词感兴趣,而是对“金额”后面的数字感兴趣,此时,“金额”作为第一关键词,而“金额”后面的数字作为第二关键词,提取这两类关键词。
位置关系可以是第一关键词和第二关键词间隔的字符数量,也可以是第一关键词和第二关键词之间间隔了预定特殊字符,例如,“金额”和“数字”之间间隔了一个“:”。
作为另一个可选的实施例,还可以将特殊字符作为关键词。无论是特殊字符还是“金额”这类的关键词,其实关心的还都是词语本身的内容。关键词还可以包括带格式的预定词语,例如,将所有带下划线的词语都作为关键词,或者将所有加粗的词语也作为关键词。当然,这两种方式也可以结合使用,例如,将带下划线的“金额”作为关键词,而并没有带下划线的“金额”并不是关键词等等。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例进行说明,从差异内容“甲方”和“日期”中查找到与预先配置的多个关键词相符合的第一关键词“甲方”,然后根据“甲方”后面的内容可以提取到甲方究竟是谁,例如,A公司,可以将A公司也作为关键词来进行评估。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程序,如图11所示,评估模块907包括:
第二获取模块1101,用于获取一个或多个关键词对应的等级。
第一评估模块1103,用于根据一个或多个关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,对每个关键词分配不同的等级,对预先配置的多个关键词:“甲方”、“乙方”、“日期”、“证件编码”、“租金”进行等级分配可能如表3所示:
表3
关键词 甲方 乙方 日期 证件编号 租金
等级 1 1 4 2 3
其中,表3中的等级数值越大表示关键词的等级越低。根据表3中相应关键词所对应的等级数值来对目标文件的内容进行评估,可使评估结果数值化,为用户对目标文件进行风险评估提供了数值基础。
可选地,预先配置的多个关键词分别对应不同的等级,其中,等级用于描述该关键词的重要程序,评估模块907包括:
第三获取模块1105,用于获取根据预先配置的多个关键词对应的等级获取一个或多个第一关键词对应的等级。
第四获取模块1107,用于根据一个或多个第二关键词表示出的内容确定一个或多个第二关键词分别对应的等级。
第二评估模块1109,用于根据一个或多个第二关键词对应的等级,或者,一个或多个第二关键词和一个或多个第一关键词对应的等级对目标文件的内容进行评估。
作为一种可选的实施例,以图2中的目标文件为租赁合同为例并结合表3进行说明,由表3可知,第一关键词是“甲方”,其等级对应的数值为1;第二关键词为“日期”,其等级对应的数值为4。根据第一关键词的等级数值1和第二关键词的等级数值4对目标文件进行风险评估。
在另外一个可选的实施例中,第一关键词的等级可以是动态的,即第一关键词的等级并不是预先配置好的,而是根据与第一关键词具有特定关系的第二关键词的内容来决定的。例如,第一关键词是甲方,甲方后面的公司的名称作为第二关键词,此时,如果第二关键词是A公司,则第一关键词的等级为2,如果第二关键词是B公司,则第一关键词的等级是3。通过这样动态调整的方式,可以使第一关键词的重要性更加得到合理的体现。
可选地,第一评估模块1103包括:
第一计算模块1111,用于根据一个或多个关键词中每个关键词的等级确定每个关键词的评分。
第二计算模块1113,用于根据一个或多个关键词的评分得到目标文件的评分,将目标文件的评分作为目标文件的内容的评估结果。
作为一种可选的实施例,仍以目标文件为租赁合同并结合表3为例进行说明,每个关键词的等级对应一个评分,其评分与等级之间可能满足表4:
表4
等级 1 2 3 4
评分 90 80 70 60
则第一关键词“甲方”的评分为90,第二关键词“日期”的评分为60。根据关键词的评分得到目标文件的评分,而该目标文件的评分作为该文件风险的评估结果。在只有一个关键词的情况下,该关键词的评分即为该目标文件的评估结果。当关键词为多个时,可以通过计算所有关键词所对应评分的平均值或加权平均值作为评估结果。
可选地,如图12所示,上述装置还包括:
差异提取模块1201,用于从差异内容中提取的一个或多个关键词分别对应于差异内容的一个或多个部分。
显示模块1203,用于在一个或多个关键词对应的差异内容的一个或多个部分中显示该关键词的等级;或者,在一个或多个关键词上显示该关键词对应的等级。
作为一种可选的实施例,差异内容可分为多个部分,例如,在租赁合同中,可以分为:基本信息部分、基本条款部分和补充条款部分等,从差异内容中提取的关键词分别位于差异内容的不同部分之中,可以在差异内容的不同部分中显示关键词的等级,也可以在不同的关键词上显示该关键词的等级。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种文件评估方法,其特征在于,包括:
获取目标文件;
将所述目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,所述模板文件为预先获得的;
从所述差异内容中提取一个或多个关键词;
根据所述一个或多个关键词对所述目标文件的内容进行评估。
2.根据权利要求1所述的方法,其特征在于,从所述差异内容中提取一个或多个关键词包括:
获取预先配置的多个关键词;
从所述差异内容中查找到与所述预先配置的多个关键词中的至少之一相符合的所述一个或多个关键词;
从所述差异内容中提取所述一个或多个关键词。
3.根据权利要求2所述的方法,其特征在于,从所述差异内容中提取所述一个或多个关键词包括:
根据所述预先配置的多个关键词,从所述差异内容中查找到与所述预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词;
查找与所述一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词;
将所述一个或多个第一关键词和所述一个或多个第二关键词作为从所述差异内容中提取的所述一个或多个关键词。
4.根据权利要求3所述的方法,其特征在于,预先配置的所述多个关键词分别对应不同的等级,其中,所述等级用于描述该关键词的重要程度,根据所述一个或多个关键词对所述目标文件的内容进行评估包括:
获取所述一个或多个关键词对应的等级;
根据所述一个或多个关键词对应的等级对所述目标文件的内容进行评估。
5.根据权利要求3所述的方法,其特征在于,预先配置的所述多个关键词分别对应不同的等级,其中,所述等级用于描述该关键词的重要程度,根据所述一个或多个关键词对所述目标文件的内容进行评估包括:
获取根据预先配置的多个关键词对应的等级获取所述一个或多个第一关键词对应的等级;
根据所述一个或多个第二关键词表示出的内容确定所述一个或多个第二关键词分别对应的等级;
根据所述一个或多个第二关键词对应的等级,或者,所述一个或多个第二关键词和所述一个或多个第一关键词对应的等级对所述目标文件的内容进行评估。
6.根据权利要求2至5中任意一项所述的方法,其特征在于,根据所述一个或多个关键词对应的等级对所述目标文件的内容进行评估包括:
根据所述一个或多个关键词中每个关键词的等级确定每个关键词的评分;
根据所述一个或多个关键词的评分得到所述目标文件的评分,将所述目标文件的评分作为所述目标文件的内容的评估结果。
7.根据权利要求2至5中任意一项所述的方法,其特征在于,还包括:
从所述差异内容中提取的一个或多个关键词分别对应于所述差异内容的一个或多个部分;
在所述一个或多个关键词对应的所述差异内容的一个或多个部分中显示该关键词的等级;或者,在所述一个或多个关键词上显示该关键词对应的等级。
8.一种文件评估装置,其特征在于,包括:
获取模块,用于获取目标文件;
匹配模块,用于将所述目标文件中的内容与模板文件中的内容进行比较以查找差异内容,其中,所述模板文件为预先获得的;
提取模块,用于从所述差异内容中提取一个或多个关键词;
评估模块,用于根据所述一个或多个关键词对所述目标文件的内容进行评估。
9.根据权利要求8所述的装置,其特征在于,提取模块包括:
第一获取模块,用于获取预先配置的多个关键词;
第一匹配模块,用于从所述差异内容中查找到与所述预先配置的多个关键词中的至少之一相符合的所述一个或多个关键词;
第一提取模块,用于从所述差异内容中提取所述一个或多个关键词。
10.根据权利要求9所述的装置,其特征在于,第一提取模块包括:
第二匹配模块,用于根据所述预先配置的多个关键词,从所述差异内容中查找到与所述预先配置的多个关键词中的至少之一相符合的一个或多个第一关键词;
检索模块,用于查找与所述一个或多个第一关键词的位置关系符合预定条件的一个或多个第二关键词;
第三提取模块,用于将所述一个或多个第一关键词和所述一个或多个第二关键词作为从所述差异内容中提取的所述一个或多个关键词。
11.根据权利要求10所述的装置,其特征在于,预先配置的所述多个关键词分别对应不同的等级,其中,所述等级用于描述该关键词的重要程度,评估模块包括:
第二获取模块,用于获取所述一个或多个关键词对应的等级;
第一评估模块,用于根据所述一个或多个关键词对应的等级对所述目标文件的内容进行评估。
12.根据权利要求10所述的装置,其特征在于,预先配置的所述多个关键词分别对应不同的等级,其中,所述等级用于描述该关键词的重要程度,根据所述一个或多个关键词对所述目标文件的内容进行评估包括:
第三获取模块,用于获取根据预先配置的多个关键词对应的等级获取所述一个或多个第一关键词对应的等级;
第四获取模块,用于根据所述一个或多个第二关键词表示出的内容确定所述一个或多个第二关键词分别对应的等级;
第二评估模块,用于根据所述一个或多个第二关键词对应的等级,或者,所述一个或多个第二关键词和所述一个或多个第一关键词对应的等级对所述目标文件的内容进行评估。
13.根据权利要求9至12中任意一项所述的装置,其特征在于,第一评估模块包括:
第一计算模块,用于根据所述一个或多个关键词中每个关键词的等级确定每个关键词的评分;
第二计算模块,用于根据所述一个或多个关键词的评分得到所述目标文件的评分,将所述目标文件的评分作为所述目标文件的内容的评估结果。
14.根据权利要求9至12中任意一项所述的装置,其特征在于,还包括:
差异提取模块,用于从所述差异内容中提取的一个或多个关键词分别对应于所述差异内容的一个或多个部分;
显示模块,用于在所述一个或多个关键词对应的所述差异内容的一个或多个部分中显示该关键词的等级;或者,在所述一个或多个关键词上显示该关键词对应的等级。
CN201610851787.1A 2016-09-26 2016-09-26 文件评估方法和装置 Active CN107870927B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610851787.1A CN107870927B (zh) 2016-09-26 2016-09-26 文件评估方法和装置
PCT/CN2017/099553 WO2018054199A1 (zh) 2016-09-26 2017-08-30 文件评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610851787.1A CN107870927B (zh) 2016-09-26 2016-09-26 文件评估方法和装置

Publications (2)

Publication Number Publication Date
CN107870927A true CN107870927A (zh) 2018-04-03
CN107870927B CN107870927B (zh) 2021-08-13

Family

ID=61690169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610851787.1A Active CN107870927B (zh) 2016-09-26 2016-09-26 文件评估方法和装置

Country Status (2)

Country Link
CN (1) CN107870927B (zh)
WO (1) WO2018054199A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733650A (zh) * 2018-05-14 2018-11-02 科大讯飞股份有限公司 个性化词获取方法及装置
CN109146223A (zh) * 2018-06-14 2019-01-04 中国地质大学(武汉) 土地利用转型管控系统
CN109523225A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 一种合同管理方法、系统及终端设备
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109783780A (zh) * 2019-01-16 2019-05-21 平安普惠企业管理有限公司 一种文件处理方法和相关装置
CN109886845A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 合同的智能审核方法、装置、计算机设备及存储介质
WO2020062661A1 (zh) * 2018-09-28 2020-04-02 平安科技(深圳)有限公司 合同数据一致性的核实方法、装置、设备及存储介质
CN113204653A (zh) * 2021-06-04 2021-08-03 中国银行股份有限公司 需求价值的标注方法、装置、计算机设备及可读存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580243A (zh) * 2019-08-30 2019-12-17 深圳壹账通智能科技有限公司 一种文件比对方法、装置、电子设备及存储介质
CN111753517A (zh) * 2020-06-30 2020-10-09 北京来也网络科技有限公司 基于rpa及ai的文档对比方法、装置、设备及介质
CN112508405B (zh) * 2020-12-07 2024-07-02 云南电网有限责任公司普洱供电局 配电网作业管控的评价方法、装置、计算机设备及介质
CN114926140B (zh) * 2022-03-25 2023-05-05 山东日照发电有限公司 一种电子公文信息直报系统、方法、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196899A (zh) * 2006-09-25 2008-06-11 软件股份公司 用于处理xml表格中的输入的方法和系统
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN104102511A (zh) * 2014-07-17 2014-10-15 福建星海通信科技有限公司 一种基于SQL Server的脚本自动升级系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
US8862556B2 (en) * 2012-06-29 2014-10-14 International Business Machines Corporation Difference analysis in file sub-regions
CN104424194B (zh) * 2013-08-20 2017-10-03 广州汽车集团股份有限公司 CANdb网络文件异同的比较方法及其系统
CN106354731A (zh) * 2015-07-16 2017-01-25 中兴通讯股份有限公司 一种文档检查方法及装置
CN105225192B (zh) * 2015-09-09 2018-10-19 北京思特奇信息技术股份有限公司 一种基于明细对账稽核方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196899A (zh) * 2006-09-25 2008-06-11 软件股份公司 用于处理xml表格中的输入的方法和系统
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN104102511A (zh) * 2014-07-17 2014-10-15 福建星海通信科技有限公司 一种基于SQL Server的脚本自动升级系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733650A (zh) * 2018-05-14 2018-11-02 科大讯飞股份有限公司 个性化词获取方法及装置
CN108733650B (zh) * 2018-05-14 2022-06-07 科大讯飞股份有限公司 个性化词获取方法及装置
CN109146223A (zh) * 2018-06-14 2019-01-04 中国地质大学(武汉) 土地利用转型管控系统
CN109146223B (zh) * 2018-06-14 2021-11-30 中国地质大学(武汉) 土地利用转型管控系统
WO2020062661A1 (zh) * 2018-09-28 2020-04-02 平安科技(深圳)有限公司 合同数据一致性的核实方法、装置、设备及存储介质
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109523225A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 一种合同管理方法、系统及终端设备
CN109886845A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 合同的智能审核方法、装置、计算机设备及存储介质
CN109783780A (zh) * 2019-01-16 2019-05-21 平安普惠企业管理有限公司 一种文件处理方法和相关装置
CN113204653A (zh) * 2021-06-04 2021-08-03 中国银行股份有限公司 需求价值的标注方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN107870927B (zh) 2021-08-13
WO2018054199A1 (zh) 2018-03-29

Similar Documents

Publication Publication Date Title
CN107870927A (zh) 文件评估方法和装置
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN103246670B (zh) 微博排序、搜索、展示方法和系统
CN109767318A (zh) 贷款产品推荐方法、装置、设备及存储介质
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN105630938A (zh) 一种智能问答系统
US20090300043A1 (en) Text based schema discovery and information extraction
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN103425687A (zh) 一种基于关键词的检索方法和系统
Chatzakou et al. Harvesting opinions and emotions from social media textual resources
CN112507160A (zh) 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN106354818A (zh) 基于社交媒体的动态用户属性提取方法
CN107305551A (zh) 推送信息的方法和装置
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN110880142B (zh) 一种风险实体获取方法及装置
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN108153719A (zh) 合并电子表格的方法和装置
CN106570763A (zh) 用户影响力评估的方法及系统
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180727

Address after: 200336 room 402, Tianshan Road, Changning District, Shanghai, 402

Applicant after: Shanghai wisdom Mdt InfoTech Ltd

Applicant after: Hangzhou Bo Yan Information Technology Co., Ltd.

Address before: 200336 room 402, Tianshan Road, Changning District, Shanghai, 402

Applicant before: Shanghai wisdom Mdt InfoTech Ltd

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 402, room 8, 200336 Tian Shan Road, Shanghai, Changning District

Applicant after: Boyan Hongzhi Technology (Shanghai) Co., Ltd

Applicant after: Hangzhou Bo Yan Information Technology Co.,Ltd.

Address before: 402, room 8, 200336 Tian Shan Road, Shanghai, Changning District

Applicant before: SHANGHAI HONGZHI INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: Hangzhou Bo Yan Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant