CN111062208A - 一种文件审核的方法、装置、设备及存储介质 - Google Patents

一种文件审核的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111062208A
CN111062208A CN201911283161.5A CN201911283161A CN111062208A CN 111062208 A CN111062208 A CN 111062208A CN 201911283161 A CN201911283161 A CN 201911283161A CN 111062208 A CN111062208 A CN 111062208A
Authority
CN
China
Prior art keywords
file
target file
matching value
keywords
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911283161.5A
Other languages
English (en)
Other versions
CN111062208B (zh
Inventor
刘永昆
温琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911283161.5A priority Critical patent/CN111062208B/zh
Publication of CN111062208A publication Critical patent/CN111062208A/zh
Application granted granted Critical
Publication of CN111062208B publication Critical patent/CN111062208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本发明实施例公开了一种文件审核的方法、装置、设备及存储介质。其中,该方法包括:根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;根据对目标文件的语义分析结果,确定目标文件中与所述关键词相关联的完整词语;检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;根据正向匹配值和反向匹配值确定目标文件的审核结果。实现了节约文件审核时间,提高文件审核的精确性和效率的效果。

Description

一种文件审核的方法、装置、设备及存储介质
技术领域
本发明实施例涉及互联网技术,尤其涉及一种文件审核的方法、装置、设备及存储介质。
背景技术
随着经济的发展,各企业的项目越来越多,不同项目都对应有特定的法律文件,为了保证项目合法进行,需要对每个法律文件进行审核。
现有技术中,对法律文件的审核方法通常是人工审核,可以通过会议谈论或书面总结的形式对文件进行审核。当文件的规范格式发生变化时,则需要工作人员花费时间重新熟悉新的格式再进行审核。
然而,现有技术中通过人工进行审核的方式会造成审核工作的工作量大的问题,且工作人员难以适应频繁变化的文本格式,容易在审核过程中出现失误,审核结果的精确度低,浪费大量的时间,文件审核的效率低。
发明内容
本发明实施例提供一种文件审核的方法、装置、设备及存储介质,通过将目标文件与文件模板进行正向匹配和反向匹配,减少审核过程中的失误,提高文件审核的效率。
第一方面,本发明实施例提供了一种文件审核方法,该方法包括:
根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
根据所述关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
根据对目标文件的语义分析结果,确定所述目标文件中与所述关键词相关联的完整词语;
检测所述完整词语与所述关键词的语义是否一致;若不一致,则根据所述关键词的预设权重,对与所述关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果。
可选的,在根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求之前,所述方法还包括:
根据预设分词方法和历史词库,对目标文件进行分词。
可选的,所述检测目标文件是否符合文件模板中的关键词要求,包括:
根据关键词中的规范词,确定所述目标文件中是否存在所述规范词;以及,
根据关键词中的违禁词,确定所述目标文件中是否出现所述违禁词。
可选的,所述确定所述目标文件中与所述关键词相关联的完整词语,包括:
确定目标文件中关键词的前置词语和/或后置词语是否与关键词之间存在语义关联;若存在,则将关键词的前置词语和/或后置词语作为前缀和/或后缀,与关键词组成完整词语。
可选的,所述根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果,包括:
通过所述正向匹配值和所述反向匹配值确定目标文件的最终匹配值,将所述最终匹配值与预设匹配值比较;
若所述最终匹配值大于或等于所述预设匹配值,则所述目标文件的审核结果为合格。
可选的,在根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果之后,所述方法还包括:
对目标文件进行分句;
根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果。
可选的,所述根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果,包括:
根据语言模型和语言数据库中任一词语的后置词语出现的概率,确定目标文件中任一语句的产生概率;
若所述产生概率小于预设产生概率,则所述语句为错误语句,对该语句进行标注,得到目标文件的语句审核结果。
第二方面,本发明实施例还提供了一种文件审核装置,该装置包括:
关键词检测模块,用于根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
正向匹配值确定模块,用于根据所述关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
关键词关联模块,用于根据对目标文件的语义分析结果,确定所述目标文件中与所述关键词相关联的完整词语;
反向匹配值确定模块,用于检测所述完整词语与所述关键词的语义是否一致;若不一致,则根据所述关键词的预设权重,对与所述关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
审核结果确定模块,用于根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的文件审核方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的文件审核方法。
本发明实施例通过检测目标文件是否符合文件模板中的关键词要求,得到目标文件与文件模板的正向匹配值,再根据对目标文件的语义分析结果,确定目标文件与文件模板的反向匹配值,最终确定目标文件的审核结果。解决了现有技术中依靠工作人员手动对目标文件进行审核的问题,有效节约审核的人力和时间,通过正向匹配和反向匹配,提高了目标文件审核结果的精确性,并提高文件审核的效率。
附图说明
图1是本发明实施例一中的一种文件审核方法的流程示意图;
图2是本发明实施例二中的一种文件审核方法的流程示意图;
图3是本发明实施例三中的一种文件审核装置的结构框图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文件审核方法的流程示意图,本实施例可适用于文件审核的情况,该方法可以由一种文件审核装置来执行。如图1所示,该方法具体包括如下步骤:
S110、根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求。
其中,用户对目标文件进行分类,确定目标文件的类型,从计算机设备中查找与目标文件类型匹配的文件模板,其中,计算机设备可以是电脑等设备。例如,目标文件为项目合同类,则文件模板为项目合同模板。
可选的,在根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求之前,该方法还包括:根据预设分词方法和历史词库,对目标文件进行分词。
具体的,在对目标文件进行审核之前,收集历史文件,从历史文件中获取词语存入历史词库中。可以根据预设的分词方法将历史词库中的词语与目标文件进行匹配,若目标文件中存在与历史词库中相匹配的词语,则将该词语分离出来作为一个单独的词语。预设分词方法可以是基于字符串匹配的分词方法、全切分方法和由字构词的分词方法等。基于字符串匹配的分词方法是对目标文件进行扫描,针对历史词库进行逐个查找;全切分方法是先切分出与词库匹配的所有可能的词,再运用关键词模型决定最优的切分结果,避免分词后的词语出现歧义,关键词模型可以采用N-Gram(N元模型),也可以采用基于循环神经网络的模型;由字构词的分词方法是采用HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(Conditional Random Field,条件随机场)或深度学习查找每个字的标签,标签可以是词的开头、中间或结尾等,再由单个字组成词语。这样设置的有益效果在于,通过对目标文件进行分词,可以降低目标文件与文件模板对照的困难程度,提高目标文件的审核效率。本实施例中,对预设分词方法不做具体限定。
可选的,检测目标文件是否符合文件模板中的关键词要求,包括:根据关键词中的规范词,确定目标文件中是否存在规范词;以及,根据关键词中的违禁词,确定目标文件中是否出现违禁词。
具体的,在对目标文件进行分词之后,对照文件模板,检测目标文件中的词语是否符合文件模板的要求。文件模板中对目标文件中的关键词进行预先分类,可以包括必须出现的规范词和禁止出现的违禁词。计算机设备对照文件模板的格式对目标文件按格式进行依次检测,确定目标文件中是否在文件模板的对应位置处存在规范词和违禁词。若文件模板中的规范词都可以在目标文件的对应位置处找到,且文件模板中的违禁词都没有出现在目标文件的对应位置处,则目标文件符合文件模板的关键词要求;否则,不符合。例如,文件模板中要求在第一段第一句话中出现“交易项目”,不允许出现“金额”,目标文件的第一段第一句话出现了“交易项目”和“金额”,则该处不符合文件模板的关键词要求。这样设置的有益效果在于,通过对规范词和违禁词的检测,提高对目标审核的精确性,避免只检测规范词,造成目标文件审核错误的情况。
S120、根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值。
其中,计算机设备在生成文件模板之前,对文件模板中的关键进行权重的预设,确定不同关键词的重要程度。例如,关键词的权重范围为[0,1],关键词有“金额”和“项目”,“金额”的重要程度远比“项目”高,可以将“金额”的权重设为0.8,将“项目”的权重设为0.2。在检测目标文件的关键词时,可以在目标文件中对不符合关键词要求的词语做标注,以方便用户修改。可以根据权重大小进行标注,例如,权重为0.8及0.8以上的词语标注为红色,权重在0.4-0.7之间的词语标注为橙色,权重在0.3及0.3以下的词语标注为绿色。根据检测结果,可以计算目标文件和文件模板的正向匹配值,例如,可以将符合要求的关键词权重进行加运算,对不符合要求的权重进行减运算。
S130、根据对目标文件的语义分析结果,确定目标文件中与关键词相关联的完整词语。
其中,由计算机设备对目标文件中的词语进行语义分析,得到目标文件中每个词语的含义以及各词语之间上下的关联关系,将存在关联关系的前后词语组合成一个完整词语。本实施例中,对语义分析方法不做具体限定。
可选的,确定目标文件中与关键词相关联的完整词语,包括:确定目标文件中关键词的前置词语和/或后置词语是否与关键词之间存在语义关联;若存在,则将关键词的前置词语和/或后置词语作为前缀和/或后缀,与关键词组成完整词语。
具体的,对目标文件进行语义分析后,根据语义分析结果,确定目标文件中的关键词是否与其前置词语和/或后置词语存在语义关联关系。若存在,则将其前置词语和/或后置词语作为该关键词的前缀或后缀对该关键词进行补充,组合成一个完整词语。例如,目标文件中的关键词为“交易金额”,“交易金额”的前置词语为“剩余”,“剩余”与“交易金额”存在关联关系,因此将“剩余”和“交易金额”组合成完整词语“剩余交易金额”。这样设置的有益效果在于,避免对目标文件断章取义,防止目标文件分词时出现歧义,提高对目标文件的审核精确度。
S140、检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值。
其中,在将目标文件中的关键词组合成完整词语后,根据目标文件现在的分词结果,对文件模板进行对照检测。确定目标文件中与关键词关联的完整词语与文件模板中的关键词的语义是否一致,若一致,则说明该完整词语没有对目标文件产生影响;若不一致,则说明该关键词在目标文件中出现错误,根据该关键词的预设权重,对目标文件进行标注。例如,文件模板中的关键词为“剩余金额”,目标文件中为“非剩余金额”,“非剩余金额”与“剩余金额”含义相反,因此,目标文件出现错误,对目标文件进行标注。在对目标文件和文件模板进行反向匹配后,根据反向匹配结果和关键词的预设权重,计算目标文件与文件模板的反向匹配值。例如,将目标文件中与文件模板语义一致的关键词进行权重的加运算,将目标文件中与文件模板语义不一致的关键词进行权重的减运算。
S150、根据正向匹配值和反向匹配值确定目标文件的审核结果。
其中,计算机设备在得到目标文件中与文件模板的正向匹配值和反向匹配值之后,确定目标文件的最终匹配值,根据最终匹配值得到目标文件的审核结果。可以对正向匹配值和反向匹配值进行求平均值或加权平均值的计算,确定最终匹配值。
可选的,根据正向匹配值和反向匹配值确定目标文件的审核结果,包括:通过正向匹配值和反向匹配值确定目标文件的最终匹配值,将最终匹配值与预设匹配值比较;若最终匹配值大于或等于预设匹配值,则目标文件的审核结果为合格。
具体的,可以计算正向匹配值和反向匹配值的加权平均值,得到目标文件的最终匹配值,将最终匹配值与预设匹配值进行比较,若最终匹配值大于或等于预设匹配值,则目标文件的审核结果为合格;否则,目标文件的审核结果为不合格。例如,预设匹配值为0.7,目标文件的正向匹配值为0.7,正向匹配值在最终匹配值中的权重为0.6,反向匹配值为0.5,反向匹配值在最终匹配值中的权重为0.4,则最终匹配值为0.62。最终匹配值小于预设匹配值,因此,该目标文件的审核结果为不合格。这样设置的有益效果在于,通过结合正向匹配值和反向匹配值,实现对目标文件的双重审核,提高目标文件的审核精确性。
本实施例的技术方案,通过检测目标文件是否符合文件模板中的关键词要求,得到目标文件与文件模板的正向匹配值。根据目标文件的语义分析结果,将目标文件中的完整词语与文件模板进行匹配,确定目标文件与文件模板的反向匹配值,通过结合正向匹配值和反向匹配值,确定目标文件的最终审核结果。解决了现有技术中依靠工作人员手动对目标文件进行审核的问题,有效节约文件审核的人力和时间,通过正向匹配和反向匹配,提高了目标文件审核结果的精确性,并提高文件审核的效率。
实施例二
图2为本发明实施例二所提供的一种文件审核方法的流程示意图,本实施例以上述实施例为基础进行进一步的优化,该方法可以由一种文件审核装置来执行。如图2所示,该方法具体包括如下步骤:
S210、根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求。
S220、根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值。
S230、根据对目标文件的语义分析结果,确定目标文件中与关键词相关联的完整词语。
S240、检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值。
S250、根据正向匹配值和反向匹配值确定目标文件的审核结果。
S260、对目标文件进行分句;根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果。
其中,在根据正向匹配值和反向匹配值确定目标文件的审核结果之后,还可以对目标文件中的语句进行检测,可以通过语义分析对目标文件进行分句。根据语言数据库的历史文件的数据,统计出历史文件中任一词语的后置词语,根据任一词语的后置词语出现的频率,确定任一词语后所接的各个后置词语的出现概率。例如,在100个历史文件中,有80个历史文件的“确定”后接的是“金额”,有20个历史文件的“确定”后接的是“数量”,则“确定”后置词语为“金额”的概率是80%,后置词语为“数量”的概率是20%。根据统计的概率结果,生成语言模型,语言模型是用来计算一个句子产生概率的概率模型,可以采用N-Gram(N元模型),也可以采用基于循环神经网络的模型。根据语言模型,确定目标文件中任一句子的产生概率,例如,目标文件中存在语句“确定金额”,根据预先统计语言数据库所生成的语言模型,可以确定该语句产生概率为80%。可以根据语句的概率确定该语句的合理性,从而得到目标文件的语句审核结果。
可选的,根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果,包括:根据语言模型和语言数据库中任一词语的后置词语出现的概率,确定目标文件中任一语句的产生概率;若产生概率小于预设产生概率,则语句为错误语句,对该语句进行标注,得到目标文件的语句审核结果。
具体的,根据预先设计的语言模型,确定目标文件中任一词语的后置词语的出现概率,可以对任一语句中词语的后置词语进行出现概率的依次统计,得到该语句的产生概率。例如,语句“确认交易金额”中,“确认”后置词语为“交易”的出现概率为60%,“交易”后置词语为“金额”的出现概率为80%,可以计算后置词语出现概率的平均值,得到该语句完整出现的产生概率。产生概率越大,说明该语句正确的可能性越高。可以预先设置一个预设产生概率,将语句的产生概率和预设产生概率进行比较,若产生概率等于或大于预设产生概率,则认为该语句正确;若产生概率小于预设产生概率,则认为该语句为错误语句,并对该语句进行标注,方便用户查看和修改。可以对目标文件中语句的产生概率进行统计,得到目标文件的语句审核结果。可以设置语句审核结果中,合格与不合格的分界线,可以预设语句审核结果为合格时的错误语句比例。例如,语句审核结果为合格时的错误语句比例为20%,若目标语句中错误语句的数量占全部语句的30%,则语句审核结果为不合格。这样设置的有益效果在于,对目标文件进行文件模板的审核之后,可以进一步确认目标文件中的语句是否存在不合理的现象,既减轻了用户的工作量,节约人力和时间,又提高了文件审核的精确性。
本发明实施例通过检测目标文件是否符合文件模板中的关键词要求,得到目标文件与文件模板的正向匹配值,根据对目标文件进行语义分析,确定目标文件中与关键词关联的完整词语,将目标文件与文件模板进行反向匹配,通过结合正向匹配值和反向匹配值,确定目标文件的最终审核结果。根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,进一步确认目标文件的审核结果。解决了现有技术中依靠工作人员手动对目标文件进行审核的问题,有效节约文件审核的人力和时间,对目标文件的语句进行审核,有利于查找目标文件中的语病或不合理语句,通过正向匹配和反向匹配,提高了目标文件审核结果的精确性,并提高文件审核的效率。
实施例三
图3为本发明实施例三所提供的一种文件审核装置的结构框图,可执行本发明任意实施例所提供的文件审核方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置具体包括:
关键词检测模块301,用于根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
正向匹配值确定模块302,用于根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
关键词关联模块303,用于根据对目标文件的语义分析结果,确定目标文件中与关键词相关联的完整词语;
反向匹配值确定模块304,用于检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
审核结果确定模块305,用于根据正向匹配值和反向匹配值确定目标文件的审核结果。
可选的,该装置还包括:
分词模块,用于根据预设分词方法和历史词库,对目标文件进行分词。
可选的,关键词检测模块301,具体用于:
根据关键词中的规范词,确定目标文件中是否存在规范词;以及,
根据关键词中的违禁词,确定目标文件中是否出现所述违禁词。
可选的,关键词关联模块303,具体用于:
确定目标文件中关键词的前置词语和/或后置词语是否与关键词之间存在语义关联;若存在,则将关键词的前置词语和/或后置词语作为前缀和/或后缀,与关键词组成完整词语。
可选的,审核结果确定模块305,具体用于:
通过正向匹配值和反向匹配值确定目标文件的最终匹配值,将最终匹配值与预设匹配值比较;
若最终匹配值大于或等于预设匹配值,则目标文件的审核结果为合格。
可选的,该装置还包括:
语句审核结果确定模块,用于对目标文件进行分句;根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果。
可选的,语句审核结果确定模块,具体用于:
根据语言模型和语言数据库中任一词语的后置词语出现的概率,确定目标文件中任一语句的产生概率;
若产生概率小于预设产生概率,则语句为错误语句,对该语句进行标注,得到目标文件的语句审核结果。
本发明实施例通过检测目标文件是否符合文件模板中的关键词要求,得到目标文件与文件模板的正向匹配值,根据对目标文件进行语义分析,确定目标文件与文件模板的反向匹配值,通过结合正向匹配值和反向匹配值,确定目标文件的最终审核结果。解决了现有技术中依靠工作人员手动对目标文件进行审核的问题,有效节约文件审核的人力和时间,通过正向匹配和反向匹配,提高了目标文件审核结果的精确性,并提高文件审核的效率。
实施例四
图4是本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备400的框图。图4显示的计算机设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备400以通用计算设备的形式表现。计算机设备400的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。计算机设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备400也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该计算机设备400交互的设备通信,和/或与使得该计算机设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,计算机设备400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与计算机设备400的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种文件审核方法,包括:
根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
根据对目标文件的语义分析结果,确定目标文件中与关键词相关联的完整词语;
检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
根据正向匹配值和反向匹配值确定目标文件的审核结果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种文件审核方法,包括:
根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
根据关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
根据对目标文件的语义分析结果,确定目标文件中与关键词相关联的完整词语;
检测完整词语与关键词的语义是否一致;若不一致,则根据关键词的预设权重,对与关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
根据正向匹配值和反向匹配值确定目标文件的审核结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文件审核方法,其特征在于,包括:
根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
根据所述关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
根据对目标文件的语义分析结果,确定所述目标文件中与所述关键词相关联的完整词语;
检测所述完整词语与所述关键词的语义是否一致;若不一致,则根据所述关键词的预设权重,对与所述关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果。
2.根据权利要求1所述的方法,其特征在于,在根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求之前,所述方法还包括:
根据预设分词方法和历史词库,对目标文件进行分词。
3.根据权利要求1所述的方法,其特征在于,所述检测目标文件是否符合文件模板中的关键词要求,包括:
根据关键词中的规范词,确定所述目标文件中是否存在所述规范词;以及,
根据关键词中的违禁词,确定所述目标文件中是否出现所述违禁词。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标文件中与所述关键词相关联的完整词语,包括:
确定目标文件中关键词的前置词语和/或后置词语是否与关键词之间存在语义关联;若存在,则将关键词的前置词语和/或后置词语作为前缀和/或后缀,与关键词组成完整词语。
5.根据权利要求1所述的方法,其特征在于,所述根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果,包括:
通过所述正向匹配值和所述反向匹配值确定目标文件的最终匹配值,将所述最终匹配值与预设匹配值比较;
若所述最终匹配值大于或等于所述预设匹配值,则所述目标文件的审核结果为合格。
6.根据权利要求1所述的方法,其特征在于,在根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果之后,所述方法还包括:
对目标文件进行分句;
根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果。
7.根据权利要求6所述的方法,其特征在于,所述根据语言模型和语言数据库,确定目标文件中任一语句的产生概率,用于确定目标文件的语句审核结果,包括:
根据语言模型和语言数据库中任一词语的后置词语出现的概率,确定目标文件中任一语句的产生概率;
若所述产生概率小于预设产生概率,则所述语句为错误语句,对该语句进行标注,得到目标文件的语句审核结果。
8.一种文件审核装置,其特征在于,包括:
关键词检测模块,用于根据文件模板中的关键词,检测目标文件是否符合文件模板中的关键词要求;
正向匹配值确定模块,用于根据所述关键词的预设权重,对不符合关键词要求的词语做标注,并得到目标文件与文件模板的正向匹配值;
关键词关联模块,用于根据对目标文件的语义分析结果,确定所述目标文件中与所述关键词相关联的完整词语;
反向匹配值确定模块,用于检测所述完整词语与所述关键词的语义是否一致;若不一致,则根据所述关键词的预设权重,对与所述关键词的语义不一致的完整词语做标注,并得到目标文件与文件模板的反向匹配值;
审核结果确定模块,用于根据所述正向匹配值和所述反向匹配值确定目标文件的审核结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的文件审核方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的文件审核方法。
CN201911283161.5A 2019-12-13 2019-12-13 一种文件审核的方法、装置、设备及存储介质 Active CN111062208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283161.5A CN111062208B (zh) 2019-12-13 2019-12-13 一种文件审核的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283161.5A CN111062208B (zh) 2019-12-13 2019-12-13 一种文件审核的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111062208A true CN111062208A (zh) 2020-04-24
CN111062208B CN111062208B (zh) 2023-05-12

Family

ID=70301599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283161.5A Active CN111062208B (zh) 2019-12-13 2019-12-13 一种文件审核的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111062208B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761243A (zh) * 2013-12-18 2014-04-30 深圳市大成天下信息技术有限公司 目标文档检测方法和设备
US8843494B1 (en) * 2012-03-28 2014-09-23 Emc Corporation Method and system for using keywords to merge document clusters
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108491518A (zh) * 2018-03-26 2018-09-04 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN110298024A (zh) * 2018-03-21 2019-10-01 西北工业大学 涉密文档的检测方法、装置及存储介质
CN110442875A (zh) * 2019-08-12 2019-11-12 北京思维造物信息科技股份有限公司 一种文本审核方法、装置及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843494B1 (en) * 2012-03-28 2014-09-23 Emc Corporation Method and system for using keywords to merge document clusters
CN103761243A (zh) * 2013-12-18 2014-04-30 深圳市大成天下信息技术有限公司 目标文档检测方法和设备
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN110298024A (zh) * 2018-03-21 2019-10-01 西北工业大学 涉密文档的检测方法、装置及存储介质
CN108491518A (zh) * 2018-03-26 2018-09-04 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN110442875A (zh) * 2019-08-12 2019-11-12 北京思维造物信息科技股份有限公司 一种文本审核方法、装置及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN FU等: "A Smart Document Review System for Business Expansion Project in Electric Power Marketing" *
张海腾;翟洁;冷春霞;: "电子作业相似性检测技术的研究与实现" *
谈文蓉;冯山;刘莉;: "语义分析在汉语相似性文献检测中的应用研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置
CN113360603B (zh) * 2021-06-22 2023-09-05 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Also Published As

Publication number Publication date
CN111062208B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US20210157975A1 (en) Device, system, and method for extracting named entities from sectioned documents
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN108491373B (zh) 一种实体识别方法及系统
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN102483743B (zh) 对书写体系和语言的检测
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
US11055327B2 (en) Unstructured data parsing for structured information
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
CN109614625B (zh) 标题正文相关度的确定方法、装置、设备及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN110826494B (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
US11663407B2 (en) Management of text-item recognition systems
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220927

Address after: 12 / F, 15 / F, 99 Yincheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant after: Jianxin Financial Science and Technology Co.,Ltd.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant