CN115470177A - 文件处理方法、装置、设备及计算机存储介质 - Google Patents

文件处理方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN115470177A
CN115470177A CN202110656560.2A CN202110656560A CN115470177A CN 115470177 A CN115470177 A CN 115470177A CN 202110656560 A CN202110656560 A CN 202110656560A CN 115470177 A CN115470177 A CN 115470177A
Authority
CN
China
Prior art keywords
information
target
file
target file
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110656560.2A
Other languages
English (en)
Inventor
陈乐君
王毅
王凡
何月鑫
江黎
彭怡康
李红波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Chongqing Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110656560.2A priority Critical patent/CN115470177A/zh
Publication of CN115470177A publication Critical patent/CN115470177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

本申请公开了一种文件处理方法、装置、设备及计算机存储介质。该方法包括:获取目标文件;在目标文件为预设格式的情况下,识别目标文件中的内容,得到目标信息;根据预设规则对目标信息进行校验,得到目标文件的检验结果。采用本申请提供的文件处理方法、装置、设备及计算机存储介质,可以通过人工智能辅助进行文件处理,从而大大降低出错率,提高工作效率。

Description

文件处理方法、装置、设备及计算机存储介质
技术领域
本申请属于大数据技术领域,尤其涉及一种文件处理方法、装置、设备及计算机存储介质。
背景技术
随着互联网的不断发展,大多数信息都以电子文件的形式进行传递和处理。
现有技术中,一般采用人工对电子文件进行校验,但是对大量文件进行校验时,完全依赖人工不仅效率低下,还极易出错。
例如,在电子招投标系统中,供应商根据招标文件要求,上传技术文件、商务文件等文档,招标代理机构采用的评标方式为人工评审,工作人员根据招标条件,对供应商电子标书文件进行逐一核对,打分,再给出评审结果,但是由于完全依赖人工主观评判,经常会出现错评、漏评等情况,从而导致复评情况严重,效率不高且难以回溯评审过程。
发明内容
本申请实施例提供一种文件处理方法、装置、设备及计算机存储介质,能够至少解决现有技术中对大量文件进行校验时,完全依赖人工不仅效率低下,还极易出错的问题。
第一方面,本申请实施例提供一种文件处理方法,该方法包括:
获取目标文件;
在目标文件为预设格式的情况下,识别目标文件中的内容,得到目标信息;
根据预设规则对目标信息进行校验,得到目标文件的检验结果。
在一种可选的实施方式中,在识别目标文件中的内容,得到目标信息之前,该方法还包括:
在目标文件不为预设格式的情况下,将目标文件转换为预设格式。
在一种可选的实施方式中,预设格式包括文档word格式和图片格式中的至少一种;在文件不为预设格式的情况下,将目标文件转换为预设格式,具体包括:
在目标文件为第一格式的情况下,将目标文件转换为word格式,第一格式是由word格式转换得到的;
在目标文件为第二格式的情况下,对目标文件进行切割,得到目标文件的图片格式,第二格式是由图片格式压缩得到的。
在一种可选的实施方式中,目标文件为具有预设模板样式的文件;
识别目标文件中的内容,得到目标信息,包括:
基于模板识别的方法,识别目标文件中预设位置的内容,得到目标信息。
在一种可选的实施方式中,基于模板识别的方法,识别目标文件中预设位置的内容,得到目标信息,包括:
基于预设信息库中的信息,确定在识别过程中出现误差的第一信息;
根据预设计算规则,将第一信息与大数据信息进行匹配,得到匹配度,大数据信息包括实时更新的与目标信息相关的所有信息;
根据匹配度大于预设阈值的大数据信息,对第一信息进行调整,得到目标信息。
在一种可选的实施方式中,在识别目标文件中的内容,得到目标信息之后,该方法还包括:
通过关键字分隔算法,确定目标信息的关键字;
基于预设索引项和目标信息的关键字,确定预设索引项对应的部分目标信息;
确定部分目标信息的位置信息;
基于预设索引项和部分目标信息的位置信息,生成索引信息;
输出索引信息,以使用户根据索引信息确定部分目标信息的位置。
在一种可选的实施方式中,在获取目标文件之后,该方法还包括:
基于西马什算法,确定目标文件与至少一个第一文件的西马什值,目标文件和第一文件的用途相同;
基于西马什值,计算目标文件和至少一个第一文件的海明距离;
根据海明距离,确定相似度;
基于相似度和检验结果,确定最终检验结果。
在一种可选的实施方式中,在基于相似度和检验结果,确定最终检验结果之后,该方法还包括:
输出最终检验结果。
第二方面,本申请实施例提供了一种文件处理装置,该装置包括:
获取模块,用于获取目标文件;
识别模块,用于在目标文件为预设格式的情况下,识别目标文件中的内容,得到目标信息;
校验模块,用于根据预设规则对目标信息进行校验,得到目标文件的检验结果。
第三方面,本申请实施例提供了一种电子设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面的任一项实施例中所示的文件处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的任一项实施例中所示的文件处理方法。
本申请实施例的文件处理方法、装置、设备及计算机存储介质,通过获取并识别预设格式的目标文件,得到目标信息,然后根据预设规则对该目标信息进行校验,即可得到目标文件的检验结果,如此,通过人工智能辅助进行文件处理,可以大大降低出错率,提高工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种文件处理方法的流程示意图;
图2是根据一示例性实施例示出的一种文件处理方法的应用场景示意图;
图3是根据一示例性实施例示出的另一种文件处理方法的应用场景示意图;
图4是根据一示例性实施例示出的又一种文件处理方法的应用场景示意图;
图5是根据一示例性实施例示出的再一种文件处理方法的应用场景示意图;
图6是根据一示例性实施例示出的另一种文件处理方法的流程示意图;
图7是根据一示例性实施例示出的一种文件处理系统的系统及功能架构图;
图8是根据一示例性实施例示出的一种文件处理装置的结构示意图;
图9是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了本申请一个实施例提供的一种文件处理方法的流程示意图。
如图1所示,该文件处理方法的执行主体可以为处理模块,具体可以包括如下步骤:
首先,S110,获取目标文件;
其次,S120,在目标文件为预设格式的情况下,识别目标文件中的内容,得到目标信息;
最后,S130,根据预设规则对目标信息进行校验,得到目标文件的检验结果。
由此,通过获取并识别预设格式的目标文件,得到目标信息,然后根据预设规则对该目标信息进行校验,即可得到目标文件的检验结果,如此,通过人工智能辅助进行文件处理,可以大大降低出错率,提高工作效率。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及S110,本申请实施例中可以通过输入模块获取原始文件,然后对该原始文件进行加密后发送给处理模块,处理模块对加密后的原始文件进行解密,得到目标文件。也就是说,目标文件可以是对加密后的原始文件进行解密得到的。例如,在电子招投标系统(如ES系统)开标后,输入模块可以通过爬虫从系统中下载所有供应商的应对文件,也即原始文件,一般可以包括报价、授权函、技术文件和商务文件四类,下载完成后可以进行加密存储,再上传到评标模块,也即处理模块,评标模块对应对文件进行解密处理,就得到了目标文件。
其次,涉及S120,预设格式可以包括word格式和图片格式中的至少一种。目标文件可能是预设格式,也可能不是预设格式,在目标文件是预设格式的情况下,可以直接识别目标文件中的内容,得到目标信息。目标信息可以为目标文件中需要进行校验的信息。例如,可以对投标文件中word格式的内容进行直接抽取,如果投标文件里包括图片,可以再对图片进行光学字符识别(Optical Character Recognition,OCR)。
此外,在一种可选的实施方式中,在S120之前,该方法还可以包括:
在目标文件不为预设格式的情况下,将目标文件转换为预设格式。
这里,在目标文件不是预设格式的情况下,目标文件可以是可移植文件格式(Portable Document Format,pdf),这样就需要将pdf格式的目标文件转换为word格式或者图片格式。另外,目标文件还可以是压缩包文件或文件夹,需要对该目标文件进行一层一层的解压处理,根据解压后的格式选择不同的格式转换方法,将目标文件转换为预设格式。
在一个具体例子中,每个投标文件都是一个完整的压缩包文件,其中可以包括文件夹、压缩包、word、pdf、图片等文件,评标模块要进行后续的识别操作,需要先对投标文件进行一层层解压处理,根据解压后的文件格式选择不同的处理方式,对投标文件进行格式转换。
如此,将目标文件转换为预设格式,便于对目标文件进行识别,获取到目标信息。
基于此,在一种可选的实施方式中,预设格式包括文档word格式和图片格式中的至少一种,在目标文件不为预设格式的情况下,将目标文件转换为预设格式,具体可以包括:
在目标文件为第一格式的情况下,将目标文件转换为word格式,第一格式是由word格式转换得到的;
在目标文件为第二格式的情况下,对目标文件进行切割,得到目标文件的图片格式,第二格式是由图片格式压缩得到的。
这里,第一格式可以是由word格式转换得到的,第二格式可以是由图片格式压缩得到的。具体的,若目标文件是由word格式转换得到的第一格式文件,则将该目标文件转换为word格式;若目标文件是由图片格式压缩得到的第二格式文件,则对该目标文件进行切割,将其转换为图片格式。
在一个具体例子中,如图2所示,如果检测到投标文件20为第一格式21:word转换的pdf,则采用转换方式201:先将pdf转为word,再采用word格式的处理方式进行识别;如果检测到投标文件20为第二格式22:图片转换为的pdf,则采用转换方式202:先将pdf切割为图片,再对图片进行OCR识别。
如此,可以将目标文件转换为word格式或图片格式,便于对目标文件进行识别。
在一种可选的实施方式中,S120具体可以包括:
基于模板识别的方法,识别目标文件中预设位置的内容,得到目标信息。
这里,目标文件可以为具有预设模板样式的文件。
在一个具体例子中,投标文件中可以包括身份证、营业执照、银行回执单、应答函、银行开户许可、企业资质证书、业绩表等图像,要获取其中的要素信息,可以采用模板识别的方法对预设位置的内容进行识别。具体的,如图3所示,可以通过模板识别的方法对银行回执单30中的付款人户名301、付款人账号302、金额303等预设位置的内容进行识别,即可获取到“张三”“1234567890123456789”“10,000.00”等信息。
如此,通过模板识别对预设位置的内容进行识别,可以更精准地获取到所需要的信息。
基于此,在一种可选的实施方式中,基于模板识别的方法,识别目标文件中预设位置的内容,得到目标信息,具体可以包括:
基于预设信息库中的信息,确定在识别过程中出现误差的第一信息;
根据预设计算规则,将第一信息与大数据信息进行匹配,得到匹配度;
根据匹配度大于预设阈值的大数据信息,对第一信息进行调整,得到目标信息。
这里,预设信息库可以包括预先存储的与目标信息相关的信息,该预设信息库可用于检验识别内容是否存在误差。大数据信息可以包括实时更新的与目标信息相关的所有信息,该大数据信息可用做调整误差信息的依据。第一信息可以为识别错误的信息,也可以为未识别出的信息。处理模块可以在识别过程中对识别的信息进行校对,若存在识别误差导致的错误信息,也即第一信息,可以对其进行调整,得到准确的目标信息。具体的,可以将从目标文件中获取到的信息与预设信息库中的信息进行比对,若对比度低于第一阈值,则确认该信息为识别误差导致的第一信息,继而可以根据预设计算规则将该第一信息与大数据信息进行匹配,将匹配度大于预设阈值的大数据信息作为与第一信息对应的标准信息,并根据该标准信息纠正第一信息,以最终得到正确的目标信息。
在一个具体例子中,进行OCR识别的过程中会存在个别文字、词组识别误差,可以通过同步外部供应商信息以及内部业务系统供应商信息进行比对,来确定存在识别误差的信息,主要可以为未识别出来的文字,针对上述未识别出的文字,可以根据一定计算规则,在企业大数据中进行智能匹配,当匹配度大于额定标准后,默认该内容正确,同时根据该正确内容将误差信息补全。具体的,如图4所示,在对营业执照40中的名称401“A技术服务有限公司”进行OCR识别的过程中,将识别出的第一信息402“A技木服务*限公*”与外部供应商信息以及内部业务系统供应商信息进行比对,确定该第一信息402存在误差,于是将该第一信息402与大数据库中的大数据信息进行匹配,将与第一信息402中已识别出的部分信息完全匹配的大数据信息“A技术服务有限公司”认定为标准信息403,并根据该标准信息403对第一信息402进行调整,得到输出信息404“A技术服务有限公司”。
如此,可以在识别过程中对目标信息进行纠正和补充,以便获取到完整准确的目标信息。
除此之外,在一种可选的实施方式中,在S120之后,该方法还可以包括:
通过关键字分隔算法,确定目标信息的关键字;
基于预设索引项和目标信息的关键字,确定预设索引项对应的部分目标信息;
确定部分目标信息的位置信息;
基于预设索引项和部分目标信息的位置信息,生成索引信息;
输出索引信息,以使用户根据索引信息确定部分目标信息的位置。
这里,预设索引项可以为目标文件中需要人工查看的内容标题,当然也可以根据具体需要设置其他内容为预设索引项。位置信息可以为预设索引项对应的具体内容在目标文件中的页码,当然也可以为其他能够表示预设索引项对应的具体内容在目标文件中的位置的标识。索引信息可以包括预设索引项和上述位置信息。此外,当一个位置对应多个预设索引项时还可以对信息进行分隔处理。
在一个具体例子中,可以通过关键字分隔算法,确定投标信息的关键字,然后根据该关键字确定预设的评标要素,也即预设索引项,对应的部分投标信息,获取该部分投标信息的页码,基于该预设的评标要素和页码生成索引信息并输出该索引信息。如图5所示,索引信息50中可以包括营业执照、法人身份证、开户许可证、应答保证金、资质证书(软件能力成熟度集成模型证书(Capability Maturity Model Integration,CMMI)、信息化集成证书)、业绩证明、服务团队及承诺、信誉承诺、联合体、实质性响应、应答有效期、商务报价、增值税发票等预设评标要素501,及其对应的页码502。
如此,可以为用户提供索引信息,提高用户查看目标文件的效率。
最后,涉及S130,在获取到目标信息之后,可以按照预设规则对目标信息进行智能逻辑校验,具体的,可以将模板识别得到的预设位置的信息与预设规则进行比对,将比对结果作为检验结果,并且可以将该检验结果发送到输出模块进行输出。
在一个具体例子中,通过模板识别可以分单位、分条款、分类别提取到招标文件中的目标信息,将该目标信息与预设的招标文件规定进行比对,来判断该投标文件是否满足采购招标要求,并将每项智能评审的结果存储到数据库。
其中,比对类别可以包括文字比对、日期比对、数字比对、公章校验、逻辑校验等。具体的,文字比对主要验证有关材料是否满足招标文件的固定格式或固定描述,如第三方机构证明等;日期比对主要验证各类材料中的有关日期是否在招标文件规定的日期范围之内,如第三方机构证明的落款日期是否在招标公告发布日期之后且在开标日期之前,业绩材料中的竣工验收日期是否满足从招标公告发布之日起,向前推算近3年之内,相关证件或证书的失效日期是否在评标日期之后;数字比对主要验证各类材料中包含的数字信息是否满足招标文件的规定,如业绩材料中的工程规模是否满足招标文件中中标面积大于5万平方米或中标价高于1亿元的要求;公章校验主要核对有关材料是否加盖相应部门的公章,如社保证明是否加盖当地社保机构的专用章,劳动合同是否加盖投标人公章,其中,对于各类证件、证书、证明中的公章所示机构是否为有权颁发机构,可单独列出供评标委员会人工鉴别;逻辑校验主要核验材料中的有关内容是否具备合理的逻辑,如业绩材料中竣工验收报告载明的开工日期是否在中标通知书签发日期之后,各类材料中有关位置的企业名称是否和投标人名称一致。
另外,除了上述S110-S130之外,在一种可能的实施例中,如图6所示,在S110之后,本申请实施例提供的文件处理方法还可以包括S111-114,具体如下所示:
S110,获取目标文件。
S111,基于西马什算法,确定目标文件与至少一个第一文件的西马什值。
这里,目标文件可以和第一文件的用途相同,例如,如果目标文件是投标文件,那第一文件就是和目标文件同一项目的其他投标文件;如果目标文件是一场考试的答卷,那第一文件就是和目标文件同一场考试的其他答卷。通过西马什算法可以分别计算目标文件和第一文件的西马什值,具体的,可以计算每个第一文件的西马什值。
S112,基于西马什值,计算目标文件和至少一个第一文件的海明距离。
这里,可以根据计算出的目标文件和第一文件的西马什值,来计算目标文件和第一文件之间的海明距离,第一文件的数量可以与海明距离的数量相同。
S113,根据海明距离,确定相似度。
这里,可以根据海明距离判断目标文件和第一文件是否相似,二者距离越近,相似度越高。
S114,基于相似度和检验结果,确定最终检验结果。
这里,可以根据目标文件与各个第一文件的相似度,并结合S130中的检验结果,来确定最终检验结果。最终检验结果可以包括检验报告和评分,该最终检验结果可作为目标检验结果的部分内容,目标检验结果可以是根据最终检验结果和人工检验结果生成的。
在一个具体例子中,可以通过西马什算法,对每份投标文件进行切片,切片后将相对的部分内容进行分词、加权、向量计算,最后计算目标投标文件与其他投标文件之间的海明距离,根据海明距离判断二者是否相似,二者距离越相近,说明相似度越高,根据该相似度和上述智能评审的结果,可以生成包括评审报告和系统评分在内的最终评审结果,并可以将该最终评审结果存储到数据库中。
如此,通过检测目标文件与第一文件的相似度来确定最终检验结果,可以使最终检验结果更全面,可靠性更高。
在一种可选的实施方式中,在S114之后,该方法还可以包括:
输出最终检验结果。
这里,处理模块可以将最终检验结果发送到输出模块,以使输出模块能够将该最终检验结果输出显示。具体的,可以按照最终检验结果中包括的评分顺序显示。
在一个具体例子中,评标模块将评审报告和系统评分发送给输出模块,输出模块根据每个供应商的投标文件的系统评分进行排序,平台可以展示系统评分和专家评分两个指标,最终的考评结果可以以专家评分作为依据。系统将各评标专家的评分序号值汇总,序号值之和最低的为第一中标候选人以此类推;当两个投标人的序号值之和相同时,按总平均分的高低决定排名;如果总得分也相同,则按投标价的低高决定排名。具体的,最终评分计算公式可以为:最终得分=系统评分×系统权重+专家评分×专家权重-扣分项。其中,扣分项可以是根据大数据库查到该供应商的历史违规记录进行扣分的项目。
如此,可以将最终检验结果输出显示给用户,辅助用户进行检验。
基于上述文件处理方法,在一种可能的实施例中,存在一种文件处理系统,如图7所示,该文件处理系统包括:输入模块710、处理模块720和输出模块730。
其中,输入模块710的功能模块可以包括:获取功能711、维护功能712、加密功能713和发送功能714。具体的,获取功能711可用于获取原始文件和预设信息库中的信息,维护功能712可用于维护预设信息库,加密功能713可用于对原始文件进行加密,发送功能714可用于将加密后的原始文件发送给处理模块。
处理模块720的功能模块可以包括:解密功能721、转换功能722、标准化处理功能723、识别功能724、智能补全功能725、关键页定位功能726和图形计算(GraphicProcessing Unit,GPU)功能727。具体的,解密功能721可用于对加密的原始文件进行解密得到目标文件,转换功能722可用于将目标文件转换为预设格式,标准化处理功能723可用于将目标文件转换为预设模板样式的文件,识别功能724可用于对目标文件进行识别得到目标信息,智能补全功能725可用于对识别过程中出现误差的信息进行调整,关键页定位功能726可用于确定关键信息的位置并生成索引信息,GPU计算功能727可用于实现文件处理过程中的计算过程。其中,在招投标的场景中,识别功能724,具体还可以包括:身份证识别、营业执照识别、模板识别和语义分析等功能,此外还可以包括其他识别功能,在此不做限定。
输出模块730的功能模块可以包括:接收功能731、汇总功能732和输出功能733。具体的,接收功能731可用于接收处理模块的最终检验结果,汇总功能732可用于汇总生成检验报告,输出功能733可用于输出该检验报告供用户查看。
由此,通过获取并识别预设格式的目标文件,得到目标信息,然后根据预设规则对该目标信息进行校验,即可得到目标文件的检验结果,如此,通过人工智能辅助进行文件处理,可以大大降低出错率,提高工作效率。
基于相同的发明构思,本申请还提供了一种文件处理装置。下面结合图8对本申请实施例提供的文件处理装置进行详细说明。
图8是根据一示例性实施例示出的一种文件处理装置的结构框图。
如图8所示,该文件处理装置800可以包括:
获取模块801,用于获取目标文件;
识别模块802,用于在目标文件为预设格式的情况下,识别目标文件中的内容,得到目标信息;
校验模块803,用于根据预设规则对目标信息进行校验,得到目标文件的检验结果。
在一个实施例中,该装置还可以包括:
转换模块804,用于在目标文件不为预设格式的情况下,将目标文件转换为预设格式。
在一个实施例中,预设格式包括文档word格式和图片格式中的至少一种;转换模块804,具体用于在目标文件为第一格式的情况下,将目标文件转换为word格式,第一格式是由word格式转换得到的;
在目标文件为第二格式的情况下,对目标文件进行切割,得到目标文件的图片格式,第二格式是由图片格式压缩得到的。
在一个实施例中,目标文件为具有预设模板样式的文件;识别模块802,具体用于基于模板识别的方法,识别目标文件中预设位置的内容,得到目标信息。
在一个实施例中,识别模块802,还具体用于基于预设信息库中的信息,确定在识别过程中出现误差的第一信息;
根据预设计算规则,将第一信息与大数据信息进行匹配,得到匹配度,大数据信息包括实时更新的与目标信息相关的所有信息;
根据匹配度大于预设阈值的大数据信息,对第一信息进行调整,得到目标信息。
在一个实施例中,该装置还可以包括:
关键字确定模块805,用于通过关键字分隔算法,确定目标信息的关键字;
信息确定模块806,用于基于预设索引项和目标信息的关键字,确定预设索引项对应的部分目标信息;
位置确定模块807,用于确定部分目标信息的位置信息;
生成模块808,用于基于预设索引项和部分目标信息的位置信息,生成索引信息;
信息输出模块809,用于输出索引信息,以使用户根据索引信息确定部分目标信息的位置。
在一个实施例中,该装置还可以包括:
第一计算模块810,用于基于西马什算法,确定目标文件与至少一个第一文件的西马什值,目标文件和第一文件的用途相同;
第二计算模块811,用于基于西马什值,计算目标文件和至少一个第一文件的海明距离;
相似度确定模块812,用于根据海明距离,确定相似度;
结果确定模块813,用于基于相似度和检验结果,确定最终检验结果。
在一个实施例中,该装置还可以包括:
结果输出模块814,用于输出最终检验结果。
由此,通过获取并识别预设格式的目标文件,得到目标信息,然后根据预设规则对该目标信息进行校验,即可得到目标文件的检验结果,如此,通过人工智能辅助进行文件处理,可以大大降低出错率,提高工作效率。
图9是根据一示例性实施例示出的一种电子设备的结构示意图。
如图9所示,该电子设备9能够实现根据本申请实施例中的文件处理方法以及文件处理装置的电子设备的示例性硬件架构的结构图。该电子设备可以指代本申请实施例中的电子设备。
该电子设备9可以包括处理器901以及存储有计算机程序指令的存储器902。
具体地,上述处理器901可以包括中央处理器(CPU),或者特定集成电路(application specific integrated circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器902可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器902可包括硬盘驱动器(hard disk drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器902可在综合网关设备的内部或外部。在特定实施例中,存储器902是非易失性固态存储器。在特定实施例中,存储器902包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存,或者两个或及其以上这些的组合。
处理器901通过读取并执行存储器902中存储的计算机程序指令,以实现图1至图6所示实施例中的方法,并达到相应技术效果,为简洁描述在此不再赘述。
在一个实施例中,该电子设备9还可包括收发器903和总线904。其中,如图9所示,处理器901、存储器902和收发器903通过总线904连接并完成相互间的通信。
总线904包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围控件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线904可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于实现本申请实施例所记载的文件处理方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本申请实施例所记载的文件处理方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请是参照根据本申请的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种文件处理方法,其特征在于,所述方法包括:
获取目标文件;
在所述目标文件为预设格式的情况下,识别所述目标文件中的内容,得到目标信息;
根据预设规则对所述目标信息进行校验,得到所述目标文件的检验结果。
2.根据权利要求1所述的方法,其特征在于,在所述识别所述目标文件中的内容,得到目标信息之前,所述方法还包括:
在所述目标文件不为所述预设格式的情况下,将所述目标文件转换为所述预设格式。
3.根据权利要求2所述的方法,其特征在于,所述预设格式包括文档word格式和图片格式中的至少一种;所述在所述文件不为所述预设格式的情况下,将所述目标文件转换为所述预设格式,具体包括:
在所述目标文件为第一格式的情况下,将所述目标文件转换为所述word格式,所述第一格式是由所述word格式转换得到的;
在所述目标文件为第二格式的情况下,对所述目标文件进行切割,得到所述目标文件的图片格式,所述第二格式是由所述图片格式压缩得到的。
4.根据权利要求1所述的方法,其特征在于,所述目标文件为具有预设模板样式的文件;
所述识别所述目标文件中的内容,得到目标信息,包括:
基于模板识别的方法,识别所述目标文件中预设位置的内容,得到所述目标信息。
5.根据权利要求4所述的方法,其特征在于,所述基于模板识别的方法,识别所述目标文件中预设位置的内容,得到所述目标信息,包括:
基于预设信息库中的信息,确定在识别过程中出现误差的第一信息;
根据预设计算规则,将所述第一信息与大数据信息进行匹配,得到匹配度,所述大数据信息包括实时更新的与目标信息相关的所有信息;
根据所述匹配度大于预设阈值的所述大数据信息,对所述第一信息进行调整,得到所述目标信息。
6.根据权利要求1所述的方法,其特征在于,在所述识别所述目标文件中的内容,得到目标信息之后,所述方法还包括:
通过关键字分隔算法,确定所述目标信息的关键字;
基于预设索引项和所述目标信息的关键字,确定所述预设索引项对应的部分目标信息;
确定所述部分目标信息的位置信息;
基于所述预设索引项和所述部分目标信息的位置信息,生成索引信息;
输出所述索引信息,以使用户根据所述索引信息确定所述部分目标信息的位置。
7.根据权利要求1所述的方法,其特征在于,在所述获取目标文件之后,所述方法还包括:
基于西马什算法,确定所述目标文件与至少一个第一文件的西马什值,所述目标文件和所述第一文件的用途相同;
基于所述西马什值,计算所述目标文件和至少一个第一文件的海明距离;
根据所述海明距离,确定相似度;
基于所述相似度和所述检验结果,确定最终检验结果。
8.根据权利要求7所述的方法,其特征在于,在基于所述相似度和所述检验结果,确定最终检验结果之后,所述方法还包括:
输出所述最终检验结果。
9.一种文件处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标文件;
识别模块,用于在所述目标文件为预设格式的情况下,识别所述目标文件中的内容,得到目标信息;
校验模块,用于根据预设规则对所述目标信息进行校验,得到所述目标文件的检验结果。
10.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的文件处理方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的文件处理方法。
CN202110656560.2A 2021-06-11 2021-06-11 文件处理方法、装置、设备及计算机存储介质 Pending CN115470177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110656560.2A CN115470177A (zh) 2021-06-11 2021-06-11 文件处理方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110656560.2A CN115470177A (zh) 2021-06-11 2021-06-11 文件处理方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN115470177A true CN115470177A (zh) 2022-12-13

Family

ID=84364810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110656560.2A Pending CN115470177A (zh) 2021-06-11 2021-06-11 文件处理方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115470177A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975106A (zh) * 2023-06-16 2023-10-31 大连理工大学 一种数据处理方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975106A (zh) * 2023-06-16 2023-10-31 大连理工大学 一种数据处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
TW201519150A (zh) 文件分類系統及文件分類方法以及文件分類程式
CN112184145A (zh) 一种基于ai无人干预审批系统
CN104463668A (zh) 一种在线信用审核方法及装置
CN110634223A (zh) 票据校验方法及装置
CN109767193A (zh) 诉讼财产保全责任险的投保方法、设备及可读存储介质
CN111444275A (zh) 基于区块链的数据安全确权方法与系统
CN112487982A (zh) 商户信息的审核方法、系统和存储介质
CN115470177A (zh) 文件处理方法、装置、设备及计算机存储介质
CN114386935A (zh) 一种投标文件的审核方法和装置
US20170075986A1 (en) Document analysis system, document analysis method, and document analysis program
WO2015118616A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
CN112598502A (zh) 一种取证方法、装置、设备及存储介质
CN112116222A (zh) 一种工程项目招标管理方法、系统、终端设备及存储介质
CN111242773A (zh) 虚拟资源申请的对接方法、装置、计算机设备及存储介质
CN115660878A (zh) 一种电子发票的实现方法及系统
CN112256639B (zh) 一种电子文件签名方法和系统、及存储设备
CN112085469B (zh) 基于向量机模型的数据审批方法、装置、设备及存储介质
CN114936914A (zh) 一种财务会计智能服务系统、方法及电子设备
TWM553835U (zh) 自動智慧化帳務系統
CN113807901A (zh) 一种电子发票检测方法、终端设备及存储介质
CN111242764A (zh) 一种基于区块链的发票报销方法、装置及可读存储介质
CN111008752A (zh) 一种专利的动态估值方法及装置
CN111368019A (zh) 一种文档数据结构化处理方法
CN111353833A (zh) 一种生成报表的方法和设备
CN117036073B (zh) 基于互联网的发票审核与自动报销系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination