CN109993126B

CN109993126B - 文件信息确定方法、装置、设备及可读存储介质

Info

Publication number: CN109993126B
Application number: CN201910267239.8A
Authority: CN
Inventors: 陈奕雷; 聂志鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2023-10-24
Anticipated expiration: 2039-04-03
Also published as: CN109993126A

Abstract

本申请公开了一种文件信息确定方法、装置、设备及可读存储介质，涉及图像处理领域。该方法包括：获取目标文件，目标文件中包括图形标识码；对图形标识码进行识别，得到目标文件中的待确定区域；获取待确定区域的区域信息；当区域信息所表示的内容填写情况符合内容填写条件时，确定目标文件符合填写要求。通过在目标文件中设置图形标识码，并通过图形标识码对该目标文件中的待确定区域进行标识，在对目标文件是否符合填写要求进行核对时，通过图形标识码确定待确定区域，并根据区域信息确定该目标文件是否符合填写要求，避免通过人工逐个对目标文件进行核对，文件信息确定效率高，节省文件信息确定过程中的人力资源以及时间资源。

Description

文件信息确定方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及图像处理领域，特别涉及一种文件信息确定方法、装置、设备及可读存储介质。

背景技术

在日常生活中，存在较多表格、文档等待填写文件需要用户进行填写，如：会员申请表、信息填写表等。通常，用户从网站中下载空白的待填写文件，并在待填写文件中的可输入区域输入对应的内容，内容输入完毕后将待填写文件以扫描文件的形式上传至后台服务器中，由管理人员对扫描文件中用户填写的内容进行核查。

相关技术中，管理人员需要从后台服务器中下载上述扫描文件，并对上述扫描文件中需要填写的区域中的内容进行核查，核查过程主要包括核查需要填写的区域是否已对应填写了内容。

然而，通过上述方式对扫描文件中的内容进行核查的方式需要耗费大量的人力资源和时间资源，核查效率较低，无法适应在线数据量较大，待核查表格较多的情况。

发明内容

本申请实施例提供了一种文件信息确定方法、装置、设备及可读存储介质，可以解决的扫描文件中的内容核查效率较低，无法适应在线数据量较大，待核查表格较多的情况问题。所述技术方案如下：

一方面，提供了一种文件信息确定方法，所述方法包括：

获取目标文件，所述目标文件中包括图形标识码；

对所述图形标识码进行识别，得到所述目标文件中的待确定区域；

获取所述待确定区域的区域信息，所述区域信息用于表示所述待确定区域中的内容填写情况；

当所述区域信息所表示的所述内容填写情况符合内容填写条件时，确定所述目标文件符合填写要求。

另一方面，提供了一种文件信息确定装置，所述装置包括：

获取模块，用于获取目标文件，所述目标文件中包括图形标识码；

识别模块，用于对所述图形标识码进行识别，得到所述目标文件中的待确定区域；

所述获取模块，还用于获取所述待确定区域的区域信息，所述区域信息用于表示所述待确定区域中的内容填写情况；

确定模块，用于当所述区域信息所表示的所述内容填写情况符合内容填写条件时，确定所述目标文件符合填写要求。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文件信息确定方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文件信息确定方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的文件信息确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过在目标文件中设置图形标识码，并通过图形标识码对该目标文件中的待确定区域进行标识，在对目标文件是否符合填写要求进行核对时，通过图形标识码确定待确定区域，并获取该待确定区域的区域信息，根据区域信息与内容填写条件进行匹配确定该目标文件是否符合填写要求，避免通过人工逐个对目标文件进行核对，文件信息确定效率高，节省文件信息确定过程中的人力资源以及时间资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的文件信息确定方法的流程图；

图3是本申请一个示例性实施例提供的根据图形标识码确定待确定区域的示意图；

图4是本申请一个示例性实施例提供的根据图形标识码确定待确定区域的整体过程示意图；

图5是本申请另一个示例性实施例提供的文件信息确定方法的流程图；

图6是基于图5示出的实施例提供的根据第一尺寸和第二尺寸确定目标文件缩放情况的示意图；

图7是本申请另一个示例性实施例提供的文件信息确定方法的流程图；

图8是本申请另一个示例性实施例提供的文件信息确定方法的流程图；

图9是本申请一个示例性实施例提供的文件信息确定装置的结构框图；

图10是本申请另一个示例性实施例提供的文件信息确定装置的结构框图；

图11是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

图形标识码：是指以特定的几何图形以一定规律进行编码后得到的编码图形。可选地，该图形标识码为可识别标识码，即通过对该图形标识码进行识别可以得到与该图形标识码对应的信息，该信息可以是网页链接、文字、图片、视频、存储地址等形式的信息。可选地，该图形标识码可以实现为二维码、条形码、小程序码等形式的标识码。

可选地，本申请实施例中，该图形标识码为目标文件中附带的标识码，也即该图形标识码显示在目标文件中，可选地，该目标文件为扫描文件或照片文件，其中，该扫描文件为便携式文档格式(Portable Document Format，PDF)文件。

其次，对本申请实施例的实施环境进行示意性说明，如图1所示，图1示出了本申请一个示例性实施例提供的实施环境示意图，该实施环境中包括文件上传终端110、服务器120以及通信网络130；

其中，文件上传终端110用于在待填写文件中，对目标内容进行填写后，生成目标文件，该待填写文件可以是文档文件也可以是表格文件，本申请实施例对此不加以限定，如：在表格文件中填写目标内容后，对该表格文件进行扫描，得到该表格文件对应的扫描文件。

可选地，文件上传终端110生成目标文件后，将该目标文件通过通信网络130上传至服务器120，服务器120中包括信息确定单元121，通过该信息确定单元121对目标文件中填写的目标内容是否符合填写要求进行识别，并将识别结果通过通信网络130返回至文件上传终端110。如：当目标文件中填写的目标内容符合填写要求时，服务器120向文件上传终端110返回识别结果“上传成功”。

可选地，上述服务器120可以实现为一台服务器，也可以实现为一组服务器组成的服务器集群。可选地，该服务器120可以实现为物理服务器，也可以实现为云服务器，本申请实施例对此不加以限定。

结合上述名词介绍以及实施环境介绍，对本申请实施例提供的文件信息确定方法进行说明，图2是本申请一个示例性实施例提供的文件信息确定方法的流程图，以该方法应用于如图1所示的服务器120中进行说明，如图2所示，该方法包括：

步骤201，获取目标文件，该目标文件中包括图形标识码。

可选地，该目标文件为扫描文件或照片文件。可选地，该目标文件为文件上传终端上传至服务器的文件。

其中，当目标文件为扫描文件时，用户在文件上传终端中对待填写文件进行填写，如：在文档中或表格中对待填写的区域进行内容填写，并对填写完毕的待填写文件进行扫描后，得到该扫描文件，或，用户对待填写文件进行下载并打印后，在纸质文件中进行手动填写，并通过扫描的方式对纸质文件进行扫描得到扫描文件；当目标文件为照片文件时，用户对待填写文件进行下载并打印后，在纸质文件中进行手动填写，并通过文件上传终端对填写完毕的纸质文件进行拍照，得到照片文件。可选地，文件上传终端获取该目标文件后，将该目标文件发送至服务器。

可选地，该目标文件中包括图形标识码，即该图形标识码为目标文件的一部分，及，该图形标识码显示在目标文件中。

可选地，该图形标识码为待填写文件中原本存在的标识码，该待填写文件中包括待填写区域，待填写区域和该图形标识码相互独立。

步骤202，对图形标识码进行识别，得到目标文件中的待确定区域。

可选地，对该图形标识码进行识别的过程中，首先对该目标文件整体进行识别，从该目标文件中识别得到图形标识码，从而对该图形标识码进行识别。

可选地，该图形标识码是通过对标识码信息以一定的规律进行编码后得到的标识码，则，在对该图形标识码进行识别的过程中，以编码对应的规律对该图形标识码进行解码，得到标识码信息。

可选地，该标识码信息中包括图形标识码与待确定区域之间的第一位置关系，结合该待确定区域与图形标识码对应的第一位置关系，以及目标文件中的图形标识码，确定待确定区域在目标文件中的位置。可选地，该第一位置区域为标识码信息中待确定区域对应图形标识码的第一坐标信息。示意性的，对该图形标识码进行解码得到坐标列表：(a₁，b₁，c₁，d₁)、(a₂，b₂，c₂，d₂)，则该目标文件中包括两个待确定区域，其中，第一个待确定区域为与图形标识码对应坐标为(a₁，b₁，c₁，d₁)的区域，而第二个待确定区域为与图形标识码对应坐标为(a₂，b₂，c₂，d₂)的区域。

可选地，上述第一坐标信息包括待确定区域与该图形标识码坐标之间的坐标差信息，即该待确定区域的顶点与该图形标识码的顶点之间的距离。示意性的，请参考图3，二维码300的四个顶点分别为(R₁，R₂，R₃，R₄)该二维码信息中以列表的形式存储了待确定区域310与该二维码300之间的坐标差信息，和待确定区域320与该二维码300之间的坐标差信息，包括信息A(R₁A₁w，R₁A₁h，R₁A₄w，R₁A₄h)，以及信息B(R₁B₁w，R₁B₁h，R₁B₄w，R₁B₄h)，其中，信息A表示待确定区域310的顶点A₁与二维码300的顶点R₁之间的相对宽、待确定区域310的顶点A₁与二维码300的顶点R₁之间的相对高，待确定区域310的顶点A₄与二维码300的顶点R₁之间的相对宽、待确定区域310的顶点A₄与二维码300的顶点R₁之间的相对高；信息B表示待确定区域320的顶点B₁与二维码300的顶点R₁之间的相对宽、待确定区域320的顶点B₁与二维码300的顶点R₁之间的相对高，待确定区域320的顶点B₄与二维码300的顶点R₁之间的相对宽、待确定区域320的顶点B₄与二维码300的顶点R₁之间的相对高。

根据上述坐标差信息以及图形标识码在目标文件中的位置，确定待确定区域在该目标文件中的位置。

步骤203，获取待确定区域的区域信息，该区域信息用于表示待确定区域中的内容填写情况。

可选地，该内容填写情况包括如下情况中的至少一种：

第一，该待确定区域中是否填写有内容；即该待确定区域中的填写情况为未填写还是已填写。

第二，以及该待确定区域中填写的是否是与目标主题对应的内容。即该待填写区域中填写的内容中是否包括与目标主题对应的关键词。

步骤204，当区域信息所表示的内容填写情况符合内容填写条件时，确定目标文件符合填写要求。

可选地，该内容填写条件为服务器中已存储的信息，当内容填写情况符合内容填写条件时，则确定目标文件符合填写要求。

可选地，当确定该目标文件符合填写要求时，向终端发送目标文件的文件上传结果，即向终端发送目标文件上传成功通知。

可选地，当目标文件不符合填写要求时，向终端发送目标文件上传失败通知，并向终端发送该目标文件中不符合填写要求的部分。示意性的，当待确定区域A中未填写内容，而内容填写条件为该待确定区域A中填写有内容时，服务器向终端发送上传失败提示“待确定区域A中未填写内容”。

综上所述，本实施例提供的文件信息确定方法，通过在目标文件中设置图形标识码，并通过图形标识码对该目标文件中的待确定区域进行标识，在对目标文件是否符合填写要求进行核对时，通过图形标识码确定待确定区域，并获取该待确定区域的区域信息，根据区域信息与内容填写条件进行匹配确定该目标文件是否符合填写要求，避免通过人工逐个对目标文件进行核对，文件信息确定效率高，节省文件信息确定过程中的人力资源以及时间资源。

示意性的，该文件信息确定方法的主要过程请参考图4，图4是本申请一个示例性实施例提供的文件信息确定方法的过程示意图，如图4所示，目标文件400中包括图形标识码410，该图形标识码410位于目标文件400的右下方，对该目标文件400中的图形标识码410进行识别，得到目标文件400中的待确定区域410和待确定区域420，获取该待确定区域410的区域信息A和待确定区域420的区域信息B，并将区域信息A和区域信息B分别与内容填写条件430进行匹配，当该区域信息A和区域信息B都符合内容填写条件430时，确定该目标文件400符合填写要求。

在一个可选的实施例中，标识码信息中还存储有图形标识码的第一尺寸，该目标文件中的图形标识码在该第一尺寸的基础上存在缩放效果。图5是本申请另一个示例性实施例提供的文件信息确定方法的流程图，以该方法应用于如图1所示的服务器120中进行说明，如图5所示，该方法包括：

步骤501，获取目标文件，该目标文件中包括图形标识码。

可选地，获取该目标文件的过程在上述步骤201中已进行了详细说明，此处不再赘述。

步骤502，对所述图形标识码进行识别，得到标识码信息。

可选地，该标识码信息中包括图形标识码与待确定区域之间的第一位置关系。可选地，该标识码信息中还包括图形标识码的第一尺寸。

示意性的，图形标识码四个顶点的坐标为(R₁，R₂，R₃，R₄)，标识码信息中存储有该图形标识码的第一尺寸(R₁R₃w，R₁R₂h)，即顶点R₁和R₃之间的宽w，以及顶点R₁和R₂之间的高h。

可选地，该第一位置区域为标识码信息中待确定区域对应图形标识码的第一坐标信息。

可选地，上述第一坐标信息包括待确定区域与该图形标识码坐标之间的坐标差信息，即该待确定区域的顶点与该图形标识码的顶点之间的距离。

步骤503，根据标识码信息中图形标识码的第一尺寸，以及目标文件中图形标识码的第二尺寸，对第一位置关系进行调整，得到第二位置关系。

可选地，该第二位置关系为目标文件中待确定区域对应图形标识码的第二坐标信息。可选地，该第二坐标信息中包括该待确定区域的对角线顶点的坐标信息，或，该第二坐标信息中包括该待确定区域中点的坐标信息，或，该第二坐标信息中包括该待确定区域中每个顶点的坐标信息。

可选地，根据该标识码信息中图形标识码的第一尺寸，以及目标文件中图形标识码的第二尺寸，确定该目标文件针对待填写文件的缩放比例，并结合该缩放比例对第一位置关系进行调整，得到第二位置关系。

可选地，首先根据识别得到该图形标识码在目标文件中的坐标。

可选地，在确定图形标识码在目标文件中的坐标时，可以确定该图形标识码的顶点在目标文件中的坐标，也可以确定该图形标识码的中点在目标文件中的坐标。可选地，当确定图形标识码的顶点在目标文件中的坐标时，可以确定部分顶点的坐标，如：标识码信息中存储的待确定区域与图形标识码坐标之间的坐标差信息对应的顶点，也可以确定全部顶点的坐标，可选地，该部分顶点的坐标为能够计算图形标识码的第二尺寸的顶点坐标，即该部分顶点的坐标中包括至少三个顶点的坐标。

示意性的，图形标识码四个顶点的坐标为(R₁，R₂，R₃，R₄)，标识码信息中存储有该图形标识码的第一尺寸(R₁R₃w，R₁R₂h)，以及待确定区域A与该图形标识码的相对坐标差信息A(R₁A₁w，R₁A₁h，R₁A₄w，R₁A₄h)。

如图6所示，对该目标文件600中的图形标识码620进行识别，得到顶点R1的坐标R₁(x1,y1)，R₂(x2,y2)，R₃(x3,y3)，根据该R₁，R₂，R₃的坐标确定图形标识码的第二尺寸，并根据第一尺寸(R₁R₃w，R₁R₂h)和第二尺寸计算目标文件的缩放比例，如图6所示，图像标识码610的尺寸为第一尺寸，目标文件600中的图像标识码620的尺寸为第二尺寸，该第二尺寸相对于第一尺寸的长度缩放比例为Li，宽度缩放比例为Wi，根据该缩放比例计算该待确定区域A中顶点A₁和顶点A₄的坐标，其中，A₁和A₄为对角线上的顶点。

其中，A₁坐标为【(x1+R₁A₁w)*Wi，(y1+R₁A₁h)*Li】，A₄坐标为【(x1+R₁A₄w)*Wi，(y1+R₁A₄h)*Li】。

可选地，结合该A₁的坐标和A₄的坐标可以得到A₂和A₃的坐标，并得到该待确定区域的整体位置。

步骤504，根据第二位置关系和目标文件中的图形标识码，确定待确定区域在目标文件中的位置。

可选地，根据该第二位置关系以及图形标识码在目标文件中的坐标，确定该待确定区域的顶点在目标文件中的坐标。可选地，该待确定区域的顶点在目标文件中的坐标包括该待确定区域的对角线顶点在目标文件中的坐标，根据该对角线顶点可以得到该待确定区域在目标文件中的位置。

步骤505，获取待确定区域的区域信息，该区域信息用于表示待确定区域中的内容填写情况。

可选地，该内容填写情况包括如下情况中的至少一种：

步骤506，当区域信息所表示的内容填写情况符合内容填写条件时，确定目标文件符合填写要求。

可选地，当目标文件不符合填写要求时，向终端发送目标文件上传失败通知，并向终端发送该目标文件中不符合填写要求的部分。

本实施例提供的方法，通过在标识码信息中存储图形标识码的第一尺寸，以及对目标文件中图形标识码的第二尺寸进行缩放比例计算，通过缩放比例调整第一位置关系，得到第二位置关系，避免目标文件存在缩放而导致待确定区域的识别不准确的问题。

在一个可选地实施例中，上述区域信息包括区域颜色占比和文字识别结果中的至少一种，图7是本申请另一个示例性实施例提供的文件信息确定方法的流程图，如图7所示，该方法包括：

步骤701，获取目标文件，该目标文件中包括图形标识码。

步骤702，对图形标识码进行识别，得到目标文件中的待确定区域。

可选地，对该图形标识码进行识别，还能够得到该图形标识码的图形清晰度，当该图形清晰度大于预设清晰度是，确定该目标文件符合清晰度要求。

步骤703，获取待确定区域的区域信息，该区域信息用于表示待确定区域中的内容填写情况。

可选地，该内容填写情况包括如下情况中的至少一种：

可选地，该区域信息中包括颜色占比和文字识别结果中的至少一种。

步骤704，当区域信息中包括待确定区域中目标颜色的颜色占比时，当该目标颜色的颜色占比符合占比要求时，确定目标文件符合填写要求。

可选地，由于对该待确定区域进行填写的颜色由用户进行选择，故通过该待确定区域的背景颜色的颜色占比确定该待确定区域是否符合颜色占比要求，如：该待确定区域的背景颜色为白色，则确定白色的占比是否符合占比要求。

可选地，对该待确定区域中目标颜色的颜色占比进行确定，如：对待确定区域中白色的占比进行确定，并当白色占比低于预设占比时，确定目标文件符合填写要求。

可选地，当目标颜色为白色时，手下对该待确定区域进行二值化处理，得到二值化区域，并确定该二值化区域中白色部分子区域对应二值化区域的颜色占比，当颜色占比小于预设占比时，确定目标文件符合填写要求。

可选地，在对该待确定区域进行二值化处理之前，还需要针对该待确定区域进行图片切片，并对得到的每个切片图片进行灰度处理，并将灰度处理后的切片图片进行二值化处理。

可选地，当白色部分子区域的颜色占比大于预设占比，如：90％时，则该待确定区域中未填写内容，或用户填写内容的笔迹较为模糊，则该目标文件不符合填写要求。

步骤705，当区域信息中包括待确定区域中的文字识别结果时，当文字识别结果中存在字符与预设字符表中的字符匹配时，确定目标文件符合填写要求。

可选地，该文字识别结果是通过对该待确定区域进行字符识别(OpticalCharacter Recognition，OCR)得到的。可选地，该预设字符表为与目标主题对应的字符表，将文字识别结果中的字符与预设字符表进行匹配，当文字识别结果中存在字符与预设字符表中的字符匹配时，则该待确定区域中填写的内容为与目标主题对应的内容，也即该待确定区域符合内容填写条件，则该目标文件符合填写要求。

示意性的，预设字符表中包括与主题考勤对应的字符“考勤迟到早退准时按时请假”，文字识别结果为“本月未出现迟到现象”，其中“迟到”与预设字符表中的“迟到”匹配，则该待确定区域中填写的内容符合内容填写条件。

本实施例提供的方法，通过对待确定区域中目标颜色的颜色占比进行确定，并根据颜色占比判断该待确定区域是否符合内容填写条件，由于待确定区域包括背景颜色以及内容填写颜色，当背景颜色的颜色占比小于预设占比时，则说明该待确定区域中填写有内容，则确定该目标文件符合填写要求。

本实施例提供的方法，通过对待确定区域进行OCR识别，得到文字识别结果，当文字识别结果中存在字符与预设字符表中的字符匹配时，确定该目标文件符合填写要求，其中，该预设字符表为与目标主题对应的字符表，通过字符匹配确定该待确定区域中填写的内容为与目标主题对应的内容，从而判断该待确定区域中填写的内容的合理性，避免待确定区域中填写的内容与需要填写的内容不一致的问题。

图8是本申请另一个示例性实施例提供的文件信息确定方法的流程图，以该方法应用于客户端和服务器交互的应用场景中，以及图形标识码为二维码为例进行说明，该方法包括：

步骤801，用户填写信息并通过客户端上传扫描件。

可选地，该扫描件还可以实现为照片文件。

可选地，用户在待填写文件中对内容进行填写后，生成扫描件，并将该扫描件上传至服务器。

步骤802，服务器识别扫描件中二维码的位置和内容信息。

可选地，根据二维码在扫描件中的位置，确定二维码在扫描件中的坐标信息，以及对二维码进行识别得到内容信息。

可选地，该内容信息中包括待确定区域的相对坐标列表，以及二维码本身尺寸。

步骤803，根据二维码坐标，通过对比计算出扫描件长宽缩放比例。

可选地，根据二维码在扫描件中的坐标信息确定二维码在扫描件中的尺寸，并根据内容信息中二维码本身尺寸与二维码在扫描件中的尺寸，确定该扫描件的长宽缩放比例。

步骤804，根据相对坐标列表和长宽所当比例，计算出待确定区域列表坐标。

可选地，根据该扫描件的长宽缩放比例，以及内容信息中待确定区域的相对坐标列表，对该相对坐标列表中的坐标进行调整，得到缩放后待确定区域的坐标列表。

也即，根据扫描件的长宽缩放比例，确定缩放后的待确定区域在扫描件中的位置。

步骤805，对该待确定区域进行灰度处理和二值化处理。

可选地，确定待确定区域在扫描件中的位置后，对该待确定区域进行截图，得到每个待确定区域，并针对每个待确定区域进行灰度处理以及二值化处理，二值化处理后的白色像素部分即为该待确定区域中未被填写的内容覆盖的区域。

步骤806，判断待确定区域中白色像素比例是否小于预设比例。

可选地，白色像素比例表示该待确定区域中未被填写的内容覆盖的占比，当白色像素比例小于预设比例时，表示该待确定区域中填写有内容；当白色像素比例不小于预设比例时，表示该待确定区域中未填写有内容，或该待确定区域中填写的内容清晰度较低。

步骤807，当白色像素比例不小于预设比例时，向客户端发送区域未填写提醒，并由用户重新填写上传。

步骤808，当白色像素比例小于预设比例时，将扫描件和对应信息进行存储。

可选地，该对应信息是指该扫描件对应的帐号信息，如：用户通过客户端上传该扫描件时，该客户端中登录的帐号为帐号A，则当白色像素比例小于预设比例时，将扫描件与帐号A的对应信息进行存储。

步骤809，向客户端发送扫描件上传成功通知。

图9是本申请一个示例性实施例提供的文件信息确定装置的结构框图，以该装置设置于服务器中为例进行说明，如图9所示，该装置包括：获取模块910、识别模块920以及确定模块930；

获取模块910，用于获取目标文件，所述目标文件中包括图形标识码；

识别模块920，用于对所述图形标识码进行识别，得到所述目标文件中的待确定区域；

所述获取模块910，还用于获取所述待确定区域的区域信息，所述区域信息用于表示所述待确定区域中的内容填写情况；

确定模块930，用于当所述区域信息所表示的所述内容填写情况符合内容填写条件时，确定所述目标文件符合填写要求。

在一个可选的实施例中，所述识别模块920，还用于对所述图形标识码进行识别，得到标识码信息，所述标识码信息中包括所述图形标识码与所述待确定区域之间的第一位置关系；

所述识别模块920，还用于结合所述待确定区域与所述图形标识码对应的所述第一位置关系以及所述目标文件中的所述图形标识码，确定所述待确定区域在所述目标文件中的位置。

在一个可选的实施例中，所述标识码信息中还包括所述图形标识码的第一尺寸；

如图10所示，所述识别模块920，包括：

调整单元921，用于根据所述标识码信息中所述图形标识码的第一尺寸，以及所述目标文件中所述图形标识码的第二尺寸，对所述第一位置关系进行调整，得到第二位置关系；

确定单元922，用于根据所述第二位置关系和所述目标文件中的所述图形标识码，确定所述待确定区域在所述目标文件中的位置。

在一个可选的实施例中，所述第一位置关系为所述标识码信息中的所述待确定区域对应所述图形标识码的第一坐标信息；

所述第二位置关系为所述目标文件中所述待确定区域对应所述图形标识码的第二坐标信息。

在一个可选的实施例中，所述区域信息中包括所述待确定区域中目标颜色的颜色占比；

所述确定模块930，还用于当所述目标颜色的颜色占比符合占比要求时，确定所述目标文件符合所述填写要求。

在一个可选的实施例中，所述确定模块930，还用于将所述待确定区域进行二值化处理，得到二值化区域；确定所述二值化区域中白色部分子区域对应所述二值化区域的所述颜色占比；当所述颜色占比小于预设占比时，确定所述目标文件符合所述填写要求。

在一个可选的实施例中，所述区域信息中包括所述待确定区域的文字识别结果；

所述确定模块930，还用于当所述文字识别结果中存在字符与预设字符表中的字符匹配时，确定所述目标文件符合所述填写要求。

综上所述，本实施例提供的文件信息确定装置，通过在目标文件中设置图形标识码，并通过图形标识码对该目标文件中的待确定区域进行标识，在对目标文件是否符合填写要求进行核对时，通过图形标识码确定待确定区域，并获取该待确定区域的区域信息，根据区域信息与内容填写条件进行匹配确定该目标文件是否符合填写要求，避免通过人工逐个对目标文件进行核对，文件信息确定效率高，节省文件信息确定过程中的人力资源以及时间资源。

需要说明的是：上述实施例提供的文件信息确定装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文件信息确定装置与文件信息确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的文件信息确定方法。需要说明的是，该服务器可以是如下图11所提供的服务器。

请参考图11，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：所述服务器1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述文件信息确定方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的文件信息确定方法。

根据本发明的各种实施例，所述服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的文件信息确定方法中由服务器所执行的步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述如图2、图5以及图7任一所述的文件信息确定方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2、图5以及图7任一所述的文件信息确定方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的文件信息确定方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2、图5以及图7任一所述的文件信息确定方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文件信息确定方法，其特征在于，所述方法包括：

获取目标文件，所述目标文件中包括图形标识码；

对所述图形标识码进行识别，得到标识码信息和图形清晰度，所述标识码信息中包括待确定区域与所述图形标识码的坐标之间的坐标差信息和所述图形标识码的第一尺寸，所述坐标差信息包括所述待确定区域的多个顶点分别与所述图形标识码的同一顶点之间的距离；

响应于所述图形清晰度大于预设清晰度，确定所述目标文件符合清晰度要求；

根据所述标识码信息中所述图形标识码的第一尺寸，以及所述目标文件中所述图形标识码的第二尺寸，确定所述第二尺寸相对于第一尺寸的长度缩放比例和宽度缩放比例；

根据所述长度缩放比例和所述宽度缩放比例对第一位置关系进行调整，得到第二位置关系，所述第一位置关系用于指示所述坐标差信息；所述第二位置关系为所述目标文件中所述待确定区域对应所述图形标识码的第二坐标信息，所述第二坐标信息中包括所述待确定区域的对角线顶点的坐标信息；

根据所述第二位置关系和所述目标文件中的所述图形标识码，确定所述待确定区域在所述目标文件中的位置；

对所述待确定区域进行图片切片，对得到的每个切片图片进行二值化处理，得到所述切片图片的二值化区域；

将所述待确定区域进行二值化处理，得到二值化区域；

确定所述二值化区域中白色部分子区域对应所述二值化区域的颜色占比；

当所述待确定区域的所述颜色占比小于预设占比时，对所述待确定区域进行字符识别，并根据得到的文字识别结果判断所述待确定区域中填写的内容是否为与目标主题对应的内容；

当所述文字识别结果指示所述待确定区域中填写的是与目标主题对应的内容时，确定所述目标文件符合填写要求，并向终端发送所述目标文件的上传成功通知；

当所述文字识别结果指示所述待确定区域中填写的不是与目标主题对应的内容时，确定所述目标文件不符合填写要求，向所述终端发送所述目标文件的上传失败通知，并向所述终端指示所述目标文件中不符合所述填写要求的部分。

2.根据权利要求1所述的方法，其特征在于，所述第一位置关系为所述标识码信息中的所述待确定区域对应所述图形标识码的第一坐标信息。

3.根据权利要求1或2所述的方法，其特征在于，所述当所述文字识别结果指示所述待确定区域中填写的是与目标主题对应的内容时，确定所述目标文件符合填写要求，包括：

当所述文字识别结果中存在字符与预设字符表中的字符匹配时，确定所述目标文件符合所述填写要求，所述预设字符表为与所述目标主题对应的字符表。

4.一种文件信息确定装置，其特征在于，所述装置包括：

识别模块，用于对所述图形标识码进行识别和图形清晰度，得到标识码信息，所述标识码信息中包括待确定区域与所述图形标识码的坐标之间的坐标差信息和所述图形标识码的第一尺寸，所述坐标差信息包括所述待确定区域的多个顶点分别与所述图形标识码的同一顶点之间的距离；

调整单元，用于根据所述标识码信息中所述图形标识码的第一尺寸，以及所述目标文件中所述图形标识码的第二尺寸，确定所述第二尺寸相对于第一尺寸的长度缩放比例和宽度缩放比例；根据所述长度缩放比例和所述宽度缩放比例对第一位置关系进行调整，得到第二位置关系，所述第一位置关系用于指示所述坐标差信息；所述第二位置关系为所述目标文件中所述待确定区域对应所述图形标识码的第二坐标信息，所述第二坐标信息中包括所述待确定区域的对角线顶点的坐标信息；

确定单元，用于根据所述第二位置关系和所述目标文件中的所述图形标识码，确定所述待确定区域在所述目标文件中的位置；

确定模块，用于对所述待确定区域进行图片切片，对得到的每个切片图片进行二值化处理，得到所述切片图片的二值化区域；将所述待确定区域进行二值化处理，得到二值化区域；确定所述二值化区域中白色部分子区域对应所述二值化区域的颜色占比；当所述待确定区域的所述颜色占比小于预设占比时，对所述待确定区域进行字符识别，并根据得到的文字识别结果判断所述待确定区域中填写的内容是否为与目标主题对应的内容；当所述文字识别结果指示所述待确定区域中填写的是与目标主题对应的内容时，确定所述目标文件符合填写要求，并向终端发送所述目标文件的上传成功通知；当所述文字识别结果指示所述待确定区域中填写的不是与目标主题对应的内容时，确定所述目标文件不符合填写要求，向所述终端发送所述目标文件的上传失败通知，并向终端指示所述目标文件中不符合所述填写要求的部分。

5.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至3任一所述的文件信息确定方法。

6.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至3任一所述的文件信息确定方法。