CN112256640A

CN112256640A - 一种基于业务场景的文件用户画像信息处理方法和存储设备

Info

Publication number: CN112256640A
Application number: CN202011037478.3A
Authority: CN
Inventors: 陈晶晶; 林丽; 刘斌; 裘钰娇
Original assignee: Fujian Huizhengtong Information Technology Co ltd
Current assignee: Fujian Huizhengtong Information Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-22

Abstract

本发明涉及数据处理技术领域，特别涉及一种基于业务场景的文件用户画像信息处理方法和存储设备。所述一种基于业务场景的文件用户画像信息处理方法，包括步骤：通过不同平台采集用户数据；对所述用户数据进行预处理得符合预设规范的数据；对所述符合预设规范的数据进行贴标签操作，并生成标签库；根据计算目标从所述标签库中选取目标数据；输入所述目标数据至预设的深度学习模型，输出计算结果。通过上述步骤，无需传统模式的人工一个个审核过去看是否满足政策条件，大大节约效率，同时也避免了人工出错。

Description

一种基于业务场景的文件用户画像信息处理方法和存储设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于业务场景的文件用户画像信息处理方法和存储设备。

背景技术

随着政府很多优惠政策的出台，如廉租房申请等，需要审核申请者的诸多信息，需要申请者本身递交很多材料，并且在递交的过程中材料经常会出错，则需要来回修正几次。不仅给申请者的体验非常差，同时政府部门对于材料的审核也是很繁琐的一个过程。

并且，申请者的信息并非是一成不变的，如申请者的工资水平、申请者的婚姻状况发生变化等都会影响到其是否可以继续享有廉租房或者是其它优惠政策等，而每年都需要申请者再重新递交材料，是非常繁琐的一个过程。

随着互联网的发展，与智能政府的建立，申请者的很多信息在一些平台可以获取到，然后每个平台对于数据的存储都是不一样的，且对于获取到的信息如何进行筛选判断该用户是否符合优惠政策的条件也需要耗费极大的精力，故此如何获取到有效信息，并且对这些信息进行有效处理成了亟需解决的问题。

发明内容

为此，需要提供一种基于业务场景的文件用户画像信息处理方法，用以解决现有政策审核申请者信息时，仍需申请者手动上传信息、人工审核等造成用户体验差、效率低下的问题。具体技术方案如下：

一种基于业务场景的文件用户画像信息处理方法，包括步骤：

通过不同平台采集用户数据；

对所述用户数据进行预处理得符合预设规范的数据；

对所述符合预设规范的数据进行贴标签操作，并生成标签库；

根据计算目标从所述标签库中选取目标数据；

输入所述目标数据至预设的深度学习模型，输出计算结果。

进一步的，还包括步骤：

输入所述标签库中的数据至预设的文档分类学习模型，输出文档分类结果；

输入所述标签库中的数据至预设的项目分类模型，判断各项目对应的文件是否有缺失，若有缺失，则发出缺失提示。

进一步的，所述“对所述用户数据进行预处理得符合预设规范的数据”，还包括步骤：

根据所述计算目标对所述用户数据进行初步筛选；

所述初步筛选的数据转换成预设格式；

对转换成预设格式的数据进行二次处理，所述二次处理包括以下中的一种或多种：排重、合并、编码；

二次处理后的数据入库，建立标准代码库。

进一步的，所述“输入所述目标数据至预设的深度学习模型”前，还包括步骤：

获取业务计算流程，根据所述业务计算流程建立预设的深度学习模型。

进一步的，所述“输入所述标签库中的数据至预设的项目分类模型”前，还包括步骤：通过对项目分类的历史数据进行学习，生成预设的项目分类模型。

进一步的，所述“对所述符合预设规范的数据进行贴标签操作”，还包括步骤：

判断所述数据是否有数据来源，若所述数据有数据来源，则抽取数据来源存储为标签，

若所述数据无数据来源，判断所述数据是否有文件类别，若所述数据有文件类别，则抽取文件类别存储为标签，

若所述数据无文件类别，则获取标签输入命令，

判断所述数据是否有文件属性，若所述数据有文件属性，则抽取文件属性存储为标签，

若所述数据无文件属性，则获取标签输入命令，

生成标签库。

进一步的，所述数据来源包括以下中的一种或多种：全国一体化在线政务服务平台、政务云；

所述文件类别包括以下中的一种或多种：合同、证照、公文；

所述文件属性包括以下中的一种或多种：结婚证、离婚证、出生证明。

进一步的，还包括步骤：

根据计算结果判断对应用户是否具备预设资格，若不具备预设资格，则显示不具备预设资格的原因，并发送所述不具备预设资格的原因的相关链接至对应用户，所述链接中包含用户重新上传文件接口。

进一步的，还包括步骤：

获取用户重新上传的文件，通过对所述文件内容判断所述用户是否具备预设资格。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：上述提及的任意步骤。

本发明的有益效果是：通过不同平台采集用户数据；对所述用户数据进行预处理得符合预设规范的数据；将所有的数据都弄成同一规范，大大利于后续数据的使用。对所述符合预设规范的数据进行贴标签操作，并生成标签库。通过形成标签库，标签库中的数据可根据实际的业务应用场景进行各种灵活应用。如：根据计算目标从所述标签库中选取目标数据；输入所述目标数据至预设的深度学习模型，输出计算结果。通过上述步骤，整个过程对于数据的获取可直接从各平台获取，无需人工再递交各种材料，且通过对各平台的数据进行重新处理后，将其应用于预设的深度学习模型，即可获得计算结果，无需传统模式的人工一个个审核过去看是否满足政策条件，大大节约效率，同时也避免了人工出错。同时当需要重新审核申请者的资格时，只需重复上述步骤即可，无需申请人重新递交各种材料，在大大提升用户体验的同时，大大节约政府部门的人力物力。

附图说明

图1为具体实施方式所述一种基于业务场景的文件用户画像信息处理方法的流程图；

图2为具体实施方式所述生成标签库的流程示意图；

图3为具体实施方式所述申请廉租房的流程示意图；

图4为具体实施方式所述一种存储设备的模块示意图；

附图标记说明：

400、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，在本实施方式中，一种基于业务场景的文件用户画像信息处理方法可应用在存储设备上，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实施如下：

步骤S101：通过不同平台采集用户数据。

步骤S102：对所述用户数据进行预处理得符合预设规范的数据。

步骤S103：对所述符合预设规范的数据进行贴标签操作，并生成标签库。

步骤S104：根据计算目标从所述标签库中选取目标数据。

步骤S105：输入所述目标数据至预设的深度学习模型，输出计算结果。

在本实施方式中，主要以福州地区廉租房资格申领为例进行具体说明。

步骤S101中可通过全国一体化在线政务服务平台、政务云或者是其它任意平台采集用户数据。因每个平台对于数据的存储格式是不一样的，为了使获得的数据可以适用于后续的学习模型，则需要执行步骤S102对这些数据进行预处理。

具体的步骤S102还包括步骤：根据所述计算目标对所述用户数据进行初步筛选；所述初步筛选的数据转换成预设格式；对转换成预设格式的数据进行二次处理，所述二次处理包括以下中的一种或多种：排重、合并、编码；二次处理后的数据入库，建立标准代码库。

以申请廉租房数据为例：

环节1：根据申请廉租房这一计算目标确定项目范围和目标对象，进而对所述用户数据进行初步筛选

(一)具有本市五城区城镇户口(农村村民和农村集体经济组织成员除外)，并在本市工作、居住；

(二)在本市五城区落户时间满3年；

(三)家庭年收入和家庭财产符合市政府公布的当年廉租住房保障的家庭收入和财产标准(家庭年收入3.8万元以下，家庭财产9.5万元以下)；

(四)家庭人均住房建筑面积低于市政府公布的当年廉租住房保障对象的家庭人均住房建筑面积标准(13平方米以下)。

b)对象

在规定时间，发起廉住房申请的人群。

环节2：所述初步筛选的数据转换成预设格式

同时满足项目范围和对象的数据进入数据清洗规则和标准建立环节。这里的数据清洗规则就是将项目范围等文本转义成表达式，例如户籍＝“仓山、台江、鼓楼、晋安、马尾”and户籍not in(农村村民,农村集体经济组织成员)等。

环节3：对转换成预设格式的数据进行二次处理

根据主数据标准对历史主数据进行清洗、排重、合并、编码，保证主数据的完整。

环节4：二次处理后的数据入库，建立标准代码库。形成一套规范的、可信任的主数据代码入库，建立标准代码库。

数据规范后，执行步骤S103，请参阅图2，所述步骤S103还包括步骤：

步骤S201：抽取符合预设规范的数据。

步骤S202：所述数据是否有数据来源？若是的话执行步骤S203：抽取数据来源存储为标签。

若否的话执行步骤S204：所述数据是否有文件类别？若是的话执行步骤S205：抽取文件类别存储为标签。

若否的话执行步骤S206：获取标签输入命令。具体可为人工稽核输入标签。

步骤S205或步骤S206后，执行步骤S207：所述数据是否有文件属性？若是的话，执行步骤S208：抽取文件属性存储为标签。

若否的话，执行步骤S209：获取标签输入命令。具体可为人工稽核输入标签。

步骤S208或步骤S209后，执行步骤S210：生成标签库。

其中所述数据来源包括以下中的一种或多种：全国一体化在线政务服务平台、政务云；

步骤S104具体为如下：在本实施方式中计算目标为想得到申请者是否符合廉租房申请要求，故而需要根据廉租房的申请条件来从标签库中选取对应的目标数据。

在所述步骤S105前，还包括步骤：获取业务计算流程，根据所述业务计算流程建立预设的深度学习模型。具体可如下：如图3所示为廉租房申请流程示意图，会将该计算流程进行编码生成预设的深度学习模型。

建立好预设的深度学习模型后，执行步骤S105，输出计算结果。

通过不同平台采集用户数据；对所述用户数据进行预处理得符合预设规范的数据；将所有的数据都弄成同一规范，大大利于后续数据的使用。对所述符合预设规范的数据进行贴标签操作，并生成标签库。通过形成标签库，标签库中的数据可根据实际的业务应用场景进行各种灵活应用。如：根据计算目标从所述标签库中选取目标数据；输入所述目标数据至预设的深度学习模型，输出计算结果。通过上述步骤，整个过程对于数据的获取可直接从各平台获取，无需人工再递交各种材料，且通过对各平台的数据进行重新处理后，将其应用于预设的深度学习模型，即可获得计算结果，无需传统模式的人工一个个审核过去看是否满足政策条件，大大节约效率，同时也避免了人工出错。同时当需要重新审核申请者的资格时，只需重复上述步骤即可，无需申请人重新递交各种材料，在大大提升用户体验的同时，大大节约政府部门的人力物力。

进一步的，还包括步骤：根据计算结果判断对应用户是否具备预设资格，若不具备预设资格，则显示不具备预设资格的原因，并发送所述不具备预设资格的原因的相关链接至对应用户，所述链接中包含用户重新上传文件接口。具体可如下：通过审核发现申请者A的个人收入不符合条件，则会发送对应的提示到申请者A所留下的联系方式(可为短信发送，亦可为邮箱发送)，所述链接中包含了可以让用户重新上传文件的接口，用户收到信息后，如果是因为部分信息未更新导致的误判，用户可将最新信息进行上传。这样可以做到让用户第一时间知道审核结果，如果有问题的话，也可以尽快纠正，大大提高办事效率。

用户上传文件后，还包括步骤：获取用户重新上传的文件，通过对所述文件内容判断所述用户是否具备预设资格。具体可如下：对于用户重新上传的文件，可设置有一个专门的模块用于存放，当相关人员登录系统的时候，可第一时间获取到这些文件，利于相关人员快速审核判断所述用户是否具备了申请廉租房的资格。

进一步的，在本实施方式中，还包括步骤：输入所述标签库中的数据至预设的文档分类学习模型，输出文档分类结果；输入所述标签库中的数据至预设的项目分类模型，判断各项目对应的文件是否有缺失，若有缺失，则发出缺失提示。通过得到文档分类结果，利于数据后续应用于任意一个平台。

需要说明的是，在所述“输入所述标签库中的数据至预设的项目分类模型”前，还包括步骤：通过对项目分类的历史数据进行学习，生成预设的项目分类模型。具体可如下：如廉租房申请项目下必须有六个数据，而上传的数据只有五个，则可以提示缺失一个数据，确保数据的完整性。

请参阅图4，一种存储设备400的具体实施方式如下：

一种存储设备400，其中存储有指令集，所述指令集用于执行：通过不同平台采集用户数据；对所述用户数据进行预处理得符合预设规范的数据；对所述符合预设规范的数据进行贴标签操作，并生成标签库；根据计算目标从所述标签库中选取目标数据；输入所述目标数据至预设的深度学习模型，输出计算结果。

通过不同平台采集用户数据中可通过全国一体化在线政务服务平台、政务云或者是其它任意平台采集用户数据。因每个平台对于数据的存储格式是不一样的，为了使获得的数据可以适用于后续的学习模型，则需要对这些数据进行预处理。

对所述用户数据进行预处理得符合预设规范的数据还包括步骤：根据所述计算目标对所述用户数据进行初步筛选；所述初步筛选的数据转换成预设格式；对转换成预设格式的数据进行二次处理，所述二次处理包括以下中的一种或多种：排重、合并、编码；二次处理后的数据入库，建立标准代码库。

以申请廉租房数据为例：

(二)在本市五城区落户时间满3年；

b)对象

在规定时间，发起廉住房申请的人群。

环节2：所述初步筛选的数据转换成预设格式

环节3：对转换成预设格式的数据进行二次处理

所述指令集还用于执行：所述“对所述符合预设规范的数据进行贴标签操作”，还包括步骤：

若所述数据无文件类别，则获取标签输入命令，

若所述数据无文件属性，则获取标签输入命令，

生成标签库。

在本实施方式中计算目标为想得到申请者是否符合廉租房申请要求，故而需要根据廉租房的申请条件来从标签库中选取对应的目标数据。

所述“输入所述目标数据至预设的深度学习模型”前，还包括步骤：

获取业务计算流程，根据所述业务计算流程建立预设的深度学习模型。具体可如下：如图3所示为廉租房申请流程示意图，会将该计算流程进行编码生成预设的深度学习模型。

建立好预设的深度学习模型后，输出计算结果。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于业务场景的文件用户画像信息处理方法，其特征在于，包括步骤：

通过不同平台采集用户数据；

对所述用户数据进行预处理得符合预设规范的数据；

根据计算目标从所述标签库中选取目标数据；

输入所述目标数据至预设的深度学习模型，输出计算结果。

2.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，还包括步骤：

3.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，所述“对所述用户数据进行预处理得符合预设规范的数据”，还包括步骤：

根据所述计算目标对所述用户数据进行初步筛选；

所述初步筛选的数据转换成预设格式；

二次处理后的数据入库，建立标准代码库。

4.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，所述“输入所述目标数据至预设的深度学习模型”前，还包括步骤：

5.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，所述“输入所述标签库中的数据至预设的项目分类模型”前，还包括步骤：通过对项目分类的历史数据进行学习，生成预设的项目分类模型。

6.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，所述“对所述符合预设规范的数据进行贴标签操作”，还包括步骤：

若所述数据无文件类别，则获取标签输入命令，

若所述数据无文件属性，则获取标签输入命令，

生成标签库。

7.根据权利要求6所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，

所述数据来源包括以下中的一种或多种：全国一体化在线政务服务平台、政务云；

8.根据权利要求1所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，还包括步骤：

9.根据权利要求8所述的一种基于业务场景的文件用户画像信息处理方法，其特征在于，还包括步骤：

10.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：权利要求1至9任一权利要求的步骤。