CN115293867A

CN115293867A - 财务报销用户画像优化方法、装置、设备及存储介质

Info

Publication number: CN115293867A
Application number: CN202210871872.XA
Authority: CN
Inventors: 金盛羽; 汤泽波; 刘颖; 王小焕; 李慧敏
Original assignee: Dongfeng Motor Corp
Current assignee: Dongfeng Motor Corp
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-04

Abstract

本发明公开了一种财务报销用户画像优化方法、装置、设备及存储介质，所述方法通过获取用户财务报销相关的基本画像和用户历史报销记录，根据用户历史报销记录创建用户历史伪标签；获取用户财务报销的样本数据，对样本数据进行预处理，获得用户特征向量，并根据用户历史伪标签和用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练；根据训练后的用户画像优化算法模型对基本画像进行优化处理，获得优化后的目标用户画像，能够缩小用户敏感信息的搜集范围，降低了数据处理量，提升了用户画像优化模型的性能，实现了用户画像的自动化处理，提升了用户画像的准确率，提升了财务报销用户画像优化的速度和效率。

Description

财务报销用户画像优化方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种财务报销用户画像优化方法、装置、设备及存储介质。

背景技术

用户画像，作为一种刻画目标用户、联系用户诉求与设计方向的有效工具，在各领域得到了广泛的应用；实际操作过程中，用户画像往往采用人工标注、基于规则或模型的形式，以简单易懂或贴近生活的词组或短语为用户赋予标签，利用这些标签作为用户的虚拟代表，从而将用户的属性、行为等特征与所期待的结果关联起来。

报销业务是企业财务管理环节中的重要一环，有着业务发生频次高、涉及单据数量大、员工覆盖范围广等特点；企业采用用户画像对员工财务报销进行精细化管理有着降本增效的重要意义，但面向一般应用场景的用户画像构建方法在财务报销领域存在画像与业务关联度不高、有效信息密度低、实时应用能力差等问题。

现有解决方案是构建专业数据库，根据大量原始信息确认画像，并让用户确认，但是这种方案存在专业数据库构建过程中涉及大量专业背景知识，需要专业人员协助才能完成用户画像的构建工作，并且原始信息中的用户结构化和非结构化数据未能充分整合，难以发现不同标签之间交叉的高维特征信息，从整体预测结果上可能存在结果不准的缺陷；而另一种方案获取用户在多个公共服务行业的用户数据构建用户画像的拓扑结构框架，根据框架和业务信息进行用户画像构建，其构建的用户画像仅实现了信息聚拢，在实际应用过程中不够直观，并且设计数据量较大在实时计算负载中运行的负担较重，存在用户隐私泄露的风险。

发明内容

本发明的主要目的在于提供一种财务报销用户画像优化方法、装置、设备及存储介质，旨在解决现有技术中用户画像构建未能充分利用结构、非结构化原始数据的高维交叉特征，用户画像准确度难以支持业务应用，画像构建复杂性较高，计算量过大，且存在用户隐私泄露的风险的技术问题。

第一方面，本发明提供一种财务报销用户画像优化方法，所述财务报销用户画像优化方法包括以下步骤：

获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签；

获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型；

根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像。

可选地，所述获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签，包括：

获取用户基本信息、报销单据记录和报销审批记录，从所述用户基本信息中获得申报人工号，从所述报销单据记录和所述报销审批记录中获得对应的单据标识；

根据所述单据标识将所述报销单据记录和报销审批记录进行关联，根据所述申报人工号将所述用户基本信息与所述报销单据记录及所述报销审批记录进行相互关联，以生成用户财务报销相关的基本画像；

获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签。

可选地，所述获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签，包括：

获取用户历史报销记录，根据所述用户历史报销记录获得用户历史报销一次性通过率和报销流程平均耗时；

获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分；

根据所述用户类型评分、所述用户历史报销一次性通过率和所述报销流程平均耗时对所述样本单据进行排序，根据排序结果创建用户历史伪标签。

可选地，所述获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分，包括：

获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时通过下式计算获得所述样本单据的用户类型评分：

其中，M为样本单据的报销金额，T为样本单据的报销流程耗时，S为用户类型评分。

可选地，所述获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型，包括：

获取用户财务报销的样本数据，对所述样本数据中的数值类数据和标签类数据进行不同方式的数据预处理，获得处理后的用户画像数据；

对所述用户画像数据进行拼接，获得用户特征向量；

将所述用户特征向量导入基于深度神经网络的用户画像优化算法模型的输入层，获得输出层输出的优化标签；

将所述样本数据中对应同一用户原始画像样本的所述历史伪标签与所述优化标签进行标签对比，将标签对比结果不一致的原始画像样本存入难例数据库；

根据所述难例数据库对所述用户画像优化算法模型进行训练和优化，直至所述用户画像优化算法模型符合预设性能条件时，生成训练后的用户画像优化算法模型。

可选地，所述对所述用户画像数据进行拼接，获得用户特征向量，包括：

对所述用户画像数据中经过独热编码处理后的标签类数据依次进行头尾拼接，将拼接后的独热编码采用嵌入编码方式进行降维，将降维后的标签特征与所述用户画像数据中的数值特征以及其他标签类特征组合，获得用户特征向量。

可选地，所述根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像，包括：

根据训练后的用户画像优化算法模型对所述基本画像中不包含伪标签的数据进行优化处理，获得优化后的目标用户画像。

第二方面，为实现上述目的，本发明还提出一种财务报销用户画像优化装置，所述财务报销用户画像优化装置包括：

伪标签创建模块，用于获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签；

模型训练模块，用于获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型；

画像优化模块，用于根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像。

第三方面，为实现上述目的，本发明还提出一种财务报销用户画像优化设备，所述财务报销用户画像优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的财务报销用户画像优化程序，所述财务报销用户画像优化程序配置为实现如上文所述的财务报销用户画像优化方法的步骤。

第四方面，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有财务报销用户画像优化程序，所述财务报销用户画像优化程序被处理器执行时实现如上文所述的财务报销用户画像优化方法的步骤。

本发明提出的财务报销用户画像优化方法，通过获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签；获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型；根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像，能够缩小用户敏感信息的搜集范围，减少了数据在系统中的传递数量，减少了服务器存储和计算负担，提升了用户画像优化模型的性能，从报销金额和报销耗时综合评价单据在财务报销流程中的类别评分，确定了后续优化模型的训练和评价目标，对样本数据进行预处理，有利于算法模型的快速收敛，同时还对用户隐私数据进行了一定程度的脱敏，实现了用户画像的自动化处理，提升了用户画像的准确率，便于其他业务模块对用户画像的在线调用，提升了财务报销用户画像优化的速度和效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明财务报销用户画像优化方法第一实施例的流程示意图；

图3为本发明财务报销用户画像优化方法第二实施例的流程示意图；

图4为本发明财务报销用户画像优化方法第三实施例的流程示意图；

图5为本发明财务报销用户画像优化方法第四实施例的流程示意图；

图6为本发明财务报销用户画像优化方法中特征向量生成示意图；

图7为本发明财务报销用户画像优化方法第五实施例的流程示意图；

图8为本发明财务报销用户画像优化装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：通过获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签；获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型；根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像，能够缩小用户敏感信息的搜集范围，减少了数据在系统中的传递数量，减少了服务器存储和计算负担，提升了用户画像优化模型的性能，从报销金额和报销耗时综合评价单据在财务报销流程中的类别评分，确定了后续优化模型的训练和评价目标，对样本数据进行预处理，有利于算法模型的快速收敛，同时还对用户隐私数据进行了一定程度的脱敏，实现了用户画像的自动化处理，提升了用户画像的准确率，便于其他业务模块对用户画像的在线调用，提升了财务报销用户画像优化的速度和效率，解决了现有技术中用户画像构建未能充分利用结构、非结构化原始数据的高维交叉特征，用户画像准确度难以支持业务应用，画像构建复杂性较高，计算量过大，且存在用户隐私泄露的风险的技术问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(Non-Volatile Memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对该设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及财务报销用户画像优化程序。

本发明设备通过处理器1001调用存储器1005中存储的财务报销用户画像优化程序，并执行以下操作：

本发明设备通过处理器1001调用存储器1005中存储的财务报销用户画像优化程序，还执行以下操作：

对所述用户画像数据进行拼接，获得用户特征向量；

本实施例通过上述方案，通过获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签；获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型；根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像，能够缩小用户敏感信息的搜集范围，减少了数据在系统中的传递数量，减少了服务器存储和计算负担，提升了用户画像优化模型的性能，从报销金额和报销耗时综合评价单据在财务报销流程中的类别评分，确定了后续优化模型的训练和评价目标，对样本数据进行预处理，有利于算法模型的快速收敛，同时还对用户隐私数据进行了一定程度的脱敏，实现了用户画像的自动化处理，提升了用户画像的准确率，便于其他业务模块对用户画像的在线调用，提升了财务报销用户画像优化的速度和效率。

基于上述硬件结构，提出本发明财务报销用户画像优化方法实施例。

参照图2，图2为本发明财务报销用户画像优化方法第一实施例的流程示意图。

在第一实施例中，所述财务报销用户画像优化方法包括以下步骤：

步骤S10、获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签。

需要说明的是，用户财务报销相关的基本画像中包括但不限于用户基本信息、报销单据记录和报销审批记录等信息，所述用户历史报销记录为目标用户在过去一段时间内的报销记录，通过所述用户历史报销记录可以创建用户历史伪标签。

步骤S20、获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型。

可以理解的是，用户财务报销的样本数据为对基于深度神经网络的用户画像优化算法模型进行训练的训练数据，通过对所述样本数据进行预处理，能够避免不同数量级和不同计量单位数据间的相互干扰，从而获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型。

步骤S30、根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像。

应当理解的是，根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，从而获得优化后的目标用户画像，实现了用户画像的自动化处理，提升了用户画像的准确率，便于其他业务模块对用户画像的在线调用。

进一步地，图3为本发明财务报销用户画像优化方法第二实施例的流程示意图，如图3所示，基于第一实施例提出本发明财务报销用户画像优化方法第二实施例，在本实施例中，所述步骤S10具体包括以下步骤：

步骤S11、获取用户基本信息、报销单据记录和报销审批记录，从所述用户基本信息中获得申报人工号，从所述报销单据记录和所述报销审批记录中获得对应的单据标识。

需要说明的是，获取用户基本信息、报销单据记录和报销审批记录后，可以从所述用户基本信息中获得申报人工号，从所述报销单据记录和所述报销审批记录中获得对应的单据标识，用于后续基本画像的生成。

步骤S12、根据所述单据标识将所述报销单据记录和报销审批记录进行关联，根据所述申报人工号将所述用户基本信息与所述报销单据记录及所述报销审批记录进行相互关联，以生成用户财务报销相关的基本画像。

可以理解的是，从用户基本信息中获取用户工号、用户性别、出生日期、学历、现任职级、入职时间和部门等信息，如表1所示是用户基本信息的一个示意。

表1

工号

性别

出生日期

学历

现职级

入职日期

部门

12348181234

男

1990.08.31

本科

12级

2010.06.01

RJ

12348181235

女

1990.07.30

硕士

10级

2015.09.01

ZX

12348181236

男

1990.06.29

博士

9级

2020.03.01

CW

12348181237

女

1990.05.28

本科

11级

2010.06.01

DQ

12348181238

女

1990.04.27

博士

9级

2020.09.01

RS

从报销单据记录中获取单据标识、申报人工号、业务类型、出差日期、目的地、出差时长、报销金额等信息，如表2所示是用户既往完成报销单据记录信息的一个示意。

表2

单据标识	申报人工号	业务类型	出差日期	目的地	出差时长	报销金额
							20200001	12348181234	管理类	2020.01.01	襄阳	2天	1500
20200002	12348181235	培训类	2020.01.01	上海	3天	3000
							20200003	12348181236	项目类	2020.01.01	漠河	7天	10000
20200004	12348181237	项目类	2020.01.01	襄阳	2天	1500
							20200005	12348181238	培训类	2020.01.01	上海	3天	3000

从报销审批记录中获取单据标识、申报人工号、报销流程开始日期、报销流程结束日期、报销流程耗时、是否发生过驳回等信息，如表3所示是相关用户既往完成报销审批记录信息的一个示意。

表3

表3中的报销流程耗时是通过如下公式计算获得：

t_cost＝T_end-T_start

其中，t_cost代表记录中的报销流程耗时、单位为“天”，T_end代表记录中的报销流程结束日期，T_start代表记录中的报销流程开始日期。

通过单据标识可以将报销单据记录和报销审批记录的信息关联起来，通过工号可以将用户基本信息和单据相关信息关联起来，完成上述相关工作后即完成了用户的基本画像信息收集和构建。

步骤S13、获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签。

应当理解的是，获取用户历史报销记录后，可以根据用户历史报销记录的相关信息创建生成用户历史伪标签。

需要说明的是，为了进行深度神经网络算法模型的训练，往往需要获取样本所对应的真值标签，但在实际场景中基于历史统计信息只能获取在一定程度上表征真实情况的虚拟标签，所以在进行算法训练时，这类标签被称之为伪标签。

本实施例通过上述方案，通过获取用户基本信息、报销单据记录和报销审批记录，从所述用户基本信息中获得申报人工号，从所述报销单据记录和所述报销审批记录中获得对应的单据标识；根据所述单据标识将所述报销单据记录和报销审批记录进行关联，根据所述申报人工号将所述用户基本信息与所述报销单据记录及所述报销审批记录进行相互关联，以生成用户财务报销相关的基本画像；获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签，能够缩小用户敏感信息的搜集范围，减少了数据在系统中的传递数量，减少了服务器存储和计算负担，提升了财务报销用户画像优化的速度和效率。

进一步地，图4为本发明财务报销用户画像优化方法第三实施例的流程示意图，如图4所示，基于第二实施例提出本发明财务报销用户画像优化方法第三实施例，在本实施例中，所述步骤S13具体包括以下步骤：

步骤S131、获取用户历史报销记录，根据所述用户历史报销记录获得用户历史报销一次性通过率和报销流程平均耗时。

需要说明的是，为了获得用户报销单据填报质量和流程办理效率的相关信息，可以根据用户历史报销记录中的相关信息分别计算获得用户历史报销一次性通过率和报销流程平均耗时。

具体可以通过如下公式计算获得：

其中，p_once代表用户历史报销一次性通过率，n代表历史报销单据总数(为了确保用户数据的时效性，往往只选取该用户最后10条的记录为总量，记录不足10条的取所有记录)，n_pass代表历史报销单据中未发生驳回的数量即记录中“是否发生过驳回”为“否”的记录总数；

代表用户历史报销流程的平均耗时、单位“天”，n代表历史报销单据总数，t_i代表每条报销单据的报销流程耗时。将上述计算结果作为用于算法模型训练时的特征值，算法模型将更快学习到用户在财务报销过程中的特点，加快模型收敛速度的同时有利于提升优化后用户画像的准确度。

步骤S132、获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分。

可以理解的是，在获得了样本单据的报销金额和报销流程耗时后，可以进行样本单据的用户类型评分。、

进一步的，所述步骤S132具体包括以下步骤：

可以理解的是，本实施例提供了一种基于用户历史报销单据的金额和报销流程耗时，为每组数据样本赋予用户类型伪标签的示例，相关计算公式和方法如上所示。

步骤S133、根据所述用户类型评分、所述用户历史报销一次性通过率和所述报销流程平均耗时对所述样本单据进行排序，根据排序结果创建用户历史伪标签。

应当理解的是，通过上述计算公式获得用户类型评分后，将其按照评分从小到大顺序依次排列，分别为排名前20％、20％～40％、40％～60％、60％～80％、80％～100％的样本赋予“I级”“II级”“III级”“IV级”“V级”等共计5类伪标签，至此完成样本伪标签的创建工作，当然也可以设置为其他的不同数量和范围对应的等级或类别，即公式中的5可以为其他数值，本实施例对此不加以限制。

进而可以通过所述用户历史报销一次性通过率和所述报销流程平均耗时对所述用户类型评分进行进一步排序调整，即将通过率较高和耗时较少的样本排在前面，并且进行样本归类的伪标签的调整，当然还可以是其他排序调整方式，本实施例对此不加以限制，通过计算用户历史一次性通过率和平均报销耗时，有助于提取用户在财务报销业务中的填报质量和报销效率信息，利于加速模型收敛，提升用户画像优化模型的性能。

在具体实现中，可选地，还有其他可能的伪标签创建方法，如下所述：

备选方案一：基于报销流程耗时的伪标签创建方案

另一种可能的伪标签创建方法示例，直接以7天为单位，分为将报销流程耗时为“小于7天”“大于等于7天、小于14天”“大于等于14天、小于21天”“大于等于21天、小于28天”“大于等于28天”的用户单据分别依次标记为“Ⅰ级”至“Ⅴ级”。

备选方案二：基于机器学习无监督聚类算法的伪标签创建方案

另一种可能的伪标签创建方法示例，利用除伪标签数据之外的样本已知相关数据信息经预处理后组成特征向量，采用但不限于主成分分析(Principal ComponentAnalysis，PCA)、线性判别分析(Linear Discriminant Analysis，LDA)、奇异值分解(Singular Value Decomposition，SVD)等降维算法对特征向量进行降维，之后采用但不限于K-means(K均值)、基于密度的有噪空间聚类(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)、聚类生成对抗网络(Cluster GenerativeAdversarial Nets，ClusterGAN)等聚类算法对样本进行聚类和打标，以此完成对原始样本的伪标签创建工作。

本实施例通过上述方案，通过获取用户历史报销记录，根据所述用户历史报销记录获得用户历史报销一次性通过率和报销流程平均耗时；获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分；根据所述用户类型评分、所述用户历史报销一次性通过率和所述报销流程平均耗时对所述样本单据进行排序，根据排序结果创建用户历史伪标签，能够缩小用户敏感信息的搜集范围，减少了数据在系统中的传递数量，减少了服务器存储和计算负担，提升了财务报销用户画像优化的速度和效率。

进一步地，图5为本发明财务报销用户画像优化方法第四实施例的流程示意图，如图5所示，基于第一实施例提出本发明财务报销用户画像优化方法第四实施例，在本实施例中，所述步骤S20具体包括以下步骤：

步骤S21、获取用户财务报销的样本数据，对所述样本数据中的数值类数据和标签类数据进行不同方式的数据预处理，获得处理后的用户画像数据。

需要说明的是，样本数据并不能直接作为样本特征用于算法模型的训练，为了避免不同数量级和不同计量单位数据间的相互干扰，同时解决非数值类数据难以作为特征输入模型的问题，需要根据数据类型进行相应的预处理，通过对所述样本数据中的数值类数据和标签类数据进行不同方式的数据预处理后，可以获得处理后的用户画像数据。

在具体实现中，在前面步骤的示例中，出差时长、报销金额、报销流程耗时等均为数值类特征，出生日期与当前日期做差获得的用户年龄等数值类计算结果信息也是数值类特征；通常对数值类特征可采用的预处理方法包括但不限于标准化(Standardization)、归一化(Normalization)、缩放(Scaling)、分箱(Binning)等，一般对于每个数值类特征可以选取上述预处理方式中的一种或多种进行处理；值得注意的是，在数值类特征完成分箱预处理后的特征也可看作标签类特征进行处理。

可以理解的是，在前面叙述的示例中，性别、学历、现职级、部门、业务类型、目的地等均为标签类特征；有些特征可能记录时采用的虽然全部是数字，但其仅用作标记类别而数值大小并没有实际含义，这种也是标签类特征。标签类特征在进行编码之前难以用于模型训练，通常对标签类特征进行编码的预处理包括但不限于哑变量(Dummy)、独热(One-hot)、序数(Ordinal)、频率(Frequency)、嵌入(Embedding)等，一般对于每个标签类特征只选取上述预处理方式中的一种进行处理，也可以根据实际需要采取组合形式以提高标签类特征的利用率和信息浓度；值得注意的是，某些标签类特征的编码方式是包含数值属性的，经编码后的标签类特征也可当做数值类特征进行处理和计算。

应当理解的是，利用上述数据预处理方法，分别针对获取的用户基本画像数据进行相应处理；如表4所示是一种针对财务报销用户基本画像数据的预处理方案示例。

表4

特征名称	特征类别	预处理方式
			工号	标签	删去
单据标识	标签	删去
			性别	标签	独热编码
年龄	数值	等频分箱
			学历	标签	独热编码
现任职级	标签	序数编码
			入职时长	数值	决策树分箱
部门	标签	独热编码
			业务类型	标签	独热编码
出差时长	数值	决策树分箱
			目的地	标签	频数编码
报销金额	数值	Box-Cox变换
			报销耗时	数值	等频分箱
用户一次性通过率	数值	Max-Min变换
			用户报销平均耗时	数值	Box-Cox变换

需要说明的是，经上述方案处理后的用户数据在一定程度上实现了脱敏，为了进一步保护用户隐私，可以在上述基础上针对用户的相关信息再次进行偏移脱敏，并采用区块链手段对相关数据进行去中心化、匿名化加密管理。

步骤S22、对所述用户画像数据进行拼接，获得用户特征向量。

应当理解的是，所述用户画像数据需通过拼接手段组成可用于算法模型训练的特征向量，即对所述用户画像数据进行拼接后，可以获得用户特征向量，作为训练模型的输入量。

进一步的，所述步骤S22具体包括以下步骤：

在具体实现中，经拼接处理后获得的目标特征向量可用于算法模型的训练工作，图6为本发明财务报销用户画像优化方法中特征向量生成示意图，参见图6，将所有经过独热编码处理后的标签类数据依次头尾拼接起来，针对上述拼接后的独热编码采用嵌入编码方式进行降维，将降维后的标签特征再与数值特征以及其他标签类特征组合起来形成最终用于模型训练的特征向量。

步骤S23、将所述用户特征向量导入基于深度神经网络的用户画像优化算法模型的输入层，获得输出层输出的优化标签。

可以理解的是，将所述用户特征向量导入基于深度神经网络的用户画像优化算法模型的输入层后，通过预先设置的用户画像优化算法模型可以获得优化标签。

步骤S24、将所述样本数据中对应同一用户原始画像样本的所述历史伪标签与所述优化标签进行标签对比，将标签对比结果不一致的原始画像样本存入难例数据库。

应当理解的是，将所述样本数据中对应同一用户原始画像样本的历史伪标签与优化标签进行标签匹配对比，能够获得对应的标签对比结果，此时可将标签对比结果不一致的原始画像样本存入难例数据库。

在具体实现中，采用人工标注和优化模型的方式对同一个用户原始画像样本进行打标，以所述历史伪标签作为真实标签，将优化模型结果与真实标签进行比对，以此实现优化模型的性能评估，同时将两者标签不一致时的原始画像样本存入难例数据库用于优化模型的调优和再训练。

步骤S25、根据所述难例数据库对所述用户画像优化算法模型进行训练和优化，直至所述用户画像优化算法模型符合预设性能条件时，生成训练后的用户画像优化算法模型。

可以理解的是，通过所述难例数据库对所述用户画像优化算法模型进行训练和优化，直至所述用户画像优化算法模型符合预先设置的预设性能条件时，可以生成训练后的用户画像优化算法模型，即当模型性能满足预期上线条件时方可将该优化模型部署于生产系统。

在具体实现中，为了评价算法模型性能是否能够满足用户画像优化的需求，一种典型的深度神经网络模型性能评估方法示例可以采用mAP(mean Average Precision)对模型准确性进行评估，采用Kappa系数表征模型的稳定性，其中mAP越接近于1表明模型的准确性越高，Kappa系数越接近于1表示模型稳定性越好。

可以理解的是，用户画像优化算法模型可采用但不限于TensorFlow、PyTorch、PaddlePaddle等机器学习框架，完成训练的模型出于兼容性和便利性使用基于开放式神经网络交换(Open Neural Network Exchange，ONNX)协议的方式将模型的架构和权重保存为model.onnx文件以便在任何兼容ONNX的环境中进行部署应用。

本实施例通过上述方案，通过获取用户财务报销的样本数据，对所述样本数据中的数值类数据和标签类数据进行不同方式的数据预处理，获得处理后的用户画像数据；对所述用户画像数据进行拼接，获得用户特征向量；将所述用户特征向量导入基于深度神经网络的用户画像优化算法模型的输入层，获得输出层输出的优化标签；将所述样本数据中对应同一用户原始画像样本的所述历史伪标签与所述优化标签进行标签对比，将标签对比结果不一致的原始画像样本存入难例数据库；根据所述难例数据库对所述用户画像优化算法模型进行训练和优化，直至所述用户画像优化算法模型符合预设性能条件时，生成训练后的用户画像优化算法模型；能够有利于算法模型的快速收敛，同时还对用户隐私数据进行了一定程度的脱敏，实现了用户画像的自动化处理，提升了用户画像的准确率，提升了财务报销用户画像优化的速度和效率。

进一步地，图7为本发明财务报销用户画像优化方法第五实施例的流程示意图，如图7所示，基于第一实施例提出本发明财务报销用户画像优化方法第五实施例，在本实施例中，所述步骤S30，具体包括以下步骤：

步骤S31、根据训练后的用户画像优化算法模型对所述基本画像中不包含伪标签的数据进行优化处理，获得优化后的目标用户画像。

需要说明的是，实际应用过程中，将收集的用户基础画像中不包含伪标签的数据按上述步骤进行数据预处理后，并拼接为特征向量，之后再调用优化模型获得优化后的用户画像，此时即可根据画像标签对相关用户实施精细化管理。

本实施例通过上述方案，通过根据训练后的用户画像优化算法模型对所述基本画像中不包含伪标签的数据进行优化处理，获得优化后的目标用户画像，能够对用户隐私数据进行了一定程度的脱敏，实现了用户画像的自动化处理，提升了用户画像的准确率，便于其他业务模块对用户画像的在线调用，提升了财务报销用户画像优化的速度和效率。

相应地，本发明进一步提供一种财务报销用户画像优化装置。

参照图8，图8为本发明财务报销用户画像优化装置第一实施例的功能模块图。

本发明财务报销用户画像优化装置第一实施例中，该财务报销用户画像优化装置包括：

伪标签创建模块10，用于获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签。

模型训练模块20，用于获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型。

画像优化模块30，用于根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像。

所述伪标签创建模块10，还用于获取用户基本信息、报销单据记录和报销审批记录，从所述用户基本信息中获得申报人工号，从所述报销单据记录和所述报销审批记录中获得对应的单据标识；根据所述单据标识将所述报销单据记录和报销审批记录进行关联，根据所述申报人工号将所述用户基本信息与所述报销单据记录及所述报销审批记录进行相互关联，以生成用户财务报销相关的基本画像；获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签。

所述伪标签创建模块10，还用于获取用户历史报销记录，根据所述用户历史报销记录获得用户历史报销一次性通过率和报销流程平均耗时；获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分；根据所述用户类型评分、所述用户历史报销一次性通过率和所述报销流程平均耗时对所述样本单据进行排序，根据排序结果创建用户历史伪标签。

所述伪标签创建模块10，还用于获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时通过下式计算获得所述样本单据的用户类型评分：

所述模型训练模块20，还用于获取用户财务报销的样本数据，对所述样本数据中的数值类数据和标签类数据进行不同方式的数据预处理，获得处理后的用户画像数据；对所述用户画像数据进行拼接，获得用户特征向量；将所述用户特征向量导入基于深度神经网络的用户画像优化算法模型的输入层，获得输出层输出的优化标签；将所述样本数据中对应同一用户原始画像样本的所述历史伪标签与所述优化标签进行标签对比，将标签对比结果不一致的原始画像样本存入难例数据库；根据所述难例数据库对所述用户画像优化算法模型进行训练和优化，直至所述用户画像优化算法模型符合预设性能条件时，生成训练后的用户画像优化算法模型。

所述模型训练模块20，还用于对所述用户画像数据中经过独热编码处理后的标签类数据依次进行头尾拼接，将拼接后的独热编码采用嵌入编码方式进行降维，将降维后的标签特征与所述用户画像数据中的数值特征以及其他标签类特征组合，获得用户特征向量。

所述画像优化模块30，还用于根据训练后的用户画像优化算法模型对所述基本画像中不包含伪标签的数据进行优化处理，获得优化后的目标用户画像。

其中，财务报销用户画像优化装置的各个功能模块实现的步骤可参照本发明财务报销用户画像优化方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有财务报销用户画像优化程序，所述财务报销用户画像优化程序被处理器执行时实现如下操作：

进一步地，所述财务报销用户画像优化程序被处理器执行时还实现如下操作：

对所述用户画像数据进行拼接，获得用户特征向量；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种财务报销用户画像优化方法，其特征在于，所述财务报销用户画像优化方法包括：

2.如权利要求1所述的财务报销用户画像优化方法，其特征在于，所述获取用户财务报销相关的基本画像和用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签，包括：

3.如权利要求2所述的财务报销用户画像优化方法，其特征在于，所述获取用户历史报销记录，根据所述用户历史报销记录创建用户历史伪标签，包括：

4.如权利要求3所述的财务报销用户画像优化方法，其特征在于，所述获取样本单据的报销金额和报销流程耗时，根据所述报销金额和所述报销流程耗时确定所述样本单据的用户类型评分，包括：

5.如权利要求1所述的财务报销用户画像优化方法，其特征在于，所述获取用户财务报销的样本数据，对所述样本数据进行预处理，获得用户特征向量，并根据所述用户历史伪标签和所述用户特征向量对基于深度神经网络的用户画像优化算法模型进行训练，获得训练后的用户画像优化算法模型，包括：

对所述用户画像数据进行拼接，获得用户特征向量；

6.如权利要求5所述的财务报销用户画像优化方法，其特征在于，所述对所述用户画像数据进行拼接，获得用户特征向量，包括：

7.如权利要求1所述的所述的财务报销用户画像优化方法，其特征在于，所述根据训练后的用户画像优化算法模型对所述基本画像进行优化处理，获得优化后的目标用户画像，包括：

8.一种财务报销用户画像优化装置，其特征在于，所述财务报销用户画像优化装置包括：

9.一种财务报销用户画像优化设备，其特征在于，所述财务报销用户画像优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的财务报销用户画像优化程序，所述财务报销用户画像优化程序配置为实现如权利要求1至7中任一项所述的财务报销用户画像优化方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有财务报销用户画像优化程序，所述财务报销用户画像优化程序被处理器执行时实现如权利要求1至7中任一项所述的财务报销用户画像优化方法的步骤。