CN117314163B

CN117314163B - 基于大数据的社保数据处理方法及系统

Info

Publication number: CN117314163B
Application number: CN202311255464.2A
Authority: CN
Inventors: 王华华; 施展昊; 郑晓东; 林文路; 陈锦良
Original assignee: Beijing Bidi Intelligent Technology Co ltd; Global Business Intelligence Consulting Co
Current assignee: Beijing Bidi Intelligent Technology Co ltd; Global Business Intelligence Consulting Co
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-04-12
Anticipated expiration: 2043-09-27
Also published as: CN117314163A

Abstract

本申请公开了一种基于大数据的社保数据处理方法及系统，其获取社保数据；对社保数据进行数据质量分析与治理以得到质量规范社保数据；基于所述质量规范社保数据，构建企业级的社保数据主题库；以及，基于所述企业级的社保数据主题库，对被分析企业进行风险验证。这样，可以提高数据处理效率，对于新型的风险或复杂的风险问题进行有效应对。

Description

基于大数据的社保数据处理方法及系统

技术领域

本申请涉及智能化数据处理技术领域，并且更具体地，涉及一种基于大数据的社保数据处理方法及系统。

背景技术

社保数据是反映企业经营状况和社会保障水平的重要数据源，对于促进社会保障事业的发展，提高社会保障水平，维护社会稳定和公平正义具有重要意义。但是社保数据的采集、管理和应用存在着诸多挑战。

随着信息技术的快速发展，人工智能（AI）和大数据技术为社保数据的采集、管理和应用提供了新的思路和手段，也带来了新的机遇和挑战。

AI是一门研究和实现人类智能功能的综合性学科，它可以通过模拟人类的认知、理解、判断和决策过程，实现对复杂问题的智能化处理。大数据是指规模巨大、类型多样、价值密度低、时效性强的数据集合，它可以通过高效的分析和挖掘，揭示数据背后的规律和价值。AI和大数据相辅相成，相互促进，共同推动信息技术的创新和应用。

因此，期待一种基于人工智能和大数据技术下的社保数据处理方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于大数据的社保数据处理方法及系统，其获取社保数据；对社保数据进行数据质量分析与治理以得到质量规范社保数据；基于所述质量规范社保数据，构建企业级的社保数据主题库；以及，基于所述企业级的社保数据主题库，对被分析企业进行风险验证。这样，可以提高数据处理效率，对于新型的风险或复杂的风险问题进行有效应对。

第一方面，提供了一种基于大数据的社保数据处理方法，其包括：

获取社保数据；

对社保数据进行数据质量分析与治理以得到质量规范社保数据；

基于所述质量规范社保数据，构建企业级的社保数据主题库；

以及基于所述企业级的社保数据主题库，对被分析企业进行风险验证。

第二方面，提供了一种基于大数据的社保数据处理系统，其包括：

数据获取模块，用于获取社保数据；

分析与治理模块，用于对社保数据进行数据质量分析与治理以得到质量规范社保数据；

社保数据主题库构建模块，用于基于所述质量规范社保数据，构建企业级的社保数据主题库；

以及风险验证模块，用于基于所述企业级的社保数据主题库，对被分析企业进行风险验证。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例的基于大数据的社保数据处理方法的流程图。

图2为根据本申请实施例的基于大数据的社保数据处理方法的架构示意图。

图3A为根据本申请实施例的业务流程图。

图3B为根据本申请实施例的DS任务流程图。

图4A为根据本申请实施例的存量数据抽取示意图。

图4B为根据本申请实施例的DS调用社保数据kettle任务示意图。

图4C为根据本申请实施例的使用Kettle对ODS建立增量更新任务示意图。

图4D为根据本申请实施例的定时任务示意图。

图4E为根据本申请实施例的DS调用社保缴费增量kettle任务示意图。

图4F为根据本申请实施例的报错邮件提醒示意图。

图4G为根据本申请实施例的报错邮件示意图。

图5A、5B、5C和5D为根据本申请实施例的去重、补齐、转码、脱敏示意图。

图6为根据本申请实施例的基于大数据的社保数据处理方法中步骤140的子步骤的流程图。

图7为根据本申请实施例的基于大数据的社保数据处理系统的框图。

图8为根据本申请实施例的基于大数据的社保数据处理方法的场景示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在本申请实施例记载中，需要说明的是，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。

本发明涉及大数据技术领域,是一种企业社保数据治理和应用的方法。本发明所述的方法包括企业社保数据采集、数据治理、指标衍生和数据应用;所述的数据采集是在电子政务网上采集企业相关的社保文本数据;所述的数据治理是对社保数据进行去重、缺失值、数据脱敏处理；指标衍生是通过数据计算和加工生成与企业生产经营状况相关性较高的指标；数据应用是指根据信贷产品需求和金融风险喜好设计各类指标的筛选规则，辅助识别企业潜在风险。本发明实现了利用社保数据辅助金融机构识别企业潜在风险。

本发明建设的目的是基于社保数据进行数据采集、数据治理和指标衍生，利用社保数据分析企业综合实力、发展潜力、经营稳定性等内容，识别、预估企业潜在风险，有效解决信息不对称造成的商业欺诈、制假销售、银行骗贷等问题。

在本申请的一个实施例中，基于社保数据的数据采集、数据治理、指标衍生和数据应用的方法的技术方案主要包括平台工具的搭建、社保数据源数据的接入、数据质量的分析和治理、社保主题库的构建、社保指标库的构建、利用指标数据对企业进行风险验证和预估。

步骤1：平台工具的搭建，平台工具指为了实现使用社保数据来进行企业评估所需要使用到的一切开源或者非开源的工具，这些工具需要在工作的前期准备好，并打通各环节之间的网络和端口。

步骤2：社保数据源的接入，是本方案的基础步骤，决定了整个后续数据治理和应用建设的准确性。社保数据源的接入，要根据数据源头的提供形式确定最优的数据接入形式、数据更新模式和数据更新频率。

步骤3：数据质量的分析和治理，数据抽取完成后要对社保数据进行一次数据质量的分析，分析的维度主要涉及是否用重复数据、是否有缺失数据、是否有明显错误数据、是否有需要脱敏的数据、是否有需要字典参数转码的数据等。数据质量分析报告完成后，需要使用MYSQL的存储过程或者Kettle的ETL任务对分析后的问题数据进行治理。

步骤4：构建社保主题库，在处理好数据源的接入和治理之后，我们构建企业维度的社保数据主题库。

步骤5：构建社保数据指标库，基于社保数据主题库，对社保数据进行指标提取、指标加工，社保指标主要分为社保基础信息、社保缴纳水平、社保缴纳波动、社保缴纳趋势、社保欠缴信息等5大维度的16项指标。

步骤6：利用指标数据对企业进行风险验证和预估，社保数据分析指标构建完成后即可通过对企业数据指标分析，包括企业社保缴费基数、社保缴费水平和参保人员数量的变化趋势和波动幅度，来评估企业经营稳定性、发展趋势和经营规模变动；帮助金融机构预测企业风险，辅助信贷业务贷前审批决策和贷后风险预警。

图1为根据本申请实施例的基于大数据的社保数据处理方法的流程图。图2为根据本申请实施例的基于大数据的社保数据处理方法的架构示意图。如图1和图2所示，所述基于大数据的社保数据处理方法，包括：110，获取社保数据；120，对社保数据进行数据质量分析与治理以得到质量规范社保数据；130，基于所述质量规范社保数据，构建企业级的社保数据主题库；以及，140，基于所述企业级的社保数据主题库，对被分析企业进行风险验证。

在本申请的一个实施例中，业务流程如图3A所示，其包括：平台工具的搭建，平台工具指为了实现使用社保数据来进行企业评估所需要使用到的一切开源或者非开源的工具，这些工具需要在工作的前期准备好，并打通各环节之间的网络和端。

（1）MySQL8是一个跨平台的、轻量型的关系型数据库管理系统。被广泛应用在个人、企业、政府等大中小型网站开发中。MySQL有体积较小，但运行速度快、成本低的优势，在我们的方案中，使用稳定版本MySQL8来作为社保数据的数据存储介质以及存储过程的编码开发。

（2）Kettle9.2， Kettle 是一个非常强大的开源 ETL 工具,通过图形化界面的配置,可以实现数据迁移和数据治理,并不用开发代码，在我们的方案中，使用Kettle来为社保数据做治理操作（去重、补齐、转码、脱敏）以及指标建设。

（3）DolphinSchedule3.1.7，DS是一个分布式易扩展的可视化工作流任务调度平台，也是一个分布式去中心化，易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用，DS在我们的方案中，负责把MYSQL的存储过程和Kettle的处理脚本结合成任务流，并将结果反馈在UI或者邮件中。DS的任务流程大致如图3B所示。

（4）吉贝克决策引擎，是吉贝克公司自主研发的一种规则引擎，可以页面化的集中管理系统中所需要的指标规则和决策逻辑。同时也是进行联合建模，数据可用不可见的载体工具。

（5）SAS（Statistics Analysis System）V9.4，即统计分析系统，是功能强大的数据统计分析建模工具，本方案中会用到SAS对社保数据和社保指标进行聚类分析、回归分析、得分分析，从而得到更精确的建模结果。

在本申请的一个实施例中，社保数据源的接入，是本方案的基础步骤，决定了整个后续数据治理和应用建设的准确性。社保数据源的接入，要根据数据源头的提供形式确定最优的数据接入形式、数据更新模式和数据更新频率。下面以数据库进行每日增量更新数据源为例阐述数据源的接入：

（1）使用Kettle对数据源的存量数据进行抽取，然后写入MYSQL的ODS库（操作数据存储）中存量数据抽取如图4A所示。

DS调用社保存量数据kettle任务，执行成功如下图4B所示。

（2）使用Kettle对ODS建立增量更新任务

应用kettle的“插入更新组件”将源数据与ODS存量数据进行全字段对比，将新增数据插入到ODS中，如图4C所示。

（3）使用DS对Kettle的增量更新任务进行Daily的调度设置，并设置报错邮件提醒，构建好数据源的抽取更新机制。

DS上设置定时管理任务每日0点定时执行kettle任务，抽取增量数据到ODS库，定时任务如图4D所示。

DS调用社保缴费增量kettle任务，成功执行结果如图4E所示。

报错邮件提醒配置如图4F所示。

报错邮件如图4G所示。

在本申请的一个实施例中，数据质量的分析和治理，数据抽取完成后要对社保数据进行一次数据质量的分析，分析的维度主要涉及是否用重复数据、是否有缺失数据、是否有明显错误数据、是否有需要脱敏的数据、是否有需要字典参数转码的数据等。数据质量分析报告完成后，需要使用MYSQL的存储过程或者Kettle的ETL任务对分析后的问题数据进行治理：

（1）去重，对库中的重复数据进行分析排查，定位问题源头并进行去重操作，如图5A所示。

（2）补齐，对空数据、缺失数据进行数据补缺操作，无法处理的作标记，如图5B所示。

（3）转码，对变量数据或者代码类数据进行参数据码值表转换, 如图5C所示。

（4）脱敏，对敏感数据脱敏，保障数据安全。定义数据敏感信息库，首先对常用的敏感词进行导入，如企业名称、统一社会信用代码、自然人姓名、身份证号、社保账户、地址、电话号码等，此外还需要根据需脱敏数据源业务特性制定相关敏感词。制定脱敏算法服务，并将相关的算法与数据使用场景进行关联匹配, 如图5D所示。

在本申请的一个实施例中，构建社保主题库，在处理好数据源的接入和治理之后，我们构建企业维度的社保数据主题库，主题库的数据库设计如下：

（1）企业社保缴费信息如下表1所示：

表1

（2）企业社保欠缴信息如下表2所示：

表2

在本申请的一个实施例中，构建社保数据指标库，基于社保数据主题库，对社保数据进行指标提取、指标加工，社保指标主要分为社保基础信息、社保缴纳水平、社保缴纳波动、社保缴纳趋势、社保欠缴信息等5大维度的16项指标，社保数据指标体系设计详情如下表3所示：

表3

在本申请的一个实施例中，利用指标数据对企业进行风险验证和预估，社保数据分析指标构建完成后即可通过对企业数据指标分析，包括企业社保缴费基数、社保缴费水平和参保人员数量的变化趋势和波动幅度，来评估企业经营稳定性、发展趋势和经营规模变动；帮助金融机构预测企业风险，辅助信贷业务贷前审批决策和贷后风险预警。。

其中，通过风险验证可以评估企业经营稳定性、发展趋势和经营规模变动。同时，可以识别潜在的问题、异常或违规行为，帮助企业及时采取措施解决问题并防止未来的风险发生。因此，在本申请的技术方案中，140步骤是不可缺失的一个环节。

目前对企业进行风险验证的实现方式主要包括：借助人工审核和专家判断的方式，对企业的社保数据进行人工审查；构建风险模型和规则引擎，通过预先定义的规则和模型来评估企业的风险水平。

然而，上述方式可能需要大量的人工操作，效率低下且容易受主观因素影响；现有的规则和模型可能无法覆盖所有的风险情况，对于新型的风险或复杂的风险问题可能无法有效应对，存在局限性。因此，期待一种优化的方案。

对此，本申请的技术构思为通过自动化处理和分析企业的社保数据，以及利用机器学习算法进行风险评估。

图6为根据本申请实施例的基于大数据的社保数据处理方法中步骤140的子步骤的流程图。如图6所示，基于所述企业级的社保数据主题库，对被分析企业进行风险验证，包括：141，从所述企业级的社保数据主题库提取所述被分析企业对象的社保数据；142，对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量；以及，143，基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级。

在本申请的一个实施例中，对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量，包括：从所述被分析企业对象的社保数据提取缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额；以及，对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量。

基于此，在本申请的技术方案中，首先，获取被分析企业对象的社保数据，并从所述被分析企业对象的社保数据提取缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额。其中，缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额是企业的关键社保数据指标，这些数据在风险验证中具有重要意义。

具体而言，缴费基数是社保缴费的计算依据，反映了企业的薪资水平和员工数量，对于风险验证来说，缴费基数可以作为评估企业规模和经营状况的重要指标之一；参考人数是指参加社保的员工人数，通过参考人数可以了解企业的人力资源情况，对企业的经营稳定性和发展趋势进行评估；社保应缴金额是企业应该按规定缴纳的社保金额，反映了企业的社保缴费义务，社保应缴金额的高低可以反映企业的经营负担和规范性；社保实缴金额是企业实际缴纳的社保金额，表示企业是否按时足额缴纳社保费用，社保实缴金额的变动可以反映企业的经营稳定性和财务状况；当前是否欠费：该指标数据表示企业当前是否存在社保费用欠缴的情况，欠费可能意味着企业经营困难或违规行为，需要重点关注和风险评估；欠费次数反映了企业欠缴社保费用的频率，可以衡量企业的缴费纪律和稳定性；当前欠费金额表示企业目前欠缴的社保费用金额。

在本申请的一个实施例中，对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量，包括：将所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行向量化以得到缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量；以及，将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量通过基于转换器的上下文编码器以得到所述被分析企业对象社保上下文特征向量。

接着，将所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行向量化以得到缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量。也就是，将多维的数据进行数据结构化处理，以便于后续模型的读取与分析。

然后，将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量通过基于转换器的上下文编码器以得到被分析企业对象社保上下文特征向量。也就是，利用转换器的自注意力思想来对各个向量进行全局性的语义理解和分析，以捕捉各个数据之间的关联关系。例如，社保应缴金额与社保实缴金额之间应存在关联，社保应缴金额是企业根据规定应该缴纳的金额，而社保实缴金额是实际缴纳的金额，这两者之间的差异可以反映企业的缴费纪律和是否按时足额缴纳社保费用。这些数据之间的隐含关联可以提高企业风险评估的准确性。

在本申请的一个实施例中，基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级，包括：对所述被分析企业对象社保上下文特征向量进行特征分布优化以得到优化被分析企业对象社保上下文特征向量；以及，将所述优化被分析企业对象社保上下文特征向量通过分类器以得到分类结果，所述分类结果用于表示被分析企业对象的风险等级标签。

其中，对所述被分析企业对象社保上下文特征向量进行特征分布优化以得到优化被分析企业对象社保上下文特征向量，包括：将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量级联以获得级联特征向量；以及，通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量。

在本申请的技术方案中，将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量通过基于转换器的上下文编码器得到所述被分析企业对象社保上下文特征向量时，通过对不同参数的编码特征进行上下文关联编码，可以提升所述被分析企业对象社保上下文特征向量的特征分布的全局性，但是，这也会使得所述被分析企业对象社保上下文特征向量在一定程度上偏离上述不同参数的编码特征的原始参数编码语义表达。

基于此，本申请的申请人首先将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量级联以获得级联特征向量，例如记为，并通过具有原始参数编码语义表达的级联特征向量/>来对所述被分析企业对象社保上下文特征向量，例如记为/>进行希尔伯特空间启发式序列跟踪均衡化，具体表示为：以如下优化公式通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量；其中，所述优化公式为：

其中，是所述级联特征向量，/>是所述被分析企业对象社保上下文特征向量，是所述被分析企业对象社保上下文特征向量的转置向量，/>表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的级联向量的二范数，/>表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的所有特征值构成的并集集合的均值，且所述级联特征向量和所述被分析企业对象社保上下文特征向量均为行向量，/>表示按位置点乘，/>表示向量加法，/>是所述优化被分析企业对象社保上下文特征向量，/>是所述级联特征向量中所有位置的特征值的集合，/>是所述被分析企业对象社保上下文特征向量中所有位置的特征值的集合。

这里，利用具有内积的希尔伯特空间的完备内积空间特性，来通过所述级联特征向量和所述被分析企业对象社保上下文特征向量/>的序列聚合的集合性均值（collective average），探索所述级联特征向量/>和所述被分析企业对象社保上下文特征向量/>在上下文编码关联下的基于序列的空间分布启发式（heuristics），从而将所述被分析企业对象社保上下文特征向量/>的各个局部特征分布转化为融合空间内的序列跟踪实例（tracked instance），以实现序列的特征空间分布的跟踪小片段认知的（tracklet-aware）分布均衡化。这样，就通过所述被分析企业对象社保上下文特征向量相对于所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量的分布均衡化，实现了所述被分析企业对象社保上下文特征向量对于所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量的原始参数编码语义表达，从而改进了所述被分析企业对象社保上下文特征向量通过分类器得到的分类结果的准确性。

进而，将所述被分析企业对象社保上下文特征向量通过分类器以得到分类结果，所述分类结果用于表示被分析企业对象的风险等级标签。

综上，基于本申请实施例的基于大数据的社保数据处理方法100被阐明，其通过自动化处理和分析企业的社保数据，以及利用机器学习算法进行风险评估。

在本申请的一个实施例中，图7为根据本申请实施例的基于大数据的社保数据处理系统的框图。如图7所示，根据本申请实施例的基于大数据的社保数据处理系统200，包括：数据获取模块210，用于获取社保数据；分析与治理模块220，用于对社保数据进行数据质量分析与治理以得到质量规范社保数据；社保数据主题库构建模块230，用于基于所述质量规范社保数据，构建企业级的社保数据主题库；以及，风险验证模块240，用于基于所述企业级的社保数据主题库，对被分析企业进行风险验证。

具体地，在所述基于大数据的社保数据处理系统中，所述风险验证模块，包括：数据提取单元，用于从所述企业级的社保数据主题库提取所述被分析企业对象的社保数据；语义编码分析单元，用于对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量；以及，风险等级确定单元，用于基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级。

具体地，在所述基于大数据的社保数据处理系统中，所述语义编码分析单元，包括：金额提取子单元，用于从所述被分析企业对象的社保数据提取缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额；以及，结构化处理和关联分析子单元，用于对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量。

这里，本领域技术人员可以理解，上述基于大数据的社保数据处理系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的基于大数据的社保数据处理方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于大数据的社保数据处理系统200可以实现在各种终端设备中，例如用于基于大数据的社保数据处理的服务器等。在一个示例中，根据本申请实施例的基于大数据的社保数据处理系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于大数据的社保数据处理系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于大数据的社保数据处理系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于大数据的社保数据处理系统200与该终端设备也可以是分立的设备，并且基于大数据的社保数据处理系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

图8为根据本申请实施例的基于大数据的社保数据处理方法的场景示意图。如图8所示，在该应用场景中，首先，获取社保数据（例如，如图8中所示意的C）；然后，将获取的社保数据输入至部署有基于大数据的社保数据处理算法的服务器（例如，如图8中所示意的S）中，其中所述服务器能够基于大数据的社保数据处理算法对所述社保数据进行处理，以对被分析企业进行风险验证。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于大数据的社保数据处理方法，其特征在于，包括：

获取社保数据；

以及基于所述企业级的社保数据主题库，对被分析企业对象进行风险验证；

基于所述企业级的社保数据主题库，对被分析企业对象进行风险验证，包括：

从所述企业级的社保数据主题库提取所述被分析企业对象的社保数据；

对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量；

以及基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级；

对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量，包括：

从所述被分析企业对象的社保数据提取缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额；

以及对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量；

对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量，包括：

将所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行向量化以得到缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量；

以及将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量通过基于转换器的上下文编码器以得到所述被分析企业对象社保上下文特征向量；

基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级，包括：

对所述被分析企业对象社保上下文特征向量进行特征分布优化以得到优化被分析企业对象社保上下文特征向量；

以及将所述优化被分析企业对象社保上下文特征向量通过分类器以得到分类结果，所述分类结果用于表示被分析企业对象的风险等级标签；

对所述被分析企业对象社保上下文特征向量进行特征分布优化以得到优化被分析企业对象社保上下文特征向量，包括：

将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量级联以获得级联特征向量；

以及通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量；

通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量，包括：以如下优化公式通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量；

其中，所述优化公式为：

；

其中，是所述级联特征向量，/>是所述被分析企业对象社保上下文特征向量，/>是所述被分析企业对象社保上下文特征向量的转置向量，/>表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的级联向量的二范数，/>表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的所有特征值构成的并集集合的均值，且所述级联特征向量和所述被分析企业对象社保上下文特征向量均为行向量，/>表示按位置点乘，/>表示向量加法，/>是所述优化被分析企业对象社保上下文特征向量，/>是所述级联特征向量中所有位置的特征值的集合，/>是所述被分析企业对象社保上下文特征向量中所有位置的特征值的集合，/>是/>合并后的集合中的第i个特征值，/>是合并后的集合中的特征值数量。

2.一种基于大数据的社保数据处理系统，其特征在于，包括：

数据获取模块，用于获取社保数据；

以及风险验证模块，用于基于所述企业级的社保数据主题库，对被分析企业对象进行风险验证；

所述风险验证模块，包括：

数据提取单元，用于从所述企业级的社保数据主题库提取所述被分析企业对象的社保数据；

语义编码分析单元，用于对所述被分析企业对象的社保数据进行关键信息提取与语义编码分析以得到被分析企业对象社保上下文特征向量；

以及风险等级确定单元，用于基于所述被分析企业对象社保上下文特征向量，确定所述被分析企业对象的风险等级；

所述语义编码分析单元，包括：

金额提取子单元，用于从所述被分析企业对象的社保数据提取缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额；

以及结构化处理和关联分析子单元，用于对所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行数据结构化处理和关联分析以得到所述被分析企业对象社保上下文特征向量；

结构化处理和关联分析子单元，用于：

将所述缴费基数、参考人数、社保应缴金额、社保实缴金额、当前是否欠费、欠费次数和当前欠费金额进行向量化以得到缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量；以及

将所述缴费基数编码向量、参考人数编码向量、社保应缴金额编码向量、社保实缴金额编码向量、当前是否欠费编码向量、欠费次数编码向量和当前欠费金额编码向量通过基于转换器的上下文编码器以得到所述被分析企业对象社保上下文特征向量；

风险等级确定单元，用于：

以如下优化公式通过所述级联特征向量来对所述被分析企业对象社保上下文特征向量进行希尔伯特空间启发式序列跟踪均衡化以得到所述优化被分析企业对象社保上下文特征向量；

其中，所述优化公式为：；；其中，/>是所述级联特征向量，/>是所述被分析企业对象社保上下文特征向量，/>是所述被分析企业对象社保上下文特征向量的转置向量，表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的级联向量的二范数，/>表示所述级联特征向量和所述被分析企业对象社保上下文特征向量的所有特征值构成的并集集合的均值，且所述级联特征向量和所述被分析企业对象社保上下文特征向量均为行向量，/>表示按位置点乘，/>表示向量加法，/>是所述优化被分析企业对象社保上下文特征向量，/>是所述级联特征向量中所有位置的特征值的集合，/>是所述被分析企业对象社保上下文特征向量中所有位置的特征值的集合，/>是/>合并后的集合中的第i个特征值，/>是/>合并后的集合中的特征值数量。