CN115860927A

CN115860927A - 一种数据分析方法、装置、计算机设备及存储介质

Info

Publication number: CN115860927A
Application number: CN202310191121.8A
Authority: CN
Inventors: 闫宁; 刘京韬; 徐亮; 唐丽华; 李俊; 冯天驰; 刘陈曦
Original assignee: Hunan Caixin Digital Technology Co ltd
Current assignee: Hunan Caixin Digital Technology Co ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-03-28

Abstract

本申请实施例属于数据处理技术领域，应用于金融科技领域中，涉及一种数据分析方法及相关设备，包括获取目标对象的流水数据，并从流水数据中提取基础特征字段及其对应的字段数据；根据基础特征字段和字段数据，调用预设的指标衍生模型生成指标特征数据；将指标特征数据输入训练好的评分模型，得到评分结果；基于评分结果确定目标对象的信用结果；根据信用结果判断目标对象的风险情况。此外，本申请还涉及区块链技术，流水数据可存储于区块链中。本申请可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况。

Description

一种数据分析方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据分析方法、装置、计算机设备及存储介质。

背景技术

在金融市场中，正确地评估企业当前所处的状况，并据此对这些企业进行分析，评估其信用价值，是非常重要且关键的。这些信用价值可以用在信贷领域，用以进行信贷额度的评估、信用风险的管理；也可以用在投资领域，挖掘企业的核心价值并正确的评估企业的市场价格，据此获得投资机会并减少投资风险等。

现有技术中，有通过数据采集、数据分析等流程并搭建区域经济发展趋势分析系统实现对区域经济的统计分析、发展规划，并进行可视化展示，实现用户端通过信号连接进行查询及便于参考规划。也有通过选择行业发展性指标、核心团队素质指标、规范性与风险性、实力规模、偿债能力、盈利能力、运营能力、成长能力、技术与创新能力和市场与渠道指标等作为企业能力指标，并通过量化企业能力指标权重，累加每项能力指标权重与相应指标评分的乘积来获得能力指标总分，以此来定量分析企业的信用分值，从而利用信用分值进行企业的风险评判。

但是，总体上对中小微企业进行信用评分涉及到的指标比较缺乏，不能全面地反映企业的经济发展情况，从而影响企业的风险情况的评估。故，如何更加全面地对企业的信用情况进行综合评估，实现全面精准的企业风险评判是目前亟待解决的问题。

发明内容

本申请实施例的目的在于提出一种数据分析方法、装置、计算机设备及存储介质，以解决相关技术中信用评分的指标比较缺乏，不能全面地反映企业的经济发展情况的技术问题。

为了解决上述技术问题，本申请实施例提供一种数据分析方法，采用了如下所述的技术方案：

获取目标对象的流水数据，并从所述流水数据中提取基础特征字段及其对应的字段数据；

根据所述基础特征字段和所述字段数据，调用预设的指标衍生模型生成指标特征数据；

将所述指标特征数据输入训练好的评分模型，得到评分结果；

基于所述评分结果确定所述目标对象的信用结果；

根据所述信用结果判断所述目标对象的风险情况；

其中，所述指标衍生模型通过以下步骤构建：

根据所述基础特征字段的特征属性确定评分的指标维度，所述指标维度含有至少一个指标特征；

构建所述基础特征字段与所述指标目标之间的计算关系，基于所述计算关系形成所述指标衍生模型。

进一步的，所述从所述流水数据中提取基础特征字段及其对应的字段数据的步骤包括：

确定所述流水数据是否为结构化数据；

当所述流水数据为结构化数据时，对所述流水数据进行结构匹配，得到结构信息；根据所述结构信息拆解所述流水数据，得到所述基础特征字段及其对应的字段数据；

当所述流水数据为非结构化数据时，根据预设的正则表达式对所述流水数据进行字段提取，得到所述基础特征字段及其对应的字段数据。

进一步的，所述根据所述基础特征字段和所述字段数据，调用预设的指标衍生模型生成指标特征数据的步骤包括：

获取所述指标衍生模型的特征参数，根据所述特征参数确定目标特征字段；

将所述目标特征字段对应的目标字段数据输入所述指标衍生模型，计算得到对应的指标特征数据。

进一步的，在所述将所述指标特征数据输入训练好的评分模型的步骤之前还包括：

获取训练数据集，将所述训练数据集输入预构建的分类模型中，得到预测评分；

根据所述预测评分确定目标损失函数，基于所述目标损失函数对所述分类模型进行迭代更新，输出训练完成的分类模型作为评分模型。

进一步的，所述根据所述预测评分确定损失函数，基于所述损失函数对所述分类模型进行迭代更新，输出训练完成的分类模型作为评分模型的步骤包括：

根据所述预测评分和对应的所述训练数据集中训练数据的实际评分，计算得到第一损失函数和第二损失函数；

将所述第一损失函数和所述第二损失函数进行加权求和，得到目标损失函数；

基于所述目标损失函数调整所述分类模型的模型参数；

当满足迭代结束条件时，根据所述模型参数生成评分模型。

进一步的，所述根据所述预测评分和对应的所述训练数据集中训练数据的实际评分，计算得到第一损失函数和第二损失函数的步骤包括：

计算所述预测评分和所述实际评分之间的差值，根据所述差值计算得到所述第一损失函数；

将所述差值与预设差值阈值进行比较，得到比较结果；

根据所述比较结果确定所述差值大于等于所述差值阈值的训练数据的数量；

根据所述数量计算得到所述第二损失函数。

进一步的，所述获取目标对象的流水数据的步骤包括：

获取所述目标对象的查询关键词；

调用查询接口，根据所述查询关键词获得对应的查询脚本；

根据所述查询脚本，查找与所述目标对象对应的流水数据。

为了解决上述技术问题，本申请实施例还提供一种数据分析装置，采用了如下所述的技术方案：

获取模块，用于获取目标对象的流水数据，并从所述流水数据中提取基础特征字段及其对应的字段数据；

生成模块，用于根据所述基础特征字段和所述字段数据，调用预设的指标衍生模型生成指标特征数据；

评分模块，用于将所述指标特征数据输入训练好的评分模型，得到评分结果；

信用评估模块，用于基于所述评分结果确定所述目标对象的信用结果；

判断模块，用于根据所述信用结果判断所述目标对象的风险情况；

其中，所述指标衍生模型通过以下步骤构建：

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的数据分析方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的数据分析方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过流水数据的基础特征字段和对应的字段数据，调用预设的指标衍生模型生成指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况；使用训练好的评分模型对指标特征数据进行计算，得到评分结果，进而确定目标对象的信用结果，可以提高评分的准确性，保证信用评估的准确性，进而提高风险判断的准确性，给企业办理金融业务、风险预警、政府风补及管控等提供可靠的量化依据。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的数据分析方法的一个实施例的流程图；

图3是根据本申请的数据分析装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请提供了一种数据分析方法，可以应用于如图1所示的系统架构100中，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的数据分析方法一般由服务器/终端设备执行，相应地，数据分析装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的数据分析方法的一个实施例的流程图，包括以下步骤：

步骤S201，获取目标对象的流水数据，并从流水数据中提取基础特征字段及其对应的字段数据。

其中，目标对象为待评估对象，具体可以是需要进行企业信用评分的企业。流水数据则为该目标对象的交易流水数据，交易流水数据包含了该目标对象与多个交易对象之间的交易流水记录，交易流水记录是目标对象与交易对象的交易操作产生的信息，通常每次交易会产生一条交易流水记录，但并不限于此。其中，交易流水记录包括但不限于交易对象名称、交易日期、交易账户、交易金额、交易笔数、交易对象标识、交易状态等。

应当理解，交易流水数据可以是从交易数据库中实时读取的交易流水数据，或者，还可以包括第三交易平台的交易数据，比如在线支付平台、有价证券交易平台等。

在本实施例中，从获取到的流水数据中提取基础特征字段。交易流水数据中通常包含有多种类型数据字段，需要从中提取到有用的字段，即基础特征字段，例如，在对企业进行信用评分时，需要剔除无用的数据，提取涉及到信用评分的字段，基础特征字段包括但不限于交易对象名称、交易日期、交易账户、交易金额、交易笔数等，其中，交易账户包括付款账户和收款账户。提取到基础特征字段，即可获得对应的字段数据。

在一些实施方式中，在上述获取目标对象的流水数据的步骤之前还包括：

对数据获取方进行身份验证；

认证通过后，执行获取目标对象的流水数据的步骤。

具体的，将数据获取方的待认证信息发送至身份验证端进行身份验证，验证待认证信息正确，则身份认证通过。

其中，待认证信息包括身份认证凭据。身份验证端对身份认证凭据进行解密，得到待认证特征；若待认证特征与数据获取方的用户特征一致，则认证通过，否则，认证不通过。

应当理解，本实施例中还可以通过其他方式进行身份验证，不局限于此。

需要强调的是，为进一步保证上述流水数据的私密和安全性，上述流水数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，根据基础特征字段和字段数据，调用预设的指标衍生模型生成指标特征数据。

在本实施例中，指标衍生模型通过以下步骤构建：

根据基础特征字段的特征属性确定评分的指标维度，指标维度含有至少一个指标特征；

构建基础特征字段与指标目标之间的计算关系，基于所述计算关系形成所述指标衍生模型。

具体的，可以将基础特征字段和字段数据按照特征属性配置不同的指标维度，每个指标维度下至少包括一种指标特征，指标特征作为指标衍生模型的建模目标，根据建模目标确定作为指标衍生模型的输入的基础特征字段，作为指标衍生模型的特征参数，构建特征参数与建模目标之间的计算关系，基于计算关系形成指标特征对应的指标衍生模型。即每种指标特征对应一种指标衍生模型，以生成新的指标特征数据，用于更全面评估目标对象的信用情况。

示例的，以金融科技应用领域为例，指标维度包括但不限于目标对象规模、供求关系稳定度、资金稳定度、资金集中度、资金异动、资金规模变化以及现金流趋势。

每种指标维度至少包括一种指标特征。其中，供求关系稳定度包括目标对象与需求方（下游）的关系稳定度、目标对象与供应方（上游）的关系稳定度，其中，目标对象与需求方的关系稳定度表示目标对象作为收款方在预设时间段所有收款对应的每个行业的收款稳定度；目标对象与供应方的关系稳定度表示目标对象作为付款方在预设时间段所有付款对应的每个行业的付款稳定度。

资金稳定度包括资金投向稳定度、资金来源稳定度，其中，资金投向稳定度表示目标对象作为付款方在预设时间段所有付款对应的每个收款账户（交易对象）的稳定度；资金来源稳定度表示目标对象作为收款方在预设时间段所有收款对应的每个付款账户（交易对象）的稳定度。

资金集中度包括资金投向集中度、资金来源集中度，其中，资金投向集中度表示目标对象作为付款方在预设时间段所有付款对应的每个收款账户的收款额占预设时间段目标对象总付款额的比例；资金来源集中度表示目标对象作为收款方在预设时间段所有收款对应的每个付款账户的付款额占预设时间段目标对象总收款额的比例。

资金异动包括资金收款异动和资金付款异动。

每个指标特征建立有对应的指标衍生模型，指标衍生模型通过对基础特征字段进行组合计算形成指标特征数据，将对应的基础特征字段的字段数据输入指标衍生模型中进行计算，即得指标特征数据，用于对目标对象进行信用评估。

步骤S203，将指标特征数据输入训练好的评分模型，得到评分结果。

在本实施例中，评分模型可以采用分类模型，也可以构建相应的数学模型，其中，分类模型包括但不限于随机森林分类模型和贝叶斯分类模型等。

当评分模型为分类模型时，为了提高评分的准确度，在将指标特征数据输入训练好的评分模型的步骤之前，需要对预构建的分类模型进行训练，包括以下步骤：

获取训练数据集，将训练数据集输入预构建的分类模型中，得到预测评分；

根据预测评分确定目标损失函数，基于目标损失函数对分类模型进行迭代更新，输出训练完成的分类模型作为评分模型。

训练数据集可以从交易数据库和/或第三方交易平台获取，训练数据集包括指标特征和对应的特征标签，其中，特征标签为该指标特征对应的实际评分。

在本实施例中，使用训练数据集进行模型训练之前，可以对训练数据集进行数据清洗，即将训练数据集中指标特征不准确和/或特征标签不准确的指标特征数据进行删除，可以减小训练数据对模型的不良影响。

将训练数据集输入预构建的分类模型中，得到预测评分，根据预测评分得到目标损失函数，目标损失函数用于调整模型参数。具体的，根据目标损失函数调整模型参数，继续进行迭代训练，模型训练到一定程度，模型的性能达到最优状态，达到最优状态可以通过模型是否收敛进行判断，还可以根据当前目标损失函数是否满足预设条件进行判断。其中，判断收敛的方式只需要计算前后两轮迭代中的损失函数，若损失函数仍在变化，则继续进行迭代训练；若损失函数没有显著变化，则可认为模型收敛，模型收敛后，输出最终的分类模型作为评分模型；预设条件为预设损失函数值，判断是否满足预设条件则判断当前目标损失函数是否小于预设损失函数值，若当前目标损失函数大于或等于预设损失函数值，则继续进行迭代训练，若当前目标损失函数小于预设损失函数值，则停止训练，输出最终的分类模型作为评分模型。

在一些实施例方式中，设计一个目标损失函数，目标损失函数包括两部分，分别为第一损失函数和第二损失函数，第一损失函数表示预测评分与实际评分之间的差值，具体的采用如下计算公式：

式中，LOSS1为第一损失函数；

表示第i个训练数据对应的实际评分；/>

表示第i个训练数据对应的预测评分；N表示训练数据的数量。

第二损失函数表示预测评分与实际评分之间的差值超过预设差值阈值的训练数据的数量，采用如下计算公式：

式中，LOSS2为第二损失函数；

表示第i个训练数据对应的实际评分；/>

将第一损失函数LOSS1和第二损失函数LOSS2进行加权求和，得到目标损失函数LOSS，公式如下：

LOSS= W1*LOSS1+ W2*LOSS2

其中，W1和W2分别为第一损失函数和第二损失函数的权重，权重可以是预先设置的，也可以采用权重模型进行训练得到。

计算得到模型更新后的目标损失函数，基于目标损失函数调整分类模型的模型参数；当满足迭代结束条件时，即模型的性能达到最优状态，根据模型参数生成评分模型。

本实施例中，通过第一损失函数和第二损失函数得到目标损失函数，可以使得目标损失函数更为准确地表征评分模型的评分性能，提高评分的准确性。

本实施例中通过训练预构建的分类模型作为评分模型，能够提升模型的评分性能，提高评分的准确度。

当评分模型为数学模型时，按照预设评分规则确定每个指标特征数据的评分，将所有评分进行相加，即得到评分结果。

步骤S204，基于评分结果确定目标对象的信用结果。

在本实施例中，按照预设信用评定规则确定目标对象的信用结果。其中，预设信用评定规则为不同评分对应不同的信用等级，信用等级可以用于表征目标对象的经营状况。评分越高，信用等级越高，信用越好。

示例的，假设评分结果的得分区间在[9,45]，信用等级分为信用很差、信用较差、信用一般、信用较好、信用优良和信用极好等六个等级，得分区间在[9,15]表示目标对象信用极差，得分区间在[16,21]表示目标对象信用较差，得分区间在[22,28]表示目标对象信用一般，得分区间在[29,34]表示目标对象信用较好，得分区间在[35,40]表示目标对象信用优良，得分区间在[41,45]表示目标对象信用极好。

步骤S205，根据信用结果判断目标对象的风险情况。

具体的，基于信用结果可以判断目标对象的经营状况，信用越好，经营状况越好，信用越差，经营状况越差，以此区分企业评级，给企业办理金融业务、风险预警、政府风补及管控等提供量化依据。

本申请通过流水数据的基础特征字段和对应的字段数据，调用预设的指标衍生模型生成指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况；使用训练好的评分模型对指标特征数据进行计算，得到评分结果，进而确定目标对象的信用结果，可以提高评分的准确性，进而保证信用评估的准确性，给企业办理金融业务、风险预警、政府风补及管控等提供可靠的量化依据。

在一些可选的实现方式中，上述从流水数据中提取基础特征字段及其对应的字段数据的步骤包括：

确定流水数据是否为结构化数据；

当流水数据为结构化数据时，对流水数据进行结构匹配，得到结构信息；根据结构信息拆解所述流水数据，得到基础特征字段及其对应的字段数据；

当流水数据为非结构化数据时，根据预设的正则表达式对流水数据进行字段提取，得到基础特征字段及其对应的字段数据。

获取流水数据的数据源不同，流水数据之间的格式以及内容形式会存在区别，主要是结构化数据和非结构化数据之间的区别。其中，当流水数据中保存有结构化数据时，表示该流水数据中的内容是按照一定的数据结构进行记录的。相应的，按照预定的结构就可以从中提取出数据结构下的基础特征字段及其对应的字段数据。当流水数据中不存在结构化数据时，也就是该流水数据中的数据不以结构化的方式进行记录，导致数据的结构不清晰，可以采用预设的脚本从该流水数据中提取出对应的基础特征字段及其对应的字段数据。其中，预设的脚本可以是预设好的正则表达式。

具体的，当流水数据是结构化数据时，对流水数据进行结构匹配，得到结构信息，例如，key-value键值结构、JSON（JavaScript Object Notation，JS对象简谱）结构，然后，根据结构信息对流水数据进行拆解，得到对应的基础特征字段及其字段数据。

当流水数据为非结构化数据时，根据预设的正则表达式对流水数据进行字段提取。其中，预设的正则表达式是根据流水数据的字段特点设置的正则表达式。流水数据的字段特点可以是较高频率出现的字段内容，也可以是特定的字段内容，还可以是特定的字符串标识。正则表达式的设置方式并不唯一，在此不作具体限定。

本实施例可以从结构化数据和非结构化数据中提取基础特征字段及其字段数据，能够更有针对性的进行数据提取，提高提取的效率和精确度。

在一些可选的实现方式中，上述根据基础特征字段和字段数据，调用预设的指标衍生模型生成指标特征数据的步骤包括：

获取指标衍生模型的特征参数，根据特征参数确定目标特征字段；

将目标特征字段对应的目标字段数据输入指标衍生模型，计算得到对应的指标特征数据。

在本实施例中，可以根据流水数据的基础特征字段和字段数据，配置流水数据的不同指标维度，每个指标维度含有至少一个指标特征，每个指标特征对应构建一个指标衍生模型。

其中，指标维度为目标对象规模时，指标特征包括企业规模，企业规模对应的指标衍生模型如下：

式中，M表示预设时间总时间段，M为正整数；

表示第i个时间段内目标对象作为收款方的收款金额，/>

表示第i个时间段内目标对象作为付款方的付款金额。示例的，M为过去24个月，则/>

表示第i个月目标对象作为收款方的收款金额，/>

表示第i个月目标对象作为付款方的付款金额,/>

表示过去24个月目标对象作为收款方的收款金额总计，

表示过去24个月目标对象作为付款方的付款金额总计。

指标维度为供求关系稳定时，指标特征包括目标对象与需求方的关系稳定度和目标对象与供应方的关系稳定度，目标对象与需求方的关系稳定度具体可以通过皮尔逊（Pearson）相关系数计算得到，对应的指标衍生模型如下：

式中，

表示目标对象与需求方的关系稳定度；n表示需求方对应的行业总数，是正整数；/>

表示目标对象作为收款方在第一预设时间段内所有收款对应的第i个行业的收款次数；/>

表示目标对象作为收款方在第二预设时间段内所有收款对应的第i个行业的收款次数。

其中，行业包括但不限于农业、林业、牧业、渔业、制造业、金融业、建筑业、交通运输业、采矿业、信息服务业以及教育业等。

示例的，目标对象与需求方的关系稳定度为统计企业作为收款方过去12个月所有收款对应的每个行业的收款次数

，统计企业作为收款方过去13-24个月所有收款对应的每个行业的收款次数/>

，求/>

和/>

的皮尔逊相关系数的绝对值，记为目标对象与需求方的关系稳定度指标。

目标对象与供应方的关系稳定度具体可以通过皮尔逊（Pearson）相关系数计算得到，对应的指标衍生模型如下：

式中，

表示目标对象与供应方的关系稳定度；n表示供应方对应的行业总数，是正整数；/>

表示目标对象作为付款方在第一预设时间段内所有付款对应的第i个行业的付款次数；/>

表示目标对象作为付款方在第二预设时间段内所有付款对应的第i个行业的付款次数。

示例的，目标对象与供应方的关系稳定度为统计企业作为付款方过去12个月所有付款对应的每个行业的付款次数

，统计企业作为付款方过去13-24个月所有付款对应的每个行业的付款次数/>

,求/>

和/>

的皮尔逊相关系数的绝对值，记为目标对象与供应方的关系稳定度指标。

指标维度为资金稳定度时，资金稳定度包括资金投向稳定度和资金来源稳定度，资金投向稳定度具体可以通过皮尔逊相关系数计算得到，对应的指标衍生模型如下：

式中，

表示资金投向稳定度；m表示收款账户总数，是正整数；/>

表示目标对象作为付款方在第一预设时间段内所有付款对应的第i个收款账户的收款次数；/>

表示目标对象作为付款方在第二预设时间段内所有付款对应的第i个收款账户的收款次数。

示例的，资金投向稳定度为统计企业作为付款方过去12个月所有付款对应的每个的收款账户（即收款公司）的收款次数

,统计企业作为付款方过去13-24个月所有付款对应的每个收款账户（即收款公司）的收款次数/>

，求/>

和/>

的皮尔逊相关系数的绝对值，记为资金投向稳定度指标。

资金来源稳定度具体可以通过皮尔逊相关系数计算得到，对应的指标衍生模型如下：

式中，

表示资金来源稳定度；m表示收款账户总数，是正整数；/>

表示目标对象作为收款方在第一预设时间段内所有收款对应的第i个付款账户的付款次数；/>

表示目标对象作为付款方在第二预设时间段内所有收款对应的第i个付款账户的付款次数。

示例的，资金来源稳定度为统计企业作为收款方过去12个月所有收款对应的每个的付款账户（即付款公司）的付款次数

，统计企业作为收款方过去13-24个月所有收款对应的每个付款账户（即付款公司）的付款次数/>

，求/>

和/>

的皮尔逊相关系数的绝对值，记为资金来源稳定度指标。

指标维度为资金集中度时，资金集中度包括资金投向集中度和资金来源集中度。

资金投向集中度对应的指标衍生模型如下：

式中，RC1表示目标对象作为付款方在第一预设时间段每个收款账号的收款额占第一预设时间段目标对象总付款额的比例；RC2表示目标对象作为付款方在第二预设时间段每个收款账号的收款额占第二预设时间段目标对象总付款额的比例；

表示第i个收款账号在第一预设时间段的收款额；/>

表示第i个收款账号在第二预设时间段的收款额；ZR1表示第一预设时间段目标对象总付款额；ZR2表示第二预设时间段目标对象总付款额。

示例的，资金投向集中度为分别计算过去12个月和过去13-24个月每个收款账户的收款额占当年企业总付款额的比例，分别记为RC1和RC2，分别取RC1和RC2的最大值，Max(RC2) - Max(RC1)即为资金投向集中度指标。

资金来源集中度对应的指标衍生模型如下：

/>

式中，SC1表示目标对象作为收款方在第一预设时间段每个付款账号的付款额占第一预设时间段目标对象总收款额的比例；SC2表示目标对象作为收款方在第二预设时间段每个付款账号的付款额占第二预设时间段目标对象总收款额的比例；

表示第i个付款账号在第一预设时间段的付款额；/>

表示第i个付款账号在第二预设时间段的付款额；ZS1表示第一预设时间段目标对象总收款额；ZS2表示第二预设时间段目标对象总收款额。

示例的，资金来源集中度为分别计算过去12个月和过去13-24个月每个付款账户付款额占当年企业总收款额的比例，分别记为ZS1和ZS2，分别取ZS1和ZS2的最大值，Max(ZS2) - Max(ZS1)即为资金来源集中度指标。

指标维度为资金异动时，资金异动包括资金收款异动和资金付款异动。资金收款异动对应的指标衍生模型如下：

式中，K1为经验系数，为常数，通常取1.5；m表示预设总时间段，为正整数；

表示第i个时间段目标对象的收款金额；/>

表示预设时间段内目标对象收款金额的均值。

示例的，统计企业过去12个月收款金额，计算标准差S1和均值

，比较每个月收款金额和1.5*（S1+/>

），统计月收款金额大于1.5*（S1+/>

）的月份数，记为资金收款异动指标。

资金付款异动对应的指标衍生模型如下：

式中，K2为经验系数，为常数，通常取1.5；m表示预设总时间段，为正整数；

表示第i个时间段目标对象的收款金额；/>

表示预设时间段内目标对象收款金额的均值。

示例的，统计企业过去12个月收款金额，计算标准差S2和均值

，比较每个月收款金额和1.5*（S2+/>

），统计月收款金额大于1.5*（S2+/>

）的月份数，记为资金付款异动指标。

示例的，资金规模变化为统计企业之过去12个月/13-24个月总交易金额（总收款金额+总付款金额）的比值，记为资金规模变化指标。

示例的，现金流趋势为统计企业过去12个月总交易净额（总收款金额-总付款金额）/总付款额的比率，记为现金流趋势指标。

获取指标衍生模型后，对应获得指标衍生模型的特征参数，以资金来源集中度为例，特征参数包括收款企业名称（对应交易对象名称）、付款账户、付款时间（对应交易日期）、付款金额（对应交易金额）等，根据特征参数确定资金来源集中度的目标特征字段，将其对应的目标字段数据输入指标衍生模型计算得到对应的指标特征数据。

在本实施例中，通过指标衍生模型，基于基础特征字段衍生得到指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况。

以下结合具体的实施例对上述方案做进一步说明。

以资金集中度为例，如表1所示：

取RC1最大值，取RC2最大值，Y= Max(RC2)-Max(RC1)，Y值越大，代表占比第一的客户的比例变化，变化愈大表示风险愈高。

采用相应的指标衍生模型计算出指标特征数据后，对指标特征数据进行评分计算，以按照预设评分规则确定每个指标特征数据的评分的方式为例。

预设评分规则如表2所示：

表2

供求关系稳定度	得分值
		(0.7 ，1]	5
(0.45 ， 0.7]	4
		(0.25 ， 0.45]	3
(0.1 ，0.25]	2
		[0 ， 0.1]	1
资金稳定度	得分值
		(0.6 ，1]	5
(0.2 ， 0.6]	4
		(-0.2 ， 0.2]	3
(-0.6 ，-0.2]	2
		[-1 ， -0.6]	1
资金集中度	得分值
		[0.7，1]	1
[0.45 ， 0.7）	3
		[0.25 ， 0.45）	5
[0.1 ，0.25）	3
		[0 ， 0.1)	1
资金异动	得分值
		月份数
0	5
		1	4
2	3
		3	2
>=4	1
		资金规模变化	得分值
≥1.5	5
		[1.2 ，1.5）	4
[1 , 1.2）	3
		[0.77 ，1）	2
小于0.77	1
		现金流趋势	得分值
≥0.5	3
		[0.2 ，0.5）	4
[0, 0.2）	5
		[-0.33，0）	2
＜0.33	1
		目标对象规模（月均）（单位：万元/月）	得分值
[0 ， 10）	1
		[10 ， 100）	2
[100 ， 1000）	3
		[1000 ， 10000）	4
大于等于10000	5

按照对应得分，将所有评分进行相加，即得到评分结果，分值较高的可以判断经营状况较好，分值较低的则经营情况相对较差。

在一些可选的实现方式中，上述获取目标对象的流水数据的步骤包括：

获取目标对象的查询关键词；

调用查询接口，根据查询关键词获得对应的查询脚本；

根据查询脚本，查找与目标对象对应的流水数据。

在本实施例中，查询脚本包括SQL（Structured Query Language，结构化查询语言）脚本，其中，SQL脚本可以包括数据存取、查询、更新和管理等操作的程序指令。

通过对应的查询脚本查询到相应的流水数据，提高了数据的查询效率。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种数据分析装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的数据分析装置300包括：获取模块301、生成模块302、评分模块303、信用评估模块304以及判断模块305。其中：

获取模块301用于获取目标对象的流水数据，并从流水数据中提取基础特征字段及其对应的字段数据；

生成模块302用于根据基础特征字段和字段数据，调用预设的指标衍生模型生成指标特征数据；

评分模块303用于将指标特征数据输入训练好的评分模型，得到评分结果；

信用评估模块304用于基于评分结果确定目标对象的信用结果；

判断模块305用于根据信用结果判断目标对象的风险情况；

其中，所述指标衍生模型通过以下步骤构建：

基于上述数据分析装置，通过流水数据的基础特征字段和对应的字段数据，调用预设的指标衍生模型生成指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况；使用训练好的评分模型对指标特征数据进行计算，得到评分结果，进而确定目标对象的信用结果，可以提高评分的准确性，进而保证信用评估的准确性，给企业办理金融业务、风险预警、政府风补及管控等提供可靠的量化依据。

在一些可选的实施方式中，获取模块301包括判断子模块、匹配拆解子模块和提取子模块，其中：

判断子模块用于确定流水数据是否为结构化数据；

匹配拆解子模块用于当流水数据为结构化数据时，对流水数据进行结构匹配，得到结构信息；根据结构信息拆解流水数据，得到基础特征字段及其对应的字段数据；

提取子模块用于当流水数据为非结构化数据时，根据预设的正则表达式对流水数据进行字段提取，得到基础特征字段及其对应的字段数据。

在一些可选的实现方式中，生成模块302包括获取子模块和生成子模块，获取子模块用于获取指标衍生模型的特征参数，根据特征参数确定目标特征字段；生成子模块用于将目标特征字段对应的目标字段数据输入指标衍生模型，计算得到对应的指标特征数据。

在一些可选的实现方式中，数据分析装置300还包括训练模块，训练模块包括训练子模块和更新子模块，其中：

训练子模块用于获取训练数据集，将训练数据集输入所述预构建的分类模型中，得到预测评分；

更新子模块用于根据预测评分确定目标损失函数，基于目标损失函数对分类模型进行迭代更新，输出训练完成的分类模型作为评分模型。

在本实施例的一些可选的实现方式中，更新子模块包括计算单元、求和单元、调整单元和生成单元，其中：

计算单元用于根据预测评分和对应的训练数据集中训练数据的实际评分，计算得到第一损失函数和第二损失函数；

求和单元用于将第一损失函数和第二损失函数进行加权求和，得到目标损失函数；

调整单元用于基于目标损失函数调整分类模型的模型参数；

生成单元用于当满足迭代结束条件时，根据模型参数生成评分模型。

在本实施例中，计算单元进一步用于：计算预测评分和实际评分之间的差值，根据差值计算得到第一损失函数；将差值与预设差值阈值进行比较，得到比较结果；根据比较结果确定差值大于等于差值阈值的训练数据的数量；根据数量计算得到第二损失函数。

通过第一损失函数和第二损失函数得到目标损失函数，可以使得目标损失函数更为准确地表征评分模型的评分性能，提高评分的准确性。

在一些可选的实现方式中，获取模块301进一步用于：

获取目标对象的查询关键词；

调用查询接口，根据查询关键词获得对应的查询脚本；

根据查询脚本，查找与目标对象对应的流水数据。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如数据分析方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述数据分析方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例数据分析方法的步骤，通过流水数据的基础特征字段和对应的字段数据，调用预设的指标衍生模型生成指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况；使用训练好的评分模型对指标特征数据进行计算，得到评分结果，进而确定目标对象的信用结果，可以提高评分的准确性，进而保证信用评估的准确性，给企业办理金融业务、风险预警、政府风补及管控等提供可靠的量化依据。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的数据分析方法的步骤，通过流水数据的基础特征字段和对应的字段数据，调用预设的指标衍生模型生成指标特征数据，可以丰富信用评分的指标，能够更加全面地反映企业的经济发展情况；使用训练好的评分模型对指标特征数据进行计算，得到评分结果，进而确定目标对象的信用结果，可以提高评分的准确性，进而保证信用评估的准确性，给企业办理金融业务、风险预警、政府风补及管控等提供可靠的量化依据。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种数据分析方法，其特征在于，包括下述步骤：

基于所述评分结果确定所述目标对象的信用结果；

根据所述信用结果判断所述目标对象的风险情况；

其中，所述指标衍生模型通过以下步骤构建：

2.根据权利要求1所述的数据分析方法，其特征在于，所述从所述流水数据中提取基础特征字段及其对应的字段数据的步骤包括：

确定所述流水数据是否为结构化数据；

3.根据权利要求1所述的数据分析方法，其特征在于，所述根据所述基础特征字段和所述字段数据，调用预设的指标衍生模型生成指标特征数据的步骤包括：

4.根据权利要求1所述的数据分析方法，其特征在于，在所述将所述指标特征数据输入训练好的评分模型的步骤之前还包括：

5.根据权利要求4所述的数据分析方法，其特征在于，所述根据所述预测评分确定损失函数，基于所述损失函数对所述分类模型进行迭代更新，输出训练完成的分类模型作为评分模型的步骤包括：

基于所述目标损失函数调整所述分类模型的模型参数；

当满足迭代结束条件时，根据所述模型参数生成评分模型。

6.根据权利要求5所述的数据分析方法，其特征在于，所述根据所述预测评分和对应的所述训练数据集中训练数据的实际评分，计算得到第一损失函数和第二损失函数的步骤包括：

将所述差值与预设差值阈值进行比较，得到比较结果；

根据所述数量计算得到所述第二损失函数。

7.根据权利要求1至6中任一项所述的数据分析方法，其特征在于，所述获取目标对象的流水数据的步骤包括：

获取所述目标对象的查询关键词；

调用查询接口，根据所述查询关键词获得对应的查询脚本；

根据所述查询脚本，查找与所述目标对象对应的流水数据。

8.一种数据分析装置，其特征在于，包括：

其中，所述指标衍生模型通过以下步骤构建：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据分析方法的步骤。