CN108763277B

CN108763277B - 一种数据分析方法、计算机可读存储介质及终端设备

Info

Publication number: CN108763277B
Application number: CN201810315729.6A
Authority: CN
Inventors: 黄萍; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2023-04-18
Anticipated expiration: 2038-04-10
Also published as: WO2019196210A1; CN108763277A

Abstract

本发明属于计算机技术领域，尤其涉及一种数据分析方法、计算机可读存储介质及终端设备。所述方法首先通过搜索引擎爬取待分析企业的财务数据，从所述财务数据中抽取指定的财务指标，并组成第一指标向量，然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量，将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量，并计算两者之间的相似度，最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例，使用神经网络模型的智能分析取代了传统的人工分析，分析成本大大降低。

Description

一种数据分析方法、计算机可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种数据分析方法、计算机可读存储介质及终端设备。

背景技术

一般地，各个上市企业每年度都会发布自己的年度财务报告，企业管理者以及投资者、分析师等通过对财务报告进行数据分析，可以获知企业的各项信息，从而更好地指导管理者的管理决策以及投资者的投资决策。

但是，传统的财务数据分析的过程非常复杂，财务指标细碎繁多，必须依赖于专业的财务分析人员才可完成，分析成本极高，且容易因人为因素导致分析结果错误。

发明内容

有鉴于此，本发明实施例提供了一种数据分析方法、计算机可读存储介质及终端设备，以解决现有财务数据分析必须依赖于专业的财务分析人员才可完成，分析成本极高，且容易因人为因素导致分析结果错误的问题。

本发明实施例的第一方面提供了一种数据分析方法，可以包括：

通过搜索引擎爬取待分析企业的财务数据，所述财务数据由所述待分析企业的服务器生成；

从所述财务数据中抽取指定的财务指标，并将所述财务指标组成第一指标向量；

将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量；

从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量，所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式；

将所述第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量，所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数；

计算所述第一输出向量和所述第二输出向量之间的相似度，并将其添加入预设的相似度数组中；

将所述模板指标向量的标志位设置为第二位值，返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤，直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止；

从所述相似度数组中确定出数值最大的相似度，并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。

本发明实施例的第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

本发明实施例的第三方面提供了一种数据分析终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先通过搜索引擎爬取待分析企业的财务数据，从所述财务数据中抽取指定的财务指标，并组成第一指标向量，然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量，将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量，并计算两者之间的相似度，最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例，使用神经网络模型的智能分析取代了传统的人工分析，分析成本大大降低，且减少了因人为因素导致的分析结果错误。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种数据分析方法的一个实施例流程图；

图2为本发明实施例中神经网络模型对数据的处理示意图；

图3为本发明实施例中一种数据分析装置的一个实施例结构图；

图4为本发明实施例中一种数据分析终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种数据分析方法的一个实施例可以包括：

步骤S101，通过搜索引擎爬取待分析企业的财务数据。

所述财务数据由所述待分析企业的服务器生成。

具体地，首先根据预设的统一资源定位符(URL，Uniform Resource Locator)关系表确定与所述待分析企业对应的统一资源定位符，所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系；然后通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。

例如，可以在各大证券交易所的官方网站，或者在所述待分析企业的官网中进行财务数据爬取。以爬取A公司的财务数据为例，首先查询所述统一资源定位符关系表，在其中可以找到与“A公司”这一企业对应的统一资源定位符，在这些统一资源定位符所指示的网页中以关键字“A公司”+“财务报告”爬取到所述财务数据。为保证爬取结果的可靠性，在爬取数据之后，还可以由专业人员对结果进行人工审核，以保证财务数据的准确性。

步骤S102，从所述财务数据中抽取指定的财务指标，并将所述财务指标组成第一指标向量。

所述财务指标包括但不限于：资产负债率、历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等具体指标。

所述第一指标向量可以表示为：

X1＝(u₁,u₂,....,u_m,..,u_M)

其中，u_m为第m个财务指标，1≤m≤M，M为所述第一指标向量的维度个数。

步骤S103，将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量。

具体地，所述第一神经网络模型的输入层节点接收所述第一指标向量，在所述第一神经网络模型的隐含层节点分别使用模糊高斯隶属度函数对所述输入层节点接收的数据进行处理，得到隐含层节点数据。所述隐含层节点数据可以通过以下计算公式得到：

其中，i为输入层节点的标号，其取值范围为[1，M]；j为隐含层节点的标号，其取值范围为[1，H]，H为隐含层节点的个数；Φ_j(x)为第j个隐含层节点的隐含层节点数据；G_ij(x_i)为第j个隐含层节点的第i个模糊高斯隶属度函数；x为输入层节点数据，x_i为其中的第i个输入层节点的输入层节点数据；μ_ij为第j个隐含层节点的第i个模糊高斯隶属度函数的数学期望；σ_ij为第j个隐含层节点的第i个模糊高斯隶属度函数的标准差。

优选地，还可以对所述隐含层节点数据进行归一化处理，以缩小所述隐含层节点数据的差异，具体地，可以获取所述隐含层节点数据中的最大值和最小值，然后根据所述最大值和所述最小值对所述隐含层节点数据进行归一化处理，得到归一化的隐含层节点数据。

例如，可以通过以下公式对所述隐含层节点数据进行归一化处理：

其中，Ψ_j(x)为第j个隐含层节点的归一化的隐含层节点数据，Φ_max(x)为Φ_j(x)中的最大值，Φ_min(x)为Φ_j(x)中的最小值。

最后，在各个输出层节点使用预设的权值分别对所述隐含层节点数据进行加权求和，得到各个输出分量，所述第一输出向量在第n个维度上的输出分量的计算公式可以为：

其中，a_n为所述第一输出向量在第n个维度上的分量，ω_j,n为第j个隐含层节点的隐含层节点数据与第n个维度上的输出分量对应的权值。

则所述第一输出向量可以表示为：

Y1＝(a₁,a₂,....,a_n,..,a_N)

其中，1≤n≤N，N为所述第一输出向量的维度个数。

步骤S104，从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量。

所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式。这些模板指标向量是基于财务专家的分析逻辑，对典型的代表性企业进行分析得到的指标向量。例如，财务专家选择五家代表性的企业，分别为财务状况极好、财务状况较好、财务状况一般、财务状况较差、财务状况极差这五种财务模式。首先对资产负债率进行分析。根据实际情况预先设置一个资产负债率阈值，对企业来说，一般地，资产负债率的适宜水平是0.4～0.6，在本实施例中，可以将资产负债率阈值设置为0.7，也即当企业的资产负债率高于0.7，则初步判定其存在财务风险。还可以进一步地对历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等进行分析，其中，历史负债率趋势，即相比于近几年的数据，负债率是上升还是下降，若上升这说明财务风险在持续恶化，若下降则说明财务在持续改善。有息负债总额占总资产比例、近期负债占总负债比例、以及近期负债占货币现金比例，这三个比例越高，则财务风险也越高。还需要对企业的偿债能力进行分析，主要对流动比率，利息支出等数据进行分析，若存在较低的流动比率、上升的利息支出则预示该企业的偿债能力令人担忧。根据上述分析过程，对选取的所有典型的代表性企业均进行分析，将其中的分析数据作为模板指标向量一起存储入所述模板数据库中。

所述标志位用于表征该模板指标向量是否已进行过相似度计算，当其为第一位值时，说明该模板指标向量尚未进行过相似度计算，当其为第二位值时，说明该模板指标向量已进行过相似度计算。所述第一位值可以取0或1，当其取0时，则所述第二位值取1，当其取1时，则所述第二位值取0。

步骤S105，将所述第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量。

所述第二指标向量可以表示为：

X2＝(v₁,v₂,....,v_m,..,v_M)

其中，v_m为第m个财务指标，1≤m≤M，M为所述第二指标向量的维度个数。所述第一指标向量和所述第二指标向量的维度个数是相同的。

所述第二输出向量可以表示为：

Y1＝(b₁,b₂,....,b_n,..,b_N)

其中，b_n为所述第二输出向量在第n个维度上的分量，1≤n≤N，N为所述第二输出向量的维度个数。所述第一输出向量和所述第二输出向量的维度个数是相同的。

所述第二神经网络模型与所述第一神经网络模型构成了孪生神经网络模型，即两者具有相同的网络结构和参数，在进行参数更新时，两者也是同步的，始终保持着参数的一致。需要注意的是，所述第一神经网络模型和所述第二神经网络模型所处理的数据对象是不同的，所述第一神经网络模型处理的是待分析企业的指标向量，而所述第一神经网络模型处理的是模板数据库中的模板指标向量。

步骤S106，计算所述第一输出向量和所述第二输出向量之间的相似度，并将其添加入预设的相似度数组中。

可选地，可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度：

其中，y′为所述第一输出向量和所述第二输出向量之间的相似度。

可选地，还可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度：

其中，

步骤S107，将所述模板指标向量的标志位设置为第二位值。

也即标记该模板指标向量为已进行过相似度计算。

步骤S108，判断所述模板数据库中是否存在标志位为第一位值的模板指标向量。

若存在，则返回执行步骤S104，若不存在，则执行步骤S109。

步骤S109，从所述相似度数组中确定出数值最大的相似度，并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。

优选地，所述第一神经网络模型和所述第二神经网络的训练过程具体可以包括：

首先，从历史分析记录中选取预设数目的指标向量样本对。

所述指标向量样本对由两个指标向量样本组成，且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对，所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内。

正样本对即为由财务模式一致或相近的两个指标向量样本所组成的样本对，而负样本对即为由财务模式差别较大的两个指标向量样本所组成的样本对，为了保证训练效果的有效性，选取的指标向量样本对中既要包括正样本对，也要包括负样本对，优选地，可以设置两者数目之比为1:1。

将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理，并计算两个输出向量之间的相似度。

具体的计算过程可参照上述说明，此处不再赘述。

然后，根据下式计算本轮训练的全局误差：

其中，E_t为第t个指标向量样本对的训练误差，y_t′为第t个指标向量样本对的相似度，y_t为第t个指标向量样本对的理论相似度，1≤t≤T，T为所述指标向量样本对的数目，E为所述全局误差，也即本轮训练中各个样本对的训练误差的总和；

若所述全局误差大于预设的误差阈值，则对所述第一神经网络模型和所述第二神经网络进行调整，并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤，直至所述全局误差小于所述误差阈值为止；

若所述全局误差小于所述误差阈值，则结束训练。训练得到的所述第一神经网络模型和所述第二神经网络即可作为孪生神经网络模型对待分析的数据进行分析。

综上所述，本发明实施例首先通过搜索引擎爬取待分析企业的财务数据，从所述财务数据中抽取指定的财务指标，并组成第一指标向量，然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量，将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量，并计算两者之间的相似度，最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例，使用神经网络模型的智能分析取代了传统的人工分析，分析成本大大降低，且减少了因人为因素导致的分析结果错误。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种数据分析方法，图3示出了本发明实施例提供的一种数据分析装置的一个实施例结构图。

本实施例中，一种数据分析装置可以包括：

数据爬取模块301，用于通过搜索引擎爬取待分析企业的财务数据，所述财务数据由所述待分析企业的服务器生成；

指标提取模块302，用于从所述财务数据中抽取指定的财务指标，并将所述财务指标组成第一指标向量；

第一处理模块303，用于将所述第一指标向量输入到预设的第一神经网络模型中进行处理，得到第一输出向量；

指标向量选取模块304，用于从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量，所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式；

第二处理模块305，用于将所述第二指标向量输入到预设的第二神经网络模型中进行处理，得到第二输出向量，所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数；

相似度计算模块306，用于计算所述第一输出向量和所述第二输出向量之间的相似度，并将其添加入预设的相似度数组中；

标志位设置模块307，用于将所述模板指标向量的标志位设置为第二位值；

财务模式确定模块308，用于从所述相似度数组中确定出数值最大的相似度，并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。

进一步地，所述数据分析终端设备还可以包括：

样本对选取模块，用于从历史分析记录中选取预设数目的指标向量样本对，所述指标向量样本对由两个指标向量样本组成，且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对，所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内；

样本相似度计算模块，用于将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理，并计算两个输出向量之间的相似度；

全局误差计算模块，用于根据下式计算本轮训练的全局误差：

其中，E_t为第t个指标向量样本对的训练误差，y_t′为第t个指标向量样本对的相似度，y_t为第t个指标向量样本对的理论相似度，1≤t≤T，T为所述指标向量样本对的数目；

网络调整模块，用于若所述全局误差大于预设的误差阈值，则对所述第一神经网络模型和所述第二神经网络进行调整；

结束训练模块，用于若所述全局误差小于所述误差阈值，则结束训练。

可选地，所述相似度计算模块可以包括：

第一计算单元，用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度：

其中，a_n为所述第一输出向量在第n个维度上的分量，b_n为所述第二输出向量在第n个维度上的分量，1≤n≤N，N为所述第一输出向量的维度个数，且为所述第二输出向量的维度个数，y′为所述第一输出向量和所述第二输出向量之间的相似度。

可选地，所述相似度计算模块可以包括：

第二计算单元，用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度：

其中，

a_n为所述第一输出向量在第n个维度上的分量，b_n为所述第二输出向量在第n个维度上的分量，1≤n≤N，N为所述第一输出向量的维度个数，且为所述第二输出向量的维度个数，y′为所述第一输出向量和所述第二输出向量之间的相似度。

进一步地，所述数据爬取模块可以包括：

统一资源定位符确定单元，用于根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符，所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系；

数据爬取单元，用于通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图4示出了本发明实施例提供的一种数据分析终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述数据分析终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该数据分析终端设备4可包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42，例如执行上述的数据分析方法的计算机可读指令。所述处理器40执行所述计算机可读指令42时实现上述各个数据分析方法实施例中的步骤，例如图1所示的步骤S101至S109。或者，所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至308的功能。

示例性的，所述计算机可读指令42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令42在所述数据分析终端设备4中的执行过程。

所述处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述数据分析终端设备4的内部存储单元，例如数据分析终端设备4的硬盘或内存。所述存储器41也可以是所述数据分析终端设备4的外部存储设备，例如所述数据分析终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述数据分析终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述数据分析终端设备4所需的其它指令和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。