CN108763277B - 一种数据分析方法、计算机可读存储介质及终端设备 - Google Patents

一种数据分析方法、计算机可读存储介质及终端设备 Download PDF

Info

Publication number
CN108763277B
CN108763277B CN201810315729.6A CN201810315729A CN108763277B CN 108763277 B CN108763277 B CN 108763277B CN 201810315729 A CN201810315729 A CN 201810315729A CN 108763277 B CN108763277 B CN 108763277B
Authority
CN
China
Prior art keywords
vector
index vector
similarity
neural network
output vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810315729.6A
Other languages
English (en)
Other versions
CN108763277A (zh
Inventor
黄萍
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810315729.6A priority Critical patent/CN108763277B/zh
Priority to PCT/CN2018/093705 priority patent/WO2019196210A1/zh
Publication of CN108763277A publication Critical patent/CN108763277A/zh
Application granted granted Critical
Publication of CN108763277B publication Critical patent/CN108763277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机技术领域,尤其涉及一种数据分析方法、计算机可读存储介质及终端设备。所述方法首先通过搜索引擎爬取待分析企业的财务数据,从所述财务数据中抽取指定的财务指标,并组成第一指标向量,然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量,将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,并计算两者之间的相似度,最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例,使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低。

Description

一种数据分析方法、计算机可读存储介质及终端设备
技术领域
本发明属于计算机技术领域,尤其涉及一种数据分析方法、计算机可读存储介质及终端设备。
背景技术
一般地,各个上市企业每年度都会发布自己的年度财务报告,企业管理者以及投资者、分析师等通过对财务报告进行数据分析,可以获知企业的各项信息,从而更好地指导管理者的管理决策以及投资者的投资决策。
但是,传统的财务数据分析的过程非常复杂,财务指标细碎繁多,必须依赖于专业的财务分析人员才可完成,分析成本极高,且容易因人为因素导致分析结果错误。
发明内容
有鉴于此,本发明实施例提供了一种数据分析方法、计算机可读存储介质及终端设备,以解决现有财务数据分析必须依赖于专业的财务分析人员才可完成,分析成本极高,且容易因人为因素导致分析结果错误的问题。
本发明实施例的第一方面提供了一种数据分析方法,可以包括:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
本发明实施例的第三方面提供了一种数据分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例首先通过搜索引擎爬取待分析企业的财务数据,从所述财务数据中抽取指定的财务指标,并组成第一指标向量,然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量,将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,并计算两者之间的相似度,最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例,使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低,且减少了因人为因素导致的分析结果错误。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种数据分析方法的一个实施例流程图;
图2为本发明实施例中神经网络模型对数据的处理示意图;
图3为本发明实施例中一种数据分析装置的一个实施例结构图;
图4为本发明实施例中一种数据分析终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种数据分析方法的一个实施例可以包括:
步骤S101,通过搜索引擎爬取待分析企业的财务数据。
所述财务数据由所述待分析企业的服务器生成。
具体地,首先根据预设的统一资源定位符(URL,Uniform Resource Locator)关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;然后通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
例如,可以在各大证券交易所的官方网站,或者在所述待分析企业的官网中进行财务数据爬取。以爬取A公司的财务数据为例,首先查询所述统一资源定位符关系表,在其中可以找到与“A公司”这一企业对应的统一资源定位符,在这些统一资源定位符所指示的网页中以关键字“A公司”+“财务报告”爬取到所述财务数据。为保证爬取结果的可靠性,在爬取数据之后,还可以由专业人员对结果进行人工审核,以保证财务数据的准确性。
步骤S102,从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量。
所述财务指标包括但不限于:资产负债率、历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等具体指标。
所述第一指标向量可以表示为:
X1=(u1,u2,....,um,..,uM)
其中,um为第m个财务指标,1≤m≤M,M为所述第一指标向量的维度个数。
步骤S103,将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量。
具体地,所述第一神经网络模型的输入层节点接收所述第一指标向量,在所述第一神经网络模型的隐含层节点分别使用模糊高斯隶属度函数对所述输入层节点接收的数据进行处理,得到隐含层节点数据。所述隐含层节点数据可以通过以下计算公式得到:
Figure BDA0001623702540000061
其中,i为输入层节点的标号,其取值范围为[1,M];j为隐含层节点的标号,其取值范围为[1,H],H为隐含层节点的个数;Φj(x)为第j个隐含层节点的隐含层节点数据;Gij(xi)为第j个隐含层节点的第i个模糊高斯隶属度函数;x为输入层节点数据,xi为其中的第i个输入层节点的输入层节点数据;μij为第j个隐含层节点的第i个模糊高斯隶属度函数的数学期望;σij为第j个隐含层节点的第i个模糊高斯隶属度函数的标准差。
优选地,还可以对所述隐含层节点数据进行归一化处理,以缩小所述隐含层节点数据的差异,具体地,可以获取所述隐含层节点数据中的最大值和最小值,然后根据所述最大值和所述最小值对所述隐含层节点数据进行归一化处理,得到归一化的隐含层节点数据。
例如,可以通过以下公式对所述隐含层节点数据进行归一化处理:
Figure BDA0001623702540000062
其中,Ψj(x)为第j个隐含层节点的归一化的隐含层节点数据,Φmax(x)为Φj(x)中的最大值,Φmin(x)为Φj(x)中的最小值。
最后,在各个输出层节点使用预设的权值分别对所述隐含层节点数据进行加权求和,得到各个输出分量,所述第一输出向量在第n个维度上的输出分量的计算公式可以为:
Figure BDA0001623702540000071
其中,an为所述第一输出向量在第n个维度上的分量,ωj,n为第j个隐含层节点的隐含层节点数据与第n个维度上的输出分量对应的权值。
则所述第一输出向量可以表示为:
Y1=(a1,a2,....,an,..,aN)
其中,1≤n≤N,N为所述第一输出向量的维度个数。
步骤S104,从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量。
所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式。这些模板指标向量是基于财务专家的分析逻辑,对典型的代表性企业进行分析得到的指标向量。例如,财务专家选择五家代表性的企业,分别为财务状况极好、财务状况较好、财务状况一般、财务状况较差、财务状况极差这五种财务模式。首先对资产负债率进行分析。根据实际情况预先设置一个资产负债率阈值,对企业来说,一般地,资产负债率的适宜水平是0.4~0.6,在本实施例中,可以将资产负债率阈值设置为0.7,也即当企业的资产负债率高于0.7,则初步判定其存在财务风险。还可以进一步地对历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等进行分析,其中,历史负债率趋势,即相比于近几年的数据,负债率是上升还是下降,若上升这说明财务风险在持续恶化,若下降则说明财务在持续改善。有息负债总额占总资产比例、近期负债占总负债比例、以及近期负债占货币现金比例,这三个比例越高,则财务风险也越高。还需要对企业的偿债能力进行分析,主要对流动比率,利息支出等数据进行分析,若存在较低的流动比率、上升的利息支出则预示该企业的偿债能力令人担忧。根据上述分析过程,对选取的所有典型的代表性企业均进行分析,将其中的分析数据作为模板指标向量一起存储入所述模板数据库中。
所述标志位用于表征该模板指标向量是否已进行过相似度计算,当其为第一位值时,说明该模板指标向量尚未进行过相似度计算,当其为第二位值时,说明该模板指标向量已进行过相似度计算。所述第一位值可以取0或1,当其取0时,则所述第二位值取1,当其取1时,则所述第二位值取0。
步骤S105,将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量。
所述第二指标向量可以表示为:
X2=(v1,v2,....,vm,..,vM)
其中,vm为第m个财务指标,1≤m≤M,M为所述第二指标向量的维度个数。所述第一指标向量和所述第二指标向量的维度个数是相同的。
所述第二输出向量可以表示为:
Y1=(b1,b2,....,bn,..,bN)
其中,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第二输出向量的维度个数。所述第一输出向量和所述第二输出向量的维度个数是相同的。
所述第二神经网络模型与所述第一神经网络模型构成了孪生神经网络模型,即两者具有相同的网络结构和参数,在进行参数更新时,两者也是同步的,始终保持着参数的一致。需要注意的是,所述第一神经网络模型和所述第二神经网络模型所处理的数据对象是不同的,所述第一神经网络模型处理的是待分析企业的指标向量,而所述第一神经网络模型处理的是模板数据库中的模板指标向量。
步骤S106,计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中。
可选地,可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure BDA0001623702540000091
其中,y′为所述第一输出向量和所述第二输出向量之间的相似度。
可选地,还可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure BDA0001623702540000092
其中,
Figure BDA0001623702540000093
步骤S107,将所述模板指标向量的标志位设置为第二位值。
也即标记该模板指标向量为已进行过相似度计算。
步骤S108,判断所述模板数据库中是否存在标志位为第一位值的模板指标向量。
若存在,则返回执行步骤S104,若不存在,则执行步骤S109。
步骤S109,从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
优选地,所述第一神经网络模型和所述第二神经网络的训练过程具体可以包括:
首先,从历史分析记录中选取预设数目的指标向量样本对。
所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内。
正样本对即为由财务模式一致或相近的两个指标向量样本所组成的样本对,而负样本对即为由财务模式差别较大的两个指标向量样本所组成的样本对,为了保证训练效果的有效性,选取的指标向量样本对中既要包括正样本对,也要包括负样本对,优选地,可以设置两者数目之比为1:1。
将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度。
具体的计算过程可参照上述说明,此处不再赘述。
然后,根据下式计算本轮训练的全局误差:
Figure BDA0001623702540000101
其中,Et为第t个指标向量样本对的训练误差,yt′为第t个指标向量样本对的相似度,yt为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目,E为所述全局误差,也即本轮训练中各个样本对的训练误差的总和;
若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
若所述全局误差小于所述误差阈值,则结束训练。训练得到的所述第一神经网络模型和所述第二神经网络即可作为孪生神经网络模型对待分析的数据进行分析。
综上所述,本发明实施例首先通过搜索引擎爬取待分析企业的财务数据,从所述财务数据中抽取指定的财务指标,并组成第一指标向量,然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量,将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,并计算两者之间的相似度,最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本发明实施例,使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低,且减少了因人为因素导致的分析结果错误。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种数据分析方法,图3示出了本发明实施例提供的一种数据分析装置的一个实施例结构图。
本实施例中,一种数据分析装置可以包括:
数据爬取模块301,用于通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
指标提取模块302,用于从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
第一处理模块303,用于将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
指标向量选取模块304,用于从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
第二处理模块305,用于将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
相似度计算模块306,用于计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
标志位设置模块307,用于将所述模板指标向量的标志位设置为第二位值;
财务模式确定模块308,用于从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
进一步地,所述数据分析终端设备还可以包括:
样本对选取模块,用于从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
样本相似度计算模块,用于将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
全局误差计算模块,用于根据下式计算本轮训练的全局误差:
Figure BDA0001623702540000121
其中,Et为第t个指标向量样本对的训练误差,yt′为第t个指标向量样本对的相似度,yt为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
网络调整模块,用于若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整;
结束训练模块,用于若所述全局误差小于所述误差阈值,则结束训练。
可选地,所述相似度计算模块可以包括:
第一计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure BDA0001623702540000131
其中,an为所述第一输出向量在第n个维度上的分量,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
可选地,所述相似度计算模块可以包括:
第二计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure BDA0001623702540000132
其中,
Figure BDA0001623702540000133
an为所述第一输出向量在第n个维度上的分量,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
进一步地,所述数据爬取模块可以包括:
统一资源定位符确定单元,用于根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
数据爬取单元,用于通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图4示出了本发明实施例提供的一种数据分析终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述数据分析终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该数据分析终端设备4可包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42,例如执行上述的数据分析方法的计算机可读指令。所述处理器40执行所述计算机可读指令42时实现上述各个数据分析方法实施例中的步骤,例如图1所示的步骤S101至S109。或者,所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至308的功能。
示例性的,所述计算机可读指令42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令42在所述数据分析终端设备4中的执行过程。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述数据分析终端设备4的内部存储单元,例如数据分析终端设备4的硬盘或内存。所述存储器41也可以是所述数据分析终端设备4的外部存储设备,例如所述数据分析终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述数据分析终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述数据分析终端设备4所需的其它指令和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种数据分析方法,其特征在于,包括:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式;
所述第一神经网络模型和所述第二神经网络的训练过程包括:
从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
根据下式计算本轮训练的全局误差:
Figure FDA0004098020970000021
其中,Et为第t个指标向量样本对的训练误差,yt′为第t个指标向量样本对的相似度,yt为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
若所述全局误差小于所述误差阈值,则结束训练。
2.根据权利要求1所述的数据分析方法,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度包括:
根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure FDA0004098020970000022
其中,an为所述第一输出向量在第n个维度上的分量,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
3.根据权利要求1所述的数据分析方法,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度还包括:
根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure FDA0004098020970000031
其中,
Figure FDA0004098020970000032
an为所述第一输出向量在第n个维度上的分量,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
4.根据权利要求1至3中任一项所述的数据分析方法,其特征在于,所述通过搜索引擎爬取待分析企业的财务数据包括:
根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的数据分析方法的步骤。
6.一种数据分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式;
所述第一神经网络模型和所述第二神经网络的训练过程包括:
从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
根据下式计算本轮训练的全局误差:
Figure FDA0004098020970000051
其中,Et为第t个指标向量样本对的训练误差,yt′为第t个指标向量样本对的相似度,yt为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
若所述全局误差小于所述误差阈值,则结束训练。
7.根据权利要求6所述的数据分析终端设备,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度包括:
根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure FDA0004098020970000052
其中,an为所述第一输出向量在第n个维度上的分量,bn为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
8.根据权利要求6至7中任一项所述的数据分析终端设备,其特征在于,所述通过搜索引擎爬取待分析企业的财务数据包括:
根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
CN201810315729.6A 2018-04-10 2018-04-10 一种数据分析方法、计算机可读存储介质及终端设备 Active CN108763277B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810315729.6A CN108763277B (zh) 2018-04-10 2018-04-10 一种数据分析方法、计算机可读存储介质及终端设备
PCT/CN2018/093705 WO2019196210A1 (zh) 2018-04-10 2018-06-29 数据分析方法、计算机可读存储介质、终端设备及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810315729.6A CN108763277B (zh) 2018-04-10 2018-04-10 一种数据分析方法、计算机可读存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN108763277A CN108763277A (zh) 2018-11-06
CN108763277B true CN108763277B (zh) 2023-04-18

Family

ID=63981640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810315729.6A Active CN108763277B (zh) 2018-04-10 2018-04-10 一种数据分析方法、计算机可读存储介质及终端设备

Country Status (2)

Country Link
CN (1) CN108763277B (zh)
WO (1) WO2019196210A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785944B (zh) * 2018-12-13 2023-02-10 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
CN109784171A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 车辆定损图像筛选方法、装置、可读存储介质及服务器
CN109801151B (zh) * 2019-01-07 2023-09-05 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN109918992B (zh) * 2019-01-09 2023-11-03 平安科技(深圳)有限公司 一种基于人脸考勤场景的模型评估方法、装置和计算机设备
CN110070140B (zh) * 2019-04-28 2021-03-23 清华大学 基于多类别信息的用户相似性确定方法及装置
CN110866672A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 数据处理方法、装置、终端及介质
CN111798123A (zh) * 2020-06-30 2020-10-20 平安国际智慧城市科技股份有限公司 基于人工智能的合规性评价方法、装置、设备及介质
CN112184301A (zh) * 2020-09-25 2021-01-05 杭州安恒信息技术股份有限公司 一种数据预测方法、装置、设备及计算机可读存储介质
CN112434862B (zh) * 2020-11-27 2024-03-12 中国人民大学 上市企业财务困境预测方法及装置
CN113420906A (zh) * 2021-05-25 2021-09-21 北京沃东天骏信息技术有限公司 流量预测方法、装置及存储介质
CN116542801B (zh) * 2023-07-07 2023-09-22 成都理工大学 一种财务数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778684A (zh) * 2017-01-12 2017-05-31 易视腾科技股份有限公司 深度神经网络训练方法及人脸识别方法
CN106803204A (zh) * 2017-01-17 2017-06-06 上海聚赟大数据有限公司 一种基于机器学习的债券发行人违约分析方法
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
CN106649890B (zh) * 2017-02-07 2020-07-14 税云网络科技服务有限公司 数据存储方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778684A (zh) * 2017-01-12 2017-05-31 易视腾科技股份有限公司 深度神经网络训练方法及人脸识别方法
CN106803204A (zh) * 2017-01-17 2017-06-06 上海聚赟大数据有限公司 一种基于机器学习的债券发行人违约分析方法
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置

Also Published As

Publication number Publication date
WO2019196210A1 (zh) 2019-10-17
CN108763277A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763277B (zh) 一种数据分析方法、计算机可读存储介质及终端设备
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
JP6771751B2 (ja) リスク評価方法およびシステム
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN114265967B (zh) 一种敏感数据安全等级标注方法及装置
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN113988638A (zh) 一种通用关联关系强度测算方法、装置、电子设备和介质
CN113112186A (zh) 一种企业评估方法、装置及设备
CN112950347A (zh) 资源数据处理的优化方法及装置、存储介质、终端
WO2023050649A1 (zh) 基于数据补全的esg指数确定方法及相关产品
CN115982654A (zh) 一种基于自监督图神经网络的节点分类方法及装置
WO2019218517A1 (zh) 服务器、文本数据的处理方法及存储介质
Ali et al. Fractional Brownian motion inference of multivariate stochastic differential equations
CN114626553A (zh) 财务数据监测模型的训练方法、装置和计算机设备
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
Abrams et al. Analysis of equity markets: A graph theory approach
CN113704236A (zh) 政务系统数据质量评估方法、装置、终端及存储介质
CN111382246A (zh) 文本的匹配方法、匹配装置及终端
CN110210959A (zh) 财务数据的分析方法、装置及存储介质
Dwarakanath et al. Optimal Stopping with Gaussian Processes
US20210217115A1 (en) System and method for matching data inputs to modules for compatability analysis
CN113947790A (zh) 金融大数据人脸识别方法及金融管理系统
CN115858624A (zh) 企业数据的识别方法、终端设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant