CN108573021A - 一种动态数据的综合价值评估方法 - Google Patents

一种动态数据的综合价值评估方法 Download PDF

Info

Publication number
CN108573021A
CN108573021A CN201810156148.2A CN201810156148A CN108573021A CN 108573021 A CN108573021 A CN 108573021A CN 201810156148 A CN201810156148 A CN 201810156148A CN 108573021 A CN108573021 A CN 108573021A
Authority
CN
China
Prior art keywords
data
assessment
error
weights
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810156148.2A
Other languages
English (en)
Other versions
CN108573021B (zh
Inventor
陈平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Jinhua Galileo Data Technology Co Ltd
Original Assignee
Zhejiang Jinhua Galileo Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Jinhua Galileo Data Technology Co Ltd filed Critical Zhejiang Jinhua Galileo Data Technology Co Ltd
Priority to CN201810156148.2A priority Critical patent/CN108573021B/zh
Publication of CN108573021A publication Critical patent/CN108573021A/zh
Application granted granted Critical
Publication of CN108573021B publication Critical patent/CN108573021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供涉及一种动态数据的综合价值评估方法,通过搭建数据源模块,构建检索模块,检索误差值评估,并对检索数据进行训练和价值评估,过程中同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,不断提高评估结果的精度;本发明的动态数据综合评估分析系统,给数据分析系统采用模块化设计,通过使用检索模块方便用户能够直接便利的进行相关目标数据检索,使用多线程多接口模块,提升调取速度并且灵活应对动态实时数据的接入,并通过实时学习综合调整数据误差权值,尽可能的提升了数据处理的精确度。

Description

一种动态数据的综合价值评估方法
技术领域
本发明涉及动态大数据分析领域,具体涉及一种动态数据的综合价值评估方法。
背景技术
21世纪是一个高度信息化的社会,信息就是资源、信息就是机会,如果能够掌握并利用好有用的信息,就可以在竞争中获得优势。当前各类数据信息不断涌现,人们对数据信息的处理吸收应接不暇,诸多信息如何经过有效的利用形成对用户有重要参考价值的情报正日渐受到人们关注。
例如股票信息,作为其中与金融财富非常相关的一种,从开始就注定得到人们的关注。在股票市场中,能够影响股价的因素多种多样,包括经济环境、国家政策、市场反馈、财务状况、心里因素等诸多方面,使得股票价格走势的特征难以准确把握。目前很多常用的方法是对历史数据进行分析和处理,挖掘数据之间的关联,找出变化规律并建立数学模型,在此基础上对股票价格走势进行评估,通过对信息的分析处理,得到对投资有益的投资客观情报。
再比如专利信息情报,这里泛指与专利信息相关的所有情报,包括专利文献,专利公报,专利交易,专利诉讼等诸多内容。当前越来越多的企业开始关注到知识产权,尤其是专利的重要作用,对专利的价值也就显得尤为关注,然而专利价值在某种意义上却如同股票一样,其价值的影响维度众多,影响因子复杂,不仅仅在时效上,更在诸多的政策环境里面变化多端,如何能够找出变化规律并建立合理的模型进行评估当前还没有太好的应对办法。
传统意义上人们处理信息数据的方法有两个极端倾向,一则通过关联规则的静态数据评估方法得到越来越多的研究和应用,通过极为复杂的关联算法进行相关度演算,但是多数仅仅停留在对历史静态数据的整理分析上,对历史数据与当前数据关联依据的必要性却常常没有深入的研究,造成分析情报的不客观,或者分析结果的滞后;但是股票市场或者专利市场却需要及时及客观的响应,如果不能适应瞬时万变的自由市场就不能认为这样的算法满足要求;另一则是通过比较快捷的梳理统计,对历史数据进行较为迅速的判断,然而这样的统计基础不够牢靠,一是因为大量的统计会消耗极大的计算能力以及存储能力,往往造成不必要的浪费,二是因为这种统计往往依靠数量较少的简单数据来进行动态分析,其结果的准确度以及可选择性都大打折扣。
发明内容
本发明为解决上述问题,提出一种动态数据综合价值评估方法,能够兼顾数据分析的时效性和精确性两个核心要求,既考虑运算的时间和效率也兼顾了算法的准确性和实时性。
为此本发明提出一种动态数据的综合价值评估方法,其特征在于至少包括如下步骤:
(1)搭建一数据存储模块,作为数据检索模块的前端源,需要整合足够全面和准确的数据库资源,对数据资源进行整合,可以通过系统检索模块提取和整合需要的数据信息,以便生成信息情报;
(2)数据规范化预处理,对经检索获取的数据信息进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理;预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练;
(3)数据训练,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型节点进行数据训练;
(4)权值评估,输入处理好后的评估流数据形成评估结果,将若干评估结果和评估结果对应的误差权值用加平均得到最终的评估值;同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,以便于后续的评估,以此来不断提高评估结果的精度;
(5)通过随机梯度下降算法求解评估结果和最终评估值,得到误差权值,并及时更新当前的误差权值;
(6)输出最终评估值,给出当前专利数据价值评估的相关结果,依据实际市场的实测值和预估值进行比较分析,给出专利数据集的价值评估可视化的图示。
优选的,步骤(1)中通过对检索结果的客观和完整的查全和查准判断,得出当前数据结果的误差值δ,如果误差值δ在预定的范围内,则进行下一步,如果误差值超出预定范围,重新执行和操作步骤(1),保留最终初步筛选出的误差值δ结果,保留其结果推送给后续,作为后续权值评估时的权值参考,该结果也可以作为调整数据库数据源的依据,用于对数据源优化的重要参考。
优选的,为了使得多个并行节点的实时序列学习模型拥有更高的评估准确率,随机梯度下降算法结合加权平均的方法,动态调整集群中多个不同节点的评估输出结果的误差权值,评估准确率高的节点被赋予更高的权重,最终评估值通过各个节点的输出结果和误差权值加权平均求得:
其中为第i个学习机节点的误差权值,fji为第i个学习机节点的输出值,j为评估值得第j个批次;
预测权重通过如下误差函数E来计算:
通过对误差函数求导,使用随机梯度下降法得到预测权重的更新满足下式:
其中为学习机学习效率,本发明中优选其取值范围[0.05,0.25],据此来求得各相关因子的权值,并按照每个因子的权值梯度方向进行优化和更新,继而通过上述评估步骤可将可以获知的更多的相关数据进行接入,按照上述步骤进行操作得出最终反馈较好的评估结果和误差权值系数。
优选的,在步骤(1)中的数据库搭建中,对股票数据,包括不同来源的数据,例如网页,新闻,图标等,通常采用内容抽取或爬取,内容抽取算法包括但不限于:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。其中,所述基于正则表达式的网页抽取利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。
优选的,在步骤(1)中的数据检索模块中使用多线程有序索引分析,存储数据库中,优选的将数据以字符串为对象形式进行展开,索引分析技术的好处在于可以使得存储的效率提升输入输出的利用率将会得到改善。
优选的,在多线程的处理形式中使用多接口模块,程序创建了大量的短生命周期的线程,汇聚成线程池,能够有效的减少和降低并发线程的数目,大幅提升服务器性能,其程序设计为:
Class MyThread implements Runnable{
Public void run ( ) {
//线程的操作内容
}
Public static void main (strring[ ] args) {
//启动一个线程
(new Thread(new MyThread( ))).start( );
}
}
优选的,使用查全查准来评估检索模块的性能特性,衡量检索主体与用户需要的相关密切度c,这样的密切度c可以用下式来表征:
其中p为检索式的查全率,q为检索式的查准率,r是系统数据库的初始误差率评估;进一步说明p指代查全样本中被检出相关数据的量占系统所有相关数据量的占比,q指代被检出相关数据量占检出样本数据量的占比。
优选的,所述的误差值δ=1-c,其中密切度0<c<1。
本发明的有益效果为:提出一种完整的、安全的、高效的综合数据分析系统,给数据分析系统采用模块化设计,通过使用检索模块方便用户能够直接便利的进行相关目标数据检索,使用多线程多接口模块,提升调取速度并且灵活应对动态实时数据的接入,并通过实时学习综合调整数据误差权值,尽可能的提升了数据处理的精确度。
附图说明
图1是数据挖掘的一般处理步骤框架。
图2是本发明动态数据评估处理的流程步骤。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,所以图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
自由市场中的分析数据信息源非常繁多,如何从这些数据中挖掘出有效的内容进行信息化和情报化处理,是当前人们都想去完成的事情。这些处理,换个角度可以说是一种挖掘技术,可能涉及到人工智能技术、分布式并行技术、统计学技术、数据库技术、可视化技术等等。而在传统经验上或者一些常规的用户判断过程中,人们往往会依靠经验或者简单的技术走线趋势来对股票或者专利相关进行分析判断,不仅对数据的利用率极低,而且效率低下,准确率更没法保障。
由于数据挖掘和机器学习都致力于研究预测和模式发现,所以数据挖掘在一定程度上利用了机器学习的研究成果,一些应用在数据挖掘技术领域的先进算法取得了良好的效果,例如决策树、人工神经网络、支持向量机等。在面临数量级巨大的大数据问题是,机器学习可以根据人们的想法自动实现,并且可以通过自适应和自学习等特性逐步完善学习过程,以取得更好的挖掘效果,常规的挖掘思路可以参见附图1
就股票而言,股票现状及历史数据的分析判断水平,会直接影响用户投资的情绪和方向,股票数据以及与该支股票相关的信息材料,都包含了对该支股票进行客观评价的重要参考。但股民对海量相关信息的掌握可以说是少之又少,当前的各种股票评估软件也都是非常具有蛊惑性,并没有针对股民的个体现状提供客观及时、准确、全面、亲民的定制化需求。
本发明中,提出一种完整的、安全的、高效的综合数据分析系统,给数据分析系统采用模块化设计,通过使用检索模块方便用户能够直接便利的进行相关目标数据检索,提供相关文献数据的下载,协助用户提高对目标数据信息的掌握,用户所检索到的数据信息可以存储在介质数据库中,在检索模块前,优选的还会进行数据系统的预处理,对股票数据,包括不同来源的数据,例如网页,新闻,图标等,通常采用内容抽取或爬取。内容抽取算法包括但不限于:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。其中,所述基于正则表达式的网页抽取利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。要详细了解如何利用正则表达式进行网页抽取,只要了解正则表达式的基本用法即可,与网页特征无关。
检索出结果的内容,通过使用分析模块对介质数据库中的数据进行分类加工或标引提炼,为用户进一步整合和凝练出最需要的数据情报分析,分析模块可以由存储模块以及计算处理模块构成;此处的分析模块在不同的需求中还会有其他若干的优秀组合选项,例如可以使用存储模块将相关信息进行预存,比较直接的方法是直接从互联网进行获取或者购买数据源,包括但不限于直接的目标数据信息,还可以为财务报表,财务政策,甚至财务新闻等用户需要的所有信息。良好的数据源对分析结果来说至关重要。如果为了便于用户进行使用,系统上还可以设置相关的查询模块或者简便的用户对接操作模块,也可以设置相关的便于用户理解的关键库或者定义库,专业的定义库比较适合相对专业的用户使用或者高阶版本中。
多数动态目标数据相比于传统一般的数据信息,它具有极强的时效性或者说流动性。例如一只股票没有停牌,那么可以认为它形成的数据流是一个随着时间延续而无线增长的动态数据链条,其次股票数据还具有无序性,众所周知每天的股票数据是最难以揣测和进行预计的数据内容;一件专利只要还没到达失效期,在市场发展的过程中,随时随地都可能发生着价值的剧变,一件看起来平庸的专利也可能一跃成为市场的拦路虎。这样的数据分析起来自然难度倍增,虽然基于静态的历史数据统计分析相对来说比较容易,然而如果仅仅分析历史的静态的数据,往往不能够对短期内用户提供他们想要的帮助。
困难的重要原因之一就是,数据范围的相对不确定和不稳定性,没法限定出有限的数据内容进行分析,静态分析尚且存在诸多困难,动态分析时难度更加难以确定,在数据库中对成万上亿条内容进行数据分析时,时间较长,准确性也会降低;通过多线程有序索引分析可以有效的解决这一困难,存储数据库中,优选的将数据以字符串为对象形式进行展开,索引分析技术的好处在于可以使得存储的效率提升输入输出的利用率将会得到改善,多线程在执行中顾名思义可以进行多条执行路径,是一种多线程并发技术,计算机领域中使用多线程技术可以提升CPU的利用率,从而对程序查询进行并处理,此外在后续的使用中如果系统出现任何的问题,还能够比较方便的进行灵活调整。
在多线程的处理形式中,程序创建了大量的短生命周期的线程,汇聚成线程池,能够有效的减少和降低并发线程的数目,大幅提升服务器性能。如果我们在实际选择是使用JAVA,常规情形下一般有两种,一种是单一集成模块,或者使用多接口模块,相对来说多接口模块更具有优势,本发明使用可实现多个接口的并行模块,其程序设计也较为简单:
Class MyThread implements Runnable{
Public void run ( ) {
//线程的操作内容
}
Public static void main (strring[ ] args) {
//启动一个线程
(new Thread(new MyThread( ))).start( );
}
}
相比于传统单线程,在同一时刻只能执行一个线程,多线程的索引在同一时刻将任务进行分割,划分为若干可同时进行讹模块,从而有效提升了数据资源整合检索的利用率,使得检索响应速度大幅提高。
一般意义上,到这步就进入比较深或者较浅的数据算法分析和处理了,然而其初步得出的检索结果仅仅采用简单的清洗技术,并不能使得数据有良好的准度和精度,后续处理上越是使用复杂的算法运算,越是会导致误差的一步步放大,甚至严重的,还会出现与真实结论完全相反的情形。
本发明在此预先进行检索数据源的初步清洗工作,其目的和意义在于获取更客观和真是的数据情报。往往我们直接从上述检索得来的数据信息,噪音和干扰居多,造成分析结果的误差极大,结论自然不具备说服力。
干扰源和噪音源其实不可避免,但可以较大程度的对其进行收敛,不至于对分析结论造成较大的干扰。传统上一般设置一误差值δ,如果误差值在一定范围内可以接受,则直接进入分析或者进入算法学习阶段,在后续将不再考虑由检索误差带来的结论偏差,而在实际操作中我们发现这样的实际误差会随着分析或者算法的深入进一步放大,某些时候虽然能够给出结论的趋势,但是很多细节点无法体现,这就是由于前期误差没能在后期得到很好考虑带来的,极端情况下会出现相反的结论。
查全查准可以用来评估检索模块的性能特性,衡量检索主体与用户需要的相关密切度,这样的密切度c可以用下式来表征:
其中p为检索式的查全率,q为检索式的查准率,r是系统数据库的初始误差率评估;进一步说明p指代查全样本中被检出相关数据的量占系统所有相关数据量的占比,q指代被检出相关数据量占检出样本数据量的占比,r的存在是因为在实际量化的操作中,有着无法克服的误差问题,系统性误差,系统在构建时,不同数据源的整合也存在着相当的误差,而这样的误差如果不能妥善的解决,显然也会对结论产生影响,这样的误差本身很难发现和统计,本发明在搭建系统时采用实现进行样本抽取调查的办法,尽可能的找出系统误差的评估r,这样使得在衡量密切度时能够尽可能全面的控制误差。
所述的误差值δ=1-c,其中密切度0<c<1。
前述基础上并行索引带来了较快的速度,误差的反馈也可以带来了较快的数据库调整,模块计算速度诚然是比较重要的一方面,然而假使能够获得比较客观和准确的分析结果,人们是愿意承受计算分析速度的相对次要化结果,但也只是在一定范围内承受,如果时间长度达到数日或者数周的时候,显然不合时宜。不同于传统复杂的计算,例如复杂人工神经网络计算评估、灰度算法结合马尔科夫链技术、目标遗传算法等,本发明尽量从兼顾时间和精度两个方面进行综合。
针对大量市场上目前不能及时准确的反馈目标数据的整合情报情形问题,本发明将进行算法优化。海量数据的大规模性以及实时特性决定了优化分析时不仅仅需要进行静态的统计分析,还需要相对精准的线上动态分析。针对海量数据的筛选,本发明在数据分析处理模块中采用关键属性之间的相关联度对数据进行处理,通过关键属性之间的关联度来筛选和评估属性,对复杂数据进行复杂度降维,提高训练效率。更具体的,通过对大规模数据进行流式大数据框架下的并行训练,获得优越的并行速度和评估精度。
现有的股票或者专利市场数据来源于网络以及特定运营单位,这些数据当中包含若干众多的市场因子,各因子之间关联复杂,而将这些数据直接进行检索后传递至分析模块进行复杂运算,其精度和准度都有限,处理的能耗却非常大;降维处理显得比较必要,例如缺失值比例降维、低方差滤波法降维或者主成分分析法降维等。通过实时学习机制对海量数据直接进行处理的模式,每次迭代处理一个随机数据流,其中权重变量的更新只需要经过简单的计算就可以完成,如下:
复杂的流数据一般是一种数字编码并连续的信号,在检索式运行时,更新算法需要对整个数据集合进行遍历,如果数据量庞大,收敛的速度以及误差曲面中都会出现不必要的麻烦,降维算法可以比较好的解决这一缺陷。
传统的处理方法是将获取的所有数据进行捆绑和集中,一次性或者分批次进行投入学习,在利用学习的结果对未来的数据进行评估和探索,很大意义上一种离线式、间断式评估。而新的数据一直会源源不断的生成,新的环境不断在变化,数据分析师们不得不一次一次对现有的数据进行整合再整合,再进行一次次学习,速度和效率显然非常的滞后,跟不上需求。有一些大型企业可能还可以通过购买和开发并行的计算机群完成复杂的计算任务,但对小企业或者个体用户人员而言,可能不堪重负。虽然大规模的硬件资源能够在一定程度上化解数据量巨大的问题,但针对新的数据信息不断涌现,这样的处理方法显然不够经济适用。
本发明提出的价值评估模型在训练的初期先初始化多个学习模型,当不断的到达新的批次的数据时,该模型能够在已有的训练结果的基础上继续学习新的样本。在评估阶段中引入降维算法和误差值调整的方式,对新的结果进行误差反馈,实时更新误差的权值比重,智能提升模型评估的客观准确率。结合附图2图示,整个评估模块执行的主要的算法处理步骤如下:
首先要形成数据存储模块,构成数据检索模块的前端,需要整合足够全面和准确的数据库资源,对数据资源进行整合,才能通过系统检索模块提取和整合需要的数据信息,整合成信息情报。
通过对检索结果的客观和完整的查全和查准判断,得出当前数据结果的误差值δ,如果误差值δ在预定的范围内,则进行下一步,如果误差值超出预定范围,重新执行和操作步骤1,保留最终初步筛选出的误差值δ结果,保留其结果推送给后续,作为后续学习机进行学习时的权重值参考,该结果也可以作为调整数据库数据源的依据,用于对数据源优化的重要参考;
对检索出的数据进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理。
众所周知,当前人们对专利数据的了解范围越来越多,维度也越来越广,专利数据的商业效用正被人们所逐渐重视,也因为此,所以很多相关的因素可能会被划分进来,仅仅从专利的法律因素、市场因素、技术因素来看,与某篇专利价值相关的因子可能就可以被列出上百种,适当的选择和集中有益于快速的降低分析的维度和难度。
首先相关性分析,通过选择与价值目标相关的诸多相关因子,旨在通过选择后剔除不必要的相关因子,达到降维的目的,剩余的高相关因子进行标识,指出他们与专利价值之间的相关联度。公式如下:
其中的取值范围为[-1,1],若其值为0,则说明因子a,b互不相关,若||=1说明两因子高度线性相关,||的越高,相对来说其说明a,b两个因子的相关度越好,也即相关因子越能说明其对目标价值的体现度和反馈度。
例如在专利价值评估中,某篇专利的权利要求个数的相关度为0.05,说明书长度的相关度为0.07,专利分类号的相关度为0.07,INPADOC同族的相关度为0.28,专利申请人的相关度为0.36,专利发明人的相关度为0.56,专利被引及引用次数的相关度为0.44,专利存活年限的相关度为0.27,专利技术市场价值的相关度为0.85,专利诉讼的相关度为0.77,可以认定若||<0.10时相关度较低,那可以认定这些为低相关因子,在处理时,可将专利的权利要求个数、说明书长度、专利分类号等在不需要非常高要求的评估时,这些因子可以做适当的取舍,以减少和降低计算的复杂度。
其次数据离散化分析,采用特定的离散处理方法,最终完善样本属性。例如实际案例中确定某一集合,采集集合的实际N个数值,按照合理的数值属性升序排列数据集,确定离散区间的数据计算公式可以为:
其中s为离散后每个区间的大小,k为离散后区间个数,离散后的数据区间使用整型值标识,例如1、2、3、4……等,便于简化样本训练。按照上述的情形,输入样本可以为7维度的属性向量,分别为:{n1(INPADOC同族数量),n2(专利申请人),n3(专利发明人),n4(专利被引及引用次数),n5(专利存活年限),n6(专利技术市场价值),n7(专利诉讼)}。预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练。
输入训练数据,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型内若干节点;
其次,对实时区域内海量专利数据进行机器学习,对不断传送过来的数据进行分布式训练,得到k个输出权重的向量β,每传送过来一批数据流都会将权重向量β进行更新一次,不断增强模型的识别能力;对于单线程的处理单元节点其可以产生多个输出权重,因此选择使用多个并行处理单元节点时,会产生更多的输出权重。
具体算法为输入部分数据集作为初始训练集,设定隐层节点数目,随机生成第i个隐层节点与输入节点的权值向量和激励函数的参数,计算出隐层的初始矩阵H,根据初始输出权值向量,反复操作训练实时进入的数据集。
不断对数据集的权值向量进行输出,输出后对权值进行评估,输入处理好后的评估流数据,由公式Hβ=T得到k个评估结果f1,f2,……fk;将k个评估结果和评估结果对应的误差权值用加平均得到最终的评估值;同时针对最终的评估结果与之前得到的多个评估初值进行比对,并综合检索模块给出的综合误差值δ,更新出更优化的误差权值,以便于后续的评估,以此来不断提高评估结果的精度。
为了使得多个并行节点的机器学习模型能够拥有更高的评估准确率,本发明采用随机梯度下降算法结合误差权值调整的方法来动态调整集群中多个不同节点误差权值。
通过随机梯度下降算法求解评估结果和最终评估值,得到误差权值,并及时更新当前的误差权值。
为了使得多个并行节点的实时序列学习模型拥有更高的评估准确率,随机梯度下降算法结合加权平均的方法,动态调整集群中多个不同节点的评估输出结果的误差权值。评估准确率高的节点被赋予更高的权重,最终评估值通过各个节点的输出结果和误差权值加权平均求得:
其中为第i个学习机节点的误差权值,fji为第i个学习机节点的输出值,j为评估值得第j个批次;
预测权重通过如下误差函数E来计算:
通过对误差函数求导,使用随机梯度下降法得到预测权重的更新满足下式:
其中为学习机学习效率,本发明中优选其取值范围[0.05,0.25],据此来求得各相关因子的权值,并按照每个因子的权值梯度方向进行优化和更新。继而通过上述评估步骤可将可以获知的更多的相关数据进行接入,按照上述步骤进行操作得出最终反馈较好的评估结果和误差权值系数。
最后输出最终评估值,给出当前专利数据价值评估的相关结果,依据实际市场的实测值和预估值进行比较分析,给出专利数据集的价值评估可视化的图示,也可以具备一定的文字解读。
上述案例通过上述评估步骤后,本发明对比传统专利价值评估的流程以及数据分析的处理速度进行比对,传统训练的查准度在70-80%,查精度在75-80%,本发明通过双重的误差调控后,准度和精度有10%左右的提升;平均消耗的时间在同样的处理节点情况下,能够降低5%左右的时间损耗,CPU的占比几乎等同于传统算法,可见该算法能够实现较快的运算速度,较灵活的扩展性能,他在面对大数据,尤其实时动态的大数据时,具备良好的评估应用前景。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种动态数据的综合价值评估方法,其特征在于至少包括如下步骤:
(1)搭建一数据存储模块,作为数据检索模块的所述前端源,需要整合足够全面和准确的数据库资源,对所述数据资源进行整合,可以通过系统检索模块提取和整合需要的数据信息,以便生成信息情报;
(2)数据规范化预处理,对经检索获取的数据信息进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理;预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练;
(3)数据训练,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型节点进行数据训练;
(4)权值评估,输入预处理好后的评估数据形成若干初步评估结果,将若干初步评估结果和评估结果对应的误差权值用加平均得到最终的评估值;同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,以便于后续的评估,以此来不断提高评估结果的精度;
(5)通过随机梯度下降算法求解评估结果和最终评估值,得到误差权值,并及时更新当前的误差权值;
(6)输出最终评估值,给出当前专利数据价值评估的相关结果,依据实际市场的实测值和预估值进行比较分析,给出目标数据集的价值评估可视化的图示。
2.如权利要求1所述的一种动态数据的综合价值评估方法,其特征在于,步骤(1)中通过对检索结果的客观和完整的查全和查准判断,得出当前数据结果的误差值δ,如果误差值δ在预定的范围内,则进行下一步,如果误差值超出预定范围,重新执行和操作步骤(1),保留最终初步筛选出的误差值δ结果,保留其结果推送给后续,作为后续权值评估时的权值参考,该结果也可以作为调整数据库数据源的依据,用于对数据源优化的重要参考。
3.如权利要求1所述的一种动态数据的综合价值评估方法,其特征在于,为了使得多个并行节点的实时序列学习模型拥有更高的评估准确率,随机梯度下降算法结合加权平均的方法,动态调整集群中多个不同节点的评估输出结果的误差权值,评估准确率高的节点被赋予更高的权重,最终评估值通过各个节点的输出结果和误差权值加权平均求得:
其中为第i个学习机节点的误差权值,fji为第i个学习机节点的输出值,j为评估值得第j个批次;
预测权重通过如下误差函数E来计算:
通过对误差函数求导,使用随机梯度下降法得到预测权重的更新满足下式:
其中为学习机学习效率,本发明中优选其取值范围[0.05,0.25],据此来求得各相关因子的权值,并按照每个因子的权值梯度方向进行优化和更新,继而通过上述评估步骤可将可以获知的更多的相关数据进行接入,按照上述步骤进行操作得出最终反馈较好的评估结果和误差权值系数。
4.如权利要求1所述的一种动态数据的综合价值评估方法,其特征在于,在步骤(1)中的数据库搭建中,对股票数据,包括不同来源的数据,例如网页,新闻,图标等,通常采用内容抽取或爬取,内容抽取算法包括但不限于:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取;
其中,所述基于正则表达式的网页抽取利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。
5.如权利要求4所述的一种动态数据的综合价值评估方法,其特征在于,在步骤(1)中的数据检索模块中使用多线程有序索引分析,存储数据库中,优选的将数据以字符串为对象形式进行展开,索引分析技术的好处在于可以使得存储的效率提升输入输出的利用率将会得到改善。
6.如权利要求5所述的一种动态数据的综合价值评估方法,其特征在于,在多线程的处理形式中使用多接口模块,程序创建了大量的短生命周期的线程,汇聚成线程池,能够有效的减少和降低并发线程的数目,大幅提升服务器性能,其程序设计为:
Class MyThread implements Runnable{
Public void run ( ) {
//线程的操作内容
}
Public static void main (strring[ ] args) {
//启动一个线程
(new Thread(new MyThread( ))).start( );
}
}。
7.如权利要求6所述的一种动态数据的综合价值评估方法,其特征在于,使用查全查准来评估检索模块的性能特性,衡量检索主体与用户需要的相关密切度c,这样的密切度c可以用下式来表征:
其中p为检索式的查全率,q为检索式的查准率,r是系统数据库的初始误差率评估;进一步说明p指代查全样本中被检出相关数据的量占系统所有相关数据量的占比,q指代被检出相关数据量占检出样本数据量的占比。
8.如权利要求7所述的一种动态数据的综合价值评估方法,其特征在于,所述的误差值δ=1-c,其中密切度0<c<1。
CN201810156148.2A 2018-02-24 2018-02-24 一种动态数据的综合价值评估方法 Active CN108573021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810156148.2A CN108573021B (zh) 2018-02-24 2018-02-24 一种动态数据的综合价值评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810156148.2A CN108573021B (zh) 2018-02-24 2018-02-24 一种动态数据的综合价值评估方法

Publications (2)

Publication Number Publication Date
CN108573021A true CN108573021A (zh) 2018-09-25
CN108573021B CN108573021B (zh) 2021-10-08

Family

ID=63576680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810156148.2A Active CN108573021B (zh) 2018-02-24 2018-02-24 一种动态数据的综合价值评估方法

Country Status (1)

Country Link
CN (1) CN108573021B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117042A (zh) * 2018-07-26 2019-01-01 深圳市富途网络科技有限公司 一种用于股票交易系统的财报信息展示方法
CN109408384A (zh) * 2018-10-16 2019-03-01 网易(杭州)网络有限公司 软件应用的测试方法、装置、处理器及电子装置
CN109558940A (zh) * 2018-11-09 2019-04-02 深圳市康拓普信息技术有限公司 一种深度学习模型训练的管理方法和系统
CN109684367A (zh) * 2018-12-20 2019-04-26 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN110008386A (zh) * 2019-01-17 2019-07-12 阿里巴巴集团控股有限公司 一种数据生成、处理、评价方法、装置、设备及介质
CN111400174A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111724048A (zh) * 2020-06-03 2020-09-29 浙江中烟工业有限责任公司 基于特征工程对成品库调度系统性能数据的特征抽取方法
CN111898048A (zh) * 2019-05-06 2020-11-06 北京达佳互联信息技术有限公司 展示信息的数据调整方法、装置、电子设备及存储介质
CN113792887A (zh) * 2021-09-16 2021-12-14 平安资产管理有限责任公司 基于智能决策的成分分析方法、装置、设备及存储介质
CN115471060A (zh) * 2022-09-03 2022-12-13 广州市物码信息科技有限公司 一种数字化价值监控系统与数字化价值评估方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN102185735A (zh) * 2011-04-26 2011-09-14 华北电力大学 一种网络安全态势预测方法
CN105184368A (zh) * 2015-09-07 2015-12-23 中国科学院深圳先进技术研究院 一种分布式极限学习机优化集成框架方法系统及方法
CN106815782A (zh) * 2017-01-23 2017-06-09 重庆汇集源科技有限公司 一种基于神经网络统计学模型的房地产估值方法及系统
CN106934221A (zh) * 2017-02-27 2017-07-07 华南理工大学 一种基于神经网络的水质评价分类方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN102185735A (zh) * 2011-04-26 2011-09-14 华北电力大学 一种网络安全态势预测方法
CN105184368A (zh) * 2015-09-07 2015-12-23 中国科学院深圳先进技术研究院 一种分布式极限学习机优化集成框架方法系统及方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法
CN106815782A (zh) * 2017-01-23 2017-06-09 重庆汇集源科技有限公司 一种基于神经网络统计学模型的房地产估值方法及系统
CN106934221A (zh) * 2017-02-27 2017-07-07 华南理工大学 一种基于神经网络的水质评价分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欧阳建权 等: ""基于Storm的在线序列极限学习机的气象预测模型"", 《计算机研究与发展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117042A (zh) * 2018-07-26 2019-01-01 深圳市富途网络科技有限公司 一种用于股票交易系统的财报信息展示方法
CN109117042B (zh) * 2018-07-26 2021-07-20 深圳市富途网络科技有限公司 一种用于股票交易系统的财报信息展示方法
CN109408384A (zh) * 2018-10-16 2019-03-01 网易(杭州)网络有限公司 软件应用的测试方法、装置、处理器及电子装置
CN109558940A (zh) * 2018-11-09 2019-04-02 深圳市康拓普信息技术有限公司 一种深度学习模型训练的管理方法和系统
CN109684367A (zh) * 2018-12-20 2019-04-26 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN110008386A (zh) * 2019-01-17 2019-07-12 阿里巴巴集团控股有限公司 一种数据生成、处理、评价方法、装置、设备及介质
CN111898048A (zh) * 2019-05-06 2020-11-06 北京达佳互联信息技术有限公司 展示信息的数据调整方法、装置、电子设备及存储介质
CN111898048B (zh) * 2019-05-06 2024-03-19 北京达佳互联信息技术有限公司 展示信息的数据调整方法、装置、电子设备及存储介质
CN111400174B (zh) * 2020-03-05 2022-08-12 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111400174A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111724048A (zh) * 2020-06-03 2020-09-29 浙江中烟工业有限责任公司 基于特征工程对成品库调度系统性能数据的特征抽取方法
CN113792887A (zh) * 2021-09-16 2021-12-14 平安资产管理有限责任公司 基于智能决策的成分分析方法、装置、设备及存储介质
CN115471060A (zh) * 2022-09-03 2022-12-13 广州市物码信息科技有限公司 一种数字化价值监控系统与数字化价值评估方法

Also Published As

Publication number Publication date
CN108573021B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108573021A (zh) 一种动态数据的综合价值评估方法
CN101151592B (zh) 按需解串行化数据对象的方法和系统
US20210118054A1 (en) Resource exchange system
CN104850727B (zh) 基于云重心理论的分布式大数据系统风险评估方法
CN107895322A (zh) 一种基金组合产品选取并动态监控调整的方法及系统
CN103136337A (zh) 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
US20210117889A1 (en) Co-operative resource pooling system
CN108846691A (zh) 区域性粮油市场价格监测分析预测系统及监测方法
Politis et al. Ether price prediction using advanced deep learning models
CN111667164A (zh) 一种企业科技创新能力评价优化方法、系统及存储介质
Li et al. RETRACTED ARTICLE: Data mining optimization model for financial management information system based on improved genetic algorithm
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
DE202016009077U1 (de) Segmentierung und Schichtung von Composite-Portfolios von Anlagepapieren
Yiping et al. An improved multi-view collaborative fuzzy C-means clustering algorithm and its application in overseas oil and gas exploration
CN115310752A (zh) 面向能源大数据的数据资产价值评价方法及系统
CN107093005A (zh) 基于大数据挖掘算法实现办税服务厅自动分级的方法
Sajid et al. An ensemble LGBM (light gradient boosting machine) approach for crude oil price prediction
Pritam et al. A novel methodology for perception-based portfolio management
CN108509259A (zh) 获取多方数据源的方法以及风控系统
CN108304549A (zh) 一种大数据智能化处理系统
Govindasamy et al. Prediction of events based on complex event processing and probabilistic fuzzy logic
Zandi et al. Research on stock portfolio based on time series prediction and multi-objective optimization
Kravets et al. Development of a module for predictive modeling of technological development trends
Li Reflections on the Innovation of University Scientific Research Management in the Era of Big Data
CN111784503B (zh) 一种通信征信数据的运营变现方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant