CN113393179B - 一种基于时序差分的数据集成系统 - Google Patents

一种基于时序差分的数据集成系统 Download PDF

Info

Publication number
CN113393179B
CN113393179B CN202110945960.5A CN202110945960A CN113393179B CN 113393179 B CN113393179 B CN 113393179B CN 202110945960 A CN202110945960 A CN 202110945960A CN 113393179 B CN113393179 B CN 113393179B
Authority
CN
China
Prior art keywords
data
resource
data set
resource data
innovation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110945960.5A
Other languages
English (en)
Other versions
CN113393179A (zh
Inventor
陈丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Zhongxie Intelligent Technology Co ltd
Original Assignee
Jiangsu Zhongxie Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Zhongxie Intelligent Technology Co ltd filed Critical Jiangsu Zhongxie Intelligent Technology Co ltd
Priority to CN202110945960.5A priority Critical patent/CN113393179B/zh
Publication of CN113393179A publication Critical patent/CN113393179A/zh
Application granted granted Critical
Publication of CN113393179B publication Critical patent/CN113393179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。

Description

一种基于时序差分的数据集成系统
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种基于时序差分的数据集成系统。
背景技术
我国经济发展逐步进入了一个从传统生产要素驱动向创新要素驱动的新阶段,科技进步成为经济发展的内生要素。虽然改革开放以来我国创新成果产业化取得显著成绩,但也存在企业技术创新能力不足,创新成果转移机制不健全,工程化和系统集成能力薄弱等问题。要提高科技创新能力,必须厘清科技资源,而政府作为创新发展的道路引领者,必须对各产业内的创新资源进行有效整合,明晰各产业的科技发展现状,完整、科学地规划科技创新发展路线,完善科技创新发展体系。
目前,对于各产业的创新资源数据缺乏完整有效的整合方式,现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,创新资源数据新颖性不足,导致后续整合处理的结果偏离实际情况,对规划创新发展路线极为不利。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有产业创新资源整合方式存在的问题,提出了本发明。
因此,本发明解决的技术问题是:解决现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,创新资源数据新颖性不足,导致后续整合处理的结果偏离实际情况的问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于时序差分的数据集成系统,包括统计模块,用于通过大数据统计所选产业当前各创新资源数据;预处理模块,与所述统计模块连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一;数据集生成模块,与所述预处理模块连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入所述集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定所述集成平台统计中心值及扩展值,将变动后的数据再次纳入所述集成平台的数据节点中,形成集成平台第二数据集;数据集处理模块,与所述数据集生成模块连接,依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ,由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω;后端检测模块,与所述数据集生成模块及所述数据集处理模块连接,用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测;更新集成模块,与所述统计模块、所述数据集生成模块及所述后端检测模块连接,用于筛选出符合条件的所述第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合;其中,所述统计模块具体包括:初步集成单元,用于进行当前各创新资源数据的初步集成统计;缩减单元,与所述初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
其中,所述缩减单元进行缩减处理具体包括,获取产业各创新资源之间的关联度,所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;获取所述关联度在占比条件下的综合关联度;依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
所述综合关联度的获取式表达为,
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据;其中,所述预处理模块对当前各创新资源数据进行比例化统一具体包括:依据所述关联度确定所述内涵因子π;依据所述内涵因子π进行数据比例化统一;
其中,依据所述关联度确定所述内涵因子π公式为,
Figure GDA0003614550620000031
依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ、第二资源数据βπ、第三资源数据γπ、第四资源数据δπ及第五资源数据επ;其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度,x及dx为积分运算。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集生成模块生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集生成模块生成过程中将数据纳入所述集成平台的数据节点中具体为以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构;将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集处理模块处理过程中依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比具体包括获取所述第一数据集与所述第二数据集中心值的差值M;获取所述第二数据集中对应出现变动的创新资源该组中心值与所述第一数据集中对应的该组中心值的差值m;
依据以下公式确定时序差分比μ,
Figure GDA0003614550620000041
其中,μ为时序差分比、M为第一数据集与第二数据集中心值的差值、m为第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集处理模块处理过程中通过以下公式确定所述第一数据集及所述第二数据集之间的时序差分值ω为,
ω=μ·(|H-h|);
其中,H为所述第二数据集的扩展值差值,h为所述第二数据集中对应出现变动的创新资源该组扩展值与所述第一数据集中对应的该组扩展值的差值,ω为时序差分值,μ为时序差分比。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述后端检测模块在进行检测的过程中,定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测,
Figure GDA0003614550620000042
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
本发明的有益效果:本发明提供基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源数据实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明提供的基于时序差分的数据集成系统的系统模块图;
图2为本发明提供的基于时序差分的数据集成系统的整体方法流程图。
图3为本发明提供的大数据统计所选产业当前各创新资源数据的方法流程图。
图4为本发明所采用的缩减处理操作常规的代码运行图。
图5为本发明所采用的环状拓扑结构示意图。
图6为本发明提供的一组创新资源数据建立的环状多边型拓扑展示结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
目前,对于各产业的创新资源数据缺乏完整有效的整合方式,现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,导致后续整合处理的结果偏离实际情况,对规划创新发展路线极为不利。
故此,请参阅图1~图6,本发明提供一种基于时序差分的数据集成系统,包括以下模块:
⑴统计模块,用于通过大数据统计所选产业当前各创新资源数据,
进一步的,统计模块具体包括:
初步集成单元,用于进行当前各创新资源数据的初步集成统计;
需要说明的是,政府作为整合资源者,所整合集成的各创新资源数据来源于各大小企业中具体的各创新资源数据,初步集成的当前数据包括多组各创新资源数据,将其直接进行统计集成。
缩减单元,与初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
需要说明的是,考虑到统计所有企业会存在大量数据组,会造成数据组的混乱,增大中央处理器MCU的运行压力,且所有企业中并非全部需要进行纳入统计,政府作为大局的把控者仅需掌握总体的方向即可,即统计作为创新主体的企业即可,故此对初步集成的数据组进行缩减处理。
其中,缩减单元进行缩减处理具体包括:
S1:获取产业各创新资源之间的关联度,关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;
需要说明的是,针对每个企业的创新资源数据:
第一资源数据α=环保类检测通过项目数/环保类需检测总项目数,其中,环保类需检测总项目数请参阅GB标准化文件,此数据为一可计算出的确定值;
第二资源数据β=高新申报通过项目数/高新申报项目总数,其中,高新申报项目总数包括高企申报、国家级中小型企业申报等,具体请参阅GB高新申报标准化文件,此数据为一可计算出的确定值;
第三资源数据γ=企业高新技术项目转移数/企业高新技术项目总数,其中,企业高新技术项目总数由国家规定的高企文件类型中涉及到的几大类,此数据为一可计算出的确定值;
第四资源数据δ=企业达到本科以上人才的数量/企业员工总数,此数据为一可计算出的确定值;
第五资源数据ε=企业研发投入资金数/企业运营投入总资金数,此数据为一可计算出的确定值;
S2:获取关联度在占比条件下的综合关联度;
S3:依据综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
综合关联度的获取式表达为:
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据。
缩减处理后的数据组所代表的企业包括两类,一类为自身体量大,创新能力足,体现于B、C、D数值及A值均处于前列,另一类为自身体量较小,但创新能力发展潜力足,体现在B、C、D数值主要处于前列,A类数值不做具体要求。
其中,关联分析法是根据因素之间发展趋势的相似或相异程度作为衡量因素间关联程度的一种方法。在进行关联度分析时,一般都要进行无量纲化的数据处理;所谓关联程度,实质上是曲线间几何形状的差别程度。因此曲线间差值大小,可作为关联程度的衡量尺度。上述的占比条件也即分辨系数。因素间的关联程度,主要是用关联度的大小次序描述。将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成了关联序,记为{x},它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j,则称{xi}对于同一母序列{x0}优于{xj},记为{xi}>{xj}。
图4为MCU运行相应的删减操作时的代码运行图。
⑵预处理模块,与统计模块连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一,具体包括:
S1:依据关联度确定内涵因子π;
S2:依据内涵因子π进行数据比例化统一;
其中,依据关联度确定内涵因子π公式为:
Figure GDA0003614550620000071
依据内涵因子π进行数据比例化统一即对应统一成第一资源数据απ(%)、第二资源数据βπ(%)、第三资源数据γπ(%)、第四资源数据δπ(%)及第五资源数据επ(%);
其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度,x及dx为积分运算。
⑶数据集生成模块,与预处理模块连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定集成平台统计中心值及扩展值,将变动后的数据再次纳入集成平台的数据节点中,形成集成平台第二数据集;
进一步的,数据集生成模块生成过程中依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值包括:
S1:依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;
S2:依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
更进一步的,数据集生成模块生成过程中将数据纳入集成平台的数据节点中具体为:
以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构,如图5所示;
将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构,如图6示例。
⑷数据集处理模块,与数据集生成模块连接,依据第一数据集及第二数据集确定各创新资源的时序差分比μ,由时序差分比确定第一数据集及第二数据集之间的时序差分值ω;
进一步的,数据集处理模块处理过程中依据第一数据集及第二数据集确定各创新资源的时序差分比具体包括:
S1:获取所第一数据集与第二数据集中心值的差值M;
S2:获取第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值m;
依据以下公式确定时序差分比μ:
Figure GDA0003614550620000091
其中,μ为时序差分比、M为第一数据集与第二数据集中心值的差值、m为第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值。
更进一步的,数据集处理模块处理过程中通过以下公式确定第一数据集及第二数据集之间的时序差分值ω为:
ω=μ·(|H-h|);
其中,H为第二数据集的扩展值差值,h为第二数据集中对应出现变动的创新资源该组扩展值与第一数据集中对应的该组扩展值的差值,ω为时序差分值,μ为时序差分比。
⑸后端检测模块,与数据集生成模块及数据集处理模块连接,用于依据第二数据集中对应出现变动的创新资源的比例化后的数据及对应的时序差分值ω进行第一数据集对应创新数据的后端检测;
进一步的,后端检测模块在进行检测的过程中,定义依据第二数据集中对应出现变动的创新资源的比例化后的数据及对应的时序差分值ω满足如下条件时第一数据集对应创新数据通过后端检测:
Figure GDA0003614550620000101
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
⑹更新集成模块,与统计模块、数据集生成模块及后端检测模块连接,用于筛选出符合条件的第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合。
选定Q市作为示例,其中,Q市中含有大中小企业约为5247家,将其作为对比样本纳入大数据统计,其中,经过高企文报筛查,符合高新技术企业,具备一定创新能力的企业一共有1932家,涉及的领域多样化,选定产业为电子信息技术领域,纳入统计977家,具备一定创新能力的企业一共有101家,如下表1所示,为本发明与大数据直接统计的效果对比表:
表1:本发明与大数据直接统计的效果对比表
Figure GDA0003614550620000102
Figure GDA0003614550620000111
由上表1所示,本发明采用的基于时序差分的数据集成系统在数据的更新上远远优于现有技术,数据变动后纳入统计的企业占据创新主体的数量也未出现较大的波动,主体数据的变动未出现大的波动,对有效数据的统计起到了很好的筛查更新作用。
本发明提供基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于时序差分的数据集成系统,其特征在于:包括,
统计模块,用于通过大数据统计所选产业当前各创新资源数据;
预处理模块,与所述统计模块连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一;
数据集生成模块,与所述预处理模块连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入所述集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定所述集成平台统计中心值及扩展值,将变动后的数据再次纳入所述集成平台的数据节点中,形成集成平台第二数据集;
数据集处理模块,与所述数据集生成模块连接,依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ,由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω;
后端检测模块,与所述数据集生成模块及所述数据集处理模块连接,用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测;
更新集成模块,与所述统计模块、所述数据集生成模块及所述后端检测模块连接,用于筛选出符合条件的所述第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合;
其中,所述统计模块具体包括:初步集成单元,用于进行当前各创新资源数据的初步集成统计;
缩减单元,与所述初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
其中,所述缩减单元进行缩减处理具体包括,
获取产业各创新资源之间的关联度,所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;
获取所述关联度在占比条件下的综合关联度;
依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
所述综合关联度的获取式表达为,
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据;其中,所述预处理模块对当前各创新资源数据进行比例化统一具体包括:
依据所述关联度确定所述内涵因子π;
依据所述内涵因子π进行数据比例化统一;
其中,依据所述关联度确定所述内涵因子π公式为,
Figure FDA0003594818000000021
依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ、第二资源数据βπ、第三资源数据γπ、第四资源数据δπ及第五资源数据επ;
其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度,x及dx为积分运算。
2.根据权利要求1所述的基于时序差分的数据集成系统,其特征在于:所述数据集生成模块生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括,
依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;
依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据,α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
3.根据权利要求2所述的基于时序差分的数据集成系统,其特征在于:所述数据集生成模块生成过程中将数据纳入所述集成平台的数据节点中具体为,
以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构;
将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构。
4.根据权利要求3所述的基于时序差分的数据集成系统,其特征在于:所述数据集处理模块处理过程中依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比具体包括,
获取所述第一数据集与所述第二数据集中心值的差值M;
获取所述第二数据集中对应出现变动的创新资源该组中心值与所述第一数据集中对应的该组中心值的差值m;
依据以下公式确定时序差分比μ,
Figure FDA0003594818000000031
其中,μ为时序差分比、M为第一数据集与第二数据集中心值的差值、m为第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值。
5.根据权利要求4所述的基于时序差分的数据集成系统,其特征在于:所述数据集处理模块处理过程中通过以下公式确定所述第一数据集及所述第二数据集之间的时序差分值ω为,
ω=μ·(|H-h|);
其中,H为所述第二数据集的扩展值差值,h为所述第二数据集中对应出现变动的创新资源该组扩展值与所述第一数据集中对应的该组扩展值的差值,ω为时序差分值,μ为时序差分比。
6.根据权利要求5所述的基于时序差分的数据集成系统,其特征在于:所述后端检测模块在进行检测的过程中,定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测,
Figure FDA0003594818000000041
Figure FDA0003594818000000042
Figure FDA0003594818000000043
Figure FDA0003594818000000044
Figure FDA0003594818000000045
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
CN202110945960.5A 2021-08-18 2021-08-18 一种基于时序差分的数据集成系统 Active CN113393179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945960.5A CN113393179B (zh) 2021-08-18 2021-08-18 一种基于时序差分的数据集成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945960.5A CN113393179B (zh) 2021-08-18 2021-08-18 一种基于时序差分的数据集成系统

Publications (2)

Publication Number Publication Date
CN113393179A CN113393179A (zh) 2021-09-14
CN113393179B true CN113393179B (zh) 2022-06-28

Family

ID=77622817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945960.5A Active CN113393179B (zh) 2021-08-18 2021-08-18 一种基于时序差分的数据集成系统

Country Status (1)

Country Link
CN (1) CN113393179B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955873A (zh) * 2014-05-20 2014-07-30 成都汇资聚源科技有限公司 创新资源信息整合服务平台
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN111708774A (zh) * 2020-04-16 2020-09-25 上海华东电信研究院 一种基于大数据的产业分析系统
CN111814106A (zh) * 2020-07-09 2020-10-23 平安科技(深圳)有限公司 时序数据滞后性处理方法、装置、电子设备及存储介质
CN112422234A (zh) * 2020-11-06 2021-02-26 应急管理部通信信息中心 一种基于时间感知的自适应深度学习的数据治理服务方法
CN112667740A (zh) * 2021-01-08 2021-04-16 武汉数字超客技术有限公司 一种基于问题导向的创新数据分析平台
CN112686751A (zh) * 2020-12-23 2021-04-20 中车工业研究院有限公司 数据管理系统及技术交易平台

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955873A (zh) * 2014-05-20 2014-07-30 成都汇资聚源科技有限公司 创新资源信息整合服务平台
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN111708774A (zh) * 2020-04-16 2020-09-25 上海华东电信研究院 一种基于大数据的产业分析系统
CN111814106A (zh) * 2020-07-09 2020-10-23 平安科技(深圳)有限公司 时序数据滞后性处理方法、装置、电子设备及存储介质
CN112422234A (zh) * 2020-11-06 2021-02-26 应急管理部通信信息中心 一种基于时间感知的自适应深度学习的数据治理服务方法
CN112686751A (zh) * 2020-12-23 2021-04-20 中车工业研究院有限公司 数据管理系统及技术交易平台
CN112667740A (zh) * 2021-01-08 2021-04-16 武汉数字超客技术有限公司 一种基于问题导向的创新数据分析平台

Also Published As

Publication number Publication date
CN113393179A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN108334839B (zh) 一种基于深度学习图像识别技术的化学信息识别方法
CN110597870A (zh) 一种企业关系挖掘方法
CN106066866A (zh) 一种英文文献关键短语自动抽取方法与系统
CN111950922B (zh) 一种基于多源数据交互分析的装备经济数据评估方法
US7676487B2 (en) Method and system for formatting and indexing data
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
CN110399613B (zh) 一种基于词性标注的互联网新闻涉及地名识别方法及系统
CN109947948B (zh) 一种基于张量的知识图谱表示学习方法及系统
CN113032403A (zh) 数据洞察方法、装置、电子设备及存储介质
CN113393179B (zh) 一种基于时序差分的数据集成系统
CN113591459A (zh) 地址标准化处理方法、装置、电子设备及可读存储介质
CN116579319A (zh) 一种文本相似度的分析方法及系统
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN113468003B (zh) 一种芯片测试数据的树形显示与操作系统和方法
CN112561500B (zh) 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN110580144A (zh) 一种通过给页面控件添加查询运算符实现的通用查询方法
CN111414701B (zh) 用于提取cad文件元素并转换相对坐标的方法
CN1369833A (zh) 词汇式繁体中文与简体中文的转换系统及转换方法
CN111125198A (zh) 一种基于时间序列的计算机数据挖掘聚类方法
CN111275409A (zh) 一种电网大修审计数据处理系统及处理方法
Martino Tools for looking ahead
CN108733824A (zh) 考虑专家知识的交互式主题建模方法及装置
CN117874308B (zh) 一种列控数据获取方法、装置、电子设备及存储介质
CN116501897B (zh) 基于模糊匹配构建知识图谱的方法
US20020002553A1 (en) Date formatting system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant