CN113393179A

CN113393179A - 一种基于时序差分的数据集成系统

Info

Publication number: CN113393179A
Application number: CN202110945960.5A
Authority: CN
Inventors: 陈丹
Original assignee: Jiangsu Zhongxie Intelligent Technology Co ltd
Current assignee: Jiangsu Zhongxie Intelligent Technology Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14
Anticipated expiration: 2041-08-18
Also published as: CN113393179B

Abstract

本发明公开了基于时序差分的数据集成系统，当已纳入统计的数据出现波动时，实时修正相应的数据集，通过时序差分切除掉不符合要求的原始数据，保持纳入统计的数据的实时有效性，对创新资源实现了有效的整合，提高了效率的同时精确考虑了各方面数据的与时俱进性，确保后续整合处理的结果与实际情况相符，有利于规划创新发展路线。

Description

一种基于时序差分的数据集成系统

技术领域

本发明涉及数据处理的技术领域，尤其涉及一种基于时序差分的数据集成系统。

背景技术

我国经济发展逐步进入了一个从传统生产要素驱动向创新要素驱动的新阶段，科技进步成为经济发展的内生要素。虽然改革开放以来我国创新成果产业化取得显著成绩，但也存在企业技术创新能力不足，创新成果转移机制不健全，工程化和系统集成能力薄弱等问题。要提高科技创新能力，必须厘清科技资源，而政府作为创新发展的道路引领者，必须对各产业内的创新资源进行有效整合，明晰各产业的科技发展现状，完整、科学地规划科技创新发展路线，完善科技创新发展体系。

目前，对于各产业的创新资源数据缺乏完整有效的整合方式，现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行，一方面严重影响效率，另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性，创新资源数据新颖性不足，导致后续整合处理的结果偏离实际情况，对规划创新发展路线极为不利。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有产业创新资源整合方式存在的问题，提出了本发明。

因此，本发明解决的技术问题是：解决现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行，一方面严重影响效率，另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性，创新资源数据新颖性不足，导致后续整合处理的结果偏离实际情况的问题。

为解决上述技术问题，本发明提供如下技术方案：一种基于时序差分的数据集成系统，包括统计模块，用于通过大数据统计所选产业当前各创新资源数据；预处理模块，与所述统计模块连接，接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一；数据集生成模块，与所述预处理模块连接，用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值，将数据纳入所述集成平台的数据节点中，形成集成平台第一数据集；并当任意一组任一一项创新资源数据变动时，实时统计变换相应比重数值，对变动后的创新资源数据再次进行比例化统一，重新确定所述集成平台统计中心值及扩展值，将变动后的数据再次纳入所述集成平台的数据节点中，形成集成平台第二数据集；数据集处理模块，与所述数据集生成模块连接，依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ，由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω；后端检测模块，与所述数据集生成模块及所述数据集处理模块连接，用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测；更新集成模块，与所述统计模块、所述数据集生成模块及所述后端检测模块连接，用于筛选出符合条件的所述第一数据集对应的创新数据，即切除检测不通过的整组创新数据，保留后端检测通过的创新数据，实现创新数据的实时更新整合。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述统计模块具体包括初步集成单元，用于进行当前各创新资源数据的初步集成统计；缩减单元，与所述初步集成单元连接，用于对初步集成的当前各创新资源数据进行缩减处理；

其中，所述缩减单元进行缩减处理具体包括，获取产业各创新资源之间的关联度，所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε，其中，α为第一资源数据，β为第二资源数据，γ为第三资源数据，δ为第四资源数据，ε为第五资源数据；获取所述关联度在占比条件下的综合关联度；依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据；

所述综合关联度的获取式表达为，

综合关联度=A（0.1α+0.1β+0.2γ）、B（0.08γ*ε）、C（0.04γ*δ）、D（0.08δ*ε）；

其中，定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述预处理模块对当前各创新资源数据进行比例化统一具体包括依据所述关联度确定所述内涵因子π；依据所述内涵因子π进行数据比例化统一；

其中，依据所述关联度确定所述内涵因子π公式为，

；

依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ（%）、第二资源数据βπ（%）、第三资源数据γπ（%）、第四资源数据δπ（%）及第五资源数据επ（%）；其中，π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度、x及dx为积分运算。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述数据集生成模块生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b；依据各组中心值a及各组扩展值b获取最终中心值及扩展值；

其中，a=（απ+βπ+γπ+δπ+επ）/（γ*ε+γ*δ+δ*ε）；b=（απ+βπ+γπ+δπ+επ）/（α+β+γ），其中，a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度；

中心值=（a1+a2+…+an）/na；扩展值=（b1+b2+…+bn）/nb，其中，n为各创新资源数据的组数。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述数据集生成模块生成过程中将数据纳入所述集成平台的数据节点中具体为以中心值为圆心，扩展值为半径，每隔0.1差分建立环状拓扑结构；将当前各创新资源数据纳入至相应的环状拓扑结构中，且连接每组各创新资源数据的数据节点，各自形成环状多边型拓扑展示结构。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述数据集处理模块处理过程中依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比具体包括获取所述第一数据集与所述第二数据集中心值的差值M；获取所述第二数据集中对应出现变动的创新资源该组中心值与所述第一数据集中对应的该组中心值的差值m；

依据以下公式确定时序差分比μ，

；其中，μ为时序差分比、M为第一数据集与第二数据集中心值的差值、m为第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述数据集处理模块处理过程中通过以下公式确定所述第一数据集及所述第二数据集之间的时序差分值ω为，

；

其中，H为所述第二数据集的扩展值差值，h为所述第二数据集中对应出现变动的创新资源该组扩展值与所述第一数据集中对应的该组扩展值的差值，ω为时序差分值，μ为时序差分比。

作为本发明所述的基于时序差分的数据集成系统的一种优选方案，其中：所述后端检测模块在进行检测的过程中，定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测，

；

其中，ω为对应的时序差分值；当第一资源数据出现变动，απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据；当第二资源数据出现变动，βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据；当第三资源数据出现变动，γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据；当第四资源数据出现变动，δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据；当第五资源数据出现变动，επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。

本发明的有益效果：本发明提供基于时序差分的数据集成系统，当已纳入统计的数据出现波动时，实时修正相应的数据集，通过时序差分切除掉不符合要求的原始数据，保持纳入统计的数据的实时有效性，对创新资源数据实现了有效的整合，提高了效率的同时精确考虑了各方面数据的与时俱进性，确保后续整合处理的结果与实际情况相符，有利于规划创新发展路线。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明提供的基于时序差分的数据集成系统的系统模块图；

图2为本发明提供的基于时序差分的数据集成系统的整体方法流程图。

图3为本发明提供的大数据统计所选产业当前各创新资源数据的方法流程图。

图4为本发明所采用的缩减处理操作常规的代码运行图。

图5为本发明所采用的环状拓扑结构示意图。

图6为本发明提供的一组创新资源数据建立的环状多边型拓扑展示结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

目前，对于各产业的创新资源数据缺乏完整有效的整合方式，现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行，一方面严重影响效率，另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性，导致后续整合处理的结果偏离实际情况，对规划创新发展路线极为不利。

故此，请参阅图1～6，本发明提供一种基于时序差分的数据集成系统，包括以下模块：

⑴统计模块100，用于通过大数据统计所选产业当前各创新资源数据，

进一步的，统计模块100具体包括：

初步集成单元，用于进行当前各创新资源数据的初步集成统计；

需要说明的是，政府作为整合资源者，所整合集成的各创新资源数据来源于各大小企业中具体的各创新资源数据，初步集成的当前数据包括多组各创新资源数据，将其直接进行统计集成。

缩减单元，与初步集成单元连接，用于对初步集成的当前各创新资源数据进行缩减处理；

需要说明的是，考虑到统计所有企业会存在大量数据组，会造成数据组的混乱，增大中央处理器MCU的运行压力，且所有企业中并非全部需要进行纳入统计，政府作为大局的把控者仅需掌握总体的方向即可，即统计作为创新主体的企业即可，故此对初步集成的数据组进行缩减处理。

其中，缩减单元进行缩减处理具体包括：

S1：获取产业各创新资源之间的关联度，关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε，其中，α为第一资源数据，β为第二资源数据，γ为第三资源数据，δ为第四资源数据，ε为第五资源数据；

需要说明的是，针对每个企业的创新资源数据：

第一资源数据α=环保类检测通过项目数/环保类需检测总项目数，其中，环保类需检测总项目数请参阅GB标准化文件，此数据为一可计算出的确定值；

第二资源数据β=高新申报通过项目数/高新申报项目总数，其中，高新申报项目总数包括高企申报、国家级中小型企业申报等，具体请参阅GB高新申报标准化文件，此数据为一可计算出的确定值；

第三资源数据γ=企业高新技术项目转移数/企业高新技术项目总数，其中，企业高新技术项目总数由国家规定的高企文件类型中涉及到的几大类，此数据为一可计算出的确定值；

第四资源数据δ=企业达到本科以上人才的数量/企业员工总数，此数据为一可计算出的确定值；

第五资源数据ε=企业研发投入资金数/企业运营投入总资金数，此数据为一可计算出的确定值；

S2：获取关联度在占比条件下的综合关联度；

S3：依据综合关联度筛选出初步符合创新主体要求的各组各创新资源数据；

综合关联度的获取式表达为：

缩减处理后的数据组所代表的企业包括两类，一类为自身体量大，创新能力足，体现于B、C、D数值及A值均处于前列，另一类为自身体量较小，但创新能力发展潜力足，体现在B、C、D数值主要处于前列，A类数值不做具体要求。

其中，关联分析法是根据因素之间发展趋势的相似或相异程度作为衡量因素间关联程度的一种方法。在进行关联度分析时，一般都要进行无量纲化的数据处理；所谓关联程度，实质上是曲线间几何形状的差别程度。因此曲线间差值大小，可作为关联程度的衡量尺度。上述的占比条件也即分辨系数。因素间的关联程度，主要是用关联度的大小次序描述。将m个子序列对同一母序列的关联度按大小顺序排列起来，便组成了关联序，记为{x}，它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j，则称{xi}对于同一母序列{x0}优于{xj}，记为{xi}>{xj} 。

图4为MCU运行相应的删减操作时的代码运行图。

⑵预处理模块200，与统计模块100连接，接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一，具体包括：

S1：依据关联度确定内涵因子π；

S2：依据内涵因子π进行数据比例化统一；

其中，依据关联度确定内涵因子π公式为：

；

依据内涵因子π进行数据比例化统一即对应统一成第一资源数据απ（%）、第二资源数据βπ（%）、第三资源数据γπ（%）、第四资源数据δπ（%）及第五资源数据επ（%）；

其中，π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度、x及dx为积分运算。

⑶数据集生成模块300，与预处理模块200连接，用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值，将数据纳入集成平台的数据节点中，形成集成平台第一数据集；并当任意一组任一一项创新资源数据变动时，实时统计变换相应比重数值，对变动后的创新资源数据再次进行比例化统一，重新确定集成平台统计中心值及扩展值，将变动后的数据再次纳入集成平台的数据节点中，形成集成平台第二数据集；

进一步的，数据集生成模块300生成过程中依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值包括：

S1：依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b；

S2：依据各组中心值a及各组扩展值b获取最终中心值及扩展值；

更进一步的，数据集生成模块300生成过程中将数据纳入集成平台的数据节点中具体为：

以中心值为圆心，扩展值为半径，每隔0.1差分建立环状拓扑结构，如图5所示；

将当前各创新资源数据纳入至相应的环状拓扑结构中，且连接每组各创新资源数据的数据节点，各自形成环状多边型拓扑展示结构，如图6示例。

⑷数据集处理模块400，与数据集生成模块300连接，依据第一数据集及第二数据集确定各创新资源的时序差分比μ，由时序差分比确定第一数据集及第二数据集之间的时序差分值ω；

进一步的，数据集处理模块400处理过程中依据第一数据集及第二数据集确定各创新资源的时序差分比具体包括：

S1：获取所第一数据集与第二数据集中心值的差值M；

S2：获取第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值m；

依据以下公式确定时序差分比μ：

更进一步的，数据集处理模块400处理过程中通过以下公式确定第一数据集及第二数据集之间的时序差分值ω为：

；

其中，H为第二数据集的扩展值差值，h为第二数据集中对应出现变动的创新资源该组扩展值与第一数据集中对应的该组扩展值的差值，ω为时序差分值，μ为时序差分比。

⑸后端检测模块500，与数据集生成模块300及数据集处理模块400连接，用于依据第二数据集中对应出现变动的创新资源的比例化后的数据及对应的时序差分值ω进行第一数据集对应创新数据的后端检测；

进一步的，后端检测模块500在进行检测的过程中，定义依据第二数据集中对应出现变动的创新资源的比例化后的数据及对应的时序差分值ω满足如下条件时第一数据集对应创新数据通过后端检测：

；

⑹更新集成模块600，与统计模块100、数据集生成模块300及后端检测模块500连接，用于筛选出符合条件的第一数据集对应的创新数据，即切除检测不通过的整组创新数据，保留后端检测通过的创新数据，实现创新数据的实时更新整合。

选定Q市作为示例，其中，Q市中含有大中小企业约为5247家，将其作为对比样本纳入大数据统计，其中，经过高企文报筛查，符合高新技术企业，具备一定创新能力的企业一共有1932家，涉及的领域多样化，选定产业为电子信息技术领域，纳入统计977家，具备一定创新能力的企业一共有101家，如下表1所示，为本发明与大数据直接统计的效果对比表：

表1：本发明与大数据直接统计的效果对比表

由上表1所示，本发明采用的基于时序差分的数据集成系统在数据的更新上远远优于现有技术，数据变动后纳入统计的企业占据创新主体的数量也未出现较大的波动，主体数据的变动未出现大的波动，对有效数据的统计起到了很好的筛查更新作用。

本发明提供基于时序差分的数据集成系统，当已纳入统计的数据出现波动时，实时修正相应的数据集，通过时序差分切除掉不符合要求的原始数据，保持纳入统计的数据的实时有效性，对创新资源实现了有效的整合，提高了效率的同时精确考虑了各方面数据的与时俱进性，确保后续整合处理的结果与实际情况相符，有利于规划创新发展路线。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时序差分的数据集成系统，其特征在于：包括，

统计模块（100），用于通过大数据统计所选产业当前各创新资源数据；

预处理模块（200），与所述统计模块（100）连接，接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一；

数据集生成模块（300），与所述预处理模块（200）连接，用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值，将数据纳入所述集成平台的数据节点中，形成集成平台第一数据集；并当任意一组任一一项创新资源数据变动时，实时统计变换相应比重数值，对变动后的创新资源数据再次进行比例化统一，重新确定所述集成平台统计中心值及扩展值，将变动后的数据再次纳入所述集成平台的数据节点中，形成集成平台第二数据集；

数据集处理模块（400），与所述数据集生成模块（300）连接，依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ，由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω；

后端检测模块（500），与所述数据集生成模块（300）及所述数据集处理模块（400）连接，用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测；

更新集成模块（600），与所述统计模块（100）、所述数据集生成模块（300）及所述后端检测模块（500）连接，用于筛选出符合条件的所述第一数据集对应的创新数据，即切除检测不通过的整组创新数据，保留后端检测通过的创新数据，实现创新数据的实时更新整合。

2.根据权利要求1所述的基于时序差分的数据集成系统，其特征在于：所述统计模块（100）具体包括，

缩减单元，与所述初步集成单元连接，用于对初步集成的当前各创新资源数据进行缩减处理；

其中，所述缩减单元进行缩减处理具体包括，

获取产业各创新资源之间的关联度，所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε，其中，α为第一资源数据，β为第二资源数据，γ为第三资源数据，δ为第四资源数据，ε为第五资源数据；

获取所述关联度在占比条件下的综合关联度；

依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据；

所述综合关联度的获取式表达为，

3.根据权利要求2所述的基于时序差分的数据集成系统，其特征在于：所述预处理模块（200）对当前各创新资源数据进行比例化统一具体包括，

依据所述关联度确定所述内涵因子π；

依据所述内涵因子π进行数据比例化统一；

其中，依据所述关联度确定所述内涵因子π公式为，

；

依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ（%）、第二资源数据βπ（%）、第三资源数据γπ（%）、第四资源数据δπ（%）及第五资源数据επ（%）；

4.根据权利要求3所述的基于时序差分的数据集成系统，其特征在于：所述数据集生成模块（300）生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括，

依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b；

依据各组中心值a及各组扩展值b获取最终中心值及扩展值；

5.根据权利要求4所述的基于时序差分的数据集成系统，其特征在于：所述数据集生成模块（300）生成过程中将数据纳入所述集成平台的数据节点中具体为，

以中心值为圆心，扩展值为半径，每隔0.1差分建立环状拓扑结构；

将当前各创新资源数据纳入至相应的环状拓扑结构中，且连接每组各创新资源数据的数据节点，各自形成环状多边型拓扑展示结构。

6.根据权利要求5所述的基于时序差分的数据集成系统，其特征在于：所述数据集处理模块（400）处理过程中依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比具体包括，

获取所述第一数据集与所述第二数据集中心值的差值M；

获取所述第二数据集中对应出现变动的创新资源该组中心值与所述第一数据集中对应的该组中心值的差值m；

依据以下公式确定时序差分比μ，

；

其中，μ为时序差分比、M为第一数据集与第二数据集中心值的差值、m为第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值。

7.根据权利要求6所述的基于时序差分的数据集成系统，其特征在于：所述数据集处理模块（400）处理过程中通过以下公式确定所述第一数据集及所述第二数据集之间的时序差分值ω为，

；

8.根据权利要求7所述的基于时序差分的数据集成系统，其特征在于：所述后端检测模块（500）在进行检测的过程中，定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测，

；