CN113393179A - 一种基于时序差分的数据集成系统 - Google Patents
一种基于时序差分的数据集成系统 Download PDFInfo
- Publication number
- CN113393179A CN113393179A CN202110945960.5A CN202110945960A CN113393179A CN 113393179 A CN113393179 A CN 113393179A CN 202110945960 A CN202110945960 A CN 202110945960A CN 113393179 A CN113393179 A CN 113393179A
- Authority
- CN
- China
- Prior art keywords
- data
- resource
- data set
- innovative
- resource data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010354 integration Effects 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000008859 change Effects 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 22
- 108010014172 Factor V Proteins 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 1
- 239000002994 raw material Substances 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000003892 spreading Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。
Description
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种基于时序差分的数据集成系统。
背景技术
我国经济发展逐步进入了一个从传统生产要素驱动向创新要素驱动的新阶段,科技进步成为经济发展的内生要素。虽然改革开放以来我国创新成果产业化取得显著成绩,但也存在企业技术创新能力不足,创新成果转移机制不健全,工程化和系统集成能力薄弱等问题。要提高科技创新能力,必须厘清科技资源,而政府作为创新发展的道路引领者,必须对各产业内的创新资源进行有效整合,明晰各产业的科技发展现状,完整、科学地规划科技创新发展路线,完善科技创新发展体系。
目前,对于各产业的创新资源数据缺乏完整有效的整合方式,现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,创新资源数据新颖性不足,导致后续整合处理的结果偏离实际情况,对规划创新发展路线极为不利。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有产业创新资源整合方式存在的问题,提出了本发明。
因此,本发明解决的技术问题是:解决现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,创新资源数据新颖性不足,导致后续整合处理的结果偏离实际情况的问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于时序差分的数据集成系统,包括统计模块,用于通过大数据统计所选产业当前各创新资源数据;预处理模块,与所述统计模块连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一;数据集生成模块,与所述预处理模块连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入所述集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定所述集成平台统计中心值及扩展值,将变动后的数据再次纳入所述集成平台的数据节点中,形成集成平台第二数据集;数据集处理模块,与所述数据集生成模块连接,依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ,由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω;后端检测模块,与所述数据集生成模块及所述数据集处理模块连接,用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测;更新集成模块,与所述统计模块、所述数据集生成模块及所述后端检测模块连接,用于筛选出符合条件的所述第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述统计模块具体包括初步集成单元,用于进行当前各创新资源数据的初步集成统计;缩减单元,与所述初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
其中,所述缩减单元进行缩减处理具体包括,获取产业各创新资源之间的关联度,所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;获取所述关联度在占比条件下的综合关联度;依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
所述综合关联度的获取式表达为,
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述预处理模块对当前各创新资源数据进行比例化统一具体包括依据所述关联度确定所述内涵因子π;依据所述内涵因子π进行数据比例化统一;
依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ(%)、第二资源数据βπ(%)、第三资源数据γπ(%)、第四资源数据δπ(%)及第五资源数据επ(%);其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度、x及dx为积分运算。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集生成模块生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集生成模块生成过程中将数据纳入所述集成平台的数据节点中具体为以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构;将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述数据集处理模块处理过程中依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比具体包括获取所述第一数据集与所述第二数据集中心值的差值M;获取所述第二数据集中对应出现变动的创新资源该组中心值与所述第一数据集中对应的该组中心值的差值m;
其中,H为所述第二数据集的扩展值差值,h为所述第二数据集中对应出现变动的创新资源该组扩展值与所述第一数据集中对应的该组扩展值的差值,ω为时序差分值,μ为时序差分比。
作为本发明所述的基于时序差分的数据集成系统的一种优选方案,其中:所述后端检测模块在进行检测的过程中,定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测,;
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
本发明的有益效果:本发明提供基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源数据实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明提供的基于时序差分的数据集成系统的系统模块图;
图2为本发明提供的基于时序差分的数据集成系统的整体方法流程图。
图3为本发明提供的大数据统计所选产业当前各创新资源数据的方法流程图。
图4为本发明所采用的缩减处理操作常规的代码运行图。
图5为本发明所采用的环状拓扑结构示意图。
图6为本发明提供的一组创新资源数据建立的环状多边型拓扑展示结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
目前,对于各产业的创新资源数据缺乏完整有效的整合方式,现有对于创新资源数据的整合多采用笼统的大数据广泛采集后人为分析处理进行,一方面严重影响效率,另一方面大数据的广泛采集也未精确考虑到各方面数据的与时俱进性,导致后续整合处理的结果偏离实际情况,对规划创新发展路线极为不利。
故此,请参阅图1~6,本发明提供一种基于时序差分的数据集成系统,包括以下模块:
⑴统计模块100,用于通过大数据统计所选产业当前各创新资源数据,
进一步的,统计模块100具体包括:
初步集成单元,用于进行当前各创新资源数据的初步集成统计;
需要说明的是,政府作为整合资源者,所整合集成的各创新资源数据来源于各大小企业中具体的各创新资源数据,初步集成的当前数据包括多组各创新资源数据,将其直接进行统计集成。
缩减单元,与初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
需要说明的是,考虑到统计所有企业会存在大量数据组,会造成数据组的混乱,增大中央处理器MCU的运行压力,且所有企业中并非全部需要进行纳入统计,政府作为大局的把控者仅需掌握总体的方向即可,即统计作为创新主体的企业即可,故此对初步集成的数据组进行缩减处理。
其中,缩减单元进行缩减处理具体包括:
S1:获取产业各创新资源之间的关联度,关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;
需要说明的是,针对每个企业的创新资源数据:
第一资源数据α=环保类检测通过项目数/环保类需检测总项目数,其中,环保类需检测总项目数请参阅GB标准化文件,此数据为一可计算出的确定值;
第二资源数据β=高新申报通过项目数/高新申报项目总数,其中,高新申报项目总数包括高企申报、国家级中小型企业申报等,具体请参阅GB高新申报标准化文件,此数据为一可计算出的确定值;
第三资源数据γ=企业高新技术项目转移数/企业高新技术项目总数,其中,企业高新技术项目总数由国家规定的高企文件类型中涉及到的几大类,此数据为一可计算出的确定值;
第四资源数据δ=企业达到本科以上人才的数量/企业员工总数,此数据为一可计算出的确定值;
第五资源数据ε=企业研发投入资金数/企业运营投入总资金数,此数据为一可计算出的确定值;
S2:获取关联度在占比条件下的综合关联度;
S3:依据综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
综合关联度的获取式表达为:
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据。
缩减处理后的数据组所代表的企业包括两类,一类为自身体量大,创新能力足,体现于B、C、D数值及A值均处于前列,另一类为自身体量较小,但创新能力发展潜力足,体现在B、C、D数值主要处于前列,A类数值不做具体要求。
其中,关联分析法是根据因素之间发展趋势的相似或相异程度作为衡量因素间关联程度的一种方法。在进行关联度分析时,一般都要进行无量纲化的数据处理;所谓关联程度,实质上是曲线间几何形状的差别程度。因此曲线间差值大小,可作为关联程度的衡量尺度。上述的占比条件也即分辨系数。因素间的关联程度,主要是用关联度的大小次序描述。将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成了关联序,记为{x},它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j,则称{xi}对于同一母序列{x0}优于{xj},记为{xi}>{xj} 。
图4为MCU运行相应的删减操作时的代码运行图。
⑵预处理模块200,与统计模块100连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一,具体包括:
S1:依据关联度确定内涵因子π;
S2:依据内涵因子π进行数据比例化统一;
依据内涵因子π进行数据比例化统一即对应统一成第一资源数据απ(%)、第二资源数据βπ(%)、第三资源数据γπ(%)、第四资源数据δπ(%)及第五资源数据επ(%);
其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度、x及dx为积分运算。
⑶数据集生成模块300,与预处理模块200连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定集成平台统计中心值及扩展值,将变动后的数据再次纳入集成平台的数据节点中,形成集成平台第二数据集;
进一步的,数据集生成模块300生成过程中依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值包括:
S1:依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;
S2:依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
更进一步的,数据集生成模块300生成过程中将数据纳入集成平台的数据节点中具体为:
以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构,如图5所示;
将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构,如图6示例。
⑷数据集处理模块400,与数据集生成模块300连接,依据第一数据集及第二数据集确定各创新资源的时序差分比μ,由时序差分比确定第一数据集及第二数据集之间的时序差分值ω;
进一步的,数据集处理模块400处理过程中依据第一数据集及第二数据集确定各创新资源的时序差分比具体包括:
S1:获取所第一数据集与第二数据集中心值的差值M;
S2:获取第二数据集中对应出现变动的创新资源该组中心值与第一数据集中对应的该组中心值的差值m;
其中,H为第二数据集的扩展值差值,h为第二数据集中对应出现变动的创新资源该组扩展值与第一数据集中对应的该组扩展值的差值,ω为时序差分值,μ为时序差分比。
⑸后端检测模块500,与数据集生成模块300及数据集处理模块400连接,用于依据第二数据集中对应出现变动的创新资源的比例化后的数据及对应的时序差分值ω进行第一数据集对应创新数据的后端检测;
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
⑹更新集成模块600,与统计模块100、数据集生成模块300及后端检测模块500连接,用于筛选出符合条件的第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合。
选定Q市作为示例,其中,Q市中含有大中小企业约为5247家,将其作为对比样本纳入大数据统计,其中,经过高企文报筛查,符合高新技术企业,具备一定创新能力的企业一共有1932家,涉及的领域多样化,选定产业为电子信息技术领域,纳入统计977家,具备一定创新能力的企业一共有101家,如下表1所示,为本发明与大数据直接统计的效果对比表:
表1:本发明与大数据直接统计的效果对比表
由上表1所示,本发明采用的基于时序差分的数据集成系统在数据的更新上远远优于现有技术,数据变动后纳入统计的企业占据创新主体的数量也未出现较大的波动,主体数据的变动未出现大的波动,对有效数据的统计起到了很好的筛查更新作用。
本发明提供基于时序差分的数据集成系统,当已纳入统计的数据出现波动时,实时修正相应的数据集,通过时序差分切除掉不符合要求的原始数据,保持纳入统计的数据的实时有效性,对创新资源实现了有效的整合,提高了效率的同时精确考虑了各方面数据的与时俱进性,确保后续整合处理的结果与实际情况相符,有利于规划创新发展路线。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于时序差分的数据集成系统,其特征在于:包括,
统计模块(100),用于通过大数据统计所选产业当前各创新资源数据;
预处理模块(200),与所述统计模块(100)连接,接收统计数据后依据内涵因子π分别进行当前各创新资源数据的比例化统一;
数据集生成模块(300),与所述预处理模块(200)连接,用于依据比例化后的当前各创新资源数据确定集成平台统计中心值及扩展值,将数据纳入所述集成平台的数据节点中,形成集成平台第一数据集;并当任意一组任一一项创新资源数据变动时,实时统计变换相应比重数值,对变动后的创新资源数据再次进行比例化统一,重新确定所述集成平台统计中心值及扩展值,将变动后的数据再次纳入所述集成平台的数据节点中,形成集成平台第二数据集;
数据集处理模块(400),与所述数据集生成模块(300)连接,依据所述第一数据集及所述第二数据集确定各创新资源的时序差分比μ,由所述时序差分比确定所述第一数据集及所述第二数据集之间的时序差分值ω;
后端检测模块(500),与所述数据集生成模块(300)及所述数据集处理模块(400)连接,用于依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω进行所述第一数据集对应创新数据的后端检测;
更新集成模块(600),与所述统计模块(100)、所述数据集生成模块(300)及所述后端检测模块(500)连接,用于筛选出符合条件的所述第一数据集对应的创新数据,即切除检测不通过的整组创新数据,保留后端检测通过的创新数据,实现创新数据的实时更新整合。
2.根据权利要求1所述的基于时序差分的数据集成系统,其特征在于:所述统计模块(100)具体包括,
初步集成单元,用于进行当前各创新资源数据的初步集成统计;
缩减单元,与所述初步集成单元连接,用于对初步集成的当前各创新资源数据进行缩减处理;
其中,所述缩减单元进行缩减处理具体包括,
获取产业各创新资源之间的关联度,所述关联度表达为α+β+γ、γ*ε、γ*δ及δ*ε,其中,α为第一资源数据,β为第二资源数据,γ为第三资源数据,δ为第四资源数据,ε为第五资源数据;
获取所述关联度在占比条件下的综合关联度;
依据所述综合关联度筛选出初步符合创新主体要求的各组各创新资源数据;
所述综合关联度的获取式表达为,
综合关联度=A(0.1α+0.1β+0.2γ)、B(0.08γ*ε)、C(0.04γ*δ)、D(0.08δ*ε);
其中,定义B、C、D取值从高到低排列于前60%且A取值从高到低排列于前80%的各组各创新资源数据为符合创新主体要求的各组各创新资源数据。
3.根据权利要求2所述的基于时序差分的数据集成系统,其特征在于:所述预处理模块(200)对当前各创新资源数据进行比例化统一具体包括,
依据所述关联度确定所述内涵因子π;
依据所述内涵因子π进行数据比例化统一;
依据所述内涵因子π进行数据比例化统一即对应统一成第一资源数据απ(%)、第二资源数据βπ(%)、第三资源数据γπ(%)、第四资源数据δπ(%)及第五资源数据επ(%);
其中,π为内涵因子、α为第一资源数据、β为第二资源数据、γ为第三资源数据、δ为第四资源数据、ε为第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度、x及dx为积分运算。
4.根据权利要求3所述的基于时序差分的数据集成系统,其特征在于:所述数据集生成模块(300)生成过程中依据比例化后的当前各创新资源数据确定所述集成平台统计中心值及扩展值包括,
依据比例化后的当前各创新资源数据确定所述集成平台统计各组中心值a及各组扩展值b;
依据各组中心值a及各组扩展值b获取最终中心值及扩展值;
其中,a=(απ+βπ+γπ+δπ+επ)/(γ*ε+γ*δ+δ*ε);b=(απ+βπ+γπ+δπ+επ)/(α+β+γ),其中,a为各组中心值、b为各组扩展值、απ为比例化统一后的第一资源数据、βπ为比例化统一后的第二资源数据、γπ为比例化统一后的第三资源数据、δπ为比例化统一后的第四资源数据、επ为比例化统一后的第五资源数据、α+β+γ、γ*ε、γ*δ及δ*ε为产业各创新资源之间的关联度;
中心值=(a1+a2+…+an)/na;扩展值=(b1+b2+…+bn)/nb,其中,n为各创新资源数据的组数。
5.根据权利要求4所述的基于时序差分的数据集成系统,其特征在于:所述数据集生成模块(300)生成过程中将数据纳入所述集成平台的数据节点中具体为,
以中心值为圆心,扩展值为半径,每隔0.1差分建立环状拓扑结构;
将当前各创新资源数据纳入至相应的环状拓扑结构中,且连接每组各创新资源数据的数据节点,各自形成环状多边型拓扑展示结构。
8.根据权利要求7所述的基于时序差分的数据集成系统,其特征在于:所述后端检测模块(500)在进行检测的过程中,定义依据所述第二数据集中对应出现变动的创新资源的比例化后的数据及对应的所述时序差分值ω满足如下条件时所述第一数据集对应创新数据通过后端检测,;
其中,ω为对应的时序差分值;当第一资源数据出现变动,απ1及απ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第二资源数据出现变动,βπ1及βπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第三资源数据出现变动,γπ1及γπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第四资源数据出现变动,δπ1及δπ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据;当第五资源数据出现变动,επ1及επ2分别为变动前比例化统一后的数据及变动后比例化统一后的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945960.5A CN113393179B (zh) | 2021-08-18 | 2021-08-18 | 一种基于时序差分的数据集成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945960.5A CN113393179B (zh) | 2021-08-18 | 2021-08-18 | 一种基于时序差分的数据集成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393179A true CN113393179A (zh) | 2021-09-14 |
CN113393179B CN113393179B (zh) | 2022-06-28 |
Family
ID=77622817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945960.5A Active CN113393179B (zh) | 2021-08-18 | 2021-08-18 | 一种基于时序差分的数据集成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393179B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955873A (zh) * | 2014-05-20 | 2014-07-30 | 成都汇资聚源科技有限公司 | 创新资源信息整合服务平台 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN111708774A (zh) * | 2020-04-16 | 2020-09-25 | 上海华东电信研究院 | 一种基于大数据的产业分析系统 |
CN111814106A (zh) * | 2020-07-09 | 2020-10-23 | 平安科技(深圳)有限公司 | 时序数据滞后性处理方法、装置、电子设备及存储介质 |
CN112422234A (zh) * | 2020-11-06 | 2021-02-26 | 应急管理部通信信息中心 | 一种基于时间感知的自适应深度学习的数据治理服务方法 |
CN112667740A (zh) * | 2021-01-08 | 2021-04-16 | 武汉数字超客技术有限公司 | 一种基于问题导向的创新数据分析平台 |
CN112686751A (zh) * | 2020-12-23 | 2021-04-20 | 中车工业研究院有限公司 | 数据管理系统及技术交易平台 |
-
2021
- 2021-08-18 CN CN202110945960.5A patent/CN113393179B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955873A (zh) * | 2014-05-20 | 2014-07-30 | 成都汇资聚源科技有限公司 | 创新资源信息整合服务平台 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN111708774A (zh) * | 2020-04-16 | 2020-09-25 | 上海华东电信研究院 | 一种基于大数据的产业分析系统 |
CN111814106A (zh) * | 2020-07-09 | 2020-10-23 | 平安科技(深圳)有限公司 | 时序数据滞后性处理方法、装置、电子设备及存储介质 |
CN112422234A (zh) * | 2020-11-06 | 2021-02-26 | 应急管理部通信信息中心 | 一种基于时间感知的自适应深度学习的数据治理服务方法 |
CN112686751A (zh) * | 2020-12-23 | 2021-04-20 | 中车工业研究院有限公司 | 数据管理系统及技术交易平台 |
CN112667740A (zh) * | 2021-01-08 | 2021-04-16 | 武汉数字超客技术有限公司 | 一种基于问题导向的创新数据分析平台 |
Also Published As
Publication number | Publication date |
---|---|
CN113393179B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harmon et al. | The index of linguistic diversity: A new quantitative measure of trends in the status of the world's languages | |
CN106066866A (zh) | 一种英文文献关键短语自动抽取方法与系统 | |
CN111950921B (zh) | 一种基于离线组网环境的多人协同评审方法 | |
CN111950922B (zh) | 一种基于多源数据交互分析的装备经济数据评估方法 | |
CN109947948B (zh) | 一种基于张量的知识图谱表示学习方法及系统 | |
CN109344263A (zh) | 一种地址匹配方法 | |
CN111859984B (zh) | 意图挖掘方法、装置、设备及存储介质 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN110399613B (zh) | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 | |
CN113032403A (zh) | 数据洞察方法、装置、电子设备及存储介质 | |
CN111695330A (zh) | 生成表格的方法、装置、电子设备及计算机可读存储介质 | |
CN112836067B (zh) | 基于知识图谱的智能搜索方法 | |
CN114491081A (zh) | 基于数据血缘关系图谱的电力数据溯源方法及系统 | |
CN113393179B (zh) | 一种基于时序差分的数据集成系统 | |
CN104636324B (zh) | 话题溯源方法和系统 | |
CN117892820A (zh) | 一种基于大语言模型的多级数据建模方法及系统 | |
CN116579319A (zh) | 一种文本相似度的分析方法及系统 | |
CN115905944A (zh) | 一种基于语义元数据实现工业检验数据的智能标注方法 | |
CN113468003B (zh) | 一种芯片测试数据的树形显示与操作系统和方法 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN115545017A (zh) | 基于节点相似度的医学术语归一化方法及系统 | |
CN115114399A (zh) | 一种基于nlp技术实现文本数据治理预处理的方法 | |
CN110866083B (zh) | 一种电力标准结构化地址库的地址稽核方法 | |
Rinia et al. | Measuring national output in physics: Delimitation problems | |
Bautista et al. | A cluster-based approach to means separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |