CN114780654B - 一种多源主附实体结构模块化构建的处理方法 - Google Patents

一种多源主附实体结构模块化构建的处理方法 Download PDF

Info

Publication number
CN114780654B
CN114780654B CN202210592832.1A CN202210592832A CN114780654B CN 114780654 B CN114780654 B CN 114780654B CN 202210592832 A CN202210592832 A CN 202210592832A CN 114780654 B CN114780654 B CN 114780654B
Authority
CN
China
Prior art keywords
entity
database
library
dynamic
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210592832.1A
Other languages
English (en)
Other versions
CN114780654A (zh
Inventor
李银生
王红
张朝宗
任雁
吴峰
聂永川
毋鹏杰
杨扬
刘淼
刘曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Original Assignee
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy filed Critical Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority to CN202210592832.1A priority Critical patent/CN114780654B/zh
Publication of CN114780654A publication Critical patent/CN114780654A/zh
Application granted granted Critical
Publication of CN114780654B publication Critical patent/CN114780654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源主附实体结构模块化构建的处理方法,利用主实体形成主实体静态库指标结构;通过自动触发机制,构建实体动态库;依据异源附属实体,自动补充完善实体动态库,促进实体动态库自成长;记录实体的应用场景等信息。本发明通过主实体静态库自动化识别构建、实体动态库自动识别构建、附属实体自动判别、实体动态库指标体系自动完善与应用场景记录等技术方法,能够区分相对不变的数据和经常变动的数据,做到多源数据的静态库和动态库分层存储,记录了数据归集的过程和应用场景,实现了多源数据的主附实体结构模块化构建,以及数据的关联存储与自增长;为数据溯源、数据关联分析提供了可行性的数据存储解决方案。

Description

一种多源主附实体结构模块化构建的处理方法
技术领域
本发明涉及大数据应用技术领域,特别是一种多源主附实体结构模块化构建的处理方法。
背景技术
针对多种来源的表格数据,指标多样化,现有处理技术大多采用分源处理、分库存储的处理方法,这种处理方法主要存在以下几个问题:
1)指标多样,数据庞杂。由于大多采用分源处理、分库存储的处理方法,缺少统一用于表示数据关系的结构,无法形成表达数据关系的标准化指标体系,导致指标繁多,缺少统一体系,数据量庞大,且相对独立。
2)隐含关系不能自动发现、提取与存储。现有技术由于缺少主附实体的模块化构建机制,通常没有或很难建立多源数据之间的关联关系,导致数据相对独立,数据之间的隐含关系无法自动发现;缺少主附实体的自动化提取机制,导致数据之间的关系无法自动提取和存储。
3)数据相对独立,无法自增补。现有技术在存储数据时,通常很少区分相对不变的数据和经常变动的数据,针对这两类数据无法有针对性的分别处理,缺少有效的数据之间关系的自动识别与融合机制,也就无法做到数据的关联存储与自增补。
发明内容
本发明提供一种多源主附实体结构模块化构建的处理方法,用于解决不同来源的多期表格数据的主附实体结构自动构建与数据自动融合、主实体与附属实体应用场景记录、以及实体动态库自动成长等问题,为数据溯源、数据关联分析提供可行性的数据存储解决方案。
为解决上述技术问题,本发明所采取的技术方案如下。
一种多源主附实体结构模块化构建的处理方法,具体包括以下步骤:
A1.从指标数据库IDB提取标准指标体系结构EIS,从实体题录项数据库EFDB提取主实体题录项MEFS,从原数据数据库OVDB提取数值项OV,利用单源主实体静态库自动识别构建器,形成主实体静态库指标结构,存入实体静态数据库RSDB;
A2.从实体静态数据库RSDB提取主实体静态库指标结构信息,从实体动态数据库RVDB提取动态库实体指标结构信息,利用实体动态库自动识别构建器,构建最新动态库实体指标结构,并存入实体动态数据库RVDB;
A3.从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从实体动态数据库RVDB提取动态库实体指标结构RVIS,利用附属实体自动加载判别器,判别附属实体是否融入实体动态数据库RVDB,并形成动态库临时实体指标结构RVIS';
A4.从步骤A3读取动态库临时实体指标结构信息RVIS',从指标数据库IDB提取标准指标体系结构EIS,利用实体动态库自动成长器,根据附属实体情况,自动补充完善指标体系,促使动态库自动成长,并存入实体动态数据库RVDB;
A5.从实体动态数据库RVDB读取动态库实体的相关信息,从源A的源应用场景数据库SDB读取源A的源、库、表应用场景的相关信息,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,利用实体动态库应用场景提取器,记录实体动态数据库中数据来自的源、库、主实体、附属实体、主附实体间的应用场景信息,存入实体动态应用场景数据库SRVDB。
上述一种多源主附实体结构模块化构建的处理方法,步骤A1中所述主实体静态库指标结构的形成方法具体为:
A11.从源A的实体题录项数据库EFDB中,读取未入库的主实体库个数,记为N1,令n1初始变量为1,n1为大于等于1的自然数,令指标结构变量P=False,令数据变量D=False;
A12.从源A的实体题录项数据库EFDB中,读取第n1库的主实体题录项MEFS;从源A的指标数据库IDB,读取标准指标体系结构EIS;
A13.判别源A的实体静态数据库RSDB是否存在,如果存在,则执行步骤A14;如果不存在,则执行步骤A15;
A14.从实体静态数据库RSDB中,读取静态库实体指标结构RSIS,并利用机器算法,将静态库实体指标结构RSIS与步骤A12读取的标准指标体系结构EIS进行比对、融合操作,形成静态库实体临时指标结构RSIS';
A15.依据步骤A12读取的标准指标体系结构EIS,创建实体静态数据库RSDB,将标准指标体系结构EIS赋值给静态库实体指标结构RSIS,将标准指标体系结构EIS作为静态库实体临时指标结构RSIS';
A16.呈现静态库实体临时指标结构RSIS',进行人工校正,并确认;
A17.判断静态库实体指标结构RSIS与静态库实体临时指标结构RSIS'是否一致,如果一致,直接跳转步骤A18执行;如果不一致,将静态库实体临时指标结构RSIS'作为最新静态库实体指标结构,置P=True,存入实体静态数据库RSDB;
A18.从原数据数据库OVDB中,读取第n1库的数值项OV,置D=True,写入实体静态数据库RSDB;
A19.如果n1<N1,执行n1+1赋值给n1,跳转到步骤A12执行;否则,跳转步骤A110执行;
A110.判断变量P和D,当P=True或D=True时,发送信号,启动实体动态库自动识别构建器开始工作。
上述一种多源主附实体结构模块化构建的处理方法,步骤A2中所述最新实体指标结构的具体构建方法为:
A21.实时监听,如果监听到单源主实体静态库自动化识别构建器的数据传送信号,则接收变量P和D的值;
A22.如果P=True,则从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,从实体静态数据库RSDB中,读取最新的静态库实体指标结构RSIS,跳转到步骤A23执行;如果P=False,则跳转到步骤A24执行;
A23.根据设定规则,利用机器算法,将静态库实体指标结构RSIS和动态库实体指标结构RVIS进行合并,形成最新动态库实体指标结构,并存入实体动态数据库RVDB库;
A24.如果D=True,则依据规则,从实体静态数据库RSDB中,读取最新入库的数据,写入实体动态数据库RVDB中;如果D=False,结束。
上述一种多源主附实体结构模块化构建的处理方法,步骤A3中所述附属实体自动加载判别器形成动态库临时实体指标结构RVIS'的方法为:
A31.从源B的实体题录项数据库EFDB中,读取未入库的附属实体个数,记为N2,令n2初始变量为1,n2为大于等于1的自然数;
A32.从源B的实体题录项数据库EFDB中,提取附属实体n2的附属实体题录项SEFS;
A33.判别附属实体n2对应的实体动态数据库RSDB是否存在,如果不存在跳转到步骤A34执行;如果存在,则跳转到步骤A35执行;
A34.提示是否创建实体动态数据库RSDB,并进行人工确认,如果用户确认创建,则依据附属实体n2的附属实体题录项SEFS,形成静态库实体临时指标结构RSIS',并跳转到步骤A311执行;如果用户选择不创建,跳转到步骤A312;
A35.从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,获得RVIS指标个数I,同时将动态库实体指标结构RVIS作为动态库实体临时指标结构RVIS';
A36.读取附属实体n2的取附属实体题录项SEFS的指标,获得SEFS指标个数M,令m=1,i=1;
A37.读取附属实体n2的附属实体题录项指标m;
A38.读取动态库实体指标结构RVIS指标i;
A39.判别附属实体题录项指标m与动态库实体指标结构RVIS指标i是否完全一致,如果一致,则m=m+1,并跳转到步骤A37执行,如果不一致,则判断I>i是否成立,如果成立,则i=i+1,并跳转到步骤A38执行,如果不成立则跳转到A310执行;
A310.将附属实体题录项指标m融入动态库临时实体指标结构RVIS'中,并判断M>m是否成立,如果成立,则m=m+1,并跳转到步骤A37执行,如果不成立则跳转到步骤A311执行;
A311.将源B、附属实体n2、静态库实体临时指标结构RSIS'传入实体动态库自动化成长器,并启动其运行;
A312.判断N2>n2是否成立,如果成立,则跳转到步骤A32执行;如果不成立,结束。
上述一种多源主附实体结构模块化构建的处理方法,步骤A4中所述动态库自动成长的具体方法为:
A41.监听并接收附属实体自动加载判别器传送过来的源B、附属实体n2、动态库临时实体指标结构RVIS'信息;
A42.从源B的指标数据库IDB中,读取标准指标体系结构EIS;
A43.依据附属实体n2的相关信息,建立动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R;
A44.将动态库临时实体指标结构RVIS'以及动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R,存入实体动态数据库RVDB中;
A45.读取附属实体n2的数据,存入实体动态数据库RVDB中;
A46.发送信号S=True,将源B、附属实体n2信息传入实体动态库应用场景提取器并启动执行。
上述一种多源主附实体结构模块化构建的处理方法,步骤A5中所述实体动态库应用场景提取器的工作流程为:
A51.监听并接收实体动态库自动成长器的传送过来的源B、附属实体n2、信号S信息;
A52.判断S=True是否成立,如果成立,则执行步骤A53,否则,结束;
A53.则从源B对应的实体应用场景数据库ESDB中,读取附属实体n2对应的主实体M(M)与附属实体S(M)之间的应用场景ES;
A54.从源A的主实体对应的源应用场景数据库SDB中,读取源、库、表应用场景SES;
A55.从实体动态数据库RVDB中,读取相关实体动态信息V;
A56.将主实体M(M)与附属实体S(M)之间的应用场景ES、源库表应用场景SES、实体动态信息V信息进行关联,存入实体动态应用场景数据库SRVDB。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明通过主实体静态库自动化识别构建、实体动态库自动识别构建、附属实体自动判别、实体动态库指标体系自动完善与应用场景记录等技术方法,能够区分相对不变的数据和经常变动的数据,做到多源数据的静态库和动态库分层存储,记录了数据归集的过程和应用场景,实现了多源数据的主附实体结构模块化构建,以及数据的关联存储与自增长;系统性的解决了数据间隐含关系的自动识别与抽取、主附实体结构模块化构建、实体应用场景记录等问题,为数据溯源、数据关联分析提供了可行性的数据存储解决方案。
主要具有以下显著效果:
1)数据规整化、指标标准化。本发明提出多源数据按照主实体和附属实体结构,进行数据和指标的组织和归集,与现有分源处理、分库存储的处理方式相比,具有指标结构标准、指标数量精简、指标表达统一、数据提取统一、数据存储规整的优势。
2)数据分层存储。本发明通过建立静态库和动态库,实现相对不变数据和经常变动数据的分层存储,与现有处理方法、存储方式相比:实现了数据动静分离;数据维护更加便捷、使用更加方便;大大减少了数据处理难度和程序开发复杂度。
3)主附实体结构模块化构建。本发明提出了主附实体识别、实体结构模块化构建等方法,与现有数据提取、结构构建等处理方式相比:实现了主附实体的自动识别、数据的自动提取;主附实体结构的自动判别、自我成长;数据间隐含关系的自动发现、提取和存储。
4)数据关系清晰、利于溯源。本发明在进行主附实体提取时,同时记录了实体来自的源、主实体、附属实体,以及主实体与附属实体之间的依附关系等丰富的应用场景,对数据之间的隐性关系,进行了识别、提取、存储,有利于数据之间关系查找与溯源。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程图;
图3为本发明所述单源主实体静态库自动识别构建器的工作流程示意图;
图4为本发明所述实体动态库自动识别构建器的工作流程示意图;
图5为本发明所述附属实体自动加载判别器的工作流程示意图;
图6为本发明所述实体动态库自动成长器的工作流程示意图;
图7为本发明所述实体动态库应用场景提取器的工作流程示意图。
具体实施方式
下面将结合附图和具体实施方式对本发明进行进一步详细说明。
一种多源主附实体结构模块化构建的处理方法,应用于大数据处理领域,提出多源数据按静态库和动态库分层存储,主附实体结构自动构建。首先,利用主实体形成主实体静态库指标结构;然后,通过自动触发机制,构建实体动态库;接着,依据异源附属实体,自动补充完善实体动态库,促进实体动态库自成长;最后记录实体的应用场景等信息,解决了数据溯源、数据关联分析等一系列的问题。
在本发明中,应用到以下数据库:1)原数据数据库OVDB(OriginalValueDataBase),存储由电子表格数据转化为数据库格式的原始数据;2)实体题录项数据库EFDB(EntityFeature DataBase),存储主实体题录项MEFS及相关数据、附属实体题录项(SEFS)及相关数据等信息;3)指标数据库IDB(Indicators DataBase),存放本期指标结构IS,标准指标体系结构EIS;4)源应用场景数据库SDB(Sense DataBase),存储源应用场景等相关信息;5)实体应用场景数据库ESDB(Entity Sense DataBase),存储主实体M(M)、附属实体S(M)的应用场景ES,以及主实体M(M)与附属实体S(M)之间的依附关系。
在本发明中,所应用到的专有名词包括:1)源(Source)S,用来描述特定研究对象的一组数据集合,在一定时期内,具有稳定性和连续性;2)库(Data-Set)DS,指由源产生的一定时期的一组数据集合,可以由一个或多个二维数据表构成;3)表(Table)T,指库中的一个二维数据表;4)实体(Entity),可用一组特征变量进行描述的具有相对稳定性、唯一性的研究对象,依据不同实体间的相互依附关系,实体分为主实体和附属实体;5)主实体(MainEntity),指源中全部或大部分的属性所描述的研究实体,一般一个源中只有一个主实体,用“实体(实体对应的主实体)”格式表示,主实体表示为M(M);6)附属实体(SubsidiaryEntity),指源中依存于主实体的实体,通常附属实体是主实体的一部分或者是用来描述主实体属性的一组变量,用“实体(实体对应的主实体)”格式表示,附属实体表示为S(M);7)实体题录项EFS(EntityFeature Structure:实体特征结构),能反映实体属性的一组指标集合;8)主实体题录项MEFS(Main Entity Feature Structure:主要实体特征结构),指能反映主实体属性的一组指标集合;9)附属实体题录项SEFS(Subsidiary Entity FeatureStructure:次要实体特征结构):指能反映附属实体及附属实体与主实体的关联关系的一组指标集合,既能够体现附属实体的自身属性,又能够体现附属实体所在的主实体的状态的有关属性。
本发明中,将同一源(单源)主实体的数据、主实体与附属实体整合之后的实体数据与指标结构、多源数据的源库表等信息、主实体与附属实体的应用场景等属性信息进行处理、提取后,分别存储在以下三个数据库中:1)实体静态数据库RSDB(Relative StaticDataBase),存放来自于同一源(单源)的多库的数据;2)实体动态数据库RVDB(RelativeVariety DataBase),存放来自于异源且经过整合之后的实体的指标及数据;3)实体动态应用场景数据库SRVDB(Sense ofRelative Variety DataBase),存放基于实体动态数据库RVDB的多源数据的源、库、表等信息,以及主实体、附属实体、主实体与附属实体的应用场景等信息。
本发明的实施依赖于多个模块实现,如图1所示,包括单源主实体静态库自动识别构建器、实体动态库自动识别构建器、附属实体自动加载判别器、实体动态库自动成长器、实体动态库应用场景提取器。
一种多源主附实体结构模块化构建的处理方法,其流程如图2所示,具体包括以下步骤。
A1.从指标数据库IDB提取标准指标体系结构EIS,从实体题录项数据库EFDB提取主实体题录项MEFS,从原数据数据库OVDB提取数值项OV,利用单源主实体静态库自动识别构建器,形成主实体静态库指标结构,存入实体静态数据库RSDB。
本步骤中,所述主实体静态库指标结构形成方法的流程如图3所示,具体如下。
A11.从源A的实体题录项数据库EFDB中,读取未入库的主实体库个数,记为N1,令n1初始变量为1,n1为大于等于1的自然数,令指标结构变量P=False,令数据变量D=False。
A12.从源A的实体题录项数据库EFDB中,读取第n1库的主实体题录项MEFS;从源A的指标数据库IDB,读取标准指标体系结构EIS。
A13.判别源A的实体静态数据库RSDB是否存在,如果存在,则执行步骤A14;如果不存在,则执行步骤A15。
A14.从实体静态数据库RSDB中,读取静态库实体指标结构RSIS,并利用机器算法,将静态库实体指标结构RSIS与步骤A12读取的标准指标体系结构EIS进行比对、融合等操作,形成静态库实体临时指标结构RSIS'。
A15.依据步骤A12读取的标准指标体系结构EIS,创建实体静态数据库RSDB,将标准指标体系结构EIS赋值给静态库实体指标结构RSIS,将标准指标体系结构EIS作为静态库实体临时指标结构RSIS'。
A16.呈现静态库实体临时指标结构RSIS',进行人工校正,并确认。
A17.判断静态库实体指标结构RSIS与静态库实体临时指标结构RSIS'是否一致,如果一致,直接跳转步骤A18执行;如果不一致,将静态库实体临时指标结构RSIS'作为最新静态库实体指标结构,置P=True,存入实体静态数据库RSDB,直接跳转步骤A18执行。
A18.从原数据数据库OVDB中,读取第n1库的数值项OV,置D=True,写入实体静态数据库RSDB。
A19.如果n1<N1,执行n1+1赋值给n1,跳转到步骤A12执行;否则,跳转步骤A110执行。
A110.判断变量P和D,当P=True或D=True时,发送信号,启动实体动态库自动识别构建器开始工作。
A2.从实体静态数据库RSDB提取主实体静态库指标结构等信息,从实体动态数据库RVDB提取动态库实体指标结构信息,利用实体动态库自动识别构建器,构建最新动态库实体指标结构,并存入实体动态数据库RVDB。
本步骤中,所述最新实体指标结构构建的流程如图4所示,具体构建方法如下。
A21.实时监听,如果监听到单源主实体静态库自动化识别构建器的数据传送信号,则接收变量P和D的值。
A22.如果P=True,则从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,从实体静态数据库RSDB中,读取最新的静态库实体指标结构RSIS,跳转到步骤A23执行;如果P=False,则跳转到步骤A24执行。
A23.根据设定规则,利用机器算法,将静态库实体指标结构RSIS和动态库实体指标结构RVIS进行合并,形成最新动态库实体指标结构,并存入实体动态数据库RVDB库。
A24.如果D=True,则依据规则,从实体静态数据库RSDB中,读取最新入库的数据,写入实体动态数据库RVDB中;如果D=False,结束。
A3.从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从实体动态数据库RVDB提取动态库实体指标结构RVIS,利用附属实体自动加载判别器,判别附属实体是否融入实体动态数据库RVDB,并形成动态库临时实体指标结构RVIS'。
本步骤中,所述附属实体自动加载判别器形成动态库临时实体指标结构RVIS'的方法如图5所示,具体如下。
A31.从源B的实体题录项数据库EFDB中,读取未入库的附属实体个数,记为N2,令n2初始变量为1,n2为大于等于1的自然数。
A32.从源B的实体题录项数据库EFDB中,提取附属实体n2的附属实体题录项SEFS。
A33.判别附属实体n2对应的实体动态数据库RSDB是否存在,如果不存在跳转到步骤A34执行;如果存在,则跳转到步骤A35执行。
A34.提示是否创建实体动态数据库RSDB,并进行人工确认,如果用户确认创建,则依据附属实体n2的附属实体题录项SEFS,形成静态库实体临时指标结构RSIS',并跳转到步骤A311执行;如果用户选择不创建,跳转到步骤A312。
A35.从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,获得RVIS指标个数I,同时将动态库实体指标结构RVIS作为动态库实体临时指标结构RVIS';
A36.读取附属实体n2的取附属实体题录项SEFS的指标,获得SEFS指标个数M,令m=1,i=1;
A37.读取附属实体n2的附属实体题录项指标m;
A38.读取动态库实体指标结构RVIS指标i;
A39.判别附属实体题录项指标m与动态库实体指标结构RVIS指标i是否完全一致,如果一致,则m=m+1,并跳转到步骤A37执行,如果不一致,则判断I>i是否成立,如果成立,则i=i+1,并跳转到步骤A38执行,如果不成立则跳转到A310执行;
A310.将附属实体题录项指标m融入动态库临时实体指标结构RVIS'中,并判断M>m是否成立,如果成立,则m=m+1,并跳转到步骤A37执行,如果不成立则跳转到步骤A311执行;
A311.将源B、附属实体n2、动态库临时实体指标结构RVIS'等信息传入实体动态库自动化成长器,并启动其运行;
A312.判断N2>n2是否成立,如果成立,则跳转到步骤A32执行;如果不成立,结束。
A4.从步骤A3读取动态库临时实体指标结构RVIS',从指标数据库IDB提取标准指标体系结构EIS,利用实体动态库自动成长器,根据附属实体情况,自动补充完善指标体系,促使动态库自动成长,并存入实体动态数据库RVDB。
本步骤中,所述动态库自动成长的具体方法如图6所示,具体如下。
A41.监听并接收附属实体自动加载判别器传送过来的源B、附属实体n2、动态库临时实体指标结构RVIS'等信息;
A42.从源B的指标数据库IDB中,读取标准指标体系结构EIS;
A43.依据附属实体n2,建立动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R;
A44.将动态库临时实体指标结构RVIS'以及动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R,存入实体动态数据库RVDB中;
A45.读取附属实体n的数据,存入实体动态数据库RVDB中;
A46.发送信号S=True,将源B、附属实体n2信息传入实体动态库应用场景提取器并启动执行。
A5.从实体动态数据库RVDB读取动态库实体,从源A的源应用场景数据库SDB读取源A的源、库、表等应用场景的相关信息,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,利用实体动态库应用场景提取器,记录实体动态数据库中数据来自的源、库、主实体、附属实体、主附实体间的应用场景等信息,存入实体动态应用场景数据库SRVDB。
本步骤中,所述实体动态库应用场景提取器的工作流程如图7所示,具体如下。
A51.监听并接收实体动态库自动成长器的传送过来的源B、附属实体n2、信号S等信息;
A52.判断S=True是否成立,如果成立,则执行步骤A53,否则,结束;
A53.则从源B对应的实体应用场景数据库ESDB中,读取附属实体n2对应的主实体M(M)与附属实体S(M)之间的应用场景ES;
A54.从源A的主实体对应的源应用场景数据库SDB中,读取源、库、表等应用场景SES;
A55.从实体动态数据库RVDB中,读取相关实体动态信息V;
A56.将主实体M(M)与附属实体S(M)之间的应用场景ES、源库表应用场景SES、实体动态信息V等信息进行关联,存入实体动态应用场景数据库SRVDB。
当有多个源数据时,可重复步骤A1-A5,递进完成多源数据的相互关联,从而可在实体动态应用场景数据库SRVDB中获取自动融合后的、具有相互关联的、动态的信息;便于后续数据之间关系查找、溯源以及分析。
本发明的应用能够实现以下功能:1)通过提出主附实体结构,将大量的、多样冗余的指标按照主附实体结构进行组织,构建了基于主附实体的标准化的指标体系,形成了精简的、系统化的指标结构,同时在数据之间建立了关系;2)通过制定模块化构建机制,针对主附实体结构,制定了自动化识别、完善机制,能很好的实现数据之间隐含关系的发现,以及提取与存储;3)通过提出静态库与动态库分别存储,能很好的区分相对不变的数据和经常变动的数据,通过主实体静态库自动化识别构建、异源实体动态库自动融合,大大减少了数据处理难度与程序开发复杂度,同时也实现了数据的关联存储与自增长。

Claims (4)

1.一种多源主附实体结构模块化构建的处理方法,其特征在于,具体包括以下步骤:
A1.从指标数据库IDB提取标准指标体系结构EIS,从实体题录项数据库EFDB提取主实体题录项MEFS,从原数据数据库OVDB提取数值项OV,利用单源主实体静态库自动识别构建器,形成主实体静态库指标结构,存入实体静态数据库RSDB;
步骤A1中所述主实体静态库指标结构的形成方法具体为:
A11.从源A的实体题录项数据库EFDB中,读取未入库的主实体库个数,记为N1,令n1初始变量为1,n1为大于等于1的自然数,令指标结构变量P=False,令数据变量D=False;
A12.从源A的实体题录项数据库EFDB中,读取第n1库的主实体题录项MEFS;从源A的指标数据库IDB,读取标准指标体系结构EIS;
A13.判别源A的实体静态数据库RSDB是否存在,如果存在,则执行步骤A14;如果不存在,则执行步骤A15;
A14.从实体静态数据库RSDB中,读取静态库实体指标结构RSIS,并利用机器算法,将静态库实体指标结构RSIS与步骤A12读取的标准指标体系结构EIS进行比对、融合操作,形成静态库实体临时指标结构RSIS';
A15.依据步骤A12读取的标准指标体系结构EIS,创建实体静态数据库RSDB,将标准指标体系结构EIS赋值给静态库实体指标结构RSIS,将标准指标体系结构EIS作为静态库实体临时指标结构RSIS';
A16.呈现静态库实体临时指标结构RSIS',进行人工校正,并确认;
A17.判断静态库实体指标结构RSIS与静态库实体临时指标结构RSIS'是否一致,如果一致,直接跳转步骤A18执行;如果不一致,将静态库实体临时指标结构RSIS'作为最新静态库实体指标结构,置P=True,存入实体静态数据库RSDB;
A18.从原数据数据库OVDB中,读取第n1库的数值项OV,置D=True,写入实体静态数据库RSDB;
A19.如果n1<N1,执行n1+1赋值给n1,跳转到步骤A12执行;否则,跳转步骤A110执行;
A110.判断变量P和D,当P=True或D=True时,发送信号,启动实体动态库自动识别构建器开始工作;
A2.从实体静态数据库RSDB提取主实体静态库指标结构信息,从实体动态数据库RVDB提取动态库实体指标结构信息,利用实体动态库自动识别构建器,构建最新动态库实体指标结构,并存入实体动态数据库RVDB;
步骤A2中所述最新动态库实体指标结构的具体构建方法为:
A21.实时监听,如果监听到单源主实体静态库自动化识别构建器的数据传送信号,则接收变量P和D的值;
A22.如果P=True,则从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,从实体静态数据库RSDB中,读取最新的静态库实体指标结构RSIS,跳转到步骤A23执行;如果P=False,则跳转到步骤A24执行;
A23.根据设定规则,利用机器算法,将静态库实体指标结构RSIS和动态库实体指标结构RVIS进行合并,形成最新动态库实体指标结构,并存入实体动态数据库RVDB库;
A24.如果D=True,则依据规则,从实体静态数据库RSDB中,读取最新入库的数据,写入实体动态数据库RVDB中;如果D=False,结束;
A3.从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从实体动态数据库RVDB提取动态库实体指标结构RVIS,利用附属实体自动加载判别器,判别附属实体是否融入实体动态数据库RVDB,并形成动态库临时实体指标结构RVIS';
A4.从步骤A3读取动态库临时实体指标结构信息RVIS',从指标数据库IDB提取标准指标体系结构EIS,利用实体动态库自动成长器,根据附属实体情况,自动补充完善指标体系,促使动态库自动成长,并存入实体动态数据库RVDB;
A5.从实体动态数据库RVDB读取动态库实体的相关信息,从源A的源应用场景数据库SDB读取源A的源、库、表应用场景的相关信息,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,利用实体动态库应用场景提取器,记录实体动态数据库中数据来自的源、库、主实体、附属实体、主附实体间的应用场景信息,存入实体动态应用场景数据库SRVDB。
2.根据权利要求1所述的一种多源主附实体结构模块化构建的处理方法,其特征在于,步骤A3中所述附属实体自动加载判别器形成动态库临时实体指标结构RVIS'的方法为:
A31.从源B的实体题录项数据库EFDB中,读取未入库的附属实体个数,记为N2,令n2初始变量为1,n2为大于等于1的自然数;
A32.从源B的实体题录项数据库EFDB中,提取附属实体n2的附属实体题录项SEFS;
A33.判别附属实体n2对应的实体动态数据库RVDB是否存在,如果不存在跳转到步骤A34执行;如果存在,则跳转到步骤A35执行;
A34.提示是否创建实体动态数据库RVDB,并进行人工确认,如果用户确认创建,则依据附属实体n2的附属实体题录项SEFS,形成静态库实体临时指标结构RSIS',并跳转到步骤A311执行;如果用户选择不创建,跳转到步骤A312;
A35.从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,获得RVIS指标个数I,同时将动态库实体指标结构RVIS作为动态库实体临时指标结构RVIS';
A36.读取附属实体n2的取附属实体题录项SEFS的指标,获得SEFS指标个数M,令m=1,i=1;
A37.读取附属实体n2的附属实体题录项指标m;
A38.读取动态库实体指标结构RVIS指标i;
A39.判别附属实体题录项指标m与动态库实体指标结构RVIS指标i是否完全一致,如果一致,则m=m+1,并跳转到步骤A37执行,如果不一致,则判断I>i是否成立,如果成立,则i=i+1,并跳转到步骤A38执行,如果不成立则跳转到A310执行;
A310.将附属实体题录项指标m融入动态库临时实体指标结构RVIS'中,并判断M>m是否成立,如果成立,则m=m+1,并跳转到步骤A37执行,如果不成立则跳转到步骤A311执行;
A311.将源B、附属实体n2、静态库实体临时指标结构RSIS'传入实体动态库自动化成长器,并启动其运行;
A312.判断N2>n2是否成立,如果成立,则跳转到步骤A32执行;如果不成立,结束。
3.根据权利要求1所述的一种多源主附实体结构模块化构建的处理方法,其特征在于,步骤A4中所述动态库自动成长的具体方法为:
A41.监听并接收附属实体自动加载判别器传送过来的源B、附属实体n2、动态库临时实体指标结构RVIS'信息;
A42.从源B的指标数据库IDB中,读取标准指标体系结构EIS;
A43.依据附属实体n2的相关信息,建立动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R;
A44.将动态库临时实体指标结构RVIS'以及动态库临时实体指标结构RVIS'与标准指标体系结构EIS之间的关联关系R,存入实体动态数据库RVDB中;
A45.读取附属实体n2的数据,存入实体动态数据库RVDB中;
A46.发送信号S=True,将源B、附属实体n2信息传入实体动态库应用场景提取器并启动执行。
4.根据权利要求1所述的一种多源主附实体结构模块化构建的处理方法,其特征在于,步骤A5中所述实体动态库应用场景提取器的工作流程为:
A51.监听并接收实体动态库自动成长器的传送过来的源B、附属实体n2、信号S信息;
A52.判断S=True是否成立,如果成立,则执行步骤A53,否则,结束;
A53.则从源B对应的实体应用场景数据库ESDB中,读取附属实体n2对应的主实体M(M)与附属实体S(M)之间的应用场景ES;
A54.从源A的主实体对应的源应用场景数据库SDB中,读取源、库、表应用场景SES;
A55.从实体动态数据库RVDB中,读取相关实体动态信息V;
A56.将主实体M(M)与附属实体S(M)之间的应用场景ES、源库表应用场景SES、实体动态信息V信息进行关联,存入实体动态应用场景数据库SRVDB。
CN202210592832.1A 2022-05-27 2022-05-27 一种多源主附实体结构模块化构建的处理方法 Active CN114780654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210592832.1A CN114780654B (zh) 2022-05-27 2022-05-27 一种多源主附实体结构模块化构建的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210592832.1A CN114780654B (zh) 2022-05-27 2022-05-27 一种多源主附实体结构模块化构建的处理方法

Publications (2)

Publication Number Publication Date
CN114780654A CN114780654A (zh) 2022-07-22
CN114780654B true CN114780654B (zh) 2022-11-15

Family

ID=82408314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210592832.1A Active CN114780654B (zh) 2022-05-27 2022-05-27 一种多源主附实体结构模块化构建的处理方法

Country Status (1)

Country Link
CN (1) CN114780654B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361272B (zh) * 2023-05-17 2023-12-01 广东广宇科技发展有限公司 一种双态数据链接库的关联调整方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714129A (zh) * 2013-12-12 2014-04-09 用友软件股份有限公司 基于条件规则的动态数据结构和关系的构建装置和构建方法
US9031901B1 (en) * 2011-05-10 2015-05-12 Symantec Corporation Flexible database schema
CN111061775A (zh) * 2019-12-04 2020-04-24 中国标准化研究院 一种标准数据影响关系评价模型
CN111061576A (zh) * 2019-11-29 2020-04-24 深圳猛犸电动科技有限公司 一种实体对象的创建方法及系统
CN112486989A (zh) * 2020-11-28 2021-03-12 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004745B (zh) * 2009-09-02 2013-06-12 中国银联股份有限公司 数据转移系统及方法
CN102141992B (zh) * 2010-01-28 2015-04-29 广州市西美信息科技有限公司 多维数据库存储及查询的方法
CN102073698B (zh) * 2010-12-28 2012-10-17 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031901B1 (en) * 2011-05-10 2015-05-12 Symantec Corporation Flexible database schema
CN103714129A (zh) * 2013-12-12 2014-04-09 用友软件股份有限公司 基于条件规则的动态数据结构和关系的构建装置和构建方法
CN111061576A (zh) * 2019-11-29 2020-04-24 深圳猛犸电动科技有限公司 一种实体对象的创建方法及系统
CN111061775A (zh) * 2019-12-04 2020-04-24 中国标准化研究院 一种标准数据影响关系评价模型
CN112486989A (zh) * 2020-11-28 2021-03-12 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dexter: an open source framework for entity linking;Ceccarelli D 等;《Proceedings of the sixth international workshop on Exploiting semantic annotations in information retrieval》;20131028;17-20 *
基于ESVM的科技政策文本标签分类研究;吴峰 等;《河北省科学院学报》;20180315;第35卷(第01期);1-10 *
基于网络资源的实体知识库系统设计研究――以政府相关实体知识库为实例;周杰等;《情报科学》;20160105(第01期);89-93 *
多关系关联规则挖掘在考勤数据分析中的应用;姜丽莉 等;《电脑知识与技术》;20181225;第14卷(第36期);3-4 *
数据挖掘领域的科研合作网络分析;张玉涛 等;《图书情报工作》;20120320;第14卷(第06期);117-122+134 *

Also Published As

Publication number Publication date
CN114780654A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
US7379934B1 (en) Data mapping
US20210192389A1 (en) Method for ai optimization data governance
CN102999524B (zh) 一种文档关联检索方法及系统
CN112579852B (zh) 一种互动式网页数据精确采集方法
CN102262640A (zh) 一种全文检索文档数据库的方法及装置
CN114780654B (zh) 一种多源主附实体结构模块化构建的处理方法
CN111125213A (zh) 数据采集的方法、装置及其系统
CN116991931A (zh) 一种元数据管理方法和系统
CN113258676B (zh) 一种与bim模型交互集成的电力监控系统及交互集成方法
CN101957860A (zh) 一种发布、搜索信息的方法及装置
CN116932649A (zh) 数据库同步方法、数据库同步设备以及可读存储介质
CN103530353B (zh) 一种导航用户数据格式的自识别方法
CN115292285A (zh) 一种基于分布式架构的数据专题管理方法及系统
CN114880330B (zh) 单源多期指标体系模块化构建及实体自动识别处理方法
CN104679740A (zh) 数据处理系统
CN106528644A (zh) 一种遥感数据的检索方法及装置
CN111639128A (zh) 一种基于分布式的电商数据整合系统及方法
CN113282609A (zh) 一种基于大数据技术的智能解析数据的方法
CN113001538A (zh) 一种命令解析方法及系统
CN113760913B (zh) 一种弹性可扩展的装备费用采集方法
CN114969041B (zh) 一种多源主附实体同一性甄别及数据自补的处理方法
CN113420045B (zh) 一种基于交互式分析的技战法模型构建方法及系统
CN111309755B (zh) 面向多源异构数据融合的数据源选择方法
CN114201152A (zh) 基于数据库索引感知的数据库软件开发方法
CN115455921A (zh) 批量报表计算用报表单元格计算次序的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant