CN110598074A - 关于科技咨询大数据的统一资源组织管理的方法与系统 - Google Patents

关于科技咨询大数据的统一资源组织管理的方法与系统 Download PDF

Info

Publication number
CN110598074A
CN110598074A CN201910746217.XA CN201910746217A CN110598074A CN 110598074 A CN110598074 A CN 110598074A CN 201910746217 A CN201910746217 A CN 201910746217A CN 110598074 A CN110598074 A CN 110598074A
Authority
CN
China
Prior art keywords
data
scientific
layer
metadata
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910746217.XA
Other languages
English (en)
Inventor
鄂海红
宋美娜
胥香宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910746217.XA priority Critical patent/CN110598074A/zh
Publication of CN110598074A publication Critical patent/CN110598074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种关于科技咨询大数据的统一资源组织管理的方法与系统,其中,方法包括:根据科技咨询大数据确定包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据的元数据中心和每层的元数据标准;在数据分层的过程中,将科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将服务数据进行拼接组合,得到咨询成果;在分隔重组的过程中,从多种不同的角度组织科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据关系链重新组合新的科技咨询大数据。该方法可以有效解决了目前大数据海量多源异构、难以统一组织管理的问题。

Description

关于科技咨询大数据的统一资源组织管理的方法与系统
技术领域
本发明涉及信息技术及数据业务技术领域,特别涉及一种关于科技咨询大数据的统一资源组织管理的方法与系统。
背景技术
科技咨询是普及科学技术的一种形式,由具有现代自然科学、社会科学专业知识并熟悉咨询业务的专家组成的独立的智力团体,以科学为依据,以信息为基础,综合利用科学知识、技术、经验、信息,采用现代科学方法和先进手段,进行调研、分析、研究、预测,客观公正地提供委托项目的咨询成果,为政府部门、企事业单位和各类社会组织及各阶层客户的决策、运作提供智力服务。科技咨询需要大量的科技相关的数据作为支撑,而随着大数据时代的到来,海量的科技咨询数据散布在各个社区与集群,各个社区之间组织管理方式和侧重方向又各不相同,导致数据孤岛现象严重、分类范畴模糊,使得科技大数据的共享与使用成为了一项严峻的考验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种关于科技咨询大数据的统一资源组织管理的方法,该方法可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
本发明的另一个目的在于提出一种关于科技咨询大数据的统一资源组织管理的系统。
为达到上述目的,本发明一方面实施例提出了一种关于科技咨询大数据的统一资源组织管理的方法,包括以下步骤:根据科技咨询大数据确定元数据中心,所述元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组;在数据分层的过程中,将所述科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将所述服务数据进行拼接组合,得到咨询成果;在分隔重组的过程中,从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据所述关系链重新组合新的科技咨询大数据。
本发明实施例的关于科技咨询大数据的统一资源组织管理的方法,借鉴了国内外现有的各个领域中数据模型的构建方式与管理办法,大型互联网公司应用的统一数据建设理论,以及电信行业中已经成熟的共享信息与数据框架,并结合一系列与科技平台相关的元数据国家标准体系,提出了一套以元数据为驱动的分层组织、分隔并重组数据的架构设计方法,并为科技咨询大数据实现了一套具有“五域四链”的抽象化、结构化、稳定、开放的顶层数据架构的系统,证实了该方法的可行性,从而可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
以元数据为驱动,将分隔重组作为中心设计理念,并划分层级组织结构;通过科技咨询大数据信息域和关系链的定义与划分有效解决了目前大数据海量多源异构、难以统一组织管理的问题,
另外,根据本发明上述实施例的关于科技咨询大数据的统一资源组织管理的方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据科技咨询大数据确定元数据中心,包括:将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;将所述基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
进一步地,在本发明的一个实施例中,所述从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,包括:根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
进一步地,在本发明的一个实施例中,信息域包括人才域、技术域、机构域、区域信息域、经济域,且所述关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
进一步地,在本发明的一个实施例中,所述归纳数据层采用自底向上和自顶向下相结合的方式,且所述服务数据层采用自顶向下的方式。
为达到上述目的,本发明另一方面实施例提出了一种关于科技咨询大数据的统一资源组织管理的系统,包括:元数据驱动模块,用于根据科技咨询大数据确定元数据中心,所述元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组;分层组织模块,用于在数据分层的过程中,将所述科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将所述服务数据进行拼接组合,得到咨询成果;分隔重组模块,用于在分隔重组的过程中,从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据所述关系链重新组合新的科技咨询大数据。
本发明实施例的关于科技咨询大数据的统一资源组织管理的系统,借鉴了国内外现有的各个领域中数据模型的构建方式与管理办法,大型互联网公司应用的统一数据建设理论,以及电信行业中已经成熟的共享信息与数据框架,并结合一系列与科技平台相关的元数据国家标准体系,提出了一套以元数据为驱动的分层组织、分隔并重组数据的架构设计方法,并为科技咨询大数据实现了一套具有“五域四链”的抽象化、结构化、稳定、开放的顶层数据架构的系统,证实了该方法的可行性,从而可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
另外,根据本发明上述实施例的关于科技咨询大数据的统一资源组织管理的系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述元数据驱动模块进一步用于将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;将所述基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
进一步地,在本发明的一个实施例中,所述分隔重组模块进一步用于根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
进一步地,在本发明的一个实施例中,信息域包括人才域、技术域、机构域、区域信息域、经济域,且所述关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
进一步地,在本发明的一个实施例中,所述归纳数据层采用自底向上和自顶向下相结合的方式,且所述服务数据层采用自顶向下的方式。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的关于科技咨询大数据的统一资源组织管理的方法的流程图;
图2为根据本发明实施例的分层组织结构示意图;
图3为根据本发明实施例的科技咨询大数据五大信息域示意图;
图4为根据本发明实施例的科技咨询大数据四大关系链示意图;
图5为根据本发明实施例的科技咨询大数据分隔重组示意图;
图6为根据本发明实施例的关于科技咨询大数据的统一资源组织管理系统的结构示意图;
图7为根据本发明一个具体实施例的科技咨询大数据统一资源组织管理系统架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的关于科技咨询大数据的统一资源组织管理的方法与系统,首先将参照附图描述根据本发明实施例提出的关于科技咨询大数据的统一资源组织管理的方法。
图1是本发明一个实施例的关于科技咨询大数据的统一资源组织管理的方法的流程图。
如图1所示,该关于科技咨询大数据的统一资源组织管理的方法包括以下步骤:
在步骤S101中,根据科技咨询大数据确定元数据中心,元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组。
可以理解的是,元数据驱动:整套理论数据的基础定义与标准,对架构中每一层次的数据都进行了统一的标准规范。
进一步地,在本发明的一个实施例中,根据科技咨询大数据确定元数据中心,包括:将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;将基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
具体而言,元数据驱动包括:
本发明实施例梳理了科技咨询大数据资源体系,同时结合分层组织的设计思想,建立一个同样分层的、全面完善的元数据中心。其中包括:基础数据元数据,约束基础数据层数据,规范100+个基础实体和每个实体中的属性;归纳数据元数据,约束归纳数据层数据,规范n+个归纳实体及其属性;服务数据元数据,约束服务数据层数据,规范服务数据的实体及属性。每一层的元数据都是由核心元数据、通用元数据和专用元数据三部分组成,通用元数据是对核心元数据进行扩展形成的元数据,专用元数据是对通用元数据进行裁剪和扩展所形成的元数据,所有元数据的制定流程都应遵循如下的元数据标准化流程:分析资源特点、调研相关元数据标准、确定元数据内容、形成元数据标准。
基于这样的标准化流程,我们就可以对科技咨询领域的数据定义每层的元数据标准了,将基础层和归纳层数据统称为资源,资源核心元数据包括标识符、名称、提交日期、描述、关键词、资源类别、资源属性、提交机构等元数据元素,服务核心元数据则包含服务名称、关键词、发布日期、内容描述、标识符、服务分类等元数据元素。在数据分层和分隔重组的过程中,全程都由底层的元数据来进行驱动,以保证整个数据架构的规范与稳定。
在步骤S102中,在数据分层的过程中,将科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将服务数据进行拼接组合,得到咨询成果。
可以理解的是,分层组织:将数据从孤岛式的原始数据归纳成有价值的归纳数据,然后整合成能够对外直接提供服务的服务数据,最终将服务数据进行拼接组合,形成科技咨询报告等咨询成果。
进一步地,在本发明的一个实施例中,归纳数据层采用自底向上和自顶向下相结合的方式,且服务数据层采用自顶向下的方式。
具体而言,在现有的数据模型设计中,数据基础层被严重重复复制,耗费大量存储资源,最能体现数据复用性的数据中间层难以维护,同时,对于相同含义的指标数据,存在不同数据提供方都有自己的计算方式的情况,从而造成数据不一致。本发明中将重复的数据基础层从各个数据提供方抽取出来,进行比对和去重合并,组成统一的基础数据层,然后自底向上的逐层抽象聚合,直至能够直接向应用层提供服务,形成数据资产。如图2所示,具体思想如下:
(1)基础数据层:也可称为数据引入层,是整个分层组织的基石,来自多方的海量异构数据在这层被引入,将结构化数据增量或全量同步到数据仓库系统,对非结构化(日志)数据进行结构化处理也存储到数据仓库系统,然后根据数据业务需求和审计要求保存历史数据、进行数据清洗,完成基础层数据仓库的构建,保证基础数据不存在二义性与重复定义,确保数据的规范化与标准化;
(2)归纳数据层:采用自底向上和自顶向下相结合的方法,首先将基础数据层数据按类型分隔,然后对应服务应用层的具体数据需求,将数据进行整合与关联,建立一致数据分析维表,降低数据计算口径、算法不统一的风险;基于维度建模,采用明细宽表,复用关联计算,减少数据扫描;基于规范定义构建命名规范、口径一致的统计指标,为上层数据产品、应用和服务提供公共指标。通过归纳层高效地将散乱的基础数据有机的结合起来,节省存储资源,有效保证数据的复用性;
(3)服务数据层:采用自顶向下的模式,通过分析数据封装和业务规范的需求,形成服务数据视图,对上层提供主题式数据服务,其数据主要由归纳数据层生成,部分数据可直接由数据仓库基础层数据生成,对于不具公用性、复杂性很高的指标可以采取个性化指标加工,生成大型复合指标,针对展现需求,可以通过横表转纵表、趋势指标串的方式进行数据拼装,以达到主题式数据服务的目的。
在步骤S103中,在分隔重组的过程中,从多种不同的角度组织科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据关系链重新组合新的科技咨询大数据。
可以理解的是,以域分隔,以链重组:从两种不同的角度来组织科技咨询大数据,为了使数据易于管理,将数据分成五大信息域,而为了表现出各域之间数据的关系,并为科技咨询提供更富有洞察性的意见,又将数据根据四大关系链重新组合起来,支持数据全链路的追踪与溯源,全面而清晰的展现科技咨询大数据内部的组织与关联。
其中,在本发明的一个实施例中,信息域包括人才域、技术域、机构域、区域信息域、经济域,且关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
具体而言,如图3所示,信息域具体包括:人才域:主要是姓名、年龄、学历、任职类型等与人才相关的字段元素;技术域:涵盖专利、期刊、著作等知识产权相关的字段描述;机构域:整理了类型、名称、注册号、注册资金等基本工商信息的字段;区域信息域:主要是人口、省份、从业人数等区域信息;经济域:收录着行业代码、营业额、汇率、数量等经济相关信息字段。如图4所示,关系链具体包括:供应关系链:如供应、合作、促进、采购等,主要存在于经济、区域、机构和技术信息域之间;技术关系链:包括开源、授权、发表、攻关等系列关系,主要关联起人才和机构等实体;人才关系链:涉及人才交流、人才创业、人才任职等子关系,主要连接在人才域上;投资关系链:投资、并购、分支、合资等关系都归属其中,将五个信息域全部连通。
进一步地,在本发明的一个实施例中,从多种不同的角度组织科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,包括:根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
具体而言,将数据分层组织,只是将数据转变为资产的第一步,为了使得数据资产能够真正得以应用,本发明关注了应用的全链路体系,即数据的追踪和溯源,从数据获取到数据处理再到数据应用,实现端到端打通。从数据源开始,为了使数据易于管理,将数据分成不同的信息域,而为了表现出各域之间数据的关系,又将数据根据关系链重新组合起来,这种关系在分层组织中一直存在,除了全面而清晰的展示大数据内部的组织与关联,更能够使得数据链路在整个系统中打通,从数据源到数据处理到数据应用再返回数据源端端互通,为产品化奠定基础。“以域分隔,以链重组”即为统一数据资源信息管理方法的中心设计理念,如图5所示,具体可见下图:
在科技咨询场景下,本发明将整合了经济数据、产业数据、企业数据、专家人才、科技文献、专利、科技项目、科技成果、政策法规、标准规范等各源科技咨询数据的数据源分成不同信息域,再通过关系链重新连接,当数据源进入数据处理阶段,域中的数据会重组成不同的指标,但是域间的关系依旧存在在各个指标之间,同理在数据应用阶段会变成更复杂的服务数据,但是各个服务数据之间还保持着原有的关系链。关系链贯穿于整个数据资产的生命周期流程中,可以使得架构具有稳定性高、扩展性强的、层次化、图谱化的特点。按此方法设计出来的科技咨询大数据信息域架构和关系链组织模型,会为科技咨询提供更富有洞察性的意见。
综上,针对科技咨询大数据,数据孤岛现象严重、分类范畴模糊、无法统一管理等问题,提出一套科技咨询场景下基于元数据驱动、分层组织、分隔重组三项设计原则的大数据统一资源整合管理方法。本发明实施例的方法以元数据为驱动,将“以域分隔,以链重组”作为中心设计理念,并把科技咨询大数据划分成“基础数据/归纳数据/服务数据”的层级组织结构,把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”。
根据本发明实施例提出的关于科技咨询大数据的统一资源组织管理的方法,借鉴了国内外现有的各个领域中数据模型的构建方式与管理办法,大型互联网公司应用的统一数据建设理论,以及电信行业中已经成熟的共享信息与数据框架,并结合一系列与科技平台相关的元数据国家标准体系,提出了一套以元数据为驱动的分层组织、分隔并重组数据的架构设计方法,并为科技咨询大数据实现了一套具有“五域四链”的抽象化、结构化、稳定、开放的顶层数据架构的系统,证实了该方法的可行性,从而可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
其次参照附图描述根据本发明实施例提出的关于科技咨询大数据的统一资源组织管理的系统。
图6是本发明一个实施例的关于科技咨询大数据的统一资源组织管理的系统的结构示意图。
如图6所示,该关于科技咨询大数据的统一资源组织管理的系统10包括:元数据驱动模块100、分层组织模块200和分隔重组模块300。
其中,元数据驱动模块100用于根据科技咨询大数据确定元数据中心,元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组。分层组织模块200用于在数据分层的过程中,将科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将服务数据进行拼接组合,得到咨询成果。分隔重组模块300用于在分隔重组的过程中,从多种不同的角度组织科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据关系链重新组合新的科技咨询大数据。本发明实施例的系统10可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
进一步地,在本发明的一个实施例中,元数据驱动模块100进一步用于将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;将基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
进一步地,在本发明的一个实施例中,分隔重组模块300进一步用于根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
进一步地,在本发明的一个实施例中,信息域包括人才域、技术域、机构域、区域信息域、经济域,且关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
进一步地,在本发明的一个实施例中,归纳数据层采用自底向上和自顶向下相结合的方式,且服务数据层采用自顶向下的方式。
具体而言,如图7所示,根据本发明实施例的组织管理方法,针对科技咨询这一具体的业务场景,本发明实现了一套科技咨询大数据统一资源信息管理系统。主要数据来源有三方:天眼查等企业提供的工商信息、智慧芽等企业提供的专利信息、以及通过爬虫爬取的新闻资讯等,旨在形成以企业为主要实体,以企业所属技术领域为标签,以企业发表的相关专利、与企业及其技术领域相关的新闻、与企业相关的人和技术、以及投融资关系和金额等为维度的科技咨询领域大数据资产中心,全面展示各个领域企业发展现状,从而为科技咨询公司更好的提供数据服务,让科技咨询更富有洞察性与说服力。
1、数据采集与治理
系统通过ETL抽取和爬虫等手段采集到原始数据,然后通过对数据库进行表同步、对表格进行列同步、清洗整理等手段,将原始数据整理成无冗余、无空值的初始数据,并采用半人工的方法初步将初始数据划分成人才、区域、经济、机构、技术等五大数据域,如图3所示。
2、数据加工
得到初始数据之后,需要进行进一步的加工,使分散的数据之间关联起来,除了通过id关联对表格进行融合和聚合,还需调用机器学习模型完成标签体系的构建以及指标的加工,需要完成专利中技术关键词以及新闻中企业实体、技术关键词的抽取,再与工商数据中的企业实体进行关联。对于标签体系的构建,需要借助机器学习模型,使用信息抽取技术从专利中提取出N个技术关键词,这里的技术关键词可能存在于标准库或者同义词库中,当在两者中均不存在时,需要人工辅助标注;新闻信息则是从新闻门户网站上以企业名称为关键词进行抓取,目的是从企业新闻中发现企业的技术动态与投融资关系,比如企业在人脸识别领域发布了某款新产品,或者企业进行了投资或融资行为,并将新闻实体与企业实体建立关联。通过对新闻提取N个技术关键词,处理逻辑同专利,将新闻与标准化的技术关键词建立连接。最终将五大信息域关联如图4所示。
3、数据服务
数据加工好后,就可以组成服务数据对外进行服务,从业务角度来理解,业务场景会对所需要的服务数据提出需求,通过关系链找到所需服务数据,服务数据会根据其内部组成和关系链去查找相关的归纳数据,归纳数据则会根据自身组合的字段和关系链关系去请求基础数据,基础数据将会依据基础元数据的规范组成归纳数据,归纳数据向上组成服务数据,服务数据会以数据表或者API的形式标准向上提供服务,为业务提供数据支持,最终完成业务场景的需求。举例如下:
比如某一公司想要了解当前国内人工智能产业各个区域发展现状,可以在平台中搜索国内、人工智能、区域等关键词,那么就对做人工智能相关的企业信息、每家企业的发展布局和竞争分析,以及当前的优劣势分析等服务数据发出了请求,而这些信息又是需要通过企业的投融资情况、舆情信息和股本结构等更细粒度的数据分析得来,这些数据再向下拆分,最终将细化到企业名称、组织机构代码、法人名称、专利号、年度收入、所属区域等,将最细粒度的相关数据向上回溯,以人工智能相关企业实体为中心,以区域、投融资、收入、专利数目等为维度,绘出企业关系图谱及市场生态图谱,再辅以条形图、饼状图等可视化分析,最终生成一份当前国内人工智能产业各区域发展分析报告,完成数据服务。
综上,本发明针对科技咨询领域,设计了三层的分层组织结构,将数据源采集融通后的基础数据分成人才、区域、经济、机构、技术五大信息域,域与域之间关联形成供应、技术、人才和投资四大关系链,且关系链贯穿整个架构流程,数据源向上经过公共关联和指标加工等归纳工作变成多样化的指标数据,然后对不同业务场景需求提供服务,整个架构都由元数据中心中的各种元数据加以驱动,构成一个高稳定、强扩展、多层次的统一数据资源管理系统。
另外,关于五域四链的补充说明如下:
将科技咨询大数据用域和链的方式分隔重组,实际上是从两个不同的角度来对其进行表达,将数据分成五大信息域,是为了使数据易于管理,而又将数据根据四大关系链重新组合起来,是为了表现出各域之间数据的关系,且能够在整个数据流通的架构中支持数据全链路的追踪与溯源,全面而清晰的展现科技咨询大数据内部的组织与关联。
本发明实施例中将科技咨询大数据分成三层组织结构,最外层是海量多源异构的科技咨询相关数据,第二层是对其归纳整合而形成的归纳数据,再往里是更主题化的服务数据视图,相对于最外层,二三两层的数据更具规律性和统一性,能够很方便的进行管理,但是最外层的海量数据可以来自不同的渠道比如爬虫、数据库、接口等等,不仅结构不同,还存在大量的冗余,比如公司id这一字段,在工商数据库、专利数据库、经济数据库中等等都会出现,而且会有不同的命名方式,这对于统一数据资源的整合与复用是不利的,因此为了将数据统一规范组织起来,本发明实施例将最外层的基础数据进行整理、去重、统一命名,并根据特点和性质把它们分成了五大信息域。
五大信息域将基础数据分隔开,但并不意味着数据之间的联系也被分隔开,科技咨询大数据还是一个整体,为了展现出数据之间的关系,也为了更好的洞察数据,本发明又将信息域之间的关系总结成四大关系链,四大关系链基本可以涵盖基础数据中涉及的所有关系,这些关系一直存在与数据之间,跟随数据的流动贯穿在整个系统之中,能够清晰的展示数据来龙去脉,达到了数据的追踪和溯源的目的,使已经层次化的系统进一步的具有图谱化的特点,增强系统的稳定性与实用性。
需要说明的是,前述对关于科技咨询大数据的统一资源组织管理的方法实施例的解释说明也适用于该实施例的关于科技咨询大数据的统一资源组织管理的装置,此处不再赘述。
根据本发明实施例提出的关于科技咨询大数据的统一资源组织管理的系统,借鉴了国内外现有的各个领域中数据模型的构建方式与管理办法,大型互联网公司应用的统一数据建设理论,以及电信行业中已经成熟的共享信息与数据框架,并结合一系列与科技平台相关的元数据国家标准体系,提出了一套以元数据为驱动的分层组织、分隔并重组数据的架构设计方法,并为科技咨询大数据实现了一套具有“五域四链”的抽象化、结构化、稳定、开放的顶层数据架构的系统,证实了该方法的可行性,从而可以把分布在各个数据孤岛的、多源海量的科技相关数据整合成能够对科技咨询服务行业提供数据服务的“科技咨询数据资产”,有效解决了目前大数据海量多源异构、难以统一组织管理的问题。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种关于科技咨询大数据的统一资源组织管理的方法,其特征在于,包括以下步骤:
根据科技咨询大数据确定元数据中心,所述元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组;
在数据分层的过程中,将所述科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将所述服务数据进行拼接组合,得到咨询成果;以及
在分隔重组的过程中,从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据所述关系链重新组合新的科技咨询大数据。
2.根据权利要求1所述的方法,其特征在于,所述根据科技咨询大数据确定元数据中心,包括:
将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;
将所述基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;
通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
3.根据权利要求1所述的方法,其特征在于,所述从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,包括:
根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
4.根据权利要求3所述的方法,其特征在于,信息域包括人才域、技术域、机构域、区域信息域、经济域,且所述关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
5.根据权利要求3或所述的方法,其特征在于,所述归纳数据层采用自底向上和自顶向下相结合的方式,且所述服务数据层采用自顶向下的方式。
6.一种关于科技咨询大数据的统一资源组织管理的系统,其特征在于,包括:
元数据驱动模块,用于根据科技咨询大数据确定元数据中心,所述元数据中心包括基础层的基础数据元数据、归纳层的归纳数据元数据、服务层的服务数据元数据,以确定每层的元数据标准,由元数据驱动数据分层和分隔重组;
分层组织模块,用于在数据分层的过程中,将所述科技咨询大数据从孤岛式的原始数据归纳生成归纳数据,并且整合生成对外直接提供服务的服务数据,及将所述服务数据进行拼接组合,得到咨询成果;以及
分隔重组模块,用于在分隔重组的过程中,从多种不同的角度组织所述科技咨询大数据,并分成五大信息域,表现出各域之间数据的关系得到关系链,及根据所述关系链重新组合新的科技咨询大数据。
7.根据权利要求6所述的系统,其特征在于,所述元数据驱动模块进一步用于将结构化数据增量或全量同步到数据仓库系统,对非结构化数据进行结构化处理,并根据数据业务需求和审计要求保存历史数据、进行数据清洗,构建基础层数据仓库,确定基础数据层;将所述基础数据层的数据按类型分隔,并根据对应服务应用层的数据需求进行整合与关联,建立数据分析维表,并基于维度建模,且基于规范定义构建命名规范、口径一致的统计指标,确定归纳数据层;通过分析数据封装和业务规范的需求形成服务数据视图,对上层提供主题式数据服务,确定服务数据层。
8.根据权利要求6所述的装置,其特征在于,所述分隔重组模块进一步用于根据各源科技咨询数据的数据源分成不同信息域,并通过关系链重新连接,当数据源进入数据处理阶段,域中的数据重组成不同的指标。
9.根据权利要求8所述的装置,其特征在于,信息域包括人才域、技术域、机构域、区域信息域、经济域,且所述关系链包括供应关系链、技术关系链、人才关系链和投资关系链。
10.根据权利要求8或所述的装置,其特征在于,所述归纳数据层采用自底向上和自顶向下相结合的方式,且所述服务数据层采用自顶向下的方式。
CN201910746217.XA 2019-08-13 2019-08-13 关于科技咨询大数据的统一资源组织管理的方法与系统 Pending CN110598074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910746217.XA CN110598074A (zh) 2019-08-13 2019-08-13 关于科技咨询大数据的统一资源组织管理的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910746217.XA CN110598074A (zh) 2019-08-13 2019-08-13 关于科技咨询大数据的统一资源组织管理的方法与系统

Publications (1)

Publication Number Publication Date
CN110598074A true CN110598074A (zh) 2019-12-20

Family

ID=68854088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910746217.XA Pending CN110598074A (zh) 2019-08-13 2019-08-13 关于科技咨询大数据的统一资源组织管理的方法与系统

Country Status (1)

Country Link
CN (1) CN110598074A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339345A (zh) * 2020-02-26 2020-06-26 北京国网信通埃森哲信息技术有限公司 多平台人脸识别服务接口差异化屏蔽方法、系统及存储介质
CN111968017A (zh) * 2020-09-03 2020-11-20 厦门城市职业学院(厦门市广播电视大学) 一种高校科研管理信息共享系统
CN115391432A (zh) * 2022-10-28 2022-11-25 中国电子科技集团公司第十五研究所 司法大数据处理方法、系统、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
EP3435257A1 (en) * 2017-07-28 2019-01-30 Risk Management Solutions, Inc. Metadata-based general request translator for distributed computer systems
CN109299199A (zh) * 2018-10-15 2019-02-01 河北师范大学 基于数据仓库的易制毒化学品多维分析系统及实现方法
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
EP3435257A1 (en) * 2017-07-28 2019-01-30 Risk Management Solutions, Inc. Metadata-based general request translator for distributed computer systems
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN109299199A (zh) * 2018-10-15 2019-02-01 河北师范大学 基于数据仓库的易制毒化学品多维分析系统及实现方法
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339345A (zh) * 2020-02-26 2020-06-26 北京国网信通埃森哲信息技术有限公司 多平台人脸识别服务接口差异化屏蔽方法、系统及存储介质
CN111339345B (zh) * 2020-02-26 2023-09-19 北京国网信通埃森哲信息技术有限公司 多平台人脸识别服务接口差异化屏蔽方法、系统及存储介质
CN111968017A (zh) * 2020-09-03 2020-11-20 厦门城市职业学院(厦门市广播电视大学) 一种高校科研管理信息共享系统
CN115391432A (zh) * 2022-10-28 2022-11-25 中国电子科技集团公司第十五研究所 司法大数据处理方法、系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN113392227B (zh) 面向轨道交通领域的元数据知识图谱引擎系统
Chen et al. The thematic and citation landscape of data and knowledge engineering (1985–2007)
CN110781236A (zh) 一种构建政务大数据治理体系的方法
Corallo et al. Understanding and defining dark data for the manufacturing industry
CN110598074A (zh) 关于科技咨询大数据的统一资源组织管理的方法与系统
CN106407216A (zh) 基于语义网构建路径开发的线索追溯稽核系统及其构建方法
CN114138766A (zh) 数据空间下多价值链数据体系分析架构及整合协同方法
CN114064922B (zh) 一种基于第三方云平台的服务价值链多链知识图谱构建方法
Jalali et al. Research trends on big data domain using text mining algorithms
CN115496337A (zh) 一种支撑企业大脑的数据系统
Brito-Ochoa et al. A bibliometric analysis of dynamic capabilities in the field of family firms (2009-2019)
CN116415203A (zh) 一种基于大数据的政务信息智能融合系统及方法
CN106354799A (zh) 基于数据质量的主题数据集多层分面过滤方法与系统
CN115309911A (zh) 一种基于知识图谱的mes、erp信息集成方法
Su et al. Data governance facilitate digital transformation of oil and gas industry
Schwade et al. A semantic data lake for harmonizing data from cross-platform digital workspaces using ontology-based data access
Udokwu et al. Proposals for addressing research gaps at the intersection of data analytics and supply chain management
Li et al. Industrial internet platforms: Applications in BF ironmaking
CN109522336A (zh) 一种基于电子政务内网信息资源的决策分析系统及方法
Shi et al. Human resources balanced allocation method based on deep learning algorithm
Kumari et al. Exploring the Intersection of Entrepreneurship and Blockchain Technology: A Research Landscape Through R Studio and VOSviewer
Ahmed et al. Contributions of PDM systems in organizational technical data management
Kharchuk et al. The Intellectual Structure of Sustainable Leadership Studies: Bibliometric Analysis
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
Liu et al. OPSDS: a semantic data integration and service system based on domain ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220