CN112836060A

CN112836060A - 一种科技创新数据的图谱构建方法及装置

Info

Publication number: CN112836060A
Application number: CN201911165926.5A
Authority: CN
Inventors: 姚长青; 刘志辉; 杨岩; 张均胜; 张兆锋
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-05-25
Anticipated expiration: 2039-11-25
Also published as: CN112836060B

Abstract

本公开公开了一种科技创新数据的图谱构建方法和装置，其中，方法包括：从多类型的科技创新数据源中采集多种类型的科技创新数据；对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别；根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果；根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果；根据所述空间分析结果构建科技创新数据的图谱信息，并对所述图谱信息进行可视化展示。通过该技术方案，解决了地理空间分析技术与科技创新决策结合的技术瓶颈，为科技创新决策提供了支撑。

Description

一种科技创新数据的图谱构建方法及装置

技术领域

本公开涉及数据处理技术领域，更具体地，涉及一种科技创新数据的图谱构建方法及装置。

背景技术

现有科学知识图谱的分析方法：传统的科学知识图谱是以科学计量学原理为基础，通过简单图表直观地表达了一些科学统计结果。主要应用范围集中在知识组织呈现，例如利用文献共词、共引和耦合、合作网络分析等基础理论，研究知识或文献的组织规律和发展脉络。

但现有的科学知识图谱应用具有以下不足：

科学知识图谱对于时间维度和科技创新成果产出描述分析较多，对于多元的创新主体，如企业、高校、科研院所、科技服务机构、政府等与科技成果(论文、专利、技术交易)缺乏数据间的关联和一体化的分析。

发明内容

鉴于上述问题，本公开提出了一种科技创新数据的图谱构建方法和相应的装置，其对海量科技大数据进行了汇集、抽取、关联处理，针对多元创新主体和丰富的创新成果形成了中国科技创新的知识图谱，解决了地理空间分析技术与科技创新决策结合的技术瓶颈，为科技创新决策提供了支撑。

根据本公开实施例的第一方面，提供一种科技创新数据的图谱构建方法，包括：

从多类型的科技创新数据源中采集多种类型的科技创新数据，所述科技创新数据包括以下至少一项：论文数据、专利数据、科研基金数据和高新技术企业数据；

对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别；

根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果；

根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果；

根据所述空间分析结果构建科技创新数据的图谱信息，并对所述图谱信息进行可视化展示。

在一个实施例中，对所述科技创新数据进行实体抽取，实体的地理信息的识别和实体关系抽取，包括：

对于结构化的科技创新数据，使用数据的字段名称规则进行实体抽取；

根据实体的所属单位和地址进行实体的地理信息的解析和识别；

对于结构化的科技创新数据，按照预设的实体关系对数据进行抽取，得到实体之间的关系和部分实体的属性。

在一个实施例中，所述预设的实体关系包括以下至少一项：科技创新人员之间的合作关系，单位之间的合作关系，城市之间的合作关系。

在一个实施例中，所述使用数据的字段名称规则进行实体抽取，包括：

对于论文数据，字段名称规则为作者及单位，抽取的实体为对应的作者名称和单位名称；

对于专利数据，字段名称规则为发明人、申请人和申请人地址，抽取的实体为对应的发明人名称、申请人名称和申请人的具体地址；

对于科研基金数据，字段名称规则为申请人和依托单位，抽取的实体为对应的申请人名称和依托单位名称；

对于高新技术企业数据，字段名称规则为企业申请人和企业，抽取的实体为对应的企业申请人名称和企业名称；

对于已经采集的人员信息，字段名称规则为人员、依托单位、发表的论文、申请基金和申请的专利信息，抽取的实体为人员名称、依托单位名称、发表的论文名称、申请基金金额和具体的专利信息。

在一个实施例中，根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果，包括：

对不同类型的科技创新数据，分别进行所述科技创新数据所属类型对应领域内的单一映射；和/或

根据所述实体关系，对不同类型的科技创新数据进行多维度的关联映射。

在一个实施例中，对不同类型的科技创新数据，分别进行所述科技创新数据所属类型对应领域内的单一映射，包括：

对于论文数据，获取论文分类号，并将所述论文分类号与预设的统一图书分类号进行关联，并将所述论文数据与所述论文数据对应的学科领域进行映射；

对于专利数据，获取专利的IPC分类号，并将所述IPC分类号与对应的技术领域进行映射；

对于科研基金数据，获取学部号和学科分类代码，并将所述学部号和学科分类代码与对应的预设的分类表进行映射；

对于高新技术企业数据，获取企业所对应的行业类型，并将所属行业类型与对应的产业类型进行映射。

在一个实施例中，所述根据所述实体关系，对不同类型的科技创新数据进行多维度的关联映射，包括以下任一项或多项：

以城市为主体，通过驻地在该城市的科研单位的论文领域、专利技术领域、基金学科领域、企业对应的产业领域进行城市领域信息分类映射；

以单位为主体，通过其内部人员申请的专利、撰写的论文、基金与企业行业、产业、学科领域建立映射关联关系；

以科技创新人员为主体，通过不同科技创新人员所归属的产业、学科和技术领域建立映射关联关系。

在一个实施例中，所述根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果，包括：

根据所述数据关联与映射结果和所述地理信息，以城市为单元对所述科技创新数据进行空间统计，并以城市群为对象按照预设空间分析方法对所述科技创新数据进行空间分析，得到空间分析结果。

在一个实施例中，所述预设空间分析方法包括以下任一项或多项：

空间密度分析方法、均匀度分析方法、首位度分析方法、位序规模分析方法、基尼系数方法、泰尔指数方法、局部莫兰指数方法和社会网络分析方法。

根据本公开实施例的第二方面，提供一种科技创新数据的图谱构建装置，包括：

数据采集模块，用于从多类型的科技创新数据源中采集多种类型的科技创新数据，所述科技创新数据包括以下至少一项：论文数据、专利数据、科研基金数据和高新技术企业数据；

数据抽取模块，用于对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别；

数据关联模块，用于根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果；

空间分析模块，用于根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果；

可视化展示模块，用于根据所述空间分析结果构建科技创新数据的图谱信息，并对所述图谱信息进行可视化展示。

在一个实施例中，所述数据抽取模块用于：

在一个实施例中，所述数据关联模块用于：

在一个实施例中，所述空间分析模块用于：

根据本公开实施例的第三方面，提供一种科技创新数据的图谱构建装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现如第一方面或第一方面任一实施例中所述的方法。

本公开实施例中，针对中国科技创新监测与评估的需求，对海量科技大数据进行了汇集、抽取、关联处理，针对多元创新主体和丰富的创新成果形成了中国科技创新的知识图谱，并且基于科学计量分析，探索性空间分析技术结合科技创新数据，开发了城市科技创新空间分析模块，解决了地理空间分析技术与科技创新决策结合的技术瓶颈，为科技创新决策提供了支撑，同时利用地理信息时空可视化技术，针对科技创新指标开发相应的模块，使其可以进行空间展示，同时提供指标设置与分析功能的需求。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开一个实施例的科技创新数据的图谱构建方法的流程图。

图2示出了根据本公开另一个实施例的科技创新数据的图谱构建方法的流程图。

图3示出了根据本公开一个实施例的科技创新数据的图谱构建装置的框图。

图4示出了根据本公开另一个实施例的科技创新数据的图谱构建装置的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

在本公开的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

如图1所示，根据本公开实施例的第一方面，提供一种科技创新数据的图谱构建方法，包括以下步骤S101至步骤S105：

步骤S101，从多类型的科技创新数据源中采集多种类型的科技创新数据，科技创新数据包括以下至少一项：论文数据、专利数据、科研基金数据和高新技术企业数据。

步骤S102，对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别。

在一个实施例中，步骤S102包括步骤S201-S203：

步骤S201，对于结构化的科技创新数据，使用数据的字段名称规则进行实体抽取。

对于论文数据，通过统一的ID号将不同作者及单位分别进行存储，一篇论文可以解析出n个作者和相应的单位。

对于专利数据，通过遍历对发明人、申请人和申请人地址进行抽取。

对于科研基金数据，通过遍历对申请人和依托单位进行抽取。

对于高新技术企业数据，通过遍历对企业申请人和企业名称进行抽取。

对于已经采集的人员信息，通过遍历对人员、依托单位、发表的论文、申请基金和申请的专利信息进行抽取。

步骤S202，根据实体的所属单位和地址进行实体的地理信息的解析和识别。

步骤S203，对于结构化的科技创新数据，按照预设的实体关系对数据进行抽取，得到实体之间的关系和部分实体的属性。

在一个实施例中，预设的实体关系包括以下至少一项：科技创新人员之间的合作关系，单位之间的合作关系，城市之间的合作关系。

步骤S103，根据实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果。

在一个实施例中，根据实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果，包括：

对不同类型的科技创新数据，分别进行所述科技创新数据所属类型对应领域内的单一映射；和/或根据实体关系，对不同类型的科技创新数据进行多维度的关联映射。

在一个实施例中，对任一类型的科技创新数据进行本领域内的单一映射，包括：

对于论文数据，通过结构化数据表，将论文分类号与中国国家图书分类号进行关联，并将论文数据与其对应的学科领域进行映射。

对于专利数据，利可以用专利的IPC(international patent classification，国际专利分类)分类号进行IPC与技术领域的映射。

对于科研基金数据，可以利用国家自然科学基金数据申请的学部号和学科分类代码与其官方分类表进行映射，并对科研基金数据多级学科分类进行映射。

对于高新技术企业数据，可以根据其国民经济行业分类与国际统计局的战略新兴产业及国民经济行业对照表进行国民经济行业与战略新兴产业映射。

在一个实施例中，根据实体关系，对不同类型的科技创新数据进行多维度的关联映射，包括以下任一项或多项：

以城市为主体，通过驻地在该城市的科研单位的论文领域、专利技术领域、基金学科领域、企业战略新兴产业领域进行城市领域信息分类映射。

以单位为主体，通过其内部人员申请的专利、撰写的论文、基金与多个国民经济行业、战略新兴产业、学科领域产生映射关联关系。

以科技创新人员为主体，将科技创新人员归属不同的产业、学科和技术领域。

将映射信息通过结构化数据库以单位和城市为主体进行存储，构建领域与不同主体之间的关联与映射。

步骤S104，根据数据关联与映射结果和地理信息，对科技创新数据进行空间统计和空间分析，得到空间分析结果。

步骤S105，根据空间分析结果构建科技创新数据的图谱信息，并对图谱信息进行可视化展示。

其中，可以利用数据关联和空间分析结果，结合地图，属性图表(饼状图、柱状图)等，对科技创新分析数据进行可视化，例如可以通过专利转移、论文合作等信息展示，个人与个人，单位与单位，城市与城市间的合作关系。

在该实施例中，针对中国科技创新监测与评估的需求，对海量科技大数据进行了汇集、抽取、关联处理，针对多元创新主体和丰富的创新成果形成了中国科技创新的知识图谱，并且基于科学计量分析，探索性空间分析技术结合科技创新数据，开发了城市科技创新空间分析模块，解决了地理空间分析技术与科技创新决策结合的技术瓶颈，为科技创新决策提供了支撑，同时利用地理信息时空可视化技术，针对科技创新指标开发相应的模块，使其可以进行空间展示，同时提供指标设置与分析功能的需求。

例如，张三是某数据公司经理，同时也是某大学教授，也是某一篇论文的作者，也是某个专利的申请人，那么以他为中心可以进行人—公司-论文-专利之间的实体关联关系构建，同时通过地理空间信息的解析，可以解析出张三这个人所在的城市，那么通过大量的这种解析就可以将人-城市-企业-论文-专利进行结合，后续可以以城市作为研究对象，分析这个城市的专利、论文、人才、企业数量。更进一步，如果对专利IPC分类号，论文分类号进行关联映射，则可以跟国民经济行业、战略新兴产业、科学研究领域进行映射，那么这样的话就可以构建一个复杂的网络。

在一个实施例中，根据数据关联与映射结果和地理信息，对科技创新数据进行空间统计和空间分析，得到空间分析结果，包括：

根据数据关联与映射结果和地理信息，以城市为单元对科技创新数据进行空间统计，并以城市群为对象按照预设空间分析方法对科技创新数据进行空间分析，得到空间分析结果。

在一个实施例中，预设空间分析方法包括以下任一项或多项：

下面详细介绍各个分析算法。

1)空间密度分析方法

空间密度分析方法多应用于人口空间单元与结构分析方面，主要针对城市内部及区域人口分布的时空变化进行了研究。人口密度结合空间插值分析方法，可以直观地反映区域人口分布和聚集城市的中心性。在本研究中，利用空间数据和研究信息的数量(论文、专利、企业、基金、人才)数据，计算科技信息研究对象的数量(论文、专利、企业、基金、人才)的空间密度，其公式如下所示：

其中Di表示研究信息的数量(论文、专利、企业、基金、人才)空间密度，BSPi表示研究信息的数量(论文、专利、企业、基金、人才)，Si表示城市行政区划面积。同时利用距离反比例权重法进行空间插值，展现城市群科技信息研究对象的数量(论文、专利、企业、基金、人才)分布密度变化。

2)均匀度分析方法

多城市构成的区域内，城市不同指标的分散和集聚往往需要定量化的计算和表征，根据改进前人提出的均匀度指数计算方法，将区域面积引入均匀度计算当中，以表征区域各单元某一指标的分布均衡程度，其计算公式如下所示：

式中UI为均匀度指数；ti表示每个单元指标占城市总指标的比重。UI的取值范围为(0,1)，I越接近1表明上述特征分布在区域更加均匀，值越小则表明越集聚。

3)首位度分析方法

城市首位度往往用来反映城市在区域的主导性，在1939年，杰斐逊首先提出了首位度的计算方法，其基本计算方法为将研究区域内排名第一城市和第二城市的人口规模，在实际应用中也可以根据研究对象将其替换为其他对象，本文针对研究信息的数量(论文、专利、企业、基金、人才)数量进行首位度计算。首位度计算方法有二城市法、四城市法以及十一城市法。由于城市群规模限制，本公开中采用的二城市首位度和四城市首位度计算方法，其公式如下所示：

公式(1)和公式(2)中，S2和S4分别代表二城市首位度和四城市首位度，BSP1代表研究信息的数量(论文、专利、企业、基金、人才)数量排名第1的城市，BSP2、BSP3、BSP4代表代表排名第2、第3、第4的城市其研究人员数量。

4)位序规模分析方法

位序一规模法则(Rank-Size Rule)是从城市的规模和城市规模位序的关系角度来考察一个城市体系的规模分布状况。对于城市位序与规模的研究，最早由奥尔巴克(Auerbach，1913)和辛格(Singer，1936)提出，根据其研究，城市的位序和规模可以由以下数学关系表示：

y＝B×x^-a

两边取对数则可变为如下形式：

log(y)＝-a×log(x)+log(B)

上述方程中，y代表行政区某一指标的规模，x代表其位序，B为常数，而a则可以表示位序-规模的维数，通常认为当a＝1时，分布结构较为均衡，而当a<1时分布比较分布，城市体系结构不突出，而当a>1时则表示等级较高城市对于相应指标而言，具有较高的集聚性。在本文中，x由同一城市群内不同科技研究对象的数量(论文、专利、企业、基金、人才)数量排序得到，而y则代表相应不同科技研究对象的数量(论文、专利、企业、基金、人才)数量，同时，通过回归分析得到a的值。

5)基尼系数方法

基尼系数，是由意大利经济学家c.基尼在其1912年首次提出的一种不均等指数演化而来。

基尼系数G的计算方法如公式所示:

G是科技主体的数量(论文、专利、企业、基金、人才)基尼系数，n代表城市个数，

代表变量xij的平均值，xi和xj分别为任意两个城市的数量(论文、专利、企业、基金、人才)密度，G取值在0到1之间，0代表完全的均匀分布而1代表完全集中[14]。如果G值在0.2-0.4之间，表示分配较合理，如果G值在0.4-0.5之间，表示分配差距较大，而如果G值大于0.5则表示分配悬殊。

6)泰尔指数方法

泰尔指数(Theil index)采用信息理论中关于熵计算的概念来进行计算，其计算方法如以下公式所示：

式中，T代表泰尔指数，Ei代表熵指数，n为研究个体的数量，i为索引项,yi表示某一对象指标值，而

表示所有指标的平均值，不考虑分组的泰尔指数是熵指数计算方法的一个特例。泰尔指数对于单一指标而言，即为其所有研究个体熵指数的加和。泰尔指数的取值范围在(0,ln(n))之间，泰尔指数为0表示均匀分布，泰尔指数越大则表示空间分布集中，集聚度越高。相较于基尼系数，利用熵值的计算泰尔指数可以测度每个研究个体的不均衡度。

7)局部莫兰指数方法

事物在地理上的空间分布具有一定的相似性。空间自相关分析是探索事物空间分布的重要手段。空间自相关可以从全局和局部两个角度来对问题进行分析，前者能够描述事物的整体情况，而后者则可以定量地考察某一个城市与其他城市的关系和类型。

空间权重矩阵是进行空间自相关分析的前提和基础。空间权重矩阵的构造主要依赖于两种空间关系即距离关系与邻接关系。本研究以地级市为基本研究单元，采用邻接矩阵方式，构建空间权重矩阵，采用ArcGIS 10.1桌面软件生成城市间的空间邻接信息，基于边邻接关系建立邻接矩阵确定空间权重。

局部空间自相关，其英文名称为Local Moran’s Index(LMI)。其计算方法如以下公式所示：

LMI为局部莫兰指数，xi代表空间上i点的实测值，Wij是空间权重代表i,j两个不同空间点之间的空间权重，

为变量均值。在本文中，将采用前述公式(3)中计算得到的E值，来表征每个城市对于科研信息主体的数量(论文、专利、企业、基金、人才)的集聚度，通过对E值进行局部空间自相关分析，探求长江中游城市群内城市间的关系。

根据局部自相可以将空间相关关系分为五种类型：针对某一研究对象(本文中为测度科研信息的数量集聚的熵指数E，其数值大小代表了该类型数据的空间集聚程度)，若某一城市及其周边的数量集聚度较高，则其类型为High-High型(简称HH)，如果某一城市及其周边城市的数量集聚度均较低则其类型为类型Low-Low型(简称LL)。同理，如果科技创新主体(论文、专利、企业、基金、人才)在某一城市集聚度高但在周边城市集聚度低，则为High-Low型(简称HL)，反之，则为Low-High型(简称LH)，若某一城市数量(论文、专利、企业、基金、人才)的集聚度与其周边城市无显著差别，则为No Significant型。

8)社会网络分析方法(针对论文与专利)

本研究采用社会网络分析方法对论文和专利的合作情况进行分析计算。其中论文为无向网络，专利转移由于可能发生在多个不同城市间，且不同城市间分为转入和转出两种状态，因此专利转移为有向转移网络，下述分析方法说明以论文为例。

区域内的论文行为是由两个城市之间的科研作者利用其社会网络关系，针对共同感兴趣的研究领域进行的科研合作。不同城市间两者之间论文合著，就形成了一定的科研合作网络。例如，在特定研究对象下，包括10个城市，那么这10个城市两两之间的合作矩阵就可以如下表示：

在Q矩阵中，q_i,j代表城市i与城市j的论文合作数量；q_j,i代表城市j与城市i的论文合作数量。由于论文的合作具有无向性，因此该矩阵为对称阵。此外，论文合著有可能是在城市内部完成的，但是其无法表征网络辐射性，因此各城市自身的论文合作数量不予展示，令q_i,i为0。

通过节点度中心性(Degree centrality)算法，对上式中结点的合作次数进行统计则可以得到一个城市的论文网络合作强度。其计算方法如以下公式所示：

式中q_i,j表示第i个城市与第j个城市的合作次数，而q_i,i则表示第i个城市的中心度。

城市创新指标的确定需要统计分析国际创新评价指标体系的特点及应用情况，运用统计的方法确定核心指标。本文通过对GII全球创新指数、欧盟创新记分牌指数等国际创新评价指标体系的分析，确定R&D投入、人力资源、专利产出及高技术产业等相关指标做为评价创新的核心指标。同时，参照了国家统计局及各地区、各行业的创新评价体系，确定相应的分析指标。主要对科技部《创新型城市建设监测评价指标》进行剖析，借鉴杭州市、合肥市、深圳市地方创新指标，综合整理确定相关指标。科创评价APP从创新基础、创新投入、创新产出、创新绩效和创新合作五个方面，提出了一套综合城市创新指数监测指标体系，具体指标如表1所列。

对于创新基础指标而言，其着重考虑的是一个城市创新活动所存的主要物质基础和人力基础，例如，表1中所列指标中，包括了“普通高校在校学生人数”，这一指标往往代表了当地潜在的智力资源基础，而“GDP”则可表征城市的经济基础。此外，创新基础指标中还包括高等院校，高新技术企业等表征创新主体的数量评价指标。

对于创新投入指标而言，指标体系中采用的是与科技创新直接投入相关的指标，包括人员投入，财政投入以及企业主体投入。例如，“R&D占GDP比重”这一指标代表了财政对于科技投入的强度，“万名就业人员中R&D人员全时当量”这一指标则代表了人员投入的强度。

对于创新产出指标而言，这里指的是由创新基础和创新投入直接产生的科技创新成果，包括了多种类型的产出，如“技术交易成交额占GDP比重”代表科创技术对经济的产出贡献，而“万人发明专利申请量”则代表了科技创新在知识产权方面的产出。

创新绩效则代表由科技创新所带来的间接指标，如“高技术产品出口额占商品出口比重”这一指标代表了科技创新对于商品结构的改变，与之类似“服务业占GDP比重”则代表了科技创新对于经济结构产生的变化。

表1

基于相同的发明构思，本公开实施例提供一种科技创新数据的图谱构建装置。参阅图3所示，科技创新数据的图谱构建装置包括数据采集模块101、数据抽取模块102、数据关联模块103、空间分析模块104和可视化展示模块105。

数据采集模块101，用于从多类型的科技创新数据源中采集多种类型的科技创新数据，所述科技创新数据包括以下至少一项：论文数据、专利数据、科研基金数据和高新技术企业数据。

数据抽取模块102，用于对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别。

数据关联模块103，用于根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果。

空间分析模块104，用于根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果。

可视化展示模块105，用于根据所述空间分析结果构建科技创新数据的图谱信息，并对所述图谱信息进行可视化展示。

在一个实施例中，所述数据抽取模块102用于：

对于结构化的科技创新数据，使用数据的字段名称规则进行实体抽取。

根据实体的所属单位和地址进行实体的地理信息的解析和识别。

对于论文数据，字段名称规则为作者及单位，抽取的实体为对应的作者名称和单位名称。

对于专利数据，字段名称规则为发明人、申请人和申请人地址，抽取的实体为对应的发明人名称、申请人名称和申请人的具体地址。

对于科研基金数据，字段名称规则为申请人和依托单位，抽取的实体为对应的申请人名称和依托单位名称。

对于高新技术企业数据，字段名称规则为企业申请人和企业，抽取的实体为对应的企业申请人名称和企业名称。

在一个实施例中，所述数据关联模块103用于：

对不同类型的科技创新数据，分别进行所述科技创新数据所属类型对应领域内的单一映射。和/或

对于论文数据，获取论文分类号，并将所述论文分类号与预设的统一图书分类号进行关联，并将所述论文数据与所述论文数据对应的学科领域进行映射。

对于专利数据，获取专利的IPC分类号，并将所述IPC分类号与对应的技术领域进行映射。

对于科研基金数据，获取学部号和学科分类代码，并将所述学部号和学科分类代码与对应的预设的分类表进行映射。

以城市为主体，通过驻地在该城市的科研单位的论文领域、专利技术领域、基金学科领域、企业对应的产业领域进行城市领域信息分类映射。

以单位为主体，通过其内部人员申请的专利、撰写的论文、基金与企业行业、产业、学科领域建立映射关联关系。

在一个实施例中，所述空间分析模块104用于：

可以理解的是，上述装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

如图4所示，本公开的一个实施方式提供了一种科技创新数据的图谱构建装置40。其中，该科技创新数据的图谱构建装置40包括存储器410、处理器420、输入/输出(Input/Output，I/O)接口430。其中，存储器410，用于存储指令。处理器420，用于调用存储器410存储的指令执行本公开实施例的用于科技创新数据的图谱构建方法。其中，处理器420分别与存储器410、I/O接口430连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器410可用于存储程序和数据，包括本公开实施例中涉及的用于科技创新数据的图谱构建的程序，处理器420通过运行存储在存储器410的程序从而执行科技创新数据的图谱构建装置40的各种功能应用以及数据处理。

本公开实施例中处理器420可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器420可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器410可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本公开实施例中，I/O接口430可用于接收输入的指令(例如数字或字符信息，以及产生与科技创新数据的图谱构建装置40的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口430可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种科技创新数据的图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的科技创新数据的图谱构建方法，其特征在于，对所述科技创新数据进行实体以及实体关系的抽取，并进行实体的地理信息的识别，包括：

3.根据权利要求2所述的科技创新数据的图谱构建方法，其特征在于，所述预设的实体关系包括以下至少一项：科技创新人员之间的合作关系，单位之间的合作关系，城市之间的合作关系。

4.根据权利要求2所述的科技创新数据的图谱构建方法，其特征在于，

5.根据权利要求1所述的科技创新数据的图谱构建方法，其特征在于，根据所述实体关系对不同类型的科技创新数据进行数据关联与映射，得到数据关联与映射结果，包括：

6.根据权利要求5所述的科技创新数据的图谱构建方法，其特征在于，对不同类型的科技创新数据，分别进行所述科技创新数据所属类型对应领域内的单一映射，包括：

7.根据权利要求5所述的科技创新数据的图谱构建方法，其特征在于，所述根据所述实体关系，对不同类型的科技创新数据进行多维度的关联映射，包括以下任一项或多项：

8.根据权利要求1所述的科技创新数据的图谱构建方法，其特征在于，所述根据所述数据关联与映射结果和所述地理信息，对所述科技创新数据进行空间统计和空间分析，得到空间分析结果，包括：

根据所述数据关联与映射结果和所述地理信息，以城市为单元对所述科技创新数据进行空间统计，并以城市群为对象按照预设探索性空间分析方法对所述科技创新数据进行空间分析，得到空间分析结果；

所述预设探索性空间分析方法包括以下任一项或多项：

9.一种科技创新数据的图谱构建装置，其特征在于，包括：

10.一种科技创新数据的图谱构建装置，其特征在于，包括：

存储器和处理器；

所述处理器用于执行计算机程序以实现如权利要求1至9中任意一项所述的方法。