CN112925875B

CN112925875B - 一种开放数据集的数据关联方法及系统

Info

Publication number: CN112925875B
Application number: CN202110317613.8A
Authority: CN
Inventors: 范冰冰; 郭光雄
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2023-08-18
Anticipated expiration: 2041-03-25
Also published as: CN112925875A

Abstract

本发明公开了一种开放数据集的数据关联方法及系统，应用于政府数据开放平台的开放数据集的数据关联分析。该方法包括：对开放数据集进行数据预处理；对预处理完成后的开放数据集进行分析，获取开放数据集的特征数据；根据所述特征数据进行关联分析；根据结果建立数据关联描述；将获得的数据关联描述存入数据库。相比于传统的数据关联技术，本发明的方法能够建立细粒度数据关联，更好地挖掘数据之间的关系。此外，本发明的方法在不影响原有开放数据集发布流程基础上，自动建立开发数据集的数据集内的关联描述，能够减少人力投入和人为错误。

Description

一种开放数据集的数据关联方法及系统

技术领域

本发明属于开放数据、数据关联的技术领域，具体涉及一种开放数据集的数据关联方法及系统。

背景技术

政府开放数据就是将政府在不涉及隐私，安全和版权的前提条件下，将政府积累的大量的各个领域的数据，以机器可读的数据集的形式向社会公开，任何人都可以免费、自由获取和使用数据集。据复旦大学联合国家信息中心数字中国研究院发布了《2019中国地方政府数据开放报告》，截至2019年上半年，我国已有82个省级、副省级和地级政府上线了数据开放平台。全国开放数据集总量从2017年8398个迅速增长到2019年的62801个，增幅近七倍。但是如今开放数据集由于数据来自不同层级的政府部门和业务系统，使得开放数据集的描述词汇不尽相同，而且缺乏数据集内数据语义关联描述，使得开放数据集被数据使用者难以理解和利用，无法充分挖掘开放数据的价值。建立统一数据集的关联描述，能够使得开放数据集更好地被理解和利用。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种开放数据集的数据关联方法及系统，采用自然语言处理技术自动地为开放数据集建立数据集内的数据关联描述，有助于数据的自动化挖掘和智能化使用，为数据使用提供数据集内更清晰的数据语义，能够更好地理解和挖掘开放数据的价值。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种开放数据集的数据关联方法，包括下述步骤：

S1、对开放数据集进行数据预处理，将不同文件格式的数据集转化为json文件格式；

S2、对预处理完成后的开放数据集进行分析，获取开放数据集的特征数据，所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述；

S3、使用机器学习技术解析数据集元数据描述，得到开放数据集的主题；

S4、根据数据元数据描述和数据集的主题进行关联分析，得到关联置信度；

S5、根据关联置信度，构建实体数据项之间的关联描述；

S6、将获得的实体数据项之间的关联描述存入数据库。

作为优选的技术方案，所述使用机器学习技术解析数据集元数据描述，得到数据集的主题，具体包括以下步骤：

S31、使用分词器对数据集元数据描述进行分词得到分词结果；

S32、根据分词结果计算该数据集元数据描述的tf-idf特征向量；

S33、对该数据集元数据描述的tf-idf特征向量进行奇异值分解，得到该数据集的主题T。

作为优选的技术方案，所述根据数据元数据描述和数据集的主题进行关联分析，得到关联置信度，具体包括以下步骤：

S41、采用正则表达式过滤数据集的非文本数据项，得到数据集的文本数据项；

S42、分析数据元数据描述和数据集的文本数据项，将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集；

S43、分析数据集元数据描述，确定实体数据项中的主实体数据项和从实体数据项；

S44、根据数据集的主题T和主实体类别在主题关系库中查询得到候选关系集；

S45、计算主实体数据项、候选关系集和从实体数据项集的关联置信度。

作为优选的技术方案，所述实体数据项所描述的是客观存在且可相互区别的事物；

所述属性数据项所描述的是实体的属性；

所述主实体数据项为该数据集描述的实体；

所述从实体数据项为该数据集所描述实体的属性所包含的实体。

作为优选的技术方案，所述分析数据元数据描述和数据集中的文本数据项，将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集，具体包括以下步骤：

S421、使用分词器对每个数据中的每一项数据进行分词得到该数据项的词集合；

S422、根据词集合向词向量库查询得到对应的词向量集合；

S423、将词向量集合输入到已训练好的二分类器，得到分类分数，若分类分数高于阈值α，则该数据项为实体数据项，反之，则为属性数据项；其中α为常值，具体视情况设置；

S424、根据分类结果，将数据项分为实体数据项集和属性数据项集。

作为优选的技术方案，所述确定实体数据项中的主实体数据项和从实体数据项具体包括以下步骤：

S431、使用分词器对数据集名称进行分词得到该数据集名称的词集合；

S432、根据词集合向词向量库查询得到对应的词向量集合；

S433、使用实体识别算法分析数据集元名称的词向量集合得到该数据集主实体的类别；

S434、根据数据集主实体类别得到与主实体类别相同的候选实体数据项集；

S435、对数据集名称词向量集合进行求和得到数据集名称向量；

S436、对候选实体数据项集的每个实体数据项的词向量集合进行求和得到对应的实体数据项向量表示。

S437、计算数据集名称向量与候选实体数据集中每个实体数据项向量的余弦相似度，根据余弦相似度进行排序，排名最高的实体数据项，则认为该该实体数据项为主实体数据项；

作为优选的技术方案，所述主题关系库包含专家对数据集预定义的主题库，每个主题库包含该主题的主题词字典、预定义的该主题的实体类别集和关系集；

所述主题词字典包含了描述该主题的词语；

所述实体类别集描述该主题下所包含的实体类别；

所述关系集由关系三元组和关系向量表构成，所述关系三元组包括头实体类别、关系名称和尾实体类别，所述关系向量表包含了每个关系所对应的关系向量，关系向量通过对该关系名称所对应的词向量求和得到。

作为优选的技术方案，所述计算主实体数据项、候选关系集和实体数据集的关联置信度具体包括以下步骤：

S451、计算主实体数据项向量和从实体数据项向量，具体为：用分词器对数据元数据描述进行分词得到分词结果；根据分词结果查询词向量库，从而得到每个实体数据项的词向量集合，并输入到模型中得到该实体数据项的向量表示，具体如下式：

其中，为实体数据项的词的词向量，T为通过统计计算该数据集的主题的主题词表所得的tf-idf向量，LSTM(·)为长短期记忆神经网络模型；

S452、将主实体数据项向量，候选关系向量和从实体数据项向量构成候选关系三元组，输入距离模型计算置信度；所述距离模型以{e₁,r,e₂}为输入，具体如下式：

其中，为头实体数据项的向量表示，V_r为关系的向量表示，/>为尾实体数据项的向量表示，F(·)为全连接神经网络，W为通过模型训练得到的变换矩阵，/>为最终关联得分，/>越大，则该关系三元组成立的可能性越大，/>为常数，视具体情况设置；

S453、若候选关系三元组的置信度得分高于阈值且置信度高于其他候选关系三元组，则认为该候选关系三元组成立。

作为优选的技术方案，所述根据关联置信度，构建实体数据项之间的关联描述，具体为：

采用五元组形式构建数据项的关联描述，所述五元组由主实体数据，主实体数据类别，关系名称，从实体数据和从实体数据类别构成；所述关联描述的文档格式为json格式。

本发明还提供了一种开放数据集的数据关联系统，包括开放数据集数据处理模块、开放数据集特征获取模块、开放数据集主题获取模块、数据项关联分析模块、关联描述构建模块和数据存储模块；

所述开放数据集数据处理模块，用于对开放数据集进行数据预处理，读取不同文件格式的数据集的数据并将数据集格式转化为json文档格式的数据集；

所述开放数据集特征获取模块，用于对预处理完成后的开放数据集进行分析，获取开放数据集的特征数据，所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述；

所述开放数据集主题获取模块，使用机器学习技术解析数据集元数据描述，得到开放数据集的主题；

所述数据项关联分析模块，根据数据元数据描述和数据集的主题进行关联分析，计算实体数据项之间的关系，得到关联置信度；

所述关联描述构建模块，根据关联置信度，构建实体数据项之间的关联描述；

所述数据存储模块，用于存储json格式的数据集及其数据项的关联描述。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明能够在不影响原有开放数据集发布流程基础上，提供一种自动建立开发数据集的数据集内的关联描述，能够大量减少人力投入。

(2)本发明通过词向量技术将数据集的元数据描述和数据集中的数据项转化为向量形式表示，采用分类器、实体识别算法提取出数据集的主题、数据集描述的主实体数据项和描述主实体属性从实体数据项。为提取开放数据集的语义实体提供具体可行的技术方案，推动开放数据集数据关联自动化技术发展。

(3)本发明提出<主实体数据，主实体数据类别，关系名称，从实体数据，从实体数据类别>的五元组形式的关联描述，提供了一种开放数据集细粒度的关联描述，为数据集的数据可视化、自动化处理等应用奠定了基础。

(4)本发明通过将数据集的主题和数据集的数据项的类别，提供了统一的开放数据集的数据集的主题信息描述和数据项的类别信息描述，解决原本由于数据来自不同层级的政府部门和业务系统带来的类别描述不一致的问题，为建立数据集之间关联描述奠定了基础。

综上所述，本发明提共一种开放数据集的数据关联方法及系统，主要解决了开放数据集中数据项描述不一致的问题，实现开放数据集数据关联自动化，为挖掘开放数据集提供了坚实的基础。

附图说明

图1是本发明实施例所述开放数据集的数据关联方法的流程图；

图2是本发明实施例所述开放数据集的数据关联系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本实施例提供了一种开放数据集的数据关联方法，包括以下步骤：

S2、对预处理完成后的开放数据集进行分析，获取开放数据集的特征数据，所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述。

更为具体的，步骤S3包括以下步骤：

更为具体的，步骤S4包括以下步骤：

S42、分析数据元数据描述和数据集中的数据项，将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集；其中，所述实体数据项所描述的是客观存在且可相互区别的事物，所述属性数据项所描述的是实体的属性；

更为具体的，步骤S42包括以下步骤：

S422、根据词集合向词向量库查询得到对应的词向量集合；

S423、将词向量集合输入到已训练好的二分类器，得到分类分数，若分类分数高于阈值α，则该数据项为实体数据项，反之，则为属性数据项。阈值α为常数，具体视情况而设；

S424、根据分类结果将数据项分为实体数据项集和属性数据项集；

S43、采用自然语言处理技术分析数据集元数据描述，确定实体数据项中的主实体数据项和从实体数据项；其中，所述主实体数据项为该数据集描述的实体，所述从实体数据项为该数据集所描述实体的属性所包含的实体；

更为具体的，步骤S43包括以下步骤：

S431、使用分词器对数据集名称进行分词得到数据集名称的词集合；

S432、根据词集合向词向量库查询得到对应的词向量集合；

S433、使用实体识别算法分析数据集名称的词向量集合得到该数据集主实体的类别；

S435、对数据集名称词向量集合进行求和得到数据集名称向量V_D，具体如下所示：

S436、对候选实体数据项集的每个实体数据项的词向量集合进行求和得到对应的实体数据项向量表示V_t，具体如下所示：

S437、计算数据集名称向量与候选实体数据集中每个实体数据项向量的余弦相似度,具体计算方式如下所示：

Sim＝cosine(V_t,V_D)

根据余弦相似度分数进行排序，排名最高的实体数据项，则认为该实体数据项为主实体数据项；

S44、根据数据集的主题T和主实体类别在主题关系库中查询得到候选关系集，其中：

所述主题关系库包含专家对数据集预定义的主题库，每个主题库包含该主题的主题词字典、预定义的该主题的实体类别集和关系集；

所述主题词字典包含了描述该主题的词语；

所述实体类别集描述该主题下所包含的实体类别；

所述关系集由关系三元组和关系向量表构成，所述关系三元组的组织形式为头实体类别，关系名称，尾实体类别}，所述的关系向量表包含了每个关系所对应的关系向量，关系向量通过对该关系名称所对应的词向量求和得到；

S45、计算主实体数据项、候选关系集和从实体数据项集的关联置信度；

更为具体的，步骤S45包括以下步骤：

其中，为头实体数据项的向量表示，V_r为关系的向量表示，/>为尾实体数据项的向量表示，F(·)为全连接神经网络，W为通过模型训练得到的变换矩阵，/>为S进行转换得到的最终关联得分，/>越大，则该关系三元组成立的可能性越大，/>为常数，视具体情况设置；

S5、根据关联置信度，构建实体数据项之间的关联描述，具体为：采用五元组形式构建数据项的关联描述，所述五元组由主实体数据，主实体数据类别，关系名称，从实体数据和从实体数据类别构成；所述关联描述的文档格式为json格式。

S6、将获得的实体数据项之间的关联描述存入数据库。

如图2所示，在本申请的另一个实施例中，提供了一种开放数据集的数据关联系统，该系统包括：开放数据集数据处理模块、开放数据集特征获取模块、开放数据集主题获取模块、数据项关联分析模块、关联描述构建模块和数据存储模块；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的一种开放数据集的数据关联方法。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种开放数据集的数据关联方法，其特征在于，包括下述步骤：

对开放数据集进行数据预处理，将不同文件格式的数据集转化为json文件格式；

对预处理完成后的开放数据集进行分析，获取开放数据集的特征数据，所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述；

使用机器学习技术解析数据集元数据描述，得到开放数据集的主题；

根据数据元数据描述和数据集的主题进行关联分析，得到关联置信度，具体为：

采用正则表达式过滤数据集的非文本数据项，得到数据集的文本数据项；

分析数据元数据描述和数据集的文本数据项，将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集；

分析数据集元数据描述，确定实体数据项中的主实体数据项和从实体数据项；

根据数据集的主题T和主实体类别在主题关系库中查询得到候选关系集；

计算主实体数据项、候选关系集和从实体数据项集的关联置信度；

根据关联置信度，构建实体数据项之间的关联描述；

将获得的实体数据项之间的关联描述存入数据库。

2.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，所述使用机器学习技术解析数据集元数据描述，得到数据集的主题，具体包括以下步骤：

使用分词器对数据集元数据描述进行分词得到分词结果；

根据分词结果计算该数据集元数据描述的tf-idf特征向量；

对该数据集元数据描述的tf-idf特征向量进行奇异值分解，得到该数据集的主题T。

3.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，

所述实体数据项所描述的是客观存在且可相互区别的事物；

所述属性数据项所描述的是实体的属性；

所述主实体数据项为该数据集描述的实体；

4.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，所述分析数据元数据描述和数据集中的文本数据项，将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集，具体包括以下步骤：

使用分词器对每个数据中的每一项数据进行分词得到该数据项的词集合；

根据词集合向词向量库查询得到对应的词向量集合；

将词向量集合输入到已训练好的二分类器，得到分类分数，若分类分数高于阈值α，则该数据项为实体数据项，反之，则为属性数据项；其中α为常值，具体视情况设置；

根据分类结果，将数据项分为实体数据项集和属性数据项集。

5.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，所述确定实体数据项中的主实体数据项和从实体数据项具体包括以下步骤：

使用分词器对数据集名称进行分词得到该数据集名称的词集合；

根据词集合向词向量库查询得到对应的词向量集合；

使用实体识别算法分析数据集元名称的词向量集合得到该数据集主实体的类别；

根据数据集主实体类别得到与主实体类别相同的候选实体数据项集；

对数据集名称词向量集合进行求和得到数据集名称向量；

对候选实体数据项集的每个实体数据项的词向量集合进行求和得到对应的实体数据项向量表示；

计算数据集名称向量与候选实体数据集中每个实体数据项向量的余弦相似度，根据余弦相似度进行排序，排名最高的实体数据项，则认为该实体数据项为主实体数据项。

6.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，

所述主题词字典包含了描述该主题的词语；

所述实体类别集描述该主题下所包含的实体类别；

7.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，所述计算主实体数据项、候选关系集和实体数据集的关联置信度具体包括以下步骤：

计算主实体数据项向量和从实体数据项向量，具体为：用分词器对数据元数据描述进行分词得到分词结果；根据分词结果查询词向量库，从而得到每个实体数据项的词向量集合，并输入到模型中得到该实体数据项的向量表示，具体如下式：

，

其中，为实体数据项的词的词向量，T为通过统计计算该数据集的主题的主题词表所得的tf-idf向量，/>为长短期记忆神经网络模型；

将主实体数据项向量，候选关系向量和从实体数据项向量构成候选关系三元组，输入距离模型计算置信度；所述距离模型以为输入，具体如下式：

，

其中，为头实体数据项的向量表示，/>为关系的向量表示，/>为尾实体数据项的向量表示，/>为全连接神经网络， />为最终关联得分，/>越大，则该关系三元组成立的可能性越大，/>为常数，视具体情况设置；

若候选关系三元组的置信度得分高于阈值且置信度高于其他候选关系三元组，则认为该候选关系三元组成立。

8.根据权利要求1所述一种开放数据集的数据关联方法，其特征在于，所述根据关联置信度，构建实体数据项之间的关联描述，具体为：

9.一种开放数据集的数据关联系统，其特征在于，应用于权利要求1-8中任一项所述的一种开放数据集的数据关联方法，包括开放数据集数据处理模块、开放数据集特征获取模块、开放数据集主题获取模块、数据项关联分析模块、关联描述构建模块和数据存储模块；

所述数据项关联分析模块，根据数据元数据描述和数据集的主题进行关联分析，计算实体数据项之间的关系，得到关联置信度，具体为：