CN115757816A

CN115757816A - 一种多源异构信息通道耦合方法

Info

Publication number: CN115757816A
Application number: CN202211382672.4A
Authority: CN
Inventors: 李红辉; 韩铖山; 张大林; 闫佳和; 林映利; 屈靖淇; 贾志伟
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-07
Anticipated expiration: 2042-11-07
Also published as: CN115757816B

Abstract

本发明涉及多源异构信息通道技术领域，具体是一种多源异构信息通道耦合方法，包括构建初始通道耦合知识图谱，基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索。通道耦合知识图谱的实体是以通道标准数据形式存在，减小知识图谱的占用空间；通道耦合知识图谱在融合过程中以及在检索过程中，采用了剪枝策略进行逐层匹配，加快了检索速度；通道数据耦合是对知识图谱不断拓展的动态过程，增加了数据存储量。

Description

一种多源异构信息通道耦合方法

技术领域

本发明涉及多源异构信息通道技术领域，具体是一种多源异构信息通道耦合方法。

背景技术

政务数据数量不断增加，政务大数据平台不断建立，由于各平台系统之间分散建设、分散应用和分散管理，平台间存在严重的信息壁垒。而且，各政务业务系统间不同数据格式、不同数据标准、不同数据管辖权造成了数据鸿沟，以及行政资源的浪费与行政效率的低下，无法实现内部纵向或横向协同。为了解决上述问题，有必要将各部门的不同类型的数据汇聚、关联和融合，因此，需要解决多源异构数据之间的融合问题，本发明正是为解决该问题而提出。

要解决多源异构数据融合问题首先得解决数据统一标准问题。由于长期处于无统一标准的管理下，各部门采集的数据格式不一，标准不一，数据处理技术各异，数据库接口不互通，多源异构数据多是简单的检索分析，存在系统不健全，搜索范围小，搜索速度慢等问题，很大程度上限制了政务数据在宏观调控的应用支撑能力，阻断了政务数据的交换与共享。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种多源异构信息通道耦合方法，能够将不同类型的数据融合在知识图谱中，方便了数据的共享。

为达到以上目的，本发明采取的技术方案是：

一种多源异构信息通道耦合方法，包括构建初始通道耦合知识图谱，基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索；

所述构建初始通道耦合知识图谱，包括：将信息资源目录中规定的“类”、“项”、“目”抽取成实体，形成初始通道耦合知识图谱的框架；再对每一个“目”提取关键词，将关键词抽取为“细目”实体，补充初始通道耦合知识图谱的枝叶；其中，“类”与“项”实体之间是包含关系，“项”和“目”实体之间是包含关系，“目”和“细目”实体之间是关联关系；

所述基于通道耦合知识图谱实现通道数据耦合，包括获取通道数据，数据预处理，数据封装和通道数据融合；

所述数据预处理包括：通过元数据管理引擎，对每条通道设置一种数据处理方式，将数据处理为元数据，并提取数据的关键词作为通道标准数据关键词；

所述数据封装包括：将所述数据预处理得到的元数据、通道ID、文件格式、关键词、物理存储地址封装形成通道标准数据；

所述通道数据融合包括：采用词目链接策略和目目关联策略将所述通道标准数据融合到通道耦合知识图谱中，其中，所述词目链接策略，即采用剪枝策略将通道标准数据关键词与通道耦合知识图谱逐层匹配，将匹配成功的通道标准数据链接到通道耦合知识图谱的“细目”；所述目目关联策略，即当多个“细目”共同链接同一通道标准数据时，将“细目”之间彼此关联；

所述基于通道耦合知识图谱实现数据检索，包括：采用剪枝策略将目标词与通道耦合知识图谱逐层匹配，得到匹配得分最大的目标“细目”，并计算所述目标“细目”的所有一步关联“细目”与目标词的匹配得分，读取匹配得分大于设定阈值的“细目”所链接的通道标准数据，索引物理存储地址并展示；其中，所述一步关联“细目”为链接相同通道标准数据的“细目”。

进一步地，所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。

进一步地，所述匹配通过计算语义向量间的余弦相似度完成。

进一步地，所述词目链接策略具体包括以下步骤：

第一步，判断通道标准数据中是否有通道标准数据关键词，如果没有，标记人工处理，并结束；如果有，依次执行通道标准数据关键词与“类”、“项”、“目”、“细目”匹配；

第二步，匹配“类”，设置类匹配阈值，如果匹配得分高于类匹配阈值，则将所匹配到的“类”放在“类”列表中，依次匹配，直至匹配所有的“类”；

第三步，判定“类”列表中是否有值，如果没有，则说明没有任何“类”的匹配得分高于类匹配阈值，标记该关键词，并回到第一步循环；如果有，则对“类”列表中的“类”执行下一步操作；

第四步，匹配“项”，设置项匹配阈值，如果匹配得分高于项匹配阈值，则将所匹配到的“项”放在“项”列表中，依次匹配，直至匹配所有的“项”；

第五步，判定“项”列表中是否有值，如果没有，则说明没有任何“项”的匹配得分高于项匹配阈值，标记该关键词，并回到第一步循环；如果有，则对“项”列表中的“项”执行下一步操作；

第六步，匹配“目”，设置目匹配阈值，如果匹配得分高于目匹配阈值，则将所匹配到的“目”放在“目”列表中，依次匹配，直至匹配所有的“目”；

第七步，判定“目”列表中是否有值，如果没有，则说明没有任何“目”的匹配得分高于目匹配阈值，标记该关键词，并回到第一步循环；如果有，则对“目”列表中的“目”执行下一步操作；

第八步，匹配“细目”，设置细目匹配阈值，如果匹配得分高于细目匹配阈值，则将所匹配到的“细目”放在“细目”列表中，依次匹配，直至匹配所有的“细目”；

第九步，判定“细目”列表中是否有值，如果没有，则说明没有任何“细目”的匹配得分高于细目匹配阈值，则判断“目”列表中的“目”的匹配得分是否超过创建阈值，如果超过创建阈值，则将该“目”保留到“创建细目”列表；

第十步，判定“创建细目”列表中是否有值，如果没有，则说明没有“目”实体能够创建“细目”实体，标记该关键词，并回到第一步循环；如果有，则对所有“目”根据匹配得分排序，在最大匹配得分的“目”实体下创建与该通道标准数据关键词同名的“细目”实体；

第十一步，继第九步，如果“细目”列表有值，则对“细目”列表做排序处理，得到匹配值最高的“细目”，即为该通道标准数据的关键词链接的细目；

第十二步，对后续关键词依次执行第二到十一步，直至全部关键词都有匹配“细目”或执行人工处理，结束处理。

进一步地，所述基于通道耦合知识图谱实现数据检索，具体包括以下步骤：

第一步，输入目标词，依次执行目标词与“类”、“项”、“目”、“细目”匹配；

第二步，匹配“类”时，设置类匹配阈值，如果匹配得分高于类匹配阈值，则将所匹配到的“类”放在“类”列表中，依次匹配，直至匹配所有的“类”；

第三步，判定“类”列表中是否有值，如果没有，则说明没有任何“类”的匹配得分高于类匹配阈值，直接结束；如果有，则对“类”列表中的“类”执行下一步操作；

第五步，判定“项”列表中是否有值，如果没有，则说明没有任何“项”的匹配得分高于项匹配阈值，直接结束；如果有，则对“项”列表中的“项”执行下一步操作；

第七步，判定“目”列表中是否有值，如果没有，则说明没有任何“目”的匹配得分高于目匹配阈值，直接结束；如果有，则对“目”列表中的“目”执行下一步操作；

第九步，判定“细目”列表中是否有值，如果没有，则说明没有任何“细目”的匹配得分高于细目匹配阈值，直接结束；如果有，对“细目”列表做排序处理，得到匹配得分最高的“细目”，存入“细目”列表；

第十步，索引第九步匹配得分最高“细目”的一步关联“细目”，并计算目标词与一步关联“细目”的匹配得分，设置一步关联细目匹配阈值，如果匹配得分高于一步关联细目匹配阈值，则将所匹配到的“细目”放在“细目”列表中，依次匹配，直至匹配所有的一步关联“细目”；

第十一步，再次对“细目”列表做排序处理，按照排序处理后的“细目”列表中的“细目”所链接的通道标准数据的物理存储地址找到源数据，并依次输出展示。

本发明所述的多源异构信息通道耦合方法，具有以下有益效果：

通道耦合知识图谱的实体是以通道标准数据形式存在，大大减小知识图谱的空间压力；

通道耦合知识图谱在融合过程中以及在检索过程中，采用了剪枝策略，加快检索速度；

通道数据耦合是对知识图谱不断拓展的动态过程，增加了数据存储量。

附图说明

本发明有如下附图：

图1本发明多源异构信息通道耦合方法的结构示意图；

图2基于通道耦合知识图谱实现通道数据耦合的示意图；

图3数据预处理模块的示意图；

图4词目链接策略的流程图；

图5目目关联策略的流程图；

图6基于通道耦合知识图谱实现数据检索的流程图。

具体实施方式

信息通道：是指传输同一种数据类型的管道的抽象集合，此处，数据类型可分为视频、文本、图像、传感、位置、数据库表等。一个信息通道可以包含多个来自不同部门或系统的信息管道。

通道标准数据：通道标准数据是指通道中数据标准化的结果，每一种数据标准化为“通道ID+数据格式+元数据+关键词+物理存储位置”形式。

通道耦合知识图谱：分为初始通道耦合知识图谱和通道耦合知识图谱两部分。初始通道耦合知识图谱参照政务信息资源目录和人工录入关键词结合构建形成；通道耦合知识图谱由初始通道耦合知识图谱不断融合通道标准数据而形成，并不断扩充。

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明所述的多源异构信息通道耦合方法，包括构建初始通道耦合知识图谱，基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索；

如图2所示，所述基于通道耦合知识图谱实现通道数据耦合，包括获取通道数据，数据预处理，数据封装和通道数据融合；

如图3所示，所述数据预处理包括：通过元数据管理引擎，对每条通道设置一种数据处理方式，将数据处理为元数据，并提取数据的关键词作为通道标准数据关键词；所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。

所述通道数据融合包括：采用词目链接策略和目目关联策略将所述通道标准数据融合到通道耦合知识图谱中，其中，所述词目链接策略，即采用剪枝策略将通道标准数据关键词与通道耦合知识图谱逐层匹配，将匹配成功的通道标准数据链接到通道耦合知识图谱的“细目”；如图5所示，所述目目关联策略，即当多个“细目”共同链接同一通道标准数据时，将“细目”之间彼此关联；

所述匹配通过计算语义向量间的余弦相似度完成。

如图4所示，所述词目链接策略具体包括以下步骤：

如图6所示，所述基于通道耦合知识图谱实现数据检索，具体包括以下步骤：

所述词目链接策略和所述基于通道耦合知识图谱实现数据检索均采用了剪枝策略，从上而下沿着匹配成功的节点路径找出所匹配的“细目”，从而避免了与知识图谱所有节点进行匹配，提高了匹配速度。

为便于进一步理解本发明，提供以下实施例对本发明方法进行说明。

以黄河治理为例，假设现在数据库中存在“黄河治理.webp”、“黄河水情日报.docx”、“黄河大保护大治理究竟该怎么抓.txt”、“[地理中国]治理黄河遏制黄河水患.mp4”、“黄河流域水文分析数据集——河流网络”五种不同通道的数据，通道2中传来的数据是“黄河治理.webp”，由于处理完成的数据只有黄河治理一个关键词，所以数据绑定在主题信息资源目录-生态环保-河道治理专题信息资源-黄河治理这一栏下，其中，黄河治理是关键词。通道4传来的数据为“[地理中国]治理黄河遏制黄河水患”，处理完成后，除了“黄河治理”这个关键词，还有“水患”，此时检索发现在主题信息资源目录-应急维稳-灾患应急专题信息资源下有“水患”这个关键词，那么还需将此关键词绑定这一条通道标准数据。通道1传来的数据为“黄河大保护大治理究竟该怎么抓_中国人大网”，数据处理完也含有“黄河治理”这个关键词，所以也要绑定在主题信息资源目录-生态环保-河道治理专题信息资源-黄河治理这一栏下，同时还有“水-能源-粮食、生态补偿”这两个另外的关键词，以“生态补偿”为例，由于检索每一目下的关键词，没有匹配程度较高的，所以认定没有相关的关键词，于是需要将关键词匹配上一层，以获得近似目“生态治理专题信息资源”，并将“生态补偿”绑定在此目。通道6传来的数据为“黄河流域水文分析数据集——河流网络”，处理完后，他含有三个关键词，“黄河水位、水文分析、河流网络”，“黄河水位”经匹配发现，并没有完全同样的关键词，但是有匹配度较高的细目“黄河信息资源”，于是就把这条数据绑定在基础信息资源目录-自然资源和空间地理基础信息资源-水利专题信息资源-黄河信息资源这一栏；此外，“水文分析”没有匹配度较高的细目，所以将关键词匹配上一层，获得近似目“水利专题信息资源”，并在此目下创建细目“水文分析”；“河流网络”经过匹配，也没有匹配较高的细目，继续匹配上一层，也没有匹配较高的目，此时可能需要人工干预。通道5传进来的数据是“黄河水情日报”，经处理后获得“黄河水情、黄河治理”这两个关键词，“黄河水情”与细目“黄河信息资源”匹配度较高，于是将此通道标准数据绑定在这一栏下，同理，该通道标准数据还需要绑定在细目“黄河治理”下，于是，细目“黄河治理”和细目“黄河信息资源”有共同的通道标准数据，那么他们两个便有关联。

本发明提出了一种多源异构通道耦合的方法，实现了多源异构的数据在通道耦合知识图谱上的耦合，解决了数据分散建设分散应用的问题，用本发明方法构建的知识图谱，提高了数据检索效率。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种多源异构信息通道耦合方法，其特征在于，包括构建初始通道耦合知识图谱，基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索；

2.如权利要求1所述的多源异构信息通道耦合方法，其特征在于：所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。

3.如权利要求1所述的多源异构信息通道耦合方法，其特征在于：所述匹配通过计算语义向量间的余弦相似度完成。

4.如权利要求1所述的多源异构信息通道耦合方法，其特征在于，所述词目链接策略具体包括以下步骤：

第三步，判定“类”列表中是否有值，如果没有，则标记该关键词，并回到第一步循环；如果有，则对“类”列表中的“类”执行下一步操作；

第五步，判定“项”列表中是否有值，如果没有，则标记该关键词，并回到第一步循环；如果有，则对“项”列表中的“项”执行下一步操作；

第七步，判定“目”列表中是否有值，如果没有，则标记该关键词，并回到第一步循环；如果有，则对“目”列表中的“目”执行下一步操作；

第九步，判定“细目”列表中是否有值，如果没有，则判断“目”列表中的“目”的匹配得分是否超过创建阈值，如果超过创建阈值，则将该“目”保留到“创建细目”列表；

第十步，判定“创建细目”列表中是否有值，如果没有，则标记该关键词，并回到第一步循环；如果有，则对所有“目”根据匹配得分排序，在最大匹配得分的“目”实体下创建与该通道标准数据关键词同名的“细目”实体；

5.如权利要求1所述的多源异构信息通道耦合方法，其特征在于，所述基于通道耦合知识图谱实现数据检索，具体包括以下步骤：

第三步，判定“类”列表中是否有值，如果没有，则直接结束；如果有，则对“类”列表中的“类”执行下一步操作；

第五步，判定“项”列表中是否有值，如果没有，则直接结束；如果有，则对“项”列表中的“项”执行下一步操作；

第七步，判定“目”列表中是否有值，如果没有，则直接结束；如果有，则对“目”列表中的“目”执行下一步操作；

第九步，判定“细目”列表中是否有值，如果没有，则直接结束；如果有，对“细目”列表做排序处理，得到匹配得分最高的“细目”，存入“细目”列表；