CN115757816A - 一种多源异构信息通道耦合方法 - Google Patents

一种多源异构信息通道耦合方法 Download PDF

Info

Publication number
CN115757816A
CN115757816A CN202211382672.4A CN202211382672A CN115757816A CN 115757816 A CN115757816 A CN 115757816A CN 202211382672 A CN202211382672 A CN 202211382672A CN 115757816 A CN115757816 A CN 115757816A
Authority
CN
China
Prior art keywords
item
matching
list
channel
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211382672.4A
Other languages
English (en)
Other versions
CN115757816B (zh
Inventor
李红辉
韩铖山
张大林
闫佳和
林映利
屈靖淇
贾志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202211382672.4A priority Critical patent/CN115757816B/zh
Publication of CN115757816A publication Critical patent/CN115757816A/zh
Application granted granted Critical
Publication of CN115757816B publication Critical patent/CN115757816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多源异构信息通道技术领域,具体是一种多源异构信息通道耦合方法,包括构建初始通道耦合知识图谱,基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索。通道耦合知识图谱的实体是以通道标准数据形式存在,减小知识图谱的占用空间;通道耦合知识图谱在融合过程中以及在检索过程中,采用了剪枝策略进行逐层匹配,加快了检索速度;通道数据耦合是对知识图谱不断拓展的动态过程,增加了数据存储量。

Description

一种多源异构信息通道耦合方法
技术领域
本发明涉及多源异构信息通道技术领域,具体是一种多源异构信息通道耦合方法。
背景技术
政务数据数量不断增加,政务大数据平台不断建立,由于各平台系统之间分散建设、分散应用和分散管理,平台间存在严重的信息壁垒。而且,各政务业务系统间不同数据格式、不同数据标准、不同数据管辖权造成了数据鸿沟,以及行政资源的浪费与行政效率的低下,无法实现内部纵向或横向协同。为了解决上述问题,有必要将各部门的不同类型的数据汇聚、关联和融合,因此,需要解决多源异构数据之间的融合问题,本发明正是为解决该问题而提出。
要解决多源异构数据融合问题首先得解决数据统一标准问题。由于长期处于无统一标准的管理下,各部门采集的数据格式不一,标准不一,数据处理技术各异,数据库接口不互通,多源异构数据多是简单的检索分析,存在系统不健全,搜索范围小,搜索速度慢等问题,很大程度上限制了政务数据在宏观调控的应用支撑能力,阻断了政务数据的交换与共享。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种多源异构信息通道耦合方法,能够将不同类型的数据融合在知识图谱中,方便了数据的共享。
为达到以上目的,本发明采取的技术方案是:
一种多源异构信息通道耦合方法,包括构建初始通道耦合知识图谱,基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索;
所述构建初始通道耦合知识图谱,包括:将信息资源目录中规定的“类”、“项”、“目”抽取成实体,形成初始通道耦合知识图谱的框架;再对每一个“目”提取关键词,将关键词抽取为“细目”实体,补充初始通道耦合知识图谱的枝叶;其中,“类”与“项”实体之间是包含关系,“项”和“目”实体之间是包含关系,“目”和“细目”实体之间是关联关系;
所述基于通道耦合知识图谱实现通道数据耦合,包括获取通道数据,数据预处理,数据封装和通道数据融合;
所述数据预处理包括:通过元数据管理引擎,对每条通道设置一种数据处理方式,将数据处理为元数据,并提取数据的关键词作为通道标准数据关键词;
所述数据封装包括:将所述数据预处理得到的元数据、通道ID、文件格式、关键词、物理存储地址封装形成通道标准数据;
所述通道数据融合包括:采用词目链接策略和目目关联策略将所述通道标准数据融合到通道耦合知识图谱中,其中,所述词目链接策略,即采用剪枝策略将通道标准数据关键词与通道耦合知识图谱逐层匹配,将匹配成功的通道标准数据链接到通道耦合知识图谱的“细目”;所述目目关联策略,即当多个“细目”共同链接同一通道标准数据时,将“细目”之间彼此关联;
所述基于通道耦合知识图谱实现数据检索,包括:采用剪枝策略将目标词与通道耦合知识图谱逐层匹配,得到匹配得分最大的目标“细目”,并计算所述目标“细目”的所有一步关联“细目”与目标词的匹配得分,读取匹配得分大于设定阈值的“细目”所链接的通道标准数据,索引物理存储地址并展示;其中,所述一步关联“细目”为链接相同通道标准数据的“细目”。
进一步地,所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。
进一步地,所述匹配通过计算语义向量间的余弦相似度完成。
进一步地,所述词目链接策略具体包括以下步骤:
第一步,判断通道标准数据中是否有通道标准数据关键词,如果没有,标记人工处理,并结束;如果有,依次执行通道标准数据关键词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则说明没有任何“类”的匹配得分高于类匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则说明没有任何“项”的匹配得分高于项匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则说明没有任何“目”的匹配得分高于目匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则说明没有任何“细目”的匹配得分高于细目匹配阈值,则判断“目”列表中的“目”的匹配得分是否超过创建阈值,如果超过创建阈值,则将该“目”保留到“创建细目”列表;
第十步,判定“创建细目”列表中是否有值,如果没有,则说明没有“目”实体能够创建“细目”实体,标记该关键词,并回到第一步循环;如果有,则对所有“目”根据匹配得分排序,在最大匹配得分的“目”实体下创建与该通道标准数据关键词同名的“细目”实体;
第十一步,继第九步,如果“细目”列表有值,则对“细目”列表做排序处理,得到匹配值最高的“细目”,即为该通道标准数据的关键词链接的细目;
第十二步,对后续关键词依次执行第二到十一步,直至全部关键词都有匹配“细目”或执行人工处理,结束处理。
进一步地,所述基于通道耦合知识图谱实现数据检索,具体包括以下步骤:
第一步,输入目标词,依次执行目标词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”时,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则说明没有任何“类”的匹配得分高于类匹配阈值,直接结束;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则说明没有任何“项”的匹配得分高于项匹配阈值,直接结束;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则说明没有任何“目”的匹配得分高于目匹配阈值,直接结束;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则说明没有任何“细目”的匹配得分高于细目匹配阈值,直接结束;如果有,对“细目”列表做排序处理,得到匹配得分最高的“细目”,存入“细目”列表;
第十步,索引第九步匹配得分最高“细目”的一步关联“细目”,并计算目标词与一步关联“细目”的匹配得分,设置一步关联细目匹配阈值,如果匹配得分高于一步关联细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的一步关联“细目”;
第十一步,再次对“细目”列表做排序处理,按照排序处理后的“细目”列表中的“细目”所链接的通道标准数据的物理存储地址找到源数据,并依次输出展示。
本发明所述的多源异构信息通道耦合方法,具有以下有益效果:
通道耦合知识图谱的实体是以通道标准数据形式存在,大大减小知识图谱的空间压力;
通道耦合知识图谱在融合过程中以及在检索过程中,采用了剪枝策略,加快检索速度;
通道数据耦合是对知识图谱不断拓展的动态过程,增加了数据存储量。
附图说明
本发明有如下附图:
图1本发明多源异构信息通道耦合方法的结构示意图;
图2基于通道耦合知识图谱实现通道数据耦合的示意图;
图3数据预处理模块的示意图;
图4词目链接策略的流程图;
图5目目关联策略的流程图;
图6基于通道耦合知识图谱实现数据检索的流程图。
具体实施方式
信息通道:是指传输同一种数据类型的管道的抽象集合,此处,数据类型可分为视频、文本、图像、传感、位置、数据库表等。一个信息通道可以包含多个来自不同部门或系统的信息管道。
通道标准数据:通道标准数据是指通道中数据标准化的结果,每一种数据标准化为“通道ID+数据格式+元数据+关键词+物理存储位置”形式。
通道耦合知识图谱:分为初始通道耦合知识图谱和通道耦合知识图谱两部分。初始通道耦合知识图谱参照政务信息资源目录和人工录入关键词结合构建形成;通道耦合知识图谱由初始通道耦合知识图谱不断融合通道标准数据而形成,并不断扩充。
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明所述的多源异构信息通道耦合方法,包括构建初始通道耦合知识图谱,基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索;
所述构建初始通道耦合知识图谱,包括:将信息资源目录中规定的“类”、“项”、“目”抽取成实体,形成初始通道耦合知识图谱的框架;再对每一个“目”提取关键词,将关键词抽取为“细目”实体,补充初始通道耦合知识图谱的枝叶;其中,“类”与“项”实体之间是包含关系,“项”和“目”实体之间是包含关系,“目”和“细目”实体之间是关联关系;
如图2所示,所述基于通道耦合知识图谱实现通道数据耦合,包括获取通道数据,数据预处理,数据封装和通道数据融合;
如图3所示,所述数据预处理包括:通过元数据管理引擎,对每条通道设置一种数据处理方式,将数据处理为元数据,并提取数据的关键词作为通道标准数据关键词;所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。
所述数据封装包括:将所述数据预处理得到的元数据、通道ID、文件格式、关键词、物理存储地址封装形成通道标准数据;
所述通道数据融合包括:采用词目链接策略和目目关联策略将所述通道标准数据融合到通道耦合知识图谱中,其中,所述词目链接策略,即采用剪枝策略将通道标准数据关键词与通道耦合知识图谱逐层匹配,将匹配成功的通道标准数据链接到通道耦合知识图谱的“细目”;如图5所示,所述目目关联策略,即当多个“细目”共同链接同一通道标准数据时,将“细目”之间彼此关联;
所述基于通道耦合知识图谱实现数据检索,包括:采用剪枝策略将目标词与通道耦合知识图谱逐层匹配,得到匹配得分最大的目标“细目”,并计算所述目标“细目”的所有一步关联“细目”与目标词的匹配得分,读取匹配得分大于设定阈值的“细目”所链接的通道标准数据,索引物理存储地址并展示;其中,所述一步关联“细目”为链接相同通道标准数据的“细目”。
所述匹配通过计算语义向量间的余弦相似度完成。
如图4所示,所述词目链接策略具体包括以下步骤:
第一步,判断通道标准数据中是否有通道标准数据关键词,如果没有,标记人工处理,并结束;如果有,依次执行通道标准数据关键词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则说明没有任何“类”的匹配得分高于类匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则说明没有任何“项”的匹配得分高于项匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则说明没有任何“目”的匹配得分高于目匹配阈值,标记该关键词,并回到第一步循环;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则说明没有任何“细目”的匹配得分高于细目匹配阈值,则判断“目”列表中的“目”的匹配得分是否超过创建阈值,如果超过创建阈值,则将该“目”保留到“创建细目”列表;
第十步,判定“创建细目”列表中是否有值,如果没有,则说明没有“目”实体能够创建“细目”实体,标记该关键词,并回到第一步循环;如果有,则对所有“目”根据匹配得分排序,在最大匹配得分的“目”实体下创建与该通道标准数据关键词同名的“细目”实体;
第十一步,继第九步,如果“细目”列表有值,则对“细目”列表做排序处理,得到匹配值最高的“细目”,即为该通道标准数据的关键词链接的细目;
第十二步,对后续关键词依次执行第二到十一步,直至全部关键词都有匹配“细目”或执行人工处理,结束处理。
如图6所示,所述基于通道耦合知识图谱实现数据检索,具体包括以下步骤:
第一步,输入目标词,依次执行目标词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”时,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则说明没有任何“类”的匹配得分高于类匹配阈值,直接结束;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则说明没有任何“项”的匹配得分高于项匹配阈值,直接结束;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则说明没有任何“目”的匹配得分高于目匹配阈值,直接结束;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则说明没有任何“细目”的匹配得分高于细目匹配阈值,直接结束;如果有,对“细目”列表做排序处理,得到匹配得分最高的“细目”,存入“细目”列表;
第十步,索引第九步匹配得分最高“细目”的一步关联“细目”,并计算目标词与一步关联“细目”的匹配得分,设置一步关联细目匹配阈值,如果匹配得分高于一步关联细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的一步关联“细目”;
第十一步,再次对“细目”列表做排序处理,按照排序处理后的“细目”列表中的“细目”所链接的通道标准数据的物理存储地址找到源数据,并依次输出展示。
所述词目链接策略和所述基于通道耦合知识图谱实现数据检索均采用了剪枝策略,从上而下沿着匹配成功的节点路径找出所匹配的“细目”,从而避免了与知识图谱所有节点进行匹配,提高了匹配速度。
为便于进一步理解本发明,提供以下实施例对本发明方法进行说明。
以黄河治理为例,假设现在数据库中存在“黄河治理.webp”、“黄河水情日报.docx”、“黄河大保护大治理究竟该怎么抓.txt”、“[地理中国]治理黄河遏制黄河水患.mp4”、“黄河流域水文分析数据集——河流网络”五种不同通道的数据,通道2中传来的数据是“黄河治理.webp”,由于处理完成的数据只有黄河治理一个关键词,所以数据绑定在主题信息资源目录-生态环保-河道治理专题信息资源-黄河治理这一栏下,其中,黄河治理是关键词。通道4传来的数据为“[地理中国]治理黄河遏制黄河水患”,处理完成后,除了“黄河治理”这个关键词,还有“水患”,此时检索发现在主题信息资源目录-应急维稳-灾患应急专题信息资源下有“水患”这个关键词,那么还需将此关键词绑定这一条通道标准数据。通道1传来的数据为“黄河大保护大治理究竟该怎么抓_中国人大网”,数据处理完也含有“黄河治理”这个关键词,所以也要绑定在主题信息资源目录-生态环保-河道治理专题信息资源-黄河治理这一栏下,同时还有“水-能源-粮食、生态补偿”这两个另外的关键词,以“生态补偿”为例,由于检索每一目下的关键词,没有匹配程度较高的,所以认定没有相关的关键词,于是需要将关键词匹配上一层,以获得近似目“生态治理专题信息资源”,并将“生态补偿”绑定在此目。通道6传来的数据为“黄河流域水文分析数据集——河流网络”,处理完后,他含有三个关键词,“黄河水位、水文分析、河流网络”,“黄河水位”经匹配发现,并没有完全同样的关键词,但是有匹配度较高的细目“黄河信息资源”,于是就把这条数据绑定在基础信息资源目录-自然资源和空间地理基础信息资源-水利专题信息资源-黄河信息资源这一栏;此外,“水文分析”没有匹配度较高的细目,所以将关键词匹配上一层,获得近似目“水利专题信息资源”,并在此目下创建细目“水文分析”;“河流网络”经过匹配,也没有匹配较高的细目,继续匹配上一层,也没有匹配较高的目,此时可能需要人工干预。通道5传进来的数据是“黄河水情日报”,经处理后获得“黄河水情、黄河治理”这两个关键词,“黄河水情”与细目“黄河信息资源”匹配度较高,于是将此通道标准数据绑定在这一栏下,同理,该通道标准数据还需要绑定在细目“黄河治理”下,于是,细目“黄河治理”和细目“黄河信息资源”有共同的通道标准数据,那么他们两个便有关联。
本发明提出了一种多源异构通道耦合的方法,实现了多源异构的数据在通道耦合知识图谱上的耦合,解决了数据分散建设分散应用的问题,用本发明方法构建的知识图谱,提高了数据检索效率。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种多源异构信息通道耦合方法,其特征在于,包括构建初始通道耦合知识图谱,基于通道耦合知识图谱实现通道数据耦合和基于通道耦合知识图谱实现数据检索;
所述构建初始通道耦合知识图谱,包括:将信息资源目录中规定的“类”、“项”、“目”抽取成实体,形成初始通道耦合知识图谱的框架;再对每一个“目”提取关键词,将关键词抽取为“细目”实体,补充初始通道耦合知识图谱的枝叶;其中,“类”与“项”实体之间是包含关系,“项”和“目”实体之间是包含关系,“目”和“细目”实体之间是关联关系;
所述基于通道耦合知识图谱实现通道数据耦合,包括获取通道数据,数据预处理,数据封装和通道数据融合;
所述数据预处理包括:通过元数据管理引擎,对每条通道设置一种数据处理方式,将数据处理为元数据,并提取数据的关键词作为通道标准数据关键词;
所述数据封装包括:将所述数据预处理得到的元数据、通道ID、文件格式、关键词、物理存储地址封装形成通道标准数据;
所述通道数据融合包括:采用词目链接策略和目目关联策略将所述通道标准数据融合到通道耦合知识图谱中,其中,所述词目链接策略,即采用剪枝策略将通道标准数据关键词与通道耦合知识图谱逐层匹配,将匹配成功的通道标准数据链接到通道耦合知识图谱的“细目”;所述目目关联策略,即当多个“细目”共同链接同一通道标准数据时,将“细目”之间彼此关联;
所述基于通道耦合知识图谱实现数据检索,包括:采用剪枝策略将目标词与通道耦合知识图谱逐层匹配,得到匹配得分最大的目标“细目”,并计算所述目标“细目”的所有一步关联“细目”与目标词的匹配得分,读取匹配得分大于设定阈值的“细目”所链接的通道标准数据,索引物理存储地址并展示;其中,所述一步关联“细目”为链接相同通道标准数据的“细目”。
2.如权利要求1所述的多源异构信息通道耦合方法,其特征在于:所述元数据的类型包括文本、视频、传感、图像、定位、结构化和非结构化数据。
3.如权利要求1所述的多源异构信息通道耦合方法,其特征在于:所述匹配通过计算语义向量间的余弦相似度完成。
4.如权利要求1所述的多源异构信息通道耦合方法,其特征在于,所述词目链接策略具体包括以下步骤:
第一步,判断通道标准数据中是否有通道标准数据关键词,如果没有,标记人工处理,并结束;如果有,依次执行通道标准数据关键词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则标记该关键词,并回到第一步循环;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则标记该关键词,并回到第一步循环;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则标记该关键词,并回到第一步循环;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则判断“目”列表中的“目”的匹配得分是否超过创建阈值,如果超过创建阈值,则将该“目”保留到“创建细目”列表;
第十步,判定“创建细目”列表中是否有值,如果没有,则标记该关键词,并回到第一步循环;如果有,则对所有“目”根据匹配得分排序,在最大匹配得分的“目”实体下创建与该通道标准数据关键词同名的“细目”实体;
第十一步,继第九步,如果“细目”列表有值,则对“细目”列表做排序处理,得到匹配值最高的“细目”,即为该通道标准数据的关键词链接的细目;
第十二步,对后续关键词依次执行第二到十一步,直至全部关键词都有匹配“细目”或执行人工处理,结束处理。
5.如权利要求1所述的多源异构信息通道耦合方法,其特征在于,所述基于通道耦合知识图谱实现数据检索,具体包括以下步骤:
第一步,输入目标词,依次执行目标词与“类”、“项”、“目”、“细目”匹配;
第二步,匹配“类”时,设置类匹配阈值,如果匹配得分高于类匹配阈值,则将所匹配到的“类”放在“类”列表中,依次匹配,直至匹配所有的“类”;
第三步,判定“类”列表中是否有值,如果没有,则直接结束;如果有,则对“类”列表中的“类”执行下一步操作;
第四步,匹配“项”,设置项匹配阈值,如果匹配得分高于项匹配阈值,则将所匹配到的“项”放在“项”列表中,依次匹配,直至匹配所有的“项”;
第五步,判定“项”列表中是否有值,如果没有,则直接结束;如果有,则对“项”列表中的“项”执行下一步操作;
第六步,匹配“目”,设置目匹配阈值,如果匹配得分高于目匹配阈值,则将所匹配到的“目”放在“目”列表中,依次匹配,直至匹配所有的“目”;
第七步,判定“目”列表中是否有值,如果没有,则直接结束;如果有,则对“目”列表中的“目”执行下一步操作;
第八步,匹配“细目”,设置细目匹配阈值,如果匹配得分高于细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的“细目”;
第九步,判定“细目”列表中是否有值,如果没有,则直接结束;如果有,对“细目”列表做排序处理,得到匹配得分最高的“细目”,存入“细目”列表;
第十步,索引第九步匹配得分最高“细目”的一步关联“细目”,并计算目标词与一步关联“细目”的匹配得分,设置一步关联细目匹配阈值,如果匹配得分高于一步关联细目匹配阈值,则将所匹配到的“细目”放在“细目”列表中,依次匹配,直至匹配所有的一步关联“细目”;
第十一步,再次对“细目”列表做排序处理,按照排序处理后的“细目”列表中的“细目”所链接的通道标准数据的物理存储地址找到源数据,并依次输出展示。
CN202211382672.4A 2022-11-07 2022-11-07 一种多源异构信息通道耦合方法 Active CN115757816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211382672.4A CN115757816B (zh) 2022-11-07 2022-11-07 一种多源异构信息通道耦合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211382672.4A CN115757816B (zh) 2022-11-07 2022-11-07 一种多源异构信息通道耦合方法

Publications (2)

Publication Number Publication Date
CN115757816A true CN115757816A (zh) 2023-03-07
CN115757816B CN115757816B (zh) 2023-12-08

Family

ID=85356807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211382672.4A Active CN115757816B (zh) 2022-11-07 2022-11-07 一种多源异构信息通道耦合方法

Country Status (1)

Country Link
CN (1) CN115757816B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN112115207A (zh) * 2019-06-20 2020-12-22 国电南瑞科技股份有限公司 一种电力设备知识图谱的本体设计方法
CN112148701A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种文件检索的方法及设备
CN113282689A (zh) * 2021-07-22 2021-08-20 药渡经纬信息科技(北京)有限公司 基于领域知识图谱的检索方法、装置和搜索引擎
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法
CN114282009A (zh) * 2021-12-28 2022-04-05 北京大学 以关系为核心的层次化知识建模结构及知识图谱构建方法
CN114328799A (zh) * 2021-11-10 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置以及计算机可读存储介质
CN114398546A (zh) * 2022-01-06 2022-04-26 北京明略软件系统有限公司 菜品的推荐方法和装置、存储介质、电子装置
CN114491068A (zh) * 2022-01-21 2022-05-13 武汉东湖大数据交易中心股份有限公司 一种融合多源异构数据的产业园知识图谱构建方法及系统
CN115146166A (zh) * 2022-07-08 2022-10-04 华中师范大学 一种基于知识注意力的学习资源推荐方法及应用

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115207A (zh) * 2019-06-20 2020-12-22 国电南瑞科技股份有限公司 一种电力设备知识图谱的本体设计方法
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN112148701A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种文件检索的方法及设备
CN113282689A (zh) * 2021-07-22 2021-08-20 药渡经纬信息科技(北京)有限公司 基于领域知识图谱的检索方法、装置和搜索引擎
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法
CN114328799A (zh) * 2021-11-10 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置以及计算机可读存储介质
CN114282009A (zh) * 2021-12-28 2022-04-05 北京大学 以关系为核心的层次化知识建模结构及知识图谱构建方法
CN114398546A (zh) * 2022-01-06 2022-04-26 北京明略软件系统有限公司 菜品的推荐方法和装置、存储介质、电子装置
CN114491068A (zh) * 2022-01-21 2022-05-13 武汉东湖大数据交易中心股份有限公司 一种融合多源异构数据的产业园知识图谱构建方法及系统
CN115146166A (zh) * 2022-07-08 2022-10-04 华中师范大学 一种基于知识注意力的学习资源推荐方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李肖俊;邵必林;: "多源异构数据情境中学术知识图谱模型构建研究", 现代情报, no. 06 *
熊晶;焦清局;刘运通;: "基于多源异构数据的甲骨学知识图谱构建方法研究", 浙江大学学报(理学版), no. 02 *
陈晓慧;王鑫;葛磊;胡英男;车森;: "地理空间情报知识图谱构建方法概述", 信息工程大学学报, no. 01 *

Also Published As

Publication number Publication date
CN115757816B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN1122231C (zh) 为自然语言语句生成逻辑形式图的方法和系统
CN101765842B (zh) 用于xml策略匹配的方法和装置
CN109063221A (zh) 基于混合策略的查询意图识别方法和装置
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
Embley et al. Big data—conceptual modeling to the rescue
CN108922633A (zh) 一种疾病名称标准化规范方法及规范系统
CN107844609A (zh) 一种基于文体和词表的突发事件信息抽取方法及系统
CN109977309B (zh) 基于多关键字和用户偏好的组合兴趣点查询方法
Nývlt The role of managing knowledge and information in BIM implementation processes in the Czech Republic
CN102117281A (zh) 一种构建领域本体的方法
CN105677795A (zh) 抽象语义的推荐方法、推荐装置及推荐系统
CN109344187A (zh) 一种司法判决书案情信息结构化处理系统
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
CN109919084A (zh) 一种基于深度多索引哈希的行人重识别方法
CN107341188A (zh) 基于语义分析的高效数据筛选方法
CN103853792A (zh) 一种图片语义自动标注方法与系统
CN101639840A (zh) 网络信息语义结构识别方法和装置
CN103678302A (zh) 一种文档结构化组织方法及装置
CN110414007A (zh) 一种基于法理图规则引擎的法律概念识别方法
CN115757816A (zh) 一种多源异构信息通道耦合方法
Wyndham The trouble with TEK
CN106250420A (zh) 标签关联方法和装置
CN102122296A (zh) 检索结果聚类方法及装置
CN109918661A (zh) 同义词获取方法及装置
Xuanjing et al. Language-independent Text Categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant