CN111209409B - 数据匹配方法及装置、存储介质及电子终端 - Google Patents
数据匹配方法及装置、存储介质及电子终端 Download PDFInfo
- Publication number
- CN111209409B CN111209409B CN201911377542.XA CN201911377542A CN111209409B CN 111209409 B CN111209409 B CN 111209409B CN 201911377542 A CN201911377542 A CN 201911377542A CN 111209409 B CN111209409 B CN 111209409B
- Authority
- CN
- China
- Prior art keywords
- entity
- graph
- data
- sub
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及计算机技术领域,具体涉及一种数据匹配方法、一种数据匹配装置、一种存储介质以及一种电子终端。所述方法包括:获取目标对象的待处理数据,所述待处理数据包括待处理实体信息和各待处理实体关系信息;获取所述目标对象对应的知识图谱子图集合;将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱。本方法可以通过利用目标对象的知识图谱对待处理数据进行数据挖掘,准确的获取实体之间关系信息,提升相关性数据的匹配效率,并提高逻辑判断的准确率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种数据匹配方法、一种数据匹配装置、一种存储介质以及一种电子终端。
背景技术
知识图谱是具有图形结构的知识库,可以以图形格式链接来自各种来源和各种学科的各种类型和结构的知识模块,提供基于多学科中的各种元数据具有可扩展深度和广度的知识系统。实现将真实世界中存在的各种实体、概念以及它们之间的关系用图的形式加以描述,从而为信息处理提供知识基础。知识图谱已经成为人工智能的关键技术之一,被广泛应用于智能搜索、自动问答、个性化推荐、数据挖掘等应用中。
现有技术方案在对某种疾病的疾病数据进行相关性探索时,大多需要以人工的方式查找医学指南,确定相关信息。并且需要统计大量临床患者的相关医疗数据。这样的方式存在一定的缺陷,例如,在根据医学指南处理时,容易偏离实际。而临床研究的失效较慢,并且容易受到样本的局限性影响。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据匹配方法、一种数据匹配装置、一种存储介质以及一种电子终端,可以利用知识图谱对相关数据进行逻辑匹配,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种数据匹配方法,包括:
获取目标对象的待处理数据,所述待处理数据包括待处理实体信息和各待处理实体关系信息;
获取所述目标对象对应的知识图谱子图集合;
将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱。
在本公开的一种示例性实施例中,所述目标对象对应的知识图谱子图集合的构建方法包括:
获取所述目标对象的基础源数据,并根据所述基础源数据构建所述目标对象的知识图谱;
对所述目标对象的知识图谱进行筛选,以获取包含多个第一实体的第一实体集合;
根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,以基于多个子图生成知识图谱子图集合。
在本公开的一种示例性实施例中,所述获取所述目标对象的基础源数据,包括:
获取多个私有云存储的所述目标对象的原始数据;
对所述原始数据进行纳排、脱敏处理以获取合并数据;
对所述筛选后的原始数据进行合并以获取合并数据;
基于预设的归一化辞典对所述合并数据进行归一化处理以获取所述目标对象的基础源数据。
在本公开的一种示例性实施例中,所述基于所述基础源数据构建所述目标对象的知识图谱,包括:
对所述基础源数据进行识别,并确定所述基础源数据中的实体信息,以及关系信息;其中,所述实体信息包括实体,以及所述实体的属性信息,所述关系信息包括所述实体之间的关系信息以及所述实体之间关系的触发条件;
基于所述实体信息和关系信息构建所述目标对象的知识图谱。
在本公开的一种示例性实施例中,所述根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,包括:
由所述第一实体集合抽取一第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;
读取所述第一实体集合,若所述第一实体集合包括若干个所述第一实体,则抽取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;或者
若所述第一实体集合为空,则停止抽取所述第一实体,以获取所述知识图谱对应的至少一个子图。
在本公开的一种示例性实施例中,所述获取该第一实体对应的子图后,所述方法还包括:
读取所述子图,若所述子图包含第一实体,将该第一实体添加至第二实体集合中;
由所述第二实体集合中选取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的第二子图,将所述第二子图添加至所述子图;并将所述第一实体由所述子实体集合中清除;
若所述第二实体集合为空,则停止在所述第二实体集合中抽取所述第一实体,以获取所述子图。
在本公开的一种示例性实施例中,所述将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱,包括:
将所述待处理实体与所述知识图谱子图集合进行匹配,以获取各所述待处理实体对应的多组匹配实体和匹配关系信息;
根据所述待处理实体及对应的关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选所述目标图谱。
根据本公开的第二方面,提供一种数据匹配装置,包括:
待处理数据获取模块,用于获取目标对象的待处理数据,并对所述待处理数据进行标记以获取待处理实体,以及各待处理实体对应的关系信息;
子图集合获取模块,用于获取所述目标对象对应的知识图谱子图集合;
匹配模块,用于将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱
根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的数据匹配方法。
根据本公开的第四方面,提供一种电子终端,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行时实现上述的数据匹配方法。
本公开的一种实施例所提供的数据匹配方法中,通过对目标对象的待处理数据进行标记来获取待处理数据包含的实体信息和关系信息;再将该些实体信息和关系信息与已获取的知识图谱子图集合进行匹配,进而确定待处理数据对应的目标图谱。通过利用目标对象的既有知识图谱对待处理数据进行数据挖掘,可以准确的获取待处理数据所包含的各实体之间的触发条件和其他关系信息,提升相关性数据的匹配效率,并提高逻辑判断的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种数据匹配方法示意图;
图2示意性示出本公开示例性实施例中一种知识图谱子图集合的构建方法的示意图;
图3示意性示出本公开示例性实施例中一种对子图内容进行读取和判断的方法的示意图;
图4示意性示出本公开示例性实施例中另一种数据匹配方法示意图;
图5示意性示出本公开示例性实施例中一种数据匹配装置组成示意图;
图6示意性示出本公开示例性实施例中一种电子终端的组成示意图;
图7示意性示出本公开示例性实施例中一种存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
本示例实施方式中首先提供了一种数据匹配方法,可以应用于对数据相关性的逻辑判断和数据匹配,例如医疗数据等。参考图1中所示,上述的数据匹配方法可以包括以下步骤:
步骤S11,获取目标对象的待处理数据,所述待处理数据包括待处理实体信息和各待处理实体关系信息;
步骤S12,获取所述目标对象对应的知识图谱子图集合;
步骤S13,将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱。
本示例实施方式所提供的数据匹配方法,通过对目标对象的待处理数据进行标记,获取待处理数据包含的实体信息和关系信息;再将该些实体信息和关系信息与已获取的知识图谱子图集合进行匹配,进而确定待处理数据对应的目标图谱。一方面,可以通过利用目标对象的既有知识图谱对待处理数据进行数据挖掘,可以准确的获取待处理数据所包含的各实体之间的触发条件和其他关系信息。另一方面,可以提升相关性数据的匹配效率,并提高逻辑判断的准确率。
下面,将结合附图及实施例对本示例实施方式中的数据匹配方法中各个步骤进行更详细的说明。
步骤S11,获取目标对象的待处理数据,所述待处理数据包括待处理实体信息和各待处理实体关系信息。
本示例实施方式中,上述的数据匹配方法可以在用户终端执行,也可以在服务器端执行。举例来说,上述的目标对象可以是用户指定的某一种疾病。例如,目标对象可以是糖尿病或者癌症等。上述的待处理数据可以是目标对象的相关数据,例如糖尿病的相关疾病数据,如诊断信息、检查信息、检验信息、治疗信息或者药品信息等等。
本示例实施方式中,服务器端在获取待处理数据后,在待处理数据的数据量大于预设阈值时,还可以对待处理数据进行采样,并将采样结果作为待处理数据,从而可以减少样本数量,提升计算效率。随后,便可以对待处理数据进行标记,标识待处理数据中的实体信息和关系信息,包括实体、实体的属性信息、各实体之间的关系信息以及实体之间的关系出发条件。
步骤S12,获取所述目标对象对应的知识图谱子图集合。
本示例实施方式中,可以预先利用目标对象的既有数据构建目标对象对应的知识图谱,并对知识图谱进行降维以获取子图集合;或者,服务器端也可以在接收到待处理数据后,获取目标对应的基础源数据,并实时的利用基础源数据构建知识图谱,再对知识图谱进行降维以获取子图集合。具体来说,参考图2所示,构建目标对象对应的知识图谱子图集合可以包括:
步骤S121,获取所述目标对象的基础源数据,并基于所述基础源数据构建所述目标对象的知识图谱。
本示例实施方式中,具体来说,构建知识图谱可以包括:
首先,获取目标对象的原始数据。具体可以包括:由多个私有云存储设备获取所述目标对象的原始数据;其次,在公有云存储设备对所述原始数据进行纳排、脱敏处理以获取合并数据;以及,基于预设的归一化辞典对所述合并数据进行归一化处理以获取所述目标对象的基础源数据。
具体来说,可以分别从多个私有云中提取目标对象的相关原始数据,并在公有云中对原始数据按照预定的纳排条件和逻辑对原始数据进行筛选,并进行脱敏处理。或者,也可以在私有云中对原始数据执行上述的纳排、脱敏处理,并在公有云对处理后的数据进行合并,从而可以降低公有云服务器的数据处理压力。其中,原始数据可以包括符合方案的病人的诊断信息、检查信息、检验信息、治疗信息以及药品信息等详细信息。
此外,还可以预先建立的归一化辞典;构建以上详细信息对应检查、检验、治疗、药品的分类信息的字典,便于对合并数据进行类别匹配,从而可以对合并数据进行归一化处理,将合并数据中的详细信息与类别信息整理成一一对应的二维表形式,得到目标对象的医学数据源,为后续分析做准备。
本示例实施方式中,在获取目标对象的基础源数据后,便可以基于基础源数据构建知识图谱。具体来说,可以包括:对所述基础源数据进行识别,并标记实体信息,以及关系信息;以及,基于所述实体信息和关系信息构建所述目标对象的知识图谱。
举例来说,可以对基础源数据标记实体、实体的属性信息,各实体之间的关系信息以及实体之间的关系触发条件。并以各实体和/或各实体的属性信息作为节点,以各实体之间的关系信息和/或各实体与属性信息之间的关系信息作为有向线段,以实体之间的关系触发条件为线段成立条件,构建目标对象对应的医学知识图谱。医学知识图谱可以以二维表的形式存储。
步骤S122,对所述目标对象的知识图谱进行筛选,以获取包含多个第一实体的第一实体集合。
本示例实施方式中,在根据目标对象既有的原始数据构建知识图谱后,可以对知识图谱中的各实体按预设的评估规则进行标记,并筛选第一实体和次要实体,生成对应的第一实体集合和次要实体集合。并将所有的第一实体压入第一实体栈K中。
步骤S123,根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,以基于多个子图生成知识图谱子图集合。
本示例实施方式中,具体来说,上述的步骤S123可以包括:
步骤一,由所述第一实体集合抽取一第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;
步骤二,读取所述第一实体集合,若所述第一实体集合包括若干个所述第一实体,则抽取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;或者
步骤三,若所述第一实体集合为空,则停止抽取所述第一实体,以获取所述知识图谱对应的至少一个子图。
本示例实施方式中,在获取子图后,对于各子图来说,还可以对子图的内容进行读取和判断,具体来说,参考图3所示,可以包括:
步骤S41,读取所述子图,若所述子图中包含第一实体,将该第一实体添加至第二实体集合中;
步骤S42,由所述第二实体集合中选取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的第二子图,将所述第二子图添加至所述子图;并将所述第一实体由所述子实体集合中清除;
步骤S43,若所述第二实体集合为空,则停止在所述第二实体集合中抽取所述第一实体,以获取所述子图。
举例来说,可以从第一实体栈K中以随机或按顺序的方式取出一个第一实体作为遍历起点进行遍历,第一实体集合中包含的各实体可以是知识图谱所包含的核心实体。以选取的第一实体为起点,在知识图谱中进行深度为1的广度优先遍历,并将遍历得到的实体全部加入该第一实体的子图中。
在获取上述第一实体对应的子图后,可以执行上述的步骤S41-步骤S43,判断遍历得到的实体中,除子图起点外,是否还包含有其他第一实体,若是则将遍历得到的其他第一实体压入实体栈S中,即第二实体集合。再从实体栈S中取出一个第一实体,然后以取出的核心对象实体为起点执行上述的步骤S42。再判断栈S中的实体数量是否为0,若栈S中的实体数量是为0,则结束遍历,输出子图,然后将遍历得到的第一实体从栈K中除去。若栈S中的实体数量不为0,则从栈S中继续取出一个第一实体,然后以取出的核心对象实体为起点执行步骤S42;直至栈S中为空。
在输出由第一实体栈K中选取的第一实体对应的子图后,可以对第一实体栈K进行识别,判断栈K中实体数量是否为0。若是,则结束子图划分。否则,则继续从栈K中取出一个第一实体作为遍历起点进行遍历以获取该第一实体对应的子图。直至第一实体栈K为空,从而获取知识图谱的所有子图划分,作为医学知识图普集。
步骤S13,将所述待处理实体与所述知识图谱子图集合进行匹配,以筛选目标图谱。
本示例实施方式中,具体来说,上述的步骤S13可以包括:将所述待处理实体与所述知识图谱子图集合进行匹配,以获取各所述待处理实体对应的多组匹配实体和匹配关系信息;根据所述待处理实体及对应的关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选目标图谱。
本示例实施方式中,基于待处理数据已标记的实体信息,遍历子图集合,以筛选与待处理数据中实体相匹配的一组或多组结果,各组结果中可以包含实体信息,以及关系信息和触发条件信息。然后,可以利用预设的标准进行评估,从而确定最优一组作为最优医学知识图谱。其中,上述的评估标准可以根据用户的具体需求来配置对应的评估策略。例如,可以将实体及关系信息转换为对应的编码,并通过编码计算相似度来进行评估。或者,配置评估策略为优先匹配实体的策略。当然,在本公开的其他示例性实施例中,用户也可以根据业务需求配置其他的评估策略,本公开对评估策略不做特殊限定。
本示例实施方式中,若匹配处理后即未能输出待处理数据对应的目标图谱,或者匹配结果对应的的目标图谱匹配度较低,则表示当前的待处理数据中的待处理实体和待处理实体关系可能存在部分内容不在知识图谱中。此时,便可以将待处理数据添加至知识图谱对应的结构中。
进一步的,基于上述内容,在本公开的其他示例性实施方式中,可以是响应于一业务系统的指令来执行上述的处理方法。具体来说,参考图4所示,可以包括:
步骤S51,响应于业务系统的数据处理指令,以获取目标对象的待处理数据;
步骤S52,对所述待处理数据进行标记以获取待处理实体,以及各待处理实体对应的关系信息;
步骤S53,获取所述目标对象对应的知识图谱子图集合;
步骤S54,将所述待处理实体与所述知识图谱子图集合进行匹配,以获取各所述待处理实体对应的多组匹配实体和匹配关系信息;
步骤S55,根据所述待处理实体及对应的关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选目标图谱。
举例来说,上述的业务系统可以是用于根据用户的控制操作对目标对象的数据进行相关性分析操作的业务系统。
本公开所提供的数据匹配方法,通过利用既有数据预先构建目标对象的知识图谱,并对知识图谱进行降维获取对应的子图。再对目标对象的待处理的新数据进行标记,获取待处理数据包含的实体信息和关系信息;再将该些实体信息和关系信息与已获取的知识图谱子图集合进行匹配,进而确定待处理数据对应的目标图谱。通过利用目标对象的既有知识图谱对待处理数据进行数据挖掘,可以准确的获取待处理数据所包含的各实体之间的触发条件和其他关系信息,提升相关性数据的匹配效率,并提高逻辑判断的准确率。通过利用规则匹配,分类再分组的方式,大大的减少了人力成本、时间成本,提供了这一类问题的处理方式。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图5所示,本示例的实施方式中还提供了一种数据匹配装置30,包括:待处理数据获取模块301、子图集合获取模块302、匹配模块303以及目标图谱评估模块304。其中:
所述待处理数据获取模块301可以用于获取目标对象的待处理数据,并对所述待处理数据进行标记以获取待处理实体,以及各待处理实体对应的关系信息。
所述子图集合获取模块302可以用于获取所述目标对象对应的知识图谱子图集合。
所述匹配模块303可以用于将所述待处理实体与所述知识图谱子图集合进行匹配,以获取各所述待处理实体对应的多组匹配实体和匹配关系信息。
所述目标图谱评估模块304可以用于根据所述待处理实体及对应的关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选目标图谱。
本示例实施方式中,所述待处理数据获取模块301可以包括:采样处理单元。
所述采样处理单元可以用于对所述目标对象的源数据进行采样,并将采样结果作为所述待处理数据。
本示例实施方式中,所述子图集合获取模块302可以包括:知识图谱构建单元、第一实体集合生成单元以及子图划分单元。其中:
所述知识图谱构建单元可以用于获取所述目标对象的基础源数据,并根据所述基础源数据构建所述目标对象的知识图谱。
所述第一实体集合生成单元可以用于对所述目标对象的知识图谱进行筛选,以获取包含多个第一实体的第一实体集合。
所述子图划分单元可以用于根据所述第一实体集合对所述知识图谱进行子图划分,以获取多个子图。
本示例实施方式中,所述知识图谱构建单元可以包括:私有云处理单元、预处理单元以及合并处理单元。其中:
所述私有云处理单元可以用于由多个私有云存储设备获取所述目标对象的原始数据。
所述预处理单元可以用于在公有云存储设备对所述原始数据进行纳排、脱敏处理以获取合并数据。
所述合并处理单元可以用于基于预设的归一化辞典对所述合并数据进行归一化处理以获取所述目标对象的基础源数据。
本示例实施方式中,所述知识图谱构建单元可以包括:标记执行单元和构建执行单元。其中:
所述标记执行单元可以用于对所述基础源数据进行识别,并标记实体信息,以及关系信息。
所述构建执行单元可以用于基于所述实体信息和关系信息构建所述目标对象的知识图谱。
本示例实施方式中,所述子图划分单元可以包括:子图生成单元。
所述子图生成单元可以用于由所述第一实体集合选取一第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;以及重复执行上述步骤直至所述第一实体集合为空,以获取所述知识图谱的多个子图。
本示例实施方式中,所述子图划分单元可以包括:子图识别单元。
所述子图识别单元可以用于读取所述子图,并在所述子图中包含第一实体时,将该第一实体添加至子实体集合中;以及由所述子实体集合中选取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述子实体集合中清除;并重复执行上述步骤直至所述子实体集合为空,以获取所述知识图谱的多个子图。
上述的数据匹配装置30中各模块的具体细节已经在对应的数据匹配方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的终端设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备400。图6显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图1中所示的S11-步骤S13。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品500,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (8)
1.一种数据匹配方法,其特征在于,包括:
获取目标对象的待处理数据,所述待处理数据包括待处理实体信息和各待处理实体关系信息;
获取所述目标对象对应的知识图谱子图集合,包括:获取所述目标对象的基础源数据,并基于所述基础源数据构建所述目标对象的知识图谱;对所述目标对象的知识图谱按预设的评估规则进行标记,并筛选,以获取包含多个第一实体的第一实体集合;根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,以基于多个子图生成降维后的知识图谱子图集合;
将所述待处理数据与所述知识图谱子图集合进行匹配,以筛选目标图谱,包括:将所述待处理实体信息与所述知识图谱子图集合进行匹配,以获取各所述待处理实体信息对应的多组匹配实体和匹配关系信息;根据所述待处理实体信息及对应的待处理实体关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选所述目标图谱。
2.根据权利要求1所述的数据匹配方法,其特征在于,所述获取所述目标对象的基础源数据,包括:
获取多个私有云存储的所述目标对象的原始数据;
对所述原始数据进行纳排、脱敏处理以获取合并数据;
对筛选后的原始数据进行合并以获取合并数据;
基于预设的归一化辞典对所述合并数据进行归一化处理以获取所述目标对象的基础源数据。
3.根据权利要求1所述的数据匹配方法,其特征在于,所述基于所述基础源数据构建所述目标对象的知识图谱,包括:
对所述基础源数据进行识别,并确定所述基础源数据中的实体信息,以及关系信息;其中,所述实体信息包括实体,以及所述实体的属性信息,所述关系信息包括所述实体之间的关系信息以及所述实体之间关系的触发条件;
基于所述实体信息和关系信息构建所述目标对象的知识图谱。
4.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,包括:
由所述第一实体集合抽取一第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;
读取所述第一实体集合,若所述第一实体集合包括若干个所述第一实体,则抽取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的子图,并将所述第一实体由所述第一实体集合中清除;或者
若所述第一实体集合为空,则停止抽取所述第一实体,以获取所述知识图谱对应的至少一个子图。
5.根据权利要求4所述的数据匹配方法,其特征在于,所述获取该第一实体对应的子图后,所述方法还包括:
读取所述子图,若所述子图包含第一实体,将该第一实体添加至第二实体集合中;
由所述第二实体集合中选取一所述第一实体作为起点,对所述知识图谱执行目标深度的广度优先遍历,以获取该第一实体对应的第二子图,将所述第二子图添加至所述子图;并将所述第一实体由所述第二实体集合中清除;
若所述第二实体集合为空,则停止在所述第二实体集合中抽取所述第一实体,以获取所述子图。
6.一种数据匹配装置,其特征在于,包括:
待处理数据获取模块,用于获取目标对象的待处理数据,并对所述待处理数据进行标记以获取待处理实体,以及各待处理实体对应的关系信息;
子图集合获取模块,用于获取所述目标对象对应的知识图谱子图集合,包括:获取所述目标对象的基础源数据,并基于所述基础源数据构建所述目标对象的知识图谱;对所述目标对象的知识图谱按预设的评估规则进行标记,并筛选,以获取包含多个第一实体的第一实体集合;根据所述第一实体集合对所述知识图谱进行子图划分获取对应的多个子图,以基于多个子图生成降维后的知识图谱子图集合;
匹配模块,用于将所述待处理实体数据与所述知识图谱子图集合进行匹配,以筛选目标图谱,包括:将所述待处理实体信息与所述知识图谱子图集合进行匹配,以获取各所述待处理实体信息对应的多组匹配实体和匹配关系信息;根据所述待处理实体信息及对应的待处理实体关系信息对所述多组匹配实体和匹配关系信息进行评估,以筛选所述目标图谱。
7.一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至5中任一项所述的数据匹配方法。
8. 一种电子终端,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如权利要求1至5中任一项所述的数据匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911377542.XA CN111209409B (zh) | 2019-12-27 | 2019-12-27 | 数据匹配方法及装置、存储介质及电子终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911377542.XA CN111209409B (zh) | 2019-12-27 | 2019-12-27 | 数据匹配方法及装置、存储介质及电子终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209409A CN111209409A (zh) | 2020-05-29 |
CN111209409B true CN111209409B (zh) | 2023-09-29 |
Family
ID=70787028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911377542.XA Active CN111209409B (zh) | 2019-12-27 | 2019-12-27 | 数据匹配方法及装置、存储介质及电子终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209409B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139037B (zh) * | 2021-03-18 | 2023-04-14 | 北京三快在线科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113157938B (zh) * | 2021-03-25 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 保护隐私数据的多个知识图谱联合处理的方法和装置 |
CN113379499A (zh) * | 2021-06-18 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 物品筛选方法及装置、电子设备、存储介质 |
CN114580390A (zh) * | 2022-03-08 | 2022-06-03 | 深圳计算科学研究院 | 一种横跨图数据与关系数据的实体对识别方法及装置 |
CN114978946B (zh) * | 2022-05-17 | 2023-10-03 | 中国电信股份有限公司 | 节点故障诊断方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019103778A1 (en) * | 2017-11-27 | 2019-05-31 | Siemens Aktiengesellschaft | Missing label classification and anomaly detection for sparsely populated manufacturing knowledge graphs |
CN110609906A (zh) * | 2019-09-16 | 2019-12-24 | 金色熊猫有限公司 | 知识图谱构建方法及装置、存储介质及电子终端 |
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
-
2019
- 2019-12-27 CN CN201911377542.XA patent/CN111209409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019103778A1 (en) * | 2017-11-27 | 2019-05-31 | Siemens Aktiengesellschaft | Missing label classification and anomaly detection for sparsely populated manufacturing knowledge graphs |
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN110609906A (zh) * | 2019-09-16 | 2019-12-24 | 金色熊猫有限公司 | 知识图谱构建方法及装置、存储介质及电子终端 |
Also Published As
Publication number | Publication date |
---|---|
CN111209409A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111209409B (zh) | 数据匹配方法及装置、存储介质及电子终端 | |
EP3848823A1 (en) | Method and apparatus for extracting poi name, device, and computer storage medium | |
CN111564223B (zh) | 传染病生存概率的预测方法、预测模型的训练方法及装置 | |
CN111488363A (zh) | 数据处理方法、装置、电子设备及介质 | |
JP2022509327A (ja) | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 | |
CN113361578B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN109657056B (zh) | 目标样本获取方法、装置、存储介质及电子设备 | |
CN113128209B (zh) | 用于生成词库的方法及装置 | |
US11574491B2 (en) | Automated classification and interpretation of life science documents | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN110674360A (zh) | 一种用于数据关联图谱的构建和数据的溯源方法和系统 | |
CN111415747A (zh) | 电子病历的构建方法及装置 | |
US11151448B2 (en) | Location tagging for visual data of places using deep learning | |
CN115905926A (zh) | 基于样本差异的代码分类深度学习模型解释方法及系统 | |
CN115798661A (zh) | 临床医学领域的知识挖掘方法和装置 | |
CN110909889A (zh) | 一种基于特征分布的训练集生成、模型训练方法及装置 | |
CN111063446A (zh) | 用于标准化医疗文本数据的方法、装置、设备及存储介质 | |
CN116484878B (zh) | 电力异质数据的语义关联方法、装置、设备及存储介质 | |
US20180150769A1 (en) | Method to determine columns that contain location data in a data set | |
CN110134435B (zh) | 一种代码修复案例获取方法、装置、设备及存储介质 | |
CN109783745B (zh) | 对页面进行个性化排版的方法、装置和计算机设备 | |
JP2018081495A (ja) | 対訳文対出力装置 | |
CN111063445A (zh) | 基于医疗数据的特征提取方法及装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210225 Address after: 100191 room 801, 8th floor, building 9, 35 Huayuan North Road, Haidian District, Beijing Applicant after: YIDU CLOUD Ltd. Address before: Room 1502, 15 / F, Yangzi science and technology innovation center, 211 pubin Road, Jiangbei new district, Nanjing City, Jiangsu Province, 210000 Applicant before: Nanjing Yikang Technology Co.,Ltd. Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |