CN112149400A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112149400A
CN112149400A CN202011007907.2A CN202011007907A CN112149400A CN 112149400 A CN112149400 A CN 112149400A CN 202011007907 A CN202011007907 A CN 202011007907A CN 112149400 A CN112149400 A CN 112149400A
Authority
CN
China
Prior art keywords
text
vector
knowledge
graph
atlas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011007907.2A
Other languages
English (en)
Other versions
CN112149400B (zh
Inventor
张子恒
陈曦
向玥佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011007907.2A priority Critical patent/CN112149400B/zh
Publication of CN112149400A publication Critical patent/CN112149400A/zh
Application granted granted Critical
Publication of CN112149400B publication Critical patent/CN112149400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及存储介质,该方法包括:获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;从待对齐聚类簇中选取目标跨图谱向量对;目标跨图谱向量对包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量;根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。采用本申请实施例,可以提高知识图谱的对齐效率以及对齐准确度。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
知识图谱是认知智能的必要基础,而知识图谱对齐技术是快速工程化搭建知识图谱的重要利器。应当理解,知识图谱对齐技术可以将不同来源的多个知识图谱在进行对齐,从而可以有效帮助融合多个知识图谱融合并形成完整的、知识覆盖更广的知识图谱。由于在多个知识图谱的对齐过程中,需要依赖知识图谱所属领域内的专业人员,对知识图谱中的种子数据进行人工标注,进而可以基于人工标注后的种子数据对不同的知识图谱进行对齐,得到对齐结果。例如,“呼吸内科疾病”和“呼吸系统疾病”这两个本体文本可以作为一组对齐结果。换言之,知识图谱对齐技术可以将“呼吸内科疾病”和“呼吸系统疾病”这两个本体文本进行关联,从而可以使得这两个本体文本所覆盖的实体文本能够通用。其中,整个标注过程耗时耗力,与此同时,人工标注导致衡量的准确程度也难以保证。因此现有知识图谱对齐技术,降低了知识图谱的对齐效率以及对齐准确度。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,可以提高知识图谱的对齐效率以及对齐准确度。
本申请实施例一方面提供一种数据处理方法,包括:
获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;
在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;
从待对齐聚类簇中选取目标跨图谱向量对;目标跨图谱向量对包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量;
根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
本申请实施例一方面提供一种数据处理装置,包括:
向量获取模块,用于获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;
聚类处理模块,用于在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;
向量对选取模块,用于从待对齐聚类簇中选取目标跨图谱向量对;目标跨图谱向量对包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量;
对齐结果确定模块,用于根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该向量获取模块包括:
提取单元,用于对第一知识图谱进行提取,得到与第一知识图谱相关联的第一图谱文本,对第二知识图谱进行提取,得到与第二知识图谱相关联的第二图谱文本;
待编码文本确定单元,用于将第一图谱文本与第二图谱文本作为待编码文本;
编码处理单元,用于对待编码文本进行编码处理,得到待编码文本对应的文本向量;文本向量包括第一图谱文本对应的文本向量和第二图谱文本对应的文本向量。
其中,该编码处理单元包括:
第一文本向量确定子单元,用于若待编码文本对应的图谱文本维度为本体文本维度,则将待编码文本输入至第一模型,由第一模型输出待编码文本对应的文本向量;第一模型是基于待编码文本所属知识图谱的本体文本维度的分词关系信息所训练的;
第二文本向量确定子单元,用于若待编码文本对应的图谱文本维度为实体文本维度,则基于待编码文本以及第二模型,得到待编码文本对应的第一编码向量,基于待编码文本以及词向量模型,得到待编码文本对应的第二编码向量,基于第一编码向量以及第二编码向量,生成待编码文本对应的文本向量;第二模型是基于待编码文本所属知识图谱的实体文本维度的分词关系信息所训练的;词向量模型是基于与知识图谱相关联的医疗领域语料库所训练的;
第三文本向量确定子单元,用于若待编码文本对应的图谱文本维度为属性文本维度,则基于待编码文本以及词向量模型,得到待编码文本对应的第三编码向量,将第三编码向量输入至第三模型,由第三模型输出待编码文本对应的文本向量;第三模型是基于待编码文本所属知识图谱的属性文本维度的分词关系信息所训练的;
其中,知识图谱为第一知识图谱或第二知识图谱。
其中,图谱文本对应的图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
该聚类处理模块包括:
同维度向量集合确定单元,用于在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合;同维度向量集合包括文本向量xi,i为小于或者等于N的正整数;N为同维度向量集合中的向量总数量;
向量距离确定单元,用于将同维度向量集合中除文本向量xi之外的文本向量作为目标文本向量,确定文本向量xi与目标文本向量对应的向量距离;
排序单元,用于根据向量距离对目标文本向量进行排序,得到排序向量序列,从排序向量序列中选择K个目标文本向量,将K个目标文本向量所属聚类簇确定为聚类簇集合,统计K个目标文本向量所属聚类簇在聚类簇集合中的出现频率;
待对齐聚类簇确定单元,用于将具有最高出现频率的聚类簇作为文本向量xi的目标聚类簇,遍历同维度向量集合中的N-1个文本向量,得到待对齐聚类簇。
其中,该向量对选取模块包括:
初始文本向量获取单元,用于从待对齐聚类簇中,获取第一初始文本向量和第二初始文本向量;第一初始文本向量属于第一知识图谱中的文本向量;第二初始文本向量属于第二知识图谱中的文本向量;
初始向量对构建单元,用于基于第一初始文本向量和第二初始文本向量,构建初始跨图谱向量对;
目标向量对确定单元,用于根据第一初始文本向量和第二初始文本向量,确定初始跨图谱向量对对应的向量相似度,将向量相似度满足相似度条件的初始跨图谱向量对确定为目标跨图谱向量对。
其中,该目标向量对确定单元包括:
绝对值获取子单元,用于获取第一初始文本向量对应的第一绝对值,以及第二初始文本向量对应的第二绝对值;
向量相似度确定子单元,用于基于第一初始文本向量、第二初始文本向量、第一绝对值以及第二绝对值,确定初始跨图谱向量对对应的向量相似度;
目标向量对确定子单元,用于从初始跨图谱向量对中,筛选向量相似度大于相似度阈值的初始跨图谱向量对,将所筛选的初始跨图谱向量对作为向量相似度满足相似度条件的目标跨图谱向量对。
其中,图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
该对齐结果确定模块包括:
候选对齐结果获取单元,用于若目标跨图谱向量对中的文本向量属于本体文本维度或者实体文本维度,则获取目标跨图谱向量对对应的候选对齐结果;
置信度筛选单元,用于确定目标跨图谱向量对的置信度,基于置信度对候选对齐结果进行筛选,得到待检查对齐结果集合;
第一对齐结果确定单元,用于根据待检查对齐结果集合,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果;
第二对齐结果确定单元,用于若目标跨图谱向量对中的文本向量属于属性文本维度,则将目标跨图谱向量对对应的候选对齐结果,确定为第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,目标跨图谱向量对包括第一目标文本向量和第二目标文本向量;第一目标文本向量是属于第一知识图谱中的文本向量;第二目标文本向量是属于第二知识图谱中的文本向量;
该置信度筛选单元包括:
第一数量统计子单元,用于在第一知识图谱中,将获取到的第一目标文本向量对应的图谱文本作为第一本体文本,统计与第一本体文本具有父子关系的实体文本的第一数量;
第二数量统计子单元,用于在第二知识图谱中,将获取到的第二目标文本向量对应的图谱文本作为第二本体文本,统计与第二本体文本具有父子关系的实体文本的第二数量;
第三数量统计子单元,用于统计与第一本体文本以及第二本体文本均具有父子关系的实体文本的第三数量;
第一置信度确定子单元,用于基于第一数量、第二数量以及第三数量,确定目标跨图谱向量对的置信度;
第一添加子单元,用于若置信度大于或等于第一置信度阈值,则将目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
第一删除子单元,用于若置信度小于第一置信度阈值,则将目标跨图谱向量对对应的候选对齐结果删除。
其中,目标跨图谱向量对包括第三目标文本向量和第四目标文本向量;第三目标文本向量是属于第一知识图谱中的文本向量;第四目标文本向量是属于第二知识图谱中的文本向量;
该置信度筛选单元包括:
第四数量统计子单元,用于在第一知识图谱中,将获取到的第三目标文本向量对应的图谱文本作为第一实体文本,统计与第一实体文本具有父子关系的本体文本的第四数量;
第五数量统计子单元,用于在第二知识图谱中,将获取到的第四目标文本向量对应的图谱文本作为第二实体文本,统计与第二实体文本具有父子关系的本体文本的第五数量;
第六数量统计子单元,用于统计与第一实体文本以及第二实体文本均具有父子关系的本体文本的第六数量;
第二置信度确定子单元,用于基于第四数量、第五数量以及第六数量,确定目标跨图谱向量对的置信度;
第二添加子单元,用于若置信度大于或等于第二置信度阈值,则将目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
第二删除子单元,用于若置信度小于第二置信度阈值,则将目标跨图谱向量对对应的候选对齐结果删除。
其中,该第一对齐结果确定单元包括:
检查子单元,用于对待检查对齐结果集合中的每个待检查对齐结果进行检查,得到检查结果;
对齐结果确定子单元,用于若检查结果指示同一个图谱文本对应至少两个待检查对齐结果,则从与至少两个待检查对齐结果相关联的置信度中,筛选出具有最大置信度的待检查对齐结果,将所筛选出的待检查对齐结果确定为第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该装置还包括:
待处理医疗文本获取模块,用于获取与第一知识图谱来源不同的待处理医疗文本;第一知识图谱为属于医疗领域对应的知识图谱;
医疗分词关系信息确定模块,用于对待处理医疗文本进行分词处理得到医疗分词,识别医疗分词的图谱文本维度,根据图谱文本维度确定医疗分词之间的医疗分词关系信息;图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;属性文本维度用于表征医疗分词之间的属性类型;
知识图谱构建模块,用于基于医疗分词之间的医疗分词关系信息,构建属于医疗领域的第二知识图谱;第二知识图谱中的图谱文本包括医疗分词。
其中,该装置还包括:
待更新医疗信息确定模块,用于基于第一知识图谱以及对齐结果,确定与对齐结果相关联的待更新医疗信息;待更新医疗信息是指对齐结果中属于第二知识图谱的图谱文本的医疗分词关系信息;第一知识图谱与第二知识图谱均为属于医疗领域对应的知识图谱;
融合可信度确定模块,用于在待更新医疗信息不存在于第一知识图谱时,获取与第一知识图谱相关联的可信医疗语料库,从可信医疗语料库中识别与待更新医疗信息相关联的医疗句子文本,基于医疗句子文本、待更新医疗信息以及关系抽取模型,确定待更新医疗信息的融合可信度;关系抽取模型用于在医疗句子文本中抽取医疗分词关系信息;
更新模块,用于若融合可信度大于或等于第一融合可信度阈值,则根据待更新医疗信息对第一知识图谱进行融合更新;
过滤模块,用于若融合可信度小于或等于第二融合可信度阈值,则过滤待更新医疗信息;第一融合可信度阈值大于第二融合可信度阈值;
校验模块,用于若融合可信度大于第二融合可信度阈值且小于第一融合可信度阈值,则对待更新医疗信息进行校验,在校验成功时根据待更新医疗信息对第一知识图谱进行融合更新。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时,执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面中的方法。
在本申请实施例中,具有知识图谱对齐功能的计算机设备无需人工标注种子数据,可以快速且准确的获取第一知识图谱和第二知识图谱分别对应的图谱文本的文本向量。其中,第一知识图谱可以为该计算机设备需要融合更新的目标知识图谱,第二知识图谱可以为该计算机设备基于外部数据所构建的知识图谱。由于图谱文本的文本向量的编码准确度和编码效率得以提升,从而可以使得该计算机设备能够快速且准确的根据处于相同图谱文本维度下的文本向量,确定同维度向量集合,进而可以对同维度向量集合进行聚类处理,以缩小搜索空间,进而可以快速得到待对齐聚类簇。进一步地,计算机设备可以从所得到的待对齐聚类簇中,选取目标跨图谱向量对,进而可以得到第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果,因此提高了知识图谱的对齐效率以及对齐准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2a是本申请实施例提供的一种系统架构图;
图2b是本申请实施例提供的一种数据交互的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种对待编码文本进行编码处理的流程示意图;
图5是本申请实施例提供的一种确定目标跨图谱向量对的场景示意图;
图6是本申请实施例提供的一种对齐阶段的流程示意图;
图7是本申请实施例提供的一种过滤阶段的流程示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种可视化对齐结果;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备等具有数据处理功能的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。该应用客户端可以用于提供待处理文本(例如,待处理医疗文本),这里的待处理医疗文本是指与第一知识图谱(例如,知识图谱1)来源不同的文本数据(即外部医疗数据或者知识,例如,某药品说明书等),该待处理医疗文本可以用于构建第二知识图谱(例如,知识图谱2)。
如图1所示,本申请实施例中的服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,该目标用户终端中可以为服务器10提供外部数据或者知识(即待处理文本)。例如,该外部数据可以为医疗领域下的文本数据。此时,该目标用户终端可以与服务器10之间实现数据交互。
应当理解,本申请实施例中的数据处理方法可以涉及人工智能领域中的机器学习方向和自然语言处理处理方向。可以理解的是,所谓人工智能(Artificial Intelligence,简称AI)是指利用数字计算机或者数据计算机控制的计算机设备(例如,图1所示服务器10)来进行模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
应当理解,本申请实施例中的知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念可以用一个全局唯一确定的ID来标识,称为它们的标识符。每个属性-值对可以用来刻画实体的内在特性,而关系可以用来连接两个实体,刻画它们之间的关联。可以理解的是,知识图谱表征学习(Knowledge Graph Representation Learning):是指利用机器学习技术自动获取知识图谱中每一个实体文本或者关系的向量化表达,其学习到的特征向量可以帮助提升多个下游任务的性能。可以理解的是,本申请实施例中的知识图谱(第一知识图谱或者第二知识图谱)中的图谱文本对应的图谱文本维度可以包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度。
可以理解的是,第一知识图谱和第二知识图谱均可以为同一领域(例如,医疗领域、美食领域、体育领域、服装领域、交通领域等)的知识图谱。其中,本申请实施例中的对齐结果可以包括本体文本维度对应的对齐结果、实体文本维度对应的对齐结果以及属性文本维度对应的对齐结果。这里的对齐结果可以是指将来源不同的两个或者多个知识图谱中的语义相似、内容相近的两个分词进行对齐后所得到的一组结果。
其中,本体文本维度对齐(Ontology alignment)可以侧重发现两个或多个不同信息来源的知识图谱中等价或相似的类、属性或关系,也称为本体映射(mapping)、本体匹配(matching)。例如,“呼吸内科疾病”和“呼吸系统疾病”可以作为一组本体文本维度对应的对齐结果。换言之,本申请实施例可以将“呼吸内科疾病”和“呼吸系统疾病”这两个本体文本进行关联,从而可以使得这两个本体文本所覆盖的实体文本能够通用。实体文本维度对齐(entity alignment)侧重发现指称真实世界相同对象的不同实例,也称为实体消解(resolution)、实体匹配(matching)。例如,“外伤性脑积水”和“外伤性脑水肿”可以作为一组实体文本维度对应的对齐结果。换言之,本申请实施例可以将“外伤性脑积水”和“外伤性脑水肿”这两个实体文本进行关联,从而可以解决具有严重的多元指代以及口语化表达的医疗实体词所引起的歧义。属性文本维度对齐(property alignment)可以判断两个或多个属性是否可以表示同一个属性,把不同来源或名字相同但表征相同的属性进行信息融合,从而可以获取更丰富、更准确的信息。例如,“适用人群”和“可用人群”可以作为一组属性文本维度对应的对齐结果。换言之,本申请实施例可以将“适用人群”和“可用人群”这两个属性文本进行关联,从而可以准确的表达分词(例如,医疗分词)之间的属性类型。
应当理解,本申请实施例中的知识图谱对齐系统可以通过预处理阶段、编码阶段、对齐阶段以及过滤阶段这4个处理阶段,将来源不同的第一知识图谱和第二知识图谱进行对齐,从而可以快速且准确的得到对齐结果,以便于后续可以基于该对齐结果,将第二知识图谱中的待更新医疗信息更新融合至第一知识图谱中,进而能够得到一个知识覆盖更广的新的第一知识图谱。
为便于理解,进一步地,请参见图2a,图2a是本申请实施例提供的一种系统架构图。如图2a所示,本申请实施例可以由具有知识图谱对齐功能的计算机设备执行,该计算机设备可以为用户终端,也可以为服务器,在此不做限定。为便于理解,本申请实施例中的计算机设备可以以服务器为例,用以阐述知识图谱对齐的具体实施方式,该服务器可以为上述图1所示的服务器10。
应当理解,本申请实施例中的计算机设备在对图2a所示的知识图谱1和知识图谱2对齐的过程中,可以包括以下4个处理阶段:预处理阶段、编码阶段、对齐阶段以及过滤阶段。可以理解的是,在预处理阶段中,该计算机设备可以通过对知识图谱1的解析/提取得到图谱文本1,与此同时,该计算机设备还可以通过对知识图谱2的解析/提取得到图谱文本2。可以理解的是,在医疗领域场景下,知识图谱1可以为本申请实施例中需要融合补充的第一知识图谱(例如,医疗知识图谱)。该知识图谱2可以基于外部医疗数据或者知识所构建的知识图谱,即第二知识图谱,这里的外部医疗数据或者知识是指与知识图谱1来源不同的待处理医疗文本。
进一步地,该计算机设备可以将提取到的图谱文本1(即第一图谱文本)和图谱文本2(即第二图谱文本)作为待编码文本,以在编码阶段中得到待编码文本对应的文本向量。其中,这里的文本向量可以包括图谱文本1对应的文本向量以及图谱文本2对应的文本向量。如图2a所示,本申请实施例中的编码阶段中可以包括多个编码模型。其中,第一模型(例如,On2Vec embedding,即本体编码模型)可以是基于待编码文本所属知识图谱的本体文本维度的分词关系信息所训练的;第二模型(例如,TransE embedding,即转换模型)可以是基于待编码文本所属知识图谱的实体文本维度的分词关系信息所训练的;词向量模型(例如,word embedding)可以是基于与知识图谱相关联的医疗领域语料库所训练的;第三模型(例如,CNN embedding,即卷积神经网络模型)可以是基于待编码文本所属知识图谱的属性文本维度的分词关系信息所训练的。
在该计算机设备得到待编码文本的文本向量时,为了减少对齐搜索空间以及提高对齐效率,该计算机设备可以在对齐阶段中通过分区索引(blocking)以及分区对齐(alignment)两大步骤获取候选对齐结果。应当理解,在分区索引步骤中,该计算机设备可以在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度(例如,本体文本维度、实体文本维度或者属性文本维度)下的文本向量确定为同维度向量集合,进而可以对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇。进一步地,在分区对齐过程中,该计算机设备可以通过确定待对齐聚类簇中的初始跨图谱向量对的向量相似度以及相似度阈值,进而能够从待对齐聚类簇中选取目标跨图谱向量对,得到目标跨图谱向量对对应的候选对齐结果。其中,目标跨图谱向量对可以包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量。
进一步地,该计算机设备可以在过滤阶段中,对目标跨图谱向量对对应的候选对齐结果进行筛选,从而可以确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。其中,该过滤阶段中可以包括基于对齐实体的本体结果过滤以及基于对齐本体的实体结果过滤。为保证该计算机设备所得到的对齐结果为一对一对齐,该计算机设备可以在过滤阶段加入一对一检查,以得到知识图谱1和知识图谱2之间针对图谱文本的对齐结果。
由此可见,具有知识图谱对齐功能的计算机设备在编码阶段中无需对种子数据进行人工标注,可以基于待编码文本的图谱文本维度选择对应的编码模型,从而可以快速对待编码文本进行编码处理,进而可以提高编码效率。进一步地,该计算机设备在对齐阶段通过对同维度向量集合进行聚类处理,得到待对齐聚类簇,从而可以在对齐过程中减小对齐搜索空间,进而可以提高对齐效率。因此,整个知识图谱对齐系统摆脱了对种子数据的依赖,解决了标注成本高昂的挑战,提高了知识图谱的对齐效率以及对齐准确率。
进一步地,为便于理解,请参见图2b,图2b是本申请实施例提供的一种数据交互的场景示意图。如图2b所示,本申请实施例中的用户终端20a可以为上述图1所示的用户终端集群中的任意一个用户终端,例如,用户终端100a。本申请实施例中具有知识图谱对齐功能的计算机设备可以为图2b所示的服务器20b,该服务器20b可以为上述图1所示的服务器。
如图2b所示,本申请实施例中的服务器20b可以将图2b所示的知识图谱200p(即第二知识图谱)和知识图谱200q(即第一知识图谱)进行对齐,得到对齐结果,进而可以基于对齐结果,对知识图谱200q进行融合更新,以得到新的知识图谱(如图2b所示的知识图谱210q)。
应当理解,用户终端20a对应的查询用户在需要查询某一目标文本(例如,“腹痛”)时,可以通过该用户终端20a向服务器20b发送与该目标文本相关联的目标文本查询请求。此时,该服务器20b可以基于该目标文本查询请求,在知识图谱210q中进行解析,能够快速提取与“腹痛”这一目标文本相关联的分词关系信息(例如,医疗分词关系信息),进而可以基于这些医疗分词关系信息,生成与该目标文本相关联的文本信息,该文本信息可以包括腹痛症状、腹痛诱因、腹痛所属疾病类型以及治疗腹痛的药物等。进一步地,服务器20b可以将所生成的文本信息发送至用户终端20a,从而可以使得该查询用户可以快速且准确的得知“腹痛”这一目标文本的相关信息。
其中,具有知识图谱对齐功能的计算机设备通过预处理阶段、编码阶段、对齐阶段以及过滤阶段这4个阶段,确定来源不同的第一知识图谱和第二知识图谱的对齐结果的具体实现方式可以参见下述图3-图9所对应的实施例。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该方法可以由具有知识图谱对齐功能的计算机设备执行,该计算机设备可以为用户终端,也可以为服务器(例如,上述图1所示的服务器10),在此不做限定。该方法至少可以包括以下步骤S101-步骤S104:
步骤S101,获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量。
具体地,该计算机设备可以对第一知识图谱进行提取,得到与该第一知识图谱相关联的第一图谱文本,与此同时,该计算机设备还可以对该第二知识图谱进行提取,得到与该第二知识图谱相关联的第二图谱文本。进一步地,该计算机设备可以将该第一图谱文本与该第二图谱文本作为待编码文本,进而可以对该待编码文本进行编码处理,以得到该待编码文本对应的文本向量。其中,该文本向量可以包括该第一图谱文本对应的文本向量和该第二图谱文本对应的文本向量。
可以理解的是,本申请实施例中的第一知识图谱可以为待更新的某领域知识图谱(例如,医疗领域知识图谱)。本申请实施例中的第二知识图谱可以为由计算机设备基于来源不同于该第一知识图谱的外部数据或者知识所构建的知识图谱。本申请实施例中所提及的知识图谱对齐技术是指将第一知识图谱以及第二知识图谱进行对齐,以便后续可以根据得到的对齐结果,对第一知识图谱进行知识融合。
其中,这里的知识融合(Knowledge Fusion)是指从概念层(本体文本维度)和数据层(实体文本维度)两个方面,通过知识图谱的对齐、关联、合并等方式,将多个知识图谱或信息源中的本体文本与实体文本进行链接,形成一个更加统一、稠密的新型知识图谱,是实现知识共享的重要方法。知识融合的使用能够大量应用人类已有知识储备,节省成本,是快速搭建知识图谱的必要手段,也是现代知识图谱应用中重要的研究领域。
比如,在医疗领域场景下,该计算机设备可以获取与第一知识图谱来源不同的待处理医疗文本,进而可以对该待处理医疗文本进行分词处理得到医疗分词。其中,该待处理医疗文本可以来自网络爬取或者一些外部知识图谱来源(例如,CN-DBpedia等)。这里的第一知识图谱可以为属于医疗领域对应的知识图谱。进一步地,该计算机设备可以对所得到的医疗分词进行解析处理(例如,词性标注、语法解析、依存分析、实体识别、实体连接、关系抽取以及事件抽取等),以识别该医疗分词的图谱文本维度,根据该图谱文本维度确定该医疗分词之间的医疗分词关系信息。可以理解的是,该计算机设备可以对所得到的这里的图谱文本维度可以包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;该属性文本维度可以用于表征该医疗分词之间的属性类型。此时,该计算机设备可以基于该医疗分词之间的医疗分词关系信息,构建属于医疗领域的第二知识图谱;该第二知识图谱中的图谱文本可以包括该医疗分词。例如,这里的医疗分词关系信息可以是指三元组。其中,三元组(Subject-Predicate-Object,简称SPO)是知识图谱中知识表示的基本单位。三元组可以被用来表示实体文本与实体文本之间的关系,或者实体文本的某个属性的属性值是什么。
应当理解,为了使得该知识图谱对齐系统可以覆盖很多的数据类型,增强该知识图谱对齐系统的适用范围,该计算机设备在预处理阶段可以支持以下的数据结构。例如,RDF/XML、N-Triples、Table、dictionary等数据结构。其中,RDF/XML可以为用XML格式来存储的资源描述语言(Resource Description Framework,简称RDF)。N-Triple可以用多个三元组来表示RDF数据集,是最直观的知识图谱表示方案,该数据结构可以为第一知识图谱中的默认格式。这里的三元组可以分为关系三元组和属性三元组。例如,关系三元组可以为(“骨关节病”,“典型症状”,“僵硬”),属性三元组可以为(“干咳”,“就诊科室”,“呼吸内科”)。Table可以为表格形式的知识,通常包含丰富的关系信息(行列之间),可以是.xlsx/.csv等格式;dictionary可以为字典形式的知识,通常包含丰富的属性知识,可以是编程语言中的字典数据格式。
应当理解,在预处理阶段,该计算机设备可以将第一知识图谱和第二知识图谱分别进行提取,以得到对应的图谱文本。比如,在预处理阶段过程中,第一知识图谱的数据格式可以为上述数据格式中的N-Triple,第二知识图谱可以为上述数据格式中的任意一个。此时,该计算机设备可以对第二知识图谱进行预处理(例如,字符串处理,即大小写归一、空格去除、常见错别字纠正等),进而可以得到与第一知识图谱相同的数据格式,即N-Triple格式。此外,该计算机设备还可以对本体文本维度/类别(ontology/class)、实体文本维度/实例(entity/instance)、属性文本维度(property)进行针对性的预处理,例如,会保留本体文本维度/类别中的层级关系(例如,subClassOf),分别处理属性文本维度中的属性名称(property-key)以及属性值(property-value)。
进一步地,该计算机设备可以将从第一知识图谱中所提取的第一图谱文本与从第二知识图谱中所提取的第二图谱文本作为待编码文本,进而可以对该待编码文本进行编码处理,得到该待编码文本对应的文本向量。其中,该第一知识图谱或该第二知识图谱均可以称之为知识图谱。
应当理解,若该待编码文本对应的图谱文本维度为本体文本维度,则该计算机设备可以将该待编码文本输入至第一模型,由该第一模型输出该待编码文本对应的文本向量。其中,该第一模型可以是基于该待编码文本所属知识图谱的本体文本维度的分词关系信息所训练的。
例如,该第一模型可以为本体编码模型(例如,On2Vec embedding),该本体编码模型可以分为组件特定模型(Component-Specific Model,简称CMS模型)和层次模型(Hierarchy Model,简称HM模型)。这里的CMS模型旨在编码本体文本以及元关系,而HM模型旨在强化学习过程中学习本体文本之间的层级关系。为了避免元关系的传递冲突性,CSM模型可以引入元素映射f1和f2来处理不同元关系三元组中的同义元素,其余部分保持和其他关系建模模型一致,则修正过的损失函数可以如下述公式(1)所示:
Figure BDA0002696585710000171
其中,(s,r,t)可以为该本体文本维度对应的分词关系信息(即关系三元组)。f1和f2可以为对应关系三元组中的头尾节点,可以理解的是,f1(s)=M1s,f2(t)=M2t。这里的M1和M2均可以称之为映射矩阵。
在训练建模的过程中,该CMS模型的损失函数可以为下述公式(2)所示:
Figure BDA0002696585710000172
其中,在知识图谱对齐系统中,f是指线性变换的映射函数,(s,r,t)∈G是指该待编码文本所属的知识图谱中所有的本体文本维度中的三元组均会参与该CMS模型的训练。r’可以为随机采样中的负样本关系。这里的负样本关系是指(s,r’,t)这样一个三元组在该知识图谱中不存在,r’可以为该知识图谱中随机选择的、不等于r的关系。
为了更好的建模层级关系HM模型可以通过细化算子来抽取某个本体概念的所有上位词或所有下位词。其中,该HM模型的损失函数可以为下述公式(3)所示:
Figure BDA0002696585710000173
其中,σ(c,r)={c'|(c,r,c')∈G},σ(c,r)={c'|(c',r,c)∈G}。σ(c,r)可以称为细化算子,该细化算子可以通过一个本体文本c和一个关系文本r,递推出该待编码文本(即本体文本)中所有本体文本c',使得本体文本c'是原本本体文本c的上位本体文本或者下位本体文本。W是指f1(s)+r和f2(t)这两个向量之间的余弦值。
应当理解,On2Vec embedding对本体文本维度的建模可以帮助解决医疗领域本体文本的信息极为丰富的问题。
可选的,若该待编码文本对应的图谱文本维度为实体文本维度,则该计算机设备可以基于该待编码文本以及第二模型,得到该待编码文本对应的第一编码向量。与此同时,该计算机设备还可以基于该待编码文本以及词向量模型,得到该待编码文本对应的第二编码向量。进一步地,该计算机设备可以基于该第一编码向量以及该第二编码向量,生成该待编码文本对应的文本向量。例如,该计算机设备可以将第一编码向量和第二编码向量进行加权求和算法,以得到该待编码文本对应的文本向量。其中,该第二模型可以是基于该待编码文本所属知识图谱的实体文本维度的分词关系信息所训练的;该词向量模型可以是基于与该知识图谱相关联的医疗领域语料库所训练的;例如,这里的医疗领域语料库可以为药品说明书或医疗书本等医学专业文本。
例如,该第二模型可以为转换模型(例如,TransE embedding),TransE模型主要是对实体文本维度的关系三元组进行建模的公式可以如下述公式(4)所示:
f(h,r,t)=-||h+r-t||, (4)
其中,h可以是该实体文本维度的关系三元组中头实体文本的向量表示,r可以是该实体文本维度的关系三元组中关系文本的向量表示,t可以是该实体文本维度的关系三元组中尾实体文本的向量表示。
应当理解,该TransE模型的损失函数可以如下述公式(5)所示:
Figure BDA0002696585710000181
其中,负样本(h,r,t')的构建是为了保持关系三元组中头实体文本和关系文本,随机采样一个尾实体文本所组成的新关系三元组。margin是用于控制TransE模型正确样本和错误样本的一个数值。
应当理解,TransE embedding中建模实体文本周围网络结构来作为对齐考虑信息可以缓解多元指代的问题,也就是说,两个不同名称的医学实体词可以由相同或相似的周围关系来判断其对齐结果。
可以理解的是,本申请实施例中的知识图谱对齐系统不仅需要用TransE模型进行编码,还引入了词向量模型对实体文本的名称进行编码。例如,该词向量模型可以为wordembedding(例如,word2vec模型)。其中,h=model(name(h))可以是指对实体文本的名称进行编码。因为词向量模型已预训练在外部大规模医学文本(即医疗领域语料库)上,因此词向量模型不需要在知识图谱对齐系统中进行训练,直接可以预测得到该实体文本的词向量(即第二编码向量)。应当理解,word embedding中得到的词向量可以充分利用医学领域知识,做到对口语化表达(同义表达)的有效识别。
可选的,若该待编码文本对应的图谱文本维度为属性文本维度,则该计算机设备可以基于该待编码文本以及该词向量模型,得到该待编码文本对应的第三编码向量,进而可以将该第三编码向量输入至第三模型,由该第三模型输出该待编码文本对应的文本向量。其中,该第三模型可以是基于该待编码文本所属知识图谱的属性文本维度的分词关系信息所训练的。
例如,该第三模型可以为卷积神经网络模型(例如,CNN embedding),为了对齐不同知识图谱中的属性文本,该知识图谱对齐系统可以利用CNN模型对属性文本中的属性三元组进行编码。其中,经过CNN模型后得到的公式可以如下述公式(6)所示:
CNN(<a;v>)=σ(vec(σ(<a;v>*Ω))W), (6)
其中,a可以为属性三元组中的属性名通过词向量模型得到的维度为d的向量,v可以为属性三元组中的属性值通过词向量模型得到的维度为d的向量,Ω是指该CNN模型中的卷积核,W是指该CNN模型中的全连接层的权重参数,σ函数是指该CNN模型中的激活函数。
在CNN模型训练过程中,该计算机设备可以将该待编码文本(即属性文本)所属属性文本维度中的分词关系信息作为训练数据进行训练,根据属性三元组所得到的损失函数可以如下述公式(7)所示:
Figure BDA0002696585710000191
其中,fattr=-||h-CNN(<a;v>)||,(h,a,v)∈G是指该待编码文本(即属性文本)所对应的分词关系信息(即属性三元组)属于该知识图谱中的属性文本维度。
为便于理解,进一步地,请参见图4,图4是本申请实施例提供的一种对待编码文本进行编码处理的流程示意图。如图4所示,本申请实施例提供了4种编码模型,具体可以包括模型40a、模型40b、模型40c以及模型40d。
应当理解,每个知识图谱均可以对应有自己的模型40a、模型40b以及模型40d。其中,本申请实施例中的模型40a(例如,图4所示的本体编码模型)可以是基于该知识图谱的本体文本维度的分词关系信息所训练的,模型40b(如图4所示的转换模型)可以是基于该知识图谱的实体文本维度的分词关系信息所训练的,模型40d(如图4所示的卷积神经网络模型)可以是基于该知识图谱的属性文本维度的分词关系信息所训练的。而本申请实施例中的模型40c可以是基于与知识图谱相关联的医疗领域语料库所训练的,该模型40c可以通用于该领域的知识图谱。例如,计算机设备所需对齐的知识图谱为医疗领域中的知识图谱,即该领域预料库可以为医疗领域对应的语料库。
如图4所示,若如图4中的待编码文本对应的图谱文本维度为本体文本维度,则该计算机设备可以将该待编码文本(即本体文本,例如,“呼吸内科”)输入至该模型40a,由该模型40a可以直接输出该本体文本对应的文本向量(即本体文本向量)。
可选的,若如图4中的待编码文本对应的图谱文本维度为实体文本维度,则该计算机设备可以将该待编码文本(即实体文本,例如,“骨关节病”)输入至该模型40b,由该模型40a可以输出该本体文本对应的第一编码向量,与此同时,该计算机设备可以将该实体文本输入至该模型40c,以得到该实体文本对应的词向量(即第二编码向量)。此时,该计算机设备可以通过对第一编码向量和第二编码向量进行加权求和,计算出该实体文本对应的文本向量(即实体文本向量)。
可选的,若如图4中的待编码文本对应的图谱文本维度为属性文本维度,则该计算机设备可以将该待编码文本(即属性文本,例如“就诊科室”)输入至该模型40c,由该模型40c可以输出该属性文本对应的词向量(即第三编码向量),进而该计算机设备可以将该第三编码向量输入至该模型40d,由该模型40d输出该属性文本对应的文本向量(即属性编码向量)。
由此可见,在本申请实施例中所提及的知识图谱对齐系统中,计算机设备在编码阶段无需领域专业人员对种子数据的人工标注,通过知识图谱中的图谱文本维度(例如,本体文本维度、实体文本维度或者属性文本维度)中的分词关系信息,可以对对应的编码模型进行训练,从而可以在训练结束后,直接使用训练好的编码模型,对知识图谱中的图谱文本进行编码处理,进而可以快速获取待编码文本对应的文本向量,进而可以有效提高待编码文本的编码效率以及编码准确率。
步骤S102,在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇。
具体地,在该第一知识图谱和该第二知识图谱中,计算机设备可以将处于相同图谱文本维度下的文本向量,确定为同维度向量集合。其中,该同维度向量集合可以包括文本向量xi,这里的i可以为小于或者等于N的正整数。这里的N可以为该同维度向量集合中的向量总数量。进一步地,该计算机设备可以将该同维度向量集合中除该文本向量xi之外的文本向量作为目标文本向量,进而可以确定该文本向量xi与该目标文本向量对应的向量距离。此时,该计算机设备可以根据该向量距离对该目标文本向量进行排序,从而可以得到排序向量序列。进一步地,该计算机设备可以从该排序向量序列中,选择K个目标文本向量,并可以将该K个目标文本向量所属聚类簇确定为聚类簇集合,以统计该K个目标文本向量所属聚类簇在该聚类簇集合中的出现频率。应当理解,该计算机设备可以将具有最高出现频率的聚类簇作为该文本向量xi的目标聚类簇,并可以遍历该同维度向量集合中的N-1个文本向量,得到待对齐聚类簇。
应当理解,该计算机设备可以根据分区索引的方式,得到同维度向量集合中的待对齐聚类簇。可以理解的是,在该第一知识图谱和该第二知识图谱中,计算机设备可以将处于相同图谱文本维度下的文本向量,确定为同维度向量集合。例如,该同维度向量集合中具体可以包括同维度向量集合1、同维度向量集合2以及同维度向量集合3。其中,同维度向量集合1可以为第一知识图谱和第二知识图谱中的本体文本维度对应的向量集合,同维度向量集合2可以为第一知识图谱和第二知识图谱中的实体文本维度对应的向量集合,同维度向量集合3可以为第一知识图谱和第二知识图谱中的属性文本维度对应的向量集合。
其中,该计算机设备在知识图谱对齐系统中,可以通过KNN(K-nearst neighbor,中文名称为K近邻算法)模型,在同维度向量集合中,确定文本向量xi与该目标文本向量对应的向量距离。此时,该计算机设备可以根据该向量距离对该目标文本向量进行排序,从而可以得到排序向量序列。例如,目标文本向量距离可以按照降序或者升序的方式进行排列,进而可以得到排序向量序列。进一步地,该计算机设备可以从该排序向量序列中,选择K(例如,10)个目标文本向量。比如,若排序向量序列为升序排序方式,则该计算机设备可以选择前10个目标文本向量。可选的,若排序向量序列为降序排序方式,则该计算机设备可以选择后10个目标文本向量。
此时,该计算机设备可以将这10个目标文本向量所属聚类簇确定为聚类簇集合,进而可以统计这10个目标文本向量所属聚类簇在该聚类簇集合中的出现频率。例如,该聚类簇集合中可以包括聚类簇A、聚类簇B以及聚类簇C。其中,聚类簇A在该聚类簇集合中的出现频率可以为60%,聚类簇B在该聚类簇集合中的出现频率可以为10%,聚类簇C在该聚类簇集合中的出现频率可以为30%。此时,该计算机设备可以将具有最高出现频率的聚类簇(例如,聚类簇A)作为该文本向量xi的目标聚类簇。进一步地,该计算机设备可以遍历该同维度向量集合中的N-1个文本向量,从而可以得到n个待对齐聚类簇。这里的n可以为提前设定的正整数。
由此可见,该计算机设备可以通过聚类处理的方法,将同维度向量集合中的文本向量进行聚类处理,从而可以在后续对齐阶段减少计算机设备的搜索空间,即搜索空间可以由|Sig(O1)×Sig(O2)|降到了
Figure BDA0002696585710000221
其中,i可以为小于或者等于n的正整数,从而可以减少大量无用计算,进而可以提高该计算机设备的性能。
步骤S103,从待对齐聚类簇中选取目标跨图谱向量对。
具体地,从该待对齐聚类簇中,该计算机设备可以获取第一初始文本向量和第二初始文本向量。其中,该第一初始文本向量可以属于该第一知识图谱中的文本向量,该第二初始文本向量可以属于该第二知识图谱中的文本向量。进一步地,该计算机设备可以基于该第一初始文本向量和该第二初始文本向量,构建初始跨图谱向量对。应当理解,该计算机设备可以根据该第一初始文本向量和该第二初始文本向量,确定该初始跨图谱向量对对应的向量相似度,进而可以将该向量相似度满足相似度条件的初始跨图谱向量对确定为目标跨图谱向量对。其中,目标跨图谱向量对可以包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量。
应当理解,该计算机设备可以通过分区对齐的方式,在待对齐聚类簇中通过计算向量相似度,对每个初始跨图谱向量对进行筛选,以得到目标跨图谱向量对。其中,该计算机设备确定该初始跨图谱向量对对应的向量相似度的计算公式可以参见下述公式(8):
Figure BDA0002696585710000231
其中,cosθ可以用于表示文本向量a和文本向量b之间的向量相似度。文本向量a可以为该初始跨图谱向量对中属于第一知识图谱的第一初始文本向量,文本向量b可以为该初始跨图谱向量对中属于第二知识图谱的第二初始文本向量。
可以理解的是,该计算机设备可以获取第一初始文本向量对应的第一绝对值,以及第二初始文本向量对应的第二绝对值,进而可以基于第一初始文本向量、第二初始文本向量、第一绝对值以及第二绝对值,通过上述公式(8)确定初始跨图谱向量对对应的向量相似度。此时,该计算机设备可以从初始跨图谱向量对中,筛选向量相似度大于相似度阈值的初始跨图谱向量对,进而可以将所筛选的初始跨图谱向量对作为向量相似度满足相似度条件的目标跨图谱向量对。
为便于理解,进一步地,请参见图5,图5是本申请实施例提供的一种确定目标跨图谱向量对的场景示意图。如图5所示,本申请实施例中的待对齐聚类簇5A可以为计算机设备在同维度向量集合中经过聚类处理后所得到的。其中,待对齐聚类簇5A中可以包括文本向量50a,文本向量51b以及文本向量52b。其中,文本向量50a可以为属于第一知识图谱中的文本向量(即第一初始文本向量),文本向量51b以及文本向量52b均可以属于第二知识图谱中的文本向量(即第二初始文本向量)。
应当理解,该计算机设备可以基于所获取到的文本向量50a和文本向量51b,构建向量对1;与此同时,该计算机设备还可以基于所获取到的文本向量50a和文本向量52b,构建向量对2。其中,向量对1和向量对2均可以称之为初始跨图谱向量对。进一步地,该计算机设备可以根据上述公式(8),确定该向量对1对应的向量相似度(如图5所示的向量相似度1,例如,0.9),同时可以确定该向量对2对应的向量相似度(如图5所示的向量相似度2,例如,0.6)。
若该计算机设备从向量对1和向量对2中,筛选出向量相似度大于相似度阈值(例如,0.8)的初始跨图谱向量对(即向量相似度1对应的向量对1),则该计算机设备可以将该向量对1保留,进而可以将该向量对1作为向量相似度满足相似度条件的目标跨图谱向量对。若该计算机设备从向量对1和向量对2中,筛选出向量相似度大于相似度阈值(例如,0.8)的初始跨图谱向量对(即向量相似度2对应的向量对2),则该计算机设备可以将该向量对1丢弃。
为便于理解,进一步地,请参见图6,图6是本申请实施例提供的一种对齐阶段的流程示意图。如图6所示,本申请实施例中可以将本体文本向量所构成的集合、实体文本向量所构成的集合以及属性文本向量所构成的集合统称为同维度向量集合。
为了减少对齐搜索空间以及提高对齐效率,具有知识图谱对齐功能的计算机设备可以在对齐阶段中通过分区索引(blocking)以及分区对齐(alignment)两大步骤获取候选对齐结果。应当理解,在分区索引步骤中,该计算机设备可以根据K近邻模型,对图6所示的同维度向量集合中的文本向量进行聚类处理,从而可以得到待对齐聚类簇。例如,该待对齐聚类簇可以包括:聚类簇1、聚类簇2、…、聚类簇n。其中,这里的n可以为提前预设的聚类簇数量。
在分区对齐过程中,该计算机设备可以根据从待对齐聚类簇中构建初始跨图谱向量对。其中,初始跨图谱向量对可以包括第一初始文本向量和第二初始文本向量。这里的第一初始文本向量可以属于第一知识图谱,第二初始文本向量可以属于第二知识图谱。进一步地,该计算机设备可以在待对齐聚类簇中,确定每个初始跨图谱向量对的向量相似度,进而可以筛选出向量相似度大于相似度阈值(例如,0.8)的初始跨图谱向量,并可以将所筛选的初始跨图谱对确定为目标跨图谱向量对。此时,该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果添加至该待对齐聚类簇对应的候选对齐结果集群中。
例如,聚类簇1对应的候选对齐结果集群可以为图6所示的候选对齐结果集群1,聚类簇2对应的候选对齐结果集群可以为图6所示的候选对齐结果集群2,…,聚类簇n对应的候选对齐结果集群可以为图6所示的候选对齐结果集群n。
步骤S104,根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
具体地,若该目标跨图谱向量对中的文本向量属于该本体文本维度或者该实体文本维度,则该计算机设备可以获取该目标跨图谱向量对对应的候选对齐结果,进而可以确定该目标跨图谱向量对的置信度。进一步地,该计算机设备可以基于该置信度对该候选对齐结果进行筛选,得到待检查对齐结果集合。此时,该计算机设备可以根据该待检查对齐结果集合,确定该第一知识图谱和该第二知识图谱之间针对图谱文本的对齐结果。若该目标跨图谱向量对中的文本向量属于该属性文本维度,则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果,确定为该第一知识图谱和该第二知识图谱之间针对图谱文本的对齐结果。
应当理解,该目标跨图谱向量对中的文本向量可以属于该本体文本维度。其中,目标跨图谱向量对可以包括第一目标文本向量和第二目标文本向量;这里的第一目标文本向量可以是属于该第一知识图谱中的文本向量;这里的第二目标文本向量可以是属于该第二知识图谱中的文本向量。
可以理解的是,在该第一知识图谱中,该计算机设备可以将获取到的该第一目标文本向量对应的图谱文本作为第一本体文本,进而可以统计与该第一本体文本具有父子关系的实体文本的第一数量。这里的父子关系可以指示第一本体文本包括实体文本。例如,与“内科疾病”这一本体文本具有父子关系的实体文本可以包括“胃炎”、“肠胃炎”以及“腹痛”等。与此同时,该计算机设备还可以在该第二知识图谱中,将获取到的该第二目标文本向量对应的图谱文本作为第二本体文本,统计与该第二本体文本具有父子关系的实体文本的第二数量。进一步地,该计算机设备还可以统计与该第一本体文本以及该第二本体文本均具有父子关系的实体文本的第三数量。此时,该计算机设备可以基于该第一数量、该第二数量以及该第三数量,确定该目标跨图谱向量对的置信度。可以理解的是,若该置信度大于或等于第一置信度阈值(例如,85%),则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合。若该置信度小于该第一置信度阈值,则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果删除。
具体地,该计算机设备确定本体文本维度下的目标跨图谱向量对的置信度的计算公式可以如下述公式(9)所示:
Figure BDA0002696585710000261
其中,文本向量c1可以为该目标跨图谱向量对中的第一目标文本向量对应的第一本体文本,文本向量c2可以为该目标跨图谱向量对中的第二目标文本向量对应的第二本体文本,
Figure BDA0002696585710000262
是指与第一本体文本具有父子关系的实体文本的第一数量,
Figure BDA0002696585710000263
是指与第二本体文本具有父子关系的实体文本的第二数量,
Figure BDA0002696585710000264
是指与该第一本体文本以及该第二本体文本均具有父子关系的实体文本的第三数量。
可选的,该目标跨图谱向量对中的文本向量可以属于该实体文本维度。其中,目标跨图谱向量对可以包括第三目标文本向量和第四目标文本向量。该第三目标文本向量可以是属于该第一知识图谱中的文本向量;该第四目标文本向量可以是属于该第二知识图谱中的文本向量。
可以理解的是,该计算机设备可以在该第一知识图谱中,将获取到的该第三目标文本向量对应的图谱文本作为第一实体文本,进而可以统计与该第一实体文本具有父子关系的本体文本的第四数量。例如。与第一实体文本“感冒”具有父子关系的本体文本可以包括“呼吸内科疾病”、“内科疾病”等。与此同时,该计算机设备还可以在该第二知识图谱中,将获取到的该第四目标文本向量对应的图谱文本作为第二实体文本,进而可以统计与该第二实体文本具有父子关系的本体文本的第五数量。进一步地,该计算机设备可以统计与该第一实体文本以及该第二实体文本均具有父子关系的本体文本的第六数量。此时,计算机设备可以基于该第四数量、该第五数量以及该第六数量,确定该目标跨图谱向量对的置信度。可以理解的是,若该置信度大于或等于第二置信度阈值(例如,88%),则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合。若该置信度小于该第二置信度阈值,则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果删除。其中,第一置信度阈值与第二置信度阈值可以相同,也可以不同,在此不做限定。
具体地,该计算机设备确定实体文本维度下的目标跨图谱向量对的置信度的计算公式可以如下述公式(10)所示:
Figure BDA0002696585710000271
其中,文本向量e1可以为该目标跨图谱向量对中的第三目标文本向量对应的第一实体文本,文本向量e2可以为该目标跨图谱向量对中的第四目标文本向量对应的第二实体文本,
Figure BDA0002696585710000272
是指与第一实体文本具有父子关系的本体文本的第四数量,
Figure BDA0002696585710000273
是指与第二实体文本具有父子关系的本体文本的第五数量,
Figure BDA0002696585710000274
是指与该第一实体文本以及该第二实体文本均具有父子关系的本体文本的第六数量。
应当理解,若该目标跨图谱向量对中的文本向量属于该本体文本维度或者该实体文本维度,则该计算机设备可以对所得到的该待检查对齐结果集合中的每个待检查对齐结果进行检查,得到检查结果。若该检查结果指示同一个图谱文本对应至少两个待检查对齐结果,则该计算机设备从与该至少两个待检查对齐结果相关联的置信度中,筛选出具有最大置信度的待检查对齐结果,进而可以将所筛选出的待检查对齐结果确定为该第一知识图谱和该第二知识图谱之间针对图谱文本的对齐结果。若该检查结果指示同一个图谱文本对应一个待检查对齐结果,则该计算机设备可以将该待检查对齐结果,直接确定为该第一知识图谱和该第二知识图谱之间针对图谱文本的对齐结果。
可选的,该目标跨图谱向量对中的文本向量可以属于该属性文本维度,则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果,直接确定为该第一知识图谱和该第二知识图谱之间针对图谱文本的对齐结果。
为便于理解,进一步地,请参见图7,图7是本申请实施例提供的一种过滤阶段的流程示意图。如图7所示,本申请实施例的目标跨图谱向量对中的文本向量可以属于该本体文本维度或者该实体文本维度。该目标跨图谱向量对中可以包括文本向量70a和文本向量70b。其中,文本向量70a可以为属于知识图谱700p的文本向量,文本向量70b可以为属于知识图谱700q的文本向量。
应当理解,本申请实施例可以以目标跨图谱向量对中的文本向量属于本体文本向量为例,用以阐述本体文本维度下的过滤流程。其中,具有知识图谱对齐功能的计算机设备可以在知识图谱700p中,将文本向量70a对应的图谱文本作为第一本体文本,进而可以统计与该第一本体文本具有父子关系的第一数量。与此同时,该计算机设备还可以在知识图谱700q中,将文本向量70b对应的图谱文本作为第二本体文本,进而可以统计与该第二本体文本具有父子关系的第二数量。进一步地,该计算机设备可以获取与第一本体文本和第二本体文本均具有父子关系的第三数量,进而可以基于上述公式(9)确定出该目标跨图谱向量对的置信度。
可以理解的是,若该置信度大于或等于图7所示的置信度阈值(例如,85%),则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果作为待检查对齐结果,并将该待检查对齐结果添加至待检查对齐结果集合。若该置信度小于该第一置信度阈值,则该计算机设备可以将该目标跨图谱向量对对应的候选对齐结果删除。进一步地,该计算机设备还需对图7所示的待检查对齐结果集合中的每一个待检查对齐结果进行一对一检查,从而可以确定出知识图谱700p和知识图谱700q之间针对图谱文本的对齐结果。
由此可见,本申请实施例中,为了确定对齐结果为一对一结果,计算机设备对待检查对齐结果集合进行检查,从而可以确定出具有最大置信度的待检查对齐结果,进而使得该计算机设备得到的对齐结果更加准确度。
为便于理解,进一步地,请参见表1,表1是本申请实施例提供的一种实体文本对齐结果展示表。其中,知识图谱X是本申请实施例从网站上爬取构建的知识图谱(即第二知识图谱),知识图谱Y是本申请实施例所需融合的目标知识图谱(即第一知识图谱)。
表1
实体文本(知识图谱X) 实体文本(知识图谱Y) 向量相似度
外伤性脑积水 外伤性脑水肿 0.87
耳生疮 耳疮 0.80
外伤性乳糜胸 创伤性乳糜胸 0.91
上述表1可以表明,计算机设备根据本申请实施例提供的数据处理方法所得到的实体文本维度下的对齐结果的向量相似度较高,从而可以很明显的得知本申请实施例中所提供的知识图谱对齐系统在实体文本维度下能够得到较高的对齐精准率。
进一步地,请参见表2,表2是本申请实施例提供的一种属性文本对齐结果展示表。其中,知识图谱X是本申请实施例从网站上爬取构建的知识图谱(即第二知识图谱),知识图谱Y是本申请实施例所需融合的目标知识图谱(即第一知识图谱)。
表2
属性文本(知识图谱X) 属性文本(知识图谱Y) 向量相似度
中文名称 中文名 0.95
药品类型 药物分类 0.84
上述表2可以表明,计算机设备根据本申请实施例提供的数据处理方法所得到的属性文本维度下的对齐结果的向量相似度较高,从而可以很明显的得知本申请实施例中所提供的知识图谱对齐系统在属性文本维度下能够得到较高的对齐精准率。
因此可以得出,本申请实施例提供的知识图谱对齐系统,可以做到不同图谱文本维度的图谱文本加一对齐,并且对于口语化表达、多元指代等问题也可以有效解决。此外,本申请实施例无需人工标注,也可以具有高质量的对齐结果,说明该知识图谱对齐系统成功摆托了对种子数据的依赖,使得人工标注的成本也极大的降低。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理方法的流程示意图。如图8所示,该方法可以由具有知识图谱对齐功能的计算机设备执行,该计算机设备可以为用户终端,也可以为服务器(例如,上述图1所示的服务器10),在此不做限定。该方法至少可以包括以下步骤S201-步骤S209:
步骤S201,获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量。
步骤S202,在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇。
步骤S203,从待对齐聚类簇中选取目标跨图谱向量对。
步骤S204,根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该步骤S201-步骤S204的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再赘述。
为便于理解,进一步地,请参见图9,图9是本申请实施例提供的一种可视化对齐结果。如图9所示,“阿奇霉素”和“希舒美”是本申请实施例中的计算机设备所得到的一组实体文本维度下的对齐结果。
如图9所示,“阿奇霉素”这一实体文本所属的知识图谱91(即第二知识图谱)可以为该计算机设备基于在网站上所爬取的外部医疗数据所构建的。“希舒美”这一实体文本所属的知识图谱92(即第一知识图谱)可以为该计算机设备需要融合更新的目标知识图谱。如图9所示,虽然这两个实体文本在各自所属的网络结构差异较大,但是本申请实施例中的知识图谱对齐系统依然可以有效对齐两个网络结构异构的实体文本,换言之,采用本申请实施例的方法可以得到较高的对齐准确率。
步骤S205,基于第一知识图谱以及对齐结果,确定与对齐结果相关联的待更新医疗信息。
其中,对齐结果中可以包括属于第一知识图谱的图谱文本(例如,图谱文本1)以及属于第二知识图谱的图谱文本(例如,图谱文本2)。这里的第一知识图谱和第二知识图谱均可以为属于医疗领域对应的知识图谱。应当理解,计算机设备可以在第二知识图谱中获取与图谱文本2相关联的医疗分词关系信息,并可以将与图谱文本2相关联的医疗分词关系信息确定为待更新医疗信息。例如,该待更新医疗信息可以为图9所示的(“阿奇霉素”,“父类”,“注射用阿奇霉素”),
步骤S206,在待更新医疗信息不存在于第一知识图谱时,获取与第一知识图谱相关联的可信医疗语料库,从可信医疗语料库中识别与待更新医疗信息相关联的医疗句子文本,基于医疗句子文本、待更新医疗信息以及关系抽取模型,确定待更新医疗信息的融合可信度。
具体地,计算机设备可以在第一知识图谱中的图谱文本1对应的子图(即与图谱文本1相关联的医疗分词关系信息所构成的知识图谱)搜索该待更新医疗信息。若在该第一知识图谱的子图中存在该待更新医疗信息,则该计算机设备可以过滤该待更新医疗信息。若在该第一知识图谱的子图中不存在该待更新医疗信息,则该计算机设备可以获取与第一知识图谱相关联的可信医疗语料库。这里的可信医疗语料库可以为可信度较高的医疗领域语料库,例如,领域词典等。进一步地,该计算机设备可以从可信医疗语料库中识别与待更新医疗信息相关联的医疗句子文本,从而可以基于医疗句子文本、待更新医疗信息以及关系抽取模型,确定待更新医疗信息的融合可信度。其中,关系抽取模型可以用于在该医疗句子文本中抽取医疗分词关系信息。
步骤S207,若融合可信度大于或等于第一融合可信度阈值,则根据待更新医疗信息对第一知识图谱进行融合更新。
具体地,若待更新医疗信息的融合可信度大于或者等于第一融合可信度阈值(例如,80%),则计算机设备可以根据该待更新医疗信息对第一知识图谱进行融合更新,从而可以得到新的第一知识图谱。
步骤S208,若融合可信度小于或等于第二融合可信度阈值,则过滤待更新医疗信息。
具体地,若待更新医疗信息的融合可信度小于或者等于第二融合可信度阈值(例如,50%),则计算机设备可以过滤该待更新医疗信息。其中,第一融合可信度阈值大于第二融合可信度阈值。
步骤S209,若融合可信度大于第二融合可信度阈值且小于第一融合可信度阈值,则对待更新医疗信息进行校验,在校验成功时根据待更新医疗信息对第一知识图谱进行融合更新。
具体地,若融合可信度(例如,75%)大于第二融合可信度阈值且小于第一融合可信度阈值,则该计算机设备可以将该待更新医疗信息发送至专业领域人员所对应的校验终端(例如,图1所示用户终端集群中的任意一个用户终端,比如,用户终端100a),以使该专业领域人员可以在校验终端上对待更新医疗信息进行人工校验。在校验失败时,该校验终端可以向计算机设备发送校验失败提示信息,以使该计算机设备基于该校验失败提示信息过滤该待更新医疗信息,在校验成功时,该校验终端可以向计算机设备发送校验成功提示信息,以使该计算机设备基于该校验成功提示信息,将该待更新医疗信息融合更新至该第一知识图谱,从而可以得到新的第一知识图谱。
由此可见,本申请实施例中知识图谱对齐系统所得到的对齐结果可以融合更新至第一知识图谱,对齐结果的精准率越高,进行迭代融合更新后的第一知识图谱的知识覆盖度越丰富,知识准确率越高。应当理解,知识图谱对齐系统是知识图谱构建系统中的重要一环,可以有效帮助融合多个知识图谱并形成统一完整的、知识覆盖率更广的知识图谱。
进一步地,请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置1为一个应用软件;该数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以运行于具有知识图谱对齐功能的计算机设备。该数据处理装置1可以包括:向量获取模块11,聚类处理模块12,向量对选取模块13,对齐结果确定模块14,待处理医疗文本获取模块15,医疗分词关系信息确定模块16,知识图谱构建模块17,待更新医疗信息确定模块18,融合可信度确定模块19,更新模块20,过滤模块21以及校验模块22。
该向量获取模块11,用于获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量。
其中,该向量获取模块11包括:提取单元111,待编码文本确定单元112以及编码处理单元113。
该提取单元111,用于对第一知识图谱进行提取,得到与第一知识图谱相关联的第一图谱文本,对第二知识图谱进行提取,得到与第二知识图谱相关联的第二图谱文本;
该待编码文本确定单元112,用于将第一图谱文本与第二图谱文本作为待编码文本;
该编码处理单元113,用于对待编码文本进行编码处理,得到待编码文本对应的文本向量;文本向量包括第一图谱文本对应的文本向量和第二图谱文本对应的文本向量。
其中,该编码处理单元113包括:第一文本向量确定子单元1131,第二文本向量确定子单元1132以及第三文本向量确定子单元1133。
该第一文本向量确定子单元1131,用于若待编码文本对应的图谱文本维度为本体文本维度,则将待编码文本输入至第一模型,由第一模型输出待编码文本对应的文本向量;第一模型是基于待编码文本所属知识图谱的本体文本维度的分词关系信息所训练的;
该第二文本向量确定子单元1132,用于若待编码文本对应的图谱文本维度为实体文本维度,则基于待编码文本以及第二模型,得到待编码文本对应的第一编码向量,基于待编码文本以及词向量模型,得到待编码文本对应的第二编码向量,基于第一编码向量以及第二编码向量,生成待编码文本对应的文本向量;第二模型是基于待编码文本所属知识图谱的实体文本维度的分词关系信息所训练的;词向量模型是基于与知识图谱相关联的医疗领域语料库所训练的;
该第三文本向量确定子单元1133,用于若待编码文本对应的图谱文本维度为属性文本维度,则基于待编码文本以及词向量模型,得到待编码文本对应的第三编码向量,将第三编码向量输入至第三模型,由第三模型输出待编码文本对应的文本向量;第三模型是基于待编码文本所属知识图谱的属性文本维度的分词关系信息所训练的;
其中,知识图谱为第一知识图谱或第二知识图谱。
其中,该第一文本向量确定子单元1131,第二文本向量确定子单元1132以及第三文本向量确定子单元1133的具体实现方式可以参见上述图4所对应实施例中对待编码文本进行编码处理的描述,这里将不再继续进行赘述。
其中,该提取单元111,待编码文本确定单元112以及编码处理单元113的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
该聚类处理模块12,用于在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇。
其中,图谱文本对应的图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
该聚类处理模块12包括:同维度向量集合确定单元121,向量距离确定单元122,排序单元123以及待对齐聚类簇确定单元124。
该同维度向量集合确定单元121,用于在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合;同维度向量集合包括文本向量xi,i为小于或者等于N的正整数;N为同维度向量集合中的向量总数量;
该向量距离确定单元122,用于将同维度向量集合中除文本向量xi之外的文本向量作为目标文本向量,确定文本向量xi与目标文本向量对应的向量距离;
该排序单元123,用于根据向量距离对目标文本向量进行排序,得到排序向量序列,从排序向量序列中选择K个目标文本向量,将K个目标文本向量所属聚类簇确定为聚类簇集合,统计K个目标文本向量所属聚类簇在聚类簇集合中的出现频率;
该待对齐聚类簇确定单元124,用于将具有最高出现频率的聚类簇作为文本向量xi的目标聚类簇,遍历同维度向量集合中的N-1个文本向量,得到待对齐聚类簇。
其中,该同维度向量集合确定单元121,向量距离确定单元122,排序单元123以及待对齐聚类簇确定单元124的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再继续进行赘述。
该向量对选取模块13,用于从待对齐聚类簇中选取目标跨图谱向量对;目标跨图谱向量对包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量。
其中,该向量对选取模块13包括:初始文本向量获取单元131,初始向量对构建单元132以及目标向量对确定单元133。
该初始文本向量获取单元131,用于从待对齐聚类簇中,获取第一初始文本向量和第二初始文本向量;第一初始文本向量属于第一知识图谱中的文本向量;第二初始文本向量属于第二知识图谱中的文本向量;
该初始向量对构建单元132,用于基于第一初始文本向量和第二初始文本向量,构建初始跨图谱向量对;
该目标向量对确定单元133,用于根据第一初始文本向量和第二初始文本向量,确定初始跨图谱向量对对应的向量相似度,将向量相似度满足相似度条件的初始跨图谱向量对确定为目标跨图谱向量对。
其中,该目标向量对确定单元133包括:绝对值获取子单元1331,向量相似度确定子单元1332以及目标向量对确定子单元1333。
该绝对值获取子单元1331,用于获取第一初始文本向量对应的第一绝对值,以及第二初始文本向量对应的第二绝对值;
该向量相似度确定子单元1332,用于基于第一初始文本向量、第二初始文本向量、第一绝对值以及第二绝对值,确定初始跨图谱向量对对应的向量相似度;
该目标向量对确定子单元1333,用于从初始跨图谱向量对中,筛选向量相似度大于相似度阈值的初始跨图谱向量对,将所筛选的初始跨图谱向量对作为向量相似度满足相似度条件的目标跨图谱向量对。
其中,该绝对值获取子单元1331,向量相似度确定子单元1332以及目标向量对确定子单元1333的具体实现方式可以参见上述图5所对应实施例中对目标跨图谱向量对的描述,这里将不再继续进行赘述。
其中,该初始文本向量获取单元131,初始向量对构建单元132以及目标向量对确定单元133的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
该对齐结果确定模块14,用于根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
该对齐结果确定模块14包括:候选对齐结果获取单元141,置信度筛选单元142,第一对齐结果确定单元143以及第二对齐结果确定单元144。
该候选对齐结果获取单元141,用于若目标跨图谱向量对中的文本向量属于本体文本维度或者实体文本维度,则获取目标跨图谱向量对对应的候选对齐结果;
该置信度筛选单元142,用于确定目标跨图谱向量对的置信度,基于置信度对候选对齐结果进行筛选,得到待检查对齐结果集合。
其中,目标跨图谱向量对包括第一目标文本向量和第二目标文本向量;第一目标文本向量是属于第一知识图谱中的文本向量;第二目标文本向量是属于第二知识图谱中的文本向量;
该置信度筛选单元142包括:第一数量统计子单元14201,第二数量统计子单元14202,第三数量统计子单元14203,第一置信度确定子单元14204,第一添加子单元14205,第一删除子单元14206,第四数量统计子单元14207,第五数量统计子单元14208,第六数量统计子单元14209,第二置信度确定子单元14210,第二添加子单元14211以及第二删除子单元14212。
该第一数量统计子单元14201,用于在第一知识图谱中,将获取到的第一目标文本向量对应的图谱文本作为第一本体文本,统计与第一本体文本具有父子关系的实体文本的第一数量;
该第二数量统计子单元14202,用于在第二知识图谱中,将获取到的第二目标文本向量对应的图谱文本作为第二本体文本,统计与第二本体文本具有父子关系的实体文本的第二数量;
该第三数量统计子单元14203,用于统计与第一本体文本以及第二本体文本均具有父子关系的实体文本的第三数量;
该第一置信度确定子单元14204,用于基于第一数量、第二数量以及第三数量,确定目标跨图谱向量对的置信度;
该第一添加子单元14205,用于若置信度大于或等于第一置信度阈值,则将目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
该第一删除子单元14206,用于若置信度小于第一置信度阈值,则将目标跨图谱向量对对应的候选对齐结果删除。
其中,目标跨图谱向量对包括第三目标文本向量和第四目标文本向量;第三目标文本向量是属于第一知识图谱中的文本向量;第四目标文本向量是属于第二知识图谱中的文本向量;
该第四数量统计子单元14207,用于在第一知识图谱中,将获取到的第三目标文本向量对应的图谱文本作为第一实体文本,统计与第一实体文本具有父子关系的本体文本的第四数量;
该第五数量统计子单元14208,用于在第二知识图谱中,将获取到的第四目标文本向量对应的图谱文本作为第二实体文本,统计与第二实体文本具有父子关系的本体文本的第五数量;
该第六数量统计子单元14209,用于统计与第一实体文本以及第二实体文本均具有父子关系的本体文本的第六数量;
该第二置信度确定子单元14210,用于基于第四数量、第五数量以及第六数量,确定目标跨图谱向量对的置信度;
该第二添加子单元14211,用于若置信度大于或等于第二置信度阈值,则将目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
该第二删除子单元14212,用于若置信度小于第二置信度阈值,则将目标跨图谱向量对对应的候选对齐结果删除。
其中,该第一数量统计子单元14201,第二数量统计子单元14202,第三数量统计子单元14203,第一置信度确定子单元14204,第一添加子单元14205,第一删除子单元14206,第四数量统计子单元14207,第五数量统计子单元14208,第六数量统计子单元14209,第二置信度确定子单元14210,第二添加子单元14211以及第二删除子单元14212的具体实现方式可以参见上述图3所对应实施例中对待检查对齐结果集合的描述,这里将不再继续进行赘述。
该第一对齐结果确定单元143,用于根据待检查对齐结果集合,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该第一对齐结果确定单元143包括:检查子单元1431以及对齐结果确定子单元1432。
该检查子单元1431,用于对待检查对齐结果集合中的每个待检查对齐结果进行检查,得到检查结果;
该对齐结果确定子单元1432,用于若检查结果指示同一个图谱文本对应至少两个待检查对齐结果,则从与至少两个待检查对齐结果相关联的置信度中,筛选出具有最大置信度的待检查对齐结果,将所筛选出的待检查对齐结果确定为第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该检查子单元1431以及对齐结果确定子单元1432的具体实现方式可以参见上述图3所对应实施例中对待检查对齐结果集合进行检查的描述,这里将不再继续进行赘述。
该第二对齐结果确定单元144,用于若目标跨图谱向量对中的文本向量属于属性文本维度,则将目标跨图谱向量对对应的候选对齐结果,确定为第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
其中,该候选对齐结果获取单元141,置信度筛选单元142,第一对齐结果确定单元143以及第二对齐结果确定单元144的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
该待处理医疗文本获取模块15,用于获取与第一知识图谱来源不同的待处理医疗文本;第一知识图谱为属于医疗领域对应的知识图谱;
该医疗分词关系信息确定模块16,用于对待处理医疗文本进行分词处理得到医疗分词,识别医疗分词的图谱文本维度,根据图谱文本维度确定医疗分词之间的医疗分词关系信息;图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;属性文本维度用于表征医疗分词之间的属性类型;
该知识图谱构建模块17,用于基于医疗分词之间的医疗分词关系信息,构建属于医疗领域的第二知识图谱;第二知识图谱中的图谱文本包括医疗分词。
该待更新医疗信息确定模块18,用于基于第一知识图谱以及对齐结果,确定与对齐结果相关联的待更新医疗信息;待更新医疗信息是指对齐结果中属于第二知识图谱的图谱文本的医疗分词关系信息;第一知识图谱与第二知识图谱均为属于医疗领域对应的知识图谱;
该融合可信度确定模块19,用于在待更新医疗信息不存在于第一知识图谱时,获取与第一知识图谱相关联的可信医疗语料库,从可信医疗语料库中识别与待更新医疗信息相关联的医疗句子文本,基于医疗句子文本、待更新医疗信息以及关系抽取模型,确定待更新医疗信息的融合可信度;关系抽取模型用于在医疗句子文本中抽取医疗分词关系信息;
该更新模块20,用于若融合可信度大于或等于第一融合可信度阈值,则根据待更新医疗信息对第一知识图谱进行融合更新;
该过滤模块21,用于若融合可信度小于或等于第二融合可信度阈值,则过滤待更新医疗信息;第一融合可信度阈值大于第二融合可信度阈值;
该校验模块22,用于若融合可信度大于第二融合可信度阈值且小于第一融合可信度阈值,则对待更新医疗信息进行校验,在校验成功时根据待更新医疗信息对第一知识图谱进行融合更新。
其中,该向量获取模块11,聚类处理模块12,向量对选取模块13,对齐结果确定模块14,待处理医疗文本获取模块15,医疗分词关系信息确定模块16,知识图谱构建模块17,待更新医疗信息确定模块18,融合可信度确定模块19,更新模块20,过滤模块21以及校验模块22的具体实现方式可以参见上述图8所对应实施例中对步骤S201-步骤S209的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图11,图11是本申请实施例提供的一种计算机设备的示意图。如图11所示,该计算机设备1000可以为具有知识图谱对齐功能的计算机设备,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004主要用于与用户终端进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;
在第一知识图谱和第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;
从待对齐聚类簇中选取目标跨图谱向量对;目标跨图谱向量对包括属于第一知识图谱的文本向量和属于第二知识图谱的文本向量;
根据目标跨图谱向量对,确定第一知识图谱和第二知识图谱之间针对图谱文本的对齐结果。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图8所对应实施例中对该数据处理方法的描述,也可执行前文图10所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3或者图8所对应实施例中对该数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图3或者图8所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;
在所述第一知识图谱和所述第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对所述同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;
从所述待对齐聚类簇中选取目标跨图谱向量对;所述目标跨图谱向量对包括属于所述第一知识图谱的文本向量和属于所述第二知识图谱的文本向量;
根据所述目标跨图谱向量对,确定所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果。
2.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量,包括:
对所述第一知识图谱进行提取,得到与所述第一知识图谱相关联的第一图谱文本,对所述第二知识图谱进行提取,得到与所述第二知识图谱相关联的第二图谱文本;
将所述第一图谱文本与所述第二图谱文本作为待编码文本;
对所述待编码文本进行编码处理,得到所述待编码文本对应的文本向量;所述文本向量包括所述第一图谱文本对应的文本向量和所述第二图谱文本对应的文本向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述待编码文本进行编码处理,得到所述待编码文本对应的文本向量,包括:
若所述待编码文本对应的图谱文本维度为本体文本维度,则将所述待编码文本输入至第一模型,由所述第一模型输出所述待编码文本对应的文本向量;所述第一模型是基于所述待编码文本所属知识图谱的本体文本维度的分词关系信息所训练的;
若所述待编码文本对应的图谱文本维度为实体文本维度,则基于所述待编码文本以及第二模型,得到所述待编码文本对应的第一编码向量,基于所述待编码文本以及词向量模型,得到所述待编码文本对应的第二编码向量,基于所述第一编码向量以及所述第二编码向量,生成所述待编码文本对应的文本向量;所述第二模型是基于所述待编码文本所属知识图谱的实体文本维度的分词关系信息所训练的;所述词向量模型是基于与所述知识图谱相关联的医疗领域语料库所训练的;
若所述待编码文本对应的图谱文本维度为属性文本维度,则基于所述待编码文本以及所述词向量模型,得到所述待编码文本对应的第三编码向量,将所述第三编码向量输入至第三模型,由所述第三模型输出所述待编码文本对应的文本向量;所述第三模型是基于所述待编码文本所属知识图谱的属性文本维度的分词关系信息所训练的;
其中,所述知识图谱为所述第一知识图谱或所述第二知识图谱。
4.根据权利要求1所述的方法,其特征在于,所述图谱文本对应的图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
所述在所述第一知识图谱和所述第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对所述同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇,包括:
在所述第一知识图谱和所述第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合;所述同维度向量集合包括文本向量xi,所述i为小于或者等于N的正整数;所述N为所述同维度向量集合中的向量总数量;
将所述同维度向量集合中除所述文本向量xi之外的文本向量作为目标文本向量,确定所述文本向量xi与所述目标文本向量对应的向量距离;
根据所述向量距离对所述目标文本向量进行排序,得到排序向量序列,从所述排序向量序列中选择K个目标文本向量,将所述K个目标文本向量所属聚类簇确定为聚类簇集合,统计所述K个目标文本向量所属聚类簇在所述聚类簇集合中的出现频率;
将具有最高出现频率的聚类簇作为所述文本向量xi的目标聚类簇,遍历所述同维度向量集合中的N-1个文本向量,得到待对齐聚类簇。
5.根据权利要求1所述的方法,其特征在于,所述从所述待对齐聚类簇中选取目标跨图谱向量对,包括:
从所述待对齐聚类簇中,获取第一初始文本向量和第二初始文本向量;所述第一初始文本向量属于所述第一知识图谱中的文本向量;所述第二初始文本向量属于所述第二知识图谱中的文本向量;
基于所述第一初始文本向量和所述第二初始文本向量,构建初始跨图谱向量对;
根据所述第一初始文本向量和所述第二初始文本向量,确定所述初始跨图谱向量对对应的向量相似度,将所述向量相似度满足相似度条件的初始跨图谱向量对确定为目标跨图谱向量对。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一初始文本向量和所述第二初始文本向量,确定所述初始跨图谱向量对对应的向量相似度,将所述向量相似度满足相似度条件的初始跨图谱向量对确定为目标跨图谱向量对,包括:
获取所述第一初始文本向量对应的第一绝对值,以及所述第二初始文本向量对应的第二绝对值;
基于所述第一初始文本向量、所述第二初始文本向量、所述第一绝对值以及所述第二绝对值,确定所述初始跨图谱向量对对应的向量相似度;
从所述初始跨图谱向量对中,筛选向量相似度大于相似度阈值的初始跨图谱向量对,将所筛选的初始跨图谱向量对作为所述向量相似度满足所述相似度条件的目标跨图谱向量对。
7.根据权利要求1所述的方法,其特征在于,所述图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;
根据所述目标跨图谱向量对,确定所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果,包括:
若所述目标跨图谱向量对中的文本向量属于所述本体文本维度或者所述实体文本维度,则获取所述目标跨图谱向量对对应的候选对齐结果;
确定所述目标跨图谱向量对的置信度,基于所述置信度对所述候选对齐结果进行筛选,得到待检查对齐结果集合;
根据所述待检查对齐结果集合,确定所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果;
若所述目标跨图谱向量对中的文本向量属于所述属性文本维度,则将所述目标跨图谱向量对对应的候选对齐结果,确定为所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果。
8.根据权利要求7所述的方法,其特征在于,所述目标跨图谱向量对包括第一目标文本向量和第二目标文本向量;所述第一目标文本向量是属于所述第一知识图谱中的文本向量;所述第二目标文本向量是属于所述第二知识图谱中的文本向量;
所述确定所述目标跨图谱向量对的置信度,基于所述置信度对所述候选对齐结果进行筛选,得到待检查对齐结果集合,包括:
在所述第一知识图谱中,将获取到的所述第一目标文本向量对应的图谱文本作为第一本体文本,统计与所述第一本体文本具有父子关系的实体文本的第一数量;
在所述第二知识图谱中,将获取到的所述第二目标文本向量对应的图谱文本作为第二本体文本,统计与所述第二本体文本具有父子关系的实体文本的第二数量;
统计与所述第一本体文本以及所述第二本体文本均具有父子关系的实体文本的第三数量;
基于所述第一数量、所述第二数量以及所述第三数量,确定所述目标跨图谱向量对的置信度;
若所述置信度大于或等于第一置信度阈值,则将所述目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
若所述置信度小于所述第一置信度阈值,则将所述目标跨图谱向量对对应的候选对齐结果删除。
9.根据权利要求7所述的方法,其特征在于,所述目标跨图谱向量对包括第三目标文本向量和第四目标文本向量;所述第三目标文本向量是属于所述第一知识图谱中的文本向量;所述第四目标文本向量是属于所述第二知识图谱中的文本向量;
所述确定所述目标跨图谱向量对的置信度,基于所述置信度对所述候选对齐结果进行筛选,得到待检查对齐结果集合,包括:
在所述第一知识图谱中,将获取到的所述第三目标文本向量对应的图谱文本作为第一实体文本,统计与所述第一实体文本具有父子关系的本体文本的第四数量;
在所述第二知识图谱中,将获取到的所述第四目标文本向量对应的图谱文本作为第二实体文本,统计与所述第二实体文本具有父子关系的本体文本的第五数量;
统计与所述第一实体文本以及所述第二实体文本均具有父子关系的本体文本的第六数量;
基于所述第四数量、所述第五数量以及所述第六数量,确定所述目标跨图谱向量对的置信度;
若所述置信度大于或等于第二置信度阈值,则将所述目标跨图谱向量对对应的候选对齐结果添加至待检查对齐结果集合;
若所述置信度小于所述第二置信度阈值,则将所述目标跨图谱向量对对应的候选对齐结果删除。
10.根据权利要求7所述的方法,其特征在于,所述根据所述待检查对齐结果集合,确定所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果,包括:
对所述待检查对齐结果集合中的每个待检查对齐结果进行检查,得到检查结果;
若所述检查结果指示同一个图谱文本对应至少两个待检查对齐结果,则从与所述至少两个待检查对齐结果相关联的置信度中,筛选出具有最大置信度的待检查对齐结果,将所筛选出的待检查对齐结果确定为所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与第一知识图谱来源不同的待处理医疗文本;所述第一知识图谱为属于医疗领域对应的知识图谱;
对所述待处理医疗文本进行分词处理得到医疗分词,识别所述医疗分词的图谱文本维度,根据所述图谱文本维度确定所述医疗分词之间的医疗分词关系信息;所述图谱文本维度包括以下至少一个:本体文本维度、实体文本维度以及属性文本维度;所述属性文本维度用于表征所述医疗分词之间的属性类型;
基于所述医疗分词之间的医疗分词关系信息,构建属于所述医疗领域的第二知识图谱;所述第二知识图谱中的图谱文本包括所述医疗分词。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第一知识图谱以及所述对齐结果,确定与所述对齐结果相关联的待更新医疗信息;所述待更新医疗信息是指所述对齐结果中属于第二知识图谱的图谱文本的医疗分词关系信息;所述第一知识图谱与所述第二知识图谱均为属于医疗领域对应的知识图谱;
在所述待更新医疗信息不存在于所述第一知识图谱时,获取与所述第一知识图谱相关联的可信医疗语料库,从所述可信医疗语料库中识别与所述待更新医疗信息相关联的医疗句子文本,基于所述医疗句子文本、所述待更新医疗信息以及关系抽取模型,确定所述待更新医疗信息的融合可信度;所述关系抽取模型用于在所述医疗句子文本中抽取医疗分词关系信息;
若所述融合可信度大于或等于第一融合可信度阈值,则根据所述待更新医疗信息对所述第一知识图谱进行融合更新;
若所述融合可信度小于或等于第二融合可信度阈值,则过滤所述待更新医疗信息;所述第一融合可信度阈值大于所述第二融合可信度阈值;
若所述融合可信度大于所述第二融合可信度阈值且小于所述第一融合可信度阈值,则对所述待更新医疗信息进行校验,在校验成功时根据所述待更新医疗信息对所述第一知识图谱进行融合更新。
13.一种数据处理装置,其特征在于,包括:
向量获取模块,用于获取第一知识图谱中的图谱文本对应的文本向量,获取第二知识图谱中的图谱文本对应的文本向量;
聚类处理模块,用于在所述第一知识图谱和所述第二知识图谱中,将处于相同图谱文本维度下的文本向量,确定为同维度向量集合,对所述同维度向量集合中的文本向量进行聚类处理,得到待对齐聚类簇;
向量对选取模块,用于从所述待对齐聚类簇中选取目标跨图谱向量对;所述目标跨图谱向量对包括属于所述第一知识图谱的文本向量和属于所述第二知识图谱的文本向量;
对齐结果确定模块,用于根据所述目标跨图谱向量对,确定所述第一知识图谱和所述第二知识图谱之间针对图谱文本的对齐结果。
14.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-12任一项所述的方法。
CN202011007907.2A 2020-09-23 2020-09-23 一种数据处理方法、装置、设备及存储介质 Active CN112149400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011007907.2A CN112149400B (zh) 2020-09-23 2020-09-23 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011007907.2A CN112149400B (zh) 2020-09-23 2020-09-23 一种数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112149400A true CN112149400A (zh) 2020-12-29
CN112149400B CN112149400B (zh) 2021-07-27

Family

ID=73897845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011007907.2A Active CN112149400B (zh) 2020-09-23 2020-09-23 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112149400B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112836492A (zh) * 2021-01-30 2021-05-25 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN114547346A (zh) * 2022-04-22 2022-05-27 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN114913986A (zh) * 2022-07-15 2022-08-16 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
WO2022222226A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于结构化信息的关系对齐方法、装置、设备及介质
CN117725555A (zh) * 2024-02-08 2024-03-19 暗物智能科技(广州)有限公司 多源知识树的关联融合方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269231A1 (en) * 2012-08-08 2015-09-24 Google Inc. Clustered search results
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN110377906A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 实体对齐方法、存储介质和电子设备
CN111026865A (zh) * 2019-10-18 2020-04-17 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111143479A (zh) * 2019-12-10 2020-05-12 浙江工业大学 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN111444348A (zh) * 2020-02-27 2020-07-24 上海交通大学 知识图谱架构的构建与应用方法、系统及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269231A1 (en) * 2012-08-08 2015-09-24 Google Inc. Clustered search results
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN110377906A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 实体对齐方法、存储介质和电子设备
CN111026865A (zh) * 2019-10-18 2020-04-17 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111143479A (zh) * 2019-12-10 2020-05-12 浙江工业大学 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN111444348A (zh) * 2020-02-27 2020-07-24 上海交通大学 知识图谱架构的构建与应用方法、系统及介质
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112836492A (zh) * 2021-01-30 2021-05-25 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112836492B (zh) * 2021-01-30 2024-03-08 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN112948603B (zh) * 2021-03-08 2023-05-05 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
WO2022222226A1 (zh) * 2021-04-19 2022-10-27 平安科技(深圳)有限公司 基于结构化信息的关系对齐方法、装置、设备及介质
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN114547346A (zh) * 2022-04-22 2022-05-27 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN114547346B (zh) * 2022-04-22 2022-08-02 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN114913986A (zh) * 2022-07-15 2022-08-16 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
CN114913986B (zh) * 2022-07-15 2022-10-14 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
CN117725555A (zh) * 2024-02-08 2024-03-19 暗物智能科技(广州)有限公司 多源知识树的关联融合方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112149400B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN112149400B (zh) 一种数据处理方法、装置、设备及存储介质
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN111639190A (zh) 医疗知识图谱构建方法
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN110851609A (zh) 表示学习方法及装置
CN113779429A (zh) 交通拥堵态势预测方法、装置、设备及存储介质
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN113239184B (zh) 知识库获取方法、装置、计算机设备及存储介质
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
Liu et al. Resume parsing based on multi-label classification using neural network models
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN115455169A (zh) 一种基于词汇知识和语义依存的知识图谱问答方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant