CN112100406A - 数据处理方法、装置、设备以及介质 - Google Patents

数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN112100406A
CN112100406A CN202011249986.8A CN202011249986A CN112100406A CN 112100406 A CN112100406 A CN 112100406A CN 202011249986 A CN202011249986 A CN 202011249986A CN 112100406 A CN112100406 A CN 112100406A
Authority
CN
China
Prior art keywords
entity
graph
standard
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011249986.8A
Other languages
English (en)
Other versions
CN112100406B (zh
Inventor
向玥佳
林镇溪
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011249986.8A priority Critical patent/CN112100406B/zh
Publication of CN112100406A publication Critical patent/CN112100406A/zh
Application granted granted Critical
Publication of CN112100406B publication Critical patent/CN112100406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法涉及人工智能技术,可以应用于自然语言处理领域,包括:获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图和标准文本对应的标准实体子图;目标实体子图中的第一实体和标准实体子图中的第二实体均属于知识图谱中的实体;根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征;根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。采用本申请实施例,可以提高目标文本与标准文本之间的匹配准确度。

Description

数据处理方法、装置、设备以及介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备以及介质。
背景技术
随着人工智能技术的不断发展,自然语言处理技术已经逐渐成为人工智能领域中的重要领域之一,在搜索、翻译、推荐等方向展示了巨大的作用和潜力。医疗领域中存在大量的病历文本、医疗教材、医疗问答等不同类型的医疗文本数据,对医疗文本数据的处理过程中(如病案分析),首先需要对医疗文本数据进行结构化处理,以提取医疗文本数据中的有用信息(如病例名称、病例症状等信息)。
在现有的文本结构化中,可以通过字符串匹配的方式,从知识图谱中选择与医疗文本数据相匹配的实体,来表示该医疗文本数据中的有用信息。然而,不同用户在描述医疗文本数据时会存在较大的差异,如医生书写的医疗文本数据为“腹痛”,而患者所输出的医疗文本数据可能为“肚子疼”等,当医疗文本描述稍有变化就难以在知识图谱中匹配到正确的实体,进而造成医疗文本数据在知识图谱中的匹配准确度过低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以提高目标文本与标准文本之间的匹配准确度。
本申请实施例一方面提供了一种数据处理方法,包括:
获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体;
根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征;
根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
本申请实施例一方面提供了一种数据处理装置,包括:
子图生成模块,用于获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体;
特征生成模块,用于根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征;
图相似度确定模块,用于根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
其中,子图生成模块包括:
第一查找单元,用于获取知识图谱,在知识图谱中查找与目标文本相匹配的第一实体,根据第一实体生成目标文本对应的目标实体子图;第一实体分别在目标实体子图和知识图谱中的实体连接结构是相同的;
第二查找单元,用于在知识图谱中查找与标准文本相匹配的第二实体,根据第二实体生成标准文本对应的标准实体子图;第二实体分别在标准实体子图和知识图谱中的实体连接结构是相同的。
其中,第一实体的数量为M个,M为正整数;
第一查找单元包括:
分词处理子单元,用于对目标文本进行分词处理,得到目标文本对应的至少两个字符串;
文本相似度获取子单元,用于获取每个字符串分别与知识图谱中的实体之间的文本相似度,将文本相似度大于相似度阈值的实体,作为与目标文本相匹配的M个第一实体;
目标子图生成子单元,用于根据M个第一实体,以及M个第一实体在知识图谱中相互连接的边,生成目标文本对应的目标实体子图。
其中,目标子图生成子单元包括:
实体获取子单元,用于获取M个第一实体中的任意两个第一实体;
实体连接判断子单元,用于若任意两个第一实体在知识图谱中存在相连的边,则根据M个第一实体以及任意两个第一实体之间的边,生成目标文本对应的目标实体子图;
上述实体连接判断子单元,还用于若任意两个第一实体在知识图谱中不存在相连的边,则可以在知识图谱中获取任意两个第一实体之间的最短实体路径,根据M个第一实体以及最短实体路径中所包含的实体和边,生成目标文本对应的目标实体子图。
其中,特征生成模块包括:
第一初始向量生成单元,用于根据第一实体在目标实体子图中的实体连接结构,生成第一实体对应的第一初始实体向量;
第一编码向量生成单元,用于将第一初始实体向量输入至图卷积网络,根据图卷积网络对第一初始实体向量进行信息编码,生成第一初始实体向量对应的第一实体编码向量;
第二初始向量生成单元,用于根据第二实体在标准实体子图中的实体连接结构,生成第二实体对应的第二初始实体向量;
第二编码向量生成单元,用于将第二初始实体向量输入至图卷积网络,根据图卷积网络对第二初始实体向量进行信息编码,生成第二初始实体向量对应的第二实体编码向量;
第一结构特征生成单元,用于根据第一实体编码向量和第二实体编码向量,生成目标实体子图对应的目标图结构特征;
第二结构特征生成单元,用于根据第一实体编码向量和第二实体编码向量,生成标准实体子图对应的标准图结构特征。
其中,图卷积网络包括第一网络层和第二网络层,第一网络层和第二网络层在图卷积网络中为相邻连接结构;
第一编码向量生成单元包括:
第一矩阵生成子单元,用于获取第一实体对应的邻接矩阵,根据第一初始实体向量、邻接矩阵以及图卷积网络中输入层对应的参数矩阵,生成第一网络层对应的第一隐藏状态矩阵;
第二矩阵生成子单元,用于根据第一隐藏状态矩阵,以及第一网络层对应的参数矩阵,生成第二网络层对应的第二隐藏状态矩阵;
第一权重确定子单元,用于获取图卷积网络中的门控函数,根据门控函数确定第一隐藏状态矩阵和第二隐藏状态矩阵分别对应的矩阵影响权重;
编码向量生成子单元,用于根据矩阵影响权重、第一隐藏状态矩阵以及第二隐藏状态矩阵,确定第一初始实体向量对应的第一实体编码向量。
其中,第一实体的数量为M个,第二实体的数量为N个,M和N均为正整数;
第一结构特征生成单元包括:
第二权重获取子单元,用于获取M个第一实体中的第一实体v i ,获取第一实体v i 对应的N个第一交互影响权重;i为小于或者等于M的正整数;
第一交互向量确定子单元,用于获取第一实体v i 分别与N个第二实体所对应的第二实体编码向量之间的第一向量差值,根据N个第一交互影响权重和N个第一向量差值确定第一实体v i 对应的第一交互向量s i
目标特征确定子单元,用于根据M个第一实体分别对应的第一实体编码向量和M个第一实体分别对应的第一交互向量,确定目标实体子图对应的目标图结构特征。
其中,目标特征确定子单元具体用于:
对M个第一实体分别对应的第一实体编码向量进行聚合,得到目标实体子图对应的目标图编码向量;
对M个第一实体分别对应的第一交互向量进行拼接,得到M个第一实体在标准实体子图中的第一交互矩阵;
将第一交互矩阵压缩为目标交互向量,对目标图编码向量和目标交互向量进行拼接,得到目标实体子图对应的目标图结构特征。
其中,第一实体的数量为M个,第二实体的数量为N个,M和N均为正整数;
第二结构特征生成单元包括:
第三权重获取子单元,用于获取N个第二实体中的第二实体v k ,获取第二实体v k 对应的M个第二交互影响权重;k为小于或者等于N的正整数;
第二交互向量确定子单元,用于获取第二实体v k 分别与M个第一实体所对应的第一实体编码向量之间的第二向量差值,根据M个第二交互影响权重和M个第二向量差值确定第二实体v k 对应的第二交互向量t k
标准特征确定子单元,用于根据N个第二实体分别对应的第二实体编码向量和N个第二实体分别对应的第二交互向量,确定标准实体子图对应的标准图结构特征。
其中,标准特征确定子单元具体用于:
对N个第二实体分别对应的第二实体编码向量进行聚合,得到标准实体子图对应的标准图编码向量;
对N个第二实体分别对应的第二交互向量进行拼接,得到N个第二实体在目标实体子图中的第二交互矩阵;
将第二交互矩阵压缩为标准交互向量,对标准图编码向量和标准交互向量进行拼接,得到标准实体子图对应的标准图结构特征。
其中,标准文本的数量为至少两个,一个标准文本对应一个标准实体子图;
该装置还包括:
关联子图确定模块,用于根据目标实体子图与至少两个标准实体子图之间的图相似度,将最大的图相似度所对应的标准实体子图确定为关联实体子图;
关联存储模块,用于在至少两个标准文本中,将关联实体子图对应的标准文本确定为目标文本对应的关联标准文本,对目标文本和关联标准文本进行关联存储。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中一方面中方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行如本申请实施例中一方面中方法的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
本申请实施例可以通过获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图,其中,目标实体子图中所包含的第一实体和标准实体子图所包含的第二实体均属于知识图谱中的实体;根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征,进而可以根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度,该图相似度用于指示目标文本与标准文本之间的关联程度。可见,可以在知识图谱中查找与目标文本可能相关联的第一实体并生成目标实体子图,同理,在知识图谱中查找标准文本所包含的第二实体并生成标准实体子图,进而可以将目标实体子图和标准实体子图均表示为图结构特征,根据图结构特征确定两个实体子图之间的图相似度,使用该图相似度确定目标文本与标准文本之间的相似度,图相似度越大,表明目标文本与标准文本中所包含的有用信息越相同,通过图相似度对目标文本与标准文本进行匹配,可以提高匹配准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据处理场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种生成目标实体子图的示意图;
图5是本申请实施例提供的一种基于图相似度的文本匹配示意图;
图6是本申请实施例提供的一种数据处理方法的流程示意图;
图7是本申请实施例提供的一种目标实体子图编码示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及云应用中的医疗云(Medical cloud)和人工智能(ArtificialIntelligence,AI)技术。医疗云是指在云计算、移动技术、多媒体、4G/5G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,以实现医疗资源的共享和医疗范围的扩大。由于云计算技术的运用与结合,医疗云可以提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等均是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提供的数据处理方案属于人工智能领域下属的自然语言处理(NatureLanguage processing,NLP)技术。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例可以通过图编码的方式,将文本映射到知识图谱中并生成实体子图,此时文本之间的相似度问题可以转换为实体子图之间的相似度问题。
本申请实施例还涉及以下几个概念:
结构化:结构化是指从文本数据中提取有价值信息的过程。例如,医生或患者输入的医学文本数据通常包含一些非医学信息,且具有口语化特点,为了更好的处理医学文本数据,需要将该医学文本数据中所包含的有价值的医学信息提取出来,这里的信息提取过程就可以理解为结构化。
基于图匹配的文本结构化:由于文本数据中有价值的信息往往是相互独立的,这会给后续的文本数据处理造成困难,因此可以引入知识图谱,与文本数据来做图匹配,将文本数据中有价值的信息映射到知识图谱的实体(可以理解为结点)上去。知识图谱中的实体之间是具有关系的,这些关系可以用来丰富文本的信息,有利于文本数据的后续处理。
知识图谱:知识图谱是指将应用数学、图形学、信息可视化技术、信息科学等学科的理论和方法,连同计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,以达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有图像显示功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
以图1所示的用户终端10a为例,用户终端10a可以获取业界公认的标准文本以及用户输入的目标文本,该用户终端10a还可以获取知识图谱,该知识图谱可以由多个实体以及多个实体之间的关系组成。例如,标准文本可以是指医疗领域中的病症术语标准,目标文本可以是指医生或者患者输入的病症描述,知识图谱可以包含医疗领域中的医学知识。用户终端10a可以通过字符串匹配的方式,将目标文本映射到知识图谱中的实体,并根据知识图谱中匹配到的实体生成连通的目标实体子图;同理,用户终端10a也可以生成标准文本对应的标准实体子图。需要说明的是,在知识图谱中通常可以查找到与标准文本完全相匹配的实体,如标准文本为“急性上呼吸道感染”时,可以在知识图谱中查找到“急性上呼吸道感染”这一实体;而用户输入的目标文本存在口语化特点,在知识图谱中可能无法找到与其完全相匹配的实体,只能尽可能地找到与目标文本最相近的实体来表示该目标文本,如目标文本为“感冒”时,在知识图谱中可能无法找到与该目标文本相匹配的实体。
用户终端10a可以分别对目标实体子图和标准实体子图进行图编码处理,得到目标实体子图对应的目标图结构特征和标准实体子图对应的标准图结构特征;该目标图结构特征可以包括目标实体子图对应的编码向量,以及目标实体子图中的实体在标准实体子图中的互动向量,该标准图结构特征可以包括标准实体子图对应的编码向量,以及标准实体子图中的实体在目标实体子图中的互动向量。用户终端10a可以根据目标图结构特征和标准图结构特征,计算目标实体子图与标准实体子图之间的图相似度,将该图相似度作为目标文本与标准文本之间的文本相似度,可以充分利用知识图谱中所包含的实体关系,获取目标文本中的关键信息,进而可以提高目标文本的匹配准确度。
请一并参见图2,图2是本申请实施例提供的一种数据处理场景示意图。在医疗场景中,不同的医生对相同病症的描述可能存在差异,比如对于同一个病症,医生A的描述为“肚子疼”,医生B的描述为“腹痛”等。在对大量的医疗文本数据进行术语标准化、病案分析、医保核保等处理的过程中,需要对不同医生给出的病症描述进行结构化处理,如可以从同一个知识图谱中找到每个症状描述分别对应的实体,在知识图谱中具有相同实体的症状描述可以确定为相同病症,有利于缓解相同病症描述多样性的问题。下面以医疗文本场景为例,对医疗文本数据的结构化处理过程进行说明。
如图2所示,当用户终端(如上述图1所示的用户终端集群中的任一用户终端)从电子病案存档中获取到患者的病症描述为“阑尾发生坏死穿孔的急性阑尾炎症”,则该用户终端可以将“阑尾发生坏死穿孔的急性阑尾炎症”作为目标文本20a。当然,目标文本20a也可以是指数据整理人员根据医生的手写病例所输入的病症描述等。该用户终端还可以获取各权威标准中针对不同病症的术语标准,可以将权威标准中的术语“穿孔化脓性阑尾炎”作为标准文本20b,其中,此处的权威标准可以是指受大众认可的疾病分类标准,如国际疾病分类(International Classification of Diseases,ICD)。
用户终端可以获取知识图谱20c,该知识图谱20c可以包括多个实体,以及不同实体之间的实体关系。由于当前场景为医疗场景,因此该知识图谱20c是关于医疗病案症状的知识图谱,即知识图谱20c中所包含的实体是关于病案症状描述的文本,不同实体之间的实体关系可以理解为不同症状描述之间的关联关系。如知识图谱20c包括“急性”、“急性炎症性疾病”、“化脓”等实体,实体“急性”与实体“急性炎症性疾病”之间直接相连,表明实体“急性”与实体“急性炎症性疾病”之间具有实体关系,即急性症状可以包括急性炎症性疾病症状;实体“急性”和实体“化脓”之间不存在直接相连的边,表明实体“急性”和实体“化脓”之间不具有实体关系,即急性症状与化脓症状之间没有直接关系等。
用户终端可以根据字符串匹配的方式,将目标文本20a映射到知识图谱20c中实体并生成目标实体结构20d(也可以称为目标实体子图),该目标实体结构20d可以表示为G1={V1,E1},V1表示目标实体结构20d中所包含的实体集合,E1表示目标实体结构20d中所包含的实体在知识图谱20c中的边集合;将标准文本20b映射到知识图谱20c中的实体并生成标准实体结构20e(也可以称为标准实体子图),该标准实体结构20e可以表示为G2={V2,E2},V2表示标准实体结构20e中所包含的实体集合,E2表示标准实体结构20e中所包含的实体在知识图谱20c中的边集合。用户终端可以将目标文本20a“阑尾发生坏死穿孔的急性阑尾炎症”划分为多个字符串,如“阑尾”、“坏死”、“穿孔”、“急性”、“阑尾炎”以及“炎症”等字符串,在知识图谱20c中查找与上述字符串相匹配的实体;由于实体“坏死”与实体“急性”之间不存在直接相连的边,为了得到连通子图,可以通过最短路径算法找到实体“坏死”与实体“急性”之间的最短实体路径“坏死-急性炎症性疾病-急性”,将实体“急性炎症性疾病”添加在G1={V1,E1}中,以此类推,最终可以在知识图谱20c中找到与目标文本20a相匹配的实体集合V1为:“阑尾”、“坏死”、“穿孔”、“急性”、“阑尾炎”、“急性炎症性疾病”以及“炎症”。同理,可以在知识图谱20c中找到与标准文本20b相匹配的实体集合V2为:“穿孔”、“化脓”、“炎症”、“急性”、“阑尾炎”以及“急性炎症性疾病”。
用户终端可以根据知识图谱20c中的结构化信息以及语义信息(即知识图谱20c中所包含的实体和实体关系),使用图表示学习方法(例如,TransE方法)得到知识图谱20c中每个实体分别对应的初始实体向量。换言之,用户终端可以获取目标实体结构20d中7个实体分别对应的初始实体向量,并将7个实体分别对应的初始实体向量拼接成一个初始矩阵。
随后,用户终端可以获取图卷积网络20f(Graph Convolutional Network,GCN),该图卷积网络20f可以用于对目标实体结构20d进行图编码处理,得到该目标实体结构20d对应的图结构特征(该图卷积网络20f可以包括N个网络层,N为正整数)。用户终端可以获取目标实体结构20d中7个实体对应的邻接矩阵,将初始矩阵和邻接矩阵作为输入信息输入至图卷积网络20f,在该图卷积网络20f中对输入信息进行前向计算,得到图卷积网络20f中每个网络层分别对应的隐藏状态矩阵,该图卷积网络20f的最后一个网络层的输出可以表示为目标实体结构20d对应的实体编码表示20g,该实体编码表示20g可以用于表征目标实体结构20d中7个实体内部之间的交互,有利于目标实体结构20d中实体之间的信息传播。基于上述相同的处理操作,可以通过图卷积网络20f生成标准实体结构20e对应的实体编码表示20h,该实体编码表示20h可以用于表征标准实体结构20e中6个实体内部之间的交互。
进一步地,用户终端可以根据实体编码表示20g和实体编码表示20h,获取目标实体结构20d中每个实体在标准实体结构20e中的表示,以得到目标实体结构20d对应的互动表示20i,该互动表示20i可以用于表征目标实体结构20d与标准实体结构20e之间的交互,有利于两个实体子图之间的信息传播。同理,用户终端可以获取标准实体结构20e中每个实体在目标实体结构20d中的表示,以得到标准实体结构20e对应的互动表示20j。
用户终端可以将实体编码表示20g和互动表示20i作为目标实体结构20d对应的图结构特征20k,将实体编码表示20h和互动表示20j作为标准实体结构20e对应的图结构特征20m,通过计算图结构特征20k和图结构特征20m的相似度来度量目标实体结构20d与标准实体结构20e之间的图相似度。该图相似度可以用于表征目标文本20a与标准文本20b之间匹配度,如图相似度为0.96,可以确定目标文本20a与标准文本20b具有相同的信息,进而可以在知识图谱20c中匹配到针对目标文本20a的准确实体,即获取目标文本20a在知识图谱20c中的表达形式(本申请实施例默认标准文本可以使用知识图谱中的实体进行准确表示)。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该数据处理方法可以包括以下步骤:
步骤S101,获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体。
具体的,计算机设备(如上述图1所对应实施例中的用户终端)可以获取目标文本(如上述图1所对应实施例中的目标文本20a)和标准文本(如上述图1所对应实施例中的标准文本20b),该标准文本可以是指受公众认可的标准术语,该目标文本可以是指具有口语化特点的待标准化的文本。计算机设备可以获取知识图谱(如上述图1所对应实施例中的知识图谱20c),在该知识图谱中查找与目标文本相匹配的第一实体,根据第一实体在知识图谱中的连接结构生成目标文本对应的目标实体子图(如上述图1所对应实施例中的目标实体结构20d),即第一实体在知识图谱和目标实体子图中的实体连接结构是相同的;可以在该知识图谱中查找与标准文本相匹配的第二实体,根据第二实体在知识图谱中的连接结构生成标准文本对应的标准实体子图(如上述图1所对应实施例中的标准实体结构20e),即第二实体在知识图谱和标准实体子图中的实体连接结构是相同的。其中,该知识图谱可以包括多个实体以及多个实体之间的实体关系,该知识图谱可以用图形(包括结点和边)的形式表示与标准文本相关联的特定领域中的知识,本申请实施例中的目标文本、标准文本以及知识图谱均属于相同的领域。例如,在医疗领域中,目标文本可以是指医生或患者对某病例症状的文本描述,标准文本可以是指受公众认可的疾病分类标准,知识图谱可以包含医疗领域中各病例症状之间的关系;或者在方言领域中,目标文本可以是指各地区的方言文本(例如,四川话中的“整巴适”、“冲壳子”,东北话中的“归拢”、“瞎整”等),标准文本可以是指普通话,知识图谱可以包含汉语普通话中各常用词语之间的关系,等等。
下面以目标文本为例,对目标实体子图的生成过程进行详细说明。计算机设备可以对目标文本进行分词处理,得到目标文本对应的至少两个字符串,进而获取每个字符串分别与知识图谱中的实体之间的文本相似度,将文本相似度大于相似值阈值的实体,作为与目标文本相匹配的M(M为正整数)个第一实体,根据M个第一实体以及M个第一实体在知识图谱中相互连接的边,生成目标文本对应的目标实体子图。
其中,此处的分词处理方法可以包括但不限于:基于字符串匹配的分词算法(也可以称为机械分词方法,或者基于字典的分词算法)、基于理解的分词算法、基于统计的分词方法。若采用基于字符串匹配的分词算法对目标文本进行分词处理,则计算机设备可以将目标文本与知识图谱(可以看成是词典)中所包含的实体进行匹配,若在知识图谱中查找到某个字符串与目标文本中的字符相同,则表示匹配成功,可以从目标文本中识别出一个字符串,进而可以在知识图谱中查找目标文本对应的至少两个字符串,即M个第一实体。
可选的,由于目标文本具有口语化的特点,目标文本的文本表达与知识图谱中实体的文本表达具有差异性,即在知识图谱中无法匹配到与目标文本相关联的字符串,因此计算机设备可以结合其余分词方法对目标文本进行分词处理,或者直接采用其余分词方法对目标文本进行分词处理,得到目标文本对应的至少两个字符串。计算机设备可以计算字符串与知识图谱中的实体之间的文本相似度(字符串与知识图谱中的实体完全匹配时,可以直接获取到文本相似度为1),将文本相似度大于相似度阈值(例如,相似度阈值可以设置为0.85)的实体,作为知识图谱中与目标文本相匹配的M个第一实体。
计算机设备可以将知识图谱定义为G={V,E},V是知识图谱中所有实体构成的实体 集合(也可以称为实体集合),E是知识图谱中所有边构成的边集合。目标文本A对应的至少 两个字符串可以表示为:A=[c1,c2,c3,…],该目标文本A对应的目标实体子图可以表示为
Figure 689144DEST_PATH_IMAGE001
,其中:
Figure 58815DEST_PATH_IMAGE002
上述公式(1)中,
Figure 838552DEST_PATH_IMAGE003
可以表示为知识图谱G中与目标文本A相匹配的第一实体集合,
Figure 499340DEST_PATH_IMAGE004
Figure 313713DEST_PATH_IMAGE005
中的第一实体之间连接的边集合,v d 表示至少目标文本A中所包含的任意一个字符串(也 可以表示为第一实体),该字符串属于知识图谱中的实体,D表示至少两个字符串的数量,D 为正整数,e ij 表示
Figure 136175DEST_PATH_IMAGE003
中第一实体v i 和第一实体v j 之间的边。
可选的,若
Figure 606471DEST_PATH_IMAGE003
中的D个第一实体在知识图谱G中可以构成一个连通的子图,则可以将 该连通的子图确定为目标实体子图;若
Figure 805371DEST_PATH_IMAGE003
中的D个第一实体在知识图谱G中无法构成一个连 通的子图,如
Figure 739829DEST_PATH_IMAGE003
中的第一实体v i 和第一实体v j 在知识图谱G中不存在直接相连的边,则可以 通过最短路径算法在知识图谱G中找到第一实体v i 和第一实体v j 之间的最短实体路径,并把 最短实体路径中所包含的实体添加至
Figure 733193DEST_PATH_IMAGE003
,将最短实体路径中所包含的边添加至
Figure 690784DEST_PATH_IMAGE004
Figure 427796DEST_PATH_IMAGE006
其中,Rv(v i ,v j )表示第一实体v i 和第一实体v j 通过最短路径算法得到的最短实体路径 中所包含的实体,Re(v i ,v j )为最短实体路径中所包含的边。例如,通过最短路径算法计算得 到第一实体v i 和第一实体v j 之间的最短实体路径为:
Figure 216761DEST_PATH_IMAGE007
,则可以将知识图谱中的 实体v x 添加至
Figure 646605DEST_PATH_IMAGE003
,将边e iy 和边e yj 添加至
Figure 888230DEST_PATH_IMAGE004
。其中,最短实体路径可以是指从知识图谱G中的 某个实体出发到达另外一个实体所经过的边的权重和最小的一条路径。本申请实施例中所 采用的最短路径算法可以包括但不限于:Dijkstra(迪杰斯特拉)算法,Bellman-Ford算法, Floyd(弗洛伊德)算法和SPFA算法。
基于上述相同的过程,可以生成标准文本B对应的标准实体子图
Figure 366616DEST_PATH_IMAGE008
,其 中,
Figure 10087DEST_PATH_IMAGE009
可以表示为知识图谱G中与标准文本B相匹配的第二实体集合,
Figure 610833DEST_PATH_IMAGE010
Figure 339754DEST_PATH_IMAGE009
中的第二实体 之间连接的边集合。需要说明的是,目标文本对应的第一实体和标准文本对应的第二实体 可以是完全相同,或者可以是部分相同,或者可以是完全不相同;当目标文本对应的第一实 体和标准文本对应的第二实体完全相同时,目标文本与标准文本可以使用知识图谱中相同 的实体结构信息来进行表示,即此时的目标文本可以等价于标准文本。
请一并参见图4,图4是本申请实施例提供的一种生成目标实体子图的示意图。如图4所示,以医疗场景为例,计算机设备可以将获取到的“胃粘膜充血且伴有水肿的急性胃炎”作为目标文本30a,并获取目标文本30a所属领域中的知识图谱30c,该知识图谱30c中可以包括医疗场景中各病例症状之间的联系;计算机设备可以在知识图谱30c中采用基于字符串匹配的方法对目标文本30a进行匹配,得到目标文本30a对应的字符串集合30b,该字符串集合30b可以包括“胃”、“粘膜充血”、“水肿”、“急性”以及“胃炎”,该字符串集合30b中的每个字符串均属于知识图谱30c中的实体。
计算机设备可以将字符串集合30b中的每个字符串均映射到知识图谱30c中的实体(如图4所示的虚线椭圆中的实体)。由于字符串集合30b中的字符串映射到知识图谱30c中后不能形成一个连通的子图,因此可以通过最短路径算法得到两个不相连的两个实体之间的最短实体路径,以得到一个连通的子图。例如,实体“胃炎”与实体“粘膜充血”在知识图谱30c中不存在直接相连的边,可以采用最短路径算法得到实体“胃炎”与实体“粘膜充血”之间的最短实体路径为:胃炎—炎症—急性炎症性疾病—粘膜充血,进而可以根据知识图谱30c中的实体“胃”、实体“粘膜充血”、实体“水肿”、实体“急性”、实体“炎症”、实体“急性炎症性疾病”以及实体“胃炎”,生成目标文本30a对应的目标实体结构30e(可以称为目标实体子图)。
步骤S102,根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征。
具体的,为了利用知识图谱中的结构化信息和实体之间的语义信息,计算机设备可以使用图表示学习方法获取知识图谱中的实体的向量表示,即可以将自然语言描述的实体转换为实体向量。其中,图表示学习方法可以为TransE算法(Translating Embedding),该TransE可以是指基于实体和实体关系的分布式向量表示,可以将每个三元组实例(实体head,实体关系relation,实体tail)中的实体关系relation看成是实体head到实体tail的翻译,通过不断调整实体head、实体关系relation以及实体tail分别对应的向量,使得实体head和实体关系relation的向量之和尽可能的等于实体tail的向量,以得到知识图谱中每个实体分别对应的向量表示。
本申请实施例中,计算机设备可以将TransE算法得到的向量表示作为目标实体子图中的第一实体对应的第一初始实体向量,以及标准实体子图中第二实体对应的第二初始实体向量,即将TransE算法得到的向量表示作为第一实体和第二实体的初始化表示。计算机设备可以通过图卷积网络对第一初始实体向量进行图编码,得到目标实体子图对应的编码向量(如上述图1所对应实施例中的实体编码表示20g),该图卷积网络可以在单个实体子图中传播每个第一实体所对应的实体信息。同理,计算机设备可以通过图卷积网络对第二初始实体向量进行图编码,得到标准实体子图对应的编码向量(如上述图1所对应实施例中的实体编码表示20h)。
可选的,为了在多个实体子图中传播实体信息,计算机设备可以在目标实体子图和标准实体子图之间进行交互学习,得到目标实体子图在标准实体子图中的交互向量,以及标准实体子图在目标实体子图中的交互向量;进而可以将目标实体子图的编码向量和目标实体子图在目标实体子图中的交互向量进行拼接,得到目标实体子图对应的目标图结构特征,将标准实体子图的编码向量和该标准实体子图在目标实体子图中的交互向量进行拼接,得到标准实体子图对应的标准图结构特征。
步骤S103,根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
具体的,计算机设备可以通过计算目标图结构特征与标准图结构特征之间的相似度,确定目标实体子图和标准实体子图之间的图相似度,该图相似度可以用于表征目标文本和标准文本之间的文本相似度。当图相似度大于某数值(如预先设置的阈值,或者取最大值等)时,可以确定目标文本等价于标准文本,实现了目标文本的标准化处理过程。其中,相似度计算方法可以包括但不限于:欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、余弦相似度(CosineSimilarity)、皮尔森相关系数(Pearson Correlation Coefficient)。
可选的,标准文本的数量可以为至少两个,此处的标准文本可以是指同一个标准体系中的不同术语,也可以是指不同标准体系下的术语,一个标准文本可以对应一个标准实体子图。计算机设备可以基于上述执行过程,生成每个标准文本分别对应的标准实体子图,以及每个标准实体子图分别对应的标准图结构特征,并计算出目标图结构特征分别与每个标准实体子图所对应的标准图结构特征之间的图相似度。计算机设备可以根据目标实体子图与至少两个标准实体子图之间的图相似度,将最大的图相似度所对应的标准实体子图确定为目标实体子图对应的关联实体子图,进而可以在至少两个标准文本中,将关联实体子图对应的标准文本确定为目标文本对应的关联标准文本,对目标文本和关联标准文本进行关联存储。换言之,在至少两个标准文本中,可以将文本相似度最大的标准文本确定为与目标文本关系最近的文本,即可以确定目标文本近似等价于最大的文本相似度所对应的标准文本,可以实现对目标文本的标准化处理过程。
请一并参见图5,图5是本申请实施例提供的一种基于图相似度的文本匹配示意图。如图5所示,计算机设备可以获取目标文本40a和多个标准文本,该多个标准文本分别为标准文本1、标准文本2以及标准文本3,通过字符串匹配的方式将目标文本和3个标准文本分别映射到知识图谱中,可以得到目标文本40a对应的目标实体结构40b(可以称为目标实体子图),标准文本1对应的标准实体结构40c(可以称为标准文本1对应的标准实体子图),标准文本2对应的标准实体结构40d(可以称为标准文本2对应的标准实体子图),标准文本3对应的标准实体结构40e(可以称为标准文本3对应的标准实体子图)。计算机设备可以分别对目标实体结构40b、标准实体结构40c、标准实体结构40d以及标准实体结构40e进行图编码,并根据图编码结果在各实体子图中交互学习实体信息,得到目标实体结构40b对应的目标图结构特征40f、标准实体结构40c对应的标准图结构特征40g、标准实体结构40d对应的标准图结构特征40h以及标准实体结构40e对应的标准图结构特征40i。
计算机设备可以通过目标图结构特征40f分别与标准图结构特征40g、标准图结构特征40h以及标准图结构特征40i之间的相似度,来度量目标实体结构40b与各标准实体子图之间的图相似度。例如,目标图结构特征40f与标准图结构特征40g之间的相似度为:图相似度1,目标图结构特征40f与标准图结构特征40h之间的相似度为:图相似度2,目标图结构特征40f与标准图结构特征40i之间的相似度为:图相似度3。当图相似度1为上述3个图相似度中的最大值时,可以确定标准文本1与目标文本40a之间的匹配程度最大,可以将目标文本40a近似等价于标准文本1,在后续的文本处理过程中,可以使用标准文本1代替目标文本40a。
可选的,以医疗场景为例,不同的医生或者患者在描述同一个病例时,可能会在描述上具有差异性。例如,医生A的病例描述为“肚子疼”,医生B的病例描述为“腹部疼痛”,可以明显看出医生A和医生B描述的是同一种疾病;然而在自动化处理过程中,计算机设备需要对其进行一系列的处理才能获得两者之间的相关性。通过本申请实施例,可以确定目标文本“肚子疼”等价于标准文本“腹痛”,确定目标文本“腹部疼痛”同样等价于标准文本“腹痛”,在后续的病案分析、医保核保等处理过程中,可以将“肚子疼”和“腹部疼痛”作为同一种疾病进行分析,即本申请实施例可以用于解决医疗文本的多样化问题。可选的,计算机设备在确定目标文本“肚子疼”等价于标准文本“腹痛”后,还可以将“肚子疼”作为实体添加至知识图谱,以完善医疗领域中的知识图谱。
在医疗场景中,以医保局为例,医保局可以从各大医院获取医生诊断病例中的医疗文本数据,并将医疗文本数据存储在数据库中,由于不同的医生在病例诊断过程中,对相同的病例会有不一样的表述,造成该数据库中的医疗文本数据具有多样性的特点。因此,计算机设备可以对多样化的医疗文本数据进行结构化处理,即将多样化的医疗文本数据与标准文本进行关联,计算机设备可以将与同一个标准文本相关联的多个医疗文本数据确定为同一个病例。当医生在医疗诊断过程中遇到疑难杂症,无法对病人的病症进行确诊时,医生可以通过输入病人的临床病状(可以称为待处理医疗文本),确定与待处理医疗文本相匹配的标准医疗术语A(即标准文本);随后可以在数据库中查找与该标准医疗术语A相匹配的所有关联医疗文本数据,并将这些查询到的关联医疗文本数据均作为待处理医疗文本的相关病例,对关联医疗文本数据进行分析,以找到待处理医疗文本与相关医疗文本数据之间的共同特性,帮助医生对病人的病症进行确诊,提高病人病症的确诊效率;在病人确诊后,医生可以对症下药,有利于病人早日康复。
可选的,本申请实施例提供的文本结构化方案可以应用在医保核保任务中。当用户在医保局申请医保报销时,医保局的工作人员需要对用户的医院就诊记录进行核实,核实通过后才能报销相关医疗费用。例如,工作人员需要核实用户所患的病症是否符合医保报销条件,当用户所患的病症符合医保报销条件时,可以为该用户报销相关医疗费用;当用户所患的病症不符合医保报销条件时,该用户无法报销相关医疗费用。可以理解的是,医保局对符合医保报销的病例进行了相关规定,由于医生对病例的描述具有多样性,即使是满足医保报销条件的病症,可能由于描述的差异性,导致用户医保报销失败。而本申请实施例中,医保局的工作人员可以在医保局服务平台中输入用户病症,通过确定用户病例与规定病例(即符合医保报销的病例)之间的匹配度,当匹配度达到某阈值时,可以确定该用户病例与规定病例为同一个病例,确定用户所患病症符合医保报销的条件,进而为该用户报销相关医疗费用,无需人工核实,可以提高医保核保的效率以及准确性。
可选的,在方言整理场景中,在描述相同称呼或者相同物品时,不同的地域可能存在不同的语言表达。例如,东北方言中的“姥姥”、粤语中的“婆婆”、闽南语中的“阿嬷”均可以等价于标准文本“外祖母”(本申请实施例中,默认知识图谱可以包括标准文本中所包含的关键字符串,即可以使用知识图谱中的实体来表示标准文本的信息),通过对不同地区的方言进行结构化处理,可以将各地区方言与普通话进行关联,用户在遇到不懂的地区方言时,可以快速确定与该地区方言具有相同含义的普通话,有利于用户更好地学习并理解方言。
本申请实施例中,可以在知识图谱中查找与目标文本可能相关联的第一实体并生成目标实体子图,在知识图谱中查找标准文本所包含的第二实体并生成标准实体子图,进而可以将目标实体子图和标准实体子图均表示为图结构特征,根据图结构特征确定两个实体子图之间的图相似度,使用该图相似度确定目标文本与标准文本之间的相似度,图相似度越大,表明目标文本与标准文本中所包含的有用信息越相同,通过图相似度对目标文本与标准文本进行匹配,可以提高匹配准确度。
请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图。可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为用户终端和服务器组成的系统,或者为一个计算机应用(包括程序代码),这里不做具体限定。如图6所示,该数据处理方法可以包括以下步骤:
步骤S201,获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体。
其中,步骤S201的具体实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
步骤S202,根据第一实体在目标实体子图中的实体连接结构,生成第一实体对应的第一初始实体向量;将第一初始实体向量输入至图卷积网络,根据图卷积网络对第一初始实体向量进行信息编码,生成第一初始实体向量对应的第一实体编码向量。
具体的,计算机设备可以利用图表示学习方法TransE获得知识图谱中每个实体分别对应的向量表示,即可以通过TransE算法学习知识图谱中所包含的实体以及实体关系(也可以理解为实体连接结构),将自然语言描述的实体转换为实体向量。因此,计算机设备可以将TransE算法得到的向量表示,作为目标实体子图中的第一实体对应的第一初始实体向量,并获取目标实体子图对应的邻接矩阵,将第一初始实体向量和邻接矩阵输入至图卷积网络中的输入层,根据第一初始实体向量、邻接矩阵以及输入层对应的参数矩阵,生成第一网络层对应的第一隐藏状态矩阵;进而可以根据第一隐藏状态矩阵,以及第一网络层对应的参数矩阵,生成第二网络层对应的第二隐藏状态矩阵。换言之,计算机设备可以采用多层图卷积网络对目标实体子图中的第一实体进行编码,将目标实体子图中的所有第一实体作为输入,通过下述公式(3)更新第一实体对应的实体编码向量:
Figure 372564DEST_PATH_IMAGE011
其中,X是由M个第一实体分别对应的第一初始实体向量组成的矩阵,x i 可以表示为第i 个第一实体对应的第一初始实体向量,i为小于或等于M的正整数;σ可以是指sigmod激活函 数,A是一个
Figure 870541DEST_PATH_IMAGE012
的邻接矩阵,可以用于目标实体子图的结构信息,I可以是一个
Figure 907767DEST_PATH_IMAGE013
的单 位矩阵,
Figure 858406DEST_PATH_IMAGE014
可以是矩阵
Figure 740911DEST_PATH_IMAGE015
的对角实体度矩阵,W (l) 可以是图卷积网络的第l个网络层中的参数 矩阵,l为正整数,该参数矩阵可以在图卷积网络的训练过程中学习得到,H (l) 可以表示图卷 积网络的第l个网络层中的M个第一实体的隐藏状态矩阵(即上述第一隐藏状态矩阵),当l= 0时,H (0) =X,即图卷积网络中的输入层可以输入X。H (l+1) 可以表示第l+1个网络层中的M个第 一实体的隐藏状态矩阵(即上述第二隐藏状态矩阵)。
为了缓解图卷积网络中的过渡平滑以及错误传播问题,可以在图卷积网络的每个网络层后引入门控函数T( ),即计算机设备可以获取图卷积网络中的门控函数T( ),根据门控函数T( )确定第一隐藏状态矩阵H (l) 和第二隐藏状态矩阵H (l+1) 分别对应的矩阵影响权重,进而可以根据矩阵影响权重、第一隐藏状态矩阵H (l) 以及第二隐藏状态矩阵H (l+1) ,确定第一初始实体向量对应的第一实体编码向量。在引入门控函数T( )后,可以表示为:
Figure 296657DEST_PATH_IMAGE016
其中,
Figure 504785DEST_PATH_IMAGE017
可以表示为第l个网络层后所引入的门控函数T( )的参数,
Figure 942719DEST_PATH_IMAGE018
可以表示为第l个网络层后所引入的门控函数T( )的偏置参数,该
Figure 566599DEST_PATH_IMAGE017
Figure 304748DEST_PATH_IMAGE018
可以在图卷积网络的训练过 程中学习得到;T(H (l) )可以表示为第二隐藏状态矩阵H (l+1) 对应的矩阵影响权重,(1-T(H (l) ) 可以表示为第一隐藏状态矩阵H (l) 对应的矩阵影响权重。门控函数T( )可以用于消除同一 个网络层中的异常值,也可以用于消除相邻网络层中数值异常的网络层。例如,第l个网络 层的M个第一实体对应的编码向量属于50至60范围,其余网络层的M个编码向量属于0至10 范围,则可以为第l个网络层对应的第一隐藏状态矩阵H (l) 设置较小的矩阵影响权重,为其 余网络层对应的隐藏状态矩阵设置较大的矩阵影响权重,以消除相邻网络层中数值异常的 网络层。
计算机设备可以将图卷积网络的最后一个网络层的输入表示H (l+1) 作为M个第一实体分别对应的第一实体编码向量,进而可以对最后一个网络层的输入表示H (l+1) 中所包含的M个实体编码向量进行求和、取平均或者取最大值等方式,将H (l+1) 聚合成一个向量,这个向量可以最为目标实体子图对应的编码表示,该编码表示可以用于度量实体子图之间的相似度。
可选的,根据图卷积网络对目标实体子图进行图编码时,可能会引入噪声,本申请实施例可以引入一个门控函数F( )控制每个第一实体所保留的信息量,具体过程可以表示为:
Figure 418197DEST_PATH_IMAGE019
其中,f( )可以表示为一个多层感知机,W F 可以表示为门控函数F( )的参数,b F 可以表 示为门控函数F( )对应的偏置参数,
Figure 546690DEST_PATH_IMAGE020
可以为目标实体子图对应的目标图编码向量,该目 标图编码向量可以通过M个第一实体编码向量聚合而成。门控函数F( )可以用于增强图卷 积网络的表达能力。
请一并参见图7,图7是本申请实施例提供的一种目标实体子图编码示意图。如图7所示的实体结构50a可以表示为目标文本映射到知识图谱所得到的实体子图,该实体结构50a包括M个结点,每个结点对应一个第一实体,每个第一实体均可以采用TransE算法进行向量表示,得到每个第一实体分别对应的第一初始实体向量,该实体结构50a中的边用于表征M个第一实体之间的实体关系。可以将M个第一实体所对应的第一初始实体向量所组成的矩阵作为图卷积网络(可以包括l个网络层)的输入层的输入数据,可以记为H0(即上述X=[x 1 ,x 2 ,…,x M ])。
计算机设备可以获取实体结构50a中的M个第一实体所对应的邻接矩阵,将邻接矩 阵和一个
Figure 36577DEST_PATH_IMAGE013
的单位矩阵相加以得到一个矩阵
Figure 98074DEST_PATH_IMAGE015
,并获取该矩阵
Figure 834955DEST_PATH_IMAGE015
对应的对角实体度矩阵, 根据矩阵
Figure 247482DEST_PATH_IMAGE015
、对角实体度矩阵以及M个第一初始实体向量组成的H0,可以得到第1个网络层对 应的隐藏状态特征。计算机设备可以在每个网络层之后引入门控函数,如得到第一网络层 对应的隐藏状态矩阵后,可以通过门控函数50b对输出的隐藏状态特征进行处理,以得到第 1个网络层的输出H1,以此类推,可以得到图卷积网络的第2个网络层的输出H2,……,最后 一个网络层的输出Hl,将最后一个网络层的输出Hl作为实体结构50a中M个第一实体分别对 应的第一实体编码向量。
步骤S203,根据第二实体在标准实体子图中的实体连接结构,生成第二实体对应的第二初始实体向量;将第二初始实体向量输入至图卷积网络,根据图卷积网络对第二初始实体向量进行信息编码,生成第二初始实体向量对应的第二实体编码向量。
具体的,计算机设备可以将TransE算法得到的向量表示,作为标准实体子图中的第二实体对应的第二初始实体向量,计算机设备可以将第二初始实体向量作为图卷积网络的输入信息,根据图卷积网络获得第二初始实体向量对应的第二实体编码向量。该第二实体编码向量的确定过程类似于第一实体编码向量的确定过程,可以参见上述步骤S202中的描述,这里不再进行赘述。
步骤S204,根据第一实体编码向量和第二实体编码向量,生成目标实体子图对应的目标图结构特征。
具体的,假设目标实体子图包括M个第一实体,标准实体子图包括N个第二实体。计算机设备可以获取M个第一实体中的第一实体v i ,并获取第一实体v i 对应的N个第一交互影响权重,i为小于或者等于M的正整数;进而可以获取第一实体v i 分别与N个第二实体所对应的第二实体编码向量之间的第一向量差值,根据N个第一交互影响权重和N个第一向量差值确定第一实体v i 对应的第一交互向量s i 。其中,第一交互向量s i 可以表示为:
Figure 541060DEST_PATH_IMAGE021
其中,对于目标实体子图
Figure 722642DEST_PATH_IMAGE022
和标准实体子图
Figure 115578DEST_PATH_IMAGE023
s i 可以表示为目标 实体子图中的任意一个第一实体v i 在标准实体子图
Figure 15400DEST_PATH_IMAGE024
中的第一交互向量,h i 可以表示为第 一实体v i 对应的第一实体编码向量,h k 可以表示为标准实体子图
Figure 581511DEST_PATH_IMAGE024
中任意一个第二实体v k 所对应的第二实体编码向量,
Figure 148759DEST_PATH_IMAGE025
可以用于表示第一实体编码向量h i 与第二实体编码 向量h k 之间的乘积。a ik 可以表示为第一交互影响权重,如当i=1时,第一交互向量s1可以用 于表示第一实体v i 的第一实体编码向量与标准实体子图
Figure 509333DEST_PATH_IMAGE024
中的N个第二实体所对应的第二 实体编码向量相关联。
进一步地,计算机设备可以对M个第一实体分别对应的第一实体编码向量进行聚合,得到目标实体子图对应的目标图编码向量,该目标图编码向量可以通过上述公式(5)计算得到;进而可以对M个第一实体分别对应的第一交互向量进行拼接,得到M个第一实体在标准实体子图中的第一交互矩阵,将第一交互矩阵压缩为目标交互向量,对目标图编码向量和目标交互向量进行拼接,得到目标实体子图对应的目标图结构特征。其中,第一交互矩阵可以表示为S=[s 1 ,s 2 ,…,s M ],进而可以将第一交互矩阵压缩为目标交互向量,该压缩过程类似于编码过程,可以表示为:
Figure 99714DEST_PATH_IMAGE026
其中,
Figure 469516DEST_PATH_IMAGE027
可以表示为目标交互向量,将目标图编码向量
Figure 625690DEST_PATH_IMAGE028
和目标交互向量
Figure 422745DEST_PATH_IMAGE029
进行拼接,可以得到目标生成子图的最终表示向量,即目标图结构特征
Figure 234843DEST_PATH_IMAGE030
步骤S205,根据第一实体编码向量和第二实体编码向量,生成标准实体子图对应的标准图结构特征。
具体的,计算机设备可以获取N个第二实体中的第二实体v k ,并获取第二实体v k 对应的M个第二交互影响权重,k为小于或者等于N的正整数;进而可以获取第二实体v k 分别与M个第一实体所对应的第一实体编码向量之间的第二向量差值,根据M个第二交互影响权重和M个第二向量差值确定第二实体v k 对应的第二交互向量t k 。其中,第二交互向量t k 可以表示为:
Figure 408336DEST_PATH_IMAGE031
其中,t k 可以表示为标准实体子图中的任意一个第二实体v k 在目标实体子图
Figure 684596DEST_PATH_IMAGE032
中的第 二交互向量,b ki 可以表示为第二交互影响权重,如当k=1时,第二交互向量t 1 可以用于表示 第二实体v 1 的第二实体编码向量与目标实体子图
Figure 652552DEST_PATH_IMAGE032
中的M个第一实体所对应的第一实体编 码向量相关联。
进一步地,计算机设备可以对N个第二实体分别对应的第二实体编码向量进行聚合,得到标准实体子图对应的标准图编码向量;进而可以对N个第二实体分别对应的第二交互向量进行拼接,得到N个第二实体在目标实体子图中的第二交互矩阵将第二交互矩阵压缩为标准交互向量,对标准图编码向量和标准交互向量进行拼接,得到标准实体子图对应的标准图结构特征。其中,第二交互矩阵可以表示为T=[t 1 ,t 2 ,…,t N ],进而可以将第二交互矩阵压缩为标准交互向量,该压缩过程类似于编码过程,可以表示为:
Figure 748684DEST_PATH_IMAGE033
其中,
Figure 411353DEST_PATH_IMAGE034
可以表示为标准交互向量,将标准图编码向量
Figure 542120DEST_PATH_IMAGE035
和标准交互向量
Figure 680978DEST_PATH_IMAGE034
进行拼接,可以得到标准生成子图的最终表示向量,即标准图结构特征
Figure 264406DEST_PATH_IMAGE036
步骤S206,根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
其中,步骤S206的具体实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
需要说明的是,上述处理过程中涉及到图卷积网络的图编码过程以及目标实体子图与标准实体子图之间的交互学习过程,对于图卷积网络的网络参数与交互学习过程中的参数W F 和参数b F 均需要进行训练学习,本申请实施例可以将图卷积网络的训练过程,以及交互学习过程中的参数W F 和参数b F 的训练过程统称为整个模型的训练过程。
在整个模型的训练过程中,计算机设备可以获取训练样本,每个训练样本均可以携带标签信息,语义信息相同的训练样本可以携带相同的标签信息,语义信息不相同的训练样本携带不同的标签信息。例如,训练样本“阑尾发生坏死穿孔的急性阑尾炎症”和训练样本“穿孔化脓性阑尾炎”所表达的信息是相同的,可以为训练样本“阑尾发生坏死穿孔的急性阑尾炎症”和训练样本“穿孔化脓性阑尾炎”标注相同的标签信息;训练样本“阑尾发生坏死穿孔的急性阑尾炎症”和训练样本“胃粘膜充血且伴有水肿的急性胃炎”所表达的信息不同,可以为训练样本“阑尾发生坏死穿孔的急性阑尾炎症”和训练样本“胃粘膜充血且伴有水肿的急性胃炎”标注不同的标签信息。
进一步地,计算机设备可以将训练样本分为正样本对和负样本对,正样本对由具有相同标签信息的两个训练样本组成,负样本对由具有不同标签信息的两个训练样本组成。在训练过程中,可以通过间隔损失函数优化整个模型,该间隔损失函数可以表示为:
Figure 717384DEST_PATH_IMAGE037
其中,
Figure 702657DEST_PATH_IMAGE038
可以表示为欧氏距离或者余弦距离,(G A ,G B )表示正样本对所对应的实体子 图,(G A ,G C )表示负样本对表示的实体子图,P用于表示正样本对集合,Q用于表示负样本对集 合,γ为模型训练过程中所设置的超参数。
可以理解地,
Figure 277995DEST_PATH_IMAGE039
分别表示为训练过程中经过前向计算所得到的图结构 特征,通过上述公式(10),对整个模型中的网络参数进行不断修正,在训练完成后,可以保 存网络参数,训练完成的模型可以应用于图实体子图之间的信息编码以及交互学习过程。
本申请实施例中,可以在知识图谱中查找与目标文本可能相关联的第一实体并生成目标实体子图,在知识图谱中查找标准文本所包含的第二实体并生成标准实体子图,进而可以将目标实体子图和标准实体子图均表示为图结构特征,根据图结构特征确定两个实体子图之间的图相似度,使用该图相似度确定目标文本与标准文本之间的相似度,图相似度越大,表明目标文本与标准文本中所包含的有用信息越相同,通过图相似度对目标文本与标准文本进行匹配,可以提高匹配准确度;在图结构特征的确定过程中,即考虑到了单个实体子图中实体之间的交互,还考虑到了不同实体子图中的实体之前的交互,提高了图结构特征的表征能力,可以进一步提高文本之间的匹配度;另外,本申请实施例中的整个文本结构化处理是自动化的,可以降低人力成本。
请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置1可以包括:子图生成模块11,特征生成模块12,图相似度确定模块13;
子图生成模块11,用于获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体;
特征生成模块12,用于根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征;
图相似度确定模块13,用于根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
其中,子图生成模块11,特征生成模块12,图相似度确定模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请一并参见图8,子图生成模块11可以包括:第一查找单元111,第二查找单元112;
第一查找单元111,用于获取知识图谱,在知识图谱中查找与目标文本相匹配的第一实体,根据第一实体生成目标文本对应的目标实体子图;第一实体分别在目标实体子图和知识图谱中的实体连接结构是相同的;
第二查找单元112,用于在知识图谱中查找与标准文本相匹配的第二实体,根据第二实体生成标准文本对应的标准实体子图;第二实体分别在标准实体子图和知识图谱中的实体连接结构是相同的。
其中,第一查找单元111,第二查找单元112的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图8,第一实体的数量为M个,M为正整数;
第一查找单元111可以包括:分词处理子单元1111,文本相似度获取子单元1112,目标子图生成子单元1113;
分词处理子单元1111,用于对目标文本进行分词处理,得到目标文本对应的至少两个字符串;
文本相似度获取子单元1112,用于获取每个字符串分别与知识图谱中的实体之间的文本相似度,将文本相似度大于相似度阈值的实体,作为与目标文本相匹配的M个第一实体;
目标子图生成子单元1113,用于根据M个第一实体,以及M个第一实体在知识图谱中相互连接的边,生成目标文本对应的目标实体子图。
其中,分词处理子单元1111,文本相似度获取子单元1112,目标子图生成子单元1113的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图8,目标子图生成子单元1113可以包括:实体获取子单元11131,实体连接判断子单元11132;
实体获取子单元11131,用于获取M个第一实体中的任意两个第一实体;
实体连接判断子单元11132,用于若任意两个第一实体在知识图谱中存在相连的边,则根据M个第一实体以及任意两个第一实体之间的边,生成目标文本对应的目标实体子图;
上述实体连接判断子单元11132,还用于若任意两个第一实体在知识图谱中不存在相连的边,则可以在知识图谱中获取任意两个第一实体之间的最短实体路径,根据M个第一实体以及最短实体路径中所包含的实体和边,生成目标文本对应的目标实体子图。
其中,实体获取子单元11131,实体连接判断子单元11132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图8,特征生成模块12可以包括:第一初始向量生成单元121,第一编码向量生成单元122,第二初始向量生成单元123,第二编码向量生成单元124,第一结构特征生成单元125,第二结构特征生成单元126;
第一初始向量生成单元121,用于根据第一实体在目标实体子图中的实体连接结构,生成第一实体对应的第一初始实体向量;
第一编码向量生成单元122,用于将第一初始实体向量输入至图卷积网络,根据图卷积网络对第一初始实体向量进行信息编码,生成第一初始实体向量对应的第一实体编码向量;
第二初始向量生成单元123,用于根据第二实体在标准实体子图中的实体连接结构,生成第二实体对应的第二初始实体向量;
第二编码向量生成单元124,用于将第二初始实体向量输入至图卷积网络,根据图卷积网络对第二初始实体向量进行信息编码,生成第二初始实体向量对应的第二实体编码向量;
第一结构特征生成单元125,用于根据第一实体编码向量和第二实体编码向量,生成目标实体子图对应的目标图结构特征;
第二结构特征生成单元126,用于根据第一实体编码向量和第二实体编码向量,生成标准实体子图对应的标准图结构特征。
其中,第一初始向量生成单元121,第一编码向量生成单元122,第二初始向量生成单元123,第二编码向量生成单元124,第一结构特征生成单元125,第二结构特征生成单元126的具体功能实现方式可以参见上述图6所对应实施例中的步骤S202-步骤S205,这里不再进行赘述。
请一并参见图8,图卷积网络包括第一网络层和第二网络层,第一网络层和第二网络层在图卷积网络中为相邻连接结构;
第一编码向量生成单元122可以包括:第一矩阵生成子单元1221,第二矩阵生成子单元1222,第一权重确定子单元1223,编码向量生成子单元1224;
第一矩阵生成子单元1221,用于获取第一实体对应的邻接矩阵,根据第一初始实体向量、邻接矩阵以及图卷积网络中输入层对应的参数矩阵,生成第一网络层对应的第一隐藏状态矩阵;
第二矩阵生成子单元1222,用于根据第一隐藏状态矩阵,以及第一网络层对应的参数矩阵,生成第二网络层对应的第二隐藏状态矩阵;
第一权重确定子单元1223,用于获取图卷积网络中的门控函数,根据门控函数确定第一隐藏状态矩阵和第二隐藏状态矩阵分别对应的矩阵影响权重;
编码向量生成子单元1224,用于根据矩阵影响权重、第一隐藏状态矩阵以及第二隐藏状态矩阵,确定第一初始实体向量对应的第一实体编码向量。
其中,第一矩阵生成子单元1221,第二矩阵生成子单元1222,第一权重确定子单元1223,编码向量生成子单元1224的具体功能实现方式可以参见上述图6所对应实施例中的步骤S202,这里不再进行赘述。
请一并参见图8,第一实体的数量为M个,第二实体的数量为N个,M和N均为正整数;
第一结构特征生成单元125可以包括:第二权重获取子单元1251,第一交互向量确定子单元1252,目标特征确定子单元1253;
第二权重获取子单元1251,用于获取M个第一实体中的第一实体v i ,获取第一实体v i 对应的N个第一交互影响权重;i为小于或者等于M的正整数;
第一交互向量确定子单元1252,用于获取第一实体v i 分别与N个第二实体所对应的第二实体编码向量之间的第一向量差值,根据N个第一交互影响权重和N个第一向量差值确定第一实体v i 对应的第一交互向量s i
目标特征确定子单元1253,用于根据M个第一实体分别对应的第一实体编码向量和M个第一实体分别对应的第一交互向量,确定目标实体子图对应的目标图结构特征。
其中,目标特征确定子单元1253具体用于:
对M个第一实体分别对应的第一实体编码向量进行聚合,得到目标实体子图对应的目标图编码向量;
对M个第一实体分别对应的第一交互向量进行拼接,得到M个第一实体在标准实体子图中的第一交互矩阵;
将第一交互矩阵压缩为目标交互向量,对目标图编码向量和目标交互向量进行拼接,得到目标实体子图对应的目标图结构特征。
其中,第二权重获取子单元1251,第一交互向量确定子单元1252,目标特征确定子单元1253的具体功能实现方式可以参见上述图6所对应实施例中的步骤S204,这里不再进行赘述。
请一并参见图8,第一实体的数量为M个,第二实体的数量为N个,M和N均为正整数;
第二结构特征生成单元126可以包括:第三权重获取子单元1261,第二交互向量确定子单元1262,标准特征确定子单元1263;
第三权重获取子单元1261,用于获取N个第二实体中的第二实体v k ,获取第二实体v k 对应的M个第二交互影响权重;k为小于或者等于N的正整数;
第二交互向量确定子单元1262,用于获取第二实体v k 分别与M个第一实体所对应的第一实体编码向量之间的第二向量差值,根据M个第二交互影响权重和M个第二向量差值确定第二实体v k 对应的第二交互向量t k
标准特征确定子单元1263,用于根据N个第二实体分别对应的第二实体编码向量和N个第二实体分别对应的第二交互向量,确定标准实体子图对应的标准图结构特征。
其中,标准特征确定子单元1263具体用于:
对N个第二实体分别对应的第二实体编码向量进行聚合,得到标准实体子图对应的标准图编码向量;
对N个第二实体分别对应的第二交互向量进行拼接,得到N个第二实体在目标实体子图中的第二交互矩阵;
将第二交互矩阵压缩为标准交互向量,对标准图编码向量和标准交互向量进行拼接,得到标准实体子图对应的标准图结构特征。
其中,第三权重获取子单元1261,第二交互向量确定子单元1262,标准特征确定子单元1263的具体功能实现方式可以参见上述图6所对应实施例中的步骤S205,这里不再进行赘述。
请一并参见图8,标准文本的数量为至少两个,一个标准文本对应一个标准实体子图;
该数据处理装置1还可以包括:关联子图确定模块14,关联存储模块15;
关联子图确定模块14,用于根据目标实体子图与至少两个标准实体子图之间的图相似度,将最大的图相似度所对应的标准实体子图确定为关联实体子图;
关联存储模块15,用于在至少两个标准文本中,将关联实体子图对应的标准文本确定为目标文本对应的关联标准文本,对目标文本和关联标准文本进行关联存储。
其中,关联子图确定模块14,关联存储模块15的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
本申请实施例中,可以在知识图谱中查找与目标文本可能相关联的第一实体并生成目标实体子图,在知识图谱中查找标准文本所包含的第二实体并生成标准实体子图,进而可以将目标实体子图和标准实体子图均表示为图结构特征,根据图结构特征确定两个实体子图之间的图相似度,使用该图相似度确定目标文本与标准文本之间的相似度,图相似度越大,表明目标文本与标准文本中所包含的有用信息越相同,通过图相似度对目标文本与标准文本进行匹配,可以提高匹配准确度;在图结构特征的确定过程中,即考虑到了单个实体子图中实体之间的交互,还考虑到了不同实体子图中的实体之前的交互,提高了图结构特征的表征能力,可以进一步提高文本之间的匹配度;另外,本申请实施例中的整个文本结构化处理是自动化的,可以降低人力成本。
请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标文本和标准文本,根据知识图谱生成目标文本对应的目标实体子图,以及标准文本对应的标准实体子图;目标实体子图包括第一实体,标准实体子图包括第二实体,第一实体和第二实体均属于知识图谱中的实体;
根据第一实体和第二实体,生成目标实体子图对应的目标图结构特征,以及标准实体子图对应的标准图结构特征;
根据目标图结构特征和标准图结构特征,确定目标实体子图和标准实体子图之间的图相似度;图相似度用于指示目标文本与标准文本之间的关联程度。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图6任一个所对应实施例中对数据处理方法的描述,也可执行前文图8所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图6任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图6任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取目标文本和标准文本,根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图;所述目标实体子图包括第一实体,所述标准实体子图包括第二实体,所述第一实体和所述第二实体均属于所述知识图谱中的实体;
根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征;
根据所述目标图结构特征和所述标准图结构特征,确定所述目标实体子图和所述标准实体子图之间的图相似度;所述图相似度用于指示所述目标文本与所述标准文本之间的关联程度。
2.根据权利要求1所述的方法,其特征在于,所述根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图,包括:
获取所述知识图谱,在所述知识图谱中查找与所述目标文本相匹配的第一实体,根据所述第一实体生成所述目标文本对应的目标实体子图;所述第一实体分别在所述目标实体子图和所述知识图谱中的实体连接结构是相同的;
在所述知识图谱中查找与所述标准文本相匹配的第二实体,根据所述第二实体生成所述标准文本对应的标准实体子图;所述第二实体分别在所述标准实体子图和所述知识图谱中的实体连接结构是相同的。
3.根据权利要求2所述的方法,其特征在于,所述第一实体的数量为M个,M为正整数;
所述在所述知识图谱中查找与所述目标文本相匹配的第一实体,根据所述第一实体生成所述目标文本对应的目标实体子图,包括:
对所述目标文本进行分词处理,得到所述目标文本对应的至少两个字符串;
获取每个字符串分别与所述知识图谱中的实体之间的文本相似度,将所述文本相似度大于相似度阈值的实体,作为与所述目标文本相匹配的M个第一实体;
根据所述M个第一实体,以及所述M个第一实体在所述知识图谱中相互连接的边,生成所述目标文本对应的目标实体子图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述M个第一实体,以及所述M个第一实体在所述知识图谱中相互连接的边,生成所述目标文本对应的目标实体子图,包括:
获取所述M个第一实体中的任意两个第一实体;
若所述任意两个第一实体在所述知识图谱中存在相连的边,则根据所述M个第一实体以及所述任意两个第一实体之间的边,生成所述目标文本对应的目标实体子图;
若所述任意两个第一实体在所述知识图谱中不存在相连的边,则在所述知识图谱中获取所述任意两个第一实体之间的最短实体路径,根据所述M个第一实体以及所述最短实体路径中所包含的实体和边,生成所述目标文本对应的目标实体子图。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征,包括:
根据所述第一实体在所述目标实体子图中的实体连接结构,生成所述第一实体对应的第一初始实体向量;
将所述第一初始实体向量输入至图卷积网络,根据所述图卷积网络对所述第一初始实体向量进行信息编码,生成所述第一初始实体向量对应的第一实体编码向量;
根据所述第二实体在所述标准实体子图中的实体连接结构,生成所述第二实体对应的第二初始实体向量;
将所述第二初始实体向量输入至所述图卷积网络,根据所述图卷积网络对所述第二初始实体向量进行信息编码,生成所述第二初始实体向量对应的第二实体编码向量;
根据所述第一实体编码向量和所述第二实体编码向量,生成所述目标实体子图对应的目标图结构特征;
根据所述第一实体编码向量和所述第二实体编码向量,生成所述标准实体子图对应的标准图结构特征。
6.根据权利要求5所述的方法,其特征在于,所述图卷积网络包括第一网络层和第二网络层,所述第一网络层和所述第二网络层在所述图卷积网络中为相邻连接结构;
所述根据所述图卷积网络对所述第一初始实体向量进行信息编码,生成所述第一初始实体向量对应的第一实体编码向量,包括:
获取所述第一实体对应的邻接矩阵,根据所述第一初始实体向量、所述邻接矩阵以及所述图卷积网络中输入层对应的参数矩阵,生成所述第一网络层对应的第一隐藏状态矩阵;
根据所述第一隐藏状态矩阵,以及所述第一网络层对应的参数矩阵,生成所述第二网络层对应的第二隐藏状态矩阵;
获取所述图卷积网络中的门控函数,根据所述门控函数确定所述第一隐藏状态矩阵和所述第二隐藏状态矩阵分别对应的矩阵影响权重;
根据所述矩阵影响权重、所述第一隐藏状态矩阵以及所述第二隐藏状态矩阵,确定所述第一初始实体向量对应的第一实体编码向量。
7.根据权利要求5所述的方法,其特征在于,所述第一实体的数量为M个,所述第二实体的数量为N个,M和N均为正整数;
所述根据所述第一实体编码向量和所述第二实体编码向量,生成所述目标实体子图对应的目标图结构特征,包括:
获取M个第一实体中的第一实体v i ,获取所述第一实体v i 对应的N个第一交互影响权重;i为小于或者等于M的正整数;
获取所述第一实体v i 分别与N个第二实体所对应的第二实体编码向量之间的第一向量差值,根据所述N个第一交互影响权重和N个第一向量差值确定所述第一实体v i 对应的第一交互向量s i
根据所述M个第一实体分别对应的第一实体编码向量和所述M个第一实体分别对应的第一交互向量,确定所述目标实体子图对应的目标图结构特征。
8.根据权利要求7所述的方法,其特征在于,所述根据所述M个第一实体分别对应的第一实体编码向量和所述M个第一实体分别对应的第一交互向量,确定所述目标实体子图对应的目标图结构特征,包括:
对所述M个第一实体分别对应的第一实体编码向量进行聚合,得到所述目标实体子图对应的目标图编码向量;
对所述M个第一实体分别对应的第一交互向量进行拼接,得到所述M个第一实体在所述标准实体子图中的第一交互矩阵;
将所述第一交互矩阵压缩为目标交互向量,对所述目标图编码向量和所述目标交互向量进行拼接,得到所述目标实体子图对应的目标图结构特征。
9.根据权利要求5所述的方法,其特征在于,所述第一实体的数量为M个,所述第二实体的数量为N个,M和N均为正整数;
所述根据所述第一实体编码向量和所述第二实体编码向量,生成所述标准实体子图对应的标准图结构特征,包括:
获取N个第二实体中的第二实体v k ,获取所述第二实体v k 对应的M个第二交互影响权重;k为小于或者等于N的正整数;
获取所述第二实体v k 分别与M个第一实体所对应的第一实体编码向量之间的第二向量差值,根据所述M个第二交互影响权重和M个第二向量差值确定所述第二实体v k 对应的第二交互向量t k
根据所述N个第二实体分别对应的第二实体编码向量和所述N个第二实体分别对应的第二交互向量,确定所述标准实体子图对应的标准图结构特征。
10.根据权利要求9所述的方法,其特征在于,所述根据所述N个第二实体分别对应的第二实体编码向量和所述N个第二实体分别对应的第二交互向量,确定所述标准实体子图对应的标准图结构特征,包括:
对所述N个第二实体分别对应的第二实体编码向量进行聚合,得到所述标准实体子图对应的标准图编码向量;
对所述N个第二实体分别对应的第二交互向量进行拼接,得到所述N个第二实体在所述目标实体子图中的第二交互矩阵;
将所述第二交互矩阵压缩为标准交互向量,对所述标准图编码向量和所述标准交互向量进行拼接,得到所述标准实体子图对应的标准图结构特征。
11.根据权利要求1所述的方法,其特征在于,所述标准文本的数量为至少两个,一个标准文本对应一个标准实体子图;
所述方法还包括:
根据所述目标实体子图与至少两个标准实体子图之间的图相似度,将最大的图相似度所对应的标准实体子图确定为关联实体子图;
在至少两个标准文本中,将所述关联实体子图对应的标准文本确定为所述目标文本对应的关联标准文本,对所述目标文本和所述关联标准文本进行关联存储。
12.一种数据处理装置,其特征在于,还包括:
子图生成模块,用于获取目标文本和标准文本,根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图;所述目标实体子图包括第一实体,所述标准实体子图包括第二实体,所述第一实体和所述第二实体均属于所述知识图谱中的实体;
特征生成模块,用于根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征;
图相似度确定模块,用于根据所述目标图结构特征和所述标准图结构特征,确定所述目标实体子图和所述标准实体子图之间的图相似度;所述图相似度用于指示所述目标文本与所述标准文本之间的关联程度。
13.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,所述处理器执行权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至11中任一项所述方法的步骤。
CN202011249986.8A 2020-11-11 2020-11-11 数据处理方法、装置、设备以及介质 Active CN112100406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011249986.8A CN112100406B (zh) 2020-11-11 2020-11-11 数据处理方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011249986.8A CN112100406B (zh) 2020-11-11 2020-11-11 数据处理方法、装置、设备以及介质

Publications (2)

Publication Number Publication Date
CN112100406A true CN112100406A (zh) 2020-12-18
CN112100406B CN112100406B (zh) 2021-02-12

Family

ID=73785102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011249986.8A Active CN112100406B (zh) 2020-11-11 2020-11-11 数据处理方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN112100406B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948694A (zh) * 2021-03-31 2021-06-11 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113011153A (zh) * 2021-03-15 2021-06-22 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN113257383A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 匹配信息确定方法、显示方法、装置、设备及存储介质
CN113407645A (zh) * 2021-05-19 2021-09-17 福建福清核电有限公司 一种基于知识图谱的声像档案智能编研方法
CN113673244A (zh) * 2021-01-04 2021-11-19 腾讯科技(深圳)有限公司 医疗文本处理方法、装置、计算机设备和存储介质
WO2023101057A1 (ko) * 2021-12-02 2023-06-08 엘지전자 주식회사 무선 통신 시스템에서 시맨틱 통신을 위한 지식을 갱신하는 방법, 통신 기기, 프로세싱 장치 및 저장 매체

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及系统
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
US20190354689A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Deep neural network system for similarity-based graph representations
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
US20200081445A1 (en) * 2018-09-10 2020-03-12 Drisk, Inc. Systems and Methods for Graph-Based AI Training
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
US20190354689A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Deep neural network system for similarity-based graph representations
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及系统
US20200081445A1 (en) * 2018-09-10 2020-03-12 Drisk, Inc. Systems and Methods for Graph-Based AI Training
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王飞 等: "代码知识图谱构建及智能化软件开发方法研究", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673244A (zh) * 2021-01-04 2021-11-19 腾讯科技(深圳)有限公司 医疗文本处理方法、装置、计算机设备和存储介质
CN113673244B (zh) * 2021-01-04 2024-05-10 腾讯科技(深圳)有限公司 医疗文本处理方法、装置、计算机设备和存储介质
CN113011153A (zh) * 2021-03-15 2021-06-22 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN113011153B (zh) * 2021-03-15 2022-03-29 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN112948694A (zh) * 2021-03-31 2021-06-11 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN112948694B (zh) * 2021-03-31 2023-06-27 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113407645A (zh) * 2021-05-19 2021-09-17 福建福清核电有限公司 一种基于知识图谱的声像档案智能编研方法
CN113407645B (zh) * 2021-05-19 2024-06-11 福建福清核电有限公司 一种基于知识图谱的声像档案智能编研方法
CN113257383A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 匹配信息确定方法、显示方法、装置、设备及存储介质
CN113257383B (zh) * 2021-06-16 2021-11-02 腾讯科技(深圳)有限公司 匹配信息确定方法、显示方法、装置、设备及存储介质
WO2023101057A1 (ko) * 2021-12-02 2023-06-08 엘지전자 주식회사 무선 통신 시스템에서 시맨틱 통신을 위한 지식을 갱신하는 방법, 통신 기기, 프로세싱 장치 및 저장 매체

Also Published As

Publication number Publication date
CN112100406B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112100406B (zh) 数据处理方法、装置、设备以及介质
CN110442869B (zh) 一种医疗文本处理方法及其装置、设备和存储介质
CN111666477B (zh) 一种数据处理方法、装置、智能设备及介质
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN110598786B (zh) 神经网络的训练方法、语义分类方法、语义分类装置
US20210406687A1 (en) Method for predicting attribute of target object based on machine learning and related device
CN111914562B (zh) 电子信息分析方法、装置、设备及可读存储介质
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN113704392A (zh) 文本中实体关系的抽取方法、装置、设备及存储介质
CN112463989A (zh) 一种基于知识图谱的信息获取方法及系统
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
CN115374771A (zh) 文本标签确定方法及装置
CN114360715A (zh) 体质辨识方法、装置、电子设备及存储介质
CN117149998B (zh) 基于多目标优化的智能就诊推荐方法及系统
CN113657086A (zh) 词语处理方法、装置、设备及存储介质
CN117747087A (zh) 问诊大模型的训练方法、基于大模型的问诊方法和装置
CN116702743A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN116956934A (zh) 任务处理方法、装置、设备及存储介质
CN116383766A (zh) 基于多模态数据的辅诊方法、装置、设备及存储介质
CN112182253B (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035730

Country of ref document: HK