CN111209407B - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111209407B
CN111209407B CN201811391478.6A CN201811391478A CN111209407B CN 111209407 B CN111209407 B CN 111209407B CN 201811391478 A CN201811391478 A CN 201811391478A CN 111209407 B CN111209407 B CN 111209407B
Authority
CN
China
Prior art keywords
entity
entity object
target
library
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811391478.6A
Other languages
English (en)
Other versions
CN111209407A (zh
Inventor
孙铭阳
杨晓庆
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811391478.6A priority Critical patent/CN111209407B/zh
Publication of CN111209407A publication Critical patent/CN111209407A/zh
Application granted granted Critical
Publication of CN111209407B publication Critical patent/CN111209407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提供了一种数据处理方法、装置、电子设备和计算机可读存储介质,其中,该方法包括:获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。本发明通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。

Description

数据处理方法、装置、电子设备和计算机可读存储介质
技术领域
本申请涉及数据处理的技术领域,具体而言,涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,随着人工智能技术的快速发展,人工智能已经应用到各个领域,例如,智能医疗,智能餐厅,智能银行等等。不论是智能医疗,智能餐厅,还是智能银行,作为服务提供方,都需要为服务请求方进行人性化,智能化的服务。不论是,智能医疗,还是智能餐厅,都应该包含对应的知识库。当智能医疗或者智能餐厅获取到服务请求方输入的相关信息时,就可以从对应的知识库中查找相关内容,并输出给服务请求方。
例如,以智能医疗为例。智能医疗的知识库中包含疾病和症状之间的映射关系。医疗诊断机器人可以根据患者的症状描述,向患者提问是否有其他相关症状。医疗诊断机器人有大概率会问及同义不同名症状,导致重复向患者提问,这样会使用户感觉系统笨拙。
发明内容
有鉴于此,本申请实施例的目的在于提供一种数据处理方法、装置、电子设备和计算机可读存储介质,通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。
根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。
在本申请较佳的实施例中,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象包括:计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
在本申请较佳的实施例中,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象包括:若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
在本申请较佳的实施例中,实体对象为目标数据片段;计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值包括:计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;计算所述目标实体对象与所述实体对象Ai之间的交并比;基于所述目标数值和所述交并比计算所述相似度量值。
在本申请较佳的实施例中,基于所述目标数值和所述交并比计算所述相似度量值包括:计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
在本申请较佳的实施例中,计算所述目标实体对象与所述实体对象Ai之间的交并比包括:利用公式
Figure BDA0001874160950000031
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
在本申请较佳的实施例中,所述实体库中的实体对象为文字片段;在获取待处理的实体库之后,所述方法还包括:利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
在本申请较佳的实施例中,所述实体库中的实体对象之间包含目标符号;在获取待处理的实体库之后,所述方法还包括:利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
在本申请较佳的实施例中,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
在本申请较佳的实施例中,在获取待处理的实体库之前,所述方法还包括:建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系包括:在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系包括:在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象包括:基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
根据本申请的另一个方面,还提供一种数据处理装置,包括:获取单元,用于获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;选择和构建单元,用于在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;选择和存储单元,用于在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。
在本申请较佳的实施例中,所述选择和存储单元包括:计算模块,用于计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;确定模块,用于基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
在本申请较佳的实施例中,所述确定模块用于:若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
在本申请较佳的实施例中,实体对象为目标数据片段;所述计算模块用于:计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;计算所述目标实体对象与所述实体对象Ai之间的交并比;基于所述目标数值和所述交并比计算所述相似度量值。
在本申请较佳的实施例中,所述计算模块还用于:计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
在本申请较佳的实施例中,所述计算模块还用于:利用公式
Figure BDA0001874160950000051
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
在本申请较佳的实施例中,所述实体库中的实体对象为文字片段;所述装置还用于:在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
在本申请较佳的实施例中,所述实体库中的实体对象之间包含目标符号;所述装置还用于:在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
在本申请较佳的实施例中,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
在本申请较佳的实施例中,所述装置还包括:第一建立单元,用于在获取待处理的实体库之前,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或,第二建立单元,用于建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,所述第一建立单元用于:在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,所述第一建立单元用于:在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
在本申请较佳的实施例中,所述选择和存储单元还用于:基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
根据本申请的另一个方面,还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述任一所述的数据处理方法的步骤。
根据本申请的另一个方面,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任一所述的数据处理方法的步骤。
在本实施例中,首先,获取待处理的实体库,然后,在实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于相匹配的同类型的实体对象构建目标实体集合;最后,在目标实体集合中选择与目标实体对象语义相同的同义实体对象,并将目标实体对象与同义实体对象之间的关联关系存储在同义实体库中。通过上述描述可知,本发明通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请一些实施例的车辆移动轨迹区分系统100的框图;
图2示出了本申请的一些实施例的可以实现本申请思想的服务器110、服务请求方终端130、服务提供方终端140的电子设备200的示例性硬件和软件组件的示意图;
图3示出了本申请实施例所提供的一种数据处理方法的流程图;
图4示出了本申请实施例所提供的一种包含单向映射关系的实体库图谱的结构示意图;
图5示出了本申请实施例所提供的一种进行反向关联映射之后的实体库图谱的结构示意图;
图6示出了本申请实施例所提供的第一种可选地数据处理方法的流程图;
图7示出了本申请实施例所提供的第二种可选地数据处理方法的流程图;
图8示出了本申请实施例所提供的一种数据处理装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“智能技术领域”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕智能技术领域进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1是本申请一些实施例的数据处理系统100的框图。数据处理系统100可以包括服务器110、网络120、服务请求方终端130、服务提供方终端140和数据库150中的一种或多种,服务器110中可以包括执行指令操作的处理器112。
在一些实施例中,服务器110可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,服务器110相对于终端,可以是本地的、也可以是远程的。在一些实施例中,服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。
网络120可以用于信息和/或数据的交换。在一些实施例中,数据处理系统100中的一个或多个组件(例如,服务器110,服务请求方终端130,服务提供方终端140和数据库150)可以向其他组件发送信息和/或数据。
在一些实施例中,服务请求方终端130的用户可以是除服务实际需求者之外的其他人。在一些实施例中,服务提供方终端140的用户可以是服务实际提供者,也可以是除服务实际提供者之外的其他人。
在一些实施例中,服务请求方终端130可以包括移动设备、平板计算机、膝上型计算机等,或其任意组合。
针对不方便语音沟通的服务请求方,可以通过服务请求方终端130与服务提供方终端140之间的通信来实现。
在一些实施例中,数据库150可以存储从服务请求方终端130和/或服务提供方终端140获得的数据。在一些实施例中,数据库150可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中,数据库150可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等,或其任意组合。
图2示出根据本申请的一些实施例的可以实现本申请思想的服务器110、服务请求方终端130、服务提供方终端140的电子设备200的示例性硬件和软件组件的示意图。例如,处理器112可以用于电子设备200上,并且用于执行本申请中的功能。
电子设备200可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的数据处理方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口250。
为了便于说明,在电子设备200中仅描述了一个处理器。然而,应当注意,本申请中的电子设备200还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备200的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
参见图3所示的一种数据处理方法的流程图。
图3所示的数据处理方法以应用在智能机器人为例进行说明,该方法包括如下步骤:
步骤S302,获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系。
实体库即为上述所描述的知识库,在该实体库中,包括多种类型的实体对象。需要说明的是,服务提供方可以根据实际需要设定实体对象的类型,并设定实体对象的具体内容,本实施例不做具体限定,此处仅举例说明实体库中所包含实体对象的类型和关联映射关系。
假设,智能机器人为智能医疗领域的机器人,那么实体库中所包含的实体对象可以为关于疾病的实体,以及关于疾病症状的实体。假设,智能机器人为智能餐厅领域的机器人,那么实体库中所包含的实体对象可以为关于菜名的实体,以及关于菜品风格的实体。
实体库中除了包含多种类型的实体对象之外,还包含任意两种类型的实体对象之间的关联映射关系。例如,包含疾病和症状之间的关联映射关系,或者,包含菜名和菜品风格之间的关联映射关系。
步骤S304,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;
以智能医疗领域的智能机器人为例,头痛与头疼表示相同的含义,但是名称不同;发热与发烧表示相同的含义,但是名称不同;嗓子痛与喉咙痛表示相同的含义,但是名称不同。以智能银行领域的智能机器人为例,存款与存钱表示相同的含义,但是名称不同;取款和取钱表示相同的含义,但是名称不同。
针对上述同义不同名的实体对象,若不进行关联,可能会造成智能机器人将上述同义不同名的实体对象识别为不同义的实体对象。
例如,在智能医疗的应用领域。假设,服务请求方向智能机器人进行相关症状的描述。此时,智能机器人可以向服务请求方提问,以询问是否有其他相关症状,那么智能机器人就有可能分别向服务请求方询问是否包含头痛的症状,以及是否包含头疼的症状。此时,智能机器人针对某个疾病特征向服务请求方提问了两次,这就会让服务请求方感觉智能机器人笨拙,识别不准确等。
又例如,在智能餐厅的应用领域。智能机器人向服务请求方询问想点什么菜。如果服务请求方的回答是:糖醋排骨。但是,在该智能机器人的知识库中存储的信息为糖醋小排,那么将导致该智能机器人无法及时的对服务请求方进行响应,从而导致服务请求方感觉智能机器人笨拙,不灵活。
步骤S306,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。
在本实施例中,首先,获取待处理的实体库,然后,在实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于相匹配的同类型的实体对象构建目标实体集合;最后,在目标实体集合中选择与目标实体对象语义相同的同义实体对象,并将目标实体对象与同义实体对象之间的关联关系存储在同义实体库中。通过上述描述可知,在本实施例中,针对实体对象同义不同名的问题,本发明通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。
下面将结合具体实施方式介绍上述步骤S302至步骤S306。
通过上述描述可知,在本实施例中,首先获取待处理的实体库,实体库中包括多种类型的实体对象,以包含任意两种类型的实体对象之间的关联映射关系。
可选地,实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体。
所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中。
所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
假设,该实体库为所属于智能医疗领域的知识库,那么实体库中可以包含关于疾病和症状的三元组信息。可选地,三元组信息包括:疾病实体(即,第一类型实体对象)和症状实体(即,用于表示第一类型实体对象的属性特征的第二类型实体对象)。其中,症状实体包括:第一组症状实体和第二组症状实体。
第一组症状实体和疾病实体按照第一单向映射关系存储在所述实体库中。第二组症状实体和疾病实体按照第二单向映射关系存储在所述实体库中。其中,第一单向映射关系为:疾病相关症状,第二单向映射关系为:症状相关疾病。
如图4所示,包括第一组症状实体、第二组症状实体和疾病实体,其中,第一组症状实体和第二组症状实体均为:怕冷、咳嗽、头昏、乏力、多尿、体重减轻、易疲劳和多饮。疾病实体包括:感冒,肺结核,高血压和糖尿病。需要说明的是,如图4所示的实体库的相关内容仅为举例说明。
进一步需要说明的是,在本实施例中,第一组症状实体和第二组症状实体所包含的症状可以相同,还可以不同,本实施例中不做具体限定。
通过上述描述可知,第一组症状实体和疾病实体之间为单向映射关系,且第二组症状实体和疾病实体之间也为单向映射关系。也就是说,在初始的实体库中,第一类型实体对象和第二类型实体对象之间均为单向映射关系。上述单向映射关系使得第一类型实体对象和第二类型实体对象之间的映射关系不准确,此时,可以对初始的实体库进行完善,以建立第一类型实体对象和第二类型实体对象之间的反向映射关系,以构建完整的知识图库。
基于此,在本实施例的一个可选实施方式中,在获取待处理的实体库之后,所述方法还包括如下步骤:
步骤S11,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或
步骤S12,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
以图4为例,建立第一组症状实体和疾病实体之间的反向关联关系,以及建立第二组症状实体和疾病实体之间的反向关联关系。在原始三元组数据中,与疾病实体“感冒”具有关联映射关系为“疾病相关症状”的症状实体有“咳嗽”、“怕冷”、“头晕”;与疾病实体“糖尿病”具有关联映射关系为“疾病相关症状”的症状实体有“乏力”、“多饮”、“易疲劳”、“体重减轻”。拥有关联映射关系“症状相关疾病”的症状实体只有“头昏”、“乏力”、“多饮”、“多尿”。理想状况下拥有关联映射关系“疾病相关症状”的疾病和症状实体应当同样存在“症状相关疾病”的关联关系。本发明针对关联映射关系为“症状相关疾病”和“疾病相关症状”的三元组进行抽取,并筛选仅存在单向映射关系的疾病、症状实体做反向关联,进行反向关联之后的实体库图如图5所示。
在一个可选的实施方式中,步骤S11,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系包括如下步骤:
步骤S111,在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;
步骤S112,建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
通过上述描述可知,第一组特征实体和第一类型实体对象之间的第一单向映射关系为实体对象(第一类型实体对象中的实体对象)相关的特征实体(第一组特征实体中的特征实体)。此时,需要建立第一组特征实体和第一类型实体对象之间的反向关联关系,那么反向关联关系为:特征实体(第一组特征实体中的特征实体)相关的实体对象(第一类型实体对象中的实体对象)。
具体地,在本实施例中,首先,在第一类型实体对象中提取第一组特征实体中各个特征实体所属的实体对象,得到实体对象集合。之后,建立实体对象集合中各个实体对象与特征实体之间的映射关系。
以图4和图5为例进行介绍。通过上述描述可知,在图4中,第一组症状实体为:怕冷、咳嗽、头昏、乏力、多尿、体重减轻、易疲劳和多饮。疾病实体包括:感冒,肺结核,高血压和糖尿病。
首先,确定与症状实体“怕冷”相关的疾病实体,该疾病实体为“感冒”,得到实体对象集合A1={感冒}。然后,建立“怕冷”和“感冒”之间的反向映射关系。
继续,确定与症状实体“咳嗽”相关的疾病实体,该疾病实体为“感冒”和“肺结核”,得到实体对象集合A2={感冒,肺结核}。然后,建立“咳嗽”与“感冒”和“肺结核”之间的反向映射关系。由于“肺结核”和“咳嗽”之间已建立关联关系,那么仅需要建立“咳嗽”与“感冒”之间的关联映射关系。
以此类推,针对,头昏、乏力、多尿、体重减轻、易疲劳和多饮等症状实体,均采用上述过程来建立反向映射关系,此处不再一一介绍。
在一个可选的实施方式中,步骤S12,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系包括:
步骤S121,在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;
步骤S122,建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
通过上述描述可知,第二组特征实体和第一类型实体对象之间的第二单向映射关系为特征实体(第二组特征实体中的特征实体)相关的实体对象(第一类型实体对象中的实体对象)。此时,需要建立第二组特征实体和第一类型实体对象之间的反向关联关系,那么反向关联关系为:实体对象(第一类型实体对象中的实体对象)相关的特征实体(第二组特征实体中的特征实体)。
具体地,在本实施例中,首先,在第二组特征实体中提取与第一类型实体对象中每个实体对象对应的实体特征,得到特征实体集合。之后,建立所述特征实体集合中的各个特征实体与第一类型实体对象中实体对象之间的映射关系,从而实现第二组特征实体和第一类型实体对象之间的反向关联关系。
以图4和图5为例进行介绍。通过上述描述可知,在图4中,第二组症状实体为:怕冷、咳嗽、头昏、乏力、多尿、体重减轻、易疲劳和多饮。疾病实体包括:感冒,肺结核,高血压和糖尿病。
首先,确定与疾病实体“感冒”相关的症状实体,该症状实体为“怕冷”、“咳嗽”、“头昏”和“乏力”,得到特征实体集合B1={怕冷;咳嗽;头昏;乏力}。然后,建立“感冒”与和特征实体集合B1中各个特征实体之间的反向映射关系。
由于“感冒”与“怕冷”、“咳嗽”、“头昏”之间的关联关系已建立,那么仅需要建立“感冒”与“乏力”之间的映射关系。
继续,确定与疾病实体“肺结核”相关的症状实体,该症状实体为“咳嗽”和“乏力”,得到特征实体集合B2={咳嗽;乏力}。然后,建立“肺结核”与和特征实体集合B2中各个特征实体之间的反向映射关系。由于“肺结核”与“咳嗽”和“乏力”之间的关联关系已建立,因此可以不再建立它们之间的关联关系。
再继续,确定与疾病实体“高血压”相关的症状实体,该症状实体为“头昏”、“乏力”、“多尿”和“多饮”,得到特征实体集合B3={头昏;乏力;多尿;多饮}。然后,建立“高血压”与和特征实体集合B3中各个特征实体之间的反向映射关系。由于“高血压”与“头昏”和“乏力”之间的关联关系已建立,那么仅需要建立“高血压”与“多尿”和“多饮”之间的映射关系。
再继续,确定与疾病实体“糖尿病”相关的症状实体,该症状实体为“体重减轻”、“易疲劳”、“乏力”、“多尿”和“多饮”,得到特征实体集合B4={体重减轻;易疲劳;乏力;多尿;多饮}。然后,建立“糖尿病”与和特征实体集合B4中各个特征实体之间的反向映射关系。由于“糖尿病”与“体重减轻”、“易疲劳”、“乏力”和“多饮”之间的关联关系已建立,那么仅需要建立“糖尿病”与“多尿”之间的映射关系。
在按照上述所描述的方式建立第一类型实体对象和第二类型实体对象之间反向映射关系之后,还可以对实体库中相关内容进行删除,其中,相关内容可以为无用信息和/或特殊符号等信息。由于现有的实体库中存在不规则冗余问题,因此,进行实体库的清洗有利于获得更加精准的实体库。
在一个可选的实施方式中,如果实体库中的实体对象为文字片段;那么在获取待处理的实体库之后,该方法还包括:
利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
在实体库中,实体对象可以为一段文字片段,在该文字片段中包含大量无用信息,同时该文字片段中也包含用于表征实体对象的目标关键词。此时,可以对该文字片段进行过滤,从而过滤掉该文字片段中的无用信息。
具体地,可以利用正则匹配算法对该文字片段进行处理,从而删除实体库中除目标关键词之外的其他文字信息。
在一个可选的实施方式中,如果所述实体库中的实体对象之间包含目标符号;那么在获取待处理的实体库之后,该方法还包括:
利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
在实体库中,实体对象之间可能包含目标符号,其中,该目标符号可以为任意一种连接符号或者标点符号。此时,可以利用正则匹配算法对该携带目标符号的实体对象进行处理,得到过滤目标符号后的实体对象。
通过上述操作,能够对实体库进行清洗,从而清洗掉实体库中的无用信息。在利用清洗之后的实体库构建同义实体库时,能够得到更加准确的同义实体库。
需要说明的是,在本实施例中,在按照上述所描述的步骤对实体库进行清洗之后,还可以对该实体库进行去重处理。去重处理是指对实体库中相同的实体对象进行去重处理。
若实体库中包含上述所描述的三元组信息,那么可以在第一类型实体对象中进行去重处理,以及在第一组特征实体中进行去重处理,以及在第二组特征实体中进行去重处理。
在第一组特征实体和第一类型实体对象之间的双向映射关系中删除重复的映射关系;以及在第二组特征实体和第一类型实体对象之间的双向映射关系中删除重复的映射关系。
在本实施例中,在按照上述所描述的步骤对实体库进行反向映射、清洗和去重处理之后,就可以在实体库中选择与目标实体对象相匹配的同类型的实体对象。
在一个可选的实施方式中,步骤S304,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象包括:
基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
该语言模型可以为unigram模型。针对实体库中的每个实体对象,均基于语言模型unigram从实体库中选择与之相匹配的同类型的实体对象。之后,就可以基于相匹配的同类型的实体对象构建目标实体集合。
例如,实体库中包括N个实体对象。那么针对任意一个实体对象I(即,目标实体对象),可以利用语言模型从实体库中选择与实体对象相匹配的同类型的实体对象,得到实体对象集合AI。然后,实体对象集合AI中选择与实体对象I语义相同的同义实体对象。
在一个可选的实施方式中,如图6所示,步骤S306,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象包括如下步骤:
步骤S3061,计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;
步骤S3062,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
在本实施例中,可以依次计算目标实体对象与目标实体集合中各个实体对象之间的相似度量值,进而得到多个相似度量值。一般情况下,相似程度越高的,属于同一语义的概率越大,因此,可以通过相似度量值的方式确定与目标实体对象语义相同的同义实体对象。
可选地,步骤S3062,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象包括:
若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
在本实施例中,预先设定了一个阈值,即预设数值。此时,可以将每个相似度量值与该预设数值分别进行比较。若比较出该相似度量值大于或者等于该预设数值,则确定该相似度量值所对应的实体对象为该目标实体对象的同义实体对象。
可选地,在本实施例中,可以将该预设数值设定为0.3。除此之外,还可以将该预设数值设定为其他数值,用户可以根据实际需要来进行设定,本实施例中不做具体限定。
可选地,如果实体对象为目标数据片段;那么如图7所示,计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值包括如下步骤:
步骤S701,计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;
步骤S702,计算所述目标实体对象与所述实体对象Ai之间的交并比;
步骤S703,基于所述目标数值和所述交并比计算所述相似度量值。
首先,计算目标实体对象和实体对象Ai这两个实体对象中最长数据片段的长度L,并与这两个实体对象中较长实体对象的长度max(L1,L2)求比值,得s1,即,
Figure BDA0001874160950000201
其中,e1和e2分别表示目标实体对象与所述实体对象Ai,L1和L2分别表示目标实体对象与所述实体对象Ai的长度。
在本实施例中,计算所述目标实体对象与所述实体对象Ai之间的交并比包括:
利用公式
Figure BDA0001874160950000202
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
最后,计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
在另一个可选的实施例中,上述数据处理方法还可以总结为:
输入Input:待处理的实体库E。
步骤Step1:利用正则表达式匹配清洗实体库E中实体,去掉实体库中实体对象中特殊字符和冗余信息;
步骤Step2:去重;具体去重过程如上述实施例所述;
步骤Step3:对实体库中每一个实体对象se,按语言模型unigram从实体库E中选出与实体对象se匹配的实体对象集合se_set;
步骤Step4:对每一实体对象se,在实体对象集合se_set中,按上述算法计算与其匹配的每一实体对象与该实体对象se的相似度得分;
步骤Step5:选取相似度得分大于0.3的实体对象对作为同义症状实体加入同义实体库SSE;
输出Output:精简的实体库TE,同义实体库SSE。
通过上述描述可知,在本实施例中,为了解决知识库中实体对象之间单向关联问题,本发明完善了实体双向映射关系,构建完整的知识图库。为了改善现有实体库中数据存在的不规则冗余问题,本发明过滤实体中的无用信息,精简实体库。为了现有技术中无法识别实体库中同义不同名的实体对象的技术问题,本发明挖掘同义实体库,从而辅助智能机器人改善重复提问的问题。
图8是示出本申请的一些实施例的数据处理装置的框图,该数据处理装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图所示,数据处理装置可以包括获取单元10、选择和构建单元20和选择和存储单元30。
获取单元10,用于获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;
选择和构建单元20,用于在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;
选择和存储单元30,用于在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。
在本实施例中,首先,获取待处理的实体库,然后,在实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于相匹配的同类型的实体对象构建目标实体集合;最后,在目标实体集合中选择与目标实体对象语义相同的同义实体对象,并将目标实体对象与同义实体对象之间的关联关系存储在同义实体库中。通过上述描述可知,在本实施例中,针对实体对象同义不同名的问题,本发明通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。
可选地,所述选择和存储单元包括:计算模块,用于计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;确定模块,用于基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
可选地,所述确定模块用于:若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
可选地,实体对象为目标数据片段;所述计算模块用于:计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;计算所述目标实体对象与所述实体对象Ai之间的交并比;基于所述目标数值和所述交并比计算所述相似度量值。
可选地,所述计算模块还用于:计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
可选地,所述计算模块还用于:利用公式
Figure BDA0001874160950000231
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
可选地,所述实体库中的实体对象为文字片段;所述装置还用于:在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
可选地,所述实体库中的实体对象之间包含目标符号;所述装置还用于:在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
可选地,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
可选地,所述装置还包括:第一建立单元,用于在获取待处理的实体库之前,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或,第二建立单元,用于建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
可选地,所述第一建立单元用于:在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
可选地,所述第一建立单元用于:在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
可选地,所述选择和存储单元还用于:基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
在本申请的另一个实施例中,还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述任一所述的数据处理方法的步骤。
在本申请的另一个实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任一所述的数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (24)

1.一种数据处理方法,其特征在于,包括:
获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;
在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;
在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中;
实体对象为目标数据片段,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象包括:
计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;
计算所述目标实体对象与所述实体对象Ai之间的交并比;
基于所述目标数值和所述交并比计算相似度量值;
基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
2.根据权利要求1所述的方法,其特征在于,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象包括:
若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
3.根据权利要求1所述的方法,其特征在于,基于所述目标数值和所述交并比计算所述相似度量值包括:
计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
4.根据权利要求1所述的方法,其特征在于,计算所述目标实体对象与所述实体对象Ai之间的交并比包括:
利用公式
Figure QLYQS_1
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
5.根据权利要求1所述的方法,其特征在于,所述实体库中的实体对象为文字片段;在获取待处理的实体库之后,所述方法还包括:
利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
6.根据权利要求1或5所述的方法,其特征在于,所述实体库中的实体对象之间包含目标符号;在获取待处理的实体库之后,所述方法还包括:
利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
7.根据权利要求1所述的方法,其特征在于,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;
所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;
所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
8.根据权利要求7所述的方法,其特征在于,在获取待处理的实体库之前,所述方法还包括:
建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或
建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
9.根据权利要求8所述的方法,其特征在于,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系包括:
在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;
建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
10.根据权利要求8或9所述的方法,其特征在于,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系包括:
在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象对应的特征实体,得到特征实体集合;
建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
11.根据权利要求1所述的方法,其特征在于,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象包括:
基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
12.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;
选择和构建单元,用于在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;
选择和存储单元,用于在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中;
其中,实体对象为目标数据片段,所述选择和存储单元包括:
计算模块,用于计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度,i依次取1至I,I为所述目标实体集合中实体对象的数量;计算所述目标实体对象与所述实体对象Ai之间的交并比;基于所述目标数值和所述交并比计算相似度量值;
确定模块,用于基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。
13.根据权利要求12所述的装置,其特征在于,所述确定模块用于:
若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。
14.根据权利要求12所述的装置,其特征在于,所述计算模块还用于:
计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。
15.根据权利要求12所述的装置,其特征在于,所述计算模块还用于:
利用公式
Figure QLYQS_2
计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。
16.根据权利要求12所述的装置,其特征在于,所述实体库中的实体对象为文字片段;所述装置还用于:
在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。
17.根据权利要求12或16所述的装置,其特征在于,所述实体库中的实体对象之间包含目标符号;所述装置还用于:
在获取待处理的实体库之后,利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。
18.根据权利要求12所述的装置,其特征在于,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;
所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;
所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
第一建立单元,用于在获取待处理的实体库之前,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或
第二建立单元,用于建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
20.根据权利要求19所述的装置,其特征在于,所述第一建立单元用于:
在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;
建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。
21.根据权利要求19或20所述的装置,其特征在于,所述第一建立单元用于:
在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;
建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。
22.根据权利要求12所述的装置,其特征在于,所述选择和存储单元还用于:
基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。
23.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至11中任一所述的数据处理方法的步骤。
24.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11中任一所述的数据处理方法的步骤。
CN201811391478.6A 2018-11-21 2018-11-21 数据处理方法、装置、电子设备和计算机可读存储介质 Active CN111209407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811391478.6A CN111209407B (zh) 2018-11-21 2018-11-21 数据处理方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811391478.6A CN111209407B (zh) 2018-11-21 2018-11-21 数据处理方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111209407A CN111209407A (zh) 2020-05-29
CN111209407B true CN111209407B (zh) 2023-06-16

Family

ID=70789197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811391478.6A Active CN111209407B (zh) 2018-11-21 2018-11-21 数据处理方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111209407B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11940962B2 (en) 2021-12-09 2024-03-26 International Business Machines Corporation Preparing a database for a domain specific application using a centralized data repository

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108389614A (zh) * 2018-03-02 2018-08-10 西安交通大学 基于图像分割与卷积神经网络构建医学影像图谱的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108389614A (zh) * 2018-03-02 2018-08-10 西安交通大学 基于图像分割与卷积神经网络构建医学影像图谱的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓琳."杰卡德相似系数在推荐系统中的应用".《计算机技术与发展》.2015,第25卷(第4期),第158-161,165页. *

Also Published As

Publication number Publication date
CN111209407A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
Chattopadhyay et al. A Case‐Based Reasoning system for complex medical diagnosis
CN108509484B (zh) 分类器构建及智能问答方法、装置、终端及可读存储介质
US20210311751A1 (en) Machine-learning models applied to interaction data for determining interaction goals and facilitating experience-based modifications to interface elements in online environments
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN105518658A (zh) 用于将数据记录分组的设备、系统以及方法
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
WO2021135449A1 (zh) 基于深度强化学习的数据分类方法、装置、设备及介质
CN112509690B (zh) 用于控制质量的方法、装置、设备和存储介质
WO2023178971A1 (zh) 就医的互联网挂号方法、装置、设备及存储介质
CN111696661A (zh) 患者分群模型构建方法、患者分群方法及相关设备
CN113626612A (zh) 一种基于知识图谱推理的预测方法和系统
CN112052308A (zh) 一种摘要文本提取方法、装置、存储介质和电子设备
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN112069329A (zh) 文本语料的处理方法、装置、设备及存储介质
CN109871866B (zh) 用于医院内感染预测的模型训练方法、装置、设备及介质
CN111696656A (zh) 一种互联网医疗平台的医生评价方法、装置
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN111209407B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
Saleem Durai et al. An intelligent knowledge mining model for kidney cancer using rough set theory
CN109829048B (zh) 电子装置、访谈辅助方法和计算机可读存储介质
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN111415760A (zh) 医生推荐方法、系统、计算机设备及存储介质
CN115719640A (zh) 中医主次症状识别系统、装置、电子设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant