CN114116838B - 数据处理方法、装置、电子设备以及存储介质 - Google Patents

数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN114116838B
CN114116838B CN202111390362.2A CN202111390362A CN114116838B CN 114116838 B CN114116838 B CN 114116838B CN 202111390362 A CN202111390362 A CN 202111390362A CN 114116838 B CN114116838 B CN 114116838B
Authority
CN
China
Prior art keywords
target
entity
attribute feature
feature data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111390362.2A
Other languages
English (en)
Other versions
CN114116838A (zh
Inventor
崔婵婵
黄海峰
代小亚
吴家林
杨青
王华伟
陈雅琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111390362.2A priority Critical patent/CN114116838B/zh
Publication of CN114116838A publication Critical patent/CN114116838A/zh
Application granted granted Critical
Publication of CN114116838B publication Critical patent/CN114116838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了数据处理方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及大数据技术领域。具体实现方案为:基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体,其中,目标实体的属性特征数据与目标关联实体的属性特征数据相匹配;从知识图谱中确定与目标关联实体相对应的目标数据;以及确定目标数据和目标实体之间的映射关系。

Description

数据处理方法、装置、电子设备以及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及大数据技术领域。具体涉及数据处理方法、装置、电子设备、存储介质以及程序产品。
背景技术
大数据时代,海量数据在提供便利的同时,也增加了分辨数据的难度。海量数据中,可能会存在冗余数据、虚假数据或者歧义数据等。如何从海量数据中准确定位到有价值的数据,并对有价值的数据进入深入挖掘,建立起数据之间的关联性,将成为更大的挑战。
发明内容
本公开提供了一种数据处理方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种数据处理方法,包括:基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,其中,所述目标实体的属性特征数据与所述目标关联实体的属性特征数据相匹配;从所述知识图谱中确定与所述目标关联实体相对应的目标数据;以及确定所述目标数据和所述目标实体之间的映射关系。
根据本公开的另一方面,提供了一种数据处理装置,包括:第一确定模块,用于基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,其中,所述目标实体的属性特征数据与所述目标关联实体的属性特征数据相匹配;第二确定模块,用于从所述知识图谱中确定与所述目标关联实体相对应的目标数据;以及第三确定模块,用于确定所述目标数据和所述目标实体之间的映射关系。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用数据处理方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3示意性示出了根据本公开实施例的确定目标关联实体的流程图;
图4示意性示出了根据本公开实施例的更新目标数据的流程图;
图5示意性示出了根据本公开实施例的数据处理装置的框图;以及
图6示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种数据处理方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种数据处理方法,包括:基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体,其中,目标实体的属性特征数据与目标关联实体的属性特征数据相匹配;从知识图谱中确定与目标关联实体相对应的目标数据;以及确定目标数据和目标实体之间的映射关系。
利用本公开实施例提供的数据处理方法,可以建立目标实体与目标数据之间的映射关系,利用目标实体可以直接确定目标数据。避免利用命名不同但是语义相同的实体、命名相似且语义相同的实体、或者命名相同但是语义不同的实体来直接获取目标数据,计算困难、识别率低等问题。进而使得目标数据在利用目标实体作为技术术语的应用领域通用化,也使得利用目标实体来进行目标数据地获取、检索、或者其他应用的处理简便化。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1 示意性示出了根据本公开实施例的可以应用数据处理方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用数据处理方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的数据处理方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、 102、103,网络104和服务器105。网络104用以在终端设备101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送包含目标实体和目标实体的属性特征数据的待处理文本等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备 101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的数据处理装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的数据处理方法一般也可以由服务器105 执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器 105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105 通信的服务器或服务器集群中。
例如,用户可以利用终端设备101、102、103将包含目标实体和目标实体的属性特征数据的待处理文本发送给服务器105,由服务器105基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体,从知识图谱中确定与目标关联实体相对应的目标数据,以及确定目标数据与目标实体之间的映射关系。或者由能够与终端设备101、102、 103和/或服务器105通信的服务器或服务器集群来确定目标数据与目标实体之间的映射关系。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体,其中,目标实体的属性特征数据与目标关联实体的属性特征数据相匹配。
在操作S220,从知识图谱中确定与目标关联实体相对应的目标数据。
在操作S230,确定目标数据和目标实体之间的映射关系。
根据本公开的实施例,目标实体可以是指与某一类事物有关的技术术语,例如药品、病症、治疗手段、医疗仪器等与医疗相关的技术术语,也可以是指书籍、人物等与教育相关的技术术语。但是并不局限于此。还可以是指其他领域、类型的技术术语。
根据本公开的实施例,目标实体的属性特征数据可以是用于说明目标实体的数据,也可以是目标实体的属性的表征数据。以药品作为目标实体为例,目标实体的属性特征数据可以是生产地、生产厂家、药品含量、或者药剂量等数据。但是并不局限于此。只要是与目标实体相关的用于指代目标实体的特征数据即可。
根据本公开的实施例,知识图谱可以是指一种基于图的数据结构,由节点和边组成,每个节点标识一个实体,每条边为实体与实体之间的关系。意即,知识图谱把不同种类的数据连接在一起而得到一个关系网络、知识库。但是并不局限于此。知识图谱还可以理解为一个全量知识库,里面涉及丰富的数据。
根据本公开的实施例,目标关联实体可以是知识图谱中的实体,目标关联实体与目标实体可以是名称相同且语义也相同的两个实体,也可以是名称不相同但是语义相同的两个实体。可以通过实体链接的方式,将目标实体与知识图谱中的目标关联实体链接起来,即形成映射关系。例如,可以通过实体抽取的方式得到候选实体。候选实体可以包括与目标实体同名的实体、与目标实体的命名相近的实体或者其他与目标实体相关联的实体。可以根据目标实体的属性特征数据和目标关联实体的属性特征数据,来对目标实体与候选实体中的各个实体进行语义匹配,根据匹配度来从候选实体中确定目标关联实体,将歧义消除。
根据本公开的实施例,目标数据可以是指知识图谱中的涉及目标关联实体的相关知识数据。但是并不局限于此。相关知识数据可以既包含多个目标关联实体,也可以包括多个目标关联实体之间的关系。意即,目标数据可以是指知识图谱中的涉及目标关联实体的子知识图谱。
根据本公开的实施例,可以基于目标实体的属性特征数据,来确定目标实体与目标关联实体之间的关联关系。基于目标关联实体,从知识图谱中确定目标数据。基于目标实体与目标关联实体之间的关联关系,确定目标实体与目标数据之间的映射关系。
利用本公开实施例提供的数据处理方法,可以建立目标实体与目标数据之间的映射关系,利用目标实体可以直接确定目标数据。避免利用与目标关联实体命名不同但是语义相同的实体、与目标关联实体命名相似且语义相同的实体等来直接获取目标数据,计算困难、识别率低的问题。进而使得目标数据在利用目标实体作为技术术语的应用领域通用化,也使得利用目标实体来进行目标数据地获取、检索、或者其他应用的处理简便化。
根据本公开的实施例,目标实体和目标实体的属性特征数据可以直接从待处理文本中获取。待处理文本可以是指某一领域的术语词典表,但是并不局限于此。还可以是其他具有广泛使用性的技术性介绍文本。在操作 S210,基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体执行之前,可以执行获取待处理文本的操作。可以通过获取待处理文本,从待处理文本中提取目标实体和属性特征数据。可以利用实体抽取方法从待处理文本中获取目标实体,进而得到目标实体的属性特征数据。但是并不局限于此。还可以是待处理文本中仅包括目标实体和目标实体的属性特征数据。
根据本公开的实施例,待处理文本可以是与医疗领域相关的文本。目标实体可以是与医疗领域相关的实体。例如,目标实体包括药品实体、手术实体、治疗实体、体征实体、医疗设备实体、自定义人群实体中的一项或多项。
例如,待处理文本可以是医院或者医疗领域的机构上传的术语词典表。该术语词典表中包含药品实体、手术实体、治疗实体、体征实体、自定义人群实体等26个维度的目标实体。利用本公开实施例提供的数据处理方法,可以将目标实体与知识图谱中的目标关联实体关联,使得因命名方式不同的目标实体与目标关联实体之间得到映射关系的确认,便于对全量知识的共享与利用。以便在医院等医疗机构中,医生通过目标实体则可以直接获取目标数据来辅助应用于医嘱质控、诊断质控等决策场景。
但是并不局限于此。待处理文本还可以是例如金融、通信等专业领域的术语词典表,可以利用本公开实施例提供的数据处理方法,将与专业领域对应的目标实体与知识图谱中的目标关联实体关联,方便命名相似但是语义相同的多个实体进行统一,以便利用目标实体能够直接从知识图谱获取目标数据,将目标实体与目标数据关联起来。以便在对应的专业领域,专业人员可以通过本专业相关的技术术语来获取相关知识,避免在每次利用知识图谱获取目标数据的过程中,均进行实体链接、消歧等处理。进而使得知识的利用率提高,处理速度加快,提高用户的使用体验。
根据本公开的实施例,针对操作S210基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体可以包括如下操作。
例如,从目标实体的属性特征数据中确定目标子属性特征数据。基于目标子属性特征数据,从知识图谱中确定至少一个候选实体。基于目标实体的属性特征数据,从至少一个候选实体中确定目标关联实体。
根据本公开的实施例,属性特征数据可以包括多个子属性特征数据。可以从多个子属性特征数据中提取一个或多个子属性特征数据作为目标子属性特征数据。目标子属性特征数据的数量选取的越少,越容易从知识图谱中确定候选实体,但是候选实体的数量也越容易变大。可以根据实际情况调整目标子属性特征数据的数量,例如2至3个,以便能够从全量、丰富的知识图谱中快速筛选出数量适宜的候选实体,既提高处理速度,也降低处理难度。
根据本公开的实施例,可以基于目标实体的属性特征数据和至少一个候选实体各自的属性特征数据,确定至少一个候选实体中每个候选实体与目标实体之间的匹配度,得到至少一个匹配度。基于至少一个匹配度,从至少一个候选实体中确定目标关联实体。
根据本公开的实施例,属性特征数据可以包括多个子属性特征数据,可以按照子属性特征数据的类型,将目标实体的多个子属性特征数据与候选实体的多个子属性特征数据进行一一对应对比,在目标实体的多个子属性特征数据与候选实体的多个子属性特征数据的匹配关系满足预设匹配规则的情况下,确定该候选实体即为目标关联实体。
根据本公开的实施例,预设匹配规则可以是指目标实体的多个子属性特征数据与候选实体的多个子属性特征数据一一对应对比,每个类型的子匹配度均大于或等于预设阈值的规则。但是并不局限于此。预设匹配规则还可以是目标实体的多个子属性特征数据与候选实体的多个子属性特征数据一一对应对比后,确定与多个子属性特征数据一一对应的多个子匹配度和多个权重,基于多个子匹配度和多个权重来确定匹配度,匹配度大于或等于预设阈值的规则。
例如,目标实体A的属性特征数据包括不同类型的子属性特征数据 A1、子属性特征数据A2和子属性特征数据A3。候选实体B的属性特征数据包括数据类型与目标实体的属性特征数据一一对应的子属性特征数据B1、子属性特征数据B2和子属性特征数据B3。可以认为在子属性特征数据A1与子属性特征数据B1之间的子匹配度1、子属性特征数据A2 与子属性特征数据B2之间的子匹配度2、子属性特征数据A3与子属性特征数据B3之间的子匹配度3均大于或等于预设阈值的情况下,候选实体 B为目标关联实体。
还可以例如,目标实体A的属性特征数据包括不同类型的子属性特征数据A1、子属性特征数据A2和子属性特征数据A3。候选实体B的属性特征数据包括数据类型与目标实体的属性特征数据一一对应的子属性特征数据B1、子属性特征数据B2和子属性特征数据B3。可以认为在子属性特征数据A1与子属性特征数据B1之间的子匹配度1、子属性特征数据 A2与子属性特征数据B2之间的子匹配度2、子属性特征数据A3与子属性特征数据B3之间的子匹配度3之和大于或等于预设阈值的情况下,例如匹配度(匹配度=子匹配度1*权重1+子匹配度2*权重2+子匹配度3*权重3)大于或者等于预设阈值的情况下,候选实体B为目标关联实体。
根据本公开的实施例,目标关联实体的确定,并不局限于利用预设阈值来进行匹配。还可以基于匹配度,来对多个候选实体进行排序,按照排序结果,从至少一个候选实体中确定目标关联实体。例如,按照匹配度由高到低的顺序进行排序,按照排序结果,将排在第一位或者排在前几位的候选实体确定为目标关联实体。具体数量不做限定,可以根据实际需求自行拟定。只要是能够利用本公开实施例提供的目标关联实体的确定方式,从至少一个候选实体中准确确定到与目标实体语义相匹配的目标关联实体即可。
利用本公开实施例提供的目标关联实体的确定方式,可以通过层级筛选的方式,简化处理操作、降低处理难度、提高处理效率。
图3示意性示出了根据本公开实施例的确定目标关联实体的流程图。
如图3所示,可以将医院等医疗机构发送的与医疗相关的术语词典表作为待处理文本,从中确定目标实体310和目标实体的属性特征数据320。可以基于与医疗相关的知识图谱330,例如全量知识数据集合、全量数据库,可以为Zero1DB数据库。对于命名实体来说,医院发送的待处理文本中的目标实体310和与医疗相关的知识图谱330中的实体的命名可能会有歧义性。互为歧义的多个实体可以为例如命名相同或类似但语义不同的多个实体,或者命名不同但是语义相同的多个实体。
可以将医院提供的待处理文本中的目标实体310作为输入实体、或者对照实体。从与医疗相关的知识图谱330中提取多个候选实体,例如候选实体集合340。可以基于目标实体的目标子属性特征数据作为匹配数据来进行比较得到多个候选实体。以目标实体为药品名称实体为例,目标子属性特征数据可以是生产厂家或者剂型。可以以药品名称、生产厂家结合的方式,将目标实体和与医疗相关的知识图谱中的各个药品名称实体进行比较,将药品名称与生成厂家一致的实体提取出来,作为候选实体。候选实体可以为多个,形成候选实体集合340。可以基于目标实体的属性特征数据320和候选实体的属性特征数据350,将多个候选实体各自与目标实体进行匹配,得到多个匹配度,形成匹配度集合360。多个匹配度与多个候选实体一一对应。属性特征数据包括多个子属性特征数据。多个子属性特征数据可以分别是国药准字号、规格、剂型、生产厂家等。可以基于多个子属性特征数据来确定候选实体与目标实体之间的多个子匹配度。多个子匹配度与多个子属性特征数据一一对应。可以基于多个子匹配度来确定候选实体与目标实体之间的匹配度。可以按照多个匹配度,来对多个候选实体按照由高到低的顺序进行排序,得到排序结果370。将排在首位的候选实体作为目标关联实体380。
但是并不局限于此。还可以根据匹配度来打分,例如,可以确定候选实体与目标实体之间针对每个子属性特征数据的子匹配度,根据子匹配度来确定针对该子属性特征数据的分数。针对属性特征数据中的多个子属性特征数据,可以确定针对多个子属性特征数据的分数,继而确定候选实体与目标实体之间针对属性特征数据的分数。根据分数来按照由高到低的顺序排序,得到排序结果,选取排在首位的实体作为目标关联实体。
根据本公开的实施例,在进行匹配度对比的过程中,也可以通过人工干预作为辅助方式来进行评判,例如在通过计算确定匹配度低的情况下。利用人工干预与计算匹配度结合的方式来确定目标关联实体,使得目标实体与目标关联实体之间的关联关系的确定更为准确。
根据本公开的实施例,执行操作S230,确定目标数据和目标实体之间的映射关系后,还可以执行构建数据库的操作。
例如,从知识图谱中提取目标数据。基于目标实体和目标数据,构建数据库。
利用本公开实施例提供的数据库,可以提高知识例如目标数据的利用率,有利于目标数据的管理与分享,进而降低管理成本。
根据本公开的实施例,还可以对数据库中的目标数据进行内容更新、补充等操作。
例如,确定待更新的目标数据和更新方式。按照更新方式,对数据库中的待更新的目标数据进行局部更新处理。
图4示意性示出了根据本公开实施例的更新目标数据的流程图。
如图4所示,可以将目标数据与目标实体存储于数据库中,以便于将数据库应用于查询、检索、决策确定等场景中。数据库可以是Mongo数据库。数据库中存储的数据可以包括四个字段,例如,原始数据表400包括四个字段,具体为:目标实体字段410,用Term标识,用于存储目标实体。目标数据字段420,用Base标识,用于存储目标数据。更新记录字段430,用Patch标识,用于存储更新的内容。在未有目标数据更新的情况下,该更新记录字段430可以为空。汇总字段440,用Data标识,用于存储与目标实体相关的所有数据。
常用的更新方式可以包括以下至少一项:添加待更新的目标数据、删除待更新的目标数据以及利用待更新的目标数据来替换已有的子目标数据。
例如,接收以Patch格式发送过来的待更新的目标数据,确定更新方式,例如是添加待更新的目标数据。可以不用接收全量数据,即,只需要将待更新的目标数据转换为Patch格式的数据。例如,更新后的数据表400’,更新记录字段430’即可存储该待更新的目标数据,例如P1。经过目标数据字段420’和更新记录字段430’的加和计算而得出最新汇总字段440’内存储的数据D1,即最新汇总字段440’将存储待更新的目标数据P1和已存储的目标数据B1,即D1=B1+P1。
根据本公开的实施例,在更新记录字段呈现目标数据更新前与更新后的区别,完整记录知识生命周期内的所有变更。在确定与目标实体相关的目标数据有更新的情况下,可以利用JSON(JavaScript Object Notation, JavaScript对象表示法)的Patch(补丁)格式来记录并进行数据库的更新。 JSON Patch格式是一种描述JSON文档更改的格式。JSONPatch格式可以用来避免在只有一部分数据发生更改时发送整个文档。当与HTTP(HyperText Transfer Protocol,超文本传输协议)Patch方法结合使用时,JSON Patch格式允许以符合标准的方式对数据进行局部更新。
利用本公开实施例提供的数据处理方法,能够解决现有医学专业知识应用与决策系统因采用单一绑定的模式、且完全定制化开发,而导致的无法面向不同需求的医疗机构、同时管理体系混乱的问题。
根据本公开的实施例,可以利用本公开实施例构建的数据库,将医疗场景专业知识应用于决策系统,提升相关知识的通用性,将标准化的知识、多医疗机构的专家共识的内容进行整合,实现合理管理、知识共享、提高相关知识的利用率,进而提高医生的诊疗效率,降低医生的学习成本。
图5示意性示出了根据本公开实施例的数据处理装置的框图。
如图5所示,数据处理装置500可以包括第一确定模块510、第二确定模块520、第三确定模块530。
第一确定模块510,用于基于目标实体的属性特征数据,从知识图谱中确定与目标实体相匹配的目标关联实体,其中,目标实体的属性特征数据与目标关联实体的属性特征数据相匹配。
第二确定模块520,用于从知识图谱中确定与目标关联实体相对应的目标数据。
第三确定模块530,用于确定目标数据和目标实体之间的映射关系。
根据本公开的实施例,第一确定模块可以包括第一确定子模块、第二确定子模块、第三确定子模块。
第一确定子模块,用于从目标实体的属性特征数据中确定目标子属性特征数据。
第二确定子模块,用于基于目标子属性特征数据,从知识图谱中确定至少一个候选实体。
第三确定子模块,用于基于目标实体的属性特征数据,从至少一个候选实体中确定目标关联实体。
根据本公开的实施例,第三确定子模块可以包括匹配单元、确定单元。
匹配单元,用于基于目标实体的属性特征数据和至少一个候选实体各自的属性特征数据,确定至少一个候选实体中每个候选实体与目标实体之间的匹配度,得到至少一个匹配度。
确定单元,用于基于至少一个匹配度,从至少一个候选实体中确定目标关联实体。
根据本公开的实施例,数据处理装置还可以包括第一提取模块、构建模块。
第一提取模块,用于从知识图谱中提取目标数据。
构建模块,用于基于目标实体和目标数据,构建数据库。
根据本公开的实施例,数据处理装置还可以包括第四确定模块、更新模块。
第四确定模块,用于确定待更新的目标数据和更新方式。
更新模块,用于按照更新方式,对数据库中的待更新的目标数据进行局部更新处理。
根据本公开的实施例,数据处理装置还可以包括获取模块、第二提取模块。
获取模块,用于获取待处理文本。
第二提取模块,用于从待处理文本中提取目标实体和属性特征数据。
根据本公开的实施例,目标实体包括以下至少一项:
药品实体、手术实体、治疗实体、体征实体、医疗设备实体。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在 RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O) 接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元 608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和 /或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到 RAM 603并由计算单元601执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (8)

1.一种数据处理方法,包括:
基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,其中,所述目标实体的属性特征数据与所述目标关联实体的属性特征数据相匹配,所述目标实体的名称与所述目标关联实体的名称彼此不同;
从所述知识图谱中确定与所述目标关联实体相对应的目标数据;
确定所述目标数据和所述目标实体之间的映射关系;
确定数据库的更新方式,其中,所述数据库中存储的数据包括目标实体字段和目标数据字段,所述目标实体字段用于存储目标实体,所述目标实体字段用于存储目标数据;以及
按照所述更新方式,将所述目标实体存储于所述目标实体字段内,将与所述目标实体存在映射关系的目标数据存储于所述目标数据字段内,以便将所述数据库应用于查询、检索或者决策确定场景中;
其中,所述基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,包括:
从所述目标实体的属性特征数据中确定目标子属性特征数据,其中,所述目标实体的属性特征数据包括多个子属性特征数据,所述目标子属性特征数据为所述多个子属性特征数据中的属性特征数据;
基于所述目标子属性特征数据,从知识图谱中确定至少一个候选实体;
将所述目标实体的多个子属性特征数据与所述至少一个候选实体各自的多个子属性特征数据进行一一对应对比;
在所述目标实体的多个子属性特征数据与所述至少一个候选实体中的一个候选实体的多个子属性特征数据的匹配关系满足预设匹配规则的情况下,确定所述候选实体为所述目标关联实体。
2.根据权利要求1所述的方法,还包括:
获取待处理文本;以及
从所述待处理文本中提取所述目标实体和所述属性特征数据。
3.根据权利要求1或2所述的方法,其中,所述目标实体包括以下至少一项:
药品实体、手术实体、治疗实体、体征实体、医疗设备实体。
4.一种数据处理装置,包括:
第一确定模块,用于基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,其中,所述目标实体的属性特征数据与所述目标关联实体的属性特征数据相匹配,所述目标实体的名称与所述目标关联实体的名称彼此不同;
第二确定模块,用于从所述知识图谱中确定与所述目标关联实体相对应的目标数据;
第三确定模块,用于确定所述目标数据和所述目标实体之间的映射关系;
其中,所述装置还用于:
确定数据库的更新方式,其中,所述数据库中存储的数据包括目标实体字段和目标数据字段,所述目标实体字段用于存储目标实体,所述目标实体字段用于存储目标数据;以及
按照所述更新方式,将所述目标实体存储于所述目标实体字段内,将与所述目标实体存在映射关系的目标数据存储于所述目标数据字段内,以便将所述数据库应用于查询、检索或者决策确定场景中;
其中,所述基于目标实体的属性特征数据,从知识图谱中确定与所述目标实体相匹配的目标关联实体,包括:
从所述目标实体的属性特征数据中确定目标子属性特征数据,其中,所述目标实体的属性特征数据包括多个子属性特征数据,所述目标子属性特征数据为所述多个子属性特征数据中的属性特征数据;
基于所述目标子属性特征数据,从知识图谱中确定至少一个候选实体;
将所述目标实体的多个子属性特征数据与所述至少一个候选实体各自的多个子属性特征数据进行一一对应对比;
在所述目标实体的多个子属性特征数据与所述至少一个候选实体中的一个候选实体的多个子属性特征数据的匹配关系满足预设匹配规则的情况下,确定所述候选实体为所述目标关联实体。
5.根据权利要求4所述的装置,还包括:
获取模块,用于获取待处理文本;以及
第二提取模块,用于从所述待处理文本中提取所述目标实体和所述属性特征数据。
6.根据权利要求4或5所述的装置,其中,所述目标实体包括以下至少一项:
药品实体、手术实体、治疗实体、体征实体、医疗设备实体。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至3中任一项所述的方法。
CN202111390362.2A 2021-11-22 2021-11-22 数据处理方法、装置、电子设备以及存储介质 Active CN114116838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111390362.2A CN114116838B (zh) 2021-11-22 2021-11-22 数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111390362.2A CN114116838B (zh) 2021-11-22 2021-11-22 数据处理方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114116838A CN114116838A (zh) 2022-03-01
CN114116838B true CN114116838B (zh) 2022-10-21

Family

ID=80439448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111390362.2A Active CN114116838B (zh) 2021-11-22 2021-11-22 数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114116838B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033464A (zh) * 2018-08-31 2018-12-18 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN111339267A (zh) * 2020-02-17 2020-06-26 京东方科技集团股份有限公司 基于知识图谱的问答方法及系统、计算机设备及介质
CN113360580B (zh) * 2021-05-31 2023-09-26 北京百度网讯科技有限公司 基于知识图谱的异常事件检测方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置

Also Published As

Publication number Publication date
CN114116838A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US11581070B2 (en) Electronic medical record summary and presentation
US10102191B2 (en) Propagation of changes in master content to variant content
US20220335076A1 (en) Mapping of topics within a domain based on terms associated with the topics
US20170052943A1 (en) Method, apparatus, and computer program product for generating a preview of an electronic document
CN113204621B (zh) 文档入库、文档检索方法,装置,设备以及存储介质
US20180075095A1 (en) Organizing datasets for adaptive responses to queries
JP6646184B2 (ja) 検索用資料情報記憶装置
CN111460095B (zh) 问答处理方法、装置、电子设备及存储介质
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
US20210183526A1 (en) Unsupervised taxonomy extraction from medical clinical trials
US20200034481A1 (en) Language agnostic data insight handling for user application data
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
JP2015197722A (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
JP6679954B2 (ja) 属性付与制御プログラム、情報処理装置および属性付与制御方法
US11244109B2 (en) Information processing device and information processing method
CN109299238B (zh) 一种数据查询方法和装置
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN115620886B (zh) 一种数据审核方法和装置
CN114116838B (zh) 数据处理方法、装置、电子设备以及存储介质
CN111126034A (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
CN112445959A (zh) 检索方法、检索装置、计算机可读介质及电子设备
JP2017134693A (ja) 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
CN112148988B (zh) 用于生成信息的方法、装置、设备以及存储介质
CN114969542A (zh) 一种信息推送方法、服务端、装置和系统
AU2022201117A1 (en) Frameworks and methodologies for enabling searching and/or categorisation of digitised information, including clinical report data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant