CN111694993A

CN111694993A - 一种创建数据索引的方法、装置、电子设备及介质

Info

Publication number: CN111694993A
Application number: CN202010530563.7A
Authority: CN
Inventors: 池增坤
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-22
Anticipated expiration: 2040-06-11
Also published as: CN111694993B

Abstract

本申请实施例提供一种创建数据索引的方法、装置、电子设备及介质，涉及信息处理技术领域，本申请实施例的方案包括：获取信息数据库中不具有唯一标识的第一数据记录，获取与第一数据记录的指定数据项相同的第二数据记录，然后基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定第一数据记录的数据权重与第二数据记录的数据权重。若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，确定第一数据记录与第二数据记录的目标唯一标识，该唯一标识用于作为第一数据记录和第二数据记录的索引。采用该方案可以减小创建数据索引的工作量，提高创建效率。

Description

一种创建数据索引的方法、装置、电子设备及介质

技术领域

本发明涉及信息处理技术领域，特别是涉及一种创建数据索引的方法、装置、电子设备及介质。

背景技术

人口健康信息平台可以实现卫计委，卫生监督机构、社区卫生服务机构等横向业务机构与医院等纵向管理机构之间的信息互联与业务协作。人口健康信息平台可获取各医院的医疗业务数据，从中获取各居民的健康信息，并对获取到的居民健康信息进行信息整合。

由于存在一个居民曾在多家医院就诊的情况，所以在进行信息整合时，需判断从不同医院获取的居民健康信息中是否为同一居民的居民健康信息。若居民健康信息中包括居民的唯一标识，例如身份证号、社保卡号，则将该居民的唯一标识作为该居民的主索引，从各医院获取的具有该唯一标识的居民健康信息均与该居民的主索引关联。

对于不包括唯一标识的居民健康信息，可通过姓名、联系电话等检索条件检索是否存在符合检索条件的其他居民健康信息，若存在，则将这些居民健康信息标识为需要进行人工识别，后续通过操作人员人工识别这些具有相同姓名和联系电话的居民健康信息是否为同一个居民的居民健康信息，并将同一个居民的居民健康信息合并。然而采用人工识别的方法工作量较大，且处理效率低。

发明内容

本发明实施例的目的在于提供一种创建数据索引的方法、装置、电子设备及介质，以减小创建数据索引的工作量，提高创建效率。具体技术方案如下：

第一方面，本申请实施例提供一种创建数据索引的方法，包括：

获取信息数据库中不具有唯一标识的第一数据记录；

获取与所述第一数据记录的指定数据项相同的第二数据记录；

基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重；

若所述第一数据记录的数据权重与所述第二数据记录的数据权重均大于预设权重阈值，则确定所述第一数据记录与所述第二数据记录的目标唯一标识，其中，所述目标唯一标识用于作为所述第一数据记录和所述第二数据记录的索引。

在一种可能的实现方式中，在基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重之后，所述方法还包括：

若所述第一数据记录的数据权重与所述第二数据记录的数据权重均大于预设权重阈值，则基于预设业务列表中的每项业务与权重之间的第二对应关系，确定所述第一数据记录的业务权重与所述第二数据记录的业务权重；

将所述第一数据记录的数据权重与业务权重相加，得到所述第一数据记录的总权重，并将所述第二数据记录的数据权重与业务权重相加，得到所述第二数据记录的总权重；

将所述第一数据记录与所述第二数据记录中，总权重最大的数据记录作为主数据记录，将其他数据记录绑定至所述主数据记录。

在一种可能的实现方式中，所述基于预设业务列表中的每项业务与权重之间的第二对应关系，确定所述第一数据记录的业务权重与所述第二数据记录的业务权重，包括：

确定所述第一数据记录中包括的历史业务，基于所述第二对应关系，确定所述第一数据记录包括的各历史业务对应的权重，将所述第一数据记录包括的各历史业务对应的权重相加，得到所述第一数据记录的业务权重；

确定所述第二数据记录中包括的历史业务，基于所述第二对应关系，确定所述第二数据记录包括的各历史业务对应的权重，将所述第二数据记录包括的各历史业务对应的权重相加，得到所述第二数据的业务权重。

在一种可能的实现方式中，所述基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重，包括：

基于所述第一对应关系，确定所述第一数据记录包括的各数据项对应的权重，将所述第一数据记录包括的各数据项对应的权重相加，得到所述第一数据记录对应的数据权重；

基于所述第一对应关系，确定所述第二数据记录包括的各数据项对应的权重，将所述第二数据记录包括的各数据项对应的权重相加，得到所述第二数据记录对应的数据权重。

确定所述第一数据记录包括的数据项中满足数据项规则的数据项，基于所述第一对应关系，确定所述第一数据记录包括的满足数据项规则的各数据项对应的权重，将所述第一数据记录包括的满足数据项规则的各数据项对应的权重相加，得到所述第一数据记录对应的数据权重；

确定所述第二数据记录包括的数据项中满足数据项规则的数据项，基于所述第二对应关系，确定所述第二数据记录包括的满足数据项规则的各数据项对应的权重，将所述第二数据记录包括的满足数据项规则的各数据项对应的权重相加，得到所述第二数据记录对应的数据权重。

在一种可能的实现方式中，所述确定所述第一数据记录与所述第二数据记录的目标唯一标识，包括：

若所述第二数据记录具有唯一标识，则将所述第二数据记录的唯一标识作为所述第一数据记录与所述第二数据记录的目标唯一标识；

若所述第二数据记录不具有唯一标识，则为所述第一数据记录与所述第二数据记录生成目标唯一标识。

在一种可能的实现方式中，所述方法还包括：

获取指定时间段内所述信息数据库中被解绑的数据记录条数；

若所述被解绑的数据记录条数大于预设条数，则根据被解绑的数据记录条数以及被解绑的数据记录的解绑原因调整所述预设权重阈值、所述预设数据项列表中的每个数据项对应的权重以及所述预设业务列表中的每项业务对应的权重。

第二方面，本申请实施例提供一种创建数据索引的装置，包括：

获取模块，用于获取信息数据库中不具有唯一标识的第一数据记录；以及用于获取与所述第一数据记录的指定数据项相同的第二数据记录；

确定模块，用于基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重；

所述确定模块，还用于若所述第一数据记录的数据权重与所述第二数据记录的数据权重均大于预设权重阈值，则确定所述第一数据记录与所述第二数据记录的目标唯一标识，其中，所述目标唯一标识用于作为所述第一数据记录和所述第二数据记录的索引。

在一种可能的实现方式中，所述装置还包括绑定模块；所述绑定模块，用于：

在一种可能的实现方式中，所述绑定模块，具体用于：

在一种可能的实现方式中，所述确定模块，具体用于：

在一种可能的实现方式中，所述确定模块，具体用于：确定所述第一数据记录包括的数据项中满足数据项规则的数据项，基于所述第一对应关系，确定所述第一数据记录包括的满足数据项规则的各数据项对应的权重，将所述第一数据记录包括的满足数据项规则的各数据项对应的权重相加，得到所述第一数据记录对应的数据权重；

在一种可能的实现方式中，所述确定模块，具体用于：

在一种可能的实现方式中，所述装置还包括：调整模块；

所述获取模块，还用于获取指定时间段内所述信息数据库中被解绑的数据记录条数；

所述调整模块，用于若所述被解绑的数据记录条数大于预设条数，则根据被解绑的数据记录条数以及被解绑的数据记录的解绑原因调整所述预设权重阈值、所述预设数据项列表中的每个数据项对应的权重以及所述预设业务列表中的每项业务对应的权重。

第三方面，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的创建数据索引的方法步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的创建数据索引的方法。

第五方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的创建数据索引的方法。

采用上述技术方案，对于数据库中不具有唯一标识的第一数据记录，可获取与该第一数据记录具有相同的指定数据项的第二数据记录，然后可根据数据项与权重的对应关系，确定第一数据记录和第二数据记录的数据权重，由于数据权重可以反映数据记录中包括的各数据项的可靠性，所以本申请实施例基于第一数据记录和第二数据记录的数据权重确定是否为第一数据记录和第二数据记录创建索引，以实现第一数据记录和第二数据的关联，无需人工核实是否需要为第一数据记录和第二数据记录创建索引，相比于现有技术减少了工作量，提高了处理效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息系统的结构示意图；

图2为本申请实施例提供的一种创建数据索引的方法的流程图；

图3为本申请实施例提供的另一种创建数据索引的方法的流程图；

图4为本申请实施例提供的一种创建数据索引的装置的结构示意图；

图5为本申请实施例提供的另一种创建数据索引的装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为方便理解，对本申请实施例的应用场景进行说明。

如图1所示，图1为一种信息系统的结构示意图，该信息系统包括终端和服务端。

终端：具体可以为各医疗机构的终端，比如图1中示例性地示出了各级医院的终端、基层医疗机构的终端、公共卫生服务机构的终端、卫生监督机构的终端、疾控中心的终端。当然也可以为其他医疗机构的终端，本申请实施例在此不再一一列举。

本申请实施例中的终端具体可以为应用服务终端(point of Service，POS)，也可以为电脑等其他形式的终端，本申请对此不作限定。

终端用于采集医疗机构接诊的患者的基本信息和就诊记录，并向服务端发送患者的基本信息和就诊记录。患者的基本信息可以包括：姓名、年龄、性别、身份证号、手机号、住址等信息，就诊记录可以包括患者在医院所进行的诊疗活动、糖尿病随访、高血压随访、健康体检等记录，在本申请实施例中，上述各项就诊记录也可称为业务。

服务端：具体可以为部署有人口健康信息平台的服务器，人口健康信息平台中可以包括患者主索引(Enterprise Master Patient Index，EMPI)服务模块以及信息数据库。

服务端接收到终端发送的患者的基本信息和就诊记录后，可将每个患者的基本信息和就诊记录作为一条数据记录存储在信息数据库中。

EMPI服务模块用于对信息数据库中的数据记录进行管理维护，比如根据数据记录中的唯一标识为数据记录生成主索引。其中，唯一标识可以为身份证号、社保卡号等能够唯一代表一个人的标识。

其中，由于患者可能多次就诊于多家医院，所以多家医院的终端可以采集到同一患者的基本信息及诊疗记录。相应地，不同医院的终端发送的同一患者的基本信息及诊疗记录可能会被存储为多条数据记录。

作为一个例子，如表1所示，表1中的每一行代表一条数据记录，表1中示例性地示出了患者的部分基本信息，未示出患者的诊疗记录。

表1

从表1中可以看出，医院A和医院B上报的数据中，均有张三和李四的基本信息。但是因前两条数据记录中均没有张三的身份证号，基于表1中的信息无法确定在医院A就诊的张三和在医院B就诊的张三是否为同一患者。另外，第三条数据记录中具有李四的身份证号，该身份证号为第三条数据记录的唯一标识，所以可将李四的身份证号作为第三条数据记录的唯一标识。第四条数据记录也是李四的基本信息，但因第四条数据记录中没有身份证号，所以无法确定在医院A就诊的李四和在医院B就诊的李四是否为同一患者。

相关技术采用的处理方式为：将表1中的第一条数据记录和第二条数据记录标识为需要人工识别，将第三条数据记录和第四条数据记录标识为需要人工识别。然后由操作人员核实第一条数据记录和第二条数据记录中的张三是否为同一个人，且核实第三条数据记录和第四条数据记录中的李四是否为同一个人。从而确定是否将第一条数据记录和第二条数据记录合并，以及是否将第三条数据记录和第四条数据记录合并。

然而，通过人工进行核实的工作量比较大，且只能人为主观地进行核实并对数据记录进行合并，相关技术中无数据记录合并的标准，只能人工指定将哪条数据记录作为主数据记录。且完成数据合并后无法确定该数据合并操作的准确性，只能在后续出现问题的时候再手动进行修改。

为了解决上述技术问题，本申请实施例提供了一种创建数据索引的方法、装置、电子设备及介质。

以下首先对本申请实施例提供的创建数据索引的方法进行介绍。

如图2所示，本申请实施例提供一种创建数据索引的方法，该方法应用于电子设备，该电子设备可以为图1中的服务端，具体可以由服务端中的EMPI模块执行，该方法包括：

S201、获取信息数据库中不具有唯一标识的第一数据记录。

S202、获取与第一数据记录的指定数据项相同的第二数据记录。

在本申请实施例中，可以从信息数据库中检索与第一数据库记录的指定数据项相同的第二数据记录。

S203、基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定第一数据记录的数据权重与第二数据记录的数据权重。

S204、若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，则确定第一数据记录与第二数据记录的目标唯一标识。

其中，目标唯一标识用于作为第一数据记录和第二数据记录的索引。

在本申请实施例中，以第一数据记录和第二数据记录均为患者信息为例，该目标唯一标识可以为EMPI模块为第一数据记录和第二数据记录创建的患者主索引。从而便于后续通过该主索引搜索和标记患者，保护患者的隐私信息。

采用该方法，对于数据库中不具有唯一标识的第一数据记录，可获取与该第一数据记录具有相同的指定数据项的第二数据记录，然后可根据数据项与权重的对应关系，确定第一数据记录和第二数据记录的数据权重，由于数据权重可以反映数据记录中包括的各数据项的可靠性，所以本申请实施例基于第一数据记录和第二数据记录的数据权重确定是否为第一数据记录和第二数据记录创建索引，以实现第一数据记录和第二数据记录的关联，无需人工核实是否需要为第一数据记录和第二数据记录创建索引，相比于现有技术减少了工作量，提高了处理效率。

在上述S201中，信息数据库中包括具有唯一标识的数据记录以及不具有唯一标识的数据记录。对于具有唯一标识的数据记录，可以将唯一标识作为数据记录的索引。比如表1中的第三条数据记录，可将身份证号作为该数据记录的索引。

对于不具有唯一标识的第一数据记录，比如表1中的第一、二、四条数据记录，可采用图2所示的流程创建索引。可以理解的是，在上述S201中可从数据库中获取多条第一数据记录，对于每条第一数据记录，分别按照图2所示的流程创建索引。

在上述S202中，指定数据项可以为预设数据项列表中的数据项，比如指定数据项为姓名和手机号，或者为姓名、手机号和住址，可根据实际情况设置。表1中第一行的每一项均为预设数据项列表中的一个数据项，在实际实现中，预设数据项列表中还可以包括出生日期等用于表示患者基本信息的其他数据项。

以指定数据项是姓名和手机号为例，若表1中的第一条数据记录为第一数据记录，则可检索与第一数据记录具有相同姓名和相同手机号的第二数据记录，通过检索确定表1中的第二条数据记录为第二数据记录。

在上述S203中，本申请实施例配置了预设数据项列表中的每个数据项与权重之间的第一对应关系，比如姓名的权重为5，性别的权重为1，手机号的权重为4，住址的权重为3。

在一种实施方式中，上述S203具体可以实现为：

基于第一对应关系，确定第一数据记录包括的各数据项对应的权重，将第一数据记录包括的各数据项对应的权重相加，得到第一数据记录对应的数据权重；

基于第一对应关系，确定第二数据记录包括的各数据项对应的权重，将第二数据记录包括的各数据项对应的权重相加，得到第二数据记录对应的数据权重。

以表1中的第一条数据记录和第二条数据记录为例，表1中第一条数据记录的数据项具有姓名、性别、手机号、住址，则可将姓名、性别、手机号、住址对应的权重相加，即第一条数据记录的数据权重为：5+1+4+3＝13。基于相同的方法，可计算出第二条数据记录的数据权重为：5+1+4＝10。

在另一种实施方式中，由于信息数据库中存储的数据记录可能存在错误的情况，为了得到可靠性更高的数据权重，本申请实施例可以对数据记录包括的各数据项进行校验，基于满足数据项规则的数据项对应的权重计算数据权重。具体地，上述S203可以实现为：

确定第一数据记录包括的数据项中满足数据项规则的数据项，基于第一对应关系，确定第一数据记录包括的满足数据项规则的各数据项对应的权重，将第一数据记录包括的满足数据项规则的各数据项对应的权重相加，得到第一数据记录对应的数据权重；

确定第二数据记录包括的数据项中满足数据项规则的数据项，基于第二对应关系，确定第二数据记录包括的满足数据项规则的各数据项对应的权重，将第二数据记录包括的满足数据项规则的各数据项对应的权重相加，得到第二数据记录对应的数据权重。

其中，数据项规则可基于各数据项的特性预先设置，比如手机号数据项对应的数据项规则为：包含11位数字，且11位数字符合运营商规定的手机号码格式，性别数据项对应的数据项规则为：只能为男或者女，身份证号对应的数据项规则为：符合国家规定的身份证号格式。

假设某条数据记录中包括的手机号为“123456”，显然不是11位数字，则可确定该数据项不符合数据项规则，在计算该数据记录的数据权重时，将不会加入手机号对应的权重。

在上述S204中，比如预设权重阈值为9，通过上文中的例子可知，表1中的第一条数据记录的数据权重为13，第二条数据记录的数据权重为10，即这两条数据记录的数据权重均大于9，则可确定这两条数据记录的目标唯一标识。

反之，若第一数据记录的数据权重和第二数据记录的权重均小于预设权重阈值，说明这两条数据记录中的信息不够完善，则将这两条数据记录标识为需手工识别。

进而，确定第一数据记录与第二数据记录的目标唯一标识的方法为：若第二数据记录具有唯一标识，则将第二数据记录的唯一标识作为第一数据记录与第二数据的目标唯一标识；若第二数据记录不具有唯一标识，则为第一数据记录与第二数据记录生成目标唯一标识。

以表1中的第3条数据记录和第4条数据记录为例，表1中的第4条数据记录为第一日志数据，第3条数据记录为与该第一日志数据的指定数据项相同的第二数据记录，假设这两条数据记录的数据权重都大于预设权重阈值，可将第3条记录中的身份证号作为这两条数据记录的目标唯一标识。

再例如，将表1中的第1条数据记录与第2条数据记录均不包括唯一标识，则本申请实施例中可为第1条数据记录与第2条数据记录生成目标唯一标识。

本申请实施例中生成目标唯一标识的方法为采用预设的规则进行编号，或者采用相关技术中其他生成目标唯一标识的方法，保证生成的目标唯一标识不与其他数据记录的唯一标识重复即可。

可以理解的是，在将目标唯一索引作为索引后，通过该索引可查找到具有关联关系的第一数据记录和第二数据记录，即可认为第一数据记录和第二数据记录包括的信息为同一个人的信息。

需要说明的是，若患者曾就诊于多家医院，则可从数据信息库中检索到与第一数据记录的指定数据项相同的多条第二数据记录，若第一数据记录和多条第二数据记录的数据权重均大于预设权重阈值，且多条第二数据记录中的任意一条数据记录具有唯一标识，则将该唯一标识作为第一数据记录和上述多条第二数据记录的目标唯一标识；若多条第二数据记录均没有唯一标识，则为第一数据记录和上述多条第二数据记录生成目标唯一标识，将该目标唯一标识作为第一数据记录和上述多条第二数据记录的索引。

或者，若多条第二数据记录中的一部分数据记录的数据权重大于预设权重阈值，另一部分数据记录的数据权重小于预设权重阈值，则基于上文描述的方式创建大于预设权重阈值的第二数据记录和第一数据记录的目标唯一标识。可将小于预设权重阈值的第二数据记录标识为需人工识别，从而人工判断是否将小于预设权重阈值的第二数据记录与第一数据记录绑定。

在本申请的一个实施例中，在上述S203、基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定第一数据记录的数据权重与第二数据记录的数据权重之后，若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，则可以将第一数据记录与第二数据记录绑定，从而使得第一数据记录与第二数据记录具有关联关系。

相应地，上述实施例中描述的确定第一数据记录与第二数据记录的目标唯一标识可以实现为：为绑定后的第一数据记录与第二数据记录确定目标唯一标识。也就是说，根据该目标唯一标识可以检索到第一数据记录与第二数据记录。

如图3所示，将第一数据记录与第二数据记录绑定的方法，具体包括以下S301至S303。

S301、若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，则基于预设业务列表中的每项业务与权重之间的第二对应关系，确定第一数据记录的业务权重与第二数据记录的业务权重。

其中，预设业务列表中包括患者在医院可能进行的就诊记录，本申请实施例中预设了每种就诊记录对应的权重。

本步骤具体可以实现为：确定第一数据记录中包括的历史业务，基于所述第二对应关系，确定第一数据记录包括的各历史业务对应的权重，将第一数据记录包括的各历史业务对应的权重相加，得到第一数据记录的业务权重；

确定第二数据记录中包括的历史业务，基于第二对应关系，确定第二数据记录包括的各历史业务对应的权重，将第二数据记录包括的各历史业务对应的权重相加，得到第二数据的业务权重。

S302、将第一数据记录的数据权重与业务权重相加，得到第一数据记录的总权重，并将第二数据记录的数据权重与业务权重相加，得到第二数据记录的总权重。

S303、将第一数据记录与第二数据记录中，总权重最大的数据记录作为主数据记录，将其他数据记录绑定至主数据记录。

采用本申请实施例，由于总权重记录越大，代表数据记录中包括的信息越丰富，所以本申请实施例中将需要被绑定的数据记录中，包含的信息最丰富的数据记录作为主数据记录，将其他的数据记录绑定在该数据记录中，使得在基于索引查询绑定后的数据记录时，优先查询到信息较为丰富的主数据记录。相比于现有技术，本申请实施例提供了数据记录绑定的标准，将包含信息最丰富的数据记录作为主数据记录，使得人口信息健康平台的功能更加完善。

在本申请另一实施例中，在使用人口信息健康平台的过程中，若工作人员发现被绑定的多条数据记录实际上不是同一个人的数据记录，也可对已绑定的数据记录进行解绑。本申请实施例可以根据解绑的情况来判断对数据记录的绑定结果的准确程度，从而调整对数据记录绑定的条件，比如调整上文中描述的各数据项对应的权重、各业务对应的权重以及预设权重阈值。

该方法还可以包括：获取指定时间段内信息数据库中被解绑的数据记录条数，若被解绑的数据记录条数大于预设条数，则根据被解绑的数据记录条数以及被解绑的数据记录的解绑原因调整预设权重阈值、预设数据项列表中的每个数据项对应的权重以及预设业务列表中的每项业务对应的权重。

例如，工作人员对数据记录进行解绑时，会标注解绑原因。比如两条数据记录是因为姓名和手机号相同而被绑定，则可将姓名和手机号对应的权重降低，比如将姓名对应的权重减1，将手机号对应的权重减1。若这两条数据的解绑原因是两条数据记录包括的历史业务冲突，则可将冲突的历史业务对应的权重降低。比如两条数据记录中分别包括同一时间在不同医院的体检记录，则将体检记录对应的权重降低。

采用该方法，可以根据绑定后的数据记录的应用情况来评估绑定后的数据记录的准确性，并通过该准确性调整各数据项对应的权重、各业务对应的权重以及预设权重阈值，使得后续绑定的结果更加准确。

在上述实施例中均以数据记录为患者的信息为例进行说明，本申请实施也可应用于其余需要进行数据记录合并以及创建索引的场景中。

对应于上述方法实施例，本申请实施例还提供一种创建数据索引的装置，如图4所示，该装置包括：

获取模块401，用于获取信息数据库中不具有唯一标识的第一数据记录，以及用于从所述信息数据库中检索与所述第一数据记录的指定数据项相同的第二数据记录；

确定模块402，用于基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定第一数据记录的数据权重与第二数据记录的数据权重；

确定模块402，还用于若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，则确定第一数据记录与第二数据记录的目标唯一标识，其中，该目标唯一标识用于作为第一数据记录和第二数据记录的索引。

可选地，如图5所示，该装置还包括：绑定模块403。

绑定模块403，用于：

若第一数据记录的数据权重与第二数据记录的数据权重均大于预设权重阈值，则基于预设业务列表中的每项业务与权重之间的第二对应关系，确定第一数据记录的业务权重与第二数据记录的业务权重；

将所述第一数据记录的数据权重与业务权重相加，得到第一数据记录的总权重，并将第二数据记录的数据权重与业务权重相加，得到第二数据记录的总权重；

将第一数据记录与第二数据记录中，总权重最大的数据记录作为主数据记录，将其他数据记录绑定至主数据记录。

可选地，绑定模块403，具体用于：

确定第一数据记录中包括的历史业务，基于第二对应关系，确定第一数据记录包括的各历史业务对应的权重，将第一数据记录包括的各历史业务对应的权重相加，得到第一数据记录的业务权重；

可选地，确定模块402，具体用于：

若第二数据记录具有唯一标识，则将第二数据记录的唯一标识作为绑定后的第一数据记录与第二数据记录的目标唯一标识；

若第二数据记录不具有唯一标识，则为第一数据记录与第二数据记录生成目标唯一标识。

可选地，如图5所示，该装置还包括：调整模块404。

获取模块401，还用于获取指定时间段内信息数据库中被解绑的数据记录条数；

调整模块404，用于若被解绑的数据记录的条数大于预设条数，则根据被解绑的数据记录条数以及被解绑的数据记录的解绑原因调整预设权重阈值、预设数据项列表中的每个数据项对应的权重以及预设业务列表中的每项业务对应的权重。

基于相同的技术构思，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述方法实施例中的方法内容。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一创建数据索引方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一创建数据索引的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种创建数据索引的方法，其特征在于，包括：

获取信息数据库中不具有唯一标识的第一数据记录；

2.根据权利要求1所述的方法，其特征在于，在基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设业务列表中的每项业务与权重之间的第二对应关系，确定所述第一数据记录的业务权重与所述第二数据记录的业务权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于预设数据项列表中的每个数据项与权重之间的第一对应关系，确定所述第一数据记录的数据权重与所述第二数据记录的数据权重，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定所述第一数据记录与所述第二数据记录的目标唯一标识，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.一种创建数据索引的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。