CN103514285A

CN103514285A - 最优记录数据的生成系统和生成方法

Info

Publication number: CN103514285A
Application number: CN201310456703.0A
Authority: CN
Inventors: 李登高; 陈卫华
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Medical Information Technology Co Ltd Of Beijing University
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2014-01-15

Abstract

本发明提供了一种最优记录数据的生成系统，包括：记录数据获取单元，用于获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；字段抽取单元，用于从所述多条相关联的记录数据中抽取具有相同属性的字段；字段比较单元，用于将所述具有相同属性的字段进行比较，以确定最优字段；字段组合单元，用于组合所有的最优字段，以生成最优记录数据。本发明还提出了一种最优记录数据的生成方法。通过本发明的技术方案，可以将多条记录数据进行比较处理后，生成一条能够比较完整准确地描述这些记录数据的同一主数据。

Description

最优记录数据的生成系统和生成方法

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种最优记录数据的生成系统和一种最优记录数据的生成方法。

背景技术

云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念，是指通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。云存储往往通过按照数据内容进行分类，将数据存放到不同的数据存储节点上。

比如针对区域医疗信息化中的应用，在中心医院、普通医院、社区卫生服务站等数据存储节点，存放同一患者的数据。比如对于同一患者的数据可以包括姓名、年龄、住址等信息，但由于在实际应用中，各个节点的数据在录入时可能出现信息偏差或缺失，这不利于对患者数据的有效管理。

因此，需要一种新的数据处理技术，可以将多条记录数据进行比较处理后，生成一条能够比较完整准确地描述这些记录数据的同一主数据。

发明内容

本发明正是基于上述问题，提出了一种新的数据处理技术，可以将多条记录数据进行比较处理后，生成一条能够比较完整准确地描述这些记录数据的同一主数据。

有鉴于此，本发明提出了一种最优记录数据的生成系统，包括：记录数据获取单元，用于获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；字段抽取单元，用于从所述多条相关联的记录数据中抽取具有相同属性的字段；字段比较单元，用于将所述具有相同属性的字段进行比较，以确定最优字段；字段组合单元，用于组合所有的最优字段，以生成最优记录数据。

在该技术方案中，处于每个数据节点的数据由多个字段构成，假定对于一条完整的患者信息数据，包括姓名、性别、年龄、住址等信息，则对于某一节点的记录数据，可能只包括姓名、性别和住址，则认为其也是由以上四种信息构成，但“年龄”信息缺失；通过上述方式，则便于对所有的记录数据进行比较和处理。通过对每个字段进行分别比较，并分别生成对应的最优字段，从而组合为最优记录数据，便于对患者数据进行管理。当然，本领域的技术人员应该理解的是，也可以是针对除患者数据外的任意数据，执行最优记录数据的生成。

在上述技术方案中，优选地，所述字段比较单元用于：在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下，将该字段作为对应于所述指定属性的最优字段；以及在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下，将该字段作为对应于所述指定属性的最优字段。

在该技术方案中，若多条记录数据中，在某个字段上，比如“年龄”，仅有一条记录数据中存在相关信息，则直接将该仅存的信息作为最优字段；类似地，若所有记录数据中的某个字段上，比如“年龄”，都相同，则也可以直接将该相同的信息作为最优字段。

在上述技术方案中，优选地，每条所述记录数据来自对应的域，则所述生成系统还包括：权重设置单元，用于为每个所述域设置权重值；其中，所述字段比较单元包括：权重比较子单元，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每条字段所属记录数据对应的域的权重值；字段选择子单元，用于根据所述权重比较子单元的比较结果，选择权重值最大的域对应的字段作为所述最优字段。

在该技术方案中，“域”的范围可以自行设定，比如对于“医院”这样一个系统而言，可以将每个部门分别作为一个“域”，而对于“城市”这样一个系统而言，可以将每个医院或卫生服务站作为一个“域”。每个域的信息具有不同的可信度，比如大型医院的可信度应该高于卫生服务站的可信度，则可以为大型医院设置更高的权重值。因此，当多条记录数据的相同属性上的字段信息不同时，可以按照其对应的域的权重值进行判断，并选择权重值最大的域对应的记录数据中的字段信息，以作为最优字段。

由于对于“权重值”的使用，实际上是为了体现出各个域的可信度的差异，因而显然可以通过其他方式来替代“权重值”，比如还可以使用对应于每个域的使用频率，则基于不同的使用频率，也能够体现出不同域的差异。

在上述技术方案中，优选地，所述字段比较单元包括：内容比较子单元，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每个所述对应于相同属性的字段的内容；字段选择子单元，用于根据所述内容比较子单元的比较结果，选择包含的内容最详细的字段作为所述最优字段。

在该技术方案中，多条记录数据中对应于同一字段的信息可能具有不同的详细程度，比如对于“地址”字段信息，一条记录数据为“北京市海淀区”，另一条为“北京市海淀区XX路26号”，则相对来说第二条更为详细，则可以将第二条的信息作为最优字段中的信息。通过上述方式，从而使得到的最优记录数据最为详细，并更为准确地对应于所有的记录数据。

其中，“详细”可以存在多种表现形式，比如可以根据字数的多少来进行比较；或者，可以根据每个字段的使用频率来进行比较；或者，可以采用每个字段的使用频率×第一预设系数的数值来进行比较；或者，可以采用每个字段的字数多少×第二预设系数的数值来进行比较等等。其中，当更加看重于使用频率时，可以设置第一预设系数大于（或远大于）第二预设系数。

在上述技术方案中，优选地，还包括：关联设置单元，用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系，并存储所述关联关系。

在该技术方案中，由于多条记录数据分别存储在不同的节点，因而通过在最优记录数据和多条记录数据之间建立关联关系，就可以由任一节点的记录数据查询到其他任意节点的记录数据，具体地，可以由某个节点的记录数据关联至最优记录数据，再由最优记录数据关联至希望查询的另一节点的记录数据，便于对患者数据进行管理和任意调用。

根据本发明的又一方面，还提出了一种最优记录数据的生成方法，包括：步骤202，获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；步骤204，将所述多条相关联的记录数据中具有相同属性的字段进行比较，以确定最优字段；步骤206，组合所有的最优字段，以生成最优记录数据。

在上述技术方案中，优选地，所述步骤204包括：当所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段，则将该字段作为对应于所述指定属性的最优字段；以及若所述多条相关联的记录数据中对应于相同属性的字段为相同字段，则将该字段作为对应于所述指定属性的最优字段。

在上述技术方案中，优选地，每条所述记录数据来自对应的域，则在所述步骤202之前，还包括：为每个所述域设置权重值；以及所述步骤204包括：若所述多条相关联的记录数据中对应于相同属性的字段不完全相同，则根据每条字段所属记录数据对应的域的权重值，选择权重值最大的域对应的字段作为所述最优字段。

在上述技术方案中，优选地，所述步骤204还包括：若所述多条相关联的记录数据中对应于相同属性的字段不完全相同，则选择包含的内容最详细的字段作为所述最优字段。

在上述技术方案中，优选地，所述步骤206还包括：在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系，并存储所述关联关系。

通过以上技术方案，可以将多条记录数据进行比较处理后，生成一条能够比较完整准确地描述这些记录数据的同一主数据。

附图说明

图1示出了根据本发明的实施例的最优记录数据的生成系统的框图；

图2示出了根据本发明的实施例的最优记录数据的生成方法的流程图；

图3示出了根据本发明的实施例的生成最优记录数据的具体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的最优记录数据的生成系统的框图。

如图1所示，根据本发明的实施例的最优记录数据的生成系统100，包括：记录数据获取单元102，用于获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；字段抽取单元104，用于从所述多条相关联的记录数据中抽取具有相同属性的字段；字段比较单元106，用于将所述具有相同属性的字段进行比较，以确定最优字段；字段组合单元108，用于组合所有的最优字段，以生成最优记录数据（SBR，Single BestRecord）。

在上述技术方案中，优选地，所述字段比较单元106用于：在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下，将该字段作为对应于所述指定属性的最优字段；以及在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下，将该字段作为对应于所述指定属性的最优字段。

在上述技术方案中，优选地，每条所述记录数据来自对应的域，则所述生成系统100还包括：权重设置单元110，用于为每个所述域设置权重值；其中，所述字段比较单元106包括：权重比较子单元1062，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每条字段所属记录数据对应的域的权重值；字段选择子单元1064，用于根据所述权重比较子单元1062的比较结果，选择权重值最大的域对应的字段作为所述最优字段。

在上述技术方案中，优选地，所述字段比较单元106包括：内容比较子单元1066，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每个所述对应于相同属性的字段的内容；字段选择子单元1064，用于根据所述内容比较子单元1066的比较结果，选择包含的内容最详细的字段作为所述最优字段。

在上述技术方案中，优选地，还包括：关联设置单元112，用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系，并存储所述关联关系。

图2示出了根据本发明的实施例的最优记录数据的生成方法的流程图。

如图2所示，根据本发明的实施例的最优记录数据的生成方法，包括：步骤202，获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；步骤204，将所述多条相关联的记录数据中具有相同属性的字段进行比较，以确定最优字段；步骤206，组合所有的最优字段，以生成最优记录数据。

如图3所示，根据本发明的实施例的生成最优记录数据的具体流程包括：

步骤302，获取相关联的多条记录数据，具体如表1所示：

	姓名	性别	年龄	住址
					1（海淀医院）	张三	男	20	北京市
2（北医三院）	张三		20	北京市海淀区学院路309号
					3（社区服务站）	张山		20	北京市海淀区学清路309号

表1

步骤304，分别获取所有字段的信息，比如在表1中，包括“姓名”、“性别”、“年龄”和“住址”四个字段，其中，对于第1条数据，包括所有字段的信息，而对于第2条数据和第3条数据，则在“性别”字段上的信息为“空”，而不认为其不具有该字段，以便于进行多条数据之间的比较。

步骤306，判断多条数据的相同字段上的信息是否唯一。若是，则进入步骤312，否则进入步骤308。具体地，比如在表1中，对于“性别”字段而言，只在第1条数据中有相关信息，因而可以直接作为最优字段。

步骤308，判断多条数据的相同字段上的信息是否相同。若是，则进入步骤312，否则进入步骤310。具体地，比如在表1中，对于“年龄”字段而言，所有数据均相同，因而可以直接作为最优字段。

步骤310，对于剩余的字段，可以做进一步地比较。具体地，可以通过比较其对应的权重值和/或信息的详细程度。

比如在表1中，“姓名”字段包括“张三”和“张山”。假定“海淀医院”对应的权重值为0.95，“北医三院”对应的权重值为0.92，而“社区服务站”对应的权重值为0.85，则由于“张三”对应于“海淀医院”和“北医三院”，而“张山”对应于“社区服务站”，因而“张山”对应的权重值更低，应该选择“张三”作为最优字段。

再比如对于“住址”字段，第1条数据仅涉及到“北京市”，而第2条和第3条数据则涉及到更为详细的地址，因而舍弃第1条；然后，由于第2条数据对应的“北医三院”的权重值更高，因此舍弃第3条，因此，将第2条数据的“住址”字段作为最优字段。

步骤312，根据上述比较、判断等步骤，利用唯一的、相同的、权重值最高和/或最详细的字段信息，生成最优字段。

步骤314，将所有的最优字段组合生成为最优记录数据。

此外，还可以将最优记录数据与所有用于生成该最优记录数据的多条记录数据进行关联，从而用户可以根据任意一条记录数据查询最优记录数据，还可以经由最优记录数据，从而查找到其他的记录数据。

以上结合附图详细说明了本发明的技术方案，本发明提出了一种最优记录数据的生成系统和一种最优记录数据的生成方法，可以将多条记录数据进行比较处理后，生成一条能够比较完整准确地描述这些记录数据的同一主数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种最优记录数据的生成系统，其特征在于，包括：

记录数据获取单元，用于获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；

字段抽取单元，用于从所述多条相关联的记录数据中抽取具有相同属性的字段；

字段比较单元，用于将所述具有相同属性的字段进行比较，以确定最优字段；

字段组合单元，用于组合所有的最优字段，以生成最优记录数据。

2.根据权利要求1所述的最优记录数据的生成系统，其特征在于，所述字段比较单元用于：

在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下，将该字段作为对应于所述指定属性的最优字段；以及

在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下，将该字段作为对应于所述指定属性的最优字段。

3.根据权利要求1或2所述的最优记录数据的生成系统，其特征在于，每条所述记录数据来自对应的域，则所述生成系统还包括：

权重设置单元，用于为每个所述域设置权重值；

其中，所述字段比较单元包括：

权重比较子单元，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每条字段所属记录数据对应的域的权重值；

字段选择子单元，用于根据所述权重比较子单元的比较结果，选择权重值最大的域对应的字段作为所述最优字段。

4.根据权利要求1或2所述的最优记录数据的生成系统，其特征在于，所述字段比较单元包括：

内容比较子单元，用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下，比较每个所述对应于相同属性的字段的内容；

字段选择子单元，用于根据所述内容比较子单元的比较结果，选择包含的内容最详细的字段作为所述最优字段。

5.根据权利要求1或2所述的最优记录数据的生成系统，其特征在于，还包括：

关联设置单元，用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系，并存储所述关联关系。

6.一种最优记录数据的生成方法，其特征在于，包括：

步骤202，获取多条相关联的记录数据，每条所述记录数据包括至少一种属性的字段；

步骤204，将所述多条相关联的记录数据中具有相同属性的字段进行比较，以确定最优字段；

步骤206，组合所有的最优字段，以生成最优记录数据。

7.根据权利要求6所述的最优记录数据的生成方法，其特征在于，所述步骤204包括：

当所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段，则将该字段作为对应于所述指定属性的最优字段；以及

若所述多条相关联的记录数据中对应于相同属性的字段为相同字段，则将该字段作为对应于所述指定属性的最优字段。

8.根据权利要求6或7所述的最优记录数据的生成方法，其特征在于，每条所述记录数据来自对应的域，则在所述步骤202之前，还包括：

为每个所述域设置权重值；以及

所述步骤204包括：

若所述多条相关联的记录数据中对应于相同属性的字段不完全相同，则根据每条字段所属记录数据对应的域的权重值，选择权重值最大的域对应的字段作为所述最优字段。

9.根据权利要求6或7所述的最优记录数据的生成方法，其特征在于，所述步骤204还包括：

若所述多条相关联的记录数据中对应于相同属性的字段不完全相同，则选择包含的内容最详细的字段作为所述最优字段。

10.根据权利要求6或7所述的最优记录数据的生成方法，其特征在于，所述步骤206还包括：

在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系，并存储所述关联关系。