CN103514285A - 最优记录数据的生成系统和生成方法 - Google Patents

最优记录数据的生成系统和生成方法 Download PDF

Info

Publication number
CN103514285A
CN103514285A CN201310456703.0A CN201310456703A CN103514285A CN 103514285 A CN103514285 A CN 103514285A CN 201310456703 A CN201310456703 A CN 201310456703A CN 103514285 A CN103514285 A CN 103514285A
Authority
CN
China
Prior art keywords
field
record data
optimum
territory
many
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310456703.0A
Other languages
English (en)
Inventor
李登高
陈卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Information Technology Co Ltd Of Beijing University
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN201310456703.0A priority Critical patent/CN103514285A/zh
Publication of CN103514285A publication Critical patent/CN103514285A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种最优记录数据的生成系统,包括:记录数据获取单元,用于获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;字段抽取单元,用于从所述多条相关联的记录数据中抽取具有相同属性的字段;字段比较单元,用于将所述具有相同属性的字段进行比较,以确定最优字段;字段组合单元,用于组合所有的最优字段,以生成最优记录数据。本发明还提出了一种最优记录数据的生成方法。通过本发明的技术方案,可以将多条记录数据进行比较处理后,生成一条能够比较完整准确地描述这些记录数据的同一主数据。

Description

最优记录数据的生成系统和生成方法
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种最优记录数据的生成系统和一种最优记录数据的生成方法。
背景技术
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储往往通过按照数据内容进行分类,将数据存放到不同的数据存储节点上。
比如针对区域医疗信息化中的应用,在中心医院、普通医院、社区卫生服务站等数据存储节点,存放同一患者的数据。比如对于同一患者的数据可以包括姓名、年龄、住址等信息,但由于在实际应用中,各个节点的数据在录入时可能出现信息偏差或缺失,这不利于对患者数据的有效管理。
因此,需要一种新的数据处理技术,可以将多条记录数据进行比较处理后,生成一条能够比较完整准确地描述这些记录数据的同一主数据。
发明内容
本发明正是基于上述问题,提出了一种新的数据处理技术,可以将多条记录数据进行比较处理后,生成一条能够比较完整准确地描述这些记录数据的同一主数据。
有鉴于此,本发明提出了一种最优记录数据的生成系统,包括:记录数据获取单元,用于获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;字段抽取单元,用于从所述多条相关联的记录数据中抽取具有相同属性的字段;字段比较单元,用于将所述具有相同属性的字段进行比较,以确定最优字段;字段组合单元,用于组合所有的最优字段,以生成最优记录数据。
在该技术方案中,处于每个数据节点的数据由多个字段构成,假定对于一条完整的患者信息数据,包括姓名、性别、年龄、住址等信息,则对于某一节点的记录数据,可能只包括姓名、性别和住址,则认为其也是由以上四种信息构成,但“年龄”信息缺失;通过上述方式,则便于对所有的记录数据进行比较和处理。通过对每个字段进行分别比较,并分别生成对应的最优字段,从而组合为最优记录数据,便于对患者数据进行管理。当然,本领域的技术人员应该理解的是,也可以是针对除患者数据外的任意数据,执行最优记录数据的生成。
在上述技术方案中,优选地,所述字段比较单元用于:在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下,将该字段作为对应于所述指定属性的最优字段;以及在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下,将该字段作为对应于所述指定属性的最优字段。
在该技术方案中,若多条记录数据中,在某个字段上,比如“年龄”,仅有一条记录数据中存在相关信息,则直接将该仅存的信息作为最优字段;类似地,若所有记录数据中的某个字段上,比如“年龄”,都相同,则也可以直接将该相同的信息作为最优字段。
在上述技术方案中,优选地,每条所述记录数据来自对应的域,则所述生成系统还包括:权重设置单元,用于为每个所述域设置权重值;其中,所述字段比较单元包括:权重比较子单元,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每条字段所属记录数据对应的域的权重值;字段选择子单元,用于根据所述权重比较子单元的比较结果,选择权重值最大的域对应的字段作为所述最优字段。
在该技术方案中,“域”的范围可以自行设定,比如对于“医院”这样一个系统而言,可以将每个部门分别作为一个“域”,而对于“城市”这样一个系统而言,可以将每个医院或卫生服务站作为一个“域”。每个域的信息具有不同的可信度,比如大型医院的可信度应该高于卫生服务站的可信度,则可以为大型医院设置更高的权重值。因此,当多条记录数据的相同属性上的字段信息不同时,可以按照其对应的域的权重值进行判断,并选择权重值最大的域对应的记录数据中的字段信息,以作为最优字段。
由于对于“权重值”的使用,实际上是为了体现出各个域的可信度的差异,因而显然可以通过其他方式来替代“权重值”,比如还可以使用对应于每个域的使用频率,则基于不同的使用频率,也能够体现出不同域的差异。
在上述技术方案中,优选地,所述字段比较单元包括:内容比较子单元,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每个所述对应于相同属性的字段的内容;字段选择子单元,用于根据所述内容比较子单元的比较结果,选择包含的内容最详细的字段作为所述最优字段。
在该技术方案中,多条记录数据中对应于同一字段的信息可能具有不同的详细程度,比如对于“地址”字段信息,一条记录数据为“北京市海淀区”,另一条为“北京市海淀区XX路26号”,则相对来说第二条更为详细,则可以将第二条的信息作为最优字段中的信息。通过上述方式,从而使得到的最优记录数据最为详细,并更为准确地对应于所有的记录数据。
其中,“详细”可以存在多种表现形式,比如可以根据字数的多少来进行比较;或者,可以根据每个字段的使用频率来进行比较;或者,可以采用每个字段的使用频率×第一预设系数的数值来进行比较;或者,可以采用每个字段的字数多少×第二预设系数的数值来进行比较等等。其中,当更加看重于使用频率时,可以设置第一预设系数大于(或远大于)第二预设系数。
在上述技术方案中,优选地,还包括:关联设置单元,用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
在该技术方案中,由于多条记录数据分别存储在不同的节点,因而通过在最优记录数据和多条记录数据之间建立关联关系,就可以由任一节点的记录数据查询到其他任意节点的记录数据,具体地,可以由某个节点的记录数据关联至最优记录数据,再由最优记录数据关联至希望查询的另一节点的记录数据,便于对患者数据进行管理和任意调用。
根据本发明的又一方面,还提出了一种最优记录数据的生成方法,包括:步骤202,获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;步骤204,将所述多条相关联的记录数据中具有相同属性的字段进行比较,以确定最优字段;步骤206,组合所有的最优字段,以生成最优记录数据。
在该技术方案中,处于每个数据节点的数据由多个字段构成,假定对于一条完整的患者信息数据,包括姓名、性别、年龄、住址等信息,则对于某一节点的记录数据,可能只包括姓名、性别和住址,则认为其也是由以上四种信息构成,但“年龄”信息缺失;通过上述方式,则便于对所有的记录数据进行比较和处理。通过对每个字段进行分别比较,并分别生成对应的最优字段,从而组合为最优记录数据,便于对患者数据进行管理。当然,本领域的技术人员应该理解的是,也可以是针对除患者数据外的任意数据,执行最优记录数据的生成。
在上述技术方案中,优选地,所述步骤204包括:当所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段,则将该字段作为对应于所述指定属性的最优字段;以及若所述多条相关联的记录数据中对应于相同属性的字段为相同字段,则将该字段作为对应于所述指定属性的最优字段。
在该技术方案中,若多条记录数据中,在某个字段上,比如“年龄”,仅有一条记录数据中存在相关信息,则直接将该仅存的信息作为最优字段;类似地,若所有记录数据中的某个字段上,比如“年龄”,都相同,则也可以直接将该相同的信息作为最优字段。
在上述技术方案中,优选地,每条所述记录数据来自对应的域,则在所述步骤202之前,还包括:为每个所述域设置权重值;以及所述步骤204包括:若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则根据每条字段所属记录数据对应的域的权重值,选择权重值最大的域对应的字段作为所述最优字段。
在该技术方案中,“域”的范围可以自行设定,比如对于“医院”这样一个系统而言,可以将每个部门分别作为一个“域”,而对于“城市”这样一个系统而言,可以将每个医院或卫生服务站作为一个“域”。每个域的信息具有不同的可信度,比如大型医院的可信度应该高于卫生服务站的可信度,则可以为大型医院设置更高的权重值。因此,当多条记录数据的相同属性上的字段信息不同时,可以按照其对应的域的权重值进行判断,并选择权重值最大的域对应的记录数据中的字段信息,以作为最优字段。
由于对于“权重值”的使用,实际上是为了体现出各个域的可信度的差异,因而显然可以通过其他方式来替代“权重值”,比如还可以使用对应于每个域的使用频率,则基于不同的使用频率,也能够体现出不同域的差异。
在上述技术方案中,优选地,所述步骤204还包括:若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则选择包含的内容最详细的字段作为所述最优字段。
在该技术方案中,多条记录数据中对应于同一字段的信息可能具有不同的详细程度,比如对于“地址”字段信息,一条记录数据为“北京市海淀区”,另一条为“北京市海淀区XX路26号”,则相对来说第二条更为详细,则可以将第二条的信息作为最优字段中的信息。通过上述方式,从而使得到的最优记录数据最为详细,并更为准确地对应于所有的记录数据。
其中,“详细”可以存在多种表现形式,比如可以根据字数的多少来进行比较;或者,可以根据每个字段的使用频率来进行比较;或者,可以采用每个字段的使用频率×第一预设系数的数值来进行比较;或者,可以采用每个字段的字数多少×第二预设系数的数值来进行比较等等。其中,当更加看重于使用频率时,可以设置第一预设系数大于(或远大于)第二预设系数。
在上述技术方案中,优选地,所述步骤206还包括:在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
在该技术方案中,由于多条记录数据分别存储在不同的节点,因而通过在最优记录数据和多条记录数据之间建立关联关系,就可以由任一节点的记录数据查询到其他任意节点的记录数据,具体地,可以由某个节点的记录数据关联至最优记录数据,再由最优记录数据关联至希望查询的另一节点的记录数据,便于对患者数据进行管理和任意调用。
通过以上技术方案,可以将多条记录数据进行比较处理后,生成一条能够比较完整准确地描述这些记录数据的同一主数据。
附图说明
图1示出了根据本发明的实施例的最优记录数据的生成系统的框图;
图2示出了根据本发明的实施例的最优记录数据的生成方法的流程图;
图3示出了根据本发明的实施例的生成最优记录数据的具体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的最优记录数据的生成系统的框图。
如图1所示,根据本发明的实施例的最优记录数据的生成系统100,包括:记录数据获取单元102,用于获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;字段抽取单元104,用于从所述多条相关联的记录数据中抽取具有相同属性的字段;字段比较单元106,用于将所述具有相同属性的字段进行比较,以确定最优字段;字段组合单元108,用于组合所有的最优字段,以生成最优记录数据(SBR,Single BestRecord)。
在该技术方案中,处于每个数据节点的数据由多个字段构成,假定对于一条完整的患者信息数据,包括姓名、性别、年龄、住址等信息,则对于某一节点的记录数据,可能只包括姓名、性别和住址,则认为其也是由以上四种信息构成,但“年龄”信息缺失;通过上述方式,则便于对所有的记录数据进行比较和处理。通过对每个字段进行分别比较,并分别生成对应的最优字段,从而组合为最优记录数据,便于对患者数据进行管理。当然,本领域的技术人员应该理解的是,也可以是针对除患者数据外的任意数据,执行最优记录数据的生成。
在上述技术方案中,优选地,所述字段比较单元106用于:在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下,将该字段作为对应于所述指定属性的最优字段;以及在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下,将该字段作为对应于所述指定属性的最优字段。
在该技术方案中,若多条记录数据中,在某个字段上,比如“年龄”,仅有一条记录数据中存在相关信息,则直接将该仅存的信息作为最优字段;类似地,若所有记录数据中的某个字段上,比如“年龄”,都相同,则也可以直接将该相同的信息作为最优字段。
在上述技术方案中,优选地,每条所述记录数据来自对应的域,则所述生成系统100还包括:权重设置单元110,用于为每个所述域设置权重值;其中,所述字段比较单元106包括:权重比较子单元1062,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每条字段所属记录数据对应的域的权重值;字段选择子单元1064,用于根据所述权重比较子单元1062的比较结果,选择权重值最大的域对应的字段作为所述最优字段。
在该技术方案中,“域”的范围可以自行设定,比如对于“医院”这样一个系统而言,可以将每个部门分别作为一个“域”,而对于“城市”这样一个系统而言,可以将每个医院或卫生服务站作为一个“域”。每个域的信息具有不同的可信度,比如大型医院的可信度应该高于卫生服务站的可信度,则可以为大型医院设置更高的权重值。因此,当多条记录数据的相同属性上的字段信息不同时,可以按照其对应的域的权重值进行判断,并选择权重值最大的域对应的记录数据中的字段信息,以作为最优字段。
由于对于“权重值”的使用,实际上是为了体现出各个域的可信度的差异,因而显然可以通过其他方式来替代“权重值”,比如还可以使用对应于每个域的使用频率,则基于不同的使用频率,也能够体现出不同域的差异。
在上述技术方案中,优选地,所述字段比较单元106包括:内容比较子单元1066,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每个所述对应于相同属性的字段的内容;字段选择子单元1064,用于根据所述内容比较子单元1066的比较结果,选择包含的内容最详细的字段作为所述最优字段。
在该技术方案中,多条记录数据中对应于同一字段的信息可能具有不同的详细程度,比如对于“地址”字段信息,一条记录数据为“北京市海淀区”,另一条为“北京市海淀区XX路26号”,则相对来说第二条更为详细,则可以将第二条的信息作为最优字段中的信息。通过上述方式,从而使得到的最优记录数据最为详细,并更为准确地对应于所有的记录数据。
其中,“详细”可以存在多种表现形式,比如可以根据字数的多少来进行比较;或者,可以根据每个字段的使用频率来进行比较;或者,可以采用每个字段的使用频率×第一预设系数的数值来进行比较;或者,可以采用每个字段的字数多少×第二预设系数的数值来进行比较等等。其中,当更加看重于使用频率时,可以设置第一预设系数大于(或远大于)第二预设系数。
在上述技术方案中,优选地,还包括:关联设置单元112,用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
在该技术方案中,由于多条记录数据分别存储在不同的节点,因而通过在最优记录数据和多条记录数据之间建立关联关系,就可以由任一节点的记录数据查询到其他任意节点的记录数据,具体地,可以由某个节点的记录数据关联至最优记录数据,再由最优记录数据关联至希望查询的另一节点的记录数据,便于对患者数据进行管理和任意调用。
图2示出了根据本发明的实施例的最优记录数据的生成方法的流程图。
如图2所示,根据本发明的实施例的最优记录数据的生成方法,包括:步骤202,获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;步骤204,将所述多条相关联的记录数据中具有相同属性的字段进行比较,以确定最优字段;步骤206,组合所有的最优字段,以生成最优记录数据。
在该技术方案中,处于每个数据节点的数据由多个字段构成,假定对于一条完整的患者信息数据,包括姓名、性别、年龄、住址等信息,则对于某一节点的记录数据,可能只包括姓名、性别和住址,则认为其也是由以上四种信息构成,但“年龄”信息缺失;通过上述方式,则便于对所有的记录数据进行比较和处理。通过对每个字段进行分别比较,并分别生成对应的最优字段,从而组合为最优记录数据,便于对患者数据进行管理。当然,本领域的技术人员应该理解的是,也可以是针对除患者数据外的任意数据,执行最优记录数据的生成。
在上述技术方案中,优选地,所述步骤204包括:当所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段,则将该字段作为对应于所述指定属性的最优字段;以及若所述多条相关联的记录数据中对应于相同属性的字段为相同字段,则将该字段作为对应于所述指定属性的最优字段。
在该技术方案中,若多条记录数据中,在某个字段上,比如“年龄”,仅有一条记录数据中存在相关信息,则直接将该仅存的信息作为最优字段;类似地,若所有记录数据中的某个字段上,比如“年龄”,都相同,则也可以直接将该相同的信息作为最优字段。
在上述技术方案中,优选地,每条所述记录数据来自对应的域,则在所述步骤202之前,还包括:为每个所述域设置权重值;以及所述步骤204包括:若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则根据每条字段所属记录数据对应的域的权重值,选择权重值最大的域对应的字段作为所述最优字段。
在该技术方案中,“域”的范围可以自行设定,比如对于“医院”这样一个系统而言,可以将每个部门分别作为一个“域”,而对于“城市”这样一个系统而言,可以将每个医院或卫生服务站作为一个“域”。每个域的信息具有不同的可信度,比如大型医院的可信度应该高于卫生服务站的可信度,则可以为大型医院设置更高的权重值。因此,当多条记录数据的相同属性上的字段信息不同时,可以按照其对应的域的权重值进行判断,并选择权重值最大的域对应的记录数据中的字段信息,以作为最优字段。
由于对于“权重值”的使用,实际上是为了体现出各个域的可信度的差异,因而显然可以通过其他方式来替代“权重值”,比如还可以使用对应于每个域的使用频率,则基于不同的使用频率,也能够体现出不同域的差异。
在上述技术方案中,优选地,所述步骤204还包括:若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则选择包含的内容最详细的字段作为所述最优字段。
在该技术方案中,多条记录数据中对应于同一字段的信息可能具有不同的详细程度,比如对于“地址”字段信息,一条记录数据为“北京市海淀区”,另一条为“北京市海淀区XX路26号”,则相对来说第二条更为详细,则可以将第二条的信息作为最优字段中的信息。通过上述方式,从而使得到的最优记录数据最为详细,并更为准确地对应于所有的记录数据。
其中,“详细”可以存在多种表现形式,比如可以根据字数的多少来进行比较;或者,可以根据每个字段的使用频率来进行比较;或者,可以采用每个字段的使用频率×第一预设系数的数值来进行比较;或者,可以采用每个字段的字数多少×第二预设系数的数值来进行比较等等。其中,当更加看重于使用频率时,可以设置第一预设系数大于(或远大于)第二预设系数。
在上述技术方案中,优选地,所述步骤206还包括:在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
在该技术方案中,由于多条记录数据分别存储在不同的节点,因而通过在最优记录数据和多条记录数据之间建立关联关系,就可以由任一节点的记录数据查询到其他任意节点的记录数据,具体地,可以由某个节点的记录数据关联至最优记录数据,再由最优记录数据关联至希望查询的另一节点的记录数据,便于对患者数据进行管理和任意调用。
图3示出了根据本发明的实施例的生成最优记录数据的具体流程图。
如图3所示,根据本发明的实施例的生成最优记录数据的具体流程包括:
步骤302,获取相关联的多条记录数据,具体如表1所示:
姓名 性别 年龄 住址
1(海淀医院) 张三 20 北京市
2(北医三院) 张三 20 北京市海淀区学院路309号
3(社区服务站) 张山 20 北京市海淀区学清路309号
表1
步骤304,分别获取所有字段的信息,比如在表1中,包括“姓名”、“性别”、“年龄”和“住址”四个字段,其中,对于第1条数据,包括所有字段的信息,而对于第2条数据和第3条数据,则在“性别”字段上的信息为“空”,而不认为其不具有该字段,以便于进行多条数据之间的比较。
步骤306,判断多条数据的相同字段上的信息是否唯一。若是,则进入步骤312,否则进入步骤308。具体地,比如在表1中,对于“性别”字段而言,只在第1条数据中有相关信息,因而可以直接作为最优字段。
步骤308,判断多条数据的相同字段上的信息是否相同。若是,则进入步骤312,否则进入步骤310。具体地,比如在表1中,对于“年龄”字段而言,所有数据均相同,因而可以直接作为最优字段。
步骤310,对于剩余的字段,可以做进一步地比较。具体地,可以通过比较其对应的权重值和/或信息的详细程度。
比如在表1中,“姓名”字段包括“张三”和“张山”。假定“海淀医院”对应的权重值为0.95,“北医三院”对应的权重值为0.92,而“社区服务站”对应的权重值为0.85,则由于“张三”对应于“海淀医院”和“北医三院”,而“张山”对应于“社区服务站”,因而“张山”对应的权重值更低,应该选择“张三”作为最优字段。
再比如对于“住址”字段,第1条数据仅涉及到“北京市”,而第2条和第3条数据则涉及到更为详细的地址,因而舍弃第1条;然后,由于第2条数据对应的“北医三院”的权重值更高,因此舍弃第3条,因此,将第2条数据的“住址”字段作为最优字段。
步骤312,根据上述比较、判断等步骤,利用唯一的、相同的、权重值最高和/或最详细的字段信息,生成最优字段。
步骤314,将所有的最优字段组合生成为最优记录数据。
此外,还可以将最优记录数据与所有用于生成该最优记录数据的多条记录数据进行关联,从而用户可以根据任意一条记录数据查询最优记录数据,还可以经由最优记录数据,从而查找到其他的记录数据。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种最优记录数据的生成系统和一种最优记录数据的生成方法,可以将多条记录数据进行比较处理后,生成一条能够比较完整准确地描述这些记录数据的同一主数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种最优记录数据的生成系统,其特征在于,包括:
记录数据获取单元,用于获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;
字段抽取单元,用于从所述多条相关联的记录数据中抽取具有相同属性的字段;
字段比较单元,用于将所述具有相同属性的字段进行比较,以确定最优字段;
字段组合单元,用于组合所有的最优字段,以生成最优记录数据。
2.根据权利要求1所述的最优记录数据的生成系统,其特征在于,所述字段比较单元用于:
在所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段的情况下,将该字段作为对应于所述指定属性的最优字段;以及
在所述多条相关联的记录数据中对应于相同属性的字段为相同字段的情况下,将该字段作为对应于所述指定属性的最优字段。
3.根据权利要求1或2所述的最优记录数据的生成系统,其特征在于,每条所述记录数据来自对应的域,则所述生成系统还包括:
权重设置单元,用于为每个所述域设置权重值;
其中,所述字段比较单元包括:
权重比较子单元,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每条字段所属记录数据对应的域的权重值;
字段选择子单元,用于根据所述权重比较子单元的比较结果,选择权重值最大的域对应的字段作为所述最优字段。
4.根据权利要求1或2所述的最优记录数据的生成系统,其特征在于,所述字段比较单元包括:
内容比较子单元,用于在所述多条相关联的记录数据中对应于相同属性的字段不完全相同的情况下,比较每个所述对应于相同属性的字段的内容;
字段选择子单元,用于根据所述内容比较子单元的比较结果,选择包含的内容最详细的字段作为所述最优字段。
5.根据权利要求1或2所述的最优记录数据的生成系统,其特征在于,还包括:
关联设置单元,用于在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
6.一种最优记录数据的生成方法,其特征在于,包括:
步骤202,获取多条相关联的记录数据,每条所述记录数据包括至少一种属性的字段;
步骤204,将所述多条相关联的记录数据中具有相同属性的字段进行比较,以确定最优字段;
步骤206,组合所有的最优字段,以生成最优记录数据。
7.根据权利要求6所述的最优记录数据的生成方法,其特征在于,所述步骤204包括:
当所述多条相关联的记录数据中仅有一条记录数据具有指定属性的字段,则将该字段作为对应于所述指定属性的最优字段;以及
若所述多条相关联的记录数据中对应于相同属性的字段为相同字段,则将该字段作为对应于所述指定属性的最优字段。
8.根据权利要求6或7所述的最优记录数据的生成方法,其特征在于,每条所述记录数据来自对应的域,则在所述步骤202之前,还包括:
为每个所述域设置权重值;以及
所述步骤204包括:
若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则根据每条字段所属记录数据对应的域的权重值,选择权重值最大的域对应的字段作为所述最优字段。
9.根据权利要求6或7所述的最优记录数据的生成方法,其特征在于,所述步骤204还包括:
若所述多条相关联的记录数据中对应于相同属性的字段不完全相同,则选择包含的内容最详细的字段作为所述最优字段。
10.根据权利要求6或7所述的最优记录数据的生成方法,其特征在于,所述步骤206还包括:
在所述最优记录数据与所述多条相关联的记录数据之间设置关联关系,并存储所述关联关系。
CN201310456703.0A 2013-09-29 2013-09-29 最优记录数据的生成系统和生成方法 Pending CN103514285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310456703.0A CN103514285A (zh) 2013-09-29 2013-09-29 最优记录数据的生成系统和生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310456703.0A CN103514285A (zh) 2013-09-29 2013-09-29 最优记录数据的生成系统和生成方法

Publications (1)

Publication Number Publication Date
CN103514285A true CN103514285A (zh) 2014-01-15

Family

ID=49897009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310456703.0A Pending CN103514285A (zh) 2013-09-29 2013-09-29 最优记录数据的生成系统和生成方法

Country Status (1)

Country Link
CN (1) CN103514285A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125A (zh) * 2016-09-19 2017-02-22 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN111488327A (zh) * 2019-01-29 2020-08-04 卓望数码技术(深圳)有限公司 一种数据标准管理方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975772A (zh) * 2006-12-22 2007-06-06 中国建设银行股份有限公司 整合多个系统中的信息的方法和装置
CN101296220A (zh) * 2007-04-29 2008-10-29 阿里巴巴集团控股有限公司 一种过滤信息的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975772A (zh) * 2006-12-22 2007-06-06 中国建设银行股份有限公司 整合多个系统中的信息的方法和装置
CN101296220A (zh) * 2007-04-29 2008-10-29 阿里巴巴集团控股有限公司 一种过滤信息的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125A (zh) * 2016-09-19 2017-02-22 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN111488327A (zh) * 2019-01-29 2020-08-04 卓望数码技术(深圳)有限公司 一种数据标准管理方法和系统
CN111488327B (zh) * 2019-01-29 2023-08-22 卓望数码技术(深圳)有限公司 一种数据标准管理方法和系统

Similar Documents

Publication Publication Date Title
US8676951B2 (en) Traffic reduction method for distributed key-value store
TWI584137B (zh) Search, determine the active area of ​​the method with the server
JP5288066B2 (ja) 匿名化装置
CN106534392B (zh) 一种定位信息采集方法、定位方法及装置
US20120036163A1 (en) Distributed multidimensional range search system and method
CN104933173B (zh) 一种用于异构多数据源的数据处理方法、装置和服务器
CN109388791B (zh) 图表动态展示方法、装置、计算机设备及存储介质
JP2013522781A (ja) ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ
CN105450705B (zh) 业务数据处理方法及设备
WO2020258905A1 (zh) 一种信息推送方法和装置
To et al. PrivGeoCrowd: A toolbox for studying private spatial crowdsourcing
KR20190016481A (ko) 클러스터링 기술을 사용하여 무선 네트워크 액세스 포인트 모델 생성
EP3217296A1 (en) Data query method and apparatus
US11593339B2 (en) Systems and methods for determining dataset intersection
CN114422885B (zh) 基于拓扑路由的路由搜索方法、装置、设备及介质
CN103514285A (zh) 最优记录数据的生成系统和生成方法
US11550792B2 (en) Systems and methods for joining datasets
CN105872635A (zh) 视频资源分发的方法和装置
JP2019109782A (ja) クエリ生成プログラム、クエリ生成方法およびクエリ生成装置
CN106789147B (zh) 一种流量分析方法及装置
CN108197188B (zh) 地址信息处理方法及装置
CN112068812B (zh) 一种微服务生成方法、装置、计算机设备和存储介质
US9607072B2 (en) System and method for implementing nested relationships within a schemaless database
KR20130005967A (ko) 개체 식별 결과 검색 시스템 및 방법
CN103207835A (zh) 一种通过自适应的Range分区存储海量数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: PKU HEALTHCARE IT CO., LTD.

Free format text: FORMER OWNER: FOUNDER INTERNATIONAL CO., LTD.

Effective date: 20150203

Free format text: FORMER OWNER: FOUNDER INTERNATIONAL (BEIJING) CO., LTD.

Effective date: 20150203

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215123 SUZHOU, JIANGSU PROVINCE TO: 100080 HAIDIAN, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20150203

Address after: 100080, No. 19, No. 52 West Fourth Ring Road, Beijing, Haidian District

Applicant after: Medical information Technology Co., Ltd. of Beijing University

Address before: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215123 Xinghu Street No. 328 Creative Industry Park founder International Building

Applicant before: Founder International Co., Ltd.

Applicant before: Founder international software (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115