CN107683477A - 数据质量管理系统和方法 - Google Patents

数据质量管理系统和方法 Download PDF

Info

Publication number
CN107683477A
CN107683477A CN201680032589.0A CN201680032589A CN107683477A CN 107683477 A CN107683477 A CN 107683477A CN 201680032589 A CN201680032589 A CN 201680032589A CN 107683477 A CN107683477 A CN 107683477A
Authority
CN
China
Prior art keywords
data
data storage
storage bank
mass fraction
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680032589.0A
Other languages
English (en)
Inventor
本·利斯菲尔德
罗兰·埃瓦尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liam Allen Medical Technology LLC
Original Assignee
Liam Allen Medical Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liam Allen Medical Technology LLC filed Critical Liam Allen Medical Technology LLC
Publication of CN107683477A publication Critical patent/CN107683477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • G06F7/026Magnitude comparison, i.e. determining the relative order of operands based on their numerical value, e.g. window comparator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Factory Administration (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

当前要求保护的主题涉及一种数据质量管理系统和方法,从第一数据储存库(101)接收包括第一获得数据和第一分配值的第一数据点,并确定和/或存储第一数据点的第一质量分数以及第一可存储数据。从第二数据储存库(102)接收第二数据点,该第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,该第二获得数据与第一获得数据相似,并根据第二数据点确定第二质量分数以及第二可存储数据,和/或存储第二质量分数以及第二可存储数据,向第一数据储存库(101)发送第二可发送数据,所述第二可发送数据根据第二数据点和/或第二质量分数确定,使得第一数据储存库(101)重新评估第一分配值。

Description

数据质量管理系统和方法
技术领域
本申请的主题涉及一种用于数据质量管理的系统和方法以及一种用于提高数据储存库的数据质量的方法,其中,前一种方法和后一种方法涉及多个相互关联的方法,因此形成单一的发明构思。
背景技术
现代技术可以快速识别和量化生物组织样品中的分子。这些技术的例子是质谱和DNA测序。识别和量化的过程已大大加快并变得越来越高效,因此也更便宜。这种技术的发展已经得出这一点:先进行分子分析再提出关于因果关系的假设似乎比先提出关于因果关系的假设再进行分子分析更为合适。通常,先收集大量数据,然后使用统计方法检验相关性。
一般来说,生物系统是非常复杂的。因此,能够检测的生物样本的数量或者能够从生物样品中提取的有意义数据点的数量可能少到几乎无法得出可靠的结论。而且,从中抽取样本的群体也可能是有限的或片面的,这会影响对数据点的解释。因此,为了对统计数据进行解释,对关于生物有机体的背景信息进行系统化和结构化收集是至关重要的。
生物研究或诊断中的数据对象及其价值不是一成不变的,该数据对象及其价值相当不稳定并被不断地重新评估和重新分类,该价值例如包括专家的评估。原因之一是很少能确定参数之间的因果关系,因此相关性是评估和分类的基础。相关性可能会随时间变化,且其利用每个附加的病例、患者、样品或其它有助于评估的背景信息加以证实。因此,生物数据的评估通常是在收集数据的地方进行的,这是因为通常在该地方有最多的人类专家意见。由于生物学和相关科学以及它们的相关技术领域的快速发展,数据模型和本体随着时间相当快速地变化。如果存在标准的话,则该标准往往很快就过时并被忽视。
由于任务的复杂性,人类专家的评估往往被认为优于计算预测。然而,两个不同的专家组可能会得出不同的结论,尽管双方在数据收集过程中都遵循相同的形式规则使得每个参与方都可以获得符合相同形式要求的数据。双方着眼于来自整个群体的不同的子样品,从而可能得出不同的结论,例如由不同的过去经验导致不同的结论。
现有技术US8359297描述了从数据元的多个源接收冲突数据值,使用冲突规则确定该数据元的主数据值,随后将主数据值存储以供使用。因此,会从多个源接收到完整数据集,并创建一个包含完整和统一数据集的主数据存储器。
现有技术没有解决数据所有权可能不属于单个实体使得不可能将所有数据存储在中央储存库中的问题。此外,数据可能受到保密,这种保密也可能会阻止将数据存储在中央储存库中,这种保密数据尤其适用于患者数据或临床数据,多个储存库可以独立运行且例如可能不能就解决数据冲突的一套特定规则达成一致。每个数据储存库可能都有它自己的解决冲突的特定规则。
发明内容
因此,本主题的目的是提供一种数据质量管理系统和方法,并提供一种用于自动提高计算机实现的数据储存库的数据质量的方法。所要求保护的系统和方法自动地提高数据质量,而不是仅仅确定和监视数据质量。
用于自动数据质量管理的方法和用于自动提高计算机实现的数据储存库的数据质量的方法涉及多个用于提高数据质量的相互关联的方法。这两种方法描述了用于自动数据传送的接口的两个相反方向,并因此形成单个发明构思。
以上目的通过当前要求保护的数据质量管理系统以及当前要求保护的数据质量管理方法以及当前要求保护的用于自动提高计算机实现的数据储存库的数据质量的方法来实现。在从属权利要求中还公开了当前要求保护的主题的有利的实施例。
根据当前要求保护的主题的数据质量管理系统包括中央计算组件以及到计算机实现的第一和第二数据储存库的计算机实现的数据传输连接,所述第一和第二数据储存库存储在至少一个数据库服务器上。
所述中央计算组件在计算设备上实现,所述中央计算组件包括计算机实现的数据存储模块、计算机实现的数据通信模块和计算机实现的质量评分模块,所述数据存储模块例如为数据库。
所述中央计算组件被配置为经由所述通信模块从所述第一数据储存库接收第一数据点,所述第一数据点包括第一获得数据和第一分配值。然后,中央计算组件被配置为在所述质量评分模块中确定所述第一数据点的第一质量分数,被配置为进一步确定第一可存储数据,所述第一可存储数据是根据所述第一数据点和/或所确定的第一质量分数确定的,并被配置为将所述第一可存储数据存储在所述存储模块中。
所述中央计算组件还被配置为经由所述通信模块从所述第二数据储存库接收第二数据点,所述第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似。然后,所述中央计算组件被配置为在所述质量评分模块中确定所述第二数据点的第二质量分数,并被配置为根据所述第二数据点和/或所述第二质量分数进一步确定第二可存储数据,并将所述第二可存储数据存储在所述存储模块中。
所述中央计算组件还被配置为,根据所述第二数据点和/或所述第二质量分数确定第二可发送数据,并向所述第一数据储存库发送所述第二可发送数据,使得所述第一数据储存库重新评估所述第一分配值。
例如,第一获得数据和第二获得数据可以是测量数据和/或实验数据、已被自动收集和/或电子收集或手动输入的数据。例如,第一获得数据和/或第二获得数据可以涉及生物学数据或遗传学数据。该获得数据以及分配值还可包括与如何获得该获得数据有关的信息、与在确定各自的第一分配值和/或第二分配值时使用的样本数量有关的信息、和/或与分配值被分配的确定性水平有关的信息。
第一分配值和/或第二分配值可依据算法通过统计学习过程自动地分配或由评估该获得数据的专家人工地分配。
第一和/或第二质量分数的确定可以例如仅基于从第一和/或第二数据储存库接收的元数据,该元数据包括与分配值所基于的特定获得数据的样本数量有关的元数据、或与用于收集该获得数据的方法有关的元数据和/或与用于分配该分配值的方法有关的元数据。
例如,如果第一和第二获得数据包含重叠数据、如果第一和/或第二数据的一部分是相同的、如果第一和第二获得数据从相同来源或相同样本获得、和/或如果第一和第二获得数据是相同的,则根据相似性度量可以认为第一和第二获得数据是相似的,也称为匹配的。
可存储第一数据可包含第一数据点的任何子集以及相应的质量分数,和/或可存储第二数据可包含第二数据点的任何子集以及相应的质量分数。具体地,可存储数据可以包含数据点标识符、该获得数据的质量分数的历史、与数据模型有关的信息和与模型转换有关的信息、与关于数据点的元数据有关的信息、和/或相应的质量分数的历史,其中与关于数据点的元数据有关的信息例如包括各个数据储存库中的变异体数量、或分配值的更新数量。优选地,第一和/或第二可存储数据至少包含数据标识符,该数据标识符包括与相应的数据储存库有关的信息。
所述质量评分模块用来确定质量分数的算法还可基于已由该质量评分模块评估的数据点的数量,即已被分配质量分数的数据点的数量。因此,可以在经过指定时间之后或者在评估了指定数量的数据点之后,重新评估和/或改变已由质量评分模块分配的质量分数,优选地,这些数据点是具有相似获得数据的数据点。
所述中央计算组件还可被配置为向所述第一数据储存库发送第二可发送数据,使得第一数据储存库更新第一分配值,所述第二可发送数据可包含可用数据的子集,该可用数据是确定的并包含与可存储数据相同格式的信息。优选地,所述第一分配值被更新为更新的第一分配值,所述更新的第一分配值与所述第一分配值不同,优选地,以这样的方式来提高所述更新的第一分配值的质量以供将来处理。
当多个不同的实体可能使用不同的收集和/或数值分配方案来收集和评估关于相似主题的数据时,即为收集的数据或获得的数据分配数值时,向第一数据储存库发送第二可发送数据使得第一数据储存库更新第一分配值是特别重要的。
优选地,所述第二可发送数据至少包括第二质量分数。将第二质量分数发送给所述第一数据储存库向所述第一数据储存库提供了与所发送的数据的优点有关的附加信息。
在存储在第二数据储存库中的第二相似数据点的分配值和/或元数据的基础上更新、改变和/或改进存储在第一数据储存库中的数据点的分配值,提供了产生改进的、更一致的数据收集的机会,同时保留了每个单独实体收集更多样本所需的能量(energy)。然后,该更新的数据和/或改进的数据可以在实际应用中使用,从而改善结果。例如,该更新的数据和/或改进的数据可用作自动化过程的输入、临床过程的输入和/或工业过程的输入。
所述中央计算组件还可被配置为从第一数据储存库接收更新的第一数据点,所述更新的第一数据点包括所述第一获得数据和更新的第一分配值。然后,所述中央计算组件可被配置为,在所述质量评分模块中确定所述更新的第一数据点的更新的第一质量分数,根据所述更新的第一数据点和/或所述更新的第一质量分数确定更新的第一可存储数据,并将所述更新的第一可存储数据存储在存储模块中。此外,所述中央计算组件可被配置为经由所述计算机实现的数据通信模块向所述第一和/或第二数据储存库发送所述更新的第一质量分数。
该数据质量管理系统还可包括计算机实现的模型转换模块,该模型转换模块被配置为将数据从第一数据格式转换为第二数据格式。具体地,当第一数据储存库包含以第一数据格式存储的数据并且第二数据储存库包含以第二数据格式存储的数据时,中央计算组件可被配置为在模型转换模块中,将从第一数据储存库接收的数据转换为第二数据格式、将从第二数据储存库接收的数据转换为第一数据格式、和/或将从第一和/或第二数据储存库接收的数据转换为中央数据格式。
由于第一和第二数据储存库可能属于不同的实体和/或由不同的实体管理,因此第一和第二数据点可能以不同的和/或不兼容的数据格式存储。因此,即使数据点以不同的数据格式存储,模型转换单元也可以允许对与相似的获得数据有关的数据点进行比较。
此外,数据质量管理系统可包括第一和/或第二数据储存库,其中每个相应的数据储存库可包括通信模块、存储模块和/或元数据模块,该通信模块用作接口。
所述元数据模块用于根据存储在数据储存库中的实际数据来确定元数据,该元数据即描述实际数据的数据。例如,元数据可包含与大量样本有关的信息、与如何收集数据有关的信息、和/或与数据如何随时间变化有关的信息。在包含个人信息和/或机密信息的数据储存库中,元数据可用于在向不同的数据处理设备提交数据之前对该数据进行匿名化处理。
当前要求保护的用于自动数据质量管理的方法包括实现为在计算机处理器上执行的以下步骤:
-从第一数据储存库接收第一数据点,所述第一数据点包括第一获得数据和第一分配值,
-确定所述第一数据点的第一质量分数,
-根据所述第一数据点和/或所述第一质量分数确定第一可存储数据,
-将所述第一可存储数据存储在计算机实现的中央存储模块中,
-从第二数据储存库接收第二数据点,所述第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似,
-确定所述第二数据点的第二质量分数,
-根据所述第二数据点和/或所述第二质量分数确定第二可存储数据,
-将所述第二可存储数据存储在所述存储模块中,和
-向所述第一数据储存库发送根据所述第二数据点和/或所述第二质量分数确定的可发送第二数据,使得所述第一数据储存库重新评估所述第一分配值。
向所述第一数据储存库发送所述可发送第二数据的步骤尤其可使得所述第一数据储存库更新第一分配值。优选地,更新的第一分配值可以不同于第一分配值。
关于所要求保护的系统的、如上面所述的第一数据点、第二数据点和/或更新的数据点、获得数据、分配值、质量分数和/或可存储数据的其它有利的和可能的特征,也适用于所要求保护的用于自动数据质量管理的方法。
用于自动数据质量管理的方法还可以包括以下步骤:
-从第一数据储存库接收更新的第一数据点,所述更新的第一数据点包括第一获得数据和更新的第一分配值,
-确定所述更新的第一数据点的更新的第一质量分数,
-根据所述更新的第一数据点和/或所述更新的第一质量分数确定更新的第一可存储数据,
-将所述更新的第一可存储数据存储在所述中央存储模块中。
另外,用于自动数据质量管理的方法可以包括向所述第一和/或第二数据储存库发送所述更新的第一质量分数的步骤。
此外,数据质量管理系统和/或用于自动数据质量管理的方法的第一和/或第二获得数据可以优选地包括生物学数据、医学数据、遗传学数据和/或基因组数据。生物学数据和医学数据可包括与生物样品中特定分子的存在或数量或浓度有关的信息,或与生物样品中分子片段的存在或数量或浓度有关的信息。医学信息还可包括生理特征的描述和病理信息的描述。遗传学数据和基因组数据可包括与从生物样品得到的遗传信息中的特定结构特征或基因序列的存在或不存在有关的信息。
优选地,当前要求保护的方法被用在用于数据质量管理的计算机程序产品中,该计算机程序产品被存储在计算机可读介质上,并且该计算机程序产品被配置为,当在计算机上运行时,执行如上所述的用于数据质量管理的方法。
当前要求保护的用于自动提高计算机实现的数据储存库的数据质量的方法包括以下步骤:
-向中央计算组件发送第一数据点,所述第一数据点包括第一获得数据和第一分配值,
-从所述中央计算组件接收关于第二数据点的信息,所述第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似,
-基于所接收的关于第二数据点的信息重新评估第一分配值。
重新评估第一分配值可以包括自动更新、改变和/或改进第一分配值。
用于提高计算机实现的数据储存库的数据质量的方法还可包括,确定存储在所述数据储存库中的数据点的质量分数的步骤,或确定从中央计算组件或另一数据储存库接收的数据点的质量分数的步骤。
确定质量分数也可以在数据储存库的特定质量评分模块内发生,独立于由中央通信模块确定的质量分数。如果数据储存库想要实现与中央计算组件的质量标准不同的质量标准,或者存储在数据储存库中的数据以及从数据中获得的元数据是保密的,则这可以是有利的。
关于所要求保护的系统的、如上所述的第一数据点、第二数据点和/或更新的数据点、获得数据、分配值、质量分数和/或可存储数据的其它有利的和可能的特征也适用于所要求保护的用于自动数据质量管理的方法。
当前要求保护的数据质量管理系统还可包括计算机实现的第一和/或第二数据储存库接口中的至少一个,所述第一和/或第二数据储存库接口被配置为在数据库服务器上运行。第一和/或第二数据储存库接口可以根据如上所述的用于提高计算机实现的数据储存库的数据质量的方法来配置。
附图说明
以下参照下面的附图对当前所要求保护的主题的示例性实施例进行描述,其中,
图1示出了由中央计算组件、多个数据储存库和读写器终端组成的网络的示意图,
图2示出了中央计算组件的子组件和数据储存库的子组件,
图3描绘了示出中央计算组件从储存库接收数据时所执行的步骤的流程图,
图4描绘了示出由数据储存库执行的数据检查过程的流程图,
图5示出了示出质量分数的分布式计算的不同步骤的流程图,
图6示出了调解冲突解决的流程图。
具体实施方式
图1示出了根据示例性实施例的用于数据质量管理的系统的示意图,该系统包括中央计算组件100,该中央计算组件也称为中央集线器组件或中央集线器,该中央集线器组件提供接口和到实体的数据传输连接105、106、107,每个实体包括生物参考数据储存库101、102、103。在下文中,整个中央集线器组件100和所连接的数据储存库101、102、103将称为“网络”。数据储存库101、102、103的数据模型与其本体可以彼此不同。
在所要求保护的主题的另一个实施例中,也如图1所示,中央组件100不仅可以对到数据储存器101、102、103的接口进行维护,而且还可以对到至少一个读写器终端104的数据传输连接108进行维护,所述至少一个读写器终端104从中央组件100检索数据,且不由大型数据储存库本身构成。
在所要求保护的主题的有利实施例中,如图2所示,中央集线器组件100由子组件组成,这些子组件例如为通信模块201、质量评分模块202、存储模块203以及模型转换模块204,通信模块201与数据储存库101、102、103和读写器终端104进行通信,质量评分模块202执行质量分数的计算,以及存储模块203用于将质量分数等数据提交给非暂态存储器。
仍如图2所示,数据储存库101由存储模块206、元数据模块205、通信模块207和数据管理模块208组成,存储模块206用于存储生物参考数据,元数据模块205根据存储模块206中的数据计算元数据,以及通信模块207用作数据交换的接口。
根据一个实施例,数据储存库101、102、103和中央集线器组件100通过传输控制协议/互联网协议(Transmission Control Protocol/Internet Protocol,TCP/IP)进行连接,这些数据储存库和该中央集线器组件的应用程序界面(Application ProgramInterface,API)通过超文本传输协议(Hyper Text Transport Protocol,HTTP)端点进行显示,并且这些数据储存库和该中央集线器组件可提供用于消息传送的附加专用接口(例如,高级消息队列协议(Advanced Message Queuing Protocol,AMPQ))。数据储存库101、102、103和中央集线器100都可以发起通信。组件之间的通信通过加密套接字协议层(Security Socket Layer,SSL)(即,使用安全超文本传输协议(Hyper Text TransferProtocol over Secure Socket Layer,HTTPS)和AMPQ+SSL)加密。额外的网络安全措施可在于为特定数据储存库101、102、103建立虚拟专用网络(Virtual Private Network,VPN),以提供额外的安全层。存储模块206可由一个或多个关系数据库(关系型数据库管理系统(Relational Database Management System,RDBMS),使用结构化查询语言(StructuredQuery Language,SQL))或不仅仅SQL(Not Only Structured Query Language,NoSQL)数据库组成,而NoSQL数据库由文档、图形或关键值数据结构组成。
虽然所传送的数据的基本完整性由网络堆栈中的较低层(例如经由IP校验)来保证,但是中央集线器100和数据储存库101、102、103可以运行连续的监视和验证服务(“监视器”),以在运行时检查服务的不一致性和质量(例如更新信息的及时传播)。
如图3所示,数据储存库“A”101向中央集线器100传输301数据点“1”,该数据点“1”由数据对象标识符、数据属性和一个或多个元数据属性组成,其中数据属性例如为测量数据或实验数据,元数据属性例如为样本的数量。中央集线器100确定302网络中没有匹配的数据对象,根据数据点“1”计算304质量分数,并向它自己的存储器203提交305至少一些数据。一旦这个过程已执行了至少一次,则中央集线器100就会一直将传输的数据与其存储器203中的数据进行比较,以确定网络中是否存在其它匹配的即相似的数据对象。
如果中央集线器100现在从数据储存库“B”102接收到数据点“2”,数据点“2”因和数据点“1”包含某些相同的信息而类似于数据点“1”,则中央集线器确定302存在匹配的数据点“1”,并从中央集线器100自己的存储器203或者从相应的数据储存库“A”101的存储器206中检索303该数据点和/或该数据点的质量分数。该中央集线器计算304传输的数据的质量分数,将传输和/或计算的数据中的一些存储305在中央集线器100的存储器203中,并向一个或多个数据储存库101、102、103发送306数据对象标识符和质量分数。在一有利的实施例中,向包含匹配即相似的数据对象的所有储存库101、102、103发送数据。然后包含匹配的数据对象的数据储存库101、102、103使用所接收的数据来重新评估它们自己的数据,使得数据储存库“A”更新并改变与数据点“1”相关联的多个值中的一些值。然后数据储存库“A”将更新的数据点“1”重新发送到中央集线器100,使得中央集线器100重新计算更新的数据点“1”的质量分数。
如图1所示且如上所述的网络的不同组件可被实现为用于数据质量管理的计算机程序产品,该计算机程序产品可以存储在至少一个计算机实现的介质上,该介质例如为硬盘驱动器、CD-ROM、DVD或任何其它类型的非瞬态计算机可读存储器。然后该计算机程序产品被配置和实现为,当在至少一个计算机上运行时,带来在以上网络环境中描述的改变。
在一有利的实施例中,中央集线器100对数据储存库101、102、103如何随时间重新评估、更新和/或改变数据对象的信息进行存储。如下所述,该信息还可以用于计算质量分数。在一个实施例中,数据储存库101、102、103可以发起数据到中央集线器100的传输。在另一个实施例中,传输可以由中央集线器100发起,例如以便确定数据储存库101、102、103中的数据是否被改变或更新。
数据是否被改变或更新可以用包含关于人类DNA变异体的信息的数据储存库101、102、103的例子来说明。变异体可以被以下内容唯一地描述:a)人类基因组中观察到变化的坐标和b)所观察到的相对于参考基因组的变化。变异体可被描述为“g.43076586dupT”,这表示在基因组中的位置43076586处复制了字母“T”。以这种方式,可以跨越多个不同的储存库来识别变异体。
在本示例的情况下,在中央计算组件的存储模块中,存储的数据可包含:变异体的描述(例如g124566992C>T)以及哪个储存库包含关于该描述的信息;变异体的分类(良性、可能的良性、意义未知、可能致病、致病);针对变异体、提交者和/或储存库之类的不同对象所计算的所有质量分数;加权因子;质量分数的历史;每个变异体数据/每个基因数据/每个储存库数据和/或其它数据;用于元数据预测能力的参数;这些参数的历史;在质量分数计算期间生成的、包括每个储存库的变异体数量和/或每个储存库随时间的更新量等的元数据(以确定最活跃的储存库);和/或与储存库中的数据模型有关或与模型转换有关的信息。
使用数据储存库“A”的实验室确定了新的病例,并因此发现了这个实验对象的DNA序列中的新的变异体。与该变异体相关的数据包含关于该变异体影响的数据属性,例如,该变异体是“致病的”。储存库“A”将该数据提交到它的存储器。该数据将由实验室在后续分析中作为内部参考数据库重复使用。
数据储存库“A”还向中央集线器组件发送变异体的标识符、基于基因组坐标的唯一描述(“g.43076586dupT”)、数据属性(“致病”)以及与变异体和相关信息有关的元数据。元数据可例如包括与分析的实验对象的数量有关的信息。
在数据储存库101、102、103的情况中,包含与人类基因组相似性有关的信息可表示存在坐标(位置)相似性和/或存在相似区域中特定序列变化的相似性,坐标(位置)相似性即影响相同或相似的区域,相似区域中特定序列变化的相似性即在某个坐标区域中导致相同或相似的蛋白质变化、描述相似的大的缺失和/或产生相似的影响。通常,如果生物体中产生或引起了相似的变化,则可认为生物学数据、医学数据、遗传学数据和/或基因组数据是相似的。
如果存储在储存库中的对象是生物标志物和/或生物分子,则可以将相似性定义为分子结构的相似性。在某种情况下,可以将较大蛋白质AB的通过质谱法测量的两个不同片段A和B解释为该一个蛋白质AB存在的证据。因此在确定人类有机体的某种状态时可将片段A和B的浓度水平认为是等同物。分子可能在不同的储存库中简单地称为不同的名称。
中央组件100接收数据,并将该数据与该中央组件的存储器203中所包含的数据进行比较。此时,中央集线器100在其存储器203中找到匹配的(即,类似的)变异体,该中央集线器检索与该变异体有关的数据,根据其从储存库“A”接收的数据计算一个或多个质量分数,并将包括从其它储存库的数据获得的质量分数的质量分数、和相关数据属性、和元数据传输回到所有存储该变异体的储存库。数据储存库“B”和“D”将该变异体评价为“良性”。然后储存库“A”显示具有最高质量分数(例如来自储存库“B”)的数据属性,以及来自储存库“B”的附加元数据(例如病例数量、分析类型、其它支持性证据)。当质量分数表明来自储存库“B”的数据是有效的时,储存库“A”启动以下动作中一个或多个:对该变异体进行评估的重新评估过程404,标记403与该变异体相关联的报告病例(即,这表示在结果可用于医疗诊断之前需要检查),向实验室用户发送电子邮件通知,以及启动半自动冲突解决工作流程。
在另一个实施例中,中央集线器组件100在冲突解决之后不更改数据储存库101、102、103中的数据或不激活对数据储存库101、102、103中的数据的更改,而是将与参考数据对象有关的元数据集中存储在非瞬时存储器中,该元数据例如为最终评估的信息。
在所要求保护的主题的另一个实施例中,在中央组件100中基于元数据执行重新评估过程。自动或半自动的重新评估中的每一个步骤都被记录并存储在中央集线器组件100中。由此在任何时候都可以及时地确认、检查或重新执行该过程。
数据集线器组件100可以聚合所有数据储存库101、102、103中的信息。这可以认为是以搜索请求形式进行的,该搜索请求由数据储存库101、102、103中的一个数据储存器或读写器终端104发出并向中央集线器组件100提交。接着,中央集线器组件100将该请求转发到数据储存库101、102、103。然后中央集线器组件100能够接收搜索结果并将该搜索结果返回到发起请求的实体。
在另一个实施例中,中央集线器组件100执行持续的数据维护。该中央集线器组件持续地整合和合并新的信息,考虑到数据储存库101、102、103的规模,该信息是不可能手动完成的。该信息被转发到一个或多个数据储存库101、102、103,该一个或多个数据储存库可由中央组件100的配置确定。
在另一个实施例中,生成对参与方(维护数据储存库的组织、将数据提交给储存库的管理者等)的奖励。冲突解决的成功参与提高了与个人、组织和/或数据库相关的质量分数。向该网络公开该质量分数,优选地,以表示成就等级的“徽章”系统的形式向该网络公开该质量分数。以这种方式,可以使参与方活跃以提高整个网络的数据质量。在另一个实施例中,这些成就等级向第三方显示,使得这些成就等级可用于建立专家声誉。
图4示出了根据示例性实施例的检查过程,该检查过程由数据储存库在从中央集线器100接收401数据时执行。数据储存库首先确定402数据储存库存储的数据与中央集线器存储的数据之间是否存在冲突。在确定存在冲突的情况下,标记403该数据并触发404数据检查过程。之后,确定406检查过程是否改变了评估,在确定已改变评估的情况下向中央集线器100提交406更新的数据。在另一个实施例中,该系统包括含有生物参考数据的数据储存库。该数据储存库显示到中央集线器组件的接口。该数据储存库能够显示本地存储的数据和中央集线器组件100中存储的数据。该显示是重要的,例如当本地版本的数据对象属性与中央集线器版本的数据对象属性不同时,该显示是重要的。在人类DNA变异体的情况下,数据对象属性可为以下分类:DNA变异体在本地被归类为“致病”,但被中央集线器组件100归类为“良性”。
在另一个实施例中,如果来自中央集线器100的数据属性的一个或多个质量分数高于本地质量分数,则本地数据储存库101、102、103可被配置为利用接收自集线器100的数据来重写数据属性。在另一个实施例中,本地储存库101、102、103支持作为独立过程的数据输入和管理,该数据输入和管理可被改变,且该改变需要正式记录。操作数据储存库101、102、103的实体可对这些过程的细节和记录具有不同的要求。通过将过程定义与软件实施进行分离,过程的改变和软件的改变/更新都是分离的并可以独立执行。
在另一个实施例中,本地储存库101、102、103提供有模块,这些模块包括工作流程的一个或多个步骤,该一个或多个步骤可以用来构造用于数据输入和检查的整个工作流程。可以从这些工作流程的构造中得到另一质量分数:部署包含特定步骤的工作流程的实体比部署仅具有这些步骤子集的工作流程的实体获得更高的分数。类似地,质量分数可与在特定工作流程之后创建的数据对象有关。
在另一个实施例中,本地数据储存库101、102、103通过工作流程来调解对数据对象的检查和重新评估,该工作流程包括显示冲突数据列表、显示从中央集线器组件100接收到的数据属性、以及提供输入附加信息的装置,接着,该本地数据储存库向中央集线器组件100发送附加信息。
在另一个实施例中,本地数据储存库101、102、103对传输到中央集线器组件100的所有数据进行去识别化。
在另一个实施例中,在数据被提交到本地数据储存库的存储器206之前,在数据输入期间,本地数据储存库101、102、103显示从中央集线器组件100接收的信息。优选地,所显示的信息涉及与用中央集线器组件100登记的数据对象的潜在冲突。
在另一个实施例中,附加数据储存库101、102、103设置为描述公共可用的数据集。可使用该数据经由如上所述的数据和模型转换方法来定期更新这些特殊的数据储存库101、102、103。因此用户可以考虑他们可能不赞成的、以与系统中的其它数据相同的术语(和用户界面)进行表达的参考数据。
已通过检查过程更新和改进的数据可用作自动化应用的输入、临床应用的输入和/或工业过程的输入,并因此可用于改进其它过程和/或使其它过程更具成本效益、更省时和/或更具能源效率。
在另一个实施例中,如图5所示,每个数据储存库101、102、103还可计算和分配其自己的质量分数,该质量分数可基于中央集线器100的质量分数和其它数据储存库101、102、103的质量分数、以及因道德或法律原因而不能使用的数据的质量分数(因为不能使用意味着数据被发送到中央集线器)。数据储存库101、102、103可为来自主机的质量分数和来自其它数据储存库的质量分数分配加权因子,从而创建“信用网络”。
图5示出了用于管理由中央集线器100控制的(私有)质量分数的分布式计算的示例性工作流程。数据储存库101、102、103可通过依靠其它数据储存库101、102、103的私有分数来定义其私有质量分数,从而隐式订阅(subscribe)那些数据储存库101、102、103中的质量分数的改变。然后数据储存库101、102、103向中央集线器100通知501重新计算的私有分数。中央集线器100确定502公用分数是否受到该变化的影响,并在确定受到该变化的影响的情况下重新计算503该公用分数。然后,中央集线器100将当前分数分配504给所有订阅的储存库,使得这些储存库重新计算它们的私有分数,然后该私有分数由中央集线器100接收505。由于该过程可能引入私有质量分数之间的循环依赖,因此该重新计算被迭代地执行。迭代计算的停止条件506例如仅允许固定次数的跌代重新计算,或者只要重新计算之后的差异可以忽略就可以停止重新计算。在这种迭代重新计算507不能解决冲突分数的情况下,触发手动、半自动或自动的冲突解决,并且将该冲突报告508给数据储存库101、102、103。中央集线器100可以通过查询数据储存库101、102、103来触发质量分数的分布式重新计算,例如,在可获得与一组匹配数据对象有关的新信息的情况下。
在另一个实施例中,如图6所示,重新评估过程可以由中央集线器组件100调解。该中央集线器100初始化用于重新评估数据的特定工作流程。这样的工作流程可包括:
-从数据储存库101、102、103或读写器终端104接收重新评估请求601。替代地,中央集线器组件100可在发现数据冲突时自己发出重新评估请求。
-从数据储存库101、102、103接收应答602,
-向所有相关的数据储存库101、102、103发送请求以检查603特定数据对象,
-通过在数据储存库101、102、103之间中继消息604来调解半自动的冲突解决,这种消息潜在地包含支持或否定特定数据属性的附加数据,
-合并并存储605数据对象属性的最终评估。
尽管上述工作流程可适用于具有缓慢改变内容的小的数据储存库101、102、103,但所要求保护的主题也为大且快速变化的数据储存库提供了更快和更自动化的工作流程。在一个实施例中,中央集线器组件100根据与数据对象一起存储在数据储存库中的元数据来计算数据对象的质量分数。然后中央集线器100比较来自不同数据储存库的数据对象的质量分数,并自动选择最高等级数据对象的属性作为最终评估。
对于以下示例,令c1,...,cn为数据储存库101、102、103中与特定变异体相关联的所有临床病例,并且令每个病例ci由k个元数据属性组成:ci=(di 1,...,di k1)。
在其他因素中,以下信息被认为是元数据:支持数据对象分类的实验数据或证据,与样本有关的信息、与对象有关的信息、与对象的实验历史或临床历史有关的信息。在简化的实施例中,质量分数q是元数据对象的数量的线性函数,该元数据对象与所讨论的数据对象相关。例如:
q=an+b
更精心设计的质量分数可以使用相关元数据的加权函数,其中元数据的权重wj取决于元数据的类型:
可认为对质量分数有巨大贡献的元数据可以是,例如,实验测量数据(=定量数据)。另一方面,可认为定性数据对于质量分数而言不太重要。质量分数也可由与特定数据对象相关的元数据的一致性来确定。不一致的元数据将因此降低质量分数,反之亦然。
在另一个实施例中,如果中央集线器100中存在数据对象的多个分类中的一些分类,则数据对象的这些分类的统计分布由数据储存库网络来确定。然后中央集线器组件100确定(例如,计算)该分布的均值或中值或另一有意义的参数,并使用该结果来确定最终评估以解决分类中的冲突。在进一步发展中,根据属于特定数据储存库101、102、103的分数W或属于将数据提交给数据储存库的特定人或自动化管理者的分数W,对统计分布的数值应用加权,例如:
qi如上定义
在另一个实施例中,质量分数是根据数据储存库的属性、或数据储存库的特定部件的属性、或维护该数据储存库的组织的属性来确定的。较大的数据储存库或具有高数据生成率的数据储存库可被赋予综合较高的分数。
质量分数也可以根据储存库的特定子域的属性得到。特定的储存库可包含例如,多个与特定基因相关的数据集,使得该特定的储存库可被评定为具有该领域的专业知识。当将来自该子域的数据对象与来自另一个储存库的相应数据对象进行比较时,具有更多数量数据集的储存库可被赋予更高的质量分数,因此来自该储存库的分类和数据属性可能优于来自其它储存库的分类和数据属性。还可使用其它参数p1,...,pl代替数据集的数量来确定质量分数,该参数如在子域中检查到的实验对象的数量或者在子域中发现的生物对象(例如DNA变异体)的数量,例如,
qi如上定义
在另一个实施例中,通过监测每种元数据对特定数据对象的预测能力以及该预测能力如何随时间变化,对质量评分方法中使用的因子进行自适应地重新加权。这也促使不断地改进质量评分方法本身,例如,以将对实验室信誉减弱(或赢得)的影响、或对相似数据对象在给定数据储存库中的数量的减少(或获得)的影响确定为其可信度的度量。在另一个实施例中,涉及某个实体(储存库/组织/管理者)的重新评估历史用于计算质量分数。那些数据评估在重新评估历史上占优势的实体将优于其它实体。
在另一个实施例中,中央集线器组件100可在来自数据储存库101、102、103的数据模型之间执行模型转换,使得中央集线器组件100能够将数据储存库的数据模型以及数据储存库的本体映射到彼此。作为一个示例,这可应用到例如人类基因组的DNA变异体的映射。描述人类基因组中变异体的名称不是一一对应的。这意味着一个特定的变化可能会由两个不同的术语进行有效地描述。中央集线器组件可应用更严格的、不含糊的名称,并对来自数据储存库的所有数据对象相应地进行转换。本体映射的另一个示例是不同的DNA变异体分类的映射。每个数据储存库实体可以定义其自己的分类方案以对人类基因组中的变异体进行评价,这可能偏离了例如美国医学遗传学和基因组学院所提出的建议。为了正确地比较和匹配来自不同数据储存库的DNA变异体,中央集线器组件将对数据储存库的分类方案的转换应用到该集线器组件自己的分类本体中。
由于数据模型和本体会不断的变化,因此中央集线器组件允许对数据模型和本体转换进行更改。为此,只需更新或调试中央集线器组件的、负责特定数据储存库101、102、103的模型转换的特定模块。中央集线器组件100对到数据储存库的两个不同接口进行维护:一个专用于生物参考数据的交换,另一个专用于与模型和本体有关的信息的交换。
关于以上提及的实施例,特别是与例如参照图5所描述的分布式质量分数的计算有关的实施例,以下的实施例也可替代前述的实施例或附加到前述的实施例。
分散的集线器:
在另一个实施例中,中央计算组件通过多个中央计算组件实例实现,每个中央计算组件实例都提供相同的应用程序接口(Application Programming Interface,API)。这些中央计算组件实例可以在近期内在彼此之间同步数据点、分配值、质量分数、以及这些实例的模型转换方法的变化。这允许在没有单点故障的情况下实现中央计算组件实例的最终一致的分布式系统。例如,高可用性的数据储存库因此可以与多个中央计算组件实例进行通信,并尝试与每个中央计算组件实例进行数据同步。作为另一个实施例,中央计算组件实例也可以与数据储存库共处一处,例如,用于本地数据网络中的本地部署。通过允许中央计算组件实例在彼此之间交换消息、给定预定义数据同步协议,可以保证系统的总体状态在近期内保持一致。
分散的集线器层级:
在另一个实施例中,分布在多个中央计算组件实例上的上述中央计算组件还可构造成组件组层级,每个组件组包含多个中央计算组件实体。根据具体的方法或操作方面,每个组件组可包含多个中央计算组件实体,例如高可用性的中央计算组件实例、共享公用质量分数的中央计算组件实例、彼此几乎紧密同步的中央计算组件实例(参见上文)等等。这些组件组通过每个组内的专用中央计算组件实例之间的通信来确保完成数据同步,专用中央计算组件实例还与组外的中央计算组件实例通信。替代地,附加的中央计算组件实例可用作组件组之间的中介器。
自动修正:
在另一个实施例中,在交换数据可被馈送到中央计算组件之前,中央计算组件和数据储存库可协商哪些方面的交换数据应该借助于质量分数以自动化方式进行管理,以及协商哪些方面需要人工用户干预(或用户确认)。中央计算组件可以
-自动应用对策来修正分配值或元数据,并且只向发送方数据储存库通知该修正,或者可以
-拒绝数据,直到修正了特定的元数据元素(在不能进行自动修正的情况下)。如果在中央计算组件可正确计算质量分数并可进一步处理数据之前,发现一些与数据一起传输的元数据是无效的并且需要被修正,那么拒绝数据是必要的。
例如,元数据定义了一组遗传变异体所参考的遗传参考构建体,该元数据可能被识别成错误的(例如,在变异体指出改变的情况下,该改变假设参考核苷酸不同于基因组参考构建体的参考核苷酸)。这个问题可以被自动修正(例如通过识别与数据一致的唯一参考构建体),使得仅需通知数据储存库该自动修正。替代地,如果自动修正失败,则需要通知数据储存库本地干预(元数据的修正,例如元数据的手动修正)以进行进一步数据处理。
缩放和质量分数:
在另一个实施例中,数据储存库和中央计算组件可以根据以前所协商的过滤质量标准,在数据被传输之前对该数据进行预过滤。这与在网络中节点之间传输的数据量太大而不能处理的情况有关。数据预过滤可以基于质量分数、预定义规则、或由数据储存库的用户所做的交互式手动配置。特别地,适当的过滤可以以与调整、改进和学习适当的质量分数相同的方式自主地适应和学习。
通过外部系统进行的按需数据和质量分数修正
在另一个实施例中,中央计算组件可以通过附加接口触发外部系统,使得通知外部系统数据不一致,该数据不一致在没有诸如手动操作的外部干预的情况下不能被满意地解决。需要解决的不一致可包括数据、质量分数、元数据及其任何组合。被解决的不一致本质上被视为数据,因此可以与其它的元数据和质量分数相关联。外部系统可以将该数据报告回中央计算组件,然后中央计算组件在网络中分发所述数据。
自动化和交互式协作:
在另一个实施例中,数据储存库可以请求协助或可以请求协作,例如以解决数据冲突或收集额外的临床证据。这是通过自动通知中央计算组件来实现的,中央计算组件转而查询所有的其它数据储存库。这个过程也可以由数据储存库的用户以交互方式触发。该过程本身可创建新的数据点、元数据,并可与质量分数相关联。
通过数据储存库进行的质量度量和元数据的按需交换:
在另一个实施例中,数据储存库可以通过向中央计算组件(的实例)通知存在任何定制逻辑方法并根据需要传输该逻辑本身,来共享用于对本地质量分数进行计算、过滤本地数据、以及发现和/或解决本地数据冲突的任何定制逻辑。
附图标记列表:
100 中央计算组件
101 数据储存库
102 另一个数据储存库
103 另一个数据储存库
104 读写器终端
201 中央计算组件的通信模块
202 中央计算组件的质量评分模块
203 中央计算组件的存储模块
204 中央计算组件的模型转换模块
205 数据储存库的元数据模块
206 数据储存库的存储模块
207 数据储存库的通信模块
208 数据储存库的数据管理模块
301 数据储存库向中央计算组件发送数据
302 确定网络中是否存在相似的对象
303 从存储器中检索相似的对象
304 通过中央计算组件计算质量分数
305 通过中央计算组件存储质量分数
306 向一个或多个数据储存库发送质量分数
401 数据储存库从中央计算组件接收数据
402 确定数据冲突
403 标记数据对象
404 触发检查过程
405 确定评估发生变化
406 向中央计算组件发送数据
501 向中央计算组件通知重新计算的私有分数
502 确定公用分数是否受到变化的影响
503 重新计算公用分数
504将当前分数分发给订阅的数据储存库
505 从数据储存库接收更新的私有分数
506 确定是否至少一个私有分数被改变并且停止迭代条件是错误的
507 确定是否没有分数受到影响,即达到了固定点
508 向储存库报告冲突
601 生成重新评估请求
602 从数据储存库接收应答
603 向相关的数据储存库发送请求
604 在附属储存库之间中继消息
605 合并最终评估
根据示例以及附加的其它方面,本申请涉及以下方面。申请人根据对描述的主题和方面的任何部分和组合来保留将来提交分案申请的权利。
根据中央计算组件的系统
1、一种数据质量管理系统,包括:
-中央计算组件,该中央计算组件在计算设备上实现,该中央计算组件包括计算机实现的数据存储模块、计算机实现的数据通信模块和计算机实现的质量评分模块;以及
-到计算机实现的第一和第二数据储存库的计算机实现的数据传输连接,该第一和第二数据储存库存储在至少一个数据库服务器上;
其中,中央计算组件被配置为经由通信模块从第一数据储存库接收第一数据点,该第一数据点包括第一获得数据和第一分配值,被配置为在质量评分模块中确定第一数据点的第一质量分数,并被配置为根据第一数据点和/或第一质量分数确定第一可存储数据,并将第一可存储数据存储在存储模块中;
其中,中央计算组件还被配置为经由计算机实现的通信模块从第二数据储存库接收第二数据点,该第二数据点包括第二获得数据和第二分配值,被配置为在质量评分模块中确定第二数据点的第二质量分数,并被配置为根据第二数据点和/或第二质量分数确定第二可存储数据,并将第二可存储数据存储在存储模块中;以及
其中,根据预定义相似性度量,第二获得数据与第一获得数据相似,并且中央计算组件还被配置为向第一数据储存库发送根据第二数据点和/或第二质量分数确定的第二可发送数据,使得第一数据储存库重新评估第一分配值。
2、根据方面1所述的系统,其中,中央组件还被配置为向第一数据储存库发送第一质量分数,和/或向第二数据储存库发送第二质量分数。
3、根据方面1或2所述的系统,其中,中央计算组件被配置为向第一数据储存库发送第二可发送数据,使得第一数据储存库更新第一分配值。
4、根据方面3所述的系统,其中,中央计算组件还被配置为从第一数据储存库接收更新的第一数据点,该更新的第一数据点包括第一获得数据和更新的第一分配值,被配置为在质量评分模块中确定更新的第一数据点的更新的第一质量分数,并被配置为根据更新的第一数据点和/或更新的第一质量分数确定更新的第一可存储数据,并将更新的第一可存储数据存储在存储模块中。
5、根据方面4所述的系统,其中,中央计算组件还被配置为经由计算机实现的数据通信模块向第一和/或第二数据储存库发送更新的第一质量分数。
6、根据方面4或5所述的系统,其中,更新的第一分配值不同于第一分配值。
7、根据前述方面中任一方面所述的方法,其中,第一分配值、第二分配值、第一质量分数和/或第二质量是包括至少两个不同值的向量。
8、根据前述方面中任一方面所述的系统,其中,第一分配值和/或第二分配值包括至少一个专家意见。
9、根据前述方面中任一方面所述的系统,其中,根据接收的数据点和/或相应的质量分数而确定的可存储数据包括以下至少一个信息:与所接收的数据接收自的数据储存库有关的信息、与时间戳有关的信息、与唯一标识符有关的信息和与质量分数有关的信息。
10、根据前述方面中任一方面所述的系统,其中,第一获得数据和/或第二获得数据包括生物学数据、医学数据和/或基因组数据。
11、根据前述方面中任一方面所述的系统,其中,第一分配值和/或第二分配值还包括置信分数。
12、根据前述方面中的任一方面所述的系统,还包括计算机实现的模型转换模块,其中第一数据储存库包含第一数据格式的数据且第二数据储存库包含第二数据格式的数据,并且中央计算组件还被配置为,在数据转换模块中将从第一数据储存库接收的数据转换为第二数据格式,将从第二数据储存库接收的数据转换为第一数据格式,和/或,将从第一数据储存库和/或第二数据储存库接收的数据转换为中央数据格式。
13、根据方面4至12中任一方面所述的系统,其中,中央计算组件还被配置为用更新的第一可存储数据覆盖第一可存储数据。
14、根据方面4至12中任一方面所述的系统,其中,中央计算组件还被配置为,当存储更新的第一可存储数据时,将第一可存储数据保存在存储模块中,以便产生数据更新的历史。
15、根据前述方面中任一方面所述的系统,其中,质量评分模块包括至少一个自适应参数,该至少一个自适应参数用于确定第一质量分数和第二质量分数中的至少一个。
16、根据方面15所述的系统,其中,至少一个自适应参数中的至少一个由质量评分模块基于存储在存储模块中的至少一些数据的统计分布来确定。
17、根据方面1至16中任一方面所述的系统,其中,系统还包括计算机实现的第一数据储存库接口和/或第二数据储存库接口中的至少一个,该第一数据储存库接口和/或第二数据储存库接口被配置为在数据库服务器上运行,其中,第一数据储存库接口和/或第二数据储存库接口被配置为向中央计算组件发送包括第一获得数据和第一分配值的第一数据点,被配置为从中央计算组件接收关于第二数据点的信息,并基于所接收的关于第二数据点的信息,重新评估第一分配值和/或使得数据储存库重新评估第一分配值。
18、根据方面17所述的系统,其中,计算机实现的第一和/或第二数据储存库接口还被配置为,从中央计算组件接收第一数据点的第一质量分数,并将第一质量分数存储在数据储存库中,和/或从中央计算组件接收第二数据点的第二质量分数。
19、根据方面17所述的系统,其中,计算机实现的数据储存库接口还被配置为,确定存储在数据储存库中的数据点的质量分数、或确定从中央计算组件或另一数据储存库接收的数据点的质量分数。
20、根据方面18或19中任一方面所述的系统,其中,第一分配值被基于接收的关于第二数据点的信息以及接收和/或确定的质量分数而重新评估。
21、根据方面17至20中任一方面所述的系统,其中,数据储存库接口还被配置为,基于接收的关于第二数据点的信息将第一分配值更新为更新的第一分配值,该更新的第一分配值不同于第一分配值。
22、根据前述方面中任一方面所述的系统,其中,第一获得数据包括与存储在数据储存库中的数据有关的元数据。
23、根据方面22所述的系统,其中,元数据包括与存储在数据储存库中的多个相似实例有关的数据。
24、根据前述方面中任一方面所述的系统,还包括第一和/或第二数据储存库中的至少一个。
根据中央集线器组件的主要方法
25、一种用于自动数据质量管理的方法,该方法包括实现为在计算机处理器上执行的以下步骤:
-从第一数据储存库接收第一数据点,该第一数据点包括第一获得数据和第一分配值,
-确定第一数据点的第一质量分数,
-根据第一数据点和/或第一质量分数确定第一可存储数据,
-将第一可存储数据存储在计算机实现的中央存储模块中,
-从第二数据储存库接收第二数据点,该第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,第二获得数据与第一获得数据相似,
-确定第二数据点的第二质量分数,
-根据第二数据点和/或第二质量分数确定第二可存储数据,
-将第二可存储数据存储在存储模块中,和
-向第一数据储存库发送根据第二数据点和/或第二质量分数确定的可发送第二数据,使得第一数据储存库重新评估第一分配值。
26、根据方面25所述的方法,还包括向第一数据储存库发送第一质量分数和/或向第二数据储存库发送第二质量分数的步骤。
27、根据方面25或26所述的方法,其中,向第一数据储存库发送可发送第二数据使得第一数据储存库更新第一分配值。
28、根据方面25至27中任一方面所述的方法,还包括以下步骤:
-从第一数据储存库接收更新的第一数据点,该更新的第一数据点包括第一获得数据和更新的第一分配值,
-确定更新的第一数据点的更新的第一质量分数,
-根据更新的第一数据点和/或更新的第一质量分数确定更新的第一可存储数据,
-将更新的第一可存储数据存储在中央存储模块中。
29、根据方面25至28中任一方面所述的方法,还包括向第一数据储存库和/或第二数据储存库发送更新的第一质量分数的步骤。
30、根据方面27至29中任一方面所述的方法,其中,更新的第一分配值不同于第一分配值。
31、根据方面25至30中任一方面所述的方法,其中,第一质量分数和第二质量分数通过统计学方法来确定,统计学方法包括,根据加权参数对获得数据进行加权和/或确定获得数据的平均值或中值。
32、根据方面25至31中任一方面所述的方法,其中,第一分配值、第二分配值、第一质量分数和/或第二质量分数是包括至少两个不同值的向量。
33、根据方面25至32中任一方面所述的方法,其中,第一分配值和/或第二分配值包括至少一个专家意见。
34、根据方面25至33中任一方面所述的方法,其中,第一获得数据和/或第二获得数据包括生物学数据、医学数据和/或基因组数据。
35、根据方面25至34中任一方面所述的方法,其中,第一分配值和/或第二分配值还包括置信分数。
36、根据方面28至35中任一方面所述的方法,其中,使用更新的第一可存储数据覆盖第一可存储数据。
37、根据方面25至35中任一方面所述的方法,其中,当存储更新的第一可存储数据时,将第一可存储数据保存在存储器中,以便产生数据更新的历史。
38、根据方面25至36中任一方面所述的方法,其中,基于至少一个自适应参数来确定第一质量分数和第二质量分数中的至少一个。
39、根据方面38所述的方法,其中,基于存储在存储器中的至少一些数据的统计分布来确定至少一个自适应参数中的至少一个。
计算机程序产品
40、一种用于数据质量管理的计算机程序产品,该计算机程序产品存储在计算机可读介质上,该计算机程序产品被配置为,当在计算机上运行时,执行方面25至39中任一方面所述的方法。
根据数据储存库的方法
41、一种用于自动提高计算机实现的数据储存库的数据质量的方法,该方法包括以下步骤:
-向中央计算组件发送第一数据点,该第一数据点包括第一获得数据和第一分配值,
-从中央计算组件接收关于第二数据点的信息,该第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,第二获得数据与第一获得数据相似,
-基于所接收的关于第二数据点的信息重新评估第一分配值。
42、根据方面41所述的方法,其中,所述方法还包括以下步骤:
从中央计算组件接收第一数据点的第一质量分数,并将第一质量分数存储在数据储存库中,和/或从中央计算组件接收第二数据点的第二质量分数。
43、根据方面41或42所述的方法,其中,所述方法还包括确定存储在数据储存库中的数据点的质量分数,或确定从中央计算组件或另一数据储存库接收的数据点的质量分数的步骤。
44、根据方面41至43中任一方面所述的方法,其中,基于所接收的关于第二数据点的信息以及所接收和/或所确定的质量分数来重新评估第一分配值。
45、根据方面41至44中任一方面所述的方法,其中,重新评估第一分配值包括,将第一分配值更新为更新的第一分配值,该更新的第一分配值不同于第一分配值。
46、根据方面41至45中任一方面所述的方法,其中,第一获得数据包括与存储在数据库中的数据有关的元数据。
47、根据方面46所述的方法,其中,元数据包括与存储在数据储存库中的多个相似实例有关的数据。
包括数据储存库接口的系统
48、根据方面1至16中任一方面所述的系统,其中,所述系统还包括计算机实现的第一和/或第二数据储存库接口中的至少一个,该第一和/或第二数据储存库接口被配置为在数据库服务器上运行,其中,数据储存库接口根据方面41至47中的任何一方面进行配置。
49、根据方面1-48中任一方面所述的系统或方法,其中,第二可发送数据包括第二质量分数。

Claims (16)

1.一种数据质量管理系统,包括:
-中央计算组件(100),所述中央计算组件(100)在计算设备上实现,所述中央计算组件(100)包括计算机实现的数据存储模块(203)、计算机实现的数据通信模块(201)和计算机实现的质量评分模块(202);和
-到计算机实现的第一数据储存库和第二数据储存库(101,102)的计算机实现的数据传输连接(105,106),所述第一数据储存库和第二数据储存库(101,102)存储在至少一个数据库服务器上;
其中,所述中央计算组件(100)被配置为经由所述通信模块(201)从第一数据储存库(101)接收第一数据点,所述第一数据点包括第一获得数据和第一分配值,被配置为在所述质量评分模块(202)中确定所述第一数据点的第一质量分数,并被配置为根据所述第一数据点和/或所述第一质量分数确定第一可存储数据,并将所述第一可存储数据存储在所述存储模块(203)中;
其中,所述中央计算组件(100)还被配置为经由所述计算机实现的通信模块(201)从所述第二数据储存库(102)接收第二数据点,所述第二数据点包括第二获得数据和第二分配值,被配置为在所述质量评分模块(202)中确定所述第二数据点的第二质量分数,并被配置为根据所述第二数据点和/或所述第二质量分数确定第二可存储数据,并将所述第二可存储数据存储在所述存储模块(203)中;
其中,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似,且所述中央计算组件(100)还被配置为向所述第一数据储存库(101)发送根据所述第二数据点和/或所述第二质量分数确定的第二可发送数据,使得所述第一数据储存库(101)重新评估所述第一分配值。
2.根据权利要求1所述的系统,其中,所述中央计算组件(100)被配置为向所述第一数据储存库(101)发送所述第二可发送数据,使得所述第一数据储存库(101)更新所述第一分配值。
3.根据权利要求2所述的系统,其中,所述中央计算组件(100)还被配置为从所述第一数据储存库(101)接收更新的第一数据点,所述更新的第一数据点包括所述第一获得数据和更新的第一分配值,被配置为在质量评分模块(202)中确定所述更新的第一数据点的更新的第一质量分数,并被配置为根据所述更新的第一数据点和/或所述更新的第一质量分数确定更新的第一可存储数据,并将所述更新的第一可存储数据存储在所述存储模块(203)中。
4.根据权利要求3所述的系统,其中,所述中央计算组件(100)还被配置为经由所述计算机实现的数据通信模块(201)向所述第一数据储存库和/或第二数据储存库(101,102)发送所述更新的第一质量分数。
5.根据前述权利要求中任一项所述的系统,还包括计算机实现的模型转换模块(204),其中所述第一数据储存库(101)包含第一数据格式的数据且所述第二数据储存库(102)包含第二数据格式的数据,并且所述中央计算组件(100)还被配置为在所述数据转换模块(204)中,将从所述第一数据储存库(101)接收的数据转换为所述第二数据格式、将从所述第二数据储存库(102)接收的数据转换为所述第一数据格式、和/或将从所述第一数据储存库和/或第二数据储存库(101,102)接收的数据转换为中央数据格式。
6.根据前述权利要求中任一项所述的系统,还包括所述第一数据储存库和/或所述第二数据储存库(101,102)中的至少一个。
7.一种用于自动数据质量管理的方法,包括实现为在计算机处理器上执行的以下步骤:
-从第一数据储存库(101)接收(301)第一数据点,所述第一数据点包括第一获得数据和第一分配值,
-确定(304)第一数据点的第一质量分数,
-根据所述第一数据点和/或所述第一质量分数确定第一可存储数据,
-将所述第一可存储数据存储(306)在计算机实现的中央存储模块(203)中,
-从第二数据储存库(102)接收(301)第二数据点,所述第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似,
-确定(304)所述第二数据点的第二质量分数,
-根据所述第二数据点和/或所述第二质量分数确定第二可存储数据,
-将所述第二可存储数据存储在所述存储模块(203)中,和
-向所述第一数据储存库发送根据所述第二数据点和/或所述第二质量分数确定的可发送第二数据,使得所述第一数据储存库(101)重新评估所述第一分配值。
8.根据权利要求7所述的方法,其中,向所述第一数据储存库发送所述可发送第二数据,使得所述第一数据储存库(101)更新所述第一分配值。
9.根据权利要求7或8中任一项所述的方法,还包括以下步骤:
-从所述第一数据储存库(101)接收更新的第一数据点,所述更新的第一数据点包括第一获得数据和更新的第一分配值,
-确定所述更新的第一数据点的更新的第一质量分数,
-根据所述更新的第一数据点和/或所述更新的第一质量分数确定更新的第一可存储数据,
-将所述更新的第一可存储数据存储在所述中央存储模块(203)中。
10.根据权利要求8至9中任一项所述的方法,还包括向所述第一数据储存库和/或所述第二数据储存库(101,102)发送所述更新的第一质量分数的步骤。
11.根据前述权利要求中任一项所述的系统或方法,其中,所述第一获得数据和/或所述第二获得数据包括生物学数据、医学数据和/或基因组数据。
12.一种用于数据质量管理的计算机程序产品,所述计算机程序产品存储在计算机可读介质上,所述计算机程序产品被配置为,当在计算机上运行时,执行权利要求7至11中任一项所述的方法。
13.一种用于自动提高数据质量的方法,所述数据质量为计算机实现的数据储存库(101)的数据质量,所述方法包括以下步骤:
-向中央计算组件(100)发送(301)第一数据点,所述第一数据点包括第一获得数据和第一分配值,
-从所述中央计算组件(100)接收关于第二数据点的信息,所述第二数据点包括第二获得数据和第二分配值,根据预定义相似性度量,所述第二获得数据与所述第一获得数据相似,
-基于所接收的关于第二数据点的信息重新评估所述第一分配值。
14.根据权利要求13所述的方法,其中,所述方法还包括以下步骤:确定存储在所述数据储存库(101)中的数据点的质量分数,或确定从所述中央计算组件(100)或另一数据储存库(102)接收的数据点的质量分数。
15.根据权利要求1至6中任一项所述的系统,其中,所述系统还包括计算机实现的第一数据储存库接口和/或第二数据储存库接口中的至少一个,所述第一数据储存库接口和/或所述第二数据储存库接口被配置为在数据库服务器上运行,其中,所述数据储存库接口根据权利要求13至14中任一项进行配置。
16.根据前述权利要求中任一项所述的系统或方法,其中,所述第二可发送数据包括所述第二质量分数。
CN201680032589.0A 2015-06-05 2016-06-01 数据质量管理系统和方法 Pending CN107683477A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15170816.1A EP3101574A1 (en) 2015-06-05 2015-06-05 Data quality management system and method
EP15170816.1 2015-06-05
PCT/EP2016/062387 WO2016193311A1 (en) 2015-06-05 2016-06-01 Data quality management system and method

Publications (1)

Publication Number Publication Date
CN107683477A true CN107683477A (zh) 2018-02-09

Family

ID=53396276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680032589.0A Pending CN107683477A (zh) 2015-06-05 2016-06-01 数据质量管理系统和方法

Country Status (6)

Country Link
US (2) US20180150281A1 (zh)
EP (2) EP3101574A1 (zh)
JP (1) JP6726273B2 (zh)
CN (1) CN107683477A (zh)
DE (1) DE202016009111U1 (zh)
WO (1) WO2016193311A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110362829A (zh) * 2019-07-16 2019-10-22 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7293139B2 (ja) * 2018-02-16 2023-06-19 イルミナ インコーポレイテッド バリアントコーリングの相関誤差事象軽減のためのシステムおよび方法
CN116303380B (zh) * 2023-01-10 2024-01-23 浪潮智慧科技有限公司 一种监测业务中的数据质量校验方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027965A1 (en) * 2006-06-29 2008-01-31 Garrett Andrew J Multiple source data management using a conflict rule
CN101291289A (zh) * 2007-04-20 2008-10-22 Sap股份公司 将数据质量包括在数据流中的方法和系统
US20140222966A1 (en) * 2013-02-05 2014-08-07 Apple Inc. System and Method for Providing a Content Distribution Network with Data Quality Monitoring and Management
CN104424360A (zh) * 2013-09-03 2015-03-18 国际商业机器公司 用于访问源数据库中的一组数据表格的方法和系统
CN104919466A (zh) * 2012-10-15 2015-09-16 丹麦技术大学 数据库驱动的原始测序数据的初步分析

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141664A (en) * 1996-11-13 2000-10-31 Puma Technology, Inc. Synchronization of databases with date range
US20040186842A1 (en) * 2003-03-18 2004-09-23 Darren Wesemann Systems and methods for providing access to data stored in different types of data repositories

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027965A1 (en) * 2006-06-29 2008-01-31 Garrett Andrew J Multiple source data management using a conflict rule
CN101291289A (zh) * 2007-04-20 2008-10-22 Sap股份公司 将数据质量包括在数据流中的方法和系统
CN104919466A (zh) * 2012-10-15 2015-09-16 丹麦技术大学 数据库驱动的原始测序数据的初步分析
US20140222966A1 (en) * 2013-02-05 2014-08-07 Apple Inc. System and Method for Providing a Content Distribution Network with Data Quality Monitoring and Management
CN104424360A (zh) * 2013-09-03 2015-03-18 国际商业机器公司 用于访问源数据库中的一组数据表格的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110362829A (zh) * 2019-07-16 2019-10-22 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备
CN110362829B (zh) * 2019-07-16 2023-01-03 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备

Also Published As

Publication number Publication date
JP6726273B2 (ja) 2020-07-22
US20220365749A1 (en) 2022-11-17
US20180150281A1 (en) 2018-05-31
EP3101574A1 (en) 2016-12-07
JP2018524747A (ja) 2018-08-30
EP3304387A1 (en) 2018-04-11
DE202016009111U1 (de) 2022-08-01
WO2016193311A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
Liu et al. Contribution-aware federated learning for smart healthcare
Bacchi et al. Machine learning in the prediction of medical inpatient length of stay
Oztekin et al. A decision analytic approach to predicting quality of life for lung transplant recipients: A hybrid genetic algorithms-based methodology
Grollemund et al. Development and validation of a 1-year survival prognosis estimation model for Amyotrophic Lateral Sclerosis using manifold learning algorithm UMAP
Dey et al. Big data analytics for intelligent healthcare management
CN105474220B (zh) 发现路由系统和引擎
Dunbar et al. Primate social group sizes exhibit a regular scaling pattern with natural attractors
US20120035954A1 (en) On-demand clinical trials utilizing emr/ehr systems
JP2016540316A5 (zh)
CN107683477A (zh) 数据质量管理系统和方法
CN106796620A (zh) 用于解释和报告基于序列的基因测试的方法和系统
WO2016090748A1 (zh) 虚拟人建立方法及装置
US20110137944A1 (en) Method and system for matching between a tissue donor and a tissue recipient
CN110544528A (zh) 基于深度学习的上下级眼科远程诊断平台及其构建方法
CN111309815A (zh) 一种关系图谱的处理方法、装置和电子设备
Kumar Knowledge discovery practices and emerging applications of data mining: Trends and new domains: Trends and new domains
Tajabadi et al. Sharing Data With Shared Benefits: Artificial Intelligence Perspective
Rasi et al. PatientMatcher: A customizable Python‐based open‐source tool for matching undiagnosed rare disease patients via the Matchmaker Exchange network
Duran et al. Shared Ageing Research Models (ShARM): a new facility to support ageing research
Sherman et al. Proposed BioRepository platform solution for the ALS research community
Gjoka et al. Estimating subgraph frequencies with or without attributes from egocentrically sampled data
Zhang et al. COMER: Cloud-based medicine recommendation
Wassan Modeling stack framework for accessing electronic health records with big data needs
Shokri et al. Big Data Analytics in Healthcare: Social and Biological Data
Murugaboopathi et al. Slicing based efficient privacy preservation technique with multiple sensitive attributes for safe data distribution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209