CN114912804A - 一种科研数据相关性质控方法和系统 - Google Patents

一种科研数据相关性质控方法和系统 Download PDF

Info

Publication number
CN114912804A
CN114912804A CN202210536782.5A CN202210536782A CN114912804A CN 114912804 A CN114912804 A CN 114912804A CN 202210536782 A CN202210536782 A CN 202210536782A CN 114912804 A CN114912804 A CN 114912804A
Authority
CN
China
Prior art keywords
data
correlation
scientific research
quality control
scientific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210536782.5A
Other languages
English (en)
Inventor
夏鑫
王洋
董碧蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202210536782.5A priority Critical patent/CN114912804A/zh
Publication of CN114912804A publication Critical patent/CN114912804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Factory Administration (AREA)

Abstract

本发明属于科研数据预处理技术领域,具体涉及一种科研数据相关性质控方法和系统。本发明的方法包括如下步骤:步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。本发明能够克服现有技术中方法的逻辑、范围设置固定的问题,对数据的普适性更好,在科研数据的质控中具有很好的应用前景。

Description

一种科研数据相关性质控方法和系统
技术领域
本发明属于科研数据预处理技术领域,具体涉及一种科研数据相关性质控方法和系统。
背景技术
医疗相关科研数据通常需要人工从某一地区或者某一人群中采集,并存储到相关的科研数据表中,这类科研数据的样本量和数据类型(如性别、年龄等)通常较多。因此,为了保证人工采集科研数据的质量,进而保证科研结果的准确性,需要对科研数据表中的数据进行质量控制。
现有技术中通常采用的质控项目包括空值率检测、枚举值检测(如性别不是男就是女不可能包含其他值)、值域检测(如年龄大于0岁小于150岁,体重大于0KG小于1000KG)等,若对科研数据质控结果显示数据异常,则筛选出异常值后进行人工核实确认。
而除了这些质控项目外,数据表中各列(即各种数据类型)之间的相关性也是很重要的,例如,年龄和体重具有相关性,1岁的孩子不可能100KG,10岁的孩子不可能10KG。而现有技术中数据表各列间的相关性质控分析仅仅是由技术人员编写程序代码,利用固定的逻辑或范围对数据进行质控分析,筛选异常点。然而,科研数据受到样本差异、数据量差异等复杂因素的影响,其不同数据类型之间的相关性并不是固定不变的,如图1所示。因此,这些基于特定的样本集总结归纳的固定逻辑或范围普适性并不好,其不能够对所有科研数据进行准确的相关性分析。基于上述困难,目前仍然缺乏针对科研数据的普适性良好的相关性质控分析方法。
发明内容
针对现有技术的缺陷,本发明提供一种科研数据相关性质控方法和系统,目的在于提供一种普适性好的相关性质控方法和系统。
一种科研数据相关性质控方法,包括如下步骤:
步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;
步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;
步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
优选的,所述科研数据表中的相关性数据包括性别、民族、三围、年龄、身高、体重或地区中至少两种的组合。
优选的,步骤1中,所述抽样的数量的确定方式为:根据所述科研数据表中的相关性数据样本量和/或根据所述相关性质控规则按照绝对数量或比例进行预设。
优选的,步骤2的具体过程包括如下步骤:
步骤2.1,针对每一个待分析相关性数据,绘制其相对于其他待分析相关性数据的分布拟合曲线;
步骤2.2,根据预设的置信水平,确定所述分布拟合曲线的置信区间;对每一个待分析相关性数据,利用其所有的置信区间共同构成置信区域。
优选的,步骤3中,所述核查的过程通过描点法进行。
优选的,所述质控方法在步骤3之后还进行如下步骤:
步骤4,将步骤3得到的核查结果进行人工确认;
步骤5,根据人工确认的结果调整所述置信区域的范围。
本发明还提供一种用于实现上述科研数据相关性质控方法的系统,包括:
数据输入模块,用于输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;
数据统计分析模块,用于对所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;
数据核查模块,用于获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述科研数据相关性质控方法的计算机程序。
本发明中,所述“数据类型”是指科研数据的类别,例如:性别、民族、三围、年龄、身高、体重或地区等,在科研数据的数据表中,同一数据类型的数据通常记录在表格的同一列中。所述“置信区间”是指一个维度(数据类型)上的一个统计点所对应的其他维度(数据类型)的可以置信的取值范围,是一维的概念;所述“置信区域”是指一个维度(数据类型)上的所有统计点或者是所有取值范围上所对应的其他维度(数据类型)的可以置信的取值范围,是多维的概念。“相关性”是指不同的数据类型(即数据表中不同的数据列)之间存在某种相互关联的性质,例如:年龄对身高的取值范围具有一定的限定作用,这就是一种相关性。“相关性质控规则”是指不同数据类型(即数据表中不同的数据列)之间所具有的关联性,例如:特定年龄的样本的身高数据的置信区间范围即是一种相关性质控规则;“相关性数据”是指相互具有关联性的数据类型(即数据表中不同的数据列)。
通过本发明的方法,能够基于科研数据本身的特点,基于不同数据类型间的相关性,建立起各数据类型的置信区域,并利用该置信区域对所有科研数据进行核查,筛选出异常点。本发明的方法和系统是基于科研数据本身的特点进行相关性分析,因此克服了现有技术中相关性质控存在的逻辑、范围设置固定的问题,对数据的普适性更好,能够在不增加人工工作量的前提下进行更加准确的科研数据相关性质控,具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为现有技术中相关性质控标准的示意图;
图2为实施例1中形成的置信区域合理情况下的示意图;
图3为实施例1中形成的置信区域不合理情况下的示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1
本实施例提供科研数据相关性质控方法和系统。
本实施例的系统包括:
数据输入模块,用于输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;
数据统计分析模块,用于对所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;
数据核查模块,用于获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
利用该系统进行科研数据相关性质控的方法步骤如下:
步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集。其中,预设的相关性质控规则可基于现有的常识或研究结果进行设置。
所述抽样的数量的确定方式为:根据所述科研数据表中的相关性数据样本量和/或根据所述相关性质控规则按照绝对数量或比例进行预设。例如,以相关性数据样本量预设数量或者预设比例时,当科研数据表中样本量小于等于500条,则全部采样;大于500小于等于5000,则采500条;大于5000小于等于10000,则采总数的10%;大于10000,则采1000,等。以相关性质控规则预设数量时,身高、体重的相关性质控规则抽样数量为500;年龄、身高的相关性质控规则抽样数量为1000,等。
步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域。
下面通过具体的实例对该步骤进行说明:
一般认为年龄与身高、体重存在相关关系,如图1所示。这里我们仅以年龄与体重两列相关性质控分析为例做详细描述。预设相关性质控规则为体重与年龄相关,相应的待核查科研数据数据表中采集了某一地区的上万条的年龄、体重数据,显然不同地区由于环境、饮食、习惯的不同年龄与体重的对应标准应该也是不同的,例如西藏地区18岁孩子真实的平均体重相比于上海地区18岁孩子真实的平均体重偏小,如果直接拿上海地区的标准去判定西藏地区的孩子,就会出现很多异常数据;同一地区不同时间的采集数据中不同年龄与体重的对应标准应该也是不同的,例如2020年西藏地区18岁孩子真实的平均体重相比于2000年西藏地区18岁孩子真实的平均体重偏大,如果直接拿2000年西藏地区的标准去判定2020西藏地区的孩子,就会出现很多异常数据。
因此对样本集进行年龄与体重的统计,统计各个年龄段的体重数据。根据统计数据分别绘制频数分布拟合曲线,并生成年龄体重频数回归函数或者频率回归函数;根据预设的置信水平,确定各个年龄段所对应的体重置信区间。例如,置信水平为95%,18岁年龄段下,体重的上下置信极限为54.5KG、45.5KG,同样的还可以以同样的方法确定其他年龄段下的体重置信区间。
根据各相关字段及各置信区间绘制二维或多维图表,如图2、图3所示。图表的维度代表相关列,结合上例横轴代表年龄,纵轴代表体重,并将各年龄段下的置信区间的上下置信极限值描点并连线,生成阴影区域的置信区域,凡是落在置信区域范围内的数据点即可认为在置信水平为95%的情况下,该数据值的相关性质控为正常,落在置信区域外的数据点为在该置信水平下的潜在异常点。
步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
将待核查科研数据表中的全部数据通过描点法一一对应显示在如图2、图3所示的图表中,观察各数据点的位置是否位于置信区域外,若不在则将其设置为潜在异常点。
此外,完整的质控除了利用置信区域进行核查外,还需要考虑预设的相关性质控规则中是否有其他需要满足的规则(这些规则可由本领域研究者通过现有技术或本领域常识设置)。步骤4,将潜在异常点反馈给用户确认
步骤5,若用户确认潜在异常点为正常点,则记录该确认行为,当确认次数或者确认比例(如反馈5次该潜在异常点,用户有5次均确认为正常点)达到预设阀值,则自动修正置信区域,将该点纳入置信区域内,并更新潜在异常点提醒。例如,图2为置信区域设置合理的情况,此时无需对置信区域进行修正;而图3为置信区域设置不合理的情况,此时需要修正置信区域,将用户确认为正常的点纳入置信区域内。
需要特别说明的是,本实施例提供的质控方法可以是作为质控过程的一部分。例如可以先对数据进行空值检测、值域范围检测等质控过程,通过后再进行本实施例的质控。这样可进一步提供科研数据质控的效率。
通过上述实施例可以看到,本发明提供了一种能够基于科研数据本身的特点设置置信区域的相关性质控方法。本发明能够克服现有技术中方法的逻辑、范围设置固定的问题,对数据的普适性更好,具有很好的应用前景。

Claims (8)

1.一种科研数据相关性质控方法,其特征在于,包括如下步骤:
步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;
步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;
步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
2.按照权利要求1所述的科研数据相关性质控方法,其特征在于:所述科研数据表中的相关性数据包括性别、民族、三围、年龄、身高、体重或地区中至少两种的组合。
3.按照权利要求1所述的科研数据相关性质控方法,其特征在于:步骤1中,所述抽样的数量的确定方式为:根据所述科研数据表中的相关性数据样本量和/或根据所述相关性质控规则按照绝对数量或比例进行预设。
4.按照权利要求1所述的科研数据相关性质控方法,其特征在于:步骤2的具体过程包括如下步骤:
步骤2.1,针对每一个待分析相关性数据,绘制其相对于其他待分析相关性数据的分布拟合曲线;
步骤2.2,根据预设的置信水平,确定所述分布拟合曲线的置信区间;对每一个待分析相关性数据,利用其所有的置信区间共同构成置信区域。
5.按照权利要求1所述的科研数据相关性质控方法,其特征在于:步骤3中,所述核查的过程通过描点法进行。
6.按照权利要求1所述的科研数据相关性质控方法,其特征在于:所述质控方法在步骤3之后还进行如下步骤:
步骤4,将步骤3得到的核查结果进行人工确认;
步骤5,根据人工确认的结果调整所述置信区域的范围。
7.一种用于实现权利要求1-6任一项所述的科研数据相关性质控方法的系统,其特征在于,包括:
数据输入模块,用于输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;
数据统计分析模块,用于对所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;
数据核查模块,用于获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。
8.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-6任一项所述科研数据相关性质控方法的计算机程序。
CN202210536782.5A 2022-05-17 2022-05-17 一种科研数据相关性质控方法和系统 Pending CN114912804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536782.5A CN114912804A (zh) 2022-05-17 2022-05-17 一种科研数据相关性质控方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536782.5A CN114912804A (zh) 2022-05-17 2022-05-17 一种科研数据相关性质控方法和系统

Publications (1)

Publication Number Publication Date
CN114912804A true CN114912804A (zh) 2022-08-16

Family

ID=82768193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536782.5A Pending CN114912804A (zh) 2022-05-17 2022-05-17 一种科研数据相关性质控方法和系统

Country Status (1)

Country Link
CN (1) CN114912804A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636613A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常识别方法、装置、终端及存储介质
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN110990393A (zh) * 2019-12-17 2020-04-10 清华苏州环境创新研究院 一种行业企业数据异常行为的大数据识别方法
CN112562807A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 医疗数据分析方法、装置、设备、存储介质和程序产品
CN113919812A (zh) * 2021-10-15 2022-01-11 上海柯林布瑞信息技术有限公司 一种人群队列研究数据的核查方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636613A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常识别方法、装置、终端及存储介质
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN110990393A (zh) * 2019-12-17 2020-04-10 清华苏州环境创新研究院 一种行业企业数据异常行为的大数据识别方法
CN112562807A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 医疗数据分析方法、装置、设备、存储介质和程序产品
CN113919812A (zh) * 2021-10-15 2022-01-11 上海柯林布瑞信息技术有限公司 一种人群队列研究数据的核查方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘旭;王金丽;赵晓龙;寇凌峰;冯恒;张德隆;: "智能配电网多维数据质量评价方法" *

Similar Documents

Publication Publication Date Title
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN110232419A (zh) 一种边坡岩石类别自动识别的方法
EP3709192A1 (en) Method and classifier for automatic modeling of olap data model
CN104615741B (zh) 一种基于云计算的冷启动项目推荐的方法及装置
CN100501764C (zh) 字符识别系统及方法
CN114065223A (zh) 一种基于cvss的多维度软件安全风险评估方法
CN111046141B (zh) 一种基于历史时间特征的文本库关键词精炼方法
CN109508407A (zh) 融合时间与兴趣相似度的电视产品推荐方法
CN112613773A (zh) 基于用户行为的用户质量等级划分方法及装置
CN114912804A (zh) 一种科研数据相关性质控方法和系统
CN114140013A (zh) 一种基于xgboost的评分卡生成方法、装置及设备
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN111882289B (zh) 一种项目数据审核指标区间测算的装置和方法
US20240004375A1 (en) Data processing method, and electronic device and storage medium
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN116306232A (zh) 一种基于工业大数据的高炉能耗与碳排放分析方法及系统
CN112464168B (zh) 一种综合能源潜力用户靶向评估提取方法
CN114357886A (zh) 一种基于多模型加权平均的酒醅近红外光谱建模方法
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN113435713A (zh) 基于gis技术和两模型融合的风险地图编制方法及系统
CN107168942B (zh) 一种自动报表生成方法及其装置
CN111143436A (zh) 用于大数据的数据挖掘方法
CN111061703A (zh) 一种提升数据库数据校验质量的测试方法
CN117495233B (zh) 一种航运年度价格推荐方法、系统、储存介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220816

RJ01 Rejection of invention patent application after publication