CN111427874B - 医疗数据生产的质控方法、装置以及电子设备 - Google Patents

医疗数据生产的质控方法、装置以及电子设备 Download PDF

Info

Publication number
CN111427874B
CN111427874B CN202010193121.8A CN202010193121A CN111427874B CN 111427874 B CN111427874 B CN 111427874B CN 202010193121 A CN202010193121 A CN 202010193121A CN 111427874 B CN111427874 B CN 111427874B
Authority
CN
China
Prior art keywords
data
production
production data
index
preset field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010193121.8A
Other languages
English (en)
Other versions
CN111427874A (zh
Inventor
范梦洁
马莎
陈翔宇
杜硕
刘水清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202010193121.8A priority Critical patent/CN111427874B/zh
Publication of CN111427874A publication Critical patent/CN111427874A/zh
Application granted granted Critical
Publication of CN111427874B publication Critical patent/CN111427874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本公开提供了一种医疗数据生产的质控方法、装置及电子设备,涉及医疗数据处理技术领域。该方法包括:将获取到的医疗数据进行结构化处理,得到生产数据;确定预设字段组对应的生产数据的待测指标;根据待测指标以及待测指标对应的判断条件,判断所述预设字段组对应的生产数据是否符合判断条件,若否,则确定预设字段组对应的生产数据存在问题。本技术方案能够快速准确地定位结构化处理中问题数据,从而便于优化问题数据以提升生产数据的质量,同时,相较于人工质控,提升了质控效率。

Description

医疗数据生产的质控方法、装置以及电子设备
技术领域
本公开涉及医疗数据处理技术领域,具体而言,涉及一种医疗数据生产的质控方法、医疗数据生产的质控装置以及实现上述方法的电子设备。
背景技术
医疗领域中源源不断地产生大量的医疗数据,例如:患者的病历、对患者的病例的分析、患者疾病的治疗方案等。一般将医疗数据结构化来实现对医疗数据的管理与分析。在数据结构化之后,通过数据质量控制(简称“质控”)的方式来获取数据改善措施,从而保障结构化后数据的数据质量。
目前对医疗数据生产的质控方案,是通过人工质检的方式进行。然而,人工质检的方式存在处理效率低的缺点。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种医疗数据生产的质控方法、医疗数据生产的质控装置、计算机可读介质及电子设备,进而至少在一定程度上提升了医疗数据生产的质控效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一方面,提供了一种医疗数据生产的质控方法,该方法包括:
将获取到的医疗数据进行结构化处理,得到生产数据;
确定预设字段组对应的生产数据的待测指标;
根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题。
在本公开的一种实施例中,基于前述方案,上述将获取到的医疗数据进行结构化处理,得到生产数据,包括:
获取目标疾病的特征指标;
根据上述特征指标对上述医疗数据进行结构化处理,得到关于上述目标疾病画像的生产数据。
在本公开的一种实施例中,基于前述方案,上述待测指标包括数据类型、格式特征、值域范围以及填充率中的任一种或任几种。
在本公开的一种实施例中,基于前述方案,上述待测指标为数据类型,其中,上述根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题,包括:
获取上述预设字段组中每个生产数据的数据类型,以及获取上述预设字段组中生产数据的配置数据类型;
响应于上述生产数据的数据类型不同于上述配置数据类型,确定不同于上述配置数据类型的目标数据的数量;
计算上述目标数据的数量与上述预设字段组中生产数据的总数量的占比,并判断上述占比是否小于或等于第一预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题;
上述待测指标为格式特征,其中,上述根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题,包括:
获取上述预设字段组中每个生产数据的格式特征,以及获取上述生产数据的配置数据类型对应的标准格式特征;响应于上述生产数据的格式类型不同于上述标准格式特征,确定不同于上述标准格式特征的目标数据的数量;判断上述目标数据的数量是否小于或等于第二预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题;
上述待测指标为值域范围,其中,上述根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题,包括:
获取上述预设字段组中每个生产数据的值域,以及获取对上述生产数据的配置数据类型对应的标准值域;响应于上述生产数据的值域不在上述标准值域范围内,确定不满足上述标准值域的目标数据的数量;判断上述目标数据的数量是否小于或等于第三预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在本公开的一种实施例中,基于前述方案,在上述确定上述预设字段组中的问题字段之后,上述方法还包括:
在上述预设字段组中获取上述目标数据所在的目标字段,以定位得到问题数据;
重新对上述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的待测指标符合所述待测指标对应的判断条件。
在本公开的一种实施例中,基于前述方案,上述方法还包括:
获取上述目标字段中每个上述问题数据的实际生产路径,以根据上述实际生产路径确定上述问题数据的来源。
在本公开的一种实施例中,基于前述方案,上述待测指标为填充率,其中,上述根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题,包括:
确定上述预设字段组中生产数据的填充率;
判断上述预设字段组中生产数据的填充率是否大于或等于第四预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在本公开的一种实施例中,基于前述方案,在上述确定上述预设字段组中的问题字段之后,上述方法还包括:
在上述预设字段组中获取未填充的字段作为目标字段,以定位得到问题数据;
重新对上述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使上述目标字段中生产数据的填充率大于或等于上述第四预设阈值。
根据本公开实施例的第二方面,提供了一种医疗数据生产的质控装置,包括:生产数据确定模块、待测指标确定模块和判断模块。
其中,生产数据确定模块,用于:将获取到的医疗数据进行结构化处理,得到生产数据;
待测指标确定模块,用于:确定预设字段组对应的生产数据的待测指标;
判断模块,用于:根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题。
根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例第一方面中所述的医疗数据生产的质控方法。
根据本公开实施例的第四方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例第一方面所述的医疗数据生产的质控方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例中,首先获取到的医疗数据进行结构化处理得到生产数据,然后确定预设字段组的待测指标及其对应的判断条件,进而将预设字段组的生产数据与判断条件进行自动化比对,以实现对预设字段组的自动化测试。进一步地,若预设字段组对应的生产数据的待测指标不符合待测指标的判断条件,则确定该预设字段组对应的生产数据存在问题,从而快速准确地定位上述结构化处理中问题数据,以最终针对该问题数据确定解决方案。可见,本技术方案通过自动化比对过程可以快速准确地定位结构化处理中问题数据,从而一方面便于优化问题数据以提升生产数据的质量,另一方面,相较于人工质控,本技术方案提升了质控效率。同时,本技术方案还能够快速准确地定位上述结构化处理中问题数据,以有利于针对问题数据确定相关解决方案,起到有效改善生产数据质量的技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出本公开示例性实施例中用于实现医疗数据生产的质控方法及装置的系统架构示意图;
图2示出了根据本公开的实施例的医疗数据生产的质控方法的流程示意图;
图3示出了根据本公开的实施例的自动化比对方法的流程示意图;
图4示出了根据本公开的另一实施例的自动化比对方法的流程示意图;
图5示出了根据本公开的又一实施例的自动化比对方法的流程示意图;
图6示出了根据本公开的再一实施例的自动化比对方法的流程示意图;
图7示出了根据本公开的实施例的医疗数据生产的质控装置的结构示意图;
图8示出本公开示例性实施例中计算机存储介质的结构示意图;以及,
图9示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本示例实施方式中首先提供了一种用于实现医疗数据生产的质控方法的系统架构,可以应用于各种数据处理场景。参考图1所示,该系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送请求指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图片处理应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以将获取到的医疗数据进行结构化处理,得到生产数据(仅为示例)。服务器105确定预设字段组对应的生产数据的待测指标,以及根据所述待测指标以及所述待测指标对应的判断条件(仅为示例)。最后,服务器105根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题。
为了在一定程度上提升医疗数据生产过程中的质控效率,本技术方案提供了一种医疗数据生产的质控方法及装置,计算机存储介质和电子设备。以下先对医疗数据生产的质控方法进行说明:
图2示出了根据本公开的实施例的医疗数据生产的质控方法的流程示意图。参考图2,本实施例提供的医疗数据生产的质控方法,包括:
步骤S210,将获取到的医疗数据进行结构化处理,得到生产数据;
步骤S220,确定预设字段组对应的生产数据的待测指标;
步骤S230,根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题。
其中,待测指标包括但不限于数据类型、格式特征、值域范围以及填充率中的任一种或任几种。工作人员可以根据实际情况设置待测指标的类型。判断条件可以根据待测指标的类型不同,设置不同的阈值范围。例如,若待测指标为数据类型,则对应的判断条件可以为:根据不符合预设数据类型的数据量和第一预设阈值范围,确定预设字段组对应的生产数据是否存在问题;若待测指标为格式特征,则对应的判断条件可以为:根据不符合预设数据格式的数据量和第二预设阈值范围,确定预设字段组对应的生产数据是否存在问题;若待测指标为值域范围,则对应的判断条件可以为:根据不符合预设值域范围的数据量和第三预设阈值范围,确定预设字段组对应的生产数据是否存在问题;若待测指标为填充率,则对应的判断条件可以为:根据生产数据对应的填充率和第四预设阈值范围,确定预设字段组对应的生产数据是否存在问题。当然待测指标还可以为其他,判断条件也可以根据待测指标的内容进行设置。在此不做具体限定。
在图2所示实施例提供的技术方案中,首先获取到的医疗数据进行结构化处理得到生产数据,然后确定预设字段组的待测指标及其对应的判断条件,进而将预设字段组的生产数据与判断条件进行自动化比对,以实现对所述预设字段组的自动化测试。进一步地,若预设字段组对应的生产数据的待测指标不符合待测指标的判断条件,则确定该预设字段组对应的生产数据存在问题,从而快速准确地定位上述结构化处理中问题数据,以最终针对该问题数据确定解决方案。可见,本技术方案通过自动化比对过程可以快速准确地定位结构化处理中问题数据,从而一方面便于优化问题数据以提升生产数据的质量,另一方面,相较于人工质控,本技术方案提升了质控效率。同时,本技术方案还能够快速准确地定位上述结构化处理中问题数据,以有利于针对问题数据确定相关解决方案,起到有效改善生产数据质量的技术效果。
以下对图2所示实施例中各个步骤的具体实施方式进行解释说明:
在步骤S210中,将获取到的医疗数据进行结构化处理,得到生产数据。
其中,上述医疗数据可以为获取的真实世界的医疗数据,例如可以是反映对患者实际诊疗过程的数据,以及真实医疗环境中的患者健康状况的数据等。由于医院要求不同、不同医生的书写习惯不同等原因,真实世界的医疗数据的表达方式存在多样性,因此通过结构化的方式对真实世界的医疗数据的表达方式进行规范,或对其进行衍生处理得到新的数据。且对于不同的医疗数据生产场景,具有不同的数据结构化过程。
本实施例中,医疗数据生产场景为确定疾病画像(Disease Profile,简称:DP)。具体是确定用于刻画目标疾病的医疗数据。
示例性的,为了确定目标疾病的DP,可以先获取该目标疾病的特征指标,进一步地,根据特征指标对上述医疗数据进行结构化处理,便得到关于该目标疾病画像的生产数据。其中,本技术方案采用对生产数据进行质控的方式,来保证结构化后得到的生产数据满足特征指标的要求,即为了对目标疾病的DP更加准确。进而,用户可以根据疾病画像清楚明了的了解目标疾病。
本技术方案通过将生产数据与预设标准进行自动化比对的方式,实现对生产数据的自动化测试。具体地,首先在步骤S220中确定预设字段组对应的生产数据的待测指标。其中,上述预设字段组包含多个字段以及每个字段对应的生产数据。字段组可以是指本次测试的所有字段,也可以根据实际测试需求,将字段分类后得到的一类字段作为上述预设字段组。另外,上述待测指标也是根据实际测试需求的需求而确定,示例性的待测指标包括数据类型、格式特征、值域范围以及填充率中的任一种或任几种。进一步地,在步骤S230中:根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题。其中,不同的待测指标对应有不同的预设判断条件,以针对某一待测指标,通过比对其所对应的判断条件与生产数据的实际值来实现测试。
在示例性的实施例中,图3至图6分别示出了不同待测指标的情况下步骤S230的几种具体实施方式:
图3示出了待测指标为数据类型时对上述预设字段组中生产数据的测试实施例。本实施例具体是在医疗数据生产过程中,对生产数据配置的数据类型是否准确,或者说对生产数据配置的数据类型的准确率是否达到预设标准。参考图3,该实施例包括步骤S310-步骤S330。
在步骤S310中,获取所述预设字段组中每个生产数据的数据类型,以及获取所述预设字段组中生产数据的配置数据类型。
其中,上述每个生产数据的数据类型(即,生产数据当前实际的数据类型)和配置数据类型均可以是字符串型、数值型、日期型以及布尔型等。示例性的,对该预设字段组中生产数据配置的标准数据类型(即上述“配置数据类型”)为字符串型,但是结构化后得到的生产数据的数据类型可能是数值型。
步骤S320,响应于所述生产数据的数据类型不同于所述配置数据类型,确定不同于所述配置数据类型的目标数据的数量;步骤S330,计算所述目标数据的数量与所述预设字段组中生产数据的总数量的占比,并判断所述占比是否小于或等于第一预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。其中,上述是否小于或等于第一预设阈值即为待测指标为数据类型时对应的判断条件。
示例性的,若上述占比小于或等于该第一预设阈值,说明该预设字段组中生产数据中不存在数据类型的问题,或存在的问题较少且在可以接受的范围内,则无需进一步定位问题数据。
在示例性的实施例中,假如该预设字段组中生产数据的配置数据类型为字符串型,生产数据当前实际的数据类型中包含字符串型和数值型。也就是说,预设字段组中生产数据中数据类型存在不同于配置数据类型的问题数据,则:获取数值型的数据(记作“目标数据”)数量(如,20个),并计算该问题数据数量与预设字段组中所有生产数据的总数量(如,100个)的占比(20%)。进一步地,判断上述目标数据的占比是否小于或等于第一预设阈值(如,10%)。若占比大于该第一预设阈值,说明该预设字段组中生产数据中存在较多的问题数据,则确定上述预设字段组中生产数据存在问题。示例性的,在占比大于该第一预设阈值的情况下,测试系统还可以发出警报,以及时提醒相关工作人员发现生产数据存在的问题。
其中,在数据类型的配置问题大于上述第一预设阈值的情况下,也就是生产数据的数据类型不同于标准数据类型(即配置数据类型)的数据量过多时,将会导致前端搜索(或展示)等异常问题。而通过本技术方案自动化地检测出存在数据类型配置问题之后,还有针对性地提供了对应的解决方案。示例性的,定位结构化处理中问题数据,并针对所述问题数据确定解决方案。
具体的,在上述预设字段组中获取上述问题数据所在的目标字段,从而快速定位到问题数据,有利于提升质控效率。进一步地,重新对该目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以在待测指标为数据类型的情况下,上述目标字段中存在问题的生产数据与上述预设字段组中全量生产数据的占比小于或等于上述第一预设阈值。示例性的,若重新结构化处理之后的生产数据仍不能达到待测指标对应的判断条件,则可以向终端发出关于重新结构化后仍存在问题数据提醒,以使得工作人员获取相关问题数据以进行相关检查或人工处理,例如,在排除结构化处理过程中出现的问题之外,检查原始数据可能存在的问题。从而,使得该预设字段组中生产数据的数据类型的准确度满足预设要求,从而有效提升生产数据的质量,以尽量减少前端搜索(或展示)等异常问题的出现概率。
图4示出了待测指标为格式特征时对上述预设字段组中生产数据的测试实施例。
本实施例具体是在医疗数据生产过程中,通过生产数据的格式特征来判断是否存在问题数据。参考图4,该实施例包括步骤S410-步骤S430。
在步骤S410中,获取所述预设字段组中每个生产数据的格式特征,以及获取所述生产数据的配置数据类型对应的标准格式特征;在步骤S420中,响应于所述生产数据的格式类型不同于所述标准格式特征,确定不同于所述标准格式特征的目标数据的数量。
在示例性的实施例中,配置数据类型可以是字符型、日期型、数值型或布尔型。其中,每种配置数据类型包含自身的标准格式特征。例如,布尔型生产数据的格式特征即仅包括“0”和“1”。也就是说,通过生产数据中是否包含除了“0”和“1”之外的字符,来测试该预设字段组中生产数据。而该预设字段组中生产数据不存在结构化问题时,其生产数据当前实际的格式特征满足其被配置数据类型的标准格式特征;若该预设字段组中生产数据存在结构化问题时,其格式特征则可能满足其被配置数据类型的标准格式特征。因此,该实施例通过比对生产数据的格式类型和标准格式特征,来实现对该预设字段组中每个生产数据的自动化测试。
进一步地,在步骤S430中,判断所述目标数据的数量是否小于或等于第二预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。其中,上述是否小于或等于第二预设阈值即为待测指标为格式特征时对应的判断条件。
示例性的,若上述目标数据的数量小于或等于该第二预设阈值,说明该预设字段组中生产数据中不存在格式特征的问题,或存在的问题较少且在可以接受的范围内,则无需进一步定位问题数据。
在示例性的实施例中,假如上述预设字段组中生产数据的配置数据类型为字符串型,根据字符串型的格式特征验证存在L个生产数据当前实际的格式特征为布尔型,且L大于第二预设阈值。也就是说,该预设字段组中生产数据中存在格式特征不同于其所被配置的数据类型对应的标准格式特征的问题数据,则确定上述预设字段组中生产数据的存在问题。示例性的,在预设字段组中生产数据的存在问题的情况下,系统还可以发出警报,以及时提醒相关工作人员发现生产数据存在的问题。
其中,生产数据的格式特征与配置格式特征不匹配时,将会导致前端搜索(或展示)的异常问题。而通过本技术方案自动化地检测出存在数据类型的格式类型配置问题之后,还有针对性地提供了对应的解决方案。具体的,在上述预设字段组中定位所述结构化处理中问题数据,并针对所述问题数据确定解决方案。
具体的,在上述预设字段组中获取上述问题数据所在的目标字段,从而快速定位到问题数据,有利于提升质控效率。进一步地,重新对该目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以在待测指标为格式特征的情况下,上述目标字段中存在问题的生产数据的数量小于或等于上述第二预设阈值。示例性的,若重新结构化处理之后的生产数据仍不能达到待测指标对应的判断条件,则可以向终端发出关于重新结构化后仍存在问题数据提醒,以使得工作人员获取相关问题数据以进行相关检查或人工处理,例如,在排除结构化处理过程中出现的问题之外,检查原始数据可能存在的问题。从而,使得该预设字段组中生产数据的格式特征满足预设要求,从而有效提升生产数据的质量,以尽量减少前端搜索(或展示)的异常问题的出现概率。
示例性的,在定位到存在问题数据的目标字段后,可以将目标字段或问题数据进行突出显示,以方便的提醒相关工作人员发现生产数据存在的问题。
以上图3和图4分别示出了待测指标为数据类型和格式特征时,对上述预设字段组中生产数据进行测试的实施例。在本技术方案中还可以通过两种或两种以上待测指标对上述预设字段组中的生产数据进行测试,同时,若生产数据不满足多种待测指标中任意一个待测指标对应的判断条件时,均说明该预设字段组对应的生产数据存在问题。
示例性的,将数据类型和格式特征同时作为待测指标来实现上述预设字段组中的生产数据的测试如下:
对于上述预设字段组中每个生产数据,获取其数据类型和格式特征,以及获取该字段组中生产数据的配置数据类型以及标准格式特征;
比对上述生产数据的数据类型和上述预设数据特征,确定不同于上述配置数据类型的第一目标数据的数量,并计算第一目标数据的数量与该预设字段组中生产数据的总数量的占比;还比对上述生产数据的格式类型和上述标准格式特征,响应于所述生产数据的格式类型不同于标准格式特征据,确定不同于所述标准格式特征的第二目标数据的数量;
在判断到上述占比小于或等于上述第一预设阈值,且,判断到上述第二目标数据的数量小于或等于上述第二预设阈值时,才说明该预设字段组中生产数据满足预设需求,即对该预设字段组的测试结果为成功。
否则,则说明对该预设字段组中生产数据存在问题。进一步地,在上述预设字段组中获取上述问题数据所在的目标字段,从而快速定位到问题数据,有利于提升质控效率。进一步地,重新对该目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使得重新结构化之后的数据同时满足数据类型和格式特征两种待测指标分别对应的判断条件。同上述实施例,若重新结构化处理之后的生产数据仍不能同时达到两种待测指标对应的判断条件,则可以向终端发出关于重新结构化后仍存在问题数据提醒,以使得工作人员获取相关问题数据以进行相关检查或人工处理,例如,在排除结构化处理过程中出现的问题之外,检查原始数据可能存在的问题。从而,使得该预设字段组中生产数据的数据类型的准确度满足预设要求,从而有效提升生产数据的质量。
图5示出了待测指标为值域范围时对上述预设字段组中生产数据的测试实施例。
本实施例具体是在医疗数据生产过程中,通过生产数据的值域范围来判断是否存在问题数据。参考图5,该实施例包括步骤S510-步骤S530。
在步骤S510中,获取所述预设字段组中每个生产数据的值域,以及获取对所述生产数据的配置数据类型对应的标准值域。在步骤S520中,响应于所述生产数据的值域不在所述标准值域范围内,确定不满足所述标准值域的目标数据的数量。进一步地,在步骤S530中,判断所述目标数据的数量是否小于或等于第三预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。其中,上述是否小于或等于第三预设阈值即为待测指标为值域范围时对应的判断条件。
示例性的,上述配置数据类型包括:布尔型、数值型(数字和日期)以及字符串型。对于数值型中的日期,其对应的标准值域可以设置为“1980-01-01”-“2019-12-31”,进一步地,根据该标准值域对配置类型为数值型的字段中的生产数据进行测试:若生产数据的值域在上述标准值域范围内,则相应的字段为测试成功,若生产数据的值域不满足上述标准值域范围的生产数据的数量大于第三预设阈值,或大于该字段数据量的预设占比,这说明该预设字段组的生产数据存在问题。当然,若上述目标数据的数量小于或等于上述第三预设阈值或小于该字段数据量的预设占比,则无需进一步定位问题数据。
更为具体的,该图所示实施例的具体实施方式与图4所示实施例的具体实施方式相同,在此不再赘述。
进一步地,在确定该预设字段组中生产数据存在问题后的解决方案也与上述实施例相同,即:在上述预设字段组中获取上述问题数据所在的目标字段,从而快速定位到问题数据,有利于提升质控效率。进一步地,重新对该目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以在待测指标为格式特征的情况下,上述目标字段中存在问题的生产数据的数量小于或等于上述第三预设阈值。示例性的,若重新结构化处理之后的生产数据仍不能达到待测指标对应的测试要求,则可以向终端发出关于重新结构化后仍存在问题数据提醒,以使得工作人员获取相关问题数据以进行相关检查或人工处理,例如,在排除结构化处理过程中出现的问题之外,检查原始数据可能存在的问题。从而,使得该预设字段组中生产数据的值域满足预设要求,从而有效提升生产数据的质量。
在示例性的实施例中,为了进一步提升质控效率,该实施例采用以下的具体实施方式:根据不同字段的配置数据类型的不同,按照不同的方式确定字段的值域。其中,配置数据类型主要分为布尔型、数值型(数字和日期)以及字符串型三种。具体的:
a.当字段的配置数值类型为字符串型时:
1)、如果统计字段的值域小于40条,则列举全部值域的值及其频数;
2)、如果统计字段的值域多于40条少于100条,则列举值域的前20和后20值及其频数;
3)、如果统计字段的值域大于100的时候,则在整个值域中随机抽取20个值域,之后按照频数递减排序展示;
4)、如果统计字段的有100条字符串长度大于100的数据,则随机列举10条。
b.当字段的配置数值类型为布尔型:则展示全部值域;
c.当字段的配置数值类型为数值型或日期型:
1)、如果统计字段的值域数量少于20个,则按照从小到大的顺序列举全部值域;
2)、如果统计字段的值域数量超过20个,则按照最大最小值均匀分10个区间,之后统计落入每一个区间内的值数量。
通过图5示出的技术方案能够对上述预设字段组中生产数据当前实际的值域统计测试,即对于待质控的字段(如上述预设字段组)中生产数据,可以统计每个字段的值域(包括异常值域)。示例性的,还可以以预设的形式将异常值域的字段进行突出展示(如,添加显示颜色),从而便于用于查询及进一步分析。
图6示出了待测指标为填充率时对上述预设字段组中生产数据的测试实施例。
本实施例具体是在医疗数据生产过程中,通过某一字段组中生产数据的填充率来判断是否存在问题数据。参考图6,该实施例包括:
步骤S610,确定所述预设字段组中生产数据的填充率;以及,步骤S620,判断所述预设字段组中生产数据的填充率是否大于或等于第四预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。其中,上述是否大于或等于第四预设阈值即为待测指标为填充率时对应的判断条件。
示例性的,若所述预设字段组中生产数据的填充率大于或等于上述第四预设阈值,说明该预设字段组中生产数据中不存在数据填充率过低的问题,则无需进一步定位问题数据。
在示例性的实施例中,当预设字段组中生产数据的测试结果为测试失败时,其问题数据的定位方式以及问题数据:获取未填充的字段作为目标字段,以定位得到所述问题数据。进一步地,对应的解决方案为:重新对所述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的填充率大于或等于上述第四预设阈值,从而提升生产数据的数据质量。
通过图6所示实施例提供的技术方案,能够快速发现定位填充率不满足预设标准阈值的字段,进而有针对性地确定数据生产问题还是原始数据接入的问题,从而有针对性地解决对应的问题,提升数据处理效率与准确度。
在示例性的实施例中,对于上述各个实施例中预设字段组对应的生产数据存在问题的情况,可以获取目标字段中每个所述问题数据的实际生产路径,从而根据所述实际生产路径确定目标问题数据的来源,以在查找生产数据可能存在的问题时,可以更有针对性地查看相关路径,减少不必要的时间和精力浪费。例如,对于任意目标字段的实际生产路径分析:该目标字段在DP生产过程中,可能有多个数据来源,因此该目标字段对应于多个生产路径,且对每个生产路径的医疗数据进行DP生产均得到生产数据,比对多个生产路径对应的生产数据,将其分别与DP生产预设结果作对比可以确定问题数据。可以在DP测试过程中更有针对性地查看问题数据对应路径,并能够方便的查找该问题数据出现的原因,进而减少不必要的时间和精力浪费。
本技术方案能够实现自动化质控,以及有助于识别DP生产和配置过程中的问题,从而可更方便地从海量数据中发现问题和解决问题,进而有效减少对生产数据的质控成本。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器(包含CPU和GPU)执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下介绍本公开的装置实施例,可以用于执行本公开上述的医疗数据生产的质控方法。
图7示出了根据本公开的实施例的医疗数据生产的质控装置的结构示意图,参考图7,本实施例提供的医疗数据生产的质控装置700,包括:生产数据确定模块701、待测指标确定模块702以及判断模块703。
其中,上述生产数据确定模块701,用于:将获取到的医疗数据进行结构化处理,得到生产数据;上述待测指标确定模块702,用于:确定预设字段组对应的生产数据的待测指标;以及,上述判断模块703,用于:根据上述待测指标以及上述待测指标对应的判断条件,判断上述预设字段组对应的生产数据的待测指标是否符合上述待测指标对应的判断条件,若否,则确定上述预设字段组对应的生产数据存在问题。
在示例性的实施例中,基于前述方案,上述生产数据确定模块701,具体用于:
获取目标疾病的特征指标;以及,根据上述特征指标对上述医疗数据进行结构化处理,得到关于上述目标疾病画像的生产数据。
在示例性的实施例中,基于前述方案,所述待测指标包括数据类型、格式特征、值域范围以及填充率中的任一种或任几种。
在示例性的实施例中,基于前述方案,所述待测指标为数据类型,其中:上述判断模块703,具体用于:
获取上述预设字段组中每个生产数据的数据类型,以及获取上述预设字段组中生产数据的配置数据类型;响应于上述生产数据的数据类型不同于上述配置数据类型,确定不同于上述配置数据类型的目标数据的数量;计算上述目标数据的数量与上述预设字段组中生产数据的总数量的占比,并判断上述占比是否小于或等于第一预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在示例性的实施例中,基于前述方案,所述待测指标为格式特征,其中:上述判断模块703,具体用于:
获取上述预设字段组中每个生产数据的格式特征,以及获取上述生产数据的配置数据类型对应的标准格式特征;响应于上述生产数据的格式类型不同于上述标准格式特征,确定不同于上述标准格式特征的目标数据的数量;判断上述目标数据的数量是否小于或等于第二预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在示例性的实施例中,基于前述方案,所述待测指标为值域范围,其中:上述判断模块703,具体用于:
获取上述预设字段组中每个生产数据的值域,以及获取对上述生产数据的配置数据类型对应的标准值域;响应于上述生产数据的值域不在上述标准值域范围内,确定不满足上述标准值域的目标数据的数量;判断上述目标数据的数量是否小于或等于第三预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在示例性的实施例中,基于前述方案,上述医疗数据生产的质控装置700,还包括:定位模块704和重新结构化模块705。其中:
上述定位模块704用于:在上述预设字段组中获取上述目标数据所在的目标字段,以定位得到问题数据;以及上述重新结构化模块705用于:重新对上述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的待测指标符合所述待测指标对应的判断条件。
在示例性的实施例中,基于前述方案,上述医疗数据生产的质控装置700,还包括:路径确定模块706。其中:
上述路径确定模块706用于:获取上述目标字段中每个上述问题数据的实际生产路径,以根据上述实际生产路径确定上述问题数据的来源。
在示例性的实施例中,基于前述方案,所述待测指标为填充率,其中:上述判断模块703,具体用于:
确定上述预设字段组中生产数据的填充率;
判断上述预设字段组中生产数据的填充率是否大于或等于第四预设阈值,若否,则确定上述预设字段组对应的生产数据存在问题。
在示例性的实施例中,基于前述方案,上述定位模块704还用于:在上述预设字段组中获取未填充的字段作为目标字段,以定位得到问题数据;以及上述重新结构化模块705还用于:重新对上述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使上述目标字段中生产数据的填充率大于或等于上述第四预设阈值。
由于本公开的示例性的实施例的医疗数据生产的质控装置的各个功能模块与上述医疗数据生产的质控方法的示例实施例的步骤对应,因此对于本公开医疗数据生产的质控装置实施例中未披露的细节,请参照本公开上述的医疗数据生产的质控方法的实施例。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当上述程序产品在终端设备上运行时,上述程序代码用于使上述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(erasable programmable read-only memory,EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(Local AreaNetwork,LAN)或广域网(Wide Area Network,WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930。
其中,上述存储单元存储有程序代码,上述程序代码可以被上述处理单元910执行,使得上述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,上述处理单元910可以执行如图2中所示的:步骤S210,将获取到的医疗数据进行结构化处理,得到生产数据;步骤S220,确定预设字段组对应的生产数据的待测指标;以及,步骤S230,根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题。
示例性的,上述处理单元910还可以执行如图3至图6中任意一图所示的医疗数据生产的质控方法。
存储单元920可以包括易失性存储单元形式的可读介质,例如:随机存取存储单元(Random Access Memory,RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元只读存储器(Read-Only Memory,ROM)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口950进行。进一步地,I/O接口950与显示单元940连接,以通过I/O接口950将待显示内容传输至显示单元940,以供用户查看。
并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (7)

1.一种医疗数据生产的质控方法,其特征在于,包括:
将获取到的医疗数据进行结构化处理,得到生产数据;
确定预设字段组对应的生产数据的待测指标,所述待测指标包括数据类型、格式特征、值域范围以及填充率中的任一种或任几种;
根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题;
在确定所述预设字段组对应的生产数据存在问题之后,若所述待测指标为所述数据类型、所述格式特征或者所述值域范围,则在所述预设字段组中获取目标数据所在的目标字段,以定位得到问题数据;重新对所述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的待测指标符合所述待测指标对应的判断条件;
若所述待测指标为所述填充率,则在所述预设字段组中获取未填充的字段作为目标字段,以定位得到问题数据;重新对所述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的填充率大于或等于第四预设阈值。
2.根据权利要求1所述的医疗数据生产的质控方法,其特征在于,所述将获取到的医疗数据进行结构化处理,得到生产数据,包括:
获取目标疾病的特征指标;
根据所述特征指标对所述医疗数据进行结构化处理,得到关于所述目标疾病画像的生产数据。
3.根据权利要求1所述的医疗数据生产的质控方法,其特征在于,所述待测指标为数据类型,其中,所述根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题,包括:
获取所述预设字段组中每个生产数据的数据类型,以及获取所述预设字段组中生产数据的配置数据类型;
响应于所述生产数据的数据类型不同于所述配置数据类型,确定不同于所述配置数据类型的目标数据的数量;
计算所述目标数据的数量与所述预设字段组中生产数据的总数量的占比,并判断所述占比是否小于或等于第一预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题;
所述待测指标为格式特征,其中,所述根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题,包括:
获取所述预设字段组中每个生产数据的格式特征,以及获取所述生产数据的配置数据类型对应的标准格式特征;响应于所述生产数据的格式类型不同于所述标准格式特征,确定不同于所述标准格式特征的目标数据的数量;判断所述目标数据的数量是否小于或等于第二预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题;
所述待测指标为值域范围,其中,所述根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题,包括:
获取所述预设字段组中每个生产数据的值域,以及获取对所述生产数据的配置数据类型对应的标准值域;响应于所述生产数据的值域不在所述标准值域范围内,确定不满足所述标准值域的目标数据的数量;判断所述目标数据的数量是否小于或等于第三预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。
4.根据权利要求3所述的医疗数据生产的质控方法,其特征在于,所述方法还包括:
获取所述目标字段中每个所述问题数据的实际生产路径,以根据所述实际生产路径确定所述问题数据的来源。
5.根据权利要求1所述的医疗数据生产的质控方法,其特征在于,所述待测指标为填充率,其中,所述根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标对应的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题,包括:
确定所述预设字段组中生产数据的填充率;
判断所述预设字段组中生产数据的填充率是否大于或等于第四预设阈值,若否,则确定所述预设字段组对应的生产数据存在问题。
6.一种医疗数据生产的质控装置,其特征在于,包括:
生产数据确定模块,用于:将获取到的医疗数据进行结构化处理,得到生产数据;
待测指标确定模块,用于:确定预设字段组对应的生产数据的待测指标,所述待测指标包括数据类型、格式特征、值域范围以及填充率中的任一种或任几种;
判断模块,用于:根据所述待测指标以及所述待测指标对应的判断条件,判断所述预设字段组对应的生产数据的待测指标是否符合所述待测指标的判断条件,若否,则确定所述预设字段组对应的生产数据存在问题;
问题数据处理模块,用于:在确定所述预设字段组对应的生产数据存在问题之后,若所述待测指标为所述数据类型、所述格式特征或者所述值域范围,则在所述预设字段组中获取目标数据所在的目标字段,以定位得到问题数据;重新对所述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的待测指标符合所述待测指标对应的判断条件;
若所述待测指标为所述填充率,则在所述预设字段组中获取未填充的字段作为目标字段,以定位得到问题数据;重新对所述目标字段的医疗数据进行结构化处理,并对重新结构化处理后的生产数据进行测试,以使所述目标字段中生产数据的填充率大于或等于第四预设阈值。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的医疗数据生产的质控方法。
CN202010193121.8A 2020-03-18 2020-03-18 医疗数据生产的质控方法、装置以及电子设备 Active CN111427874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010193121.8A CN111427874B (zh) 2020-03-18 2020-03-18 医疗数据生产的质控方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010193121.8A CN111427874B (zh) 2020-03-18 2020-03-18 医疗数据生产的质控方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN111427874A CN111427874A (zh) 2020-07-17
CN111427874B true CN111427874B (zh) 2023-08-22

Family

ID=71548106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010193121.8A Active CN111427874B (zh) 2020-03-18 2020-03-18 医疗数据生产的质控方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111427874B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303102B (zh) * 2023-05-19 2023-08-11 建信金融科技有限责任公司 测试数据的生成方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076243A1 (zh) * 2016-10-27 2018-05-03 华为技术有限公司 一种查找方法及装置
CN109448859A (zh) * 2018-11-09 2019-03-08 贵州医渡云技术有限公司 数据处理方法及装置、电子设备、存储介质
CN109634941A (zh) * 2018-11-14 2019-04-16 金色熊猫有限公司 医疗数据处理方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076243A1 (zh) * 2016-10-27 2018-05-03 华为技术有限公司 一种查找方法及装置
CN109448859A (zh) * 2018-11-09 2019-03-08 贵州医渡云技术有限公司 数据处理方法及装置、电子设备、存储介质
CN109634941A (zh) * 2018-11-14 2019-04-16 金色熊猫有限公司 医疗数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111427874A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN109992498B (zh) 测试用例的生成方法及系统、计算机系统
CN109599153B (zh) 医疗数据跟踪方法及装置、存储介质、电子设备
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
CN111427974A (zh) 数据质量评估管理方法和装置
CN111383761B (zh) 医疗数据分析方法、装置、电子设备及计算机可读介质
CN115277261B (zh) 基于工控网络病毒的异常机器智能识别方法、装置、设备
CN112182067A (zh) 个体身高预测方法、装置、电子设备及存储介质
CN115034596A (zh) 一种风险传导预测方法、装置、设备和介质
CN111427874B (zh) 医疗数据生产的质控方法、装置以及电子设备
CN113342692A (zh) 测试用例自动生成方法、装置、电子设备及存储介质
CN111127223B (zh) 保险产品测试方法、装置和存储介质
CN115755863A (zh) 一种车辆故障诊断方法、装置、设备及存储介质
CN113590484B (zh) 算法模型服务测试方法、系统、设备及存储介质
CN111741046B (zh) 数据上报方法、获取方法、装置、设备及介质
CN114266501A (zh) 医院运营指标的自动预测和根因分析方法及系统
CN105245380B (zh) 一种消息的传播方式识别方法及装置
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN111427878B (zh) 数据监控告警方法、装置、服务器和存储介质
CN111274143B (zh) 埋点测试方法、装置、设备及存储介质
CN110931136B (zh) 事件的搜索方法及装置、计算机介质和电子设备
CN114490390A (zh) 测试数据生成方法、装置、设备及存储介质
CN111639173A (zh) 疫情数据处理方法、装置、设备和存储介质
CN113626301A (zh) 生成测试脚本的方法和装置
CN111651753A (zh) 用户行为分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230327

Address after: 100191 room 801, 8th floor, building 9, 35 Huayuan North Road, Haidian District, Beijing

Applicant after: YIDU CLOUD Ltd.

Address before: Floor 15, building a, Yangzi science and technology innovation center, Jiangbei new district, Nanjing City, Jiangsu Province

Applicant before: NANJING YIDUYUN MEDICAL TECHNOLOGY Co.,Ltd.

Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant