CN110866557B - 数据评价方法及装置、存储介质及电子设备 - Google Patents

数据评价方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110866557B
CN110866557B CN201911101105.5A CN201911101105A CN110866557B CN 110866557 B CN110866557 B CN 110866557B CN 201911101105 A CN201911101105 A CN 201911101105A CN 110866557 B CN110866557 B CN 110866557B
Authority
CN
China
Prior art keywords
data
target data
rule
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911101105.5A
Other languages
English (en)
Other versions
CN110866557A (zh
Inventor
王兵卡
郭伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Yidu Cloud Technology Co ltd
Original Assignee
Guizhou Yidu Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Yidu Cloud Technology Co ltd filed Critical Guizhou Yidu Cloud Technology Co ltd
Priority to CN201911101105.5A priority Critical patent/CN110866557B/zh
Publication of CN110866557A publication Critical patent/CN110866557A/zh
Application granted granted Critical
Publication of CN110866557B publication Critical patent/CN110866557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及数据处理技术领域,具体涉及一种数据评价方法及数据评价装置、计算机可读存储介质及电子设备,所述方法包括:响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;根据所述分类结果生成所述目标数据集的评价结果。本公开实施例的技术方案一方面,能够根据不同的目标数据集选择不同的目标分类规则,进而得到更加准确的分类结果;另一方面,能够实现对特征多样的目标数据集的中的每一个目标数据按照对应的目标规则进行分类,进而根据分类结果生成目标数据集的评价结果的目的,降低了校验失效的概率。

Description

数据评价方法及装置、存储介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种数据评价方法及数据评价装置、计算机可读存储介质及电子设备。
背景技术
数据质量评估通常需要多个维度进行衡量,包括完整性、规范性、一致性、时效性、准确性以及可访问性等。其中,准确性用于度量数据是否正确,因此可以通过校验数据的准确性获取数据与标准元数据定义的匹配度,进而为后续数据的应用提供质量保证。
如今,随着计算机、物联网等技术的不断发展,数据正以前所未有的速度不断增长和积累,而在数据分析的过程中,不准确的数据不仅会造成数据分析结果出现偏差,更有甚者会导致结果与正确结果相反。
现有的数据校验通常只能通过确定数值属性对数值类数据进行校验,例如,产品数量肯定为整数,因此当数值为整数时即确定数值准确。然而,这种通过属性进行校验的方式用于特征多样的数据时,往往失效率很高。例如,在针对文本类数据进行校验时,即使通过校验保证文本数据的数据长度在范围内,也不能保证文本数据的内容是否准确,此时校验已经失效。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据评价方法及数据评价装置、计算机可读存储介质及电子设备,进而解决在对特征多样的数据通过属性进行校验时,校验失效率较高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供了一种数据评价方法,包括:
响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;
根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;
根据所述分类结果生成所述目标数据集的评价结果。
在本公开的一种示例性实施例中,基于前述方案,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;
获取所述目标数据集对应的目标分类规则,包括:
获取所述目标数据集中各所述目标数据的键数据;
在预设规则库中确定对应于各所述键数据的分类规则,并将各所述分类规则配置为与所述目标数据集对应的目标分类规则。
在本公开的一种示例性实施例中,基于前述方案,所述目标分类规则包括第一规则,第二规则以及第三规则;
根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果,包括:
根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据;其中,所述第一分类结果包括根据所述第一规则确定的准确数据和错误数据;
根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据;其中,所述第二分类结果包括根据所述第二规则确定的错误数据;
根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果;其中,所述第三分类结果包括根据所述第三规则确定的准确数据和未知数据。
在本公开的一种示例性实施例中,基于前述方案,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第一规则包括金键数据和对应于所述金键数据的金规则数据;
根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据,包括:
在所述目标数据中查找与所述金键数据对应的第一目标数据,并将剩余目标数据配置为第一剩余目标数据;
在所述第一目标数据的值数据满足所述金键数据对应的金规则数据时,确定所述第一目标数据为准确数据;或,
在所述第一目标数据的值数据不满足所述金键数据对应的金规则数据时,确定所述第一目标数据为错误数据。
在本公开的一种示例性实施例中,基于前述方案,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第二规则包括黑键数据和对应于所述黑键数据的黑规则数据;
根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据,包括:
在所述第一剩余目标数据中查找与所述黑键数据对应的第二目标数据,并将剩余目标数据配置为第二剩余目标数据;
在所述第二目标数据的值数据满足所述黑键数据对应的黑规则数据时,确定所述第二目标数据为错误数据;或,
在所述第二目标数据的值数据不满足所述黑键数据对应的黑规则数据时,将所述第二目标数据配置为所述第二剩余目标数据。
在本公开的一种示例性实施例中,基于前述方案,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第三规则包括白键数据和对应于所述白键数据的白规则数据;
根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果,包括:
在所述第二剩余目标数据中查找与所述白键数据对应的第三目标数据,并确定剩余目标数据为未知数据;
在所述第三目标数据的值数据满足所述白键数据对应的白规则数据时,确定所述第三目标数据为准确数据;或,
在所述第三目标数据的值数据不满足所述白键数据对应的白规则数据时,将所述第三目标数据配置为所述未知数据。
在本公开的一种示例性实施例中,基于前述方案,根据所述分类结果生成所述目标数据集的评价结果,包括:
根据所述第一分类结果和所述第三分类结果计算所述目标数据集的准确率;
根据所述第一分类结果和所述第二分类结果计算所述目标数据集的错误率;
根据所述第三分类结果计算所述目标数据集的未知率;
根据所述准确率、所述错误率和所述未知率生成所述评价结果。
在本公开的一种示例性实施例中,基于前述方案,所述方法还包括:
在所述未知率大于预设未知率时,触发异常警报以使用户针对所述未知数据进行人工分类或增加分类规则;
在所述错误率大于预设错误率时,触发错误警报以使用户对所述目标数据集进行修复。
根据本公开的第二方面,提供了一种数据评价装置,包括:
规则获取模块,用于响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;
数据分类模块,用于根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;
结果生成模块,用于根据所述分类结果生成所述目标数据集的评价结果。
根据本公开的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的数据评价方法。
根据本公开实施例的第四方面,提供了一种电子设备,包括:
处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的数据评价方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开的一种实施例所提供的数据评价方法中,通过在接收到目标数据集时,获取所述目标数据集对应的目标分类规则,根据所述目标分类规则对所述目标数据集中的各目标数据进行分类以获取分类结果,最后根据所述分类结果生成所述目标数据集的评价结果。一方面,通过根据目标数据集获取对应的目标分类规则,能够根据不同的目标数据集选择不同的目标分类规则,进而得到更加准确的分类结果;另一方面,通过目标分类规则对目标数据集中的每一个目标数据进行分类,能够实现对特征多样的目标数据集的中的每一个目标数据按照对应的目标规则进行分类,进而根据分类结果生成目标数据集的评价结果的目的,从而降低了校验失效的概率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出本公开示例性实施例中一种数据评价方法的流程图;
图2示意性示出本公开示例性实施例中获取所述目标数据集对应的目标分类规则的方法的流程图;
图3示意性示出本公开示例性实施例中根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果的方法的流程图;
图4示意性示出本公开示例性实施例中根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据的方法的流程图;
图5示意性示出本公开示例性实施例中根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据的方法的流程图;
图6示意性示出本公开示例性实施例中根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果的方法的流程图;
图7示意性示出本公开示例性实施例中根据所述分类结果生成所述目标数据集的评价结果的方法的流程图;
图8示意性示出本公开示例性实施例中根据未知率和错误率触发警报的方法的流程图;
图9示意性示出本公开示例性实施例中一种数据评价装置的组成示意图;
图10示意性示出了适于用来实现本公开示例性实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参照附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本示例性实施例中,首先提供了一种数据评价方法,可以应用于多特征数据的评价过程,例如,对医疗检测报告、信息登记表等多特征的文本类数据进行评价的过程。参照图1中所示,上述的数据评价方可以包括以下步骤:
S110,响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;
S120,根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;
S130,根据所述分类结果生成所述目标数据集的评价结果。
根据本示例性实施例中所提供的数据评价方法中,一方面,通过根据目标数据集获取对应的目标分类规则,能够根据不同的目标数据集选择不同的目标分类规则,进而得到更加准确的分类结果;另一方面,通过目标分类规则对目标数据集中的每一个目标数据进行分类,能够实现对特征多样的目标数据集的中的每一个目标数据按照对应的目标规则进行分类,进而根据分类结果生成目标数据集的评价结果的目的。
下面,将结合附图及实施例对本示例性实施例中的数据评价方法的各个步骤进行更详细的说明。
在本公开的一种示例实施例中,在执行所述数据评价方法之前,可以根据需要评价数据所在的领域设置对应的分类规则。例如,在医疗领域中,可以根据医疗大数据标准设置分类规则,并将分类规则存储于预设分类库中,用于后续对目标数据集中的目标数据进行分类。
参照图1所示,在步骤S110中,响应于接收目标数据集,获取所述目标数据集对应的目标分类规则。
在本公开的一种示例实施例中,所述目标数据集中的目标数据可以包括一对键值对数据,键值对数据包括相互对应的键数据和值数据,也可以包括文本与数据组合的字符串等其他类型的数据,本公开对此不做特殊限定。其中,所述一对相互对应的键数据和值数据是指具有对应关系的一组数据,例如,医疗检测报告中的目标数据可以包括“生命体征-体重:50”,其中“生命体征-体重”为目标数据的键数据,“50”为目标数据的值数据,两者相互对应,表明患者的体重为50kg;再如,信息登记表中的目标数据可以包括“姓名:张XX”,其中“姓名”为目标数据的键数据,“张XX”为目标数据的值数据,两者相互对应,表明信息登记人的姓名为张XX。
具体的,在所述目标数据集中的目标数据可以包括一对键值对数据,键值对数据包括相互对应的键数据和值数据时,参照图2所示,步骤S110中所述获取所述目标数据集对应的目标分类规则,包括:
步骤S210,获取所述目标数据集中各所述目标数据的键数据。
步骤S220,在预设规则库中确定对应于各所述键数据的分类规则,并将各所述分类规则配置为与所述目标数据集对应的目标分类规则。
在本公开的一种示例实施例中,由于不同类型的目标数据的分类规则也会不同,而目标数据中的键数据通常可以定义值数据的类型。因此可以以键数据为获取目标数对应的分类规则的依据,获取目标数据集中包括的所有目标数据的键数据,然后在预设库中抽取与键数据对应的分类规则,配置为目标数据集对应的分类规则。
例如,在目标数据集中的一目标数据为“日期:20X9-01-01”,可以根据键数据“日期”确定值数据“20X9-01-01”的分类规则,分类规则可以是:值数据的格式满足“XXXX-XX-XX”为正确数据;分类规则也可以是:值数据的格式满足“XXXX-XX-XX”且中间的“XX”小于等于12,末尾的“XX”小于等于31时为正确数据。
通过根据目标数据中的键数据获取目标数据对应的分类规则,能够选择与目标数据的值数据最匹配的规则,实现更加准确的分类结果,进而得到准确的目标数据集的评价结果,为后续目标数据集的应用提供更准确的质量保障或风险预警。
继续参照图1所示,在步骤S120中,根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果。
在本公开的一种示例实施例中,对目标数据集进行分类的分类结果可以包括该目标数据集中哪一部分为准确数据、哪一部分为错误数据或者哪一部分为未知数据。例如,目标数据集包括目标数据A、B、C,根据目标分类规则可以将目标数据A、B确定为准确数据,将目标数据C确定为错误数据。此时目标数据集的分类结果包括:准确数据:目标数据A、B;错误数据:目标数据C;未知数据:空。
在本公开的一种示例实施例中,所述目标规则可以包括第一规则、第二规则以及第三规则,所述第一规则、第二规则、第三规则可以分别是金规则、黑规则、白规则。具体的,所述金规则可以是指满足即为正确数据,不满足即为错误数据的规则;黑规则可以是指满足此规则即为错误数据,但不满足不一定为正确数据的规则;白规则可以是指满足此规则即为正确数据,但不满足不一定为错误数据的规则。例如,对于“身份证号”的键数据,金规则可以是满足15或者18位特定正则表达式的数据格式。此时满足为正确数据,不满足为错误数据;再如对于“药品名称”的键数据,黑规则可以是不能包含“注射器”,包含则为错误数据,但不包含不一定正确;再如对于“体重”的键数据,白规则可以是满足浮点格式且数字大小在50-100kg为正确数据,但由于新生儿可能有3000g的数据,因此不能判断不满足50-100kg的数据为错误数据。
在本公开的一种示例实施例中,参照图3所示,所述根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果,包括如下步骤S310至S330:
步骤S310,根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据。
在本公开的一种示例实施例中,第一分类结果包括根据所述第一规则确定的准确数据和错误数据。在目标数据集中的目标数据包括一对键值对数据,键值对数据包括相互对应的键数据和值数据时,对应的第一规则可以包括金键数据和对应于所述金键数据的金规则数据。此时,根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据,参照图4所示,包括如下步骤S410至S430:
步骤S410,在所述目标数据中查找与所述金键数据对应的第一目标数据,并将剩余目标数据配置为第一剩余目标数据。
在本公开的一种示例实施例中,可以通过金键数据确定目标数据集中哪些数据不能根据金规则进行分类,将其配置为第一剩余目标数据;并确定哪些目标数据可以通过金规则进行分类,将其配置为第一目标数据,进而根据金规则对第一目标数据进行分类。
步骤S420,在所述第一目标数据的值数据满足所述金键数据对应的金规则数据时,确定所述第一目标数据为准确数据。
步骤S430,在所述第一目标数据的值数据不满足所述金键数据对应的金规则数据时,确定所述第一目标数据为错误数据。
在本公开的一种示例实施例中,所述第一目标数据可以通过金规则进行进一步分类,将第一目标数据的值数据满足所述金规则数据的判断为正确数据;将第一目标数据的值数据不满足所述金规则的判断为错误数据,得到第一分类结果。
步骤S320,根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据。
在本公开的一种示例实施例中,第二分类结果包括根据所述第二规则确定的错误数据。在目标数据集中的目标数据包括一对键值对数据,键值对数据包括相互对应的键数据和值数据时,对应的第二规则可以包括黑键数据和对应于所述黑键数据的黑规则数据。此时,根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据,参照图5所示,包括如下步骤S510至S530:
步骤S510,在所述第一剩余目标数据中查找与所述黑键数据对应的第二目标数据,并将剩余目标数据配置为第二剩余目标数据。
在本公开的一种示例实施例中,可以通过黑键数据确定第一剩余目标数据中哪些数据不能根据黑规则进行分类,将其配置为第二剩余目标数据;并确定哪些第一剩余目标数据可以通过黑规则进行分类,将其配置为第二目标数据,进而根据黑规则对第二目标数据进行分类。
步骤S520,在所述第二目标数据的值数据满足所述黑键数据对应的黑规则数据时,确定所述第二目标数据为错误数据。
步骤S530,在所述第二目标数据的值数据不满足所述黑键数据对应的黑规则数据时,将所述第二目标数据配置为所述第二剩余目标数据。
在本公开的一种示例实施例中,所述第二目标数据可以通过黑规则进行进一步分类,将第二目标数据的值数据满足所述黑规则数据的判断为错误数据,得到第二分类结果;将第二目标数据的值数据不满足所述黑规则的配置为第二剩余目标数据。
步骤S330,根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果。
在本公开的一种示例实施例中,第三分类结果包括根据所述第三规则确定的准确数据和未知数据。在目标数据集中的目标数据包括一对键值对数据,键值对数据包括相互对应的键数据和值数据时,对应的第三规则可以包括白键数据和对应于所述白键数据的白规则数据。此时,根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果,参照图6所示,包括如下步骤S610至S630:
步骤S610,在所述第二剩余目标数据中查找与所述白键数据对应的第三目标数据,并确定剩余目标数据为未知数据。
步骤S620,在所述第三目标数据的值数据满足所述白键数据对应的白规则数据时,确定所述第三目标数据为准确数据。
步骤S630,在所述第三目标数据的值数据不满足所述白键数据对应的白规则数据时,将所述第三目标数据配置为所述未知数据。
在本公开的一种示例实施例中,可以通过白键数据确定第二剩余目标数据中哪些数据不能根据白规则进行分类,将其配置为未知数据;并确定哪些第二剩余目标数据可以通过白规则进行分类,将其配置为第三目标数据,进而根据白规则对第三目标数据进行分类。将第三目标数据的值数据满足所述白规则数据的判断为正确数据,将第三目标数据的值数据不满足所述白规则的配置为未知数据,得到第三分类结果。
在本公开的一种示例实施例中,上述步骤S310至步骤S330也可以以其他顺序进行执行。例如,可以以步骤S320、步骤S310、步骤S330的顺序进行执行,本公开对此不做特殊限制。需要说明的是,在第一规则、第二规则、第三规则分别为金规则、黑规则、白规则时,由于金规则、黑规则、白规则的规则特性,按照金规则、黑规则、白规则的顺序对目标数据进行分类时,对目标数据的分类更加准确,能够避免由于规则顺序造成的漏判等问题。
继续参照图1所示,在步骤S130中,根据所述分类结果生成所述目标数据集的评价结果。
在本公开的一种示例实施例中,目标数据集的评价结果是指该目标数据集中包括的目标数据的准确率、错误率以及未知率,以根据准确率、错误率以及未知率判断目标数据集的质量。例如,当目标数据集的准确率为100%时,则可以认为目标数据集质量高。
在本公开的一种示例实施例中,所述目标数据集的评价结果为目标数据的准确性。具体的,可以通过目标数据集中目标数据的准确率、错误率以及未知率表示。此时,参照图7所示,根据所述分类结果生成所述目标数据集的评价结果,包括如下步骤S710至S740:
步骤S710,根据所述第一分类结果和所述第三分类结果计算所述目标数据集的准确率。
在本公开的一种示例实施例中,在所述第一规则和第三规则分别为金规则和白规则时,可以根据第一分类结果中正确数据和第三分类结果中正确数据的数量总数与目标数据集中目标数据总数之比得到目标数据集的准确率。
步骤S720,根据所述第一分类结果和所述第二分类结果计算所述目标数据集的错误率。
在本公开的一种示例实施例中,在所述第一规则和第二规则分别为金规则和黑规则时,可以根据第一分类结果中错误数据和第三分类结果中错误数据的数量总数与目标数据集中目标数据总数之比得到目标数据集的错误率。
步骤S730,根据所述第三分类结果计算所述目标数据集的未知率。
在本公开的一种示例实施例中,在根据所有规则分类后的第三分类结果中,有一部分目标数据始终无法被分类,因此将其配置未知数据。通过对未知数据进行分析,可以向分类规则中添加更多新的分类规则,以便于可以根据完善后的分类规则降低未知率。
步骤S740,根据所述准确率、所述错误率和所述未知率生成所述评价结果。
在本公开的一种示例实施例中,可以将准确率、错误率和未知率共同作为目标数据集的评价结果返回用户,以使在后续使用目标数据集中的目标数据时,用户可以根据评价结果了解目标数据的可利用程度。
进一步的,参照图8所示,所述方法还包括:
步骤S810,在所述错误率大于预设错误率时,触发错误警报以使用户对所述目标数据集进行修复。
在本公开的一种示例实施例中,所述预设错误率可以根据以往真实数据的平均值进行设置,也可以根据分位置进行设置,还可以根据数据使用方对数据的要求进行设置,本公开对此不做特殊限制。在计算得到的错误率过大时,可能是数据来源出现问题,因此可以通过触发错误警报以使用户对目标数据集来源的数据生成过程进行检测。
步骤S820,在所述未知率大于预设未知率时,触发异常警报以使用户针对所述未知数据进行人工分类或增加分类规则。
在本公开的一种示例实施例中,同样的所述预设未知率可以根据以往真实数据的平均值进行设置,也可以根据分位置进行设置,还可以根据数据使用方对数据的要求进行设置,本公开对此不做特殊限制。在计算得到的未知率过大时,可能出现两种情况:一是目标分类规则不足,此时可以针对未知数据进行规则总结,加入新的分类规则,以降低后续目标数据集的未知率;二是存在特征一致性较低的目标数据,此时可以人工对目标数据进行二次分类,通过人工降低目标数据集的未知率。
通过目标分类规则对目标数据集中的目标数据分类后,在未知率大于预设未知率时,对未知数据进行人工二次分类,能够在保证数据准确性的同时,降低人工分类的数量,进而缩短判断目标数据集准确性所需的时间。
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
此外,在本公开的示例性实施方式中,还提供了一种数据评价装置。参照图9所示,所述数据评价装置900包括:规则获取模块910,数据分类模块920和结果生成模块930。
其中,所述规则获取模块910可以用于响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;
所述数据分类模块920可以用于根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;
所述结果生成模块930可以用于根据所述分类结果生成所述目标数据集的评价结果。
在本公开的一种示例性实施例中,基于前述方案,所述规则获取模块910可以用于获取所述目标数据集中各所述目标数据的键数据;在预设规则库中确定对应于各所述键数据的分类规则,并将各所述分类规则配置为与所述目标数据集对应的目标分类规则。
在本公开的一种示例性实施例中,基于前述方案,所述数据分类模块920可以用于根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据;其中,所述第一分类结果包括根据所述第一规则确定的准确数据和错误数据;根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据;其中,所述第二分类结果包括根据所述第二规则确定的错误数据;根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果;其中,所述第三分类结果包括根据所述第三规则确定的准确数据和未知数据。
在本公开的一种示例性实施例中,基于前述方案,所述数据分类模块920可以用于在所述目标数据中查找与所述金键数据对应的第一目标数据,并将剩余目标数据配置为第一剩余目标数据;在所述第一目标数据的值数据满足所述金键数据对应的金规则数据时,确定所述第一目标数据为准确数据;或在所述第一目标数据的值数据不满足所述金键数据对应的金规则数据时,确定所述第一目标数据为错误数据。
在本公开的一种示例性实施例中,基于前述方案,所述数据分类模块920可以用于在所述第一剩余目标数据中查找与所述黑键数据对应的第二目标数据,并将剩余目标数据配置为第二剩余目标数据;在所述第二目标数据的值数据满足所述黑键数据对应的黑规则数据时,确定所述第二目标数据为错误数据;或在所述第二目标数据的值数据不满足所述黑键数据对应的黑规则数据时,将所述第二目标数据配置为所述第二剩余目标数据。
在本公开的一种示例性实施例中,基于前述方案,所述数据分类模块920可以用于在所述第二剩余目标数据中查找与所述白键数据对应的第三目标数据,并确定剩余目标数据为未知数据;在所述第三目标数据的值数据满足所述白键数据对应的白规则数据时,确定所述第三目标数据为准确数据;或在所述第三目标数据的值数据不满足所述白键数据对应的白规则数据时,将所述第三目标数据配置为所述未知数据。
在本公开的一种示例性实施例中,基于前述方案,所述结果生成模块930可以用于根据所述第一分类结果和所述第三分类结果计算所述目标数据集的准确率;根据所述第一分类结果和所述第二分类结果计算所述目标数据集的错误率;根据所述第三分类结果计算所述目标数据集的未知率;根据所述准确率、所述错误率和所述未知率生成所述评价结果。
在本公开的一种示例性实施例中,基于前述方案,所述结果生成模块930可以用于在所述未知率大于预设未知率时,触发异常警报以使用户针对所述未知数据进行人工分类或增加分类规则;在所述错误率大于预设错误率时,触发错误警报以使用户对所述目标数据集进行修复。
由于本公开的示例实施例的数据评价装置的各个功能模块与上述数据评价方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的数据评价方法的实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述数据评价方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参照图10来描述根据本公开的这种实施例的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如,所述处理单元1010可以执行如图1中所示的步骤S110:响应于接收目标数据集,获取所述目标数据集对应的目标分类规则;S120:根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;S130:根据所述分类结果生成所述目标数据集的评价结果。
又如,所述的电子设备可以实现如图2至图8所示的各个步骤。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。
存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
此外,本公开的示例性实施例中还提供了一种用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (9)

1.一种数据评价方法,应用于医疗数据处理,其特征在于,包括:
响应于接收目标数据集,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;获取所述目标数据集中各所述目标数据的键数据;在预设规则库中确定对应于各所述键数据的分类规则,并将各所述分类规则配置为与所述目标数据集对应的目标分类规则;
根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;
根据所述分类结果生成所述目标数据集的评价结果;
其中,所述目标分类规则包括第一规则,第二规则以及第三规则;
根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果,包括:根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据;其中,所述第一分类结果包括根据所述第一规则确定的准确数据和错误数据;根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据;其中,所述第二分类结果包括根据所述第二规则确定的错误数据;根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果;其中,所述第三分类结果包括根据所述第三规则确定的准确数据和未知数据。
2.根据权利要求1所述的方法,其特征在于,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第一规则包括金键数据和对应于所述金键数据的金规则数据;
根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据,包括:
在所述目标数据集中查找与所述金键数据对应的第一目标数据,并将剩余目标数据配置为第一剩余目标数据;
在所述第一目标数据的值数据满足所述金键数据对应的金规则数据时,确定所述第一目标数据为准确数据;或,在所述第一目标数据的值数据不满足所述金键数据对应的金规则数据时,确定所述第一目标数据为错误数据。
3.根据权利要求1所述的方法,其特征在于,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第二规则包括黑键数据和对应于所述黑键数据的黑规则数据;
根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据,包括:
在所述第一剩余目标数据中查找与所述黑键数据对应的第二目标数据,并将剩余目标数据配置为第二剩余目标数据;
在所述第二目标数据的值数据满足所述黑键数据对应的黑规则数据时,确定所述第二目标数据为错误数据;或,在所述第二目标数据的值数据不满足所述黑键数据对应的黑规则数据时,将所述第二目标数据配置为所述第二剩余目标数据。
4.根据权利要求1所述的方法,其特征在于,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;所述第三规则包括白键数据和对应于所述白键数据的白规则数据;
根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果,包括:
在所述第二剩余目标数据中查找与所述白键数据对应的第三目标数据,并确定剩余目标数据为未知数据;
在所述第三目标数据的值数据满足所述白键数据对应的白规则数据时,确定所述第三目标数据为准确数据;或,在所述第三目标数据的值数据不满足所述白键数据对应的白规则数据时,将所述第三目标数据配置为所述未知数据。
5.根据权利要求1所述的方法,其特征在于,根据所述分类结果生成所述目标数据集的评价结果,包括:
根据所述第一分类结果和所述第三分类结果计算所述目标数据集的准确率;
根据所述第一分类结果和所述第二分类结果计算所述目标数据集的错误率;
根据所述第三分类结果计算所述目标数据集的未知率;
根据所述准确率、所述错误率和所述未知率生成所述评价结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述未知率大于预设未知率时,触发异常警报以使用户针对所述未知数据进行人工分类或增加分类规则;
在所述错误率大于预设错误率时,触发错误警报以使用户对所述目标数据集进行修复。
7.一种数据评价装置,应用于医疗数据处理,其特征在于,包括:
规则获取模块,用于响应于接收目标数据集,所述目标数据集中的目标数据包括一对键值对数据,所述键值对数据包括相互对应的键数据和值数据;获取所述目标数据集中各所述目标数据的键数据;在预设规则库中确定对应于各所述键数据的分类规则,并将各所述分类规则配置为与所述目标数据集对应的目标分类规则;所述目标分类规则包括第一规则,第二规则以及第三规则;
数据分类模块,用于根据所述目标分类规则对所述目标数据集中的各目标数据进行分类,以获取分类结果;包括:根据所述第一规则对所述目标数据集中的各目标数据进行分类,以获取第一分类结果和第一剩余目标数据;其中,所述第一分类结果包括根据所述第一规则确定的准确数据和错误数据;根据所述第二规则对所述第一剩余目标数据进行分类,以获取第二分类结果和第二剩余目标数据;其中,所述第二分类结果包括根据所述第二规则确定的错误数据;根据所述第三规则对所述第二剩余目标数据进行分类,以获取第三分类结果;其中,所述第三分类结果包括根据所述第三规则确定的准确数据和未知数据;
结果生成模块,用于根据所述分类结果生成所述目标数据集的评价结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任一项所述的数据评价方法。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的数据评价方法。
CN201911101105.5A 2019-11-12 2019-11-12 数据评价方法及装置、存储介质及电子设备 Active CN110866557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101105.5A CN110866557B (zh) 2019-11-12 2019-11-12 数据评价方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101105.5A CN110866557B (zh) 2019-11-12 2019-11-12 数据评价方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110866557A CN110866557A (zh) 2020-03-06
CN110866557B true CN110866557B (zh) 2022-12-13

Family

ID=69654611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101105.5A Active CN110866557B (zh) 2019-11-12 2019-11-12 数据评价方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110866557B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445928A (zh) * 2015-08-04 2017-02-22 广州华多网络科技有限公司 基于分类模型的信息处理方法及分类模型
CN106776901A (zh) * 2016-11-30 2017-05-31 北京知道创宇信息技术有限公司 数据提取方法、装置及系统
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
WO2018059430A1 (zh) * 2016-09-27 2018-04-05 新华三技术有限公司 数据库搜索
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110362829A (zh) * 2019-07-16 2019-10-22 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6281225B2 (ja) * 2013-09-30 2018-02-21 日本電気株式会社 情報処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445928A (zh) * 2015-08-04 2017-02-22 广州华多网络科技有限公司 基于分类模型的信息处理方法及分类模型
WO2018059430A1 (zh) * 2016-09-27 2018-04-05 新华三技术有限公司 数据库搜索
CN106776901A (zh) * 2016-11-30 2017-05-31 北京知道创宇信息技术有限公司 数据提取方法、装置及系统
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110362829A (zh) * 2019-07-16 2019-10-22 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备

Also Published As

Publication number Publication date
CN110866557A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
US10169202B2 (en) Code component debugging in an application program
CN108776696B (zh) 节点配置方法及装置、存储介质和电子设备
CN111090641B (zh) 数据处理方法及装置、电子设备、存储介质
CN111144210B (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN113852603A (zh) 网络流量的异常检测方法、装置、电子设备和可读介质
CN111241111B (zh) 数据查询方法及装置、数据对比方法及装置、介质及设备
CN110704325B (zh) 数据处理方法及装置、计算机存储介质及电子设备
CN109710523B (zh) 视觉稿的测试用例生成方法及装置、存储介质、电子设备
CN110874364A (zh) 一种查询语句处理方法、装置、设备及存储介质
CN110826616B (zh) 信息处理方法及装置、电子设备、存储介质
CN110909824B (zh) 试验数据的核查方法及装置、存储介质及电子设备
CN110866557B (zh) 数据评价方法及装置、存储介质及电子设备
WO2023060954A1 (zh) 数据处理与数据质检方法、装置及可读存储介质
CN111063445A (zh) 基于医疗数据的特征提取方法及装置、设备和介质
CN115470034A (zh) 一种日志分析方法、设备及存储介质
CN111427874B (zh) 医疗数据生产的质控方法、装置以及电子设备
CN114780550A (zh) 一种元素定位路径的自动更新方法、装置、设备及介质
CN110852077B (zh) 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
US11392371B2 (en) Identification of a partial code to be refactored within a source code
CN111741046B (zh) 数据上报方法、获取方法、装置、设备及介质
CN113901094A (zh) 一种数据处理方法、装置、设备及存储介质
CN113238940A (zh) 一种接口测试结果的比对方法、装置、设备和存储介质
CN113517047A (zh) 医学数据的获取方法、装置、电子设备及存储介质
CN113760696A (zh) 一种程序问题定位方法、装置、电子设备和存储介质
Al-Msie’deen BushraDBR: An Automatic Approach to Retrieving Duplicate Bug Reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant