CN111626869A - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents
数据处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111626869A CN111626869A CN202010447829.1A CN202010447829A CN111626869A CN 111626869 A CN111626869 A CN 111626869A CN 202010447829 A CN202010447829 A CN 202010447829A CN 111626869 A CN111626869 A CN 111626869A
- Authority
- CN
- China
- Prior art keywords
- data
- column
- detected
- data column
- bill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种数据处理方法、装置、电子设备及可读存储介质。该方法包括:获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识;根据至少一个历史账单确定待检测数据列对应的第一数据列;根据第一数据列和待检测数据列,确定待检测数据列是否存在异常,从而可以提高数据检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
随着保险业务的不断发展,账单报销的数量也不断增加,提高账单报销的效率,提升用户体验的前提是确保账单录入系统的准确性。
现有技术中,账单录入人员将账单录入系统后,需要账单录入人员人工自查,检查账单数据是否存在错误。若发现录入错误,则账单录入人员对其进行修改。目前这种人工检测数据的方法存在准确性较低的问题。
申请内容
本申请提供一种数据处理方法、装置、电子设备及可读存储介质,从而可以提高数据检测的准确性。
第一方面,本申请提供了一种数据处理方法,包括:获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识;根据至少一个历史账单确定待检测数据列对应的第一数据列,至少一个历史账单的标识与待检测账单的标识相同,且第一数据列的标识与待检测数据列的标识相同;根据第一数据列和待检测数据列,确定待检测数据列是否存在异常。
由于本申请实现的是自动数据检测,而不是通过人工自查的方法对数据进行检测,从而提高了数据检测的准确性,并且也提高了数据检测效率。
可选的,根据第一数据列和待检测数据列,确定待检测数据列是否存在异常,包括:若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,则确定待检测数据列存在异常。通过该方法能够确定非空类型的待检测数据列是否存在异常。
可选的,还包括:若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,则发出告警信息,以提示用户输入错误,以使用户输入数据项值,从而提高了数据处理设备的可靠性。
可选的,根据第一数据列和待检测数据列,确定待检测数据列是否存在异常,包括:若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,则确定待检测数据列存在异常。通过该能够确定枚举类型的数据列是否存在异常。
可选的,还包括:若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,则计算待检测数据列中的数据项值与第一数据列中各个数据项值的距离;若第一数据列中存在与待检测数据列中的数据项值小于预设距离的数据项值,则发送告警信息,以提示用户输入错误,且正确输入值为第一数据列中与待检测数据列中的数据项值小于预设距离的数据项值,以使用户输入正确的数据项值,从而提高了数据处理设备的可靠性。
可选的,根据第一数据列和待检测数据列,确定待检测数据列是否存在异常,包括:若第一数据列的数据类型为数值型,则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,则确定待检测数据列存在异常。通过该方法能够确定数值型的数据列是否存在异常。
可选的,还包括:若第一数据列的数据类型为数值型,则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,则发送告警信息,提示用户输入错误,以使用户输入正确的数据项值,从而提高了数据处理设备的可靠性。
可选的,根据至少一个历史账单确定待检测数据列对应的第一数据列之前,还包括:获取至少一个历史账单;判断第二数据列是否为非空类型,第二数据列为根据至少一个历史账单确定的账单中的任一个数据列;若第二数据列为非空类型,判断第二数据列是否为枚举型或者数值型;若第二数据列为枚举型,则获取第二数据列中的数据项值;若第二数据列为数值型,则获取第二数据列对应的数值范围。即通过对历史账单进行分析,得到历史账单的数据规则,基于此,数据处理设备判断待检测账单是否具有历史账单的数据规则,以检测待检测账单中的数据是否存在异常。
可选的,判断第二数据列是否为非空类型,包括:获取第二数据列中非空值的个数;获取第二数据列的行数;若第二数据列中非空值的个数与第二数据列的行数的比值大于第一预设阈值,则确定第二数据列为非空类型。通过该方法能够确定数据列是否为非空类型。
可选的,判断第二数据列是否为枚举型,包括:获取第二数据列中唯一值的个数;获取第二数据列的行数;若第二数据列中唯一值的个数与第二数据列的行数的比值小于第二预设阈值,则确定第二数据列为枚举型。通过该方法能够判断数据列的数据类型是否为枚举型。
可选的,获取第二数据列对应的数值范围,包括:确定第二数据列中的最大值和最小值;计算在第二数据列中,最小值和最大值之间的所有数据的平均值和标准差;根据最大值、最小值、平均值和标准差确定数值范围。通过该方法能够确定数值型的数据列的数值范围。
可选的,根据最大值、最小值、平均值和标准差确定数值范围,包括:根据公式(1)确定数值范围,
[min(MIN,MEAN-2×SD),max(MAX,MEAN+2×SD)] (1)
其中,MIN表示最小值,MEAN表示平均值,MAX表示最大值,SD表示标准差。
下面将提供图像识别装置、设备、存储介质、程序产品,其效果可参考上述的图像识别方法对应的效果,下面对此不再赘述。
第二方面,本申请提供一种数据处理装置,包括:
获取模块,用于获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识。
确定模块,用于根据至少一个历史账单确定待检测数据列对应的第一数据列,至少一个历史账单的标识与待检测账单的标识相同,且第一数据列的标识与待检测数据列的标识相同。
判断模块,用于根据第一数据列和待检测数据列,确定待检测数据列是否存在异常。
第三方面,本申请提供一种数据处理设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第一方面的可选方式的数据处理方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面或第一方面的可选方式的数据处理方法。
本申请提供一种数据处理方法、装置、电子设备及可读存储介质,通过对历史账单进行分析,来确定历史账单的数据规则,判断待检测账单中的数据是否具有历史账单的数据规则,以检测待检测账单中的数据是否存在异常。由于本申请实现的是自动数据检测,而不是通过人工自查的方法对数据进行检测,从而提高了数据检测的准确性,并且也提高了数据检测效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请一实施例提供的数据处理方法的流程图;
图2为本申请一实施例提供的待检测账单的示意图;
图3为本申请一实施例提供的历史账单A的示意图;
图4为本申请一实施例提供的历史账单B的示意图;
图5为本申请一实施例提供的整合账单C的示意图;
图6为本申请一实施例提供的界面示意图;
图7为本申请另一实施例提供的界面示意图;
图8为本申请再一实施例提供的界面示意图;
图9为本申请另一实施例提供的数据处理方法的流程图;
图10为本申请一实施例提供的医疗账单D的示意图;
图11为本申请一实施例提供的医疗账单E的示意图;
图12为本申请一实施例提供的医疗账单F的示意图;
图13为本申请一实施例提供的医疗账单G的示意图;
图14为本申请一实施例提供的同一组历史账单中数据列标识相同的数据列合并生成的新的账单数据列的示意图;
图15为本申请一实施例提供的车险账单H的示意图;
图16为本申请一实施例提供的数据处理装置的结构示意图;
图17为本申请一实施例提供的数据处理设备确定的数据类型和数值范围的示意图;
图18为本申请一实施例提供的一种数据处理装置的结构示意图;
图19为本申请一实施例提供的数据处理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着保险业务的不断发展,账单报销的数量也不断增加,提高账单报销的效率,提升用户体现的前提是确保账单录入系统的准确性。现有技术中,除业务编码等部分数据可以由系统自动生成外,费用金额、住院天数、用药名称等数据都需要人工填报,在这一过程中很容易出现录入错误,为确保录入数据的准确性,就需要对录入的数据进行核对,现有技术是通过录入人员人工自查完成数据的核对,这种人工检测数据的方法导致检测效率低、准确性低的问题。
相同类型的账单,所包含的数据内容存在一定的关联关系,例如医疗账单中涉及的药品种类是一定的,药品价格的区间也是一定的,如果能够统计出历史医疗账单中的药品种类以及不同种类的药品的价格,那么可以根据统计结果判断新录入的医疗账单的药品名称是否属于统计得到的药品种类;新录入的医疗账单的药品价格是否符合统计得到的相同名称的药品的价格区间,进而完成新录入医疗账单数据的检测,能够有效地提高账单数据的检测的准确性和效率。基于此,本申请的主旨思想是:通过对历史账单进行分析,来确定历史账单的数据规则,判断待检测账单中的数据是否具有历史账单的数据规则,以检测待检测账单中的数据是否存在异常。
本申请可以应用于如下场景,但不限于此:
应用场景一:待检测设备具有扫描功能,其可以对纸质版的待检测账单进行扫描,以形成电子版的待检测账单,待检测设备或者云服务器中存储有至少一个历史账单。
应用场景二:待检测设备具有扫描功能,其可以对纸质版的待检测账单进行扫描,以形成电子版的待检测账单,待检测设备或者云服务器中存储有根据至少一个历史账单形成的至少一项数据规则,每项数据规则包括:一数据列、该数据规则的标识(Identity,ID)、该数据列所对应的历史账单的ID、该数据列的数据类型。其中,数据列包括:至少一项数据项值。所谓“数据列所对应的历史账单”指的用于确定该数据列的历史账单。数据列的数据类型为空类型、枚举型或者数值型等。例如:某数据规则包括:该数据规则的ID为1,数据列所对应的历史账单的ID为2,数据列的数据类型是枚举型,数据列包括:去甲肾上腺素,阿奇霉素,静脉免疫球蛋白。再例如:某数据规则包括:该数据规则的ID为2,数据列所对应的历史账单的ID为2,数据列的数据类型是数值型,数据列包括的数据项值是一个数值范围,如去甲肾上腺素的价格区间[15,160]。
应用场景三:待检测账单是电子版的账单,待检测设备或者云服务器中存储有至少一个历史账单。
应用场景四:待检测账单是电子版的账单,待检测设备或者云服务器中存储有根据至少一个历史账单形成的至少一项数据规则,每项数据规则包括:一数据列、该数据规则的ID、该数据列所对应的历史账单的ID、该数据列的数据类型。
图1为本申请一实施例提供的数据处理方法的流程图,如图1所示,该方法可以由数据处理设备的部分或全部执行,所谓数据处理设备的部分为数据处理设备中的处理器,下面以数据处理设备为执行主体对数据处理方法进行说明,该数据处理方法包括如下步骤:
步骤S101:数据处理设备获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识。
如上所述,待检测账单可以是纸质版或者电子版的账单,如果待检测账单是纸质版的账单,数据处理设备可以扫描该账单,以将其转换为电子版的账单。
示例性地,图2为本申请一实施例提供的待检测账单的示意图,如图2所示,待检测账单中包括四个数据列,分别为药品名称列、去甲肾上腺素的价格列、阿奇霉素的价格列、静脉免疫球蛋白的价格列。上述的药物名称列包括:去甲肾上腺素、阿奇霉素、静脉免疫球蛋白的名称。基于此,待检测账单的待检测数据列可以是上述四个数据列中的任一列。
可选的,待检测账单的标识是待检测账单的名称,例如医疗账单;也可以是数据处理设备为待检测账单分配的索引等,其中同一类型的账单其对应的标识相同,比如:医疗账单的标识都是2。
可选的,待检测数据列的标识是待检测账单中待检测数据列的名称,例如上述的药品名称列的标识是“药物名称”、去甲肾上腺素的价格列标识是“去甲肾上腺素的价格”、阿奇霉素的价格列标识是“阿奇霉素的价格”、静脉免疫球蛋白的价格列标识是“静脉免疫球蛋白的价格”。或者,待检测数据列的标识是待检测账单中待检测数据列的名称对应的唯一索引,例如上述的药品名称列的标识是“药物名称对应的唯一索引1”、去甲肾上腺素的价格列标识是“去甲肾上腺素的价格对应的唯一索引2”、阿奇霉素的价格列标识是“阿奇霉素的价格对应的唯一索引3”、静脉免疫球蛋白的价格列标识是“静脉免疫球蛋白的价格对应的唯一索引4”。
步骤S102:数据处理设备根据至少一个历史账单确定待检测数据列对应的第一数据列。
其中,上述至少一个历史账单的标识与待检测账单的标识相同,且第一数据列的标识与待检测数据列的标识相同。所谓至少一个历史账单的标识与待检测账单的标识相同指的是至少一个历史账单中每一个历史账单的标识都与待检测账单的标识相同。例如:待检测账单为医疗账单,标识为2,那么这里的历史账单的标识也均为2。
可选的,数据处理设备可以通过如下方式确定待检测数据列对应的第一数据列:数据处理设备对上述至少一个历史账单进行数据整合,其中,针对历史账单中的药物名称列,将上述至少一个历史账单的药物名称设置在一列中,对同一药物的价格进行整合,以确定该药物的价格区间,即数值范围。例如:图3为本申请一实施例提供的历史账单A的示意图,如图3所示,该历史账单A包括去甲肾上腺素的名称以及价格,图4为本申请一实施例提供的历史账单B的示意图,历史账单B包括去甲肾上腺素和阿奇霉素的名称和价格。数据处理设备可以对历史账单A和B进行整合,得到整合账单C,图5为本申请一实施例提供的整合账单C的示意图,如图5所示,药物名称列包括去甲肾上腺素和阿奇霉素的名称,该账单C还包括:去甲肾上腺素的价格范围、阿奇霉素的价格。
需要说明的是,通常历史账单数量非常庞大,上述数据处理设备可以和其他的数据处理设备对所有历史账单进行分布式处理,例如:当前有10亿个历史账单,可以设置10台数据处理设备,10台数据处理设备可以对10亿个历史账单进行分布式处理,其中每台数据处理设备可以处理1亿个历史账单。
其中,本申请对步骤S101和步骤S102的顺序不做限制,当数据处理设备先执行步骤S101,再执行步骤S102时,表示数据处理设备在执行数据处理过程中实时确定第一数据列。这种情况的应用场景可以是上述的应用场景一和应用场景三。当数据处理设备先执行步骤S102,再执行步骤S101时,表示数据处理设备在执行数据处理过程之前已经预先确定了第一数据列。这种情况的应用场景可以是上述的应用场景二和应用场景四。
步骤S103:数据处理设备根据第一数据列和待检测数据列,确定待检测数据列是否存在异常。
可选的,数据处理设备根据第一数据列的数据类型、数据项值和待检测数据列的数据项值,确定待检测数据列是否存在异常。或者,数据处理设备根据第一数据列的数据类型、对应的数值范围和待检测数据列的数据项值,确定待检测数据列是否存在异常。
例如:若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,数据处理设备则确定待检测数据列存在异常。例如:第一数据列为一药物名称列,该药物名称列为非空类型,而待检测数据列的药物名称列中没有任何药物名称,这种情况则确定待检测数据列存在异常。
若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,数据处理设备则确定待检测数据列存在异常。例如:第一数据列为一药物名称列,该药物名称列包括:去甲肾上腺素、阿奇霉素、静脉免疫球蛋白,而待检测数据列的药物名称列中存在一药物名称为屈甲肾上腺素,这种情况则确定待检测数据列存在异常。
若第一数据列的数据类型为数值型,数据处理设备则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,数据处理设备则确定待检测数据列存在异常。例如:待检测账单中去甲肾上腺素的价格为200,而第一数据列中的价格区间为[15,160],则确定去甲肾上腺素的价格列存在异常。
本申请中,数据处理设备通过获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识;根据至少一个历史账单确定待检测数据列对应的第一数据列;根据第一数据列和待检测数据列,确定待检测数据列是否存在异常。由于本申请实现的是自动数据检测,而不是通过人工自查的方法对数据进行检测,从而提高了数据检测的准确性,并且也提高了数据检测效率。
可选的,若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,数据处理设备则发出告警信息,提示用户输入错误。例如,数据处理设备发出“请输入数据项值”的告警信息。告警信息可以是通过文字形式显示在数据处理设备的屏幕上,例如:图6为本申请一实施例提供的界面示意图,如图6所示,数据处理设备的屏幕上显示“请输入数据项值”的告警信息。当然,上述告警信息也可以是通过语音信号的形式发出,具体告警信息的内容和发送告警信息的形式,本申请不做限制。
可选的,若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,数据处理设备则计算待检测数据列中的数据项值与第一数据列中各个数据项值的距离;若第一数据列中存在与待检测数据列中的数据项值小于预设距离的数据项值,数据处理设备则发送告警信息,以提示用户输入错误。图7为本申请另一实施例提供的界面示意图,如图7所示,数据处理设备的屏幕上显示“数据项值输入错误”的告警信息。其中,数据处理设备计算待检测数据列中的数据项值与第一数据列中各个数据项值的距离可以是计算待检测数据列中的数据项值与第一数据列中各个数据项值的编辑距离。
可选的,数据处理设备确定正确输入值为第一数据列中与待检测数据列中的数据项值小于预设距离的数据项值。相应的,数据处理设备发送的告警信息可以包括建议输入值,其中建议输入值为数据处理设备确定的正确输入值。告警信息可以是通过文字形式显示在数据处理设备的屏幕上,也可以是通过语音信号的形式发出,具体告警信息的内容和发送告警信息的形式,本申请不做限制。
例如,第一数据列为枚举型的药品名称,包括三个数据项值,分别为:去甲肾上腺素、阿奇霉素、静脉免疫球蛋白。待检测数据列也是药品名称,数据项值为屈甲肾上腺素。“屈甲肾上腺素”不在可能的取值内,但与“去甲肾上腺素”的距离小于预设距离,数据处理设备则发出告警信息,图8为本申请再一实施例提供的界面示意图,如图8所示,数据处理设备的屏幕上显示“建议输入去甲肾上腺素”的告警信息。
可选的,若第一数据列的数据类型为数值型,数据处理设备则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,数据处理设备则发送告警信息,提示用户输入错误。告警信息可以是通过文字形式显示在数据处理设备的屏幕上,也可以是通过语音信号的形式发出,具体告警信息的内容和发送告警信息的形式,本申请不做限制。例如,第一数据列为数值型的药品阿奇霉素的价格,数值范围为[15,160]。待检测数据列为药品阿奇霉素的价格,数值为205,数据处理设备检测到待检测数据列中的药品阿奇霉素的价格超出合理范围[15,160],则发出“可能存在输入错误,输入值:205”的告警信息,提示用户录入数据异常。
综上,在本申请中,当数据处理设备检测待检测数据列存在异常时,数据处理设备可以推送告警信息,从而提高了数据处理设备的可靠性。
下面将对如何根据历史账单确定数据列的类型、数据项值、数值范围进行说明。图9为本申请另一实施例提供的数据处理方法的流程图,该方法可以由数据处理设备的部分或全部执行,所谓数据处理设备的部分为数据处理设备中的处理器,下面以数据处理设备为执行主体对数据处理方法进行说明,该方法包括:
步骤S901:数据处理设备获取至少一个历史账单。
步骤S902:数据处理设备确定第二数据列的数据类型和数据项值;或第二数据列的数据类型和数值范围。
数据处理设备判断第二数据列是否为非空类型,第二数据列为根据至少一个历史账单确定的账单中的任一个数据列,若第二数据列为非空类型,判断第二数据列是否为枚举型或者数值型;若第二数据列为枚举型,则获取第二数据列中的数据项值;若第二数据列为数值型,则获取第二数据列对应的数值范围。
下面结合步骤S901和步骤S902进行详细说明。
历史账单可以是纸质版或者电子版的账单,如果历史账单是纸质版的账单,数据处理设备可以扫描该账单,以将其转换为电子版的账单。
其中,数据处理设备还可以获取每个历史账单的账单标识、历史账单中中的数据列的标识、数据列等。账单标识、数据列的标识、数据列的具体内容可以参考步骤S101,在此不做赘述。
一种可选方式,数据处理设备可以同时对多个历史账单进行合并。
其中,当数据处理设备获取多个不同账单标识的历史账单时,数据处理设备可以将账单标识相同的历史账单分为一组,将同一组历史账单中数据列标识相同的数据列合并为一个数据列,并执行步骤S902。
例如,数据处理设备获取了4个医疗账单和2车险账单,其中医疗账单的标识为2,车险账单的标识为1。数据处理设备则将4个医疗账单分为一组,2个车险账单分为一组。假设,4个医疗账单分别为账单D、账单E、账单F和账单G。图10为本申请一实施例提供的医疗账单D的示意图,如图10所示,医疗账单D药品名称列包括去甲肾上腺素、阿奇霉素和静脉免疫球蛋白。图11为本申请一实施例提供的医疗账单E的示意图,如图11所示,医疗账单E药品名称列包括甲肾上腺素、阿奇霉素和静脉免疫球蛋白。图12为本申请一实施例提供的医疗账单F的示意图,如图12所示,医疗账单F药品名称列包括甲肾上腺素、阿奇霉素和静脉免疫球蛋白。图13为本申请一实施例提供的医疗账单G的示意图,如图13所示,医疗账单G药品名称列包括甲肾上腺素、阿奇霉素。数据处理设备可以将医疗账单D的药品名称列、医疗账单E、医疗账单F和医疗账单G的药品名称列合并,形成新的药品名称列,执行步骤S902,图14为本申请一实施例提供的同一组历史账单中数据列标识相同的数据列合并生成的新的账单数据列的示意图,如图14所示,新的药品名称列包括4个去甲肾上腺素、3个阿奇霉素和3个静脉免疫球蛋白;去甲肾上腺素价格列包括110、150、190和190;阿奇霉素价格列包括205、200、190和191;静脉免疫球蛋白价格列包括100、150和150。
另一种可选方式,数据处理设备可以逐一对多个历史账单进行合并。
当数据处理设备获取多个不同账单标识的历史账单时,数据处理设备也可以获取第一张历史账单的账单标识、数据列的标识、数据列,并执行步骤S902;执行完步骤S902后,数据处理设备判断第一张历史账单是否为最后一张历史账单,如果是则结束;如果不是,数据处理设备则获取第二张历史账单的账单标识、数据列的标识、数据列并执行步骤S902,其中,若第二张历史账单的账单标识与第一张历史账单相同,则将第二张历史账单中与第一张历史账单中的数据列标识相同的数据列合并后执行步骤S902。
例如,数据处理设备获取了4个医疗账单和2车险账单,6个账单的顺序依次为医疗账单D、车险账单H、医疗账单E、车险账单B、医疗账单F。数据处理设备获取医疗账单D的账单标识、数据列的标识、数据列,其中,医疗账单的标识是2,车险账单的标识是1;数据列的标识包括药品名称、去甲肾上腺素价格、阿奇霉素价格和静脉免疫球蛋白价格;数据列包括药品名称列、去甲肾上腺素价格列、阿奇霉素价格列和静脉免疫球蛋白价格列。药品名称列的数据项值包括:去甲肾上腺素、阿奇霉素和静脉免疫球蛋白的名称;去甲肾上腺素价格列数据项值为90;阿奇霉素价格列数据项值为205;静脉免疫球蛋白价格列数据项值为100。数据处理设备执行步骤S902,执行完步骤S902后,数据处理设备判定第一张历史账单不是最后一张历史账单,即医疗账单D不是最后一张历史账单,数据处理设备则获取第二张历史账单的账单标识、数据列的标识、数据列,即数据处理设备获取车险账单A的账单标识、数据列的标识、数据列,并执行步骤S902。图15为本申请一实施例提供的车险账单H的示意图,如图15所示,车险账单H的数据列标识包括保险项目、车损险投保价格和车损险报销价格,车险账单H和医疗账单D账单标识不同,则不涉及合并数据列标识相同的数据列。执行完步骤S902后,数据处理设备判定第二张历史账单不是最后一张历史账单,即车险账单H不是最后一张历史账单,则获取下一张历史账单的账单标识、数据列的标识、数据列,即获取医疗账单E的账单标识、数据列的标识、数据列。医疗账单E的账单标识为医疗账单,与医疗账单D相同。医疗账单E的数据列标识包括药品名称、去甲肾上腺素价格、阿奇霉素价格和静脉免疫球蛋白价格;数据列包括药品名称列、去甲肾上腺素价格列、阿奇霉素价格列和静脉免疫球蛋白价格列。药品名称列的数据项值包括:去甲肾上腺素、阿奇霉素和静脉免疫球蛋白的名称;去甲肾上腺素价格列数据项值为190;阿奇霉素价格列数据项值为200;静脉免疫球蛋白价格列数据项值为150。由于医疗账单E与医疗账单D相同,数据处理设备则将医疗账单E中与医疗账单D中的数据列标识相同的数据列合并后执行步骤S902,即数据处理设备将医疗账单E与医疗账单D中的药品名称列合并形成新的药品名称列,执行步骤S902,新的药品名称列包括:2个去甲肾上腺素、2个阿奇霉素、2个静脉免疫球蛋白。执行完步骤S902后,数据处理设备判断医疗账单E是否为最后一张账单,并根据判定结果之后后续步骤,具体内容与上述说明相同,再次不做赘述。
数据处理设备判断第二数据列是否为非空类型可以是:数据处理设备获取第二数据列中非空值的个数;数据处理设备获取第二数据列的数据的行数;若第二数据列中非空值的个数与第二数据列的数据的行数的比值大于第一预设阈值,数据处理设备则确定第二数据列为非空类型。通过该方法能够确定数据列是否为非空类型。其中,第一预设阈值可以是0.95~0.99,本申请对此不做限制。
例如,如图14所示,以药品名称列为例,数据处理设备获取药品名称列中非空值的个数及药品名称列的数据的行数,计算药品名称列中非空值的个数与药品名称列的数据的行数的比值。由图14可知,药品名称列中非空值的个数为11,药品名称列的数据的行数为11,则药品名称列中非空值的个数与药品名称列的数据的行数的比值为1。若第一预设阈值为0.99,则药品名称列中非空值的个数与药品名称列的数据的行数的比值大于第一预设阈值,数据处理设备则确定药品名称列为非空类型。
数据处理设备判断第二数据列是否为枚举型可以是:数据处理设备获取第二数据列中唯一值的个数;数据处理设备获取第二数据列中数据的行数;若第二数据列中唯一值的个数与第二数据列中数据的行数的比值小于第二预设阈值,数据处理设备则确定第二数据列为枚举型;反之,数据处理设备则确定第二数据列为数值型。其中,第二预设阈值可以是0.1~0.3,本申请对此不做限制。
例如,如图14所示,以药品名称列为例,数据处理设备获取药品名称列中唯一值的个数和药品名称列中数据的行数,计算药品名称列中唯一值的个数与药品名称列中数据的行数的比值。由图14可知,药品名称列中唯一值的个数为3,药品名称列中数据的行数为11,则药品名称列中唯一值的个数与药品名称列中数据的行数的比值为0.27。若第二预设阈值为0.3,则药品名称列中唯一值的个数与药品名称列中数据的行数的比值小于第二预设阈值,数据处理设备则确定药品名称列为枚举型。数据处理设备所获取药品名称列中的数据项值为去甲肾上腺素、阿奇霉素、静脉免疫球蛋白。图16为本申请一实施例提供的数据处理装置的结构示意图,如图16所示,药品名称列的数据类型为枚举型,数据项值为去甲肾上腺素、阿奇霉素、静脉免疫球蛋白。
以去甲肾上腺素价格列为例,由图14可知,去甲肾上腺素价格列中唯一值的个数为3,去甲肾上腺素价格列中数据的行数为4,则去甲肾上腺素价格列中唯一值的个数与去甲肾上腺素价格列中数据的行数的比值为0.75。若第二预设阈值为0.3,则去甲肾上腺素价格列中唯一值的个数与去甲肾上腺素价格列中数据的行数的比值大于第二预设阈值,数据处理设备则确定第二数据列为数值型。
可选的,数据处理设备还可以进一步获取第二数据列中的唯一值,并确定第二数据列中的唯一值为第二数据列的数据项值。通过该方法能够判断数据列的数据类型是否为枚举型,当数据列的数据类型为枚举型时能够确定数据列的数据项值。
若第二数据列为数值型,数据处理设备获取第二数据列对应的数值范围可以是:数据处理设备确定第二数据列中的最大值和最小值;计算在第二数据列中,最小值和最大值之间的所有数据的平均值和标准差;根据最大值、最小值、平均值和标准差确定数值范围。
可选的,数据处理设备可以将第二数据列中的99%分位数作为第二数据列的最大值,将第二数据列中的1%分位数作为第二数据列的最小值。第二数据列的最大值和最小值也可以分别是第二数据列的数据项值中最大的数和最小的数。
可选的,数据处理设备根据最大值、最小值、平均值和标准差确定数值范围可以是:数据处理设备根据公式(1)确定数值范围,
[min(MIN,MEAN-2×SD),max(MAX,MEAN+2×SD)] (1)
其中,MIN为最小值,MEAN为平均值,MAX为最大值,SD为标准差。通过该方法能够确定出数值性数据列的数值范围。
例如,以去甲肾上腺素价格列为例,由图14可知,去甲肾上腺素价格列中的最大值为190,最小值为110。MIN为110,MEAN为160,MAX为190,SD为33.17,MEAN-2×SD为93.66;MEAN+2×SD为226.34;则数据处理设备根据公式(1)确定去甲肾上腺素价格列的数值范围[93.66,226.34]。图17为本申请一实施例提供的数据处理设备确定的数据类型和数值范围的示意图,如图17所示,数据处理设备确定去甲肾上腺素价格列的数据类型为数值型,数值范围为[93.66,226.34]。
本申请中,数据处理设备通过获取至少一个历史账单,并判断至少一个历史账单确定的账单中的任一个数据列的数据类型,并获取相应的数据项值和数据范围。在根据获取的数据项值和数据范围对待检测账单中的数据列进行检测,提高了数据处理的效率和准确性。
图18为本申请一实施例提供的一种数据处理装置的结构示意图,如图18所示,包括:
获取模块181,用于获取待检测账单中的待检测数据列、待检测账单的标识、待检测数据列的标识。
确定模块182,用于根据至少一个历史账单确定待检测数据列对应的第一数据列。至少一个历史账单的标识与待检测账单的标识相同,且第一数据列的标识与待检测数据列的标识相同。
判断模块183,用于根据第一数据列和待检测数据列,确定待检测数据列是否存在异常。
可选的,判断模块183,具体用于若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,则确定待检测数据列存在异常。
可选的,判断模块183,还用于若第一数据列的数据类型为非空类型,且待检测数据列中不存在数据项值,则发出告警信息,提示用户输入错误。
可选的,判断模块183,还用于根据第一数据列和待检测数据列,确定待检测数据列是否存在异常,包括:若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,则确定待检测数据列存在异常。
可选的,判断模块183,还用于若第一数据列的数据类型为枚举型,且待检测数据列中的数据项值存在不属于第一数据列的数据项值,则计算待检测数据列中的数据项值与第一数据列中各个数据项值的距离;若第一数据列中存在与待检测数据列中的数据项值小于预设距离的数据项值,则发送告警信息,以提示用户输入错误,且正确输入值为第一数据列中与待检测数据列中的数据项值小于预设距离的数据项值。
可选的,判断模块183,还用于若第一数据列的数据类型为数值型,则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,则确定待检测数据列存在异常。
可选的,判断模块183,还用于若第一数据列的数据类型为数值型,则判断待检测数据列中的各个数据项值是否在数值范围内;若待检测数据列中存在数据项值不在数值范围内,则发送告警信息,提示用户输入错误。
可选的,确定模块182包括获取子模块1821、判断子模块1822。
获取子模块1821,用于获取至少一个历史账单。
判断子模块1822,用于判断第二数据列是否为非空类型,第二数据列为根据至少一个历史账单确定的账单中的任一个数据列。若第二数据列为非空类型,判断第二数据列是否为枚举型或者数值型;若第二数据列为枚举型,则获取第二数据列中的数据项值;若第二数据列为数值型,则获取第二数据列对应的数值范围。
可选的,判断子模块1822,具体用于获取第二数据列中非空值的个数;获取第二数据列的数据的行数;若第二数据列中非空值的个数与第二数据列的数据的行数的比值大于第一预设阈值,则确定第二数据列为非空类型。
可选的,判断子模块1822,具体用于获取第二数据列中唯一值的个数;获取第二数据列中数据的行数;若第二数据列中唯一值的个数与第二数据列中数据的行数的比值小于第二预设阈值,则确定第二数据列为枚举型;则获取第二数据列中的唯一值,并确定第二数据列中的唯一值为第二数据列的数据项值。
可选的,判断子模块1822,具体用于确定第二数据列中的最大值和最小值;计算在第二数据列中,最小值和最大值之间的所有数据的平均值和标准差;根据最大值、最小值、平均值和标准差确定数值范围。
可选的,判断子模块1822,具体用于根据公式(1)确定数值范围,
[min(MIN,MEAN-2×SD),max(MAX,MEAN+2×SD)](1)
其中,MIN为最小值,MEAN为平均值,MAX为最大值,SD为标准差。
本申请提供的数据处理装置,可以执行上述的数据处理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图19为本申请一实施例提供的数据处理设备的结构示意图,如图19所示,本实施例的数据处理设备包括:处理器191、存储器192;处理器191与存储器192通信连接。存储器192用于存储计算机程序。处理器191用于调用存储器192中存储的计算机程序,以实现上述方法实施例中的方法。
可选地,该数据处理设备还包括:收发器193,用于与其他设备实现通信。
该数据处理设备可以执行上述的数据处理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述数据处理方法。该计算机可读存储介质所存储的计算机执行指令被处理器执行时能实现上述数据处理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请还提供了一种计算机程序产品,包括:计算机指令,该计算机指令用于使计算机执行上述数据处理方法。该计算机指令使计算机能够执行上述数据处理方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待检测账单中的待检测数据列、所述待检测账单的标识、所述待检测数据列的标识;
根据至少一个历史账单确定所述待检测数据列对应的第一数据列,所述至少一个历史账单的标识与所述待检测账单的标识相同,且所述第一数据列的标识与所述待检测数据列的标识相同;
根据所述第一数据列和所述待检测数据列,确定所述待检测数据列是否存在异常。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据列和所述待检测数据列,确定所述待检测数据列是否存在异常,包括:
若所述第一数据列的数据类型为非空类型,且所述待检测数据列中不存在数据项值,则确定所述待检测数据列存在异常。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据列和所述待检测数据列,确定所述待检测数据列是否存在异常,包括:
若所述第一数据列的数据类型为枚举型,且所述待检测数据列中的数据项值存在不属于所述第一数据列的数据项值,则确定所述待检测数据列存在异常。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述第一数据列的数据类型为枚举型,且所述待检测数据列中的数据项值存在第一数据项值,则计算所述第一数据项值与所述第一数据列中各个数据项值的距离,所述第一数据项值为所述待检测数据列中不属于所述第一数据列的数据项值;
若所述第一数据列中存在与所述第一数据项值的距离小于预设距离的数据项值,则发送告警信息,以提示用户输入错误,且正确输入值为所述第一数据列中与所述第一数据项值的距离小于预设距离的数据项值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据列和所述待检测数据列,确定所述待检测数据列是否存在异常,包括:
若所述第一数据列的数据类型为数值型,则判断所述待检测数据列中的数据项值是否在所述第一数据列对应的数值范围内;
若所述待检测数据列中的数据项值不在所述数值范围内,则确定所述待检测数据列存在异常。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据至少一个历史账单确定所述待检测数据列对应的第一数据列之前,还包括:
获取所述至少一个历史账单;
判断第二数据列是否为非空类型,所述第二数据列为根据所述至少一个历史账单确定的账单中的任一个数据列;
若所述第二数据列为非空类型,判断所述第二数据列是否为枚举型或者数值型;
若所述第二数据列为枚举型,则获取所述第二数据列中的数据项值;
若所述第二数据列为数值型,则获取所述第二数据列对应的数值范围。
7.根据权利要求6所述的方法,其特征在于,所述获取所述第二数据列对应的数值范围,包括:
确定所述第二数据列中的最大值和最小值;
计算在所述第二数据列中,所述最小值和所述最大值之间的所有数据的平均值和标准差;
根据所述最大值、所述最小值、所述平均值和所述标准差确定所述数值范围。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待检测账单中的待检测数据列、所述待检测账单的标识、所述待检测数据列的标识;
确定模块,用于根据至少一个历史账单确定所述待检测数据列对应的第一数据列,所述至少一个历史账单的标识与所述待检测账单的标识相同,且所述第一数据列的标识与所述待检测数据列的标识相同;
判断模块,用于根据所述第一数据列和所述待检测数据列,确定所述待检测数据列是否存在异常。
9.一种数据处理设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447829.1A CN111626869A (zh) | 2020-05-25 | 2020-05-25 | 数据处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447829.1A CN111626869A (zh) | 2020-05-25 | 2020-05-25 | 数据处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111626869A true CN111626869A (zh) | 2020-09-04 |
Family
ID=72259044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010447829.1A Pending CN111626869A (zh) | 2020-05-25 | 2020-05-25 | 数据处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626869A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196285A (ja) * | 1997-09-17 | 1999-04-09 | Toshiba Corp | 文字読取システム |
CN103246576A (zh) * | 2012-02-06 | 2013-08-14 | 腾讯科技(深圳)有限公司 | 基于用户习惯性输入错误的查询纠错方法和装置 |
CN103389915A (zh) * | 2013-07-23 | 2013-11-13 | 百度在线网络技术(北京)有限公司 | 输入纠错方法、输入纠错装置、输入纠错服务器和系统 |
CN106650715A (zh) * | 2016-10-26 | 2017-05-10 | 西安电子科技大学 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
CN107229750A (zh) * | 2017-06-27 | 2017-10-03 | 网易(杭州)网络有限公司 | 表格数据处理方法、装置、存储介质和处理器 |
US20190129959A1 (en) * | 2017-10-30 | 2019-05-02 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
US20190377624A1 (en) * | 2018-06-07 | 2019-12-12 | Accenture Global Solutions Limited | Data validation |
-
2020
- 2020-05-25 CN CN202010447829.1A patent/CN111626869A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196285A (ja) * | 1997-09-17 | 1999-04-09 | Toshiba Corp | 文字読取システム |
CN103246576A (zh) * | 2012-02-06 | 2013-08-14 | 腾讯科技(深圳)有限公司 | 基于用户习惯性输入错误的查询纠错方法和装置 |
CN103389915A (zh) * | 2013-07-23 | 2013-11-13 | 百度在线网络技术(北京)有限公司 | 输入纠错方法、输入纠错装置、输入纠错服务器和系统 |
CN106650715A (zh) * | 2016-10-26 | 2017-05-10 | 西安电子科技大学 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
CN107229750A (zh) * | 2017-06-27 | 2017-10-03 | 网易(杭州)网络有限公司 | 表格数据处理方法、装置、存储介质和处理器 |
US20190129959A1 (en) * | 2017-10-30 | 2019-05-02 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
US20190377624A1 (en) * | 2018-06-07 | 2019-12-12 | Accenture Global Solutions Limited | Data validation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391379B (zh) | 接口自动测试方法及装置 | |
CN114022151A (zh) | 区块链数据可视化方法、系统、电子设备和存储介质 | |
CN110969417A (zh) | 政务事项同步方法、装置、系统、计算机设备和存储介质 | |
CN114201201A (zh) | 一种对业务系统异常检测方法、装置及设备 | |
CN110647913A (zh) | 基于聚类算法的异常数据检测方法及装置 | |
CN112069070A (zh) | 一种页面检测方法、装置、服务器及计算机可读存储介质 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN109242658B (zh) | 可疑交易报告生成方法、系统、计算机设备和存储介质 | |
CN109240703A (zh) | 一种系统错误提示方法和装置 | |
CN111626869A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN110430217B (zh) | 基于信息系统分类安全威胁的检测方法、装置和计算机可读存储介质 | |
CN108446739B (zh) | 一种数据录入监测方法及装置 | |
CN110471912B (zh) | 一种员工属性信息校验方法、装置及终端设备 | |
CN115630842A (zh) | 交易风险的确定方法、系统、装置和计算机可读存储介质 | |
JP2019508762A (ja) | 評価情報のマッチング方法、装置及びサーバー | |
CN113673499A (zh) | 一种标签建图方法、装置、设备及存储介质 | |
CN113505159B (zh) | 数据检测方法、装置及设备 | |
CN109697883A (zh) | 巴士报站方法及设备 | |
CN111580894A (zh) | 数据分析预警方法、装置、计算机系统及可读存储介质 | |
CN106708638A (zh) | 系统错误检测方法和装置 | |
CN113806196B (zh) | 根因分析方法及系统 | |
CN110673888B (zh) | 用于配置文件的校验方法及装置 | |
CN116860734A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN115878496A (zh) | 一种算法能力测试方法及装置 | |
CN114882966A (zh) | 电子病历的生成方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |