CN113990512A - 异常数据检测方法及装置、电子设备和存储介质 - Google Patents

异常数据检测方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113990512A
CN113990512A CN202111233498.2A CN202111233498A CN113990512A CN 113990512 A CN113990512 A CN 113990512A CN 202111233498 A CN202111233498 A CN 202111233498A CN 113990512 A CN113990512 A CN 113990512A
Authority
CN
China
Prior art keywords
data
training
abnormal
initial
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111233498.2A
Other languages
English (en)
Inventor
马伯毅
张誉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202111233498.2A priority Critical patent/CN113990512A/zh
Publication of CN113990512A publication Critical patent/CN113990512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开是关于一种异常数据检测方法及装置、电子设备以及计算机可读存储介质,涉及计算机技术领域,可以应用于针对健康数据进行异常检测的场景。该方法包括:获取待检测数据;待检测数据包括多个数据维度;获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。本公开可以对用户的健康数据进行数据检测,判断是否存在异常点数据;如果存在异常点数据,则将异常点数据进行标注,以辅助相关人员制定对应决策。

Description

异常数据检测方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种异常数据检测方法、异常数据检测装置、电子设备以及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,互联网应用已经渗透至各行各业当中。例如,在医疗健康场景中,互联网医院中的健康档案是客户的重要资料内容,也是医生正确问诊的重要依据。目前,健康档案中的大部分数据以文字形式显示,并且采用线性形式表示,采用此种表示形式的健康数据不利于医生查看数据并对数据进行对比,另外,在需要通过数据对比辅助作出诊断的场景中,也带来不便。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种异常数据检测方法、异常数据检测装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服数据异常检测准确率不高且不利于基于异常数据进行辅助决策的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本公开的第一方面,提供一种异常数据检测方法,包括:获取待检测数据;待检测数据包括多个数据维度;获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。
在本公开的一种示例性实施方案中,响应于针对数据选择页面的数据选择操作,获取数据选择操作对应的检测参数;根据检测参数从初始用户数据中获取对应的检测参数值;基于多个检测参数与各自对应的检测参数值生成多个数据维度,以得到待检测数据。
在本公开的一种示例性实施方案中,异常检测模型通过下述步骤训练得到:获取初始训练数据;初始训练数据包括多个数据维度;对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据;确定填充训练数据中多个数据维度对应的数据差值集合;根据数据差值集合对初始模型进行训练,以得到异常检测模型。
在本公开的一种示例性实施方案中,对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据,包括:基于初始训练数据确定缺失训练数据,确定与缺失训练数据对应的参考填充训练数据;根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,以得到填充训练数据。
在本公开的一种示例性实施方案中,确定填充训练数据中多个数据维度对应的数据差值集合,包括:基于数据维度对填充训练数据进行维度组合处理,得到组合维度数据;对组合维度数据进行矩阵转换处理,得到矩阵转换数据;确定矩阵转换数据中每个列数据对应的列数据方差;根据多个列数据方差确定数据差值集合。
在本公开的一种示例性实施方案中,根据数据差值集合对初始模型进行训练,以得到异常检测模型,包括:将数据差值集合输入至初始模型,由初始模型基于数据差值集合确定填充训练数据对应的训练异常值;确定初始模型的模型参数与趋势变化度量值;基于趋势变化度量值确定训练异常值对应的异常分类准确率;通过调整模型参数与趋势变量度量值以训练初始模型,以得到异常检测模型;异常检测模型的异常分类准确率大于分类准确率阈值。
在本公开的一种示例性实施方案中,展示异常数据,包括:根据待检测数据生成初始对比图表;确定异常数据对应的异常数据信息;异常数据信息包括行列信息;根据行列信息在初始对比图表中添加异常数据的异常显示标注,以生成目标对比图表,并通过目标对比图表展示异常数据。
根据本公开的第二方面,提供一种异常数据检测装置,包括:数据获取模块,用于获取待检测数据;待检测数据包括多个数据维度;模型获取模块,用于获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;异常检测模块,用于将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。
在本公开的一种示例性实施方案中,异常数据检测装置还包括数据生成模块,用于响应于针对数据选择页面的数据选择操作,获取数据选择操作对应的检测参数;根据检测参数从初始用户数据中获取对应的检测参数值;基于多个检测参数与各自对应的检测参数值生成多个数据维度,以得到待检测数据。
在本公开的一种示例性实施方案中,异常数据检测装置还包括模型训练模块,用于获取初始训练数据;初始训练数据包括多个数据维度;对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据;确定填充训练数据中多个数据维度对应的数据差值集合;根据数据差值集合对初始模型进行训练,以得到异常检测模型。
在本公开的一种示例性实施方案中,模型训练模块包括数据填充单元,用于基于初始训练数据确定缺失训练数据,确定与缺失训练数据对应的参考填充训练数据;根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,以得到填充训练数据。
在本公开的一种示例性实施方案中,模型训练模块包括差值确定单元,用于基于数据维度对填充训练数据进行维度组合处理,得到组合维度数据;对组合维度数据进行矩阵转换处理,得到矩阵转换数据;确定矩阵转换数据中每个列数据对应的列数据方差;根据多个列数据方差确定数据差值集合。
在本公开的一种示例性实施方案中,模型训练模块包括模型训练单元,用于将数据差值集合输入至初始模型,由初始模型基于数据差值集合确定填充训练数据对应的训练异常值;确定初始模型的模型参数与趋势变化度量值;基于趋势变化度量值确定训练异常值对应的异常分类准确率;通过调整模型参数与趋势变量度量值以训练初始模型,以得到异常检测模型;异常检测模型的异常分类准确率大于分类准确率阈值。
在本公开的一种示例性实施方案中,异常数据检测装置还包括对比图表生成模块,用于根据待检测数据生成初始对比图表;确定异常数据对应的异常数据信息;异常数据信息包括行列信息;根据行列信息在初始对比图表中添加异常数据的异常显示标注,以生成目标对比图表,并通过目标对比图表展示异常数据。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的异常数据检测方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的异常数据检测方法。
本公开提供的技术方案可以包括以下有益效果:
本公开的示例性实施例中的异常数据检测方法,获取待检测数据;待检测数据包括多个数据维度;获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。一方面,异常检测模型是通过学习不同数据维度之间的趋势变化训练得到,由异常检测模型进行异常数据检测得到的检测结果更加准确。另一方面,将确定出的异常数据进行展示,便于相关人员将异常数据与其他数据进行对比,以基于对比结果提供决策支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的示例性实施方式的异常数据检测方法的流程图;
图2示意性示出了根据本公开的示例性实施方式的异常检测模型的模型训练流程图;
图3示意性示出了根据本公开的示例性实施方式的对初始训练数据进行数据填充处理以得到填充训练数据的流程图;
图4示意性示出了根据本公开的示例性实施方式的确定数据差值集合的流程图;
图5示意性示出了根据本公开的示例性实施方式的通过目标对比图表展示异常数据的流程图;
图6示意性示出了根据本公开的示例性实施方式的异常数据检测装置的方框图;
图7示意性示出了根据本公开一示例性实施例的电子设备的框图;
图8示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
目前,健康档案中的大部分数据以文字形式显示,并且采用线性形式表示,采用此种表示形式的健康数据不利于医生查看数据并对数据进行对比,另外,在需要通过数据对比辅助作出诊断的场景中,也带来不便。
基于此,在本示例实施例中,首先提供了一种异常数据检测方法,可以利用服务器来实现本公开的异常数据检测方法,也可以利用终端设备来实现本公开所述的方法,其中,本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如台式计算机等固定终端。图1示意性示出了根据本公开的一些实施例的异常数据检测方法流程的示意图。参考图1,该异常数据检测方法可以包括以下步骤:
步骤S110,获取待检测数据;待检测数据包括多个数据维度。
在本公开的一些示例性实施方式中,待检测数据可以是会根据时间动态变化的数据,对待检测数据进行检测以确定其中是否包含异常数据,待检测数据可以包含多个数据维度,并且不同数据维度对应的具体数据值之间具有一定的关联关系,如不同数据维度之间的数据存在正相关关系或负相关关系等。
举例而言,在医疗健康场景中,待检测数据可以是某一用户的健康数据,即对该用户的身体指标进行健康检查后得到的数据。健康数据可以包含该用户的体重、血糖、血脂、血压、心跳、脉搏、血氧饱和度、红细胞、白细胞等等与健康指标相关的数据。某医院可以将所有患者的健康数据存储在医疗数据库中,如果想要获取某一用户在某一时间段的健康数据,可根据患者标识选取对应的健康数据作为待检测数据。
在其他场景中,待检测数据还可以是与该场景对应的数据,例如,待检测数据可以是某一处理器的运行指标数据等。本公开将以健康数据为例,对异常数据检测的过程进行详细说明。
步骤S120,获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到。
在本公开的一些示例性实施方式中,异常检测模型可以是用于判断待检测数据中是否包含异常数据并确定出异常数据的数据分析模型。数据维度可以用于表达训练数据的具体含义,以健康数据为例,血糖数据和血压数据可以是不同数据维度的数据。训练填充数据可以是用于训练异常检测模型所采用的数据,训练填充数据可以是经数据清洗(如数据填充处理)后得到的数据。趋势变化可以是反映训练数据中多个不同数据维度之间数据值的变化。
在对待检测数据进行异常检测之前,可以预先构建构建的异常检测模型,由于异常检测模型是基于训练填充数据中多个数据维度之间的趋势变化训练得到的,因此,异常检测模型可以学习到不同数据维度的数据值趋势变化之间的关联特征。
步骤S130,将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。
在本公开的一些示例性实施方式中,异常数据可以是待检测数据中存在异常情况的数据。当某一数据维度中的某个具体数据值不符合多个数据维度之间的整体变化趋势时,可以认为该数据是异常数据。
在获取到待检测数据与异常检测模型后,可以将待检测数据输入至异常检测模型中,以便由异常检测模型根据学习到不同数据维度的数据值之间的趋势变化的关联特征对待检测数据进行异常检测,并确定出待检测数据中的异常数据。在确定出异常数据后,可以将待检测数据进行整体显示,另外,为了区分待检测数据中的正常数据和异常数据,可以对异常数据与正常数据进行区分展示,以便相关人员可以基于特殊标注的异常数据制定相应决策。
根据本示例实施例中的异常数据检测方法,一方面,异常检测模型是通过学习不同数据维度之间的趋势变化训练得到,由异常检测模型进行异常数据检测得到的检测结果更加准确。另一方面,将确定出的异常数据进行展示,便于相关人员将异常数据与其他数据进行对比,以基于对比结果提供决策支持。
下面,将对本示例实施例中的异常数据检测方法进行进一步的说明。
在本公开的一种示例性实施方案中,响应于针对数据选择页面的数据选择操作,获取数据选择操作对应的检测参数;根据检测参数从初始用户数据中获取对应的检测参数值;基于多个检测参数与各自对应的检测参数值生成多个数据维度,以得到待检测数据。
其中,数据选择页面可以是用于接收用户的数据选择操作的操作页面。数据选择操作可以是用户检测参数的操作过程。检测参数可以是用户从多个参数选择出的待检测参数。初始用户数据可以是数据库中存储的原始数据。检测参数值可以是检测参数对应的具体数据值。
当对某些数据进行异常检测时,可以先通过数据选择页面选择需要检测的参数,用户可以通过数据选择页面进行数据选择操作,确定出要进行数据检测的检测参数。在确定出检测参数后,可以选择观测时间段,从初始用户数据中获取到该观测时间段中检测参数对应的检测参数值,根据检测参数和对应的检测参数值生成待检测数据,以便进行异常检测。
以医疗健康场景为例,当对某一患者的健康数据进行观测时,医护人员可以通过健康档案页面选择想要检测的生命指标数据进行观测,例如,医护人员可以从健康数据中选择“血糖”、“血压”等参数,并获取这些参数的参数值,根据这些参数与参数值共同生成待检测数据。
在本公开的一种示例性实施方案中,异常检测模型通过下述步骤训练得到:获取初始训练数据;初始训练数据包括多个数据维度;对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据;确定填充训练数据中多个数据维度对应的数据差值集合;根据数据差值集合对初始模型进行训练,以得到异常检测模型。
其中,初始训练数据可以是用于对异常检测模型进行模型训练所使用的数据,初始训练数据可以是未经数据清洗数据的数据。缺失数据填充可以是当某一数据维度的数据值存在缺失时,对存在的数据位置填充具体数据值的处理过程。数据差值集合可以是填充训练数据中所有数据维度对应的数据差值组成的集合。
参考图2,图2示意性示出了根据本公开的示例性实施方式的异常检测模型的模型训练流程图。在步骤S210中,获取初始训练数据;初始训练数据包括多个数据维度。在训练异常检测模型之前,可以先获取初始训练数据,由于初始训练数据可以是从数据库中直接获取到的原始健康数据,初始训练数据可能存在数据缺失等问题,因此,可以对初始训练数据进行数据清洗处理(如数据填充处理)。
在步骤S220中,对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据。当初始训练数据存在数据缺失时,可以对初始训练数据进行数据填充处理。举例而言,以初始训练数据中的“血糖”、“血脂”、“血压”三个数据维度的数据为例,初始训练数据的时间区间是一周,如果“血糖”维度中周二的数据值存在缺失,则需要对缺失的数据进行填充。具体的,可以获取“血糖”维度中在周一和周三分别对应的数据值,并计算这两个数据值的平均值,将计算出的平均值填充至缺失位置处。按照上述填充方法,可以将初始训练数据中所有存在缺失的位置进行数据填充,以得到填充训练数据。
在步骤S230中,确定填充训练数据中多个数据维度对应的数据差值集合。在得到填充数据后,可以确定填充训练数据中每个数据维度对应的数据差值组成的数据差值集合。
在步骤S240中,根据数据差值集合对初始模型进行训练,以得到异常检测模型。在确定出数据差值集合后,可以将数据差值集合对初始模型训练,这样在模型训练过程中将学习到不同维度之间差值趋势变化的特征,以便根据该特征训练得到异常检测模型。如果未采用该异常检测模型进行数据异常检测时,异常数据检测过程中依赖的将可能类似于[血糖1,血脂2,白细胞3],[血糖2,血脂3,白细胞4]这种没有处理过的数据集,此时需要通过三个特征来判断异常情况。如果采用异常检测模型,则只需要使用一个特征(即数据差值)即可判断待检测数据中是否存在异常数据。
在本公开的一种示例性实施方案中,基于初始训练数据确定缺失训练数据,确定与缺失训练数据对应的参考填充训练数据;根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,以得到填充训练数据。
其中,缺失训练数据可以是初始训练数据中某些数据记录点缺失具体数据值的数据。参考填充训练数据可以是可以用于对缺失训练数据进行数据填充的参考数据。缺失数据填充处理可以是将缺失训练数据进行填充处理的过程。
参考图3,图3示意性示出了根据本公开的示例性实施方式的对初始训练数据进行数据填充处理以得到填充训练数据的流程图。
在步骤S310中,基于初始训练数据确定缺失训练数据,获取与缺失训练数据对应的参考填充训练数据。由于直接获取到的初始训练数据中可能存在数据缺失的情况,可以将缺失的数据确定为缺失训练数据,例如,“血糖”维度的一周七天的数据,周二与周六的数据存在缺失,则可以将其确定为缺失训练数据。在确定出缺失训练数据后,可以确定出与其对应的参考填充训练数据,例如,参考填充训练数据可以是缺失训练数据最相邻的两项数据,周二缺失数据对应的参考填充训练数据可以是“血糖”维度中周一和周三对应的数据值。另外,参考填充训练数据还可以是在数据记录范围内所有存在数据值的数据,即,周二缺失数据对应的参考填充训练数据可以是“血糖”维度中周一、周三、周四、周五、周日记录点对应的数据值。
在步骤S320中,根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,以得到填充训练数据。在确定出参考填充训练数据后,可以根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,例如,可以对参考填充训练数据进行平均值计算处理,将得到的平均值作为进行缺失数据填充处理时所写入的数据值。
在本公开的一种示例性实施方案中,基于数据维度对填充训练数据进行维度组合处理,得到组合维度数据;对组合维度数据进行矩阵转换处理,得到矩阵转换数据;确定矩阵转换数据中每个列数据对应的列数据方差;根据多个列数据方差确定数据差值集合。
其中,维度组合处理可以是将多个数据维度的数据进行数据组合的处理过程。组合维度数据可以是在进行数据填充处理时,将两个以上的数据维度进行组合得到的相互关联的数据维度。矩阵转换处理可以是根据确定出的填充训练数据的行列信息,将其转换为对应的矩阵形式的处理过程。矩阵转换数据可以是对填充训练数据进行矩阵转换处理后得到的矩阵。列数据方差可以是根据矩阵转换数据中某一列中所有数据确定出的数据方差。
参考图4,图4示意性示出了根据本公开的示例性实施方式的确定数据差值集合的流程图。在步骤S410中,遍历各个数据维度的数据,将多个数据维度进行组合处理,得到组合维度。待检测数据中可以包含多个数据维度的数据,在进行数据清洗处理时,可以先遍历所有数据维度的数据,将不同数据维度进行组合处理,如将数据维度两两组合,形成对应的组合维度数据。具体的,在形成组合维度数据时,可以将数据记录的具体时间点作为坐标轴的x轴,将每个数据维度作为坐标轴的y轴,例如,某一用户的“血压”维度一周七天的数据可以为[120,125,128,131,125,130,125];“血糖”维度一周七天的数据可以为[6.1,6.3,6.5,6.6,6.3,6.5,6.6];“血脂”维度一周七天的数据可以为[];“白细胞”维度一周七天的数据可以为[9.1,9.2,9.5,9.3,9.5,9.8,9.4]。
在本公开的其他一些示例性实施例中,组合维度的数量还可以根据具体需求确定,如组合的数据维度可以是3个、4个、5个等,本公开对进行组合处理的数据维度的数量不作任何特殊限定,采用任何数量的数据维度组合生成组合维度数据均属于本公开的保护范围。
在步骤S420中,对组合维度数据进行矩阵转换处理,得到矩阵转换数据。在得到组合维度数据后,可以对组合维度数据进行矩阵转换处理,得到对应的矩阵转换数据。以上述血糖、血脂、白细胞三个维度,一周七天的数据为例,得到矩阵转换数据如公式1所示:
Figure BDA0003316927940000111
在步骤S430中,确定矩阵转换数据中每个列数据对应的列数据方差。在得到矩阵转换数据后,可以对每个矩阵列求方差,得到血糖、血脂和白细胞的变化差异数据。首先计算第一列数据的列数据方差,第一列数据的列数据方差为:(|6.1-6.3|)2+(|6.3-9.1|)2=0.04+7.84=7.88;第二列数据的列数据方差为:(|6.3-6.5|)2+(|6.5-9.2|)2=0.04+7.29=7.33;依次类推计算7天三个维度所有列数据的差值。
在步骤S440中,根据多个列数据方差确定数据差值集合。在得到组合维度数据对应的每一列数据的列数据方差后,可以根据得到的多个列数据方差生成数据差值集合。
在本公开的一种示例性实施方案中,将数据差值集合输入至初始模型,由初始模型基于数据差值集合确定填充训练数据对应的训练异常值;确定初始模型的模型参数与趋势变化度量值;基于趋势变化度量值确定训练异常值对应的异常分类准确率;通过调整模型参数与趋势变量度量值以训练初始模型,以得到异常检测模型;异常检测模型的异常分类准确率大于分类准确率阈值。
其中,训练异常值采用初始模型在模型训练过程中确定出训练数据中存在异常的数据值。趋势变化度量值可以是用于通过度量趋势变化特征以判断训练数据是正常数据或异常数据的界限值。模型参数可以是初始模型对应的参数。异常分类准确率可以是将验证数据中的异常数据进行正确分类的准确程度。分类准确率阈值可以是与异常分类准确率进行对比的数值。
将数据差值集合输入初始模型中,初始模型可以采用逻辑回归算法进行模型训练,由初始模型学习训练填充数据中的列数据方差特征,并基于学习到的特征返回异常数据的值。举例而言,可以将趋势变化度量值确定为0.5,即返回值为0.5以上确定为异常,返回值0.5以下确定为正常。本公开可以将0.5作为初始度量值,判断以0.5为界限时模型针对异常数据的异常分类准确率,如果准确率异常分类过低则调整界限值,直到准确率达到90%以上,将此时的模型确定为最终的异常检测模型,以便进行数据异常检测时使用。
在本公开的其他一些实施例中,在模型训练过程中,还可以使用其他算法进行模型训练,本公开对模型训练采用的具体算法不作任何特殊限定。
在本公开的一种示例性实施方案中,根据待检测数据生成初始对比图表;确定异常数据对应的异常数据信息;异常数据信息包括行列信息;根据行列信息在初始对比图表中添加异常数据的异常显示标注,以生成目标对比图表,并通过目标对比图表展示异常数据。
其中,初始对比图表可以是待检测数据的一种可视化展示形式,通过初始对比图表可以更直观地看到待检测数据的数据变化。异常数据信息可以是异常数据所包含的相关信息,例如,异常数据信息可以包括异常数据的具体数据值、行列信息等。行列信息可以是异常数据对应的行信息和列信息,行信息可以表示数据维度信息,列信息可以表示数据记录点信息。异常显示标注可以是用于区分异常数据和其他正常数据所采用的标注。目标对比图表可以是包含异常显示标注的对比图表。
参考图5,图5示意性示出了根据本公开的示例性实施方式的通过目标对比图表展示异常数据的流程图。在步骤S510中,根据待检测数据生成初始对比图表。在选择出待检测数据后,可以生成待检测数据对应的初始对比图表,例如,可以将待检测数据的数据记录点作为x轴单位,将具体参数作为y轴单位,在坐标轴中进行描点,生成初始对比图表。
在步骤S520中,确定异常数据对应的异常数据信息;异常数据信息包括行列信息。当异常检测模型确定出异常数据后,可以确定出这些异常数据对应的行列信息,如该异常数据对应的数据记录点与参数含义。
在步骤S530中,根据行列信息在初始对比图表中添加异常数据的异常显示标注,以生成目标对比图表,并通过目标对比图表展示异常数据。在获取到行列信息后,根据行列信息在初始对比图表中添加与异常数据对应的异常数据标注,生成目标对比图表。例如,异常数据标注可以是红色标注等标注形式。通过目标对比图表展示异常数据,可以辅助观测人员判断是否存在可能的问题,进而作出相应决策。例如,在医疗健康场景中,当用户的待健康数据中存在异常数据时,可以在目标对比图表中标注出异常数据,医护人员通过查看异常数据标注可以判断是否有可能的问题,患者状态是否处于好转中,以制定下一步的治疗方案。
综上所述,本公开的异常数据检测方法,获取待检测数据;待检测数据包括多个数据维度;获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。一方面,异常检测模型是通过学习不同数据维度之间的趋势变化训练得到,由异常检测模型进行异常数据检测得到的检测结果更加准确。另一方面,将确定出的异常数据进行展示,便于相关人员将异常数据与其他数据进行对比,以基于对比结果提供决策支持。又一方面,通过数据清洗步骤,对训练数据进行数据填充,可以使得到的异常检测模型更具鲁棒性。
需要说明的是,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本示例实施例中,还提供了一种异常数据检测装置。参考图6,该异常数据检测装置600可以包括:数据获取模块610、模型获取模块620以及异常检测模块630。
具体的,数据获取模块610,用于获取待检测数据;待检测数据包括多个数据维度;模型获取模块620,用于获取预先构建的异常检测模型;异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;异常检测模块630,用于将待检测数据输入至异常检测模型,确定待检测数据是否包含异常数据,以展示异常数据。
在本公开的一种示例性实施方案中,异常数据检测装置还包括数据生成模块,用于响应于针对数据选择页面的数据选择操作,获取数据选择操作对应的检测参数;根据检测参数从初始用户数据中获取对应的检测参数值;基于多个检测参数与各自对应的检测参数值生成多个数据维度,以得到待检测数据。
在本公开的一种示例性实施方案中,异常数据检测装置还包括模型训练模块,用于获取初始训练数据;初始训练数据包括多个数据维度;对初始训练数据中各数据维度的数据值进行缺失数据填充,以得到填充训练数据;确定填充训练数据中多个数据维度对应的数据差值集合;根据数据差值集合对初始模型进行训练,以得到异常检测模型。
在本公开的一种示例性实施方案中,模型训练模块包括数据填充单元,用于基于初始训练数据确定缺失训练数据,确定与缺失训练数据对应的参考填充训练数据;根据参考填充训练数据对缺失训练数据进行缺失数据填充处理,以得到填充训练数据。
在本公开的一种示例性实施方案中,模型训练模块包括差值确定单元,用于基于数据维度对填充训练数据进行维度组合处理,得到组合维度数据;对组合维度数据进行矩阵转换处理,得到矩阵转换数据;确定矩阵转换数据中每个列数据对应的列数据方差;根据多个列数据方差确定数据差值集合。
在本公开的一种示例性实施方案中,模型训练模块包括模型训练单元,用于将数据差值集合输入至初始模型,由初始模型基于数据差值集合确定填充训练数据对应的训练异常值;确定初始模型的模型参数与趋势变化度量值;基于趋势变化度量值确定训练异常值对应的异常分类准确率;通过调整模型参数与趋势变量度量值以训练初始模型,以得到异常检测模型;异常检测模型的异常分类准确率大于分类准确率阈值。
在本公开的一种示例性实施方案中,异常数据检测装置还包括对比图表生成模块,用于根据待检测数据生成初始对比图表;确定异常数据对应的异常数据信息;异常数据信息包括行列信息;根据行列信息在初始对比图表中添加异常数据的异常显示标注,以生成目标对比图表,并通过目标对比图表展示异常数据。
上述中各异常数据检测装置的虚拟模块的具体细节已经在对应的异常数据检测方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了异常数据检测装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参考图7来描述根据本发明的这种实施例的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)721和/或高速缓存存储单元722,还可以进一步包括只读存储单元(ROM)723。
存储单元720可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图8所示,描述了根据本发明的实施例的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种异常数据检测方法,其特征在于,包括:
获取待检测数据;所述待检测数据包括多个数据维度;
获取预先构建的异常检测模型;所述异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;所述训练数据经数据清洗处理得到;
将所述待检测数据输入至异常检测模型,确定所述待检测数据是否包含异常数据,以展示所述异常数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于针对数据选择页面的数据选择操作,获取所述数据选择操作对应的检测参数;
根据所述检测参数从初始用户数据中获取对应的检测参数值;
基于多个所述检测参数与各自对应的所述检测参数值生成多个数据维度,以得到所述待检测数据。
3.根据权利要求1所述的方法,其特征在于,所述异常检测模型通过下述步骤训练得到:
获取初始训练数据;所述初始训练数据包括多个数据维度;
对所述初始训练数据中各所述数据维度的数据值进行缺失数据填充,以得到填充训练数据;
确定所述填充训练数据中多个所述数据维度对应的数据差值集合;
根据所述数据差值集合对所述初始模型进行训练,以得到所述异常检测模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述初始训练数据中各所述数据维度的数据值进行缺失数据填充,以得到填充训练数据,包括:
基于所述初始训练数据确定缺失训练数据,确定与所述缺失训练数据对应的参考填充训练数据;
根据所述参考填充训练数据对所述缺失训练数据进行缺失数据填充处理,以得到所述填充训练数据。
5.根据权利要求3所述的方法,其特征在于,所述确定所述填充训练数据中多个所述数据维度对应的数据差值集合,包括:
基于所述数据维度对所述填充训练数据进行维度组合处理,得到组合维度数据;
对所述组合维度数据进行矩阵转换处理,得到矩阵转换数据;
确定所述矩阵转换数据中每个列数据对应的列数据方差;
根据多个所述列数据方差确定所述数据差值集合。
6.根据权利要求3所述的方法,其特征在于,所述根据所述数据差值集合对所述初始模型进行训练,以得到所述异常检测模型,包括:
将所述数据差值集合输入至所述初始模型,由所述初始模型根据所述数据差值集合确定所述填充训练数据对应的训练异常值;
确定所述初始模型的模型参数与趋势变化度量值;
基于所述趋势变化度量值确定所述训练异常值对应的异常分类准确率;
通过调整所述模型参数与所述趋势变量度量值以训练所述初始模型,以得到所述异常检测模型;所述异常检测模型的异常分类准确率大于分类准确率阈值。
7.根据权利要求6所述的方法,其特征在于,在所述确定所述待检测数据是否包含异常数据之后,所述方法还包括:
根据所述待检测数据生成初始对比图表;
确定所述异常数据对应的异常数据信息;所述异常数据信息包括行列信息;
根据所述行列信息在所述初始对比图表中添加所述异常数据的异常显示标注,以生成目标对比图表,并通过所述目标对比图表展示所述异常数据。
8.一种异常数据检测装置,其特征在于,包括:
数据获取模块,用于获取待检测数据;
模型获取模块,用于获取预先构建的异常检测模型;所述异常检测模型通过对多个不同数据维度的训练数据之间的趋势变化训练得到;所述训练数据经数据清洗处理得到;
异常检测模块,用于将所述待检测数据输入至异常检测模型,以确定所述待检测数据是否包含异常数据。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的异常数据检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的异常数据检测方法。
CN202111233498.2A 2021-10-22 2021-10-22 异常数据检测方法及装置、电子设备和存储介质 Pending CN113990512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111233498.2A CN113990512A (zh) 2021-10-22 2021-10-22 异常数据检测方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111233498.2A CN113990512A (zh) 2021-10-22 2021-10-22 异常数据检测方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113990512A true CN113990512A (zh) 2022-01-28

Family

ID=79740399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111233498.2A Pending CN113990512A (zh) 2021-10-22 2021-10-22 异常数据检测方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113990512A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628428A (zh) * 2023-07-24 2023-08-22 华能信息技术有限公司 一种数据加工方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628428A (zh) * 2023-07-24 2023-08-22 华能信息技术有限公司 一种数据加工方法及系统
CN116628428B (zh) * 2023-07-24 2023-10-31 华能信息技术有限公司 一种数据加工方法及系统

Similar Documents

Publication Publication Date Title
US11881293B2 (en) Methods for automatic cohort selection in epidemiologic studies and clinical trials
Clifford et al. Robust parameter extraction for decision support using multimodal intensive care data
EP2817736B1 (en) System and method for estimation of missing data in a multivariate longitudinal setup
US20170061102A1 (en) Methods and systems for identifying or selecting high value patients
US20140006044A1 (en) System and method for preparing healthcare service bundles
CN103635908B (zh) 离开就绪性指标
US20190180875A1 (en) Risk monitoring scores
WO2021103624A1 (zh) 一种脓毒血症的预警装置、设备及存储介质
CN112970070A (zh) 用于健康护理提供者辅助系统的方法和系统
CN113990512A (zh) 异常数据检测方法及装置、电子设备和存储介质
US20110153344A1 (en) Methods and apparatus for integrated medical case research and collaboration
US20190279752A1 (en) Generation of adherence-improvement programs
US20190287675A1 (en) Systems and methods for determining healthcare quality measures by evalutating subject healthcare data in real-time
CN110473636B (zh) 基于深度学习的智能医嘱推荐方法及系统
JP2019003408A (ja) ハイパーパラメータの評価方法、計算機及びプログラム
EP3443492A1 (en) Annotating data points associated with clinical decision support application
US20200323448A1 (en) System of Determining Physiological State
CN110911011B (zh) 一种脓毒血症的预警装置、设备及存储介质
US10204091B2 (en) Providing data quality feedback while end users enter data in electronic forms
CN114266501A (zh) 医院运营指标的自动预测和根因分析方法及系统
US20170249430A1 (en) Methods, apparatuses and computer program products for providing a knowledge hub health care solution
CN114020926A (zh) 数据处理方法、装置和电子设备
US20230229662A1 (en) Information processing system and lineage management method
Colopy Bayesian Gaussian processes for identifying the deteriorating patient
CN112487195B (zh) 实体的排序方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination