CN116721704B - 一种分级防护的生物信息数据库的更新方法及系统 - Google Patents
一种分级防护的生物信息数据库的更新方法及系统 Download PDFInfo
- Publication number
- CN116721704B CN116721704B CN202310969222.3A CN202310969222A CN116721704B CN 116721704 B CN116721704 B CN 116721704B CN 202310969222 A CN202310969222 A CN 202310969222A CN 116721704 B CN116721704 B CN 116721704B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- module
- quality evaluation
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013441 quality evaluation Methods 0.000 claims abstract description 70
- 238000012937 correction Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims description 46
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 28
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000007726 management method Methods 0.000 description 12
- 238000011160 research Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000037353 metabolic pathway Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分级防护的生物信息数据库的更新方法及系统,涉及数据库更新技术领域;所述方法包括以下步骤:通过采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息,将采集的格式纠正信息、网络波动信息、数据冲突信息生成质量评估系数,将生成的质量评估系数与质量评估阈值进行对比,根据对比结果对上传更新数据进行标记,根据标记的上传更新数据的分析数据模块状态,对状态差的数据模块进行预警处理,及时通知数据库管理人员进行核查,防止在后续使用过程中出现问题,影响生物信息数据库的正常更新,提高了数据库更新的准确性。
Description
技术领域
本发明涉及数据库更新技术领域,具体涉及一种分级防护的生物信息数据库的更新方法及系统。
背景技术
分级防护是指根据信息的敏感程度和访问权限的需求,将数据和系统进行划分和分类,并为其分配相应的安全措施和权限级别的过程,在信息安全领域,分级防护是一种常见的安全管理方法,用于保护机密、敏感或重要数据的机密性、完整性和可用性,在分级防护中,数据和系统被分为多个级别或层次,每个级别都有不同的安全要求和访问权限,不同等级权限可以进行不同的数据处理。
生物信息数据库是指存储和管理与生物学和生物信息学相关的数据的专门数据库,这些数据库收集、整合和提供各种生物信息,包括基因组序列、蛋白质信息、表达数据、代谢通路、蛋白质结构、物种分类、基因-疾病关联等内容,生物信息数据库在研究生物学研究、基因组学分析等方面起着重要的作用。
现有技术存在以下不足:在分级防护的生物信息数据库中,对于不同重要等级的数据在进行更新时,生物信息的重要等级越高,更新时越需要进行着重监控,防止数据出现错误,从而避免使用时造成损失,而对于更新频率较高、分级权限较低的生物信息数据部分,具有相应更新权限的人员或团队较多,当人员或者团队在进行信息数据处理更新时,容易造成信息数据进行同时更新,从而发生数据更新冲突,导致数据紊乱,错误率增加,对于出现更新错误的监控预警不及时,造成后续使用数据时出现错误,而对于非更新数据原因的数据模块原因的监测不够明确,进而造成数据资源的损失。
发明内容
本发明的目的是提供一种分级防护的生物信息数据库的更新方法及系统,以解决背景技术中的不足。
为了实现上述目的,本发明提供如下技术方案:一种分级防护的生物信息数据库的更新方法,包括以下步骤;
采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息;
将采集的格式纠正信息、网络波动信息、数据冲突信息生成质量评估系数;
将生成的质量评估系数与质量评估阈值进行对比,根据对比结果对上传更新数据进行标记;
根据标记的上传更新数据的分析数据模块状态,对状态差的数据模块进行预警处理。
优选的,格式纠正信息包括纠错数据占比值,网络波动信息包括网络异常抖动次数,数据冲突信息包括更新数据重复率,将纠错数据占比值、网络异常抖动次数、更新数据重复率分别标定为 、/> 、/> 。
优选的,纠错数据占比值的获取逻辑如下:
获取用户进行数据更新的总量作为更新数据总量,标定为ZL,将数据格式错误出现次数进行统计并标定为GS,将缺失值和空白数据出现次数进行统计并标定为QS,将逻辑错误数据出现次数进行汇总并标定为LJ,将数据格式错误出现次数、缺失值和空白数据出现次数以及逻辑错误数据出现次数进行求和汇总,并与更新数据总量之间的比值作为纠错数据占比值,表达式为: 。
优选的,网络异常抖动次数获取的逻辑如下:
获取用户上传更新数据开始时长与上传更新结束时长之间的时长差值T,在时长差值T内网络中断次数标定为ZDCS,将传输错误次数标定为CWCS和受到的网络攻击次数标定为GJCS进行统计,将网络中断次数、传输错误次数以及网络攻击次数汇总求和得到网络异常抖动次数 。
优选的,更新数据重复率获取的逻辑如下:
获取t时刻内各用户上传更新完毕的数据总量标定为SJL,将各用户上传的数据之间进行比对,得到各用户上传数据之间的数据重复情况,各用户上传的数据总量中重复数据量标定为CFL,将数据总量与重复数据量计算得到实际上传数据量并标定为 ,表达式为/> ,将实际上传数据量与要上传的生物信息数据库的数据进行对比,得到生物信息数据库已存在数据量并标定为YCZ,根据已存在数据量与实际上传数据量比值得到更新数据重复率,表达式为:/> 。
优选的,将采集的格式纠正信息、网络波动信息、数据冲突信息生成质量评估系数,是指将纠错数据占比值、网络异常抖动次数、更新数据重复率进行联立生成质量评估系数,纠错数据占比值、网络异常抖动次数、更新数据重复率与质量评估系数成正比关系。
优选的,将生成的质量评估系数与质量评估阈值进行对比,根据对比结果对上传更新数据进行标记,具体过程如下:
将生成的质量评估系数与质量评估阈值进行比对,分别将上传更新数据标记为质量正常数据与质量异常数据;
若质量评估系数大于质量评估阈值,则标记上传更新数据为质量异常数据;
若质量评估系数小于等于质量评估阈值,则标记上传更新数据为质量正常数据。
优选的,根据标记的上传更新数据的分析数据模块状态,对状态差的数据模块进行预警处理,具体过程如下:
获取质量异常数据的上传更新数据更新的数据模块,记录后续时刻数据模块进行数据更新时上传更新数据生成的质量评估系数,建立数据集合,计算数据集合中质量评估系数的均值和标准差;
对每个数据,计算其与均值的偏差值,得到离群程度值,获取离群程度值的具体公式为:Z=(X - μ) / σ,X为数据集合内数据点,μ为均值,σ为标准差;
将数据集合内数据的离群程度值与设置的离群阈值进行比较;
当数据集合内数据的离群程度值大于离散阈值时,将该数据作为离群点并进行记录;
当离群点数量大于等于设置的数量阈值时,判断该数据模块进行数据更新的逻辑结构出现问题,对该数据模块进行预警。
本发明还提供一种分级防护的生物信息数据库的更新系统,包括采集模块、存储模块、管理模块、对比模块以及预警模块;
采集模块:采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息,并发送信息数据到存储模块;
存储模块:接收采集模块发送的信息数据进行存储,并存储有阈值相关信息,并发送数据到管理模块;
管理模块:接收存储模块发送的数据,根据格式纠正信息、网络波动信息以及数据冲突信息建立质量评估系数,根据质量评估系数对上传数据质量进行分析,并发送数据到对比模块;
对比模块:接收管理模块发送的数据,将质量评估系数与阈值相关信息中的质量评估阈值进行比较,根据比较结果将上传更新数据分别标记为质量正常数据与质量异常数据,并发送数据到预警模块;
预警模块:接收对比模块发送的数据,对标记的异常质量数据的上传更新数据进行分析,确定上传更新数据对应更新的数据模块状态,对状态差数据模块进行预警。
在上述技术方案中,本发明提供的技术效果和优点:
本发明通过采集格式纠正信息、网络波动信息、数据冲突信息建立质量评估系数,对用户上传更新数据的数据质量进行分析,通过质量评估系数与质量评估阈值进行比较,将上传更新数据标记为异常质量数据和正常质量数据,对标记的异常质量数据的上传更新数据进行分析,确定上传更新数据的质量与对应更新的数据模块状态,对状态可能出现问题的数据模块进行预警,及时通知数据库管理人员进行数据模块的核查,防止在后续使用过程中出现问题,影响生物信息数据库的正常更新。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明一种分级防护的生物信息数据库的更新方法的流程图。
图2为本发明一种分级防护的生物信息数据库的更新系统的模块示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
实施例1:本发明提供了如图1所示的一种分级防护的生物信息数据库的更新方法,方法包括以下步骤:
生物信息数据库通常可以分为一次数据库和二次数据库,这种分类方式主要基于数据库的数据来源和处理方式,一次数据库是由权威机构、研究组织或大型国际项目直接生成和维护的数据库,这些数据库收集和存储原始的生物学数据,如基因组测序数据、蛋白质序列数据、表达数据等,一次数据库的数据通常是由全球范围的研究机构和项目产生的,提供了基本的生物学数据资源和服务,通常提供数据访问接口,以便科研人员和生物信息学社区能够使用这些数据进行进一步的研究和分析,二次数据库的数据通常是基于一次数据库的数据进行加工、注释或整合的结果,这些二级数据库提供更深入的数据挖掘和分析功能,以支持特定领域的研究和应用,二次数据库的数据可能包括更丰富的注释信息、功能预测、代谢途径、基因互作网络等,生物信息数据库具有较大基数用户使用的特点,数据库中数据量大,用户交互次数多,数据的更新快,在数据更新过程中容易产生;
对于生物信息数据库的更新,先采用身份验证、权限管理和访问审计等措施,确保只有授权人员可以访问敏感系统和数据,再对敏感数据进行加密,以保护数据在传输和存储过程中的安全性,对系统进行实时监控和审计,以便及时发现和响应安全事件和异常行为;
生物信息数据库通常关联着用户表,用户表中存在着以注册的用户信息,用户信息中包括用户名、密码、权限等用户的基本信息,用户对生物信息数据库进行操作时,首先进行用户名与密码的登录,登录成功后,根据用户信息中的用户权限,用户可以对生物信息数据库进行权限内的操作,在分级防护中,一般将信息系统和数据划分为多个级别,例如高、中、低三个级别,每个级别对应不同的安全要求和访问权限,较高级别的系统和生物信息数据具有更高的安全性要求,只有经过授权的用户可以访问和处理这些生物信息数据,而较低级别的系统和生物信息数据可能对更多的用户开放,但仍需确保一定的安全性,减少错误出现,而分级防护措施通常进行多个方面的联合,从而达到最优防护;
采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息;
在更新与生物信息数据库相关的新数据时,数据是否符合存储标准是对决定数据是否能顺利更新到生物信息数据库的一个重要指标,生物信息数据库存储着大量不同类别生物信息相关数据,不同类别的生物信息数据具有不同样的存储格式,包括基因组数据、蛋白质数据、疾病关联信息等数据,确保新数据标准化存储格式正常与数据来源可靠,进而确保生物信息数据的一致性和互操作性;
格式纠正信息包括纠错数据占比值,网络波动信息包括网络异常抖动次数,数据冲突信息包括更新数据重复率,采集后,将纠错数据占比值、网络异常抖动次数、更新数据重复率分别标定为 、/> 、/> ;
生物信息数据库通常会根据用户上传数据的质量进行评估和判断,以确定是否将其更新到生物信息数据库中,这是确保生物信息数据库的数据质量和准确性的重要步骤之一,数据库会检查上传数据的格式和结构是否符合数据库的要求和规范,这包括验证数据字段、数据类型、数据长度、缺失值等方面,并且数据库会评估上传数据的质量,包括准确性、完整性、一致性等方面,通过数据比对、统计分析、数据模式检测等方法进行数据验证。
用户上传更新数据中的纠错数据占比值对生物信息数据库是否使用该数据进行数据库的更新有重要影响,用户在上传数据中的数据字段的纠错数据占比值越小,表明用户上传更新数据的准确性越高,纠错数据占比值大具有以下影响:
数据质量和准确性下降:纠错数据的占比大意味着用户上传更新数据中存在较多的错误数据,影响用户对数据的信任度和数据分析的准确性,如果大量数据存在错误,会导致数据不一致、冲突或缺失,脏数据过大影响着数据质量;
数据应用价值受损:错误数据降低了生物信息数据库的应用价值,导致数据用户不愿意依赖和使用具有较高错误率的数据库,限制了数据库的影响力和可应用性,数据库的应用价值受到损害;
因此,获取用户上传更新数据中的纠错数据占比值,可对更新的数据质量进行评估,评判上传更新数据的好坏,能否作为数据源进行数据库的更新,对不同错误类型的数据所占比例进行分析;
纠错数据占比值的获取逻辑如下:
获取用户进行数据更新的总量作为更新数据总量,标定为ZL,将数据格式错误出现次数进行统计并标定为GS,将缺失值和空白数据出现次数进行统计并标定为QS,将逻辑错误数据出现次数进行汇总并标定为LJ,将数据格式错误出现次数、缺失值和空白数据出现次数以及逻辑错误数据出现次数进行求和汇总,并与更新数据总量之间的比值作为纠错数据占比值,表达式为: ;
需要说明的是,纠错数据占比值中的数据格式错误是指数据不符合预定义的格式要求,例如日期格式错误、数据类型不匹配等,缺失值或空白数据是指数据字段中存在空白值或缺失数据,没有提供所需的信息,逻辑错误是指数据之间存在逻辑上的不一致性,例如数值关系不符合预期、矛盾的逻辑条件等,具体的错误数据识别根据数据库的要求、数据验证规则和领域专业知识来定义和确定,在实际中还存在其他错误数据的类型和情况,在此不进行一一举例分析。
用户上传更新数据中的网络异常抖动次数对生物信息数据库是否进行数据更新存在重要影响,网络异常抖动表示在数据进行上传更新过程中受到外部的网络干扰,网络异常抖动造成网络的稳定性下降,受到网络攻击时的抵抗能力越差,在用户上传更新数据的过程中受到的网络异常抖动次数越多,越容易出现以下问题:
数据完整性与安全性受损:网络异常抖动可能导致数据包丢失、篡改或损坏,这可能导致数据上传的不完整或错误,从而影响数据库的数据完整性,网络异常抖动中的包含网络攻击,网络攻击可能导致未经授权的访问和入侵数据库系统,黑客可能在上传过程中进行数据注入、篡改或删除操作,导致上传的数据不准确或受损;
网络连接中断:网络异常抖动频繁可能导致网络连接中断或不稳定,从而导致数据上传过程中的连接中断,导致数据上传失败或丢失,增加数据上传过程出错的可能性;
数据丢失风险:网络异常抖动的出现往往伴随着网络攻击,网络异常抖动频繁的情况下,网络攻击中腹带的病毒程序可能成功入侵,造成数据的删除或破坏,这将导致数据丢失,用户需要重新上传数据或无法恢复已上传的数据,影响数据上传更新的准确性;
因此,对上传更新数据过程中网络异常抖动次数进行分析,可进一步分析更新数据的状态;
网络异常抖动次数获取的逻辑如下:
获取用户上传更新数据开始时长与上传更新结束时长之间的时长差值T,在时长差值T内网络中断次数标定为ZDCS,将传输错误次数标定为CWCS和受到的网络攻击次数标定为GJCS进行统计,将网络中断次数、传输错误次数以及网络攻击次数汇总求和得到网络异常抖动次数 ;
需要说明的是,网络中断次数即网络在上传过程中断开的次数,传输错误次数是在进行数据过程中出现数据传输错误的次数,如数据丢失、传输超时等,网络攻击次数是指在与生物信息数据库建立连接过程中受到的外部网络攻击次数,具体的网络抖动次数的计算可能还涉及其他因素,例如网络延迟、丢包率等,实际情况需要考虑更多的因素和具体的数据收集方式,在此不一一举例说明。
用户在上传更新数据到数据库时,对各用户上传的数据进行汇总分析,将分析完成的数据与要上传数据的数据库再进行对比分析,分析完毕后进行统一的数据上传,节约各用户上传的所需资源;
多用户上传更新数据时的更新数据重复率对生物信息数据库是否进行数据更新存在重要影响,更新数据重复率表示在多个用户进行数据上传更新时,用户上传的数据中重复数据的占比,更新数据重复率高会出现以下问题:
数据冗余:高重复率意味着数据库与用户上传数据中存在大量相同或类似的数据,导致数据冗余,浪费存储空间和资源,冗余数据增加数据库的维护和管理成本,在进行数据库查询时,增大查询成本;
数据质量问题:如果重复的数据包含错误或不准确的信息,会降低整体数据质量,重复的错误数据容易误导用户分析和研究,影响数据的可靠性和可信度;
数据管理复杂性增加:高重复率增加了数据管理的复杂性,数据库管理员需要处理重复数据的合并、清理和维护,以确保数据库的数据一致性和准确性,数据库与用户上传中大量重复的数据可能导致数据访问效率下降,重复数据的存在增加了数据检索和处理的时间和资源消耗,降低了数据库的性能;
因此,对多用户上传更新数据时的更新数据重复率进行分析,可进一步分析更新数据的质量;
更新数据重复率获取的逻辑如下:
获取t时刻内各用户上传更新完毕的数据总量标定为SJL,将各用户上传的数据之间进行比对,得到各用户上传数据之间的数据重复情况,各用户上传的数据总量中重复数据量标定为CFL,将数据总量与重复数据量计算得到实际上传数据量并标定为 ,表达式为/> ,将实际上传数据量与要上传的生物信息数据库的数据进行对比,得到生物信息数据库已存在数据量并标定为YCZ,根据已存在数据量与实际上传数据量比值得到更新数据重复率,表达式为:/> ;需要说明的是,用户上传的数据进行比对是基于数据唯一标识符、属性值、关联关系进行初步比较,再通过使用相关算法,如模糊匹配算法的正则表达式、通配符匹配等,对各用户上传的数据进行模糊匹配,如果匹配程度较高,则可以推测为重复数据,也可以使用字符串匹配算法,如编辑距离、最长公共子序列等,来比较用户之间上传的数据之间的相似度,如果相似度高于某个阈值,则可以认为是重复、已存在数据,具体的相似度阈值、上传时刻等由专业人员进行设置。
根据格式纠正信息、网络波动信息以及数据冲突信息对上传数据质量进行分析,根据上传数据的质量进行评估和判断,以确定是否将其更新到生物信息数据库中;
将获取到的纠错数据占比值 、网络异常抖动次数/> 以及更新数据重复率/> 生成质量评估系数,将质量评估系数标定为/> ,依据的公式为:/>
式中, 、/> 、/> 分别为纠错数据占比值/> 、网络异常抖动次数/> 以及更新数据重复率/> 的预设比例系数,且/> 、/> 、/> 均大于0;
由公式可知,纠错数据占比值越大、网络异常抖动次数越大、更新数据重复率越高,即质量评估系数 的表现值越大,表明在对生物信息数据库进行数据更新时,上传更新数据的质量越差,纠错数据占比值越小、网络异常抖动次数越少、更新数据重复率越低,即质量评估系数/> 的表现值越小,在对生物信息数据库进行数据更新时,上传更新数据的质量越好;
将生成的质量评估系数与质量评估阈值进行比对,分别将上传更新数据标记为质量正常数据与质量异常数据;
获取到生成的质量评估系数后,将生成的质量评估系数与质量评估阈值进行对比,若质量评估系数大于质量评估阈值,则标记上传更新数据为质量异常数据,表明上传更新的数据存在质量安全隐患概率大,上传更新数据的质量可能出现问题,通知数据库管理人员对该批数据进行严格检查;
若质量评估系数小于等于质量评估阈值,则标记上传更新数据为质量正常数据,表明上传更新的数据存在质量安全隐患的概率小,上传更新数据的质量可能出现问题,数据库管理人员对该批数据进行正常流程检查,检测完毕后可进行数据库数据更新;
生物信息数据库中不同数据模块的数据来源存在质量差异,某些数据模块依赖于实验数据、测序数据或其他来源的数据,而这些数据容易存在误差、噪音或不完整性,如果数据来源质量较低,更新数据时可能会导致错误的数据记录,影响数据的准确性,而由于数据模块逻辑结构出现改变时,上传更新数据可能不符合数据更新逻辑,从而对数据库的更新造成影响;
数据模块本身出现问题的原因影响数据的更新,例如,数据模块的数据源发生变化,包括数据格式的更改、数据内容的调整或数据源的更新,如果更新过程中未及时适应新的数据源变化,从而导致数据模块的更新出错,数据库中不同数据模块的数据结构可能会随着时间的推移而发生变化,当进行数据更新时,如果未考虑到数据结构的变更或未正确处理数据结构的变化,导致更新操作与数据模块的结构不匹配,从而造成数据更新产生较多的错误;
将标记的质量异常数据的上传更新数据更新的数据模块进行即时记录,并记录后续时刻数据模块进行数据更新时上传更新数据生成的质量评估系数,并建立数据集合,通过计算数据集合中的均值与标准差,得到各质量评估系数的离群程度值,确定上传更新数据的质量与对应更新的数据模块状态;
计算数据集合中质量评估系数的均值和标准差;
对每个数据,计算其与均值的偏差值,得到离群程度值,获取离群程度值的具体公式为:Z=(X - μ) / σ,其中X为数据集合内数据点,μ为均值,σ为标准差;
将数据集合内数据的离群程度值与设置的离群阈值进行比较,当数据集合内数据的离群程度值大于离散阈值时,表明该上传更新数据的质量评估系数离群程度过大,将该数据作为离群点与对应更新的数据模块进行记录,当离群点数量大于等于设置的数量阈值时,判断该数据模块进行数据更新的逻辑结构出现问题,对该数据模块进行预警,通知数据库管理人员对该数据模块逻辑结构进行核查,确定该数据模块状态;
需要说明的是,此实施例中有关的阈值信息是专业人员预先进行设置的,不在此进行过多解释。
本发明通过采集格式纠正信息、网络波动信息、数据冲突信息建立质量评估系数,对用户上传更新数据的数据质量进行分析,通过质量评估系数与质量评估阈值进行比较,将上传更新数据标记为异常质量数据和正常质量数据,对标记的异常质量数据的上传更新数据进行分析,确定上传更新数据的质量与对应更新的数据模块状态,对状态可能出现问题的数据模块进行预警,及时通知数据库管理人员进行数据模块的核查,防止在后续使用过程中出现问题,影响生物信息数据库的正常更新。
实施例2:如图2所示,本实施例所述一种分级防护的生物信息数据库的更新系统,包括采集模块、存储模块、管理模块、对比模块以及预警模块;
采集模块:采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息,并发送信息数据到存储模块;
存储模块:接收采集模块发送的信息数据进行存储,并存储有阈值相关信息,并发送数据到管理模块;
管理模块:接收存储模块发送的数据,根据格式纠正信息、网络波动信息以及数据冲突信息建立质量评估系数,根据质量评估系数对上传数据质量进行分析,并发送数据到对比模块;
对比模块:接收管理模块发送的数据,将质量评估系数与阈值相关信息中的质量评估阈值进行比较,根据比较结果将上传更新数据分别标记为质量正常数据与质量异常数据,并发送数据到预警模块;
预警模块:接收对比模块发送的数据,对标记的异常质量数据的上传更新数据进行分析,确定上传更新数据对应更新的数据模块状态,对状态差数据模块进行预警。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。
需要说明的是,在本文中,如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种分级防护的生物信息数据库的更新方法,其特征在于,包括以下步骤;
采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息;
将采集的格式纠正信息、网络波动信息、数据冲突信息生成质量评估系数;
将生成的质量评估系数与质量评估阈值进行对比,根据对比结果对上传更新数据进行标记;
根据标记的上传更新数据的分析数据模块状态,对状态差的数据模块进行预警处理;
格式纠正信息包括纠错数据占比值,网络波动信息包括网络异常抖动次数,数据冲突信息包括更新数据重复率,将纠错数据占比值、网络异常抖动次数、更新数据重复率分别标定为、/>、/>;
获取用户进行数据更新的总量作为更新数据总量,标定为ZL,将数据格式错误出现次数进行统计并标定为GS,将缺失值和空白数据出现次数进行统计并标定为QS,将逻辑错误数据出现次数进行汇总并标定为LJ,将数据格式错误出现次数、缺失值和空白数据出现次数以及逻辑错误数据出现次数进行求和汇总,并与更新数据总量之间的比值作为纠错数据占比值,表达式为:;
获取用户上传更新数据开始时长与上传更新结束时长之间的时长差值T,在时长差值T内网络中断次数标定为ZDCS,将传输错误次数标定为CWCS和受到的网络攻击次数标定为GJCS进行统计,将网络中断次数、传输错误次数以及网络攻击次数汇总求和得到网络异常抖动次数;
获取t时刻内各用户上传更新完毕的数据总量标定为SJL,将各用户上传的数据之间进行比对,得到各用户上传数据之间的数据重复情况,各用户上传的数据总量中重复数据量标定为CFL,将数据总量与重复数据量计算得到实际上传数据量并标定为,表达式为,将实际上传数据量与要上传的生物信息数据库的数据进行对比,得到生物信息数据库已存在数据量并标定为YCZ,根据已存在数据量与实际上传数据量比值得到更新数据重复率,表达式为:/>。
2.根据权利要求1所述的一种分级防护的生物信息数据库的更新方法,其特征在于,将采集的格式纠正信息、网络波动信息、数据冲突信息生成质量评估系数,是指将纠错数据占比值、网络异常抖动次数、更新数据重复率进行联立生成质量评估系数,纠错数据占比值、网络异常抖动次数、更新数据重复率与质量评估系数成正比关系。
3.根据权利要求2所述的一种分级防护的生物信息数据库的更新方法,其特征在于,将生成的质量评估系数与质量评估阈值进行对比,根据对比结果对上传更新数据进行标记,具体过程如下:
将生成的质量评估系数与质量评估阈值进行比对,分别将上传更新数据标记为质量正常数据与质量异常数据;
若质量评估系数大于质量评估阈值,则标记上传更新数据为质量异常数据;
若质量评估系数小于等于质量评估阈值,则标记上传更新数据为质量正常数据。
4.根据权利要求3所述的一种分级防护的生物信息数据库的更新方法,其特征在于,根据标记的上传更新数据的分析数据模块状态,对状态差的数据模块进行预警处理,具体过程如下:
获取质量异常数据的上传更新数据更新的数据模块,记录后续时刻数据模块进行数据更新时上传更新数据生成的质量评估系数,建立数据集合,计算数据集合中质量评估系数的均值和标准差;
对每个数据,计算其与均值的偏差值,得到离群程度值,获取离群程度值的具体公式为:Z=(X - μ) / σ,X为数据集合内数据点,μ为均值,σ为标准差;将数据集合内数据的离群程度值与设置的离群阈值进行比较;
当数据集合内数据的离群程度值大于离散阈值时,将数据作为离群点并进行记录;
当离群点数量大于等于设置的数量阈值时,判断该数据模块进行数据更新的逻辑结构出现问题,对该数据模块进行预警。
5.一种分级防护的生物信息数据库的更新系统,用于实现权利要求1-4任一项所述的方法,包括采集模块、存储模块、管理模块、对比模块以及预警模块;
采集模块:采集更新生物信息数据库时的影响信息,影响信息包括格式纠正信息、网络波动信息、数据冲突信息,并发送信息数据到存储模块;
存储模块:接收采集模块发送的信息数据进行存储,并存储有阈值相关信息,并发送数据到管理模块;
管理模块:接收存储模块发送的数据,根据格式纠正信息、网络波动信息以及数据冲突信息建立质量评估系数,根据质量评估系数对上传数据质量进行分析,并发送数据到对比模块;
对比模块:接收管理模块发送的数据,将质量评估系数与阈值相关信息中的质量评估阈值进行比较,根据比较结果将上传更新数据分别标记为质量正常数据与质量异常数据,并发送数据到预警模块;
预警模块:接收对比模块发送的数据,对标记的异常质量数据的上传更新数据进行分析,确定上传更新数据对应更新的数据模块状态,对状态差数据模块进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969222.3A CN116721704B (zh) | 2023-08-03 | 2023-08-03 | 一种分级防护的生物信息数据库的更新方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969222.3A CN116721704B (zh) | 2023-08-03 | 2023-08-03 | 一种分级防护的生物信息数据库的更新方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721704A CN116721704A (zh) | 2023-09-08 |
CN116721704B true CN116721704B (zh) | 2023-10-20 |
Family
ID=87868216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310969222.3A Active CN116721704B (zh) | 2023-08-03 | 2023-08-03 | 一种分级防护的生物信息数据库的更新方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721704B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118277612B (zh) * | 2024-05-29 | 2024-09-27 | 北京立同新元科技有限公司 | 一种三维gis视频融合方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004081985A2 (en) * | 2003-03-11 | 2004-09-23 | Inficon Lt, Inc. | Methods and systems for estimating reticle bias states |
CN107658007A (zh) * | 2016-07-26 | 2018-02-02 | 宁夏医科大学总医院 | 流行病学调查项目质量管理方法 |
WO2020133639A1 (zh) * | 2018-12-29 | 2020-07-02 | 东北大学 | 一种管道内检测漏磁数据智能分析系统 |
CN115063020A (zh) * | 2022-07-07 | 2022-09-16 | 中国长江三峡集团有限公司 | 基于风险监测融合的梯级水电站多维安全调度装置及方法 |
CN115580637A (zh) * | 2022-09-26 | 2023-01-06 | 广州健新科技有限责任公司 | 一种用于电厂辅机设备的安全监测预警方法及系统 |
CN116485172A (zh) * | 2022-12-09 | 2023-07-25 | 中国疾病预防控制中心环境与健康相关产品安全所 | 一种夏季热健康风险分级预警方法及预测预警系统 |
-
2023
- 2023-08-03 CN CN202310969222.3A patent/CN116721704B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004081985A2 (en) * | 2003-03-11 | 2004-09-23 | Inficon Lt, Inc. | Methods and systems for estimating reticle bias states |
CN107658007A (zh) * | 2016-07-26 | 2018-02-02 | 宁夏医科大学总医院 | 流行病学调查项目质量管理方法 |
WO2020133639A1 (zh) * | 2018-12-29 | 2020-07-02 | 东北大学 | 一种管道内检测漏磁数据智能分析系统 |
CN115063020A (zh) * | 2022-07-07 | 2022-09-16 | 中国长江三峡集团有限公司 | 基于风险监测融合的梯级水电站多维安全调度装置及方法 |
CN115580637A (zh) * | 2022-09-26 | 2023-01-06 | 广州健新科技有限责任公司 | 一种用于电厂辅机设备的安全监测预警方法及系统 |
CN116485172A (zh) * | 2022-12-09 | 2023-07-25 | 中国疾病预防控制中心环境与健康相关产品安全所 | 一种夏季热健康风险分级预警方法及预测预警系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116721704A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737101B (zh) | 基于大数据的用户行为监测方法、装置、设备及介质 | |
US8286237B2 (en) | Method and apparatus to detect unauthorized information disclosure via content anomaly detection | |
Noorbehbahani et al. | An incremental intrusion detection system using a new semi‐supervised stream classification method | |
US7885791B2 (en) | Method for capturing local and evolving clusters | |
CN111538642B (zh) | 一种异常行为的检测方法、装置、电子设备及存储介质 | |
CN116721704B (zh) | 一种分级防护的生物信息数据库的更新方法及系统 | |
US11698962B2 (en) | Method for detecting intrusions in an audit log | |
CN111898647B (zh) | 一种基于聚类分析的低压配电设备误告警识别方法 | |
CN113630419B (zh) | 一种基于api流量的数据分类分级及数据安全监测方法及系统 | |
US11803461B2 (en) | Validation of log files using blockchain system | |
CN117478441B (zh) | 基于用户行为智能分析的动态访问控制方法及系统 | |
CN112711757A (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN116112194A (zh) | 用户行为分析方法、装置、电子设备及计算机存储介质 | |
CN116881948A (zh) | 一种基于通用数据库的数据加密管理系统及其方法 | |
CN117150576B (zh) | 一种区块链电子印章的智能验证系统及方法 | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
CN112560111A (zh) | 一种适用于物联网的时序数据采集防篡改方法及装置 | |
CN114816964B (zh) | 风险模型构建方法、风险检测方法、装置、计算机设备 | |
CN115801307A (zh) | 一种利用服务器日志进行端口扫描检测的方法和系统 | |
CN116055194A (zh) | 一种面向大数据平台的基于群体画像的安全评估方法 | |
Pan et al. | An anomaly detection method for system logs using Venn-Abers predictors | |
CN115859298A (zh) | 一种电力主站系统动态可信计算环境架构和方法 | |
CN112087448B (zh) | 安全日志提取方法、装置和计算机设备 | |
CN115242419A (zh) | 一种计算机网络安全异常操作拦截方法 | |
Qiao et al. | Behavior analysis-based learning framework for host level intrusion detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |