CN112185468B - 一种用于基因数据分析和处理的云端管理系统及方法 - Google Patents

一种用于基因数据分析和处理的云端管理系统及方法 Download PDF

Info

Publication number
CN112185468B
CN112185468B CN202011374662.7A CN202011374662A CN112185468B CN 112185468 B CN112185468 B CN 112185468B CN 202011374662 A CN202011374662 A CN 202011374662A CN 112185468 B CN112185468 B CN 112185468B
Authority
CN
China
Prior art keywords
data
module
information
analysis
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011374662.7A
Other languages
English (en)
Other versions
CN112185468A (zh
Inventor
符义琴
陈伟
蒋丹丹
马栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Superyears Gene Technology Co ltd
Original Assignee
Nanjing Superyears Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Superyears Gene Technology Co ltd filed Critical Nanjing Superyears Gene Technology Co ltd
Priority to CN202011374662.7A priority Critical patent/CN112185468B/zh
Publication of CN112185468A publication Critical patent/CN112185468A/zh
Application granted granted Critical
Publication of CN112185468B publication Critical patent/CN112185468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本发明公开了一种用于基因数据分析和处理的云端管理系统及方法,首先,通过5G无线传输的方式接收从边缘计算模块传送来的结构化数据并存储;按照对应的检索信息调取上传的基因结构化数据以及边缘计算设备内存储的基因的荧光信号的原始数据,并利用这些数据做不同功能的个性化展示以及利用人工智能相关模型对基因数据做分析挖掘;找出对业务需求有较高价值的信息做相应功能的二次开发。此外,对于由边缘计算模块传输的异常信息及系统中的相关应用对结构化数据分析得出疑似异常样本时,及时向所述异常处理模块发出告警,并提醒其对相应的异常信息做出对应举措,提高实际生产的应用效果。

Description

一种用于基因数据分析和处理的云端管理系统及方法
技术领域
本发明涉及信息应用技术领域,尤其涉及一种用于基因数据分析和处理的云端管理系统及方法。
背景技术
近年来,随着生物信息学的不断发展,基因组相关的研究进程也不断加快。基因数据繁杂且冗余、信息量庞大给基因数据的分析和处理带来了巨大挑战。5G时代的到来、云计算的发展以及人工智能技术的不断创新为基因组的相关研究带来了新的思路,提供了有效的技术支撑,将这些技术运用到基因数据的分析和处理中有利于简化基因数据分析和处理的流程、降低基因数据分析的技术门槛,提高了数据分析和处理的安全性,对生物信息学的发展有着长远意义。
DNA测序仪和PCR扩增仪分别用来测定DNA片段的碱基顺序、种类及定量和用来对特定DNA进行扩增。现有的测序仪和PCR扩增仪通常每台仪器与一台计算机相连,将对应的分析和处理的相关算法集成于软件中,并将相关软件安装于计算机上,通过人工分别使用相应的数据采集软件、测序软件、片段分析软件和CT值监测软件对基因数据进行分析与处理,这种方式的处理流程比较复杂,需要的对应业务人员的门槛也比较高,在待处理样本较多的情况下,数据的存储、分析和处理、在相关业务场景下的二次开发上需要的周期也比较长,对于最终的业务数据反馈的速度也比较慢,导致对实际生产应用的效果降低。
发明内容
本发明的目的在于提供一种用于基因数据分析和处理的云端管理系统及方法,提高实际生产的应用效果。
为实现上述目的,第一方面,本发明提供了一种用于基因数据分析和处理的云端管理系统,所述用于基因数据分析和处理的云端管理系统包括边缘计算模块、数据存储模块、前端展示模块和后端数据处理模块,所述数据存储模块与所述边缘计算模块连接,所述前端展示模块和所述后端数据处理模块均与所述数据存储模块连接;
所述边缘计算模块,用于采集并存储由仪器传输的荧光信号数据,并根据不同功能需求,对所述荧光信号数据进行采集和处理、DNA测序、STR片段分析以及CT值监控,以及根据云端发出的指令,在对应的5G切片网络内分别生成控制告警指令、荧光数据、分析结果的结构化数据信息;
所述数据存储模块,用于对所述边缘计算模块上传至云端的所述结构化数据信息、基因原始数据及系统运行过程中生成的临时和结果数据进行存储;
所述前端展示模块,用于用户登入信息、5G网络切片需求设置、所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示;
所述后端数据处理模块,用于用户权限管理、审查、所述结构化数据信息的二次开发训练和编码。
其中,所述前端展示模块包括用户登录单元和切片设置单元,所述用户登录单元与所述数据存储模块连接,所述切片设置单元与所述后端数据处理模块连接;
所述用户登录单元,用于根据用户的登录信息,获取对应的存储数据和原始数据;
所述切片设置单元,用于据实际的业务需求对5G网络进行切片设置,划分为控制及告警指令切片、荧光数据切片、分析结果的结构化数据切片,以及对不同的切片网段设置不同的访问权限。
其中,所述前端展示模块还包括展示单元,所述展示单元与所述边缘计算模块和所述后端数据处理模块连接;
所述展示单元,用于将所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示。
其中,所述后端数据处理模块包括权限管理单元和审查单元,所述权限管理单元与所述前端展示模块连接,所述审查单元与所述数据存储模块和所述前端展示模块连接;
所述权限管理单元,用于对用户的登录权限和数据获取权限进行管理;
所述审查单元,用于对所述结构化数据信息中的异常值和缺失值进行检查,并发出异常告警信息。
其中,所述用于基因数据分析和处理的云端管理系统还包括数据传输模块,所述数据传输模块与所述边缘计算模块和所述数据存储模块连接;
所述数据传输模块,用于将对应的结果数据、所述控制告警指令、所述荧光数据、分析结果的所述结构化数据信息进行传输。
其中,所述用于基因数据分析和处理的云端管理系统还包括异常处理模块,所述异常处理模块与所述数据传输模块连接;
所述异常处理模块,用于根据接收到的所述控制告警指令进行对应的处理。
第二方面,本发明提供了一种用于基因数据分析和处理的云端管理方法,如第一方面所述的一种用于基因数据分析和处理的云端管理系统适用于一种用于基因数据分析和处理的云端管理方法,包括以下步骤:
获取并存储边缘计算模块上传的结构化数据,并根据对应的检索信息调取对应的所述结构化数据和原始数据;
根据调取的所有的数据进行数据的二次开发训练,并进行个性化展示;
获取对应的异常审查信息,并通过无线传输网络传输至对应的终端进行异常数据处理。
本发明的一种用于基因数据分析和处理的云端管理系统及方法,包括边缘计算模块、数据存储模块、前端展示模块、后端数据处理模块、数据传输模块和异常处理模块,首先,通过5G无线传输的方式接收从边缘计算模块传送来的结构化数据并在所述数据存储模块存储;按照地理位置、边缘设备对应的ID、生物仪器对应的ID、时间等信息调取上传至所述数据存储模块存储的基因结构化数据以及边缘计算设备内存储的基因的荧光信号的原始数据,并利用这些数据做不同功能的个性化展示以及利用人工智能相关模型对基因数据做分析挖掘;找出对业务需求有较高价值的信息做相应功能的二次开发。此外,对于由边缘计算模块传输的异常信息及系统中的相关应用对结构化数据分析得出疑似异常样本时,及时向所述异常处理模块发出告警,并提醒其对相应的异常信息做出对应举措,提高实际生产的应用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种用于基因数据分析和处理的云端管理系统的结构示意图。
图2是本发明提供的一种用于基因数据分析和处理的云端管理方法的步骤示意图。
1-边缘计算模块、2-数据存储模块、3-前端展示模块、4-后端数据处理模块、5-数据传输模块、6-异常处理模块、31-检索单元、32-用户登录单元、33-切片设置单元、34-展示单元、41-二次开发单元、42-编码建模单元、43-权限管理单元、44-审查单元。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明提供一种用于基因数据分析和处理的云端管理系统,所述用于基因数据分析和处理的云端管理系统包括边缘计算模块1、数据存储模块2、前端展示模块3和后端数据处理模块4,所述数据存储模块2与所述边缘计算模块1连接,所述前端展示模块3和所述后端数据处理模块4均与所述数据存储模块2连接;
所述边缘计算模块1,用于采集并存储由仪器传输的荧光信号数据,并根据不同功能需求,对所述荧光信号数据进行采集和处理、DNA测序、STR片段分析以及CT值监控,以及根据云端发出的指令,在对应的5G切片网络内分别生成控制告警指令、荧光数据、分析结果的结构化数据信息;
所述数据存储模块2,用于对所述边缘计算模块1上传至云端的所述结构化数据信息、基因原始数据及系统运行过程中生成的临时和结果数据进行存储;
所述前端展示模块3,用于用户登入信息、5G网络切片需求设置、所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示;
所述后端数据处理模块4,用于用户权限管理、审查、所述结构化数据信息的二次开发训练和编码。
在本实施方式中,所述前端展示模块3基于html5、css及angularjs等框架进行开发;所述后端数据处理模块4基于Spring Boot框架进行开发;所述数据存储模块2包含Mysql、HDFS等数据库组件;首先,控制所述边缘计算模块1控制边缘计算设备在DNA测序仪和PCR扩增仪的近端采集并存储由仪器传输的荧光信号数据,并对根据不同功能需求实现荧光数据采集和处理、DNA测序、STR片段分析以及PCR扩增CT值监控,并根据云端发出的指令,在对应的5G切片网络内分别传输控制告警指令、荧光数据、分析结果的结构化数据信息;然后,将所述结构化数据信息传输至所述数据存储模块2中进行存储;然后根据所述前端展示模块3中获取的用户登录信息和检索信息,调取对应的存储的数据进行展示,还可以利用所述后端数据处理模块4对基因数据做分析挖掘找出对业务需求有较高价值的信息做相应功能的二次开发和审查,检查其中的异常信息,便于进行及时的处理,提高实际生产的应用效果。
云端系统可接收从边缘计算设备中的各算法单元输出的结构化数据。其中,所述边缘计算模块1包括:荧光数据采集及处理算法单元、DNA测序算法单元、PCR扩增CT值监测算法单元、STR片段分析算法单元;结构化数据的字段定义表包括:荧光数据荧光数据采集及处理算法单元输出结构化数据字段表、DNA测序算法单元输出结构化数据字段表、PCR扩增CT值监测算法单元输出结构化数据字段表及STR片段分析算法单元输出结构化数据字段表。
所述数据荧光数据采集及处理算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息、bining相关信息、光谱校正矩阵条件数C、解谱信号质量值q、光谱校正矩阵、解谱后的信号值、仪器状态、相关业务人员ID及可扩展。
所述DNA测序算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息、峰信号值向量、对应帧数据段、碱基判读结果、碱基质量值、仪器状态、相关业务人员ID及可扩展。
所述PCR扩增CT值监测算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、滤光轮数目、染色剂信息、输出信号向量、CT值、基线起始循环数、基线终止循环数、均值和标准差、样品名、仪器状态、相关业务人员ID及可扩展。
所述STR片段分析算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息ladder内标通道信号值、内标片段大小、ladder内标峰信息、拟合出的各个内标峰系数、ladder内标信号帧转BP结果、质量值SQ、ladder其他通道信号值、峰信息、ladder其他通道各基因座的质量GQ、更新后的基因座范围、ladder其他通道质量评价指标(OS,MPH,LPH,BD)、样本内标通道信号值、内标片段大小、样本内标峰信息、拟合出的各个内标峰系数、样本内标信号帧转BP结果、质量值SQ、样本其他通道信号值、峰信息、样本其他通道各基因座的质量GQ、样本其他通道质量评价指标(OS,BIN,PHR,MPH,LPH,AN,BD,OVL)、仪器状态、相关业务人员ID及可扩展。
进一步的,所述后端数据处理模块4包括二次开发单元41和编码建模单元42,所述二次开发单元41与所述数据存储模块2和所述前端展示模块3连接,所述编码建模单元42与所述二次开发单元41连接;
所述二次开发单元41,用于对所述结构化数据信息进行关联分析、聚类分析、分类分析和异常分析;
所述编码建模单元42,用于利用向导式或专家模式对所述二次开发单元41进行更新。
在本实施方式中,所述二次开发单元41中包含模型基本的关联分析、聚类分析、分类分析和异常分析等任务模型,可以根据具体的业务需求对此类人工智能模型进行开发和应用;还可以利用所述编码建模单元42中的向导式和专家模式两种模式对所述二次开发单元41进行更新,其中,向导式面向基础级的分析人员,专家模式面向专业分析人员,利用notebook组件,相关人员在专家模式中可以自行编码建模。所述编码建模单元42还提供各种业务模型的扩展,可以根据不同的需求,增加相应的模型。
相关二次开发的模型训练主要包括:PCR扩增CT值监测中,可根据给定的标准品的浓度以及通过计算得到的CT值的多组数据,用人工智能的方法如(支持向量机、神经网络等回归拟合方法)对上述数据进行训练,找出CT值和核酸浓度的对应的映射关系,用此映射关系来预测新给定的CT值对应的核算浓度。
流程:
1)、以CT值大小作为输入x,不同DNA浓度数据作为输出y,将输入输出归一化得到norm(x),norm(y)。
2)、将norm(x)作为支持向量机或神经网络的输入,norm(y)做作为输出,设定(对应的学习率、迭代次数和目标精度等对支持向量机或神经网络等预测模型)进行训练,得到对应的预测模型。
3)、将新的CT值作为输入,通过预测模型得到对应的预测输出y,得到预测的DNA的初始浓度。
STR片段分析中,最终得到的OL峰可输出对应的峰高、峰宽、峰面积、半峰宽、相邻峰高比率等峰特征参数,利用人为标记的是否是真实峰还是由于扩增或电泳引起的杂峰的对应标记用人工智能的方法(支持向量机、决策树等分类网络)对上述经过特征工程的数据进行训练得到一个用于分类OL峰的分类模型。
流程:
(1)通过专家经验人为区分OL峰是真实峰还是由于扩增或电泳引起的杂峰,若是真实峰则设置为1,若是杂峰则设置为0,得到多组有效的数据。
(2)OL的峰高、峰宽、峰面积、半峰宽、相邻峰高比率作为特征输入x,是否分类标签0,1作为输出,将输入特征向量归一化得到norm(x)将norm(x)作为支持向量机或神经网络的输入,设定(对应的学习率、迭代次数和目标精度等对支持向量机或神经网络等模型)进行训练,得到对应的分类模型
(3)将新的OL的峰高、峰宽、峰面积、半峰宽、相邻峰高比率作为特征输入到分类模型中,可得到对应的0,1分类的结果,得到是否是真实峰还是杂峰的判断。
基于PCR扩增二次开发的业务模型可用于传染病的检测中,利用云端管理系统高效、低延迟、安全性高等特点可以及时通过相关应用将疑似感染者的异常信息及时发送给相关的业务人员,有利于进一步控制感染源防止感染扩散。
基于STR片段分析的二次开发的业务模型可用于基因序列微变异的识别中,进而可以用于生物、医学中对于基因突变的分析应用中。
利用此系统的STR片段分析功能,可建立相关人员的基因库,保存每个人员基因序列特异性的部分,可应用于公安系统中生物信息身份验证与检索的相关应用中。
进一步的,所述前端展示模块3包括检索单元31,所述检索单元31与所述数据存储模块2连接;
所述检索单元31,用于按照地理位置、边缘计算设备及生物仪器对应的ID、时间等信息调取对应的所述结构化数据及所述基因原始数据。
在本实施方式中,所述检索单元31主要为信息检索,因为云端保存了从各种边缘计算模块1传输传输而来的结构化数据,如表1所示的DNA测序算法单元输出结构化数据字段表和表2所示的荧光数据荧光数据采集及处理算法单元输出结构化数据字段表;所以可以按照地理位置、边缘计算设备及生物仪器对应的ID、时间等信息调取相关结构化数据及原始数据(结构化数据是面向数据库的,数据存储于数据库中,信息检索实际是从数据库中检索)。
表1 DNA测序算法单元输出结构化数据字段表
Figure GDA0002924921530000081
表2荧光数据荧光数据采集及处理算法单元输出结构化数据字段表
Figure GDA0002924921530000082
Figure GDA0002924921530000091
可以在云端系统的所述前端展示模块3中输入表中的“地理位置_边缘计算设备ID_生物仪器ID_时间戳”包含这三种信息的字段,相应的,检索结果返回对应的滤光轮数目、染色剂信息、输出信号向量、CT值、基线起始循环数等表中所有定义的数据信息,以此类推其余表也是按照这个原理。
若输入的是对应的业务人员的ID,及返回业务员名下所管理的各种生物仪器ID,边缘计算设备ID,以及各种仪器的状态,为及时告警提供数据支撑。
若输入的是地理位置信息,则会返回对应地理位置下各种生物仪器ID,边缘计算设备ID,以及各种仪器的状态,便于对特定区域做各种仪器信息统计。
仪器状态正常时一般为on,异常时为off,若检索仪器状态为off时会返回对应的生物仪器ID,边缘计算设备ID、地理位置信息及相关业务人员ID。检索的字段可以根据实际的使用需求来设定
进一步的,所述前端展示模块3包括用户登录单元32和切片设置单元33,所述用户登录单元32与所述数据存储模块2连接,所述切片设置单元33与所述后端数据处理模块4连接;
所述用户登录单元32,用于根据用户的登录信息,获取对应的存储数据和原始数据;
所述切片设置单元33,用于据实际的业务需求对5G网络进行切片设置,划分为控制及告警指令切片、荧光数据切片、分析结果的结构化数据切片,以及对不同的切片网段设置不同的访问权限。
在本实施方式中,当对应用户通过所述用户登录单元32登录系统,在所述前端展示模块3中输入对应的检索信息,通过所述检索单元31,调取对应的存储数据和原始数据进行展示,并且用户可根据实际的业务需求,通过所述切片设置单元33对5G网络进行切片设置;如将网络划分为控制及告警指令切片、荧光数据切片、分析结果的结构化数据切片,不同的切片网段可设置不同的访问权限。用户将控制及告警指令切片设置专门的低延迟网络切片,使得告警响应的速度更快,有利于多个点的异常同时发生时平台也能及时通过5G无线传输网络进行及时告警。
进一步的,所述前端展示模块3还包括展示单元34,所述展示单元34与所述边缘计算模块1和所述后端数据处理模块4连接;
所述展示单元34,用于将所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示。
在本实施方式中,个性化展示包括将所述边缘计算模块1中的荧光数据采集及处理算法单元、DNA测序算法单元、PCR扩增CT值监测算法单元、STR片段分析算法单元输出的数据进行展示,包括:荧光数据采集及处理算法单元输出的各类分离的荧光数据的展示,以及按照需求对数据的截取、曲线段放大和缩小及对应窗口的平滑、设定噪声、基线去除效果的展示;DNA测序算法单元输出的峰图、碱基判读结果及碱基质量值的输出展示,以及按照需求对数据的截取、曲线段放大和缩小的展示;STR片段分析算法单元输出的各通道基因座及基因座对应位点、sample峰等信息的展示;PCR扩增CT值监测算法单元的对应的CT值所在曲线的展示,并且可根据需求对上述的结果生成对应的报表进行保存。
还可以将所述检索单元31中检索出来的数据、所述二次开发单元41中的处理结果以及异常信息进行展示,方便进行数据的监控。
进一步的,所述后端数据处理模块4包括权限管理单元43和审查单元44,所述权限管理单元43与所述前端展示模块3连接,所述审查单元44与所述数据存储模块2和所述前端展示模块3连接;
所述权限管理单元43,用于对用户的登录权限和数据获取权限进行管理;
所述审查单元44,用于对所述结构化数据信息中的异常值和缺失值进行检查,并发出异常告警信息。
在本实施方式中,为了增加对数据的管理和数据处理结果的保密性,利用所述权限管理单元43将用户的登录权限进行划分,保证只有对应的用户才能处理对应的数据,而从云端系统中获取的数据有不同,质量也有好有坏,数据的审查目的是检验我得到的数据是否满足业务模型的需要;因此利用所述审查单元44对缺失值、异常值的分析。
对于缺失值分析一般统计整个数据维度中缺失值的数量,指定缺失阈值,若缺失值超过缺失阈值则数据不满足要求,如果低于缺失阈值则对缺失数据进行插补、或者不处理(这两种方法可由用户自行设定,插补可采用邻近插补或均值插补,邻近插补用相邻的值来代替,均值插补可用所在数据维度的均值进行插补)。
对于异常值分析:检验数据是否有错以及不合理的,根据不同业务设定不同的数据异常条件,包括非法数值以及超出合理范围条件。首先统计异常阈值,若异常值数量超出了设定阈值则数据不满足要求,如果低于缺失阈值则对缺失数据进行插补、或者不处理。
进一步的,所述用于基因数据分析和处理的云端管理系统还包括数据传输模块5,所述数据传输模块5与所述边缘计算模块1和所述数据存储模块2连接;
所述数据传输模块5,用于将对应的结果数据、所述控制告警指令、所述荧光数据、分析结果的所述结构化数据信息进行传输。
在本实施方式中,所述数据传输模块5支持多种传输协议,包括5G无线传输,主要用于相关结果数据、告警信息和控制指令的传输。
进一步的,所述用于基因数据分析和处理的云端管理系统还包括异常处理模块6,所述异常处理模块6与所述数据传输模块5连接;
所述异常处理模块6,用于根据接收到的所述控制告警指令进行对应的处理。
在本实施方式中,所述异常处理模块6可以是手机app,也可以是对应的数据处理装置等,当所述异常处理模块6接收到所述数据传输模块5传输过来的控制告警指令后,相关业务人员手机app,用于向云端上传和接收数据,可通过5G手机和获得的权限(具有访问哪类切片网络的权限)接收由云端或边缘计算设备传输来的对应数据,然后进行对应的数据处理。
请参阅图2,本发明提供了一种用于基因数据分析和处理的云端管理方法,所述的一种用于基因数据分析和处理的云端管理系统适用于一种用于基因数据分析和处理的云端管理方法,包括以下步骤:
S101、获取并存储边缘计算模块1上传的结构化数据,并根据对应的检索信息调取对应的所述结构化数据和原始数据。
具体的,云端管理系统通过5G无线传输接收从切片设置单元33划分出的各切片网络由边缘计算模块1上传的各种信息并按需求存储。用户登入云端管理平台,按照地理位置、边缘计算设备及生物仪器对应的ID、时间等检索信息,调取所述数据存储模块2存储的相关结构化数据及原始数据。
S102、根据调取的所有的数据进行数据的二次开发训练,并进行个性化展示。
具体的,通过所述前端展示模块3,利用相关数据做不同功能的个性化展示;以及通过所述后端数据处理模块4,利用人工智能相关模型对基因数据做分析挖掘和二次开发。其中,相关二次开发的模型训练主要包括:PCR扩增CT值监测中,可根据给定的标准品的浓度以及通过计算得到的CT值的多组数据,用人工智能的方法如(支持向量机、神经网络等回归拟合方法)对上述数据进行训练,找出CT值和核酸浓度的对应的映射关系,用此映射关系来预测新给定的CT值对应的核算浓度。
流程:
1)、以CT值大小作为输入x,不同DNA浓度数据作为输出y,将输入输出归一化得到norm(x),norm(y)。
2)、将norm(x)作为支持向量机或神经网络的输入,norm(y)做作为输出,设定(对应的学习率、迭代次数和目标精度等对支持向量机或神经网络等预测模型)进行训练,得到对应的预测模型。
3)、将新的CT值作为输入,通过预测模型得到对应的预测输出y,得到预测的DNA的初始浓度。
STR片段分析中,最终得到的OL峰可输出对应的峰高、峰宽、峰面积、半峰宽、相邻峰高比率等峰特征参数,利用人为标记的是否是真实峰还是由于扩增或电泳引起的杂峰的对应标记用人工智能的方法(支持向量机、决策树等分类网络)对上述经过特征工程的数据进行训练得到一个用于分类OL峰的分类模型。
流程:
(1)通过专家经验人为区分OL峰是真实峰还是由于扩增或电泳引起的杂峰,若是真实峰则设置为1,若是杂峰则设置为0,得到多组有效的数据。
(2)OL的峰高、峰宽、峰面积、半峰宽、相邻峰高比率作为特征输入x,是否分类标签0,1作为输出,将输入特征向量归一化得到norm(x)将norm(x)作为支持向量机或神经网络的输入,设定(对应的学习率、迭代次数和目标精度等对支持向量机或神经网络等模型)进行训练,得到对应的分类模型
(3)将新的OL的峰高、峰宽、峰面积、半峰宽、相邻峰高比率作为特征输入到分类模型中,可得到对应的0,1分类的结果,得到是否是真实峰还是杂峰的判断。
基于PCR扩增二次开发的业务模型可用于传染病的检测中,利用云端管理系统高效、低延迟、安全性高等特点可以及时通过相关应用将疑似感染者的异常信息及时发送给相关的业务人员,有利于进一步控制感染源防止感染扩散。
基于STR片段分析的二次开发的业务模型可用于基因序列微变异的识别中,进而可以用于生物、医学中对于基因突变的分析应用中。
利用此系统的STR片段分析功能,可建立相关人员的基因库,保存每个人员基因序列特异性的部分,可应用于公安系统中生物信息身份验证与检索的相关应用中。
S103、获取对应的异常审查信息,并通过无线传输网络传输至对应的终端进行异常数据处理。
具体的,利用所述异常处理模块6接收由所述边缘计算模块1和所述审查单元44传送的异常信息,相关应用输出的样本异常信息,并将异常信息发送至相关业务人员手机app,相关业务人员接收云端系统发送的异常,并对异常做相关的举措,完成后回应办结处理,提高实际生产的应用效果。
本发明与现有技术相比,具有以下优点和效果:结构清晰、设计合理,实现了通过5G无线传输接收从边缘计算单元传输来的不同切片网络的基因的结构化数据并存储,利用结构化数据中涉及的荧光数据采集和处理结果、DNA测序结果、STR片段分析结果以及CT值结果根据需求进行个性化展示和功能的二次开发,将不同业务分析得到异常结果及时向相关人员做出警示。不仅简化了基因数据分析和处理的流程,降低了相应的技术门槛,还提高了基因数据分析处理的效率和安全性,更加深入挖掘基因数据中的价值,为各种业务应用提供技术支撑,提高实际生产的应用效果。
本发明的一种用于基因数据分析和处理的云端管理系统及方法,包括边缘计算模块1、数据存储模块2、前端展示模块3、后端数据处理模块4、数据传输模块5和异常处理模块6,首先,通过5G无线传输的方式接收从边缘计算模块1传送来的结构化数据并在所述数据存储模块2存储;按照地理位置、边缘设备对应的ID、生物仪器对应的ID、时间等信息调取上传至所述数据存储模块2存储的基因结构化数据以及边缘计算设备内存储的基因的荧光信号的原始数据,并利用这些数据做不同功能的个性化展示以及利用人工智能相关模型对基因数据做分析挖掘;找出对业务需求有较高价值的信息做相应功能的二次开发。此外,对于由边缘计算模块1传输的异常信息及系统中的相关应用对结构化数据分析得出疑似异常样本时,及时向所述异常处理模块6发出告警,并提醒其对相应的异常信息做出对应举措,提高实际生产的应用效果。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种用于基因数据分析和处理的云端管理系统,其特征在于,
所述用于基因数据分析和处理的云端管理系统包括边缘计算模块、数据存储模块、前端展示模块和后端数据处理模块,所述数据存储模块与所述边缘计算模块连接,所述前端展示模块和所述后端数据处理模块均与所述数据存储模块连接;
所述边缘计算模块,用于采集并存储由仪器传输的荧光信号数据,并根据不同功能需求,对所述荧光信号数据进行采集和处理、DNA测序、STR片段分析以及CT值监控,以及根据云端发出的指令,在对应的5G切片网络内分别生成控制告警指令、荧光数据、分析结果的结构化数据信息;
所述数据存储模块,用于对所述边缘计算模块上传至云端的所述结构化数据信息、基因原始数据及系统运行过程中生成的临时和结果数据进行存储;
所述前端展示模块,用于用户登入信息、5G网络切片需求设置、所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示;
所述后端数据处理模块,用于用户权限管理、审查、所述结构化数据信息的二次开发训练和编码;
其中,所述后端数据处理模块包括二次开发单元和编码建模单元,所述二次开发单元与所述数据存储模块和所述前端展示模块连接,所述编码建模单元与所述二次开发单元连接;
所述二次开发单元,用于对所述结构化数据信息进行关联分析、聚类分析、分类分析和异常分析;
所述编码建模单元,用于利用向导式或专家模式对所述二次开发单元进行更新;
其中,结构化数据的字段定义表包括:荧光数据荧光数据采集及处理算法单元输出结构化数据字段表、DNA测序算法单元输出结构化数据字段表、PCR扩增CT值监测算法单元输出结构化数据字段表及STR片段分析算法单元输出结构化数据字段表;
所述数据荧光数据采集及处理算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息、bining相关信息、光谱校正矩阵条件数C、解谱信号质量值q、光谱校正矩阵、解谱后的信号值、仪器状态、相关业务人员ID及可扩展;
所述DNA测序算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息、峰信号值向量、对应帧数据段、碱基判读结果、碱基质量值、仪器状态、相关业务人员ID及可扩展;
所述PCR扩增CT值监测算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、滤光轮数目、染色剂信息、输出信号向量、CT值、基线起始循环数、基线终止循环数、均值和标准差、样品名、仪器状态、相关业务人员ID及可扩展;
所述STR片段分析算法单元输出结构化数据字段表其字段包括:边缘计算设备ID_生物仪器ID_时间戳、荧光信号数目、染色剂信息ladder内标通道信号值、内标片段大小、ladder内标峰信息、拟合出的各个内标峰系数、ladder内标信号帧转BP结果、质量值SQ、ladder其他通道信号值、峰信息、ladder其他通道各基因座的质量GQ、更新后的基因座范围、ladder其他通道质量评价指标、样本内标通道信号值、内标片段大小、样本内标峰信息、拟合出的各个内标峰系数、样本内标信号帧转BP结果、质量值SQ、样本其他通道信号值、峰信息、样本其他通道各基因座的质量GQ、样本其他通道质量评价指标、仪器状态、相关业务人员ID及可扩展;其中,所述ladder其他通道质量评价指标包括OS、MPH、LPH、BD;所述样本其他通道质量评价指标包括OS、BIN、PHR、MPH、LPH、AN、BD、OVL。
2.如权利要求1所述的用于基因数据分析和处理的云端管理系统,其特征在于,
所述前端展示模块包括用户登录单元和切片设置单元,所述用户登录单元与所述数据存储模块连接,所述切片设置单元与所述后端数据处理模块连接;
所述用户登录单元,用于根据用户的登录信息,获取对应的存储数据和原始数据;
所述切片设置单元,用于据实际的业务需求对5G网络进行切片设置,划分为控制及告警指令切片、荧光数据切片、分析结果的结构化数据切片,以及对不同的切片网段设置不同的访问权限。
3.如权利要求2所述的用于基因数据分析和处理的云端管理系统,其特征在于,
所述前端展示模块还包括展示单元,所述展示单元与所述边缘计算模块和所述后端数据处理模块连接;
所述展示单元,用于将所述结构化数据信息的检索结果、异常告警结果、数据挖掘分析结果以及报表生成结果的展示。
4.如权利要求1所述的用于基因数据分析和处理的云端管理系统,其特征在于,
所述后端数据处理模块包括权限管理单元和审查单元,所述权限管理单元与所述前端展示模块连接,所述审查单元与所述数据存储模块和所述前端展示模块连接;
所述权限管理单元,用于对用户的登录权限和数据获取权限进行管理;
所述审查单元,用于对所述结构化数据信息中的异常值和缺失值进行检查,并发出异常告警信息。
5.如权利要求1所述的用于基因数据分析和处理的云端管理系统,其特征在于,
所述用于基因数据分析和处理的云端管理系统还包括数据传输模块,所述数据传输模块与所述边缘计算模块和所述数据存储模块连接;
所述数据传输模块,用于将对应的结果数据、所述控制告警指令、所述荧光数据、分析结果的所述结构化数据信息进行传输。
6.如权利要求5所述的用于基因数据分析和处理的云端管理系统,其特征在于,
所述用于基因数据分析和处理的云端管理系统还包括异常处理模块,所述异常处理模块与所述数据传输模块连接;
所述异常处理模块,用于根据接收到的所述控制告警指令进行对应的处理。
7.一种用于基因数据分析和处理的云端管理方法,如权利要求1至权利要求6任一项所述的一种用于基因数据分析和处理的云端管理系统适用于一种用于基因数据分析和处理的云端管理方法,其特征在于,包括以下步骤:
获取并存储边缘计算模块上传的结构化数据,并根据对应的检索信息调取对应的所述结构化数据和原始数据;
根据调取的所有的数据进行数据的二次开发训练,并进行个性化展示;
获取对应的异常审查信息,并通过无线传输网络传输至对应的终端进行异常数据处理。
CN202011374662.7A 2020-12-01 2020-12-01 一种用于基因数据分析和处理的云端管理系统及方法 Active CN112185468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011374662.7A CN112185468B (zh) 2020-12-01 2020-12-01 一种用于基因数据分析和处理的云端管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011374662.7A CN112185468B (zh) 2020-12-01 2020-12-01 一种用于基因数据分析和处理的云端管理系统及方法

Publications (2)

Publication Number Publication Date
CN112185468A CN112185468A (zh) 2021-01-05
CN112185468B true CN112185468B (zh) 2021-05-25

Family

ID=73918279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011374662.7A Active CN112185468B (zh) 2020-12-01 2020-12-01 一种用于基因数据分析和处理的云端管理系统及方法

Country Status (1)

Country Link
CN (1) CN112185468B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113079530B (zh) * 2021-03-31 2022-05-27 广东电网有限责任公司电力调度控制中心 一种基于5g切片的云边协同运维支撑系统
CN113112086B (zh) * 2021-04-22 2022-05-13 北京邮电大学 一种基于边缘计算和标识解析的智能生产系统
CN116705163B (zh) * 2023-05-31 2024-01-26 扬州市疾病预防控制中心 一种实时荧光pcr数据管理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10799186B2 (en) * 2016-02-12 2020-10-13 Newton Howard Detection of disease conditions and comorbidities
CN106020927B (zh) * 2016-05-05 2018-03-16 中国人民解放军国防科学技术大学 一种云计算系统中任务调度与资源配置的通用方法
CN110021358A (zh) * 2017-12-05 2019-07-16 天津商业大学 一种基于大数据的生物信息分析平台系统
CN109887545A (zh) * 2019-01-25 2019-06-14 江苏华生基因数据科技股份有限公司 一种基于云架构的基因数据服务系统及方法
CN110336703A (zh) * 2019-07-12 2019-10-15 河海大学常州校区 基于边缘计算的工业大数据监测系统
CN111415704B (zh) * 2020-05-18 2021-05-18 北京博安智联科技有限公司 一种str基因数据分析的方法

Also Published As

Publication number Publication date
CN112185468A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112185468B (zh) 一种用于基因数据分析和处理的云端管理系统及方法
CN109634941B (zh) 医疗数据处理方法、装置、电子设备及存储介质
CN111402017A (zh) 一种基于大数据的信用评分方法和系统
CN113592019B (zh) 基于多模型融合的故障检测方法、装置、设备及介质
US11655498B2 (en) Systems and methods for genetic identification and analysis
CN112216402A (zh) 基于人工智能的疫情预测方法、装置、计算机设备及介质
European Centre for Disease Control (ECDC) et al. EFSA and ECDC technical report on the collection and analysis of whole genome sequencing data from food‐borne pathogens and other relevant microorganisms isolated from human, animal, food, feed and food/feed environmental samples in the joint ECDC‐EFSA molecular typing database
CN111710364A (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
CN115168669A (zh) 传染病筛查方法、装置、终端设备及介质
CN109088793B (zh) 用于检测网络故障的方法和装置
CN103136440B (zh) 数据处理方法和装置
CN114038570A (zh) 脓毒症相关急性肾损伤患者死亡预测方法、系统、设备及介质
CN117271903A (zh) 基于医院临床大数据的事件搜索方法及装置
US20120078912A1 (en) Method and system for event correlation
CN115049023B (zh) 人防设施状态监控方法、装置、设备及存储介质
CN116485019A (zh) 一种数据处理方法及装置
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN110504006A (zh) 一种处理扩增子数据的方法、系统、平台及存储介质
CN117035434B (zh) 可疑交易监测方法及装置
CN117275644B (zh) 基于深度学习的检测结果互认方法、系统及存储介质
Wojciechowski et al. The correctness of large scale analysis of genomic data
Li et al. simCAS: an embedding-based method for simulating single-cell chromatin accessibility sequencing data
US20220270712A1 (en) Systems and methods for automated analyses of a biological sample
CN111079420B (zh) 文本识别方法、装置、计算机可读介质及电子设备
US20230162044A1 (en) Systems and methods for automated analyses of a target genetic profile across genetic profiles in a biological sample

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant