CN115472298A - 基于ai的高通量测序数据智能分析系统及方法 - Google Patents

基于ai的高通量测序数据智能分析系统及方法 Download PDF

Info

Publication number
CN115472298A
CN115472298A CN202211330827.XA CN202211330827A CN115472298A CN 115472298 A CN115472298 A CN 115472298A CN 202211330827 A CN202211330827 A CN 202211330827A CN 115472298 A CN115472298 A CN 115472298A
Authority
CN
China
Prior art keywords
sequencing data
analysis
throughput sequencing
data
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211330827.XA
Other languages
English (en)
Other versions
CN115472298B (zh
Inventor
乔延春
刘和平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Fangcunhui Medical Biotechnology Co ltd
Original Assignee
Fang Cunhui Medical Jiangsu Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fang Cunhui Medical Jiangsu Biotechnology Co ltd filed Critical Fang Cunhui Medical Jiangsu Biotechnology Co ltd
Priority to CN202211330827.XA priority Critical patent/CN115472298B/zh
Publication of CN115472298A publication Critical patent/CN115472298A/zh
Application granted granted Critical
Publication of CN115472298B publication Critical patent/CN115472298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于AI的高通量测序数据智能分析系统及方法,属于高通量测序数据智能分析技术领域。该系统包括高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块;所述高通量测序数据采集模块、所述平台构建模块与所述流程管理模块顺次连接;所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接;所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。本发明能够利用AI智能处理掉海量数据的分析工作,建立基于可视化、流程化的国产AI数据分析协作平台,实现NCS级别研究成果的数据可视化展现,提高研究员工作效率。

Description

基于AI的高通量测序数据智能分析系统及方法
技术领域
本发明涉及高通量测序数据智能分析技术领域,具体为基于AI的高通量测序数据智能分析系统及方法。
背景技术
健康中国是生命健康领域重大工作的重要内容,是新时代医疗工作服务人民健康的重要组成部分,是医疗信息化水平、充分运用现代智能信息技术提升信息化医疗支撑业务能力、数据管理水平和数据资源分析利用的系统性重大战略安排。AI作为研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。是计算机科学的一个分支,它能够生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
高通量测序数据是指以高通量测序技术进行大规模平行测序得出的数据,是将DNA(或者cDNA)随机片段化、加接头,制备测序文库,通过对文库中数以万计的克隆(Colony)进行延伸反应,检测对应的信号,最终获取序列信息,在目前尚没有技术手段将AI用于高通量测序数据的智能分析。
发明内容
本发明的目的在于提供基于AI的高通量测序数据智能分析系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:基于AI的高通量测序数据智能分析方法,该方法包括以下步骤:
S1、获取高通量测序数据,所述高通量测序数据包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;
S2、构建AI数据分析协作平台,所述平台包括项目管理、定制流程分析、可视化展现;
S3、将高通量测序数据输入至AI数据分析协作平台中,获取操作人员个性化特征,定制流程分析,构建可视化智能分析模型;
S4、根据可视化智能分析模型,输出本次高通量测序数据的可视化结果至管理员端口。
根据上述技术方案,所述AI数据分析协作平台包括项目管理、定制流程分析、可视化展现;
所述项目管理包括记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析包括根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
根据上述技术方案,所述定制流程分析包括:
获取用户登录数据,选取该账号下进行高通量测序数据分析的历史流程,将历史流程分类为正常流程与精简流程;所述精简流程指用户仅输出可视化结果,未进行无关操作的流程;所述无关操作指构建新项目、存储、通讯录分享;
构建流程分析模型,以输入的高通量测序数据量、相邻两次高通量测序
数据输入的间隔时间为自变量、以使用精简流程为因变量,拟合成为线性模型:
Figure DEST_PATH_IMAGE001
其中,
Figure 959668DEST_PATH_IMAGE002
为本次使用精简流程的概率;
Figure 262473DEST_PATH_IMAGE003
代表回归系数;
Figure 744270DEST_PATH_IMAGE004
为本次输入的高 通量测序数据量;
Figure 157934DEST_PATH_IMAGE005
为本次与上一次高通量测序数据输入的间隔时间;
Figure 41576DEST_PATH_IMAGE006
代表误差项,利用 MATLAB软件仿真,计算得出
Figure 718545DEST_PATH_IMAGE003
设置概率阈值,在P超出概率阈值时,定义本次使用精简流程。
在系统中,正常的用户流程是包括每次输入测序数据后需要选择是否建立项目、建立项目文件存储夹、数据智能分析及可视化成果展示、团队通讯录分享等流程,然而整个测序数据分析过程较为复杂与多样,许多时候一次的分析只是建立在一个大项目下的一个小型分析或者校准验证过程,其并不需要重新建立项目或者分享存储,由于本系统是全智能化处理,数据越多越容易导致系统冗杂,影响反应速度,因此构建流程分析,在输入的数据量较小或者相邻数据输入时间间隔较短时,均认为其属于同一项目下的子项目,使用精简流程,以此提高研究员效率和降低系统负担。
根据上述技术方案,所述构建可视化智能分析模型包括:
S3-1、获取所有的可视化分析结果展示图,记录在数据库内,分别计算
任一可视化分析结果展示图在可视化智能分析模型下被选择的概率;
S3-2、获取用户登录数据,根据用户登录数据获取该账号下的历史操作数据,在历史操作数据下获取任一可视化分析结果展示图M的被选择数据;所述被选择数据中包括本次选择可视化分析结果展示图M的所有高通量测序数据特征;
S3-3、将步骤S3-2中获取的被选择数据进行组合编码,记为[A1、A2、A3、……、An],每一编码对应一个高通量测序数据特征,其中A1、A2、A3、……、An分别代表高通量测序数据特征中的一种,记为元素;所述高通量测序数据特征包括OUT数目数量、样本测序数量、高通量测序数据类别、测序数据分析目标;
OTU是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97%的相似性阈值将序列划分为不同的OTU,每一个OTU通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。不同的OUT数目数量和样本测序数量代表着物种丰富的多样性,数量越多代表越丰富,其所应用的图表越需要能够支持复杂的显示功能,例如在测序数量不超过五个时,一般采用韦恩图进行输出,而在5-20之间时,Rank-Abundance曲线能很好展现物种的丰富程度与均匀程度;高通量测序数据类别代表着不同的测序数据下的历史使用中的选择方式,例如在单细胞转录组测序中,一般以pesudotime进行单细胞转录组分析展示、以velocyto进行单细胞轨迹分析展示;而在全基因组关联研究中,又一般使用QQplot进行分析展示;测序数据分析目标用于定义个性化的操作,例如在分析组间显著差异时,可选择的图表包括许多,例如PCA和LDA,二者之间的差别在于,PCA它所作的更多是映射到最方便表示这组数据的坐标轴上,对于任何数据内部的分类信息,是无监督的,而LDA增加了种属之间的信息关系后,可以根据效应值进行功能特性排序,能够展示大部分生物学差异,这就根据用户的日常个性化使用进行分析目标的确认和选择。
S3-4、随机初始化一个种群,所述种群中包含有R组被选择数据,R样本测序数量表示系统预设常数,对R组被选择数据中选择可视化分析结果展示图M的数据进行标记,设置初始迭代次数G=1,对标记的数据中编码中元素进行随机组合,根据编码中元素A1、A2、A3、……、An及元素A1、A2、A3、……、An的随机组合分别计算每个元素或元素组合对选择可视化分析结果展示图M的影响程度,构建偏差值计算模型:
Figure 687638DEST_PATH_IMAGE007
其中,
Figure 639414DEST_PATH_IMAGE008
代表编码
Figure 908721DEST_PATH_IMAGE009
对应的选择可视化分析结果展示图M的偏差值;
Figure 553329DEST_PATH_IMAGE010
代表编码
Figure 9718DEST_PATH_IMAGE009
中所有元素组合方式中的任一种, 其中单独一种元素也称为元素组合,n代表编码
Figure 765184DEST_PATH_IMAGE009
中所 有元素组合方式的集合;
Figure 561102DEST_PATH_IMAGE011
代表种群中选择可视化分析结果展示图M时且存在组合方式为
Figure 379541DEST_PATH_IMAGE010
的编码数量;
Figure 323226DEST_PATH_IMAGE012
代表种群中存在组合方式为
Figure 882384DEST_PATH_IMAGE010
的编码数量;
S3-5、构建迭代停止因子,计算种群中所有编码的偏差值的期望值与标准差;若不 满足正态分布,则设置迭代次数G=G+1,挖掘子元素生成新的种群,再次计算新的种群的偏 差值;所述生成新的种群包括:利用随机选择,每次选择两个编码,偏差值高的留下,不断循 环直至选择出的种群数量达到
Figure 860704DEST_PATH_IMAGE013
,其中
Figure 581535DEST_PATH_IMAGE014
Figure 12517DEST_PATH_IMAGE013
为系统预设的常数,对新的种群中出 现率最低的元素进行删除,对剩余元素进行挖掘子元素,所述元素与子元素之间存在包含 关系;
若满足正态分布,停止迭代,输出当前高通量测序数据特征下选择可视化分析结果展示图M的最优概率计算模型;
S3-6、在数据库内依次选取可视化分析结果展示图,对应输入当前高通量测序数据特征,分别计算得出当前高通量测序数据特征下选择每个可视化分析结果展示图的最优概率值;对最优概率值进行从大到小排序,获取管理员输入的图表需要数量,按照顺序智能选择图表,自动输出本次高通量测序数据的可视化结果至管理员端口。
基于AI的高通量测序数据智能分析系统,该系统包括:高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块;
所述高通量测序数据采集模块用于获取高通量测序数据,并对高通量测序数据进行分类;所述平台构建模块用于构建AI数据分析协作平台,所述平台能够实现项目管理、定制流程分析、可视化展现的功能;所述流程管理模块用于在将高通量测序数据输入至AI数据分析协作平台中,获取操作人员个性化特征,定制流程分析,生成处理流程;所述个性化数据分析模块用于构建可视化智能分析模型,智能选择可视化输出图表;所述可视化输出模块用于根据可视化智能分析模型,输出本次高通量测序数据的可视化结果至管理员端口;
所述高通量测序数据采集模块的输出端与所述平台构建模块的输入端相连接;所述平台构建模块的输出端与所述流程管理模块的输入端相连接;所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接;所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。
根据上述技术方案,所述高通量测序数据采集模块包括高通量测序数据采集单元、分类单元;
所述高通量测序数据采集单元用于获取高通量测序数据;所述分类单元用于对获取的高通量测序数据进行分类,所述分类包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;
所述高通量测序数据采集单元的输出端与所述分类单元的输入端相连接。
根据上述技术方案,所述平台构建模块包括项目管理单元、定制流程分析单元、可视化展现单元;
所述项目管理单元用于记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析单元用于根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现单元用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
根据上述技术方案,所述流程管理模块包括流程分类单元、流程管理单元;
所述流程分类单元用于获取操作人员在将高通量测序数据输入至AI数据分析协作平台后,进行的历史流程操作,构建流程分析模型;所述流程管理单元用于根据流程分析模型,判断是否使用精简模型;
所述流程分类单元的输出端与所述流程管理单元的输入端相连接。
根据上述技术方案,所述个性化数据分析模块包括模型构建单元、选择单元;
所述模型构建单元用于构建可视化智能分析模型;所述选择单元用于根据可视化智能分析模型智能选择可视化输出图表;
所述模型构建单元的输出端与所述选择单元的输入端相连接。
根据上述技术方案,所述可视化输出模块包括智能显示单元、输出单元;
所述智能显示单元用于获取述个性化数据分析模块输出的可视化显示图表;所述输出单元用于根据可视化显示图表,输出本次高通量测序数据的可视化结果至管理员端口。
与现有技术相比,本发明所达到的有益效果是:
本发明能够利用AI智能处理掉目前科研人员难以胜任的海量生物医学数据的分析工作,建立基于可视化、流程化的国产AI数据分析协作平台,随心所欲地定制化多次分析,实现智能图表的绘制、选择,实现NCS级别研究成果的数据可视化展现,帮助项目进行智能化的监控管理,大大提高研究员工作效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于AI的高通量测序数据智能分析系统及方法的流程示意图;
图2是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图一;
图3是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图二;
图4是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,在本实施例一中:
构建了一软件,其能够实现基于AI的高通量测序数据的智能分析,具体包括:获取高通量测序数据,并对高通量测序数据进行分类,包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;构建AI数据分析协作平台,所述平台包括项目管理、定制流程分析、可视化展现;
所述项目管理包括记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析包括根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
获取操作人员个性化特征,定制流程分析:
获取用户登录数据,选取该账号下进行高通量测序数据分析的历史流程,将历史流程分类为正常流程与精简流程;所述精简流程指用户仅输出可视化结果,未进行无关操作的流程;所述无关操作指构建新项目、存储、通讯录分享;
构建流程分析模型,以输入的高通量测序数据量、相邻两次高通量测序
数据输入的间隔时间为自变量、以使用精简流程为因变量,拟合成为线性模型:
Figure 109786DEST_PATH_IMAGE015
其中,
Figure 145875DEST_PATH_IMAGE002
为本次使用精简流程的概率;
Figure 37607DEST_PATH_IMAGE003
代表回归系数;
Figure 955885DEST_PATH_IMAGE004
为本次输入的高 通量测序数据量;
Figure 856845DEST_PATH_IMAGE005
为本次与上一次高通量测序数据输入的间隔时间;
Figure 544178DEST_PATH_IMAGE006
代表误差项,利用 MATLAB软件仿真,计算得出
Figure 872391DEST_PATH_IMAGE003
设置概率阈值,在P超出概率阈值时,定义本次使用精简流程。
构建可视化智能分析模型:
S3-1、获取所有的可视化分析结果展示图,记录在数据库内,分别计算
任一可视化分析结果展示图在可视化智能分析模型下被选择的概率;
S3-2、获取用户登录数据,根据用户登录数据获取该账号下的历史操作数据,在历史操作数据下获取任一可视化分析结果展示图M的被选择数据;所述被选择数据中包括本次选择可视化分析结果展示图M的所有高通量测序数据特征;
S3-3、将步骤S3-2中获取的被选择数据进行组合编码,记为[A1、A2、A3、……、An],每一编码对应一个高通量测序数据特征,其中A1、A2、A3、……、An分别代表高通量测序数据特征中的一种,记为元素;所述高通量测序数据特征包括OUT数目数量、样本测序数量、高通量测序数据类别、测序数据分析目标;
S3-4、随机初始化一个种群,所述种群中包含有R组被选择数据,R样本测序数量表示系统预设常数,对R组被选择数据中选择可视化分析结果展示图M的数据进行标记,设置初始迭代次数G=1,对标记的数据中编码中元素进行随机组合,根据编码中元素A1、A2、A3、……、An及元素A1、A2、A3、……、An的随机组合分别计算每个元素或元素组合对选择可视化分析结果展示图M的影响程度,构建偏差值计算模型:
Figure 12385DEST_PATH_IMAGE007
其中,
Figure 717036DEST_PATH_IMAGE008
代表编码
Figure 462138DEST_PATH_IMAGE009
对应的选择可视化分析结果展示图M的偏差值;
Figure 961253DEST_PATH_IMAGE010
代表编码
Figure 588543DEST_PATH_IMAGE009
中所有元素组合方式中的任一种,其中单独一种元素也称为元素组合,n代表编码
Figure 834235DEST_PATH_IMAGE009
中所有 元素组合方式的集合;
Figure 230582DEST_PATH_IMAGE011
代表种群中选择可视化分析结果展示图M时且存在组合方式为
Figure 166177DEST_PATH_IMAGE010
的编码数量;
Figure 280763DEST_PATH_IMAGE012
代表种群中存在组合方式为
Figure 61637DEST_PATH_IMAGE010
的编码数量;
S3-5、构建迭代停止因子,计算种群中所有编码的偏差值的期望值与标准差;若不 满足正态分布,则设置迭代次数G=G+1,挖掘子元素生成新的种群,再次计算新的种群的偏 差值;所述生成新的种群包括:利用随机选择,每次选择两个编码,偏差值高的留下,不断循 环直至选择出的种群数量达到
Figure 578069DEST_PATH_IMAGE013
,其中
Figure 622249DEST_PATH_IMAGE014
Figure 224131DEST_PATH_IMAGE013
为系统预设的常数,对新的种群中出 现率最低的元素进行删除,对剩余元素进行挖掘子元素,所述元素与子元素之间存在包含 关系;
例如样本测序数量初始为0-20个样本区间,假设存在的样本数据分别为2、2、3、5、19;那么子元素数据就可为0-5的样本区间,删除掉19的出现率最低元素;
若满足正态分布,停止迭代,输出当前高通量测序数据特征下选择可视化分析结果展示图M的最优概率计算模型;
S3-6、在数据库内依次选取可视化分析结果展示图,对应输入当前高通量测序数据特征,分别计算得出当前高通量测序数据特征下选择每个可视化分析结果展示图的最优概率值;对最优概率值进行从大到小排序,获取管理员输入的图表需要数量,按照顺序智能选择图表,自动输出本次高通量测序数据的可视化结果至管理员端口。
在本实施例二中,提供一种基于AI的高通量测序数据智能分析系统,该系统包括:高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块;
所述高通量测序数据采集模块用于获取高通量测序数据,并对高通量测序数据进行分类;所述平台构建模块用于构建AI数据分析协作平台,所述平台能够实现项目管理、定制流程分析、可视化展现的功能;所述流程管理模块用于在将高通量测序数据输入至AI数据分析协作平台中,获取操作人员个性化特征,定制流程分析,生成处理流程;所述个性化数据分析模块用于构建可视化智能分析模型,智能选择可视化输出图表;所述可视化输出模块用于根据可视化智能分析模型,输出本次高通量测序数据的可视化结果至管理员端口;
所述高通量测序数据采集模块的输出端与所述平台构建模块的输入端相连接;所述平台构建模块的输出端与所述流程管理模块的输入端相连接;所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接;所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。
所述高通量测序数据采集模块包括高通量测序数据采集单元、分类单元;
所述高通量测序数据采集单元用于获取高通量测序数据;所述分类单元用于对获取的高通量测序数据进行分类,所述分类包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;
所述高通量测序数据采集单元的输出端与所述分类单元的输入端相连接。
所述平台构建模块包括项目管理单元、定制流程分析单元、可视化展现单元;
所述项目管理单元用于记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析单元用于根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现单元用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
所述流程管理模块包括流程分类单元、流程管理单元;
所述流程分类单元用于获取操作人员在将高通量测序数据输入至AI数据分析协作平台后,进行的历史流程操作,构建流程分析模型;所述流程管理单元用于根据流程分析模型,判断是否使用精简模型;
所述流程分类单元的输出端与所述流程管理单元的输入端相连接。
所述个性化数据分析模块包括模型构建单元、选择单元;
所述模型构建单元用于构建可视化智能分析模型;所述选择单元用于根据可视化智能分析模型智能选择可视化输出图表;
所述模型构建单元的输出端与所述选择单元的输入端相连接。
所述可视化输出模块包括智能显示单元、输出单元;
所述智能显示单元用于获取述个性化数据分析模块输出的可视化显示图表;所述输出单元用于根据可视化显示图表,输出本次高通量测序数据的可视化结果至管理员端口。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于AI的高通量测序数据智能分析方法,其特征在于:该方法包括以下步骤:
S1、获取高通量测序数据,所述高通量测序数据包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;
S2、构建AI数据分析协作平台,所述平台包括项目管理、定制流程分析、可视化展现;
S3、将高通量测序数据输入至AI数据分析协作平台中,获取操作人员个性化特征,定制流程分析,构建可视化智能分析模型;
S4、根据可视化智能分析模型,输出本次高通量测序数据的可视化结果至管理员端口。
2.根据权利要求1所述的基于AI的高通量测序数据智能分析方法,其特征在于:所述AI数据分析协作平台包括项目管理、定制流程分析、可视化展现;
所述项目管理包括记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析包括根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
3.根据权利要求2所述的基于AI的高通量测序数据智能分析方法,其特征在于:所述定制流程分析包括:
获取用户登录数据,选取该账号下进行高通量测序数据分析的历史流程,将历史流程分类为正常流程与精简流程;所述精简流程指用户仅输出可视化结果,未进行无关操作的流程;所述无关操作指构建新项目、存储、通讯录分享;
构建流程分析模型,以输入的高通量测序数据量、相邻两次高通量测序数据输入的间隔时间为自变量、以使用精简流程为因变量,拟合成为线性模型:
Figure 710171DEST_PATH_IMAGE001
其中,
Figure 361732DEST_PATH_IMAGE002
为本次使用精简流程的概率;
Figure 672628DEST_PATH_IMAGE003
代表回归系数;
Figure 598995DEST_PATH_IMAGE004
为本次输入的高通量测 序数据量;
Figure 771675DEST_PATH_IMAGE005
为本次与上一次高通量测序数据输入的间隔时间;
Figure 922033DEST_PATH_IMAGE006
代表误差项,利用MATLAB 软件仿真,计算得出
Figure 720225DEST_PATH_IMAGE003
设置概率阈值,在P超出概率阈值时,定义本次使用精简流程。
4.根据权利要求3所述的基于AI的高通量测序数据智能分析方法,其特征在于:所述构建可视化智能分析模型包括:
S3-1、获取所有的可视化分析结果展示图,记录在数据库内,分别计算
任一可视化分析结果展示图在可视化智能分析模型下被选择的概率;
S3-2、获取用户登录数据,根据用户登录数据获取该账号下的历史操作数据,在历史操作数据下获取任一可视化分析结果展示图M的被选择数据;所述被选择数据中包括本次选择可视化分析结果展示图M的所有高通量测序数据特征;
S3-3、将步骤S3-2中获取的被选择数据进行组合编码,记为[A1、A2、A3、……、An],每一编码对应一个高通量测序数据特征,其中A1、A2、A3、……、An分别代表高通量测序数据特征中的一种,记为元素;所述高通量测序数据特征包括OUT数目数量、样本测序数量、高通量测序数据类别、测序数据分析目标;
S3-4、随机初始化一个种群,所述种群中包含有R组被选择数据,R样本测序数量表示系统预设常数,对R组被选择数据中选择可视化分析结果展示图M的数据进行标记,设置初始迭代次数G=1,对标记的数据中编码中元素进行随机组合,根据编码中元素A1、A2、A3、……、An及元素A1、A2、A3、……、An的随机组合分别计算每个元素或元素组合对选择可视化分析结果展示图M的影响程度,构建偏差值计算模型:
Figure 653546DEST_PATH_IMAGE007
其中,
Figure 853583DEST_PATH_IMAGE008
代表编码
Figure 378105DEST_PATH_IMAGE009
对应的选择可视化分析结果展示图M的偏差值;
Figure 663593DEST_PATH_IMAGE010
代表编码
Figure 197343DEST_PATH_IMAGE009
中所 有元素组合方式中的任一种,其中单独一种元素也称为元素组合,n代表编码
Figure 251886DEST_PATH_IMAGE009
中所有元素 组合方式的集合;
Figure 212889DEST_PATH_IMAGE011
代表种群中选择可视化分析结果展示图M时且存在组合方式为
Figure 188935DEST_PATH_IMAGE010
的编 码数量;
Figure 791955DEST_PATH_IMAGE012
代表种群中存在组合方式为
Figure 966584DEST_PATH_IMAGE010
的编码数量;
S3-5、构建迭代停止因子,计算种群中所有编码的偏差值的期望值与标准差;若不满足 正态分布,则设置迭代次数G=G+1,挖掘子元素生成新的种群,再次计算新的种群的偏差值; 所述生成新的种群包括:利用随机选择,每次选择两个编码,偏差值高的留下,不断循环直 至选择出的种群数量达到
Figure 567330DEST_PATH_IMAGE013
,其中
Figure 827410DEST_PATH_IMAGE014
Figure 702962DEST_PATH_IMAGE013
为系统预设的常数,对新的种群中出现率 最低的元素进行删除,对剩余元素进行挖掘子元素,所述元素与子元素之间存在包含关系;
若满足正态分布,停止迭代,输出当前高通量测序数据特征下选择可视化分析结果展示图M的最优概率计算模型;
S3-6、在数据库内依次选取可视化分析结果展示图,对应输入当前高通量测序数据特征,分别计算得出当前高通量测序数据特征下选择每个可视化分析结果展示图的最优概率值;对最优概率值进行从大到小排序,获取管理员输入的图表需要数量,按照顺序智能选择图表,自动输出本次高通量测序数据的可视化结果至管理员端口。
5.基于AI的高通量测序数据智能分析系统,其特征在于:该系统包括:高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块;
所述高通量测序数据采集模块用于获取高通量测序数据,并对高通量测序数据进行分类;所述平台构建模块用于构建AI数据分析协作平台,所述平台能够实现项目管理、定制流程分析、可视化展现的功能;所述流程管理模块用于在将高通量测序数据输入至AI数据分析协作平台中,获取操作人员个性化特征,定制流程分析,生成处理流程;所述个性化数据分析模块用于构建可视化智能分析模型,智能选择可视化输出图表;所述可视化输出模块用于根据可视化智能分析模型,输出本次高通量测序数据的可视化结果至管理员端口;
所述高通量测序数据采集模块的输出端与所述平台构建模块的输入端相连接;所述平台构建模块的输出端与所述流程管理模块的输入端相连接;所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接;所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。
6.根据权利要求5所述的基于AI的高通量测序数据智能分析系统,其特征在于:所述高通量测序数据采集模块包括高通量测序数据采集单元、分类单元;
所述高通量测序数据采集单元用于获取高通量测序数据;所述分类单元用于对获取的高通量测序数据进行分类,所述分类包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据;
所述高通量测序数据采集单元的输出端与所述分类单元的输入端相连接。
7.根据权利要求5所述的基于AI的高通量测序数据智能分析系统,其特征在于:所述平台构建模块包括项目管理单元、定制流程分析单元、可视化展现单元;
所述项目管理单元用于记录高通量测序数据、数据分析任务、数据分析工具以及参与人员;所述定制流程分析单元用于根据操作人员的个性化特征,确立不同的流程输出控制系统操作;所述可视化展现单元用于根据高通量测序数据分析结果,智能选择图表,输出可视化结果。
8.根据权利要求5所述的基于AI的高通量测序数据智能分析系统,其特征在于:所述流程管理模块包括流程分类单元、流程管理单元;
所述流程分类单元用于获取操作人员在将高通量测序数据输入至AI数据分析协作平台后,进行的历史流程操作,构建流程分析模型;所述流程管理单元用于根据流程分析模型,判断是否使用精简模型;
所述流程分类单元的输出端与所述流程管理单元的输入端相连接。
9.根据权利要求5所述的基于AI的高通量测序数据智能分析系统,其特征在于:所述个性化数据分析模块包括模型构建单元、选择单元;
所述模型构建单元用于构建可视化智能分析模型;所述选择单元用于根据可视化智能分析模型智能选择可视化输出图表;
所述模型构建单元的输出端与所述选择单元的输入端相连接。
10.根据权利要求5所述的基于AI的高通量测序数据智能分析系统,其特征在于:所述可视化输出模块包括智能显示单元、输出单元;
所述智能显示单元用于获取述个性化数据分析模块输出的可视化显示图表;所述输出单元用于根据可视化显示图表,输出本次高通量测序数据的可视化结果至管理员端口。
CN202211330827.XA 2022-10-28 2022-10-28 基于ai的高通量测序数据智能分析系统及方法 Active CN115472298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211330827.XA CN115472298B (zh) 2022-10-28 2022-10-28 基于ai的高通量测序数据智能分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211330827.XA CN115472298B (zh) 2022-10-28 2022-10-28 基于ai的高通量测序数据智能分析系统及方法

Publications (2)

Publication Number Publication Date
CN115472298A true CN115472298A (zh) 2022-12-13
CN115472298B CN115472298B (zh) 2023-04-07

Family

ID=84337401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211330827.XA Active CN115472298B (zh) 2022-10-28 2022-10-28 基于ai的高通量测序数据智能分析系统及方法

Country Status (1)

Country Link
CN (1) CN115472298B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864001A (zh) * 2023-09-04 2023-10-10 深圳市前海高新国际医疗管理有限公司 基于ai的动物模型rna表达量化分析系统及方法
CN117373036A (zh) * 2023-10-24 2024-01-09 东南大学附属中大医院 基于智能ai的数据分析处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185096A1 (en) * 2011-07-13 2013-07-18 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
CN107368700A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于计算云平台的微生物多样性交互分析系统及其方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN108694305A (zh) * 2018-03-30 2018-10-23 武汉光谷创赢生物技术开发有限公司 基于云计算的生物信息分析平台
CN114529154A (zh) * 2022-01-14 2022-05-24 华南理工大学 人口规模预测指标体系的构建方法、预测方法、装置及系统
CN115130373A (zh) * 2022-06-08 2022-09-30 苏州睿远智能科技有限公司 基于图像处理的智能校对系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185096A1 (en) * 2011-07-13 2013-07-18 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
CN107368700A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于计算云平台的微生物多样性交互分析系统及其方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN108694305A (zh) * 2018-03-30 2018-10-23 武汉光谷创赢生物技术开发有限公司 基于云计算的生物信息分析平台
CN114529154A (zh) * 2022-01-14 2022-05-24 华南理工大学 人口规模预测指标体系的构建方法、预测方法、装置及系统
CN115130373A (zh) * 2022-06-08 2022-09-30 苏州睿远智能科技有限公司 基于图像处理的智能校对系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOJUAN ZHAN 等: ""A novel method to compress high-throughput DNA sequence read archive"" *
张亚坤: ""基于多尺度高光谱成像的大豆养分检测方法研究"" *
张萌: ""基于Gene Panel高通量测序早期多种癌症筛查项目的风险管理"" *
郑明霞 等: ""单细胞测序研究进展及其在口腔医学中的应用"" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864001A (zh) * 2023-09-04 2023-10-10 深圳市前海高新国际医疗管理有限公司 基于ai的动物模型rna表达量化分析系统及方法
CN116864001B (zh) * 2023-09-04 2023-12-26 深圳市前海高新国际医疗管理有限公司 基于ai的动物模型rna表达量化分析系统及方法
CN117373036A (zh) * 2023-10-24 2024-01-09 东南大学附属中大医院 基于智能ai的数据分析处理方法
CN117373036B (zh) * 2023-10-24 2024-06-11 东南大学附属中大医院 基于智能ai的数据分析处理方法

Also Published As

Publication number Publication date
CN115472298B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115472298B (zh) 基于ai的高通量测序数据智能分析系统及方法
Noskova et al. GADMA: Genetic algorithm for inferring demographic history of multiple populations from allele frequency spectrum data
Ono et al. PBSIM2: a simulator for long-read sequencers with a novel generative model of quality scores
Rosindell et al. The unified neutral theory of biodiversity and biogeography at age ten
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
Nielsen et al. Statistical approaches for DNA barcoding
Rau et al. Co-expression analysis of high-throughput transcriptome sequencing data with Poisson mixture models
Narayan et al. Density-preserving data visualization unveils dynamic patterns of single-cell transcriptomic variability
Matuszewski et al. Coalescent processes with skewed offspring distributions and nonequilibrium demography
CN107368704A (zh) 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN111247599A (zh) 用于预测人类群体中的亲缘关系的系统和方法
Hong et al. To rarefy or not to rarefy: robustness and efficiency trade-offs of rarefying microbiome data
CN112397146B (zh) 一种基于云平台的微生物组学数据交互分析系统
Konno et al. Deep distributed computing to reconstruct extremely large lineage trees
Hupfauf et al. CoMA–an intuitive and user-friendly pipeline for amplicon-sequencing data analysis
Landerer et al. AnaCoDa: analyzing codon data with Bayesian mixture models
Hu et al. A rarefaction-without-resampling extension of PERMANOVA for testing presence–absence associations in the microbiome
CN105653897B (zh) 基于生物云平台的lncRNA分析系统及方法
Parag et al. Exact Bayesian inference for phylogenetic birth-death models
Isacchini et al. Generative models of T-cell receptor sequences
CN109686406A (zh) 一种系统发生树图制作方法及系统
Kuismin et al. CONE: community oriented network estimation is a versatile framework for inferring population structure in large-scale sequencing data
Jiang et al. SIGNET: transcriptome-wide causal inference for gene regulatory networks
Zhang et al. MAT2: manifold alignment of single-cell transcriptomes with cell triplets
Krause et al. Understanding the role of (advanced) machine learning in metagenomic workflows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231221

Address after: Unit G4-202-096, Artificial Intelligence Industrial Park, No. 88 Jinjihu Avenue, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215124

Patentee after: Suzhou Fangcunhui Medical Biotechnology Co.,Ltd.

Address before: Room 701, Building 4, Jiaye International City, No. 158, Lushan Road, Jianye District, Nanjing, Jiangsu, 210000

Patentee before: Fang Cunhui Medical (Jiangsu) Biotechnology Co.,Ltd.