CN115472298A

CN115472298A - 基于ai的高通量测序数据智能分析系统及方法

Info

Publication number: CN115472298A
Application number: CN202211330827.XA
Authority: CN
Inventors: 乔延春; 刘和平
Original assignee: Fang Cunhui Medical Jiangsu Biotechnology Co ltd
Current assignee: Suzhou Fangcunhui Medical Biotechnology Co ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-12-13
Anticipated expiration: 2042-10-28
Also published as: CN115472298B

Abstract

本发明公开了基于AI的高通量测序数据智能分析系统及方法，属于高通量测序数据智能分析技术领域。该系统包括高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块；所述高通量测序数据采集模块、所述平台构建模块与所述流程管理模块顺次连接；所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接；所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。本发明能够利用AI智能处理掉海量数据的分析工作，建立基于可视化、流程化的国产AI数据分析协作平台，实现NCS级别研究成果的数据可视化展现，提高研究员工作效率。

Description

基于AI的高通量测序数据智能分析系统及方法

技术领域

本发明涉及高通量测序数据智能分析技术领域，具体为基于AI的高通量测序数据智能分析系统及方法。

背景技术

健康中国是生命健康领域重大工作的重要内容,是新时代医疗工作服务人民健康的重要组成部分,是医疗信息化水平、充分运用现代智能信息技术提升信息化医疗支撑业务能力、数据管理水平和数据资源分析利用的系统性重大战略安排。AI作为研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。是计算机科学的一个分支，它能够生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

高通量测序数据是指以高通量测序技术进行大规模平行测序得出的数据，是将DNA（或者cDNA）随机片段化、加接头，制备测序文库，通过对文库中数以万计的克隆(Colony)进行延伸反应，检测对应的信号，最终获取序列信息，在目前尚没有技术手段将AI用于高通量测序数据的智能分析。

发明内容

本发明的目的在于提供基于AI的高通量测序数据智能分析系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：基于AI的高通量测序数据智能分析方法，该方法包括以下步骤：

S1、获取高通量测序数据，所述高通量测序数据包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据；

S2、构建AI数据分析协作平台，所述平台包括项目管理、定制流程分析、可视化展现；

S3、将高通量测序数据输入至AI数据分析协作平台中，获取操作人员个性化特征，定制流程分析，构建可视化智能分析模型；

S4、根据可视化智能分析模型，输出本次高通量测序数据的可视化结果至管理员端口。

根据上述技术方案，所述AI数据分析协作平台包括项目管理、定制流程分析、可视化展现；

所述项目管理包括记录高通量测序数据、数据分析任务、数据分析工具以及参与人员；所述定制流程分析包括根据操作人员的个性化特征，确立不同的流程输出控制系统操作；所述可视化展现用于根据高通量测序数据分析结果，智能选择图表，输出可视化结果。

根据上述技术方案，所述定制流程分析包括：

获取用户登录数据，选取该账号下进行高通量测序数据分析的历史流程，将历史流程分类为正常流程与精简流程；所述精简流程指用户仅输出可视化结果，未进行无关操作的流程；所述无关操作指构建新项目、存储、通讯录分享；

构建流程分析模型，以输入的高通量测序数据量、相邻两次高通量测序

数据输入的间隔时间为自变量、以使用精简流程为因变量，拟合成为线性模型：

其中，

为本次使用精简流程的概率；

代表回归系数；

为本次输入的高通量测序数据量；

为本次与上一次高通量测序数据输入的间隔时间；

代表误差项，利用 MATLAB软件仿真，计算得出

；

设置概率阈值，在P超出概率阈值时，定义本次使用精简流程。

在系统中，正常的用户流程是包括每次输入测序数据后需要选择是否建立项目、建立项目文件存储夹、数据智能分析及可视化成果展示、团队通讯录分享等流程，然而整个测序数据分析过程较为复杂与多样，许多时候一次的分析只是建立在一个大项目下的一个小型分析或者校准验证过程，其并不需要重新建立项目或者分享存储，由于本系统是全智能化处理，数据越多越容易导致系统冗杂，影响反应速度，因此构建流程分析，在输入的数据量较小或者相邻数据输入时间间隔较短时，均认为其属于同一项目下的子项目，使用精简流程，以此提高研究员效率和降低系统负担。

根据上述技术方案，所述构建可视化智能分析模型包括：

S3-1、获取所有的可视化分析结果展示图，记录在数据库内，分别计算

任一可视化分析结果展示图在可视化智能分析模型下被选择的概率；

S3-2、获取用户登录数据，根据用户登录数据获取该账号下的历史操作数据，在历史操作数据下获取任一可视化分析结果展示图M的被选择数据；所述被选择数据中包括本次选择可视化分析结果展示图M的所有高通量测序数据特征；

S3-3、将步骤S3-2中获取的被选择数据进行组合编码，记为[A₁、A₂、A₃、……、A_n]，每一编码对应一个高通量测序数据特征，其中A₁、A₂、A₃、……、A_n分别代表高通量测序数据特征中的一种，记为元素；所述高通量测序数据特征包括OUT数目数量、样本测序数量、高通量测序数据类别、测序数据分析目标；

OTU是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元(品系，种，属，分组等)设置的同一标志。通常按照 97%的相似性阈值将序列划分为不同的OTU，每一个OTU通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种，相似性小于93%-95%，可以认为属于不同的属。不同的OUT数目数量和样本测序数量代表着物种丰富的多样性，数量越多代表越丰富，其所应用的图表越需要能够支持复杂的显示功能，例如在测序数量不超过五个时，一般采用韦恩图进行输出，而在5-20之间时，Rank-Abundance曲线能很好展现物种的丰富程度与均匀程度；高通量测序数据类别代表着不同的测序数据下的历史使用中的选择方式，例如在单细胞转录组测序中，一般以pesudotime进行单细胞转录组分析展示、以velocyto进行单细胞轨迹分析展示；而在全基因组关联研究中，又一般使用QQplot进行分析展示；测序数据分析目标用于定义个性化的操作，例如在分析组间显著差异时，可选择的图表包括许多，例如PCA和LDA，二者之间的差别在于，PCA它所作的更多是映射到最方便表示这组数据的坐标轴上，对于任何数据内部的分类信息，是无监督的，而LDA增加了种属之间的信息关系后，可以根据效应值进行功能特性排序，能够展示大部分生物学差异，这就根据用户的日常个性化使用进行分析目标的确认和选择。

S3-4、随机初始化一个种群，所述种群中包含有R组被选择数据，R样本测序数量表示系统预设常数，对R组被选择数据中选择可视化分析结果展示图M的数据进行标记，设置初始迭代次数G=1，对标记的数据中编码中元素进行随机组合，根据编码中元素A₁、A₂、A₃、……、A_n及元素A₁、A₂、A₃、……、A_n的随机组合分别计算每个元素或元素组合对选择可视化分析结果展示图M的影响程度，构建偏差值计算模型：

其中，

代表编码

对应的选择可视化分析结果展示图M的偏差值；

代表编码

中所有元素组合方式中的任一种, 其中单独一种元素也称为元素组合，n代表编码

中所有元素组合方式的集合；

代表种群中选择可视化分析结果展示图M时且存在组合方式为

的编码数量；

代表种群中存在组合方式为

的编码数量；

S3-5、构建迭代停止因子，计算种群中所有编码的偏差值的期望值与标准差；若不满足正态分布，则设置迭代次数G=G+1，挖掘子元素生成新的种群，再次计算新的种群的偏差值；所述生成新的种群包括：利用随机选择，每次选择两个编码，偏差值高的留下，不断循环直至选择出的种群数量达到

，其中

，

为系统预设的常数，对新的种群中出现率最低的元素进行删除，对剩余元素进行挖掘子元素，所述元素与子元素之间存在包含关系；

若满足正态分布，停止迭代，输出当前高通量测序数据特征下选择可视化分析结果展示图M的最优概率计算模型；

S3-6、在数据库内依次选取可视化分析结果展示图，对应输入当前高通量测序数据特征，分别计算得出当前高通量测序数据特征下选择每个可视化分析结果展示图的最优概率值；对最优概率值进行从大到小排序，获取管理员输入的图表需要数量，按照顺序智能选择图表，自动输出本次高通量测序数据的可视化结果至管理员端口。

基于AI的高通量测序数据智能分析系统，该系统包括：高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块；

所述高通量测序数据采集模块用于获取高通量测序数据，并对高通量测序数据进行分类；所述平台构建模块用于构建AI数据分析协作平台，所述平台能够实现项目管理、定制流程分析、可视化展现的功能；所述流程管理模块用于在将高通量测序数据输入至AI数据分析协作平台中，获取操作人员个性化特征，定制流程分析，生成处理流程；所述个性化数据分析模块用于构建可视化智能分析模型，智能选择可视化输出图表；所述可视化输出模块用于根据可视化智能分析模型，输出本次高通量测序数据的可视化结果至管理员端口；

所述高通量测序数据采集模块的输出端与所述平台构建模块的输入端相连接；所述平台构建模块的输出端与所述流程管理模块的输入端相连接；所述流程管理模块的输出端与所述个性化数据分析模块的输入端相连接；所述个性化数据分析模块的输出端与所述可视化输出模块的输入端相连接。

根据上述技术方案，所述高通量测序数据采集模块包括高通量测序数据采集单元、分类单元；

所述高通量测序数据采集单元用于获取高通量测序数据；所述分类单元用于对获取的高通量测序数据进行分类，所述分类包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据；

所述高通量测序数据采集单元的输出端与所述分类单元的输入端相连接。

根据上述技术方案，所述平台构建模块包括项目管理单元、定制流程分析单元、可视化展现单元；

所述项目管理单元用于记录高通量测序数据、数据分析任务、数据分析工具以及参与人员；所述定制流程分析单元用于根据操作人员的个性化特征，确立不同的流程输出控制系统操作；所述可视化展现单元用于根据高通量测序数据分析结果，智能选择图表，输出可视化结果。

根据上述技术方案，所述流程管理模块包括流程分类单元、流程管理单元；

所述流程分类单元用于获取操作人员在将高通量测序数据输入至AI数据分析协作平台后，进行的历史流程操作，构建流程分析模型；所述流程管理单元用于根据流程分析模型，判断是否使用精简模型；

所述流程分类单元的输出端与所述流程管理单元的输入端相连接。

根据上述技术方案，所述个性化数据分析模块包括模型构建单元、选择单元；

所述模型构建单元用于构建可视化智能分析模型；所述选择单元用于根据可视化智能分析模型智能选择可视化输出图表；

所述模型构建单元的输出端与所述选择单元的输入端相连接。

根据上述技术方案，所述可视化输出模块包括智能显示单元、输出单元；

所述智能显示单元用于获取述个性化数据分析模块输出的可视化显示图表；所述输出单元用于根据可视化显示图表，输出本次高通量测序数据的可视化结果至管理员端口。

与现有技术相比，本发明所达到的有益效果是：

本发明能够利用AI智能处理掉目前科研人员难以胜任的海量生物医学数据的分析工作，建立基于可视化、流程化的国产AI数据分析协作平台，随心所欲地定制化多次分析，实现智能图表的绘制、选择，实现NCS级别研究成果的数据可视化展现，帮助项目进行智能化的监控管理，大大提高研究员工作效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于AI的高通量测序数据智能分析系统及方法的流程示意图；

图2是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图一；

图3是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图二；

图4是本发明基于AI的高通量测序数据智能分析方法的可视化输出示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，在本实施例一中：

构建了一软件，其能够实现基于AI的高通量测序数据的智能分析，具体包括：获取高通量测序数据，并对高通量测序数据进行分类，包括单细胞转录组测序数据、空间转录组测序数据、全基因组关联研究数据、全外显子测序数据；构建AI数据分析协作平台，所述平台包括项目管理、定制流程分析、可视化展现；

获取操作人员个性化特征，定制流程分析：

其中，

为本次使用精简流程的概率；

代表回归系数；

为本次输入的高通量测序数据量；

为本次与上一次高通量测序数据输入的间隔时间；

代表误差项，利用 MATLAB软件仿真，计算得出

；

构建可视化智能分析模型：

其中，

代表编码

对应的选择可视化分析结果展示图M的偏差值；

代表编码

中所有元素组合方式中的任一种,其中单独一种元素也称为元素组合，n代表编码

中所有元素组合方式的集合；

代表种群中选择可视化分析结果展示图M时且存在组合方式为

的编码数量；

代表种群中存在组合方式为

的编码数量；

，其中

，

例如样本测序数量初始为0-20个样本区间，假设存在的样本数据分别为2、2、3、5、19；那么子元素数据就可为0-5的样本区间，删除掉19的出现率最低元素；

在本实施例二中，提供一种基于AI的高通量测序数据智能分析系统，该系统包括：高通量测序数据采集模块、平台构建模块、流程管理模块、个性化数据分析模块、可视化输出模块；

所述高通量测序数据采集模块包括高通量测序数据采集单元、分类单元；

所述平台构建模块包括项目管理单元、定制流程分析单元、可视化展现单元；

所述流程管理模块包括流程分类单元、流程管理单元；

所述个性化数据分析模块包括模型构建单元、选择单元；

所述可视化输出模块包括智能显示单元、输出单元；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。