CN117954040A

CN117954040A - 一种基于大模型的高精度dna分析报告生成方法

Info

Publication number: CN117954040A
Application number: CN202410120478.1A
Authority: CN
Inventors: 张棋源
Original assignee: Individual
Current assignee: Individual
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-04-30

Abstract

本发明公开了一种基于大模型的高精度DNA分析报告生成方法。本发明中，将标准数字化程度不断提高作为重要目标，提出高精度DNA分析可读标准、开源标准、推动标准化工作向数字化、网络化、智能化转型。同时，为满足型号研制单位对标准智能化应用的建设需求，要积极探索领域大模型的研究及知识图谱的领域应用研究进展，系统分析大模型在构造DNA分析提示文本时，利用知识图谱作为先验知识进行DNA分析提示文本前约束，增强结果可控性。将每个环节的任务利用特提示文本模型化为核心要素填充或多轮问答任务，进而提高领域知识图谱的构建效率。进而提升了整体的识别分析效率，提高了报告生成的速度。

Description

一种基于大模型的高精度DNA分析报告生成方法

技术领域

本发明属于DNA分析技术领域，具体为一种基于大模型的高精度DNA分析报告生成方法。

背景技术

近年来，分析DNA序列的技术已经用于诸如个性化医疗服务和疾病治疗等健康领域。可以通过DNA碱基序列分析解密基因信息，并且基于此，可以进行个体化医疗开发和疾病治疗，并且可以开发基因相关技术。最初，使用了桑格(Sanger)方法，其将基因切割成小单元，并对切割的基因进行化学扩增，然后通过标记来分析切割的基因单元。

但是常见的方法在识别分析的过程中，分析效率较为低下，从而使得整体在使用过程中不够便利。

发明内容

本发明的目的在于：为了解决上述提出的问题，提供一种基于大模型的高精度DNA分析报告生成方法。

本发明采用的技术方案如下：一种基于大模型的高精度DNA分析报告生成方法，生成方法包括以下步骤：

S1:先收集目标个体的DNA样本。这可以通过采集口腔拭子、血液或其他身体组织样本进行；

S2:进行DNA提取：从收集到的样本中提取DNA。这个过程通常涉及细胞破碎、蛋白质去除和纯化DNA；

S3:进行DNA测序：使用高通量测序技术对提取到的DNA进行测序。这可以包括短读长测序(如Illumina测序)或长读长测序(如PacBio或OxfordNanopore测序)；

S4:之后进行DNA分析数据的预处理；

S5:之后进行大模型辅助知识图谱构建，为领域知识图谱构建环节中的每个任务设计专用提示文本，可以指导语言模型生成更符合用户意图的响应)。将每个环节的任务利用特定提示文本模型化为核心要素填充或多轮问答任务，进而提高领域知识图谱的构建效率；

S6:之后开始对DNA分析数据进行整体分析计算处理，首先，对每个原始标准的表名进行映射，以找到语义最相似的CDA文档名；其次，基于已知的表名映射结果，对原始标准的每个字段进行映射，找到原始表名对应CDA文档下的最合适章节条目；

S7:使用基因组比对算法将测序数据与参考基因组进行比对，使用GATK软件工具以识别个体的变异(如单核苷酸多态性、插入/缺失)；

S8:对检测到的变异进行功能注释，以确定其潜在影响。这可以包括预测变异对基因功能、蛋白质结构或调控元件的影响，将检测到的变异与已知数据库(如dbSNP、ClinVar等)进行比对，以确定其相关性和可能的临床意义，同时自动检索疾病数据库中的数据，将基因序列分析结果与从疾病数据库中检索到的数据进行比对注释，得到比对结果；

S9:进行人工注释补充信息，将比对结果和人工注释的补充信息进行结合，选择病人报告中所要呈现的部分，根据选择的内容自动生成健康数据中，所述步骤S4中，为了确保DNA分析数据隐私和实验的安全性，需要进行DNA分析数据脱敏、异常值处理和无关字符去除等操作。首先，对于可能导致隐私泄露的信息，如电话号码、姓名、身份证号、家庭地址等字段，进行匿名化或删除处理；其次，进行异常值处理，因为在手工书写和数据录入过程中可能存在错误，需要检查日期、检验项目名称、标本名称等是否存在错误；最后，删除无关字符，即那些没有实际意义但用于标记的字符，如“_”“#”“*”。

在一优选的实施方式中，所述步骤S4中，在数据预处理后，数据采用JSON格式表示，其结构包括表名、字段名和相应的值。接下来，采用字段映射方法进行模式映射，获得两个标准之间的映射关系，然后进行数据转换。然而，不同标准之间的映射通常涉及多对一或一对多的映射关系，因此需要进行跨域字段映射以进行补充。

在一优选的实施方式中，所述步骤S5中，大模型需要规模极大的高质量训练数据，为缩短数据获取及预处理周期，可以利用知识图谱作为领域经验知识对语料数据进行错误检测，可以很好地提升大模型训练数据的质量和获取效率；此外，还可以直接利用知识图谱中大量已有的结构化知识单元，直接显式地进行形式化转换，将其引入大模型的预训练语料，扩充大模型训练数据规模。

在一优选的实施方式中，所述步骤S5中，大模型在训练过程中，其效果受数据质量、模型架构、训练优化等因素影响，引入知识图谱可以增强模型的有效性。采用知识嵌入模型加大模型联合训练的模式，将知识图谱隐式地加入模型训练中，使大模型中的参数化语义与知识图谱中的形式化语义产生深度融合，增强大模型的有效性和可信性；此外，还可以构建以领域知识图谱为中心的下游评测任务，在大模型训练评估阶段发挥作用。

在一优选的实施方式中，所述步骤S5中，大模型在训练之后，要结合实际场景，利用特定的种提示文本，更大地激发大模型的领域应用能力。

在一优选的实施方式中，所述步骤S6中，由于端到端的字段映射可能会导致输入长度超出限制的问题，而直接截断输入会导致信息的丧失，因此采用表名映射的方法来缩短输入长度；进行表名映射后，输入数据将仅包含与当前需要映射的字段相关的CDA文档中的所有章节元素，从而提高大模型的映射准确性；其三，基于表名映射，可以保留标准的层级结构。与端到端字段映射相比，这一方法能够更快地溯源。

在一优选的实施方式中，所述步骤S6中，对DNA分析数据进行整体分析计算处理的过程中设置有数据处理层和业务应用层；数据处理层处理计算引擎Spark组成。Storm分布式、低延迟、高容错和高可靠性的特点,可以有效适应多架机、多链路并行采集、处理的海量遥测数据的场景；Spark由于使用内存计算,从而减少磁盘I/O,可以快速并准确地对海量关键参数数据进行统计分析。业务应用层以Boostrap和Thymeleaf构建视图层,实现系统管理、飞机信息管理、数据存储管理、实时监控管理、分析报告管理和数据综合分析业务。系统管理包括用户、角色、部门等信息管理,飞机信息管理包括关键参数、CAS信息、飞行包线和参数列表等信息管理；实时监控管理基于安全监控和任务监控开展的监控记录和试验点采集业务；分析报告管理包括生成报告和报告下载。

在一优选的实施方式中，所述步骤S7中，使用GATK软件工具进行个体的变异的识别包括以下步骤：

1.数据准备:首先需要准备好以下数据:参考基因组序列文件(通常为FASTA格式)，用作比对和变异检测的参考；原始测序数据(如FASTQ格式)，包括测序reads；

2数据质控:使用GATK提供的工具对原始测序数据进行质控和预处理。使用工具如FastC或Trimmomatic进行质量评估和修剪；

3.比对到参考基因组:使用GATK的BMA-MEM或Bowtie等工具将修后的reds与参考基因组进行比对，生成BAM(二进制对齐映射)文件.

4,标记重复reads:使用GATK的MarkDuplicates工具识别并标记PCR扩增过程中产生的重复reads。

5.创建索引:对BAM文件进行索引以提高后续处理的效率。可以使用GATK的BuildBamIndex工具

6,局部重比和基本贝叶斯校正(BOR):使用GAK的Relienerlengetreto和IndelReligner工具进行局部重，以插入缺失(nde)误，然后，使用BaseRecalibrtor和PrintReads工具进行基于贝叶斯的碱基质量校正

7,变异检测:使用GATK的Haplotype(aller或nifiedgenotyper工具对校正后的BAM文件进行变异检测。这些工具将识别SNP、indel和结构变异等

8.变异筛选和过滤:使用GATK的VariantFiltration工具对检测到的变异进行筛选和过滤，以提高变异的质量。

9,功能注释:使用GATK的VariantAnnotator工具将注释信息添加到变异数据中，例功能、路径ogenic性预测。

在一优选的实施方式中，所述步骤S10中，数据存储层由分布式文件系统HDFS、列族数据库HBASE、内存型数据库Redis以及关系型数据库MySQL组成。对于原始DNA分析数据以二进制文件块的形式存储在HDFS,解析后的关键参数数据根据时间序列逐帧存储在HBASE,对于频繁查询检索的各类数据或者信息存储在Redis,统计DNA分析结果基本信息和实时监控记存储在MySQL。

综上，由于采用了上述技术方案，本发明的有益效果是：

本发明中，将标准数字化程度不断提高作为重要目标，提出高精度DNA分析可读标准、开源标准、推动标准化工作向数字化、网络化、智能化转型。同时，为满足型号研制单位对标准智能化应用的建设需求，要积极探索领域大模型的研究及知识图谱的领域应用研究进展，系统分析大模型在构造DNA分析提示文本时，利用知识图谱作为先验知识进行DNA分析提示文本前约束，增强结果可控性；为解决领域生成局限性现象，在构造DNA分析提示文本时，引入涉及实体的上下文进行丰富，增强结果可用性；为解决生成结果不可靠问题，对模型生成后的结果进行后约束，减少模型事实性错误；为解决大模型实时性问题，通过query实体消歧和实体链接，优化搜索引擎实时DNA分析结果，增强DNA分析生成准确性，同时为领域知识图谱构建环节中的每个任务设计专用提示文本，可以指导语言模型生成更符合用户意图的响应。将每个环节的任务利用特提示文本模型化为核心要素填充或多轮问答任务，进而提高领域知识图谱的构建效率。进而提升了整体的识别分析效率，提高了报告生成的速度。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例：

一种基于大模型的高精度DNA分析报告生成方法，生成方法包括以下步骤：

S4:之后进行DNA分析数据的预处理；

S9:进行人工注释补充信息，将比对结果和人工注释的补充信息进行结合，选择病人报告中所要呈现的部分，根据选择的内容自动生成健康数据分析报告；

S10:对生成的分析报告进行保存即可结束整个高精度DNA分析报告生成流程。

步骤S4中，为了确保DNA分析数据隐私和实验的安全性，需要进行DNA分析数据脱敏、异常值处理和无关字符去除等操作。首先，对于可能导致隐私泄露的信息，如电话号码、姓名、身份证号、家庭地址等字段，进行匿名化或删除处理；其次，进行异常值处理，因为在手工书写和数据录入过程中可能存在错误，需要检查日期、检验项目名称、标本名称等是否存在错误；最后，删除无关字符，即那些没有实际意义但用于标记的字符，如“_”“#”“*”。

步骤S4中，在数据预处理后，数据采用JSON格式表示，其结构包括表名、字段名和相应的值。接下来，采用字段映射方法进行模式映射，获得两个标准之间的映射关系，然后进行数据转换。然而，不同标准之间的映射通常涉及多对一或一对多的映射关系，因此需要进行跨域字段映射以进行补充。

步骤S5中，大模型需要规模极大的高质量训练数据，为缩短数据获取及预处理周期，可以利用知识图谱作为领域经验知识对语料数据进行错误检测，可以很好地提升大模型训练数据的质量和获取效率；此外，还可以直接利用知识图谱中大量已有的结构化知识单元，直接显式地进行形式化转换，将其引入大模型的预训练语料，扩充大模型训练数据规模。

步骤S5中，大模型在训练过程中，其效果受数据质量、模型架构、训练优化等因素影响，引入知识图谱可以增强模型的有效性。采用知识嵌入模型加大模型联合训练的模式，将知识图谱隐式地加入模型训练中，使大模型中的参数化语义与知识图谱中的形式化语义产生深度融合，增强大模型的有效性和可信性；此外，还可以构建以领域知识图谱为中心的下游评测任务，在大模型训练评估阶段发挥作用。

步骤S5中，大模型在训练之后，要结合实际场景，利用特定的种提示文本，更大地激发大模型的领域应用能力。

步骤S6中，由于端到端的字段映射可能会导致输入长度超出限制的问题，而直接截断输入会导致信息的丧失，因此采用表名映射的方法来缩短输入长度；进行表名映射后，输入数据将仅包含与当前需要映射的字段相关的CDA文档中的所有章节元素，从而提高大模型的映射准确性；其三，基于表名映射，可以保留标准的层级结构。与端到端字段映射相比，这一方法能够更快地溯源。

步骤S6中，对DNA分析数据进行整体分析计算处理的过程中设置有数据处理层和业务应用层；数据处理层处理计算引擎Spark组成。Storm分布式、低延迟、高容错和高可靠性的特点,可以有效适应多架机、多链路并行采集、处理的海量遥测数据的场景；Spark由于使用内存计算,从而减少磁盘I/O,可以快速并准确地对海量关键参数数据进行统计分析。业务应用层以Boostrap和Thymeleaf构建视图层,实现系统管理、飞机信息管理、数据存储管理、实时监控管理、分析报告管理和数据综合分析业务。系统管理包括用户、角色、部门等信息管理,飞机信息管理包括关键参数、CAS信息、飞行包线和参数列表等信息管理；实时监控管理基于安全监控和任务监控开展的监控记录和试验点采集业务；分析报告管理包括生成报告和报告下载。

步骤S7中，使用GATK软件工具进行个体的变异的识别包括以下步骤：

步骤S10中，数据存储层由分布式文件系统HDFS、列族数据库HBASE、内存型数据库Redis以及关系型数据库MySQL组成。对于原始DNA分析数据以二进制文件块的形式存储在HDFS,解析后的关键参数数据根据时间序列逐帧存储在HBASE,对于频繁查询检索的各类数据或者信息存储在Redis,统计DNA分析结果基本信息和实时监控存储在MySQL。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者还是包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于大模型的高精度DNA分析报告生成方法，其特征在于：生成方法包括以下步骤：

S1:先收集目标个体的DNA样本；这可以通过采集口腔拭子、血液或其他身体组织样本进行；

S2:进行DNA提取：从收集到的样本中提取DNA；这个过程通常涉及细胞破碎、蛋白质去除和纯化DNA；

S3:进行DNA测序：使用高通量测序技术对提取到的DNA进行测序；这可以包括短读长测序或长读长测序；

S4:之后进行DNA分析数据的预处理；

S5:之后进行大模型辅助知识图谱构建，为领域知识图谱构建环节中的每个任务设计专用提示文本，可以指导语言模型生成更符合用户意图的响应)；将每个环节的任务利用特定提示文本模型化为核心要素填充或多轮问答任务，进而提高领域知识图谱的构建效率；

S7:使用基因组比对算法将测序数据与参考基因组进行比对，使用GATK软件工具以识别个体的变异；

S8:对检测到的变异进行功能注释，以确定其潜在影响；这可以包括预测变异对基因功能、蛋白质结构或调控元件的影响，将检测到的变异与已知数据库进行比对，以确定其相关性和可能的临床意义，同时自动检索疾病数据库中的数据，将基因序列分析结果与从疾病数据库中检索到的数据进行比对注释，得到比对结果；

2.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S4中，为了确保DNA分析数据隐私和实验的安全性，需要进行DNA分析数据脱敏、异常值处理和无关字符去除操作；首先，对于可能导致隐私泄露的信息，如电话号码、姓名、身份证号、家庭地址字段，进行匿名化或删除处理；其次，进行异常值处理，因为在手工书写和数据录入过程中可能存在错误，需要检查日期、检验项目名称、标本名称是否存在错误；最后，删除无关字符，即那些没有实际意义但用于标记的字符，如“_”“#”“*”。

3.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S4中，在数据预处理后，数据采用JSON格式表示，其结构包括表名、字段名和相应的值；接下来，采用字段映射方法进行模式映射，获得两个标准之间的映射关系，然后进行数据转换；然而，不同标准之间的映射通常涉及多对一或一对多的映射关系，因此需要进行跨域字段映射以进行补充。

4.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S5中，大模型需要规模极大的高质量训练数据，为缩短数据获取及预处理周期，可以利用知识图谱作为领域经验知识对语料数据进行错误检测，可以很好地提升大模型训练数据的质量和获取效率；此外，还可以直接利用知识图谱中大量已有的结构化知识单元，直接显式地进行形式化转换，将其引入大模型的预训练语料，扩充大模型训练数据规模。

5.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S5中，大模型在训练过程中，其效果受数据质量、模型架构、训练优化因素影响，引入知识图谱可以增强模型的有效性；采用知识嵌入模型加大模型联合训练的模式，将知识图谱隐式地加入模型训练中，使大模型中的参数化语义与知识图谱中的形式化语义产生深度融合，增强大模型的有效性和可信性；此外，还可以构建以领域知识图谱为中心的下游评测任务，在大模型训练评估阶段发挥作用。

6.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S5中，大模型在训练之后，要结合实际场景，利用特定的种提示文本，更大地激发大模型的领域应用能力。

7.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S6中，由于端到端的字段映射可能会导致输入长度超出限制的问题，而直接截断输入会导致信息的丧失，因此采用表名映射的方法来缩短输入长度；进行表名映射后，输入数据将仅包含与当前需要映射的字段相关的CDA文档中的所有章节元素，从而提高大模型的映射准确性；其三，基于表名映射，可以保留标准的层级结构；与端到端字段映射相比，这一方法能够更快地溯源。

8.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S6中，对DNA分析数据进行整体分析计算处理的过程中设置有数据处理层和业务应用层；数据处理层处理计算引擎Spark组成；Storm分布式、低延迟、高容错和高可靠性的特点,可以有效适应多架机、多链路并行采集、处理的海量遥测数据的场景；Spark由于使用内存计算,从而减少磁盘I/O,可以快速并准确地对海量关键参数数据进行统计分析；业务应用层以Boostrap和Thymeleaf构建视图层,实现系统管理、飞机信息管理、数据存储管理、实时监控管理、分析报告管理和数据综合分析业务；系统管理包括用户、角色、部门信息管理,飞机信息管理包括关键参数、CAS信息、飞行包线和参数列表信息管理；实时监控管理基于安全监控和任务监控开展的监控记录和试验点采集业务；分析报告管理包括生成报告和报告下载。

9.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S7中，使用GATK软件工具进行个体的变异的识别包括以下步骤：

2数据质控:使用GATK提供的工具对原始测序数据进行质控和预处理；使用工具如FastC或Trimmomatic进行质量评估和修剪；

3.比对到参考基因组:使用GATK的BMA-MEM或Bowtie工具将修后的reds与参考基因组进行比对，生成BAM(二进制对齐映射)文件.

4,标记重复reads:使用GATK的MarkDuplicates工具识别并标记PCR扩增过程中产生的重复reads；

5.创建索引:对BAM文件进行索引以提高后续处理的效率；可以使用GATK的BuildBamIndex工具；

6,局部重比和基本贝叶斯校正:使用GAK的Relienerlengetreto和IndelReligner工具进行局部重比，以插入缺失误，然后，使用BaseRecalibrtor和PrintReads工具进行基于贝叶斯的碱基质量校正；

7,变异检测:使用GATK的Haplotype(aller或nifiedgenotyper工具对校正后的BAM文件进行变异检测；这些工具将识别SNP、indel和结构变异；

8.变异筛选和过滤:使用GATK的VariantFiltration工具对检测到的变异进行筛选和过滤，以提高变异的质量；

10.如权利要求1的一种基于大模型的高精度DNA分析报告生成方法，其特征在于：所述步骤S10中，数据存储层由分布式文件系统HDFS、列族数据库HBASE、内存型数据库Redis以及关系型数据库MySQL组成；对于原始DNA分析数据以二进制文件块的形式存储在HDFS,解析后的关键参数数据根据时间序列逐帧存储在HBASE,对于频繁查询检索的各类数据或者信息存储在Redis,统计DNA分析结果基本信息和实时监控存储在MySQL。