CN116864007B

CN116864007B - 基因检测高通量测序数据的分析方法及系统

Info

Publication number: CN116864007B
Application number: CN202311135427.8A
Authority: CN
Inventors: 杨骁�
Original assignee: Shenzhen Body Code Gene Technology Co ltd
Current assignee: Shenzhen Body Code Gene Technology Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-26
Anticipated expiration: 2043-09-05
Also published as: CN116864007A

Abstract

本发明涉及生物信息技术领域，公开了一种基因检测高通量测序数据的分析方法及系统，用于提高测序数据分析的准确率。包括：对原始测序数据进行数据清洗，得到待处理测序数据；获取参考基因组序列，对参考基因组序列进行索引参考组序列生成，得到索引参考组序列；通过索引参考组序列对待处理测序数据进行数据比对，得到序列比对结果；基于序列比对结果对待处理测序数据进行序列变异识别，得到变异序列数据；对变异序列数据进行基因型分析，得到目标基因型数据并进行生物学信息分析，得到目标生物学信息；对目标生物学信息以及变异序列数据进行数据融合，生成目标分析报告，对目标分析报告进行加密处理，得到目标加密数据。

Description

基因检测高通量测序数据的分析方法及系统

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基因检测高通量测序数据的分析方法及系统。

背景技术

高通量测序技术的发展使得快速获取个体的基因组信息成为可能。通过对原始测序数据的分析和解释，可以揭示个体基因组中的变异和其与疾病、个体特征等之间的关联，从而推动个性化医疗和生物学研究的发展。上述技术描述了一套完整的高通量测序数据分析流程，从原始测序数据获取到最终的目标生物学信息和变异序列数据，并生成加密报告，以确保数据的安全传输。

然而，原始测序数据中可能包含测序误差、低质量序列和污染等问题。当前的数据清洗和质量控制方法虽然相对成熟，但对于一些特殊情况下的数据质量处理仍面临挑战。参考基因组的选择会影响变异检测的准确性和覆盖度。不同物种和个体之间的基因组变异导致参考基因组的选择和生成索引参考组序列需要针对不同研究对象进行优化。尽管目前有多种可靠的比对算法和变异识别方法，但特定区域的比对和识别仍可能受到限制，例如在复杂的重复序列区域或结构变异的识别方面，还需要更精确和高效的算法。基因型分析和生物学信息分析需要综合运用多种生物信息学工具和数据库。在不同变异位点的功能注释和生物学解释方面，可能存在一定程度的主观性和不确定性。将生物学信息和变异序列数据进行有效融合，生成全面准确的分析报告是一个复杂的任务。确保报告的准确性、全面性和易读性，需要更多的自动化和标准化的分析流程。

发明内容

本发明提供了一种基因检测高通量测序数据的分析方法及系统，用于提高测序数据分析的准确率。

本发明第一方面提供了一种基因检测高通量测序数据的分析方法，所述方法包括：

获取原始测序数据，并对所述原始测序数据进行格式文件提取，得到目标格式文件，其中，所述目标格式文件包括测序序列以及质量分数数据；

基于所述目标格式文件，对所述原始测序数据进行数据清洗，得到待处理测序数据；

获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列；

通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果；

基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据；

对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息；

对所述目标生物学信息以及所述变异序列数据进行数据融合，生成目标分析报告，对所述目标分析报告进行加密处理，得到目标加密数据，并将所述目标加密数据传输至预置的数据加密传输终端。

结合第一方面，在本发明第一方面的第一实施方式中，所述基于所述目标格式文件，对所述原始测序数据进行数据清洗，得到待处理测序数据，包括：

对所述目标格式文件进行字符遍历，得到所述目标格式文件对应的字符串集合；

对所述字符串集合中每个字符串进行ASCII码分析，得到ASCII码集合；

基于预设的ASCII码阈值，对所述ASCII码集合进行数据筛选，得到对应的低质量ASCII码；

通过所述ASCII码对所述原始测序数据进行低质量序列清洗，得到第一候选测序数据；

对所述第一候选测序数据进行接头序列分析，确定接头序列集合，并通过所述接头序列集合对所述第一候选测序数据进行去接头序列处理，得到第二候选测序数据；

对所述第二候选测序数据进行重复序列剔除，得到第三候选测序数据；

对所述第三候选测序数据进行污染序列剔除，得到所述待处理测序数据。

结合第一方面，在本发明第一方面的第二实施方式中，所述获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列，包括：

获取所述参考基因组序列，并对所述参考基因组序列进行数据类型分析，确定目标数据类型；

通过所述目标数据类型进行索引算法匹配，确定目标索引算法；

通过所述目标索引算法对所述参考基因组序列进行索引字符提取，确定目标索引子序列；

通过所述目标索引子序列对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列。

结合第一方面，在本发明第一方面的第三实施方式中，所述通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果，包括：

通过所述索引参考组序列对所述待处理测序数据进行序列位置分析，确定对应的序列位置对；

基于所述序列位置对进行相似序列提取，确定多个相似序列组；

通过多个所述相似序列组进行质量分数校验，确定质量分数校验结果；

基于所述质量分数校验结果对所述待处理测序数据进行匹配方向分析，确定当前比对匹配方向；

基于所述当前比对匹配方向对所述待处理测序数据进行错配分析，确定错配数据；

基于所述错配数据对多个所述相似序列组进行数据比对，得到所述序列比对结果。

结合第一方面，在本发明第一方面的第四实施方式中，所述基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据，包括：

对所述序列比对结果进行数据遍历，得到所述待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向；

通过变异识别算法对每个所述测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对，得到重比对结果；

基于所述参考基因组序列，通过所述重比对结果对所述待处理测序数据进行碱基序列差异识别，确定变异位点数据；

对所述变异位点数据进行测序深度分析，确定测序深度集合，基于所述测序深度集合对所述变异位点数据进行数据过滤，得到过滤变异数据；

对所述过滤变异数据进行变异类型分析，确定目标变异类型，并对所述过滤变异数据进行变异频率计算，得到目标变异频率；

基于所述目标变异类型以及所述目标变异频率进行序列变异识别，得到所述变异序列数据。

结合第一方面，在本发明第一方面的第五实施方式中，所述对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息，包括：

对所述变异序列数据进行基因功能注释，得到目标基因型数据；

对所述目标基因型数据进行关键通路提取，得到所述目标基因型数据对应的通路数据；

采集历史多样本数据，并对所述历史多样本数据以及所述通路数据进行关联分析，确定所述变异序列数据对应的变异关联信息；

基于所述变异关联信息，从预置的公共信息数据库中进行数据采集，得到所述目标生物学信息。

.结合第一方面的第五实施方式，在本发明第一方面的第六实施方式中，所述对所述变异序列数据进行基因功能注释，得到目标基因型数据，包括：

对所述变异序列数据进行变异位点区域分析，确定对应的区域类型集合，其中，所述区域类型集合包括：编码区、调控区或非编码区；

通过所述区域类型集合对所述变异序列数据进行氨基酸变异类型分析，确定对应的目标氨基酸变异类型；

基于所述目标氨基酸变异类型，对所述变异序列数据进行基因功能注释，得到目标基因型数据。

本发明第二方面提供了一种基因检测高通量测序数据的分析系统，所述基因检测高通量测序数据的分析系统包括：

获取模块，用于获取原始测序数据，并对所述原始测序数据进行格式文件提取，得到目标格式文件，其中，所述目标格式文件包括测序序列以及质量分数数据；

清洗模块，用于基于所述目标格式文件，对所述原始测序数据进行数据清洗，得到待处理测序数据；

生成模块，用于获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列；

比对模块，用于通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果；

识别模块，用于基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据；

分析模块，用于对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息；

传输模块，用于对所述目标生物学信息以及所述变异序列数据进行数据融合，生成目标分析报告，对所述目标分析报告进行加密处理，得到目标加密数据，并将所述目标加密数据传输至预置的数据加密传输终端。

本发明第三方面提供了一种基因检测高通量测序数据的分析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基因检测高通量测序数据的分析设备执行上述的基因检测高通量测序数据的分析方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基因检测高通量测序数据的分析方法。

本发明提供的技术方案中，获取原始测序数据，并对原始测序数据进行格式文件提取，得到目标格式文件，其中，目标格式文件包括测序序列以及质量分数数据；基于目标格式文件，对原始测序数据进行数据清洗，得到待处理测序数据；获取参考基因组序列，对参考基因组序列进行索引参考组序列生成，得到索引参考组序列；通过索引参考组序列对待处理测序数据进行数据比对，得到序列比对结果；基于序列比对结果对待处理测序数据进行序列变异识别，得到变异序列数据；对变异序列数据进行基因型分析，得到目标基因型数据，并通过目标基因型数据进行生物学信息分析，得到目标生物学信息；对目标生物学信息以及变异序列数据进行数据融合，生成目标分析报告，对目标分析报告进行加密处理，得到目标加密数据，并将目标加密数据传输至预置的数据加密传输终端。在本申请方案中，从原始测序数据到目标生物学信息和变异序列数据的获取，涵盖了数据清洗、比对、变异识别、基因型分析和生物学信息分析等关键步骤。通过数据清洗和质量控制，去除低质量和污染序列，保证数据的准确性和可靠性。同时，使用高效的比对算法和变异识别方法，增加变异检测的精确度，降低假阳性率，提高分析结果的可靠性。基于变异信息和功能注释，进行生物学信息分析，可以揭示变异与基因功能、调控、通路等方面的关联，进一步提高对测序数据分析的准确率。

附图说明

图1为本发明实施例中基因检测高通量测序数据的分析方法的一个实施例示意图；

图2为本发明实施例中对参考基因组序列进行索引参考组序列生成的流程图；

图3为本发明实施例中通过索引参考组序列对待处理测序数据进行数据比对的流程图；

图4为本发明实施例中对待处理测序数据进行序列变异识别的流程图；

图5为本发明实施例中基因检测高通量测序数据的分析系统的一个实施例示意图；

图6为本发明实施例中基因检测高通量测序数据的分析设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基因检测高通量测序数据的分析方法及系统，用于提高测序数据分析的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基因检测高通量测序数据的分析方法的一个实施例包括：

S101、获取原始测序数据，并对原始测序数据进行格式文件提取，得到目标格式文件，其中，目标格式文件包括测序序列以及质量分数数据；

可以理解的是，本发明的执行主体可以为基因检测高通量测序数据的分析系统，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器选择适合实验目的和预算的高通量测序技术，如Illumina的短读测序、PacBio的长读测序或ONT的长读测序。进行测序实验，将DNA或RNA样本提交至测序中心进行测序处理，得到原始测序数据。原始测序数据通常以原始仪器输出的原始二进制数据文件的形式呈现，如FASTQ或FASTA格式。这些数据文件中包含了测序的碱基序列（即测序序列）以及每个碱基的质量分数信息，后者反映了仪器对测序的准确度。服务器对原始测序数据进行格式文件提取，以得到目标格式文件，其中包括测序序列和质量分数数据，其中主要涉及数据解析和格式转换。使用相应的测序数据解析工具将原始二进制数据转换为文本格式。对于Illumina测序数据，常用的解析工具是"Bcl2Fastq"，对于PacBio和ONT测序数据，使用"pbdagcon"和"guppy_basecaller"等工具。将解析后的数据转换为目标格式文件，通常采用FASTQ格式，并进行数据清洗，去除低质量的测序读数和碱基。例如，假设服务器进行了一次Illumina测序实验，得到一个原始FASTQ文件。该文件包含了多条测序序列，每条序列包括序列ID、碱基序列和相应的质量分数。服务器使用相应的数据解析和格式转换工具，将原始FASTQ文件转换为目标FASTQ文件，其中保留了每条测序序列的序列和质量分数信息。本实施例中，服务器成功获得了目标格式文件，其中包括了测序序列和质量分数数据。这些数据将作为后续数据清洗、比对、变异识别以及生物学信息分析等步骤的基础，为进一步研究个体基因组信息和遗传变异提供了重要的数据基础。

S102、基于目标格式文件，对原始测序数据进行数据清洗，得到待处理测序数据；

具体的，根据实验目的和预算，选择适合的高通量测序技术，如Illumina的短读测序、PacBio的长读测序或ONT的长读测序。进行测序实验，将DNA或RNA样本提交至测序中心进行测序处理，生成原始测序数据。原始测序数据通常以FASTQ或FASTA格式呈现，包含了测序的碱基序列和质量分数信息。在数据清洗过程中，对目标格式文件进行字符遍历，提取字符串集合，并对每个字符串进行ASCII码分析，得到ASCII码集合。这些ASCII码代表了每个碱基的质量。基于预设的ASCII码阈值，进行数据筛选，找出低质量的ASCII码，代表可能存在的测序错误或噪音碱基。通过对低质量的ASCII码，对原始测序数据进行低质量序列清洗，去除含有低质量碱基的读序，从而得到第一候选测序数据。针对第一候选测序数据，进行接头序列分析，识别接头序列集合，并通过这些接头序列集合对第一候选测序数据进行去接头序列处理，得到第二候选测序数据。接头序列通常是在测序过程中加入的额外序列，需去除以避免后续分析的干扰。进一步，对第二候选测序数据进行重复序列剔除，保留每个片段的唯一序列，得到第三候选测序数据。这样可避免重复序列的影响，确保数据的准确性。对第三候选测序数据进行污染序列剔除，去除不属于目标样本的污染序列，从而获得最终的待处理测序数据。这些数据将被用于后续的数据比对、变异识别、生物学信息分析等，为研究个体基因组信息和遗传变异提供可靠的数据基础。例如，假设服务器进行了一次Illumina测序实验，得到一个原始FASTQ文件。对目标格式文件进行字符遍历，提取字符串集合，并进行ASCII码分析，得到ASCII码集合。基于预设的ASCII码阈值，筛选出低质量的ASCII码，对原始测序数据进行低质量序列清洗，得到第一候选测序数据。进行接头序列分析，确定接头序列集合，并将这些接头序列从第一候选测序数据中去除，得到第二候选测序数据。对第二候选测序数据进行重复序列剔除，保留每个片段的唯一序列，得到第三候选测序数据。对第三候选测序数据进行污染序列剔除，去除不属于目标样本的污染序列，获得最终的待处理测序数据。

S103、获取参考基因组序列，对参考基因组序列进行索引参考组序列生成，得到索引参考组序列；

具体的，服务器获取参考基因组序列，这通常是指人类或其他生物的基因组序列。对参考基因组序列进行数据类型分析，以确定其具体数据格式，常见的格式如FASTA。根据参考基因组序列的数据类型，服务器选择适合的索引算法，以提高数据比对和查询的效率。常用的索引算法包括Burrows-Wheeler Transform (BWT)和FM-Index等。选择合适的索引算法根据数据规模和分析需求来决定，以保证后续分析的高效性。通过目标索引算法对参考基因组序列进行索引字符提取。索引字符是根据算法规则从参考基因组序列中提取的一组特定字符，用于构建索引数据结构。这样的索引结构显著压缩基因组序列的存储空间，加速后续比对过程。通过索引字符，服务器利用目标索引算法对参考基因组序列进行索引参考组序列的生成。这个索引参考组序列是对原始基因组序列进行预处理和索引建立后的结果。通过索引参考组序列，服务器快速地对待处理测序数据进行比对，从而快速识别潜在的变异和关键基因信息。例如，假设服务器要进行人类基因组的高通量测序数据分析。获取人类基因组序列，并进行数据类型分析，确认其为FASTA格式。根据FASTA格式，服务器选择Burrows-Wheeler Transform (BWT)作为目标索引算法。使用BWT算法对参考基因组序列进行索引字符提取，得到索引参考组序列。当有新的测序数据产生时，服务器利用这个索引参考组序列，通过BWT算法快速进行数据比对，找到匹配的基因组区域，并识别潜在的变异和重要的基因信息。

S104、通过索引参考组序列对待处理测序数据进行数据比对，得到序列比对结果；

具体的，服务器利用之前生成的索引参考组序列，对待处理测序数据进行数据比对。通过序列位置分析，确定待处理测序数据中的每个序列在参考基因组序列中的对应位置对。这样快速找到待处理测序数据在参考基因组中的匹配区域。基于这些序列位置对，进行相似序列提取。在待处理测序数据中找到与参考基因组序列相似的片段，并将它们分成多个相似序列组。这些相似序列组可能代表了不同的基因或重复区域。对每个相似序列组进行质量分数校验。通过对比待处理测序数据和参考基因组序列在相似区域上的质量分数，确定质量分数校验结果，帮助服务器判断待处理测序数据的可靠性和准确性。基于质量分数校验结果，进行匹配方向分析。通过分析待处理测序数据与参考基因组序列在相似区域上的比对情况，确定当前的比对匹配方向。这有助于确认基因组中的基因或其他重要区域。进行错配分析，确定错配数据。错配数据指的是待处理测序数据与参考基因组序列在比对过程中存在不匹配的部分。通过对错配数据的分析，找出潜在的测序错误或基因组变异。基于错配数据对多个相似序列组进行数据比对，得到最终的序列比对结果。这个结果将展示待处理测序数据与参考基因组序列的匹配情况，并帮助服务器进一步分析基因组的结构和功能。例如，假设服务器有一个待处理测序数据，需要对其进行数据比对以识别其中的基因。服务器先通过索引参考组序列进行数据比对，找到待处理测序数据在参考基因组中的对应位置对。服务器从待处理测序数据中提取相似序列，并将其分成两个相似序列组，代表两个不同的基因。通过对这两个相似序列组进行质量分数校验，服务器发现一个相似序列组的质量分数较高，另一个的质量分数较低。服务器进行匹配方向分析，发现质量分数高的相似序列组与参考基因组序列的比对匹配方向一致，而质量分数低的相似序列组与参考基因组序列的比对匹配方向相反。服务器进行错配分析，确定了质量较低的相似序列组中存在错配数据。通过对这些错配数据的分析，服务器找到其中的测序错误或可能的基因组变异。

S105、基于序列比对结果对待处理测序数据进行序列变异识别，得到变异序列数据；

具体的，服务器利用之前得到的序列比对结果，进行数据遍历。通过遍历，得到待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向。这些信息将有助于服务器准确识别变异位点。采用变异识别算法对每个测序序列的比对位置、质量信息和匹配方向进行局部重比对，提高对变异的敏感性和准确性，从而得到更可靠的重比对结果。基于参考基因组序列，通过重比对结果对待处理测序数据进行碱基序列差异识别，确定变异位点数据，帮助服务器找出待处理测序数据中与参考基因组序列不一致的碱基，从而识别出可能的变异位点。对变异位点数据进行测序深度分析。测序深度是指对每个碱基进行测序的次数，它用来评估对该碱基的测序可信度。基于测序深度集合，服务器对变异位点数据进行数据过滤，得到过滤变异数据。对过滤变异数据进行变异类型分析。通过比对变异位点的碱基与参考基因组序列的碱基，服务器确定变异类型，例如单核苷酸变异（SNV）或插入缺失等。同时，根据过滤变异数据计算变异频率。变异频率是指在样本中某一变异的出现频率，它用来评估该变异的普遍性和重要性。基于目标变异类型和目标变异频率，进行序列变异识别，得到变异序列数据。这些变异序列数据将包含待处理测序数据中的变异位点及其相关信息，有助于后续对基因变异的深入研究和功能分析。例如，假设服务器对某个个体的基因组进行高通量测序，得到了待处理测序数据。服务器利用之前得到的序列比对结果，遍历数据，获得每个测序序列的比对位置、质量信息和匹配方向。采用变异识别算法对每个测序序列进行局部重比对，得到重比对结果。基于参考基因组序列，服务器将识别出变异位点数据。对变异位点数据进行测序深度分析，得到测序深度集合，并根据深度集合对数据进行过滤，得到过滤变异数据。对过滤变异数据进行变异类型分析，确定目标变异类型。同时，计算变异频率，得到目标变异频率。基于目标变异类型和变异频率，服务器成功实现了序列变异识别，得到了变异序列数据。这些数据将帮助服务器进一步研究个体的基因组变异情况，发现可能的致病突变或相关基因功能，为临床诊断和个性化治疗提供重要的信息。

S106、对变异序列数据进行基因型分析，得到目标基因型数据，并通过目标基因型数据进行生物学信息分析，得到目标生物学信息；

具体的，对变异序列数据进行基因功能注释。通过将变异序列与已知基因组注释信息进行比对，确定变异位点所在的基因以及其可能的功能，帮助服务器了解变异位点是否在编码区域，是否与特定基因功能相关。对目标基因型数据进行关键通路提取。通过将目标基因型数据与生物学通路数据库进行比对，找到目标基因型数据所对应的重要通路。这些通路可能与疾病发生发展或生物过程密切相关。同时，采集历史多样本数据，并将其与目标基因型数据和通路数据进行关联分析。通过这种关联分析，服务器确定变异序列数据与其他样本的变异关联信息，有助于服务器理解变异位点是否与特定疾病或生物过程相关联。基于变异关联信息，从预置的公共信息数据库中进行数据采集，得到目标生物学信息。公共信息数据库可能包含大量的生物学数据、文献资料和基因功能信息。通过从数据库中获取信息，服务器进一步分析变异位点的功能和可能的生物学影响。例如，假设服务器对一组个体的基因组进行高通量测序，得到了变异序列数据。服务器对这些变异序列数据进行基因功能注释，发现其中一些变异位点位于编码区域，并可能影响特定基因的功能。服务器对目标基因型数据进行关键通路提取，发现其中的一些基因与免疫通路相关。这提示这些个体在免疫调节方面可能存在一定的差异。同时，服务器采集历史多样本数据，将其与目标基因型数据和免疫通路数据进行关联分析。结果显示某个变异位点与一种免疫相关疾病有显著关联。基于这一变异关联信息，服务器从公共信息数据库中采集了大量相关的文献和基因功能信息。通过综合分析这些信息，服务器得到了目标生物学信息，发现这个变异位点可能参与调节免疫系统的特定通路，并与某种免疫疾病的发生有关。

S107、对目标生物学信息以及变异序列数据进行数据融合，生成目标分析报告，对目标分析报告进行加密处理，得到目标加密数据，并将目标加密数据传输至预置的数据加密传输终端。

具体的，服务器进行变异位点区域分析。通过比对变异序列数据与参考基因组序列，确定每个变异位点所在的具体区域类型。基因组通常包含编码区、调控区和非编码区。编码区是基因的核苷酸序列，对应蛋白质编码区域；调控区是调控基因表达的序列，参与基因的调控过程；而非编码区是其它不参与编码和调控的区域。进行氨基酸变异类型分析。主要针对编码区的变异位点。通过比对变异位点的核苷酸序列与参考基因组序列，确定是否发生了氨基酸序列的改变。氨基酸变异是由于基因的核苷酸变异而引起的蛋白质氨基酸序列的改变。不同的氨基酸改变可能对蛋白质的结构和功能产生不同程度的影响。进行基因功能注释。通过将变异位点的信息与已知的基因功能数据库进行比对，来确定变异对基因功能的影响。基因功能注释帮助服务器了解每个变异位点所对应的基因型信息，包括其对蛋白质编码的影响以及可能涉及的生物学功能。例如，假设服务器对一个个体的基因组进行高通量测序，得到了变异序列数据。服务器对这些变异序列数据进行变异位点区域分析，发现其中有一些位点位于编码区，而其他一些位点则位于非编码区。服务器进行氨基酸变异类型分析，发现编码区的某个变异位点导致了一个氨基酸的改变。这意味着该变异可能会影响蛋白质的结构和功能。基于这个目标氨基酸变异类型，服务器对变异序列数据进行基因功能注释。比对变异位点信息与已知基因功能数据库，服务器发现这个编码区的变异位点可能影响一个重要的蛋白质功能，可能涉及某种疾病的发生。

本发明实施例中，获取原始测序数据，并对原始测序数据进行格式文件提取，得到目标格式文件，其中，目标格式文件包括测序序列以及质量分数数据；基于目标格式文件，对原始测序数据进行数据清洗，得到待处理测序数据；获取参考基因组序列，对参考基因组序列进行索引参考组序列生成，得到索引参考组序列；通过索引参考组序列对待处理测序数据进行数据比对，得到序列比对结果；基于序列比对结果对待处理测序数据进行序列变异识别，得到变异序列数据；对变异序列数据进行基因型分析，得到目标基因型数据，并通过目标基因型数据进行生物学信息分析，得到目标生物学信息；对目标生物学信息以及变异序列数据进行数据融合，生成目标分析报告，对目标分析报告进行加密处理，得到目标加密数据，并将目标加密数据传输至预置的数据加密传输终端。在本申请方案中，从原始测序数据到目标生物学信息和变异序列数据的获取，涵盖了数据清洗、比对、变异识别、基因型分析和生物学信息分析等关键步骤。通过数据清洗和质量控制，去除低质量和污染序列，保证数据的准确性和可靠性。同时，使用高效的比对算法和变异识别方法，增加变异检测的精确度，降低假阳性率，提高分析结果的可靠性。基于变异信息和功能注释，进行生物学信息分析，揭示变异与基因功能、调控、通路等方面的关联，进一步提高对测序数据分析的准确率。

在一具体实施例中，执行步骤S102的过程具体包括如下步骤：

（1）对目标格式文件进行字符遍历，得到目标格式文件对应的字符串集合；

（2）对字符串集合中每个字符串进行ASCII码分析，得到ASCII码集合；

（3）基于预设的ASCII码阈值，对ASCII码集合进行数据筛选，得到对应的低质量ASCII码；

（4）通过ASCII码对原始测序数据进行低质量序列清洗，得到第一候选测序数据；

（5）对第一候选测序数据进行接头序列分析，确定接头序列集合，并通过接头序列集合对第一候选测序数据进行去接头序列处理，得到第二候选测序数据；

（6）对第二候选测序数据进行重复序列剔除，得到第三候选测序数据；

（7）对第三候选测序数据进行污染序列剔除，得到待处理测序数据。

具体的，服务器对目标格式文件进行字符遍历，从中提取出所需的字符串集合。目标格式文件通常包含测序序列和质量分数数据，字符遍历帮助服务器有效地获取这些信息，以便后续的分析处理。对字符串集合中的每个字符串进行ASCII码分析，将其转换为对应的ASCII码集合。ASCII码是一种用于表示字符的标准编码系统，每个字符都对应一个唯一的ASCII码值。基于预设的ASCII码阈值，对ASCII码集合进行数据筛选，得到对应的低质量ASCII码。预设的ASCII码阈值通常用于指定哪些ASCII码被视为低质量，比如可能对应测序中的读取误差或测序质量较低的部分。通过低质量ASCII码对原始测序数据进行低质量序列清洗，得到第一候选测序数据。这一步骤实际上是去除测序数据中质量较差的部分，以提高后续分析的准确性和可靠性。对第一候选测序数据进行接头序列分析，确定接头序列集合。接头序列是在测序过程中添加的短片段，用于识别样本来源和测序方向等信息。通过分析接头序列，服务器准确识别测序数据的起始位置和方向。通过接头序列集合对第一候选测序数据进行去接头序列处理，得到第二候选测序数据。这一步骤去除测序数据中的接头序列，使测序数据更加干净和可靠。对第二候选测序数据进行重复序列剔除，得到第三候选测序数据。重复序列是指在测序数据中多次出现的相同片段，可能由于PCR扩增等步骤产生。通过剔除重复序列，减少数据冗余，提高数据质量。对第三候选测序数据进行污染序列剔除，得到待处理测序数据。污染序列可能来自实验过程中的杂质或外源性DNA，对测序结果产生干扰。通过剔除污染序列，服务器获得更纯净的待处理测序数据，用于后续的基因检测和分析。例如，假设服务器进行了一次基因检测高通量测序实验，得到了原始测序数据。服务器对目标格式文件进行字符遍历，提取出测序序列和质量分数数据的字符串集合。对字符串集合中的每个字符串进行ASCII码分析，得到ASCII码集合。根据预设的ASCII码阈值，筛选出低质量ASCII码。通过低质量ASCII码对原始测序数据进行低质量序列清洗，去除质量较差的部分，得到第一候选测序数据。服务器进行接头序列分析，确定接头序列集合，并将其用于去接头序列处理，得到第二候选测序数据。这一步骤帮助服务器去除测序数据中添加的接头序列，保留真正的测序数据。对第二候选测序数据进行重复序列剔除，得到第三候选测序数据。这样减少数据冗余，确保测序数据的独立性。对第三候选测序数据进行污染序列剔除，得到最终的待处理测序数据。这些数据将是经过严格处理的高质量测序数据，可用于后续的基因型分析和生物学信息研究。

在一具体实施例中，如图2所示，执行步骤S103的过程具体包括如下步骤：

S201、获取参考基因组序列，并对参考基因组序列进行数据类型分析，确定目标数据类型；

S202、通过目标数据类型进行索引算法匹配，确定目标索引算法；

S203、通过目标索引算法对参考基因组序列进行索引字符提取，确定目标索引子序列；

S204、通过目标索引子序列对参考基因组序列进行索引参考组序列生成，得到索引参考组序列。

具体的，服务器获取参考基因组序列。参考基因组序列是一个参照物，用于对测序数据进行比对和分析。在基因检测中，通常使用公开数据库或先前测序得到的参考基因组序列。对参考基因组序列进行数据类型分析，确定目标数据类型。参考基因组序列可能来自不同物种，或者是基因组的不同区域（例如染色体或线粒体）。数据类型分析帮助服务器确定参考基因组序列的类型，以便后续选择适当的索引算法和参数。通过目标数据类型进行索引算法匹配，确定目标索引算法。根据参考基因组序列的特性和数据类型，服务器选择适合的索引算法，例如Burrows-Wheeler Transform（BWT）、Hash Table或Suffix Array等。索引算法的选择对于后续的索引字符提取和索引参考组序列生成至关重要，它们影响了索引的速度和精确度。通过目标索引算法对参考基因组序列进行索引字符提取，确定目标索引子序列。索引字符提取是根据所选择的索引算法，将参考基因组序列划分为较短的子序列，并对其进行索引，以方便后续的比对过程。通过目标索引子序列对参考基因组序列进行索引参考组序列生成，得到索引参考组序列。索引参考组序列是参考基因组序列经过索引处理后得到的数据结构，它包含了索引算法所需的信息，以支持后续对待处理测序数据的数据比对。例如，假设服务器对人类基因组进行高通量测序数据的分析。服务器从公开数据库获取了人类基因组的参考序列。服务器进行数据类型分析，确定该参考序列属于人类基因组，并是染色体区域的序列。服务器选择适合人类基因组染色体区域序列的索引算法，比如Burrows-Wheeler Transform（BWT）。通过BWT算法对参考基因组序列进行索引字符提取，得到一系列的索引子序列。通过这些索引子序列对参考基因组序列进行索引参考组序列生成。索引参考组序列是通过BWT算法处理后的数据结构，它提供了高效的索引，用于快速比对待处理测序数据。

在一具体实施例中，如图3所示，执行步骤S104的过程具体包括如下步骤：

S301、通过索引参考组序列对待处理测序数据进行序列位置分析，确定对应的序列位置对；

S302、基于序列位置对进行相似序列提取，确定多个相似序列组；

S303、通过多个相似序列组进行质量分数校验，确定质量分数校验结果；

S304、基于质量分数校验结果对待处理测序数据进行匹配方向分析，确定当前比对匹配方向；

S305、基于当前比对匹配方向对待处理测序数据进行错配分析，确定错配数据；

S306、基于错配数据对多个相似序列组进行数据比对，得到序列比对结果。

具体的，服务器通过索引参考组序列对待处理测序数据进行序列位置分析，确定对应的序列位置对。序列位置分析是将待处理测序数据与索引参考组序列进行比对，找到待处理测序数据中每个序列的对应位置在索引参考组序列中的位置。基于序列位置对，进行相似序列提取，确定多个相似序列组。相似序列提取是根据序列位置对的信息，在索引参考组序列中找到与待处理测序数据相似的序列，形成多个相似序列组。通过多个相似序列组进行质量分数校验，确定质量分数校验结果。质量分数校验是对每个相似序列组进行质量评估，检查待处理测序数据在不同位置的质量分数情况，以确定每个相似序列组的可信度。基于质量分数校验结果，对待处理测序数据进行匹配方向分析，确定当前比对匹配方向。匹配方向分析是通过比较每个相似序列组的质量分数，选择质量最好的比对方向，即确定待处理测序数据与索引参考组序列的匹配方向。基于当前比对匹配方向，对待处理测序数据进行错配分析，确定错配数据。错配分析是在匹配方向的基础上，检查待处理测序数据中可能存在的错配，即测序数据与参考序列不完全匹配的情况。基于错配数据对多个相似序列组进行数据比对，得到序列比对结果。数据比对是将错配数据与相似序列组进行比较，找到最佳的匹配序列，并得到待处理测序数据与参考基因组序列的最终比对结果。例如，假设服务器有一批待处理的测序数据，需要将其与参考基因组进行比对。服务器使用之前生成的索引参考组序列对待处理测序数据进行序列位置分析，找到每个测序数据在参考基因组中的位置。服务器根据序列位置对，在参考基因组序列中提取多个相似序列组。这些相似序列组是与待处理测序数据在相同或相似位置的序列片段。对这些相似序列组进行质量分数校验，评估每个组的质量情况。服务器选取质量较好的相似序列组作为比对的候选。基于质量分数校验结果，服务器确定待处理测序数据的匹配方向，即在参考基因组中选择合适的方向进行比对。服务器对待处理测序数据进行错配分析，查找可能存在的错配情况，比如碱基替换或缺失插入等。通过错配数据与相似序列组进行数据比对，找到最佳的匹配序列，得到待处理测序数据与参考基因组的最终比对结果。这样的比对结果帮助服务器了解待处理测序数据的来源和特征，为后续的变异识别和基因型分析提供重要依据。

在一具体实施例中，如图4所示，执行步骤S105的过程具体包括如下步骤：

S401、对序列比对结果进行数据遍历，得到待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向；

S402、通过变异识别算法对每个测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对，得到重比对结果；

S403、基于参考基因组序列，通过重比对结果对待处理测序数据进行碱基序列差异识别，确定变异位点数据；

S404、对变异位点数据进行测序深度分析，确定测序深度集合，基于测序深度集合对变异位点数据进行数据过滤，得到过滤变异数据；

S405、对过滤变异数据进行变异类型分析，确定目标变异类型，并对过滤变异数据进行变异频率计算，得到目标变异频率；

S406、基于目标变异类型以及目标变异频率进行序列变异识别，得到变异序列数据。

具体的，服务器对序列比对结果进行数据遍历，得到待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向。比对结果记录了每个测序序列在参考基因组中的比对位置，以及比对时的质量信息和匹配方向等重要信息。通过变异识别算法，对每个测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对，得到重比对结果。重比对是对比对结果进行进一步校验和验证，以提高比对的准确性和可信度。基于参考基因组序列，通过重比对结果对待处理测序数据进行碱基序列差异识别，确定变异位点数据。碱基序列差异识别是根据重比对结果，查找待处理测序数据与参考基因组序列之间的碱基差异，即可能存在的变异位点。对变异位点数据进行测序深度分析，确定测序深度集合。测序深度是指在特定位置上测序数据的覆盖深度，即同一位点上测序序列的数量。通过测序深度分析，确定每个变异位点的测序深度。基于测序深度集合，对变异位点数据进行数据过滤，得到过滤变异数据。过滤变异数据是对测序深度较低或质量不高的变异位点进行去除或标记，以确保变异的可靠性和准确性。对过滤变异数据进行变异类型分析，确定目标变异类型，并对过滤变异数据进行变异频率计算，得到目标变异频率。变异类型分析是将变异位点分类为不同类型，比如单核苷酸多态性（SNP）、插入缺失（INDEL）等。变异频率计算是计算每种变异类型在样本中的出现频率。基于目标变异类型以及目标变异频率，进行序列变异识别，得到变异序列数据。序列变异识别是将目标变异类型和频率结合起来，确定最终的变异序列，即样本中出现的真实变异。例如，假设服务器通过序列比对得到了一批待处理测序数据的比对结果，以及与参考基因组的比对位置、质量信息和匹配方向。服务器使用变异识别算法对比对结果进行局部重比对，得到重比对结果。通过重比对，服务器对比对结果进行验证和纠错，提高比对的准确性。基于参考基因组序列，服务器对重比对结果进行碱基序列差异识别，找到可能的变异位点。服务器对变异位点数据进行测序深度分析，计算每个变异位点的测序深度。基于测序深度集合，服务器对变异位点数据进行数据过滤，去除测序深度较低的变异位点。服务器对过滤变异数据进行变异类型分析，将变异位点分类为SNP、INDEL等。服务器计算每种变异类型在样本中的出现频率，得到目标变异频率。基于目标变异类型和频率，进行序列变异识别，得到最终的变异序列数据。服务器成功完成了对待处理测序数据的变异分析，得到了样本中出现的真实变异信息，为后续的基因型分析和生物学信息研究提供了重要依据。

在一具体实施例中，执行步骤S106的过程具体包括如下步骤：

（1）对变异序列数据进行基因功能注释，得到目标基因型数据；

（2）对目标基因型数据进行关键通路提取，得到目标基因型数据对应的通路数据；

（3）采集历史多样本数据，并对历史多样本数据以及通路数据进行关联分析，确定变异序列数据对应的变异关联信息；

（4）基于变异关联信息，从预置的公共信息数据库中进行数据采集，得到目标生物学信息。

具体的，对变异序列数据进行基因功能注释，得到目标基因型数据。基因功能注释是将变异序列与已知的基因组注释信息进行比对和匹配，从而确定每个变异位点所在的基因以及其可能的功能。这样将变异序列数据与具体的基因和基因功能关联起来，为后续的分析提供重要信息。对目标基因型数据进行关键通路提取，得到目标基因型数据对应的通路数据。通路提取是将目标基因型数据中涉及的基因与已知的生物通路信息进行关联，找出与这些基因密切相关的生物通路。这样帮助服务器了解变异序列数据对于生物过程和功能的影响，从而更好地理解其生物学意义。采集历史多样本数据，并对历史多样本数据以及通路数据进行关联分析，确定变异序列数据对应的变异关联信息。历史多样本数据是指之前已经收集的其他样本的测序数据，这些数据用于比较和分析，从而找出与待处理样本中变异序列数据相关的变异关联信息。通过关联分析，服务器发现不同样本之间可能存在的共同变异或相关变异，进一步揭示变异序列数据的功能和生物学意义。基于变异关联信息，从预置的公共信息数据库中进行数据采集，得到目标生物学信息。公共信息数据库是收集了大量的基因和生物学信息的数据库，包含丰富的生物学知识和研究成果。通过变异关联信息，服务器针对性地从数据库中获取与变异序列数据相关的生物学信息，进一步解释其功能和可能的生物学效应。例如，假设服务器已经完成了对变异序列数据的基因功能注释，得到了目标基因型数据，其中包含了与基因对应的变异位点信息和可能的功能注释。服务器从目标基因型数据中提取关键通路信息，发现这些基因与某个特定生物通路密切相关，比如细胞周期调控通路。服务器收集了一批历史多样本数据，并进行了关联分析，发现在不同样本中，这些与细胞周期调控通路相关的基因存在一些共同的变异或相关变异。基于这些变异关联信息，服务器从公共信息数据库中获取了有关细胞周期调控通路的详细生物学信息，包括相关基因的功能、通路调节机制等。服务器得到了目标生物学信息，对于理解变异序列数据的生物学意义和相关生物过程提供了重要线索。

在一具体实施例中，执行对变异序列数据进行基因功能注释，得到目标基因型数据步骤的过程具体包括如下步骤：

（1）对变异序列数据进行变异位点区域分析，确定对应的区域类型集合，其中，区域类型集合包括：编码区、调控区或非编码区；

（2）通过区域类型集合对变异序列数据进行氨基酸变异类型分析，确定对应的目标氨基酸变异类型；

（3）基于目标氨基酸变异类型，对变异序列数据进行基因功能注释，得到目标基因型数据。

具体的，进行变异位点区域分析，确定对应的区域类型集合，其中包括编码区、调控区或非编码区。变异位点区域分析是将变异位点与基因组注释信息进行比对，找到变异位点所在的具体区域类型。编码区是指基因的编码区域，包含了编码蛋白质所需的信息；调控区是指调控基因表达的区域，包括启动子、增强子等；非编码区是指不直接编码蛋白质的区域，但在调控基因表达等方面起着重要作用。通过区域类型集合对变异序列数据进行氨基酸变异类型分析，确定对应的目标氨基酸变异类型。氨基酸变异类型分析是根据变异位点所在的区域类型，预测变异对氨基酸序列的影响。例如，如果变异位点在编码区，可能导致氨基酸序列的改变；如果在调控区，可能影响基因的表达水平。基于目标氨基酸变异类型，对变异序列数据进行基因功能注释，得到目标基因型数据。基因功能注释是将变异位点的氨基酸变异信息与已知的蛋白质功能和结构信息进行比对和匹配，从而预测变异对蛋白质功能的影响。这样将变异序列数据与具体的基因功能关联起来，为后续的基因型分析提供重要信息。例如，假设服务器有一组变异序列数据，经过变异位点区域分析，确定了其中的区域类型集合，包括编码区、调控区和非编码区。服务器进行氨基酸变异类型分析，发现其中的一些变异位点在编码区，导致了氨基酸序列的改变，比如原本的丝氨酸（Ser）变异为苏氨酸（Thr）。服务器对这些变异位点进行基因功能注释，发现这些氨基酸变异位点位于某个重要的蛋白质功能区域，可能影响了蛋白质的结构或功能。根据基因功能注释的结果，服务器得到了目标基因型数据，其中包含了与这些变异位点对应的氨基酸变异信息和可能的功能影响。服务器成功将变异序列数据与基因功能关联起来，为进一步的生物学研究和临床诊断提供了重要线索。

上面对本发明实施例中基因检测高通量测序数据的分析方法进行了描述，下面对本发明实施例中基因检测高通量测序数据的分析系统进行描述，请参阅图5，本发明实施例中基因检测高通量测序数据的分析系统一个实施例包括：

获取模块501，用于获取原始测序数据，并对所述原始测序数据进行格式文件提取，得到目标格式文件，其中，所述目标格式文件包括测序序列以及质量分数数据；

清洗模块502，用于基于所述目标格式文件，对所述原始测序数据进行数据清洗，得到待处理测序数据；

生成模块503，用于获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列；

比对模块504，用于通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果；

识别模块505，用于基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据；

分析模块506，用于对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息；

传输模块507，用于对所述目标生物学信息以及所述变异序列数据进行数据融合，生成目标分析报告，对所述目标分析报告进行加密处理，得到目标加密数据，并将所述目标加密数据传输至预置的数据加密传输终端。

通过上述各个组成部分的协同合作，获取原始测序数据，并对原始测序数据进行格式文件提取，得到目标格式文件，其中，目标格式文件包括测序序列以及质量分数数据；基于目标格式文件，对原始测序数据进行数据清洗，得到待处理测序数据；获取参考基因组序列，对参考基因组序列进行索引参考组序列生成，得到索引参考组序列；通过索引参考组序列对待处理测序数据进行数据比对，得到序列比对结果；基于序列比对结果对待处理测序数据进行序列变异识别，得到变异序列数据；对变异序列数据进行基因型分析，得到目标基因型数据，并通过目标基因型数据进行生物学信息分析，得到目标生物学信息；对目标生物学信息以及变异序列数据进行数据融合，生成目标分析报告，对目标分析报告进行加密处理，得到目标加密数据，并将目标加密数据传输至预置的数据加密传输终端。在本申请方案中，从原始测序数据到目标生物学信息和变异序列数据的获取，涵盖了数据清洗、比对、变异识别、基因型分析和生物学信息分析等关键步骤。通过数据清洗和质量控制，去除低质量和污染序列，保证数据的准确性和可靠性。同时，使用高效的比对算法和变异识别方法，增加变异检测的精确度，降低假阳性率，提高分析结果的可靠性。基于变异信息和功能注释，进行生物学信息分析，揭示变异与基因功能、调控、通路等方面的关联，进一步提高对测序数据分析的准确率。

上面图5从模块化功能实体的角度对本发明实施例中的基因检测高通量测序数据的分析系统进行详细描述，下面从硬件处理的角度对本发明实施例中基因检测高通量测序数据的分析设备进行详细描述。

图6是本发明实施例提供的一种基因检测高通量测序数据的分析设备的结构示意图，该基因检测高通量测序数据的分析设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基因检测高通量测序数据的分析设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基因检测高通量测序数据的分析设备600上执行存储介质630中的一系列指令操作。

基因检测高通量测序数据的分析设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基因检测高通量测序数据的分析设备结构并不构成对基因检测高通量测序数据的分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基因检测高通量测序数据的分析设备，所述基因检测高通量测序数据的分析设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基因检测高通量测序数据的分析方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基因检测高通量测序数据的分析方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory， ROM）、随机存取存储器（random acceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基因检测高通量测序数据的分析方法，其特征在于，所述方法包括：

获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列；具体包括：获取参考基因组序列，参考基因组序列是一个参照物，用于对测序数据进行比对和分析，在基因检测中，使用公开数据库或先前测序得到的参考基因组序列；对参考基因组序列进行数据类型分析，确定目标数据类型，参考基因组序列来自不同物种，或者是基因组的不同区域，数据类型分析确定参考基因组序列的目标数据类型；通过目标数据类型进行索引算法匹配，确定目标索引算法，根据参考基因组序列的特性和数据类型，选择目标索引算法；通过目标索引算法对参考基因组序列进行索引字符提取，确定目标索引子序列，索引字符提取是根据所选择的索引算法，将参考基因组序列划分为较短的子序列，并对子序列进行索引，得到目标索引子序列；通过目标索引子序列对参考基因组序列进行索引参考组序列生成，得到索引参考组序列，索引参考组序列是参考基因组序列经过索引处理后得到的数据结构，索引参考组序列包含索引算法所需的信息；

通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果；具体包括：通过索引参考组序列对待处理测序数据进行序列位置分析，确定对应的序列位置对，序列位置分析是将待处理测序数据与索引参考组序列进行比对，找到待处理测序数据中每个序列的对应位置在索引参考组序列中的位置；基于序列位置对，进行相似序列提取，确定多个相似序列组，相似序列提取是根据序列位置对的信息，在索引参考组序列中找到与待处理测序数据相似的序列，形成多个相似序列组；通过多个相似序列组进行质量分数校验，确定质量分数校验结果，质量分数校验是对每个相似序列组进行质量评估，检查待处理测序数据在不同位置的质量分数情况，以确定每个相似序列组的可信度；基于质量分数校验结果，对待处理测序数据进行匹配方向分析，确定当前比对匹配方向，匹配方向分析是通过比较每个相似序列组的质量分数，选择质量最好的比对方向，即确定待处理测序数据与索引参考组序列的匹配方向；基于当前比对匹配方向，对待处理测序数据进行错配分析，确定错配数据，错配分析是在匹配方向的基础上，检查待处理测序数据中可能存在的错配，即测序数据与参考序列不完全匹配的情况；基于错配数据对多个相似序列组进行数据比对，得到序列比对结果，数据比对是将错配数据与相似序列组进行比较，找到最佳的匹配序列，并得到待处理测序数据与参考基因组序列的序列比对结果；

基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据；具体包括：对序列比对结果进行数据遍历，得到待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向，比对结果记录了每个测序序列在参考基因组中的比对位置，以及比对时的质量信息和匹配方向；通过变异识别算法，对每个测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对，得到重比对结果，重比对是对比对结果进行进一步校验和验证；基于参考基因组序列，通过重比对结果对待处理测序数据进行碱基序列差异识别，确定变异位点数据，碱基序列差异识别是根据重比对结果，查找待处理测序数据与参考基因组序列之间的碱基差异，即可能存在的变异位点；对变异位点数据进行测序深度分析，确定测序深度集合，测序深度集合是指在目标位置上测序数据的覆盖深度，即同一位点上测序序列的数量，通过测序深度分析，确定每个变异位点的测序深度；基于测序深度集合，对变异位点数据进行数据过滤，得到过滤变异数据，过滤变异数据是对测序深度较低或质量不高的变异位点进行去除或标记；对过滤变异数据进行变异类型分析，确定目标变异类型，并对过滤变异数据进行变异频率计算，得到目标变异频率，变异类型分析是将变异位点分类为不同类型，变异频率计算是计算每种变异类型在样本中的出现频率；基于目标变异类型以及目标变异频率，进行序列变异识别，得到变异序列数据，序列变异识别是将目标变异类型和频率结合起来，确定最终的变异序列数据，即样本中出现的真实变异；

对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息；具体包括：对变异序列数据进行基因功能注释，得到目标基因型数据，基因功能注释是将变异序列与已知的基因组注释信息进行比对和匹配，从而确定每个变异位点所在的基因以及功能；对目标基因型数据进行关键通路提取，得到目标基因型数据对应的通路数据，通路提取是将目标基因型数据中涉及的基因与已知的生物通路信息进行关联，找出与这些基因密切相关的生物通路；采集历史多样本数据，并对历史多样本数据以及通路数据进行关联分析，确定变异序列数据对应的变异关联信息，历史多样本数据是指之前已经收集的其他样本的测序数据，用于比较和分析，从而找出与待处理样本中变异序列数据相关的变异关联信息；通过关联分析，服务器发现不同样本之间可能存在的共同变异或相关变异；基于变异关联信息，从预置的公共信息数据库中进行数据采集，得到目标生物学信息；通过变异关联信息，服务器针对性地从数据库中获取与变异序列数据相关的目标生物学信息；其中，进行变异位点区域分析，确定对应的区域类型集合，区域类型集合包括编码区、调控区或非编码区，变异位点区域分析是将变异位点与基因组注释信息进行比对，找到变异位点所在的具体区域类型，编码区是指基因的编码区域，包含了编码蛋白质所需的信息；调控区是指调控基因表达的区域，包括启动子、增强子；非编码区是指不直接编码蛋白质的区域；通过区域类型集合对变异序列数据进行氨基酸变异类型分析，确定对应的目标氨基酸变异类型，氨基酸变异类型分析是根据变异位点所在的区域类型，预测变异对氨基酸序列的影响；基于目标氨基酸变异类型，对变异序列数据进行基因功能注释，得到目标基因型数据，基因功能注释是将变异位点的氨基酸变异信息与已知的蛋白质功能和结构信息进行比对和匹配，从而预测变异对蛋白质功能的影响；

2.根据权利要求1所述的基因检测高通量测序数据的分析方法，其特征在于，所述基于所述目标格式文件，对所述原始测序数据进行数据清洗，得到待处理测序数据，包括：

3.一种基因检测高通量测序数据的分析系统，其特征在于，所述基因检测高通量测序数据的分析系统包括：

生成模块，用于获取参考基因组序列，对所述参考基因组序列进行索引参考组序列生成，得到索引参考组序列；具体包括：获取参考基因组序列，参考基因组序列是一个参照物，用于对测序数据进行比对和分析，在基因检测中，使用公开数据库或先前测序得到的参考基因组序列；对参考基因组序列进行数据类型分析，确定目标数据类型，参考基因组序列来自不同物种，或者是基因组的不同区域，数据类型分析确定参考基因组序列的目标数据类型；通过目标数据类型进行索引算法匹配，确定目标索引算法，根据参考基因组序列的特性和数据类型，选择目标索引算法；通过目标索引算法对参考基因组序列进行索引字符提取，确定目标索引子序列，索引字符提取是根据所选择的索引算法，将参考基因组序列划分为较短的子序列，并对子序列进行索引，得到目标索引子序列；通过目标索引子序列对参考基因组序列进行索引参考组序列生成，得到索引参考组序列，索引参考组序列是参考基因组序列经过索引处理后得到的数据结构，索引参考组序列包含索引算法所需的信息；

比对模块，用于通过所述索引参考组序列对所述待处理测序数据进行数据比对，得到序列比对结果；具体包括：通过索引参考组序列对待处理测序数据进行序列位置分析，确定对应的序列位置对，序列位置分析是将待处理测序数据与索引参考组序列进行比对，找到待处理测序数据中每个序列的对应位置在索引参考组序列中的位置；基于序列位置对，进行相似序列提取，确定多个相似序列组，相似序列提取是根据序列位置对的信息，在索引参考组序列中找到与待处理测序数据相似的序列，形成多个相似序列组；通过多个相似序列组进行质量分数校验，确定质量分数校验结果，质量分数校验是对每个相似序列组进行质量评估，检查待处理测序数据在不同位置的质量分数情况，以确定每个相似序列组的可信度；基于质量分数校验结果，对待处理测序数据进行匹配方向分析，确定当前比对匹配方向，匹配方向分析是通过比较每个相似序列组的质量分数，选择质量最好的比对方向，即确定待处理测序数据与索引参考组序列的匹配方向；基于当前比对匹配方向，对待处理测序数据进行错配分析，确定错配数据，错配分析是在匹配方向的基础上，检查待处理测序数据中可能存在的错配，即测序数据与参考序列不完全匹配的情况；基于错配数据对多个相似序列组进行数据比对，得到序列比对结果，数据比对是将错配数据与相似序列组进行比较，找到最佳的匹配序列，并得到待处理测序数据与参考基因组序列的序列比对结果；

识别模块，用于基于所述序列比对结果对所述待处理测序数据进行序列变异识别，得到变异序列数据；具体包括：对序列比对结果进行数据遍历，得到待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向，比对结果记录了每个测序序列在参考基因组中的比对位置，以及比对时的质量信息和匹配方向；通过变异识别算法，对每个测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对，得到重比对结果，重比对是对比对结果进行进一步校验和验证；基于参考基因组序列，通过重比对结果对待处理测序数据进行碱基序列差异识别，确定变异位点数据，碱基序列差异识别是根据重比对结果，查找待处理测序数据与参考基因组序列之间的碱基差异，即可能存在的变异位点；对变异位点数据进行测序深度分析，确定测序深度集合，测序深度集合是指在目标位置上测序数据的覆盖深度，即同一位点上测序序列的数量，通过测序深度分析，确定每个变异位点的测序深度；基于测序深度集合，对变异位点数据进行数据过滤，得到过滤变异数据，过滤变异数据是对测序深度较低或质量不高的变异位点进行去除或标记；对过滤变异数据进行变异类型分析，确定目标变异类型，并对过滤变异数据进行变异频率计算，得到目标变异频率，变异类型分析是将变异位点分类为不同类型，变异频率计算是计算每种变异类型在样本中的出现频率；基于目标变异类型以及目标变异频率，进行序列变异识别，得到变异序列数据，序列变异识别是将目标变异类型和频率结合起来，确定最终的变异序列数据，即样本中出现的真实变异；

分析模块，用于对所述变异序列数据进行基因型分析，得到目标基因型数据，并通过所述目标基因型数据进行生物学信息分析，得到目标生物学信息；具体包括：对变异序列数据进行基因功能注释，得到目标基因型数据，基因功能注释是将变异序列与已知的基因组注释信息进行比对和匹配，从而确定每个变异位点所在的基因以及功能；对目标基因型数据进行关键通路提取，得到目标基因型数据对应的通路数据，通路提取是将目标基因型数据中涉及的基因与已知的生物通路信息进行关联，找出与这些基因密切相关的生物通路；采集历史多样本数据，并对历史多样本数据以及通路数据进行关联分析，确定变异序列数据对应的变异关联信息，历史多样本数据是指之前已经收集的其他样本的测序数据，用于比较和分析，从而找出与待处理样本中变异序列数据相关的变异关联信息；通过关联分析，服务器发现不同样本之间可能存在的共同变异或相关变异；基于变异关联信息，从预置的公共信息数据库中进行数据采集，得到目标生物学信息；通过变异关联信息，服务器针对性地从数据库中获取与变异序列数据相关的目标生物学信息；其中，进行变异位点区域分析，确定对应的区域类型集合，区域类型集合包括编码区、调控区或非编码区，变异位点区域分析是将变异位点与基因组注释信息进行比对，找到变异位点所在的具体区域类型，编码区是指基因的编码区域，包含了编码蛋白质所需的信息；调控区是指调控基因表达的区域，包括启动子、增强子；非编码区是指不直接编码蛋白质的区域；通过区域类型集合对变异序列数据进行氨基酸变异类型分析，确定对应的目标氨基酸变异类型，氨基酸变异类型分析是根据变异位点所在的区域类型，预测变异对氨基酸序列的影响；基于目标氨基酸变异类型，对变异序列数据进行基因功能注释，得到目标基因型数据，基因功能注释是将变异位点的氨基酸变异信息与已知的蛋白质功能和结构信息进行比对和匹配，从而预测变异对蛋白质功能的影响；

4.一种基因检测高通量测序数据的分析设备，其特征在于，所述基因检测高通量测序数据的分析设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基因检测高通量测序数据的分析设备执行如权利要求1-2中任一项所述的基因检测高通量测序数据的分析方法。

5.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-2中任一项所述的基因检测高通量测序数据的分析方法。