CN115620802B

CN115620802B - 一种基因数据的处理方法及系统

Info

Publication number: CN115620802B
Application number: CN202211073417.1A
Authority: CN
Inventors: 石传煜; 刘晓明; 王冠
Original assignee: Manzhiyan Bio Technology Co ltd
Current assignee: Manzhiyan Bio Technology Co ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-12-05
Anticipated expiration: 2042-09-02
Also published as: CN115620802A

Abstract

本发明提供了一种基因数据的处理方法及系统；其中，所述方法包括：接收初始的第一基因检测数据；使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据；获取所述第一基因检测数据的第一属性数据，根据所述第一属性数据确定第二识别模型；使用所述第二识别模型对所述第二基因检测数据进行第二异常处理，以获得第三基因检测数据。本发明使用第一识别模型对初始基因数据中的明显异常数据进行识别与处理，再使用第二识别模型来其中的不明显异常数据进行识别及处理，从而分步实现对基因检测数据中的异常数据的筛除，使得进行基因数据分析时所基于的数据的准确性，从而保证了基因分析报告的准确性。

Description

一种基因数据的处理方法及系统

技术领域

本发明涉及基因检测技术领域，具体而言，涉及一种基因数据的处理方法、系统、电子设备及计算机存储介质。

背景技术

基因是遗传的基本单元，携带有遗传信息的DNA或RNA序列，通过复制，把遗传信息传递给下一代，指导蛋白质的合成来表达自己所携带的遗传信息，从而控制生物个体的性状表达。

基因检测是通过血液、其他体液或细胞对DNA进行检测的技术，是取被检测者外周静脉血或其他组织细胞，扩增其基因信息后，通过特定设备对被检测者细胞中的DNA分子信息作检测，分析它所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法，从而使人们能了解自己的基因信息，明确病因或预知身体患某种疾病的风险。基因检测也可以用于分析其它身体健康状况，例如可以通过分析基因检测数据获得皮肤的敏感、抗光、抗糖、抗皱、抗氧化等参数。

初始采集的基因数据的数据量一般较大，所以在进行数据传输之前一般需要进行压缩处理即处理，以提升数据传输效率。同时，基因的后置处理也是十分关键的，在对基因检测数据进行分析处理之前，还需要通过后置处理算法来分析识别其中的异常数据，以确保后续的基因分析报告的准确性。然而，现有技术目前仅能基于预设的标准的异常基因数据识别规则来实施后置处理，该方式仅能处理那些十分明显的异常，而无法准确识别、区分那些不明显的异常，无法满足实际需要。

发明内容

为了至少解决上述背景技术中存在的技术问题，本发明提供了一种基因数据的处理方法、系统、电子设备及计算机存储介质。

本发明的第一方面提供了一种基因数据的处理方法，包括如下步骤：

接收初始的第一基因检测数据；

使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据；

获取所述第一基因检测数据的第一属性数据，根据所述第一属性数据确定第二识别模型；

使用所述第二识别模型对所述第二基因检测数据进行第二异常处理，以获得第三基因检测数据。

进一步地，所述使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据，包括：

所述第一识别模型先将所述第一基因检测数据与第一模板基因数据进行逐段比对，将比对结果不符合预设条件的基因片段确定为第一异常片段；

所述第一识别模型再将所述第一基因检测数据按照基因属性进行分组，计算各所述第一异常片段与对应分组内的其它基因数据的第一匹配度；

将所述第一匹配度低于第一阈值的第一异常片段确定为第二异常片段，对所述第一基因检测数据中的所述第二异常片段进行处理，以获得第二基因检测数据。

进一步地，所述使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据，还包括：

所述第一识别模型根据所述第一基因检测数据确定第二属性数据，根据所述第二属性数据确定若干第二模板基因数据；

计算所述第一基因检测数据与所述第二模板基因数据的第二匹配度，若所述第二匹配度高于第二阈值，则将所述第一基因检测数据判定为异常并处理。

进一步地，所述根据所述第一属性数据确定第二识别模型，包括：

根据所述第一属性数据确定所述第一基因检测数据的用途数据；

根据所述用途数据确定第三识别模型或第四识别模型，将所述第三识别模型或所述第四识别模型作为所述第二识别模型。

进一步地，所述第三识别模型或所述第四识别模型通过如下方式进行训练：

根据所述用途数据构建第一训练集、第二训练集；其中，所述第一训练集和所述第二训练集均经过所述第一异常处理；

将所述第一训练集、所述第二训练集分别输入所述第三识别模型、所述第四识别模型进行训练，直至满足训练指标为止。

进一步地，所述训练指标包括损失函数，如下：

式中，Loss代表损失函数，y_i代表输入到第三识别模型或第四识别模型的第i个训练数据所标注的异常度值，x_i代表与输入的y_i对应的第三识别模型或第四识别模型实际输出的异常度值，n代表已经输入到第三识别模型或第四识别模型的训练数据个数，γ代表调节系数。

进一步地，所述调节系数γ根据所述用途数据确定，具体地：

在所述用途数据与所述第一基因检测数据存在数据准确性关联时，设置所述调节系数γ为第一值；在所述用途数据与所述第一基因检测数据存在数据全面性关联时，设置所述调节系数γ为第二值；

其中，所述第一值小于所述第二值。

本发明的第二方面提供了一种基因数据的处理系统，包括接收模块、处理模块、存储模块；所述处理模块与所述接收模块、所述存储模块连接；

所述存储模块，用于存储可执行的计算机程序代码；

所述接收模块，用于接收第一基因检测数据，并传输给所述处理模块；

所述处理模块，用于通过调用所述存储模块中的所述可执行的计算机程序代码，执行如前任一项所述的方法。

本发明的第三方面提供了一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前任一项所述的方法。

本发明的第四方面提供了一种计算机存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上任一项所述的方法。

本发明的方案，本发明设计了两个识别模型即第一识别模型和第二识别模型，其中，第一识别模型可以采用例如与现有技术相同的预设的标准的异常基因数据识别规则来对初始的第一基因检测数据中的明显异常数据进行识别与处理，然后再基于初始基因检测数据的属性来针对性确定第二识别模型，并使用第二识别模型来对经过初步异常识别及处理的基因检测数据中的不明显异常进行准确识别及处理，从而分步实现对基因检测数据中的异常数据的筛除，使得进行基因数据分析时所基于的数据的准确性，从而保证了基因分析报告的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例公开的一种基因数据的处理方法的流程示意图；

图2是本发明实施例公开的一种基因数据的处理系统的结构示意图；

图3是本发明实施例公开一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本申请实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

下面结合附图详细说明本发明的优选实施例。

请参阅图1，图1是本发明实施例公开的一种基因数据的处理方法的流程示意图。如图1所示，本发明实施例的一种基因数据的处理方法，包括如下步骤：

接收初始的第一基因检测数据；

在本发明实施例中，如背景技术所述，现有技术中的传统后置处理方法都是基于预设标准的异常基因数据识别规则来实施，该方式所基于的识别规则一般是固定且严苛的，导致其仅能识别处理那些十分明显的数据异常情形，而无法准确识别、区分那些不明显的异常。有鉴于此，本发明设计了两个识别模型即第一识别模型和第二识别模型，其中，第一识别模型可以采用例如与现有技术相同的预设标准的异常基因数据识别规则来对初始的第一基因检测数据中的明显异常数据进行识别与处理，然后再基于初始基因检测数据的属性来针对性确定第二识别模型，并使用第二识别模型来对经过初步异常识别及处理的基因检测数据中的不明显异常进行准确识别及处理，从而分步实现对基因检测数据中的异常数据的筛除，使得进行基因数据分析时所基于数据的准确性，从而保证了基因分析报告的准确性。其中，本发明中所涉及的基因检测数据均为基因序列数据，例如DNA序列、mRNA序列以及启动子序列、UTR序列甚至蛋白质序列。

本发明该实施例及后续改进实施例的执行主体可以为布设于检测分析中心的现场处理设备，也可以是位于远端的服务器。现场处理设备包括但不限于中央处理单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等；以及，服务器可以为单台服务器，也可以为多台服务器组成的云服务器集群，例如阿里云、腾讯云等。现场处理设备和服务器之间通过网络进行通信以实现基因检测数据的传输。其中，并非限定而作为例子，网络能够包含：临时网络(ad hoc network)、内联网、外联网、虚拟专用网络(virtual private network：VPN)、局域网(local area network：LAN)、无线LAN(wireless LAN：WLAN)、广域络(wide areanetwork：WAN)、无线WAN(wireless WAN：WWAN)、城域网(metropolitan area network：MAN)、互联网的一部分、公用交换电话网(Public Switched Telephone Network：PSTN)的一部分、移动电话网、ISDN(integrated service digital networks，综合业务数字网)、无线LAN、LTE(long term evolution，长期演进)、CDMA(code division multiple access，码分多址)、蓝牙(Bluetooth)、卫星通信等、或者这些的两个以上的组合。

在本发明实施例中，在确定明显异常的基因数据时，本发明先将检测获得的第一基因检测数据与第一模板基因数据(可基于第一基因检测数据的属性自动或人工筛选确定)逐段比对，从而可以筛选出明显异常的基因片段，这些基因片段组成第一异常片段；然后，再将第一基因检测数据按照基因属性分组处理，从而可以将各第一异常片段划分至对应的分组中，此时通过计算第一异常片段与组内其它基因片段的第一匹配度进一步判定该第一异常片段是否真的为明显异常。其中，可将第一匹配度的判定阈值设置为低，如此便可更为严苛的识别异常数据，有效降低误判的概率。其中的处理方式可以为删除或插值替换，也可以是其它合理处理方式，本发明不再赘述。

需要进行说明的是，可通过平均值、趋势分析、方差等数学计算方式来确定基因片段的第一匹配度，具体不赘述。而基因属性指的是基因数据中各片段所代表的基因类别，本发明使用该类别属性来进行基因数据的分组划分。

在本发明实施例中，前述实施例中的异常主要是技术原因(例如设备异常)导致的异常，而本实施例中的异常则指的是某些人为意外导致的异常，例如基因样本错混。针对该问题，本发明先根据第一基因检测数据确定出第二属性数据，第二属性数据用以描述与第一基因检测数据相关的检测站点/窗口的同时段的其它基因检测项目，据此就可以确定出该站点/窗口同期还在进行的其它检测项目，进而可以确定出与这些基因检测项目所对应的第二模板基因数据。当发现匹配度足够高时，说明该第一基因检测数据是上述意外导致，此时可判定为异常并处理，例如删除、插值替换、提示工作人员进行处理等。

其中，第二匹配度可通过现有技术中的相似度计算方法获得，例如欧氏距离、皮尔逊相关系数、汉明距离等，本发明对此不作限定。

在本发明实施例中，基因检测的目的即用途分许多种类，例如血缘比对、基因研究/疾病诊断等，不同的用途需要对基因数据进行不同程度的异常处理。例如，当用途为基因研究/疾病诊断时，其更侧重于数据的全面性以利于全面分析病因或潜在病因，需要尽可能地保留异常数据以用于分析病因，仅需要将那些明显属于理论错误的异常基因数据删除或插补即可；而对于通过相似度来确定血缘关系的血缘比对项目，其更侧重于数据的准确性，所以可适当的将更多将轻度的、不明显的异常数据删除或插补，以降低这些异常数据的干扰。

具体来说，本发明中的第三识别模型、第四识别模型是通过不同的训练数据集和训练标准训练得出的。第三识别模型、第四识别模型均可通过人工智能算法构建，例如，神经网络算法、决策树算法、Q学习算法等，本发明对此不作限定。

在本发明实施例中，在搭建起第三/四识别模型之后，需要先进行充分的训练才可以确保其识别结果的准确性。对此，本发明给两个识别模型分别构建了训练集，并对训练集均进行了前述的第一异常处理，即对训练集中的基因数据所包含的明显异常的第一基因片段进行处理，仅包括第一匹配度高于第一阈值的、不明显异常的第一异常片段；然后，再利用其对各识别模型进行充分训练。

需要进行说明的是，第一训练集和第二训练集是根据用途数据筛选得出的，即从历史基因检测数据中分别筛选与要求数据全面性的用途和要求数据准确性的用途所对应的基因检测数据。而且，训练集中经过第一异常处理之后的基因检测数据，还通过人工标注的方式对其中包括的不明显异常的第一异常片段进行标注处理，具体可以是异常度值的标注。

进一步地，所述训练指标包括损失函数，如下：

其中，所述第一值小于所述第二值。

在本发明实施例中，本发明构建了上述复合的损失函数，该损失函数可同时适用于第三识别模型和第四识别模型的训练评估，只需要针对性改变调节系数γ即可。举例来说，第三识别模型适用于血缘比对这类要求数据准确性的用途的基因数据异常的识别，设置γ小一些以降低第三识别模型的训练强度，从而可降低其异常识别的准确性(即提升灵敏度)，“误判”概率提升，异常处理之后的剩余数据的准确性得到提升(剩余数据相对变少)；而对于基因研究/疾病诊断这类要求数据全面性的用途的基因数据异常的识别，设置γ大一些以增强第四识别模型的训练强度，从而可提高其异常识别的准确性(即降低灵敏度)，“误判”概率降低，异常处理之后的剩余数据的全面性得到提升(剩余数据相对变多)。

换言之，本发明实施例通过调节系数γ来调节识别模型训练指标即损失函数的大小，从而影响训练过程，进而间接影响识别模型的训练强度，也就调节了识别模型的识别准确性，使得识别模型可以对第二基因数据中的不明显异常数据基于不同的灵敏度进行异常判定，最终达到对数据准确性、全面性的针对性调节。其中，可以通过经验值和数据统计分析来确定相对合理的第一值和第二值；以及，可预先将不同类型的用途与数据准确性、数据全面性分别建立关联关系，在此不再赘述。

请参阅图2，图2是本发明实施例公开的一种基因数据的处理系统的结构示意图。如图2所示，本发明实施例的一种基因数据的处理系统，包括接收模块(101)、处理模块(102)、存储模块(103)；所述处理模块(102)与所述接收模块(101)、所述存储模块(103)连接；

所述存储模块(103)，用于存储可执行的计算机程序代码；

所述接收模块(101)，用于初始的第一基因检测数据，并传输给所述处理模块(102)；

所述处理模块(102)，用于通过调用所述存储模块(103)中的所述可执行的计算机程序代码，执行如前任一项所述的方法。

该实施例中的一种基因数据的处理系统的具体功能参照上述实施例，由于本实施例中的系统采用了上述实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

请参阅图3，图3是本发明实施例公开的一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述实施例所述的方法。

本发明实施例还公开了一种计算机存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如前述实施例所述的方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用的技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明的构思的情况下，还可以包括更多其他等效实施例，均属于本发明的保护范畴。

Claims

1.一种基因数据的处理方法，其特征在于，包括如下步骤：

接收初始的第一基因检测数据；

使用所述第二识别模型对所述第二基因检测数据进行第二异常处理，以获得第三基因检测数据；

其中，所述使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据，包括：

2.根据权利要求1所述的一种基因数据的处理方法，其特征在于：所述使用第一识别模型对所述第一基因检测数据进行第一异常处理，以获得第二基因检测数据，还包括：

3.根据权利要求1或2所述的一种基因数据的处理方法，其特征在于：所述根据所述第一属性数据确定第二识别模型，包括：

4.根据权利要求3所述的一种基因数据的处理方法，其特征在于：所述第三识别模型或所述第四识别模型通过如下方式进行训练：

5.根据权利要求4所述的一种基因数据的处理方法，其特征在于：所述训练指标包括损失函数，如下：

6.根据权利要求5所述的一种基因数据的处理方法，其特征在于：所述调节系数γ根据所述用途数据确定，具体地：

其中，所述第一值小于所述第二值。

7.一种基因数据的处理系统，包括接收模块、处理模块、存储模块；所述处理模块与所述接收模块、所述存储模块连接；

所述存储模块，用于存储可执行的计算机程序代码；

其特征在于：所述处理模块，用于通过调用所述存储模块中的所述可执行的计算机程序代码，执行如权利要求1-6任一项所述的方法。

8.一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；其特征在于：所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-6任一项所述的方法。

9.一种计算机存储介质，该存储介质上存储有计算机程序，其特征在于：该计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。