CN111723261A

CN111723261A - 基于搜索引擎的dna比对算法

Info

Publication number: CN111723261A
Application number: CN201910220018.5A
Authority: CN
Inventors: 顾琼
Original assignee: Kunming Counterfire Technology Co ltd
Current assignee: Kunming Counterfire Technology Co ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-29
Anticipated expiration: 2039-03-22
Also published as: CN111723261B

Abstract

基于搜索引擎的DNA比对算法，它涉及计算机软件领域。它由数据存储、规则设置、发送比对、结果渲染四部分组成；具体的流程步骤如下：A1、数据池建立；A2、数据入库；A3、数据索引建立；A4、按照比对模式、应用场景设置比对规则；A5、发送数据比对请求；A6、组合比对关键信息；A7、向系统发送比对请求；A8、比对内容进行词法分析；A9、比对内容进行语法分析；A10、比对内容进行语言处理；A11、搜索索引，得到符合语法树的文档集合；A12、对结果进行排序；A13、返回比中结果，对结果进行渲染展示。本发明有益效果为：提供基于搜索引擎的DNA比对算法，以搜索引擎为技术框架，实现DNA基因序列快速比对。

Description

基于搜索引擎的DNA比对算法

技术领域

本发明涉及计算机软件技术领域，具体涉及基于搜索引擎的DNA比对算法。

背景技术

随着DNA检验技术的发展，微量检验、Y-STR、X-STR检验及SNP测序等技术在案侦工作中也发挥着愈来愈重要的作用。目前市场上有大量DNA实验室管理相关系统，该类系统大量整合实验室相关工作比如送检系统、实验室管理系统、DNA数据库等，更多的关注实验室管理过程。在DNA比对方面使用基于传统的关系型数据库，使用传统逐个基因逐个位点比对的算法来完成DNA比对工作。传统比对方式不仅在比对效率上不能满足实际应用场景需要，且在比对灵活性、拓展性方面也存在局限。如何深度结合实际应用场景，研发符合实际需要，支持灵活扩展、快速比对的DNA比对算法是DNA基因序列比对研究领域需要解决的一个问题。现有数据比对技术，基本上均立足于传统关系型数据库，随着数据量不断积累，关系型数据库的在查询效率方面存在的问题日益突出。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供基于搜索引擎的DNA比对算法，以搜索引擎为技术框架，实现DNA基因序列快速比对。

为实现上述目的，本发明采用以下技术方案是：它由数据存储、规则设置、发送比对、结果渲染四部分组成；具体的流程步骤如下：

A1、数据池建立；

A2、数据入库；

A3、数据索引建立；

A4、按照比对模式、应用场景设置符合应用效果的比对规则；

A5、发送数据比对请求；

A6、组合比对关键信息；

A7、向系统发送比对请求；

A8、比对内容进行词法分析；

A9、比对内容进行语法分析；

A10、比对内容进行语言处理；

A11、搜索索引，得到符合语法树的文档集合；

A12、根据比对内容与文档的相关性以及预先设置规则，对结果进行排序；

A13、返回比中结果，对结果进行渲染展示。

基于搜索引擎的DNA比对算法，它的操作步骤如下：

S1、整合基础数据，梳理所有试剂盒对应基因座情况，建立基础数据池数据规则；

S2、按照数据规则，清洗基础数入库，对空值或不符合规则数据进行预处理；

S3、建立数据索引，建成基础数据池；

S4、建立新的增量数据入库调度任务，确保新数据实时入库；

S5、设置基因座匹配下限，根据比对数据类型、检测试剂盒类型不进行同设置；

S6、设置基因容差上限，人类基因遗传特性决定人类遗传基因存在突变情况，所以需要设置容差上限即允许出现几个位点不同时仍然视为比中；

S7、支持手工录入比对数据，用户选择试剂盒按照位点顺序，逐个录入基因座信息；

S8、支持codis文件导入数据，自动实现codis文件解析，解析后用户选择对应数据进行比对；

S9、源数据进行比对后，比对结果保存且在页面渲染展示；

S10、比对结果展示后，用户二次判定为比中或未比中，未比中的做排除操作；

S11、用户根据实际需要，可将比中结果推送至其他接口。

所述S5的具体设置规则如下：

B1、三联体亲缘比对应设置至少15个基因座比中；

B2、STR同一认定应设置至少13个基因座比中；

B3、YSTR家族特征比对应设置至少16个基因座比中。

所述S6中基因容差上限的值的设定由比对人员根据实际情况设定。

所述S11中的其他接口包含有邮件接口、数据库、ftp。

本发明的工作原理：现有数据比对技术，基本上均立足于传统关系型数据库，随着数据量不断积累，关系型数据库的在查询效率方面存在的问题目益突出；本发明，从底层跳出传统解决方案思维模式，基于搜索引擎，搭建DNA比对索引数据库，摒弃传统顺序扫描法，建立数据索引，以索引查找方式实现DNA序列比对。在进行数据比对时，对比对内容进行词法分析、语法分析、语言处理；搜索索引，得到符合语法树的文档集合；根据比对内容与文档的相关性，对结果进行排序。

采用上述技术方案后，本发明有益效果为：提供基于搜索引擎的DNA比对算法，以搜索引擎为技术框架，实现DNA基因序列快速比对。本发明引入大数据技术解决传统比对问题。本发明采用分布式架构，分布式索引和比对能力，能满足高并发要求。本发明支持更多格式的数据，满足多元化业务场景。本发明灵活配置，支持自定义比对规则、比对结果渲染。本发明支持数据规模庞大，数据规模支持从几百万到百亿级别。本发明时效性高，数据即入库即使用。本发明比对速度快，千万级别数据毫秒级别响应。本发明应用范围广，从DNA比对领域到文件分析比对等领域均适用。本发明实施部署要求低，普通配置PC机部署即可支持百万级别数据比对应用。可根据实际应用场景按需配置服务器，降低硬件成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的总体流程示意图；

图2是本发明的手动录入基因座信息的示意图；

图3是本发明的codis文件内容的示意图。

具体实施方式

参看图1-图3所示，本具体实施方式采用的技术方案是：它由数据存储、规则设置、发送比对、结果渲染四部分组成；具体的流程步骤如下：

A1、数据池建立；

A2、数据入库；

A3、数据索引建立；

A5、发送数据比对请求；

A6、组合比对关键信息；

A7、向系统发送比对请求；

A8、比对内容进行词法分析；

A9、比对内容进行语法分析；

A10、比对内容进行语言处理；

A11、搜索索引，得到符合语法树的文档集合；

A13、返回比中结果，对结果进行渲染展示。

基于搜索引擎的DNA比对算法，它的操作步骤如下：

S3、建立数据索引，建成基础数据池；

S9、源数据进行比对后，比对结果保存且在页面渲染展示；

S11、用户根据实际需要，可将比中结果推送至其他接口。

所述S5的具体设置规则如下：

B1、三联体亲缘比对应设置至少15个基因座比中；

B2、STR同一认定应设置至少13个基因座比中；

B3、YSTR家族特征比对应设置至少16个基因座比中。

所述S11中的其他接口包含有邮件接口、数据库、ftp。

本发明的基于搜索引擎的DNA比对算法目前应用于云南省公安厅刑事技术侦查总队刑事技术检验办公室，该项技术初次投入实战应用时，当天比对案件数十起，比中犯罪嫌疑人十余人，创造了系统上线首日破获案件记录。

本发明的工作原理：现有数据比对技术，基本上均立足于传统关系型数据库，随着数据量不断积累，关系型数据库的在查询效率方面存在的问题日益突出；本发明，从底层跳出传统解决方案思维模式，基于搜索引擎，搭建DNA比对索引数据库，摒弃传统顺序扫描法，建立数据索引，以索引查找方式实现DNA序列比对。在进行数据比对时，对比对内容进行词法分析、语法分析、语言处理；搜索索引，得到符合语法树的文档集合；根据比对内容与文档的相关性，对结果进行排序。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于搜索引擎的DNA比对算法，其特征在于：它由数据存储、规则设置、发送比对、结果渲染四部分组成；具体的流程步骤如下：

A1、数据池建立；

A2、数据入库；

A3、数据索引建立；

A5、发送数据比对请求；

A6、组合比对关键信息；

A7、向系统发送比对请求；

A8、比对内容进行词法分析；

A9、比对内容进行语法分析；

A10、比对内容进行语言处理；

A11、搜索索引，得到符合语法树的文档集合；

A13、返回比中结果，对结果进行渲染展示。

2.根据权利要求1所述的基于搜索引擎的DNA比对算法，其特征在于，它的操作步骤如下：

S3、建立数据索引，建成基础数据池；

S9、源数据进行比对后，比对结果保存且在页面渲染展示；

S11、用户根据实际需要，可将比中结果推送至其他接口。

3.根据权利要求2所述的基于搜索引擎的DNA比对算法，其特征在于，所述S5的具体设置规则如下：

B1、三联体亲缘比对应设置至少15个基因座比中；

B2、STR同一认定应设置至少13个基因座比中；

B3、YSTR家族特征比对应设置至少16个基因座比中。

4.根据权利要求2所述的基于搜索引擎的DNA比对算法，其特征在于：所述S6中基因容差上限的值的设定由比对人员根据实际情况设定。

5.根据权利要求2所述的基于搜索引擎的DNA比对算法，其特征在于：所述S11中的其他接口包含有邮件接口、数据库、ftp。