CN111723261A - 基于搜索引擎的dna比对算法 - Google Patents

基于搜索引擎的dna比对算法 Download PDF

Info

Publication number
CN111723261A
CN111723261A CN201910220018.5A CN201910220018A CN111723261A CN 111723261 A CN111723261 A CN 111723261A CN 201910220018 A CN201910220018 A CN 201910220018A CN 111723261 A CN111723261 A CN 111723261A
Authority
CN
China
Prior art keywords
comparison
data
search engine
setting
locus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910220018.5A
Other languages
English (en)
Other versions
CN111723261B (zh
Inventor
顾琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming Counterfire Technology Co ltd
Original Assignee
Kunming Counterfire Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming Counterfire Technology Co ltd filed Critical Kunming Counterfire Technology Co ltd
Priority to CN201910220018.5A priority Critical patent/CN111723261B/zh
Publication of CN111723261A publication Critical patent/CN111723261A/zh
Application granted granted Critical
Publication of CN111723261B publication Critical patent/CN111723261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于搜索引擎的DNA比对算法,它涉及计算机软件领域。它由数据存储、规则设置、发送比对、结果渲染四部分组成;具体的流程步骤如下:A1、数据池建立;A2、数据入库;A3、数据索引建立;A4、按照比对模式、应用场景设置比对规则;A5、发送数据比对请求;A6、组合比对关键信息;A7、向系统发送比对请求;A8、比对内容进行词法分析;A9、比对内容进行语法分析;A10、比对内容进行语言处理;A11、搜索索引,得到符合语法树的文档集合;A12、对结果进行排序;A13、返回比中结果,对结果进行渲染展示。本发明有益效果为:提供基于搜索引擎的DNA比对算法,以搜索引擎为技术框架,实现DNA基因序列快速比对。

Description

基于搜索引擎的DNA比对算法
技术领域
本发明涉及计算机软件技术领域,具体涉及基于搜索引擎的DNA比对算法。
背景技术
随着DNA检验技术的发展,微量检验、Y-STR、X-STR检验及SNP测序等技术在案侦工作中也发挥着愈来愈重要的作用。目前市场上有大量DNA实验室管理相关系统,该类系统大量整合实验室相关工作比如送检系统、实验室管理系统、DNA数据库等,更多的关注实验室管理过程。在DNA比对方面使用基于传统的关系型数据库,使用传统逐个基因逐个位点比对的算法来完成DNA比对工作。传统比对方式不仅在比对效率上不能满足实际应用场景需要,且在比对灵活性、拓展性方面也存在局限。如何深度结合实际应用场景,研发符合实际需要,支持灵活扩展、快速比对的DNA比对算法是DNA基因序列比对研究领域需要解决的一个问题。现有数据比对技术,基本上均立足于传统关系型数据库,随着数据量不断积累,关系型数据库的在查询效率方面存在的问题日益突出。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供基于搜索引擎的DNA比对算法,以搜索引擎为技术框架,实现DNA基因序列快速比对。
为实现上述目的,本发明采用以下技术方案是:它由数据存储、规则设置、发送比对、结果渲染四部分组成;具体的流程步骤如下:
A1、数据池建立;
A2、数据入库;
A3、数据索引建立;
A4、按照比对模式、应用场景设置符合应用效果的比对规则;
A5、发送数据比对请求;
A6、组合比对关键信息;
A7、向系统发送比对请求;
A8、比对内容进行词法分析;
A9、比对内容进行语法分析;
A10、比对内容进行语言处理;
A11、搜索索引,得到符合语法树的文档集合;
A12、根据比对内容与文档的相关性以及预先设置规则,对结果进行排序;
A13、返回比中结果,对结果进行渲染展示。
基于搜索引擎的DNA比对算法,它的操作步骤如下:
S1、整合基础数据,梳理所有试剂盒对应基因座情况,建立基础数据池数据规则;
S2、按照数据规则,清洗基础数入库,对空值或不符合规则数据进行预处理;
S3、建立数据索引,建成基础数据池;
S4、建立新的增量数据入库调度任务,确保新数据实时入库;
S5、设置基因座匹配下限,根据比对数据类型、检测试剂盒类型不进行同设置;
S6、设置基因容差上限,人类基因遗传特性决定人类遗传基因存在突变情况,所以需要设置容差上限即允许出现几个位点不同时仍然视为比中;
S7、支持手工录入比对数据,用户选择试剂盒按照位点顺序,逐个录入基因座信息;
S8、支持codis文件导入数据,自动实现codis文件解析,解析后用户选择对应数据进行比对;
S9、源数据进行比对后,比对结果保存且在页面渲染展示;
S10、比对结果展示后,用户二次判定为比中或未比中,未比中的做排除操作;
S11、用户根据实际需要,可将比中结果推送至其他接口。
所述S5的具体设置规则如下:
B1、三联体亲缘比对应设置至少15个基因座比中;
B2、STR同一认定应设置至少13个基因座比中;
B3、YSTR家族特征比对应设置至少16个基因座比中。
所述S6中基因容差上限的值的设定由比对人员根据实际情况设定。
所述S11中的其他接口包含有邮件接口、数据库、ftp。
本发明的工作原理:现有数据比对技术,基本上均立足于传统关系型数据库,随着数据量不断积累,关系型数据库的在查询效率方面存在的问题目益突出;本发明,从底层跳出传统解决方案思维模式,基于搜索引擎,搭建DNA比对索引数据库,摒弃传统顺序扫描法,建立数据索引,以索引查找方式实现DNA序列比对。在进行数据比对时,对比对内容进行词法分析、语法分析、语言处理;搜索索引,得到符合语法树的文档集合;根据比对内容与文档的相关性,对结果进行排序。
采用上述技术方案后,本发明有益效果为:提供基于搜索引擎的DNA比对算法,以搜索引擎为技术框架,实现DNA基因序列快速比对。本发明引入大数据技术解决传统比对问题。本发明采用分布式架构,分布式索引和比对能力,能满足高并发要求。本发明支持更多格式的数据,满足多元化业务场景。本发明灵活配置,支持自定义比对规则、比对结果渲染。本发明支持数据规模庞大,数据规模支持从几百万到百亿级别。本发明时效性高,数据即入库即使用。本发明比对速度快,千万级别数据毫秒级别响应。本发明应用范围广,从DNA比对领域到文件分析比对等领域均适用。本发明实施部署要求低,普通配置PC机部署即可支持百万级别数据比对应用。可根据实际应用场景按需配置服务器,降低硬件成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的总体流程示意图;
图2是本发明的手动录入基因座信息的示意图;
图3是本发明的codis文件内容的示意图。
具体实施方式
参看图1-图3所示,本具体实施方式采用的技术方案是:它由数据存储、规则设置、发送比对、结果渲染四部分组成;具体的流程步骤如下:
A1、数据池建立;
A2、数据入库;
A3、数据索引建立;
A4、按照比对模式、应用场景设置符合应用效果的比对规则;
A5、发送数据比对请求;
A6、组合比对关键信息;
A7、向系统发送比对请求;
A8、比对内容进行词法分析;
A9、比对内容进行语法分析;
A10、比对内容进行语言处理;
A11、搜索索引,得到符合语法树的文档集合;
A12、根据比对内容与文档的相关性以及预先设置规则,对结果进行排序;
A13、返回比中结果,对结果进行渲染展示。
基于搜索引擎的DNA比对算法,它的操作步骤如下:
S1、整合基础数据,梳理所有试剂盒对应基因座情况,建立基础数据池数据规则;
S2、按照数据规则,清洗基础数入库,对空值或不符合规则数据进行预处理;
S3、建立数据索引,建成基础数据池;
S4、建立新的增量数据入库调度任务,确保新数据实时入库;
S5、设置基因座匹配下限,根据比对数据类型、检测试剂盒类型不进行同设置;
S6、设置基因容差上限,人类基因遗传特性决定人类遗传基因存在突变情况,所以需要设置容差上限即允许出现几个位点不同时仍然视为比中;
S7、支持手工录入比对数据,用户选择试剂盒按照位点顺序,逐个录入基因座信息;
S8、支持codis文件导入数据,自动实现codis文件解析,解析后用户选择对应数据进行比对;
S9、源数据进行比对后,比对结果保存且在页面渲染展示;
S10、比对结果展示后,用户二次判定为比中或未比中,未比中的做排除操作;
S11、用户根据实际需要,可将比中结果推送至其他接口。
所述S5的具体设置规则如下:
B1、三联体亲缘比对应设置至少15个基因座比中;
B2、STR同一认定应设置至少13个基因座比中;
B3、YSTR家族特征比对应设置至少16个基因座比中。
所述S6中基因容差上限的值的设定由比对人员根据实际情况设定。
所述S11中的其他接口包含有邮件接口、数据库、ftp。
本发明的基于搜索引擎的DNA比对算法目前应用于云南省公安厅刑事技术侦查总队刑事技术检验办公室,该项技术初次投入实战应用时,当天比对案件数十起,比中犯罪嫌疑人十余人,创造了系统上线首日破获案件记录。
本发明的工作原理:现有数据比对技术,基本上均立足于传统关系型数据库,随着数据量不断积累,关系型数据库的在查询效率方面存在的问题日益突出;本发明,从底层跳出传统解决方案思维模式,基于搜索引擎,搭建DNA比对索引数据库,摒弃传统顺序扫描法,建立数据索引,以索引查找方式实现DNA序列比对。在进行数据比对时,对比对内容进行词法分析、语法分析、语言处理;搜索索引,得到符合语法树的文档集合;根据比对内容与文档的相关性,对结果进行排序。
采用上述技术方案后,本发明有益效果为:提供基于搜索引擎的DNA比对算法,以搜索引擎为技术框架,实现DNA基因序列快速比对。本发明引入大数据技术解决传统比对问题。本发明采用分布式架构,分布式索引和比对能力,能满足高并发要求。本发明支持更多格式的数据,满足多元化业务场景。本发明灵活配置,支持自定义比对规则、比对结果渲染。本发明支持数据规模庞大,数据规模支持从几百万到百亿级别。本发明时效性高,数据即入库即使用。本发明比对速度快,千万级别数据毫秒级别响应。本发明应用范围广,从DNA比对领域到文件分析比对等领域均适用。本发明实施部署要求低,普通配置PC机部署即可支持百万级别数据比对应用。可根据实际应用场景按需配置服务器,降低硬件成本。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于搜索引擎的DNA比对算法,其特征在于:它由数据存储、规则设置、发送比对、结果渲染四部分组成;具体的流程步骤如下:
A1、数据池建立;
A2、数据入库;
A3、数据索引建立;
A4、按照比对模式、应用场景设置符合应用效果的比对规则;
A5、发送数据比对请求;
A6、组合比对关键信息;
A7、向系统发送比对请求;
A8、比对内容进行词法分析;
A9、比对内容进行语法分析;
A10、比对内容进行语言处理;
A11、搜索索引,得到符合语法树的文档集合;
A12、根据比对内容与文档的相关性以及预先设置规则,对结果进行排序;
A13、返回比中结果,对结果进行渲染展示。
2.根据权利要求1所述的基于搜索引擎的DNA比对算法,其特征在于,它的操作步骤如下:
S1、整合基础数据,梳理所有试剂盒对应基因座情况,建立基础数据池数据规则;
S2、按照数据规则,清洗基础数入库,对空值或不符合规则数据进行预处理;
S3、建立数据索引,建成基础数据池;
S4、建立新的增量数据入库调度任务,确保新数据实时入库;
S5、设置基因座匹配下限,根据比对数据类型、检测试剂盒类型不进行同设置;
S6、设置基因容差上限,人类基因遗传特性决定人类遗传基因存在突变情况,所以需要设置容差上限即允许出现几个位点不同时仍然视为比中;
S7、支持手工录入比对数据,用户选择试剂盒按照位点顺序,逐个录入基因座信息;
S8、支持codis文件导入数据,自动实现codis文件解析,解析后用户选择对应数据进行比对;
S9、源数据进行比对后,比对结果保存且在页面渲染展示;
S10、比对结果展示后,用户二次判定为比中或未比中,未比中的做排除操作;
S11、用户根据实际需要,可将比中结果推送至其他接口。
3.根据权利要求2所述的基于搜索引擎的DNA比对算法,其特征在于,所述S5的具体设置规则如下:
B1、三联体亲缘比对应设置至少15个基因座比中;
B2、STR同一认定应设置至少13个基因座比中;
B3、YSTR家族特征比对应设置至少16个基因座比中。
4.根据权利要求2所述的基于搜索引擎的DNA比对算法,其特征在于:所述S6中基因容差上限的值的设定由比对人员根据实际情况设定。
5.根据权利要求2所述的基于搜索引擎的DNA比对算法,其特征在于:所述S11中的其他接口包含有邮件接口、数据库、ftp。
CN201910220018.5A 2019-03-22 2019-03-22 基于搜索引擎的dna比对算法 Active CN111723261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910220018.5A CN111723261B (zh) 2019-03-22 2019-03-22 基于搜索引擎的dna比对算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910220018.5A CN111723261B (zh) 2019-03-22 2019-03-22 基于搜索引擎的dna比对算法

Publications (2)

Publication Number Publication Date
CN111723261A true CN111723261A (zh) 2020-09-29
CN111723261B CN111723261B (zh) 2021-08-13

Family

ID=72562680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910220018.5A Active CN111723261B (zh) 2019-03-22 2019-03-22 基于搜索引擎的dna比对算法

Country Status (1)

Country Link
CN (1) CN111723261B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967759A (zh) * 2021-05-06 2021-06-15 内蒙古博佰网络科技有限公司 基于内存堆栈技术的dna物证鉴定str分型比对方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030195770A1 (en) * 2002-04-16 2003-10-16 Yokogawa Electric Corporation Medical data processing system
WO2013039467A1 (en) * 2011-09-12 2013-03-21 King Saud University Indexing gene expression data to compare gene signatures
CN103744880A (zh) * 2013-12-20 2014-04-23 浪潮(北京)电子信息产业有限公司 一种基于云计算的dna数据管理方法及系统
CN104946632A (zh) * 2015-05-28 2015-09-30 宁波海尔施基因科技有限公司 一种具有增强鉴别能力的常染色体str基因座荧光标记复合扩增试剂盒及其应用
CN105096225A (zh) * 2014-05-13 2015-11-25 深圳华大基因研究院 辅助疾病诊疗的分析系统、装置及方法
CN105925671A (zh) * 2016-04-22 2016-09-07 艾吉泰康生物科技(北京)有限公司 一种从核酸样品富集目标序列核酸的方法
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN107122441A (zh) * 2017-04-24 2017-09-01 浪潮通信信息系统有限公司 一种基于大数据的通信数据检索及呈现方法
CN107122625A (zh) * 2016-02-24 2017-09-01 北京爱普益生物科技有限公司 人类短片段串联重复序列高通量测序信息的处理方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030195770A1 (en) * 2002-04-16 2003-10-16 Yokogawa Electric Corporation Medical data processing system
WO2013039467A1 (en) * 2011-09-12 2013-03-21 King Saud University Indexing gene expression data to compare gene signatures
CN103744880A (zh) * 2013-12-20 2014-04-23 浪潮(北京)电子信息产业有限公司 一种基于云计算的dna数据管理方法及系统
CN105096225A (zh) * 2014-05-13 2015-11-25 深圳华大基因研究院 辅助疾病诊疗的分析系统、装置及方法
CN104946632A (zh) * 2015-05-28 2015-09-30 宁波海尔施基因科技有限公司 一种具有增强鉴别能力的常染色体str基因座荧光标记复合扩增试剂盒及其应用
CN107122625A (zh) * 2016-02-24 2017-09-01 北京爱普益生物科技有限公司 人类短片段串联重复序列高通量测序信息的处理方法
CN105925671A (zh) * 2016-04-22 2016-09-07 艾吉泰康生物科技(北京)有限公司 一种从核酸样品富集目标序列核酸的方法
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN107122441A (zh) * 2017-04-24 2017-09-01 浪潮通信信息系统有限公司 一种基于大数据的通信数据检索及呈现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU-TING CHEN 等: "A Novel High-Throughput Acceleration Engine for Read Alignment", 《2015 IEEE 23RD ANNUAL INTERNATIONAL SYMPOSIUM ON FIELD-PROGRAMMABLE CUSTOM COMPUTING MACHINES》 *
周渝东: "基于 BWT 的快速 DNA 比对系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967759A (zh) * 2021-05-06 2021-06-15 内蒙古博佰网络科技有限公司 基于内存堆栈技术的dna物证鉴定str分型比对方法
CN112967759B (zh) * 2021-05-06 2023-11-14 内蒙古博佰网络科技有限公司 基于内存堆栈技术的dna物证鉴定str分型比对方法

Also Published As

Publication number Publication date
CN111723261B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US6941317B1 (en) Graphical user interface for display and analysis of biological sequence data
Karp et al. Pathway Tools version 13.0: integrated software for pathway/genome informatics and systems biology
Scharf et al. GeneQuiz: a workbench for sequence analysis
Wong Technologies for integrating biological data
Yuan et al. Towards detection of orthologues in sequence databases.
US9798813B2 (en) Extensible person container
CN1290043C (zh) 数据实体和关系数据库结构显示的管理系统和方法
Frishman et al. Comprehensive, comprehensible, distributed and intelligent databases: current status.
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN111723261B (zh) 基于搜索引擎的dna比对算法
Ilyas et al. Extracting syntactical patterns from databases
Röhm et al. Data management for high-throughput genomics
AU781841B2 (en) Graphical user interface for display and analysis of biological sequence data
Liu et al. Sequence Alignment/Map format: a comprehensive review of approaches and applications
Ostell et al. The NCBI data model
Altenhoff et al. OMA orthology in 2024: improved prokaryote coverage, ancestral and extant GO enrichment, a revamped synteny viewer and more in the OMA Ecosystem
Chen et al. The Kleisli Query System as a Backbone for Bioinformatics Data Integration and Analysis.
CN114627968A (zh) 一种多模态组学数据管理系统
Hsu et al. Reconfigurable Web wrapper agents for biological information integration
CN102411572B (zh) 生物分子数据的高效共享方法
Markowitz et al. The integrated microbial genomes (IMG) system: a case study in biological data management
CN1841372A (zh) 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN116110499B (zh) 基于生物学的分类计算模型的元件库系统
Haworth The CAFS system today and tomorrow
Ray et al. The PACRAT system: an extensible WWW-based system for correlated sequence retrieval, storage and analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant