CN105117619A - 一种全基因组测序数据分析方法 - Google Patents
一种全基因组测序数据分析方法 Download PDFInfo
- Publication number
- CN105117619A CN105117619A CN201510482857.6A CN201510482857A CN105117619A CN 105117619 A CN105117619 A CN 105117619A CN 201510482857 A CN201510482857 A CN 201510482857A CN 105117619 A CN105117619 A CN 105117619A
- Authority
- CN
- China
- Prior art keywords
- data
- client
- data analysis
- internet
- whole genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。是一种区别于搭建局域网和超算中心的大数据分析解决方法。
Description
技术领域
本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。
背景技术
目前随着第二代基因测序技术的发展,个人的全基因测序已经可以实现,精准医疗就是在全基因组测序技术的出现,解决了全基因测序的成本和速度的问题条件下得以实现的。二代测序技术能够在几天时间内完成一个人的全基因测序,并且实现数十倍于人全基因组的数据量,一般如30倍人的全基因覆盖度,数据相当于900亿个碱基对,数据相当庞大,目前制约二代测序技术的临床应用的瓶颈是如何快速的完成这些数据的分析任务。
目前,全基因组数据的分析手段主要采用超级计算机中心的超级计算机完成,低成本的方式采用搭建小型的服务器工作站,这种方式可以提高计算速度,但是这样分析的成本很高,超级计算机的租金很高,同时资源有限,而采用搭建服务器工作站,需要有专门的技术人员维护和管理,投入成本和维护成本也很高。而,目前有基于云计算的网络服务平台,也提供这样的全基因组分析服务,这种方式,事实上也是租用云计算机存储和计算资源,与租用超级计算机或者租用机房是一个模式。如何有更好的方案,可以解决低成本和快速分析的目的的方法是实现临床全基因组基因检测服务的瓶颈问题。
发明内容
本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。
技术方案流程:
1.测序原始数据文件在本地机上进行重新编码,从而去掉无意义的数据,包括描述测序质量的信息和头文件等,将质量不好的数据进行判断,决策是否去掉等,提高数据密度,减少网络传输总量。
将数据上传到网络服务器主机中,主机收到文件后,主机广播方式对在线的有客户端程序的客户端发放任务消息。
客户端收到任务消息后向主机申请任务。
主机将根据申请的客户端的申请顺序依次发放一定数量的数据。发放的数据量根据每台客户端的网速以及电脑配置等信息进行决策。
客户端收到数据后,对数据进行分析,分析完毕将生成一个结果文件。
客户端将结果文件提交给主机。
主机将客户端上传的结果文件进行合并,完成数据的分析。
系统组成:
包括:1服务器端主机电脑和主机程序,负责将数据向客户端分发和收集客户端上传的结果文件,并完成结果的合并和输出。2客户端电脑和客户端程序,完成接收主机数据和分析工作,并提交分析结果上传给主机。网络实现主机和客户端对话和数据传输。
与现有方法的比较:
本发明的优点,不需要建立服务器机群,不用租用超级计算机中心,可以省下大量的硬件投入和租用费用,已及日常的维护费用。运行速度上,只要有较宽的网络数据传输带宽,就可以实现并行运算的速度。如何保证有足够多的客户端,可以通过给予相应数据分析量的报酬方式,这句是运营问题,这里不讨论。计算机的硬件要求大大降低,服务器端主机的硬件条件只要能满足数据分发的任务和结果合并的硬件要求就可以,普通的服务器主机就可以满足要求,而对于客户端计算机的要求更低,客户端程序可以根据客户端计算机的性能,如cpu和内存的硬件条件,选择计算量和计算内容。
可能存在缺点:由于分发任务和汇总分析结果都需要通过网络进行,因此网络速度是决定分析速度的一个重要因素。目前家用的带宽已经可以提供100Mbps的网速,理论上可以实现10MB/s以上的下载速度,而在一些发达地区或国家,下载速度能够达到50MB/s。未来随着网络建设的完善,我国的普通居民的网速也是会大大提高的。
Claims (5)
1.本发明是一种全基因组测序数据分析方法,是以互联网上的数以万计或更多的互联网用户的电脑作为计算资源,服务器主机上的数据通过互联网分发到互联网上的用户电脑,即客户端进行分析的方法。
2.根据权利要求1,本发明是利用互联网用户的电脑作为计算资源,这与自建局域网或超级计算中心的方案是不同。
3.根据权利要求1,海量数据的分发和结果收集是通过服务器端主机完成。
4.客户端程序可以通过网络将未能分析成功的数据,转发给其他客户端,进行分析。
5.根据权利要求1所述,需要进行分析的海量数据可以是全基因组测序数据,也可以是其他计算量大和计算复杂的大数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482857.6A CN105117619A (zh) | 2015-08-10 | 2015-08-10 | 一种全基因组测序数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482857.6A CN105117619A (zh) | 2015-08-10 | 2015-08-10 | 一种全基因组测序数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105117619A true CN105117619A (zh) | 2015-12-02 |
Family
ID=54665607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510482857.6A Pending CN105117619A (zh) | 2015-08-10 | 2015-08-10 | 一种全基因组测序数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117619A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017173968A1 (zh) * | 2016-04-08 | 2017-10-12 | 华为技术有限公司 | 用于基因分析的资源分配方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100228496A1 (en) * | 2009-03-09 | 2010-09-09 | Life Technologies Corporation | Methods for the Determination of a Copy Number of a Genomic Sequence in a Biological Sample |
CN101939727A (zh) * | 2007-11-08 | 2011-01-05 | 遗传学金融(巴巴多斯)有限公司 | 执行复杂算法的分布式网络 |
CN102982409A (zh) * | 2012-11-07 | 2013-03-20 | 浪潮电子信息产业股份有限公司 | 一种生物信息学高性能计算平台的信息化管理设计方法 |
CN103714180A (zh) * | 2014-01-08 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种生物信息学数据库系统和数据处理方法 |
-
2015
- 2015-08-10 CN CN201510482857.6A patent/CN105117619A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101939727A (zh) * | 2007-11-08 | 2011-01-05 | 遗传学金融(巴巴多斯)有限公司 | 执行复杂算法的分布式网络 |
US20100228496A1 (en) * | 2009-03-09 | 2010-09-09 | Life Technologies Corporation | Methods for the Determination of a Copy Number of a Genomic Sequence in a Biological Sample |
CN102982409A (zh) * | 2012-11-07 | 2013-03-20 | 浪潮电子信息产业股份有限公司 | 一种生物信息学高性能计算平台的信息化管理设计方法 |
CN103714180A (zh) * | 2014-01-08 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种生物信息学数据库系统和数据处理方法 |
Non-Patent Citations (1)
Title |
---|
朱小宁等: ""基于用户兴趣和能力实现任务分发的众包平台"", 《中国科技论文在线》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017173968A1 (zh) * | 2016-04-08 | 2017-10-12 | 华为技术有限公司 | 用于基因分析的资源分配方法和装置 |
US10853135B2 (en) | 2016-04-08 | 2020-12-01 | Huawei Technologies Co., Ltd. | Resource allocation method and apparatus for gene analysis |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3375141B1 (en) | Systems and methods for distributed network-aware service placement | |
US20190179725A1 (en) | Simulating hosted application performance | |
Mehdipour et al. | FOG-Engine: Towards big data analytics in the fog | |
CN105045856B (zh) | 一种基于Hadoop的大数据遥感卫星数据处理系统 | |
CN102546807B (zh) | 基于云计算架构的网络服务系统 | |
Zhang et al. | MrHeter: improving MapReduce performance in heterogeneous environments | |
Ranjan | Modeling and simulation in performance optimization of big data processing frameworks | |
CN104112049B (zh) | 基于P2P构架的MapReduce任务跨数据中心调度系统及方法 | |
Peres et al. | Distributed self-adjusting tree networks | |
US11321136B2 (en) | Techniques for collective operations in distributed systems | |
Mingsheng | Optimal algorithm for scheduling large divisible workload on heterogeneous system | |
Liu et al. | A Comprehensive Study of Wide Area Data Movement at a Scientific Computing Facility. | |
Li et al. | Ubinn: a communication efficient framework for distributed machine learning in edge computing | |
Theeten et al. | Towards the optimization of a parallel streaming engine for telco applications | |
CN105117619A (zh) | 一种全基因组测序数据分析方法 | |
Gill et al. | Edge AI: A Taxonomy, Systematic Review and Future Directions | |
CN107426728A (zh) | 高性能接入认证处理方法、系统、控制器设备、组网装置 | |
Hu et al. | A proactive auto-scaling scheme with latency guarantees for multi-tenant NFV cloud | |
Fang et al. | GOAT: Gradient scheduling with collaborative in-network aggregation for distributed training | |
Roman et al. | Understanding spark performance in hybrid and multi-site clouds | |
CN109462644A (zh) | 一种用于互联网的在线开发协作系统 | |
Casale et al. | Guest editorial: Special section on advances in big data analytics for management | |
CN105578212B (zh) | 一种大数据中流计算平台下的点对点流媒体实时监测方法 | |
CN111199777B (zh) | 面向生物大数据的流式传输与变异实时挖掘系统及方法 | |
Ando | Multi-GPU Accelerated Processing of Time-Series Data of Huge Academic Backbone Network in ELK Stack |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151202 |