CN105117619A - 一种全基因组测序数据分析方法 - Google Patents

一种全基因组测序数据分析方法 Download PDF

Info

Publication number
CN105117619A
CN105117619A CN201510482857.6A CN201510482857A CN105117619A CN 105117619 A CN105117619 A CN 105117619A CN 201510482857 A CN201510482857 A CN 201510482857A CN 105117619 A CN105117619 A CN 105117619A
Authority
CN
China
Prior art keywords
data
client
data analysis
internet
whole genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510482857.6A
Other languages
English (en)
Inventor
杨福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510482857.6A priority Critical patent/CN105117619A/zh
Publication of CN105117619A publication Critical patent/CN105117619A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。是一种区别于搭建局域网和超算中心的大数据分析解决方法。

Description

一种全基因组测序数据分析方法
技术领域
本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。
背景技术
目前随着第二代基因测序技术的发展,个人的全基因测序已经可以实现,精准医疗就是在全基因组测序技术的出现,解决了全基因测序的成本和速度的问题条件下得以实现的。二代测序技术能够在几天时间内完成一个人的全基因测序,并且实现数十倍于人全基因组的数据量,一般如30倍人的全基因覆盖度,数据相当于900亿个碱基对,数据相当庞大,目前制约二代测序技术的临床应用的瓶颈是如何快速的完成这些数据的分析任务。
目前,全基因组数据的分析手段主要采用超级计算机中心的超级计算机完成,低成本的方式采用搭建小型的服务器工作站,这种方式可以提高计算速度,但是这样分析的成本很高,超级计算机的租金很高,同时资源有限,而采用搭建服务器工作站,需要有专门的技术人员维护和管理,投入成本和维护成本也很高。而,目前有基于云计算的网络服务平台,也提供这样的全基因组分析服务,这种方式,事实上也是租用云计算机存储和计算资源,与租用超级计算机或者租用机房是一个模式。如何有更好的方案,可以解决低成本和快速分析的目的的方法是实现临床全基因组基因检测服务的瓶颈问题。
发明内容
本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。
技术方案流程:
1.测序原始数据文件在本地机上进行重新编码,从而去掉无意义的数据,包括描述测序质量的信息和头文件等,将质量不好的数据进行判断,决策是否去掉等,提高数据密度,减少网络传输总量。
将数据上传到网络服务器主机中,主机收到文件后,主机广播方式对在线的有客户端程序的客户端发放任务消息。
客户端收到任务消息后向主机申请任务。
主机将根据申请的客户端的申请顺序依次发放一定数量的数据。发放的数据量根据每台客户端的网速以及电脑配置等信息进行决策。
客户端收到数据后,对数据进行分析,分析完毕将生成一个结果文件。
客户端将结果文件提交给主机。
主机将客户端上传的结果文件进行合并,完成数据的分析。
系统组成:
包括:1服务器端主机电脑和主机程序,负责将数据向客户端分发和收集客户端上传的结果文件,并完成结果的合并和输出。2客户端电脑和客户端程序,完成接收主机数据和分析工作,并提交分析结果上传给主机。网络实现主机和客户端对话和数据传输。
与现有方法的比较:
本发明的优点,不需要建立服务器机群,不用租用超级计算机中心,可以省下大量的硬件投入和租用费用,已及日常的维护费用。运行速度上,只要有较宽的网络数据传输带宽,就可以实现并行运算的速度。如何保证有足够多的客户端,可以通过给予相应数据分析量的报酬方式,这句是运营问题,这里不讨论。计算机的硬件要求大大降低,服务器端主机的硬件条件只要能满足数据分发的任务和结果合并的硬件要求就可以,普通的服务器主机就可以满足要求,而对于客户端计算机的要求更低,客户端程序可以根据客户端计算机的性能,如cpu和内存的硬件条件,选择计算量和计算内容。
可能存在缺点:由于分发任务和汇总分析结果都需要通过网络进行,因此网络速度是决定分析速度的一个重要因素。目前家用的带宽已经可以提供100Mbps的网速,理论上可以实现10MB/s以上的下载速度,而在一些发达地区或国家,下载速度能够达到50MB/s。未来随着网络建设的完善,我国的普通居民的网速也是会大大提高的。

Claims (5)

1.本发明是一种全基因组测序数据分析方法,是以互联网上的数以万计或更多的互联网用户的电脑作为计算资源,服务器主机上的数据通过互联网分发到互联网上的用户电脑,即客户端进行分析的方法。
2.根据权利要求1,本发明是利用互联网用户的电脑作为计算资源,这与自建局域网或超级计算中心的方案是不同。
3.根据权利要求1,海量数据的分发和结果收集是通过服务器端主机完成。
4.客户端程序可以通过网络将未能分析成功的数据,转发给其他客户端,进行分析。
5.根据权利要求1所述,需要进行分析的海量数据可以是全基因组测序数据,也可以是其他计算量大和计算复杂的大数据。
CN201510482857.6A 2015-08-10 2015-08-10 一种全基因组测序数据分析方法 Pending CN105117619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510482857.6A CN105117619A (zh) 2015-08-10 2015-08-10 一种全基因组测序数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510482857.6A CN105117619A (zh) 2015-08-10 2015-08-10 一种全基因组测序数据分析方法

Publications (1)

Publication Number Publication Date
CN105117619A true CN105117619A (zh) 2015-12-02

Family

ID=54665607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510482857.6A Pending CN105117619A (zh) 2015-08-10 2015-08-10 一种全基因组测序数据分析方法

Country Status (1)

Country Link
CN (1) CN105117619A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173968A1 (zh) * 2016-04-08 2017-10-12 华为技术有限公司 用于基因分析的资源分配方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228496A1 (en) * 2009-03-09 2010-09-09 Life Technologies Corporation Methods for the Determination of a Copy Number of a Genomic Sequence in a Biological Sample
CN101939727A (zh) * 2007-11-08 2011-01-05 遗传学金融(巴巴多斯)有限公司 执行复杂算法的分布式网络
CN102982409A (zh) * 2012-11-07 2013-03-20 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的信息化管理设计方法
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101939727A (zh) * 2007-11-08 2011-01-05 遗传学金融(巴巴多斯)有限公司 执行复杂算法的分布式网络
US20100228496A1 (en) * 2009-03-09 2010-09-09 Life Technologies Corporation Methods for the Determination of a Copy Number of a Genomic Sequence in a Biological Sample
CN102982409A (zh) * 2012-11-07 2013-03-20 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的信息化管理设计方法
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱小宁等: ""基于用户兴趣和能力实现任务分发的众包平台"", 《中国科技论文在线》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173968A1 (zh) * 2016-04-08 2017-10-12 华为技术有限公司 用于基因分析的资源分配方法和装置
US10853135B2 (en) 2016-04-08 2020-12-01 Huawei Technologies Co., Ltd. Resource allocation method and apparatus for gene analysis

Similar Documents

Publication Publication Date Title
EP3407562B1 (en) Coflow recognition method and system, and server using method
Klauck et al. Distributed computation of large-scale graph problems
US20190179725A1 (en) Simulating hosted application performance
Pandurangan et al. On the distributed complexity of large-scale graph computations
Mehdipour et al. FOG-Engine: Towards big data analytics in the fog
CN102546807B (zh) 基于云计算架构的网络服务系统
Zhang et al. MrHeter: improving MapReduce performance in heterogeneous environments
Peres et al. Distributed self-adjusting tree networks
CN104112049B (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
Thakkar et al. Renda: resource and network aware data placement algorithm for periodic workloads in cloud
CN104410699A (zh) 一种开放式云计算资源管理方法及系统
CN104615945A (zh) 一种基于多gpu破解设备的密码破解方法和系统
Martyshkin et al. Queueing Theory to Describe Adaptive Mathematical Models of Computational Systems with Resource Virtualization and Model Verification by Similarly Configured Virtual Server
Li et al. Ubinn: a communication efficient framework for distributed machine learning in edge computing
Li et al. Performance analysis of service clouds serving composite service application jobs
CN103747439B (zh) 无线控制器设备、无线认证处理方法、系统、组网
CN105117619A (zh) 一种全基因组测序数据分析方法
Minkenberg et al. End-to-end modeling and simulation of high-performance computing systems
Roman et al. Understanding spark performance in hybrid and multi-site clouds
CN109462644A (zh) 一种用于互联网的在线开发协作系统
Hu et al. A proactive auto-scaling scheme with latency guarantees for multi-tenant NFV cloud
Casale et al. Guest editorial: Special section on advances in big data analytics for management
CN105578212B (zh) 一种大数据中流计算平台下的点对点流媒体实时监测方法
Wei et al. Mssa-fl: High-performance multi-stage semi-asynchronous federated learning with non-IID data
Fang et al. Accelerating Distributed Training With Collaborative In-Network Aggregation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151202