CN111566741A - 基于原始基因组数据生成可配置文本串 - Google Patents

基于原始基因组数据生成可配置文本串 Download PDF

Info

Publication number
CN111566741A
CN111566741A CN201980007894.8A CN201980007894A CN111566741A CN 111566741 A CN111566741 A CN 111566741A CN 201980007894 A CN201980007894 A CN 201980007894A CN 111566741 A CN111566741 A CN 111566741A
Authority
CN
China
Prior art keywords
genes
configurable
text
text region
configurable text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980007894.8A
Other languages
English (en)
Other versions
CN111566741B (zh
Inventor
A·泽希尔
J·S·齐格勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Memorial Sloan Kettering Cancer Center
Original Assignee
Memorial Sloan Kettering Cancer Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Memorial Sloan Kettering Cancer Center filed Critical Memorial Sloan Kettering Cancer Center
Publication of CN111566741A publication Critical patent/CN111566741A/zh
Application granted granted Critical
Publication of CN111566741B publication Critical patent/CN111566741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基因组数据翻译系统可以被配置成用于处理下一代测序信息。所述系统可以接收包括原始基因组数据的输出文件。所述系统可以解析所述输出文件,以确定对应于各染色体的片段。所述系统可以识别核苷酸范围并确定包括在人类参考基因组列表中的属于所述范围的所述第一组基因。所述系统还可以维护基因的基因列表,并确定匹配的一组基因,这组基因包括在所述基因列表和所述第一组基因中。所述系统可以生成包括不可配置区域和可配置区域的可配置文本串。所述可配置区域可以基于原始基因组数据、一组翻译规则和一组翻译文本串被填充以文本。

Description

基于原始基因组数据生成可配置文本串
相关申请的交叉引用
本申请要求2018年1月10日提交的美国临时专利申请号62/615,743的权益和优先权,其全部内容通过引用结合于此。
技术领域
本公开总体涉及将原始基因组数据转换成可读文本输出。
背景技术
基因组数据处理可以包括图形化显示从下一代测序仪接收的基因组输出。图形表示可以包括显示测试核酸序列中特定基因改变的读取频率。然而,这种图形表示并没有提供下一代测序仪生成的原始基因组数据中能够获得的附加的有用信息。
发明内容
一方面,本公开包括一种用于处理下一代测序信息的系统。所述系统包括一个或多个处理器、和包括指令的一个或多个存储器元件,所述指令在被执行时使所述一个或多个处理器执行多个动作。这些动作包括经由用户接口接收由下一代测序仪生成的输出文件。这些动作进一步包括确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数。这些动作还包括确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中。这些动作进一步包括确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因。在一些实施方案中,所述基因列表中出现的所述至少一个基因与癌症相关。这些动作还包括生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域。这些动作还包括包括基于所述染色体编号的所述第一可配置文本区域中的第一文本、基于所述一组拷贝数的所述第二可配置文本区域中的第二文本、和基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本。这些动作另外还包括向输出接口提供所述可配置文本串。
在另一方面,本公开包括一种处理下一代测序信息的方法。所述方法包括在一个或多个处理器处经由用户接口接收由下一代测序仪生成的输出文件。所述方法还包括在所述一个或多个处理器处确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数。所述方法进一步包括在所述一个或多个处理器处确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中。所述方法进一步包括在所述一个或多个处理器处确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因。所述方法另外还包括在所述一个或多个处理器处生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域。所述方法进一步包括:包括基于所述染色体编号的所述第一可配置文本区域中的第一文本,包括基于所述一组拷贝数的所述第二可配置文本区域中的第二文本,以及包括基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本。所述方法还包括由所述一个或多个处理器向输出接口提供所述可配置文本串。
在又一方面,本公开涉及一种存储处理器可执行指令的计算机可读存储介质,所述处理器可执行指令在被至少一个处理器执行时使所述至少一个处理器执行多个动作。这些动作包括经由用户接口接收由下一代测序仪生成的输出文件。这些动作进一步包括确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数。这些动作还包括确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中。这些动作进一步包括确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因。在一些实施方案中,所述基因列表中出现的所述至少一个基因与癌症相关。这些动作还包括生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域。这些动作还包括包括基于所述染色体编号的所述第一可配置文本区域中的第一文本、基于所述一组拷贝数的所述第二可配置文本区域中的第二文本、和基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本。这些动作另外还包括向输出接口提供所述可配置文本串。
附图说明
通过结合附图参考以下描述,本公开的前述和其他目的、方面、特征和优点将变得更加明显和更好理解,其中:
图1A是描绘包括与服务器设备通信的客户端设备的网络环境的实施方案的框图;
图1B是描绘包括与云服务提供商通信的客户端设备的云计算环境的框图;
图1C和图1D是描绘结合本文描述的方法和系统有用的计算设备的实施方案的框图;
图2示出了用于将下一代测序仪生成的原始基因组数据翻译成人类可读文本串的计算机环境;
图3示出了由下一代测序仪生成的示例性原始基因组数据;
图4显示了翻译原始基因组数据的过程的流程图;
图5示出了由基因组数据翻译系统从图3所示的原始基因组数据中识别的各种片段;
图6示出了示例性的可配置文本串;并且
图7示出了基于原始基因组数据、翻译规则、和基因列表的翻译引擎的示例性翻译输出。
具体实施方式
出于阅读以下各种实施方案的描述的目的,说明书各部分及其各自内容的以下描述可能是有帮助的:
部分A描述了网络环境和计算环境,其可用于实践在本文中描述的实施方案。
部分B描述了用于将下一代测序仪产生的原始基因组数据翻译成人类可读文本的系统和方法的实施方案。
A.计算和网络环境
在讨论本技术方案的特定实施方案之前,结合在本文中描述的方法和系统描述操作环境的各方面以及相关联的系统部件(例如,硬件元件)可能是有帮助的。参考图1A,描绘了网络环境的实施方案。简而言之,所述网络环境包括经由一个或多个网络104与一个或多个服务器106a-106n(通常也称为服务器106、节点106、或远程机器106)通信的一个或多个客户端102a-102n(通常也称为本地机器102、客户端102、客户端节点102、客户端计算机102、客户端设备102、端点102、或端点节点102)。在一些实施方案中,客户端102具有既作为寻求访问由服务器提供的资源的客户端节点又作为为其他客户端102a-102n提供对托管资源的访问的服务器的功能。
尽管图1A示出了客户端102和服务器106之间的网络104,但是客户端102和服务器106可以在同一网络104上。在一些实施方案中,在客户端102和服务器106之间有多个网络104。在这些实施方案之一中,网络104’(未示出)可以是私有网络,网络104可以是公共网络。在这些实施方案的另一个中,网络104可以是私有网络,网络104’可以是公共网络。在这些实施方案的又一个中,网络104和104’都可以是私有网络。
网络104可以通过有线或无线链路连接。有线链路可以包括数字用户线路(DSL)、同轴电缆线路或光纤线路。无线链路可以包括蓝牙、Wi-Fi、全球微波接入互操作性(WiMAX)、红外通道或卫星频段。无线链路还可以包括用于在移动设备之间通信的任何蜂窝网络标准,包括符合1G、2G、3G或4G标准。通过满足诸如国际电信联盟所维护的规范之类的一个或多个规范,网络标准可以符合一个或多个代的移动电信标准。例如,3G标准可以对应于国际移动电信-2000(IMT-2000)规范,4G标准可以对应于国际移动电信高级(IMT-Advanced)规范。蜂窝网络标准的例子包括AMPS、GSM、GPRS、UMTS、LTE、LTE高级、移动WiMAX和WiMAX高级。蜂窝网络标准可以使用各种信道接入方法,例如FDMA、TDMA、CDMA或SDMA。在一些实施方案中,不同类型的数据可以经由不同的链路和标准来传输。在其他实施方案中,相同类型的数据可以经由不同的链路和标准传输。
网络104可以是任何类型和/或形式的网络。网络104的地理范围可以广泛变化,并且网络104可以是人体区域网(BAN)、个人区域网(PAN)、局域网(LAN)(例如内联网)、城域网(MAN)、广域网(WAN)、或因特网。网络104的拓扑可以是任何形式,并且可以包括例如以下任何形式:点对点、总线、星形、环形、网状或树状。网络104可以是虚拟的覆盖网络,并且位于其他网络104’的一层或多层之上。网络104可以是本领域普通技术人员已知的能够支持在本文中描述的操作的任何这种网络拓扑。网络104可以利用不同的技术和协议层或协议栈,包括例如以太网协议、互联网协议组(TCP/IP)、ATM(异步传输模式)技术、SONET(同步光网络)协议、或SDH(同步数字体系)协议。TCP/IP互联网协议套件可以包括应用层、传输层、互联网层(包括例如IPv6)、或链路层。网络104可以是一种广播网络、电信网络、数据通信网络或计算机网络。
在一些实施方案中,所述系统可以包括多个逻辑分组的服务器106。在这些实施方案之一中,服务器的逻辑组可以被称为服务器群38或机群38。在这些实施方案的另一个中,服务器106可以在地理上分散。在其他实施方案中,机群38可以作为单个实体来管理。在其他实施方案中,机群38包括多个机群38。每个机群38内的服务器106可以是异构的,即,一个或多个所述服务器106或机器106可以根据一种类型的操作系统平台(例如,华盛顿州雷蒙德市的微软公司制造的WINDOWS NT)运行,而一个或多个其他服务器106可以根据另一种类型的操作系统平台(例如,Unix、Linux或Mac OS X)运行。
在一个实施方案中,机群38中的服务器106可以与相关联的存储系统一起存储在高密度机架系统中,并且位于企业数据中心中。在该实施方案中,通过将服务器106和高性能存储系统定位在本地高性能网络上,以这种方式整合服务器106可以提高系统可管理性、数据安全性、系统的物理安全性和系统性能。集中服务器106和存储系统并将它们与高级系统管理工具联接允许更有效地使用服务器资源。
每个机群38的服务器106不需要物理上靠近同一机群38中的另一个服务器106。因此,逻辑上分组为机群38的服务器组106可以使用广域网(WAN)连接或城域网(MAN)连接来互连。例如,机群38可以包括物理上位于不同大陆或不同大陆区域、国家、州、城市、校园或房间的不同区域的服务器106。如果服务器106使用局域网(LAN)连接或某种形式的直接连接来连接,则可以提高机群38中的服务器106之间的数据传输速度。此外,异构机群38可以包括根据操作系统类型操作的一个或多个服务器106,而一个或多个其他服务器106执行一种或多种类型的管理程序而不是操作系统。在这些实施方案中,虚拟机管理程序可用于仿真虚拟硬件、划分物理硬件、虚拟化物理硬件以及执行提供对计算环境的访问的虚拟机,从而允许多个操作系统在主机上并发运行。本机虚拟机管理程序可以直接在主机上运行。虚拟机管理程序可包括由加利福尼亚州帕洛阿尔托的VMware公司制造的VMware ESX/ESXi;Xen虚拟机管理程序,一种开源产品,其开发由思杰系统公司监管;微软或其他公司提供的HYPER-V虚拟机管理程序。托管虚拟机管理程序可以在第二软件级别的操作系统中运行。托管虚拟机管理程序的示例可以包括VMware工作站和VIRTUALBOX。
机群38的管理可以分散。例如,一个或多个服务器106可以包括支持机群38的一个或多个管理服务的部件、子系统和模块。在这些实施方案之一中,一个或多个服务器106提供用于管理动态数据的功能,包括用于处理故障转移、数据复制和增加机群38的鲁棒性的技术。每个服务器106可以与持久存储通信,并且在一些实施方案中,可以与动态存储通信。
服务器106可以是文件服务器、应用服务器、网络服务器、代理服务器、装置、网络装置、网关、网关服务器、虚拟化服务器、部署服务器、SSL VPN服务器、或防火墙。在一个实施方案中,服务器106可以被称为远程机器或节点。在另一个实施方案中,多个节点290可以在任何两个通信服务器之间的路径中。
参考图1B,描绘了云计算环境。云计算环境可以向客户端102提供由网络环境提供的一个或多个资源。云计算环境可以包括通过一个或多个网络104与云108通信的一个或多个客户端102a-102n。客户端102可以包括例如胖客户端、瘦客户端和零客户端。即使当与云108或服务器106断开连接时,胖客户端也可以提供至少一些功能。瘦客户端或零客户端可以依赖于到云108或服务器106的连接来提供功能。零客户端可以依赖于云108或其他网络104或服务器106来检索客户端设备的操作系统数据。云108可以包括后端平台,例如服务器106、存储、服务器群或数据中心。
云108可以是公共的、私有的或混合的。公共云可以包括由客户端102的第三方或客户端的所有者维护的公共服务器106。服务器106可以如上所述或以其他方式位于远程地理位置的异地。公共云可以通过公共网络连接到服务器106。私有云可以包括由客户端102或客户端所有者物理维护的私有服务器106。私有云可以通过私有网络104连接到服务器106。混合云108可以包括私有和公共网络104以及服务器106。
云108还可以包括基于云的交付,例如软件即服务(SaaS)110、平台即服务(PaaS)112和基础设施即服务(IaaS)114。IaaS可以指租用特定时间段内所需的基础设施资源的用户。IaaS提供商可以从大型池中提供存储、网络、服务器或虚拟化资源,允许用户通过按需访问更多资源来快速扩展。IaaS的示例可以包括由加拿大魁北克省蒙特利尔市的OVHHOSTING提供的基础设施和服务(例如,EG-32)、由华盛顿州西雅图市的Amazon.com公司提供的AMAZON WEB SERVICES、由得克萨斯州圣安东尼奥市的Rackspace US公司提供的RACKSPACE CLOUD、由加利福尼亚州山景市的谷歌公司提供的Google Compute Engine或由加利福尼亚州圣巴巴拉市的RightScale公司提供的RIGHTSCALE。PaaS提供商可以提供由IaaS提供的功能,包括例如存储、网络、服务器或虚拟化、以及附加资源,例如操作系统、中间件或运行时资源。PaaS的例子包括由华盛顿州雷蒙德市的微软公司提供的WINDOWSAZURE、由谷歌公司提供的Google App Engine和由加利福尼亚州旧金山市的Heroku公司提供的HEROKU。SaaS提供商可提供PaaS提供的资源,包括存储、网络、服务器、虚拟化、操作系统、中间件或运行时资源。在一些实施方案中,SaaS提供商可以提供附加资源,包括例如数据和应用资源。SaaS的例子包括由谷歌公司提供的GOOGLE APPS、由加利福尼亚州旧金山的Salesforce.com公司提供的SALESFORCE,或者由微软公司提供的OFFICE365。SaaS的例子还可以包括数据存储提供商,例如由加利福尼亚州旧金山的Dropbox公司提供的DROPBOX、由微软公司提供的微软SKYDRIVE、由谷歌公司提供的Google Drive或由加利福尼亚州库比蒂诺的苹果公司提供的Apple ICLOUD。
客户端102可以使用一个或多个IaaS标准来访问IaaS资源,包括例如亚马逊弹性计算云(EC2)、开放云计算接口(OCCI)、云基础设施管理接口(CIMI)或OpenStack标准。一些IaaS标准可允许客户端通过HTTP访问资源,并且可使用表述性状态转移(REST)协议或简单对象访问协议(SOAP)。客户端102可以使用不同的PaaS接口来访问PaaS资源。一些PaaS接口使用的是HTTP包、标准Java API、JavaMail API、Java数据对象(JDO)、Java持久性API(JPA)、Python API、用于不同编程语言的网络集成API,包括例如Ruby框架、Python的WSGI、或Perl的PSGI,或者可以建立在REST、HTTP、XML或其他协议上的其他API。客户端102可以通过使用由网络浏览器提供的基于网络的用户接口来访问SaaS资源(例如,GOOGLE CHROME、微软INTERNET EXPLORER或由加利福尼亚州山景城的Mozilla基金会提供的MozillaFirefox)。客户端102还可以通过智能手机或平板电脑应用程序访问SaaS资源,包括例如Salesforce Sales Cloud或Google Drive应用程序。客户端102还可以通过客户端操作系统访问SaaS资源,包括例如用于DROPBOX的Windows文件系统。
在一些实施方案中,对IaaS、PaaS或SaaS资源的访问可以被认证。例如,服务器或认证服务器可以通过安全证书、HTTPS或API密钥来认证用户。API密钥可以包括各种加密标准,例如高级加密标准(AES)。数据资源可以通过传输层安全性(TLS)或安全套接字层(SSL)发送。
客户端102和服务器106可以被部署为和/或执行在任何类型和形式的计算设备上,例如能够在任何类型和形式的网络上通信并执行在本文中描述的操作的计算机、网络设备或装置。图1C和图1D描绘了用于实践客户端102或服务器106的实施方案的计算设备100的框图。如图1C和图1D所示,每个计算设备100包括中央处理单元121和主存储器单元122。如图1C所示,计算设备100可以包括存储设备128、安装设备116、网络接口118、I/O控制器123、显示设备124a-124n、键盘126和定点设备127(例如鼠标)。存储设备128可以包括但不限于操作系统、软件和基因组数据翻译系统120的软件。如图1D所示,每个计算设备100还可以包括附加的可选元件,例如存储器端口103、桥接器170、一个或多个输入/输出设备130a-130n(通常使用附图标记130来指代)以及与中央处理单元121通信的高速缓冲存储器140。
中央处理单元121是响应并处理从主存储器单元122提取的指令的任何逻辑电路。在许多实施方案中,中央处理单元121由微处理器单元提供,例如由加利福尼亚州山景城的英特尔公司制造的;伊利诺伊州朔姆堡的摩托罗拉公司制造的;加利福尼亚州圣克拉拉市的Nvidia公司生产的ARM处理器和TEGRA系统芯片(SoC);纽约怀特普莱恩斯国际商业机器公司生产的POWER7处理器;或者是由加州桑尼维尔的Advanced Micro Devices公司制造的。计算设备100可以基于这些处理器中的任何一个、或者能够如本文所述进行操作的任何其他处理器。中央处理单元121可以利用指令级并行性、线程级并行性、不同级别的高速缓存以及多核处理器。多核处理器可以在单个计算部件上包括两个或多个处理单元。多核处理器的示例包括AMD PHENOM IIX2、英特尔酷睿i5和英特尔酷睿i7。
主存储器单元122可以包括一个或多个能够存储数据并允许微处理器121直接访问任何存储位置的存储芯片。主存储器单元122可以是易失性的,并且比存储器设备128存储器快。主存储器单元122可以是动态随机存取存储器(DRAM)或任何变体,包括静态随机存取存储器(SRAM)、突发式SRAM或同步突发式SRAM(BSRAM)、快速页模式DRAM(FPM DRAM)、增强型DRAM(EDRAM)、扩展数据输出RAM(EDO RAM)、扩展数据输出DRAM(EDO DRAM)、突发式扩展数据输出DRAM(BEDO DRAM)、单倍数据速率同步DRAM(SDR SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、直接Rambus DRAM(DRDRAM)或极限数据速率DRAM(XDR DRAM)。在一些实施方案中,主存储器122或存储设备128可以是非易失性的;例如非易失性随机访问存储器(NVRAM)、闪存非易失性静态RAM(nvSRAM)、铁电RAM(FeRAM)、磁阻式RAM(MRAM)、相变存储器(PRAM)、导电桥接RAM(CBRAM)、硅-氧化物-氮化物-氧化物-硅(SONOS)、电阻式RAM(RRAM)、赛道存储器、纳米管RAM(NRAM)或千足虫存储器。主存储器122可以基于任何上述存储器芯片,或者能够如本文所述操作的任何其他可用存储器芯片。在图1C所示的实施方案中,处理器121通过系统总线150与主存储器122通信(下面将更详细地描述)。图1D描绘了计算设备100的实施方案,其中处理器经由存储器端口103直接与主存储器122通信。例如,在图1D中,主存储器122可以是DRDRAM。
图1D描绘了一个实施方案,其中主处理器121通过次总线直接与高速缓冲存储器140通信,该次总线有时被称为背面总线。在其他实施方案中,主处理器121使用系统总线150与高速缓冲存储器140通信。高速缓冲存储器140通常具有比主存储器122更快的响应时间,并且通常由SRAM、BSRAM或EDRAM提供。在图1D所示的实施方案中,处理器121通过本地系统总线150与各种I/O设备130通信。各种总线可用于将中央处理单元121连接到任何I/O设备130,包括PCI总线、PCI-X总线、或PCI-Express总线或NuBus。对于I/O设备是视频显示器124的实施方案,处理器121可以使用高级图形端口(AGP)来与显示器124或显示器124的I/O控制器123通信。图1D描绘了计算机100的实施方案,其中主处理器121通过HYPERTRANSPORT、RAPIDIO或INFINIBAND通信技术直接与I/O设备130b或其他处理器121’通信。图1D还描绘了本地总线和直接通信混合的实施方案:处理器121使用本地互连总线与I/O设备130a通信,同时直接与I/O设备130b通信。
计算设备100中可以存在多种I/O设备130a-130n。输入设备可以包括键盘、鼠标、跟踪板、轨迹球、触摸板、触摸鼠标、多点触摸触摸板和触摸鼠标、麦克风、多阵列麦克风、绘图板、相机、单镜头反光照相机(SLR)、数字SLR(DSLR)、CMOS传感器、加速度计、红外光学传感器、压力传感器、磁力计传感器、角速度传感器、深度传感器、接近传感器、环境光传感器、陀螺仪传感器或其他传感器。输出设备可以包括视频显示器、图形显示器、扬声器、耳机、喷墨打印机、激光打印机、和3D打印机。
设备130a-130n可以包括多个输入或输出设备的组合,包括例如微软KINECT、用于WII的任天堂Wiimote、任天堂WII U GAMEPAD或苹果IPHONE。一些设备130a-130n通过组合一些输入和输出来允许手势识别输入。一些设备130a-130n提供面部识别,该面部识别可以用作不同目的的输入,包括认证和其他命令。一些设备130a-130n提供语音识别和输入,包括例如微软KINECT、苹果IPHONE的SIRI、Google Now或谷歌语音搜索。
附加设备130a-130n具有输入和输出能力,包括例如触觉反馈设备、触摸屏显示器或多点触摸显示器。触摸屏、多点触摸显示器、触摸板、触摸鼠标或其他触摸感测设备可以使用不同的技术来感测触摸,包括例如电容性、表面电容性、投射电容性触摸(PCT)、单元内(in-cell)电容性、电阻性、红外、波导、分散信号触摸(DST)、单元内光学、表面声波(SAW)、弯曲波触摸(BWT)或基于力的感测技术。一些多点触摸设备可以允许与表面的两个或更多个接触点,从而允许高级功能,包括例如捏合、扩展、旋转、滚动或其他手势。一些触摸屏设备,包括例如微软PIXELSENSE或多点触控协作墙,可以具有更大的表面,例如在桌面或墙上,并且还可以与其他电子设备交互。一些I/O设备130a-130n、显示设备124a-124n或设备组可以是增强现实设备。如图1C所示,I/O设备可以由I/O控制器123控制。I/O控制器可以控制一个或多个I/O设备,例如键盘126和定点设备127,例如鼠标或光笔。此外,I/O设备还可以为计算设备100提供存储和/或安装介质116。在其他实施方案中,计算设备100可以提供USB连接(未示出)来接收手持USB存储设备。在进一步的实施方案中,I/O设备130可以是系统总线150和外部通信总线之间的桥,所述外部通信总线例如是USB总线、SCSI总线、FireWire总线、以太网总线、千兆以太网总线、光纤通道总线或Thunderbolt总线。
在一些实施方案中,显示设备124a-124n可以连接到I/O控制器123。显示设备可以包括例如液晶显示器、薄膜晶体管LCD(TFT-LCD)、蓝相LCD、电子纸(电子墨水)显示器、柔性显示器、发光二极管显示器(LED)、数字光处理(DLP)显示器、硅上液晶(LCOS)显示器、有机发光二极管显示器(OLED)、有源矩阵有机发光二极管(AMOLED)显示器、液晶激光显示器、时分复用光学快门(TMOS)显示器或3D显示器。3D显示器的例子可以使用例如立体视觉、偏振滤光器、主动快门或自动立体视觉。显示设备124a-124n也可以是头戴式显示器(HMD)。在一些实施方案中,显示设备124a-124n或相应的I/O控制器123可以通过或具有对OPENGL或DIRECTX API或其他图形库的硬件支持来控制。
在一些实施方案中,计算设备100可以包括或连接到多个显示设备124a-124n,每个显示设备可以是相同或不同的类型和/或形式。这样,任何I/O设备130a-130n和/或I/O控制器123可以包括任何类型和/或形式的合适的硬件、软件、或硬件和软件的组合,以支持、启用或提供计算设备100对多个显示设备124a-124n的连接和使用。例如,计算设备100可以包括任何类型和/或形式的视频适配器、视频卡、驱动器、和/或库,以接口、连通、连接或以其他方式使用显示设备124a-124n。在一个实施方案中,视频适配器可以包括多个连接器以与多个显示设备124a-124n接口。在其他实施方案中,计算设备100可以包括多个视频适配器,每个视频适配器连接到显示设备124a-124n中的一个或多个。在一些实施方案中,计算设备100的操作系统的任何部分可以被配置为使用多个显示器124a-124n。在其他实施方案中,显示设备124a-124n中的一个或多个可以由连接到计算设备100的一个或多个其他计算设备100a或100b经由网络104来提供。在一些实施方案中,软件可以被设计和构造成使用另一台计算机的显示设备作为计算设备100的第二显示设备124a。例如,在一个实施方案中,苹果iPad可以连接到计算设备100,并将设备100的显示器用作可以用作扩展桌面的附加显示屏。本领域普通技术人员将认识到并理解计算设备100可以被配置为具有多个显示设备124a-124n的各种方式和实施方案。
再次参考图1C,计算设备100可以包括存储设备128(例如,一个或多个硬盘驱动器或独立磁盘的冗余阵列),用于存储操作系统或其他相关软件,并用于存储应用软件程序,例如与基因组数据翻译系统120的软件相关的任何程序。存储设备128的例子包括,例如,硬盘驱动器(HDD);光驱,包括CD驱动器、DVD驱动器或BLU-RAY驱动器;固态硬盘(SSD);USB闪存驱动器;或者任何其他适合存储数据的设备。一些存储设备可以包括多个易失性和非易失性存储器,包括例如将硬盘与固态高速缓存相结合的固态混合驱动器。一些存储设备128可以是非易失性的、可变的或只读的。一些存储设备128可以是内部的,并且经由总线150连接到计算设备100。一些存储设备128可以是外部的,并且经由提供外部总线的I/O设备130连接到计算设备100。一些存储设备128可以通过网络104经由网络接口118连接到计算设备100,所述网络包括例如苹果公司的MACBOOK AIR远程磁盘。一些客户端设备100可能不需要非易失性存储设备128,并且可以是瘦客户端或零客户端102。一些存储设备128也可以用作安装设备116,并且可以适合于安装软件和程序。此外,操作系统和软件可以根据可引导介质运行,例如,可引导CD,例如KNOPPIX,用于GNU/Linux的可引导CD,其可作为GNU/Linux发行版从knoppix.net获得。
客户端设备100还可以从应用分发平台安装软件或应用。应用分发平台的示例包括苹果公司提供的iOS应用商店、苹果公司提供的Mac应用商店、谷歌公司提供的用于安卓操作系统的GOOGLE PLAY、谷歌公司提供的用于CHROME操作系统的Chrome网上应用店以及Amazon.com公司提供的用于安卓操作系统和KINDLE FIRE的亚马逊应用商店。应用分发平台可以方便软件在客户端设备102上的安装。应用分发平台可以包括服务器106或云108上的应用库,客户端102a-102n可以通过网络104访问该应用库。应用分发平台可以包括由各种开发者开发和提供的应用。客户端设备102的用户可以经由应用分发平台选择、购买和/或下载应用。
此外,计算设备100可以包括网络接口118,以通过各种连接连接到网络104,所述连接包括但不限于标准电话线LAN或WAN链路(例如,802.11、T1、T3、千兆以太网、无限带宽)、宽带连接(例如,ISDN、帧中继、ATM、千兆以太网、基于SONET的以太网、ADSL、VDSL、BPON、GPON、包括FiOS的光纤)、无线连接、或上述任何一种或全部的某种组合。可以使用各种通信协议建立连接(例如,TCP/IP、以太网、ARCNET、SONET、SDH、光纤分布式数据接口(FDDI)、IEEE 802.11a/b/g/n/ac CDMA、GSM、WiMax和直接异步连接)。在一个实施方案中,计算设备100经由任何类型和/或形式的网关或隧道协议与其他计算设备100’通信,例如安全套接字层(SSL)或传输层安全性(TLS),或者由佛罗里达州劳德代尔堡的思杰系统公司生产的Citrix网关协议。网络接口118可以包括内置网络适配器、网络接口卡、PCMCIA网卡、EXPRESSCARD网卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器或适于将计算设备100接口到能够通信并执行在本文中描述的操作的任何类型的网络的任何其他设备。
图1B和图1C中描述的那种计算设备100可以在操作系统的控制下操作,该操作系统控制任务的调度和对系统资源的访问。计算设备100可以运行任何操作系统,例如任何版本的MICROSOFT WINDOWS操作系统、不同版本的Unix和Linux操作系统、任何版本的用于Macintosh计算机的MAC操作系统、任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何专有操作系统、任何用于移动计算设备的操作系统、或者能够在计算设备上运行并执行在本文中描述的操作的任何其他操作系统。典型的操作系统包括但不限于:WINDOWS2000、WINDOWS Server 2022、WINDOWS CE、WINDOWS Phone、WINDOWS XP、WINDOWS VISTA和WINDOWS 7、WINDOWS RT和WINDOWS 8,所有这些都是由华盛顿州雷蒙德市的微软公司制造的;由加州库比蒂诺的苹果公司制造的MAC OS和iOS;和Linux,一种可免费获得的操作系统,例如由英国伦敦的Canonical有限公司发行的Linux Mint发行版(“distro”)或Ubuntu;或Unix或其他类似Unix的衍生操作系统;和加州山景城谷歌设计的安卓系统,等等。一些操作系统,包括例如谷歌的CHROME操作系统,可以在零客户端或瘦客户端上使用,包括例如CHROMEBOOKS。
计算机系统100可以是任何工作站、电话、台式计算机、膝上型或笔记本计算机、上网本、超极本、平板电脑、服务器、手持计算机、移动电话、智能手机或其他便携式电信设备、媒体播放设备、游戏系统、移动计算设备或能够通信的任何其他类型和/或形式的计算、电信或媒体设备。计算机系统100具有足够的处理器能力和存储器容量来执行在本文中描述的操作。在一些实施方案中,计算设备100可以具有不同处理器、操作系统和与该设备一致的输入设备。例如,三星GALAXY智能手机在谷歌公司开发的安卓操作系统的控制下运行。GALAXY智能手机通过触摸界面接收输入。
在一些实施方案中,计算设备100是游戏系统。例如,计算机系统100可以包括由日本东京的索尼公司制造的PLAYSTATION 3或PERSONAL PLAYSTATION便携式(PSP)或PLAYSTATION VITA设备、由日本京都的任天堂公司制造的NINTENDO DS、NINTENDO 3DS、NINTENDO WII或NINTENDO WII U设备、由华盛顿雷德蒙的微软公司制造的XBOX 360设备。
在一些实施方案中,计算设备100是数字音频播放器,例如由加利福尼亚州库比蒂诺的苹果计算机制造的苹果IPOD、IPOD Touch和IPOD NANO系列设备。一些数字音频播放器可以具有其他功能,包括例如游戏系统或由来自数字应用分发平台的应用提供的任何功能。例如,IPOD Touch可以访问苹果应用商店。在一些实施方案中,计算设备100是支持文件格式的便携式媒体播放器或数字音频播放器,包括但不限于MP3、WAV、M4A/AAC、WMA受保护的AAC、AIFF、Audible音频书、苹果无损音频文件格式和.mov、.m4v、和.mp4 MPEG-4(H.264/MPEG-4AVC)视频文件格式。
在一些实施方案中,计算设备100是平板电脑,例如苹果公司的IPAD系列设备;三星的GALAXY TAB系列设备;或华盛顿州西雅图市Amazon.com公司的KINDLE FIRE。在其他实施方案中,计算设备100是电子书阅读器,例如Amazon.com的KINDLE系列设备,或者纽约市的Barnes&Noble公司的NOOK系列设备。
在一些实施方案中,通信设备102包括设备的组合,例如与数字音频播放器或便携式媒体播放器相结合的智能手机。例如,这些实施方案之一是智能手机,例如由苹果公司制造的IPHONE系列智能手机;三星公司生产的三星GALAXY系列智能手机;或者摩托罗拉DROID系列智能手机。在又一实施方案中,通信设备102是配备有网络浏览器和麦克风和扬声器系统(例如电话耳机)的膝上型或台式计算机。在这些实施方案中,通信设备102是网络使能的,并且可以接收和发起电话呼叫。在一些实施方案中,膝上型或台式计算机还配备有能够进行视频聊天和视频呼叫的网络摄像头或其他视频捕捉设备。
在一些实施方案中,通常作为网络管理的一部分,监控网络104中的一个或多个机器102、106的状态。在这些实施方案中的一个中,机器的状态可以包括负载信息的标识(例如,机器上的进程数量、CPU和存储器利用率)、端口信息的标识(例如,可用通信端口的数量和端口地址)、或者会话状态的标识(例如,进程的持续时间和类型,以及进程是活动的还是空闲的)。在这些实施方案的另一个中,该信息可以由多个度量来识别,并且该多个度量可以至少部分地应用于负载分配、网络流量管理和网络故障恢复以及在本文中描述的本解决方案的操作的任何方面中的决策。在本文公开的系统和方法的上下文中,上述操作环境和部件的各方面将变得显而易见。
B.原始基因组数据的处理
图2示出了基因组数据翻译系统200,类似于图1C所示的基因组数据翻译系统120。如下所述,基因组数据翻译系统200可以接收原始基因组数据(例如,在扩展表或逗号分隔的文本文件中),并生成指示在原始基因组数据中识别的基因和染色体级别的异常的数据。基因组数据翻译系统200包括翻译引擎202、图形用户接口(GUI)引擎204和数据存储装置218。数据存储装置218可以存储基因列表206、翻译规则208、可重构文本存储装置210和人类参考基因组列表212。GUI引擎204可以提供用于在监视器或其他显示设备上显示的GUI。GUI引擎204还可以从一个或多个输入设备接收用户输入,例如键盘、鼠标、触摸屏、手势检测器或其他输入设备。GUI引擎204可以提供交互式界面,以允许用户提供输入来控制基因组数据翻译系统200的操作。基因组数据翻译系统200还可以联接到计算机网络214,所述计算机网络可以包括一个或多个有线或无线网络,例如以太网、互联网、WiFi网络、蓝牙网络等。基因组数据翻译系统200可以使用上面结合图1A至图1D讨论的计算系统来实现。
基因组数据翻译系统200可以从下一代基因组测序仪(“NG测序仪”)216接收数据,例如Illumina测序仪、Ion Torrent测序仪和454焦磷酸测序仪。NG测序仪216可以提供详细的染色体分析,并且可以采用诸如阵列比较基因组杂交(CGH)、微阵列、寡核苷酸阵列、单核苷酸多态性(SNP)阵列、全基因组阵列(WGA)等技术。NG测序仪216可以向基因组数据翻译系统200提供原始基因组数据。特别地,NG测序仪216可以生成包括细胞遗传学条带信息的原始基因组数据。在一些实施方式中,基因组数据翻译系统200可以通过GUI引擎204提供上传由NG测序仪216生成的原始基因组数据的能力,而不是直接从NG测序仪216接收原始基因组数据。
图3示出了由下一代测序仪生成的示例原始基因组数据300。特别地,原始基因组数据300可以包括细胞遗传学条带信息。细胞遗传学条带信息可以对应于一个或多个显示异常的染色体。这样,原始基因组数据300可以仅包括表现出基因改变的染色体的细胞遗传学条带基因组信息。原始基因组数据30还可以包括染色体识别数据、核苷酸范围和拷贝数,拷贝数表示染色体核苷酸范围内存在的相应基因区域的拷贝数。
图4示出了用于翻译原始基因组数据的过程400的流程图。过程400可以用于例如翻译图3所示的原始基因组数据300。过程400可以由例如图2中所示的基因组数据翻译系统200,特别是翻译引擎202来执行。过程400包括接收由NG测序仪生成的包括原始基因组数据的输出文件(阶段402)。再次参考图2,基因组数据翻译系统200可以直接从NG测序仪216接收原始基因组数据300。例如,基因组数据翻译系统200可以包括连接到NG测序仪216的一个或多个串行或并行通信端口,并且可以通过通信端口从NG测序仪216接收原始基因组数据300。在一些实施方式中,基因组数据翻译系统200可以经由GUI引擎204从用户接收包括原始基因组数据300的文件,例如数据文件。
过程400还包括确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数(阶段404)。片段可以包括与染色体相关的基因组数据。原始基因组数据300包括与几个基因相关的基因组数据。翻译引擎202可以解析原始基因组数据300,以识别原始基因组数据中存在基因组异常信息的染色体。翻译引擎202可以通过搜索文件开始标识符,例如“arr[hg19]”,来确定文件的开始该标识符对于所使用的NG测序仪216可以是唯一的,并且可以基于所使用的NG测序仪216的类型而改变。在图3所示的原始基因组数据300中,标识符“arr[hg19]”表明基因组分析是使用阵列技术(例如阵列-CGH或SNP阵列)完成的,并使用“人类基因组构建(build)-19”进行编码。诸如“hg38”、“hg18”、“hg17”等其他构建也可以用于生成原始基因组数据300。翻译引擎202可以在文件开始标识符之后解析原始基因组数据300的剩余部分,以确定片段的开始。例如,翻译引擎202可以搜索1到22之间的整数或者字母“X”和“Y”后跟字母“p”或“q”。整数1到22对应于染色体编号,“X”和“Y”对应于X和Y染色体,而“p”和“q”分别对应于染色体的短臂和长臂。翻译引擎可以通过搜索由字母“x”后跟一个或多个整数(例如,“x2”或“x1-2”)指示的复制信息来确定该片段的结尾。
图5示出了由基因组数据翻译系统200从图3所示的原始基因组数据中识别的各种片段。具体地,翻译引擎202识别15个片段:染色体片段1 501、染色体片段3 503、染色体片段5 505、染色体片段6 506、染色体片段7 507、染色体片段9 509、染色体片段11 511、染色体片段12 512、染色体片段16 516、染色体片段17 517、染色体片段19 519、染色体片段20520、染色体片段21 521、染色体片段X 522、和染色体片段Y 524。
每个片段包括一个染色体编号,例如片段的第一个整数“1”,它表示染色体编号。每个片段还包括细胞遗传学条带信息,例如“1p36.33p11.2”和“1q21.1q44”,它们识别第一条染色体的短臂和长臂内的细胞遗传学条带。每个片段还包括一个核苷酸范围,例如“(849,466-121,343,783)”,其表示与参考基因组构建相比具有异常或异常的碱基对的范围。此外,每个片段还包括拷贝数,例如“x1”,其表示在相应核苷酸范围内的碱基对仅观察到一次,而不是正常受试者中预期的两次。其他拷贝数,如“x1-2”表示相应核苷酸范围内的碱基对被观察到一次或两次。
过程400还包括确定核苷酸范围内的第一组基因,其中第一组基因包括在人类参考基因组中。翻译引擎202可以查找人类参考基因组列表212,以确定存在于每个核苷酸范围内的基因。人类参考基因组有几个版本或构建。翻译引擎202可以基于标识符“arr[hg19]”来确定要查找的版本,该标识符在图3所示的示例中是指人类基因组列表的“hg19”版本。翻译引擎202可以例如查找出现在人类参考基因组列表212的第一片段501中的核苷酸范围(849,466-121,343,783)、(882,802-121,339,317)和((143,932,349-249,224,684)。人类参考基因组列表212可以返回存在于这些核苷酸范围的每一个内的第一组基因。在一些实现方式中,人类参考基因组列表212可以位于远离基因组数据翻译系统200的服务器处,并且可以通过计算机网络214进行通信。在一些这样的实现中,翻译引擎202可以将核苷酸范围传输到服务器,服务器可以在人类参考基因组列表212中查找核苷酸范围,并且作为响应,将存在于这些核苷酸范围中的每一个内的第一组基因发送到翻译引擎202。
过程400还包括确定匹配的一组基因,所述匹配的一组基因包括出现在基因列表206中的至少一个基因,所述基因列表匹配第一组基因的子集(阶段408)。基因列表206包括临床医生感兴趣的基因的标识。基因列表206可以包括与某些疾病或异常相关的基因。例如,包括但不限于TNFRSF14、TP53、NOTCH4、DAXX和LTB的基因可以包括在基因列表206中。基因列表206还可以包括基因,例如肿瘤抑制基因、癌基因、细胞信号蛋白、衔接蛋白、细胞表面受体、可溶性和/或膜结合配体、酶(例如蛋白酶)、伴侣蛋白、转录因子、结构蛋白、细胞骨架蛋白,调节血管生成、细胞分裂、细胞粘附和细胞周期进程的蛋白等。基因列表206还可以包括癌症相关基因和/或非癌症相关基因。在一些实施方案中,基因列表206包括影响特定器官功能的基因,所述特定器官包括但不限于肺、皮肤、心脏、肝、肾、胰腺、肠、脑、眼睛、耳朵、鼻子等。在一些实施方案中,基因列表206包括影响特定细胞类型功能的基因,所述特定细胞类型包括但不限于神经元、上皮细胞、内皮细胞、横纹肌细胞、平滑肌细胞或心肌细胞、肾细胞、胰腺细胞、肠细胞、眼细胞、血细胞、感觉细胞、间质细胞、生殖细胞、细胞外基质细胞、分泌性上皮细胞、激素分泌细胞、神经胶质细胞等。在一些实施方案中,基因列表206包括至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少450或至少500个基因。
如上所述,使用核苷酸范围和人类参考基因组列表212来确定第一组基因。翻译引擎202可以将基因列表206与第一组基因进行比较,以确定基因列表206中的任何基因是否出现在第一组基因中。例如,翻译引擎202可以在第一组基因中的基因列表206中查找每个基因,并且如果存在匹配,则该基因的标识可以被添加到匹配的基因组中。对应于来自基因列表206的基因的第一组基因中的异常的存在包括临床相关的基因标记,并且可以基于对应于已经使用NG测序仪216测序的患者核酸样品的原始基因组输出来指示患者疾病状态(例如,癌症)的性质和/或预后。遗传异常包括缺失、插入、易位、小克隆(minor clone)、拷贝数变异等。
过程400另外包括生成可配置文本串,所述可配置文本串包括不可配置文本区域和可配置文本区域(阶段410)。图6示出了示例性可配置文本串600。可配置文本串600包括第一不可配置文本区域602、第二不可配置文本区域614和可配置文本区域,即染色体#字段604、小克隆字段606、增益/损失字段608、匹配基因字段610和染色体/片段标识符字段612。第一不可配置文本区域602包括文本“染色体”,第二不可配置文本区域614包括文本“:”。第一和第二不可配置文本区域601和614可以通过原始基因组数据300中的数据保持不变。然而,翻译引擎202可以使用其他文本来代替图6所示的文本。翻译引擎202可以基于原始基因组数据300和翻译规则208(图2)来填充可配置文本区域。翻译规则208可以包括与每个可配置区域相关联的一个或多个翻译规则。可配置区域的翻译规则208基于原始基因组数据300提供要输入到该可配置区域中的文本的标识。文本的标识可以包括在可重新配置的文本存储装置210中,该存储装置可以包括可以插入每个可配置区域中的文本列表。
该过程进一步包括基于所述染色体编号、所述一组拷贝数和所述匹配的一组基因来填充所述可配置文本区域(阶段412)。图7示出了基于原始基因组数据300中的数据、翻译规则208和基因列表206的翻译引擎202的示例翻译输出700。特别地,翻译输出700包括对应于原始基因组数据300中识别的每个染色体或对应于图5中识别的每个片段的可配置文本串。
染色体#字段604可以用对应于染色体编号的文本来填充,例如,“1”、“6”等。染色体#字段的翻译规则可以指定包括与片段的染色体编号相对应的编号文本。如图7所示,翻译输出700在染色体#字段中包括每个染色体的适当编号。
基于染色体中没有“p”或“q”臂,小克隆字段606可以填充有文本“小克隆与(minorclone with)”或根本没有文本。例如,参照图5所示的第九染色体509的片段,长臂“q”缺失。结果,翻译引擎202可以在小克隆字段中包括文本“小克隆与(minor clone with)”,如在翻译输出700中对应于染色体9的可配置文本串中所示。
基于拷贝数,增益/损失字段608可以填充有文本“的损失(loss of)”或“的增益(gain of)”或根本没有文本。例如,增益/损失字段608的转换规则可以指定如果拷贝数小于2,则增益/损失字段可以用文本“损失(loss of)”填充,另一方面,如果拷贝数大于2,则增益/损失字段可以用文本“增益(gain of)”填充例如,参照图5所示的第九染色体509的片段,拷贝数是小于2的“1-2”。因此,增益/损失字段608可以用文本“损失(loss of)”来填充
匹配基因字段610可以填充有对应于匹配基因的文本。例如,参照图5所示的第一染色体的第一片段501,匹配列表包括基因“TNFRSF14”此外,包含表明杂合性缺失的“hmz”的片段与“p”臂相关。因此,匹配的基因字段610可以用文本“1p重叠TNFRSF14基因的杂合性”来填充。图7中所示的翻译输出700示出了插入匹配基因字段610中的文本的几个例子,其中两个包括对应于染色体1和染色体17的文本。
染色体/片段标识符字段612标识表现出增益或损失的染色体、片段或细胞遗传学条带。该字段可填充染色体编号、长臂/短臂标识符或细胞遗传学条带标识符之一。例如,再次参考图5中所示的第九条染色体509的片段,拷贝数小于2,因此,染色体/片段标识符字段612填充有文本“染色体9”,如图7所示。在另一个例子中,对应于图5中染色体6 506的片段示出了拷贝数“x0”,表明“q”臂完全缺失。因此,对应于染色体6的染色体/片段标识符字段612可以用“6q”填充,如图7中的翻译输出700所示。
应当理解,翻译引擎202不限于生成图6和图7中所示的可配置和不可配置字段的数量和类型,并且还可以使用更多的可配置字段或更少的可配置字段。
在一些实施方式中,翻译引擎202可以基于染色体的核苷酸范围中的碱基对的数量来确定可配置文本的内容。例如,如果核苷酸范围中的碱基对的数量小于5个106碱基对(Mb),则翻译引擎可以放弃以第一部分702中所示的形式提供翻译输出,而是可以以第二部分704中所示的方式提供翻译输出。在第二部分704中,翻译引擎202可以提供匹配列表中的基因列表及其相应片段。

Claims (20)

1.一种处理下一代测序信息的系统,其包括:
一个或多个处理器;和
包括指令的一个或多个存储器元件,所述指令在被执行时使所述一个或多个处理器:
经由用户接口接收由下一代测序仪生成的输出文件;
确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带(cytoband)信息、核苷酸范围、和一组拷贝数;
确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中;
确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因;
生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域;
包括基于所述染色体编号的所述第一可配置文本区域中的第一文本,包括基于所述一组拷贝数的所述第二可配置文本区域中的第二文本,并且包括基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本;以及
向输出接口提供所述可配置文本串。
2.根据权利要求1所述的系统,其中所述下一代测序仪包括Illumina测序仪、IonTorrent测序仪、或454焦磷酸测序仪中的至少一种。
3.根据权利要求1所述的系统,其中所述一个或多个存储器元件包括指令,所述指令在被执行时使所述一个或多个处理器:
确定所述至少一个片段的开始位置和结束位置,所述开始位置包括所述染色体编号,并且所述结束位置指示所述一组拷贝数。
4.根据权利要求3所述的系统,其中所述至少一个片段对应于由所述染色体编号识别的染色体的短臂(p)、长臂(q)、或所述短臂和长臂的组合中的至少一者。
5.根据权利要求1所述的系统,其中所述一个或多个存储器元件包括指令,所述指令在被执行时使所述一个或多个处理器:
基于所述一组拷贝数和存储在存储器中的基因损失-增益规则,在所述第二可配置文本区域中包括所述第二文本,当所述一组拷贝数包括小于2的数字时,所述基因损失-增益规则将所述第二文本指定为“损失”。
6.根据权利要求1所述的系统,其中所述人类参考基因组列表包括GRCh38、GRCh37、NCBI Build 36.1、NCBI Build 35、NCBI Build 34、hg38、hg19、hg18、hg17、和hg16中的至少一者。
7.根据权利要求1所述的系统,其中所述基因列表包括至少一个癌症相关基因。
8.一种处理下一代测序信息的方法,其包括:
在一个或多个处理器处经由用户接口接收由下一代测序仪生成的输出文件;
在所述一个或多个处理器处确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数;
在所述一个或多个处理器处确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中;
在所述一个或多个处理器处确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因;
在所述一个或多个处理器处生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域;
包括基于所述染色体编号的所述第一可配置文本区域中的第一文本,包括基于所述一组拷贝数的所述第二可配置文本区域中的第二文本,并且包括基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本;以及
由所述一个或多个处理器向输出接口提供所述可配置文本串。
9.根据权利要求8所述的方法,其中所述下一代测序仪包括Illumina测序仪、IonTorrent测序仪、或454焦磷酸测序仪中的至少一种。
10.根据权利要求8所述的方法,其进一步包括:
在所述一个或多个处理器处确定所述至少一个片段的开始位置和结束位置,所述开始位置包括所述染色体编号,并且所述结束位置指示所述一组拷贝数。
11.根据权利要求10所述的方法,其中所述至少一个片段对应于由所述染色体编号识别的染色体的短臂(p)、长臂(q)、或所述短臂和长臂的组合中的至少一者。
12.根据权利要求8所述的方法,其进一步包括:
基于所述一组拷贝数和存储在存储器中的基因损失-增益规则,在所述第二可配置文本区域中包括所述第二文本,当所述一组拷贝数包括小于2的数字时,所述基因损失-增益规则将所述第二文本指定为“损失”。
13.根据权利要求8所述的方法,其中所述人类参考基因组列表包括GRCh38、GRCh37、NCBI Build 36.1、NCBI Build 35、NCBI Build 34、hg38、hg19、hg18、hg17、和hg16中的至少一者。
14.根据权利要求8所述的方法,其中所述基因列表包括至少一个癌症相关基因。
15.一种存储处理器可执行指令的计算机可读存储介质,所述处理器可执行指令在被至少一个处理器执行时使所述至少一个处理器:
经由用户接口接收由下一代测序仪生成的输出文件;
确定所述输出文件中的至少一个片段,所述至少一个片段包括染色体编号、细胞遗传学条带信息、核苷酸范围、和一组拷贝数;
确定所述核苷酸范围内的第一组基因,所述第一组基因包括在人类参考基因组列表中;
确定匹配的一组基因,所述匹配的一组基因包括出现在匹配所述第一组基因的子集的基因列表中的至少一个基因;
生成可配置文本串,所述可配置文本串包括不可配置文本区域、第一可配置文本区域、第二可配置文本区域、和第三可配置文本区域;
包括基于所述染色体编号的所述第一可配置文本区域中的第一文本,包括基于所述一组拷贝数的所述第二可配置文本区域中的第二文本,并且包括基于所述匹配的一组基因的所述第三可配置文本区域中的第三文本;以及
向输出接口提供所述可配置文本串。
16.根据权利要求15所述的计算机可读存储介质,其中所述下一代测序仪包括Illumina测序仪、Ion Torrent测序仪、或454焦磷酸测序仪中的至少一种。
17.根据权利要求15所述的计算机可读存储介质,其进一步包括指令,所述指令在被至少一个处理器执行时使所述至少一个处理器:
确定所述至少一个片段的开始位置和结束位置,所述开始位置包括所述染色体编号,并且所述结束位置指示所述一组拷贝数。
18.根据权利要求15所述的计算机可读存储介质,其中所述至少一个片段对应于由所述染色体编号识别的染色体的短臂(p)、长臂(q)、或所述短臂和长臂的组合中的至少一者。
19.根据权利要求15所述的计算机可读存储介质,其进一步包括指令,所述指令在被至少一个处理器执行时使所述至少一个处理器:
基于所述一组拷贝数和存储在存储器中的基因损失-增益规则,在所述第二可配置文本区域中包括所述第二文本,当所述一组拷贝数包括小于2的数字时,所述基因损失-增益规则将所述第二文本指定为“损失”。
20.根据权利要求15所述的计算机可读存储介质,其中所述人类参考基因组列表包括GRCh38、GRCh37、NCBI Build 36.1、NCBI Build 35、NCBI Build 34、hg38、hg19、hg18、hg17、和hg16中的至少一者。
CN201980007894.8A 2018-01-10 2019-01-09 基于原始基因组数据生成可配置文本串 Active CN111566741B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862615743P 2018-01-10 2018-01-10
US62/615,743 2018-01-10
PCT/US2019/012913 WO2019139994A1 (en) 2018-01-10 2019-01-09 Generating configurable text strings based on raw genomic data

Publications (2)

Publication Number Publication Date
CN111566741A true CN111566741A (zh) 2020-08-21
CN111566741B CN111566741B (zh) 2023-06-23

Family

ID=67218744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980007894.8A Active CN111566741B (zh) 2018-01-10 2019-01-09 基于原始基因组数据生成可配置文本串

Country Status (6)

Country Link
US (1) US11264119B2 (zh)
EP (1) EP3738123A4 (zh)
JP (1) JP7074861B2 (zh)
CN (1) CN111566741B (zh)
CA (1) CA3088012A1 (zh)
WO (1) WO2019139994A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140274731A1 (en) * 2012-12-10 2014-09-18 Clearfork Bioscience, Inc. Methods for targeted genomic analysis
US20140297196A1 (en) * 2013-03-15 2014-10-02 Pico Computing, Inc. Hardware Acceleration of Short Read Mapping for Genomic and Other Types of Analyses
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
WO2016043974A1 (en) * 2014-09-17 2016-03-24 Battelle Memorial Institute Methods of analyzing massively parallel sequencing data
WO2016139534A2 (en) * 2015-03-02 2016-09-09 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
US9798855B2 (en) * 2010-01-07 2017-10-24 Affymetrix, Inc. Differential filtering of genetic data
WO2017220508A1 (en) * 2016-06-22 2017-12-28 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005566A (en) * 1994-05-19 1999-12-21 Apple Computer, Inc. Aspect and style elements of an improved graphical user interface
US20050112689A1 (en) 2003-04-04 2005-05-26 Robert Kincaid Systems and methods for statistically analyzing apparent CGH data anomalies and plotting same
WO2012168815A2 (en) 2011-06-06 2012-12-13 Koninklijke Philips Electronics N.V. Method for assembly of nucleic acid sequence data
US20140278133A1 (en) 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
EP3636777A1 (en) * 2015-07-13 2020-04-15 Agilent Technologies Belgium NV System and methodology for the analysis of genomic data obtained from a subject

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798855B2 (en) * 2010-01-07 2017-10-24 Affymetrix, Inc. Differential filtering of genetic data
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
US20140274731A1 (en) * 2012-12-10 2014-09-18 Clearfork Bioscience, Inc. Methods for targeted genomic analysis
US20140297196A1 (en) * 2013-03-15 2014-10-02 Pico Computing, Inc. Hardware Acceleration of Short Read Mapping for Genomic and Other Types of Analyses
WO2016043974A1 (en) * 2014-09-17 2016-03-24 Battelle Memorial Institute Methods of analyzing massively parallel sequencing data
WO2016139534A2 (en) * 2015-03-02 2016-09-09 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
WO2017220508A1 (en) * 2016-06-22 2017-12-28 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JEFF CHANG 等: "《Biopython Tutorial and Cookbook》", 30 April 2017 *

Also Published As

Publication number Publication date
JP7074861B2 (ja) 2022-05-24
EP3738123A4 (en) 2021-10-13
CA3088012A1 (en) 2019-07-18
WO2019139994A1 (en) 2019-07-18
JP2021510435A (ja) 2021-04-22
US20200388352A1 (en) 2020-12-10
US11264119B2 (en) 2022-03-01
CN111566741B (zh) 2023-06-23
EP3738123A1 (en) 2020-11-18

Similar Documents

Publication Publication Date Title
KR102557985B1 (ko) 약하게 지도된 이미지 분류기
US9658898B2 (en) Flexible deployment and migration of virtual machines
US11743303B2 (en) Systems and methods for remote control in information technology infrastructure
EP3123425A1 (en) Systems and methods for motion two-dimensional codes
US20200396253A1 (en) Systems and methods for performing a simulated phishing attack
US9652263B2 (en) Migrating servers into a secured environment
US9524407B2 (en) Systems and methods for end-to-end secure link between a near-field communication (NFC) chip and server
US20240160549A1 (en) Systems and methods for identifying and monitoring solution stacks
US10133749B2 (en) Content library-based de-duplication for transferring VMs to a cloud computing system
US20180082392A1 (en) Systems and methods for selecting communication channels to improve student outcomes
US11005914B2 (en) Hidden desktop session for remote access
US10691479B2 (en) Virtual machine placement based on device profiles
CN111566741B (zh) 基于原始基因组数据生成可配置文本串
US20220107965A1 (en) Systems and methods for asset fingerprinting
US11249804B2 (en) Affinity based optimization of virtual persistent memory volumes
AU2021355460A1 (en) System and method for assessing operational states of a computer environment
US20230195757A1 (en) Systems and methods for data abstraction for transmission
US10152266B1 (en) Systems and methods for providing data backup services in a virtual environment
US20230229474A1 (en) Plug-in management in virtualized computing environment
US20200385806A1 (en) System and methods for primer extraction and clonality detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant