CN104951667A

CN104951667A - 一种用于分析蛋白质序列的性质的方法和装置

Info

Publication number: CN104951667A
Application number: CN201410123836.0A
Authority: CN
Inventors: 丁建栋; 张亚楠; 严骏驰; 黄振; 张超
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2015-09-30
Anticipated expiration: 2034-03-28
Also published as: US20150278440A1; CN104951667B

Abstract

本发明提供了一种用于分析蛋白质序列的性质的方法和装置。在一个实施方式中，提供了一种用于分析蛋白质序列的性质的方法，包括：响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列；通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器；以及由分类器来基于特征向量，分析蛋白质序列的性质。在另一实施方式中，提供了一种用于分析蛋白质序列的性质的装置。采用本发明，可以在无需进行人工试验的情况下，获得蛋白质序列的多方面的性质。

Description

一种用于分析蛋白质序列的性质的方法和装置

技术领域

本发明的各实施方式涉及数据分析，具体地，涉及用于分析蛋白质序列（protein sequence）性质（property）的方法和装置。

背景技术

随着人类社会的发展，人类在生物学方面的研究已经越来越深入。例如，人类对于蛋白质的研究已经深入到了蛋白质序列的层次，例如，目前已经可以测定蛋白质序列、蛋白质序列的结构，并且目前已经可以通过试验等技术手段，来分析蛋白质序列的性质。

蛋白质序列可以具有多个方面的性质，例如，物理性质、化学性质和病理性质等等。通常而言，需要设计不同的试验来确定上述诸多方面的性质。然而，试验过程费时费力，并且在很大程度上依赖于试验人员的人工操作，因而需要大量的人力、物力以及时间开销。另外，当需要获得多个蛋白质序列的多个方面的性质时，需要进行的试验的数量将成倍地增加。因而，如何以较低的人力、物力和时间成本来获得蛋白质序列的各个方面的性质，成为目前的一个研究热点。

发明内容

因而，期望能够开发一种准确、高效地分析蛋白质序列的各个方面的性质的技术方案，期望该技术方案可以基于参考数据库中的参考蛋白质序列的结构和性质，在无需进行人工试验的情况下，获得未知的蛋白质序列的诸如物理性质、化学性质、病理性质等方面的性质。进一步，还期望可以在无需人工试验的情况下，不断地丰富参考数据库中的参考蛋白质序列的样本。

根据本发明的一个方面，提供了一种用于分析蛋白质序列的性质的方法，包括：响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列；通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器；以及由分类器来基于特征向量，分析蛋白质序列的性质。

根据本发明的一个方面，响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列包括：从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。

根据本发明的一个方面，通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括：将任意两个序列进行比较以构造差异矩阵，其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合；基于差异矩阵中的多个列获取特征向量和至少一个参考向量。

根据本发明的一个方面，提供了一种用于分析蛋白质序列的性质的装置，包括：查找模块，配置用于响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列；映射模块，配置用于通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；训练模块，配置用于利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器；以及分析模块，配置用于由分类器来基于特征向量，分析蛋白质序列的性质。

根据本发明的一个方面，查找模块包括：相似性查找模块，配置用于从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。

根据本发明的一个方面，映射模块包括：构造模块，配置用于将任意两个序列进行比较以构造差异矩阵，其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合；获取模块，配置用于基于差异矩阵中的多个列获取特征向量和至少一个参考向量。

采用本发明所述的方法和装置，可以在无需人工试验的情况下，以更为快速、准确的方式分析蛋白质序列的多个方面的性质，并且还可以不断地丰富参考数据库中的内容，以便为将来的分析提供基础。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示意性示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图；

图2示意性示出了蛋白质序列与蛋白质序列的性质之间的关系的示意图；

图3示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的架构图；

图4示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的流程图；

图5A和图5B分别示意性示出了根据本发明一个实施方式的将蛋白质序列和参考蛋白质序列划分片段的示意图；

图6示意性示出了根据本发明一个实施方式的将蛋白质序列映射至特征向量的过程的示意图；以及

图7示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施方式的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其他光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施方式的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施方式中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其他模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，蛋白质序列包括数据和结构两方面的内容，数据方面是指构成蛋白质序列的不同类型的氨基酸以及这些氨基酸之间的顺序关系；另一方面，蛋白质序列的结构方面是指构成蛋白质序列的氨基酸的可以具有不同的结构（例如，折叠、螺旋等立体结构）。因而，蛋白质序列的数据和结构两方面的内容都将对蛋白质序列的产生影响。

图2示意性示出了蛋白质序列与蛋白质序列的性质之间的关系的示意图200。按照生物学的基本原理，蛋白质序列中的数据210（即，构成蛋白质序列的氨基酸）决定蛋白质序列的结构220，而结构220进而决定蛋白质序列的性质230。本发明的各个实施方式基于图2所示的依赖关系来分析蛋白质序列的性质。具体地，在本发明的一个实施方式中，当接收到未知蛋白质序列时，可以通过在参考数据库中查找与未知蛋白质序列相匹配的参考蛋白质序列，进而利用已知参考蛋白质序列的性质来分析该未知蛋白质序列的性质。

具体地，本发明提供了一种用于分析蛋白质序列的性质的方法，包括：响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列；通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器；以及由分类器来基于特征向量，分析蛋白质序列的性质。

图3示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的架构图300。如图3所示，参考数据库310中可以存储已知的参考蛋白质序列的信息，例如，可以包括蛋白质序列的数据、结构和性质；或者，参考数据库310中还可以只包括数据和结构，而可以将蛋白质序列的性质存储在其他数据库中。当接收到蛋白质序列320时，如箭头A所示，可以在参考数据库310中查找与蛋白质序列320相匹配的参考蛋白质序列，并且在如箭头B所示的步骤中返回参考序列330（在本发明的上下文中，基于不同的匹配算法可能会返回一个或者多个参考序列330）。

目前已经针对蛋白质序列的数据和结构定义了通用数据格式，并且目前已经存在许多免费的或者付费的蛋白质序列数据库。在本发明的一个实施方式中，可以直接调用这些现有的蛋白质序列数据库（例如SWISSPORT，全球最知名的蛋白质序列数据库），来作为本发明的上下文中的参考数据库310。

继而，可以将蛋白质序列320和参考序列330进行比较，并且将蛋白质序列320和参考序列330分别映射至特征向量340（如箭头C1所示）和参考向量350（如箭头C2所示）。应当注意，参考序列和参考向量具有一一对应的关系，即，一个参考序列对应于一个参考向量。继而，可以利用参考向量350来训练分类器360（如箭头D所示），并在后续步骤中利用分类器360来将特征向量340进行分类（如箭头E所示），以便分析蛋白质序列320的性质（如箭头F所示）。

在下文中，将参考附图4-7来详细描述本发明的各个实施方式。图4示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的流程图400。首先，在步骤S402中，响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列。在此步骤中，所接收到的蛋白质序列是期望对其分析性质的蛋白质序列。如上文所述，本发明的各个实施方式可以基于蛋白质序列的数据、结构和性质之间的依赖关系来分析蛋白质序列的性质，因而在此步骤中应当首先查找与蛋白质序列相匹配的参考蛋白质序列。

本领域技术人员应当注意，由于蛋白质序列的结构决定属性，因而如果直接从参考数据库中找到与蛋白质序列的结构相匹配的参考蛋白质序列，则可以直接将该参考蛋白质序列的性质作为该蛋白质序列的性质。

在步骤S404中，通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量。在此实施方式中，可以将蛋白质序列映射至特征向量，并将每个参考蛋白质序列映射至相应的参考向量。

具体而言，可以通过数学计算的方法来分别提取各个蛋白质序列（包括接收到的蛋白质序列和参考蛋白质序列）的特征值。在此，特征值可以表示从蛋白质序列中提取的能够标识该蛋白质序列的数据和结构的标识符。具体地，特征值可以以向量的方式表示。对于蛋白质序列和参考蛋白质序列而言，相应的特征值分别被称作特征向量和参考向量。为清楚起见，可以将接收到的蛋白质序列的特征值表示为特征向量，可以将参考蛋白质序列的特征值表示为参考向量。

在步骤S406中，利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器。在已经获取参考向量之后，可以利用参考向量来训练分类器。具体地，本发明并不限定可以使用的分类器的具体示例，本领域技术人员可以采用现有技术中已知的和/或将在未来开发的各种分类器，另外，本领域技术人员可以理解，分类器可以包括对蛋白质序列的性质的多个方面进行分类，举例而言，可以针对蛋白质序列的亲水性/疏水性方面进行分类，还可以针对蛋白质序列的其他性质进行分类。因而，训练后的分类器可以包括多个已知类别。

最后在步骤S408中，由分类器来基于比较向量，分析蛋白质序列的性质。由于在步骤S406中所得的分类器已经学习了参考向量和参考蛋白质序列之间的对应关系，因而，当向该分类器输入特征向量时，即可获得待分析的蛋白质序列的性质的分类，进而可以获得该待分析的蛋白质序列的性质。

根据如图4中所示的实施方式，可以在无需人工试验的情况下，通过计算来获取待分析的蛋白质序列的性质。以此方式，在参考数据库中的参考蛋白质序列足够丰富的情况下，通过一次计算即可获得待分析的蛋白质序列的多个方面的性质。进一步，采用本发明所述的技术方案，还可以针对多个蛋白质序列进行分析，此时用于分析的时间开销仅仅是执行如图4中所示过程的各个处理步骤的时间开销。相对于需要花费数天甚至更长时间的传统试验方法而言，本发明的技术方案大大提高了时间效率，并且降低了人力和物力方面的开销。

在本发明的一个实施方式中，响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列包括：从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。

由于目前已经定义了蛋白质序列的数据格式，因而，可以基于现有的数据格式的定义，来查找与接收到的蛋白质序列相匹配的参考蛋白质序列。具体地，可以获取蛋白质序列和参考数据库中的各个蛋白质序列的文本数据，进而通过文本比较的方式来查找参考蛋白质序列。具体而言，可以基于n元语法（n-gram）来采用滑动窗口的方式进行比较。由于蛋白质序列是由氨基酸形成的长度极大的序列，借助于概率语言模型（Probabilistic Language Model）中的n元语法来进行分析可以大大地提高数据处理效率。关于n元语法的更多细节，请参见http://en.wikipedia.org/wiki/N-gram，在本发明的上下文中将不再赘述。或者，本领域技术人员还可以采用目前已知的和/或将在未来开发的文本比较方式，来从参考数据库中提取匹配于输入的蛋白质序列的一个或者多个参考蛋白质序列。

在本发明的一个实施方式中，至少一个参考蛋白质序列包括两个或者更多的参考蛋白质序列，其中通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括：分别将蛋白质序列与至少一个参考蛋白质序列中的任一项进行比较，以将蛋白质序列映射至特征向量；以及针对至少一个参考蛋白质序列中的当前参考蛋白质序列，分别将当前参考蛋白质序列与至少一个参考蛋白质序列中除当前参考蛋白质序列以外的每个参考蛋白质序列以及蛋白质序列进行比较，以将当前参考蛋白质序列映射至相应的参考向量。

在下文中将详细描述如何获取特征向量和参考向量。为了方便起见，假设从参考数据库中获得了n-1个参考蛋白质序列（分别标识为P₁,...,P_i,...,P_n-1），并将输入的蛋白质序列标识为P_n。可以将输入的蛋白质序列P_n分别与n-1个参考蛋白质序列P₁,...,P_i,...,P_n-1中的每一个进行比较，以获取特征向量。另一方面，为了获取与某个参考蛋白质序列（例如，P₁）相对应的参考向量，可以将该参考蛋白质序列P₁分别与参考蛋白质序列P₂,...,P_i,...,P_n-1、以及P_n进行比较，以获取与P₁相对应的参考向量。

在本发明的一个实施方式中，通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括：将任意两个序列进行比较以构造差异矩阵，其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合；基于差异矩阵中的多个列获取特征向量和至少一个参考向量。

为了比较两个序列之间的差异，可以将各个序列划分为片段以便标识出两个序列之间具有差异的片段。具体地，图5A和图5B分别示意性示出了根据本发明一个实施方式的将蛋白质序列和参考蛋白质序列划分片段的示意图500A和500B。如图5A所示，示出了比较蛋白质序列510A和参考序列1520A之间的差异时所划分的片段，假设此时蛋白质序列510A中的片段1A和参考序列1520A中的片段2A之间具有差异，因而可以记载片段1A和片段2A的位置以用于后续计算。在本发明的上下文中，差异是指文本差异。

本领域技术人员应当理解，在比较不同序列的差异时，可以按照不同的方式来进行划分。如图2所示，示出了蛋白质序列510B和参考序列2520B之间的文本相似性时所划分的片段，假设此时蛋白质序列510B中的片段1B和参考序列2520B中的片段2B之间具有差异，并且蛋白质序列510B中的片段3B和参考序列2520B中的片段4B之间具有差异，因而可以记载片段1B和片段2B的位置、以及片段3B和片段4B的位置以用于后续计算。

在下文中，将详细描述如何构造差异矩阵。差异矩阵可以以如下公式1表示：

Matrix = [\begin{matrix} Null & difset (P_{2}, P_{1}) & difset (P_{3}, P_{1}) & . . . & difset (P_{n}, P_{1}) \\ difset (P_{1}, P_{2}) & Null & difset (P_{3}, P_{2}) & . . . & difset (P_{n}, P_{2}) \\ difset (P_{1}, P_{3}) & difset (P_{2}, P_{3}) & Null & . . . & difset (P_{n}, P_{3}) \\ . . . & . . . & . . . & Null & . . . \\ difset (P_{1}, P_{n}) & difset (P_{2}, P_{n}) & difset (P_{3}, P_{n}) & . . . & Null \end{matrix}]

公式1

在公式1中所示的差异矩阵中的每个元素difset(P_i,P_j)表示任意两个序列P_i和P_j之间的差异的集合。具体地，假设针对上文中参见图5A所示的两个序列中仅在片段1A和片段2A之间存在差异的情况下，蛋白质序列P_n和参考蛋白质序列P₁之间的差异集合difset(P_n,P₁)仅包括一个成员（即，片段1A、片段2A以及相应的结构差异）。又例如，对于上文中参见图5B所示的两个序列，蛋白质序列P_n和参考蛋白质序列P₂之间的差异集合difset(P_n,P₂)将包括两个成员。

在本发明的一个实施方式中，将任意两个序列进行比较以构造差异矩阵包括：针对任意两个序列，标识任意两个序列中的至少一对文本差异片段；针对至少一对文本差异片段中的当前文本差异片段，比较当前文本差异片段的蛋白质结构；以及响应于蛋白质结构不相同，将当前文本差异片段的标识符以及相应的蛋白质结构的差异加入与任意两个序列相关联的元素。

继续上文参见图5A和图5B所示的示例，在图5A中的片段1A和片段2A即为一对文本差异片段，而图5B中的片段1B和片段2B是一对文本差异片段、以及片段3B和片段4B是一对文本差异片段。仅以图5B中的两对文本差异片段为示例，需要在参考数据库中查找片段1B的结构和片段2B的结构之间的差异，并将差异记录为D1；还需要在参考数据库中查找片段3B的结构和片段4B的结构之间的差异，并将差异记录为D2。当两个序列中存在多对文本差异片段时，还需要针对每对文本差异片段进行处理。

应当注意，由于蛋白质的性质依赖于结构，因而在本发明的上下文中，仅将结构之间具有差异的文本差异片段的配对加入差异集合，而并不将具有相同结构的文本差异片段的配对加入差异集合。换言之，当两个文本差异片段具有相同结构的，认为文本之间的差异的显著性并没有达到影响蛋白质序列的性能的程度。

在本发明的一个实施方式中，差异矩阵中的每个元素difset(P_i,P_j)可以以如下公式来表示：

difset (P_{i}, P_{j}) = (dif (p_{i_{1}, j_{1}}, {p^{'}}_{i_{1}, j_{1}}, D_{i_{1}, j_{1}}), dif (p_{i_{2}, j_{2}}, {p^{'}}_{i_{2}, j_{2}}, D_{i_{2}, j_{2}}), . . .)

公式2

其中表示序列P_i中的片段的标识符，其中表示序列P_j中的片段的标识符，并且表示这两个片段之间结构的差异。基于上文所述的公式1和公式2，本领域技术人员可以构造差异矩阵。

在本发明的一个实施方式中，进一步包括：响应于参考数据库中不存在集合中的任意两个序列中的任一项的蛋白质结构，预测蛋白质结构。应当注意，目前已经开发出了用于预测蛋白质序列的结构的方法，因而，当从参考数据库中不能获得某蛋白质序列的结构时，还可以采用现有的方法来预测该蛋白质序列的结构。在本发明的实施方式中，并不限定预测蛋白质的结构的具体方法，本领域技术人员可以基于具体的应用环境来选择适合的方法，在此不再赘述。

在下文中，将详细描述如何基于差异矩阵来获取特征向量和参考向量。在本发明的一个实施方式中，基于差异矩阵中的多个列获取特征向量和至少一个参考向量包括：针对多个列中的一个列，基于互信息（mutual information）函数来计算与列中的每个元素相对应的数值；将来自每个元素的数值进行组合以形成特征向量和至少一个参考向量中的任一项。

在本发明的一个实施方式中，可以将上文公式1中示出的矩阵划分为n个列，并且可以从每个列中获取相应的向量。具体地，可以从第一列中获取针对参考蛋白质序列P₁的参考向量1，可以从第二列中获取针对参考蛋白质序列P₂的参考向量2，…，并且可以从第n列中获取针对所输入的蛋白质序列的特征向量。在下文中将参见图6，仅以如何获得所输入的蛋白质序列的特征向量为示例，进行详细描述。本领域技术人员可以根据此示例来以类似的方式获取各个参考向量。

图6示意性示出了根据本发明一个实施方式的将蛋白质序列映射至特征向量的过程的示意图600。在图6中，610示意性示出了根据上文所述的方法而获取的差异矩阵中的第n列，基于公式2可知，第n列中的每个元素都是表示输入的蛋白质序列与其他参考蛋白质序列之间的差异的集合。具体地，第1个元素difset(P_n,P₁)表示输入的蛋白质序列P_n与第一个参考蛋白质序列P₁之间的差异的集合。如图6中所示，假设两个序列之间存在m1个差异，则基于公式2可以将差异矩阵中的第n列展开为列620所示的形式。

如图6中的620所示，输入蛋白质序列P_n与第一个参考蛋白质序列P₁之间存在m1个差异，与第二个参考蛋白质序列P₂之间存在m2个差异，…，与第n-1个参考蛋白质序列P₁之间存在m_n-1个差异。图6中的列620中的元素表示，输入的蛋白质序列P_n与第u个参考蛋白质序列之间的第v个差异。在图6中，通过省略片段的标识符，将公式2中的差异简写为如参考数字620所示的形式。

接着，针对列620中的每一个元素（每个元素包括描述两个序列之间结构差异的集合），可以基于互信息函数来计算与每个元素相对应的数值。

互信息是一种信息度量，用于描述两个事件集合之间的相关性。在本发明的上下文中，并不限定具体使用哪种函数来进行计算，而是本领域技术人员可以参见现有技术中已经形成的和/或将在未来开发的各种方法来进行计算。例如，可以使用如下公式3中所示的函数：

\begin{matrix} pMI (s_{i}) = \frac{1}{| Struc - Neib |} \underset{l &Element; strue - Neib}{Σ} cMI (l) \\ = \frac{1}{Strue - {cons}_{neib} (k)} \underset{l &Element; struc - Neib}{Σ} {cons}_{JSD} (k) \underset{l &Element; struc - Neib}{Σ} cMI (l) \end{matrix}

其中：

\begin{matrix} {cons}_{JSD} = \frac{JSD (k) - μ_{JSD}}{σ_{JSD}}, \\ whereJSD (k) = H (\frac{f_{K}^{obs} - f^{backgr}}{2}) - \frac{1}{2} H (f_{K}^{obs}) - \frac{1}{2} H (f^{backgr}) \end{matrix}

公式3f_k ^obs是概率质量函数，约等于对n条蛋白质序列进行比对后，统计每一列上的氨基酸频率，k为集合Si中的一个片段；

f^backgr与f_k ^obs相同，用于统计整个参考数据库中的序列的每一列上氨基酸频率；

H(.)表示香农信息熵；

cons_JSD，z-score表示标准分数，衡量片段k的序列特异程度；

|Struc-Neib|表示片段K相邻结构的集合；

cMI表示蛋白质结构与性质的互信息函数。

在本发明的上下文中将不再赘述关于互信息的更多原理，本领域技术人员可以参见Buslje,C.M.et al.(2010)Networks of highmutual information define the structural proximity of catalytic sites:implications for catalytic residue identification.PLoS comput.Biol.,6,e1000978。

采用上文所述的方法，可以将图6中的列620映射至列630，其中列630中的第一个数值pMI₁即为向列620中的第一个集合应用互信息函数的运算结果。列630即为输入的蛋白质序列P_n的特征向量。采用上文所述的方法，本领域技术人员还可以获取每个参考蛋白质序列的参考向量，在此不再赘述。

应当注意，还可能存在差异集合为空集的情况，此时可以认为基于互信息计算所得的结果为“0”，因而在后续形成向量的过程中可以在向量中相应的位置处设置“0”。例如，假设上文所述的图6中的列620的第一个元素为空集时，则相应地pMI₁＝0，进而生成的特征向量为(0,pMI₂,pMI₃,...)。

在本发明的一个实施方式中，利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器包括：调整与分类器相关联的参数，使得分类器针对至少一个参考向量中的当前参考向量，将与当前参考向量相对应的当前参考蛋白质序列分类至与当前参考蛋白质序列的性质相对应的已知分类。

根据本发明的原理，由于参考蛋白质序列的性质是已知的，因而可以基于参考蛋白质的性质、以及从参考蛋白质序列获取的参考向量来训练分类器，并且使得训练后的分类器能够在接收到与参考蛋白质序列相对应的参考向量作为输入时，可以将该参考蛋白质序列分类到相应的已知分类。

为简单起见，假设与参考蛋白质序列P1相对应的参考向量是V1，并且该参考蛋白质序列是亲水性蛋白质，则分类器在接收到输入V1时，将参考蛋白质序列P1分类至亲水性蛋白质的分类。当存在多个其他的参考蛋白质序列时，分类器还可以基于其他参考蛋白质序列的参考向量，来将该其他参考蛋白质序列分类到相应的已知分类。

在本发明的一个实施方式中，由分类器来基于特征向量，分析蛋白质序列的性质包括：由分类器基于特征向量，将蛋白质序列分类至已知分类；以及基于已知分类来分析蛋白质序列的性质。

在此实施方式中，由于分类器已经具有参考向量性质之间的相关性的知识，因而在接收到未知蛋白质序列的特征向量时，可以将该未知蛋白质序列分类到相应的已知分类。例如，假设分类器接收到了蛋白质序列P_n的特征序列V，并将该蛋白质序列P_n分类至疏水蛋白质的分类，则表示该蛋白质序列P_n属于疏水性蛋白质。以此方式，可以在完全没有人工试验的情况下，分析蛋白质序列的性质。

在本发明的一个实施方式中，进一步包括：将蛋白质序列以及分析的性质加入参考数据库。在已经分析了蛋白质序列P_n的性质的情况下，还可以将该蛋白质序列P_n以及相应的性质加入到参考数据库中，用作未来分析的基础。

前面已经参考附图描述了实现本发明的方法的各个实施方式。本领域技术人员可以理解的是，上述方法既可以以软件方式实现，也可以以硬件方式实现，或者通过软件与硬件相结合的方式实现。并且，本领域技术人员可以理解，通过以软件、硬件或者软硬件相结合的方式实现上述方法中的各个步骤，可以提供一种基于相同发明构思的一种设备。即使该设备在硬件结构上与通用处理设备相同，由于其中所包含的软件的作用，使得该设备表现出区别于通用处理设备的特性，从而形成本发明的各个实施方式的设备。本发明中所述设备包括若干装置或模块，所述装置或模块被配置为执行相应步骤。本领域的所述技术人员通过阅读本说明书可以理解如何编写程序实现所述装置或模块执行的动作。由于所述设备与方法基于相同的发明构思，因此其中相同或相应的实现细节同样适用于与上述方法对应的装置或模块，由于其在上文中已经进行了详细和完整的描述，因此在下文中可能不再进行赘述。

图7示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的装置的框图700。具体地，提供了一种用于分析蛋白质序列的性质的装置，包括：查找模块710，配置用于响应于接收到蛋白质序列，从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列；映射模块720，配置用于通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；训练模块730，配置用于利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器；以及分析模块740，配置用于由分类器来基于特征向量，分析蛋白质序列的性质。

在本发明的一个实施方式中，查找模块710包括：相似性查找模块，配置用于从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。

在本发明的一个实施方式中，所述至少一个参考蛋白质序列包括两个或者更多的参考蛋白质序列，映射模块720包括：第一映射模块，配置用于分别将蛋白质序列与至少一个参考蛋白质序列中的任一项进行比较，以将蛋白质序列映射至特征向量；以及第二映射模块，配置用于针对至少一个参考蛋白质序列中的当前参考蛋白质序列，分别将当前参考蛋白质序列与至少一个参考蛋白质序列中除当前参考蛋白质序列以外的每个参考蛋白质序列以及蛋白质序列进行比较，以将当前参考蛋白质序列映射至相应的参考向量。

在本发明的一个实施方式中，映射模块720包括：构造模块，配置用于将任意两个序列进行比较以构造差异矩阵，其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合；获取模块，配置用于基于差异矩阵中的多个列获取特征向量和至少一个参考向量。

在本发明的一个实施方式中，构造模块包括：标识模块，配置用于针对任意两个序列，标识任意两个序列中的至少一对文本差异片段；比较模块，配置用于，针对至少一对文本差异片段中的当前文本差异片段，比较当前文本差异片段的蛋白质结构；以及响应于蛋白质结构不相同，将当前文本差异片段的标识符以及相应的蛋白质结构的差异加入与任意两个序列相关联的元素。

在本发明的一个实施方式中，进一步包括：结构预测模块，配置用于响应于参考数据库中不存在集合中的任意两个序列中的任一项的蛋白质结构，预测蛋白质结构。

在本发明的一个实施方式中，获取模块包括：计算模块，配置用于针对多个列中的一个列，基于互信息函数来计算与列中的每个元素相对应的数值；组合模块，配置用于将来自每个元素的数值进行组合以形成特征向量和至少一个参考向量中的任一项。

在本发明的一个实施方式中，训练模块730包括：调整模块，配置用于调整与分类器相关联的参数，使得分类器针对至少一个参考向量中的当前参考向量，将与当前参考向量相对应的当前参考蛋白质序列分类至与当前参考蛋白质序列的性质相对应的已知分类。

在本发明的一个实施方式中，分析模块740包括：分类模块，配置用于由分类器基于特征向量，将蛋白质序列分类至已知分类；以及性质分析模块，配置用于基于已知分类来分析蛋白质序列的性质。

在本发明的一个实施方式中，进一步包括：更新模块，配置用于将蛋白质序列以及分析的性质加入参考数据库。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施方式中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施方式的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

1.一种用于分析蛋白质序列的性质的方法，包括：

响应于接收到所述蛋白质序列，从参考数据库中查找与所述蛋白质序列相匹配的至少一个参考蛋白质序列；

通过比较所述蛋白质序列和所述至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将所述蛋白质序列和所述至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；

利用所述至少一个参考向量以及所述至少一个参考蛋白质序列的性质来训练分类器；以及

由所述分类器来基于所述特征向量，分析所述蛋白质序列的性质。

2.根据权利要求1所述的方法，其中响应于接收到所述蛋白质序列，从所述参考数据库中查找与所述蛋白质序列相匹配的所述至少一个参考蛋白质序列包括：

从所述参考数据库中查找与所述蛋白质序列的文本内容相近似的所述至少一个参考蛋白质序列。

3.根据权利要求1所述的方法，其中所述至少一个参考蛋白质序列包括两个或者更多的参考蛋白质序列，其中通过比较所述蛋白质序列和所述至少一个参考蛋白质序列构成的所述集合中的所述任意两个序列，分别将所述蛋白质序列和所述至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括：

分别将所述蛋白质序列与所述至少一个参考蛋白质序列中的任一项进行比较，以将所述蛋白质序列映射至所述特征向量；以及

针对所述至少一个参考蛋白质序列中的当前参考蛋白质序列，分别将所述当前参考蛋白质序列与所述至少一个参考蛋白质序列中除所述当前参考蛋白质序列以外的每个参考蛋白质序列以及所述蛋白质序列进行比较，以将所述当前参考蛋白质序列映射至相应的参考向量。

4.根据权利要求1-3中的任一项所述的方法，其中通过比较所述蛋白质序列和所述至少一个参考蛋白质序列构成的所述集合中的所述任意两个序列，分别将所述蛋白质序列和所述至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括：

将所述任意两个序列进行比较以构造差异矩阵，其中所述差异矩阵中的每个元素是描述所述任意两个序列之间的差异的集合；

基于所述差异矩阵中的多个列获取所述特征向量和所述至少一个参考向量。

5.根据权利要求4所述的方法，其中将所述任意两个序列进行比较以构造所述差异矩阵包括：针对所述任意两个序列，

标识所述任意两个序列中的至少一对文本差异片段；

针对所述至少一对文本差异片段中的当前文本差异片段，

比较所述当前文本差异片段的蛋白质结构；以及

响应于所述蛋白质结构不相同，将所述当前文本差异片段的标识符以及相应的蛋白质结构的差异加入与所述任意两个序列相关联的元素。

6.根据权利要求5所述的方法，进一步包括：

响应于所述参考数据库中不存在所述集合中的所述任意两个序列中的任一项的蛋白质结构，预测所述蛋白质结构。

7.根据权利要求4所述的方法，其中基于所述差异矩阵中的多个列获取所述特征向量和所述至少一个参考向量包括：针对所述多个列中的一个列，

基于互信息函数来计算与所述列中的每个元素相对应的数值；

将来自每个元素的所述数值进行组合以形成所述特征向量和所述至少一个参考向量中的任一项。

8.根据权利要求1-3中的任一项所述的方法，其中利用所述至少一个参考向量以及所述至少一个参考蛋白质序列的性质来训练所述分类器包括：

调整与所述分类器相关联的参数，使得所述分类器针对所述至少一个参考向量中的当前参考向量，将与所述当前参考向量相对应的当前参考蛋白质序列分类至与所述当前参考蛋白质序列的性质相对应的已知分类。

9.根据权利要求8所述的方法，其中由所述分类器来基于所述特征向量，分析所述蛋白质序列的性质包括：

由所述分类器基于所述特征向量，将所述蛋白质序列分类至所述已知分类；以及

基于所述已知分类来分析所述蛋白质序列的性质。

10.根据权利要求1-3中的任一项所述的方法，进一步包括：

将所述蛋白质序列以及分析的所述性质加入所述参考数据库。

11.一种用于分析蛋白质序列的性质的装置，包括：

查找模块，配置用于响应于接收到所述蛋白质序列，从参考数据库中查找与所述蛋白质序列相匹配的至少一个参考蛋白质序列；

映射模块，配置用于通过比较所述蛋白质序列和所述至少一个参考蛋白质序列构成的集合中的任意两个序列，分别将所述蛋白质序列和所述至少一个参考蛋白质序列映射至特征向量和至少一个参考向量；

训练模块，配置用于利用所述至少一个参考向量以及所述至少一个参考蛋白质序列的性质来训练分类器；以及

分析模块，配置用于由所述分类器来基于所述特征向量，分析所述蛋白质序列的性质。

12.根据权利要求11所述的装置，其中所述查找模块包括：

相似性查找模块，配置用于从所述参考数据库中查找与所述蛋白质序列的文本内容相近似的所述至少一个参考蛋白质序列。

13.根据权利要求11所述的装置，其中所述至少一个参考蛋白质序列包括两个或者更多的参考蛋白质序列，其中所述映射模块包括：

第一映射模块，配置用于分别将所述蛋白质序列与所述至少一个参考蛋白质序列中的任一项进行比较，以将所述蛋白质序列映射至所述特征向量；以及

第二映射模块，配置用于针对所述至少一个参考蛋白质序列中的当前参考蛋白质序列，分别将所述当前参考蛋白质序列与所述至少一个参考蛋白质序列中除所述当前参考蛋白质序列以外的每个参考蛋白质序列以及所述蛋白质序列进行比较，以将所述当前参考蛋白质序列映射至相应的参考向量。

14.根据权利要求11-13中的任一项所述的装置，其中所述映射模块包括：

构造模块，配置用于将所述任意两个序列进行比较以构造差异矩阵，其中所述差异矩阵中的每个元素是描述所述任意两个序列之间的差异的集合；

获取模块，配置用于基于所述差异矩阵中的多个列获取所述特征向量和所述至少一个参考向量。

15.根据权利要求14所述的装置，其中所述构造模块包括：

标识模块，配置用于针对所述任意两个序列，标识所述任意两个序列中的至少一对文本差异片段；

比较模块，配置用于，针对所述至少一对文本差异片段中的当前文本差异片段，比较所述当前文本差异片段的蛋白质结构；以及响应于所述蛋白质结构不相同，将所述当前文本差异片段的标识符以及相应的蛋白质结构的差异加入与所述任意两个序列相关联的元素。

16.根据权利要求15所述的装置，进一步包括：

结构预测模块，配置用于响应于所述参考数据库中不存在所述集合中的所述任意两个序列中的任一项的蛋白质结构，预测所述蛋白质结构。

17.根据权利要求14所述的装置，其中所述获取模块包括：

计算模块，配置用于针对所述多个列中的一个列，基于互信息函数来计算与所述列中的每个元素相对应的数值；

组合模块，配置用于将来自每个元素的所述数值进行组合以形成所述特征向量和所述至少一个参考向量中的任一项。

18.根据权利要求11-13中的任一项所述的装置，其中所述训练模块包括：

调整模块，配置用于调整与所述分类器相关联的参数，使得所述分类器针对所述至少一个参考向量中的当前参考向量，将与所述当前参考向量相对应的当前参考蛋白质序列分类至与所述当前参考蛋白质序列的性质相对应的已知分类。

19.根据权利要求18所述的装置，其中所述分析模块包括：

分类模块，配置用于由所述分类器基于所述特征向量，将所述蛋白质序列分类至所述已知分类；以及

性质分析模块，配置用于基于所述已知分类来分析所述蛋白质序列的性质。

20.根据权利要求11-13中的任一项所述的装置，进一步包括：

更新模块，配置用于将所述蛋白质序列以及分析的所述性质加入所述参考数据库。