CN112786141A

CN112786141A - 一种功能肽推荐方法、装置和计算设备

Info

Publication number: CN112786141A
Application number: CN202110080336.3A
Authority: CN
Inventors: 王天元; 翟珂; 陈壮志; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingpai Technology Co ltd
Current assignee: Beijing Jingpai Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-11
Anticipated expiration: 2041-01-21
Also published as: CN112786141B

Abstract

本发明公开了一种功能肽推荐方法，适于在计算设备中执行。该方法包括：根据预先训练的功能肽生成模型生成多个候选肽段；采用预先训练的功能肽预测模型对所述多个候选肽段进行处理，得到各候选肽段的性能分数；以及根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。本发明还一并公开了对应的功能肽推荐装置和适于执行该方法的计算设备。

Description

一种功能肽推荐方法、装置和计算设备

技术领域

本发明涉及药物虚拟筛选领域，尤其涉及一种功能肽推荐方法、装置和计算设备。

背景技术

目前，癌症已经成为人类健康和生命安全的最大威胁。由于传统抗癌药物的低选择性、不同程度的副作用及癌细胞通过自身变异以及环境、药物诱发其变异导致癌细胞产生抗药性，在很大程度上加剧了人类对新型抗癌药物需求的紧迫性。研究结果表明，很多阳离子抗菌肽(Antimicrobial peptides，AMPs)不仅具有高效的杀菌作用，还具有抗癌及抗病毒活性。具有抗癌活性的阳离子肽被称作抗癌肽(Anticancer peptides，ACPs)。抗癌肽以高度保守的细胞膜为作用靶点，通过破坏细胞膜的完整性杀灭癌细胞，针对癌细胞表现出高效、广谱的活性及特异性。

抗肿瘤多肽大多是带正电的两亲性分子，并且有着明显的亲疏水界面，它们与细胞的作用首先是通过自身的正电性与带负电的肿瘤细胞膜发生静电吸引，进而相互接触；一旦接触到细胞，多肽的疏水面就会与细胞膜所结合，将多肽自身插入并融合到细胞膜内部去；最终，多肽破坏细胞膜的完整性导致细胞死亡，或者进入细胞内部通过其它方式引发细胞死亡。

抗癌肽的诸多特点一直在吸引着科学家们对它的开发利用，尽管可以通过传统的实验方法来判断某条蛋白质是否具有抗癌肽的活性，但因其过程繁琐且耗时长而受到诸多限制，因此需要提供一种更低成本且省时的抗癌肽推荐方法。

发明内容

为此，本发明提供了一种功能肽推荐方法、装置和计算设备，以力图解决或至少缓解上面存在的一个问题。

本发明提供了一种功能肽推荐方法，适于在计算设备中执行，该方法包括：根据预先训练的功能肽生成模型生成多个候选肽段；采用预先训练的功能肽预测模型对所述多个候选肽段进行处理，得到各候选肽段的性能分数；根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐方法中，根据各候选肽段的性能分数确定至少一个目标肽段进行推荐包括：根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签；根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐方法中，根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐的步骤包括：根据各候选肽段的至少一个理化性质标签对多个候选肽段进行过滤，得到过滤后的肽段；根据过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐方法中，根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐的步骤包括：根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级，并根据该评分等级确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐方法中，预设的功能肽的至少一个理化性质的区间值通过对多个已知活性肽进行统计得到。

可选地，在根据本发明的功能肽推荐方法中，还包括功能肽生成模型的训练步骤：采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型，多条多肽数据包括功能肽和非功能肽；采用已知的多个功能肽数据对预训练模型进行迁移学习，得到预先训练的功能肽生成模型。

可选地，在根据本发明的功能肽推荐方法中，还包括功能肽预测模型的训练步骤：生成多个已知肽段的至少一个矢量特征；根据特征组合列表对所述多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的验证集；根据初始的功能肽预测模型在训练集和验证集的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

可选地，在根据本发明的功能肽推荐方法中，其还包括：根据最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型；将至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为预先训练的功能肽预测模型。

可选地，在根据本发明的功能肽推荐方法中，采用预先训练的功能肽预测模型对多个候选肽段进行处理的步骤包括：根据最优组合特征和多个候选肽段生成对应的待测样本特征；采用预先训练的功能肽预测模型对待测样本特征进行处理，得到每个候选肽段的预测结果。

可选地，在根据本发明的功能肽推荐方法中，在生成多个已知肽段的至少一个矢量特征之前，还包括：对输入的多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出多个已知肽段的统计学描述。

可选地，在根据本发明的功能肽推荐方法中，过滤筛选的规则包括以下至少一种：文本格式为TXT格式或者FASTA格式、肽段序列中不包含非天然氨基酸、所有天然氨基酸均用大写字符表示。

可选地，在根据本发明的功能肽推荐方法中，文本格式转换为将TXT格式转换为FASTA格式；统计学描述包括序列总数量、序列长度最大值、序列长度最小值、序列长度平均值、序列长度标准差、序列长度四分位数和序列过滤结果中的至少一种。

根据本发明的另一个方面，提供一种功能肽推荐装置，适于驻留在计算设备中，该装置包括：肽段生成模块，适于根据预先训练的功能肽生成模型生成多个候选肽段；肽段预测模块，适于采用预先训练的功能肽预测模型对多个候选肽段进行处理，得到各候选肽段的性能分数；以及肽段推荐模块，适于根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐装置中，肽段推荐模块适于：根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签；根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐装置中，肽段推荐模块进一步适于：根据各候选肽段的至少一个理化性质标签对多个候选肽段进行过滤，得到过滤后的肽段；根据过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐装置中，肽段推荐模块进一步适于：根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级，并根据该评分等级确定至少一个目标肽段进行推荐。

可选地，在根据本发明的功能肽推荐装置中，还包括生成模型训练模块，适于：采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型，多条多肽数据包括功能肽和非功能肽；采用已知的多个功能肽数据对预训练模型进行迁移学习，得到预先训练的多肽生成模型。

可选地，在根据本发明的功能肽推荐装置中，还包括预测模型训练模块，适于：生成多个已知肽段的至少一个矢量特征；根据特征组合列表对多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的验证集；根据初始的功能肽预测模型在训练集和验证集的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

可选地，在根据本发明的功能肽推荐装置中，预测模型训练模块还适于：根据最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型；将至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为预先训练的功能肽预测模型。

可选地，在根据本发明的功能肽推荐装置中，肽段预测模块适于：根据最优组合特征和多个候选肽段生成对应的待测样本特征；采用预先训练的功能肽预测模型对待测样本特征进行处理，得到每个候选肽段的预测结果。

可选地，在根据本发明的功能肽推荐装置中，预测模型训练模块在生成多个已知肽段的至少一个矢量特征之前，还适于：对输入的多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出多个已知肽段的统计学描述。

根据本发明的再一方面，提供了一种计算设备，包括：存储器；一个或多个处理器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述的功能肽推荐方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的功能肽推荐方法。

根据本发明的技术方案，通过训练好的功能肽生成模型来生成多个候选肽段，然后用训练好的功能肽预测模型来从中选取可能的功能肽。还能够依据功能肽预测模型的输出结果和专家打分结果，来选取高性能的功能肽，该方法成本低且省事省力，加速了分子药物研发流程。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一些实施方式的计算设备100的示意图；

图2示出了根据本发明一个实施例的功能肽推荐方法200的流程图；

图3示出了根据本发明一个实施例的功能肽生成模型的训练过程示意图；

图4示出了根据本发明一个实施例的功能肽预测模型的训练过程示意图；

图5示出了根据本发明一个实施例的肽段预测过程的示意图；

图6示出了根据本发明一个实施例的肽段推荐过程的示意图；

图7示出了根据本发明一个实施例的功能肽推荐装置700的结构图；

图8示出了根据本发明另一个实施例的功能肽推荐装置800的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行功能肽推荐方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行功能肽推荐方法200。

图2示出了根据本发明一个实施例的功能肽推荐方法200的流程图。方法200在计算设备中执行，如在计算设备100中执行，以便筛选出具有特定活性的功能肽。如图2所示，该方法始于步骤S210。

在步骤S210中，根据预先训练的功能肽生成模型生成多个候选肽段。

在步骤S220中，采用预先训练的功能肽预测模型对多个候选肽段进行处理，得到各候选肽段的性能分数。

在步骤S230中，根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

根据本发明的一个实施例，方法200还可以包括如图3所示的功能肽生成模型的训练过程，具体包括：

步骤S310：采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型，该多条多肽数据包括功能肽和非功能肽。其中，功能肽可以是任意具有活性的肽，比如抗癌肽，当然不限于此。

具体而言，首先由预训练模块以来自UniProt等多肽库的200万条多肽数据为训练集，利用BiGRU模型(双向门控循环神经网络)进行无监督训练，得到预训练模型。之后由微调模块以目前收集到的多条功能肽(如715条抗癌肽)数据作为迁移学习训练集，对预训练模型进行迁移学习，得到定向生成模型。根据一个实施例，迁移学习训练集可采用MLACP数据集所提供的抗癌肽的概况，其中，Tyagi-B数据集用来训练，例如用于生成训练集和验证集；HCC和LEE数据集用来测试，例如用来生成测试集，也可以称为大规模数据集。每种数据集均含有一定数目的功能肽和非功能肽。具体而言，三种数据集是三种独立来源的抗癌肽和非抗癌肽数据集，Tyagi-B使用已有文献中提供的数据集构建，HC数据集基于其他已有研究报道的数据集构建，LEE数据集基于对已有数据库的搜索而构建。

步骤S320：采用已知的多个功能肽数据对预训练模型进行迁移学习，得到预先训练的功能肽生成模型。

这样，即可基于该训练好的功能肽生成模型生成多个候选多肽。这里，可输入多个起始字符或起始字段，以根据该起始字符或起始字段生成对应的多个候选多肽。

通过BiGRU模型可定向生成多肽，定向生成为根据不同超参数通过生成算法对功能肽迁移学习后所生成的数据。例如可根据迁移学习20000步后的模型来定向生成多肽，或者对网络全部参数进行迁移学习10000步后的模型来定向生成多肽，或者根据迁移学习10000步后的模型来定向生成多肽。不管采用哪种迁移学习后的模型来生成多肽，后续通过预测这些多肽的潜在功能肽比例，均能确认本发明的深度学习模型可以有效起到功能肽的富集作用。

根据本发明的一个实施例，方法200还可以包括如图4所示的功能肽预测模型的训练过程，具体包括：

步骤S410：对输入的多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出多个已知肽段的统计学描述。该输入的多个已知肽段集即上文中提到的MLACP数据集，其中，Tyagi-B数据集用来训练，HCC和LEE数据集用来测试。

根据一个实施例，可以在肽段质量检验模块中查找肽段文件中的字符异常报告，对输入的每条多肽序列进行基于字符的过滤筛选与分析并输出其的统计学描述和异常情况。其中，过滤筛选的规则包括以下至少一种：文本格式为TXT格式或者FASTA格式、肽段序列中不包含非天然氨基酸、所有天然氨基酸均用大写字符表示。若有违反则对该序列甚至文件进行删除。

文本格式转换为将TXT格式转换为FASTA格式。统计学描述包括序列总数量、序列长度最大值、序列长度最小值、序列长度平均值、序列长度标准差、序列长度四分位数和序列过滤结果中的至少一种。输出统计学描述的目的为了解数据分布并提升后续的专家召回模块的效率

步骤S420：生成多个已知肽段的至少一个矢量特征。

根据一个实施例，可以在矢量化模块中，将标准化后的FASTA文件中的单字符氨基酸序列转化为基于统计学的多肽特征表征，通过对特征的筛选，可选择了如下特征以供建模：AAC、DPC、TPC、SE、RRI、SHE、PCP、ATC、SOC、QOS和PSEKRAAC矢量，具体的意义如下表所示：

表1多肽特征说明表

具体而言，AAC、DPC、TPC均为统计多肽中氨基酸、二肽、三肽的频数，即统计每种的出现次数，天然氨基酸的总数为20，天然二肽的总数为400，天然三肽的总数为8000。以多肽AAAAAA为例，则其AAC特征为(6，0，0…)，后续共19个0。以三肽AAA为例，则其TPC特征表征为(1，0，0…)，后续共7999个0。

步骤S430：根据特征组合列表对多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的测试集。

根据一个实施例，可以在特征组合遍历模块中，对上述表格中的一种或多种特征进行组合，得到遍历组合特征列表，该列表中包括多个组合结果。特征组合模块通过组合不同的特征以筛选出最好的特征组合，候选特征如上文所示共有11种，因此会产生包括单特征，双特征，多特征等多种组合方式。之后，根据每种组合方式在数据预处理模块中划分数据集，包括每个特征组合的训练集和验证集。当然，这里同时还可以生成对应的测试集。

步骤S440：根据初始的功能肽预测模型在训练集和验证集的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

根据一个实施例，可以在模型训练模块默认模型参数，遍历组合特征，对训练集进行10折交叉检验并返回验证集评价指标。通过固定机器学习模型，不同特征组合会包含不同的信息，最终选取出最优的组合。其中，模型参数包括以下至少一种：决策树最大深度maxdepth、弱学习器的个数n_estimator、学习率learning_rate、子采样率subsample、子节点最小权重和min_child_weight、L2正则化权重reg_lambda、L1正则化权重reg_alpha；评价指标使用MCC(Matthews correlation coefficient，马修斯相关系数)。之后在模型评价模块中对训练后模型进行基于测试集的评价。

步骤S450：根据最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型。

根据一个实施例，可以在Hyperopt调参模块采用Hyperopt方法对XGBOOST模型进行调参，或者采用Hyperopt方法对随机森林模型进行调参。调参模块中固定筛选后的特征组合，通过组合机器学习模型的超参数以达到筛选模型的目的。在评估模型时可根据模型在训练集和验证集的N折检验的MCC，选取两者排名均靠前的多个模型作为候选模型。对于两种评价可采用训练集上评价指标和验证集上评价指标加权平均的方式，当然不限于此。

步骤S460：将至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为预先训练的功能肽预测模型。

这里可采用前文中的HC数据集和LEE数据集进行泛化能力测试，采用每个候选模型来预测两数据集的抗癌性，根据预测结果的评价指标来筛选最优模型。模型泛化能力测试结果如表2所示，可以看出通过该流程构建的模型泛化能力较好。

表2模型泛化能力评价表

数据集	MCC	Accuracy	Sensitivity	Specificity
					HC	0.897	0.952	0.921	0.971
LEE	0.614	0.803	0.728	0.879

在此基础上，步骤S220的肽段预测过程可根据图5中的以下方法实现：

步骤S221：根据最优组合特征和多个候选肽段生成对应的待测样本特征。

步骤S222：采用预先训练的功能肽预测模型对待测样本特征进行处理，得到每个候选肽段的预测结果。

具体而言，根据最优组合特征的类型与多个候选多肽生成待预测样本数据集特征，并借助该功能肽预测模型，从预测结果较优的多肽中产生推荐列表。

根据一个实施例，在步骤S230中，性能分数可以是与模型输出概率值相对应的分数，也可以是模型预测分数和其他打分规则的综合值，如加权平均值。这样，可只根据预测结果来生成推荐列表，也可以结合该预测结果和其他评分来对数据集进行打分后生成推荐列表，还可以再结合专家打分结果来产生推荐列表。

在第二种实现方式中，只根据预测结果来选取功能肽概率更高的多肽生成推荐列表。

在第二种实现方式中，对数据集的具体打分规则包括：功能性预测模型的分数、是否为α螺旋预测、疏水力矩大小。主要是考虑抗癌肽活性有如下重要影响因素：(1)具有疏水的氨基酸残基和带正电的氨基酸残基；(2)两亲特性，螺旋轮图疏水的氨基酸残基和带正电的氨基酸残基分别处于分子的两侧(可用疏水力矩进行衡量)；(3)可诱导或预先形成α-螺旋或β折叠结构。这样，通过对这三个方向的综合评分来生成推荐列表。

第三种实现方式可采用如图6所示的下述方式实现：

步骤S231：根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签。

根据一个实施例，可以在理化性质生成模块中求得多肽序列对应的多种理化性质(如12种，当然不限于此)，并根据理化性质筛选共建对各理化性质打标签。每种理化性质都有对应的成肽范围和成功能肽范围，这些范围可通过对大量文献进行汇总得到。因此，若某候选多肽的理化性质在该成功能肽范围内，则标签为1，反之则为0。

基于此，可在理化性质评价模块中生成各肽段数据集理化性质频数分布图并评价数据集两两之间某指标的同分布情况。通过对数据集的多种理化性质的区间分布进行可视化以及对不同数据集在某一种理化性质(比如长度分布)上的分布情况进行统计分析，实现模拟专家经验作用。

步骤S232：根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。其中，预设的功能肽的至少一个理化性质的区间值通过对多个已知活性肽进行统计得到。

根据一个实施例，可以在专家经验召回模块中从海量定向生成的候选多肽中根据文献专家经验筛选，排除理化性质不合理的多肽，召回合理的多肽。经过专家召回后可提高数据集中的预测功能肽比例，对功能肽具有明显的富集效果。

在一种实现方式中，步骤S232可根据各候选肽段的至少一个理化性质标签对多个候选肽段进行过滤，得到过滤后的肽段，并根据过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。这里，还可以先根据理化性质标签进行肽段过滤，再将过滤后的多肽输入到功能肽预测模型中，来得到分子较高的多肽进行推荐，从而可以降低整体计算量。

在另一种实现方式中，步骤S232可根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级，并根据该评分等级确定至少一个目标肽段进行推荐。

图7示出了根据本发明一个实施例的功能肽推荐装置700，适于驻留在计算设备中，如计算设备100。如图7所示，装置700包括肽段生成模块710、肽段预测模块720和肽段推荐模块730。

肽段生成模块710根据预先训练的功能肽生成模型生成多个候选肽段。

肽段预测模块720采用预先训练的功能肽预测模型对多个候选肽段进行处理，得到各候选肽段的性能分数。

肽段推荐模块730根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

根据本发明的一个实施例，肽段推荐模块730根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签，并根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。

在一种实现方式中，肽段推荐模块730根据各候选肽段的至少一个理化性质标签对多个候选肽段进行过滤，得到过滤后的肽段，之后根据过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。

在另一种实现方式中，肽段推荐模块730根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级，并根据该评分等级确定至少一个目标肽段进行推荐。

图8示出了根据本发明另一个实施例的功能肽推荐装置800，适于驻留在计算设备中，装置800是装置700的进一步优化方案，其中包括的肽段生成模块810、肽段预测模块820和肽段推荐模块830分别与装置700中的肽段生成模块710、肽段预测模块720和肽段推荐模块730执行相同的算法逻辑。除此之外，装置800还包括第一训练模块840和第二训练模块850。

其中，第一训练模块840采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型。之后采用已知的多个功能肽数据对预训练模型进行迁移学习，得到预先训练的多肽生成模型。

第二训练模块850生成多个已知肽段的至少一个矢量特征；根据特征组合列表对所述多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的验证集；根据初始的功能肽预测模型在训练集和验证集的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

可选地，第二训练模块850在生成多个已知肽段的至少一个矢量特征之前，还适于：对输入的多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出多个已知肽段的统计学描述。

可选地，第二训练模块850还根据最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型；将至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为预先训练的功能肽预测模型。

在此基础上，肽段预测模块820根据最优组合特征和多个候选肽段生成对应的待测样本特征；采用预先训练的功能肽预测模型对待测样本特征进行处理，得到每个候选肽段的预测结果。

根据本发明的功能肽推荐装置700和800在基于图1-图6的描述中已经详细公开，这里不再展开赘述，本发明对此不作限制。

本发明提供了一种根据现有的功能肽(如抗癌肽)建立了一套包含生成算法、识别算法和专家过滤算法的功能肽设计和筛选系统。首先根据现有功能肽数据生成大量潜在有活性的肽段，接着人工智能识别算法将对生成肽段进行识别过滤，最后通过专家过滤算法对生成肽段进行进一步过滤，从而推荐产生具备抗癌性的多肽，经过相关湿实验验证后，可持续向抗癌成药方向推进或转化。

A8、如A7所述的方法，还包括：根据所述最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型；将所述至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为所述预先训练的功能肽预测模型。

A9、如A7所述的方法，其中，所述采用预先训练的功能肽预测模型对所述多个候选肽段进行处理的步骤包括：根据所述最优组合特征和所述多个候选肽段生成对应的待测样本特征；采用所述预先训练的功能肽预测模型对所述待测样本特征进行处理，得到每个候选肽段的预测结果。

A10、如A7所述的方法，其中，在生成多个已知肽段的至少一个矢量特征之前，还包括：对输入的所述多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出所述多个已知肽段的统计学描述。

A11、如A10所述的方法，其中，所述过滤筛选的规则包括以下至少一种：文本格式为TXT格式或者FASTA格式、肽段序列中不包含非天然氨基酸、所有天然氨基酸均用大写字符表示。

A12、如A10所述的方法，其中，所述文本格式转换为将TXT格式转换为FASTA格式；所述统计学描述包括序列总数量、序列长度最大值、序列长度最小值、序列长度平均值、序列长度标准差、序列长度四分位数和序列过滤结果中的至少一种。

B14、如B13所述的装置，其中，所述肽段推荐模块适于：根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签；根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。

B15、如B13所述的装置，其中，所述肽段推荐模块进一步适于：根据各候选肽段的所述至少一个理化性质标签对所述多个候选肽段进行过滤，得到过滤后的肽段；根据所述过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。

B16、如B13所述的装置，所述肽段推荐模块进一步适于：根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级，并根据该评分等级确定至少一个目标肽段进行推荐。

B17、如B13所述的装置，还包括生成模型训练模块，适于：采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型，所述多条多肽数据包括功能肽和非功能肽；采用已知的多个功能肽数据对所述预训练模型进行迁移学习，得到所述预先训练的多肽生成模型。

B18、如B13所述的装置，还包括预测模型训练模块，适于：生成多个已知肽段的至少一个矢量特征；根据特征组合列表对所述多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的验证集；根据初始的功能肽预测模型在训练集和验证集的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

B19、如B18所述的装置，所述预测模型训练模块还适于：根据所述最优样本组合中的训练集和验证集对初始的功能肽预测模型进行超参数优化，并选取在训练集和验证集上均表现达标的至少一个候选模型；将所述至少一个候选模型在测试集上作泛化能力测试，并根据泛化性能指标选取最优模型，作为所述预先训练的功能肽预测模型。

B20、如B19所述的装置，其中，所述肽段预测模块适于：根据所述最优组合特征和所述多个候选肽段生成对应的待测样本特征；采用所述预先训练的功能肽预测模型对所述待测样本特征进行处理，得到每个候选肽段的预测结果。

B21、如B18所述的装置，其中，所述预测模型训练模块在生成多个已知肽段的至少一个矢量特征之前，还适于：对输入的所述多个已知肽段进行基于字符的过滤筛选和文本格式转换，并输出所述多个已知肽段的统计学描述。

这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如，这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种功能肽推荐方法，适于在计算设备中执行，所述方法包括：

根据预先训练的功能肽生成模型生成多个候选肽段；

采用预先训练的功能肽预测模型对所述多个候选肽段进行处理，得到各候选肽段的性能分数；以及

根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

2.如权利要求1所述的方法，其中，所述根据各候选肽段的性能分数确定至少一个目标肽段进行推荐包括：

根据预设的功能肽的至少一个理化性质的区间值，生成各候选肽段的至少一个理化性质标签；

根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐。

3.如权利要求2所述的方法，其中，所述根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐的步骤包括：

根据各候选肽段的所述至少一个理化性质标签对所述多个候选肽段进行过滤，得到过滤后的肽段；

根据所述过滤后的肽段的性能分数确定至少一个目标肽段进行推荐。

4.如权利要求2所述的方法，所述根据各候选肽段的性能分数和至少一个理化性质标签确定至少一个目标肽段进行推荐的步骤包括：

根据各候选肽段的性能分数和至少一个理化性质标签生成各候选肽段的评分等级；

根据该评分等级确定至少一个目标肽段进行推荐。

5.如权利要求2所述的方法，其中，所述预设的功能肽的至少一个理化性质的区间值是通过对多个已知活性肽进行统计得到。

6.如权利要求1所述的方法，还包括所述功能肽生成模型的训练步骤：

采用已知的多个多肽数据对初始的功能肽生成模型进行无监督训练，得到预训练模型，所述多条多肽数据包括功能肽和非功能肽；

采用已知的多个功能肽数据对所述预训练模型进行迁移学习，得到所述预先训练的功能肽生成模型。

7.如权利要求1所述的方法，还包括所述功能肽预测模型的训练步骤：

生成多个已知肽段的至少一个矢量特征；

根据特征组合列表对所述多个已知肽段的至少一个矢量特征进行组合，分别得到多个样本组合，每个样本组合包括训练集和对应的验证集；

根据初始的功能肽预测模型在训练集和验证集上的交叉检验性能指标，选取最优样本组合所对应的最优特征组合。

8.一种功能肽推荐装置，适于驻留在计算设备中，所述装置包括：

肽段生成模块，适于根据预先训练的功能肽生成模型生成多个候选肽段；

肽段预测模块，适于采用预先训练的功能肽预测模型对所述多个候选肽段进行处理，得到各候选肽段的性能分数；以及

肽段推荐模块，适于根据各候选肽段的性能分数确定至少一个目标肽段进行推荐。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。