CN115420866A - 药物活性检测方法、装置、电子设备和存储介质 - Google Patents
药物活性检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115420866A CN115420866A CN202110610037.6A CN202110610037A CN115420866A CN 115420866 A CN115420866 A CN 115420866A CN 202110610037 A CN202110610037 A CN 202110610037A CN 115420866 A CN115420866 A CN 115420866A
- Authority
- CN
- China
- Prior art keywords
- packet
- sample
- representative
- drug
- examples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/15—Medicinal preparations ; Physical properties thereof, e.g. dissolubility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Food Science & Technology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Medicinal Chemistry (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
Abstract
本发明提供一种药物活性检测方法、装置、电子设备和存储介质。所述方法包括:获取待检测药物的药物成分集合;将所述药物成分集合输入至活性检测模型,得到所述待检测药物的检测结果;其中,所述活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,所述最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,所述样本包包括多个示例,所述样本包中的各示例对应样本药物的药物分子的各同分异构体。本发明提供的方法、装置、电子设备和存储介质,不仅能够降低模型的时间复杂度,还能够提高多示例学习模型的分类性能,在此基础上,通过活性检测模型对待检测药物进行活性检测,可以提高药物活性检测的准确度。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种药物活性检测方法、装置、电子设备和存储介质。
背景技术
药物活性检测是对药物的有效成分和含量以及药物效价的检测,是确保药物有效性的重要质控指标之一。大多数药物都是一些分子,而每个分子可能有上百种低能形状,这么多形状中只要有一种是合适的,这个分子就适于制药,为了实现对药物分子的各种形状的检测,研究学者们提出了多示例学习的概念。
在过去的几十年中,对于药物活性检测中的多示例学习问题,无数学者们已经提出了许多较为成熟的方法,如轴平行矩形学习算法、基于嵌入式示例选择的多示例学习算法、基于示例选择的多示例学习算法、基于包空间的多示例学习算法、基于包层面信息训练支持向量机的包代表分类算法。然而以上方法存在以下问题:将多示例学习问题直接转换为单示例学习问题进行处理,这种直接使用监督学习的方法处理数据可能会造成分类器精度不高;只为训练集中的每个包选取一个代表示例进行分类器的训练,此时增加了隐含假设—正包中只含有一个标签为正的示例,这显然与多示例学习的标准假设相违背。
发明内容
本发明提供一种药物活性检测方法、装置、电子设备和存储介质,用以解决现有技术中活性检测精度不高的技术问题。
第一方面,本发明提供一种药物活性检测方法,包括:
获取待检测药物的药物成分集合;
将所述药物成分集合输入至活性检测模型,得到所述待检测药物的检测结果;
其中,所述活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,所述最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,所述样本包包括多个示例,所述样本包中的各示例对应样本药物的药物分子的各同分异构体。
在一个实施例中,所述最优包代表是基于如下方法得到的:
基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型;
基于当前的支持向量机模型,获取各样本包中各示例的分类得分;
基于各样本包中各示例的分类得分,确定各样本包的下一包代表;
若各样本包的当前包代表和下一包代表一致,则将当前包代表作为最优包代表;
否则,应用各样本包的下一包代表替换当前包代表,并基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型。
在一个实施例中,当所述各样本包的当前包代表和下一包代表一致时,所述将当前包代表作为最优包代表,之后还包括:
基于所述当前的支持向量机模型,确定所述活性检测模型。
在一个实施例中,所述基于各样本包中各示例的分类得分,确定各样本包的下一包代表,包括:
若任一样本包为正包,则将所述任一样本包中各示例的分类得分按降序排序,选取排前列的示例作为所述下一包代表;
若任一样本包为负包,则将所述任一样本包中各示例的分类得分按升序排序,选取排前列的示例作为所述下一包代表。
在一个实施例中,所述样本包包括的多个示例是基于如下步骤确定的:
计算所述样本包中每两个候选示例之间的灰色关联度;
基于所述灰色关联度,对所述样本包中的各候选示例进行整合。
在一个实施例中,所述各候选示例包括多个维度的特征;
所述计算所述样本包中每两个候选示例之间的灰色关联度,包括:
计算任两个候选示例中每相同维度的两个特征之间的灰色关联系数;
对各灰色关联系数求平均值,得到所述任两个候选示例之间的灰色关联度。
在一个实施例中,所述基于所述灰色关联度,对所述样本包中的各候选示例进行整合,包括:
若任两个候选示例之间的灰色关联度大于预设阈值,则将所述任两个候选示例整合成一个示例。
第二方面,本发明提供一种药物活性检测装置,包括:
获取模块,用于获取待检测药物的药物成分集合;
检测模块,用于将所述药物成分集合输入至活性检测模型,得到所述待检测药物的检测结果;
其中,所述活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,所述最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,所述样本包包括多个示例,所述样本包中的各示例对应样本药物的药物分子的各同分异构体。
第三方面,本发明提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述药物活性检测方法的步骤。
第四方面,本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面所述药物活性检测方法的步骤。
本发明提供的药物活性检测方法、装置、电子设备和存储介质,通过为每个样本包选取最优包代表,并基于各样本包的最优包代表来代替整个包进行多示例学习得到活性检测模型,不仅能够降低模型的时间复杂度,还能够提高多示例学习模型的分类性能,在此基础上,通过活性检测模型对待检测药物进行活性检测,可以提高药物活性检测的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的药物活性检测方法的流程示意图;
图2是本发明提供的多个示例的获取方法的流程示意图;
图3是本发明提供的最优包代表的获取方法的流程示意图;
图4是本发明提供的药物活性检测装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种药物活性检测方法,图1是本发明提供的药物活性检测方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待检测药物的药物成分集合;
步骤120,将药物成分集合输入至活性检测模型,得到待检测药物的检测结果;
其中,活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,最优包代表是基于序列最小优化算法(Sequentil Minimal Optimization,SMO)从对应的样本包中选取得到的,样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体。
具体地,待检测药物即需要进行活性检测的药物。考虑到大多数药物都是一些药物分子,每个药物分子可能有很多种不同形状,而其中只有某一种或多种形状是有用的,因此,本发明实施例首先获取待检测药物的药物分子的各个同分异构体,并由此组成药物成分集合,再将药物成分集合输入至活性检测模型中,并根据活性检测模型输出的各个同分异构体的分类结果,确定待检测药物的检测结果即待检测药物是否具有活性。
此处,确定检测结果的方式可以是:如果至少有一个同分异构体的输出的分类结果为正,即说明该待检测药物中存在有用的同分异构体,则可以确定该待检测药物具有活性;否则,即如果所有同分异构体输出的分类结果都为负,说明待检测药物中不存在有用的同分异构体,则可以确定该待检测药物不具有活性。
另外,在执行步骤120之前,还可以预先训练得到活性检测模型,具体可通过如下方式训练得到活性检测模型:
首先,收集大量样本包,此处的样本包对应样本药物的药物分子,并且样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体,此处的对应关系可以是一个示例对应一个同分异构体,也可以是一个示例对应多个同分异构体;
随即,考虑到直接使用样本包中的各个示例进行分类器模型的训练,或是随机选取一个正例进行分类器模型的训练,都可能造成模型的分类精度降低,对此,本发明实施例根据序列最小优化算法,从各样本包中分别选取最能够代表对应样本包的示例,作为各样本包的最优包代表,此处的最优包代表可以是一个示例也可以是多个示例,本发明实施例对此不作具体限定;
最后,基于各样本包的最优包代表,以及各样本包对应的类别标签对初始模型进行训练,并使用多示例学习方法最终得到活性检测模型。其中,类别标签用于表征对应样本包属于有活性类别还是无活性类别,初始模型可以是支持向量机(Support VectorMachines,SVM)模型。
本发明实施例提供的方法,通过为每个样本包选取最优包代表,并基于各样本包的最优包代表来代替整个包进行多示例学习得到活性检测模型,不仅能够降低模型的时间复杂度,还能够提高多示例学习模型的分类性能,在此基础上,通过活性检测模型对待检测药物进行活性检测,可以提高药物活性检测的准确度。
基于上述任一实施例,最优包代表是基于如下方法得到的:
基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型;
基于当前的支持向量机模型,获取各样本包中各示例的分类得分;
基于各样本包中各示例的分类得分,确定各样本包的下一包代表;
若各样本包的当前包代表和下一包代表一致,则将当前包代表作为最优包代表;
否则,应用各样本包的下一包代表替换当前包代表,并基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型。
具体地,考虑到在多示例学习问题的处理中,如何进行包中示例的选取是一个重要的前提,为了实现各样本包的最优包代表的准确选取,进而能够在保证分类器模型的精度的同时,有效降低分类器模型的时间复杂度,本发明实施例具体是通过如下方式确定各样本包的最优包代表:
首先基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型,在此基础上,即可将各样本包中各示例输入到当前的支持向量机模型中,可以获取到各样本包中各示例的分类得分,此处的分类得分可以是支持向量机模型输出的对应示例属于所分类别的概率值,并且,如果任一示例被分为有活性类别,它的分类得分为正,否则,它的分类得分为负,例如,如果任一示例的分类得分为-0.8,则说明该示例属于无活性类别的概率是0.8;此处,首次训练所用的当前包代表可以是从样本包中随机选取得到的;
在得到各样本包中各示例的分类得分之后,可以根据各示例分类得分的高低确定出当前最优的代表性示例,作为各样本包的下一包代表,并将下一包代表与当前包代表进行比对:如果各样本包的当前包代表和下一包代表一致,则说明此时包代表已经是最优包代表,可以将当前包代表作为最优包代表;否则,则说明此时包代表还不是最优包代表,需要继续进行迭代优化,即应用各样本包的下一包代表替换当前包代表,并基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型,直至当前包代表和下一包代表一致为止。
基于上述任一实施例,当各样本包的当前包代表和下一包代表一致时,将当前包代表作为最优包代表,之后还包括:
基于当前的支持向量机模型,确定活性检测模型。
具体地,当各样本包的当前包代表和下一包代表一致时,说明此时包代表已经是最优包代表,并且,可以理解的是,此时已经完成基于最优包代表训练当前的支持向量机模型,因此可以根据当前的支持向量机模型,得到训练完成的活性检测模型,用于后续的待检测药物的活性检测。
基于上述任一实施例,基于各样本包中各示例的分类得分,确定各样本包的下一包代表,包括:
若任一样本包为正包,则将任一样本包中各示例的分类得分按降序排序,选取排前列的示例作为下一包代表;
若任一样本包为负包,则将任一样本包中各示例的分类得分按升序排序,选取排前列的示例作为下一包代表。
具体地,在确定最优包代表的迭代优化过程中,可以根据以下方式得到各样本包的下一包代表:如果任一样本包为正包,即该样本包至少存在一个示例的分类得分为正,则可以将该样本包中各示例的分类得分按降序排序,选取排前列的示例作为下一包代表;如果任一样本包为负包,即该样本包所有示例的分类得分都为负,则可以将任一样本包中各示例的分类得分按升序排序,选取排前列的示例作为下一包代表。
基于上述任一实施例,样本包包括的多个示例是基于如下步骤确定的:
计算样本包中每两个候选示例之间的灰色关联度;
基于灰色关联度,对样本包中的各候选示例进行整合。
具体地,为了提高样本包中各个示例之间的距离,进而提高分类器模型的精度,本发明实施例在获取到各原始样本包中的各个候选示例之后,采用灰色关联分析(GreyRelation Analysis,GRA)方法计算样本包中每两个候选示例之间的灰色关联度,随即可以根据灰色关联度,对样本包中的各候选示例进行整合,从而得到整合后的样本包的各个示例,此处的整合方式可以是删除灰色关联度高的两个候选示例中的其中一个候选示例,也可以是将灰色关联度高的两个候选示例合并成一个示例,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过在进行分类器的训练之前,利用灰色关联分析对每个样本包中的候选示例进行数据整合等预处理操作,使得训练数据集中的各个示例可用、好用,进而提升分类器模型的分类精度。
基于上述任一实施例,各候选示例包括多个维度的特征;
计算样本包中每两个候选示例之间的灰色关联度,包括:
计算任两个候选示例中每相同维度的两个特征之间的灰色关联系数;
对各灰色关联系数求平均值,得到任两个候选示例之间的灰色关联度。
具体地,考虑到各候选示例包括多个维度的特征,具体可以通过如下方式计算样本包中每两个候选示例之间的灰色关联度:首先计算任意两个候选示例中每相同维度的两个特征之间的灰色关联系数,由此可以得到各个维度的两个特征之间的灰色关联系数,随即对各个灰色关联系数求取平均值,从而可以得到这两个候选示例之间的灰色关联度,在此基础上,即可计算下两个候选示例之间的灰色关联度,直到样本包中每两个候选示例都完成灰色关联度的计算。
基于上述任一实施例,基于灰色关联度,对样本包中的各候选示例进行整合,包括:
若任两个候选示例之间的灰色关联度大于预设阈值,则将任两个候选示例整合成一个示例。
具体地,为了实现在整合样本包的各个候选示例的同时,能够保证各个示例的数据量,本发明实施例在得到样本包中每两个候选示例之间的灰色关联度之后,将灰色关联度与预设阈值进行比对,如果任两个候选示例之间的灰色关联度大于预设阈值,则说明这两个候选示例之间相似度较高,可以将这两个候选示例整合成一个示例。此处,预设阈值可以根据需要进行任意设定,本发明实施例对此不作具体限定。
基于上述任一实施例,在灰色关联分析中,参考示例是体现系统行为特征的数据样本,而引起系统行为发生变化的因素组成的数据样本,称为比较示例。例如,样本包为数据集{x0,x1,x2,...,xn},假设x1为参考示例,则x0,x2,……,xn为比较示例。
以样本包{x0,x1,x2,...,xn}为例,其中每个候选示例xi包含m个不同维度的特征即m个属性,可以定义为xi=(xi(1),xi(2),...,xi(m)),i=0,1,...,n。当需要计算每两个候选示例之间的灰色关联度时,可以随机选择其中一个候选示例作为参考示例,再依次计算该参考示例与各个比较示例之间的灰色关联度,而计算两个示例之间的灰色关联度需要先计算这两个示例中相同维度的两个特征之间的灰色关联系数,例如,参考示例为x0,则x0的第p个特征与其它各个比较示例的第p个特征之间灰色关联系数GRC值可以通过如下公式计算得到:
其中,i,j=1,2,...,n,k,p=1,2,...,m,p代表示例中第p个特征,x0(p)代表示例x0的第p个特征的特征值,xj(p)代表示例xj的第p个特征的特征值,k代表示例中第k个特征,x0(k)代表示例x0的第k个特征的特征值,xj(k)代表示例xj的第k个特征的特征值,ρ为分辨系数,ρ可以根据需要进行任意设定,作为优选,可以令ρ=0.5;
两个特征之间的灰色关联系数GRC值可以定义如下:
灰色关联系数是一种体现比较示例与参考示例在各个维度特征上的关联程度的度量值,因此比较示例与参考示例的关联程度可以用各个维度特征的灰色关联系数集中为一个值来表示,即灰色关联度:
其中,灰色关联度GRG(x0,xi)用来量化示例x0和xi间的相似性,GRG(x0,xi)的值越大,则说明x0和xi间相似性越高,反之,则说明x0和xi间相似性越低。
基于上述任一实施例,图2是本发明提供的多个示例的获取方法的流程示意图,如图2所示,本发明实施例对收集得到的各个样本包的各个候选示例利用灰色关联分析进行相似性分析,对样本包中候选示例进行修剪和选择,从而得到各样本包的多个示例,具体流程如下:首先确定当前需要进行灰色关联分析的两个候选示例,对这两个候选示例的各个维度的特征值进行无量纲化处理,随即,计算这两个候选示例中每相同维度的两个特征之间的灰色关联系数,并对各个灰色关联系数求平均值,得到这两个候选示例之间的灰色关联度,接着再计算下两个候选示例之间的灰色关联度,直至得到样本包中每两个候选示例之间的灰色关联度,并将所得到的多个灰色关联度进行排序,将灰色关联度高的两个候选示例整合成一个示例,最终即可得到整合后的样本包的多个示例。
基于上述任一实施例,在得到各样本包的各个示例之后,具体可以基于如下方法选取各样本包的最优包代表:
步骤1,从每个样本包中随机选择一个示例,作为初始化的当前包代表S;
步骤2,通过SMO方法以及各样本包的S,训练当前的支持向量机模型,基于当前的支持向量机模型获取各样本包中各示例的分类得分,基于各样本包中各示例的分类得分,根据如下规则确定各样本包的下一包代表:对于正包,所有分类得分按降序排序,然后从大到小选择,直到每个样本包中至少包含一个示例;类似地,对于负包,所有分类得分按升序排序,然后从小到大选择,直到每个样本包中至少包含一个示例;
步骤3,当通过步骤2找到的下一包代表与S不一致时,令该下一包代表为S,重新进行步骤2;若通过步骤2找到的下一包代表与S一致时,则将S作为最优包代表进行输出,同时输出训练得到的当前的支持向量机模型的参数w,b。
基于上述任一实施例,图3是本发明提供的最优包代表的获取方法的流程示意图,如图3所示,具体可以通过如下方式获取各样本包的最优包代表:首先,获取各个原始样本包,采用GRA算法对各个原始样本包中的各个候选示例进行灰色关联度计算,并根据灰色关联度对各个候选示例进行整合,得到整合后的各个样本包;随即,从各个样本包中随机选取一个示例作为当前包代表S,基于SMO算法以及各样本包的当前包代表S,训练当前SVM模型,并基于当前SVM模型输出的各个分类结果,确定各样本包的下一包代表S’;应用S’替换S,并判断S是否发生改变,如果发生了改变,则说明上述步骤确定得到的下一包代表与当前包代表不一致,则需要继续进行迭代训练,直至二者一致;如果没有发生改变,则说明上述步骤确定得到的下一包代表与当前包代表不一致,此时已经选取到最优的包代表,则可以将当前包代表S以及当前SVM模型的参数w,b一起输出。
基于上述任一实施例,假设有一个训练样本集{(x1,y1),(x2,y2),...(xm,ym)},m为样本数,可以将支持向量机中原始问题的对偶问题核函数版本定义为:
其中,C∈R是平衡分类误差最小化和间隔最大化之间的惩罚参数,α为拉格朗日乘子,K(xi,xj)为核函数。
在此基础上,具体可以采用如下方式利用样本包的包代表和支持向量机构建分类超平面:
首先,支持向量机的初始优化问题如下所示:
ξi≥0,i=1,2,...,n
通过带入初始优化问题得到如下拉格朗日函数:
其中α和μ为非负拉格朗日乘子;
进一步,可以得到优化问题的对偶形式为:
C-αi-yi=0,i=1,2,...,n
αi≥0,i=1,2,...,n
μi≥0,i=1,2,...,n
如果利用上述决策函数得到的最优解为α,则w,b可由如下公式得到:
下面对本发明提供的药物活性检测装置进行描述,下文描述的药物活性检测装置与上文描述的药物活性检测方法可相互对应参照。
基于上述任一实施例,图4是本发明提供的药物活性检测装置的结构示意图,如图4所示,该装置包括:
获取模块,用于获取待检测药物的药物成分集合;
检测模块,用于将药物成分集合输入至活性检测模型,得到待检测药物的检测结果;
其中,活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体。
本发明实施例提供的装置,通过为每个样本包选取最优包代表,并基于各样本包的最优包代表来代替整个包进行多示例学习得到活性检测模型,不仅能够降低模型的时间复杂度,还能够提高多示例学习模型的分类性能,在此基础上,通过活性检测模型对待检测药物进行活性检测,可以提高药物活性检测的准确度。
基于上述任一实施例,最优包代表是基于如下方法得到的:
基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型;
基于当前的支持向量机模型,获取各样本包中各示例的分类得分;
基于各样本包中各示例的分类得分,确定各样本包的下一包代表;
若各样本包的当前包代表和下一包代表一致,则将当前包代表作为最优包代表;
否则,应用各样本包的下一包代表替换当前包代表,并基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型。
基于上述任一实施例,当各样本包的当前包代表和下一包代表一致时,将当前包代表作为最优包代表,之后还包括:
基于当前的支持向量机模型,确定活性检测模型。
基于上述任一实施例,基于各样本包中各示例的分类得分,确定各样本包的下一包代表,包括:
若任一样本包为正包,则将任一样本包中各示例的分类得分按降序排序,选取排前列的示例作为下一包代表;
若任一样本包为负包,则将任一样本包中各示例的分类得分按升序排序,选取排前列的示例作为下一包代表。
基于上述任一实施例,样本包包括的多个示例是基于如下步骤确定的:
计算样本包中每两个候选示例之间的灰色关联度;
基于灰色关联度,对样本包中的各候选示例进行整合。
基于上述任一实施例,各候选示例包括多个维度的特征;
计算样本包中每两个候选示例之间的灰色关联度,包括:
计算任两个候选示例中每相同维度的两个特征之间的灰色关联系数;
对各灰色关联系数求平均值,得到任两个候选示例之间的灰色关联度。
基于上述任一实施例,基于灰色关联度,对样本包中的各候选示例进行整合,包括:
若任两个候选示例之间的灰色关联度大于预设阈值,则将任两个候选示例整合成一个示例。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的计算机程序,以执行药物活性检测方法的步骤,例如包括:获取待检测药物的药物成分集合;将药物成分集合输入至活性检测模型,得到待检测药物的检测结果;其中,活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的药物活性检测方法的步骤,例如包括:获取待检测药物的药物成分集合;将药物成分集合输入至活性检测模型,得到待检测药物的检测结果;其中,活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述各实施例提供的方法的步骤,例如包括:获取待检测药物的药物成分集合;将药物成分集合输入至活性检测模型,得到待检测药物的检测结果;其中,活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,样本包包括多个示例,样本包中的各示例对应样本药物的药物分子的各同分异构体。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种药物活性检测方法,其特征在于,包括:
获取待检测药物的药物成分集合;
将所述药物成分集合输入至活性检测模型,得到所述待检测药物的检测结果;
其中,所述活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,所述最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,所述样本包包括多个示例,所述样本包中的各示例对应样本药物的药物分子的各同分异构体。
2.根据权利要求1所述的药物活性检测方法,其特征在于,所述最优包代表是基于如下方法得到的:
基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型;
基于当前的支持向量机模型,获取各样本包中各示例的分类得分;
基于各样本包中各示例的分类得分,确定各样本包的下一包代表;
若各样本包的当前包代表和下一包代表一致,则将当前包代表作为最优包代表;
否则,应用各样本包的下一包代表替换当前包代表,并基于序列最小优化算法以及各样本包的当前包代表,训练当前的支持向量机模型。
3.根据权利要求2所述的药物活性检测方法,其特征在于,当所述各样本包的当前包代表和下一包代表一致时,所述将当前包代表作为最优包代表,之后还包括:
基于所述当前的支持向量机模型,确定所述活性检测模型。
4.根据权利要求2所述的药物活性检测方法,其特征在于,所述基于各样本包中各示例的分类得分,确定各样本包的下一包代表,包括:
若任一样本包为正包,则将所述任一样本包中各示例的分类得分按降序排序,选取排前列的示例作为所述下一包代表;
若任一样本包为负包,则将所述任一样本包中各示例的分类得分按升序排序,选取排前列的示例作为所述下一包代表。
5.根据权利要求1至4中任一项所述的药物活性检测方法,其特征在于,所述样本包包括的多个示例是基于如下步骤确定的:
计算所述样本包中每两个候选示例之间的灰色关联度;
基于所述灰色关联度,对所述样本包中的各候选示例进行整合。
6.根据权利要求5所述的药物活性检测方法,其特征在于,所述各候选示例包括多个维度的特征;
所述计算所述样本包中每两个候选示例之间的灰色关联度,包括:
计算任两个候选示例中每相同维度的两个特征之间的灰色关联系数;
对各灰色关联系数求平均值,得到所述任两个候选示例之间的灰色关联度。
7.根据权利要求5所述的药物活性检测方法,其特征在于,所述基于所述灰色关联度,对所述样本包中的各候选示例进行整合,包括:
若任两个候选示例之间的灰色关联度大于预设阈值,则将所述任两个候选示例整合成一个示例。
8.一种药物活性检测装置,其特征在于,包括:
获取模块,用于获取待检测药物的药物成分集合;
检测模块,用于将所述药物成分集合输入至活性检测模型,得到所述待检测药物的检测结果;
其中,所述活性检测模型是基于各样本包的最优包代表进行多示例学习得到的,所述最优包代表是基于序列最小优化算法从对应的样本包中选取得到的,所述样本包包括多个示例,所述样本包中的各示例对应样本药物的药物分子的各同分异构体。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述药物活性检测方法的步骤。
10.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行权利要求1至7任一项所述药物活性检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610037.6A CN115420866A (zh) | 2021-06-01 | 2021-06-01 | 药物活性检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610037.6A CN115420866A (zh) | 2021-06-01 | 2021-06-01 | 药物活性检测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115420866A true CN115420866A (zh) | 2022-12-02 |
Family
ID=84195465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110610037.6A Pending CN115420866A (zh) | 2021-06-01 | 2021-06-01 | 药物活性检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115420866A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797340A (zh) * | 2023-02-03 | 2023-03-14 | 西南石油大学 | 一种基于多示例学习的工业表面缺陷检测方法 |
-
2021
- 2021-06-01 CN CN202110610037.6A patent/CN115420866A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797340A (zh) * | 2023-02-03 | 2023-03-14 | 西南石油大学 | 一种基于多示例学习的工业表面缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491817B (zh) | 一种事件检测模型训练方法、装置以及事件检测方法 | |
US10438091B2 (en) | Method and apparatus for recognizing image content | |
CN109960808B (zh) | 一种文本识别方法、装置、设备及计算机可读存储介质 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN111582651A (zh) | 用户风险分析模型训练方法、装置及电子设备 | |
AU2017251771B2 (en) | Statistical self learning archival system | |
CN109840413B (zh) | 一种钓鱼网站检测方法及装置 | |
CN112102899A (zh) | 一种分子预测模型的构建方法和计算设备 | |
US10867246B1 (en) | Training a neural network using small training datasets | |
CN108133224B (zh) | 用于评估分类任务复杂度的方法 | |
CN112016450A (zh) | 机器学习模型的训练方法、装置和电子设备 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN110910325B (zh) | 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置 | |
CN110795736B (zh) | 一种基于svm决策树的恶意安卓软件检测方法 | |
Khezri et al. | A novel semi-supervised ensemble algorithm using a performance-based selection metric to non-stationary data streams | |
CN115310554A (zh) | 基于深度聚类的品项分配策略、系统、存储介质和设备 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN115420866A (zh) | 药物活性检测方法、装置、电子设备和存储介质 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN114121296B (zh) | 基于数据驱动的临床信息规则提取方法、存储介质及设备 | |
CN111383716B (zh) | 基因对的筛选方法、装置、计算机设备和存储介质 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 | |
CN110532384B (zh) | 一种多任务字典单分类方法、系统、装置及存储介质 | |
CN112463964A (zh) | 文本分类及模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |