CN107133651B

CN107133651B - 基于超网络判别子图的功能磁共振影像数据分类方法

Info

Publication number: CN107133651B
Application number: CN201710332167.1A
Authority: CN
Inventors: 郭浩; 杨艳丽; 郭涛; 邓红霞; 相洁; 陈俊杰
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2018-03-16
Anticipated expiration: 2037-05-12
Also published as: CN107133651A

Abstract

本发明公开了基于超网络判别子图的功能磁共振影像数据分类方法，对静息态功能磁共振影像进行预处理，并对所分割的各脑区进行平均时间序列的提取；利用稀疏线性回归方法及稀疏学习优化目标函数，生成超网络；提取超网络中的每条超边作为一个子图，计算子图的频度，选取频度阈值，筛选频繁子图，将频繁子图模式作为特征；在训练集上采用频繁分数特征选择方法，再基于测试集的表现得出最优特征子集和正则化参数C；采用基于图核的分类算法，判别性的子图作为特征，从而进行分类；对所选特征的重要度和冗余度进行量化。用于脑疾病诊断，既保留了原有网络拓扑结构的完整性，又不损失特征的可判别性，呈现更高级别和更复杂的大脑区域之间的相互作用。

Description

基于超网络判别子图的功能磁共振影像数据分类方法

技术领域

本发明属于图像处理技术领域，涉及一种基于超网络判别子图的功能磁共振影像数据分类方法。

背景技术

功能磁共振成像技术与复杂网络理论的结合，已经成为脑科学领域的热点之一，广泛应用在各类研究中。该方法实现了对人脑潜在工作机理的挖掘及建模，并取得许多令人惊喜的成果。但由于其自身原理所限，目前普遍存在方法论的限制。

传统的功能连接网络方法，基于不同脑区之间的两两相关得到的，因此基于相关的方法只能够捕获成对脑区之间的信息，因此不能全面地反应多个脑区之间的交互，从而忽视了它们之间的高阶关系，然而这种高阶信息的丢失对于刻画人脑潜在机理会产生重要影响。同时传统的构建脑网络的方法是任意选取阈值，会导致许多虚假的连接从而会影响疾病的诊断。除此之外在传统的基于网络连接的分类方法中，基本都是从网络中提取全局或局部属性等量化指标作为分类特征，然后进行特征选择和分类器构建。这样所提取的特征丢失了脑区之间的拓扑结构信息，对脑网络的结构变化无法给予有效的解释。

基于此，有必要发明一种全新的磁共振影像数据分类方法，以解决传统磁共振影像数据分类方法存在的上述问题。

发明内容

本发明提供一种基于超网络判别子图的功能磁共振影像数据分类方法，以实现多脑区间的高阶交互信息挖掘及连接模式识别，并提高分类准确率。

本发明所采用的技术方案是，基于超网络判别子图的功能磁共振影像数据分类方法，具体按照以下步骤进行：

步骤S1：对静息态功能磁共振影像数据进行预处理，然后根据选定的标准化脑图谱对影像进行区域分割，并对所分割的各脑区进行平均时间序列的提取；

步骤S2：利用稀疏线性回归方法，计算时间序列矩阵中每个脑区与其他脑区的线性组合表示，使用稀疏学习优化目标函数，生成超网络；

步骤S3：提取超网络中的每条超边作为一个子图，计算子图的频度，选取频度阈值，筛选频繁子图，将频繁子图模式作为特征；

步骤S4：在训练集上采用频繁分数特征选择方法；

步骤S5：采用基于图核的分类算法，判别性的子图作为特征，使用给定的正则化参数C和给定的最优特征子集，由此进行分类器的构建，然后采用交叉验证方法对构建的分类器进行检验；

步骤S6：采用互信息分析方法，对所选判别子图在分类器中的重要度和冗余度进行量化，然后根据量化结果对所选判别子图进行二次筛选，由此对最优特征子集进行优化。

进一步的，步骤S1中，对静息态功能磁共振影像数据进行预处理，首先最大程度的去除采集过程中由于设备、被试头动、生物噪音带来的噪音信号，保留了功能影像的细节，提高了信噪比，之后通过仿射变换和局部非线性变换方法将影响同一化到所选取的标准空间；

所述对所分割的各脑区进行平均时间序列的提取，具体步骤包括：提取每个脑区所包含的所有体素在不同时间点上的激活信号，再将各体素在不同时间点上的激活信号进行算术平均，得到脑区的平均时间序列。

进一步的，所述预处理步骤至少包括时间层校正、头动校正、联合配准、空间标准化及低频滤波。

进一步的，所述步骤S2中，稀疏线性回归方法中，稀疏线性回归模型具体表示如下：

x_m＝A_mα_m+τ_mx_m (1)；

公式(1)中：x_m表示选定脑区的时间序列，α_m表示其它脑区对选定脑区影响程度的权重向量，A_m＝[x₁,…,x_m-1，x_m+1,…x_M]包含除选定脑区之外的所有脑区的时间序列，τ_m表示噪声项，根据x_m、A_m可以得到α_m，α_m中非零元素对应的脑区即为与选定脑区相互作用的脑区；

其中，优化目标函数表示如下：

公式(2)中：λ表示控制模型稀疏的正则化参数。

进一步的，所述步骤S3中，按照以下步骤进行：

给定图集G，子图g_s的频度定义如下：

公式(3)中，|G|为图集G的样本量，|g_s|为图集G中包含子图g_s的样本个数；f_q(g_s|G)表示子图g_s在图集G中出现的频度；

之后，分别将正常组和抑郁组的所有子图的频度进行排序，选定频度阈值s，子图频度大于s，该子图是频繁子图。

进一步的，所述步骤S4中，在训练集上采用频繁分数特征选择方法具体为：在训练集上，选择相同数量的正常组和抑郁组的频繁子图，计算频繁子图的判别性得分，并进行排序；根据排序结果，选择判别性得分较高的前t₁、t₂个频繁子图，再基于测试集的表现得出最优特征子集和正则化参数C；t₁、t₂的含义是从每组中选出的特征的最大数；

其中，计算正常组和抑郁组频繁子图的判别性得分，定义如下：

对于两个图集G_P和G_n，G_P＝{g_p1，g_p2，…，g_pk}表示正常组的频繁子图的集合，G_n＝{g_n1，g_n2，…，g_nk}表示抑郁组的频繁子图的集合，子图g_s的判别得分S(g_s)为：

S(g_s)＝|f_q(g_s|G_p)-f_q(g_s|G_n)| (4)；

公式(4)表示子图g_s在两类样本中的频度差，f_q(g_s|G_P)表示频繁子图g_s在正类样本中出现的频度，f_q(g_s|G_n)表示频繁子图g_s在负类样本中出现的频度；

其中，选择判别子图的目标函数定义如下：

其中，T^*表示最优特征子图集，J(T)表示对候选特征子图集T的评价函数，

公式(5)中：S(g_pi)表示正类样本的判别子图g_pi的频度差，S(g_nj)表示负类样本的判别子图g_nj的频度差；T₁、T₂分别表示正常组和抑郁组的候选特征子图集，则i为第i个判别子图，j为第j个判别子图；

之后，进行排序，根据排序结果，选择判别性得分较高的前t₁、t₂个频繁子图的步骤为：

首先对于通过等式(4)得到的判别性分数，对G_P和G_n中子图特征的判别性得分分别进行排序，表示为：

公式(6)中：表示频繁子图g_p在正类样本中的频度差，其中m表示正类样本的频繁子图个数；表示频繁子图g_n在负类样本中的频度差，其中k表示负类样本的频繁子图个数；

根据公式(6)得到公式(5)的最优解：

公式(7)中：表示正类样本的第i个判别子图，表示负类样本的第j个判别子图；

采用上述方法选择的特征，得到判别子图特征集数据，其仅包含选择的频繁子图，并且使正常组和抑郁组更具有判别性；

之后，使用训练集进行频繁分数特征选择算法和支持向量机的正则化参数C不同组合，再基于测试集上的表现，选取最优特征子集和正则化参数C。

进一步的，步骤S5中，图核是一种衡量两个图结构相似程度的度量技术，利用Weisfeiler-Lehman子树核构建的基于图核的分类器，Weisfeiler-Lehman子树核定义如下：

k^h(G，H)＝<φ^h(G)，φ^h(H)>

其中，k^h(G，H)表示第h次迭代后得到的图核矩阵，φ表示映射数据从输入空间到特征空间的映射函数，公式计算如下：

φ^h(G)＝(C₀(G，σ₀₁)，…，C₀(G，σ_0|∑0|)，…，C_h(G，σ_h1)，…，C_h(G，σ_h|∑k|))

φ^h(H)＝(C₀(H，σ₀₁)，…，C₀(H，σ_0|∑0|)，…，C_h(H，σ_h1)，…，C_h(H，σ_h|∑k|)) (8)；

公式(8)中：∑0表示G和H所有节点的原始标签集，∑i则表示Weisfeiler-Lehman算法第i次，0≤i≤h，迭代之后至少在G和H出现一次的所有节点标签集合，C_i(G，σ_ij)和C_i(H，σ_ij)为结点标号σ_ij在第i次，0≤i≤h，迭代中分别出现在图集G和H中的次数；φ^h(G)和φ^h(H)分别表示结点标号σ_ij在所有迭代中分别出现在图集G和H中的次数的集合；

所述分类器的构建，具体步骤为：采用Weisfeiler-Lehman子树核构建的基于图核的分类器，选择最优的特征子集作为分类特征，选择最优的正则化参数C，由此进行分类器的构建；

所述采用交叉验证方法对构建的分类器进行检验，步骤具体为：从最优特征子集中随机选择90％的样本作为训练集，剩余10％的最优特征子集作为测试集，由此进行分类测试并得到分类准确率；将重复进行100次分类测试后得到的分类准确率进行算术平均，然后将算术平均值作为分类器的分类准确率。

进一步的，所述步骤S6中，量化公式具体表示如下：

D表示所选判别子图在分类器中的重要度；S表示频繁子图的集合；|S|表示S中频繁子图的个数；x_i表示所选判别子图；c表示样本的类别标签；I(x_i，c)表示所选判别子图与样本的类别标签c的互信息；

R表示所选判别子图在分类器中的冗余度；x_i表示所选判别子图；x_j表示其它频繁子图；I(x_i，x_j)表示所选判别子图与其它频繁子图的互信息；

所述二次筛选步骤为：分别按照重要度大小和冗余度大小对所选特征进行排名，然后筛选出重要度较大且冗余度较小的特征。

本发明的有益效果：使用稀疏表示方法构建超网络，然后从超网络中提取判别子网络作为特征进行分类，这样既保留了原有网络拓扑结构的完整性，又不损失特征的可判别性。同时在保证不引参数的情况下，呈现更高级别和更复杂的大脑区域之间的相互作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的功能磁共振影像数据分类方法流程图。

图2是本发明与传统磁共振影像数据分类方法的对比示意图。

具体实施方式

下面将结合本发明实施例中，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于超网络判别子图的功能磁共振影像数据分类方法，具体按照以下步骤进行：

步骤S4：在训练集上采用频繁分数特征选择方法，选择相同数量的正常组和抑郁组的频繁子图，计算频繁子图的判别性得分，并进行排序。根据排序结果，选择判别子图特征集，再基于测试集的表现得出最优特征子集和正则化参数C；

步骤S5：采用基于图核的分类算法，判别性的子图作为特征，使用给定的正则化参数C和给定的最优特征子集，由此进行分类器的构建。然后采用交叉验证方法对构建的分类器进行检验；

其中，步骤S1中，对静息态功能磁共振影像数据进行预处理，首先最大程度的去除采集过程中由于设备、被试头动、生物噪音带来的噪音信号，保留了功能影像的细节，提高了信噪比。之后通过仿射变换和局部非线性变换方法将影响同一化到所选取的标准空间。综上所述，预处理步骤至少包括时间层校正、头动校正、联合配准、空间标准化及低频滤波；

利用所选定的标准化脑图谱，对预处理后的影像数据进行区域分割中，所选择的标准化脑图谱，是国际通用的解剖标记模板(Automated Anatomical Labeling，简称AAL)。模板将全脑共分割90个区域，其中左右半脑各45个区域；

对所分割的各脑区进行平均时间序列的提取，具体步骤包括：提取每个脑区所包含的所有体素在不同时间点上的激活信号，再将各体素在不同时间点上的激活信号进行算术平均，得到脑区的平均时间序列。激活信号指的是不同时间点上的血氧水平依赖(BloodOxygenation Level Dependent，BOLD)强度。

步骤S2中，稀疏线性回归方法中，稀疏线性回归模型具体表示如下：

x_m＝A_mα_m+τ_mx_m (1)；

公式(1)中：x_m表示选定脑区的时间序列，α_m表示其它脑区对选定脑区影响程度的权重向量，A_m＝[x₁,…,x_m-1,x_m+1,…x_M]包含除选定脑区之外的所有脑区的时间序列，τ_m表示噪声项，根据x_m、A_m可以得到α_m，α_m中非零元素对应的脑区即为与选定脑区相互作用的脑区；

其中，优化目标函数表示如下：

公式(2)中：λ表示控制模型稀疏的正则化参数。

步骤S3中，提取超网络中的每条超边作为一个子图，之后，计算正常组和抑郁组所有子图的频度，具体公式定义如下：

给定图集G，子图g_s的频度定义如下：

公式(3)中，|G|为图集G的样本量，|g_s|为图集G中包含子图g_s的样本个数；f_q(g_s|G)表示子图g_s在图集G中出现的频度。

步骤S4中，频繁分数特征选择(Frequently Scoring Feature Selection，简称FSFS)方法的具体步骤是：在训练集(即，分类中用于学习的样本集)上，选择相同数量的正常组和抑郁组的频繁子图，计算频繁子图的判别性得分，并进行排序。根据排序结果，选择判别性得分较高的前t₁、t₂个频繁子图，再基于测试集(即，分类中为了测试已经训练好的模型的分类能力的样本集)的表现得出最优特征子集和正则化参数C；t₁、t₂的含义是从每组中选出的特征的最大数。

S(g_s)＝|f_q(g_s|G_p)-f_q(g_s|G_n)| (4)；

其中，选择判别子图的目标函数定义如下：

公式(5)中：t₁，t₂是从每组中选出的频繁子图的最大数；表示正类样本的判别子图g_pi的频度差，S(g_nj)表示负类样本的判别子图g_nj的频度差；T₁、T₂分别表示正常组和抑郁组的候选特征子图集，则i为第i个判别子图，j为第j个判别子图。

之后，进行排序，根据排序结果，选择判别子图特征集的步骤如下：

首先对于通过等式(4)得到的判别性分数。对G_P和G_n中子图特征的判别性得分分别进行排序，表示为：

根据公式(6)得到公式(5)的最优解：

之后，使用训练集进行频繁分数特征选择算法和支持向量机(Support VectorMachine，简称SVM)的正则化参数C不同组合，再基于测试集上的表现，选取最优特征子集和正则化参数C。

步骤S5中，图核是一种衡量两个图结构相似程度的度量技术。利用Weisfeiler-Lehman子树核构建的基于图核的分类器。Weisfeiler-Lehman子树核定义如下：

k^h(G，H)＝<φ^h(G)，φ^h(H)>

其中，k^h(G，H)表示第h次迭代后得到的图核矩阵，φ表示映射数据从输入空间到

特征空间的映射函数。公式计算如下：

公式(8)中：∑0表示G和H所有节点的原始标签集。Σi则表示Weisfeiler-Lehman算法第i次，0≤i≤h，迭代之后至少在G和H出现一次的所有节点标签集合。C_i(G，σ_ij)和C_i(H，σ_ij)为结点标号σ_ij在第i次，0≤i≤h，迭代中分别出现在图G和H中的次数；φ^h(G)和φ^h(H)分别表示结点标号σ_ij在所有迭代中分别出现在图G和H中的次数的集合。

分类器的构建，具体步骤包括：采用Weisfeiler-Lehman子树核构建的基于图核的分类器，选择最优的特征子集作为分类特征，选择最优的正则化参数C，由此进行分类器的构建；

采用交叉验证方法对构建的分类器进行检验，步骤具体包括：从最优特征子集中随机选择90％的样本作为训练集，剩余10％的最优特征子集作为测试集，由此进行分类测试并得到分类准确率；将重复进行100次分类测试后得到的分类准确率进行算术平均，然后将算术平均值作为分类器的分类准确率。

步骤S6中，量化公式具体表示如下：

R表示所选判别子图在分类器中的冗余度；x_i表示所选判别子图；x_j表示其它频繁子图；I(x_i，y_j)表示所选判别子图与其它频繁子图的互信息；

二次筛选步骤具体包括：分别按照重要度大小和冗余度大小对所选特征进行排名，然后筛选出重要度较大且冗余度较小的特征。

通过稀疏线性回归方法、频繁分数特征选择算法、基于图核的分类算法、交叉验证方法、互信息分析方法，实现了超网络判别子图的描述，由此大幅提高了分类准确率；如图2所示，本发明的分类准确率明显高于传统磁共振影像数据分类方法的分类准确率，从而使得应用价值更高。本发明克服了现有的磁共振影像数据分类方法的不足之处，适用于磁共振影像数据的分类。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于超网络判别子图的功能磁共振影像数据分类方法，其特征在于，具体按照以下步骤进行：

步骤S4：在训练集上采用频繁分数特征选择方法；

步骤S6：采用互信息分析方法，对所选判别子图在分类器中的重要度和冗余度进行量化，然后根据量化结果对所选判别子图进行二次筛选，由此对最优特征子集进行优化；

所述步骤S1中，对静息态功能磁共振影像数据进行预处理，首先最大程度的去除采集过程中由于设备、被试头动、生物噪音带来的噪音信号，保留了功能影像的细节，提高了信噪比，之后通过仿射变换和局部非线性变换方法将影响同一化到所选取的标准空间；

所述对所分割的各脑区进行平均时间序列的提取，具体步骤包括：提取每个脑区所包含的所有体素在不同时间点上的激活信号，再将各体素在不同时间点上的激活信号进行算术平均，得到脑区的平均时间序列；

所述预处理步骤至少包括时间层校正、头动校正、联合配准、空间标准化及低频滤波；

所述步骤S2中，稀疏线性回归方法中，稀疏线性回归模型具体表示如下：

x_m＝A_mα_m+τ_mx_m(1)；

公式(1)中：x_m表示选定脑区的时间序列，α_m表示其它脑区对选定脑区影响程度的权重向量，A_m＝[x₁,…,x_m-1,x_m+1,…x_M]含除选定脑区之外的所有脑区的时间序列，τ_m表示噪声项，根据x_m、A_m可以得到α_m，α_m中非零元素对应的脑区即为与选定脑区相互作用的脑区；

其中，优化目标函数表示如下：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <msub> <mi>&alpha;</mi> <mi>m</mi> </msub> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>m</mi> </msub> <mo>-</mo> <msub> <mi>A</mi> <mi>m</mi> </msub> <msub> <mi>&alpha;</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>&alpha;</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

公式(2)中：λ表示控制模型稀疏的正则化参数；

所述步骤S3中，按照以下步骤进行：

给定图集G，子图g_s的频度定义如下：

之后，分别将正常组和抑郁组的所有子图的频度进行排序，选定频度阈值s，子图频度大于s，该子图是频繁子图；

所述步骤S4中，在训练集上采用频繁分数特征选择方法具体为：在训练集上，选择相同数量的正常组和抑郁组的频繁子图，计算频繁子图的判别性得分，并进行排序；根据排序结果，选择判别性得分较高的前t₁、t₂个频繁子图，再基于测试集的表现得出最优特征子集和正则化参数C；t₁、t₂的含义是从每组中选出的特征的最大数；

S(g_s)＝|f_q(g_s|G_p)-f_q(g_s|G_n)|(4)；

其中，选择判别子图的目标函数定义如下：

<mrow> <msup> <mi>T</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mrow> <msub> <mi>T</mi> <mn>1</mn> </msub> <mo>&SubsetEqual;</mo> <msub> <mi>G</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mn>2</mn> </msub> <mo>&SubsetEqual;</mo> <msub> <mi>G</mi> <mi>n</mi> </msub> </mrow> </munder> <mi>J</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow>

其中，T*表示最优特征子图集，J(T)表示对候选特征子图集T的评价函数，

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&le;</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> </mrow> </msub> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&le;</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> </mrow> </msub> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mrow> <mi>n</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>T</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>&le;</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>|</mo> <msub> <mi>T</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>&le;</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>p</mi> <mn>1</mn> </msubsup> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>p</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>...</mo> <mo>&GreaterEqual;</mo> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>p</mi> <mi>m</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>n</mi> <mn>1</mn> </msubsup> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>n</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>...</mo> <mo>&GreaterEqual;</mo> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>n</mi> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

根据公式(6)得到公式(5)的最优解：

之后，使用训练集进行频繁分数特征选择算法和支持向量机的正则化参数C不同组合，再基于测试集上的表现，选取最优特征子集和正则化参数C；

所述步骤S5中，图核是一种衡量两个图结构相似程度的度量技术，利用Weisfeiler-Lehman子树核构建的基于图核的分类器，Weisfeiler-Lehman子树核定义如下：

k^h(G，H)＝<φ^h(G)，φ^h(H)>

φ^h(G)＝(C₀(G，σ₀₁)，…，C₀(G，σ₀|∑₀|)，…，C_h(G，σ_h1)，…，C_h(G，σ_h|∑_k|))

φ^h(H)＝(C₀(H，σ₀₁)，…，C₀(H，σ₀|∑₀|)，…，C_h(H，σh₁)，…，Ch(H，σ_h|∑k|))(8)；

公式(8)中：∑₀表示G和H所有节点的原始标签集，∑_i则表示Weisfeiler-Lehman算法第i次，0≤i≤h，迭代之后至少在G和H出现一次的所有节点标签集合，C_i(G，σ_ij)和C_i(H，σ_ij)为结点标号σ_ij在第i次，0≤i≤h，迭代中分别出现在图集G和H中的次数；φ^h(G)和φ^h(H)分别表示结点标号σ_ij在所有迭代中分别出现在图集G和H中的次数的集合；

所述采用交叉验证方法对构建的分类器进行检验，步骤具体为：从最优特征子集中随机选择90％的样本作为训练集，剩余10％的最优特征子集作为测试集，由此进行分类测试并得到分类准确率；将重复进行100次分类测试后得到的分类准确率进行算术平均，然后将算术平均值作为分类器的分类准确率；

所述步骤S6中，量化公式具体表示如下：

<mrow> <mi>D</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>S</mi> </mrow> </msub> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>R</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>S</mi> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>S</mi> </mrow> </msub> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>