CN109711467B

CN109711467B - 数据处理装置及方法、计算机系统

Info

Publication number: CN109711467B
Application number: CN201811606383.1A
Authority: CN
Inventors: 崔进; 宗瑜; 邱本胜
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-10-28
Anticipated expiration: 2038-12-26
Also published as: CN109711467A

Abstract

本发明提供了一种数据处理装置，包括获取模块，用于获取表征被检体的脑部结构信息的M个原始特征数据，其中，M个原始特征数据是通过对被检体的脑部磁共振图像数据进行处理后得到的，M为大于或等于1的正整数；筛选模块，用于从M个原始特征数据中筛选出N个目标特征数据，其中，N为小于或等于M的正整数；处理模块，用于处理N个目标特征数据以确定被检体的分类结果。本发明还提供了一种计算机系统和一种数据处理方法。

Description

数据处理装置及方法、计算机系统

技术领域

本发明涉及一种数据处理装置、一种数据处理方法和一种计算机系统。

背景技术

在医疗技术领域，通过医疗设备获取被检体的图像数据之后，一般通过人工阅片的方式判断图像数据的特征，其方式工作量较大、对医师水平要求高且图像细微变化不易被发现。特别地，对于特殊被检体，如自闭症、癫痫等患者，还要结合被检体的行为进行评估，但由于患者沟通能力差而难以顺利展开。加上对软硬件设备要求高以及费用昂贵等原因，短期内无法在多数地区进行普及，使得当下医疗诊断资源缺口巨大，相应辅助诊断水平亟待提高，相关医疗领域迫切需要一种智能化的技术来缓解所存在的问题。

发明内容

本发明的一个方面提供了一种数据处理装置，包括获取模块，用于获取表征被检体的脑部结构信息的M个原始特征数据，其中，上述M个原始特征数据是通过对上述被检体的脑部磁共振图像数据进行处理后得到的，上述M为大于或等于1的正整数；筛选模块，用于从上述M个原始特征数据中筛选出N个目标特征数据，其中，上述N为小于或等于M的正整数；以及处理模块，用于处理上述N个目标特征数据以确定上述被检体的分类结果。

可选地，上述处理模块包括分类单元，上述分类单元是利用如下步骤训练得到的，包括：获取训练样本集，其中，上述训练样本集至少包括多个具有分类信息的被检体对应的多个原始特征数据；对上述训练样本集中多个具有分类信息的被检体对应的多个原始特征数据进行主成分分析，确定用于训练上述分类单元的多个训练特征；利用上述多个训练特征对应的特征数据训练上述分类单元。

可选地，利用上述多个训练特征对应的特征数据训练上述分类单元包括：确定上述多个训练特征中的每个训练特征的分类权重；基于上述多个训练特征生成特征集合，其中，上述特征集合中的每个训练特征具有确定的对应分类权重；剔除上述特征集合中分类权重最小的训练特征，利用上述特征集合中剩余的训练特征对应的特征数据训练上述分类单元。

可选地，利用上述特征集合中剩余的训练特征对应的特征数据训练上述分类单元包括确定上述分类单元的诊断参数；响应于上述分类单元的诊断参数大于或等于阈值，输出上述训练后的分类单元。

可选地，上述诊断参数被计算为：

其中，Q表示诊断参数，sensitivity表示敏感性，specificity表示特异性，TP为正类的实例被预测为正类的比例或数量，FN为正类的实例被预测为负类的比例或数量，FP为负类的实例被预测为正类的比例或数量，TN为负类的实例被预测为负类的比例或数量。

可选地，利用上述特征集合中剩余的训练特征对应的特征数据训练上述分类单元还包括：响应于上述分类单元的诊断参数小于上述阈值，剔除上述特征集合剩余训练特征中分类权重最小的训练特征；根据上述特征集合当前剩余的训练特征对应的特征数据再次训练上述分类单元。

可选地，利用上述特征集合中剩余的训练特征对应的特征数据训练上述分类单元还包括：响应于再次训练后的分类单元的诊断参数大于或等于上述阈值，输出再次训练得到的分类单元；以及输出上述特征集合当前剩余的训练特征。

可选地，从上述M个原始特征数据中筛选出N个目标特征数据包括：将上述特征集合当前剩余的训练特征作为目标特征，从上述M个原始特征数据中筛选出与上述目标特征对应的N个目标特征数据。

可选地，利用上述多个训练特征对应的特征数据训练上述分类单元包括：依据上述特征集合中的训练特征的分类权重确定每次训练上述分类单元所采用的训练特征，得到每次训练上述分类单元所采用的训练特征集合；确定每次训练后得到的分类单元的诊断参数，其中，每次训练后得到分类单元都具有对应的诊断参数；比较每次训练后得到的分类单元的诊断参数，确定诊断参数最高的分类单元；以及/或者输出训练上述诊断参数最高的分类单元时所采用的训练特征。

本发明的另一方面提供了一种数据处理方法，包括：获取表征被检体的脑部结构信息的M个原始特征数据，其中，上述M个原始特征数据是通过对上述被检体的脑部磁共振图像数据进行处理后得到的，上述M为大于或等于1的正整数；从上述M个原始特征数据中筛选出N个目标特征数据，其中，上述N为小于或等于M的正整数；处理上述N个目标特征数据以确定上述被检体的分类结果。

本发明的另一方面提供了一种计算机系统，包括：处理器；存储器，存储有计算机可读指令；其中，上述指令被上述处理器执行时使得上述处理器实现获取表征被检体的脑部结构信息的M个原始特征数据，其中，上述M个原始特征数据是通过对上述被检体的脑部磁共振图像数据进行处理后得到的，上述M为大于或等于1的正整数；从上述M个原始特征数据中筛选出N个目标特征数据，其中，上述N为小于或等于M的正整数；以及处理上述N个目标特征数据以确定上述被检体的分类结果。

本发明的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

本发明的另一方面提供了一种计算机程序，上述计算机程序包括计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本发明及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本发明实施例的数据处理装置的框图；

图2示意性示出了根据本发明实施例的对被检体的脑部磁共振图像数据进行处理的流程图；

图3示意性示出了根据本发明实施例的训练分类单元的流程图；

图4示意性示出了根据本发明另一实施例的对被检体的脑部磁共振图像数据进行评估的流程图；

图5示意性示出了根据本发明另一实施例的对被检体的脑部磁共振图像数据进行评估的流程图；以及

图6示意性示出了根据本发明实施例的适于实现上文描述的方法的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本发明的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本发明的实施例提供了一种数据处理装置及方法，该装置包括获取模块，用于获取表征被检体的脑部结构信息的M个原始特征数据，其中，上述M个原始特征数据是通过对上述被检体的脑部磁共振图像数据进行处理后得到的，上述M为大于或等于1的正整数；筛选模块，用于从上述M个原始特征数据中筛选出N个目标特征数据，其中，上述N为小于或等于M的正整数；处理模块，用于处理上述N个目标特征数据以确定上述被检体的分类结果。

磁共振图像(MagneticResonanceImaging，MRI)是医学影像领域中利用射频脉冲使磁场中的氢核共振产生信号，经处理后成像得到的。MRI图像具有成像参数多、对比度高、可任意方位断层、无骨伪影干扰、对人体无电离辐射伤害等优点。

本发明的数据处理装置及方法可以应用于处理自闭症、癫痫症、海默综合症等患者的脑部磁共振图像数据，以辅助医疗工作者评估患者当前的状况。

例如，可选地，本发明的数据处理装置及方法可以应用于处理自闭症患者的脑部磁共振图像数据，评估患者当前的自闭状况。自闭症是一种广泛性发育障碍的代表性疾病，患者由于大脑发育迟缓或者相关脑区受损，导致出现社交沟通障碍、兴趣狭窄以及重复刻板行为等临床症状。

根据2017年出版的《中国自闭症教育康复行业发展状况报告II》(后简称《报告》)显示，现在中国自闭症患者人数超过一千万，患者人数占全国总人口比例高达1％，并且还在以每年近20万的速度增加。其中，仅0至14岁的儿童就约有200万，因而自闭症又被称为“中国少儿精神残疾的‘第一杀手’”。随着自闭症发病群体的不断扩大，与之形成鲜明对比的是中国相关医疗资源的短缺。《报告》还指出，中国当前具备自闭症诊断资质的专业医师仅百余人。面对庞大的自闭症群体与极其短缺的医疗资源之间的矛盾，当代社会面临的自闭症相关的医疗问题，存在着极大的挑战。

针对自闭症的神经病理生理学机制，国内外研究学者普遍认为，相比较于同龄同性别的正常人，在脑组织结构方面，自闭症患者的前额叶、额下回、梭状回、颞上沟、眶额叶等大脑皮层的多个重要脑区，小脑以及杏仁核、胼胝体、丘脑等多个皮下核团，存在显著性的异常。这对区分正常人与自闭症患者，为实现对自闭症的辅助诊断，提供了重要的理论基础。

在相关技术中，针对自闭症疾病的辅助诊断，医疗领域出现了常规临床诊断方式与新兴科技诊断技术并存的局面。在常规临床诊断方面，行为学评估量表、影像学检测等方法是临床上常用的辅助诊断方式，然而在相应医疗力量短缺的同时，常规的影像学诊断是由医生选取少量图片通过人工阅片的形式实现，其特点是工作量较大、对医师水平要求高且细微变化不易被发现，行为学量表评估也由于患者沟通能力差而难以顺利展开。在新兴科技诊断技术方面，基于音频、视频和动作捕捉的人工智能技术以及基因检测等辅助诊断方法，虽然已经取得了较为可观的诊断效果，但是数据采集难度大。

基于此，本发明人构想到，由于MRI的影像采集设备已经普及于几乎所有的省市级医院和大多数县级医院，针对采集过程中自制力较差的自闭症患者的配合能力要求低，这都使得相应的影像学数据采集较为容易。在技术层面，机器学习是一门多领域交叉学科，涉及概率论、统计学、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识和技能，重新组织已有的知识结构使之不断改善自身的性能。基于自闭症的神经病理生理学机制，通过新兴计算机技术实现对自闭症的辅助诊断同样存在着很大的可行性。立足于现有的医疗条件基础，结合自闭症的神经生理病理学机制和机器学习技术，从而实现对疑似患者的患病状态进行非侵入式辅助诊断评估。

图1示意性示出了根据本发明实施例的数据处理装置的框图。

如图1所示，数据处理装置100包括获取模块101、筛选模块102和处理模块103。

获取模块101用于获取表征被检体的脑部结构信息的M个原始特征数据，其中，M个原始特征数据是通过对被检体的脑部磁共振图像数据进行处理后得到的，M为大于或等于1的正整数。

根据本发明的实施例，可以先利用磁共振设备对所有参与者采集脑部磁共振图像数据，即进行MRI三维结构像采集。所有参与者包括经过专业医师诊断的患者和寻求辅助诊断的疑似病人，采集序列参数可以设置为重复时间(TR)7.012ms、回波时间(TE)2.876ms、体素体积1*1*1mm、张数166等。扫描前，参与者不能带有任何金属物品或者金属植入物，并且在扫描期间让其保持静止不动，若因违反导致画质不清晰，需要重新扫描。

根据本发明的实施例，对被检体的脑部磁共振图像数据进行处理后可以得到M个原始特征数据。提取的特征数据可以来自大脑皮层、皮下核团以及小脑等近乎全脑的组织结构信息，可以充分利用神经生理病理学相关信息提取到相应的特征数据。

图2示意性示出了根据本发明实施例的对被检体的脑部磁共振图像数据进行处理的流程图。

如图2所示，在操作S201输入原始的脑部磁共振图像数据(以下简称MRI图像数据)之后，在操作S203通过影像学特征提取算法，基于表面积的形态学分析法(Surface-basedmorphometry，SBM)，对每一位参与者的MRI图像数据进行分析处理，提取大脑皮层各个脑区和各个皮下核团的结构参数作为特征，在操作S204对所有特征进行归一化，以消除量纲不同带来的影响，在操作S205并将其组合为原始特征集，可以得到M个原始特征数据。

具体地，还可以将原始的MRI图像数据先转化为可以被处理的数据格式。例如，在操作S202，若原始MRI数据为DICOM格式，经过格式转换成为NIFTI格式。随后进行原始特征值提取，本实施例使用的特征提取算法可以是基于表面积的形态学分析算法，例如，可以是通过影像学专业分析软件Freesurfer实现。Freesurfer自带的脑区分割图集分为大脑皮层图集和皮下核团分割图集。其中，大脑皮层图集使用的是Destrieux图集，它将大脑皮层分为146个区域。而皮下核团分割图集将人脑皮下组织分为32个区域。依照以上分区图集，Freesurfer软件会依次计算各皮层脑区的灰质体积、皮层厚度、表面积、褶皱指数、曲率指数、高斯曲率和平均曲率，以及各皮下核团的结构体积、平均密度，并最终存入一个名为stats的文件中。再通过系统的终端窗口，进入该目录下，利用aparcstats2table与asegstats2table两条指令，分别针对大脑皮层和皮下核团的以上原始特征，依次提取出来并以Excel格式存储。最后，对所有特征进行归一化，以消除量纲不同带来的影响。根据本发明的实施例，原始特征的数量M不作限定，可以是上百个，甚至是上千个，可以根据实际情况选择具体数量。

筛选模块102用于从M个原始特征数据中筛选出N个目标特征数据，其中，N为小于或等于M的正整数。

根据本发明的实施例，可以预先确定目标特征具体是哪些，从而可以按照预先确定的目标特征直接从原始特征数据中筛选出目标特征数据。

预先确定的目标特征是对分类结果的准确性有较大影响的特征，具体的确定方法可以是在模型训练时采用相关算法基于模型性能进行确定，例如，可以采用Relief算法选取最优特征子集，将最优特征子集作为目标特征，其中，Relief算法的相关介绍将在后文介绍如何训练分类单元中详细介绍，在此不再赘述。具体地，例如，目标特征可以是大脑皮层各个脑区的灰质体积、皮层厚度、表面积、褶皱指数、曲率指数、高斯曲率和平均曲率，以及各个大脑皮下核团的结构体积、平均密度等量化指标。

处理模块103用于处理N个目标特征数据以确定被检体的分类结果。

根据本发明的实施例，可以利用分类单元处理N个目标特征数据以确定被检体的分类结果，分类结果最终可以以特定的方式在显示单元上显示出来，以辅助医疗工作者根据分类结果诊断被检体。根据本发明的实施例，例如，本发明的应用场景是自闭症诊断的情况下，可以辅助医疗工作者诊断被检体是不是自闭症患者。

通过本发明的实施例，与现有的相关技术相比，本发明需求的脑部磁共振图像数据来源广采集容易，辅助设备要求低，便于在多数缺乏自闭症医疗资源的地区进行推广。对自闭症的临床非侵入式辅助诊断，对加深医生、病人及其家属对病情的了解，提供了便利化获取自闭症辅助诊断的途径，具有十分重要的临床意义。

下面参考图3～图4，结合具体实施例对图1所示的数据处理装置做进一步说明。

图3示意性示出了根据本发明实施例的训练分类单元的流程图。

根据本发明的实施例，处理模块包括分类单元，如图3所示，训练分类单元的方法包括操作S206～S208。

在操作S206，获取训练样本集，其中，训练样本集至少包括多个具有分类信息的被检体对应的多个原始特征数据。

在操作S207，对训练样本集中多个具有分类信息的被检体对应的多个原始特征数据进行主成分分析，确定用于训练分类单元的多个训练特征。

在操作S208，利用多个训练特征对应的特征数据训练分类单元。

根据本发明的实施例，训练样本集可以存储在MRI数据库中，并通过数据管理模块管理MRI数据库中的数据，MRI数据库中存储了经过确诊的志愿者的大脑MRI图像数据，可选地，可以用来存储和管理经过专业医师确诊的自闭症患者(标签置为“1”)和无相关疾病健康人(标签置为“0”)的大脑MRI图像数据、经过预处理的原始特征集以及其标签。

根据本发明的实施例，MRI数据库的存储和管理，具体可以是在收到训练分类单元的请求后，提供所有的原始特征值及其标签，其中，MRI数据库中的数据随着专业医师确诊人数的增加，MRI图像数据库会随之扩容，当特征提取算法改变后，MRI影像数据库中的MRI图像数据会被重新读出，由新特征提取算法重新提取特征，并存放回MRI图像数据库中。

根据本发明的实施例，分类单元的分类算法可以从以下算法中选择：KNN算法、朴素贝叶斯算法、决策树算法、随机森林算法、支持向量机算法、逻辑回归算法和神经网络算法等。

根据本发明的实施例，通过对训练样本集中多个具有分类信息的被检体对应的多个原始特征数据进行主成分分析，可以实现原始特征数量上的降维，通过主成分分析法剔除冗余特征。例如，对所得到的1086个原始特征值进行主成分分析，从而极大地剔除共线性的特征和贡献度较小的冗余特征。

根据本发明的实施例，利用多个训练特征对应的特征数据训练分类单元包括：确定多个训练特征中的每个训练特征的分类权重；基于多个训练特征生成特征集合，其中，特征集合中的每个训练特征具有确定的对应分类权重；剔除特征集合中分类权重最小的训练特征，利用特征集合中剩余的训练特征对应的特征数据训练分类单元。

根据本发明的实施例，可以通过Relief算法(特征加权算法)对降维后的特征确定分类权重，并进行分类权重排序。首先设置迭代次数k，随机在数据集中选取一个样本A，再分别选择与其最近邻同类别样本B与最近邻非同类样本C，然后按照以下规则计算各个特征的权重大小：针对某一特征，A与B的距离小于A与C的距离，则该特征对于区分类别具有积极作用，增加该特征的权重；反之，则有消极作用，减小该特征的权重。按照迭代次数k，重复上述操作，最终得到所有特征的权重。权重越大，说明该特征分类能力越强，反之，则说明分类能力越弱。最后将所有训练特征按照权重大小进行排序得到特征集合R。

根据本发明的实施例，可以选取SVM支持向量机算法作为分类单元的训练模型，随后依次剔除特征集合R中权重最小的特征，在每一次剔除前，利用特征集合内剩下的训练特征对应的特征数据进行模型训练。

在模型训练的过程中，发明人发现在相关技术中，机器学习分类技术也存在亟待改善之处。相关技术中模型训练和优化一般是以准确率为指标进行训练和优化，或者单方面关注敏感性(正诊率)，在一定程度上忽视了泛化能力，这会造成在对疑似患者的健康人诊断时，出现误诊率(1-特异性)过高的情况。而对于自闭症、癫痫症等疾病的特殊性，疑似患者大多年龄偏小，如果对患者或者疑似患者的健康人的错误率过高，均会导致延误病情或者造成不必要的恐慌，从而影响到及时治疗或者正常成长。即使模型的性能经过了后期优化调整，得到的结果也不一定是兼顾两者的最优解。

根据本发明的实施例，发明人构想到在机器学习模型训练环节，选用诊断参数Q(敏感性与特异性的调和平均数)取代相关技术中的准确性作为模型择优标准，通过本发明的优化有利于同时兼顾两项指标，保证很强的泛化能力，从而寻找到符合自闭症、癫痫症等特殊性的最优解。

根据本发明的实施例，利用特征集合中剩余的训练特征对应的特征数据训练分类单元包括确定分类单元的诊断参数；响应于分类单元的诊断参数大于或等于阈值，输出训练后的分类单元。

根据本发明的实施例，诊断参数被计算为：

根据本发明的实施例，例如，正类的实例可以是自闭症患者的脑部MRI数据，负类的实例可以是正常人的脑部MRI数据。正类的实例被预测为正类可以是指自闭症患者的数据经过预测后确定为自闭症患者。正类的实例被预测为负类可以是指自闭症患者的数据经过预测后确定为正常人。负类的实例被预测为正类可以是指正常人的脑部MRI数据经过预测后确定为自闭症患者。负类的实例被预测为负类可以是指正常人的脑部MRI数据经过预测后确定为正常人。

根据本发明的实施例，利用特征集合中剩余的训练特征对应的特征数据训练分类单元还包括响应于分类单元的诊断参数小于阈值，剔除特征集合剩余训练特征中分类权重最小的训练特征，根据特征集合当前剩余的训练特征对应的特征数据再次训练分类单元。

根据本发明的实施例，为了便于理解分类单元训练和特征选择算法的过程，下面将以一示例说明训练过程，根据本发明的实施例，假设共有50个原始特征，训练过程如下。

(1)首先可以通过Relief算法进行权重计算，再按照权重大小降序排列。

(2)对50个特征值进行机器学习分类模型训练，计算该模型的诊断参数Q。

(3)在诊断参数Q小于阈值的情况下，剔除特征集合中权重最小的特征，对剩下的49个特征，再进行模型训练，并计算该模型的诊断参数Q。

(4)在诊断参数Q小于阈值的情况下，再剔除剩下特征中权重最小的特征，对剩下的48个特征，再进行模型训练，并计算该模型的诊断参数Q。

(5)在诊断参数Q小于阈值的情况下，继续剔除剩下特征中权重最小的特征，对剩下的47个特征，再进行模型训练，并计算该模型的诊断参数Q。

以此类推，直到在诊断参数Q大于或等于阈值的情况下，最终选取Q值最高情况下的模型Mi及其子集选取方式Si作为最优解。

根据本发明的实施例，还可以在重复以上操作直至集合R内的特征数小于预定数时，选取当前Q值最高情况下的模型Mi及其子集选取方式Si作为最优解，预定数例如可以是10。通过上述方式，可以避免由于特征数过少，从而出现欠拟合现象。

根据本公开的实施例，利用多个训练特征对应的特征数据训练分类单元包括依据特征集合中的训练特征的分类权重确定每次训练分类单元所采用的训练特征，得到每次训练分类单元所采用的训练特征集合；确定每次训练后得到的分类单元的诊断参数，其中，每次训练后得到分类单元都具有对应的诊断参数；比较每次训练后得到的分类单元的诊断参数，确定诊断参数最高的分类单元；以及/或者输出训练诊断参数最高的分类单元时所采用的训练特征。

根据本公开的实施例，沿用上述利用50个原始特征训练分类单元的示例，在上述利用50个原始特征训练分类单元的过程中，也可以不将诊断参数Q与阈值进行比较。发明人在构思数据处理算法时规避了将诊断参数Q与“阈值”比较，从而规避操作人员的经验。

根据本公开的实施例，本发明可以依据特征集合中的训练特征的分类权重确定每次训练分类单元所采用的训练特征。例如，共有100个训练特征，每个训练特征都具有对应的分类权重，第一次训练分类单元所采用的训练特征为100个，训练后得到分类单元都具有对应的第一诊断参数。第二次训练分类单元所采用的训练特征为99个，剔除了权重最小的训练特征，训练后得到分类单元都具有对应的第二诊断参数。第三次训练分类单元所采用的训练特征为98个，剔除了权重最小和权重倒数第二的训练特征，训练后得到分类单元都具有对应的第三诊断参数。以此类推，对应得到100个诊断参数，最后选取诊断参数值最高下的分类单元。

根据本公开的实施例，还可以输出训练诊断参数最高的分类单元时所采用的训练特征，将训练诊断参数最高的分类单元时所采用的训练特征作为最优解，从M个原始特征数据中筛选出N个目标特征数据包括将训练诊断参数最高的分类单元时所采用的训练特征作为目标特征。

根据本公开的实施例，在这种有序地遍历训练特征的过程中，选取诊断参数值最高下的分类单元，可以规避操作人员的经验。

根据本发明的实施例，利用特征集合中剩余的训练特征对应的特征数据训练分类单元还包括响应于再次训练后的分类单元的诊断参数大于或等于阈值，输出再次训练得到的分类单元，输出特征集合当前剩余的训练特征。

根据本发明的实施例，以诊断参数Q为评价指标，按照权重顺序依次训练，最终将Q值最高情况下的模型Mi及其特征子集选取方式Si作为最优解。其中，Q值最高情况下的模型Mi可以作为训练得到的分类单元，特征子集选取方式Si可以作为目标特征。

根据本发明的实施例，例如，以支持向量机(SVM)分类算法作为基础模型，还可以对Q值最高情况下的SVM模型参数进行优化，通过网格搜索算法调整参数，同样以Q值作为参数的优化指标，最终得到最优模型。

通过本发明的实施例，在Q值最高情况下，相应的漏诊率(1-Sensitivity)与误诊率(1-Specificity)就会保持在可控最小水平，自闭症病人与健康人被错误诊断的概率也就最小。

根据本发明的实施例，从M个原始特征数据中筛选出N个目标特征数据包括将特征集合当前剩余的训练特征作为目标特征，从M个原始特征数据中筛选出与目标特征对应的N个目标特征数据。

根据本发明的实施例，所选用的目标特征种类充分覆盖了参与者大脑的大量结构信息，因而充分利用了患者的神经病理生理学机制，有利于进行病人与健康人的区分。经过优化的遍历最优特征子集算法，既保留了贪心算法遍历最优值的优势，又减少了大量浪费在冗余特征之间的时间和运行资源。通过泛化能力相关性能参数，即诊断参数，替代传统的准确率作为调优指标，在保证了较优模型性能的前提下，能够保证对疑似患者的健康者误诊率处于可控最低水平。

图4示意性示出了根据本发明另一实施例的对被检体的脑部磁共振图像数据进行评估的流程图。

如图4所示，对被检体的脑部磁共振图像数据进行评估的方法包括操作S301～S305。

在操作S301，输入患者的三维T1加权磁共振结构像(3DT1weightedMRI，后简称MRI数据)。

在操作S302，对MRI数据进行预处理，得到原始特征集。

在操作S303，判断该被检体的原始特征集中是否含有标签，若有标签，进入操作S304，若无标签，直接跳入操作S305。

在操作S304，选取机器学习分类算法，再基于模型性能选取最优特征子集和模型参数化。具体地，可以包括操作A、B、C和D。

A.对原始特征集进行主成分分析(PCA)的降维，减少特征数量，从而减少大量冗余特征对运行效率和模型分类性能产生的不利影响。

B.对于剩下的特征进行特征选择，具体过程包括如下b1和b2。

b1.分类权重排序：使用特征加权算法(Relief算法)对剩下的特征按照权重进行排序，并按顺序存入特征集合R。

b2.通过特征集合R训练分类模型，基于模型性能进行最优特征子集选取。

依次删除特征集合R中权重最小的特征，在每一次删除前，通过该种情况下的特征集合R中剩余训练特征进行训练，得到模型Mi，并计算其诊断参数Q，将Q与阈值A进行比较，最后选取Q值最高情况下的训练特征Si作为最优特征子集选取方式。

C.随后将模型Mi同样以Q值作为标准，进行参数调优，选取Q值最高情况下的参数取值作为最优分类模型Mi*。

D.将最优特征子集选取方式Si与最优分类模型Mi*提供给操作S305。

在操作S305，对无标签的疑似病人进行诊断，将最优特征子集从原始特征集中提取出来，再经过最优模型判断，最终判定该疑似病人是否患病。

根据本发明的实施例，最优特征子集可以作为本申请的目标特征，最优模型可以作为本申请处理模块所包含的分类单元。

图5示意性示出了根据本发明另一实施例的对被检体的脑部磁共振图像数据进行评估的流程图。

如图5所示，对疑似患者的MRI图像数据进行预处理，得到原始特征集合，根据预先确定的最优特征子集从原始特征集合中提取最优特征作为目标特征，通过分类单元，即训练好的模型对目标特征的数据进行处理，输出分类结果。

训练样本集可以存储在MRI数据库中，并通过数据管理模块管理MRI数据库中的数据，MRI数据库中存储了经过确诊的志愿者的大脑MRI图像数据，可选地，可以用来存储和管理经过专业医师确诊的自闭症患者(标签置为“1”)和无相关疾病健康人(标签置为“0”)的大脑MRI图像数据、经过预处理的原始特征集以及其标签。

根据本发明的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本发明实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块101、筛选模块102和处理模块103中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，获取模块101、筛选模块102和处理模块103中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块101、筛选模块102和处理模块103中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本发明的实施例，还提供了一种数据处理方法，包括获取表征被检体的脑部结构信息的M个原始特征数据，其中，M个原始特征数据是通过对被检体的脑部磁共振图像数据进行处理后得到的，M为大于或等于1的正整数；从M个原始特征数据中筛选出N个目标特征数据，其中，N为小于或等于M的正整数；处理N个目标特征数据以确定被检体的分类结果。

根据本发明的实施例，对被检体的脑部磁共振图像数据进行处理可以是对被检体的大脑MRI数据进行格式转换、原始特征值提取和归一化。

从M个原始特征数据中筛选出N个目标特征数据可以是根据模型训练后输出的最优训练特征，从原始特征集合中提取出训练特征作为目标特征，再由训练后得到的模型根据目标特征数据进行判断，得到该被检体的辅诊结果。

本发明所提供的数据处理方法与数据处理装置是相对应的，数据处理方法部分的描述可以参考数据处理装置部分，在此不再赘述。

根据本发明的实施例，还提供了一种计算机系统，包括：处理器；以及存储器，存储有计算机可读指令；其中，指令被处理器执行时使得处理器实现：获取表征被检体的脑部结构信息的M个原始特征数据，其中，M个原始特征数据是通过对被检体的脑部磁共振图像数据进行处理后得到的，M为大于或等于1的正整数；从M个原始特征数据中筛选出N个目标特征数据，其中，N为小于或等于M的正整数；处理N个目标特征数据以确定被检体的分类结果。

图6示意性示出了根据本发明实施例的适于实现上文描述的方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统400包括处理器410和计算机可读存储介质420。该计算机系统400可以执行根据本发明实施例的方法。

具体地，处理器410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器410还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质420，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质420可以包括计算机程序421，该计算机程序421可以包括代码/计算机可执行指令，其在由处理器410执行时使得处理器410执行根据本发明实施例的方法或其任何变形。

计算机程序421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序421中的代码可以包括一个或多个程序模块，例如包括421A、模块421B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器410执行时，使得处理器410可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例，获取模块101、筛选模块102和处理模块103中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器410执行时，可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种数据处理装置，包括：

获取模块，用于获取表征被检体的脑部结构信息的M个原始特征数据，其中，所述M个原始特征数据是通过对所述被检体的脑部磁共振图像数据进行处理后得到的，所述M为大于或等于1的正整数；

筛选模块，用于从所述M个原始特征数据中筛选出N个目标特征数据，其中，所述N为小于或等于M的正整数；以及

处理模块，用于处理所述N个目标特征数据以确定所述被检体的分类结果；

其中，所述处理模块包括分类单元，所述分类单元是利用如下步骤训练得到的，包括：

获取训练样本集，其中，所述训练样本集至少包括多个具有分类信息的被检体对应的多个原始特征数据；

对所述训练样本集中多个具有分类信息的被检体对应的多个原始特征数据进行主成分分析，确定用于训练所述分类单元的多个训练特征；

利用所述多个训练特征对应的特征数据训练所述分类单元；

其中，利用所述多个训练特征对应的特征数据训练所述分类单元包括：

确定所述多个训练特征中的每个训练特征的分类权重；

基于所述多个训练特征生成特征集合，其中，所述特征集合中的每个训练特征具有确定的对应分类权重；以及

剔除所述特征集合中分类权重最小的训练特征，利用所述特征集合中剩余的训练特征对应的特征数据训练所述分类单元；

其中，利用所述特征集合中剩余的训练特征对应的特征数据训练所述分类单元包括：

确定所述分类单元的诊断参数；

响应于所述分类单元的诊断参数大于或等于阈值，输出所述训练后的分类单元；

所述诊断参数被计算为：

其中，Q表示诊断参数，sensitivity表示敏感性，specificity表示特异性，TP为正类的实例被预测为正类的比例或数量，FN为正类的实例被预测为负类的比例或数量，FP为负类的实例被预测为正类的比例或数量，TN为负类的实例被预测为负类的比例或数量；

依据所述特征集合中的训练特征的分类权重确定每次训练所述分类单元所采用的训练特征，得到每次训练所述分类单元所采用的训练特征集合；

确定每次训练后得到的分类单元的诊断参数，其中，每次训练后得到分类单元都具有对应的诊断参数；

比较每次训练后得到的分类单元的诊断参数，确定诊断参数最高的分类单元；以及/或者

输出训练所述诊断参数最高的分类单元时所采用的训练特征。

2.根据权利要求1所述的装置，其中，利用所述特征集合中剩余的训练特征对应的特征数据训练所述分类单元还包括：

响应于所述分类单元的诊断参数小于所述阈值，剔除所述特征集合剩余训练特征中分类权重最小的训练特征；以及

根据所述特征集合当前剩余的训练特征对应的特征数据再次训练所述分类单元。

3.根据权利要求2所述的装置，利用所述特征集合中剩余的训练特征对应的特征数据训练所述分类单元还包括：

响应于再次训练后的分类单元的诊断参数大于或等于所述阈值，输出再次训练得到的分类单元；以及

输出所述特征集合当前剩余的训练特征。

4.一种用于实现权利要求1所述的数据处理装置的计算机系统，包括：

处理器；以及

存储器，存储有计算机可读指令；其中，所述指令被所述处理器执行时使得所述处理器实现：

获取表征被检体的脑部结构信息的M个原始特征数据，其中，所述M个原始特征数据是通过对所述被检体的脑部磁共振图像数据进行处理后得到的，所述M为大于或等于1的正整数；

从所述M个原始特征数据中筛选出N个目标特征数据，其中，所述N为小于或等于M的正整数；以及

处理所述N个目标特征数据以确定所述被检体的分类结果。

5.一种基于权利要求1所述的数据处理装置的数据处理方法，包括：

处理所述N个目标特征数据以确定所述被检体的分类结果。