CN106934223A

CN106934223A - 一种基于大数据的血液病智能分类系统及方法

Info

Publication number: CN106934223A
Application number: CN201710113828.1A
Authority: CN
Inventors: 邝璞; 高彦回; 张洋; 刘为
Original assignee: Si Ji (beijing) Network Technology Co Ltd
Current assignee: Si Ji (beijing) Network Technology Co Ltd
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-07-07

Abstract

本发明涉及一种基于大数据的血液病智能分类系统，包括服务器、信息输入装置、显示装置；服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块、病例分类模块。服务器将采集的血液病病例的电子数据分为训练集和测试集，提取训练集中病例的特征病理信息，预处理并生成特征数值，训练血液病病理分类器，并根据用户输入信息得出血液病分类结果；信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据；显示装置对血液病分类结果进行显示。本发明不依赖医生的主观判断和工作经验，提高了诊断的准确性和及时性。

Description

一种基于大数据的血液病智能分类系统及方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于大数据的血液病智能分类系统及方法。

背景技术

目前，正处于大数据时代，到处都有大规模数据量的数据，现有技术中的简单规则处理难以发挥这些数据的价值。硬件的高速发展给大数据的应用提供了条件。高性能计算使得基于大规模数据的数据学习时间和数据处理代价大大降低了；大规模数据存储，使得能够更快、代价更小地处理大规模数据。由于硬件和算法的发展，使得在使用机器学习解决数据分析的问题后，能获得更加丰厚收益。

现有的机器学习技术主要运用到新闻、电子商务等互联网领域，在传统领域，尤其是医学领域的应用十分匮乏。因此，本发明提供一种将机器学习方法运用到医学领域中，进行血液病病理类型的智能分类方法，以弥补现有技术中，血液病的分类主要依赖医生的主观判断，判断的准确性取决于医生的工作经验，不同的医生对患者病情的判断结果可能会不一致，这容易导致误诊，甚至可能会延误患者病情的问题。

发明内容

鉴于上述的分析，本发明旨在提供一种基于大数据的血液病智能分类系统及方法，用以解决因医生的工作经验导致对患者病情诊断结果准确性不高的问题。

本发明的目的主要是通过以下技术方案实现的：

一种基于大数据的血液病智能分类系统，包括服务器、信息输入装置和显示装置；

所述信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据；

所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块，用于训练血液病病理分类器，并利用训练好的血液病病理分类器对用户输入的待分类的血液病病例电子数据进行分类，得到血液病分类结果；

所述显示装置用于对血液病分类结果进行显示。

所述数据采集模块用于获取诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据，并存储到数据存储模块；

所述数据分割模块用于将电子数据分割为训练集和测试集；

所述特征病理信息提取模块用于提取训练集和测试集中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的血液病分类结果对应；

所述数据预处理模块用于对训练集和测试集中的特征病理信息进行预处理，生成训练用和测试用特征词集合；

所述特征数值生成模块用于为训练用和测试用特征词集合中的特征词生成对应的特征数值，利用计算得到的特征数值对词条进行特征表示；

所述分类器模型训练模块用于训练血液病分类分析模型，得到血液病病理分类器；

所述病例分类模块用于根据待分类信息的特征数值，利用血液病病理分类器得出根据用户输入信息的血液病分类结果。

所述预处理包括分词、噪声词剔除和同义词处理操作，生成训练用和测试用特征词集合。

使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集。

对分词结果进行噪声词剔除处理，包括去除没有实际意义的字或词，以及生僻字和特殊符号，还去除与血液病信息无关的词汇。

噪声词剔除处理通过建立噪声词表的方式进行匹配和剔除。

使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用和测试用特征词集合。

对训练用特征词集合中的特征词进行特征选择。

采用Hash算法为训练用和测试用特征词集合中的每一病理的特征词生成对应的特征数值。

一种基于大数据的血液病智能分类方法，包括以下步骤：

步骤S1、数据采集模块获取诊断为血液病的病例历史电子数据，并存储到数据存储模块；

步骤S2、特征病理信息提取模块提取训练集中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的血液病分类结果对应；

步骤S3、对训练集中的特征病理信息进行预处理，生成训练用特征词集合；

步骤S4、为训练用特征词集合中的特征词生成对应的特征数值，利用计算得到的特征数值对词条进行特征表示；

步骤S5、利用步骤S4生成的特征数值训练血液病分类分析模型，得到血液病病理分类器；

步骤S6、将根据测试集生成的测试用特征数值输入到血液病病理分类器中，分类器模型测试模块将所述测试用特征数值与标准结果进行对比，得到测试结果；

步骤S7、接收用户输入的待分类的血液病病例电子数据；

步骤S8、对用户的输入信息进行特征病理信息提取、预处理和生成特征数值的处理，得到待分类信息的特征词集合和对应的特征数值；

步骤S9、血液病病理分类器根据待分类信息的特征数值，得出根据用户输入信息的血液病分类结果。

本发明有益效果如下：

本发明公开了一种基于大数据的血液病智能分类系统及方法，利用本发明得到的血液病病理分类器对病例进行分类，不依赖医生的主观判断和工作经验，针对相对症状的病人可以给出病症的分类，给医生的诊断提供参考，提高了诊断的准确性和及时性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为基于大数据的血液病智能分类系统；

图2为基于大数据的血液病智能分类方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明实施例提供了一种基于大数据的血液病智能分类系统，如图1所示，包括服务器、信息输入装置和显示装置；

所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块；

所述数据采集模块用于获取用户输入的诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据，并存储到数据存储模块；诊断为血液病的病例历史电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的研究统计文本；

所述数据存储模块用于存储数据采集模块采集的诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据；

所述数据分割模块用于将病例历史电子数据分割为训练集和测试集；

所述特征病理信息提取模块用于提取训练集和测试集中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的血液病分类结果对应；具体提取的特征病理信息包括：病例中血液病的病理名称、病理描述和病理归属分类等；

所述数据预处理模块用于对训练集和测试集中的特征病理信息进行预处理，将提取的特征病理信息解析成词条，其中每一个病例对应多个词条；

进一步地，所述预处理包括分词、噪声词剔除和同义词处理等操作，生成训练用和测试用特征词集合，具体包括以下步骤：

1、使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集，如果文本是中文，则采用中文分词器；如果是英文，则使用空格进行分词，且在英文分词完成后使用词干提取的方式归一化时态和单复数；

具体地，可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System，汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。

2、对分词结果进行噪声词剔除处理，包括去除没有实际意义的字或词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号，还去除与血液病信息无关的词汇。

进一步的，噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除。

3、使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用和测试用特征词集合。

所述分类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，其目的是在相似的基础上收集数据来分类。本发明中的分类分析算法有以下几种：

1、朴素贝叶斯(Naive Bayes,NB)

如果条件独立假设成立的话，NB将比鉴别模型(如Logistic回归)收敛的更快，所以只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现很好。如果想做类似半监督学习，或者是既要模型简单又要性能好，可选用NB。

2、Logistic回归(Logistic Regression,LR)

LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机(SVM)不同，LR有很好的概率解释，且很容易利用新的训练数据来更新模型(使用在线梯度下降法)。如果想要一些概率信息(如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间)，或者希望将来有更多数据时能方便的更新改进模型，可选用LR。

3、决策树(Decision Tree,DT)

DT容易理解与解释，DT是非参数的，所以不需要担心野点(或离群点)和数据是否线性可分的问题(例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围)。DT的主要缺点是容易过拟合，这也正是随机森林(Random Forest,RF)(或者Boosted树)等集成学习算法被提出来的原因。

4、支持向量机(Support Vector Machine,SVM)

SVM具有很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。

所述分类器模型测试模块用于将输入到血液病病理分类器中的根据测试集生成的测试用特征数值与标准结果进行对比，得到测试结果，即三级分类的准确率；

所述病例分类模块用于根据待分类信息的特征数值，利用血液病病理分类器得出根据用户输入信息的血液病分类结果；

所述显示装置用于对血液病分类结果进行显示。

根据本发明的一个优选实施例，提供了一种基于大数据的血液病智能分类方法，流程图如图2所示，包括以下步骤：

步骤S1、数据采集模块获取诊断为血液病的病例历史电子数据，并存储到数据存储模块。

数据分割模块将病例历史电子数据分割为训练集和测试集，训练集占全部病例历史电子数据的比例越高，训练分类的准确度越高，在本实施例中，选取约85％的病例历史电子数据作为训练集，将其余病例历史电子数据作为测试集。

优选的，在提取电子数据中的每个病例对应的血液病特征病理信息之后，检查特征病理信息的一致性，去除不符合要求的问题数据，例如空值、明显有问题的数据、重复数据以及不符合逻辑的数据等。

步骤S3、对训练集中的特征病理信息进行预处理，生成训练用特征词集合。

进一步地，所述预处理包括分词、噪声词剔除和同义词处理等操作，具体包括以下步骤：

使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集，如果文本是中文，则采用中文分词器；如果是英文，则使用空格进行分词，且在英文分词完成后使用词干提取的方式归一化时态和单复数；

对分词结果进行噪声词剔除处理，包括去除没有实际意义的字或词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号，还去除与血液病信息无关的词汇；

使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用特征词集合。

进一步地，对训练用特征词集合中的特征词进行特征选择，如果特征词提取得过多，会造成特征维度过高，不利于分类器训练。

步骤S4、为训练用特征词集合中的特征词生成对应的特征数值，利用计算得到的特征数值对词条进行特征表示。

优选的，采用Hash算法为训练用特征词集合中的每一病理的特征词生成对应的特征数值。

步骤S5、利用步骤S4生成的特征数值训练血液病分类分析模型，得到血液病病理分类器。

本发明中使用的分类分析模型，可以采用朴素贝叶斯(Naive Bayes,NB)分类模型、Logistic回归(Logistic Regression,LR)模型、决策树(Decision Tree,DT)模型、支持向量机(Support Vector Machine,SVM)等。本实施例将血液病进行三级分类，根据实验结果，优选支持向量机(SVM)算法进行血液病的智能分类。

步骤S6、将根据测试集生成的测试用特征数值输入到血液病病理分类器中，分类器模型测试模块将所述测试用特征数值与标准结果进行对比，得到测试结果，即三级分类的准确率；

具体地，采用步骤S2～S4所述的方法生成测试用特征数值；

如果测试结果与预期偏差太大，则需要考虑是数据源出了问题还是特征选取或是算法出了问题，更改分类分析算法或更改特征选取的数量，以对血液病分类分析模型进行调整，重新获得新的血液病分类分析模型，再进行血液病病理分类器测试，并不断调整血液病分类分析模型，直到实验结果达标；

本实施例的测试结果满足我们的预期，分类的准确率达到93％，将血液病病理分类器进行封装，以供用户使用，并定期维护和升级。

步骤S7、接收用户输入的待分类的血液病病例电子数据。

步骤S8、对用户的输入信息进行特征病理信息提取、预处理和生成特征数值的处理，处理方法同步骤S2～S4，得到待分类信息的特征词集合和对应的特征数值。

综上所述，本发明实施例提供了一种基于大数据的血液病智能分类系统及方法，使用人工智能的系统和方法对病例数据进行机器学习，而后对新的病例进行智能分类。利用本发明得到的血液病病理分类器对病例进行分类不依赖医生的主观判断和工作经验，针对相对症状的病人可以给出病症的分类，给医生的诊断提供参考，提高了诊断的准确性和及时性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于大数据的血液病智能分类系统，其特征在于，包括服务器、信息输入装置和显示装置；

所述显示装置用于对血液病分类结果进行显示。

2.根据权利要求1所述的系统，其特征在于，所述数据采集模块用于获取诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据，并存储到数据存储模块；

所述数据分割模块用于将电子数据分割为训练集和测试集；

3.根据权利要求1所述的系统，其特征在于，所述预处理包括分词、噪声词剔除和同义词处理操作，生成训练用和测试用特征词集合。

4.根据权利要求3所述的系统，其特征在于，使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集。

5.根据权利要求3或4所述的系统，其特征在于，对分词结果进行噪声词剔除处理，包括去除没有实际意义的字或词，以及生僻字和特殊符号，还去除与血液病信息无关的词汇。

6.根据权利要求5所述的系统，其特征在于，噪声词剔除处理通过建立噪声词表的方式进行匹配和剔除。

7.根据权利要求5所述的系统，其特征在于，使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用和测试用特征词集合。

8.根据权利要求7所述的系统，其特征在于，对训练用特征词集合中的特征词进行特征选择。

9.根据权利要求1所述的系统，其特征在于，采用Hash算法为训练用和测试用特征词集合中的每一病理的特征词生成对应的特征数值。

10.一种基于大数据的血液病智能分类方法，其特征在于，包括以下步骤：

步骤S7、接收用户输入的待分类的血液病病例电子数据；