CN106778046A

CN106778046A - 一种基于特征值进行前列腺癌复发预测的系统和方法

Info

Publication number: CN106778046A
Application number: CN201710113827.7A
Authority: CN
Inventors: 荣小辉; 张洋; 高彦回; 刘为
Original assignee: Si Ji (beijing) Network Technology Co Ltd
Current assignee: Si Ji (beijing) Network Technology Co Ltd
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-05-31

Abstract

本发明涉及一种前列腺癌复发预测的系统和方法，包括医生工作站和服务器，医生工作站用于接收输入信息和显示预测结果；服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器。信息获取模块获取训练集合；预处理模块提取特征信息，对特征信息进行预处理，生成特征词集合，并为特征词生成特征值；模型训练模块训练聚类分析模型，得到前列腺癌复发预测器；信息接收模块接收用户输入信息，并将信息传输到预处理模块；经过训练的前列腺癌复发预测器根据用户输入信息的特征值，得到前列腺癌复发的预测结果。本方法解决了现有方法耗费人力、且依赖医生主观判断，缺乏统一标准，容易造成误诊的问题。

Description

一种基于特征值进行前列腺癌复发预测的系统和方法

技术领域

本发明涉及疾病预测的技术领域，尤其涉及一种基于特征值进行前列腺癌复发预测的系统和方法。

背景技术

目前，正处于大数据时代，各行各业都有大规模的数据量，现有技术中的简单规则处理难以发挥这些数据的价值。硬件的高速发展给大数据的分析和应用提供了条件。高性能计算使得基于大规模数据的数据学习时间和数据处理代价大大降低了；大规模数据存储，使得能够更快、代价更小地处理大规模数据。由于硬件和算法的发展，使得在使用机器学习解决数据分析的问题后，能获得更加丰厚收益。

现有的机器学习技术主要运用到新闻、电子商务等互联网领域，在传统领域，尤其是医学领域的应用十分匮乏。因此，本发明提供一种将机器学习方法运用到医学领域中，进行前列腺癌复发的预测，以弥补现有技术中，前列腺癌复发的预测主要依赖医生的主观判断，判断的准确性取决于医生的主观经验，不同的医生对患者病情的判断结果可能回不一致，这容易导致误诊，甚至可能会延误患者病情的问题。

发明内容

鉴于上述的分析，本发明旨在提供一种基于特征值进行前列腺癌复发预测的系统和方法，用以解决现有方法耗费人力、且依赖医生主观判断，缺乏统一标准，容易造成误诊的问题。

本发明的目的主要是通过以下技术方案实现的：

提供一种基于特征值进行前列腺癌复发预测的系统，包括医生工作站和服务器。

医生工作站用于接收输入信息和显示预测结果。

服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器。

信息获取模块，用于获取前列腺癌病例的电子数据，从中获得训练集合；

预处理模块，用于提取训练集合中的每个病例的特征信息，对提取的特征信息进行预处理，生成训练用特征词集合，并为集合中的特征词生成对应的特征值，将特征值输入到模型训练模块；预处理模块还用于对用户输入信息进行特征信息提取、预处理和生成特征值的处理，并将该特征值输入到经过训练的前列腺癌复发预测器。

模型训练模块，用于利用特征值训练聚类分析模型，得到前列腺癌复发预测器；

信息接收模块，用于接收用户通过医生工作站输入的信息，并将接收的信息传输到预处理模块；

经过训练的前列腺癌复发预测器根据预处理模块处理用户输入信息得到的特征值，得到前列腺癌复发的预测结果，并输出到医生工作站。

其中，

预处理模块中提取的特征信息包括：前列腺癌的术前psa，术前fpsa，肿瘤级别、淋巴转移、骨转移、评分、是否生化复发。

预处理模块中的预处理包括：对提取的特征信息进行分词；对噪声词进行剔除处理。

进一步的，在分词和噪声词剔除处理之后，还包括对特征词集合中的同义词进行替换。

进一步的，预处理模块还包括对训练用特征词集合中的特征词进行特征选择的过程。

优选的，预处理模块采用Hash算法为特征词生成对应的特征值，或者基于预先建立赋值表给特征词生成对应的特征值。

优选的，系统中的聚类分析模型基于K-means算法。

进一步的，服务器还包括测试模块，用于对经过训练的前列腺癌复发预测器进行测试。在前列腺癌复发预测器的测试结果不理想的情况下，更改聚类分析算法或更改特征选择的数量，以对前列腺癌复发预测器进行调整；基于重新获得的前列腺癌复发预测器，再进行测试；通过不断调整前列腺癌复发预测器，不断重新测试，直到测试结果达标。

本发明还提供一种基于特征值进行前列腺癌复发预测的方法，包括以下步骤：

步骤S1.获取前列腺癌病例的电子数据，从电子数据获得用于预测前列腺癌复发用的训练集合；

步骤S2.提取训练集合中的每个病例的特征信息；

步骤S3.对提取的特征信息进行预处理，生成训练用特征词集合；

步骤S4.为训练用特征词集合中的特征词生成对应的特征值；

步骤S5.利用上一步生成的特征值，训练聚类分析模型，得到前列腺癌复发预测器；

步骤S6.接收用户输入的、对前列腺癌的描述信息；

步骤S7.对用户的输入信息进行特征信息提取、预处理和生成特征值的处理，处理方法同步骤S2～S4，得到待预测信息的特征值；

步骤S8.前列腺癌复发预测器根据待预测信息的特征值，得到前列腺癌复发的预测结果。

本发明有益效果如下：

通过构建前列腺癌复发预测器，节约人工对数据进行分析的成本，直接通过计算机程序进行前列腺癌复发预测，得到相应的预测结果；在应对海量数据的情况下，采用本发明能大幅降低人工成本，提高标准化程度，减少医生主观意见对预测结果的影响，以此预测结果给医生的诊断提供参考，更加有利于疾病诊断的准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为前列腺癌复发预测系统的示意图；

图2为前列腺癌复发预测方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个具体实施例，公开了一种基于特征值进行前列腺癌复发预测的系统，如图1所示，包括医生工作站和服务器。

医生工作站用于接收输入信息和显示预测结果；

信息获取模块，用于获取前列腺癌病例的电子数据，从电子数据获得用于预测前列腺癌复发用的训练集合，并存储到存储单元。所述电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的统计文本。

具体地，从电子数据获得训练集合具体是：将电子数据划分为训练集合和测试集合。测试集合用于在得到前列腺癌复发预测器后，进行预测器准确性的测试实验。

其中，具体提取的特征信息包括：病例中前列腺癌的术前psa(Prostate-SpecificAntigen，前腺癌的特异性标志物)，术前fpsa，肿瘤级别、淋巴转移、骨转移、评分、是否生化复发等内容的特征信息。

优选的，在提取电子数据中的每个病例对应的前列腺癌信息之后，还去除不符合要求的问题数据，例如空值、明显有问题的数据、不符合逻辑的数据等。

预处理模块中，对特征信息进行的预处理是将提取的特征信息解析成词条，其中每一个病例对应多个词条。上述词条可以是词汇、短语、句子、数值和数值范围。

优选的，预处理具体包括分词、噪声词剔除、同义词处理等操作，具体为：

1.使用分词工具对提取的特征信息中的信息进行分词，获得文本词集。如果文本是中文，则采用中文分词器；如果是英文，则使用空格进行分词，且在英文分词完成后使用词干提取的方式归一化时态和单复数。

2.对分词结果进行噪声词剔除处理，具体包括去除没有实际意义的字或词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号，并去除与要提取的信息无关的词汇。优选的，噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除。

3.使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用特征词集合。

在经过预处理后，进一步包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多，会造成特征维度过高，不利于训练的问题。

预处理模块中，可以采用Hash算法为训练用特征词集合中的特征词生成对应的特征值；也可以基于预先建立赋值表给特征词生成对应的特征值。

模型训练模块，用于利用特征值，训练聚类分析模型，得到前列腺癌复发预测器。

所述聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，其目的是在相似的基础上收集数据来分类。本发明中使用的聚类分析模型，可以采用以下几种算法：

1.K-means算法

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般采用均方差作为标准测度函数。K-means算法具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

2.K-pototypes算法

K-pototypes算法结合了K-means方法和根据K-means方法改进的能处理符号属性的K-modes方法，同K-means方法比，K-pototypes算法能够处理符号属性。

3.Fuzzy算法

首先建立Fuzzy相似矩阵，然后求出Fuzzy等价阵，根据模糊等价阵进行聚类。具体采用传递闭包法、动态直接聚类法或FCMBP方法进行聚类。

4.CLARANS算法

CLARANS算法即随机搜索聚类算法，是一种分割聚类办法。它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Max neighbor个的一些邻接点，假如找到一个比它更好的邻接点，则把它移入该邻接点，否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量，直到找到的局部最小量书目达到用户要求为止。

5.BIRCH算法

BIRCH算法是一种层次方法，核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径以及类内、类间距离的运算。

6.CURE算法

CURE算法也是一种层次方法，是一种使用代表点的聚类方法。该算法先把每个数据点看成一类，然后合并距离最近的类直到类个数为所要求的个数为止。CURE算法将传统对类的表示方法进行了改进，回避了用所有点或用中心和半径来表示一个类，而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点，并将这些点乘以一个适当的收缩因子，使它们更靠近类的中心点。将一个类用代表点表示，使类的外延可以向非球形的形状扩展将其表达。

7.DBSCAN算法

DBSCAN算法是一种基于密度的方法，利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

本实施例对前列腺癌复发进行预测，根据预测测试结果，优选采用K-means算法进行前列腺癌复发的预测。

进一步的，前列腺癌复发预测的系统还包括测试模块，用于对经过训练的前列腺癌复发预测器进行测试。具体利用预处理模块中处理训练集合的方法来处理测试集合，将根据测试集合生成的测试用特征数值输入到前列腺癌复发预测器，并与标准结果进行对比，得到测试结果。

进一步的的，在前列腺癌复发预测器的测试结果不理想的情况下，更改聚类分析算法或更改特征选择的数量，以对前列腺癌复发预测器进行调整。基于重新获得新的前列腺癌复发预测器，再进行前列腺癌复发预测器的测试实验。通过不断调整前列腺癌复发预测器，不断重新测试，直到测试结果达标。

信息接收模块，用于接收用户通过医生工作站输入的信息，并将接收的信息传输到预处理模块。输入的信息可以是多个句子、短语、词条、数值或者句子、短语、词条、数值的组合；其中句子、短语和词条可以通过分号隔开。

预处理模块对用户的输入信息进行特征信息提取、预处理和生成特征值的处理，处理方法同上述预处理模块中的处理步骤，得到用户输入信息的特征值。

经过训练的前列腺癌复发预测器，根据用户输入信息的特征值，得到前列腺癌复发的预测结果，并输出到医生工作站。

将信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器、测试模块进行封装，存储在服务器中，以供用户通过医生工作站调用。

本发明的另一个具体实施例，公开了一种基于特征值进行前列腺癌复发预测的方法，如图2所示，具体包括以下步骤：

步骤S1.获取前列腺癌病例的电子数据，从电子数据获得用于预测前列腺癌复发用的训练集合，并存储到存储单元。所述电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的统计文本。

步骤S2.提取训练集合中的每个病例的特征信息。

具体提取的特征信息包括：病例中前列腺癌的术前psa(Prostate-SpecificAntigen，前腺癌的特异性标志物)，术前fpsa，肿瘤级别、淋巴转移、骨转移、评分、是否生化复发等内容的特征信息。

优选的，在提取电子数据中的每个病例对应的前列腺癌信息之后，去除不符合要求的问题数据，例如空值、明显有问题的数据、不符合逻辑的数据等。

步骤S3.对提取的特征信息进行预处理，生成训练用特征词集合。

所述预处理是将提取的特征信息解析成词条，其中每一个病例对应多个词条。上述词条可以是词汇、短语、句子、数值和数值范围。

优选的，预处理具体包括分词、噪声词剔除、同义词处理等操作，得到训练用特征词集合，具体包括：

具体地，可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System，汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。

优选的，在经过预处理后，进一步包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多，会造成特征维度过高，不利于分类器训练的问题。

步骤S4.为训练用特征词集合中的特征词生成对应的特征值，利用特征值来进行特征表示。

优选的，可以采用Hash算法为训练用特征词集合中的特征词生成对应的特征值；也可以基于预先建立赋值表给特征词生成对应的特征值。

步骤S5.利用上一步生成的特征值，训练聚类分析模型，得到前列腺癌复发预测器。

本发明中使用的聚类分析模型，可以基于K-means算法、K-pototypes算法、Fuzzy算法、CLARANS算法、BIRCH算法、CURE算法、DBSCAN算法。

上述对前列腺癌复发预测器的测试，是指采用步骤S2～S4所述的方法处理测试集合，将根据测试集合生成的测试用特征值输入到前列腺癌复发预测器，并与标准结果进行对比，得到测试结果。

优选的，在前列腺癌复发预测器的测试结果不理想的情况下，更改聚类分析算法或更改特征选择的数量，以对前列腺癌复发预测器进行调整。基于重新获得新的前列腺癌复发预测器，再进行前列腺癌复发预测器的测试实验。通过不断调整前列腺癌复发预测器，不断重新测试，直到测试结果达标。

步骤S6.接收用户输入的、对前列腺癌的描述信息。该输入的描述信息可以是多个句子、短语、词条、数值或者句子、短语、词条、数值的组合；其中句子、短语和词条可以通过分号隔开。

步骤S7.对用户的输入信息进行特征信息提取、预处理和生成特征值的处理，处理方法同步骤S2～S4，得到待预测信息的特征词集合和对应的特征值。

步骤S8.前列腺癌复发预测器根据特征值得到前列腺癌复发的预测结果。

本实施例中，将步骤S1中获取的电子数据划分为训练集和测试集。在训练聚类分析模型，得到前列腺癌复发预测器之后(步骤S5)，将测试集进行特征提取、特征选取等操作后，输入到训练过后的模型中，得到预测的准确率。本实施例的测试结果满足我们的预期。如果测试结果与预期偏差太大，则需要考虑是不是数据源出了问题，特征选取的问题、还是算法问题，此时需要对应进行修改。

综上所述，本发明实施例提供了一种前列腺癌复发预测的系统和方法，通过构建前列腺癌复发预测器的方法，能节约人工对数据进行分析的成本，直接通过计算机程序进行前列腺癌复发预测，得到相应的预测结果，不再需要大量人工去汇总分析。在应对海量数据的情况下，采用本发明能大幅降低人工成本，提高标准化程度，减少医生主观意见对预测结果的影响。在输入信息一致的情况下，预测结果不会因人而异，以此预测结果给医生的诊断提供参考，这样更加有利于疾病诊断的准确性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于特征值进行前列腺癌复发预测的系统，其特征在于，包括医生工作站和服务器，

医生工作站用于接收输入信息和显示预测结果；

服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器；

信息获取模块获取前列腺癌病例的电子数据，从中获得训练集合；

预处理模块提取训练集合中的每个病例的特征信息，对提取的特征信息进行预处理，生成训练用特征词集合，并为集合中的特征词生成对应的特征值，将特征值输入到模型训练模块；预处理模块还用于对用户输入信息进行特征信息提取、预处理和生成特征值的处理，并将该特征值输入到经过训练的前列腺癌复发预测器；

模型训练模块利用特征值，训练聚类分析模型，得到前列腺癌复发预测器；

信息接收模块接收用户通过医生工作站输入的信息，并将接收的信息传输到预处理模块；

2.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，所述预处理模块中提取的特征信息包括：前列腺癌的术前psa，术前fpsa，肿瘤级别、淋巴转移、骨转移、评分、是否生化复发。

3.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，所述预处理模块中的预处理包括：对提取的特征信息进行分词；对噪声词进行剔除处理。

4.根据权利要求3所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，在分词和噪声词剔除处理之后，还包括对特征词集合中的同义词进行替换。

5.根据权利要求1或3或4所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，预处理模块还包括对训练用特征词集合中的特征词进行特征选择。

6.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，所述预处理模块采用Hash算法为特征词生成对应的特征值，或者基于预先建立赋值表给特征词生成对应的特征值。

7.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，所述聚类分析模型基于K-means算法。

8.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统，其特征在于，所述服务器还包括测试模块，用于对经过训练的前列腺癌复发预测器进行测试。

9.根据权利要求8所述的基于特征值进行前列腺癌复发预测的方法，其特征在于，在前列腺癌复发预测器的测试结果不理想的情况下，更改聚类分析算法或更改特征选择的数量，以对前列腺癌复发预测器进行调整；基于重新获得的前列腺癌复发预测器，再进行测试；通过不断调整前列腺癌复发预测器，不断重新测试，直到测试结果达标。

10.一种基于特征值进行前列腺癌复发预测的方法，其特征在于，包括以下步骤：

步骤S2.提取训练集合中的每个病例的特征信息；

步骤S4.为训练用特征词集合中的特征词生成对应的特征值；

步骤S6.接收用户输入的、对前列腺癌的描述信息；