CN106778046A - 一种基于特征值进行前列腺癌复发预测的系统和方法 - Google Patents
一种基于特征值进行前列腺癌复发预测的系统和方法 Download PDFInfo
- Publication number
- CN106778046A CN106778046A CN201710113827.7A CN201710113827A CN106778046A CN 106778046 A CN106778046 A CN 106778046A CN 201710113827 A CN201710113827 A CN 201710113827A CN 106778046 A CN106778046 A CN 106778046A
- Authority
- CN
- China
- Prior art keywords
- prostate cancer
- information
- cancer recurrence
- characteristic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010060862 Prostate cancer Diseases 0.000 title claims abstract description 108
- 208000000236 Prostatic Neoplasms Diseases 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 41
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000007621 cluster analysis Methods 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 208000007433 Lymphatic Metastasis Diseases 0.000 claims description 4
- 206010027476 Metastases Diseases 0.000 claims description 4
- 206010028980 Neoplasm Diseases 0.000 claims description 4
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 230000009401 metastasis Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000012546 transfer Methods 0.000 abstract description 2
- 230000008030 elimination Effects 0.000 description 7
- 235000018185 Betula X alpestris Nutrition 0.000 description 4
- 235000018212 Betula X uliginosa Nutrition 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种前列腺癌复发预测的系统和方法,包括医生工作站和服务器,医生工作站用于接收输入信息和显示预测结果;服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器。信息获取模块获取训练集合;预处理模块提取特征信息,对特征信息进行预处理,生成特征词集合,并为特征词生成特征值;模型训练模块训练聚类分析模型,得到前列腺癌复发预测器;信息接收模块接收用户输入信息,并将信息传输到预处理模块;经过训练的前列腺癌复发预测器根据用户输入信息的特征值,得到前列腺癌复发的预测结果。本方法解决了现有方法耗费人力、且依赖医生主观判断,缺乏统一标准,容易造成误诊的问题。
Description
技术领域
本发明涉及疾病预测的技术领域,尤其涉及一种基于特征值进行前列腺癌复发预测的系统和方法。
背景技术
目前,正处于大数据时代,各行各业都有大规模的数据量,现有技术中的简单规则处理难以发挥这些数据的价值。硬件的高速发展给大数据的分析和应用提供了条件。高性能计算使得基于大规模数据的数据学习时间和数据处理代价大大降低了;大规模数据存储,使得能够更快、代价更小地处理大规模数据。由于硬件和算法的发展,使得在使用机器学习解决数据分析的问题后,能获得更加丰厚收益。
现有的机器学习技术主要运用到新闻、电子商务等互联网领域,在传统领域,尤其是医学领域的应用十分匮乏。因此,本发明提供一种将机器学习方法运用到医学领域中,进行前列腺癌复发的预测,以弥补现有技术中,前列腺癌复发的预测主要依赖医生的主观判断,判断的准确性取决于医生的主观经验,不同的医生对患者病情的判断结果可能回不一致,这容易导致误诊,甚至可能会延误患者病情的问题。
发明内容
鉴于上述的分析,本发明旨在提供一种基于特征值进行前列腺癌复发预测的系统和方法,用以解决现有方法耗费人力、且依赖医生主观判断,缺乏统一标准,容易造成误诊的问题。
本发明的目的主要是通过以下技术方案实现的:
提供一种基于特征值进行前列腺癌复发预测的系统,包括医生工作站和服务器。
医生工作站用于接收输入信息和显示预测结果。
服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器。
信息获取模块,用于获取前列腺癌病例的电子数据,从中获得训练集合;
预处理模块,用于提取训练集合中的每个病例的特征信息,对提取的特征信息进行预处理,生成训练用特征词集合,并为集合中的特征词生成对应的特征值,将特征值输入到模型训练模块;预处理模块还用于对用户输入信息进行特征信息提取、预处理和生成特征值的处理,并将该特征值输入到经过训练的前列腺癌复发预测器。
模型训练模块,用于利用特征值训练聚类分析模型,得到前列腺癌复发预测器;
信息接收模块,用于接收用户通过医生工作站输入的信息,并将接收的信息传输到预处理模块;
经过训练的前列腺癌复发预测器根据预处理模块处理用户输入信息得到的特征值,得到前列腺癌复发的预测结果,并输出到医生工作站。
其中,
预处理模块中提取的特征信息包括:前列腺癌的术前psa,术前fpsa,肿瘤级别、淋巴转移、骨转移、评分、是否生化复发。
预处理模块中的预处理包括:对提取的特征信息进行分词;对噪声词进行剔除处理。
进一步的,在分词和噪声词剔除处理之后,还包括对特征词集合中的同义词进行替换。
进一步的,预处理模块还包括对训练用特征词集合中的特征词进行特征选择的过程。
优选的,预处理模块采用Hash算法为特征词生成对应的特征值,或者基于预先建立赋值表给特征词生成对应的特征值。
优选的,系统中的聚类分析模型基于K-means算法。
进一步的,服务器还包括测试模块,用于对经过训练的前列腺癌复发预测器进行测试。在前列腺癌复发预测器的测试结果不理想的情况下,更改聚类分析算法或更改特征选择的数量,以对前列腺癌复发预测器进行调整;基于重新获得的前列腺癌复发预测器,再进行测试;通过不断调整前列腺癌复发预测器,不断重新测试,直到测试结果达标。
本发明还提供一种基于特征值进行前列腺癌复发预测的方法,包括以下步骤:
步骤S1.获取前列腺癌病例的电子数据,从电子数据获得用于预测前列腺癌复发用的训练集合;
步骤S2.提取训练集合中的每个病例的特征信息;
步骤S3.对提取的特征信息进行预处理,生成训练用特征词集合;
步骤S4.为训练用特征词集合中的特征词生成对应的特征值;
步骤S5.利用上一步生成的特征值,训练聚类分析模型,得到前列腺癌复发预测器;
步骤S6.接收用户输入的、对前列腺癌的描述信息;
步骤S7.对用户的输入信息进行特征信息提取、预处理和生成特征值的处理,处理方法同步骤S2~S4,得到待预测信息的特征值;
步骤S8.前列腺癌复发预测器根据待预测信息的特征值,得到前列腺癌复发的预测结果。
本发明有益效果如下:
通过构建前列腺癌复发预测器,节约人工对数据进行分析的成本,直接通过计算机程序进行前列腺癌复发预测,得到相应的预测结果;在应对海量数据的情况下,采用本发明能大幅降低人工成本,提高标准化程度,减少医生主观意见对预测结果的影响,以此预测结果给医生的诊断提供参考,更加有利于疾病诊断的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为前列腺癌复发预测系统的示意图;
图2为前列腺癌复发预测方法的流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个具体实施例,公开了一种基于特征值进行前列腺癌复发预测的系统,如图1所示,包括医生工作站和服务器。
医生工作站用于接收输入信息和显示预测结果;
服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器。
信息获取模块,用于获取前列腺癌病例的电子数据,从电子数据获得用于预测前列腺癌复发用的训练集合,并存储到存储单元。所述电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的统计文本。
具体地,从电子数据获得训练集合具体是:将电子数据划分为训练集合和测试集合。测试集合用于在得到前列腺癌复发预测器后,进行预测器准确性的测试实验。
预处理模块,用于提取训练集合中的每个病例的特征信息,对提取的特征信息进行预处理,生成训练用特征词集合,并为集合中的特征词生成对应的特征值,将特征值输入到模型训练模块;预处理模块还用于对用户输入信息进行特征信息提取、预处理和生成特征值的处理,并将该特征值输入到经过训练的前列腺癌复发预测器。
其中,具体提取的特征信息包括:病例中前列腺癌的术前psa(Prostate-SpecificAntigen,前腺癌的特异性标志物),术前fpsa,肿瘤级别、淋巴转移、骨转移、评分、是否生化复发等内容的特征信息。
优选的,在提取电子数据中的每个病例对应的前列腺癌信息之后,还去除不符合要求的问题数据,例如空值、明显有问题的数据、不符合逻辑的数据等。
预处理模块中,对特征信息进行的预处理是将提取的特征信息解析成词条,其中每一个病例对应多个词条。上述词条可以是词汇、短语、句子、数值和数值范围。
优选的,预处理具体包括分词、噪声词剔除、同义词处理等操作,具体为:
1.使用分词工具对提取的特征信息中的信息进行分词,获得文本词集。如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数。
2.对分词结果进行噪声词剔除处理,具体包括去除没有实际意义的字或词,如“的、了、不但、而且、虽然、但是”等,以及一些生僻字和特殊符号,并去除与要提取的信息无关的词汇。优选的,噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除。
3.使用预先建立的同义词表对特征词集合中的同义词进行替换,使得所有同义词均用一个词来表示,得到训练用特征词集合。
在经过预处理后,进一步包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多,会造成特征维度过高,不利于训练的问题。
预处理模块中,可以采用Hash算法为训练用特征词集合中的特征词生成对应的特征值;也可以基于预先建立赋值表给特征词生成对应的特征值。
模型训练模块,用于利用特征值,训练聚类分析模型,得到前列腺癌复发预测器。
所述聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其目的是在相似的基础上收集数据来分类。本发明中使用的聚类分析模型,可以采用以下几种算法:
1.K-means算法
首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般采用均方差作为标准测度函数。K-means算法具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
2.K-pototypes算法
K-pototypes算法结合了K-means方法和根据K-means方法改进的能处理符号属性的K-modes方法,同K-means方法比,K-pototypes算法能够处理符号属性。
3.Fuzzy算法
首先建立Fuzzy相似矩阵,然后求出Fuzzy等价阵,根据模糊等价阵进行聚类。具体采用传递闭包法、动态直接聚类法或FCMBP方法进行聚类。
4.CLARANS算法
CLARANS算法即随机搜索聚类算法,是一种分割聚类办法。它首先随机选择一个点作为当前点,然后随机检查它周围不超过参数Max neighbor个的一些邻接点,假如找到一个比它更好的邻接点,则把它移入该邻接点,否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量,直到找到的局部最小量书目达到用户要求为止。
5.BIRCH算法
BIRCH算法是一种层次方法,核心是用一个聚类特征3元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征,而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径以及类内、类间距离的运算。
6.CURE算法
CURE算法也是一种层次方法,是一种使用代表点的聚类方法。该算法先把每个数据点看成一类,然后合并距离最近的类直到类个数为所要求的个数为止。CURE算法将传统对类的表示方法进行了改进,回避了用所有点或用中心和半径来表示一个类,而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点,并将这些点乘以一个适当的收缩因子,使它们更靠近类的中心点。将一个类用代表点表示,使类的外延可以向非球形的形状扩展将其表达。
7.DBSCAN算法
DBSCAN算法是一种基于密度的方法,利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目。
本实施例对前列腺癌复发进行预测,根据预测测试结果,优选采用K-means算法进行前列腺癌复发的预测。
进一步的,前列腺癌复发预测的系统还包括测试模块,用于对经过训练的前列腺癌复发预测器进行测试。具体利用预处理模块中处理训练集合的方法来处理测试集合,将根据测试集合生成的测试用特征数值输入到前列腺癌复发预测器,并与标准结果进行对比,得到测试结果。
进一步的的,在前列腺癌复发预测器的测试结果不理想的情况下,更改聚类分析算法或更改特征选择的数量,以对前列腺癌复发预测器进行调整。基于重新获得新的前列腺癌复发预测器,再进行前列腺癌复发预测器的测试实验。通过不断调整前列腺癌复发预测器,不断重新测试,直到测试结果达标。
信息接收模块,用于接收用户通过医生工作站输入的信息,并将接收的信息传输到预处理模块。输入的信息可以是多个句子、短语、词条、数值或者句子、短语、词条、数值的组合;其中句子、短语和词条可以通过分号隔开。
预处理模块对用户的输入信息进行特征信息提取、预处理和生成特征值的处理,处理方法同上述预处理模块中的处理步骤,得到用户输入信息的特征值。
经过训练的前列腺癌复发预测器,根据用户输入信息的特征值,得到前列腺癌复发的预测结果,并输出到医生工作站。
将信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器、测试模块进行封装,存储在服务器中,以供用户通过医生工作站调用。
本发明的另一个具体实施例,公开了一种基于特征值进行前列腺癌复发预测的方法,如图2所示,具体包括以下步骤:
步骤S1.获取前列腺癌病例的电子数据,从电子数据获得用于预测前列腺癌复发用的训练集合,并存储到存储单元。所述电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的统计文本。
具体地,从电子数据获得训练集合具体是:将电子数据划分为训练集合和测试集合。测试集合用于在得到前列腺癌复发预测器后,进行预测器准确性的测试实验。
步骤S2.提取训练集合中的每个病例的特征信息。
具体提取的特征信息包括:病例中前列腺癌的术前psa(Prostate-SpecificAntigen,前腺癌的特异性标志物),术前fpsa,肿瘤级别、淋巴转移、骨转移、评分、是否生化复发等内容的特征信息。
优选的,在提取电子数据中的每个病例对应的前列腺癌信息之后,去除不符合要求的问题数据,例如空值、明显有问题的数据、不符合逻辑的数据等。
步骤S3.对提取的特征信息进行预处理,生成训练用特征词集合。
所述预处理是将提取的特征信息解析成词条,其中每一个病例对应多个词条。上述词条可以是词汇、短语、句子、数值和数值范围。
优选的,预处理具体包括分词、噪声词剔除、同义词处理等操作,得到训练用特征词集合,具体包括:
1.使用分词工具对提取的特征信息中的信息进行分词,获得文本词集。如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数。
具体地,可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System,汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。
2.对分词结果进行噪声词剔除处理,具体包括去除没有实际意义的字或词,如“的、了、不但、而且、虽然、但是”等,以及一些生僻字和特殊符号,并去除与要提取的信息无关的词汇。优选的,噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除。
3.使用预先建立的同义词表对特征词集合中的同义词进行替换,使得所有同义词均用一个词来表示,得到训练用特征词集合。
优选的,在经过预处理后,进一步包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多,会造成特征维度过高,不利于分类器训练的问题。
步骤S4.为训练用特征词集合中的特征词生成对应的特征值,利用特征值来进行特征表示。
优选的,可以采用Hash算法为训练用特征词集合中的特征词生成对应的特征值;也可以基于预先建立赋值表给特征词生成对应的特征值。
步骤S5.利用上一步生成的特征值,训练聚类分析模型,得到前列腺癌复发预测器。
本发明中使用的聚类分析模型,可以基于K-means算法、K-pototypes算法、Fuzzy算法、CLARANS算法、BIRCH算法、CURE算法、DBSCAN算法。
本实施例对前列腺癌复发进行预测,根据预测测试结果,优选采用K-means算法进行前列腺癌复发的预测。
上述对前列腺癌复发预测器的测试,是指采用步骤S2~S4所述的方法处理测试集合,将根据测试集合生成的测试用特征值输入到前列腺癌复发预测器,并与标准结果进行对比,得到测试结果。
优选的,在前列腺癌复发预测器的测试结果不理想的情况下,更改聚类分析算法或更改特征选择的数量,以对前列腺癌复发预测器进行调整。基于重新获得新的前列腺癌复发预测器,再进行前列腺癌复发预测器的测试实验。通过不断调整前列腺癌复发预测器,不断重新测试,直到测试结果达标。
步骤S6.接收用户输入的、对前列腺癌的描述信息。该输入的描述信息可以是多个句子、短语、词条、数值或者句子、短语、词条、数值的组合;其中句子、短语和词条可以通过分号隔开。
步骤S7.对用户的输入信息进行特征信息提取、预处理和生成特征值的处理,处理方法同步骤S2~S4,得到待预测信息的特征词集合和对应的特征值。
步骤S8.前列腺癌复发预测器根据特征值得到前列腺癌复发的预测结果。
本实施例中,将步骤S1中获取的电子数据划分为训练集和测试集。在训练聚类分析模型,得到前列腺癌复发预测器之后(步骤S5),将测试集进行特征提取、特征选取等操作后,输入到训练过后的模型中,得到预测的准确率。本实施例的测试结果满足我们的预期。如果测试结果与预期偏差太大,则需要考虑是不是数据源出了问题,特征选取的问题、还是算法问题,此时需要对应进行修改。
综上所述,本发明实施例提供了一种前列腺癌复发预测的系统和方法,通过构建前列腺癌复发预测器的方法,能节约人工对数据进行分析的成本,直接通过计算机程序进行前列腺癌复发预测,得到相应的预测结果,不再需要大量人工去汇总分析。在应对海量数据的情况下,采用本发明能大幅降低人工成本,提高标准化程度,减少医生主观意见对预测结果的影响。在输入信息一致的情况下,预测结果不会因人而异,以此预测结果给医生的诊断提供参考,这样更加有利于疾病诊断的准确性。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于特征值进行前列腺癌复发预测的系统,其特征在于,包括医生工作站和服务器,
医生工作站用于接收输入信息和显示预测结果;
服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、前列腺癌复发预测器;
信息获取模块获取前列腺癌病例的电子数据,从中获得训练集合;
预处理模块提取训练集合中的每个病例的特征信息,对提取的特征信息进行预处理,生成训练用特征词集合,并为集合中的特征词生成对应的特征值,将特征值输入到模型训练模块;预处理模块还用于对用户输入信息进行特征信息提取、预处理和生成特征值的处理,并将该特征值输入到经过训练的前列腺癌复发预测器;
模型训练模块利用特征值,训练聚类分析模型,得到前列腺癌复发预测器;
信息接收模块接收用户通过医生工作站输入的信息,并将接收的信息传输到预处理模块;
经过训练的前列腺癌复发预测器根据预处理模块处理用户输入信息得到的特征值,得到前列腺癌复发的预测结果,并输出到医生工作站。
2.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,所述预处理模块中提取的特征信息包括:前列腺癌的术前psa,术前fpsa,肿瘤级别、淋巴转移、骨转移、评分、是否生化复发。
3.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,所述预处理模块中的预处理包括:对提取的特征信息进行分词;对噪声词进行剔除处理。
4.根据权利要求3所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,在分词和噪声词剔除处理之后,还包括对特征词集合中的同义词进行替换。
5.根据权利要求1或3或4所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,预处理模块还包括对训练用特征词集合中的特征词进行特征选择。
6.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,所述预处理模块采用Hash算法为特征词生成对应的特征值,或者基于预先建立赋值表给特征词生成对应的特征值。
7.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,所述聚类分析模型基于K-means算法。
8.根据权利要求1所述的基于特征值进行前列腺癌复发预测的系统,其特征在于,所述服务器还包括测试模块,用于对经过训练的前列腺癌复发预测器进行测试。
9.根据权利要求8所述的基于特征值进行前列腺癌复发预测的方法,其特征在于,在前列腺癌复发预测器的测试结果不理想的情况下,更改聚类分析算法或更改特征选择的数量,以对前列腺癌复发预测器进行调整;基于重新获得的前列腺癌复发预测器,再进行测试;通过不断调整前列腺癌复发预测器,不断重新测试,直到测试结果达标。
10.一种基于特征值进行前列腺癌复发预测的方法,其特征在于,包括以下步骤:
步骤S1.获取前列腺癌病例的电子数据,从电子数据获得用于预测前列腺癌复发用的训练集合;
步骤S2.提取训练集合中的每个病例的特征信息;
步骤S3.对提取的特征信息进行预处理,生成训练用特征词集合;
步骤S4.为训练用特征词集合中的特征词生成对应的特征值;
步骤S5.利用上一步生成的特征值,训练聚类分析模型,得到前列腺癌复发预测器;
步骤S6.接收用户输入的、对前列腺癌的描述信息;
步骤S7.对用户的输入信息进行特征信息提取、预处理和生成特征值的处理,处理方法同步骤S2~S4,得到待预测信息的特征值;
步骤S8.前列腺癌复发预测器根据待预测信息的特征值,得到前列腺癌复发的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113827.7A CN106778046A (zh) | 2017-02-28 | 2017-02-28 | 一种基于特征值进行前列腺癌复发预测的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113827.7A CN106778046A (zh) | 2017-02-28 | 2017-02-28 | 一种基于特征值进行前列腺癌复发预测的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106778046A true CN106778046A (zh) | 2017-05-31 |
Family
ID=58960057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710113827.7A Pending CN106778046A (zh) | 2017-02-28 | 2017-02-28 | 一种基于特征值进行前列腺癌复发预测的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778046A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831554A (zh) * | 2018-06-05 | 2018-11-16 | 中国联合网络通信集团有限公司 | 医疗信息处理方法及装置 |
CN109009110A (zh) * | 2018-06-26 | 2018-12-18 | 东北大学 | 基于mri影像的腋窝淋巴结转移预测系统 |
CN109124660A (zh) * | 2018-06-25 | 2019-01-04 | 南方医科大学南方医院 | 基于深度学习的胃肠间质瘤术后风险检测方法和系统 |
CN109599181A (zh) * | 2019-01-09 | 2019-04-09 | 中国医学科学院肿瘤医院 | 一种在治疗前针对t3-larc患者的生存预测系统及预测方法 |
CN113793683A (zh) * | 2021-08-23 | 2021-12-14 | 广州医科大学附属第一医院(广州呼吸中心) | 一种基于psa的前列腺癌辅助决策方法及其系统 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN118039062A (zh) * | 2024-04-12 | 2024-05-14 | 四川省肿瘤医院 | 一种基于大数据分析的个体化化疗剂量远程控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102088910A (zh) * | 2008-07-07 | 2011-06-08 | 浜松光子学株式会社 | 脑部疾病的诊断系统 |
CN104083148A (zh) * | 2014-07-24 | 2014-10-08 | 成都市晶林科技有限公司 | 一种血管疾病诊断系统及方法 |
CN104517038A (zh) * | 2014-12-30 | 2015-04-15 | 杨关乐 | 一种疾病诊断系统服务器原理 |
CN104866713A (zh) * | 2015-05-12 | 2015-08-26 | 南京霁云信息科技有限公司 | 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断系统 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
-
2017
- 2017-02-28 CN CN201710113827.7A patent/CN106778046A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102088910A (zh) * | 2008-07-07 | 2011-06-08 | 浜松光子学株式会社 | 脑部疾病的诊断系统 |
CN104083148A (zh) * | 2014-07-24 | 2014-10-08 | 成都市晶林科技有限公司 | 一种血管疾病诊断系统及方法 |
CN104517038A (zh) * | 2014-12-30 | 2015-04-15 | 杨关乐 | 一种疾病诊断系统服务器原理 |
CN104866713A (zh) * | 2015-05-12 | 2015-08-26 | 南京霁云信息科技有限公司 | 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断系统 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831554A (zh) * | 2018-06-05 | 2018-11-16 | 中国联合网络通信集团有限公司 | 医疗信息处理方法及装置 |
CN108831554B (zh) * | 2018-06-05 | 2021-08-31 | 中国联合网络通信集团有限公司 | 医疗信息处理方法及装置 |
CN109124660A (zh) * | 2018-06-25 | 2019-01-04 | 南方医科大学南方医院 | 基于深度学习的胃肠间质瘤术后风险检测方法和系统 |
CN109124660B (zh) * | 2018-06-25 | 2022-06-10 | 南方医科大学南方医院 | 基于深度学习的胃肠间质瘤术后风险检测方法和系统 |
CN109009110A (zh) * | 2018-06-26 | 2018-12-18 | 东北大学 | 基于mri影像的腋窝淋巴结转移预测系统 |
CN109599181A (zh) * | 2019-01-09 | 2019-04-09 | 中国医学科学院肿瘤医院 | 一种在治疗前针对t3-larc患者的生存预测系统及预测方法 |
CN109599181B (zh) * | 2019-01-09 | 2021-04-16 | 中国医学科学院肿瘤医院 | 一种在治疗前针对t3-larc患者的生存预测系统及预测方法 |
CN113793683A (zh) * | 2021-08-23 | 2021-12-14 | 广州医科大学附属第一医院(广州呼吸中心) | 一种基于psa的前列腺癌辅助决策方法及其系统 |
CN113793683B (zh) * | 2021-08-23 | 2024-04-02 | 广州医科大学附属第一医院(广州呼吸中心) | 一种基于psa的前列腺癌辅助决策方法及其系统 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN116798646B (zh) * | 2023-08-17 | 2023-11-24 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN118039062A (zh) * | 2024-04-12 | 2024-05-14 | 四川省肿瘤医院 | 一种基于大数据分析的个体化化疗剂量远程控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778046A (zh) | 一种基于特征值进行前列腺癌复发预测的系统和方法 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
Zhang et al. | High-throughput histopathological image analysis via robust cell segmentation and hashing | |
CN102902821A (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
Li et al. | Stock prediction via sentimental transfer learning | |
CN110472049B (zh) | 疾病筛查文本分类方法、计算机设备和可读存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113010657B (zh) | 基于解答文本的答案处理方法和答案推荐方法 | |
CN108009135A (zh) | 生成文档摘要的方法和装置 | |
KR20210011606A (ko) | 문서 내 테이블 분석방법 및 장치 | |
WO2010021723A1 (en) | Content and quality assessment method and apparatus for quality searching | |
CN112035620A (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
CN114154570A (zh) | 一种样本筛选方法、系统及神经网络模型训练方法 | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及系统 | |
Saleem et al. | A new segmentation framework for arabic handwritten text using machine learning techniques | |
CN114969341A (zh) | 一种针对餐饮行业评论的细粒度情感分析方法及装置 | |
CN106951917A (zh) | 一种淋巴瘤病理类型的智能分类系统和方法 | |
CN117993393A (zh) | 一种基于词句向量在线标注保单条款查看方法、装置及系统 | |
Thuy et al. | Leveraging foreign language labeled data for aspect-based opinion mining | |
Wang et al. | Identifying concepts from medical images via transfer learning and image retrieval | |
CN113191141A (zh) | 问诊正则表达式生成方法、装置、设备及存储介质 | |
Gniewkowski et al. | Assessment of document similarity visualisation methods | |
CN112069322A (zh) | 文本多标签分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |