CN110021386A - 特征提取方法及特征提取装置、设备、存储介质 - Google Patents
特征提取方法及特征提取装置、设备、存储介质 Download PDFInfo
- Publication number
- CN110021386A CN110021386A CN201710623738.7A CN201710623738A CN110021386A CN 110021386 A CN110021386 A CN 110021386A CN 201710623738 A CN201710623738 A CN 201710623738A CN 110021386 A CN110021386 A CN 110021386A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- group
- structured medical
- medical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 188
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 230000015654 memory Effects 0.000 description 18
- 238000007418 data mining Methods 0.000 description 17
- 238000013507 mapping Methods 0.000 description 13
- 238000010219 correlation analysis Methods 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 239000003814 drug Substances 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 208000024172 Cardiovascular disease Diseases 0.000 description 3
- 208000026106 cerebrovascular disease Diseases 0.000 description 3
- 230000002526 effect on cardiovascular system Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010130 dispersion processing Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种特征提取方法、装置、设备和存储介质,方法包括:当不根据设定标签对结构化医疗数据进行特征提取时,根据预设特征提取算法提取结构化医疗数据的第一数据特征组,对根据预设聚类算法对结构化医疗数据进行处理得到的多个第一数据分组进行特征提取得到第二数据特征组,根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征;当根据设定标签对结构化医疗数据进行特征提取时,根据预设特征提取算法提取结构化医疗数据的第三数据特征组,对根据设定标签的变量类型确定结构化医疗数据的多个第二数据分组进行特征提取得到第四数据特征组,根据第三数据特征组和第四数据特征组确定结构化医疗数据的目标数据特征。
Description
技术领域
本发明涉及医疗数据处理技术领域,具体而言,涉及结构化医疗数据的特征提取方法、结构化医疗数据的特征提取装置、计算机设备和计算机可读存储介质。
背景技术
目前,数据挖掘是对大量数据进行加工、分类、聚类等处理,并利用统计分析和逻辑分析的方式挑选出有用信息的过程,包括对数据进行特征提取。而随着数字化技术在医疗领域的应用,医疗数据量越来越大,蕴含着许多有价值的信息资源,并且医疗数据挖掘具有广泛的应用领域,包括:医疗活动辅助诊断、医疗质量管理、医学信息处理、医药研发、生物医学、医学图像等。
然而,由于医疗数据具有模式多态性(比如同病多名)、不完整性、时间性、冗余性和隐私性等特点,从而对数据挖掘工作构成了挑战,尤其其中的非结构化数据更是难以分析,所以针对结构化医疗数据进行数据挖掘,是医疗数据挖掘一个较好的突破口。
另外,为了更方便实现对数据的搜索、预测等操作,可以利用知识图谱可视化描述知识资源数据及其载体,因此使知识图谱与数据挖掘的结合越来越受到人们的重视,尤其在文本的数据挖掘、搜索引擎、广告推荐等方面具有广泛的应用。具体地,在构建知识图谱的过程中,尤其是对知识图谱中关系的构建,需要对数据特征有一定的了解和筛选,这样才不会面对大量特征和由此组合出的大量关系茫然失措。而且,数据特征的选取或提取,也有助于解决分类、归纳、预测等统计或机器学习问题。但是,随着医疗数据量的增大,传统的人工设计的模式识别或特征、信息提取的方法显得效率低下。因此,需要解决人工方式提取数据特征效率低下的问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,实现了对结构化医疗数据的特征提取的自动化,提高了数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
有鉴于此,根据本发明的第一方面,提出了一种结构化医疗数据的特征提取方法,包括:判断是否根据设定标签对结构化医疗数据进行特征提取;若判定不根据设定标签对结构化医疗数据进行特征提取,则执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第一数据特征组,根据预设聚类算法对结构化医疗数据进行处理得到多个第一数据分组,对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组,根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征;若判定根据设定标签对结构化医疗数据进行特征提取,则执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第三数据特征组,根据设定标签所属的变量类型确定结构化医疗数据的多个第二数据分组,对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组,根据第三数据特征组和第四数据特征组确定结构化医疗数据的目标数据特征。
在该技术方案中,针对不同特征提取需求可以对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取,具体地可以根据是否需要基于设定标签进行特征提取的判断结果实施对应的特征提取方案,以提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
进一步地,可以针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征进行输出。
具体地,当不需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第一数据特征组,另一方面可以先采用预设聚类算法对结构化医疗数据分组后进行第二数据特征组的提取,其中预设聚类算法可以包括SOM(Self-organizing Maps,自组织映射)聚类算法、HC聚类(Hierarchical Clustering,层次聚类)算法等聚类方式中的一个或多个,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征,实现对结构化医疗数据的无监督式的学习。
而当需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第三数据特征组,另一方面可以先根据设定标签的变量类型对结构化医疗数据分组后进行第四数据特征组的提取,即根据预先设定的标签进行有监督式的学习以得到该多个数据分组,针对性强、应用方向明确,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征。
其中,结构化医疗数据可以来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等几个方面,其中主要包括完整的人类遗传密码信息、大量关于病人的病史、诊断、校验和治疗的临床信息、药品管理信息、医院管理信息等;以及设定标签可以根据具体的数据挖掘需求进行设定,比如设定对某种疾病的发生进行预测等。
在上述技术方案中,优选地,根据设定标签所属的变量类型确定结构化医疗数据的多个第二数据分组的步骤包括:当设定标签所属的变量类型为连续变量时,对结构化医疗数据进行离散化处理,按照设定标签对经离散化处理的结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为离散变量时,按照设定标签对结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为分类变量时,将结构化医疗数据的当前分组作为多个第二数据分组。
在该技术方案中,设定标签所属的变量类型至少可以包括:连续变量、离散变量和分类变量,但不限于此,具体可以根据数据特征提取的实际需求进行调整设置。
具体地,当设定标签为连续变量时,可以先对结构化医疗数据进行离散化处理后再按照该设定标签对离散化处理后的结构化医疗数据进行分组;而当设定标签为离散变量时,可以直接对按照该设定标签对离散化处理后的结构化医疗数据进行分组;当设定标签为分类变量,即说明当前的结构化医疗数据已经处于被分好组的状态时,直接可以将其当前分组作为用于提取其数据特征组的数据分组基础。
在上述任一技术方案中,优选地,对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组的步骤以及对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组的步骤分别具体包括:获取对应多个数据分组中的每个数据分组内的组内共性特征;获取对应多个数据分组中的每两个数据分组间的组间差异特征;根据组内共性特征和组间差异特征确定对应的数据特征组。
在该技术方案中,当采用对结构化医疗数据进行分组后再进行初始化特征提取并根据得到对应的多组数据特征时,结合每个数据分组内的组内共性特征和每两个数据分组之间的组间差异特征确定对应的数据特征组,以助于实现针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征的目的。
具体地,在获取组内共性特征时,可以通过统计每个数据变量在对应数据分组内的取值频数,将取值频数的分布情况较为集中的作为该数据分组的组内共性特征,从而准确有效地获取到能够体现结构化医疗数据的每个数据分组的主要特征的组内共性特征;而在获取组间差异特征时,将在不同的两个数据分组内的取值频数的差异较明显的数据变量作为该两个数据分组之间的组间差异特征,从而准确有效地获取到能够体现结构化医疗数据的不同数据分组之间的显著差异的组间差异特征;如此可以有效地确保结构化医疗数据的目标数据特征的准确性和全面性。
在上述任一技术方案中,优选地,根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征的步骤,具体包括:将第一数据特征组和第二特征数据组中包含的所有数据特征作为目标数据特征输出;或者按照第一预设权重系数对第一数据特征组和第二数据特征组中包含的所有数据特征进行特征权重值计算;将大于第一预设权重值的特征权重值对应的数据特征确定为目标数据特征;以及根据第三数据特征组和第四数据特征组分析确定结构化医疗数据的目标数据特征的步骤,具体包括:将第三数据特征组和第四数据特征组中包含的所有特征作为目标数据特征输出;或者按照第二预设权重系数对第三数据特征组和第四数据特征组中包含的所有数据特征进行特征权重值计算;将大于第二预设权重值的特征权重值对应的数据特征确定为目标数据特征。
在该技术方案中,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,一方面可以将所有数据特征组中包含的所有数据特征作为该结构化医疗数据的目标数据特征进行输出,简单高效;另一方面则可以通过对得到的所有数据特征组中包含的所有的数据特征进行加权计算,进而根据特征权重值的大小排序确定结构化医疗数据的目标数据特征,直观而高效地确定结构化医疗数据最主要的数据特征;从而实现综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征以进行输出。
根据本发明的第二方面,提出了一种结构化医疗数据的特征提取装置,包括:判断模块,用于判断是否根据设定标签对结构化医疗数据进行特征提取;第一处理模块,用于在判断模块判定不根据设定标签对结构化医疗数据进行特征提取时,执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第一数据特征组,根据预设聚类算法对结构化医疗数据进行处理得到多个第一数据分组,对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组,根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征;第二处理模块,用于在判断模块判定根据设定标签对结构化医疗数据进行特征提取时,执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第三数据特征组,根据设定标签所属的变量类型确定结构化医疗数据的多个第二数据分组,对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组,根据第三数据特征组和第四数据特征组确定结构化医疗数据的目标数据特征。
在该技术方案中,针对不同特征提取需求可以对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取,具体地可以根据是否需要基于设定标签进行特征提取的判断结果实施对应的特征提取方案,以提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
进一步地,可以针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征进行输出。
具体地,当不需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第一数据特征组,另一方面可以先采用预设聚类算法对结构化医疗数据分组后进行第二数据特征组的提取,其中预设聚类算法可以包括SOM聚类算法、HC聚类算法等聚类方式中的一个或多个,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征,实现对结构化医疗数据的无监督式的学习。
而当需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第三数据特征组,另一方面可以先根据设定标签的变量类型对结构化医疗数据分组后进行第四数据特征组的提取,即根据预先设定的标签进行有监督式的学习以得到该多个数据分组,针对性强、应用方向明确,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征。
其中,结构化医疗数据可以来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等几个方面,其中主要包括完整的人类遗传密码信息、大量关于病人的病史、诊断、校验和治疗的临床信息、药品管理信息、医院管理信息等;以及设定标签可以根据具体的数据挖掘需求进行设定,比如设定对某种疾病的发生进行预测等。
在上述技术方案中,优选地,第二处理模块具体用于:当设定标签所属的变量类型为连续变量时,对结构化医疗数据进行离散化处理,按照设定标签对经离散化处理的结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为离散变量时,按照设定标签对结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为分类变量时,将结构化医疗数据的当前分组作为多个第二数据分组。
在该技术方案中,设定标签所属的变量类型至少可以包括:连续变量、离散变量和分类变量,但不限于此,具体可以根据数据特征提取的实际需求进行调整设置。
具体地,当设定标签为连续变量时,可以先对结构化医疗数据进行离散化处理后再按照该设定标签对离散化处理后的结构化医疗数据进行分组;而当设定标签为离散变量时,可以直接对按照该设定标签对离散化处理后的结构化医疗数据进行分组;当设定标签为分类变量,即说明当前的结构化医疗数据已经处于被分好组的状态时,直接可以将其当前分组作为用于提取其数据特征组的数据分组基础。
在上述任一技术方案中,优选地,第一处理模块在执行对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组的步骤时以及第二处理模块在执行对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组的步骤时分别具体用于:获取对应多个数据分组中的每个数据分组内的组内共性特征;获取对应多个数据分组中的每两个数据分组间的组间差异特征;根据组内共性特征和组间差异特征确定对应的数据特征组。
在该技术方案中,当采用对结构化医疗数据进行分组后再进行初始化特征提取并根据得到对应的多组数据特征时,结合每个数据分组内的组内共性特征和每两个数据分组之间的组间差异特征确定对应的数据特征组,以助于实现针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征的目的。
具体地,在获取组内共性特征时,可以通过统计每个数据变量在对应数据分组内的取值频数,将取值频数的分布情况较为集中的作为该数据分组的组内共性特征,从而准确有效地获取到能够体现结构化医疗数据的每个数据分组的主要特征的组内共性特征;而在获取组间差异特征时,将在不同的两个数据分组内的取值频数的差异较明显的数据变量作为该两个数据分组之间的组间差异特征,从而准确有效地获取到能够体现结构化医疗数据的不同数据分组之间的显著差异的组间差异特征;如此可以有效地确保结构化医疗数据的目标数据特征的准确性和全面性。
在上述任一技术方案中,优选地,第一处理模块在执行根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征的步骤时具体用于:将第一数据特征组和第二特征数据组中包含的所有数据特征作为目标数据特征输出;或者按照第一预设权重系数对第一数据特征组和第二数据特征组中包含的所有数据特征进行特征权重值计算;将大于第一预设权重值的特征权重值对应的数据特征确定为目标数据特征;以及第二处理模块在执行根据第三数据特征组和第四数据特征组分析确定结构化医疗数据的目标数据特征的步骤时具体用于:将第三数据特征组和第四数据特征组中包含的所有特征作为目标数据特征输出;或者按照第二预设权重系数对第三数据特征组和第四数据特征组中包含的所有数据特征进行特征权重值计算;将大于第二预设权重值的特征权重值对应的数据特征确定为目标数据特征。
在该技术方案中,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,一方面可以将所有数据特征组中包含的所有数据特征作为该结构化医疗数据的目标数据特征进行输出,简单高效;另一方面则可以通过对得到的所有数据特征组中包含的所有的数据特征进行加权计算,进而根据特征权重值的大小排序确定结构化医疗数据的目标数据特征,直观而高效地确定结构化医疗数据最主要的数据特征;从而实现综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征以进行输出。
根据本发明的第三方面,提出了一种计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述第一方面的技术方案中任一项的结构化医疗数据的特征提取方法的步骤。
根据本发明的第四方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面的技术方案中任一项的结构化医疗数据的特征提取方法的步骤。
通过本发明的上述技术方案中,可以实现对结构化医疗数据的特征提取的自动化,提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
附图说明
图1示出了本发明实施例的结构化医疗数据的特征提取方法的流程示意图;
图2示出了本发明实施例的对多个数据分组进行特征提取获取数据特征组的方法流程示意图;
图3示出了本发明实施例的结构化医疗数据的特征提取装置的示意框图;
图4示出了本发明的实施例的计算机设备的示意框图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明实施例的结构化医疗数据的特征提取方法的流程示意图。
如图1所示,根据本发明实施例的结构化医疗数据的特征提取方法,具体包括以下流程步骤:
步骤102,判断是否根据设定标签对结构化医疗数据进行特征提取,若否,执行步骤104,否则执行步骤106。
步骤104,该步骤104可以具体执行为:
根据预设特征提取算法提取结构化医疗数据的第一数据特征组。
可以理解的是,当不需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第一数据特征组。
根据预设聚类算法对结构化医疗数据进行处理得到多个第一数据分组,对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组。
可以理解的是,当不需要基于设定标签对结构化医疗数据进行特征提取时,另一方面可以先采用预设聚类算法对结构化医疗数据分组后进行第二数据特征组的提取,其中预设聚类算法可以包括SOM聚类算法、HC聚类算法等聚类方式中的一个或多个。
如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征,实现对结构化医疗数据的无监督式的学习。
进一步地,可以通过如图2所示的实施例实现对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组,具体执行时包括以下流程步骤:
步骤S20,获取对应多个数据分组中的每个数据分组内的组内共性特征。
步骤S22,获取对应多个数据分组中的每两个数据分组间的组间差异特征。
步骤S24,根据组内共性特征和组间差异特征确定对应的数据特征组。
可以理解的是,当采用对结构化医疗数据进行分组后再进行初始化特征提取并根据得到对应的多组数据特征时,结合每个数据分组内的组内共性特征和每两个数据分组之间的组间差异特征确定对应的数据特征组,以助于实现针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征的目的。
具体地,在获取组内共性特征时,可以通过统计每个数据变量在对应数据分组内的取值频数,将取值频数的分布情况较为集中的作为该数据分组的组内共性特征,从而准确有效地获取到能够体现结构化医疗数据的每个数据分组的主要特征的组内共性特征;而在获取组间差异特征时,将在不同的两个数据分组内的取值频数的差异较明显的数据变量作为该两个数据分组之间的组间差异特征,从而准确有效地获取到能够体现结构化医疗数据的不同数据分组之间的显著差异的组间差异特征;如此可以有效地确保结构化医疗数据的目标数据特征的准确性和全面性。
根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征。
具体该步骤可以按以下两个实施例之一执行:
实施例一
将第一数据特征组和第二特征数据组中包含的所有数据特征作为目标数据特征输出。
可以理解的是,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,一方面可以将所有数据特征组中包含的所有数据特征作为该结构化医疗数据的目标数据特征进行输出,简单高效。
实施例二
按照第一预设权重系数对第一数据特征组和第二数据特征组中包含的所有数据特征进行特征权重值计算;将大于第一预设权重值的特征权重值对应的数据特征确定为目标数据特征。
可以理解的是,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,另一方面也可以通过对得到的所有数据特征组中包含的所有的数据特征进行加权计算,进而根据特征权重值的大小排序确定结构化医疗数据的目标数据特征,直观而高效地确定结构化医疗数据最主要的数据特征。
通过以上两个具体实施例可以实现综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征以进行输出。
步骤106,该步骤106可以具体执行为:
根据预设特征提取算法提取结构化医疗数据的第三数据特征组。
可以理解的是,当需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第三数据特征组。
根据设定标签所属的变量类型确定结构化医疗数据的多个第二数据分组,对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组。
可以理解的是,当需要基于设定标签对结构化医疗数据进行特征提取时,可以先根据设定标签的变量类型对结构化医疗数据分组后进行第四数据特征组的提取,即根据预先设定的标签进行有监督式的学习以得到该多个数据分组,针对性强、应用方向明确。
如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征。
进一步地,当设定标签所属的变量类型为连续变量时,对结构化医疗数据进行离散化处理,按照设定标签对经离散化处理的结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为离散变量时,按照设定标签对结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为分类变量时,将结构化医疗数据的当前分组作为多个第二数据分组。
可以理解的是,设定标签所属的变量类型至少可以包括:连续变量、离散变量和分类变量,但不限于此,具体可以根据数据特征提取的实际需求进行调整设置。
具体地,当设定标签为连续变量时,可以先对结构化医疗数据进行离散化处理后再按照该设定标签对离散化处理后的结构化医疗数据进行分组;而当设定标签为离散变量时,可以直接对按照该设定标签对离散化处理后的结构化医疗数据进行分组;当设定标签为分类变量,即说明当前的结构化医疗数据已经处于被分好组的状态时,直接可以将其当前分组作为用于提取其数据特征组的数据分组基础。
进一步地,可以通过如图2所示的实施例实现对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组,具体执行时包括以下流程步骤:
步骤S20,获取对应多个数据分组中的每个数据分组内的组内共性特征。
步骤S22,获取对应多个数据分组中的每两个数据分组间的组间差异特征。
步骤S24,根据组内共性特征和组间差异特征确定对应的数据特征组。
可以理解的是,当采用对结构化医疗数据进行分组后再进行初始化特征提取并根据得到对应的多组数据特征时,结合每个数据分组内的组内共性特征和每两个数据分组之间的组间差异特征确定对应的数据特征组,以助于实现针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征的目的。
具体地,在获取组内共性特征时,可以通过统计每个数据变量在对应数据分组内的取值频数,将取值频数的分布情况较为集中的作为该数据分组的组内共性特征,从而准确有效地获取到能够体现结构化医疗数据的每个数据分组的主要特征的组内共性特征;而在获取组间差异特征时,将在不同的两个数据分组内的取值频数的差异较明显的数据变量作为该两个数据分组之间的组间差异特征,从而准确有效地获取到能够体现结构化医疗数据的不同数据分组之间的显著差异的组间差异特征;如此可以有效地确保结构化医疗数据的目标数据特征的准确性和全面性。
根据第三数据特征组和第四数据特征组确定结构化医疗数据的目标数据特征。
具体该步骤可以按以下两个实施例之一执行:
实施例一
将第三数据特征组和第四数据特征组中包含的所有特征作为目标数据特征输出。
可以理解的是,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,一方面可以将所有数据特征组中包含的所有数据特征作为该结构化医疗数据的目标数据特征进行输出,简单高效。
实施例二
按照第二预设权重系数对第三数据特征组和第四数据特征组中包含的所有数据特征进行特征权重值计算;将大于第二预设权重值的特征权重值对应的数据特征确定为目标数据特征。
可以理解的是,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,另一方面也可以通过对得到的所有数据特征组中包含的所有的数据特征进行加权计算,进而根据特征权重值的大小排序确定结构化医疗数据的目标数据特征,直观而高效地确定结构化医疗数据最主要的数据特征。
通过以上两个具体实施例可以实现综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征以进行输出。
综上,通过本发明的实施例的结构化医疗数据的特征提取方法,可以针对不同特征提取需求可以对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取,具体地可以根据是否需要基于设定标签进行特征提取的判断结果实施对应的特征提取方案,以提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
进一步地,可以针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征进行输出。
其中,结构化医疗数据可以来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等几个方面,其中主要包括完整的人类遗传密码信息、大量关于病人的病史、诊断、校验和治疗的临床信息、药品管理信息、医院管理信息等;以及设定标签可以根据具体的数据挖掘需求进行设定,比如设定对某种疾病的发生进行预测等。
综上,针对医疗大数据背景下,数据挖掘、构建知识图谱、分类归纳预测等问题对特征提取的需求,而人工方式信息提取效率低下的缺陷,提供一种对结构化医疗数据进行自动化特征提取的方法。该方法能够根据统计分析和数据挖掘算法,提供结构化的医疗数据自动化特征选取。具体地,首先按问题进行分类处理,能解决各类问题下的特征自动化获取;其次,对分类任务,使用组内相似性和组间差异性来挑选特征;再次,对不同问题,各种统计或机器学习方法综合应用,例如聚类、降维、相关分析等得到结构化医疗数据的多个数据特征组。
在一个具体实施例中,心脑血管病的病案首页数据中含有年龄、性别、疾病、科室、总费用、手术费用、治疗时间等变量。
对心脑血管病大数据,如果用户需要寻找心脑血管病的主要特征,或者想研究该病的预测,则属于设定标签所属的变量类型为分组变量的情形,一方面可以按照降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的一组或多组数据特征,比如得到一组特征{性别}。
另一方面在确定数据实例的数据分组后,基于数据分组进行特征数据的提取;具体地,在每个数据分组的内部,分析数据的共性和变量间的相关性,从中选出主要特征。先统计字段的取值频数,经分析发现高血压病种的性别分布很集中,那么性别就成为该类一个主要的特征被提取出来。然后做做主成分分析、特征提取等,发现某个抽象的特征A很重要,也被提取出来。每个数据分组都提取一次,把在每个数据分组内找到的特征变量合在一起,这样,我们一共得到了组别内重要的两组四个特征:{性别、年龄、费用}、{特征A}。当然,选出的特征未必是所有组共同的,而是这些组内选出的特征的并集。
然后在数据分组之间,做差异性分析,发现年龄在不同的数据分组之间,即不同疾病间差别明显,故挑选了年龄作为主要特征。
综上,得到四组特征:{性别}、{性别、年龄、费用}、{特征A}、{年龄},可以直接输出四组特征作为最终的目标数据特征,并标明是组内和组间分析分别找到的。也可以合并一下,进一步可以根据待研究的问题,选择倾向,是依据降维算法和/或相关分析算法得到的特征优先,还是组内共性特征优先、组间差异特征优先,来设置权重系数,然后依据该权重系统对各个特征进行打分和排序,比如排序结果为:特征A>年龄>费用>性别,则可以将排在前两位的作为最终的。
图3示出了本发明实施例的结构化医疗数据的特征提取装置的示意框图。
如图3所示,根据本发明实施例的结构化医疗数据的特征提取装置30,包括:判断模块302、第一处理模块304和第二处理模块306。
其中,判断模块302用于判断是否根据设定标签对结构化医疗数据进行特征提取;第一处理模块304用于在判断模块302判定不根据设定标签对结构化医疗数据进行特征提取时,执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第一数据特征组,根据预设聚类算法对结构化医疗数据进行处理得到多个第一数据分组,对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组,根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征;第二处理模块306用于在判断模块302判定根据设定标签对结构化医疗数据进行特征提取时,执行以下特征提取操作:根据预设特征提取算法提取结构化医疗数据的第三数据特征组,根据设定标签所属的变量类型确定结构化医疗数据的多个第二数据分组,对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组,根据第三数据特征组和第四数据特征组确定结构化医疗数据的目标数据特征。
在该实施例中,针对不同特征提取需求可以对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取,具体地可以根据是否需要基于设定标签进行特征提取的判断结果实施对应的特征提取方案,以提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
进一步地,可以针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征进行输出。
具体地,当不需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第一数据特征组,另一方面可以先采用预设聚类算法对结构化医疗数据分组后进行第二数据特征组的提取,其中预设聚类算法可以包括SOM聚类算法、HC聚类算法等聚类方式中的一个或多个,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征,实现对结构化医疗数据的无监督式的学习。
而当需要基于设定标签对结构化医疗数据进行特征提取时,一方面可以通过降维算法和/或相关分析算法等预设特征提取算法对结构化医疗数据进行特征提取得到对应的第三数据特征组,另一方面可以先根据设定标签的变量类型对结构化医疗数据分组后进行第四数据特征组的提取,即根据预先设定的标签进行有监督式的学习以得到该多个数据分组,针对性强、应用方向明确,如此采用不同的特征提取方案对结构化医疗数据进行初始化特征提取后则可以根据得到的多组数据特征得到结构化医疗数据的目标数据特征。
其中,结构化医疗数据可以来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等几个方面,其中主要包括完整的人类遗传密码信息、大量关于病人的病史、诊断、校验和治疗的临床信息、药品管理信息、医院管理信息等;以及设定标签可以根据具体的数据挖掘需求进行设定,比如设定对某种疾病的发生进行预测等。
进一步地,在上述实施例中,第二处理模块306具体用于:当设定标签所属的变量类型为连续变量时,对结构化医疗数据进行离散化处理,按照设定标签对经离散化处理的结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为离散变量时,按照设定标签对结构化医疗数据进行分组得到多个第二数据分组;当设定标签所属的变量类型为分类变量时,将结构化医疗数据的当前分组作为多个第二数据分组。
在该实施例中,设定标签所属的变量类型至少可以包括:连续变量、离散变量和分类变量,但不限于此,具体可以根据数据特征提取的实际需求进行调整设置。
具体地,当设定标签为连续变量时,可以先对结构化医疗数据进行离散化处理后再按照该设定标签对离散化处理后的结构化医疗数据进行分组;而当设定标签为离散变量时,可以直接对按照该设定标签对离散化处理后的结构化医疗数据进行分组;当设定标签为分类变量,即说明当前的结构化医疗数据已经处于被分好组的状态时,直接可以将其当前分组作为用于提取其数据特征组的数据分组基础。
进一步地,在上述实施例中,第一处理模块304在执行对多个第一数据分组进行特征提取得到结构化医疗数据的第二数据特征组的步骤时以及第二处理模块306在执行对多个第二数据分组进行特征提取得到结构化医疗数据的第四数据特征组的步骤时分别具体用于:获取对应多个数据分组中的每个数据分组内的组内共性特征;获取对应多个数据分组中的每两个数据分组间的组间差异特征;根据组内共性特征和组间差异特征确定对应的数据特征组。
在该实施例中,当采用对结构化医疗数据进行分组后再进行初始化特征提取并根据得到对应的多组数据特征时,结合每个数据分组内的组内共性特征和每两个数据分组之间的组间差异特征确定对应的数据特征组,以助于实现针对同样的结构化医疗数据采用不同的特征提取方案分别得到对应的数据特征组,继而综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征的目的。
具体地,在获取组内共性特征时,可以通过统计每个数据变量在对应数据分组内的取值频数,将取值频数的分布情况较为集中的作为该数据分组的组内共性特征,从而准确有效地获取到能够体现结构化医疗数据的每个数据分组的主要特征的组内共性特征;而在获取组间差异特征时,将在不同的两个数据分组内的取值频数的差异较明显的数据变量作为该两个数据分组之间的组间差异特征,从而准确有效地获取到能够体现结构化医疗数据的不同数据分组之间的显著差异的组间差异特征;如此可以有效地确保结构化医疗数据的目标数据特征的准确性和全面性。
进一步地,在上述实施例中,第一处理模块304在执行根据第一数据特征组和第二数据特征组分析确定结构化医疗数据的目标数据特征的步骤时具体用于:将第一数据特征组和第二特征数据组中包含的所有数据特征作为目标数据特征输出;或者按照第一预设权重系数对第一数据特征组和第二数据特征组中包含的所有数据特征进行特征权重值计算;将大于第一预设权重值的特征权重值对应的数据特征确定为目标数据特征;以及第二处理模块306在执行根据第三数据特征组和第四数据特征组分析确定结构化医疗数据的目标数据特征的步骤时具体用于:将第三数据特征组和第四数据特征组中包含的所有特征作为目标数据特征输出;或者按照第二预设权重系数对第三数据特征组和第四数据特征组中包含的所有数据特征进行特征权重值计算;将大于第二预设权重值的特征权重值对应的数据特征确定为目标数据特征。
在该实施例中,当针对不同特征提取需求对应采用不同的特征提取方案对结构化医疗数据进行自动化特征提取分别得到对应的多个数据特征组后,一方面可以将所有数据特征组中包含的所有数据特征作为该结构化医疗数据的目标数据特征进行输出,简单高效;另一方面则可以通过对得到的所有数据特征组中包含的所有的数据特征进行加权计算,进而根据特征权重值的大小排序确定结构化医疗数据的目标数据特征,直观而高效地确定结构化医疗数据最主要的数据特征;从而实现综合根据不同的特征提取方案得到的所有数据特征组分析挑选出结构化医疗数据的目标数据特征以进行输出。
作为本发明的一个实施例,提出了一种服务器,包括如上实施例中任一项所述的结构化医疗数据的特征提取装置30,因此,该服务器具有该特征提取装置30所有有益的技术效果,在此不再赘述。
图4示出了本发明的实施例的计算机设备的示意框图。
图4示出了本公开实施例的实施例的计算机设备的示意框图。
如图4所示,根据本公开实施例的实施例的计算机设备40,包括存储器402、处理器404及存储在所述存储器402上并可在所述处理器404上运行的计算机程序,其中存储器402和处理器404之间可以通过总线连接,所述处理器404用于执行存储器402中存储的计算机程序时实现如上实施例中所述的结构化医疗数据的特征提取方法的步骤。
本公开实施例的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本公开实施例的结构化医疗数据的特征提取装置和计算机设备中的单元可以根据实际需要进行合并、划分和删减。
根据本公开实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的结构化医疗数据的特征提取方法的步骤。
进一步地,本领域普通技术人员可以理解的是,上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(RandomAccess Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,上述计算机设备可以为PC(Personal Computer,个人电脑)端。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,可以实现对结构化医疗数据的特征提取的自动化,提高数据特征提取的效率,从而有助于高效且准确地辅助后续的数据挖掘、结构化医疗数据的知识图谱构建以及分类回归预测分析操作。
在本发明中,术语“第一”、“第二”、“第三”和“第四”仅用于描述的目的,而不能理解为指示或暗示相对重要性,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种结构化医疗数据的特征提取方法,其特征在于,包括:
判断是否根据设定标签对结构化医疗数据进行特征提取;
若判定不根据所述设定标签对所述结构化医疗数据进行特征提取,则执行以下特征提取操作:
根据预设特征提取算法提取所述结构化医疗数据的第一数据特征组,
根据预设聚类算法对所述结构化医疗数据进行处理得到多个第一数据分组,对所述多个第一数据分组进行特征提取得到所述结构化医疗数据的第二数据特征组,
根据所述第一数据特征组和所述第二数据特征组分析确定所述结构化医疗数据的目标数据特征;
若判定根据所述设定标签对所述结构化医疗数据进行特征提取,则执行以下特征提取操作:
根据预设特征提取算法提取所述结构化医疗数据的第三数据特征组,
根据所述设定标签所属的变量类型确定所述结构化医疗数据的多个第二数据分组,对所述多个第二数据分组进行特征提取得到所述结构化医疗数据的第四数据特征组,
根据所述第三数据特征组和所述第四数据特征组确定所述结构化医疗数据的目标数据特征。
2.根据权利要求1所述的特征提取方法,其特征在于,所述根据所述设定标签所属的变量类型确定所述结构化医疗数据的多个第二数据分组的步骤包括:
当所述设定标签所属的变量类型为连续变量时,对所述结构化医疗数据进行离散化处理,按照所述设定标签对经离散化处理的所述结构化医疗数据进行分组得到所述多个第二数据分组;
当所述设定标签所属的变量类型为离散变量时,按照所述设定标签对所述结构化医疗数据进行分组得到所述多个第二数据分组;
当所述设定标签所属的变量类型为分类变量时,将所述结构化医疗数据的当前分组作为所述多个第二数据分组。
3.根据权利要求2所述的特征提取方法,其特征在于,所述对所述多个第一数据分组进行特征提取得到所述结构化医疗数据的第二数据特征组的步骤以及所述对所述多个第二数据分组进行特征提取得到所述结构化医疗数据的第四数据特征组的步骤分别具体包括:
获取对应多个数据分组中的每个数据分组内的组内共性特征;
获取对应多个数据分组中的每两个数据分组间的组间差异特征;
根据所述组内共性特征和所述组间差异特征确定对应的数据特征组。
4.根据权利要求1至3所述的特征提取方法,其特征在于,
所述根据所述第一数据特征组和所述第二数据特征组分析确定所述结构化医疗数据的目标数据特征的步骤,具体包括:
将所述第一数据特征组和所述第二特征数据组中包含的所有数据特征作为所述目标数据特征输出;或者
按照第一预设权重系数对所述第一数据特征组和所述第二数据特征组中包含的所有数据特征进行特征权重值计算;
将大于第一预设权重值的特征权重值对应的数据特征确定为所述目标数据特征;以及
所述根据所述第三数据特征组和所述第四数据特征组分析确定所述结构化医疗数据的目标数据特征的步骤,具体包括:
将所述第三数据特征组和所述第四数据特征组中包含的所有特征作为所述目标数据特征输出;或者
按照第二预设权重系数对所述第三数据特征组和所述第四数据特征组中包含的所有数据特征进行特征权重值计算;
将大于第二预设权重值的特征权重值对应的数据特征确定为所述目标数据特征。
5.一种结构化医疗数据的特征提取装置,其特征在于,包括:
判断模块,用于判断是否根据设定标签对结构化医疗数据进行特征提取;
第一处理模块,用于在所述判断模块判定不根据所述设定标签对所述结构化医疗数据进行特征提取时,执行以下特征提取操作:
根据预设特征提取算法提取所述结构化医疗数据的第一数据特征组,
根据预设聚类算法对所述结构化医疗数据进行处理得到多个第一数据分组,对所述多个第一数据分组进行特征提取得到所述结构化医疗数据的第二数据特征组,
根据所述第一数据特征组和所述第二数据特征组分析确定所述结构化医疗数据的目标数据特征;
第二处理模块,用于在所述判断模块判定根据所述设定标签对所述结构化医疗数据进行特征提取时,执行以下特征提取操作:
根据预设特征提取算法提取所述结构化医疗数据的第三数据特征组,
根据所述设定标签所属的变量类型确定所述结构化医疗数据的多个第二数据分组,对所述多个第二数据分组进行特征提取得到所述结构化医疗数据的第四数据特征组,
根据所述第三数据特征组和所述第四数据特征组确定所述结构化医疗数据的目标数据特征。
6.根据权利要求5所述的特征提取装置,其特征在于,所述第二处理模块具体用于:
当所述设定标签所属的变量类型为连续变量时,对所述结构化医疗数据进行离散化处理,按照所述设定标签对经离散化处理的所述结构化医疗数据进行分组得到所述多个第二数据分组;
当所述设定标签所属的变量类型为离散变量时,按照所述设定标签对所述结构化医疗数据进行分组得到所述多个第二数据分组;
当所述设定标签所属的变量类型为分类变量时,将所述结构化医疗数据的当前分组作为所述多个第二数据分组。
7.根据权利要求6所述的特征提取装置,其特征在于,所述第一处理模块在执行所述对所述多个第一数据分组进行特征提取得到所述结构化医疗数据的第二数据特征组的步骤时以及所述第二处理模块在执行所述对所述多个第二数据分组进行特征提取得到所述结构化医疗数据的第四数据特征组的步骤时分别具体用于:
获取对应多个数据分组中的每个数据分组内的组内共性特征;
获取对应多个数据分组中的每两个数据分组间的组间差异特征;
根据所述组内共性特征和所述组间差异特征确定对应的数据特征组。
8.根据权利要求5至7中任一项所述的特征提取装置,其特征在于,
所述第一处理模块在执行所述根据所述第一数据特征组和所述第二数据特征组分析确定所述结构化医疗数据的目标数据特征的步骤时具体用于:
将所述第一数据特征组和所述第二特征数据组中包含的所有数据特征作为所述目标数据特征输出;或者
按照第一预设权重系数对所述第一数据特征组和所述第二数据特征组中包含的所有数据特征进行特征权重值计算;
将大于第一预设权重值的特征权重值对应的数据特征确定为所述目标数据特征;以及
所述第二处理模块在执行所述根据所述第三数据特征组和所述第四数据特征组分析确定所述结构化医疗数据的目标数据特征的步骤时具体用于:
将所述第三数据特征组和所述第四数据特征组中包含的所有特征作为所述目标数据特征输出;或者
按照第二预设权重系数对所述第三数据特征组和所述第四数据特征组中包含的所有数据特征进行特征权重值计算;
将大于第二预设权重值的特征权重值对应的数据特征确定为所述目标数据特征。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任一项所述的结构化医疗数据的特征提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的结构化医疗数据的特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710623738.7A CN110021386B (zh) | 2017-07-27 | 2017-07-27 | 特征提取方法及特征提取装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710623738.7A CN110021386B (zh) | 2017-07-27 | 2017-07-27 | 特征提取方法及特征提取装置、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021386A true CN110021386A (zh) | 2019-07-16 |
CN110021386B CN110021386B (zh) | 2023-06-23 |
Family
ID=67185988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710623738.7A Active CN110021386B (zh) | 2017-07-27 | 2017-07-27 | 特征提取方法及特征提取装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021386B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078737A (zh) * | 2019-11-25 | 2020-04-28 | 北京明略软件系统有限公司 | 共性分析方法、装置、数据处理设备及可读存储介质 |
CN111159646A (zh) * | 2019-12-24 | 2020-05-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN111400114A (zh) * | 2020-03-06 | 2020-07-10 | 湖南城市学院 | 基于深度递归网络大数据计算机系统故障检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119212A1 (en) * | 2008-02-20 | 2011-05-19 | Hubert De Bruin | Expert system for determining patient treatment response |
CN105825046A (zh) * | 2016-03-13 | 2016-08-03 | 冯贵良 | 一种医疗数据的收集及处理方法及装置 |
CN105894493A (zh) * | 2016-01-27 | 2016-08-24 | 电子科技大学 | 一种基于稳定性选择的fMRI数据特征的选择方法 |
JP2016202351A (ja) * | 2015-04-17 | 2016-12-08 | 健司 三木 | 医療支援システム、医療支援方法、画像処理装置およびその制御方法と制御プログラム |
-
2017
- 2017-07-27 CN CN201710623738.7A patent/CN110021386B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119212A1 (en) * | 2008-02-20 | 2011-05-19 | Hubert De Bruin | Expert system for determining patient treatment response |
JP2016202351A (ja) * | 2015-04-17 | 2016-12-08 | 健司 三木 | 医療支援システム、医療支援方法、画像処理装置およびその制御方法と制御プログラム |
CN105894493A (zh) * | 2016-01-27 | 2016-08-24 | 电子科技大学 | 一种基于稳定性选择的fMRI数据特征的选择方法 |
CN105825046A (zh) * | 2016-03-13 | 2016-08-03 | 冯贵良 | 一种医疗数据的收集及处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
SARMAD ISTEPHAN等: "Unstrucured medical image query using big data-An epilepsy case study" * |
李超: "智能疾病导诊及医疗问答方法研究与应用" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078737A (zh) * | 2019-11-25 | 2020-04-28 | 北京明略软件系统有限公司 | 共性分析方法、装置、数据处理设备及可读存储介质 |
CN111078737B (zh) * | 2019-11-25 | 2023-03-21 | 北京明略软件系统有限公司 | 共性分析方法、装置、数据处理设备及可读存储介质 |
CN111159646A (zh) * | 2019-12-24 | 2020-05-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN111159646B (zh) * | 2019-12-24 | 2023-08-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN111400114A (zh) * | 2020-03-06 | 2020-07-10 | 湖南城市学院 | 基于深度递归网络大数据计算机系统故障检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110021386B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suominen et al. | Firms' knowledge profiles: Mapping patent data with unsupervised learning | |
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
ȚĂRANU | Data mining in healthcare: decision making and precision. | |
Faskowitz et al. | Edges in brain networks: Contributions to models of structure and function | |
Karaboga et al. | Fuzzy clustering with artificial bee colony algorithm | |
Rodger | Discovery of medical Big Data analytics: Improving the prediction of traumatic brain injury survival rates by data mining Patient Informatics Processing Software Hybrid Hadoop Hive | |
CN108509982A (zh) | 一种处理二分类不平衡医学数据的方法 | |
Kaur et al. | Predict chronic kidney disease using data mining algorithms in hadoop | |
CN105095623B (zh) | 疾病生物标志物的筛选分析方法、平台、服务器及系统 | |
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN108459955A (zh) | 基于深度自编码网络的软件缺陷预测方法 | |
CN107301118A (zh) | 一种基于日志的故障指标自动标注方法与系统 | |
CN110021386A (zh) | 特征提取方法及特征提取装置、设备、存储介质 | |
CN110085314A (zh) | 医学检验数据的智能分析方法、系统以及设备 | |
Yang et al. | Time-aware subgroup matrix decomposition: Imputing missing data using forecasting events | |
CN110111885A (zh) | 属性预测方法、装置、计算机设备及计算机可读存储介质 | |
Glez-Pena et al. | Fuzzy patterns and GCS networks to clustering gene expression data | |
Dale et al. | On the role of expert systems and numerical taxonomy in soil classification | |
Wang et al. | A cancer classification method based on association rules | |
Senthil et al. | Develop the hybrid Adadelta Stochastic Gradient Classifier with optimized feature selection algorithm to predict the heart disease at earlier stage | |
Labib et al. | Data mining for cancer management in Egypt case study: childhood acute lymphoblastic leukemia | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
Sunge et al. | Prediction diabetes mellitus using decision tree models | |
CN110236572A (zh) | 基于体温信息的抑郁症预测系统 | |
Patil et al. | Predicting burn patient survivability using decision tree in weka environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240202 Granted publication date: 20230623 |