CN108766581A

CN108766581A - 健康医疗数据的关键信息挖掘方法及辅助诊断系统

Info

Publication number: CN108766581A
Application number: CN201810426809.9A
Authority: CN
Inventors: 陶余会; 吴康宁
Original assignee: SHANGHAI PUBLIC HEALTH CLINICAL CENTER
Current assignee: SHANGHAI PUBLIC HEALTH CLINICAL CENTER
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-06

Abstract

本发明公开了一种健康医疗数据的关键信息挖掘方法，包括医疗数据文本预处理，构建目标文档的向量关联矩阵等步骤。本发明还公开了一种基于健康医疗数据的辅助医疗诊断系统，一种基于健康医疗数据的辅助诊断模型的构建方法及构建得到的辅助诊断模型。本发明的健康医疗数据的关键信息挖掘方法，能够从现有海量的健康医疗数据中挖掘关键信息，用于构建辅助医疗诊断系统，以提高诊断准确度，提高疗效，使健康医疗大数据能够更好地服务于人类健康，具有非常重要的社会和经济效益。

Description

健康医疗数据的关键信息挖掘方法及辅助诊断系统

技术领域

本发明属于数据挖掘技术领域，具体涉及一种健康医疗数据的关键信息挖掘方法及辅助诊断系统。

背景技术

健康医疗大数据涵盖人的全生命周期，涉及医药服务、疾病控制、健康保障和食品安全、养生保健等多方面数据的汇集和聚合，是国家重要的基础性战略资源。健康医疗大数据应用发展将带来健康医疗模式的深刻变化，有利于激发深化医药卫生体制改革的动力和活力，提升健康医疗服务效率和质量，扩大资源供给，不断满足人民群众多层次、多样化的健康需求，有利于培育新的业态和经济增长点。

将健康医疗数据作为一种战略资产，可以用于分析数据以达到提高诊断准确度、提高疗效、降低费用、减少浪费的目的。

而现有的主题挖掘分析方法中，对新闻类文本实用的方法不一定适合健康医疗数据文献；随着自然语言处理技术的发展，需要将这些成果创新性地应用于为人类健康服务的领域中。

发明内容

本发明的第一个目的就在于提供一种健康医疗数据的关键信息挖掘方法，以使健康医疗数据能够更好地应用于人类健康服务领域。

本发明的第二个目的在于提供一种基于健康医疗数据的辅助医疗诊断系统，以提高诊断准确度，提高疗效。

本发明的第三个目的在于提供一种基于健康医疗数据的辅助诊断模型的构建方法。

本发明的第四个目的在于提供根据所属构建方法得到的基于健康医疗数据的附属诊断模型。

为实现上述目的，本发明的采用以下技术方案：

一种健康医疗数据的关键信息挖掘方法，包括以下步骤：

步骤1、医疗数据文本预处理：对医疗数据文本进行分词处理，获得文本的词语序列表，对词语序列表中的各个向量进行词汇分析，提取各个向量中的词汇，将各向量中的词汇作为特征词；

步骤2、构建目标文档的向量关联矩阵为：

A＝[A_ij]_m×m

其中，A为目标文本的向量关联矩阵，A为m×m的矩阵，m为向量序列表S中的向量数量，Ai_j为A中的第i行第j列元素，1≤i≤m,1≤j≤m，S_i为向量序列表S中的第i个向量，S_j为向量序列表S中的第j个向量，|S_i|为S_i中的特征词数量，|S_j|为S_j中的特征词数量，C_ij为S_i与S_j中共同出现的特征词的数量；

步骤3、计算向量序列表中各元素的权值，具体计算公式为：

其中，W(i)为向量序列表中的第i个向量的权值；

步骤4、将向量序列表中权值最大的向量设定为关键向量；

步骤5、计算所有关键向量的字符长度之和，如果所有关键向量的字符长度之和达到主题长度，则转至步骤8，反之则转至步骤6；

其中：主题长度为预先设定的字符数量阈值；

步骤6、调整向量序列表中各个非主题向量的权值，非主题向量的权值调整公式为：

其中，W_new(i)为向量序列表中的第i个向量调整后的权值，W_old(i)为向量序列表中的第i个向量调整前的权值，S_i为向量序列表中的第i个向量，S_c为向量序列表中最新选出的关键向量，|S_i|为S_i中的特征词数量，|S_c|为S_c中的特征词数量，C_ic为S_i与S_c中共同出现的特征词的数量；

步骤7、将向量序列表的非主题向量中权值最大的向量设定为关键向量，再转至步骤5；

步骤8、将向量序列表中所有关键向量作为从目标医疗数据文档中挖掘到的辅助判定集合。

根据本发明，上述步骤1中所述的分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。

本发明所提供的基于健康医疗数据的辅助医疗诊断系统包括：

健康医疗相关语料数据提取模块：用于从语料库中导入健康医疗相关原始语料数据，对原始语料数据进行数据清洗后再进行分词处理；

词表构建模块：与所述健康医疗相关语料数据提取模块相连，设有词向量模型，用于对所述清洗后的健康医疗相关语料数据提取模块的分词结果进行训练，建立词表；

疾病相关知识库标准疾病数据提取模块：用于从疾病相关知识库中提取疾病特征数据，对提取出的疾病特征数据进行数据清洗，并提取医生在诊断中的关键特征字段；

新疾病数据文档提取模块：用于从新输入的疾病文档中提取关键特征字段；

分词模块：分别与所述疾病相关知识库数据提取模块及新疾病数据文档数据提取模块相连，用于对所述疾病相关知识库数据提取模块所提取的关键特征字段进行分词处理，获得训练样本，以及对所述新疾病数据文档提取模块提取的关键特征字段进行分词处理，获得待判定集；

疾病文档数字化模块：分别与所述词表构建模块及分词模块相连，用于调用所述词表以分别对所述训练样本及所述待判定集进行数字化转换；

辅助诊断模块：与所述疾病文档数字化模块相连，设有决策树模型，用于对数字化后的训练样本进行训练而生成辅助诊断模型，并应用所述辅助诊断模型，以数字化后的待判定集为输入，得出匹配的诊断结果并输出。

本发明所提供的一种基于健康医疗数据的辅助诊断模型的构建方法，包括以下步骤：

S1：对收集到的健康医疗相关的原始语料数据进行分词处理以建立词表；

S1.1：将收集到的健康医疗相关的原始语料数据进行导入，对原始语料数据进行数据清洗；

S1.2：对清洗后的语料数据进行分词处理，将得到的分词结果输入到词向量模型训练样本库，建立词表；

S2：由疾病相关知识库中的关键特征字段生成训练样本，使用词表将其数字化，再生成辅助诊断模型；

S2.1：由疾病相关知识库中提取已经确认无误诊的标准病历数据集，从标准病历数据集中提取出关键病历数据，并对提取出的关键病例数据进行数据清洗；

S2.2：对清洗后的关键病例数据进行特征提取，提取医生在诊断中的关键特征字段；

S2.3：对S2.2提取出来的关键特征字段进行分词处理，生成训练样本；

S2.4：使用S1.2得到的词表将训练样本中的每个词转换为对应的词向量；

S2.5：计算每一个词向量的权重值，按权重值大小拼接成整条诊断记录的向量表示形式，完成训练样本的数字化；

S2.6：将数字化的训练样本输入到决策树支持模型进行训练，生成辅助诊断模型。

根据本发明的构建方法，所述分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。

根据本发明的构建方法，所述清洗是指检查数据一致性，处理无效值和缺失值的操作。

本发明的健康医疗数据的关键信息挖掘方法，能够从现有海量的健康医疗数据中挖掘关键信息，用于构建辅助医疗诊断系统，以提高诊断准确度，提高疗效，使健康医疗大数据能够更好地服务于人类健康，具有非常重要的社会和经济效益。

附图说明

图1为基于健康医疗数据的关键信息挖掘方法的示意图。

具体实施方式

以下结合具体实施例，对本发明的健康医疗数据关键信息挖掘方法及辅助诊断系统做进一步详细描述。应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。

实施例1、健康医疗数据的关键信息挖掘

如图1所示，本实施例的健康医疗数据的关键信息挖掘方法包括以下步骤：

步骤2、构建目标文档的向量关联矩阵为：

A＝[A_ij]_m×m

其中，A为目标文本的向量关联矩阵，A为m×m的矩阵，m为向量序列表S中的向量数量，A_ij为A中的第i行第j列元素，1≤i≤m,1≤j≤m，S_i为向量序列表S中的第i个向量，S_j为向量序列表S中的第j个向量，|S_i|为S_i中的特征词数量，|S_j|为S_j中的特征词数量，C_ij为S_i与S_j中共同出现的特征词的数量；

步骤3、计算向量序列表中各元素的权值，具体计算公式为：

其中，W(i)为向量序列表中的第i个向量的权值；

步骤4、将向量序列表中权值最大的向量设定为关键向量；

其中：主题长度为预先设定的字符数量阈值；

以上步骤1中，所述分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。

本实施例通过以上步骤实现对健康医疗数据的关键信息的挖掘，以用于辅助医疗诊断。

实施例2、基于健康医疗数据的辅助医疗诊断系统

本实施例的辅助医疗诊断系统包括以下7个功能模块：

1)健康医疗相关语料数据提取模块：用于从语料库中导入健康医疗相关原始语料数据，对原始语料数据进行数据清洗后再进行分词处理；

2)词表构建模块：与所述健康医疗相关语料数据提取模块相连，设有词向量模型，用于对所述清洗后的健康医疗相关语料数据提取模块的分词结果进行训练，建立词表；

3)疾病相关知识库标准疾病数据提取模块：用于从疾病相关知识库中提取疾病特征数据，对提取出的疾病特征数据进行数据清洗，并提取医生在诊断中的关键特征字段；

4)新疾病数据文档提取模块：用于从新输入的疾病文档中提取关键特征字段；

5)分词模块：分别与所述疾病相关知识库数据提取模块及新疾病数据文档数据提取模块相连，用于对所述疾病相关知识库数据提取模块所提取的关键特征字段进行分词处理，获得训练样本，以及对所述新疾病数据文档提取模块提取的关键特征字段进行分词处理，获得待判定集；

6)疾病文档数字化模块：分别与所述词表构建模块及分词模块相连，用于调用所述词表以分别对所述训练样本及所述待判定集进行数字化转换；

7)辅助诊断模块：与所述疾病文档数字化模块相连，设有决策树模型，用于对数字化后的训练样本进行训练而生成辅助诊断模型，并应用所述辅助诊断模型，以数字化后的待判定集为输入，得出匹配的诊断结果并输出。

实施例3、基于健康医疗数据的辅助医疗诊断模型

本实施例的基于健康医疗数据的辅助医疗诊断系统通过以下步骤构建：

上述构建方法中，所述分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程；所述清洗是指检查数据一致性，处理无效值和缺失值的操作。

基于以上构建的辅助医疗诊断模型，可通过以下方式进行辅助医疗诊断：

对新输入的疾病信息文档提取关键特征字段，并通过词表进行数字化转换，利用辅助诊断模型进行匹配，输出匹配的诊断结果，具体如下：

1)对新输入的疾病数据文档提取关键特征字段；

2)对提取出的关键特征字段进行分词处理，获得待判定集；

3)使用所述词表将待判定集中的每个词转换为对应的词向量；

4)计算每一个词向量的权重值，按权重值大小拼接成整条诊断记录的向量表示形式，获得数字化的待判定关键向量；

5)将数字化的待判定关键向量输入到所述的辅助诊断模型，得出匹配的诊断结果。

Claims

1.一种健康医疗数据的关键信息挖掘方法，其特征在于包括以下步骤：

步骤2、构建目标文档的向量关联矩阵为：

A＝[A_ij]_m×m

步骤3、计算向量序列表中各元素的权值，具体计算公式为：

其中，W(i)为向量序列表中的第i个向量的权值；

步骤4、将向量序列表中权值最大的向量设定为关键向量；

其中：主题长度为预先设定的字符数量阈值；

2.根据权利要求1所述的关键信息挖掘方法，其特征在于，步骤1中所述的分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。

3.一种基于健康医疗数据的辅助医疗诊断系统，其特征在于包括：

4.一种基于健康医疗数据的辅助诊断模型的构建方法，其特征在于包括以下步骤：

5.根据权利要求4所述的构建方法，其特征在于，所述的分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。

6.根据权利要求4所述的构建方法，其特征在于，所述的清洗是指检查数据一致性，处理无效值和缺失值的操作。

7.根据权利要求4～6中任一项所述的构建方法得到的基于健康医疗数据的辅助诊断模型。