CN112802585B

CN112802585B - 一种基于分类器的优化医疗x线检查数据分类方法及装置

Info

Publication number: CN112802585B
Application number: CN202110102372.5A
Authority: CN
Inventors: 李红良; 林立金; 杨成长
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-10-04
Anticipated expiration: 2041-01-26
Also published as: CN112802585A

Abstract

本发明公开了一种基于分类器的优化医疗X线检查数据分类方法及装置，属于医疗大数据技术领域，其中，方法的实现包括：对数据进行预处理，包括文本分割和正负样本的判断，提取X线检查文本中的高频词汇，X线检查分类器构建，X线检查文本去向预测。根据本发明提供的技术方案，将X线检查大类中的不同X线类别进行区分，进而提高文本资料X线数据清洗的效率，提升数据的精细度和准确性。

Description

一种基于分类器的优化医疗X线检查数据分类方法及装置

技术领域

本发明属于医疗大数据技术领域，更具体地，涉及一种基于分类器的优化医疗X线检查数据分类方法及装置。

背景技术

随着医疗领域、经济的发展，以及健康状况受到的关注度逐年增高，健康体检人群逐年增多。每年大量的健康体检数据并未得到充分的分析、利用，且不同医院的信息系统、执行标准、记录标准差异较大，导致不同医疗机构的数据存在异质性。

目前建立一套规范有序、安全可控的数据治理体系成为需要迫切解决的问题。然而当前尚无健康大数据相关的完整、合理、规范的数据治理方法，导致健康大数据无法很好地治理、储存、共享、分析。健康体检数据中存在大量的文本资料，如健康史中的既往史、用药史，影像学检查中的超声检查、CT检查、X线检查。其中，X线检查是传统的影像学检查手段，是疾病初筛的首选方式。对于骨折、不透光异物存留、心肺器质性疾病、消化系统梗阻有很好的诊断价值。且其费用低廉，投照剂量小，适合绝大多数患者常规检查。因此存在大量X线检查数据。X线检查包括具体小类，如胸部X线检查、颈椎X线检查、髋部X线检查、腰椎X线检查等。

但是由于医疗机构的信息系统数据库架构略有差异，以及健康体检的特殊性，导致数据库中的X线检查数据存在混杂数据、异常数据、无意义数据等，如X线检查中混杂有“超声检查”、“未检”、“代替检查”，这些都对数据归一化、统计分析造成巨大障碍。而目前尚无X线检查相关的完整、合理、规范的数据分类方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于分类器的优化医疗X线检查数据分类方法及装置，实现X线检查混杂文本的清洗，包括文本切割和文本去向分析，以实现智能分列的目的，提高分类的准确性和效率。

为实现上述目的，按照本发明的一个方面，提供了一种基于分类器的优化医疗X线检查数据分类方法，包括：

(1)对X线检查文本进行预处理，其中，预处理操作包括文本分割和正负样本的判断；

(2)提取预处理后的X线检查文本中的高频词汇；

(3)根据提取出的高频词汇对X线检查分类器进行训练，以使用训练后的分类器对待预测X线检查文本进行去向预测。

在一些可选的实施方案中，步骤(1)包括：

(1.1)对X线检查文本按照符号进行断句处理得到断句后的文本，并构建特征词表，其中，每个断句后的文本作为特征词表的一行，每个断句后的文本中的特征词按列排开放置；

(1.2)在每个断句后的文本中查找X线检查特征词，若存在X线检查特征词，则将以该X线检查特征词为列，相应的断句后文本为行的表格单元标记为1，若不存在X线检查特征词，则将以特征词为列，相应的断句后文本为行的表格单元标记为0；

(1.3)将各特征词所在的列相加，若列之和为0，则将该特征词对应的断句后的文本记为负样本，若列之和不为0，则将该特征词对应的断句后的文本记为正样本。

在一些可选的实施方案中，步骤(2)包括：

(2.1)对于每个正样本，使用jieba对正样本进行分词，并对分词结果进行词汇统计；

(2.2)若分词后的总词汇量不大于预设词汇量阈值，则保留全部分词组成高频词列表，若分词后的总词汇量大于预设词汇量阈值，则对每个正样本统计出的词汇按照频次大小进行排序，筛选出频次较高的前若干个词汇组成高频词列表。

在一些可选的实施方案中，步骤(3)包括：

(3.1)分析高频词列表，将高频词列表中的标准术语与其对应的特征词一一对应；

(3.2)读取正负样本中的内容与高频词汇，对于正负样本中的文本，在文本中根据高频词出现与否来将文本向量化后，通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词，并与高频词列表中的词进行累加，融合生成关键词；

(3.3)训练SVM模型，通过随机森林生成的关键词来将正负样本向量化，按照预设比例确定训练集和测试集数量大小，将训练集和测试集转换为一维数组来进行SVM模型训练，并保存训练结果，其中，SVM模型训练后的结果包括类别和该类别对应的关键词。

在一些可选的实施方案中，所述使用训练后的分类器对待预测X线检查文本进行去向预测，包括：

将待预测X线检查文本根据符号进行断句处理，根据关键词将待预测X线检查文本进行向量化处理，得到词向量，然后由SVM模型根据词向量预测每个分段文本类别；

根据每个分段文本，如果分段文本首句存在去向，在对应位置进行标记其去向所属的类别；对于不为首句的断句，如果有去向且与上一句去向相同，则进行文本串联；如果不与前句相同且在此之前的文本断句都没有去向，则串联文本并标记去向；如果前面文本存在去向，当前断句出现新的去向，则不进行文本串联，存储断句和去向。

按照本发明的另一方面，提供了一种基于分类器的优化医疗X线检查数据分类装置，包括：

预处理模块，用于对X线检查文本进行预处理，其中，预处理操作包括文本分割和正负样本的判断；

特征词提取模块，用于提取预处理后的X线检查文本中的高频词汇；

训练模块，用于根据提取出的高频词汇对X线检查分类器进行训练，以使用训练后的分类器对待预测X线检查文本进行去向预测。

在一些可选的实施方案中，所述预处理模块，用于对X线检查文本按照符号进行断句处理得到断句后的文本，并构建特征词表，其中，每个断句后的文本作为特征词表的一行，每个断句后的文本中的特征词按列排开放置；在每个断句后的文本中查找X线检查特征词，若存在X线检查特征词，则将以该X线检查特征词为列，相应的断句后文本为行的表格单元标记为1，若不存在X线检查特征词，则将以特征词为列，相应的断句后文本为行的表格单元标记为0；将各特征词所在的列相加，若列之和为0，则将该特征词对应的断句后的文本记为负样本，若列之和不为0，则将该特征词对应的断句后的文本记为正样本。

在一些可选的实施方案中，所述特征词提取模块，用于对于每个正样本，使用jieba对正样本进行分词，并对分词结果进行词汇统计；若分词后的总词汇量不大于预设词汇量阈值，则保留全部分词组成高频词列表，若分词后的总词汇量大于预设词汇量阈值，则对每个正样本统计出的词汇按照频次大小进行排序，筛选出频次较高的前若干个词汇组成高频词列表。

在一些可选的实施方案中，所述训练模块，用于分析高频词列表，将高频词列表中的标准术语与其对应的特征词一一对应；读取正负样本中的内容与高频词汇，对于正负样本中的文本，在文本中根据高频词出现与否来将文本向量化后，通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词，并与高频词列表中的词进行累加，融合生成关键词；训练SVM模型，通过随机森林生成的关键词来将正负样本向量化，按照预设比例确定训练集和测试集数量大小，将训练集和测试集转换为一维数组来进行SVM模型训练，并保存训练结果，其中，SVM模型训练后的结果包括类别和该类别对应的关键词。

在一些可选的实施方案中，所述装置还包括：

预测模块，用于将待预测X线检查文本根据符号进行断句处理，根据关键词将待预测X线检查文本进行向量化处理，得到词向量，然后由SVM模型根据词向量预测每个分段文本类别；根据每个分段文本，如果分段文本首句存在去向，在对应位置进行标记其去向所属的类别；对于不为首句的断句，如果有去向且与上一句去向相同，则进行文本串联；如果不与前句相同且在此之前的文本断句都没有去向，则串联文本并标记去向；如果前面文本存在去向，当前断句出现新的去向，则不进行文本串联，存储断句和去向。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明通过对数据进行预处理，包括文本分割和正负样本的判断，提取X线检查文本中的高频词汇，X线检查分类器构建，X线检查文本去向预测。根据本发明提供的技术方案，将X线检查大类中的不同X线类别进行区分，进而提高文本资料X线数据清洗的效率，提升数据的精细度和准确性。

附图说明

图1是本发明实施例提供的一种基于分类器的优化医疗X线检查数据分类方法的流程示意图；

图2是本发明实施例提供的一种数据预处理流程示意图；

图3是本发明实施例提供的一种提取X线检查文本中的高频词汇流程示意图；

图4是本发明实施例提供的一种X线检查分类器进行训练流程示意图；

图5是本发明实施例提供的一种X线检查文本去向预测流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示是本发明实施例提供的一种基于分类器的优化医疗X线检查数据分类方法的流程示意图。利用X线检查训练数据对分类器进行训练，得到训练后的X线检查分类器，使用训练后的X线检查分类器对预处理后的X线检查数据进行分类，然后进行检查，将检查后的高准确性数据用于优化X线检查分类器，如对于准确度较差的分类器再次扩大样本量进行训练，从而提升X线检查分类器准确性的目的。具体包括以下步骤：

S1：对X线检查文本进行预处理，其中，预处理操作包括文本分割和正负样本的判断；

在本发明实施例中，如图2所示，步骤S1可以通过以下方式实现：

S1.1：对X线检查文本按照符号进行断句处理得到断句后的文本，并构建特征词表，其中，每个断句后的文本作为特征词表的一行，每个断句后的文本中的特征词按列排开放置；

其中，可以通过断句模型对X线检查文本进行断句处理，断句模型的基本原理为在X线检查文本中匹配断句模型，断句模型有若干种。不同断句模型有不同规则，如模型S1表示在X线检查文本中出现“。”，且前后内容不同时为数字；模型S2表示在X线检查文本中出现“【】”，则使用“【】”断句，将X线检查文本断为前中后三段。

S1.2：在每个断句后的文本中查找X线检查特征词，若存在X线检查特征词，则将以该X线检查特征词为列，相应的断句后文本为行的表格单元标记为1，若不存在X线检查特征词，则将以特征词为列，相应的断句后文本为行的表格单元标记为0；

S1.3：将各特征词所在的列相加，若列之和为0，则将该特征词对应的断句后的文本记为负样本，若列之和不为0，则将该特征词对应的断句后的文本记为正样本。

S2：提取预处理后的X线检查文本中的高频词汇；

在本发明实施例中，步骤S2可以通过以下方式实现：

筛选出每个指标(即X线检查特征词)下的断句文本以及对筛选出的断句文本进行分词和高频词的统计与输出，如图3所示，具体步骤包括：

S2.1：对于每个正样本，使用jieba对正样本进行分词，并对分词结果进行词汇统计；

S2.2：若分词后的总词汇量不大于预设词汇量阈值，则保留全部分词组成高频词列表，若分词后的总词汇量大于预设词汇量阈值，则对每个正样本统计出的词汇按照频次大小进行排序，筛选出频次较高的前若干个词汇组成高频词列表。

其中，预设词汇量阈值的大小可以根据实际需要确定，本发明实施例不做唯一性限定。

S3：根据提取出的高频词汇对X线检查分类器进行训练；

在本发明实施例中，如图4所示，步骤S3可以通过以下方式实现：

S3.1：分析高频词列表，将高频词列表中的标准术语与其对应的特征词一一对应；

其中，特征词是根据医学字典、医学书籍等构建的，如：标准术语“既往史”对应的特征词为：“病、炎、瘤、癌、症、综合征、积水、结节等。

S3.2：读取正负样本中的内容与高频词汇，对于正负样本中的文本，在文本中根据高频词出现与否来将文本向量化后，通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词，并与高频词列表中的词进行累加，融合生成关键词；

其中，可以利用高频词列表使用词袋模型的方法对文本进行向量化，将高频词列表中的每个词汇在需要向量化的句子中进行查找，找到则为1，反之为0，以此构成一个和高频词汇列表长度相同的向量。

S3.3：训练SVM模型，通过随机森林生成的关键词来将正负样本向量化，按照预设比例确定训练集和测试集数量大小，将训练集和测试集转换为一维数组来进行SVM模型训练，并保存训练结果，其中，SVM模型训练后的结果包括类别和该类别对应的关键词。

S4：待预测X线检查文本去向预测。

在本发明实施例中，如图5所示，步骤S4可以通过以下方式实现：

S4.1：将待预测X线检查文本根据符号进行断句处理，根据关键词将待预测X线检查文本进行向量化处理，得到词向量，然后由SVM模型根据词向量预测每个分段文本类别；

S4.2：根据每个分段文本，实现待预测X线检查文本的去向推荐与去重串联。

其中，步骤S4.2可以通过以下方式实现：

如果分段文本首句存在去向，在对应位置进行标记其去向所属的类别；

对于不为首句的断句，如果有去向且与上一句去向相同，则进行文本串联；如果不与前句相同且在此之前的文本断句都没有去向，则串联文本并标记去向；如果前面文本存在去向，当前断句出现新的去向，则不进行文本串联，存储断句和去向。

在本发明实施例中，步骤S1中将属于X线检查的文本标记为正样本，不属于X线检查的文本标记为负样本。

在本发明实施例中，步骤S2中通过jieba分词提取属于X线检查的高频词汇如：“高密度”“低密度”“正位片”。

在本发明实施例中，步骤S3训练的X线检查分类器包括：胸部X线检查、颈椎X线检查、乳腺钼靶X线检查等20余种X线检查。

在本发明实施例中，步骤S4X线检查文本去向预测。“1、腰椎后凸2、L2-5椎体骨桥形成3、L1、L2椎体唇样骨质增生，腰椎关节面硬化。颈第4、5、6椎体轻度增生。椎间隙狭窄。”使用断句模型将文本切割为“1、腰椎后凸”“2、L2-5椎体骨桥形成”“3、L1、L2椎体唇样骨质增生，腰椎关节面硬化。”“颈第4、5、6椎体轻度增生。”“椎间隙狭窄”。经过X线检查分类器和特征词预测，“1、腰椎后凸2、L2-5椎体骨桥形成3、L1、L2椎体唇样骨质增生，腰椎关节面硬化。”预测为腰椎X线检查。“颈第4、5、6椎体轻度增生。椎间隙狭窄”预测为颈椎X线检查。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分类器的优化医疗X线检查数据分类方法，其特征在于，包括：

(2)提取预处理后的X线检查文本中的高频词汇；

(3)根据提取出的高频词汇对X线检查分类器进行训练，以使用训练后的分类器对待预测X线检查文本进行去向预测；

步骤(1)包括：

2.根据权利要求1所述的方法，其特征在于，步骤(2)包括：

3.根据权利要求2所述的方法，其特征在于，步骤(3)包括：

4.根据权利要求3所述的方法，其特征在于，所述使用训练后的分类器对待预测X线检查文本进行去向预测，包括：

5.一种基于分类器的优化医疗X线检查数据分类装置，其特征在于，包括：

训练模块，用于根据提取出的高频词汇对X线检查分类器进行训练，以使用训练后的分类器对待预测X线检查文本进行去向预测；

所述预处理模块，用于对X线检查文本按照符号进行断句处理得到断句后的文本，并构建特征词表，其中，每个断句后的文本作为特征词表的一行，每个断句后的文本中的特征词按列排开放置；在每个断句后的文本中查找X线检查特征词，若存在X线检查特征词，则将以该X线检查特征词为列，相应的断句后文本为行的表格单元标记为1，若不存在X线检查特征词，则将以特征词为列，相应的断句后文本为行的表格单元标记为0；将各特征词所在的列相加，若列之和为0，则将该特征词对应的断句后的文本记为负样本，若列之和不为0，则将该特征词对应的断句后的文本记为正样本。

6.根据权利要求5所述的装置，其特征在于，所述特征词提取模块，用于对于每个正样本，使用jieba对正样本进行分词，并对分词结果进行词汇统计；若分词后的总词汇量不大于预设词汇量阈值，则保留全部分词组成高频词列表，若分词后的总词汇量大于预设词汇量阈值，则对每个正样本统计出的词汇按照频次大小进行排序，筛选出频次较高的前若干个词汇组成高频词列表。

7.根据权利要求6所述的装置，其特征在于，所述训练模块，用于分析高频词列表，将高频词列表中的标准术语与其对应的特征词一一对应；读取正负样本中的内容与高频词汇，对于正负样本中的文本，在文本中根据高频词出现与否来将文本向量化后，通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词，并与高频词列表中的词进行累加，融合生成关键词；训练SVM模型，通过随机森林生成的关键词来将正负样本向量化，按照预设比例确定训练集和测试集数量大小，将训练集和测试集转换为一维数组来进行SVM模型训练，并保存训练结果，其中，SVM模型训练后的结果包括类别和该类别对应的关键词。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：