CN110472049B

CN110472049B - 疾病筛查文本分类方法、计算机设备和可读存储介质

Info

Publication number: CN110472049B
Application number: CN201910654194.XA
Authority: CN
Inventors: 徐小栋; 李巍豪; 梁欣然
Original assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Current assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-01-24
Anticipated expiration: 2039-07-19
Also published as: CN110472049A

Abstract

本申请涉及一种疾病筛查文本分类方法、计算机设备和可读存储介质。该方法包括：获取待分类的疾病筛查文本并进行序列化处理，得到该文本中每个分词对应的独热向量；将每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；将每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。该方法中，首先利用词嵌入网络对每个分词的独热向量进行特征提取，得到每个分词的特征向量，这样可以充分利用每个分词的特征信息进行后续分析，避免冗余信息对分类结果的干扰；再利用文本分类网络对每个分词的特征向量进行特征映射及分类，最终得到疾病筛查文本的分类结果，大大提高了疾病筛查文本分类结果的准确性。

Description

疾病筛查文本分类方法、计算机设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种疾病筛查文本分类方法、计算机设备和可读存储介质。

背景技术

在医疗领域中，肺结节筛查主要由影像科医生阅读胸片并书写相应的临床报告，虽然目前已有一些辅助医生进行肺结节筛查的机器算法，但大部分筛查结果仍需要医生进行判断并书写临床报告。当需要对大量的临床报告进行肺结节病灶区域的分析统计及对比时，由人工来进行这项工作会及其不便，并且效率较低。

因此，已有传统技术提出利用关键字匹配技术对医生书写的临床报告进行分析，对临床报告中的肺结节区域或类别进行判断分类，以供后续分析统计及对比。

但是，利用传统技术对临床报告进行判断分类的准确率不高。

发明内容

基于此，有必要针对传统技术对临床报告进行判断分类的准确率不高的问题，提供一种疾病筛查文本分类方法、计算机设备和可读存储介质。

第一方面，本申请实施例提供一种疾病筛查文本分类方法，包括：

获取待分类的疾病筛查文本，并对疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量；

将疾病筛查文本中每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；

将疾病筛查文本中每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。

第二方面，本申请实施例提供一种疾病筛查文本分类装置，包括：

获取模块，用于获取待分类的疾病筛查文本，并对疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量；

词嵌入模块，用于将疾病筛查文本中每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；

分类模块，用于将疾病筛查文本中每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述疾病筛查文本分类方法、装置、计算机设备和可读存储介质，首先获取待分类的疾病筛查文本，并对该疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量；然后将每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；最后将每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。由于其首先利用词嵌入网络对每个分词的独热向量进行特征提取，得到每个分词的特征向量，这样可以充分利用每个分词的特征信息进行后续分析，避免冗余信息对分类结果的干扰；再利用文本分类网络对每个分词的特征向量进行特征映射及分类，最终得到疾病筛查文本的分类结果，大大提高了疾病筛查文本分类结果的准确性。

附图说明

图1为一个实施例提供的疾病筛查文本分类方法的流程示意图；

图1a为一个实施例提供的临床报告的内容示意图；

图1b为一个实施例提供的词嵌入网络的结构示意图；

图1c为一个实施例提供的文本分类网络的结构示意图；

图2为另一个实施例提供的疾病筛查文本分类方法的流程示意图；

图3为又一个实施例提供的疾病筛查文本分类方法的流程示意图；

图3a为一个实施例提供的文本处理过程的流程示意图；

图4为又一个实施例提供的疾病筛查文本分类方法的流程示意图；

图5一个实施例提供的疾病筛查文本分类装置的结构示意图；

图6另一个实施例提供的疾病筛查文本分类装置的结构示意图；

图7又一个实施例提供的疾病筛查文本分类装置的结构示意图；

图8又一个实施例提供的疾病筛查文本分类装置的结构示意图；

图9为一个实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

本申请实施例提供的疾病筛查文本分类方法，可以适用于对各类疾病临床报告(如肺结节临床报告、心血管临床报告、肿瘤累临床报告等)的分类。该临床报告可以为由医生阅读医学影像后书写的临床报告，也可以为使用疾病筛查网络模型对医学影像分析后得到的临床报告。传统技术通常使用一些疾病的关键字匹配方法对上述临床报告进行分析以得到其分类结果，但是该方法对临床报告进行判断分类的准确率不高。本申请提供的疾病筛查文本分类方法、计算机设备和可读存储介质，旨在解决上述技术问题。

为了使本申请的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本申请实施例中的技术方案进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，下述方法实施例的执行主体可以是疾病筛查文本分类装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例以执行主体为计算机设备为例进行说明，该计算机设备可以是单独的计算终端，也可以是服务器，只要能完成疾病筛查文本的分类即可，本实施例不做限定。

图1为一个实施例提供的疾病筛查文本分类方法的流程示意图。本实施例涉及的是计算机设备获取待分类的疾病筛查文本，并得到该疾病筛查文本的分类结果的具体过程。如图1所示，该方法包括：

S101，获取待分类的疾病筛查文本，并对疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量。

具体的，计算机设备首先获取待分类的疾病筛查文本，该疾病筛查文本可以为疾病的临床报告，可选的，计算机设备获取疾病筛查文本的方式可以为从计算机设备的存储器中直接调取。针对获取的疾病筛查文本，可选的，计算机设备可以先对其中的内容进行初步分析，以删除文本中的敏感信息，如姓名、性别、身份证号码等信息，然后将删除敏感信息后的报告内容保存至文本文件，关于该报告内容的示例可以参见图1a所示。

由于疾病筛查文本中的内容是由多个短句组成，而每个短句是由多个分词组成，那么计算机设备便可以对上述疾病筛查文本进行序列化处理，例如可以是将该文本表示为各个分词对应的序号的集合，然后再将各个分词对应的序号转化为独热(one-hot)向量。其中，独热向量为只存在一个1其余全为0的n位序列，假设对于1-9的数字用独热向量进行表示，1可以表示为[1，0，0，0，0，0，0，0，0]，2可以表示为[0，1，0，0，0，0，0，0，0]，...，9可以表示为[0，0，0，0，0，0，0，0，1]。

S102，将疾病筛查文本中每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量。

具体的，在确定了上述疾病筛查文本中每个分词对应的独热向量之后，计算机设备可以将其输入词嵌入网络中，经过词嵌入网络中隐藏层的处理，可以得到每个分词对应的特征向量。

其中，上述词嵌入网络的结构示意图可以参见图1b所示。该网络可以通过权重矩阵W将每个分词的独热向量表示为指定维度的特征向量，即隐藏层(Hidden Layer)的向量，通过训练权重矩阵W’可以将隐藏层的特征向量转换为分词的概率结果。本实施例中，可以将权重矩阵W的尺寸定义为上述疾病筛查文本中分词列表的长度×328,其中328为嵌入维数，也即是特征向量长度；训练权重矩阵W’的尺寸等于W的转置矩阵尺寸。值得说明的是，本申请实施例不限于使用特征向量表示每个分词的特征，还可以使用其他表现形式，只要能表示出每个分词的特征即可，同时也不限于设置328为特征向量的长度。

S103，将疾病筛查文本中每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。

具体的，在得到上述疾病筛查文本中每个分词对应的特征向量之后，计算机设备可以将其进行处理后输入文本分类网络中，经过文本分类网络中的多尺度卷积、最大池化、全连接等处理，可以得到该疾病筛查文本的分类结果。可选的，计算机设备对每个分词对应的特征向量进行处理的操作可以为：将属于同一短句的各个分词的特征向量垂直拼接，得到该短句的特征矩阵，然后将特征矩阵输入文本分类网络中。可选的，本实施例中的文本分类网络可以为卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network，RNN)，也可以为其他的深度学习网络、机器学习网络等，本实施例对此不做限定。

其中，上述文本分类网络的结构示意图可以参见图1c所示。该网络使用尺寸为300×3、300×4、300×5的卷积核对特征向量进行特征提取，该卷积核的尺寸小于上述嵌入维数，每种尺寸的卷积核可以得到100个特征图；然后对特征图做非线性激活以及最大池化操作，再将池化后的特征图进行神经元随机失活DropOut处理；最后将处理后的特征图进行拼接合并，使用线性映射将特征图通过全连接映射到文本分类类别数量的一维特征向量上，再利用S型生长曲线(Sigmoid)函数计算每个文本分类类别的概率。值得说明的是，本申请实施例不限于执行上述操作的文本分类网络，只要能确定最终的分类结果即可，同时也不限于设置上述尺寸为卷积核的尺寸。

需要说明的是，对于疾病筛查文本的分类结果，可以以肺结节筛查文本为例进行说明，则分类结果可以包括结节种类、结节所在位置中的至少一种。对于结节种类，可以包括肺、肝、肾上腺、乳腺、甲状腺、心脏血管等器官的结节。对于肺结节所在位置，可以包括左肺上叶、左肺下叶、右肺上叶、右肺中叶、右肺下叶和胸膜下等区域。除此以外，分类结果还可以包括类结节组织，如结节状增厚、结节状增高影、结节状钙化灶、结节状纤维灶和结节状斑片等。

为方便对每个疾病筛查文本的分类结果进行分析统计，可以设置不同的分类标签表示不同的分类结果。本实施例中，设置了9个分类标签对文本中的短句进行类别标注，具体如下：

0：无结节信息描述，表示该句没有关于结节的描述，如“胸部CT平扫未见明显异常”；

1：左肺上叶结节，表示该句包含左肺上叶区域结节的描述，如“左肺上叶多发结节”、“左肺上叶及下叶结节”等；

2：左肺下叶结节，表示该句包含左肺下叶区域结节的描述，如“两肺下叶结节”、“左肺上、下叶结节”等；

3：右肺上叶结节，表示该句包含右肺上叶区域结节的描述，如“双肺下叶结节”、“右肺上叶多发结节”等；

4：右肺中叶结节，表示该句包含右肺中叶区域结节的描述，如“右肺中叶结节影”、“右肺中叶及下叶结节”等；

5：右肺下叶结节，表示该句包含右肺下叶区域结节的描述，如“右肺上叶、下叶结节”、“右肺下叶实质性结节”等；

6：左肺/右肺/两肺结节，表示该句有结节的描述，但无相应肺叶区域，如“左肺多发结节”、“两肺多发结节”、“胸膜下结节”等；

7：非肺区域结节，表示该句包含非肺区域结节的描述，如“甲状腺结节”、“肾上腺结节”、“右胸结节”等；

8：类结节(结节状组织)，表示该句包含非明确肺结节或结节影的结节状组织的描述，如“胸膜下结节状增厚”、“结节状斑片”、“结节状增高影”、“结节状钙化灶、纤维化灶”等。

本实施例提供的疾病筛查文本分类方法，计算机设备首先获取待分类的疾病筛查文本，并对该疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量；然后将每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；最后将每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。该方法中，首先利用词嵌入网络对每个分词的独热向量进行特征提取，得到每个分词的特征向量，这样可以充分利用每个分词的特征信息进行后续分析，避免冗余信息对分类结果的干扰；再利用文本分类网络对每个分词的特征向量进行特征映射及分类，最终得到疾病筛查文本的分类结果，大大提高了疾病筛查文本分类结果的准确性。

图2为另一个实施例提供的疾病筛查文本分类方法的流程示意图。本实施例涉及的是计算机设备将疾病筛查文本中每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果的具体过程。可选的，在上述实施例的基础上，如图2所示，S103可以包括：

S201，将疾病筛查文本中属于同一短句的各分词对应的特征向量垂直拼接，得到疾病筛查文本中各短句的特征矩阵。

具体的，计算机设备将上述得到的属于同一短句的各分词对应的特征向量垂直拼接，可以得到该疾病筛查文本中每个短句的特征矩阵，即各短句的特征矩阵中每一行为一个分词的特征向量，短句的长度为该短句包含的分词的个数。

S202，将疾病筛查文本中各短句的特征矩阵输入文本分类网络，得到各短句的分类结果。

具体的，计算机设备可以将上述得到的各短句的特征矩阵输入文本分类网络中，得到各短句的分类结果。假设本实施例设置了上述的9个分类标签，可选的，分类结果可以为各短句属于每个分类标签的概率，示例性的，对于某一个短句，通过文本分类网络得到的分类结果为[0，0.8，0.1，0，0，0，0.1，0，0]，即表示该短句属于标签0的概率为0，属于标签1的概率为0.8，属于标签2的概率为0.1，...。

进一步的，在得到各短句属于每个分类标签的概率之后，计算机设备可以选取最大概率值所对应的分类标签作为该短句的最终分类结果，则在上述示例中，可以将标签1作为该短句的分类结果。可选的，各短句的分类结果包含的标签数可以为1个，也可以为多个。

S203，对各短句的分类结果做并集，得到疾病筛查文本的分类结果。

具体的，计算机设备确定了疾病筛查文本中每个短句对应的分类结果之后，可以对各短句的分类结果做并集，即可以得到该疾病筛查文本的分类结果。例如，假设一个疾病筛查文本包括3个短句，各短句对应的分类标签结果分别为[1]、[1，2]、[7]，则该疾病筛查文本的分类结果即为[1，2，7]。

本实施例提供的疾病筛查文本分类方法，为得到疾病筛查文本的分类结果，计算机设备首先将该文本中各短句的特征矩阵输入文本分类网络，得到各短句的分类结果，然后对各短句的分类结果做并集，再得到疾病筛查文本的分类结果。由此可提高最终确定的疾病筛查文本分类结果的准确性，并且文本分类网络每次处理的是短句对应的特征矩阵，可以减少文本分类网络每次的计算量，提高其计算效率。

图3为又一个实施例提供的疾病筛查文本分类方法的流程示意图。本实施例涉及的是计算机设备对疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量的具体过程。可选的，在上述实施例的基础上，如图3所示，S101可以包括：

S301，对疾病筛查文本中的文本数据进行分句处理，得到多个短句。

具体的，计算机设备获取到疾病筛查文本后，可以对其包含的文本数据进行分句处理，可选的，可以按照文本数据中包含的中文标点符号(如逗号、句号)为断句标准，将文本数据分为多个短句。可选的，上述文本数据可以为已经删除了敏感信息后的文本数据。

可选的，在得到多个短句之后，计算机设备还可以利用正则匹配方法将各短句中的非中文汉字过滤，得到纯汉字短句，其中，正则匹配方法可以为使用包含[\u4e00-\u9fa5]的正则式进行匹配的方法。

S302，对多个短句进行分词处理，得到多个短句的分词列表。

具体的，针对上述多个短句，计算机设备可以对其进行分词处理，得到每个短句的分词列表。可选的，计算机设备可以使用结巴分词工具对每个短句进行分词，也可以使用其他分词工具进行处理，只要能得到每个短句的分词列表即可，本实施例对此不做限定。

可选的，由于文本分类网络所处理的短句特征矩阵长度最小为5，因此对于上述得到的短句的分词列表，若其长度少于5，则可以用<pad>标记填充至该短句分词列表的末尾，以使该短句长度等于5。

S303，将分词列表与预设的语料库进行匹配，得到每个分词对应的标识，其中，语料库包含不同分词与各个标识之间的映射关系。

具体的，对于上述得到的每个短句的分词列表，计算机设备可以将其与预设的语料库进行匹配，从语料库中获取每个分词对应的标识。可选的，该语料库是对多个疾病筛查训练样本中的分词进行序列化处理所构建的，即在上述词嵌入网络和文本分类网络训练过程中，会有大量的疾病筛查训练样本参与训练，在得到这些样本中的各个分词之后，可以对大量的分词进行统计及标号，那么就可以得到每个分词与其标号之间的对应关系，每个分词的标号可以作为其对应的标识，这样，各个分词与其对应的标识便组成了预设的语料库。

示例性的，构建的语料库形式可以为{[<pad>，1],[结节，2],[右肺，3]，[灶，4]...}，由此可知，对于疾病筛查文本中的每个分词，可以从该语料库中查找到其对应的标识。

当然，虽然训练样本会有很多个，其所包含的分词基本会囊括疾病筛查过程中可能出现的分词，但在实际应用中，由于不同医生的书写习惯不同，某些疾病筛查文本中可能会出现语料库中未包含的分词，那么本实施例中可以用<unk>来表示那些语料库中未包含的分词。

关于S301～S303所执行的文本处理过程，可以参见图3a所示的示意图。

S304，将每个分词对应的标识转化为独热向量，得到疾病筛查文本中每个分词对应的独热向量。

具体的，计算机设备可以将上述得到的每个分词对应的标识转化为独热向量，关于独热向量的具体表现形式可以参见上述实施例的描述，在此不再赘述。

本实施例提供的疾病筛查文本分类方法，计算机设备通过对疾病筛查文本进行分句处理、分词处理、以及确定每个分词的标识、并将每个分词对应的标识转化为独热向量，以作为后续词嵌入网络的输入，这样可以将一个疾病筛查文本分割为各个分词组成，将每个分词转化成能够被计算机识别的向量分布，通过对每个分词进行特征分析，提高了整个疾病筛查文本分类结果的准确率。

上述实施例中使用的词嵌入网络和文本分类网络为训练后的神经网络，那么在使用之前，就需要对初始的神经网络进行训练。图4为又一个实施例提供的疾病筛查文本分类方法的流程示意图，本实施例涉及的是计算机设备对预设的初始词嵌入网络和初始文本分类网络进行训练的过程。可选的，在上述实施例的基础上，如图4所示，上述方法还包括：

S401，基于疾病筛查训练样本对预设的初始词嵌入网络进行训练，得到训练后的词嵌入网络。

S402，基于疾病筛查训练样本及训练后的词嵌入网络，对预设的初始文本分类网络进行训练，得到训练后的文本分类网络。

具体的，对于初始词嵌入网络和初始文本分类网络对疾病筛查训练样本进行处理的过程和上述实施例中词嵌入网络和文本分类网络的处理过程类似，在此不再赘述。其中，疾病筛查训练样本中包含了训练样本实际的分类标签，可选的，该分类标签可以是一种标签概率向量，其中训练样本属于其实际的分类标签的概率为1，属于其余分类标签的概率为0。

假设本实施例中的分类标签同样为上述的9个分类标签，分类结果为训练样本属于每个分类标签的概率，那么计算机设备可以计算分类结果与上述分类标签之间的分类损失，然后根据分类损失对初始词嵌入网络的网络参数进行调整，得到训练后的词嵌入网络。可选的，可以使用二项交叉熵损失函数(Binary Cross Entropy，BCE)计算两者之间的分类损失，该二项交叉熵损失函数可以为

其中，batchsize为输入的样本个数，n为分类标签个数，y_i为标注的属于第i个标签的概率，p_i为初始文本分类网络输出的属于第i个标签的概率。当然，还可以使用其他有效的损失函数计算上述分类损失，本实施例不做限定。

在得到训练样本的分类结果与分类标签之间的分类损失之后，计算机设备可以对初始词嵌入网络中的网络参数进行调整，以得到训练收敛的词嵌入网络。本实施例中，因词嵌入网络的训练过程比文本分类网络的训练过程复杂，因此可以选择先将词嵌入网络训练收敛，再对文本分类网络进行训练。当然，也可以通过设置不同的学习率对词嵌入网络和文本分类网络同时进行训练，还可以对两者间隔训练。

基于训练后的词嵌入网络和初始文本分类网络，可以重新执行上述S402的步骤，得到训练样本的分类结果，然后计算此时分类结果与分类标签之间的分类损失，利用该分类损失对初始文本分类网络的网络参数进行调整，得到训练收敛的文本分类网络。至此，词嵌入网络及文本分类网络都得以训练完成。

可选的，上述计算机设备对初始词嵌入网络和初始文本网络中的网络参数进行调整的过程可以为利用反向传播梯度的方法，由Adam(Adaptive Moment Estimation)优化器反向传播BCE计算得到的损失值，以更新网络参数，其中Adam优化器为2014年12月由Kingma和Lei Ba两位学者所提出的。可选的，还可以使用随机梯度下降(Stochastic GradientDescent，SGD)、Adagrad(Adaptive gradient algorithm)、RMSprop等其他优化器反向传播BCE计算得到的损失值。

本实施例提供的疾病筛查文本分类方法，计算机设备首先对初始词嵌入网络及初始文本分类网络进行训练，由于词嵌入网络的训练过程较为复杂，因此采用先将词嵌入网络训练收敛后再对文本分类网络训练的方法，可使得训练得到的词嵌入网络和文本分类网络都具有较好的处理性能。

可选的，在其中一些实施例中，计算机设备还可以获取多个疾病筛查文本的分类结果，将疾病筛查文本的分类结果进行统计，得到统计结果；根据统计结果对训练后的文本分类网络再次进行训练，得到优化的文本分类网络。

具体的，当利用上述疾病筛查文本分类方法处理了一定数量的疾病筛查文本之后，可以将这些疾病筛查文本的分类结果进行统计，得到统计结果。例如可以将各分类结果与各分类结果对应的文本数量进行统计。然后，根据统计结果，可以确定各分类结果对应的分类标签的权重，如某个分类结果对应的文本数量较多，则可以将其对应的分类标签的权重设置的大一些，如某个分类结果对应的文本数量较少，则可以将其对应的分类标签的权重设置的小一些。根据所设置的分类标签的权重，可以更新上述BCE函数，并利用新的BCE函数计算分类损失，以对文本分类网络再次进行训练，得到优化的文本分类网络。本实施例提供的文本分类网络优化过程，可以进一步提高文本分类网络的性能，以使在对疾病筛查文本进行分类时得到更准确的分类结果。

可选的，针对上述统计结果，可以为每天进行的分类结果统计，也可以为相隔固定天数进行的分类结果统计，将统计结果存为历史数据，形成长期的数据追踪。统计完成后，还可以将统计结果以图表形式进行可视化展示，以供临床的统计学建议，如使用趋势图、条状图、柱状图、扇形图、韦恩图等视图将统计结果进行可视化展示。

进一步的，在对上述词嵌入网络和文本分类网络训练过程中，每经过一轮迭代，可以对该轮迭代得到的词嵌入网络和文本分类网络进行验证，即获取一定数量的疾病筛查验证样本，将验证样本与迭代得到的词嵌入网络和文本分类网络经过上述实施例所述的步骤，可以得到验证样本的分类结果。可选的，可以使用公式

计算上述验证样本分类结果的得分，其中precision为分类结果的精确率，即正确被分类的结果占所有实际被分类的结果的比例，recall为分类结果的召回率，即正确被分类的结果占所有应该被分类的结果的比例，β为常数，可以取1.3。然后判断计算的得分是否达到预设的条件，若达到则可以停止训练，将此时对应的词嵌入网络和文本分类网络作为最终确定的网络；若没有达到预设条件，则继续执行训练过程。经过本实施例的验证步骤，可以进一步提高词嵌入网络和文本分类网络的性能。

可选的，在其中一些实施例中，计算机设备还可以根据疾病筛查文本的分类结果与疾病筛查文本对应的医学影像，对疾病筛查模型进行更新。

具体的，通常在实际临床应用中，由于医生比较繁忙，对于疾病临床报告的书写已有部分疾病筛查模型可以完成，对于由疾病筛查模型输出的临床报告，也可由本申请提供的疾病筛查文本分类方法进行文本分类。那么，针对同一医学影像，可以分别由医生及疾病筛查模型得出临床报告，然后再分别得到对应的分类结果，并通过对比两者的分类结果，对疾病筛查模型进行训练更新。由此，可以通过对疾病筛查模型的不断训练，得到收敛的疾病筛查模型以进行临床报告的书写，大大提高临床报告书写的效率。可选的，该疾病筛查模型可以为肺结节检测模型、甲状腺结节检测模型、乳腺结节检测模型等，可以为神经网络模型，也可以为机器学习模型。

应该理解的是，虽然图1-图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图5一个实施例提供的疾病筛查文本分类装置的结构示意图。如图5所示，该装置包括：获取模块11、词嵌入模块12和分类模块13。

获取模块11，用于获取待分类的疾病筛查文本，并对疾病筛查文本进行序列化处理，得到疾病筛查文本中每个分词对应的独热向量；

词嵌入模块12，用于将疾病筛查文本中每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；

分类模块13，用于将疾病筛查文本中每个分词对应的特征向量进行处理后输入文本分类网络，得到疾病筛查文本的分类结果。

本实施例提供的疾病筛查文本分类装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图6另一个实施例提供的疾病筛查文本分类装置的结构示意图。在上述图5所示实施例的基础上，如图6所示，上述分类模块13包括：拼接单元131、分类单元132和合并单元133。

具体的，拼接单元131，用于将疾病筛查文本中属于同一短句的各分词对应的特征向量垂直拼接，得到疾病筛查文本中各短句的特征矩阵。

分类单元132，用于将疾病筛查文本中各短句的特征矩阵输入文本分类网络，得到各短句的分类结果。

合并单元133，用于对各短句的分类结果做并集，得到疾病筛查文本的分类结果。

在其中一个实施例中，上述疾病筛查文本为肺结节筛查文本，分类结果包括以下内容中的至少一种：结节种类、结节所在位置。

在其中一个实施例中，上述获取模块11，具体用于对疾病筛查文本中的文本数据进行分句处理，得到多个短句；对多个短句进行分词处理，得到多个短句的分词列表；将分词列表与预设的语料库进行匹配，得到每个分词对应的标识，其中，语料库包含不同分词与各个标识之间的映射关系；将每个分词对应的标识转化为独热向量，得到疾病筛查文本中每个分词对应的独热向量。

在其中一个实施例中，上述语料库是对多个疾病筛查训练样本中的分词进行序列化处理所构建的。

图7又一个实施例提供的疾病筛查文本分类装置的结构示意图。在上述图5所示实施例的基础上，如图7所示，该装置还包括：训练模块14。

具体的，训练模块14，用于基于疾病筛查训练样本对预设的初始词嵌入网络进行训练，得到训练后的词嵌入网络；以及基于疾病筛查训练样本及训练后的词嵌入网络，对预设的初始文本分类网络进行训练，得到训练后的文本分类网络。。

图8又一个实施例提供的疾病筛查文本分类装置的结构示意图。在上述图7所示实施例的基础上，如图8所示，该装置还包括：优化模块15。

具体的，优化模块15，用于获取多个疾病筛查文本的分类结果，将疾病筛查文本的分类结果进行统计，得到统计结果；以及根据统计结果，对训练后的文本分类网络再次进行训练，得到优化的文本分类网络。

在其中一个实施例中，上述装置还包括更新模块，用于根据疾病筛查文本的分类结果与疾病筛查文本对应的医学影像，对疾病筛查模型进行更新。

关于疾病筛查文本分类装置的具体限定可以参见上文中对于疾病筛查文本分类方法的限定，在此不再赘述。上述疾病筛查文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种疾病筛查文本分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

本实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将疾病筛查文本中属于同一短句的各分词对应的特征向量垂直拼接，得到疾病筛查文本中各短句的特征矩阵；

将疾病筛查文本中各短句的特征矩阵输入文本分类网络，得到各短句的分类结果；

对各短句的分类结果做并集，得到疾病筛查文本的分类结果。

在一个实施例中，疾病筛查文本为肺结节筛查文本，分类结果包括以下内容中的至少一种：结节种类、结节所在位置。

对疾病筛查文本中的文本数据进行分句处理，得到多个短句；

对多个短句进行分词处理，得到多个短句的分词列表；

将分词列表与预设的语料库进行匹配，得到每个分词对应的标识，其中，语料库包含不同分词与各个标识之间的映射关系；

将每个分词对应的标识转化为独热向量，得到疾病筛查文本中每个分词对应的独热向量。

在一个实施例中，语料库是对多个疾病筛查训练样本中的分词进行序列化处理所构建的。

基于疾病筛查训练样本对预设的初始词嵌入网络进行训练，得到训练后的词嵌入网络；

基于疾病筛查训练样本及训练后的词嵌入网络，对预设的初始文本分类网络进行训练，得到训练后的文本分类网络。

获取多个疾病筛查文本的分类结果，将疾病筛查文本的分类结果进行统计，得到统计结果；

根据统计结果，对训练后的文本分类网络再次进行训练，得到优化的文本分类网络。

根据疾病筛查文本的分类结果与疾病筛查文本对应的医学影像，对疾病筛查模型进行更新。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对多个短句进行分词处理，得到多个短句的分词列表；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种疾病筛查文本分类方法，其特征在于，包括：

获取待分类的疾病筛查文本，并对所述疾病筛查文本进行序列化处理，利用对多个疾病筛查训练样本中的分词进行所述序列化处理所构建的语料库，得到所述疾病筛查文本中每个分词的标识对应的独热向量，其中，所述疾病筛查文本中所述语料库中未包含的分词用第一标识表示，所述每个分词对应的标识是将分词列表与所述语料库匹配得到的标识，所述分词列表根据所述疾病筛查文本得到；

将所述疾病筛查文本中每个分词对应的独热向量输入词嵌入网络，得到每个分词对应的特征向量；

将所述疾病筛查文本中属于同一短句的各分词对应的特征向量垂直拼接，得到所述疾病筛查文本中各短句的特征矩阵；

将所述疾病筛查文本中各短句的特征矩阵输入文本分类网络，得到所述各短句的分类结果，其中，所述分类结果包括结节种类、结节所在位置中的至少一种，所述各短句的特征矩阵的长度不小于最小特征矩阵长度；若所述分词列表的长度小于所述最小特征矩阵长度，则使用第二标识填充至所述分词列表的末尾，以使所述分词列表的长度不小于所述最小特征矩阵长度；

对所述各短句的分类结果做并集，得到所述疾病筛查文本的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述疾病筛查文本为肺结节筛查文本。

3.根据权利要求1所述的方法，其特征在于，所述对所述疾病筛查文本进行序列化处理，得到所述疾病筛查文本中每个分词对应的独热向量，包括：

对所述疾病筛查文本中的文本数据进行分句处理，得到多个短句；

对所述多个短句进行分词处理，得到所述多个短句的分词列表；

将所述分词列表与预设的语料库进行匹配，得到每个分词对应的标识，其中，所述语料库包含不同分词与各个标识之间的映射关系；

将所述每个分词对应的标识转化为独热向量，得到所述疾病筛查文本中每个分词对应的独热向量。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述疾病筛查训练样本及所述训练后的词嵌入网络，对预设的初始文本分类网络进行训练，得到训练后的文本分类网络。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取多个所述疾病筛查文本的分类结果，将所述疾病筛查文本的分类结果进行统计，得到统计结果；

根据所述统计结果，对所述训练后的文本分类网络再次进行训练，得到优化的文本分类网络。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述疾病筛查文本的分类结果与所述疾病筛查文本对应的医学影像，对疾病筛查模型进行更新。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。