CN110867231A

CN110867231A - 基于文本分类的疾病预测方法、装置、计算机设备及介质

Info

Publication number: CN110867231A
Application number: CN201911124341.9A
Authority: CN
Inventors: 任江涛; 吴晓茎
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-06

Abstract

本发明公开了一种基于文本分类的疾病预测方法、装置、计算机设备及介质，所述基于文本分类的疾病预测方法包括：获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据；将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据；将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据；基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。采用本发明所提供的基于文本分类的疾病预测方法、装置、计算机设备及介质解决了现有技术中疾病预测的准确率不高的问题。

Description

基于文本分类的疾病预测方法、装置、计算机设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于文本分类的疾病预测方法、装置、计算机设备及介质。

背景技术

随着计算机技术的发展，医疗管理系统越来越完善，同时积累了越来越多病人的电子病历数据。同时伴随着人工智能的发展，依靠病人的电子病历数据预测疾病也成为了眼下一个热门的研究课题。

目前，病人的电子病历数据主要包括：文本形式的病人数据和非文本形式的病人数据，然而，发明人发现，由于文本形式和非文本形式的不兼容，目前的疾病预测主要依赖于其中一种形式的病人数据，这往往导致因病人信息量匮乏而影响疾病预测的准确程度。

因此，如何提高疾病预测的准确率仍亟待解决。

发明内容

本发明各实施例提供一种基于文本分类的疾病预测方法、装置、计算机设备及存储介质，以解决相关技术中存在的疾病预测的准确率不高的问题。

其中，本发明所采用的技术方案为：

根据本发明的一个方面，一种基于文本分类的疾病预测方法，包括：获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据；将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据；将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据；基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

根据本发明的一个方面，一种基于文本分类的疾病预测装置，包括：数据获取模块，用于获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据；文本转换模块，用于将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据；文本拼接模块，用于将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据；文本分类模块，用于基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

根据本发明的一个方面，一种计算机设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的基于文本分类的疾病预测方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于文本分类的疾病预测方法。

在上述技术方案中，在获取到待诊断病人的电子病历数据之后，将电子病历数据中的非文本数据进行文本转换，并与电子病历数据中的文本数据拼接，得到待预测文本数据，进而基于疾病预测模型，对待预测文本数据进行疾病标签预测，得到疾病标签，由此，在疾病预测过程中，不仅使用了文本形式的病人数据，还使用了非文本形式的病人数据，避免了文本形式和非文本形式的不兼容性问题，从而解决了现有技术中疾病预测的准确率不高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种计算机设备的硬件结构框图。

图3是根据一示例性实施例示出的一种基于文本分类的疾病预测方法的流程图。

图4是图3对应实施例中步骤330在一个实施例的流程图。

图5是图4对应实施例中步骤333在一个实施例的流程图。

图6为图5对应实施例所涉及的类别化处理的实现示意图。

图7是图4对应实施例中步骤335在一个实施例的流程图。

图8为图7对应实施例所涉及的文本化处理的实现示意图。

图9是图3对应实施例中步骤350在一个实施例的流程图。

图10是图3对应实施例所涉及的疾病预测模型的结构示意图。

图11是图3对应实施例中步骤370在一个实施例的流程图。

图12是根据一示例性实施例示出的神经网络模型训练方法的流程图。

图13是根据一示例性实施例示出的一种基于文本分类的疾病预测装置的框图。

图14是根据一示例性实施例示出的一种计算机设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种基于文本分类的疾病预测方法所涉及的实施环境的示意图。该实施环境包括用户端110和服务端130。

具体地，用户端110，部署于医院、卫生所等医疗场所，用于提供病人的电子病历数据。该用户端110可以是台式电脑、笔记本电脑、平板电脑、智能手机、掌上电脑、便携移动终端等等电子设备，在此不构成具体限定。

服务端130，该服务端130可以是台式电脑、笔记本电脑、服务器等等计算机设备，还可以是由多台服务器构成的服务器集群，甚至是由多台服务器构成的云计算中心。其中，服务器是为用户提供后台服务的电子设备，例如，后台服务包括但不限于疾病预测服务等等。

服务端130与用户端110之间预先建立通信连接，并通过通信连接实现与用户端110的数据传输。传输的数据包括但不限于：病人的电子病历数据、疾病标签等等。

通过用户端110与服务端130的交互，用户端110将待诊断病人的电子病历数据上传至服务端130，以使服务端130提供疾病预测服务。

对于服务端130而言，在接收到用户端110上传的电子病历数据之后，便能够调用疾病预测服务，为待诊断病人预测出疾病标签，并反馈至用户端110。

图2是根据一示例性实施例示出的一种计算机设备的硬件结构框图。该种计算机设备适用于图1所示出实施环境中的服务端130。

需要说明的是，该种计算机设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种计算机设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的计算机设备200中的一个或者多个组件。

计算机设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，计算机设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。

具体地，电源210用于为计算机设备200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口，用于与外部设备交互。例如，进行图1所示出实施环境中用户端110与服务端130之间的交互。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制计算机设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对计算机设备200的一系列计算机可读指令。例如，基于文本分类的疾病预测装置可视为部署于计算机设备200的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是病人的电子病历数据等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成基于文本分类的疾病预测方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种基于文本分类的疾病预测方法适用于图1所示实施环境的服务端，该服务端的结构可以如图2所示。

该种实现药品推荐的模型训练方法可以由服务端执行，也可以理解为由服务端中运行的应用程序(即基于文本分类的疾病预测装置)执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为服务端加以说明，但是并不对此构成限定。

该种基于文本分类的疾病预测方法可以包括以下步骤：

步骤310，获取待诊断病人的电子病历数据。

其中，所述电子病历数据用于描述待诊断病人的病情，包括第一文本数据和非文本数据。

所述第一文本数据属于文本形式的病人数据，包括但不限于：入院记录、住院报告、病史和检查报告等等。

所述非文本数据属于非文本形式的病人数据，包括结构化数据，所述结构化数据包括但不限于：化验结果和体征信息。

在获得待诊断病人的电子病历数据，方可获知待诊断病人的病情，由此才有利于后续预测出该待诊断病人的疾病。

关于待诊断病人的电子病历数据的来源，可以是用户端实时上报的电子病历数据，也可以是计算机设备中预先存储的电子病历数据。那么，对于计算机设备而言，所获取到的电子病历数据，既可以是用户端实时上报的电子病历数据，还可以是计算机设备自身预先存储的电子病历数据，即读取一历史时间段内用户端上报的电子病历数据，此处并未加以限定。

换而言之，在获取到病人的电子病历数据之后，计算机设备既可以对该电子病历数据进行实时处理，还可以预先存储了再处理。例如，在计算机设备的CPU占用率较小的时候处理，或者，按照工作人员的指示处理。

步骤330，将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据。

如前所述，电子病历数据主要包括：文本形式的病人数据和非文本形式的病人数据，然而，发明人发现，由于文本形式和非文本形式的不兼容，目前的疾病预测主要依赖于其中一种形式的病人数据，这往往导致因病人信息量匮乏而影响疾病预测的准确程度。

基于此，本实施例中，通过电子病历数据中非文本数据的文本转换，在病人数据上实现文本形式和非文本形式的相互兼容，以此增加疾病预测中的病人信息量，进而充分地保障疾病预测的准确性。

下面针对包括结构化数据的非文本数据，对文本转换的过程加以说明。

如前所述，结构化数据至少包括化验结果和体征信息。发明人意识到，无论是化验结果，还是体征信息，都是由各项指标组成的。例如，血常规化验结果包括血小板压积指标、血红蛋白指标、红细胞指标、白细胞指标等等。

因此，对结构化数据进行文本转换，实质是针对结构化数据中的各项指标进行文本转换。

具体而言，在一实施例的实现中，如图4所示，步骤330可以包括以下步骤：

步骤331，从所述电子病历数据中提取得到所述结构化数据。

步骤333，对所述结构化数据中的各项指标进行类别化处理，得到类别化数据。其中，所述类别化数据中的各项类别一一对应于所述结构化数据中的各项指标。

步骤335，针对所述类别化数据中的各项类别，进行所述类别化数据的文本化处理，得到所述第二文本数据。

也就是说，针对结构化数据中的各项指标，文本转换处理包括类别化处理和文本化处理，从而将非文本形式的结构化数据转化为文本形式的第二文本数据。

其中，类别化处理，实质是将结构化数据中各项指标所包含的数字转换为文字表示。例如，血小板压积指标所包含的数字为“0.09％”，表示血小板在血浆中的浓度，经过类别化处理，得到的文字为“血小板压积_降低”。或者，氯测定指标所包含的数字为“70mmol/L”，表示氯离子在血浆中的浓度，经过类别化处理，得到的文字为“氯测定_降低”。

文本化处理，则是将类别化处理得到的类别化数据，按照分别对应于结构化数据中各项指标的各项类别，组合为第二文本数据。组合形式包括但不限于直接连接、通过特定字符(例如星号“*”)间接连接等等。

由此，非文本形式的病人数据便转换为文本形式的病人数据，以此避免非文本形式和文本形式的不兼容，进而有利于后续疾病预测时使用。

此外，通过将数字转换为文字表示，相当于在计算机设备中运行更轻量级的算法，即有效地降低了计算机设备的数据处理量，从而加强了疾病预测在不同计算机设备上的兼容性，例如，基于文本分类的疾病预测方法能够适用于配置较低的计算机设备。

步骤350，将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据。

其中，拼接，包括但不限于直接连接、通过特定字符(例如井号“#”)间接连接等等。

进一步地，发明人意识到，第二文本数据，是由结构化数据中的各项指标进行文本转换生成的，均为有效字段，而第一文本数据在用户端生成，可能存在无效字段、或者空白字段。

因此，在进行第一文本数据与第二文本数据的拼接之前，还可以对第一文本数据进行关于有效字段的预处理，来保证待预测文本数据仅包含有效字段，以利于提高后续疾病预测的准确率。

由此，疾病预测过程中，将能够充分使用电子病历数据中的非文本数据和文本数据，以此增强病人信息量，进而增强疾病预测的准确程度。

步骤370，基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

疾病预测模型，是由神经网络模型训练生成的，实质是在文本数据与疾病标签之间构建了数学映射关系。

那么，在得到待预测文本数据之后，方可基于疾病预测模型所构建的数学映射关系，由待预测文本数据预测得到与其具有数学映射关系的疾病标签。

其中，疾病标签，用于指示待诊断病人可能患有的疾病。

进一步地，发明人意识到，现有的疾病预测往往仅针对单一种类疾病的预测，例如，待诊断病人是否患有某种癌症，或者，待诊断病人是否患有阿尔茨海默症，这往往导致疾病预测的应用场景非常狭窄。

故而，在生成疾病预测模型时，将结合文本分类算法对神经网络模型加以训练，以此构建一种文本数据与多分类疾病标签之间的数学映射关系。

也就是说，疾病标签，用于指示待诊断病人可能患有的多种疾病。

进一步地，发明人还发现，现有的疾病预测通常未给出待诊断病人可能患有某种疾病相关的解释，使得医生不足以完全信任疾病预测结果。

因此，在生成疾病预测模型时，还将引入注意力(attention)机制对神经网络模型进行训练，以此增强疾病预测的可解释性。

也即是说，疾病标签，不仅能够指示待诊断病人可能患有的多种疾病，还用于指示待诊断病人患有某一种疾病的几率。

通过如上所述的过程，在疾病预测过程中，不仅使用了文本形式的病人数据，还使用了非文本形式的病人数据，避免了文本形式和非文本形式的不兼容性问题，从而有效地提高了疾病预测的准确率。

请参阅图5，在一示例性实施例中，步骤333可以包括以下步骤：

步骤3331，针对所述结构化数据中的每一项指标，确定该项指标对应的正常范围。

步骤3333，将该项指标中的指标值与该项指标对应的正常范围比较，得到该项指标对应的比较结果。

其中，某一项指标对应的比较结果，用于指示该项指标中的指标值是否在该项指标对应的正常范围之内。

例如，血小板压积指标中的血小板压积值为0.09％，该项血小板压积指标对应的正常范围为0.11％～0.28％，由于0.09％<0.11％，则比较结果为降低，用于指示血小板压积指标中的血小板压积值不在该项血小板压积指标对应的正常范围之内且偏低。

步骤3335，以该项指标对应的比较结果作为所述类别化数据中一项类别的类别值，以该项指标对应的指标名称作为该项类别的类别名称，生成对应于该项指标的该项类别。

步骤3337，根据所述结构化数据中各项指标分别对应的各项类别，得到所述类别化数据。

举例来说，如图6所示，首先，结构化数据包括表示血浆中HCO3浓度的HCO3指标、表示血浆中氯离子浓度的氯测定指标、表示单位体积的血浆中包含的血小板所占体积百分比的血小板压积指标。其中，该各项指标对应的指标名称分别为：HCO3、氯测定、血小板积压；该各项指标中的指标值分别为30mmol/L、70mmol/L、0.09％。

然后，HCO3指标对应的正常范围为21mmol/L～27mmol/L，氯测定指标对应的正常范围为98mmol/L～108mmol/L，血小板压积指标对应的正常范围为0.11％～0.28％。

针对结构化数据中的每一项指标，通过进行该项指标中的指标值与该项指标对应的正常范围之间的比较，由于30mmol/L>27mmol/L、70mmol/L<98mmol/L、0.09％<0.11％，故而，各项指标对应的比较结果分别为：增高、降低、降低，分别指示了HCO3指标中的HCO3值不在该项HCO3指标对应的正常范围之内且偏高、氯测定指标中的率测定值不在该项氯测定指标对应的正常范围之内且偏低、血小板压积指标中的血小板压积值不在该项血小板压积指标对应的正常范围之内且偏低。

由此，针对结构化数据中的每一项指标，以该项指标对应的比较结果作为类别化数据中一项类别的类别值，以该项指标对应的指标名称作为该项类别的类别名称，进而生成类别化数据中的各项类别。其中，类别化数据中的每一项类别一一对应于结构化数据中的每一项指标，即，对应于结构化数据中的HCO3指标、氯测定指标、血小板压积指标，类别化数据包括HCO3类别、氯测定类别、血小板压积类别。

最后，根据上述各项类别得到类别化数据。

此处应当说明的是，对于计算机设备而言，类别化数据可以通过矩阵表示，例如，如图6所示，矩阵中的第一行表示类别化数据中各项类别的类别名称，矩阵中的第二行表示类别化数据中各项类别的类别值，矩阵中的列则表示类别化数据中各项类别；还可以通过二元数组表示，本实施例对此并非构成具体限定。

在上述实施例的作用下，实现了非文本形式的病人数据的类别化处理，使得非文本形式的病人数据转化为文本形式的病人数据得以实现，进而有利于非文本形式的病人数据能够在疾病预测过程中使用。

请参阅图7，在一示例性实施例中，步骤335可以包括以下步骤：

步骤3351，针对所述类别化数据中的每一项类别，将该项类别的类别名称和类别值通过第一特定字符连接，生成对应于该项类别的一个文本化数据。

其中，第一特定字符，可以根据应用场景的实际需求灵活设置。本实施例中，第一特定字符为下划线“_”。

以前述例子进行说明，如图8所示，对于类别化数据中的HCO3类别而言，对应的文本化数据为“HCO3_增高”。

对于类别化数据中的氯测定类别而言，对应的文本化数据为“氯测定_降低”。

对于类别化数据中的血小板压积类别而言，对应的文本化数据为“血小板压积_降低”。

步骤3353，对所述类别化数据中各项类别分别对应的多个文本化数据通过第二特定字符连接，得到所述第二文本数据。

其中，第二特定字符，可以根据应用场景的实际需求灵活设置。本实施例中，第二特定字符为单斜杆“/”。

仍以前述例子进行说明，如图8所示，第二文本数据为：HCO3_增高/氯测定_降低/血小板压积_降低。

当然，在其他实施例中，类别名称与类别值之间、各项类别之间，也可以不通过特定字符直接连接，即第二文本数据为“HCO3增高氯测定降低血小板压积降低”，本实施例并非对此构成具体限定。

在上述过程中，实现了类别化数据的文本化处理，使得非文本形式的病人数据在疾病预测过程中使用得以实现，进而增强病人信息量，有利于提高疾病预测的准确率。

请参阅图9，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，从所述电子病历数据中提取出所述第一文本数据。

步骤353，进行所述第一文本数据关于特定字段的过滤，得到第三文本数据。

发明人意识到，对于电子病历数据中第一文本数据可能包含的入院记录、住院报告、病史和检查报告而言，可能存在“无”、“未提及”、“待查”、“未及”等无效字段，还可能存在空白字段。

因此，本实施例中，需要对第一文本数据进行关于有效字段的预处理，以此充分保障参与疾病预测的文本数据均为有效字段，进而提高疾病预测的准确率。

其中，预处理包括但不限于：设置特定字段、设置“NULL”字段、过滤特定字段等等。

具体地，首先，设置特定字段。本实施例中，特定字段包括：“无”、“未提及”、“待查”、“未及”无效字段、“NULL”空白字段。当然，在其他实施例中，特定字段可以根据应用场景的实际需求灵活设置，本实施例并非对此构成具体限定。

然后，搜索第一文本数据中的空白字段，将搜索到的空白字段设置为“NULL”。

最后，针对上述特定字段，对第一文本数据进行过滤，即将第一文本数据中“无”、“未提及”、“待查”、“未及”无效字段，以及“NULL”空白字段剔除，仅保留剩余的有效字段。

由此，第三文本数据，实质为仅包含有效字段的第一文本数据。

步骤355，将所述第二文本数据中的各字段与所述第三文本数据中的各字段连接，得到所述待预测文本数据。

应当理解，第二文本数据，是由结构化数据中的各项指标进行文本转换生成的，并不存在“无”、“未提及”、“待查”、“未及”等无效字段，也不存在“NULL”等空白字段。也可以认为，第二文本数据中的各字段，均为有效字段。

因此，在获得第二文本数据和第三文本数据之后，便可连接得到待预测文本数据。也即是，待预测文本数据，仅包含有效字段。

其中，连接，可以是有效字段之间直接连接，还可以是有效字段之间通过特定字符(例如单斜杆“/”)间接连接，此处并未加以限定。

在上述实施例的作用下，实现了待预测文本数据的生成，使得依赖于待预测文本数据进行的疾病预测得以实现，亦即使得疾病预测过程中能够充分使用电子病历数据中的非文本数据和文本数据，以此增强了疾病预测过程中的病人信息量，进而增强了疾病预测的准确程度。

请参阅图10，在一示例性实施例中，所述疾病预测模型包括嵌入(embedding)层、双向长短期记忆(LSTM)层、自注意力(self-attention)层和输出层。

其中，嵌入层采用字符级别的embedding，以此克服医学领域中文本数据所涉及医学术语规模过于庞大而导致分词处理不够精准的问题。双向长短期记忆层，由于具备出色的数字序列建模能力，不仅有利于文本数据上下文信息的提取，而且能够很好地避免地因梯度消失而导致模型训练不足的问题。自注意力层，进一步聚焦于文本数据的语义表达，亦即语义特征的提取，从而能够更加精准地表示文本数据。

现结合图10所示出的疾病预测模型的结构，对疾病预测过程加以详细地说明如下。

在一实施例的实现中，如图11所示，步骤370可以包括以下步骤：

步骤371，基于所述嵌入层，对所述待预测文本数据中的各字段进行数字编码，得到所述待预测文本数据对应的数字序列。

其中，数字编码，实质是基于嵌入层的字符字典，在该字符字典中搜索与待预测文本数据中各字段所包含字符相匹配的标准字符，进而根据搜索到的标准字符在该字符字典中对应的数字编号，将待预测文本数据中各字段所包含字符对应转换为字符字典中的数字编号，进而形成待预测文本数据对应的数字序列。

也即是说，待预测文本数据对应的数字序列，实质是由字符字典中的数字编号拼接形成的。

此处应当说明的是，字符字典，实质上在标准字符与数字编号之间建立了一一对应关系，也可以理解为，字符字典，是标准字符所对应数字编号的集合。例如，标准字符单斜杆“/”对应的数字编号为1，标准字符下划线“_”对应的数字编号为2，本实施例对此并未加以限定。

步骤373，将所述待预测文本数据对应的数字序列输入至所述双向长短期记忆层，对所述待预测文本数据进行前向学习和后向学习，得到所述待预测文本数据对应的上下文信息。

步骤375，利用所述自注意力层提供的权重系数，并结合所述待预测文本数据对应的上下文信息，进行所述待预测文本数据的语义特征提取，得到所述待预测文本数据对应的语义特征。

发明人意识到，病人的电子病历数据通常比较长，相应地，待预测文本数据对应的上下文信息也相对较多，然而，并不是所有的上下文信息都有利于疾病预测，也可以理解为，并非所有的上下文信息均能够为疾病预测提供有效信息，因此，本实施例中，在疾病预测模型中，引入自注意力机制，使得疾病预测过程中，对于待预测文本数据对应的上下文信息而言，有效程度高的上下文信息被重点关注，而有效程度低的上下文信息则被降低关注度。

具体地，设置自注意力层，利用自注意力层提供的权重系数，来表示待预测文本数据对应上下文信息的有效程度。

此外，通过自注意力机制的引入，还有利于增强疾病预测的可解释性，即自注意力层输出的权重系数越高，表示待诊断病人患有某一种疾病的几率越大。

步骤377，基于所述输出层的分类器，对所述待预测文本数据对应的语义特征进行疾病诊断分类，得到所述疾病标签。

其中，所述疾病标签包括若干个疾病诊断及其对应的权重系数。

举例来说，假设疾病诊断类别包括A疾病、B疾病、C疾病，分别对应于自注意力层输出的权重系数a、b、c。

以softmax激活函数作为输出层的分类器，则基于softmax激活函数，对待预测文本数据对应的语义特征进行疾病诊断分类，实质是计算待预测文本数据所属疾病诊断类别的概率。

进一步地，待预测文本属于A疾病的概率为P1，待预测文本属于B疾病的概率为P2，待预测文本属于C疾病的概率为P3。

此时，基于预先设定的概率阈值P0，如果P1>P0，则将A疾病及其对应的权重系数a添加至疾病标签；反之，如果P1<P0，则疾病标签中不添加A疾病及其对应的权重系数a。

同理，如果P2>P0，则将B疾病及其对应的权重系数b添加至疾病标签；反之，如果P2<P0，则疾病标签中不添加B疾病及其对应的权重系数b。

如果P3>P0，则将C疾病及其对应的权重系数c添加至疾病标签；反之，如果P3<P0，则疾病标签中不添加C疾病及其对应的权重系数c。

进一步假设，P1>P0、P2>P0、P3<P0，此时，疾病标签包含A疾病及其对应的权重系数a、B疾病及其对应的权重系数b。

当然，在其他实施例，不局限于预先设定概率阈值P0，而是首先对计算得到的待预测文本数据所属疾病诊断类别的概率进行排序，然后取概率位于前K名的待预测文本数据所属疾病诊断类别及其对应的权重系数添加至疾病标签，本实施例对此并非构成具体限定。其中，K的取值可以根据应用场景的实际需求灵活设置，在此并未加以限定。

由此，实现了基于神经网络的疾病预测，不仅使用了文本形式的病人数据，还使用了非文本形式的病人数据，有效地提高了疾病预测的准确率。

此外，疾病预测过程中，不仅通过疾病标签中的疾病诊断类别，指出了待诊断病人可能患有的多种疾病，而且通过疾病标签中该疾病诊断类别所对应的权重系数，还指出了待诊断病人患有某一种疾病的几率，使得医生更加明白疾病诊断依据的来源，以此增强了疾病预测的可解释性，从而增加疾病预测结果的可信度。

请参阅图12，在一示例性实施例中，步骤370之前，如上所述的方法还可以包括以下步骤：

对所述神经网络模型进行训练，生成所述疾病预测模型。

其中，神经网络模型的训练，实质是对神经网络模型的参数进行优化，使得文本数据与疾病标签之间的数学映射关系达到最优。

下面对神经网络模型的训练过程进行详细地说明。

步骤810，获取已诊断病人的电子病历数据，生成携带疾病标签的病人数据。

步骤830，将携带疾病标签的病人数据划分为训练数据集合和验证数据集合。

其中，划分比例，可以根据应用场景的实际需求灵活设置，例如，训练数据集合和验证数据集合的划分比例为9:1。

步骤850，采用随机梯度下降算法，根据所述训练数据集合对所述神经网络模型的参数进行优化。

具体而言，对神经网络模型的参数执行随机初始化，并基于随机初始化的参数和训练数据集合中的第一个训练数据，计算神经网络模型对应损失函数的损失值。

如果该损失值达到最小，则视为神经网络模型收敛，此时，执行步骤870。

反之，如果该损失值未达到最小，则基于随机梯度下降算法的反向传播，更新神经网络模型的参数，并重复执行步骤850，即基于更新的参数和训练数据集合中的第二个训练数据，计算神经网络模型对应损失函数的损失值，直至该损失值达到最小。

当然，考虑模型训练效率，还可以设置迭代次数，该迭代次数可以根据应用场景的实际需求灵活设置，例如，对疾病预测的准确率要求较高的应用场景，设置较大的迭代次数。

此时，如果迭代次数达到最大，即使该损失值未达到最小，也停止迭代，视为神经网络模型收敛，并执行步骤870。

步骤870，当优化的参数使得所述神经网络模型收敛，根据所述验证数据集合对收敛的神经网络模型进行疾病预测验证，得到验证结果。

其中，验证结果，用于指示神经网络模型的收敛趋势是否趋近于平缓，也可以理解为，验证结果，指示了模型训练的训练效果提升是否明显。

如果验证结果指示神经网络模型的收敛趋势趋近于平缓，即模型训练的训练效果提升已经不明显，则没必要再继续进行模型训练，此时，执行步骤890。

反之，如果验证结果指示神经网络模型的收敛趋势未趋近于平缓，即模型训练的训练效果提升仍然较为明显，则可以继续进行模型训练，此时返回执行步骤850。

步骤890，如果所述验证结果指示所述神经网络模型的收敛趋势趋近于平缓，则所述神经网络模型收敛为所述疾病预测模型。

由此，在完成神经网络模型的训练，即神经网络模型收敛得到疾病预测模型之后，该疾病预测模型便具有了疾病预测能力，方能够在获得待诊断病人的电子病历数据之后，为待诊断病人提供疾病预测服务。

下述为本发明装置实施例，可以用于执行本发明所涉及的基于文本分类的疾病预测方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的基于文本分类的疾病预测方法的方法实施例。

请参阅图13，在一示例性实施例中，一种基于文本分类的疾病预测装置900包括但不限于：数据获取模块910、文本转换模块930、文本拼接模块950和文本分类模块970。

其中，数据获取模块910，用于获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据。

文本转换模块930，用于将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据。

文本拼接模块950，用于将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据。

文本分类模块970，用于基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

需要说明的是，上述实施例所提供的基于文本分类的疾病预测装置在进行基于文本分类的疾病预测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即基于文本分类的疾病预测装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的基于文本分类的疾病预测装置与基于文本分类的疾病预测方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图14，在一示例性实施例中，一种计算机设备1000，包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的基于文本分类的疾病预测方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的基于文本分类的疾病预测方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于文本分类的疾病预测方法，其特征在于，包括：

获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据；

将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据；

将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据；

基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

2.如权利要求1所述的方法，其特征在于，所述非文本数据包括结构化数据，所述结构化数据包括化验结果和体征信息；

所述对所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据，包括：

从所述电子病历数据中提取得到所述结构化数据；

对所述结构化数据中的各项指标进行类别化处理，得到类别化数据，所述类别化数据中的各项类别一一对应于所述结构化数据中的各项指标；

针对所述类别化数据中的各项类别，进行所述类别化数据的文本化处理，得到所述第二文本数据。

3.如权利要求2所述的方法，其特征在于，所述对所述结构化数据中的各项指标进行类别化处理，得到类别化数据，包括：

针对所述结构化数据中的每一项指标，确定该项指标对应的正常范围；

将该项指标中的指标值与该项指标对应的正常范围比较，得到该项指标对应的比较结果；

以该项指标对应的比较结果作为所述类别化数据中一项类别的类别值，以该项指标对应的指标名称作为该项类别的类别名称，生成对应于该项指标的该项类别；

根据所述结构化数据中各项指标分别对应的各项类别，得到所述类别化数据。

4.如权利要求2所述的方法，其特征在于，所述针对所述类别化数据中的各项类别，进行所述类别化数据的文本化处理，得到所述第二文本数据，包括：

针对所述类别化数据中的每一项类别，将该项类别的类别名称和类别值通过第一特定字符连接，生成对应于该项类别的一个文本化数据；

对所述类别化数据中各项类别分别对应的多个文本化数据通过第二特定字符连接，得到所述第二文本数据。

5.如权利要求1所述的方法，其特征在于，所述第一文本数据包括病史和检查报告；

所述将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据，包括：

从所述电子病历数据中提取出所述第一文本数据；

进行所述第一文本数据关于特定字段的过滤，得到第三文本数据；

将所述第二文本数据中的各字段与所述第三文本数据中的各字段连接，得到所述待预测文本数据。

6.如权利要求1至5任一项所述的方法，其特征在于，所述疾病预测模型包括嵌入层、双向长短期记忆层、自注意力层和输出层；

所述基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签，包括：

基于所述嵌入层，对所述待预测文本数据中的各字段进行数字编码，得到所述待预测文本数据对应的数字序列；

将所述待预测文本数据对应的数字序列输入至所述双向长短期记忆层，对所述待预测文本数据进行前向学习和后向学习，得到所述待预测文本数据对应的上下文信息；

利用所述自注意力层提供的权重系数，并结合所述待预测文本数据对应的上下文信息，进行所述待预测文本数据的语义特征提取，得到所述待预测文本数据对应的语义特征；

基于所述输出层的分类器，对所述待预测文本数据对应的语义特征进行疾病诊断分类，得到所述疾病标签，所述疾病标签包括若干个疾病诊断及其对应的权重系数。

7.如权利要求1至5任一项所述的方法，其特征在于，所述基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签之前，所述方法还包括：

对所述神经网络模型进行训练，生成所述疾病预测模型；

所述对所述神经网络模型进行训练，生成所述疾病预测模型，包括：

获取已诊断病人的电子病历数据，生成携带疾病标签的病人数据；

将携带疾病标签的病人数据划分为训练数据集合和验证数据集合；

采用随机梯度下降算法，根据所述训练数据集合对所述神经网络模型的参数进行优化；

当优化的参数使得所述神经网络模型收敛，根据所述验证数据集合对收敛的神经网络模型进行疾病预测验证，得到验证结果；

如果所述验证结果指示所述神经网络模型的收敛趋势趋近于平缓，则所述神经网络模型收敛为所述疾病预测模型。

8.一种基于文本分类的疾病预测装置，其特征在于，包括：

数据获取模块，用于获取待诊断病人的电子病历数据，所述电子病历数据包括第一文本数据和非文本数据；

文本转换模块，用于将所述电子病历数据中的非文本数据进行文本转换，生成第二文本数据；

文本拼接模块，用于将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接，得到待预测文本数据；

文本分类模块，用于基于由神经网络模型训练生成的疾病预测模型，对所述待预测文本数据进行疾病标签预测，得到疾病标签。

9.一种计算机设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的基于文本分类的疾病预测方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于文本分类的疾病预测方法。