CN114020914A

CN114020914A - 医疗文本分类方法、装置、电子设备及存储介质

Info

Publication number: CN114020914A
Application number: CN202111296341.4A
Authority: CN
Inventors: 张萌; 周玉
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08

Abstract

本公开提供了一种医疗文本分类方法，包括：将待分类文本通过词向量映射，生成词向量；将词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及将特征向量通过分类器进行分类，生成待分类文本的类别。本公开还提供了一种医疗文本分类装置、电子设备以及可读存储介质。

Description

医疗文本分类方法、装置、电子设备及存储介质

技术领域

本公开涉及一种医疗文本分类方法、装置、电子设备以及可读存储介质。

背景技术

文本分类的相关技术已经取得了很大进展，但是在医疗领域中，文本分类任务与普通场景下的文本分类任务有一定区别，主要表现为两点，一是医疗领域专业性较强，含有大量的医学专业名称，二是类别不均衡的问题，类别不均衡导致模型在学习过程中严重倾向于多数类，无法学习到少数类别的特征。预训练语言模型BERT经过大量词汇训练集的训练，学习到大量语言、句法、语义信息，如何将BERT通过微调技术迁移到医疗行业应用领域，以解决医疗文本领域的语言术语特性带来的问题以及类别不均衡问题，使医疗文本分类重点研究方向。

发明内容

为了解决上述技术问题中的至少一个，本公开提供一种医疗文本分类方法、装置、电子设备及可读存储介质。

根据本公开的一个方面，提供一种医疗文本分类方法，包括：

将待分类文本通过词向量映射，生成词向量；

将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及，

将所述特征向量通过分类器进行分类，生成待分类文本的类别。

根据本公开至少一个实施方式的医疗文本分类方法，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

根据本公开至少一个实施方式的医疗文本分类方法，所述医疗语言模型的构建方法包括：

通过基础语言模型的权重初始化医疗语言模型的权重；以及，

将带掩码的训练语料输入医疗语言模型并训练模型。

根据本公开至少一个实施方式的医疗文本分类方法，所述带掩码的训练语料包括：

随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料，所述遮盖或替换的文字通过上下文的理解进行预测。

根据本公开至少一个实施方式的医疗文本分类方法，将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量，包括：

将词向量输入输入层，词向量表示为

其中，X_i表示句中第i个字的k维向量，符号

表示拼接运算，X_1：n为n*k维矩阵；

将输入层处理之后的向量输入卷积层；以及，

将卷积层处理之后的向量输入池化层，输出特征向量，所述池化层采用最大池化操作以取得特征中的最大值。

根据本公开至少一个实施方式的医疗文本分类方法，所述文本卷积神经网络还可以包括全连接层，所述全连接层将池化层输出的特征进行拼接。

根据本发明的又一个方面，提供一种医疗文本分类装置，包括：

向量映射模块，将待分类文本通过词向量映射，生成词向量；

特征向量提取模块，将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及，

分类模块，将所述特征向量通过分类器进行分类，生成待分类文本的类别。

根据本公开至少一个实施方式的医疗文本分类装置，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

根据本公开至少一个实施方式的医疗文本分类装置，所述医疗语言模型的构建方法包括：

将带掩码的训练语料输入医疗语言模型并训练模型。

根据本公开至少一个实施方式的医疗文本分类装置，所述带掩码的训练语料包括：

根据本公开至少一个实施方式的医疗文本分类装置，将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量，包括：

将词向量输入输入层，词向量表示为

其中，X_i表示句中第i个字的k维向量，符号

表示拼接运算，X_1：n为n*k维矩阵；

将输入层处理之后的向量输入卷积层；以及，

根据本公开至少一个实施方式的医疗文本分类装置，所述文本卷积神经网络还可以包括全连接层，所述全连接层将池化层输出的特征进行拼接。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；以及，

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的方法。

根据本公开的又一个方面，提供一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的电子病历文本事件抽取方法流程示意图。

图2是根据本公开的又一个实施方式的电子病历文本事件抽取方法流程示意图。

附图标记说明

1000 医疗文本分类装置

1002 向量映射模块

1004 特征向量提取模块

1006 分类模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1是根据本公开至少一个实施方式的医疗文本分类方法流程示意图。

如图1所示，医疗文本分类方法S100，包括：

S102：将待分类文本通过词向量映射，生成词向量；

S104：将词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及

S106：将特征向量通过分类器进行分类，生成待分类文本的类别。

其中，分类器可以是Softmax分类器。

其中，文本卷积神经网络为TextCNN。

其中，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

其中，医疗语言模型的构建方法包括：

通过基础语言模型的权重初始化医疗语言模型的权重；以及

将带掩码的训练语料输入医疗语言模型并训练模型。

其中，基于语言模型可以是Bert模型。

其中，带掩码的训练语料包括：

随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料，遮盖或替换的文字通过上下文的理解进行预测。

根据本公开至少一个实施方式的医疗文本分类方法，将词向量输入文本卷积神经网络进行特征提取，生成特征向量，包括：

将词向量输入输入层，词向量表示为

其中，X_i表示句中第i个字的k维向量，符号

表示拼接运算，X_1：n为n*k维矩阵；

将输入层处理之后的向量输入卷积层；以及

将卷积层处理之后的向量输入池化层，输出特征向量，池化层采用最大池化操作以取得特征中的最大值。

其中，文本卷积神经网络还可以包括全连接层，全连接层将池化层输出的特征进行拼接。

图2是根据本公开至少一个实施方式的医疗文本分类装置结构示意图。

如图2所示，医疗文本分类装置1000，包括：

向量映射模块1002，将待分类文本通过词向量映射，生成词向量；

特征向量提取模块1004，将词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及

分类模块1006，将特征向量通过分类器进行分类，生成待分类文本的类别。

其中，分类器可以是Softmax分类器。

其中，文本卷积神经网络为TextCNN。

其中，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

其中，医疗语言模型的构建方法包括：

通过基础语言模型的权重初始化医疗语言模型的权重；以及

将带掩码的训练语料输入医疗语言模型并训练模型。

其中，基于语言模型可以是Bert模型。

其中，带掩码的训练语料包括：

将词向量输入输入层，词向量表示为

其中，X_i表示句中第i个字的k维向量，符号

表示拼接运算，X_1：n为n*k维矩阵；

将输入层处理之后的向量输入卷积层；以及

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，存储器存储执行指令；以及

处理器，处理器执行存储器存储的执行指令，使得处理器执行上述任一项的方法。

根据本公开的又一个方面，提供一种可读存储介质，其特征在于，可读存储介质中存储有执行指令，执行指令被处理器执行时用于实现上述任一项的方法。

本发明提供的医疗文本分类方法，将Bert预训练语言模型迁移至医疗领域，通过医疗领域文本进一步训练，融合TextCNN模型，通过一维卷积对短文本浅层特征提取，增强其在当前任务重的语义表示质量。实验结果表面，相对于其他医疗文本分类方法，本发明提出的方法可以显著提升分类性能。

本发明涉及的装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种医疗文本分类方法，其特征在于，包括：

将待分类文本通过词向量映射，生成词向量；

将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及

2.根据权利要求1所述的医疗文本分类方法，其特征在于，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

3.根据权利要求2所述的医疗文本分类方法，其特征在于，所述医疗语言模型的构建方法包括：

通过基础语言模型的权重初始化医疗语言模型的权重；以及

将带掩码的训练语料输入医疗语言模型并训练模型。

4.根据权利要求3所述的医疗文本分类方法，其特征在于，所述带掩码的训练语料包括：

5.根据权利要求1所述的医疗文本分类方法，其特征在于，将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量，包括：

将词向量输入输入层，词向量表示为

其中，X_i表示句中第i个字的k维向量，符号

表示拼接运算，X_1：n为n*k维矩阵；

将输入层处理之后的向量输入卷积层；以及

6.根据权利要求5所述的医疗文本分类方法，其特征在于，所述文本卷积神经网络还可以包括全连接层，所述全连接层将池化层输出的特征进行拼接。

7.一种医疗文本分类装置，其特征在于，包括：

特征向量提取模块，将所述词向量输入文本卷积神经网络进行特征提取，生成特征向量；以及

8.根据权利要求7所述的医疗文本分类方法，其特征在于，将待分类文本通过词向量映射，生成词向量，包括：

将待分类文本输入医疗语言模型，生成词向量。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至6中任一项所述的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至6中任一项所述的方法。