CN114020915A

CN114020915A - 用于医疗文本分类的决策树构建方法及装置

Info

Publication number: CN114020915A
Application number: CN202111296348.6A
Authority: CN
Inventors: 张萌; 周玉
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08

Abstract

本公开提供一种用于医疗文本分类的决策树构建方法，包括：构建训练集；构建属性集；如果训练集的各个样本都属于相同类别，则将节点标记为一个类别的叶节点，决策树构建完成，结束；如果属性集为空或无法对训练集进一步划分，则将当前训练集所在的节点标记为叶节点；以及遍历属性集中的每一个属性，选择最优划分属性，将训练集划分为若干子集，如果子集为空，则将包含训练集的分支节点标记为叶节点，类别记为训练集中样本最多的类，构建结束，否则继续遍历。本公开还提供了一种用于医疗文本分类的决策树构建装置、电子设备以及可读存储介质。

Description

用于医疗文本分类的决策树构建方法及装置

技术领域

本公开涉及一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质，属于文本分类技术领域。

背景技术

文本分类的相关技术已经取得了很大进展，但是在医疗领域中，文本分类任务与普通场景下的文本分类任务有一定区别，一是表现为医疗领域专业性较强，含有大量的医学专业名称，二是表现为医疗文本类别不均衡的问题，是困扰医疗文本分类准确性的关键，类别不均衡导致模型在学习过程中严重倾向于多数类，无法学习到少数类别的特征。在构建用于医疗文本分类的决策树中，如何解决医疗文本类别不均衡可能导致的特征缺失问题，将会影响决策树对于医疗文本分类的效果。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质。

根据本公开的一个方面，提供一种用于医疗文本分类的决策树构建方法，包括：

构建训练集D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}，其中，xi表示训练集中的各个样本，yi表示训练集中的样本对应的类别；

构建属性集A＝{a₁，a₂，a₃……，a_d}，其中，a_d表示属性；

如果训练集D的各个样本xi都属于相同类别，则将节点标记为一个类别的叶节点，决策树构建完成，结束；

如果属性集A为空或无法对训练集D进一步划分，则将当前训练集所在的节点标记为叶节点；以及，

遍历属性集中的每一个属性，选择最优划分属性，将训练集D划分为若干子集Dv，如果Dv为空，则将包含训练集D的分支节点标记为叶节点，类别记为训练集D中样本最多的类，构建结束，否则继续遍历。

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法，所述属性集A的构成包括：对训练文本进行分词，统计各个词的词频，将每个词作为属性集A的组成。

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法，所述属性集A通过基尼指数划分的方法获取。

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法，通过基尼指数划分的方法，包括：

对于属性集A中的每一个属性a，逐一计算各个属性的基尼指数；以及，

选取基尼指数值最小的属性作为最终划分集合属性。

根据本公开的又一个方面，提供一种用于医疗文本分类的决策树构建装置，包括：

训练集构建模块，用于构建训练集，训练集D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}，其中，xi表示训练集中的各个样本，yi表示训练集中的样本对应的类别；

属性集构建模块，用于构建属性集，属性集A＝{a₁，a₂，a₃……，a_d}，其中，a_d表示属性；

决策树生成模块，基于训练集和属性集生成决策树，包括：

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置，所述属性集A的构成包括：对训练文本进行分词，统计各个词的词频，将每个词作为属性集A的组成。

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置，所述属性集A通过基尼指数划分的方法获取。

根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置，通过基尼指数划分的方法，包括：

对于属性集A中的每一个特征属性a，逐一计算各个属性的基尼指数；以及，

选取基尼指数值最小的属性作为最终划分集合属性。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；以及，

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的方法。

根据本公开的又一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的用于医疗文本分类的决策树构建方法流程示意图。

图2是根据本公开的一个实施方式的用于医疗文本分类的决策树构建装置结构示意图

附图标记说明

1000 决策树构建装置

1002 训练集构建模块

1004 属性集构建模块

1006 决策树生成模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

如图1所示，用于医疗文本分类的决策树构建方法S100，包括：

S102：构建训练集D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}，其中，xi表示训练集中的各个样本，yi表示训练集中的样本对应的类别；

S104：构建属性集A＝{a₁，a₂，a₃……，a_d}，其中，a_d表示属性；

S106：如果训练集D的各个样本xi都属于相同类别，则将节点标记为一个类别的叶节点，决策树构建完成，结束；

S108：如果属性集A为空或无法对训练集D进一步划分，则将当前训练集所在的节点标记为叶节点；以及，

S110：遍历属性集中的每一个属性，选择最优划分属性，将训练集D划分为若干子集Dv，如果Dv为空，则将包含训练集D的分支节点标记为叶节点，类别记为训练集D中样本最多的类，构建结束，否则继续遍历。

其中，属性集A的构成包括：对训练文本进行分词，统计各个词的词频，将每个词作为属性集A的组成。

其中，属性集A通过基尼指数划分的方法获取。

其中，通过基尼指数划分的方法，包括：

选取基尼指数值最小的属性作为最终划分集合属性。

图2是根据本公开的实施方式的用于医疗文本分类的决策树构建装置结构示意图。

如图2所示，用于医疗文本分类的决策树构建装置1000，包括：

训练集构建模块1002，用于构建训练集，训练集D＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}，其中，xi表示训练集中的各个样本，yi表示训练集中的样本对应的类别；

属性集构建模块1004，用于构建属性集，属性集A＝{a₁，a₂，a₃……，a_d}，其中，a_d表示属性；以及，

决策树生成模块1006，基于训练集和属性集生成决策树，包括：

其中，属性集A通过基尼指数划分的方法获取。

其中，通过基尼指数划分的方法，包括：

选取基尼指数值最小的属性作为最终划分集合属性。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，存储器存储执行指令；以及，

处理器，处理器执行存储器存储的执行指令，使得处理器执行上述任一项的方法。

根据本公开的又一个方面，提供一种可读存储介质，可读存储介质中存储有执行指令，执行指令被处理器执行时用于实现上述任一项的方法。

本发明提供的用于医疗文本分类的决策树构建方法，通过该方法构建的决策树，可以用于医疗文本分类，提高医疗文本分类准确性。

本发明涉及的装置采用处理系统的硬件实现方式，可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种用于医疗文本分类的决策树构建方法，其特征在于，包括：

如果属性集A为空或无法对训练集D进一步划分，则将当前训练集所在的节点标记为叶节点；以及

2.根据权利要求1所述的用于医疗文本分类的决策树构建方法，其特征在于，所述属性集A的构成包括：对训练文本进行分词，统计各个词的词频，将每个词作为属性集A的组成。

3.根据权利要求2所述的用于医疗文本分类的决策树构建方法，其特征在于，所述属性集A通过基尼指数划分的方法获取。

4.根据权利要求3所述的用于医疗文本分类的决策树构建方法，其特征在于，通过基尼指数划分的方法，包括：

对于属性集A中的每一个属性，逐一计算各个属性的基尼指数；以及

选取基尼指数值最小的属性作为最终划分集合属性。

5.一种用于医疗文本分类的决策树构建装置，其特征在于，包括：

决策树生成模块，基于训练集和属性集生成决策树，包括：

6.根据权利要求5所述的用于医疗文本分类的决策树构建装置，其特征在于，所述属性集A的构成包括：对训练文本进行分词，统计各个词的词频，将每个词作为属性集A的组成。

7.根据权利要求6所述的用于医疗文本分类的决策树构建装置，其特征在于，所述属性集A通过基尼指数划分的方法获取。

8.根据权利要求7所述的用于医疗文本分类的决策树构建装置，其特征在于，通过基尼指数划分的方法，包括：

选取基尼指数值最小的属性作为最终划分集合属性。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至4中任一项所述的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至4中任一项所述的方法。