CN115238026A

CN115238026A - 一种基于深度学习的医疗文本主题分割方法和装置

Info

Publication number: CN115238026A
Application number: CN202211063287.3A
Authority: CN
Inventors: 李修明; 张弛
Original assignee: Basebit Shanghai Information Technology Co ltd; Wing Fang Jianshu Beijing Information Technology Co ltd
Current assignee: Basebit Shanghai Information Technology Co ltd; Wing Fang Jianshu Beijing Information Technology Co ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-10-25

Abstract

本发明公开了一种基于深度学习的医疗文本主题分割方法和装置，涉及机器学习技术领域。方法包括：基于来自多家医院中的原始病程文本数据建立医疗领域的语料库；对建立的语料库进行无监督训练得到词向量模型，并将语料库中的每一个词语映射为低维稠密向量；对得到的低维稠密向量提取时序特征，并进行语料库中词语主题段落序列的标注的学习，得到医疗文本主题分割模型；将待分割医疗文本依次输入到词向量模型和医疗文本主题分割模型中，输出主题段落序列的预测结果。本发明可以在存在较多噪音和较少标注数据的医疗文本数据集上，训练得到一个病程文本领域特定的轻量深度学习模型，通过该学习模型同时对病程文本完成高效率的文本分割和主题标注。

Description

一种基于深度学习的医疗文本主题分割方法和装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种基于深度学习的医疗文本主题分割方法和装置。

背景技术

主题分割(Topic Segmentation)，即将一段整体的文本根据其内部逻辑关系，将其分割成多个线性序列的主题块，用于信息索引或者文本总结。对于不同的应用场景和任务需要，上述提及的“主题”的定义也会有所不同，比如“主题”可以是医疗病程文本场景下的主诉、病史、检查和治疗方案等，也可以是会议记录文本场景下的参会人员、议题、议程和总结等。

在传统的主题分割模型中，模型的任务是只需找到主题块之间的边界，确保主题块内部逻辑的连贯和一致，而无需确定主题块的具体主题归属，因而整体多为无监督学习。从最初的TextTilling，通过计算不同文本块之间词汇在向量空间的余弦相似度来确定边界，到动态规划(Dynamic Programming)的引入，以上都没有使用任何机器学习，仅仅依靠语言学上的概念(如词共现、线索词、词的转移与变换等)进行文本分割；再到基于LDA等主题模型进行分割，再到如今的基于BERT的深度学习无监督主体分割模型，该任务的解决方案更新和效果优化一直推进。

具体来说：

1、基于词汇分布变化，其思路是主题的变化是由所用词表的变化体现的，通过统计方法寻找词汇变化剧烈的位置，其可以判定为主题分割边界，如TextTilling，LcSeg等。这种方法对于数据中噪音较为敏感，仅能寻找边界，先验条件要求较为严格。

2、基于生成模型，该方法认为文档是从一系列的具有特有的词的分布的主题生成的，因而当主题变化时，词的分布也发生变化，从而确定边界，如基于LDA的主题分割模型。当文档太短时会不利于训练生成模型，虽然可以用词语体现段落主题，但无法捕捉主题段落之间的逻辑关系。

3、基于语言特征，该方法尝试从训练语料中使用深度学习等方法提取词汇特征，研究这些特征与主题变化之间的关系来确定主题边界，如近年来基于深度学习的主题分割模型，也是当前的主流方法，代表性的有基于BERT的主题分割模型。当前基于预训练模型的主题分割模型参数较多，对输入文本长度有限制，对垂直领域的语料效果不够理想，会有特殊词汇不存在于的语料库中的情况。

同时发明人认识发到，这些解决方案的重点在于主题边界的寻找，而忽略了边界确定后的主题归属。也就是说，同时完成确定主题边界和主题归属的解决方案相对来说发展得没有那么完备，在医疗文本领域的应用更是甚少。

发明内容

基于此，针对上述技术问题，提供一种能够同时确定医疗文本主体边界和主题归属的基于深度学习的医疗文本主题分割方法和装置。

第一方面，一种基于深度学习的医疗文本主题分割方法，包括：

步骤S1，对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；

步骤S2，对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；

步骤S3，对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；

步骤S4，将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果。

可选地，所述步骤S1包括：

将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列，并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注；

对进行主题标签标注后的原始病程文本数据进行清洗，并使用中文分词模型将每个电子病程文本分成词语的线性序列；

使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注，用于区分每个词语在相应主题段落的位置，从而形成医疗领域的语料库。

进一步可选地，所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。

进一步可选地，所述中文分词模型为JIEBA分词组件。

进一步可选地，所述对每个电子病程文本的所有词语位置进行标签标注包括：

在每个电子病程文本中，用B标记每个主题段落开头的词语，用I标记每个主题段落中间的词语，用E标记每个主题段落结尾的词语。

可选地，在步骤S2中，利用FastText模型对建立的语料库进行训练。

进一步可选地，所述步骤S3包括：

对得到的低维稠密向量，利用BiLSTM网络提取段落间序列关系和长距离的依赖关系，输出标签向量；

利用CRF网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则，并基于标签向量输出最优的标签路径，得到医疗文本主题分割模型。

进一步可选地，在利用CRF网络学习转移规则时，在初始化转移矩阵的时候，基于先验知识，将不可能转移的边界设为负值进行限制，使模型更快收敛。

可选地，在所述步骤S4之后还包括：

对所述主题段落序列的预测结果进行检验和修订，并输出经过检验和修订的主题段落序列的预测结果。

第二方面，一种基于深度学习的医疗文本主题分割装置，包括：

数据预处理模块，用于对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；

文本编码模块，用于对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；

主题分割模型生成模块，用于对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；

主题分割模块，用于将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果。

本发明至少具有以下有益效果：

本发明实施例提供了一种基于医疗领域语料词向量的端到端的、能够同时进行文本分割和主题识别的深度学习主题分割轻量方法；该方法可以在存在较多噪音和较少标注数据的医疗文本数据集上，训练得到一个病程文本领域特定的轻量深度学习模型，通过该学习模型能够对病程文本完成高效率的、等同或超过人工标注水准的主题分割任务，即同时完成文本分割和主题标注。

本发明实施例建立的深度学习模型，相比于BERT类模型，尺寸得到充分压缩，对内存需求和算力要求更低，对输入形式的限制要求更低；同时本发明实施例所提供的方法，相比于基于语言学和主题学习的方法，可以更加接近或等同于人工标注的水平，词级别准确率和句准确率分别接近95％和90％，文本预测速度也有显著提升。

另外，在本发明实施例中，由于采用FastText模型对语料文本进行无监督学习来得到词向量模型，对于OOV(Out-Of-Vocabulary)词汇也有较好的处理效果。

附图说明

图1为本发明一个实施例提供的一种基于深度学习的医疗文本主题分割方法的流程示意图；

图2为本发明一个实施例提供的一种基于深度学习的医疗文本主题分割装置的模块架构框图；

图3为本发明一个实施例中一种基于深度学习的医疗文本主题分割装置的功能示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于深度学习的医疗文本主题分割方法，通过对来自多个医院的各个病区的病程文本进行自然语言处理，完成医疗领域下的主题细分任务(Topic Segmentation)，该方法包括以下步骤：

步骤S1，对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本。

进一步地，步骤S1具体包括：

(1)将原始病程文本数据中的每个电子病程文本，按内容通过人工分割为主题段落序列，并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注。

其中，主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。换句话说，也就是将多个医院的电子病程作为原始输入，通过人工标注，将每个电子病程文本分割为present(现病史)、history(既往史)、treatmentplan(诊疗计划)、physical(体格检查)、specialistexam(专科检查)、diagnosis(诊断)、differential diagnosis(鉴别诊断)、accordance(诊断依据)、complaint(入院主诉)、assistant examination(辅助检查)的主题段落序列，即一个病程文本可能由一个或者多个主题的段落顺序构成，将每个主题段落中的词语用所属主题标签进行标注。

例如，在一个病程文本中，根据内容将其可划分为入院主诉、现病史、既往史和体格检查等主题段落，将入院主诉的主题段落中的每个词语打上complaint的主题标签，将现病史的主题段落中的每个词语打上present的主题标签，将既往史的主题段落中的每个词语打上history的主题标签，将体格检查的主题段落中的每个词语打上physical的主题标签，由此可实现对病程文本的主题划分。

(2)对进行主题标签标注后的原始病程文本数据进行清洗，清除文本空格等冗余符号，同时剔除错误数据，并使用开源的中文分词模型，例如JIEBA分词组件，加载已知的分词词典，将每个电子病程文本分成具有意义的中文词语的线性序列。

(3)使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注，用于区分每个词语在相应主题段落的位置，从而形成医疗领域的语料库。

即在每个电子病程文本中，对人工分好段的主题段落序列，用B标记每个主题段落开头的词语，用I标记每个主题段落中间的词语，用E标记每个主题段落结尾的词语，如B-Present，I-Present，E-present，以区分出各个主题的段落块。

步骤S2，对建立的语料库进行训练，无监督得到词向量模型，并使用该词向量模型将所述语料库中的每一个词语映射为含有与任务领域相关的语义的低维稠密向量。

在此步骤中，是利用FastText模型对建立的语料库进行训练的，在进行训练时，限制FastText模型的bucket到合适的数量以控制模型大小，然后使用得到的词向量模型将语料库中的每一个词映射为低维稠密的向量表示，用于作为下一步骤的输入以进行有监督的学习。FastText模型可以通过n-gram中构造单词的词向量，来推断未出现在语料库的单词，即解决推理过程中的OOV(Out-Of-Vocabulary)问题，同时可以让模型学习到局部单词顺序的部分信息，从而为罕见的单词更好生成词向量，这对于病程文本中出现的大量专有特殊名词的有效映射起到了重要作用。

步骤S3，对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型。

进一步地，步骤S3具体包括：

(1)对得到的低维稠密向量，首先利用BiLSTM网络(双向长短时记忆网络)提取段落间序列关系和长距离的依赖关系，输出标签向量(或者叫发射分数)。

(2)利用CRF网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则，并基于标签向量解码输出最优的标签路径，得到医疗文本主题分割模型。在利用CRF网络(转移矩阵限制的条件随机场)学习转移规则时，在初始化转移矩阵的时候，基于先验知识，将不可能转移的边界(如B-Present和I-History)设为负值进行限制，帮助模型更快收敛。

步骤S4，将待分割医疗文本输入到所述词向量模型中，以将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果，实现通过深度学习技术对向量化的文本进行文本分割和主题识别。

医疗文本主题分割模型的输出结果为单词序列对应的主题标签，并在每个主题中，由B标注、I标注和E标注构成完整的段落。

进一步地，在步骤S4之后还可以包括：

对得到的主题段落序列的预测结果进行规则上的检验和修订，输出相应的经过检验和修订的、最终的主题段落序列的预测结果。例如对可能出现I结尾的标注替换为E标注，得到最终的分段结果，分段的边界由连续的E标注和B标注表示，待分割医疗文本的每段主题则由标注的主题标签进行表示。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于深度学习的医疗文本主题分割装置，包括以下模块：

数据预处理模块201，用于对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；以完成对原始文本的处理，同时剔除错误数据和异常数据；

文本编码模块202，用于对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；也就是使用词向量模型对语料文本进行无监督学习，获取该领域下文本的向量表达；

主题分割模型生成模块203，用于对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；

主题分割模块204，用于将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果，实现通过深度学习技术对向量化的文本进行文本分割和主题识别。

进一步地，数据预处理模块201包括：

主题标签标注模块，用于将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列，并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注；

数据清洗模块，用于对进行主题标签标注后的原始病程文本数据进行清洗，并使用中文分词模型将每个电子病程文本分成词语的线性序列；

词语位置标注模块，用于使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注，用于区分每个词语在相应主题段落的位置，从而形成医疗领域的语料库。

进一步地，主题分割模型生成模块203包括：

BiLSTM网络模块，用于对得到的低维稠密向量，首先利用BiLSTM网络(双向长短时记忆网络)提取段落间序列关系和长距离的依赖关系，输出标签向量(或者叫发射分数)；

CRF网络模块，用于利用CRF网络(转移矩阵限制的条件随机场)学习所有低维稠密向量相应主题段落序列的标注之间的转移规则，并基于标签向量解码输出最优的标签路径，得到医疗文本主题分割模型；在利用CRF网络学习转移规则时，在初始化转移矩阵的时候，基于先验知识，将不可能转移的边界(如B-Present和I-History)设为负值进行限制，帮助模型更快收敛。

进一步地，该医疗文本主题分割装置还包括后处理模块，用于对所述主题段落序列的预测结果进行检验和修订，并输出经过检验和修订的主题段落序列的预测结果。

该基于深度学习的医疗文本主题分割装置功能的较为详细的示意图如图3所示。

关于一种基于深度学习的医疗文本主题分割装置的具体限定可以参见上文中对于一种基于深度学习的医疗文本主题分割方法的限定，在此不再赘述。上述一种基于深度学习的医疗文本主题分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发发明实施例中，通过构建数据预处理模块以赋予处理文本的单元更多语义、通过构建文本编码模块以得到词语的低维向量表示，以及通过构建主题分割模型生成模块来生成深度学习模型，来用于完成病程本文边界分割和主题归属的任务。

该装置可以在存在较多噪音和较少标注数据的医疗文本数据集上，训练得到一个病程文本领域特定的轻量深度学习模型，通过该学习模型能够对病程文本完成高效率的、等同或超过人工标注水准的主题分割任务，即同时完成文本分割和主题标注。

该装置建立的深度学习模型，相比于BERT类模型，尺寸得到充分压缩，对内存需求和算力要求更低，对输入形式的限制要求更低，可以更加接近或等同于人工标注的水平，词级别准确率和句准确率分别接近95％和90％，文本预测速度也有显著提升。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的医疗文本主题分割方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。

4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述中文分词模型为JIEBA分词组件。

5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述对每个电子病程文本的所有词语位置进行标签标注包括：

6.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，在步骤S2中，利用FastText模型对建立的语料库进行训练。

7.根据权利要求5所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述步骤S3包括：

8.根据权利要求7所述的基于深度学习的医疗文本主题分割方法，其特征在于，在利用CRF网络学习转移规则时，在初始化转移矩阵的时候，基于先验知识，将不可能转移的边界设为负值进行限制，使模型更快收敛。

9.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，在所述步骤S4之后还包括：

10.一种基于深度学习的医疗文本主题分割装置，其特征在于，包括：