CN110516234A

CN110516234A - 基于gru的中医文本分词方法、系统、设备及介质

Info

Publication number: CN110516234A
Application number: CN201910721508.3A
Authority: CN
Inventors: 袁锋; 于凤洋; 郑向伟; 王冰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-29

Abstract

本公开公开了基于GRU的中医文本分词方法、系统、设备及介质，获取待分词的中医文本；对待分词的中医文本进行预处理；使用BMES标签对预处理后的中医文本进行预标注；将预标注的中医文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果。采用预先训练的双向GRU神经网络模型，实现中医医案文本的准确分词；通过引入中医医案文本字典矩阵，利用GRU算法易于训练能缩短训练、预测时间，可自动学习特征，能有效建立长距离依赖信息的优点，可以有效的对中医医案文本组合型歧义进行消解，提高分词效果的同时，提高分词方法的领域适用性。

Description

基于GRU的中医文本分词方法、系统、设备及介质

技术领域

本公开涉及中文自然语言处理技术领域，特别是涉及基于GRU的中医文本分词方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

古代医学文献记载了许多有价值的医学经验，但是中医医案文本自动分析尚处于起步阶段，注释工作非常困难，导致对于中医医案文本的分词工作尚处于起步阶段。

现有的分词方法有三大类：基于词典的分词方法，基于统计的分词方法，基于统计和词典相结合的方法。基于词典的分词方法对于未登录词的识别效果较差，基于统计和词典相结合的方法需要大量的人工标注数据，基于统计和词典相结合的方法对不同领域的分词需要重新训练模型，并没有解决分词的自适应性问题。这些分词方法在中医医案文本分词中，效果不明显。

深度学习在语音、图像以及分词方面取得显著的成效。Jozefowicz等对比了GRU和LSTM模型，发现GRU模型在多个问题上都能取得与LSTM模型相当的结果，并且更易于训练。因此，GRU模型被越来越多地应用于自然语言处理任务、投诉分类、机器翻译和其他领域。

目前对于中医古代文献所作研究如下：Chen等人设计基于卡尔曼滤波器的人机交互中文分词算法，提出了一种在线互动系统，对古代语料库进行分割，但是并未进行现代汉语分词工作。Long等人提出了一个命名实体识别系统明清中国古典小说的条件随机字段(CRF)方法。SI LI提出了一种胶囊结构，解决了卷积神经网络的一些缺陷，利用标注的数据，开发了古代医学文献的分词器，取得良好的分词效果，但是采用的部分数据集的大小仍然不够大，注释工作仍在继续。由于中医医案独有的特点和分词的困难性，目前对于中医医案的研究非常少。

发明内容

为了解决现有技术的不足，本公开提供了基于GRU的中医文本分词方法、系统、设备及介质；通过引入中医医案文本字典矩阵，利用GRU算法易于训练能缩短训练、预测时间，可自动学习特征，能有效建立长距离依赖信息的优点，可以有效的对中医医案文本组合型歧义进行消解，提高分词效果的同时，提高分词方法的领域适用性。

第一方面，本公开提供了基于GRU的中医文本分词方法；

基于GRU的中医文本分词方法，包括：

获取待分词的中医文本；

对待分词的中医文本进行预处理；

使用BMES标签对预处理后的中医文本进行预标注；

将预标注的中医文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果。

第二方面，本公开还提供了基于GRU的中医文本分词系统；

基于GRU的中医文本分词系统，包括：

获取模块，用于获取待分词的中医文本；

预处理模块，用于对待分词的中医文本进行预处理；

预标注模块，用于使用BMES标签对预处理后的中医文本进行预标注；

分词模块，用于将预标注的中医文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

采用预先训练的双向GRU神经网络模型，实现中医医案文本的准确分词；通过引入中医医案文本字典矩阵，利用GRU算法易于训练能缩短训练、预测时间，可自动学习特征，能有效建立长距离依赖信息的优点，可以有效的对中医医案文本组合型歧义进行消解，提高分词效果的同时，提高分词方法的领域适用性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本公开实施例一的方法流程图；

图2是本公开实施例一所使用GRU算法的分词网络架构。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于GRU的中医文本分词方法；

如图1和图2所示，基于GRU的中医文本分词方法，包括：

S1：获取待分词的中医文本；

S2：对待分词的中医文本进行预处理；

S3：使用BMES标签对预处理后的中医文本进行预标注；

S4：将预标注的中医文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果。

作为一个或多个实施例，所述获取待分词的中医文本，是指中医病历文本，所述中医病历文本，包括患者自述病情和医生诊断结论。

作为一个或多个实施例，所述预处理，包括：删除停用词、重复词和语气词。

作为一个或多个实施例，所述使用BMES标签对预处理后的中医文本进行预标注；具体步骤包括：使用BMES标签进行标注，其中，B表示开始字，M表示中间字，E表示结尾字，S表示单个字。

作为一个或多个实施例，所述预先训练的双向GRU神经网络模型训练过程包括：

S31：获取语料集，所述语料集为若干个中医文本；

S32：对语料集进行预处理，得到预处理后的中医文本；所述预处理包括：删除停用词、重复词和语气词；

S33：对预处理后的中医文本中的每个字，使用BMES标签进行标注，其中，B表示开始字，M表示中间字，E表示结尾字，S表示单个字；

S34：筛选出标记为B的字b，筛选出字b最近邻的标记为E的字e，筛选出字b和字e之间的字m，将字b、字m和字e按照原先在中医文本中的顺序进行排列，组成词组；所述字m，包括一个字或多个字；

S35：将所有的词组和标记为S的单个字均进行存储，得到中医字典；

S36：将预处理后的中医文本作为双向GRU神经网络模型的输入值，将中医字典作为双向GRU神经网络模型的输出值，对双向GRU神经网络模型的参数进行训练，当双向GRU神经网络模型的损失函数达到最小值时，停止训练，得到训练好的双向GRU神经网络模型。

作为一个或多个实施例，将预处理后的中文文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果，通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最大概率，选取最大概率的标签作为分词的标准。

作为一个或多个实施例，通过处理后的训练集输入到双向GRU神经网络模型中进行训练，得到两个子模型，前向GRU和后向GRU模型。

通过前向GRU和后向GRU模型对中医测试集中每个汉字标签进行概率预测，获得两个预测概率P_1i和P_2i；

P_1i表示训练集中的每个中医医案文本字符由前向GRU模型预测的每个标签的概率；

P_2i表示训练集中每个中医医案文本字符由后向GRU模型预测的每个标签的概率，并且i＝B，M，E，S；

将两个模型的预测概率组合以获得综合预测概率中的每个中文特征标签，得到一个输出P函数，所述P函数为：

P＝α·P_1i+(1-α)·P_2i

其中，α是平衡比，为了平衡自前文和自后文的信息量，α之0.5。

通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最终概率，作为最后分词的依据。

通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最终概率，计算方式为：

针对标签为B的第i个单词，有三种形式的转换概率：MB，EB或SB。

第i个词最终属于标签B的概率的计算公式为：

表示预测的第i-1个汉字属于标签M的概率，z_mb表示从标签M到标签B的转移概率；转移概率是设定值，取0.5；

表示预测的第i-1个汉字属于标签E的概率，z_eb表示从标签E到标签B的转移概率，转移概率是设定值，取0.5；

表示预测的第i-1个汉字属于标签S的概率，z_sb表示从标签S到标签B的转移概率，转移概率是设定值，取0.5；

表示预测的第i个汉字的属于标签B的概率；

表示当转移概率为MB时第i个汉字的属于标签B的概率；

表示当转移概率为EB时第i个汉字的属于标签B的概率；

表示当转移概率为SB时第i个汉字的属于标签B的概率；

从和三个概率中选择最大值作为第i个词最终属于标签B的概率，它由表示；

类似地，计算第i个词最终属于标签M的概率，记为

针对标签为M的第i单词，有两种形式的转换概率：BM或MM。

第i个词最终属于标签M的概率的计算公式为：

表示预测的第i-1个汉字属于标签B的概率，z_bm表示从标签B到标签M的转移概率；转移概率是设定值，取0.5；

表示预测的第i-1个汉字属于标签M的概率，z_mm表示从标签M到标签M的转移概率，转移概率是设定值，取0.5；

表示预测的第i个汉字的属于标签M的概率；

表示当转移概率为BM时第i个汉字的属于标签M的概率；

表示当转移概率为MM时第i个汉字的属于标签M的概率；

从两个概率中选择最大值作为第i个词最终属于标签M的概率，它由表示；

类似地，计算第i个词最终属于标签E的概率，记为

针对标签为E的第i单词，有一种形式的转换概率：ME。

第i个词最终属于标签E的概率的计算公式为：

表示预测的第i-1个汉字属于标签M的概率，z_me表示从标签M到标签E的转移概率；转移概率是设定值，取0.5；

表示预测的第i个汉字的属于标签E的概率；

表示当转移概率为ME时第i个汉字的属于标签E的概率；

选取的最大值作为第i个词最终属于标签E的概率，它由表示；

类似地，计算第i个词最终属于标签S的概率，记为

表示预测的第i-1个汉字属于标签E的概率，z_es表示从标签E到标签S的转移概率；转移概率是设定值，取0.5；

表示预测的第i-1个汉字属于标签M的概率，z_ms表示从标签M到标签S的转移概率，转移概率是设定值，取0.5；

表示预测的第i-1个汉字属于标签S的概率，z_ss表示从标签S到标签S的转移概率，转移概率是设定值，取0.5；

表示预测的第i个汉字的属于标签B的概率；

表示当转移概率为ES时第i个汉字的属于标签S的概率；

表示当转移概率为MS时第i个汉字的属于标签S的概率；

表示当转移概率为SS时第i个汉字的属于标签S的概率；

从三个概率中选择最大值作为第i个词最终属于标签S的概率，它由表示；

最后，选择与概率最大值对应的标签作为第i个字所属的标签p_i。第i个汉字的标签的概率p_i为：

通过比较每个标签下的每个汉字的概率值，选取最大概率的标签作为分词的标准。

实施例1：

通过从字典矩阵中扫描句子获取中医医案文本，然后通过GRU算法进行分词的分词结果：

以下是未应用算法和应用算法之后的分词结果：

未应用算法分词结果：

胸闷/痛/缓解/仍/感/神/疲乏/力/少气/懒言/

气/血瘀/滞/造成/腰椎间盘/突出

佐/和/阴/之/品/以/牡蛎/散

应用算法分词结果：

胸闷/痛/缓解/仍/感/神疲/乏力/少气/懒言/

气血/瘀滞/造成/腰椎间盘/突出

佐/和阴/乏/品/以/牡蛎散

通过从中医字典矩阵中扫描句子获取中医医案文本，然后通过GRU算法进行分词的方法，在对中医医案文本组合型歧义消解过程中有良好的分词效果，同时对交集型歧义和未登录词也有良好的分词效果。并具有良好的领域适用性。

本公开公开了一种基于GRU的中医文本组合型歧义消解方法，包括以下步骤：一：采用深度学习的方法，将需要进行分词的中医医案文本使用四字位置(B，M，E，S)标记进行预处理操作，预处理完成后将其构建字典矩阵，经过处理的中医文本训练集由单词嵌入层单独处理，进行分布式向量表示，作为神经网络层的输入。二：将处理后的训练集输入到双向GRU神经网络模型中进行训练，得到前向GRU和后向GRU两个子模型。三：将这两个模型共同用于预测中医测试集，用来确定中医医案文本中每个汉字属于BMES标签的可能性概率。四：通过Viterbi算法计算组合汉字的属于BMES标签的概率，作为每个标签的最终概率。通过比较每个标签下的每个汉字的概率值，选取最大概率的标签作为分词的标准。本公开的分词方法，通过使用深度学习中的GRU算法，建立长距离依赖信息，进行中医医案文本分词研究，提高中医医案文本分词精度。

表1每个汉字的BMES标签标记结果

实施例二，本实施例还提供了基于GRU的中医文本分词系统；

基于GRU的中医文本分词系统，包括：

获取模块，用于获取待分词的中医文本；

预处理模块，用于对待分词的中医文本进行预处理；

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于GRU的中医文本分词方法，其特征是，包括：

获取待分词的中医文本；

对待分词的中医文本进行预处理；

使用BMES标签对预处理后的中医文本进行预标注；

2.如权利要求1所述的方法，其特征是，所述获取待分词的中医文本，是指中医病历文本，所述中医病历文本，包括患者自述病情和医生诊断结论。

3.如权利要求1所述的方法，其特征是，所述预处理，包括：删除停用词、重复词和语气词。

4.如权利要求1所述的方法，其特征是，所述使用BMES标签对预处理后的中医文本进行预标注；具体步骤包括：使用BMES标签进行标注，其中，B表示开始字，M表示中间字，E表示结尾字，S表示单个字。

5.如权利要求1所述的方法，其特征是，所述预先训练的双向GRU神经网络模型训练过程包括：

S31：获取语料集，所述语料集为若干个中医文本；

6.如权利要求1所述的方法，其特征是，将预处理后的中文文本输入到预先训练的双向GRU神经网络模型中，输出中医文本的分词结果，通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最大概率，选取最大概率的标签作为分词的标准。

7.如权利要求1所述的方法，其特征是，通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最终概率，计算方式为：

针对标签为B的第i单词，有三种形式的转换概率：MB，EB或SB。

第i个词最终属于标签B的概率的计算公式为：

表示预测的第i个汉字的属于标签B的概率；

表示当转移概率为MB时第i个汉字的属于标签B的概率；

表示当转移概率为EB时第i个汉字的属于标签B的概率；

表示当转移概率为SB时第i个汉字的属于标签B的概率；

类似地，计算第i个词最终属于标签M的概率，记为

针对标签为M的第i单词，有两种形式的转换概率：BM或MM；

第i个词最终属于标签M的概率的计算公式为：

表示预测的第i个汉字的属于标签M的概率；

表示当转移概率为BM时第i个汉字的属于标签M的概率；

表示当转移概率为MM时第i个汉字的属于标签M的概率；

类似地，计算第i个词最终属于标签E的概率，记为

针对标签为E的第i单词，有一种形式的转换概率：ME；

第i个词最终属于标签E的概率的计算公式为：

表示预测的第i个汉字的属于标签E的概率；

表示当转移概率为ME时第i个汉字的属于标签E的概率；

类似地，计算第i个词最终属于标签S的概率，记为

表示预测的第i个汉字的属于标签B的概率；

表示当转移概率为ES时第i个汉字的属于标签S的概率；

表示当转移概率为MS时第i个汉字的属于标签S的概率；

表示当转移概率为SS时第i个汉字的属于标签S的概率；

最后，选择与概率最大值对应的标签作为第i个字所属的标签p_i。

8.基于GRU的中医文本分词系统，其特征是，包括：

获取模块，用于获取待分词的中医文本；

预处理模块，用于对待分词的中医文本进行预处理；

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。