CN114020906A

CN114020906A - 基于孪生神经网络的中文医疗文本信息匹配方法及系统

Info

Publication number: CN114020906A
Application number: CN202111222502.5A
Authority: CN
Inventors: 黄孝喜; 童伟; 王荣波; 谌志群; 姚金良
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本发明公开了一种基于孪生神经网络的中文医疗文本信息匹配方法及系统。本发明采用双向长短期记忆网络构建用于实现医疗中文文本信息匹配的孪生神经网络，使得它能够同时捕获长距离和短距离的依赖，从而将问句对中的两个句子的表达输出为句向量并计算相似度得分，通过得到相似度得分即可实现问句对的匹配判断。这种多语义文档表达的深度学习模型不仅考虑了最终表达向量的相似程度，而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失，提升了匹配效果。

Description

基于孪生神经网络的中文医疗文本信息匹配方法及系统

技术领域

本发明涉及医疗信息技术领域，特别是涉及一种基于孪生神经网络的中文医疗文本信息匹配方法。

背景技术

随着自然语言问答领域的蓬勃发展，医疗问答领域逐渐成为热点之一，越来越多的用户通过互联网上的医疗服务平台进行查询和问诊，同时随着网络信息的快速增长，目前医疗问答领域主要通过搜索引擎提供问题检索服务，基于精确匹配的检索方式不能理解查询的语义容易造成结果的歧义，在文本匹配领域通过监督语料来训练语义匹配模型是一种有效的方法，但是在中文医疗文本领域缺失相应的医疗信息匹配数据，传统的人工监督语料的方法不仅容易更加费时费力，而且容易误判，所以如何快速准确的对中文医疗无监督文本匹配在自然语言处理领域一直是比较有挑战性的问题，涉及到自然语言处理，数据挖掘，机器学习等多个领域的学科技术和方法。

现有的技术文献中，一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法，对于无监督的中文医疗文本信息之间的关系依然无法准确的捕获到，同时对于长文本下的中文文本信息容易出现识别率不高，导致在传统领域对比人工监督语料信息仍有不足。

发明内容

本发明的目的是提供一种基于长短期记忆网络的医疗中文文本信息匹配方法，从而解决现有技术中文医疗信息匹配的问题。

为了实现上述目的，本发明采用的技术方案如下：

第一方面，本发明提供了一种基于孪生神经网络的中文医疗文本信息匹配方法，其包括如下步骤：

S1，基于中文医疗文本语料集构建由问句对组成的训练数据集，其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型；

S2、利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量；

S3、利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练；所述中文医疗文本信息匹配模型采用孪生神经网络，孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层，两个子神经网络中对应的网络层权值共享；问句对的两个句向量各自输入孪生神经网络的一个子神经网络中，在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层，前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入，最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示；最后对同属一个问句对的两个句向量表示计算相似度，并根据相似度得分判断问句对中的两个问句是否属于相同类型；

S4、将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量，然后输入训练后的中文医疗文本信息匹配模型中，输出两个问句是否属于相同类型的判断结果。

作为优选，所述问句对中两个问句均需要预先去除标点符号，再转换为等长度的句向量。

作为优选，所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(Contrastice Loss)。

作为优选，所述相似度为余弦相似度。

作为优选，所述句向量表示的维度为128维。

第二方面，本发明提供了一种基于孪生神经网络的中文医疗文本信息匹配系统，其包括：

语料获取模块：用于基于中文医疗文本语料集构建由问句对组成的训练数据集，其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型；

向量化模块：用于利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量；

模型训练模块：用于利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练；所述中文医疗文本信息匹配模型采用孪生神经网络，孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层，两个子神经网络中对应的网络层权值共享；问句对的两个句向量各自输入孪生神经网络的一个子神经网络中，在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层，前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入，最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示；最后对同属一个问句对的两个句向量表示计算相似度，并根据相似度得分判断问句对中的两个问句是否属于相同类型；

匹配模块：用于将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量，然后输入训练后的中文医疗文本信息匹配模型中，输出两个问句是否属于相同类型的判断结果。

作为优选，所述相似度为余弦相似度。

作为优选，所述句向量表示的维度为128维。

本发明采用双向长短期记忆网络构建用于实现医疗中文文本信息匹配的孪生神经网络，使得它能够同时捕获长距离和短距离的依赖，从而将问句对中的两个句子的表达输出为句向量并计算相似度得分，通过得到相似度得分即可实现问句对的匹配判断。这种多语义文档表达的深度学习模型不仅考虑了最终表达向量的相似程度，而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失，提升了匹配效果。

附图说明

图1为基于孪生神经网络的中文医疗文本信息匹配方法的步骤流程图。

图2为中文医疗文本信息匹配模型的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于孪生神经网络的中文医疗文本信息匹配方法，其包括如下步骤：

中文医疗文本语料集中收集了不同类型的医疗相关问句，每个问句都具有其类别标签，具体类型可根据实际的应用场景而定，例如对于不同疾病类型的问句，其类别标签可以为疾病类型。因此可以根据该中文医疗文本语料集来构建训练样本，从而得到训练数据集。在该训练数据集中，每一个问句对作为一个训练样本，形式为一个元组tuple(X₁,X₂,y)，标签y＝0表示问句X₁与问句X₂属于不同类型(不相似、不重复或根据应用场景而定)，y＝1则表示问句X₁与问句X₂属于相同类型(相似)。

S2、利用BERT模型对上述训练数据集中的问句对中的每一个问句进行编码并转换为句向量。

传统的CBOW和Skip-Gram方式作为浅层的神经网络模型，无法解决一词多义以及在不同语义环境下只能表达静态的语义信息，因此本实施例中采用BERT模型对句子中的词进行词向量化。BERT模型中通过构造的词-id之间的映射关系使用Tokenizer对数据词组进行编码，从而将输入的句子编码映射为词向量列表，用于作为后续模型的输入。

需注意的是，将数据集中句子处理成相同长度的句向量时，其长度应当统一。如果小于标准句向量长度L1，则进行句向量的0填充，如果大于标准句向量长度L1，则进行切割，将其划分成标准句向量长度。句向量长度可根据实际调整，如果设置了最大长度则句向量长度统一为最大长度，如果没有设置则默认取最大长度。句子在进行向量化之前，需要预先去除多余的标点符号，仅保留文本。这些操作可以通过预处理函数加载文本数据来实现。

S3、利用经过S2向量化后的训练数据集对中文医疗文本信息匹配模型进行训练，训练后的中文医疗文本信息匹配模型即可用于进行实际的医疗文本语义匹配。

在本实施例中，如图2所示，中文医疗文本信息匹配模型采用孪生神经网络(siamese network，孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络(BiLSTM)层和一层全连接层，两个子神经网络中对应的网络层权值共享。由于该孪生神经网络是基于BiLSTM作为网络层的，因此将其命名为Siamase-LSTM模型。传统的文本匹配模型需要基于大量的人工定义和抽取的特征，而且可学习的参数相对较少，所以这些特征总是根据根据特定的任务人工设计的，很大程度上限制了模型的泛化能力。而孪生神经网络根据输入的文本序列转化为文本序列，得到最后一层的hidden输出为句向量，通过余弦函数计算向量之间的相似度值，最后得到是否匹配的结果。

BiLSTM网络的具体结构属于现有技术，BiLSTM网络由两个LSTM网络组合而成，每一层的每个step前向后向拼接作为该step的输出，送入下一层，当前时刻的输出取平均作为输入词向量的表征向量。LSTM网络是由时刻的输入词X_t，细胞状态C_t，临时细胞状态

隐层状态h_t，遗忘门f_t，记忆门i_t，输出门o_t组成。通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态h_t，其中遗忘，记忆与输出由通过上个时刻的隐层状态h_t-1和当前输入X_t计算出来的遗忘门f_t，记忆门i_t，输出门o_t来控制。最终计算新的输出门和隐藏层的状态为：

o_t＝σ(W_o[t_h-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

W为模型的权重参数，x_t为词向量的维度tanh为激活函数。

在该中文医疗文本信息匹配模型中，问句对中的两个句子经过BERT编码后得到的两个句向量作为embedding层，各自输入孪生神经网络的一个子神经网络中。而在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层，前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入，最后一层双向长短期记忆网络层输出的表征向量输入维度为128的全连接层中并输出128维的句向量表示；最后对同属一个问句对的两个128维的句向量表示计算相似度，并根据相似度得分判断问句对中的两个问句是否属于相同类型。

在本实施例中，两个128维的句向量表示之间的相似度采用余弦相似度，可通过余弦函数cos来计算。余弦相似度E_w计算公式如下：

其中：f_w(X₁)和f_e(X₂)分别表示两个128维句向量表示，-1≤E_w≤1，E_w的值越大，代表距离越近，即语义相似度较高，值越小代表距离越远，语义相似度较低。

在实际进行匹配时，上述距离E_w需要根据相应的距离阈值转换为两个问句是否属于相同类型的标签

上述中文医疗文本信息匹配模型的训练可通过最小化损失函数来实现，损失函数可基于上述余弦相似度进行设计。本发明中对应模型的损失函数的设计如下：

当两个输入样本不相似(y＝0)时，距离E_w越大，损失越小，即关于E_w的单调递减函数；当两个输入样本相似(y＝1)时，距离E_w越大，损失越大，即关于E_w的单调递增函数；以公式表示如下：

其中L₊(X₁,X₂)表示y＝1时的损失部分，L_-(X₁,X₂)表示y＝0时的损失部分。

由此，总的损失可以表示为：

L_w(X₁,X₂)＝(1-y)L_{_}(X₁,X₂)+yL₊(X₁,X₂)

在本实施例中，为了适应模型训练的需要，最终所采用的损失函数为对比损失(Contrastice Loss)，提高模型的泛化能力。对比损失定义如下：

其中d代表两个句向量表示的余弦距离，y为两个样本是否匹配的标签，y＝1代表两个样本相似或者匹配，y＝0则代表不匹配，margin为设定的阈值。当y＝1(即样本相似)时，损失函数只剩下第一部分∑yd²，如果相似的文本，在特征空间欧式距离较大，说明当前模型拟合欠准，加大损失，而当y＝0时(即样本不相似)时，损失函数为∑(1-y)max(marg,n-d,0)²，当不相似的文本，特征空间欧式距离较小，则损失值增大，达到满足训练的要求

中文医疗文本信息匹配模型的具体训练方式为现有技术，可基于最小化损失函数的原则通过优化器进行参数优化。当完成上述中文医疗文本信息匹配模型的训练后，即可进行实际的中文医疗文本信息匹配任务。

为了进一步展示本发明的技术效果，下面将上述实施例中的中文医疗文本信息匹配方法应用于一个具体数据集上。其中，数据集采用阿里云天池文本的医疗文本CBLUE数据，数据集被划分为训练集、测试集、验证集。利用训练集对模型进行预训练，损失函数采用Contrastice Loss以提高模型的泛化能力，通过最小化损失函数对模型进行训练，并用测试集测试其模型性能是否满足要求。当满足要求，将取得训练效果较好的模型参数保存，并在验证集上进行实际的匹配任务测试。

另外，为了更直观的进行对比，本发明中还同时用CNN、LSTM、BOW、GRU作为对比模型在相同数据集上进行了测试。最终，五种模型在验证集上的分类准确率结果如表1所示：

表1五种模型在验证集上的匹配准确率

从表1中可见，对比传统的深度学习模型，本发明的孪生神经网络Siamase-LSTM在中文医疗文本的信息匹配任务上有效地提高了准确率。

由此，本发明采用Siamase-BiLSTM模型采用的孪生神经网络基于长短时记忆网络，使得它能够同时捕获长距离和短距离的依赖，从首尾两个方向进行扫描，得到句子的两个表达，然后将两种表达拼接到一起作为当前位置为中心的整个句子的表达。然后将两个句子的表达输出的句向量通过余弦函数计算相似度值。最后得到相似度得分。这种多语义文档表达的深度学习模型不久考虑最终表达向量的相似程度，而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失，提升了效果。

在本发明的另一实施例中，还提供了一种与前述匹配方法完全对应的一种基于孪生神经网络的中文医疗文本信息匹配系统，其包括：

由于上述基于孪生神经网络的中文医疗文本信息匹配系统中各模块分别对应了前述实施例的S1～S4，因此其中具体的实现方式亦可参见前述实施例，对此不再赘述。

需要说明的是，根据本发明公开的实施例，上述基于孪生神经网络的中文医疗文本信息匹配系统中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现，计算机程序中包含用于执行相应方法的程序代码。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于孪生神经网络的中文医疗文本信息匹配方法，其特征在于，包括如下步骤：

S1、基于中文医疗文本语料集构建由问句对组成的训练数据集，其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型；

2.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法，其特征在于，所述问句对中两个问句均需要预先去除标点符号，再转换为等长度的句向量。

3.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法，其特征在于，所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(ContrasticeLoss)。

4.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法，其特征在于，所述相似度为余弦相似度。

5.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法，其特征在于，所述句向量表示的维度为128维。

6.一种基于孪生神经网络的中文医疗文本信息匹配系统，其特征在于，包括：

7.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统，其特征在于，所述问句对中两个问句均需要预先去除标点符号，再转换为等长度的句向量。

8.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统，其特征在于，所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(ContrasticeLoss)。

9.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统，其特征在于，所述相似度为余弦相似度。

10.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统，其特征在于，所述句向量表示的维度为128维。