CN115545041A

CN115545041A - 一种增强医疗语句语义向量表示的模型构造方法及系统

Info

Publication number: CN115545041A
Application number: CN202211488054.8A
Authority: CN
Inventors: 白焜太; 杨雅婷; 宋佳祥; 刘硕; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2022-12-30
Anticipated expiration: 2042-11-25
Also published as: CN115545041B

Abstract

本发明涉及自然语言处理技术领域，且公开了一种增强医疗语句语义向量表示的模型构造方法，包括收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；基于所述医疗数据进行预处理结果，保留Bert中的MLM任务，构建损失函数做全词掩码训练；保存训练后的Bert模型，切分所述医疗数据中的每段文本形成句子集合；基于句子集合，对每个句子进行对比学习训练；构建一个新的损失函数，判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法，使医疗语句的表达更精确。

Description

一种增强医疗语句语义向量表示的模型构造方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体为一种增强医疗语句语义向量表示的模型构造方法及系统。

背景技术

在传统方式中，句向量是通过词向量求和而成,这种直接加和的方式并没有利用到词与词之间的交互信息，在业界普遍使用的Bert模型中，直接利用Bert模型产生的句向量做余弦相似度计算，会发现两个差别很大的句子也有较高的相似度，这会导致下游的任务，如根据相似度召回的效果差；另一种通用的方式是使用对比学习，其中一种是无监督的方式，从大量语料中训练获取句向量，SimCSE模型和ESimCSE模型就是通过对比学习，在无监督数据的情形下进行句嵌入，并且生成了质量较好的句向量，主要是利用自身Dropout后的数据作为其正样本，利用一个Batch内其他数据作为负样本，训练目标是降低对比学习的损失，增加互为正样本数据之间的相似度，减小与负样本数据间的相似度；后续的以Bert为基础的各类模型,通过堆叠Transformer encoder来捕捉句子中深度双向的词与词之间的信息，并以输出层中的[CLS] token的向量来表示整个句子的向量。

在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的实际意义。

为此,本专利提出了结合继续预训练和对比学习来进行一种增强医疗语句语义向量表示的模型构造方法。

发明内容

本发明主要是提供一种增强医疗语句语义向量表示的模型构造方法及系统，主要解决在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的问题。

为了解决上述技术问题，本发明采用如下技术方案：一种增强医疗语句语义向量表示的模型构造方法,收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；

基于收集医学领域的医疗数据，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做全词掩码训练，保存训练后的Bert模型；

切分所述医疗数据中的每段文本形成句子集合；

基于句子集合，对每个句子进行对比学习训练；

基于训练后的Bert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。

进一步的，构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。

进一步的，将同一个句子送入Bert模型两次，得到的两个向量为正样本；

采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。

进一步的，所述扩充医学词典的构件方式为，对所述医疗数据进行预处理完的文本数据通过分词工具分词；

基于分词工具的分词结果，若有词语不在这个词典里面，我们就记录该词并统计出现的次数，作为候选新词；

最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。

进一步的，

所述新的损失函数为：

其中：

代表同一句话输入训练后的Bert模型后生成的两个句向量；

为调节系数；

代表

两个向量之间的相似度，用向量的余弦相似度度量；

表示

两个向量之间的相似度，N表示整个Batch中的句子总数，P表示损失函数中的一个代数；

代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量；

表示句子i和句子j的莱文斯坦距离。

一种增强医疗语句语义向量表示的模型构造系统，

数据预处理模块，用于收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；

继续预训练模块，用于基于收集医学领域的医疗数据中，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做全词掩码训练，保存训练后的Bert模型；

切分数据集模块，用于切分所述医疗数据中的每段文本形成句子集合；

对比学习训练模块，用于基于句子集合，对每个句子进行对比学习训练；

最终语义向量表示模块，用于基于训练后的Bert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。

进一步的，训练后的Bert模型生成单元，用于构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。

进一步的，正样本生成单元，用于将同一句话送入Bert模型两次，得到的两个向量为正样本；

莱文斯坦计算单元，用于采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。

进一步的，扩充医学词典单元，用于对所述医疗数据进行预处理完的文本数据通过分词工具分词；基于分词工具的分词结果，若有词语不在这个词典里面，我们就记录该词并统计出现的次数，作为候选新词；最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。

进一步的，所述新的损失函数为：

所述新的损失函数为：

其中：

代表同一句话输入训练后的Bert模型后生成的两个句向量；

为调节系数；

代表

两个向量之间的相似度，用向量的余弦相似度度量；

表示

表示句子i和句子j的莱文斯坦距离。

一种计算机设备，存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现上述方法。

一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现上述方法。

有益效果：

1、在Bert的训练方式中，只保留MLM任务,但是使用的为全词掩码方式,能更准确的表达医疗术语的实际意义；

2、本专利结合继续预训练和对比学习来使医疗术语语义表示增强；

3、本案结合按莱文斯坦距离的方式，节约了算力，正样本对同义句相似度尽可能大，而负样本对的相似度尽可能小，在排除了同一Batch中可能存在的其他同义句干扰后,让loss不断减小以此来训练提升模型对句向量的表示。

附图说明

图1为增强医疗语句语义表示的构造方法流程示意图；

图2为增强医疗语句语义表示的构造系统分布示意图。

具体实施方式

以下将结合实施例对本发明涉及的一种增强医疗语句语义向量表示的模型构造方法及系统技术方案进一步详细说明。

一种增强医疗语句语义向量表示的模型构造方法为：

S001:收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；

具体的，所述医学领域的医疗数据来源于合作医院的脱敏电子病历、开源的医疗百科数据/问答数据,在数据处理时,采用了英文大小写转换、特殊符号去除、停用词去除、规则替换等操作进行预处理。

S002:基于收集医学领域的医疗数据，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做全词掩码训练，保存训练后的Bert模型；

具体的，原Bert在训练时结合了两种任务,即NSP 下一句话预测任务和MLM 带mask的语言模型训练,本发明的继续预训练以医疗领域文本数据作为训练语料,参考Bert训练方式,但是考虑到许多试验证明,NSP任务其实无明显作用,所以我们取消NSP任务,只保留MLM任务;在同样的实验条件下，在数据集SQUAD1.0/2.0的测试中，去掉了NSP任务的Bert模型f1分值反而分别上升了1.9%和3.5%，能更准确的表达医疗术语的实际意义。

其中，在保留Bert中的MLM任务，构建损失函数，构建的损失函数为：

p（x）和q（x）分别代表预测值和实际值的概率分布。

例如：句子“猫坐在垫子上”如果猫被[MASK]代替了，该[MASK]部分经过Bert 的嵌入模块会得到一个向量输出,再经过Softmax函数进行归一化，会得到一个概率p，将其与“猫”自己经过上述流程得到的概率q做比较,这种情况下,适用的损失函数为负对数似然函数。

具体的，构建一个损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。

S003:切分所述医疗数据中的每段文本形成句子集合；

S004:基于句子集合，对每个句子进行对比学习训练

另一种实施方式，基于句子集合，对每个句子进行对比学习训练，

同一句话送入Bert模型两次，得到的两个向量为正样本；

采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。

其中，莱文斯坦距离，又称Levenshtein距离，是编辑距离的一种，指两个字串之间，由一个转成另一个所需的最少编辑操作次数，允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

S005:基于训练后的Bert模型，获得句子的空间向量表征，基于对比学习训练，构建一个新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。

具体的构建一个新的损失函数，当新的损失函数连续3次得出的数据不下降的情况下,保存最终Bert模型作为最终的语义表示模型。

所述新的损失函数为：

其中：

代表同一句话输入训练后的Bert模型后生成的两个句向量；

为调节系数；

代表

两个向量之间的相似度，用向量的余弦相似度度量；

表示

表示句子i和句子j的莱文斯坦距离。

其中，BERT预训练模型是通过在海量的语料的基础上运行自监督学习方法为单词学习的空间特征表示，目前在自然语言处理领域应用广泛。

Bert的编码层分为三层，从下到上分为位置信息层（Position Embedding），上下文信息层（Segment Embedding）和字信息层（Token Embedding），在BERT中，在文本前会加一个[CLS]标志，在顶层该位置对应的向量可以作为整句话的语义表示，所以，我们这里也取[CLS]的空间向量作为整句话的空间表征；即vi,vj,vi’这些都是将句子送入bert-A模型后,取[CLS]代表的空间向量作为整句话空间表征。

具体的，在继续预训练得到的训练后的Bert模型基础上，再结合对比学习的改进方式训练得到的最终Bert模型，在数据集CHIP-STS上，比基础的Bert模型在F1分值上其中，Bert：79.656%可以提升约7%，达到86.763%，能有效提高医疗语句语义向量表示的准确性。

另一种实施方式，所述扩充医学词典的构件方式为，对所述医疗数据进行预处理完的文本数据通过分词工具分词；

另一种实施方式，基于扩充医学词典为依据，在每一条训练文本中, 随机抽取15%的token作为参与全词掩码任务的对象。

在这些被选中的token中,其中80%的token, 用全词掩码标记替换该该token；,其中10%的token, 用一个随机的单词替换token；其中10%的概率, 保持该token不变。

具体的，在这些被选中的token中,在80%的token中, 用[MASK]标记替换该token,如:“我今天过得很开心”替换为“我 [MASK] [MASK]过得很开心”;

10%的概率, 用一个随机的单词替换token, 如:“我今天过得很开心”，替换为“我书本过得很开心”;

10%的概率, 保持该token不变,如:“我今天过得很开心”替换后依旧是“我今天过得很开心”。

另一种实施方式，采用按莱文斯坦距离的计算方式进行筛选,得出同义句与负样本，其中，基于句子集合，采用按莱文斯坦距离的计算方式来进行筛选,通过对比实验,我们设定莱文斯坦距离小于等于4的为同义句；

基于句子集合中的其他莱文斯坦距离大于4的句子生成的向量作为负样本。

如图2所示，数据预处理模块01，用于收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；

其中，扩充医学词典单元08，用于对所述医疗数据进行预处理完的文本数据通过分词工具分词；基于分词工具的分词结果，若有词语不在这个词典里面，我们就记录该词并统计出现的次数，作为候选新词；最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。

继续预训练模块02，基于扩充医学词典，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做全词掩码训练，保存训练后的Bert模型；

p（x）和q（x）分别代表预测值和实际值的概率分布。

其中，基于扩充医学词典为依据，在每一条训练文本中, 随机抽取15%的token作为参与全词掩码任务的对象。

在这些被选中的token中,其中80%的token, 用全词掩码标记替换该该token；,其中10%的token, 用一个随机的单词替换token，其中10%的概率, 保持该token不变。

具体的，在这些被选中的token中,在80%的token中, 用[MASK]标记替换该token,如:“我今天过得很开心”替换为“我 [MASK] [MASK]过得很开心” ;

切分数据集模块03，用于切分所述医疗数据中的每段文本形成句子集合；

对比学习训练模块04，用于基于句子集合，对每个句子进行对比学习训练；

最终语义向量表示模块05，用于基于训练后的Bert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。

所述新的损失函数为：

其中：

代表同一句话输入训练后的Bert模型后生成的两个句向量；

为调节系数；

代表

两个向量之间的相似度，用向量的余弦相似度度量；

表示

表示句子i和句子j的莱文斯坦距离。

另一种实施方式，训练后的Bert模型生成单元09，用于构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。

另一种实施方式，正样本生成单元11，用于将同一句话送入Bert模型两次，得到的两个向量为正样本；

莱文斯坦计算单元10，用于采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。

一种计算机设备，含有存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现S001-S005中的方法。

一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现S001-S005中的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。