CN115062602A

CN115062602A - 对比学习的样本构造方法、装置、计算机设备及存储介质

Info

Publication number: CN115062602A
Application number: CN202210985929.9A
Authority: CN
Inventors: 张星; 金霞; 刘伟
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Hangzhou Huiyidao Technology Co.,Ltd.
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-09-16
Anticipated expiration: 2042-08-17
Also published as: CN115062602B

Abstract

本发明属于医学领域和对比学习技术领域，公开了一种对比学习的样本构造方法、装置、计算机设备及存储介质。其中，本发明方法样本构造通过MeSH医学术语词库匹配出数据文本中的医学术语，并通过医学术语体偏好词进行替换，依此来改变数据样本的字符长度，并且是利用医学偏好词进行替换，原数据文本的语义不会发生变化，再利用Dropout构造对比学习的正样本，通过对训练数据进行Embedding，转化为向量，对向量进行K‑Means聚类，训练时从各个簇中随机选择一个数据，并添加到同一个batch中，作为对比学习的负样本。通过以上样本构造方法，使得模型更加有效地学习样本数据表征，利于解决利用对比学习进行召回的过程中召回率较低的问题。

Description

对比学习的样本构造方法、装置、计算机设备及存储介质

技术领域

本发明属于医学领域和对比学习技术领域，特别涉及一种对比学习的样本构造方法、装置、计算机设备及存储介质。

背景技术

在推荐系统中采用召回-粗排-精排的链路对候选数据进行筛选和排序。召回环节是从大量的候选语料数据中获取可能相似的数据，该环节将候选数据的量级快速筛减到千级别甚至百级别或者筛选到指定的数据量，供后续环节进行排序，召回环节的关键是覆盖全面。

对比学习可应用在推荐系统中的召回环节中，利用对比学习获取所有候选数据的向量表示，将该向量表示存放到向量检索数据库中，输入的文本Query经过向量化进入向量库进行检索，设定相似度阈值获取召回后的候选数据，再进行排序链路，得出最终的推荐结果。

在利用对比学习实施召回时，很多与Query相似性较高的数据不能被召回，继而无法被送到后续的链路流程中，因而存在召回率低（不全面）的问题，即使后续的粗排和精排模型很优秀，也无法推送出与Query关联性大的数据，因此，需要提升对比学习召回的效果。

目前，多采用SimCSE模型进行对比学习的训练，其在样本构造时存在如下缺点：

1. SimCSE采用原文本进行Dropout作为正样本，然而仅仅使用Dropout，会使正样本之间的随机性不足，SimCSE模型倾向于字符长度相近的数据更具有相似性。

2. SimCSE模型是从训练数据中进行随机取样数据作为负样本，然而，当训练集中存在较多相似样本时，不可避免会取到相似的数据到同一个batch中，在SimCSE模型训练时，相似的样本之间会被当成负样本，进而造成模型难收敛，训练时间变长的问题。

可见，SimCSE模型在样本构造时存在的上述问题，是导致与Query相似性较高的数据不能被召回的根本原因，因此，迫切需要提出一种对比学习的样本构造方法。

发明内容

本发明的目的在于提出一种医学领域对比学习的样本构造方法，通过提出一种对比学习的正、负样本构造方法，利于提高对比学习的模型表征能力，进而利于解决利用对比学习进行召回的过程中召回率较低的问题。

本发明为了实现上述目的，采用如下技术方案：

一种医学领域对比学习的样本构造方法，包括如下步骤：

步骤1. 数据预处理；

收集医学领域问题数据，并对获取的医学领域问题数据进行数据清洗，然后将清洗后的数据进行数据切分，并划分为训练集和测试集；

将数据切分后训练集和测试集中的样本数据以csv格式文件保存；

步骤2. 数据向量化表示；

读取训练集中每个样本数据，利用Bert进行Embedding，取Bert的第一层和最后一层的隐藏层状态做平均池化作为向量输出，表示该样本数据对应的向量；

步骤3. 基于K-Means聚类方式将训练集中所有样本数据划分为K个簇，K为自然数；

步骤4. 对比学习训练batch内第一个样本构建；

定义对比学习训练过程中每个epoch包含整数个batch，batch的数量记为batch_num，每个batch中的样本数量记为batch_size；

其中，batch_num以及batch_size均为自然数，且batch_size ≤K；

在一个batch取样数据开始前，先从K个簇中随机选择一个簇；然后，从选择的簇中选择每个batch的第一个样本，且每个epoch开始前，都会重复该过程；

步骤5. 对比学习训练batch内正样本构建；

将医学主题词表中的医学术语存入到前缀树Trie字典中，当每个batch内的第一个样本中含有Trie字典中的医学术语时，前缀树会输出匹配到的医学术语的位置索引；

通过前缀树方法匹配出每个batch内的第一个样本中的医学术语，并通过医学主题词表MeSH中的偏好词对第一个样本中出现的医学术语进行替换；

通过该步骤，构建了与每个batch中第一个样本对应的正样本数据；

步骤6. 对比学习训练batch内负样本构建；

从除每个batch内第一个样本所在簇外的其他K-1个簇中随机选择batch_size-1个簇，再从选择的batch_size-1个簇中分别随机选择一个样本，作为当前batch的负样本；

通过该步骤，构建了与每个batch中的所有负样本数据。

此外，在上述医学领域对比学习的样本构造方法的基础上，本发明还提出了一种与之相对应的医学领域对比学习的样本构造装置，其技术方案如下：

一种医学领域对比学习的样本构造装置，包括：

数据预处理模块，用于收集医学领域问题数据，并对获取的医学领域问题数据进行数据清洗，然后将清洗后的数据进行数据切分，并划分为训练集和测试集；

将数据切分后的训练集和测试集中的数据以csv格式文件保存；

数据向量化表示模块，用于读取训练集中每个样本数据，利用Bert进行Embedding，取Bert第一层和最后一层的隐藏层状态做平均池化作为向量输出表示该样本数据对应的向量；

聚类模块，基于K-Means聚类方式将训练集中所有样本数据划分为K个簇；

对比学习训练batch内第一个样本构建模块，用于构建每个batch内第一个样本；

其中，batch_num以及batch_size均为自然数，且batch_size≤ K；

对比学习训练batch内正样本构建模块，用于构建每个batch内正样本；

对比学习训练batch内负样本构建模块，用于构建每个batch内负样本；

从除每个batch内第一个样本所在簇外的其他K-1个簇中随机选择batch_size-1个簇，再从选择的batch_size-1个簇中分别随机选择一个样本，共同作为当前batch的负样本。

此外，在上述医学领域对比学习的样本构造方法的基础上，本发明还提出了一种用于实现上述医学领域对比学习的样本构造方法的计算机设备。

该计算机设备包括存储器和处理器，存储器中存储有可执行代码，处理器执行所述可执行代码时，用于实现上面述及的医学领域对比学习的样本构造方法。

此外，在上述医学领域对比学习的样本构造方法的基础上，本发明还提出了一种用于实现上述医学领域对比学习的样本构造方法的计算机可读存储介质。

该计算机可读存储介质，其上存储有程序，当该程序被处理器执行时，用于实现上面述及的医学领域对比学习的样本构造方法。

本发明具有如下优点：

如上所述，本发明述及了一种医学领域对比学习的样本构造方法，该样本构造方法针对目前利用对比学习进行召回的过程中正、负样本的构造问题，分别提出了一种对比学习的正、负样本构造方法，其中，通过MeSH医学术语词库匹配出数据文本中的医学术语，并通过医学术语体偏好词进行替换，依此来改变数据样本的字符长度，并且是利用医学偏好词进行替换，原数据文本的语义不会发生变化，再利用Dropout构造对比学习的正样本，通过对训练数据进行Embedding，转化为向量，对向量进行K-Means聚类，训练时，从各个簇中随机选择一个数据，并添加到同一个batch中，作为对比学习的负样本。通过以上正、负样本构造方法，利于推远不相似的负样本数据，拉近相似的正样本数据，使得模型更加有效地学习样本数据表征，进而利于解决利用对比学习进行召回的过程中召回率较低的问题。

附图说明

图1为本发明实施例中医学领域对比学习的样本构造方法的流程框图。

图2为本发明实施例中对比学习正样本的构建方法流程图。

图3为本发明实施例中对比学习负样本的构建方法流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种医学领域对比学习的样本构造方法，包括如下步骤：

步骤1. 数据预处理。

收集医学领域问题数据，并对获取的医学领域问题数据进行数据清洗，然后将清洗后的数据进行数据切分，并划分为训练集和测试集。

本实施例中收集的医学领域问题数据有10000条，来源于医学资讯网站的在线问诊相关栏目，获取的数据内容为医患沟通场景中患者提出的咨询类问题。

数据清洗进行去除医学领域问题数据中的html标签、空行、乱码和特殊符号等处理，得到清洗后的文本数据，以此确保文本数据在后续向量化时不会受到别的干扰。

将收集的10000条数据清洗后，切分为8000条用于训练的数据，即训练集样本数据，2000条用于验证和评估的数据，即测试集样本数据，并以csv格式文件保存。

步骤2. 数据向量化表示。

读取训练集中每个样本数据，利用Bert进行Embedding，取Bert的第一层和最后一层的隐藏层状态做平均池化作为向量输出，表示该样本数据对应的向量。

每个向量都是768维，共得到8000个不同的向量，样本数据和向量一一对应。

举例：编号为0的数据文本【您好，方医生，我得了高血压疾病，这个能服用洛沙坦吗】经过上述处理步骤后的向量，其前10维是：

[0.01737910881638527,

0.6520003080368042,

0.13459737598896027,

0.23542313277721405,

-0.11189911514520645,

0.7351060509681702,

-0.8901082277297974,

-0.984892725944519,

-0.5772903561592102,

1.0832966566085815,

... ]。

对所有向量进行编号，编号方便用于后续取样使用，编号范围从0到7999。在下述取样操作中利用样本数据的编号表示；在输入到模型之前，再将编号映射为样本数据。

步骤3. 基于K-Means聚类方式将训练集中所有样本数据划分为K个簇，进而为对比学习提供负样本构建作为相似性判断，K为自然数。

其中，处于同一个簇的两条数据相似性大，处于不同簇间的两条数据相似性小。

该步骤3具体为：

步骤3.1. 从训练集中所有样本数据（在本实施例中，训练集中样本数据为8000）对应的向量中随机选取K个样本（K<8000），作为初始的聚类中心点，即质心。

一个质心对应一个聚类类别，以下称为cluster，即簇。

该步骤中，首先需要确定最佳K值的大小。

对于将8000个样本数据分为多少个簇合适，本实施例使用轮廓系数法来确定。

具体的，K值的确定方式如下：

从2到N中，取不同的整数K值，以K值为x轴，计算轮廓系数SSE，并以轮廓系数SSE为y轴绘制直角坐标系，选择拐点所对应的K作为最佳K值；

其中，N表示训练集中样本数量的算术平方根，在本实施例中为8000的算术平方根。

通过计算，确定本实施例中最佳K值的大小为67。

步骤3.2. 分别计算所有向量到当前K个质心的欧氏距离。所有向量中任意一个向量到所有K个质心中，欧氏距离最近的质心对应的聚类类别即为该向量的簇。

步骤3.3. 计算每个簇中所有向量数据的均值，将均值作为更新后该簇的质心。

步骤3.4. 重复上述步骤3.2至3.3，不断更新簇的质心位置；

当簇的质心位置不再发生变化时，即得到当前K值下的各个簇的最佳质心。

步骤3.5. 通过上述步骤3.2至3.4，将训练集中所有样本数据对应的向量数据分为对应的K个簇，每个样本数据和向量一一对应，因此，样本数据也被映射到K个簇中。

由于每个类别中的样本数据属于同一个簇，他们之间是两两相似的，所以不能同时出现在同一个训练的batch中，而不同的类别之间，由于样本数据分别属于不同的簇，而不同簇之间的数据不具备相似性，因而它们可以出现在同一个batch中。

步骤4. 对比学习训练batch内第一个样本构建。

利用上一步骤3中的K-Means聚类方法，将训练集样本数据划分为K个簇。

定义对比学习训练过程中每个epoch包含整数个batch，batch的数量记为batch_num，每个batch中的样本数量记为batch_size。

其中，batch_num以及batch_size均为自然数，且batch_size ≤K。

在一个batch取样数据开始前，先从K个簇中随机选择一个簇。然后，从选择的簇中选择每个batch的第一个样本，具体选择方法如下：

若选择的簇内样本数量大于等于batch_num，则使用python的函数方法random.choices，无放回的随机选择batch_num个样本依次作为每个batch的第一个样本。

若选择的簇内样本数量小于batch_num，则进行有放回的取样，直到达到取样数量batch_num，同时也将取样的样本依次作为每个batch的第一个样本。

每个epoch开始前，都会重复该过程，以保证每个epoch之间的数据选择不影响。

为了表示方便，在取样操作中，都只利用训练集的样本数据的编号进行表示，在输入到SimCSE模型之前，再将对应的编号映射为相应的样本数据。

举例：用前10个样本为例，假设簇K=4，batch_num=3，训练样本被分为四个簇，每个簇的内容如下【括号中的数字是样本数据对应的编号】：

簇一：[3, 8, 9] 簇二：[1, 7] 簇三：[2, 4, 5] 簇四：[0, 6]。

若每个batch第一个样本的来源簇为簇一，此种情况下batch_num数和簇中的样本数相等，batch_num数为3，故要选择三次，则一种可能的取样结果为8,3,9。

此时，采用无放回随机取样即可，他们分别作为每个batch的第一个样本。

若每个batch第一个样本的来源簇为簇二，由于batch_num数大于簇中的样本数，需要进行有放回取样，一种可能的取样结果为1,7,1，他们分别为每个batch的第一个样本。

步骤5. 对比学习训练batch内正样本构建。

在医疗场景中，医学术语有对应的语义类型，如医学术语“高血压”的语义类型为疾病，医学术语“葡萄糖”的语义类型为物质，“大肠杆菌”的语义类型为微生物。

本发明实施例中使用到的语义类型为疾病、人体形态和结构、临床所见、生物、药品、物质、操作七大类别。这些含有语义类型的词，是构成医学文本语句的基本元素，有重要的含义，因此，对这些基本元素进行医学术语偏好词替换，可以丰富数据文本，但是却不会改变其原始文本的含义。这些医学术语来源于医学主题词表【MeSH】，医学主题词表中含有大量的医学术语，每个实体有其对应的语义类型。

将医学主题词表中的医学术语存入到前缀树Trie字典中，当每个batch内的第一个样本中含有Trie字典中的医学术语时，前缀树会输出匹配到的医学术语的位置索引。

通过前缀树方法匹配出每个batch内的第一个样本中的医学术语，并通过医学主题词表MeSH中的偏好词对第一个样本中出现的医学术语进行替换。

同样的，在正样本输入到SimCSE模型前，需要加上Dropout层。

通过该步骤5，构建了与每个batch中第一个样本对应的正样本数据。

医学术语偏好词举例：高血压疾病、高血压性血管病、高血压病，他们都属于疾病这个语义类型，在不同的场景中可能会有不同的表述，但是含义都是相同的，指的是同一种疾病，它们的医学术语偏好词都是高血压。

医学术语偏好词替换举例，如图2所示：

原文本为：【您好，方医生，我得了高血压疾病，这个能服用洛沙坦吗】。

根据MeSH医学主题词表，在这句医学问询中，含有“高血压疾病”和“洛沙坦”这两个医学术语，在MeSH中的偏好词分别为“高血压”和“氯沙坦”，因此，经过医学术语偏好词替换后的结果为【您好，方医生，我得了高血压，这个能服用氯沙坦吗】。

本发明利用医学术语偏好词词表，对数据中识别出的医学术语进行替换，在不改变原有医学含义的基础上，增加了医学语句表达的多样性，提升模型的表征能力。

步骤6. 对比学习训练batch内负样本构建。

每个batch内样本的数量小于等于K，即batch_size≤K。

由上述步骤4，已经得到了每个batch的第一个样本数据。

从除每个batch内第一个样本所在簇外的其他K-1个簇中随机选择batch_size-1个簇，再从选择的batch_size-1个簇中分别随机选择一个样本，作为当前batch的负样本。

重复该步骤，直至batch的数量达到batch_num，构成训练整个的epoch。

举例：如图3所示，用前10个样本为例，假设簇K=4，batch_size=3，batch_num=3，训练样本被分为了四个簇，簇的内容如下【括号中的数字是样本的序号】：

簇一：[3, 8, 9] 簇二：[1, 7] 簇三：[2, 4, 5] 簇四：[0, 6]。

假设每个batch的第一个样本来源于簇二，因batch_num=3，故需要有放回选择三次，可能选中的结果为1,7,1，他们分别作为每个batch的第一个样本。

由batch_size=3，并且由簇二已经确定了第一个样本，故要在剩下的簇内，即簇一、簇三、簇四中选中两个簇，然后在每个簇中选择一个样本作为batch的负样本。

这里以第一个batch为例，该batch的第一个样本为1，假设簇一、簇三、簇四中随机选中的簇为簇三和簇四，其中，簇三中选中的样本为4，簇四种选中的样本为6。

则第一个batch的一种可能的结果为[1,4,6]，当然，以上只是为示例性的，方便理解。

在SimCSE模型训练时，利用上述batch数据构建方法，构建正负样本，进行模型训练。

此外，本发明还对利用上述batch数据构建方法后的SimCSE模型进行了实验。

从训练中表现发现，SimCSE模型在训练中的斯皮尔曼相关系数，从单纯使用SimCSE的0.8156，提升至本发明中条件下的0.8566，提升了5.02%，效果显著。

此外，本发明还验证了利用batch数据构建方法后的SimCSE模型在下游任务中的表现。

在召回场景中，需要先把相似的数据召回，再送入后续的排序链路，其他步骤和排序算法保持一致，根据最终的排序结果是否符合用户的需要，即用户对返回的推荐内容予以评价，来判定召回模型的优劣。本发明分别利用单纯使用SimCSE和本发明训练出的模型在该任务中进行测试，经过测试得到，推荐结果有7.23%的提升，从而证明了发明的有效性。

此外，基于同样的发明构思，本发明实施例还提供了一种对应于上述医学领域对比学习的样本构造方法的医学领域对比学习的样本构造装置。

该医学领域对比学习的样本构造装置，包括如下功能模块：

数据向量化表示模块，读取训练集中每个样本数据，利用Bert进行Embedding，取Bert的第一层和最后一层的隐藏层状态做平均池化作为向量输出，表示该样本数据对应的向量；

其中，batch_num以及batch_size均为自然数，且batch_size≤ K；

需要说明的是，上述医学领域对比学习的样本构造装置中，各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

此外，本发明还提出了一种用于实现上述医学领域对比学习的样本构造方法的计算机设备。该计算机设备包括存储器和一个或多个处理器。其中，在存储器中存储有可执行代码，处理器执行可执行代码时，用于实现上述医学领域对比学习的样本构造方法。

本实施例中计算机设备为任意具备数据数据处理能力的设备或装置，此处不再赘述。

此外，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述医学领域对比学习的样本构造方法。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存，也可以是任意具备数据处理能力的设备的外部存储设备，例如设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种医学领域对比学习的样本构造方法，其特征在于，包括如下步骤：

步骤1. 数据预处理；

步骤2. 数据向量化表示；

步骤4. 对比学习训练batch内第一个样本构建；

其中，batch_num以及batch_size均为自然数，且batch_size ≤K；

步骤5. 对比学习训练batch内正样本构建；

步骤6. 对比学习训练batch内负样本构建；

通过该步骤，构建了与每个batch中的所有负样本数据。

2.根据权利要求1所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤3具体为：

步骤3.1. 从训练集中所有样本数据对应的向量中随机选取K个样本，作为初始的聚类中心点，即质心，一个质心对应一个聚类类别，以下称为簇；

步骤3.2. 分别计算所有向量到当前K个质心的欧氏距离；所有向量中任意一个向量到所有K个质心中，欧氏距离最近的质心对应的聚类类别即为该向量的簇；

步骤3.3. 计算每个簇中所有向量数据的均值，将均值作为更新后该簇的质心；

步骤3.4. 重复上述步骤3.2至3.3，不断更新簇的质心位置；

当簇的质心位置不再发生变化时，即得到当前K值下的各个簇的最佳质心；

步骤3.5. 通过上述步骤3.2至3.4，将训练集中所有样本数据对应的向量数据分为对应的K个簇，每个样本数据和向量一一对应，因此样本数据也被映射到K个簇中。

3.根据权利要求2所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤3.1中，K值的确定方式如下：

从2到N中，取不同的整数K值，以K值为x轴，计算轮廓系数SSE，并以轮廓系数SSE为y轴绘制直角坐标系，选择拐点所对应的K值作为最佳K值；

其中，N表示训练集中样本数量的算术平方根。

4.根据权利要求1所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤4中，每个batch中第一个样本的选择方法如下：

若选择的簇内样本数量大于等于batch_num，则使用python的函数方法random.choices，无放回的随机选择batch_num个样本依次作为每个batch的第一个样本；

5.根据权利要求1所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤2中，对与训练集中样本数据对应的所有向量进行编号；在步骤4至步骤6取样操作中利用样本数据的编号表示；在输入到模型之前，再将编号映射为样本数据。

6.根据权利要求1所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤5中，正样本输入到模型前，加上Dropout层。

7.根据权利要求1所述的医学领域对比学习的样本构造方法，其特征在于，

所述步骤1中，收集医学领域问题数据来源于医学资讯网站的在线问诊相关栏目，获取的数据内容为医患沟通场景中患者提出的咨询类问题；

数据清洗包括去除医学领域问题数据中的html标签、空行、乱码以及特殊符号处理。

8.一种医学领域对比学习的样本构造装置，其特征在于，包括：

其中，batch_num以及batch_size均为自然数，且batch_size≤ K；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，

用于实现权利要求1至7任一项所述的医学领域对比学习的样本构造方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，当该程序被处理器执行时，用于实现权利要求1至7任一项所述的医学领域对比学习的样本构造方法。