CN115906835A

CN115906835A - 一种基于聚类和对比学习的中文问句文本表示学习的方法

Info

Publication number: CN115906835A
Application number: CN202211480390.8A
Authority: CN
Inventors: 王艺涵; 李栓; 许浩
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-04-04
Anticipated expiration: 2042-11-23
Also published as: CN115906835B

Abstract

本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法，该方法先对中文问句语料进行清洗，然后进行聚类，将字面相似的样本划分在相同的子集中；按顺序选定子集并按批次抽取问句，将不同批次问句按顺序输入SimCLR对比学习框架中，并生成与每个问句对应的语义相似问句表示，之后使用对比损失函数拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型；最后将新的中文问句语料也进行相同的清洗和聚类，并将聚类后的子集按批次输入训练好的SimCLR对比学习模型，得到分类后的中文问句语料，实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

Description

一种基于聚类和对比学习的中文问句文本表示学习的方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于聚类和对比学习的中文问句文本表示学习的方法。

背景技术

在问句语义匹配或问句检索的任务中，现阶段主流的方法是使用BERT在有标签数据集上进行微调，也就是有监督学习的方法，然而，大量文本的标注成本较高，常常需要领域内具有一定经验的工作人员耗费大量时间才可以完成标注，在现实场景任务中的适用性不高。近期，对比学习被广泛应用于各种自然语言任务，包括文本相似度匹配的无监督任务，但是研究的重点主要在英文文本的各类下游任务中，针对中文文本的研究很少且存在以下几点难题：

(1)在基于对比学习的无监督文本匹配的任务中，研究的重点常常聚焦于怎样构建相似文本对，经常忽略负样本对模型优化的影响，导致模型常常难以识别字面相似、语义不相似的文本对。

(2)因中文需要分词的原因，常常仅考虑词频，而忽略了词长的影响，导致中文文本字面相似的计算结果与实际有较大的出入。

因此，怎样在无监督或自监督学习的场景下提升中文文本的语义匹配精度逐渐变成一项重要且具有创新性的任务。

发明内容

针对现有技术的不足，本发明提供一种基于聚类和对比学习的中文问句文本表示学习的方法，使用聚类的方法将语料库中字面相似的问句划分到相同的子集中；按顺序选定子集并按批次抽取问句，将不同批次问句按顺序输入SimCLR对比学习框架中，并使用回译、噪声扰动等方法生成与每个问句对应的语义相似问句表示，之后使用对比损失函数拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离。

本发明的目的通过如下的技术方案来实现：

一种基于聚类和对比学习的中文问句文本表示学习的方法，包括以下步骤：

(1)对大批量的中文问句语料进行清洗，生成清洗后的问句语料；

(2)使用聚类的方法将清洗后的问句语料中字面相似的样本划分在相同的子集中{s₁,s₂,s₃…}；

(3)打乱子集的顺序，按照打乱后的顺序选定子集，再打乱选定子集中中文问句的顺序，并按批次抽取固定数量的问句样本Q/{q₁,q₂,q₃…}，将不同批次的问句按顺序输入SimCLR对比学习模型中，并生成与每个问句对应的语义相似问句Q′/{q′₁,q′₂,q′₃…}；之后使用对比损失函数对SimCLR对比学习模型进行训练，拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型；

(4)将新的中文问句语料重复步骤(1)和(2)，然后将聚类后的子集按批次输入训练好的SimCLR对比学习模型，得到分类后的中文问句语料，实现中文问句语料的自动打标。

进一步地，所述步骤(2)包含以下子步骤：

(2.1)使用分词算法对大批量的中文问句语料中的每个问句进行分词处理，生成每个问句的词序列，使用停用词词表过滤切分后的每个问句的词序列，若词序列出现在该停用词表中，则删除该词，若不出现，则保留；

(2.2)统计词频并删除词频低于等于2的词，并依据词频生成词表文件Vocab/{w₁,w₂,w₃…}；遍历大批量的中文问句语料中的每个问句的词序列，若该词没有出现在词表文件Vocab/{w₁,w₂,w₃…}中，则删除该词，若存在则保留生成每个问句新的词序列T_j/{t_j1,t_j2,t_j3…}；

(2.3)对每个问句的词序列进行向量化；

(2.4)对向量化后的问句进行聚类，将大批量的中文问句语料中字面相似的样本划分在相同的子集中{s₁,s₂,s₃…}，保证一半以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍。

进一步地，使用改进的指数TF-IDF算法对每个问句的词序列进行向量化，计算公式如下：

式中，ExpTFIDF_i,j为改进的TF-IDF指数，n_i,j表示词序列中第i个词在词序列t_j中出现的次数，∑_kn_k,j表示词序列t_j中所有词出现的次数之和，S表示语料库中所有词序列，|S|表示词序列的总数；|{j:w_i∈d_j}|表示语料库中包含词f_i的词序列的数量，len(f_i)表示词f_i的词长。

进一步地，所述步骤(2.4)中，保证70％以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍。

进一步地，所述步骤(3)中，按批次抽取的问句样本的数量为256，若子集中的样本数少于256，不足的问句从其他的子集中抽取。

进一步地，所述步骤(3)中，采用包括回译、噪声扰动在内的方法生成与每个问句对应的语义相似问句Q^′/^′ ₁,^′ ₂,^′ ₃…}；其中，使用噪声扰动生成与每个问句对应的语义相似问句Q^′/^′ ₁,^′ ₂,^′ ₃…}具体包括：

使用对抗攻击扰动问句的向量表示进行增强、随机将问句的部分向量表示设置为0对问句的向量表示进行增强、随机打乱问句向量表示中的位置对问句的向量表示进行增强。

进一步地，所述步骤(3)中，对SimCLR对比学习模型进行训练时，采用清洗后的少量带标签的中文问句语义相似度判定语料，评估SimCLR对比学习模型的训练进度，当SimCLR对比学习模型在评估语料上的识别准确率在连续五轮训练内没有提升时，则停止模型的训练，得到训练好的SimCLR对比学习模型。

进一步地，所述分词算法选用jieba分词算法，所述停用词词表选用哈工大停用词表。

进一步地，所述步骤(2.4)中，采用K均值的方法对向量化后的问句进行聚类。

进一步地，对大批量的中文问句语料进行清洗时，依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的清洗操作。

本发明的有益效果如下：

(1)本方法在中文问句文本表示学习的任务中，面对字面相似、语义不相似问句对难以识别的问题，创新性的使用聚类算法将字面相似的问句划分在相同的批次中，并使用对比学习扩大它们之间的差异，有效提升了模型对问句文本之间差异的辨析性能。

(2)本发明的方法可以对大规模缺失标签的语料进行自动打标，大幅提升对语料打标的效率。

(3)本发明的方法不受词长和词频的影响，使得中文问句文本字面相似的计算结果与实际相符。

附图说明

图1为问句语料清洗及子集划分流程示意图。

图2为SimCLR对比学习模型的训练流程示意图。

图3为SimCLR对比学习模型框架。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

作为其中一个方面，本发明的基于聚类和对比学习的中文问句文本表示学习的方法，包括如下步骤：

步骤一：对大批量的中文问句语料进行清洗，生成清洗后的问句语料。

清洗时，可以采用各种清洗方式对语料进行清洗。作为其中一种优选的实施方式，对大批量的中文问句语料依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的清洗操作，生成清洗后的问句语料来当作模型的训练语料S_train。如在微博语料库中，存在大量的#,@及表情符号，用于话题指引与情绪表达。如：“#米吧秀图#月底了，敢说出你手机还有多少流量么？”。经过语料清洗工作，可将该语句清洗为“米吧秀图月底了，敢说出你手机还有多少流量么？”如：“男生和女生淘宝的区别，你中了吗？(＝^ω^＝)♀♂”经删除乱码及无法打印字符清洗，可将该语句清洗为“男生和女生淘宝的区别，你中了吗？”

步骤二：使用聚类的方法将清洗后的问句语料中字面相似的样本划分在相同的子集中{s₁,s₂,s₃…}，具体包括：

(2.1)使用jieba分词算法对大批量的中文问句语料中的每个问句进行分词处理，生成每个问句的词序列，使用停用词词表过滤切分后的每个问句的词序列，若词序列出现在该停用词表中，则删除该词，若不出现，则保留。

例如语句“月底了，敢说出你手机还有多少流量么？”,利用jieba分词算法可切分为“月/底/了/敢/说出/你/手机/还/有/多少/流量/么”。进一步的，使用哈工大停用词表遍历分词中的每一个词，发现“了”、“么”在停用词表中，则删除该词，得到分词语句“月/底/敢/说出/你/手机/还/有/多少/流量”。

(2.2)统计词频并删除词频低于等于2的词，并依据词频生成词表文件Vocab/{w₁,w₂,w₃…}；遍历大批量的中文问句语料中的每个问句的词序列，若该词没有出现在词表文件Vocab/{w₁,w₂,w₃…}中，则删除该词，若存在则保留生成每个问句新的词序列T_j/{t_j1,t_j2,t_j3…}。在本实施例中，统计微博语料库每个问句的词序列词频，并生成词表文件Vocab，用词表文件遍历语句“月/底/敢/说出/你/手机/还/有/多少/流量”中的每一个词，发现均在词表文件中，则保留该词序列。

(2.3)对每个问句的词序列进行向量化。

作为其中一种实施方式，采用改进的指数TF-IDF算法对每个问句的词序列进行向量化，具体计算公式如下：

式中，ExpTFIDF_i,j为改进的TF-IDF指数，n_i,j表示词序列中第i个词在词序列t_j中出现的次数，∑_kn_k,j表示词序列t_j中所有词出现的次数之和，S表示语料库中所有词序列，||表示词序列的总数；|{j:f_i∈d_j}|表示语料库中包含词f_i的词序列的数量，len(f_i)表示词f_i的词长。在本实施例中，利用改进的指数TF-IDF算法对微博语料中每个问句的词序列进行向量化，得到语句“月/底/敢/说出/你/手机/还/有/多少/流量”的向量表示如下：

{月：0.1221，底：0.0335，敢：0.0513，说出：0.1525，你：0.1831，手机：0.1603，还：0.0901，多少：0.0702，流量：0.0675}

(2.4)对向量化后的问句进行聚类，将大批量的中文问句语料中字面相似的样本划分在相同的子集中{s₁,s₂,s₃…}，保证一半以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍。步骤一和步骤二的流程如图1所示。

例如在chatterbot中文对话语料库中，可利用聚类方法将表示字面相似的问句划分到相同的子集中，如将“早上好，你好吗？”，“你好吗？”，“那么你呢？”等归至一个子类中。

另外，在对字面相似的样本进行划分时，优选保证70％以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍，这样分类的准确性更高。

步骤三：打乱子集的顺序，按照打乱后的顺序选定子集，再打乱选定子集中中文问句的顺序，并按批次抽取固定数量的问句样本Q/{q₁,q₂,q₃…}，将不同批次的问句按顺序输入SimCLR对比学习模型中，并生成与每个问句对应的语义相似问句Q^′/^′ ₁,^′ ₂,^′ ₃…}；之后使用对比损失函数对SimCLR对比学习模型进行训练，拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型。具体的训练流程如图2所示。

在具体的实验中，每批次抽取的固定样本数量为256，若子集中的样本数少于设定固定数量的数值，不足的问句随机从其他的子集中抽取。

另外，生成与每个问句对应的语义相似问句Q^′/¹ ₁,^′ ₂,^′ ₃…}时可以采用包括回译、噪声扰动在内的方法，其中，使用噪声扰动生成与每个问句对应的语义相似问句Q^′/{q^′ ₁,^′ ₂,^′ ₃…}具体包括：使用对抗攻击扰动问句的向量表示进行增强、随机将问句的部分向量表示设置为0对问句的向量表示进行增强、随机打乱问句向量表示中的位置对问句的向量表示进行增强。

以回译的方法方法为例，即利用通用翻译接口，如google翻译接口将原始问句转化为另一种语言，之后再翻译回原语言的方式以此对问句的向量表示进行增强。如语句1:为什么给我的花呗降额了？翻译为英文：Why reduce the amount of my Ant Credit Pay.经过回译处理后，该语句变为语句2：你为什么要减少我的蚂蚁信用支付金额。语句2为语句1经过回译的方法对问句进行的文本增强。

本实施例中，SimCLR对比学习模型框架如图3所示。其中Batch代表输入模型的不同批次的问句样本。首先，在语义增强(Augmentation)环节对Batch中的问句样本x进行两种方式的语义增强，分别为回译T(x和噪声扰动T′(x)，以此生成对每个问句对应的语义相似问句Q₁,Q₂。其次利用CNN(Convolutional Neural Network)对问句样本进行卷积与池化后生成特征向量，并通过MLP(多层感知机)构建全连接网络，将特征向量投影至一维空间。最后，通过迭代更新对比损失函数Contrastive loss，使得在同一批次的问句样本中不断缩小语义相似问句之间的距离，同时扩大同一批次中语义不同问句之间的距离。

在本实施中，以chatterbot中文对话语料库为评估语料库，其中包含食物、情感、体育、历史、政治、科学等17种标签。利用该评估语料库对SimCLR对比学习模型进行训练，最终实现对相同标签下问句的聚类以及对不同标签下的问句的区分。如将语句“谁发明了电灯泡？”，“谁发明了蒸汽机？”统一标记为历史，将“什么是蜘蛛侠？”，“什么是teknolust？统一标记为电影。

步骤四：将新的中文问句语料重复步骤(1)和(2)，然后将聚类后的子集按批次输入训练好的SimCLR对比学习模型，得到分类后的中文问句语料，实现中文问句语料的自动打标。

本发明实施例还提供的一种装置，包括一个或多个处理器，用于实现上述实施例中的基于聚类和对比学习的中文问句文本表示学习的方法。

本发明该装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于聚类和对比学习的中文问句文本表示学习的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(SmartMedia card,SMC)、SD卡、闪存卡(Flash card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算仉程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储己经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

Claims

1.一种基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，包括以下步骤：

(2)使用聚类的方法将清洗后的问句语料中字面相似的样本划分在相同的子集中{s₁，s₂，s₃...}；

(3)打乱子集的顺序，按照打乱后的顺序选定子集，再打乱选定子集中中文问句的顺序，并按批次抽取固定数量的问句样本Q/{q₁，q₂，q₃...}，将不同批次的问句按顺序输入SimCLR对比学习模型中，并生成与每个问句对应的语义相似问句Q′/{q′₁，q′₂，q′₃...}；之后使用对比损失函数对SimCLR对比学习模型进行训练，拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型；

2.根据权利要求1所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(2)包含以下子步骤：

(2.2)统计词频并删除词频低于等于2的词，并依据词频生成词表文件Vocab/{w₁，w₂，w₃...}；遍历大批量的中文问句语料中的每个问句的词序列，若该词没有出现在词表文件Vocab/{w₁，w₂，w₃...}中，则删除该词，若存在则保留生成每个问句新的词序列T_j/{t_j1，t_j2，t_j3...}；

(2.3)对每个问句的词序列进行向量化；

(2.4)对向量化后的问句进行聚类，将大批量的中文问句语料中字面相似的样本划分在相同的子集中{s₁，s₂，s₃...}，保证一半以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍。

3.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，使用改进的指数TF-IDF算法对每个问句的词序列进行向量化，计算公式如下：

式中，ExpTFIDF_i，j为改进的TF-IDF指数，n_i，j表示词序列中第i个词在词序列t_j中出现的次数，∑_kn_k，j表示词序列t_j中所有词出现的次数之和，S表示语料库中所有词序列，|S|表示词序列的总数；|(j：f_i∈d_j}|表示语料库中包含词f_i的词序列的数量，len(f_i)表示词f_i的词长。

4.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(2.4)中，保证70％以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍。

5.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(3)中，按批次抽取的问句样本的数量为256，若子集中的样本数少于256，不足的问句从其他的子集中抽取。

6.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(3)中，采用包括回译、噪声扰动在内的方法生成与每个问句对应的语义相似问句Q′/{q′₁，q′₂，q′₃...}；其中，使用噪声扰动生成与每个问句对应的语义相似问句Q′/{q′₁，q′₂，q′₃...}具体包括：

7.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(3)中，对SimCLR对比学习模型进行训练时，采用清洗后的少量带标签的中文问句语义相似度判定语料，评估SimCLR对比学习模型的训练进度，当SimCLR对比学习模型在评估语料上的识别准确率在连续五轮训练内没有提升时，则停止模型的训练，得到训练好的SimCLR对比学习模型。

8.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述分词算法选用jieba分词算法，所述停用词词表选用哈工大停用词表。

9.根据权利要求2所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，所述步骤(2.4)中，采用K均值的方法对向量化后的问句进行聚类。

10.根据权利要求1所述的基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，对大批量的中文问句语料进行清洗时，依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的清洗操作。