CN115840817A

CN115840817A - 基于对比学习的信息聚类处理方法、装置和计算机设备

Info

Publication number: CN115840817A
Application number: CN202111090532.5A
Authority: CN
Inventors: 邹俊逸
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-03-24

Abstract

本申请涉及一种基于对比学习的信息聚类处理方法、装置和计算机设备存储介质。所述方法包括：获取待处理的资讯信息；对资讯信息的标题文本进行处理，得到标题文本特征向量；以及对资讯信息的正文文本进行处理，得到正文文本特征向量；根据标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量；确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；根据相似度确定待处理的资讯信息所属的类别标签。采用本方法能够提高信息聚类的准确度。

Description

基于对比学习的信息聚类处理方法、装置和计算机设备

技术领域

本申请涉及计算机学习技术领域，特别是涉及一种基于对比学习的信息聚类方法、装置和计算机设备。

背景技术

目前，企业的新闻资讯热点聚类实现方式基本都是通过计算资讯标题的 TF-IDF特征或预训练词向量特征，得到资讯标题的句向量数学表示。再运用传统的机器学习聚类算法如K-MEANS算法和SinglePass算法等，把句向量距离相近的资讯标题归类为同一资讯热点。

由于资讯标题文本内容具有多样性、随意性，包含较多的干扰词。传统的语义特征提取算法难以准确提取资讯的事件特征。这种情况下传统的新闻资讯热点聚类方法的效果欠佳，不能对资讯信息进行准确聚类。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高信息聚类的准确度的基于对比学习的信息聚类方法、装置、计算机设备和存储介质。

一种基于对比学习的信息聚类处理方法，所述方法包括：

获取待处理的资讯信息；

对所述资讯信息的标题文本进行处理，得到标题文本特征向量；以及对所述资讯信息的正文文本进行处理，得到正文文本特征向量；

根据所述标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量；

确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；

根据所述相似度确定所述待处理的资讯信息所属的类别标签。

上述基于对比学习的信息聚类方法，通过对待处理资讯信息的标题文本和正文文本同时进行特征提取，得到了联合语义特征向量；通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似度，确定待处理信息的所属类别标签，提高了信息聚类的准确度。

在其中一个实施例中，所述对所述资讯信息的标题文本进行处理，得到标题文本特征向量；以及对所述资讯信息的正文文本进行处理，得到正文文本特征向量，包括：

通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息的标题文本进行处理，得到标题文本特征向量；以及

通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正文文本进行处理，得到正文文本特征向量；所述训练好的语义信息提取模型是通过先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对所述中间语义信息提取模型进行训练得到的。

通过无监督和有监督训练方式得到预先训练好的语义信息提取模型对资讯信息的标题文本以及正本文本进行特征提取，提高模型提取特征能力以及特征提取的准确性。

在其中一个实施例中，所述根据所述标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量，包括：

对所述标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量；

对所述拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量。

通过对所述标题文本特征向量和正文文本特征向量进行拼接，以及降维映射处理，减少数据处理量进而提高了数据的处理效率。

在其中一个实施例中，所述语义信息提取模型的训练，包括：

构建语义信息提取模型；

获取用于训练所述语义信息提取模型的信息样本数据集；

根据所述信息样本数据集，对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对所述中间语义信息提取模型进行训练；

当满足模型训练的预设条件时，得到训练好的语义信息提取模型。

通过无监督语义对比学习以及有监督对比学习，提高了语义提取模型的提取语义信息的能力以及提高模型的准确率。

在其中一个实施例中，所述根据所述信息样本数据集，对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对所述中间语义信息提取模型进行训练，包括：

从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集；

对所述第一样本数据集和所述第二样本数据集分别进行特征提取，得到对应的第一特征向量集和第二特征向量集；

根据所述第一特征向量集，以无监督的训练方式对所述语义信息提取模型进行训练，直到所述语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型；

根据所述第二特征向量集，以有监督的训练方式对所述中间语义信息提取模型进行训练，直到满足预设条件时，得到训练好的语义信息提取模型。

通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语义对比学习的方式精调语义信息提取模型，确定性能最佳的语义信息提取模型，能够对资讯进行准确聚类处理。

在其中一个实施例中，所述根据所述第一特征向量集，以无监督的训练方式对所述语义信息提取模型进行训练，直到所述语义信息提取模型的第一损失函数收敛时，得到中间语义信息提取模型，包括：

从所述第一特征向量集中确定预设数量的样本量数据；

多次将所述样本量数据输入至所述语义信息提取模型中，得到第一矩阵和第二矩阵；

根据所述第一矩阵和所述第二矩阵确定第一相似度矩阵；

根据所述第一相似度矩阵和第二相似度矩阵确定所述损失函数；

基于所述损失函数，对所述语义信息提取模型进行训练，直到所述语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型。

通过迭代模型的参数对模型参数进行优化，使得损失函数达到最小并收敛，得到性能最佳的中间语义信息提取模型。

在其中一个实施例中，所述根据所述第二特征向量集，以有监督的训练方式对所述中间语义信息提取模型进行训练，直到满足预设条件时，得到训练好的语义信息提取模型，包括：

根据所述第二特征向量集中的训练数据集，以有监督的训练方式对所述中间语义信息提取模型进行训练，得到待测试的语义信息提取模型；

根据所述第二样本数据集中的测试数据集，输入至所述待测试的语义信息提取模型，得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组；

根据所述第一数组和所述测试数据集的标签信息确定所属同一类别标签的第二数组，计算相关系数；

当所述相关系数在预设值范围内时，则得到训练好的语义信息提取模型。

通过有监督语义对比学习的方式对中间语义信息提取模型进行精调，比较各个训练阶段语义信息提取模型的优劣，并从中选择最优的模型进行部署使用，进一步提高模型最终准确率。

在其中一个实施例中，所述构建语义信息提取模型，包括：

基于Bert构建的第一信息提取子模型；所述第一信息提取子模型用于提取资讯信息的标题文本；

基于LSTM构建的第二信息提取子模型；所述第一信息提取子模型用于提取资讯信息的正文文本；

根据所述第一信息提取子模型和所述第二信息提取子模型，构建语义信息提取模型。

基于深度神经网络学习构建提取资讯信息正文文本和标题文本的语音信息提取模型，可以高效地提取文本语义特征，提高文本语义特征提取的效率以及准确性。

在其中一个实施例中，所述确定所述联合语义特征向量与各信息的类别标签对应的特征向量之间的相似度，包括：

对各信息类别标签中各资讯信息的联合语义特征向量进行均值处理，得到各信息类别标签对应的特征向量；

确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的余弦相似度；

所述根据所述相似度确定所述待处理的资讯信息所属的类别标签，包括：

当所述余弦相似度大于信息的类别标签的阈值时，则确定所述待处理的资讯信息属于该信息的类别标签。

根据确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的余弦相似度，和类别标签的阈值对处理的资讯信息进行准确聚类。

一种基于对比学习的信息聚类处理装置，所述装置包括：

获取模块，用于获取待处理的资讯信息；

特征处理模块，用于对所述资讯信息的标题文本进行处理，得到标题文本特征向量；以及对所述资讯信息的正文文本进行处理，得到正文文本特征向量；

语义联合模块，用于根据所述标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量；

确定模块，用于确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；

聚类模块，用于根据所述相似度确定所述待处理的资讯信息所属的类别标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理的资讯信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理的资讯信息；

上述基于对比学习的信息聚类装置、计算机设备和存储介质，通过对待处理资讯信息的标题文本和正文文本同时进行特征提取，得到了联合语义特征向量；通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似度，确定待处理信息的所属类别标签，提高了信息聚类的准确度。

附图说明

图1为一个实施例中基于对比学习的信息聚类处理方法的应用环境图；

图2为一个实施例中基于对比学习的信息聚类处理方法的流程示意图；

图3为另一个实施例中基于对比学习的信息聚类处理方法的流程示意图；

图4为一个实施例中语义信息提取模型的训练方法的流程示意图；

图5为一个实施例中以无监督语义对比学习的方式训练语义信息提取模型方法的流程示意图；

图6为一个实施例中以有监督语义对比学习的方式训练语义信息提取模型方法的流程示意图；

图7为一个实施例中基于对比学习的信息聚类处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于对比学习的信息聚类处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102从服务器104中获取待处理的资讯信息；对资讯信息的标题文本进行处理，得到标题文本特征向量；以及对资讯信息的正文文本进行处理，得到正文文本特征向量；根据标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量；确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；根据相似度确定待处理的资讯信息所属的类别标签。其中，终端102 可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器 104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于对比学习的信息聚类处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取待处理的资讯信息。

其中，资讯信息可以是不同领域的信息，例如，与企业相关的财经类的资讯信息、科技类的资讯信息以及建筑类的资讯信息等，资讯信息包括资讯标题和资讯正文。

步骤204，对资讯信息的标题文本进行处理，得到标题文本特征向量；以及对资讯信息的正文文本进行处理，得到正文文本特征向量。

其中，对资讯信息的标题文本进行处理，是指对资讯信息中短文本(如，标题文本)进行语义处理，提取标题文本的文本语义特征，得到标题文本特征向量。对资讯信息的正文文本进行处理，是指对资讯信息中的长文本进行处理，即正文文本进行语义处理，提取正文题文本的文本语义特征，得到正文文本特征向量。

可选地，标题文本处理和正文文本处理可以通过预先训练好的语义提取模型进行处理，分别得到对应的标题文本特征向量和正文文本特征向量。

标题文本特征向量和正文文本特征向量预设维数的浮点向量，预设维数是预先定义的。

具体地，获取待处理的资讯信息，确定待处理的资讯信息中的正文文本和标题文本，得到正文文本和标题文本对应的字符串；对正文文本的字符串以及标题文本的字符串进行文本语义特征提取，得到预设维数的标题文本特征向量；以及提取正文题文本的文本语义特征，得到预设维数的正文文本特征向量。

步骤206，根据标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量。

具体地，对标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量；对拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量。

步骤208，确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度。

步骤210，根据相似度确定待处理的资讯信息所属的类别标签。

具体地，对各信息类别标签中各资讯信息的联合语义特征向量进行均值处理，得到各信息类别标签对应的特征向量；确定联合语义特征向量与各信息类别标签对应的特征向量之间的余弦相似度；当余弦相似度大于信息的类别标签的阈值时，则确定待处理的资讯信息属于该信息的类别标签。例如，当类别标签A的阈值为0.7时，当待处理的资讯信息的联合语义特征向量与类别标签A 的特征向量的余弦相似度大于0.7时，则确定待处理的资讯信息属于类别标签A 的信息。

可选地，在一个实施例中，在确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度之前，通过各根据数据库中预先存储的各资讯信息的语义特征向量进行聚类处理确定各信息类别标签对应的特征向量，即采用聚类算法(例如，K-MEANS)，对预先存储的各资讯信息的语义特征向量进行聚类处理，得到若干信息簇，计算每个簇的中心点到所有资讯信息对应的语义特征向量坐标的距离，并迭代每个簇的中心点的坐标位置，使得每个簇内包含的所有资讯对应的浮点向量坐标之间彼此接近，得到同一簇信息的特征向量；最后把同一个簇内的资讯标记为同一资讯热点，即为同一个信息的类别标签。

上述基于对比学习的信息聚类处理方法中，通过对待处理资讯信息的标题文本和正文文本同时进行特征提取，得到了联合语义特征向量；通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似度，确定待处理信息的所属类别标签，提高了信息聚类的准确度。

在另一个实施例中，如图3所示，提供了一种基于对比学习的信息聚类处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤302，获取待处理的资讯信息。

步骤304，通过训练好的语义信息提取模型中的第一信息提取子模型对资讯信息的标题文本进行处理，得到标题文本特征向量。

步骤306，通过语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理，得到正文文本特征向量。

其中，训练好的语义信息提取模型是通过先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对中间语义信息提取模型进行训练得到的；如图4所示，提供了一种语义信息提取模型的训练方法，该方法包括以下步骤：

步骤402，构建语义信息提取模型。

具体地，基于Bert构建的第一信息提取子模型；第一信息提取子模型用于提取资讯信息的标题文本，例如，将资讯信息的标题文本的字符串输入至第一信息提取子模型中，输出为W维的浮点向量V_TITLE，即标题文本特征向量；基于LSTM(Long Short-TermMemory，长短期记忆网络)构建的第二信息提取子模型，例如，将将资讯信息的正文文本的字符串输入至第二信息提取子模型中，输出为W维的浮点向量V_CONTENT，即正文文本特征向量；第二信息提取子模型用于提取资讯信息的正文文本；根据第一信息提取子模型和第二信息提取子模型，构建语义信息提取模型。

其中，Bert是自然语言处理算法中的预训练模型，即通过大量语料的自监督预训练，模型可以高效地提取文本语义特征(如，资讯标题这类短文本)。LSTM 是有长短期记忆的事件循环深度神经网络，用来处理资讯正文长文本。本申请中，利用的Bert和LSTM和现有的网络结构相同，在此不做赘述。

步骤404，获取用于训练语义信息提取模型的信息样本数据集。

其中，信息样本数据集可以但不仅限于通过爬虫技术方式进行获取，信息样本数据集中包括多条资讯信息，每条资讯信息包括资讯标题和资讯正文。

步骤406，根据信息样本数据集，对语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对中间语义信息提取模型进行训练。

步骤408，当满足模型训练的预设条件时，得到训练好的语义信息提取模型。

具体地，从信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集；对第一样本数据集和第二样本数据集分别进行特征提取，得到对应的第一特征向量集和第二特征向量集；根据第一特征向量集，以无监督的训练方式对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型；根据第二特征向量集，以有监督的训练方式对中间语义信息提取模型进行训练，直到满足预设条件时，得到训练好的语义信息提取模型。

其中，对信息样本数据集进行随机分割得到第一样本数据集和第二样本数据集，第一样本数据集是指无标签数据，第二数据集是指有标签数据，有标签数据的打标方式在此不做限定。

预设条件是指预先确定的用于衡量模型性能的性能指标，性能指标可以但不仅限于是皮尔相关系数，即根据皮尔相关系数的取值范围，来衡量语义提取模型的性能。

上述语义信息提取模型的训练方法中，通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语义对比学习的方式精调语义信息提取模型，确定性能最佳的语义信息提取模型，能够对资讯进行准确聚类处理。

步骤308，对标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量。

其中，标题文本特征向量和正文文本特征向量的维数为W维，W是根据实际需求设定的，例如可以为768维。

步骤310，对拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量。

可选地，将待处理的资讯信息的标题文本的字符串和正文文本的字符串输入中语义信息提取模型中，得到W维的标题文本特征向量V_TITLE和W维的正文文本特征向量V_CONTENT，将W维的标题文本特征向量V_TITLE和W 维的正文文本特征向量V_CONTENT进行拼接后，得到2*W维的拼接语义向量，通过语义信息提取模型中的1个全连接深度神经网络，将2*W维的拼接语义向量进行降维映射处理，得到W维的联合语义特征向量。

步骤312，确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度。

步骤314，根据相似度确定待处理的资讯信息所属的类别标签。

可选地，在一个实施例中，获取的待处理的资讯信息有多条，确定各条待处理的资讯信息正文文本和标题文本的字符串，将各正文文本和标题文本的字符串输入至训练好的语义信息提取模型，通过第一信息提取子模型对资讯信息的标题文本进行处理，得到标题文本特征向量；通过语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理，得到正文文本特征向量；对标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量；对拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量。

将得到的各联合语义特征向量存储在数据库中，采用聚类算法对数据库中的联合语义特征向量进行聚类处理，得到多个簇，计算每个簇的中心点到所有联合语义特征向量坐标的距离，并迭代每个簇的中心点的坐标位置，使得每个簇内包含的所有资讯对应的浮点向量坐标之间彼此接近，把同一个簇内的资讯信息标记为同一信息类别标签，并计算同一簇中待处理的资讯信息的联合语义特征向量与已知的各信息类别标签对应的特征向量之间的相似度，根据相似度确定待处理的资讯信息所属的类别标签，根据文本语义和标题语义对待处理的资讯信息进行聚类处理，提高了资讯信息聚类处理的准确度。

上述基于对比学习的信息聚类处理方法中，以无监督的训练方式和有监督的训练方式对语义信息提取模型进行训练；即以无监督的训练方式来提高模型提取语义信息的能力，以有监督的训练方式提高模型提取语义信息的准确度；通过训练好的语义信息提取模型对待处理的资讯信息，进行语义信息特征提取，得到目标特征向量，通过计算信息特征向量各信息类别标签对应的特征向量之间的相似度；根据相似度确定所属的类别标签；提高了信息聚类的准确度。

在一个实施例中，如图5所示，提供了一种无监督语义对比学习的方式训练语义信息提取模型的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤502，从第一特征向量集中确定预设数量的样本量数据。

具体地，从信息样本数据集中确定无监督学习的第一样本数据集，即无标签资讯的数据集，通过构建的语义信息提取模型对第一样本数据集各样本数据进行特征提取，得到标题文本特征向量和正文文本特征向量，通过对标题文本特征向量和正文文本特征向量进行拼接以及降维映射处理得到样本特征向量集，即第一特征向量集，将第一特征向量集分为大小为BATCH的小批量样本，维度为W(即样本量数据)。

步骤504，多次将样本量数据输入至语义信息提取模型中，得到第一矩阵和第二矩阵。

具体地，将小批量样本量大小为BATCH的样本量数据输入至语义信息提取模型中，输出第一矩阵Y1的矩阵大小为[BATCH*W]，第一矩阵作为样本量数据的所有语义信息表示；将同一个小批量样本量大小为BATCH的样本量数据再次输入至语义信息提取模型中，输出Y2的矩阵大小同样为[BATCH*W]；其中，在语义信息提取模型设置了DropOut超参数为0.2，可以控制语义信息提取模型以一定概率随机丢弃神经单元的数值，实现文本数据增强；Y1和Y2矩阵的数值存在轻微的差异。

步骤506，根据第一矩阵和第二矩阵确定第一相似度矩阵。

具体地，将第一矩阵和第二矩阵中的语义联合特征向量(即，浮点向量) 归一化为单位向量，通过语义信息提取模型预测的小批量样本对应的浮点向量之间的第一相似度矩阵，即cos相似度矩阵Y_PREDICT为Y1乘Y2的转置，矩阵的大小为[BATCH*BATCH]。

步骤508，根据第一相似度矩阵和第二相似度矩阵确定损失函数。

其中，第二相似度矩阵是指第一矩阵和第二矩阵中实际浮点向量之间的cos 相似度矩阵Y_TRUE，矩阵大小应接近[BATCH*BATCH]的对角上元素均为1 的对角矩阵。

具体地，根据第一相似度矩阵和第二相似度矩阵的二值交叉熵(Binary Cross-Entropy)作为损失Loss，得到损失函数，可以表示为：

其中，公式中output size等于BATCH*BATCH，y_i是Y_TRUE中的每个数值，

是Y_PREDICT中的每个数值。

步骤510，基于损失函数，对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型。

具体地，基于损失函数，对语义信息提取模型进行训练，通过迭代模型的参数，使语义信息提取模型的损失函数的值达到最小并收敛，得到中间语义信息提取模型。

上述基于无监督语义对比学习的方式训练语义信息提取模型方法中，通过无标签数据集对语义信息提取模型进行训练，对语义信息提取模型的参数进行优化，使得损失函数达到最小并收敛，得到性能最佳的中间语义信息提取模型，提高语义信息提取模型提取语义信息的能力。

在一个实施例中，如图6所示，提供了一种有监督语义对比学习的方式训练语义信息提取模型的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤602，根据第二特征向量集中的训练数据集，以有监督的训练方式对中间语义信息提取模型进行训练，得到待测试的语义信息提取模型。

具体地，从信息样本数据集中确定有监督学习的第一样本数据集，即有标签资讯的数据集，通过构建的语义信息提取模型对第一样本数据集各样本数据进行特征提取，得到标题文本特征向量和正文文本特征向量，通过对标题文本特征向量和正文文本特征向量进行拼接以及降维映射处理得到样本特征向量集，即第二特征向量集；对第二特征向量集按照预设比例进行划分，分为训练数据集和测试数据集，其中第二特征向量集中包括由两个属于同一个资讯热点的资讯组成1个正样本对，两个不属于同一个资讯热点的资讯组成1个负样本对。

根据训练数据集，以有监督的训练方式对中间语义信息提取模型进行训练直达中间语义信息提取模型的损失函数值收敛时，得到待测试的语义信息提取模型。

步骤604，根据第二特征向量集中的测试数据集，输入至待测试的语义信息提取模型，得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组。

具体地，将根据第二特征向量集中的测试数据集，输入至待测试的语义信息提取模型，预测测试数据集中各样本对是否属于同一类别标签的概率，得到第一数组X。

步骤606，根据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组，计算相关系数。

其中，第二数组是指根据测试数据集的标签信息构建数组Y，如果测试数据集中的样本对属于同一个类别标签(如，资讯热点)则映射为1，反之映射为 0。

相关系数为第一数组X和第二数组Y之间的Pearson相关系数，Pearson 相关系数的计算公式如下：

cov(X，Y)＝E[(X-μX)(Y-μY)]

其中，cov表示协方差，σ表示方差，E表示期望，μ表示平均值。

步骤608，当相关系数在预设值范围内时，则得到训练好的语义信息提取模型。

其中，Pearson相关系数的预设值范围内为在(-1，1)，Pearson相关系数越高，则说明第一数组X和第二数组Y之间的正相关性越高，训练语义信息提取模型的预测结果越接近真实标签。

上述有监督语义对比学习的方式训练语义信息提取模型的方法中，通过无标签数据集对语义信息提取模型进行训练，得到性能最佳的中间语义信息提取模型的基础上，通过有标签数据对中间语义信息提取模型进行进一步训练，并根据Pearson相关系数对训练阶段语义信息提取模型进行衡量，并从中选择最优的模型进行部署使用；即在提高语义信息提取模型提取语义信息的能力的基础上，进一步提高了模型提取语义信息的准确性。

在一个实施例中，通过构建语义信息提取模型；获取用于训练语义信息提取模型的信息样本数据集；从信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集；对第一样本数据集和第二样本数据集分别进行特征提取，得到对应的第一特征向量集和第二特征向量集；从第一特征向量集中确定预设数量的样本量数据；多次将样本量数据输入至语义信息提取模型中，得到第一矩阵和第二矩阵；根据第一矩阵和第二矩阵确定第一相似度矩阵；根据第一相似度矩阵和第二相似度矩阵确定损失函数；基于损失函数，对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型；根据第二特征向量集中的训练数据集，以有监督的训练方式对中间语义信息提取模型进行训练，得到待测试的语义信息提取模型；根据第二样本数据集中的测试数据集，输入至待测试的语义信息提取模型，得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组；根据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组，计算相关系数；当相关系数在预设值范围内时，则得到训练好的语义信息提取模型。

获取待处理的资讯信息；通过训练好的语义信息提取模型中的第一信息提取子模型对资讯信息的标题文本进行处理，得到标题文本特征向量；以及通过语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理，得到正文文本特征向量；对标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量；对拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量；确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；根据相似度确定待处理的资讯信息所属的类别标签。

通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语义对比学习的方式精调语义信息提取模型，确定性能最佳的语义信息提取模型；通过语义信息提取模型对对待处理资讯信息的标题文本和正文文本同时进行特征提取，得到了联合语义特征向量；通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似度，确定待处理信息的所属类别标签，提高了信息聚类的准确度。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种基于对比学习的信息聚类处理装置，包括：获取模块702、特征处理模块704、语义联合模块706、确定模块 708和聚类模块710，其中：

获取模块702，用于获取待处理的资讯信息。

特征处理模块704，用于对资讯信息的标题文本进行处理，得到标题文本特征向量；以及对资讯信息的正文文本进行处理，得到正文文本特征向量。

语义联合模块706，用于根据标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量。

确定模块708，用于确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度。

聚类模块710，用于根据相似度确定待处理的资讯信息所属的类别标签。

上述基于对比学习的信息聚类处理装置中，通过对待处理资讯信息的标题文本和正文文本同时进行特征提取，得到了联合语义特征向量；通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似度，确定待处理信息的所属类别标签，提高了信息聚类的准确度。

在另一个实施例中，提供了一种基于对比学习的信息聚类处理装置，除包括获取模块702、特征处理模块704、语义联合模块706、确定模块708和聚类模块710之外，还包括：，其中：

构建模块，用于构建语义信息提取模型；

在一个实施例中，获取模块702还用于获取用于训练语义信息提取模型的信息样本数据集。

训练模块，用于根据信息样本数据集，对语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对中间语义信息提取模型进行训练；

确定模块，用于从信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集。

在一个实施例中，特征处理模块704还用于对第一样本数据集和第二样本数据集分别进行特征提取，得到对应的第一特征向量集和第二特征向量集。

在一个实施例中，训练模块还用于根据第一特征向量集，以无监督的训练方式对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型；

根据第二特征向量集，以有监督的训练方式对中间语义信息提取模型进行训练，直到满足预设条件时，得到训练好的语义信息提取模型。

在一个实施例中，确定模块还用于从第一特征向量集中确定预设数量的样本量数据。

在一个实施例中，特征处理模块704还用于多次将样本量数据输入至语义信息提取模型中，得到第一矩阵和第二矩阵。

在一个实施例中，确定模块还用于根据第一矩阵和第二矩阵确定第一相似度矩阵；根据第一相似度矩阵和第二相似度矩阵确定损失函数。

在一个实施例中，训练模块还用于基于损失函数，对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型。

在一个实施例中，训练模块还用于根据第二特征向量集中的训练数据集，以有监督的训练方式对中间语义信息提取模型进行训练，得到待测试的语义信息提取模型。

测试模块，用于根据第二样本数据集中的测试数据集，输入至待测试的语义信息提取模型，得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组。

计算模块，用于根据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组，计算相关系数。

在一个实施例中，确定模块还用于当相关系数在预设值范围内时，则得到训练好的语义信息提取模型。

在一个实施例中，构建模块还用于基于Bert构建的第一信息提取子模型；第一信息提取子模型用于提取资讯信息的标题文本；基于LSTM构建的第二信息提取子模型；第一信息提取子模型用于提取资讯信息的正文文本；根据第一信息提取子模型和第二信息提取子模型，构建语义信息提取模型。

均值处理模块，还用于对各信息类别标签中各资讯信息的联合语义特征向量进行均值处理，得到各信息类别标签对应的特征向量。

在一个实施例中，确定模块还用于确定联合语义特征向量与各信息类别标签对应的特征向量之间的余弦相似度；当余弦相似度大于信息的类别标签的阈值时，则确定待处理的资讯信息属于该信息的类别标签。

在一个实施例中，通过构建语义信息提取模型；获取用于训练语义信息提取模型的信息样本数据集；从信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集；对第一样本数据集和第二样本数据集分别进行特征提取，得到对应的第一特征向量集和第二特征向量集；从第一特征向量集中确定预设数量的样本量数据；多次将样本量数据输入至语义信息提取模型中，得到第一矩阵和第二矩阵；根据第一矩阵和第二矩阵确定第一相似度矩阵；根据第一相似度矩阵和第二相似度矩阵确定损失函数；基于损失函数，对语义信息提取模型进行训练，直到语义信息提取模型的损失函数收敛时，得到中间语义信息提取模型；根据第二特征向量集中的训练数据集，以有监督的训练方式对中间语义信息提取模型进行训练，得到待测试的语义信息提取模型；根据第二样本数据集中的测试数据集，输入至待测试的语义信息提取模型，得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组；根据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组，计算相关系数；当相关系数在预设值范围内时，则得到训练好的语义信息提取模型；即通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语义对比学习的方式精调语义信息提取模型，确定性能最佳的语义信息提取模型。

获取待处理的资讯信息；通过训练好的语义信息提取模型中的第一信息提取子模型对资讯信息的标题文本进行处理，得到标题文本特征向量；以及通过语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理，得到正文文本特征向量；对标题文本特征向量和正文文本特征向量进行拼接，得到拼接语义向量；对拼接语义向量进行降维映射处理，得到标题和正文的联合语义特征向量，即联合标题文本和正文文本的语义得到对应的联合语义特征向量；确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度；根据相似度确定待处理的资讯信息所属的类别标签，提高了信息聚类的准确度。

关于基于对比学习的信息聚类处理装置的具体限定可以参见上文中对于基于对比学习的信息聚类处理方法的限定，在此不再赘述。上述基于对比学习的信息聚类处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于对比学习的信息聚类处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM) 或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于对比学习的信息聚类处理方法，其特征在于，所述方法包括：

获取待处理的资讯信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述资讯信息的标题文本进行处理，得到标题文本特征向量；以及对所述资讯信息的正文文本进行处理，得到正文文本特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述标题文本特征向量和正文文本特征向量，得到标题和正文的联合语义特征向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述语义信息提取模型的训练，包括：

构建语义信息提取模型；

获取用于训练所述语义信息提取模型的信息样本数据集；

5.根据权利要求4所述的方法，其特征在于，所述根据所述信息样本数据集，对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后，再采用有监督的训练方式对所述中间语义信息提取模型进行训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一特征向量集，以无监督的训练方式对所述语义信息提取模型进行训练，直到所述语义信息提取模型的第一损失函数收敛时，得到中间语义信息提取模型，包括：

从所述第一特征向量集中确定预设数量的样本量数据；

根据所述第一矩阵和所述第二矩阵确定第一相似度矩阵；

7.根据权利要求5所述的方法，其特征在于，所述根据所述第二特征向量集，以有监督的训练方式对所述中间语义信息提取模型进行训练，直到满足预设条件时，得到训练好的语义信息提取模型，包括：

8.根据权利要求4至6任意一项所述的方法，其特征在于，所述构建语义信息提取模型，包括：

基于LSTM构建的第二信息提取子模型；所述第二信息提取子模型用于提取资讯信息的正文文本；

9.根据权利要求1所述的方法，其特征在于，所述确定所述联合语义特征向量与各信息的类别标签对应的特征向量之间的相似度，包括：

10.一种基于对比学习的信息聚类处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的资讯信息；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。