CN116756596A

CN116756596A - 文本聚类模型训练方法、文本聚类方法、装置及相关设备

Info

Publication number: CN116756596A
Application number: CN202311039559.0A
Authority: CN
Inventors: 左勇; 吴俊江; 王晓龙
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-15
Anticipated expiration: 2043-08-17
Also published as: CN116756596B

Abstract

本发明公开了一种文本聚类模型训练方法、文本聚类方法、装置及相关设备，所述方法包括：从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征；将字特征和实体特征进行融合，得到融合特征；对融合特征进行编码处理和池化平均处理，得到第一句向量组和第二句向量组；将第一句向量组和第二句向量组输入第一对比学习模块进行对比学习，并确定第一损失值；将第一句向量组和所述第二句向量组输入第二对比学习模块进行聚类，并确定第二损失值；当第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型，采用本发明提高面对复杂语义的医疗问答信息时的聚类准确率。

Description

文本聚类模型训练方法、文本聚类方法、装置及相关设备

技术领域

本发明涉及数据处理领域，尤其涉及一种文本聚类模型训练方法、文本聚类方法、装置及相关设备。

背景技术

近来，随着互联网的飞速发展，各种社交媒体大量涌现，在健康相关的医疗领域，出现了许多在线医疗问答网站，它们为患者提供了更多元化的医疗信息获取渠道。

由于医疗问答信息为非结构化文本，为了充分利用医疗问答信息，抽取和挖掘出有用的医疗意图，一般采用聚类方法。聚类是一种无监督的机器学习方法，文本聚类是根据文档特征将文档聚集为文档簇，通过聚类可以更加高效的对海量数据进行识别并归类，获取有效知识。常用的方法为从医疗问答信息中提取出静态文本向量，采用K-means聚类对提取到的静态文本向量进行聚类。但静态文本向量难以适应复杂语义情况。当医疗问答信息为复杂语义信息时，会导致聚类的准确率较低。

因此，在面对复杂语义的医疗问答信息时，存在聚类准确率低的问题。

发明内容

本发明实施例提供一种文本聚类模型训练方法、文本聚类方法、装置及相关设备，以提高面对复杂语义的医疗问答信息时的聚类准确率。

为了解决上述技术问题，本申请实施例提供一种文本聚类模型训练方法，包括：

从训练文本中获取至少一句训练句子，并确定所述训练句子的字特征和实体特征，其中，所述字特征为所述训练句子中每个字对应的特征，所述实体特征为所述训练句子中每个字对应的实体特征；

基于初始文本聚类模型的门控模块，将所述字特征和所述实体特征进行融合，得到融合特征，其中，所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块，所述第一编码层的随机失活值和所述第二编码层的随机失活值不同；

采用所述第一编码层对所述融合特征进行编码和池化平均处理，得到第一句向量组，采用所述第二编码层对所述融合特征进行编码和池化平均处理，得到第二句向量组；

将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵，输入所述第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数；

将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵，输入所述第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数；

当所述第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型。

为了解决上述技术问题，本申请实施例提供一种文本聚类方法，包括：

从待聚类文本中获取至少一个待聚类句子；

将所述待聚类句子输入文本聚类模型进行文本聚类，得到聚类结果，其中，所述文本聚类模型为根据上述文本聚类模型训练方法训练得到的模型。

为了解决上述技术问题，本申请实施例还提供一种文本聚类模型训练装置，包括：

训练句子获取模块，用于从训练文本中获取至少一句训练句子，并确定所述训练句子的字特征和实体特征，其中，所述字特征为所述训练句子中每个字对应的特征，所述实体特征为所述训练句子中每个字对应的实体特征；

融合特征获取模块，用于基于初始文本聚类模型的门控模块，将所述字特征和所述实体特征进行融合，得到融合特征，其中，所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块，所述第一编码层的随机失活值和所述第二编码层的随机失活值不同；

编码模块，用于采用所述第一编码层对所述融合特征进行编码和池化平均处理，得到第一句向量组，采用所述第二编码层对所述融合特征进行编码和池化平均处理，得到第二句向量组；

第一损失值获取模块，用于将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵，输入所述第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数；

第二损失值获取模块，用于将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵，输入所述第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数；

文本聚类模型获取模块，用于当所述第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本聚类模型训练方法的步骤，或者，所述处理器执行所述计算机程序时实现上述文本聚类方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本聚类模型训练方法的步骤，或者，所述计算机程序被处理器执行时实现上述文本聚类方法的步骤。

本发明实施例提供的文本聚类模型训练方法、文本聚类方法、装置及相关设备，从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征；将字特征和实体特征进行融合，得到融合特征；采用所述第一编码层对所述融合特征进行编码和池化平均处理，得到第一句向量组，采用所述第二编码层对所述融合特征进行编码和池化平均处理，得到第二句向量组；将第一句向量组和第二句向量组输入第一对比学习模块进行对比学习，并确定第一损失值；将第一句向量组和所述第二句向量组输入第二对比学习模块进行聚类，并确定第二损失值；当第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型上述步骤基于无标注或者具有少量标注信息的训练文本训练得到文本聚类模型，通过对比学习结合聚类方法，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的文本聚类模型训练方法的一个实施例的流程图；

图3是本申请的文本聚类方法的一个实施例的流程图；

图4是根据本申请的文本聚类模型训练装置的一个实施例的结构示意图；

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture EpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4(Moving PictureEperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的文本聚类模型训练方法和文本聚类方法由服务器执行，相应地，文本聚类模型训练装置和文本聚类装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种文本聚类模型训练方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201、从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征，其中，字特征为训练句子中每个字对应的特征，实体特征为训练句子中每个字对应的实体特征。

具体地，从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征，将训练句子的字特征和实体特征输入初始文本聚类模型中。

上述训练文本是指医疗问答信息，该医疗问答信息的来源包括但不限于日志信息、用户问题集。

训练句子是指对训练文本进行分割后得到的句子。

上述字特征是指训练句子中每个字的对应的特征。本申请实施例采用的是字粒度的输入，例如，训练句子为X={x₁，x₂，……，x_n}，其中，n为训练句子的长度，即该训练句子的字数，x₁为该训练句子的第一个字特征，x₂为该训练句子的第二个字特征。

上述实体特征通过基于NER（Named Entity Recognition，命名实体识别）的词典规则模型对训练句子每个字进行实体标注，得到每个字的实体特征表示，该实体特征表示即训练句子中每个字对应的实体特征。

例如，训练句子为X={x₁，x₂，……，x_n}，经过词典规则模型进行实体标注后得到实体特征表示T={t₁，t₂，……，t_n}，其中，t_i={e₁，e₂，……,e_L}，t_i是指第i个字的实体特征，每个字的实体特征个数最多为L个，因此，输入层一个句子共有n×L个实体特征的输入。

通过获取训练句子的字特征和实体特征，在面对复杂语义的医疗问答信息时，实现多特征提取，从而提高对医疗问答信息进行聚类的准确率。

S202、基于初始文本聚类模型的门控模块，将字特征和实体特征进行融合，得到融合特征，其中，初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块，第一编码层的随机失活值和第二编码层的随机失活值不同。

具体地，上述融合的方法包括但不限于将字特征和实体特征进行相加融合、将字特征和实体特征进行拼接融合和基于bert模型将字特征和实体特征进行融合。

优选地，本申请采用基于bert模型将字特征和实体特征进行融合。

基于bert模型将字特征和实体特征进行融合的过程为对字特征进行向量化，得到字向量，对实体特征进行向量化，并按照每个字的实体特征个数求平均值，得到实体向量，将字向量和实体向量进行融合，得到融合特征。

其中，向量化是指采用bert Vocabulary字典中的[unused]作为特殊的词来替代实体特征T中的实体标识的过程。假设在bert Vocabulary字典中有[unused1]-[unused99]共100个特征token的词典，使用时做一个实体类型和特殊token字典的映射，如[unused1]=疾病，[unused2]=身体部位，经过映射，n个字的训练句子经过bert Vocabulary字典得到n个实体的token_id和n个字的token_id，token_id经过bert模型的词向量矩阵得到。

下面使用一个具体实施例对基于bert模型将字特征和实体特征进行融合的过程进行解释说明。

假设训练句子为X={x₁，x₂，……，x_n}，经过词典规则模型进行实体标注后得到实体特征表示T={t₁，t₂，……，t_n}，其中，t_i={e₁，e₂，……,e_L}，对字特征X进行向量化，得到字向量xe={xe₁，xe₂，……，xe_n}，，i的取值范围为(1，n)，i为正整数，n为训练句子的长度，d为bert模型的词嵌入维度。对实体特征T进行向量化，得到TE={te₁，te₂，……，te_n}，，i的取值范围为(1，n)，i为正整数，n为训练句子的长度，L为每个字的实体特征个数，d为bert模型的词嵌入维度，并按照每个字的实体特征个数L对TE求平均值，得到实体向量TEM={tem₁，tem₂，……，tem_n}，将字向量xe和实体向量TEM进行融合，得到融合特征XE={Xe₁，Xe₂，……，Xe_n}。

由于聚类过程中并不一定需要实体信息，通过门控模块将字特征和实体特征进行融合，使得每个字都有一个融合后的向量，可实现通过门控模块控制实体信息量的阈值，从而提高聚类的准确率。

S203、采用所述第一编码层对所述融合特征进行编码和池化平均处理，得到第一句向量组，采用所述第二编码层对所述融合特征进行编码和池化平均处理，得到第二句向量组。

具体地，将融合特征输入到bert模型中，经过第一编码层对该融合特征进行编码处理，得到第一编码特征矩阵，经过第二编码层对该融合特征进行编码处理，得到第二编码特征矩阵，对第一编码特征矩阵进行池化平均计算，得到第一句向量组，对第二编码特征矩阵进行池化平均计算，得到第二句向量组。

第一编码层的随机失活值（Dropout）和第二编码层的随机失活值不同。上述第一编码特征矩阵和第二编码特征矩阵均为N行D列的矩阵，N为训练句子的长度，D为bert模型的词嵌入维度。

上述第一向量组为，包括N个第一向量，每个第一向量为D维向量。

上述第二向量组为，包括N个第二向量，每个第二向量为D维向量。

应理解，N为样本数。为正样本对，i的取值范围为（1，N），i为正整数，其余2^N-2个样本对位负样本对，也就是说，负样本为针对每个样本本身和另一组向量对应位置的样本为正样本，其余为负样本。

上述池化平均是指对训练句子的N个字向量进行平均值计算，得到一个D维向量。

通过编码器不同的的过拟合层对融合特征进行编码处理，得到两个不同的向量，以便于后续对两个向量进行实例间对比学习和类别层次的对比学习，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

S204、将第一句向量组和第二句向量组均转化为N行L列的矩阵，输入第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数；

具体地，通过多层感知函数将第一句向量组转化为N行L列的矩阵，将第二句向量组转化为N行L列的矩阵，将两个N行L列的矩阵输入第一对比学习模块中进行对比学习，得到标注结果。根据标注结果确定第一损失值。

上述第一对比学习模块为实例间对比学习模块，用于学习实例间的信息，对训练句子进行标注预测。

上述对比学习是指向量间对比学习，向量是指句子的表征，为一个向量形式，表示该句子的语义特征，向量间的对比学习是一类优化向量的方法，可以通过不同句子向量的对比学习方式，使得相似的句子向量距离近，不相似句子向量距离远，达到获取更好的句子表征的目的，本方案是用来做多任务辅助句子聚类的作用。

上述第一损失值是第一对比学习模块中学习第一句向量组和第二句向量组的标注信息后，损失函数计算得到的值。

通过第一对比学习模块，对两个向量组进行实例间对比学习，以获得面对复杂语义的医疗问答信息的更多信息内容。

S205、将第一句向量组和第二句向量组均转化为M行N列的矩阵，输入第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数。

具体地，通过多层感知函数将第一句向量组转化为M行N列矩阵，将第二句向量组转化为M行N列的矩阵，将两个M行N列的矩阵输入第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值。

其中，M为指定的聚类数量。

上述第二对比学习模块为类别对比学习模块，用于学习样本类别的信息，对训练句子进行类别预测。

上述第二损失值是第二对比学习模块中对第一句向量组和第二句向量组进行聚类后，针对聚类结果，经损失函数计算得到的值。

通过第二对比学习模块，对两个向量组进行类别层次的对比学习，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

S206、当第一损失值和第二损失值满足预设条件时，将得到的模型作为文本聚类模型。

具体地，上述预设条件包括但不限于第一损失值满足预设条件且第二损失值满足预设条件、第一损失值和第二损失值的总和满足预设条件。

预设条件可根据实际情况具体设置。

在本实施例中，通过上述步骤，基于无标注或者具有少量标注信息的训练文本训练得到文本聚类模型，通过对比学习结合聚类方法，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

在本实施例的一些可选的实现方式中，步骤S202包括：

S2021、基于初始文本聚类模型，对字特征进行向量化，得到字向量，对实体特征进行向量化和平均值计算，得到实体向量。

S2022、基于门控模块，将字向量和实体向量进行融合，得到融合特征。

按照如下公式（1）计算融合特征：

Xe_i=(1-a)·xe_i+a·tem_i（1）

其中，Xe_i是指融合特征中的第i个特征，xe_i是指字向量中的第i个特征，tem_i是指实体向量中的第i个特征，i的取值范围为（1，n），i为正整数，n为字向量的特征总数，a=δ(w[tem_i:xe_i]+b)，a为标量，δ（）为sigmoid激活函数，w为权重向量，b为权重偏置。

将实体向量和字向量进行连接，得到连接向量，基于权重向量和权重偏置，将连接向量转化为标量a，标量a为通过sigmoid激活函数获取连接向量在[0,1]上的阈值，用于后续的门控模块学习。通过门控模块，将字向量和实体向量进动态融合。

在本实施中，由于聚类过程中并不一定需要实体信息，通过门控模块将字特征和实体特征进行融合，使得每个字都有一个融合后的向量，可实现通过门控模块控制实体信息量的阈值，从而提高聚类的准确率。

在本实施例的一些可选的实现方式中，步骤S204包括：

将第一句向量组和第二句向量组均转化为N行L列的矩阵，输入第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数；

按照如下公式（2）至公式（4）确定第一损失值：

（2）

（3）

（4）

其中，l_ins是指第一损失值，是指第一句向量组对应的N行L列矩阵的第i行损失值，/>是指第二句向量组对应的N行L列矩阵的第i行损失值，N是指转化后矩阵的行数，i的取值范围为（1，N），i为正整数，j的取值范围为（1，N），j为正整数，s（）为cosine函数，exp（）为指数函数，T为温度参数，/>是指第一句向量组对应的N行L列矩阵的第i行特征，/>是指第二句向量组对应的N行L列矩阵的第i行特征，/>是指第一句向量组对应的N行L列矩阵的第j行特征，/>是指第二句向量组对应的N行L列矩阵的第j行特征。

针对两个句向量组，利用cosine函数计算两个句向量组的相似度，然后除以温度参数T，温度参数T用于增强对负样本的识别能力。

在本实施例中，通过第一对比学习模块，对两个向量组进行实例间对比学习，以获得面对复杂语义的医疗问答信息的更多信息内容。

在本实施例的一些可选的实现方式中，步骤S205包括：

将第一句向量组和第二句向量组均转化为M行N列的矩阵，输入第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数；

按照如下公式（5）至公式（7）确定第二损失值：

（5）

（6）

（7）

其中，l_clu是指第二损失值，是指第一句向量组对应的M行N列矩阵的第i行损失值，/>是指第二句向量组对应的M行N列矩阵的第i行损失值，M是指转化后矩阵的行数，i的取值范围为（1，M），i为正整数，j的取值范围为（1，M），j为正整数，s（）为cosine函数，exp（）为指数函数，T为温度参数，/>是指第一句向量组对应的M行N列矩阵的第i行特征，/>是指第二句向量组对应的M行N列矩阵的第i行特征，/>是指第一句向量组对应的M行N列矩阵的第j行特征，/>是指第二句向量组对应的M行N列矩阵的第j行特征。

通过转置，将第一句向量组和第二句向量组均转化为M行N列的矩阵。

在本实施例中，通过第二对比学习模块，对两个向量组进行类别层次的对比学习，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

在本实施例的一些可选的实现方式中，步骤S206包括：

根据第一损失值和第二损失值，确定总体损失值。

当总体损失值满足预设条件时，将得到的模型作为文本聚类模型。

按照如下公式（8）计算总体损失值：

（8）

其中，l为总体损失值，l_ins为第一损失值，l_clu为第二损失值。

上述预设条件为总体损失值达到预设损失值。

在本实施例中，通过第一损失值和第二损失值，确定总体损失值，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

在本实施例的一些可选的实现方式中，当训练句子为部分监督样本时，文本聚类模型训练方法还包括：

在第一对比学习模块中，当第k行包括监督信息时，则基于第k行的监督信息，确定第k行的损失值。

在第二对比学习模块中，基于交叉熵函数确定第二损失值。

按照如下公式（9）计算总体损失值：

（9）

其中，l为总体损失值，l_ins为第一损失值，l_clu为第二损失值，l_a为第二对比学习模块中第一句向量组对应的M行N列矩阵的损失值，l_b为第二对比学习模块中第二句向量组对应的M行N列矩阵的损失值。

具体地，在第一对比学习模块中，当第k行包括监督信息时，需要在实例间对比学习模块引入监督信息，计算第k行的损失值时，根据第k行的监督信息，直接确定第k行的损失值。

在第二对比学习模块中，基于交叉熵函数确定第二损失值，直接对有监督信息的数据进行分类。

在本实施例中，通过上述步骤，实现了对具有监督信息的样本进行聚类学习，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图3，图3示出本发明实施例提供的一种文本聚类方法，以该方法应用在图2的文本聚类模型为例进行说明，详述如下：

S301、从待聚类文本中获取至少一个待聚类句子。

S302、将待聚类句子输入文本聚类模型进行文本聚类，得到聚类结果，其中，文本聚类模型为根据上述文本聚类模型训练方法训练得到的模型。

对于上述步骤S301，待聚类文本包括但不限于医疗文本、医疗问答问题。

对于上述步骤S302，将待聚类句子提取字特征和实体特征，输入文本聚类模型中进行文本聚类，得到聚类结果。

在本实施例中，通过文本聚类模型提取待聚类句子的聚类结果，通过对比学习结合聚类方法，从而提高面对复杂语义的医疗问答信息时的聚类准确率。

图4示出与上述实施例文本聚类模型训练方法一一对应的文本聚类模型训练装置的原理框图。如图4所示，该文本聚类模型训练装置包括训练句子获取模块41、融合特征获取模块42、编码模块43、第一损失值获取模块44、第二损失值获取模块45和文本聚类模型获取模块46。各功能模块详细说明如下：

训练句子获取模块41，用于从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征，其中，字特征为训练句子中每个字对应的特征，实体特征为训练句子中每个字对应的实体特征。

融合特征获取模块42，用于基于初始文本聚类模型的门控模块，将字特征和实体特征进行融合，得到融合特征，其中，初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块，第一编码层的随机失活值和第二编码层的随机失活值不同。

编码模块43，用于采用第一编码层对融合特征进行编码和池化平均处理，得到第一句向量组，采用第二编码层对融合特征进行编码和池化平均处理，得到第二句向量组。

第一损失值获取模块44，用于将第一句向量组和第二句向量组均转化为N行L列的矩阵，输入第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数。

第二损失值获取模块45，用于将第一句向量组和第二句向量组均转化为M行N列的矩阵，输入第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数。

文本聚类模型获取模块46，用于当第一损失值和第二损失值满足预设条件时，将得到的模型作为文本聚类模型。

在本实施例的一些可选的实现方式中，融合特征获取模块42包括：

向量化单元，用于基于初始文本聚类模型，对字特征进行向量化，得到字向量，对实体特征进行向量化和平均值计算，得到实体向量。

融合单元，用于基于门控模块，将字向量和实体向量进行融合，得到融合特征。

按照如下公式（1）计算融合特征：

Xe_i=(1-a)·xe_i+a·tem_i（1）

在本实施例的一些可选的实现方式中，第一损失值获取模块44包括：

按照如下公式（2）至公式（4）确定第一损失值：

（2）

（3）

（4）

在本实施例的一些可选的实现方式中，第二损失值获取模块45包括：

按照如下公式（5）至（7）确定第二损失值：

（5）

（6）

（7）

在本实施例的一些可选的实现方式中，文本聚类模型获取模块46包括：

总体损失值确定单元，用于根据第一损失值和第二损失值，确定总体损失值。

文本聚类模型获取单元，用于当总体损失值满足预设条件时，将得到的模型作为文本聚类模型。

按照如下公式（8）计算总体损失值：

（8）

在本实施例的一些可选的实现方式中，当训练句子为部分监督样本时，文本聚类模型训练装置还包括：

第一监督模块，用于在第一对比学习模块中，当第k行包括监督信息时，则基于第k行的监督信息，确定第k行的损失值。

第二监督模块，用于在第二对比学习模块中，基于交叉熵函数确定第二损失值。

按照如下公式（9）计算总体损失值：

（9）

关于文本聚类模型训练装置的具体限定可以参见上文中对于文本聚类模型训练方法的限定，在此不再赘述。上述文本聚类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是，图中仅示出了具有组件连接存储器51、处理器52、网络接口53的计算机设备5，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或D界面显示存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器51可以是所述计算机设备5的内部存储单元，例如该计算机设备5的硬盘或内存。在另一些实施例中，所述存储器51也可以是所述计算机设备5的外部存储设备，例如该计算机设备5上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中，所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器52在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中，所述处理器52用于运行所述存储器51中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口53可包括无线网络接口或有线网络接口，该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文本聚类模型训练方法的步骤，或者，以使所述至少一个处理器执行如上述的文本聚类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种文本聚类模型训练方法，其特征在于，所述文本聚类模型训练方法包括：

2.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述基于初始文本聚类模型的门控模块，将所述字特征和所述实体特征进行融合，得到融合特征的步骤包括：

基于初始文本聚类模型，对字特征进行向量化，得到字向量，对实体特征进行向量化和平均值计算，得到实体向量；

基于门控模块，将所述字向量和所述实体向量进行融合，得到融合特征；按照如下公式计算融合特征：

Xe_i=(1-a)·xe_i+a·tem_i

其中，Xe_i是指所述融合特征中的第i个特征，xe_i是指所述字向量中的第i个特征，tem_i是指所述实体向量中的第i个特征，i的取值范围为（1，n），i为正整数，n为所述字向量的特征总数，a=δ(w[tem_i:xe_i]+b)，a为标量，δ（）为sigmoid激活函数，w为权重向量，b为权重偏置。

3.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵，输入所述第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值的步骤包括：

按照如下公式确定第一损失值：

，

，其中，l_ins是指第一损失值，/>是指所述第一句向量组对应的N行L列矩阵的第i行损失值，/>是指所述第二句向量组对应的N行L列矩阵的第i行损失值，N是指转化后矩阵的行数，i的取值范围为（1，N），i为正整数，j的取值范围为（1，N），j为正整数，s（）为cosine函数，exp（）为指数函数，T为温度参数，/>是指所述第一句向量组对应的N行L列矩阵的第i行特征，/>是指所述第二句向量组对应的N行L列矩阵的第i行特征，/>是指所述第一句向量组对应的N行L列矩阵的第j行特征，/>是指所述第二句向量组对应的N行L列矩阵的第j行特征。

4.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵，输入所述第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值的步骤包括：

按照如下公式确定第二损失值：

，

其中，l_clu是指第二损失值，是指所述第一句向量组对应的M行N列矩阵的第i行损失值，/>是指所述第二句向量组对应的M行N列矩阵的第i行损失值，M是指转化后矩阵的行数，i的取值范围为（1，M），i为正整数，j的取值范围为（1，M），j为正整数，s（）为cosine函数，exp（）为指数函数，T为温度参数，/>是指所述第一句向量组对应的M行N列矩阵的第i行特征，/>是指所述第二句向量组对应的M行N列矩阵的第i行特征，/>是指所述第一句向量组对应的M行N列矩阵的第j行特征，/>是指所述第二句向量组对应的M行N列矩阵的第j行特征。

5.如权利要求3或4任一项所述的文本聚类模型训练方法，其特征在于，所述当所述第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型的步骤包括：

根据第一损失值和第二损失值，确定总体损失值；

当所述总体损失值满足预设条件时，将得到的模型作为文本聚类模型；

按照如下公式计算总体损失值：

6.如权利要求5所述的文本聚类模型训练方法，其特征在于，当所述训练句子为部分监督样本时，所述方法还包括：

在第一对比学习模块中，当第k行包括监督信息时，则基于所述第k行的监督信息，确定所述第k行的损失值；

在第二对比学习模块中，基于交叉熵函数确定第二损失值；

按照如下公式计算总体损失值：

7.一种文本聚类方法，其特征在于，所述文本聚类方法包括：

从待聚类文本中获取至少一个待聚类句子；

将所述待聚类句子输入文本聚类模型进行文本聚类，得到聚类结果，其中，所述文本聚类模型为根据权利要求1至6任一项所述的文本聚类模型训练方法训练得到的模型。

8.一种文本聚类模型训练装置，其特征在于，所述文本聚类模型训练装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的文本聚类模型训练方法，或者，所述处理器执行所述计算机程序时实现如权利要求7所述的文本聚类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本聚类模型训练方法，或者，所述计算机程序被处理器执行时实现如权利要求7所述的文本聚类方法。