CN115840817A - 基于对比学习的信息聚类处理方法、装置和计算机设备 - Google Patents

基于对比学习的信息聚类处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN115840817A
CN115840817A CN202111090532.5A CN202111090532A CN115840817A CN 115840817 A CN115840817 A CN 115840817A CN 202111090532 A CN202111090532 A CN 202111090532A CN 115840817 A CN115840817 A CN 115840817A
Authority
CN
China
Prior art keywords
information
feature vector
semantic
information extraction
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111090532.5A
Other languages
English (en)
Inventor
邹俊逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Bozhilin Robot Co Ltd
Original Assignee
Guangdong Bozhilin Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bozhilin Robot Co Ltd filed Critical Guangdong Bozhilin Robot Co Ltd
Priority to CN202111090532.5A priority Critical patent/CN115840817A/zh
Publication of CN115840817A publication Critical patent/CN115840817A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于对比学习的信息聚类处理方法、装置和计算机设备存储介质。所述方法包括:获取待处理的资讯信息;对资讯信息的标题文本进行处理,得到标题文本特征向量;以及对资讯信息的正文文本进行处理,得到正文文本特征向量;根据标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;根据相似度确定待处理的资讯信息所属的类别标签。采用本方法能够提高信息聚类的准确度。

Description

基于对比学习的信息聚类处理方法、装置和计算机设备
技术领域
本申请涉及计算机学习技术领域,特别是涉及一种基于对比学习的信息聚 类方法、装置和计算机设备。
背景技术
目前,企业的新闻资讯热点聚类实现方式基本都是通过计算资讯标题的 TF-IDF特征或预训练词向量特征,得到资讯标题的句向量数学表示。再运用传 统的机器学习聚类算法如K-MEANS算法和SinglePass算法等,把句向量距离相 近的资讯标题归类为同一资讯热点。
由于资讯标题文本内容具有多样性、随意性,包含较多的干扰词。传统的语 义特征提取算法难以准确提取资讯的事件特征。这种情况下传统的新闻资讯热 点聚类方法的效果欠佳,不能对资讯信息进行准确聚类。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高信息聚类的准确度 的基于对比学习的信息聚类方法、装置、计算机设备和存储介质。
一种基于对比学习的信息聚类处理方法,所述方法包括:
获取待处理的资讯信息;
对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所 述资讯信息的正文文本进行处理,得到正文文本特征向量;
根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合 语义特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似 度;
根据所述相似度确定所述待处理的资讯信息所属的类别标签。
上述基于对比学习的信息聚类方法,通过对待处理资讯信息的标题文本和 正文文本同时进行特征提取,得到了联合语义特征向量;通过增加资讯信息的 正文文本计算与信息类别标签的特征向量之间的相似度,确定待处理信息的所 属类别标签,提高了信息聚类的准确度。
在其中一个实施例中,所述对所述资讯信息的标题文本进行处理,得到标 题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特 征向量,包括:
通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息 的标题文本进行处理,得到标题文本特征向量;以及
通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正 文文本进行处理,得到正文文本特征向量;所述训练好的语义信息提取模型是 通过先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监 督的训练方式对所述中间语义信息提取模型进行训练得到的。
通过无监督和有监督训练方式得到预先训练好的语义信息提取模型对资讯 信息的标题文本以及正本文本进行特征提取,提高模型提取特征能力以及特征 提取的准确性。
在其中一个实施例中,所述根据所述标题文本特征向量和正文文本特征向 量,得到标题和正文的联合语义特征向量,包括:
对所述标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向 量;
对所述拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征 向量。
通过对所述标题文本特征向量和正文文本特征向量进行拼接,以及降维映 射处理,减少数据处理量进而提高了数据的处理效率。
在其中一个实施例中,所述语义信息提取模型的训练,包括:
构建语义信息提取模型;
获取用于训练所述语义信息提取模型的信息样本数据集;
根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练 方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间 语义信息提取模型进行训练;
当满足模型训练的预设条件时,得到训练好的语义信息提取模型。
通过无监督语义对比学习以及有监督对比学习,提高了语义提取模型的提 取语义信息的能力以及提高模型的准确率。
在其中一个实施例中,所述根据所述信息样本数据集,对所述语义信息提 取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有 监督的训练方式对所述中间语义信息提取模型进行训练,包括:
从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习 的第二样本数据集;
对所述第一样本数据集和所述第二样本数据集分别进行特征提取,得到对 应的第一特征向量集和第二特征向量集;
根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型 进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息 提取模型;
根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取 模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型。
通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语 义对比学习的方式精调语义信息提取模型,确定性能最佳的语义信息提取模型, 能够对资讯进行准确聚类处理。
在其中一个实施例中,所述根据所述第一特征向量集,以无监督的训练方 式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的第一损失 函数收敛时,得到中间语义信息提取模型,包括:
从所述第一特征向量集中确定预设数量的样本量数据;
多次将所述样本量数据输入至所述语义信息提取模型中,得到第一矩阵和 第二矩阵;
根据所述第一矩阵和所述第二矩阵确定第一相似度矩阵;
根据所述第一相似度矩阵和第二相似度矩阵确定所述损失函数;
基于所述损失函数,对所述语义信息提取模型进行训练,直到所述语义信 息提取模型的损失函数收敛时,得到中间语义信息提取模型。
通过迭代模型的参数对模型参数进行优化,使得损失函数达到最小并收敛, 得到性能最佳的中间语义信息提取模型。
在其中一个实施例中,所述根据所述第二特征向量集,以有监督的训练方 式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好 的语义信息提取模型,包括:
根据所述第二特征向量集中的训练数据集,以有监督的训练方式对所述中 间语义信息提取模型进行训练,得到待测试的语义信息提取模型;
根据所述第二样本数据集中的测试数据集,输入至所述待测试的语义信息 提取模型,得到用于表征测试数据集中各测试数据所属同一类别标签的概率的 第一数组;
根据所述第一数组和所述测试数据集的标签信息确定所属同一类别标签的 第二数组,计算相关系数;
当所述相关系数在预设值范围内时,则得到训练好的语义信息提取模型。
通过有监督语义对比学习的方式对中间语义信息提取模型进行精调,比较 各个训练阶段语义信息提取模型的优劣,并从中选择最优的模型进行部署使用, 进一步提高模型最终准确率。
在其中一个实施例中,所述构建语义信息提取模型,包括:
基于Bert构建的第一信息提取子模型;所述第一信息提取子模型用于提取 资讯信息的标题文本;
基于LSTM构建的第二信息提取子模型;所述第一信息提取子模型用于提 取资讯信息的正文文本;
根据所述第一信息提取子模型和所述第二信息提取子模型,构建语义信息 提取模型。
基于深度神经网络学习构建提取资讯信息正文文本和标题文本的语音信息 提取模型,可以高效地提取文本语义特征,提高文本语义特征提取的效率以及 准确性。
在其中一个实施例中,所述确定所述联合语义特征向量与各信息的类别标 签对应的特征向量之间的相似度,包括:
对各信息类别标签中各资讯信息的联合语义特征向量进行均值处理,得到 各信息类别标签对应的特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的余弦 相似度;
所述根据所述相似度确定所述待处理的资讯信息所属的类别标签,包括:
当所述余弦相似度大于信息的类别标签的阈值时,则确定所述待处理的资 讯信息属于该信息的类别标签。
根据确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的 余弦相似度,和类别标签的阈值对处理的资讯信息进行准确聚类。
一种基于对比学习的信息聚类处理装置,所述装置包括:
获取模块,用于获取待处理的资讯信息;
特征处理模块,用于对所述资讯信息的标题文本进行处理,得到标题文本 特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量;
语义联合模块,用于根据所述标题文本特征向量和正文文本特征向量,得 到标题和正文的联合语义特征向量;
确定模块,用于确定所述联合语义特征向量与各信息类别标签对应的特征 向量之间的相似度;
聚类模块,用于根据所述相似度确定所述待处理的资讯信息所属的类别标 签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的资讯信息;
对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所 述资讯信息的正文文本进行处理,得到正文文本特征向量;
根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合 语义特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似 度;
根据所述相似度确定所述待处理的资讯信息所属的类别标签。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处 理器执行时实现以下步骤:
获取待处理的资讯信息;
对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所 述资讯信息的正文文本进行处理,得到正文文本特征向量;
根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合 语义特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似 度;
根据所述相似度确定所述待处理的资讯信息所属的类别标签。
上述基于对比学习的信息聚类装置、计算机设备和存储介质,通过对待处 理资讯信息的标题文本和正文文本同时进行特征提取,得到了联合语义特征向 量;通过增加资讯信息的正文文本计算与信息类别标签的特征向量之间的相似 度,确定待处理信息的所属类别标签,提高了信息聚类的准确度。
附图说明
图1为一个实施例中基于对比学习的信息聚类处理方法的应用环境图;
图2为一个实施例中基于对比学习的信息聚类处理方法的流程示意图;
图3为另一个实施例中基于对比学习的信息聚类处理方法的流程示意图;
图4为一个实施例中语义信息提取模型的训练方法的流程示意图;
图5为一个实施例中以无监督语义对比学习的方式训练语义信息提取模型 方法的流程示意图;
图6为一个实施例中以有监督语义对比学习的方式训练语义信息提取模型 方法的流程示意图;
图7为一个实施例中基于对比学习的信息聚类处理装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
本申请提供的基于对比学习的信息聚类处理方法,可以应用于如图1所示 的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102从 服务器104中获取待处理的资讯信息;对资讯信息的标题文本进行处理,得到 标题文本特征向量;以及对资讯信息的正文文本进行处理,得到正文文本特征 向量;根据标题文本特征向量和正文文本特征向量,得到标题和正文的联合语 义特征向量;确定联合语义特征向量与各信息类别标签对应的特征向量之间的 相似度;根据相似度确定待处理的资讯信息所属的类别标签。其中,终端102 可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器 104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于对比学习的信息聚类处理 方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取待处理的资讯信息。
其中,资讯信息可以是不同领域的信息,例如,与企业相关的财经类的资 讯信息、科技类的资讯信息以及建筑类的资讯信息等,资讯信息包括资讯标题 和资讯正文。
步骤204,对资讯信息的标题文本进行处理,得到标题文本特征向量;以及 对资讯信息的正文文本进行处理,得到正文文本特征向量。
其中,对资讯信息的标题文本进行处理,是指对资讯信息中短文本(如, 标题文本)进行语义处理,提取标题文本的文本语义特征,得到标题文本特征 向量。对资讯信息的正文文本进行处理,是指对资讯信息中的长文本进行处理, 即正文文本进行语义处理,提取正文题文本的文本语义特征,得到正文文本特 征向量。
可选地,标题文本处理和正文文本处理可以通过预先训练好的语义提取模 型进行处理,分别得到对应的标题文本特征向量和正文文本特征向量。
标题文本特征向量和正文文本特征向量预设维数的浮点向量,预设维数是 预先定义的。
具体地,获取待处理的资讯信息,确定待处理的资讯信息中的正文文本和 标题文本,得到正文文本和标题文本对应的字符串;对正文文本的字符串以及 标题文本的字符串进行文本语义特征提取,得到预设维数的标题文本特征向量; 以及提取正文题文本的文本语义特征,得到预设维数的正文文本特征向量。
步骤206,根据标题文本特征向量和正文文本特征向量,得到标题和正文的 联合语义特征向量。
具体地,对标题文本特征向量和正文文本特征向量进行拼接,得到拼接语 义向量;对拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征 向量。
步骤208,确定联合语义特征向量与各信息类别标签对应的特征向量之间的 相似度。
步骤210,根据相似度确定待处理的资讯信息所属的类别标签。
具体地,对各信息类别标签中各资讯信息的联合语义特征向量进行均值处 理,得到各信息类别标签对应的特征向量;确定联合语义特征向量与各信息类 别标签对应的特征向量之间的余弦相似度;当余弦相似度大于信息的类别标签 的阈值时,则确定待处理的资讯信息属于该信息的类别标签。例如,当类别标 签A的阈值为0.7时,当待处理的资讯信息的联合语义特征向量与类别标签A 的特征向量的余弦相似度大于0.7时,则确定待处理的资讯信息属于类别标签A 的信息。
可选地,在一个实施例中,在确定联合语义特征向量与各信息类别标签对 应的特征向量之间的相似度之前,通过各根据数据库中预先存储的各资讯信息 的语义特征向量进行聚类处理确定各信息类别标签对应的特征向量,即采用聚 类算法(例如,K-MEANS),对预先存储的各资讯信息的语义特征向量进行聚 类处理,得到若干信息簇,计算每个簇的中心点到所有资讯信息对应的语义特 征向量坐标的距离,并迭代每个簇的中心点的坐标位置,使得每个簇内包含的 所有资讯对应的浮点向量坐标之间彼此接近,得到同一簇信息的特征向量;最 后把同一个簇内的资讯标记为同一资讯热点,即为同一个信息的类别标签。
上述基于对比学习的信息聚类处理方法中,通过对待处理资讯信息的标题 文本和正文文本同时进行特征提取,得到了联合语义特征向量;通过增加资讯 信息的正文文本计算与信息类别标签的特征向量之间的相似度,确定待处理信 息的所属类别标签,提高了信息聚类的准确度。
在另一个实施例中,如图3所示,提供了一种基于对比学习的信息聚类处 理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤302,获取待处理的资讯信息。
步骤304,通过训练好的语义信息提取模型中的第一信息提取子模型对资讯 信息的标题文本进行处理,得到标题文本特征向量。
步骤306,通过语义信息提取模型中的第二信息提取子模型对资讯信息的正 文文本进行处理,得到正文文本特征向量。
其中,训练好的语义信息提取模型是通过先采用无监督的训练方式训练得 到中间语义信息提取模型后,再采用有监督的训练方式对中间语义信息提取模 型进行训练得到的;如图4所示,提供了一种语义信息提取模型的训练方法, 该方法包括以下步骤:
步骤402,构建语义信息提取模型。
具体地,基于Bert构建的第一信息提取子模型;第一信息提取子模型用于 提取资讯信息的标题文本,例如,将资讯信息的标题文本的字符串输入至第一 信息提取子模型中,输出为W维的浮点向量V_TITLE,即标题文本特征向量; 基于LSTM(Long Short-TermMemory,长短期记忆网络)构建的第二信息提取 子模型,例如,将将资讯信息的正文文本的字符串输入至第二信息提取子模型 中,输出为W维的浮点向量V_CONTENT,即正文文本特征向量;第二信息提 取子模型用于提取资讯信息的正文文本;根据第一信息提取子模型和第二信息 提取子模型,构建语义信息提取模型。
其中,Bert是自然语言处理算法中的预训练模型,即通过大量语料的自监 督预训练,模型可以高效地提取文本语义特征(如,资讯标题这类短文本)。LSTM 是有长短期记忆的事件循环深度神经网络,用来处理资讯正文长文本。本申请 中,利用的Bert和LSTM和现有的网络结构相同,在此不做赘述。
步骤404,获取用于训练语义信息提取模型的信息样本数据集。
其中,信息样本数据集可以但不仅限于通过爬虫技术方式进行获取,信息 样本数据集中包括多条资讯信息,每条资讯信息包括资讯标题和资讯正文。
步骤406,根据信息样本数据集,对语义信息提取模型先采用无监督的训练 方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对中间语义 信息提取模型进行训练。
步骤408,当满足模型训练的预设条件时,得到训练好的语义信息提取模型。
具体地,从信息样本数据集中确定无监督学习的第一样本数据集和有监督 学习的第二样本数据集;对第一样本数据集和第二样本数据集分别进行特征提 取,得到对应的第一特征向量集和第二特征向量集;根据第一特征向量集,以 无监督的训练方式对语义信息提取模型进行训练,直到语义信息提取模型的损 失函数收敛时,得到中间语义信息提取模型;根据第二特征向量集,以有监督 的训练方式对中间语义信息提取模型进行训练,直到满足预设条件时,得到训 练好的语义信息提取模型。
其中,对信息样本数据集进行随机分割得到第一样本数据集和第二样本数 据集,第一样本数据集是指无标签数据,第二数据集是指有标签数据,有标签 数据的打标方式在此不做限定。
预设条件是指预先确定的用于衡量模型性能的性能指标,性能指标可以但 不仅限于是皮尔相关系数,即根据皮尔相关系数的取值范围,来衡量语义提取 模型的性能。
上述语义信息提取模型的训练方法中,通过无监督语义对比学习的方式训 练语义信息提取模型以及通过有监督语义对比学习的方式精调语义信息提取模 型,确定性能最佳的语义信息提取模型,能够对资讯进行准确聚类处理。
步骤308,对标题文本特征向量和正文文本特征向量进行拼接,得到拼接语 义向量。
其中,标题文本特征向量和正文文本特征向量的维数为W维,W是根据实 际需求设定的,例如可以为768维。
步骤310,对拼接语义向量进行降维映射处理,得到标题和正文的联合语义 特征向量。
可选地,将待处理的资讯信息的标题文本的字符串和正文文本的字符串输 入中语义信息提取模型中,得到W维的标题文本特征向量V_TITLE和W维的 正文文本特征向量V_CONTENT,将W维的标题文本特征向量V_TITLE和W 维的正文文本特征向量V_CONTENT进行拼接后,得到2*W维的拼接语义向量, 通过语义信息提取模型中的1个全连接深度神经网络,将2*W维的拼接语义向 量进行降维映射处理,得到W维的联合语义特征向量。
步骤312,确定联合语义特征向量与各信息类别标签对应的特征向量之间的 相似度。
步骤314,根据相似度确定待处理的资讯信息所属的类别标签。
可选地,在一个实施例中,获取的待处理的资讯信息有多条,确定各条待 处理的资讯信息正文文本和标题文本的字符串,将各正文文本和标题文本的字 符串输入至训练好的语义信息提取模型,通过第一信息提取子模型对资讯信息 的标题文本进行处理,得到标题文本特征向量;通过语义信息提取模型中的第 二信息提取子模型对资讯信息的正文文本进行处理,得到正文文本特征向量; 对标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向量;对拼 接语义向量进行降维映射处理,得到标题和正文的联合语义特征向量。
将得到的各联合语义特征向量存储在数据库中,采用聚类算法对数据库中 的联合语义特征向量进行聚类处理,得到多个簇,计算每个簇的中心点到所有 联合语义特征向量坐标的距离,并迭代每个簇的中心点的坐标位置,使得每个 簇内包含的所有资讯对应的浮点向量坐标之间彼此接近,把同一个簇内的资讯 信息标记为同一信息类别标签,并计算同一簇中待处理的资讯信息的联合语义 特征向量与已知的各信息类别标签对应的特征向量之间的相似度,根据相似度 确定待处理的资讯信息所属的类别标签,根据文本语义和标题语义对待处理的 资讯信息进行聚类处理,提高了资讯信息聚类处理的准确度。
上述基于对比学习的信息聚类处理方法中,以无监督的训练方式和有监督 的训练方式对语义信息提取模型进行训练;即以无监督的训练方式来提高模型 提取语义信息的能力,以有监督的训练方式提高模型提取语义信息的准确度; 通过训练好的语义信息提取模型对待处理的资讯信息,进行语义信息特征提取, 得到目标特征向量,通过计算信息特征向量各信息类别标签对应的特征向量之 间的相似度;根据相似度确定所属的类别标签;提高了信息聚类的准确度。
在一个实施例中,如图5所示,提供了一种无监督语义对比学习的方式训 练语义信息提取模型的方法,以该方法应用于图1中的终端为例进行说明,包 括以下步骤:
步骤502,从第一特征向量集中确定预设数量的样本量数据。
具体地,从信息样本数据集中确定无监督学习的第一样本数据集,即无标 签资讯的数据集,通过构建的语义信息提取模型对第一样本数据集各样本数据 进行特征提取,得到标题文本特征向量和正文文本特征向量,通过对标题文本 特征向量和正文文本特征向量进行拼接以及降维映射处理得到样本特征向量集, 即第一特征向量集,将第一特征向量集分为大小为BATCH的小批量样本,维度 为W(即样本量数据)。
步骤504,多次将样本量数据输入至语义信息提取模型中,得到第一矩阵和 第二矩阵。
具体地,将小批量样本量大小为BATCH的样本量数据输入至语义信息提取 模型中,输出第一矩阵Y1的矩阵大小为[BATCH*W],第一矩阵作为样本量数 据的所有语义信息表示;将同一个小批量样本量大小为BATCH的样本量数据再 次输入至语义信息提取模型中,输出Y2的矩阵大小同样为[BATCH*W];其中, 在语义信息提取模型设置了DropOut超参数为0.2,可以控制语义信息提取模型 以一定概率随机丢弃神经单元的数值,实现文本数据增强;Y1和Y2矩阵的数 值存在轻微的差异。
步骤506,根据第一矩阵和第二矩阵确定第一相似度矩阵。
具体地,将第一矩阵和第二矩阵中的语义联合特征向量(即,浮点向量) 归一化为单位向量,通过语义信息提取模型预测的小批量样本对应的浮点向量 之间的第一相似度矩阵,即cos相似度矩阵Y_PREDICT为Y1乘Y2的转置, 矩阵的大小为[BATCH*BATCH]。
步骤508,根据第一相似度矩阵和第二相似度矩阵确定损失函数。
其中,第二相似度矩阵是指第一矩阵和第二矩阵中实际浮点向量之间的cos 相似度矩阵Y_TRUE,矩阵大小应接近[BATCH*BATCH]的对角上元素均为1 的对角矩阵。
具体地,根据第一相似度矩阵和第二相似度矩阵的二值交叉熵(Binary Cross-Entropy)作为损失Loss,得到损失函数,可以表示为:
Figure BDA0003267186090000131
其中,公式中output size等于BATCH*BATCH,yi是Y_TRUE中的每个数 值,
Figure BDA0003267186090000132
是Y_PREDICT中的每个数值。
步骤510,基于损失函数,对语义信息提取模型进行训练,直到语义信息提 取模型的损失函数收敛时,得到中间语义信息提取模型。
具体地,基于损失函数,对语义信息提取模型进行训练,通过迭代模型的 参数,使语义信息提取模型的损失函数的值达到最小并收敛,得到中间语义信 息提取模型。
上述基于无监督语义对比学习的方式训练语义信息提取模型方法中,通过 无标签数据集对语义信息提取模型进行训练,对语义信息提取模型的参数进行 优化,使得损失函数达到最小并收敛,得到性能最佳的中间语义信息提取模型, 提高语义信息提取模型提取语义信息的能力。
在一个实施例中,如图6所示,提供了一种有监督语义对比学习的方式训 练语义信息提取模型的方法,以该方法应用于图1中的终端为例进行说明,包 括以下步骤:
步骤602,根据第二特征向量集中的训练数据集,以有监督的训练方式对中 间语义信息提取模型进行训练,得到待测试的语义信息提取模型。
具体地,从信息样本数据集中确定有监督学习的第一样本数据集,即有标 签资讯的数据集,通过构建的语义信息提取模型对第一样本数据集各样本数据 进行特征提取,得到标题文本特征向量和正文文本特征向量,通过对标题文本 特征向量和正文文本特征向量进行拼接以及降维映射处理得到样本特征向量集, 即第二特征向量集;对第二特征向量集按照预设比例进行划分,分为训练数据 集和测试数据集,其中第二特征向量集中包括由两个属于同一个资讯热点的资 讯组成1个正样本对,两个不属于同一个资讯热点的资讯组成1个负样本对。
根据训练数据集,以有监督的训练方式对中间语义信息提取模型进行训练 直达中间语义信息提取模型的损失函数值收敛时,得到待测试的语义信息提取 模型。
步骤604,根据第二特征向量集中的测试数据集,输入至待测试的语义信息 提取模型,得到用于表征测试数据集中各测试数据所属同一类别标签的概率的 第一数组。
具体地,将根据第二特征向量集中的测试数据集,输入至待测试的语义信 息提取模型,预测测试数据集中各样本对是否属于同一类别标签的概率,得到 第一数组X。
步骤606,根据第一数组和测试数据集的标签信息确定所属同一类别标签的 第二数组,计算相关系数。
其中,第二数组是指根据测试数据集的标签信息构建数组Y,如果测试数 据集中的样本对属于同一个类别标签(如,资讯热点)则映射为1,反之映射为 0。
相关系数为第一数组X和第二数组Y之间的Pearson相关系数,Pearson 相关系数的计算公式如下:
Figure BDA0003267186090000151
cov(X,Y)=E[(X-μX)(Y-μY)]
其中,cov表示协方差,σ表示方差,E表示期望,μ表示平均值。
步骤608,当相关系数在预设值范围内时,则得到训练好的语义信息提取模 型。
其中,Pearson相关系数的预设值范围内为在(-1,1),Pearson相关系数越 高,则说明第一数组X和第二数组Y之间的正相关性越高,训练语义信息提取 模型的预测结果越接近真实标签。
上述有监督语义对比学习的方式训练语义信息提取模型的方法中,通过无 标签数据集对语义信息提取模型进行训练,得到性能最佳的中间语义信息提取 模型的基础上,通过有标签数据对中间语义信息提取模型进行进一步训练,并 根据Pearson相关系数对训练阶段语义信息提取模型进行衡量,并从中选择最优 的模型进行部署使用;即在提高语义信息提取模型提取语义信息的能力的基础 上,进一步提高了模型提取语义信息的准确性。
在一个实施例中,通过构建语义信息提取模型;获取用于训练语义信息提 取模型的信息样本数据集;从信息样本数据集中确定无监督学习的第一样本数 据集和有监督学习的第二样本数据集;对第一样本数据集和第二样本数据集分 别进行特征提取,得到对应的第一特征向量集和第二特征向量集;从第一特征 向量集中确定预设数量的样本量数据;多次将样本量数据输入至语义信息提取 模型中,得到第一矩阵和第二矩阵;根据第一矩阵和第二矩阵确定第一相似度 矩阵;根据第一相似度矩阵和第二相似度矩阵确定损失函数;基于损失函数, 对语义信息提取模型进行训练,直到语义信息提取模型的损失函数收敛时,得 到中间语义信息提取模型;根据第二特征向量集中的训练数据集,以有监督的 训练方式对中间语义信息提取模型进行训练,得到待测试的语义信息提取模型; 根据第二样本数据集中的测试数据集,输入至待测试的语义信息提取模型,得 到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组;根 据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组,计算 相关系数;当相关系数在预设值范围内时,则得到训练好的语义信息提取模型。
获取待处理的资讯信息;通过训练好的语义信息提取模型中的第一信息提 取子模型对资讯信息的标题文本进行处理,得到标题文本特征向量;以及通过 语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理, 得到正文文本特征向量;对标题文本特征向量和正文文本特征向量进行拼接, 得到拼接语义向量;对拼接语义向量进行降维映射处理,得到标题和正文的联 合语义特征向量;确定联合语义特征向量与各信息类别标签对应的特征向量之 间的相似度;根据相似度确定待处理的资讯信息所属的类别标签。
通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语 义对比学习的方式精调语义信息提取模型,确定性能最佳的语义信息提取模型; 通过语义信息提取模型对对待处理资讯信息的标题文本和正文文本同时进行特 征提取,得到了联合语义特征向量;通过增加资讯信息的正文文本计算与信息 类别标签的特征向量之间的相似度,确定待处理信息的所属类别标签,提高了 信息聚类的准确度。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示, 但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的 说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执 行。而且,图2-6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步 骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这 些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其 它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种基于对比学习的信息聚类处理 装置,包括:获取模块702、特征处理模块704、语义联合模块706、确定模块 708和聚类模块710,其中:
获取模块702,用于获取待处理的资讯信息。
特征处理模块704,用于对资讯信息的标题文本进行处理,得到标题文本特 征向量;以及对资讯信息的正文文本进行处理,得到正文文本特征向量。
语义联合模块706,用于根据标题文本特征向量和正文文本特征向量,得到 标题和正文的联合语义特征向量。
确定模块708,用于确定联合语义特征向量与各信息类别标签对应的特征向 量之间的相似度。
聚类模块710,用于根据相似度确定待处理的资讯信息所属的类别标签。
上述基于对比学习的信息聚类处理装置中,通过对待处理资讯信息的标题 文本和正文文本同时进行特征提取,得到了联合语义特征向量;通过增加资讯 信息的正文文本计算与信息类别标签的特征向量之间的相似度,确定待处理信 息的所属类别标签,提高了信息聚类的准确度。
在另一个实施例中,提供了一种基于对比学习的信息聚类处理装置,除包 括获取模块702、特征处理模块704、语义联合模块706、确定模块708和聚类 模块710之外,还包括:,其中:
构建模块,用于构建语义信息提取模型;
在一个实施例中,获取模块702还用于获取用于训练语义信息提取模型的 信息样本数据集。
训练模块,用于根据信息样本数据集,对语义信息提取模型先采用无监督 的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对中 间语义信息提取模型进行训练;
当满足模型训练的预设条件时,得到训练好的语义信息提取模型。
确定模块,用于从信息样本数据集中确定无监督学习的第一样本数据集和 有监督学习的第二样本数据集。
在一个实施例中,特征处理模块704还用于对第一样本数据集和第二样本 数据集分别进行特征提取,得到对应的第一特征向量集和第二特征向量集。
在一个实施例中,训练模块还用于根据第一特征向量集,以无监督的训练 方式对语义信息提取模型进行训练,直到语义信息提取模型的损失函数收敛时, 得到中间语义信息提取模型;
根据第二特征向量集,以有监督的训练方式对中间语义信息提取模型进行 训练,直到满足预设条件时,得到训练好的语义信息提取模型。
在一个实施例中,确定模块还用于从第一特征向量集中确定预设数量的样 本量数据。
在一个实施例中,特征处理模块704还用于多次将样本量数据输入至语义 信息提取模型中,得到第一矩阵和第二矩阵。
在一个实施例中,确定模块还用于根据第一矩阵和第二矩阵确定第一相似 度矩阵;根据第一相似度矩阵和第二相似度矩阵确定损失函数。
在一个实施例中,训练模块还用于基于损失函数,对语义信息提取模型进 行训练,直到语义信息提取模型的损失函数收敛时,得到中间语义信息提取模 型。
在一个实施例中,训练模块还用于根据第二特征向量集中的训练数据集, 以有监督的训练方式对中间语义信息提取模型进行训练,得到待测试的语义信 息提取模型。
测试模块,用于根据第二样本数据集中的测试数据集,输入至待测试的语 义信息提取模型,得到用于表征测试数据集中各测试数据所属同一类别标签的 概率的第一数组。
计算模块,用于根据第一数组和测试数据集的标签信息确定所属同一类别 标签的第二数组,计算相关系数。
在一个实施例中,确定模块还用于当相关系数在预设值范围内时,则得到 训练好的语义信息提取模型。
在一个实施例中,构建模块还用于基于Bert构建的第一信息提取子模型; 第一信息提取子模型用于提取资讯信息的标题文本;基于LSTM构建的第二信 息提取子模型;第一信息提取子模型用于提取资讯信息的正文文本;根据第一 信息提取子模型和第二信息提取子模型,构建语义信息提取模型。
均值处理模块,还用于对各信息类别标签中各资讯信息的联合语义特征向 量进行均值处理,得到各信息类别标签对应的特征向量。
在一个实施例中,确定模块还用于确定联合语义特征向量与各信息类别标 签对应的特征向量之间的余弦相似度;当余弦相似度大于信息的类别标签的阈 值时,则确定待处理的资讯信息属于该信息的类别标签。
在一个实施例中,通过构建语义信息提取模型;获取用于训练语义信息提 取模型的信息样本数据集;从信息样本数据集中确定无监督学习的第一样本数 据集和有监督学习的第二样本数据集;对第一样本数据集和第二样本数据集分 别进行特征提取,得到对应的第一特征向量集和第二特征向量集;从第一特征 向量集中确定预设数量的样本量数据;多次将样本量数据输入至语义信息提取 模型中,得到第一矩阵和第二矩阵;根据第一矩阵和第二矩阵确定第一相似度 矩阵;根据第一相似度矩阵和第二相似度矩阵确定损失函数;基于损失函数, 对语义信息提取模型进行训练,直到语义信息提取模型的损失函数收敛时,得 到中间语义信息提取模型;根据第二特征向量集中的训练数据集,以有监督的 训练方式对中间语义信息提取模型进行训练,得到待测试的语义信息提取模型; 根据第二样本数据集中的测试数据集,输入至待测试的语义信息提取模型,得 到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组;根 据第一数组和测试数据集的标签信息确定所属同一类别标签的第二数组,计算 相关系数;当相关系数在预设值范围内时,则得到训练好的语义信息提取模型; 即通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语义 对比学习的方式精调语义信息提取模型,确定性能最佳的语义信息提取模型。
获取待处理的资讯信息;通过训练好的语义信息提取模型中的第一信息提 取子模型对资讯信息的标题文本进行处理,得到标题文本特征向量;以及通过 语义信息提取模型中的第二信息提取子模型对资讯信息的正文文本进行处理, 得到正文文本特征向量;对标题文本特征向量和正文文本特征向量进行拼接, 得到拼接语义向量;对拼接语义向量进行降维映射处理,得到标题和正文的联 合语义特征向量,即联合标题文本和正文文本的语义得到对应的联合语义特征 向量;确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度; 根据相似度确定待处理的资讯信息所属的类别标签,提高了信息聚类的准确度。
关于基于对比学习的信息聚类处理装置的具体限定可以参见上文中对于基 于对比学习的信息聚类处理方法的限定,在此不再赘述。上述基于对比学习的 信息聚类处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。 上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以 软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模 块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其 内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、 存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提 供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。 该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存 储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口 用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商 网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于对比学习的信息聚类处理方法。该计算机设备的显示屏可以是液晶 显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的 触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是 外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储 器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中 的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的 至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁 带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM) 或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

Claims (12)

1.一种基于对比学习的信息聚类处理方法,其特征在于,所述方法包括:
获取待处理的资讯信息;
对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量;
根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;
根据所述相似度确定所述待处理的资讯信息所属的类别标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量,包括:
通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及
通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正文文本进行处理,得到正文文本特征向量;所述训练好的语义信息提取模型是通过先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量,包括:
对所述标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向量;
对所述拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征向量。
4.根据权利要求2所述的方法,其特征在于,所述语义信息提取模型的训练,包括:
构建语义信息提取模型;
获取用于训练所述语义信息提取模型的信息样本数据集;
根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练;
当满足模型训练的预设条件时,得到训练好的语义信息提取模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练,包括:
从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集;
对所述第一样本数据集和所述第二样本数据集分别进行特征提取,得到对应的第一特征向量集和第二特征向量集;
根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息提取模型;
根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的第一损失函数收敛时,得到中间语义信息提取模型,包括:
从所述第一特征向量集中确定预设数量的样本量数据;
多次将所述样本量数据输入至所述语义信息提取模型中,得到第一矩阵和第二矩阵;
根据所述第一矩阵和所述第二矩阵确定第一相似度矩阵;
根据所述第一相似度矩阵和第二相似度矩阵确定所述损失函数;
基于所述损失函数,对所述语义信息提取模型进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息提取模型。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型,包括:
根据所述第二特征向量集中的训练数据集,以有监督的训练方式对所述中间语义信息提取模型进行训练,得到待测试的语义信息提取模型;
根据所述第二样本数据集中的测试数据集,输入至所述待测试的语义信息提取模型,得到用于表征测试数据集中各测试数据所属同一类别标签的概率的第一数组;
根据所述第一数组和所述测试数据集的标签信息确定所属同一类别标签的第二数组,计算相关系数;
当所述相关系数在预设值范围内时,则得到训练好的语义信息提取模型。
8.根据权利要求4至6任意一项所述的方法,其特征在于,所述构建语义信息提取模型,包括:
基于Bert构建的第一信息提取子模型;所述第一信息提取子模型用于提取资讯信息的标题文本;
基于LSTM构建的第二信息提取子模型;所述第二信息提取子模型用于提取资讯信息的正文文本;
根据所述第一信息提取子模型和所述第二信息提取子模型,构建语义信息提取模型。
9.根据权利要求1所述的方法,其特征在于,所述确定所述联合语义特征向量与各信息的类别标签对应的特征向量之间的相似度,包括:
对各信息类别标签中各资讯信息的联合语义特征向量进行均值处理,得到各信息类别标签对应的特征向量;
确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的余弦相似度;
所述根据所述相似度确定所述待处理的资讯信息所属的类别标签,包括:
当所述余弦相似度大于信息的类别标签的阈值时,则确定所述待处理的资讯信息属于该信息的类别标签。
10.一种基于对比学习的信息聚类处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的资讯信息;
特征处理模块,用于对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量;
语义联合模块,用于根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;
确定模块,用于确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;
聚类模块,用于根据所述相似度确定所述待处理的资讯信息所属的类别标签。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202111090532.5A 2021-09-17 2021-09-17 基于对比学习的信息聚类处理方法、装置和计算机设备 Pending CN115840817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090532.5A CN115840817A (zh) 2021-09-17 2021-09-17 基于对比学习的信息聚类处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090532.5A CN115840817A (zh) 2021-09-17 2021-09-17 基于对比学习的信息聚类处理方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN115840817A true CN115840817A (zh) 2023-03-24

Family

ID=85574161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090532.5A Pending CN115840817A (zh) 2021-09-17 2021-09-17 基于对比学习的信息聚类处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115840817A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738968A (zh) * 2023-08-14 2023-09-12 宁波深擎信息科技有限公司 内容建联方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738968A (zh) * 2023-08-14 2023-09-12 宁波深擎信息科技有限公司 内容建联方法、装置、计算机设备和存储介质
CN116738968B (zh) * 2023-08-14 2023-11-24 宁波深擎信息科技有限公司 内容建联方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111967266B (zh) 中文命名实体识别系统、模型构建方法和应用及相关设备
Xie et al. Sql injection detection for web applications based on elastic-pooling cnn
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
US11704500B2 (en) Techniques to add smart device information to machine learning for increased context
CN112926654B (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN111898550B (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN111950279B (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
Fujikawa et al. Recognition of oracle bone inscriptions by using two deep learning models
CN111831826A (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
Hu et al. Attention‐guided evolutionary attack with elastic‐net regularization on face recognition
Wong et al. Feature selection and feature extraction: Highlights
CN115840817A (zh) 基于对比学习的信息聚类处理方法、装置和计算机设备
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
Liu et al. Construction of a smart face recognition model for university libraries based on FaceNet-MMAR algorithm
CN110909777A (zh) 一种多维特征图嵌入方法、装置、设备及介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination