CN115700555A - 模型训练方法、预测方法、装置和电子设备 - Google Patents

模型训练方法、预测方法、装置和电子设备 Download PDF

Info

Publication number
CN115700555A
CN115700555A CN202110860353.9A CN202110860353A CN115700555A CN 115700555 A CN115700555 A CN 115700555A CN 202110860353 A CN202110860353 A CN 202110860353A CN 115700555 A CN115700555 A CN 115700555A
Authority
CN
China
Prior art keywords
data
prediction
sample data
model
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110860353.9A
Other languages
English (en)
Inventor
谭清宇
何瑞丹
邴立东
吴慧途
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
National University of Singapore
Original Assignee
National University of Singapore
Alibaba Singapore Holdings Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Singapore, Alibaba Singapore Holdings Pte Ltd filed Critical National University of Singapore
Priority to CN202110860353.9A priority Critical patent/CN115700555A/zh
Publication of CN115700555A publication Critical patent/CN115700555A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种模型训练方法、预测方法、装置和电子设备。所述模型训练方法包括:将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;根据所述损失信息,确定所述预测模型的参数。本说明书实施例可以增强模型的领域适应性。

Description

模型训练方法、预测方法、装置和电子设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型训练方法、预测方法、装置和电子设备。
背景技术
随着人工智能技术的发展,通过样本数据训练预测模型,再利用训练后的预测模型对业务数据进行预测,这种方式在越来越多的领域得到普及应用。
在一些场景中,可以通过源领域的样本数据训练预测模型,再利用训练后的预测模型对源领域的业务数据进行预测。所述源领域可以包括热门领域、成熟领域等。随着业务的快速发展,有可能需要对目标领域的业务数据进行预测。所述目标领域可以包括新兴领域、冷门领域等。然而,目标领域下样本数据的数量往往较少,甚至,目标领域下不存在样本数据。这样便无法通过目标领域的样本数据训练预测模型,无法对目标领域的业务数据进行预测。
为了对目标领域的业务数据进行预测,一种解决方案是,直接利用源领域的预测模型对目标领域的业务数据进行预测。然而,源领域的预测模型是采用传统的模型训练方法训练得到的。采用传统的模型训练方法训练得到的模型,领域适应性较差。这样,若直接利用源领域的预测模型对目标领域的业务数据进行预测,会造成预测结果的准确性不高。
发明内容
本说明书实施例提供一种模型训练方法、预测方法、装置和电子设备,以增强模型的领域适应性。本说明书实施例的技术方案如下。
本说明书实施例的第一方面,提供了一种模型训练方法,包括:
将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;
根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;
根据所述损失信息,确定所述预测模型的参数
本说明书实施例的第二方面,提供了一种预测方法,包括:
将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述预测模型采用如第一方面所述的模型训练方法训练得到。
本说明书实施例的第三方面,提供了一种模型训练装置,包括:
预测单元,用于将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;
计算单元,用于根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;
确定单元,用于根据所述损失信息,确定所述预测模型的参数。
本说明书实施例的第四方面,提供了一种预测装置,包括:
预测单元,用于将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述预测模型采用如第一方面所述的模型训练方法训练得到。
本说明书实施例的第五方面,提供了一种电子设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或者第二方面所述方法的指令。
本说明书实施例提供的技术方案,损失函数中可以包括第一函数项和第二函数项。所述第一函数项可以用于增加不同标签所对应样本数据之间的差异,所述第二函数项可以用于减小预测结果和标签之间的差异。这样通过所述损失函数,可以增强模型的领域适应性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中预测模型的结构示意图;
图2为本说明书实施例中模型训练方法的流程示意图;
图3为本说明书实施例中不同损失函数的训练效果示意图;
图4为本说明书实施例中预测方法的流程示意图;
图5为本说明书实施例中模型训练装置的结构示意图;
图6为本说明书实施例中预测装置的结构示意图;
图7为本说明书实施例中电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在相关技术中,可以采用领域泛化的方法增强模型的领域适应性。上述相关技术中的领域泛化方法,往往是将一个源领域泛化到另一个已知的目标领域。具体的,可以通过源领域的样本数据训练预测模型,利用目标领域的样本数据对训练后的预测模型进行微调,再利用微调后的预测模型对目标领域的业务数据进行预测。然而,一方面,微调后的预测模型也仅能够对特定目标领域的的业务数据进行预测,无法对其它目标领域的业务数据进行预测。例如,可以通过A领域的样本数据训练预测模型,利用B领域的样本数据对训练后的预测模型进行微调。微调后的预测模型可以对B领域的业务数据进行预测,但无法对C领域的业务数据进行预测。另一方面,上述相关技术中的领域泛化方法,需要利用到目标领域的样本数据对训练后的预测模型进行微调。在一些情况下,目标领域下是不存在样本数据的。
在本说明书的一些实施例中,领域可以是指一种特定的范围。所述领域在实际中可以具有多种表现形式。例如,所述领域可以为语言领域。不同的语言可以为不同的领域。另举一例,所述领域也可以为商品的类目。不同的商品类目可以为不同的领域。另举一例,所述领域还可以为地理范围。不同的地理范围(例如省份等)可以为不同的领域。
请参阅图1,其示出了本说明书实施例涉及的预测模型。
所述预测模型可以为一种数学模型,用于对业务数据进行预测。所述预测模型可以包括分类模型、人脸识别模型等。其中,所述分类模型用于将业务数据划分至已知的类别。所述分类模型可以包括风险分类模型、情感分类模型、主题分类模型等。所述风险分类模型用于对业务数据的风险程度进行分类。所述情感分类模型用于对业务数据的情感倾向进行分类。所述主题分类模型用于对业务数据表达的主题进行分类。所述业务数据可以包括文本数据、图像数据、音频数据等。所述文本数据可以为一句话、或者包含多句话的段落等。
所述预测模型可以包括依次相连接的特征提取子模型和预测子模型。所述特征提取子模型用于从业务数据中提取特征数据,所述预测子模型用于根据特征数据对业务数据进行预测。所述特征数据能够反映业务数据的特征。例如,所述业务数据可以为文本数据,所述特征数据可以为文本数据的语义表示(Representation),所述语义表示可以包括向量、序列等。其中,所述特征提取子模型可以包括一个模块。例如,所述特征提取子模型可以包括编码模块。可以将业务数据输入至编码模块,得到所述业务数据的编码数据作为特征数据。或者,所述特征提取子模型还可以包括依次相连接的多个模块。例如,所述特征提取子模型可以包括依次相连接的编码模块和降维模块。所述编码模块用于对业务数据进行编码,得到编码数据。所述降维模块用于对编码数据进行降维,得到特征数据。具体的,例如,所述编码模块可以包括Transformer模型、CNN模型、LSTM模型等。所述降维模块可以包括前馈神经网络模型(feed-forward neural network)等。所述预测子模型可以包括贝叶斯模型、神经网络模型等。例如,所述业务数据可以为文本数据,所述预测模型可以包括特征提取子模型和预测子模型。所述特征提取子模型可以包括编码模块和降维模块。所述编码模块可以为语言模型(Language Model,LM)。所述语言模型可以包括LSTM模型、Roberta-large模型、XLM-R模型等。所述降维模块可以为前馈神经网络模型。所述预测子模型可以为神经网络模型。
以下介绍本说明书实施例提供的一种模型训练方法。所述模型训练方法可以应用于电子设备。所述电子设备可以包括服务器等。所述服务器可以为一个服务器,或者,还可以为包括多个服务器的服务器集群。所述模型训练方法可以用于训练所述预测模型。
请参阅图2。所述模型训练方法可以包括以下步骤。
步骤S21:将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果。
在一些实施例中,所述样本数据可以包括文本数据、图像数据、音频数据等。所述样本数据可以具有标签,所述标签用于表示样本数据的类别。所述标签可以包括风险类别标签、情感类别标签等。其中,所述风险类别标签可以包括有风险、无风险。或者,所述风险类别标签还可以包括高风险、中风险、低风险等。所述情感类别标签可以包括正向、负向。或者,所述情感类别标签还可以包括愉快、乐观、进取、热爱、敬畏、赞成、自责等。
所述若干数量可以为一个或多个。所述若干数量的样本数据可以包括用于对所述预测模型进行训练的全体样本数据。或者,所述若干数量的样本数据还可以包括所述全体样本数据中一个批次的批样本数据(batch)。所述全体样本数据可以包括多个批次的样本数据。所述若干数量的样本数据可以隶属于一个源领域。或者,为了增加样本数据的多样性,所述若干数量的样本数据还可以隶属于多个源领域。所述源领域可以包括热门领域、成熟领域等。在所述源领域下可以累积了较多数量的样本数据。
在一些实施例中,可以将若干数量的样本数据输入至预测模型,得到各个样本数据的预测结果。所述样本数据的预测结果可以为一个具体的类别。例如,所述样本数据的预测结果可以为1或者0,所述1表示正向情感类别,所述0表示负向情感类别。或者,所述样本数据的预测结果还可以为一个具体的数值,所述数值用于表示样本数据属于某一类别的概率。例如,所述样本数据的类别结果可以为0.8,所述0.8用于表示样本数据具有风险的概率为80%。
所述预测模型可以包括特征提取子模型和预测子模型。可以将若干数量的样本数据输入至特征提取子模型,得到各个样本数据的特征数据;可以将特征数据输入至预测子模型,得到各个样本数据的预测结果。进一步地,所述特征提取子模型还可以包括编码模块和降维模块。可以将若干数量的样本数据输入至编码模块,得到各个样本数据的编码数据;可以将编码数据输入至降维模块,得到对所述编码数据降维后的特征数据。
步骤S23:根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异。
在一些实施例中,传统的模型训练方法,在训练模型时采用的损失函数仅能够减小预测结果和标签之间的差异,从而造成训练后模型的领域适应性较差。本说明书实施例的模型训练方法,在训练模型时采用的损失函数可以包括第一函数项和第二函数项。所述第一函数项用于增加不同标签所对应样本数据之间的差异,减小相同标签所对应样本数据之间的差异,以将不同类别的样本数据更加明显的区别开来。所述第二函数项用于减小预测结果和标签之间的差异。因此,通过本说明书实施例的模型训练方法训练得到的模型,领域适应性较强。
在实际中,所述预测模型可以具有特征提取功能和预测功能。例如,所述预测模型可以包括特征提取子模型和预测子模型,所述特征提取子模型可以用于提取特征数据,所述预测子模型可以用于根据特征数据进行预测。所述第一函数项,可以减小相同类别特征数据之间的相似度距离,使相同类别的特征数据尽可能的接近;可以增加不同类别特征数据之间的相似度距离,使不同类别的特征数据尽可能的远离;从而将不同类别的特征数据更加明显的区分开来,以便更好的根据特征数据进行预测,提高预测结果的准确性,增强领域适应性。其中,特征数据的类别可以根据样本数据的标签确定。相同标签所对应样本数据的特征数据,可以具有相同的类别。不同标签所对应样本数据的特征数据,可以具有不同的类别。
例如,图3所示的样本数据具有两种标签。“×”表示一种标签对应的样本数据,“·”表示另一种标签对应的样本数据。颜色的深浅表示不同的领域。传统的模型训练方法,在训练模型时采用的损失函数仅能够使模型学习到一条较为模糊的判别边界。本说明书实施例的模型训练方法,在训练模型时采用的损失函数可以增加不同类别特征数据之间的相似度距离,减小相同类别特征数据之间的相似度距离,使模型学习到的判别边界更加清晰。
在一些实施例中,所述损失函数可以根据第一函数项和第二函数项获得。具体的,所述损失函数可以为第一函数项和第二函数项的和。例如,所述第一函数项可以为LSCL。所述第二函数项可以为LCE。所述损失函数可以为L=LSCL+LCE。当然,所述损失函数还可以通过其它的运算方式获得。例如,所述损失函数还可以为第一函数项和第二函数项的乘积。值得说明的是,本说明书实施例并不排除所述损失函数还可以包括其它数据项的技术方案。例如,所述损失函数还可以包括正则项,所述正则项可以用于降低模型过拟合的风险。
所述第一函数项可以为有监督对比学习的损失函数。例如,所述有监督对比学习的损失函数可以为
Figure BDA0003183050790000051
其中,N表示样本数据的数量。S表示所述若干数量的样本数据的特征数据形成的集合。P(i)≡{zj∈S(i),yj=yi}。P(i)表示集合S中与zi的标签相同的特征数据形成的子集合。A(i)≡{zj∈S(i),j≠i}。A(i)表示集合S中除了zi以外的特征数据形成的子集合。zi表示样本数据xi的特征数据,zi的标签即为样本数据xi的标签。zj表示样本数据xj的特征数据,zj的标签即为样本数据xj的标签。τ为超参数,用于调整(例如放大或者缩小)损失函数的大小。τ可以为0.2或0.4等。当然,可以理解的是,所述第一函数项还可以为其它的形式。例如,S表示所述若干数量的样本数据的特征数据形成的集合。可以将集合S划分为多个子集合。子集合内部各个特征数据的标签相同,不同子集合之间特征数据的标签不同。那么,所述第一函数项可以为:针对每个子集合,可以将该子集合内部的各个特征数据相加,得到该子集合的参考数据;可以将所述多个子集合的参考数据两两相减,得到参考数据的差值;可以将参考数据的差值进行累加,得到第一函数项的取值。所述第二函数项可以包括交叉熵损失函数、对数损失函数、指数损失函数等。例如,所述交叉熵损失函数可以为
Figure BDA0003183050790000052
其中,N表示样本数据的数量。yi表示样本数据xi的标签,zi表示样本数据xi的特征数据,g(zi)表示样本数据xi的预测结果。
在一些实施例中,可以根据标签和特征数据,计算第一函数项的损失信息;可以根据标签和特征数据,计算第二函数项的损失信息;可以根据第一函数项的损失信息和第二函数项的损失信息,计算损失函数的损失信息。具体的,可以根据样本数据的标签和特征数据,计算第一函数项的取值;可以根据样本数据的标签和特征数据,计算第二函数项的取值;可以根据第一函数项的取值和第二函数项的取值,计算损失函数的取值。其中,根据损失函数的获得方式的不同,损失函数取值的计算方式也可以不同。例如,所述损失函数可以为第一函数项和第二函数项的和。那么,可以将第一函数项的取值和第二函数项的取值相加,得到损失函数的取值。所述损失函数的损失信息可以根据损失函数的取值获得。在实际中,所述若干数量的样本数据可以包括一个样本数据。这样,可以将损失函数的取值作为损失函数的损失信息。或者,所述若干数量的样本数据可以包括多个样本数据。这样,可以根据损失函数的多个取值,计算平均值、中位数等作为损失函数的损失信息。
步骤S25:根据所述损失信息,确定所述预测模型的参数。
在一些实施例中,可以以最小化损失函数的损失信息为目标,优化所述预测模型的参数。在实际中,可以采用梯度下降法或者牛顿法等,优化所述预测模型的参数。训练后的预测模型具有较强的领域适应性,能用于对任意领域的业务数据进行预测。例如,训练后的预测模型可以用于对目标领域的业务数据进行预测。所述目标领域和所述源领域不同。所述目标领域可以包括新兴领域、冷门领域等。在目标领域下累积的样本数据的数量较少,或者,不存在样本数据。这样使得,预测模型的训练过程无需借助目标领域的数据,而是在源领域进行训练后,便可以直接在任意的目标领域进行预测,从而满足了业务的快速发展需求。
在一些实施例中,可以采用分批训练的方式,对预测模型进行训练。具体的,可以将用于对预测模型进行训练的全体样本数据划分为多个批次。对预测模型进行训练的过程可以包括多次迭代过程。在每次迭代过程中,可以将一个批次的样本数据输入至预测模型,以优化预测模型的参数。通常情况下,批次规模(batch-size,一个批次的样本数据的数量)越大,预测模型的训练效果越好。然而,受限于GPU内存、电子设备的内存等,批次规模无法设置的较大。例如,所述样本数据可以为文本数据。所述预测模型可以包括特征提取子模型和预测子模型,所述特征提取子模型可以包括编码模块和降维模块。所述编码模块可以为Roberta-large模型。所述降维模块可以为前馈神经网络模型。所述预测子模型可以为神经网络模型。在这样的情况下,受限于GPU内存的大小,批次规模往往设置在16以内。
考虑到相较于样本数据,特征数据占用的容量往往较小。为了提高预测模型的训练效果,可以设置缓存库。所述缓存库可以用于存储一个批次或者多个批次样本数据的特征数据以及标签。所述缓存库中存储的特征数据和标签,可以用于协助计算第一函数项的损失信息。具体的,所述预测模型可以包括特征提取子模型和预测子模型。在每次迭代过程中,可以将一个批次的样本数据输入至特征提取子模型,得到各个样本数据的特征数据;可以将特征数据输入至预测子模型,得到各个样本数据的预测结果。并且,还可以从缓存库中读取若干数量的特征数据及其对应的标签。这样,在每次迭代过程中,可以根据该批次样本数据的标签、该批次样本数据的特征数据、读取的标签、以及读取的特征数据,计算第一函数项的损失信息;可以计算第二函数项的损失信息;可以根据第一函数项的损失信息和第二函数项的损失信息,计算损失函数的损失信息。从而实现,在批次规模较小的情况下,通过复用缓存库中的特征数据和标签,提高预测模型的训练效果。其中,第一函数项损失信息的计算过程,可以参见步骤S23。另外,可以仅根据该批次样本数据的标签、以及该批次样本数据的预测结果,计算第二函数项的损失信息。或者,还可以将读取的特征数据输入至预测子模型,得到读取的特征数据所对应的预测结果。可以根据该批次样本数据的标签、该批次样本数据的预测结果、读取的标签、以及读取的特征数据所对应的预测结果,计算第二函数项的损失信息。
在对预测模型进行训练的过程中,所述缓存库中存储的特征数据和标签可以保持不变。或者,在对预测模型进行训练的过程中,还可以对所述缓存库中存储的特征数据和标签进行更新。具体的,在每次迭代过程中,可以从缓存库中删除存储时间较长的特征数据和标签,可以将当前批次样本数据的特征数据和标签对应存储至所述缓存库中。其中,所述缓存库可以设置在GPU内存、电子设备的内存、或者外部存储器(例如硬盘)中。所述缓存库的容量可以理解为所述预测模型的超参数。具体可以根据预测模型的训练效果、GPU内存的大小等综合设置所述缓存库的容量。例如,所述缓存库的容量可以设置为128或者120。
本说明书实施例的训练训练方法,损失函数中可以包括第一函数项和第二函数项。所述第一函数项可以用于增加不同标签所对应样本数据之间的差异,所述第二函数项可以用于减小预测结果和标签之间的差异。这样通过所述损失函数,可以增强模型的领域适应性。
本说明书实施例还提供一种预测方法。所述预测方法可以应用于电子设备。所述电子设备可以包括服务器。所述服务器可以为一个服务器,或者,还可以为包括多个服务器的服务器集群。请参阅图4。所述预测方法可以包括以下步骤。
步骤S41:将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果。
在一些实施例中,所述预测模型可以根据图2所对应实施例的模型训练方法训练得到。所述预测模型具有较强的领域适应性。例如,所述预测模型可以基于一个或多个源领域的样本数据训练得到。可以直接将目标领域的业务数据输入至预测模型,得到所述业务数据的预测结果。所述目标领域和所述源领域不同。所述目标领域可以包括新兴领域、冷门领域等。
在一些应用场景中,所述业务数据可以为文本数据,所述预测模型可以为情感分类模型,所述预测结果可以为情感类别。
本说明书实施例的预测方法,可以利用预测模型对业务数据进行预测。
以下介绍本说明书的一个场景示例。
在电子商务领域,需要对商品的评论文本进行情感分类,以快速筛选出受欢迎的商品。但是,不同类目下的商品,所累积的评论文本的数量是不均衡的。对于一些热门类目下的商品,所累积的评论文本的数量较多。对于一些冷门或者新兴类目(例如,新冠肺炎相关的类目)下的商品,所累积的评论文本的数量较少。这样,需要借助热门类目下商品的评论文本训练情感分类模型,再利用训练后的情感分类模型对冷门或者新兴类目下商品的评论文本进行情感分类,以快速筛选出受欢迎的商品。然而,采用传统的模型训练方法训练得到的情感分类模型,领域适应性较差,无法进行跨领域的情感分析。为此,在本场景示例中,可以采集多个热门类目下商品的评论文本;可以利用采集的评论文本,采用本说明书实施例的模型训练方法,训练情感分类模型。训练后的情感分类模型具有较强的领域适应性,可以直接对冷门或者新兴类目下商品的评论文本进行情感分类。
请参阅图5。本说明书提供模型训练装置的一个实施例。
所述模型训练装置可以包括以下模块单元。
预测单元51,用于将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;
计算单元53,用于根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;
确定单元55,用于根据所述损失信息,确定所述预测模型的参数。
请参阅图6。本说明书提供预测装置的一个实施例。
所述预测装置可以包括以下模块单元。
预测单元61,用于将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述预测模型根据图2所对应实施例的模型训练方法训练得到。
下面介绍本说明书电子设备的一个实施例。图7是该实施例中电子设备的硬件结构示意图。如图7所示,该电子设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图7所示的硬件结构仅为示意,其并不对上述电子设备的硬件结构造成限定。在实际中该电子设备还可以包括比图7所示更多或者更少的组件单元;或者,具有与图7所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述存储器可以用于存储应用软件的程序指令或模块,例如本说明书图2或图4所对应实施例的程序指令或模块。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书图2或图4所对应实施例的程序指令或模块。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、电子设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种模型训练方法,包括:
将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;
根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;
根据所述损失信息,确定所述预测模型的参数。
2.如权利要求1所述的方法,所述预测模型包括特征提取子模型和预测子模型;
所述将若干数量的样本数据输入至预测模型,包括:
将若干数量的样本数据输入至特征提取子模型,得到所述样本数据的特征数据;
将所述特征数据输入至预测子模型,得到所述样本数据的预测结果;
所述利用所述预测模型的损失函数计算损失信息,包括:
根据所述标签和所述特征数据,计算第一函数项的损失信息;
根据所述标签和所述预测结果,计算第二函数项的损失信息;
根据第一函数项的损失信息和第二函数项的损失信息,计算所述损失函数的损失信息。
3.如权利要求2所述的方法,所述特征提取子模型包括编码模块和降维模块;
所述将若干数量的样本数据输入至特征提取子模型,包括:
将若干数量的样本数据输入至编码模块,得到所述样本数据的编码数据;
将所述编码数据输入至降维模块,得到对所述编码数据降维后的特征数据。
4.如权利要求2所述的方法,所述方法还包括:
将所述标签和所述特征数据进行对应存储。
5.如权利要求2所述的方法,所述方法还包括:
读取若干数量的特征数据及其对应的标签;
所述计算第一函数项的损失信息,包括:
根据样本数据的标签、样本数据的特征数据、读取的标签、以及读取的特征数据,计算第一函数项的损失信息。
6.如权利要求1所述的方法,所述预测模型包括情感分类模型,所述样本数据包括文本数据,所述标签包括情感类别标签。
7.一种预测方法,包括:
将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述预测模型采用如权利要求1-6中任一项方法训练得到。
8.如权利要求7所述的方法,所述预测模型基于一个或多个源领域的样本数据训练得到,所述将业务数据输入至训练后的预测模型,包括:
将目标领域的业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述目标领域和所述源领域不同。
9.如权利要求7所述的方法,所述业务数据包括文本数据,所述预测模型包括情感分类模型,所述预测结果包括情感类别。
10.一种模型训练装置,包括:
预测单元,用于将若干数量的样本数据输入至预测模型,得到所述样本数据的预测结果;
计算单元,用于根据所述预测结果和所述样本数据的标签,利用所述预测模型的损失函数计算损失信息,所述损失函数包括第一函数项和第二函数项,所述第一函数项用于增加不同标签所对应样本数据之间的差异,所述第二函数项用于减小预测结果和标签之间的差异;
确定单元,用于根据所述损失信息,确定所述预测模型的参数。
11.一种预测装置,包括:
预测单元,用于将业务数据输入至训练后的预测模型,得到所述业务数据的预测结果,所述预测模型采用如权利要求1-6中任一项方法训练得到。
12.一种电子设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-9中任一项方法的指令。
CN202110860353.9A 2021-07-27 2021-07-27 模型训练方法、预测方法、装置和电子设备 Pending CN115700555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860353.9A CN115700555A (zh) 2021-07-27 2021-07-27 模型训练方法、预测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860353.9A CN115700555A (zh) 2021-07-27 2021-07-27 模型训练方法、预测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN115700555A true CN115700555A (zh) 2023-02-07

Family

ID=85120640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860353.9A Pending CN115700555A (zh) 2021-07-27 2021-07-27 模型训练方法、预测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN115700555A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737607A (zh) * 2023-08-16 2023-09-12 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737607A (zh) * 2023-08-16 2023-09-12 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质
CN116737607B (zh) * 2023-08-16 2023-11-21 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10635858B2 (en) Electronic message classification and delivery using a neural network architecture
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN109313720B (zh) 具有稀疏访问的外部存储器的增强神经网络
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
Bodapati et al. Sentiment Analysis from Movie Reviews Using LSTMs.
CN111428757B (zh) 模型训练方法、异常数据检测方法、装置和电子设备
CN113837370A (zh) 用于训练基于对比学习的模型的方法和装置
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
Qin et al. Machine learning basics
CN111401062B (zh) 文本的风险识别方法、装置及设备
CN113222022A (zh) 一种网页分类识别方法及装置
CN114841161A (zh) 事件要素抽取方法、装置、设备、存储介质和程序产品
Huang et al. Text classification with document embeddings
Hamdy et al. Deep mining of open source software bug repositories
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
Jain Convolutional neural network based advertisement classification models for online English newspapers
CN115700555A (zh) 模型训练方法、预测方法、装置和电子设备
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
Pedipina et al. Sentimental analysis on twitter data of political domain
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
Raj et al. Future emoji entry prediction using neural networks
Samatin Njikam et al. CharTeC‐Net: An Efficient and Lightweight Character‐Based Convolutional Network for Text Classification
Kumar et al. Detecting toxicity with bidirectional gated recurrent unit networks
Chen et al. Emotion recognition in videos via fusing multimodal features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240426

Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Applicant after: Alibaba Innovation Co.

Country or region after: Singapore

Applicant after: NATIONAL University OF SINGAPORE

Address before: Singapore City

Applicant before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore

Applicant before: NATIONAL University OF SINGAPORE

TA01 Transfer of patent application right