CN110399547B

CN110399547B - 用于更新模型参数的方法、装置、设备和存储介质

Info

Publication number: CN110399547B
Application number: CN201810344086.8A
Authority: CN
Inventors: 范淼; 冯悦; 孙明明; 李平
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2022-03-04
Anticipated expiration: 2038-04-17
Also published as: WO2019201024A1; CN110399547A; US20200364216A1

Abstract

根据本公开的示例实施例，提供了用于更新模型参数的方法、装置、设备和计算机可读存储介质。用于更新模型参数的方法包括根据评论评估模型的第一参数集的当前值，利用评论评估模型提取第一评论的第一特征和第二评论的第二特征，评论评估模型用于评估评论的有用程度。该方法还包括基于第一特征和第二特征，确定第一评论与第二评论的至少一个相似度度量。该方法进一步包括响应于第一评论被标注有对应的真实有用程度并且第二评论为未被标注有对应的真实有用程度，至少基于至少一个相似度度量来更新第一参数集的当前值以获得第一参数集的更新值。以此方式，未标注评论也可用于模型参数更新，从而有利地实现自动、有效且低成本的模型参数更新。

Description

用于更新模型参数的方法、装置、设备和存储介质

技术领域

本公开的实施例主要涉及计算机领域，并且更具体地，涉及用于更新模型参数的方法、装置、设备和计算机可读存储介质。

背景技术

随着网络技术发展，越来越多互联网平台支持用户原创内容(UGC)的生成。因此，用户在许多互联网平台中都可以公开评论特定对象。这样的评论不仅丰富了被评论对象(诸如产品，服务，诸如新闻、视频、短文本等内容)的相关信息，而且也有助于其他用户了解被评论对象的质量、特点等。

由于评论通常由用户自主生成，并非所有评论内容都能够向其他用户提供与被评论对象有关的有用或有价值信息，甚至有些评论可能与被评论对象完全无关。如果被评论对象的评论数量过多，有用评论与无用评论混杂在一起，其他用户难以从众多评论中快速获取有用信息，并且无用信息也不利于提供商或第三方对被评论对象的正确评价(例如是否值得推荐的判断等)。因此，期望能够对评论的价值或有用程度加以分辨。

已经提出可以通过机器学习的方法，利用训练数据来训练学习模型，以获得能够用于自动评估评论的有用程度的学习模型。这样的模型训练过程通常涉及多方面的成本，包括人力成本、计算成本等。期望能够在确保良好模型学习的基础上尽可能降低训练成本。

发明内容

根据本公开的示例实施例，提供了一种用于更新模型参数的方案。

在本公开的第一方面中，提供了一种用于更新模型参数的方法。该方法包括根据评论评估模型的第一参数集的当前值，利用评论评估模型提取第一评论的第一特征和第二评论的第二特征，评论评估模型用于评估评论的有用程度。该方法还包括基于第一特征和第二特征，确定第一评论与第二评论的至少一个相似度度量。该方法进一步包括响应于第一评论被标注有对应的真实有用程度并且第二评论为未被标注有对应的真实有用程度，至少基于至少一个相似度度量来更新第一参数集的当前值以获得第一参数集的更新值。

在本公开的第二方面中，提供了一种用于更新模型参数的装置。该装置包括特征提取模块，被配置为根据评论评估模型的第一参数集的当前值，利用评论评估模型提取第一评论的第一特征和第二评论的第二特征，评论评估模型用于评估评论的有用程度。该装置还包括度量确定模块，被配置为基于第一特征和第二特征，确定第一评论与第二评论的至少一个相似度度量。该装置进一步包括参数更新模块，被配置为响应于第一评论被标注有对应的真实有用程度并且第二评论为未被标注有对应的真实有用程度，至少基于至少一个相似度度量来更新第一参数集的当前值以获得第一参数集的更新值。

在本公开的第三方面中，提供了一种设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的更新模型参数的过程的流程图；

图3示出了根据本公开的一些实施例的用于更新模型参数的系统的示意框图；

图4示出了根据本公开的一些实施例的评论评估模型的示例结构的示意图；

图5示出了根据本公开的实施例的用于更新模型参数的装置的示意框图；以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，术语“评论”也可以被称为点评、留言、回复等，指的是与某个对象或某类对象相关的内容(例如，意见、建议、评价、观点等等)。这样的对象可以是物理或虚拟对象，诸如产品、服务、特定形式的内容(新闻、视频、短文本等)。评论通常是由相应的评论者编写，并且被提交给特定网站主机。在本公开的实施例中，在以文本形式给出的评论的基础上进行讨论。在一些情况中，评论也可能包括以音频、视频、图片等形式给出的内容。针对这些情况，可以将这些音频、视频、图片等形式的内容转换为文本形式或者忽略。

在本公开的实施例的描述中，评论的“有用程度”指的是该评论有助于用户评估目标对象的程度，也被称为评论的价值或有用程度。通常，用户期望能够从评论者所给出的评论中评估、了解或认知特定对象的一个或多个方面(诸如质量、特点、功能、优缺点、细节等)。如果评论中包含这些方面的信息，用户倾向于认为评论是有价值或有用的。否则，该评论将被认为是无价值或无用的。评论的有用程度可以指示一个评论是否有用(例如，由0或1指示)，或者可以指示一个评论有用或无用的具体程度(例如，由某个数值范围中的特定值指示)。

在本公开的实施例的描述中，术语“学习模型”或“模型”指的是这样的一个模型，该模型能够从训练数据中学习到相应的参数集用于表征模型输入与输出之间的关联。在训练过程中，模型的参数集从初始值起不断被更新，直到满足特定条件。在训练完成后所获得的参数集对给定的输入进行处理以生成对应的输出。“学习模型”有时也可以被称为“神经网络”、“学习网络”、“深度学习网络”或简称为“网络”。这些术语在本文中可互换地使用。

如以上提及的，期望通过机器学习的方法，利用训练数据来训练学习模型，以获得能够用于自动评估评论的有用程度的学习模型。用于训练这样的学习模型的训练数据通常包括评论和评论的有用程度(诸如是否有价值)。已经被标注有对应的真实有用程度的评论也被称为带标注评论，而未被标注有对应的真实有用程度的评论则被称为未标注评论。为了能够训练出有效的学习模型用于评论的价值评估，通常需要大量的带标注评论来进行训练。

在当前应用中，许多展示评论的平台(例如互联网网站)都通过众包方式判断某一条评论的价值，即鼓励其他互联网用户人工对评论的价值进行投票。然而，由于这需要浏览评论的用户的额外工作，统计发现，获得用户关于价值标注的评论的比例较低。当前利用机器学习方法来训练学习模型时，大多数仅依赖于从这些评论源可获得的少量带标注评论。然而，少量带标注评论通常会导致训练出的学习模型缺乏足够的泛化(推广)能力，而且许多平台中的大量未标注评论的信息无法加以利用，造成了已有数据的大量浪费。

在另外一些方案中，为了获得更多可用于训练的带标注评论，可能需要花费时间和资金投入来雇佣人力进行手动标注，这导致了模型训练成本的大大提高。

根据本公开的实施例，提出了一种更新模型参数的方案。在该方案中，未标注评论可以与标注评论数据一起被用于评论评估模型的训练，对评论评估模型的参数集进行更新。具体地，可以利用评论评估模型的参数集的当前值来提取一对评论的特征，并且基于提取的特征确定这对评论的相似度度量。如果评论对中包含一个带标注评论和一个未标注评论，则基于相似度度量来更新参数集的当前值以获得参数集的更新值。通过这样的方案，可以利用少量带标注评论和大量未标注评论来执行模型的参数更新，从而在确保有效的模型学习的同时，大大降低了人工评论标注的时间和金钱成本。因此，本公开的方案能够有利地实现自动、有效且低成本的模型参数更新。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，由计算设备102利用训练评论来更新评论评估模型106的参数集，从而获得训练后的评论评估模型106。评论评估模型106可以用于评估针对特定对象的评论是否有助于用户评估该对象的程度，也即评估该评论的有用程度或价值。

计算设备102可以从评论存储库104获取用于训练的评论。评论存储库104可以从各个评论来源接收、请求或者爬取评论并且存储这些评论。这样的评论可以被呈现在互联网网站的网页中。例如，在图1的示例中，计算设备102从评论存储库104获取网页110，网页110上包括针对“帽子”的一条或多条评论112、114-1、114-2，这些评论分别由对应的评论者“John”、“Sophie”和“Lily”给出。

计算设备102期望利用这些评论来训练评论评估模型106，即更新评论评估模型106的参数集。通常，被标注有对应的有用程度的评论可以被直接用于模型的参数更新。例如，在图1的示例中，评论112具有对应的有用程度指示符120，其指示该评论是有用的。基于这样的评论112，计算设备102可以使评论评估模型106的参数集被更新为能够识别何种评论是有用评论。计算设备102也可能获得一些未标注评论(例如，评论114-1，评论114-2，有时被统称或单独为评论114)，这些未标注评论的有用程度是未知的。根据本公开的实施例，计算设备102还可以利用这些未标注评论114来更新评论评估模型106的参数集。当然，除了图1示出的评论112、114之外，计算设备102还可以获得更多其他评论来更新评论评估模型106的参数集。

在训练过程完成之后，评论评估模型106的参数集的值被确定。训练后的评论评估模型106可以被用于评估输入的任何评论的有用程度。例如，网页130中的评论132和134可以被输入到评论评估模型106。评论评估模型106可以基于训练后的参数集来分别处理评论132和134，以确定这两个评论的有用程度。所确定的有用程度可以与相应的评论一起被呈现。如图1所示，网页130将被改变为网页140，其中评论132被标注有“有用”指示符142，指示评论132有助于用户评估该评估涉及的特定对象；评论134被标注了“无用”指示符144，指示评论134无助于用户评估该评估涉及的特定对象。

应该理解，图1中示出的网页110、130、140仅是示例，并且图1仅示出了本公开的实施例的一种可能的应用场景。在其他实施例中，可以直接提供评论的内容和/或对应的有用程度的指示，而不是提供记载评论的网页，并且可以仅输出关于评论价值的评估结果。这样的评估结果也可以由第三方、例如特定对象的提供方、拥有评论的互联网平台等使用，以用于与评论相关联的呈现，或者用于其他目的，例如产品推广、有用评论的优先展示等等。评论结果也可以以各种方式来指示评论是否有用/有价值，而不限于图1中示意性示出的指示符。

为了更清楚地理解本公开的实施例提供的更新模型参数的方案，将参照图2来详细描述。图2示出了根据本公开的一些实施例的更新模型参数的过程200的流程图。过程200可以由图1的计算设备102来实现。为便于讨论，将结合图1来描述过程200。

在210，计算设备102根据评论评估模型106的参数集的当前值，利用评论评估模型106提取第一评论的第一特征和第二评论的第二特征。为方便讨论，评论评估模型106的参数集有时也被称为第一参数集。评论的特征指的是表征该评论的语义的信息。特征可以被提取为向量的形式。

评论评估模型106可以是任何被设计用于评估评论的有用程度的学习模型。评论评估模型106可以基于例如卷积神经网络(CNN)等能够处理文本内容的深度学习网络来构造。按功能划分，评论评估模型106总体可以被为两个部分，即特征提取部分和有用程度评估部分。特征提取部分被设计为对输入的评论进行处理，以提取评论的特征，而有用程度评估部分被设计为基于所提取的特征确定评论的有用程度。本公开的实施例关注于如何更新评论评估模型的参数，因此任何被设计为需要通过训练数据来更新模型参数的学习模型均可以被采用。本公开的范围在此方面不受限制。

评论评估模型106的第一参数集指的是评论评估模型106在实现特征提取和有用程度评估过程中要使用的处理参数。在训练初始阶段，第一参数集可以被设置为随机值，或者第一参数集中的一个或多个参数可以具有预训练值。在训练过程中，第一参数集从初始值起不断被更新。通常训练过程是一个迭代过程，在每次迭代中，基于第一参数集的当前值来执行处理，以便进一步更新。在满足收敛条件时，训练过程完成并且第一参数集的当前值被确定。

在一些实施例中，计算设备102可以从一组评论中选择第一评论和第二评论。该组评论是被预先获得并用于学习评论评估模型106的参数的评论。这些评论可以包括被标注有对应的真实有用程度的带标注评论和未被标注对应的真实有用程度的未标注评论。在一些实施例中，计算设备102可以以随机方式从评论组中选择第一评论和第二评论。以此方式选择的第一评论和第二评论可能包含一个带标注评论和一个未标注评论。当然，有时也可能选择出两个带标注评论或两个未标注评论。

针对第一评论和第二评论中包含一个带标注评论和一个未标注评论的情况，根据本公开的实施例，未标注评论也能够用于模型参数的更新。具体地，在220，计算设备102基于第一特征和第二特征，确定第一评论与第二评论的至少一个相似度度量。在此，第一特征和第二特征均基于评论评估模型106的第一参数集的当前值提取而得。然后，在230，响应于第一评论被标注有对应的真实有用程度并且第二评论为未被标注有对应的真实有用程度，计算设备102至少基于至少一个相似度度量来更新第一参数集的当前值以获得第一参数集的更新值。

通常，对于带标注评论，对于模型参数的更新可以通过基于参数集的当前值确定出该评论的估计有用程度与该评论被标注的真实有用程度之间差异来更新参数集。对于未标注评论，无法获知该评论的真实有用程度。为了能够利用这样的未标注评论进行模型学习并且无需人工标注真实有用程度，在本公开的实施例中，可以利用带标注评论与未标注评论之间的相似性来确定评论评估模型106的第一参数集的当前值如何更新。在一些实施例中，过程200可以针对不同评论对重复执行，不断更新第一参数集的值，从而获得评论评估模型106的第一参数集的确定值。

下文将详细介绍如何基于两个评论的相似度度量来更新评论评估模型106的第一参数集。为了便于描述和理解，将结合图3详细描述。图3示出了根据本公开的一些实施例的用于更新模型参数的系统300的示意框图。系统300可以被实现在计算设备102处。

如图3所示，评论评估模型106总体可以被为两个部分，即特征提取部分302和有用程度评估部分304。特征提取部分302被设计为对输入的评论进行处理，以提取评论的特征，而有用程度评估部分304被设计为基于所提取的特征确定评论的有用程度。假设第一评论为图1的未标注评论112并且第二评论为带标注评论114，分别被表示为x_i和x_j。如图3所示，为了执行评论评估模型106的第一参数集的更新，将第一评论112和第二评论114分别输入到评论评估模型106中，在该模型的参数集的当前值基础上，利用该模型分别提取第一评论112的第一特征311(被表示为“S_i”)和第二评论114的第二特征322(被表示为“s_j”)。特征提取部分302可以以任何顺序为第一评论112和第二评论114提取特征。

在图3的实施例中，用于更新模型参数的系统300包括用于确定第一评论112与第二评论114的相似度度量的部分，包括相似度评估模型330和相似度计算模块340。相似度评估模型330是一个学习模型，用于基于两个输入评论的特征来确定两个评论的相似度度量。因此，相似度评估模型330也具有自己的参数集(被称为第二参数集)。第二参数集初始被设置为随机值或其他预定值，并且在一些实施例中也可以随后过程中被更新，例如与评论评估模型106的第一参数集一起被更新。

在一些实施例中，计算设备102根据相似度评估模型330的第二参数集的当前值，利用相似度评估模型330处理第一特征s_i 311和第一特征s_j 312，以确定第一评论112与第二评论114的第一相似度度量332。在一些示例中，相似度评估模型330可以被配置为确定第一评论112与第二评论114相似的概率。相似度评估模型330中的处理可以被表示为如下：

其中p_i,j表示第一相似度度量332，σ(·)表示相似度评估模型330所采用的激活函数，

和b_s组成相似度评估模型330的第二参数集，并且

表示异或操作。在此，第一特征和第二特征可以被表示为向量形式，包括由0和1的二进制取值的多个元素。

根据公式(1)，相似度评估模型330确定第一特征s_i311和第一特征s_j312的异或结果，并且基于第二参数集的当前值来处理异或结果，以确定指示第一评论112与第二评论114相似的概率的第一相似度度量p_i,j332。第一相似度度量p_i,j332可以从0到1之间取值，其中p_i,j越大，指示第一评论112与第二评论114相似的概率越高；反之，则相似概率较低。应当理解，公式(1)仅示出了相似度评估模型330的一种示例处理，在其他实施例中，相似度评估模型330还可以被设计利用其他处理方式计算第一相似度度量。

除了基于学习模型330来确定第一评论112与第二评论114的相似度度量之外，在系统300中，相似度计算模块340被配置为通过计算第一特征s_i311与第一特征s_j312之间的差异来确定第一评论112与第二评论114的第二相似度度量342。在一些实施例中，第二相似度度量可以被计算为以较大的值指示两个特征之间的差异较大、因此对应的两个评论的相似度较低，而以较小的值指示两个特征之间的差异较小、因此对应的两个评论的相似度较高。

在一些实施例中，如果第一特征s_i311与第一特征s_j312以向量形式来表示，那么第二相似度度量可以被计算为第一特征s_i311与第一特征s_j312之间的距离、例如欧式距离。这可以被表示如下：

dis(x_i,x_j)＝||s_i-s_j||₂ (2)

其中dis(x_i,x_j)表示第二相似度度量342，并且‖ ‖₂表示计算取(s_i-s_j)的2-范数，用于计算s_i和s_j之间的距离，该距离指示s_i和s_j之间的差异。在公式(2)中，第二相似度度量342被确定为第一特征s_i311与第一特征s_j312之间的差异。然而，在其他实施例中，还可以以其他方式，基于两个特征之间的差异来确定第二相似度度量342的值。应当理解，公式(2)仅示出了第一特征s_i311与第一特征s_j312之间的差异的一种计算方式，并且任何其他能够确定向量差异的方法也可以被采用。

在第一相似度度量332和第二相似度度量342的基础上，系统300可以更新评论评估模型106的第一参数集的当前值。在一些实施例中，基于第一相似度度量332所指示的第一评论112与第二评论114相似的概率，可以确定作为未标注评论的第二评论114是否是正样本(即有利于评论评估模型106学习到确定评论的有用程度的样本)，并基于此来执行更新。例如，在图1示出的示例中，未标注评论114-2与带标注评论112的相似度较高，可能在训练过程中确定的第一相似度度量332也正是这种情况，则未标注评论114-2将被认为是正样本。然而，未标注评论114-1与带标注评论112的相似度较低，所确定的第一相似度度量332也可能能够指示这一情况，从而未标注评论114-1被认为是负样本(与正样本相对)。

如果当前判断第二评论114是正样本(例如第一相似度度量332超过预定阈值)，系统300在更新第一参数集的当前值时，可以使得更新值促使评论评估模型106为第一评论和第二评论提取差异更小的特征。通过这种更新方式，可以使得评论评估模型106的第一参数集能够往为相同/相似评论提取相同/相似特征的趋势进行更新。如果当前判断第二评论114是负样本(例如第一相似度度量332未超过预定阈值)，系统300在更新第一参数集的当前值时，可以使得更新值促使评论评估模型106为第一评论和第二评论提取差异更大的特征。通过这种更新方式，可以使得评论评估模型106的第一参数集能够往为不同评论提取差异较大特征的趋势进行更新。预定阈值的设置可以取决于第一相似度度量332的取值范围。例如，如果取值范围为0至1，则预定阈值被设置为0.5。

在模型训练过程中，大多数训练方法将会确定一个损失函数(或效用函数)作为优化目标。该损失函数被构造为与模型参数相关(例如与模型的输出相关，而该输出与模型的整体参数相关)，以便通过最小化损失函数(或最大化效用函数)来确定训练的收敛。为便于理解本公开的实施例，在损失函数的基础上继续介绍如何执行参数集更新。

在参数更新过程中，可以基于损失函数来确定参数集的更新幅度。对于参数集的更新可以基于多种训练方法。在这些方法中，梯度下降法，尤其是随机梯度下降法是常用的一种方法。根据随机梯度下降算法，可以基于与参数集相关的损失函数的梯度来确定参数集中的各个参数。

基于损失函数和随机梯度的训练方法，在图3的示例中，系统300还可以包括

损失函数模块352，被配置为基于未评注评论(例如评论114)来确定评论评估模型106的第一参数集的当前值如何更新。具体地，

损失函数模块352被配置为基于第一相似度度量332和第二相似度度量342来确定第一参数集的更新幅度。如以上提及的，根据相似度度量模型330确定的第一相似度度量332的取值大小，第一参数集的更新方式不同，因此

损失函数模块352也可以以不同方式确定损失函数的梯度。这在损失函数中可以以如下方式体现：

其中

表示与未标注评论相关的损失函数，

表示取梯度运算，N表示用于训练的评论组中带标注评论的数目，M表示未标注的评论数目，max(·)表示取最大值，并且γ为预设值，其可以根据需要被设置为任意值(例如0至1之间的值)。

当第一相似度度量332大于0.5，指示第一评论112与第二评论114相似的概率较高时，可以利用公式(3)中上部分方式确定损失函数

的梯度，以便使得第一参数集的更新值促使评论评估模型106为第一评论112和第二评论114确定更相似的特征。如果第一相似度度量332小于等于0.5，指示第一评论112与第二评论114相似的概率较低时，可以利用公式(3)中下部分方式确定损失函数

的梯度，以便使得第一参数集的更新值促使评论评估模型106为第一评论112和第二评论114确定差异更大的特征。

可以相对于第一参数集中要更新的任何参数来确定损失函数

的梯度，并且由此更新参数的值。基于损失函数

评论评估模型106可以从未标注评论中学习到一些知识，有利于其实现模型目标(即评估评论的有用程度)。在一些实施例中，除了基于第一相似度度量332和第二相似度度量334来共同确定第一参数集的更新之外，还可以仅基于第一相似度度量332来执行更新。在这些实施例中，损失函数

可以被构造为仅与第一相似度度量332相关。

在一些实施例中，由于相似度评估模型330的第二参数集也需要学习(即更新)，系统300可以以与评论评估模型106类似的方式，基于第一相似度度量332和第二相似度度量342来更新相似度评估模型330。具体地，响应于第一相似度度量331超过预定阈值，第二参数集的当前值被更新以使得更新值促使相似度评估模型330确定第一评论112与第二评论114之间的相似度更高。通过这种更新方式，可以使得相似度评估模型330的第二参数集能够往为相同/相似评论确定更高相似概率的趋势进行更新。此外，响应于第一相似度度量332未超过预定阈值，第二参数集的当前值被更新以使得更新值促使相似度评估模型330确定第一评论112与第二评论114之间的相似度更高。通过这种更新方式，可以使得相似度评估模型330的第二参数集能够往为不同评论确定更低相似概率的趋势进行更新。

在一些实施例中，第二参数集的更新幅度也可以基于由

损失函数模块352确定的损失函数

的梯度，因为损失函数

涉及由相似度评估模型330确定的第一相似度度量p_i,j 332，因此与第二参数集中的参数相关。

在一些实施例中，与未评注评论114一起输入到评论评估模型106的带标注评论112也可以对第一参数集的更新起作用。例如，系统300还可以包括

损失函数模块354，被配置为基于带评注评论(例如评论112)来确定评论评估模型106的第一参数集的当前值如何更新。例如，评论评估模型106的有用程度评估部分304被用于基于第一参数集的当前值，处理第一评论311以确定第一评论112对应的估计有用程度321(被表示为

)。假设第一评论112被标注的真实有用程度被表示为“y_i”，

损失函数模块354可以基于真实有用程度和估计有用程度来确定与带标注评论相关的损失函数的梯度，并且基于计算的梯度来更新第一参数集的当前值以获得更新值。

损失函数模块354针对带标注评论确定的损失函数梯度可以被表示为：

其中

表示与带标注评论相关的损失函数，并且N表示用于训练的评论组中带标注评论的数目。基于公式(4)，系统300可以更新评论评估模型106的第一参数集，以使得更新值促使评论评估模型106为带标注评论确定的估计评估结果更趋向于接近真实评估结果。

在一些实施例中，带标注评论和未标注评论可以结合起来对第一参数集的当前值进行更新。例如，系统300可以将

损失函数模块352和

损失函数模块354确定的总的损失函数梯度(被表示为

)，共同用于更新第一参数集的当前值。总的损失函数梯度可以被表示为：

其中λ是预设值，指示

损失函数和

损失函数对总损失函数的影响权重，可以根据需要被设置为0至1之间的任何预设值。

以上描述了对评论评估模型106的参数更新过程。通过系统300，可以利用未标注评论来更新评论评估模型106的第一参数集。计算设备102可以从用于训练的评论组中不断随机选择评论样本用于训练。如果计算设备102选择的一对评论均为带标注评论，则可以计算设备102可以按照与带标注评论相关的更新方式(例如公式(4)所指示的损失函数梯度)来考虑如何从这些评论中学习第一参数集。在这样的情况下，系统300可以不必使用。如果计算设备102随机选择的一对评论均为未标注评论，则可以放弃本次选择。在一些实施例中，可以配置计算设备102以一定比例选择出包括带标注评论和未标注评论的一对评论。以此方式，可以利用少量带标注评论和大量未标注评论来执行模型的参数更新。

如以上提及的，评论评估模型106可以被设计为任何能够用于确定评论的有用程度的学习模型。为了完整理解评论评估模型106的第一参数集，以下将结合一个具体示例来描述评论评估模型106的内部处理以及所利用的参数。应当理解，所描述的示例不对本公开的范围做任何限制。

图4示出了根据本公开的一些实施例的评论评估模型106的示例结构的示意图。评论评估模型106的特征提取部分302用于提取输入评论的特征，并且有用程度评估部分304用于基于特征来确定该评论的估计有用程度。为便于描述，以在评论评估模型106中对评论112的处理为例进行说明。对于任何其他评论，评论评估模型106也以类似方式进行处理以提取特征和确定估计有用程度。

在图4的示例中，评论112的每个文本项均被输入特征提取部分302进行处理。文本项指的是对评论112的文本按特定粒度划分后得到项。文本项的划分粒度可以与评论的文本所采用的语言相关。例如，如果评论包含诸如英语、法语、德语等由拉丁拼音组成的文字，可以按单词级别划分评论以获得文本项。每个文本项包括评论中的单次。如果评论包含诸如中文、日文等象形文字，可以按词组级别(或词汇级别)来划分评论，并且每个文本项可以包括评论中的一组单词(其中可以包含一个或多个单词)。对于中文、日文等无法通过空格之类的特定标识符来划分的文本内容，可以采用一些分词工具来实现文本项的划分。

特征提取部分302在不同粒度级别上处理评论112。具体地，特征提取部分302主要包括第一级别编码模块410、第二级别编码模块420和第三级别编码模块440。第一级别编码模块410被配置为以例如评论112中每个单词的字符级别(或者每个词组的单词)为基础进行处理，第二级别编码模块430被配置为以例如评论112的单词级别(或词组)为基础进行处理，并且第三级别编码模块440以总体评论级别为基础进行处理。由于评论112包含英文文本，因此以下以英文文本下的不同级别处理为例进行说明。

具体地，第二级别编码模块430被配置为获取评论x_i 112的每个单词的向量化表示401-1、401-2、……、401-n(统称为向量化表示401)，其中n表示评论112中包含的单词数目。每个单词的向量化表示401也可以被称为每个单词的编码。假设评论112x_i中第k个索引位置上的单词定义为

那么评论112作为一个长度为n的序列可以表示为

还假设单词

所对应的单词编码(或向量化表示)是一个维度为d的向量，即

第一级别编码模块410被配置为获取评论x_i112的每个单词中各个字符的向量化表示。例如，对于评论112的第一个单词“They”，可以获取字符“T”的向量化表示302-1、字符“h”的向量化表示302-2、字符“e”的向量化表示302-3、字符“y”的向量化表示302-4。这样的向量化表示也被称为每个字符的字符编码。对于评论112中的其他单词，也可以相应地获得这些单词所包括的字符的向量化表示。

假设评论112中的单词

包含m个连续字符，其中第s个字符可以表示为

所有字符组成的序列记为

其中

为了获取单词

在字符级别上的编码，可以利用一个卷积神经网络(CNN)对各个单词的向量化表示进行处理，以便于对于不同长度(包含不同字符数)的单词，均可以生成相同维度的字符编码412。具体地，可以采用一组卷积过滤器W′＝[w′₁,w′₂,…,w′_k′]，其中每一个w′_j∈R^d′×l′表示一个过滤器的参数，该过滤器能够卷积连续长度为l′的序列(即l′个连续字符的向量化表示)。利用卷积过滤器，一个连续长度为l′的字符序列

的信息就可以通过卷积操作被映射为一个标量值

这被表示如下：

其中b_j′是一个偏置参数，并且w′_j和b_j′都属于评论评估模型106中的参数集的一部分。将过滤器w′_j从单词的第一个字符开始滑动，直到字符序列结束，可以获得特征字典

对于每个单词提取的向量编码412，特征提取部分302还包括最大池化(Maxpooling)模块420来执行最大池化操作，以获得处理后的字符编码421-1、421-2、……421-n(被统称为向量化表示421)，这被表示为

第二级别编码模块420和第一级别编码模块410输出向量化表示401和421可以组合在一起。对于评论112中的任一单词，组合后的向量化表示为

因此，评论112的中间特征424被表示为

评论112的中间特征424由第三级别编码模块440继续处理。第三级别编码模块440可以被配置为对中间特征424进行处理，以便提取评论112的最终特征。与第一级别编码模块410类似，第三级别编码模块440可以被配置为利用另外一组卷积过滤器W＝[w₁,w₂,…,w_k]对

进行卷积编码，以输出另一中间特征442。任何过滤器w_j都可以在r_i上依次扫描长度为l的连续子序列

并且执行卷积操作以获得

这被表示为：

其中b_j是一个偏置参数，并且w_j和b_j都属于评论评估模型106中的参数集的一部分。将过滤器w_j从第一个单词开始滑动，直到单词序列结束，可以获得特征字典

进一步地，与第一级别编码模块410的输出类似，特征提取部分302还包括最大池化(Maxpooling)模块450对第三级别编码模块440输出的中间特征442进一步执行最大池化操作，以获得评论112的最终特征

特征s_i由有用程度评估模块304进行处理以确定评论112的估计有用程度。有用程度评估模块304可以被实现为一个全连层，并且估计有用程度的确定可以被表示为：

其中w_l和b_l是评论评估模型106中的参数集的一部分。

在图4的评论评估模型106中，需要通过训练过程确定的第一参数集至少包括：第一级别编码模块410中每个过滤器的参数w′_j和偏置参数b_j′，第三级别编码器440中每个过滤器的参数w_j和偏置参数b_j，有用程度评估模块304中的参数W_l和b_l。在评论评估模型106中，还有一些参数可以被自动或手动设置为固定值，诸如参数l,l′,k,k′,d,d′,λ。这些参数可以被称为超参数。此外，由第一级别编码模块410提取的字符级别编码和第二级别编码模块430提取的单词级别编码可以是从预定码本中获得的，也可以在训练过程中被调节。如果采用后一种方案，则字符级别编码和单词级别编码也作为第一参数集中的参数，并且可以根据本公开的实施例来进行更新和确定。

根据本公开的实施例，提供了一种自动、有效且低成本的模型参数更新方案，该方案可以用于训练被构造用于评估评论的有用程度的评论评估模型。经过训练后获得的评论评估模型将可以用于评估任何输入的评论，以确定其有用程度。根据实际应用场景，这样的评估结果可以用于多种目的。例如，在一些应用中，可以对某个互联网平台或站点中的特定对象的评论进行评估，从而可以优先展示被标记为“有用”或“有价值”的评论。优先展示的有用评论可以有助于其他用户从众多评论中快速捕获有用信息，从而能够了解或评估特定对象的各方面特点。在另外一些应用中，还可以基于对特定对象的评论的评估结果来执行其他决策，例如对特定对象的推荐决策等等。应当理解，以上仅是评估结果的一些示例应用，并且本公开的实施例在此方面不受限制。

图5示出了根据本公开实施例的用于更新模型参数的装置500的示意性框图。装置500可以被包括在图1的计算设备102中或者被实现为计算设备102。如图5所示，装置500包括特征提取模块510，被配置为根据评论评估模型的第一参数集的当前值，利用评论评估模型提取第一评论的第一特征和第二评论的第二特征，评论评估模型用于评估评论的有用程度。装置500还包括度量确定模块520，被配置为基于第一特征和第二特征，确定第一评论与第二评论的至少一个相似度度量。装置500进一步包括参数更新模块530，被配置为响应于第一评论被标注有对应的真实有用程度并且第二评论为未被标注有对应的真实有用程度，至少基于至少一个相似度度量来更新第一参数集的当前值以获得第一参数集的更新值。

在一些实施例中，度量确定模块520包括：第一相似度确定模块，被配置为根据相似度评估模型的第二参数集的当前值，利用相似度评估模型处理第一特征和第二特征以确定第一评论与第二评论的第一相似度度量；以及第二相似度确定模块，被配置为通过计算第一特征与第二特征之间的差异来确定第一评论与第二评论的第二相似度度量。

在一些实施例中，参数更新模块530包括：第一更新模块，被配置为响应于第一相似度度量超过预定阈值，基于第一相似度度量和第二相似度度量来更新第一参数集的当前值以获得第一参数集的更新值，更新值促使评论评估模型为第一评论和第二评论提取差异更小的特征。

在一些实施例中，参数更新模块530包括：第二更新模块，被配置为响应于第一相似度度量未超过预定阈值，基于第一相似度度量和第二相似度度量来更新第一参数集的当前值以获得第一参数集的更新值，更新值促使评论评估模型为第一评论和第二评论提取差异更大的特征。

在一些实施例中，参数更新模块530包括还被配置为基于第一相似度度量和第二相似度度量来更新第二参数集的当前值以获得第二参数集的更新值。

在一些实施例中，参数更新模块530包括还包括：第三更新模块，被配置为响应于第一相似度度量超过预定阈值，基于第一相似度度量和第二相似度度量来更新第二参数集的当前值以获得第二参数集的更新值，第二参数集的更新值促使相似度评估模型确定第一评论与第二评论之间的相似度更高。

在一些实施例中，参数更新模块530包括还包括：第四更新模块，被配置为响应于第一相似度度量未超过预定阈值，基于第一相似度度量和第二相似度度量来更新第二参数集的当前值以获得第二参数集的更新值，第二参数集的更新值促使相似度评估模型确定第一评论与第二评论之间的相似度更低。

在一些实施例中，参数更新模块530还包括第五更新模块，被配置为：基于第一参数集的当前值，利用评论评估模型处理第一特征以确定第一评论对应的估计有用程度；以及基于真实有用程度和估计有用程度来更新第一参数集的当前值。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备102。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如过程200。例如，在一些实施例中，过程200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时，可以执行上文描述的过程200的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于更新模型参数的方法，包括：

根据评论评估模型的第一参数集的当前值，利用所述评论评估模型提取第一评论的第一特征和第二评论的第二特征，所述评论评估模型用于评估评论的有用程度；

基于所述第一特征和所述第二特征，确定所述第一评论与所述第二评论的至少一个相似度度量；以及

响应于所述第一评论被标注有对应的真实有用程度并且所述第二评论为未被标注有对应的真实有用程度，至少基于所述至少一个相似度度量来更新所述第一参数集的当前值以获得所述第一参数集的更新值。

2.根据权利要求1所述的方法，其中确定所述至少一个相似度度量包括：

根据相似度评估模型的第二参数集的当前值，利用所述相似度评估模型处理所述第一特征和所述第二特征以确定所述第一评论与所述第二评论的第一相似度度量；以及

通过计算所述第一特征与所述第二特征之间的差异来确定所述第一评论与所述第二评论的第二相似度度量。

3.根据权利要求2所述的方法，其中更新所述第一参数集的所述当前值包括：

响应于所述第一相似度度量超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第一参数集的所述当前值以获得所述第一参数集的所述更新值，所述更新值促使所述评论评估模型为所述第一评论和所述第二评论提取差异更小的特征。

4.根据权利要求2所述的方法，其中更新所述第一参数集的所述当前值包括：

响应于所述第一相似度度量未超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第一参数集的所述当前值以获得所述第一参数集的所述更新值，所述更新值促使所述评论评估模型为所述第一评论和所述第二评论提取差异更大的特征。

5.根据权利要求2所述的方法，还包括：

基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的更新值。

6.根据权利要求5所述的方法，其中更新所述第二参数集的所述当前值包括：

响应于所述第一相似度度量超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的所述更新值，所述第二参数集的所述更新值促使所述相似度评估模型确定所述第一评论与所述第二评论之间的相似度更高。

7.根据权利要求5所述的方法，其中更新所述第一参数集的所述当前值包括：

响应于所述第一相似度度量未超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的所述更新值，所述第二参数集的所述更新值促使所述相似度评估模型确定所述第一评论与所述第二评论之间的相似度更低。

8.根据权利要求1至7中任一项所述的方法，其中更新所述第一参数集的所述当前值还包括：

基于所述第一参数集的所述当前值，利用所述评论评估模型处理所述第一特征以确定所述第一评论对应的估计有用程度；以及

还基于所述真实有用程度和所述估计有用程度来更新所述第一参数集的当前值。

9.根据权利要求1至7中任一项所述的方法，其中所述第一评论和所述第二评论以随机方式从一组评论中被选出。

10.一种用于更新模型参数的装置，包括：

特征提取模块，被配置为根据评论评估模型的第一参数集的当前值，利用所述评论评估模型提取第一评论的第一特征和第二评论的第二特征，所述评论评估模型用于评估评论的有用程度；

度量确定模块，被配置为基于所述第一特征和所述第二特征，确定所述第一评论与所述第二评论的至少一个相似度度量；以及

参数更新模块，被配置为响应于所述第一评论被标注有对应的真实有用程度并且所述第二评论为未被标注有对应的真实有用程度，至少基于所述至少一个相似度度量来更新所述第一参数集的当前值以获得所述第一参数集的更新值。

11.根据权利要求10所述的装置，其中所述度量确定模块包括：

第一相似度确定模块，被配置为根据相似度评估模型的第二参数集的当前值，利用所述相似度评估模型处理所述第一特征和所述第二特征以确定所述第一评论与所述第二评论的第一相似度度量；以及

第二相似度确定模块，被配置为通过计算所述第一特征与所述第二特征之间的差异来确定所述第一评论与所述第二评论的第二相似度度量。

12.根据权利要求11所述的装置，其中所述参数更新模块包括：

第一更新模块，被配置为响应于所述第一相似度度量超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第一参数集的所述当前值以获得所述第一参数集的所述更新值，所述更新值促使所述评论评估模型为所述第一评论和所述第二评论提取差异更小的特征。

13.根据权利要求11所述的装置，其中所述参数更新模块包括：

第二更新模块，被配置为响应于所述第一相似度度量未超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第一参数集的所述当前值以获得所述第一参数集的所述更新值，所述更新值促使所述评论评估模型为所述第一评论和所述第二评论提取差异更大的特征。

14.根据权利要求11所述的装置，其中所述参数更新模块还被配置为基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的更新值。

15.根据权利要求14所述的装置，其中所述参数更新模块还包括：

第三更新模块，被配置为响应于所述第一相似度度量超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的所述更新值，所述第二参数集的所述更新值促使所述相似度评估模型确定所述第一评论与所述第二评论之间的相似度更高。

16.根据权利要求14所述的装置，其中所述参数更新模块还包括：

第四更新模块，被配置为响应于所述第一相似度度量未超过预定阈值，基于所述第一相似度度量和所述第二相似度度量来更新所述第二参数集的所述当前值以获得所述第二参数集的所述更新值，所述第二参数集的所述更新值促使所述相似度评估模型确定所述第一评论与所述第二评论之间的相似度更低。

17.根据权利要求10至16中任一项所述的装置，其中所述参数更新模块还包括第五更新模块，被配置为：

基于所述真实有用程度和所述估计有用程度来更新所述第一参数集的当前值。

18.根据权利要求10至16中任一项所述的装置，其中所述第一评论和所述第二评论以随机方式从一组评论中被选出。

19.一种设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-9中任一项所述的方法。