CN113095509A

CN113095509A - 线上机器学习模型的更新方法和装置

Info

Publication number: CN113095509A
Application number: CN202110477545.1A
Authority: CN
Inventors: 江高原; 林毅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-09

Abstract

本公开公开了一种线上机器学习模型的更新方法和装置，具体涉及计算机技术领域，尤其涉及人工智能技术领域。所述方法包括：收集针对线上机器学习模型的用户反馈数据；利用所述用户反馈数据对训练数据进行清洗，得到更新训练数据；利用更新训练数据来训练与所述线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数；以及使用线下机器学习模型的更新后的模型参数来替换所述线上机器学习模型的模型参数。

Description

线上机器学习模型的更新方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，具体涉及一种线上机器学习模型的更新方法和装置。

背景技术

在各种常用的机器学习框架(例如，TensorFlow、PyTorch和Spark MLlib等)中，对于机器学习模型的更新迭代，都提供了比较成熟的离线并行训练环境。传统上一般都是先训练离线模型，然后在线上环境中部署使用。将离线训练好的模型部署到线上环境中后，因为模型参数被固定了，所以线上模型无法随着线上使用而进一步改进。

发明内容

本公开提供了一种线上机器学习模型的更新方法和装置。

根据本公开的一方面，提供了一种线上机器学习模型的更新方法，包括：

收集针对线上机器学习模型的用户反馈数据；

利用用户反馈数据对训练数据进行清洗，得到更新训练数据；

利用更新训练数据来训练与所述线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数；以及

使用线下机器学习模型的更新后的模型参数来替换所述线上机器学习模型的模型参数。

根据本公开的另一方面，提供了一种线上机器学习模型的更新装置，包括：

收集模块，用于收集针对线上机器学习模型的用户反馈数据；

清洗模块，用于利用用户反馈数据对训练数据进行清洗，得到更新训练数据；

训练模块，用于利用更新训练数据来训练与所述线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数；以及

替换模块，用于使用线下机器学习模型的更新后的模型参数来替换所述线上机器学习模型的模型参数。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的线上机器学习模型的更新方法的流程图；

图2是根据本公开实施例的利用用户反馈数据对训练数据进行清洗的方法的流程图；

图3是根据本公开实施例的线上机器学习模型的更新方法对数据的处理过程的示意图；

图4是根据本公开实施例的线上机器学习模型的更新装置的示意图；

图5示出了可以用来实施本公开实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

线上机器学习模型的更新迭代多采用以下几种方式进行。

一种方式是通过互联网上的众包业务来进行数据标注，也就是说，由众包平台上的数据标记员对数据进行标记，得到大量的带标签数据，以供机器学习系统进行模型训练。这种模型训练是离线进行的，训练完成后定期更新线上模型，从而提高线上模型的效果。这种方式的问题在于，众包平台上的每个数据标记员对标注标准的理解不一致，这种标记也并不是用户的真实反馈，因此数据准确性差，并且难以保障及时性。

另一种方式是通过同义词替换、翻译转换或者生成对抗网络GAN等数据生成方法，生成更多的训练数据。这种方式的问题在于，同义词替换、翻译转换、GAN等万变不离其宗，生成的数据并不会有实质性的表现。虽然可以生成大批量的数据，但是生成的数据是能够预料到的。只能丰富完善现有训练数据，并不能对分类错误的数据进行实时监测，模型的效果有限。

还有一种方式是在线学习。根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化。这种方式可以及时对用户的行为数据进行反馈，并且重新生成新的模型。但是这种方式也存在一些问题，例如，用户的行为并不一定是真实的结果，只是一个侧面，并且直接在线上进行模型更新，效果不可控。

本公开实现了一种线上机器学习模型的更新方法和装置，获取针对线上机器学习模型的用户反馈数据，利用用户反馈数据对训练数据进行清洗，得到更新训练数据，利用更新训练数据来离线训练模型，使用得到的模型参数来替换线上机器学习模型的模型参数。通过这种方式，可以用真实的用户反馈数据来有效地更新线上模型，从而随着线上模型的使用快速提高线上模型的准确性。

图1是根据本公开实施例的线上机器学习模型的更新方法的流程图。下面参考图1对根据本公开实施例的线上机器学习模型的更新方法100进行说明。

在步骤S110，收集针对线上机器学习模型的用户反馈数据。

部署到线上的机器学习模型可以向用户提供各种服务，例如内容搜索/推荐服务、语音/图像识别服务、垃圾邮件过滤服务、自动导航服务、金融欺诈检测服务、证券市场分析服务、医学诊断服务等，但本公开不限于这些示例，线上机器学习模型能够向用户提供任何所需的服务。

在离线创建了机器学习模型并将其部署到线上之后，可以收集针对线上机器学习模型的用户反馈数据，即关于用户对由线上机器学习模型提供的服务的反馈情况的数据。用户反馈数据可以包括针对线上机器学习模型的实际输出结果的用户行为数据，这种数据容易被收集和加工处理，并且通常能够体现出用户的反馈情况。用户行为数据例如可以是点击数据(例如，关于用户对特定内容的点击的数据)、线索数据(例如，关于用户对特定内容的浏览时长的数据)等。例如，所收集的用户反馈数据有可能反映出模型结果与理想结果之间的差距，从而可以用来对线上机器学习模型进行及时地修正和更新。理想结果例如可以是用户的真实需求、或者提供模型的目的(节省能源、提高生产效率)等。作为示例，用户的反馈可以是对所提供的服务的认可与否，例如，对搜索到的内容或被推荐的内容的点击与否、对语音/图像识别结果的满意与否、是否确认了过滤出的垃圾邮件等。

例如，可以将收集到的用户行为数据作为基础，筛选出反映了模型结果与理想结果之间的较大差距的数据，以便及时修正和更新模型，提高模型效果。反映了模型结果与理想结果之间的较大差距的数据例如可以是用户表现消极的数据，例如，用户没有点击搜索到的内容或被推荐的内容，用户没有按照自动导航提示行驶，等等。通过将这种数据反馈给模型，可以有针对性地纠正模型的错误，从而改进模型。

在步骤S120，利用用户反馈数据对训练数据进行清洗，得到更新训练数据。通过该清洗步骤，可以将最新的用户反馈数据体现到更新训练数据中。

例如，可以利用反映了模型结果与理想结果之间的较大差距的用户反馈数据对训练数据进行清洗，这种用户反馈数据可能涉及模型的原始训练数据中的可能存在错误的数据。通过利用这种用户反馈数据对模型的原始训练数据中的可能存在错误的数据进行清洗和纠错，可以有针对性地纠正模型的错误，使模型更新的速度更快。

在步骤S130，利用更新训练数据来训练与所述线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数。

在步骤S140，使用线下机器学习模型的更新后的模型参数来替换所述线上机器学习模型的模型参数。替换可以在预设时间点执行，或定期执行。本公开对更新时机不作特别限定。通过借助于与线上机器学习模型相同的线下机器学习模型，实现了在不影响线上机器学习模型正常工作的情况下对线上机器学习模型的更新。

本公开的实施例通过利用用户反馈数据对训练数据进行清洗，使得能够考虑到用户反馈来更新线上机器学习模型，从而提高更新后的线上机器学习模型的准确性。例如，用户行为数据作为一种后验数据，能够随着线上机器学习模型的使用而不断体现出线上机器学习模型的准确性，通过借助于用户行为数据来对训练数据进行清洗，即便初始版本的线上模型的准确性较低，也能随着线上模型的使用而快速提高线上模型的准确性。

图2是根据本公开实施例的利用用户反馈数据对训练数据进行清洗的方法的流程图。下面参考图2对根据本公开实施例的利用用户反馈数据对训练数据进行清洗的方法200进行说明。

在步骤S210，确定训练数据中包含的多个训练样本与用户反馈数据涉及的样本之间的相似度。

在步骤S220，基于所述相似度从所述训练数据中包含的多个训练样本中筛选出至少一个训练样本。

在步骤S230，利用用户反馈数据对筛选出的至少一个训练样本的标签信息进行修改。

为了找出原始训练数据中的可能存在错误的样本，可以从原始训练数据中筛选出与用户反馈数据涉及的样本相似的样本。这样，能够准确地找出模型的原始训练数据中的可能存在错误的样本，从而更加高效地对线上机器学习模型进行更新迭代。

在确定训练数据中包含的多个训练样本与用户反馈数据涉及的样本之间的相似度之前，可以通过simHash算法对所述多个训练样本进行去重处理。

当训练数据中包含的训练样本的数量非常庞大时，计算和确定相似度时的速度会大大降低，性能出现瓶颈。为了解决该问题，可以先用simHash对训练样本去重以减少训练样本的数量，然后再确定相似度。simHash是一种具有局部敏感性的哈希方法，通常用来给网页去重、降低数据维度等。通过simHash可以将数据映射成64比特的签名值，再比较两个数据各自的64比特的签名值之间的海明距离，将海明距离小的多个数据识别为重复数据，并将一部分重复数据去除。

在具体实现simHash时，可选地，可以将64比特的签名值拆分为四个16比特的签名值进行比较，从而减小计算量，进一步加快计算速度。

下面，以机器学习模型为判别模型为例，对利用用户反馈数据对筛选出的至少一个训练样本的标签信息进行修改的过程进行详细说明。本领域技术人员应该理解，本公开的机器学习模型不限于判别模型，而可以是任何类型的模型。在该判别模型中，当输入变量x时，可以通过求解条件概率分布p(y|x)来预测与x相对应的输出变量y的值。假设训练样本x1是被筛选出的与用户反馈数据B相似的一个原始训练样本。训练样本x1原来的标签是(y1)。在被筛选出之后，根据用户反馈数据B将训练样本x1的标签修改为(y1，y1’)。在进行该判别模型的模型训练时，原始的求解目的是使p(y1|x1)极大化，而在修改了x1的标签之后，新的求解目的是使r*p(y1’|x1)+(1-r)*(y1|x1)极大化。r是超参数(指在开始学习过程之前已经设置了值的参数，而不是通过训练得到的参数)，可以进行调节。这样，能够以更大的概率接受y1’，但是也接受一定程度的y1。通过上述修改操作，可以根据反馈来改进模型的训练样本，提高模型的准确率和召回率，从而能够实现模型的纠错。

根据该清洗方法200，能够利用用户反馈更准确地找出模型的原始训练数据中的可能存在错误的样本，并修正这些样本，从而进一步提高更新后的线上机器学习模型的准确性。

图3是根据本公开实施例的线上机器学习模型的更新方法对数据的处理过程的示意图。下面参考图3对根据本公开实施例的线上机器学习模型的更新方法对数据的处理过程300进行说明。

在该处理过程中，首先，可以收集线上平台用户针对线上机器学习模型反馈的用户行为数据310。

接着，可以对收集到的用户行为数据310进行筛选，筛选出作为真实用户反馈的纯净数据320。例如，可以基于预设的筛选条件从所收集的反馈数据中筛选出涉及用户真实反馈的用户反馈数据。用户的反馈数据并不都是真实的用户反馈，例如，并不都反映用户的真实意图，因此可以对这些数据进行一些筛选。这里，用户的反馈数据不是真实的用户反馈的情况例如是用户的做出了彼此矛盾的反馈行为等情况。例如，用户虽然确认了过滤出的垃圾邮件，但却将垃圾邮件放入了收件箱。在这种情况下可以判断出用户的反馈行为并不是用户的真实意图，即，不是真实的用户反馈。可以通过预先设置一定的筛选条件或判断规则，来从所收集的反馈数据中筛选出涉及用户真实反馈的反馈数据。这样，能够更加准确可靠地更新线上机器学习模型。另外，可以对筛选出的真实反馈数据建立数据库，以避免重复工作。

接着，可以通过使用生成对抗网络GAN 330和/或海量随机数据340对纯净数据320进行泛化，得到泛化后的数据350。

通常期望机器学习模型具有良好的泛化能力，也就是说，能够对以前没有见过的数据具有良好的适应和预测能力。一般而言，机器学习模型的训练数据越多，训练数据的质量越好，则模型的泛化能力越强。因此，可以对纯净数据320进行泛化和扩展，以生成新的数据，增大数据量，从而提高模型的泛化能力。例如，可以通过两种方式对这些数据进行泛化。

一种方式是通过使用GAN330来进行泛化处理。GAN 330可以包括彼此对抗的生成模型和判别模型。生成模型基于真实数据生成一些新数据，判别模型学习区分生成的新数据和真实数据，生成模型根据判别模型的判别结果改进自己，再次生成新数据，判别模型再次学习区分生成的新数据和真实数据。该博弈场景会反复进行，直到生成模型和判别模型都无法提升自己为止，此时生成模型就会成为比较完美的模型，利用该生成模型生成的新数据可以用作真实数据的泛化数据。

与其他泛化方法相比，GAN330更加简单高效，运行时间更短，并且可以产生更准确的泛化数据。

另一种方式是使用海量随机数据340进行泛化处理。海量随机数据340可以例如是海量检索数据，譬如某个大型搜索网站在一天中接收到的搜索关键词。海量随机数据340不限于上述示例，只要是能够满足数量庞大和具有随机性这两个条件的数据集即可。

在使用海量随机数据340对纯净数据320进行泛化处理时，例如可以采用相似度计算的方法。例如，可以计算海量随机数据中的单个数据与用户反馈数据之间的欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度、皮尔森相关系数等相似度指标，将所计算出的相似度指标与预定阈值进行比较，将相似度指标大于预定阈值的海量随机数据中的数据筛选为与纯净数据320相似的数据，即其泛化数据。本领域技术人员应理解，泛化处理的具体实现方法不限于上述相似度计算的方法，可以采用任意方法。

由于海量随机数据340所具有的高度随机性，使得使用海量随机数据340进行的泛化处理能够实现较强的数据泛化能力。

在泛化完成后，可以利用泛化后的数据350对机器学习模型的原始训练数据360进行清洗以得到更新后的训练数据370。利用更新后的训练数据370来训练与线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数380。使用线下机器学习模型的更新后的模型参数380来替换线上机器学习模型的模型参数，从而更新线上模型。

可以定期重复该处理过程，从而能够不断地将最新的用户反馈及时体现到线上模型中，以提高线上模型的效果。

该处理过程仅为示例，本领域技术人员可以根据情况省略其中的一些操作，例如省略筛选操作、使用GAN 330的泛化操作、使用海量随机数据340的泛化操作中的至少一项操作。

另外，在同时使用GAN 330和海量随机数据340对纯净数据320进行泛化时，可以将通过两种方式分别得到的泛化结果合并，并将合并后的数据作为泛化后的数据350。这样，可以同时获得这两种泛化方式的优势，使泛化后的数据350更加准确和完善。

另外，本领域技术人员能够通过对上述过程进行适当变形来得到变形过程，这些变形过程也应当包含在本公开的范围内。例如，在对原始训练数据360进行清洗时，可以仅使用通过海量随机数据340对纯净数据320进行泛化而得到的泛化数据，并将清洗后的训练数据与通过GAN 330对纯净数据320进行泛化而得到的泛化数据相合并，从而得到更新后的训练数据370。或者，在对原始训练数据360进行清洗时，也可以仅使用通过GAN 330对纯净数据320进行泛化而得到的泛化数据，并将清洗后的训练数据与通过海量随机数据340对纯净数据320进行泛化而得到的泛化数据相合并，从而得到更新后的训练数据370。

根据该处理过程300，能够使用户反馈数据更加真实可靠，并且能够增强模型的泛化能力，从而进一步提高更新后的线上机器学习模型的准确性。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品，通过利用用户反馈数据对训练数据进行清洗，使得能够考虑到用户反馈来更新线上机器学习模型，从而提高更新后的线上机器学习模型的准确性。

图4是根据本公开实施例的线上机器学习模型的更新装置的示意图。下面参考图4对根据本公开实施例的线上机器学习模型的更新装置400进行说明。线上机器学习模型的更新装置400包括收集模块410、清洗模块420、训练模块430、和替换模块440。

收集模块410被配置为收集针对线上机器学习模型的用户反馈数据。

清洗模块420被配置为利用用户反馈数据对训练数据进行清洗，得到更新训练数据。

训练模块430被配置为利用更新训练数据来训练与所述线上机器学习模型相同的线下机器学习模型，得到线下机器学习模型的更新后的模型参数。

替换模块440被配置为使用线下机器学习模型的更新后的模型参数来替换所述线上机器学习模型的模型参数。

根据该线上机器学习模型的更新装置400，同样能够随着线上模型的使用而快速提高线上模型的准确性。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如由上述路侧计算设备、交通提示设备的处理器或远处处理器执行的方法和处理。例如，在一些实施例中，这些方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的分布式系统的测试方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法。设备500例如可以是分布式系统的控制中心，或者是位于分布式系统内部或外部的任意设备。设备500不限于上述示例，只要能够实现上述测试方法即可。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种线上机器学习模型的更新方法，包括：

收集针对线上机器学习模型的用户反馈数据；

2.根据权利要求1所述的方法，其中，所述利用用户反馈数据对训练数据进行清洗包括：

确定训练数据中包含的多个训练样本与用户反馈数据涉及的样本之间的相似度；

基于所述相似度从所述训练数据中包含的多个训练样本中筛选出至少一个训练样本；以及

利用用户反馈数据对筛选出的至少一个训练样本的标签信息进行修改。

3.根据权利要求2所述的方法，还包括：

在确定训练数据中包含的多个训练样本与用户反馈数据涉及的样本之间的相似度之前，通过simHash算法对所述多个训练样本进行去重处理。

4.根据权利要求1所述的方法，还包括：在利用用户反馈数据对训练数据进行清洗之前，对所述用户反馈数据进行泛化处理。

5.根据权利要求4所述的方法，其中，对所述用户反馈数据进行泛化处理包括以下中的至少一项：

通过使用生成对抗网络GAN，对所述用户反馈数据进行泛化处理；以及

使用海量随机数据对所述用户反馈数据进行泛化处理。

6.根据权利要求4或5所述的方法，还包括：在对所述用户反馈数据进行泛化处理之前，基于预设的筛选条件从所收集的反馈数据中筛选出涉及用户真实反馈的用户反馈数据。

7.根据权利要求1至6中任一项所述的方法，其中，所述用户反馈数据包括针对所述线上机器学习模型的实际输出结果的用户行为数据。

8.一种线上机器学习模型的更新装置，包括：

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。