CN111274377B

CN111274377B - 一种训练标记预测模型的方法及系统

Info

Publication number: CN111274377B
Application number: CN202010078148.2A
Authority: CN
Inventors: 方军鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2023-06-02
Anticipated expiration: 2040-01-23
Also published as: CN111274377A

Abstract

本说明书实施例公开了一种训练标记预测模型的方法及系统，所述方法包括：获取多个样本，所述多个样本合计包含M个不同标记，M为≥1的整数；分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集；分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y；将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数。

Description

一种训练标记预测模型的方法及系统

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种训练标记预测模型的方法及系统。

背景技术

随着互联网的快速发展，智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常，用户输入某个内容以后，智能客服机器人可以通过机器学习方法猜测用户的问题，并对问题进行解答，提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时，机器学习只需学习数据的一个标记即可。

然而，大多数情况下用户遇到的问题不止一个，智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如，某购物平台，用户输入“开通会员”，用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此，亟需一种对数据(例如，用户输入的内容)进行多标记学习的方法。

发明内容

本说明书实施例的一个方面提供一种训练标记预测模型的方法，包括：获取多个样本，所述多个样本合计包含M个不同标记，M为≥1的整数；分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集；分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y；将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数。

本说明书实施例的一个方面提供一种训练标记预测模型的系统，包括：样本获取模块，用于所述多个样本合计包含M个不同标记，M为≥1的整数；标记去噪模块，用于分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集；标记对生成模块，用于分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；样本选取模块，用于从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y；标记预测模型生成模块，用于将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数。

本说明书实施例的一个方面提供一种训练标记预测模型的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如上任一项所述的方法。

本说明书实施例的一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如上所述的任一项所述的方法。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图；

图2是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的模块图；

图3是根据本说明书的一些实施例所示的训练标记预测模型方法的示例性流程图；

图4是根据本说明书的一些实施例所示的训练标记预测模型方法的另一示例性流程图；

图5是根据本说明书的一些实施例所示的确定噪声标记的示例性流程图。

图6是根据本说明书的一些实施例所示的基于标记预测模型预测待预测样本的标记的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图。

训练标记预测模型系统100可以通过实施本申请中披露的方法和/或过程来训练标记预测模型，以及对待预测样本的标记进行预测。在一些实施例中，标记预测模型可以应用于智能客服机器人领域。待预测样本即为用户输入的内容，例如，一个字，一句话、一段语音等。智能客服机器人需要基于用户输入的内容为用户推荐多个可能的答案，或多个可能的问题。智能客服机器人为了实现上述推荐，需要基于大量含有多个标记的样本进行标记预测模型的训练，从而，当用户输入问题之后，智能客服机器人可以根据训练得到标记预测模型确定用户输入内容的多个标记，这些标记可以代表用户问题中涉及的内容有哪些，换言之，代表用户想要得到答案有哪些，并基于这些标记为用户提供多个答案或者多个用户可能想要问的问题。智能客服机器人为用户推荐多个答案或问题之后，用户也许会产生错误点击或者错误描述的情况，因此会导致样本的候选标记空间存在噪声标记，为了提高标记预测模型的预测准确性，需要保证训练样本标记的准确性。从而可以通过系统100对训练样本中的标记进行去噪，具体的，可以通过系统100在一个训练样本含有的多个标记中确定该训练样本的噪声标记并去除。在一些实施例中，训练样本可以是用户输入的历史数据，例如，输入的文字、语音或图片等，标记可以是类别信息。示例的，用户输入“请问这款产品近期的活动？”，系统100基于标记预测模型可以预测该问题的标记为“活动时间”“折扣”“礼品”，并为将答案“活动时间在11月19-11月25日”“5折”“若单笔订单满999，送耳机一副”。

如图1所示，训练标记预测模型系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。

在一些实施例中，服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中，服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如，服务器110可以通过网络120获取数据库中的多个样本进行标记预测模型的训练，且这些样本中每个样本含有多个候选样本。又例如，服务器110可以通过网络120访问用户端130输入的内容，并将该内容输入到标记预测模型中确定该内容的标记，以便于确定用户想要的答案。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如：服务器110可以是分布系统)。在一些实施例中，服务器110可以是区域的或者远程的。在一些实施例中，服务器110可在云平台上执行。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。

在一些实施例中，服务器110可包含处理设备112。该处理设备112可处理数据和/或信息以执行一个或多个本申请中描述的功能。例如，处理设备112可以分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对，从去除噪声标记的优化样本集中选择正负样本，基于该正负样本训练预测标记对中标记的二分类器，从而得到标记预测模型。又例如，处理设备112可以基于标记预测模型输出的分类结果确定用户输入内容的标记。在一些实施例中，处理设备112可包含一个或多个子处理设备(例如，单芯处理设备或多核多芯处理设备)。仅仅作为范例，处理设备112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。

在一些实施例中，网络120可促进数据和/或信息的交换，数据或信息可以包括用户端130输入的用户内容、数据库140中存储的训练样本及其对应的标记、服务器110中的标记预测模型参数等。在一些实施例中，训练标记预测模型系统100中的一个或多个组件(例如，服务器110、用户端130、数据库140)可通过网络120发送数据和/或信息给系统100中的其他组件。在一些实施例中，网络120可是任意类型的有线或无线网络。例如，网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中，网络120可包括一个或多个网络进出点。例如，网络120可包含有线或无线网络进出点，如基站和/或网际网络交换点120-1、120-2、…，通过这些进出点系统100的一个或多个组件可连接到网络120上以交换数据和/或信息。

在一些实施例中，用户端130可以是一台计算设备或计算设备组。在一些实施例中，用户端130具体输入的功能，可以用于用户输入问题。例如，打字输入、语音输入等。所述计算设备可以包括手机130-1、平板电脑130-2、笔记本电脑130-3、台式计算机130-4等中的一种或其任意组合。所述计算设备组可以是集中式或分布式的。在一些实施例中，用户端130可以将输入的内容发送到服务器110。相应地，服务器110可以将对输入内容的预测结果(即，内容的标记)发送到用户端130。

在一些实施例中，数据库140可以用于存储训练样本、样本的特征及标记。数据库140可以在在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。数据库140可以由多个个人设备和云服务器生成。在一些实施例中，数据库140可以用于提供所需要数据的器件或原始媒体，还可以用于数据的存储、加密等操作。在一些实施例中，数据库140可存储供服务器110执行或使用的信息和/或指令，以执行本申请中描述的示例性方法。在一些实施例中，数据库140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如，随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。在一些实施例中，数据库140可在云平台上实现。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。

图2是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的模块图。

该系统200可以用于互联网服务的线上服务平台。在一些实施例中，该系统100可以用于包含智能答复系统的线上服务平台。例如，电商平台、线上咨询平台、公共服务平台等。

如图2所示，该系统200可以包括样本获取模块210、标记去噪模块220、标记对匹配模块230、样本选取模块240、标记预测模型生成模块250和标记预测模块260。

样本获取模块210可以用于获取多个样本，所述多个样本合计包含M个不同标记，所述至少一个样本中每个样本包含至少一个候选标记，所述候选标记来源于所述M个不同标记；M为≥1的整数；所述样本为实体对象的数据，在一些实施例中，所述实体对象数据为智能客服数据。

标记去噪模块220可以用于分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集。

在一些实施例中，标记去噪模块220可以用于初始化所述M个不同标记中每个标记属于每个所述样本的真实标记的概率，并基于初始化后的结果构建初始置信度矩阵。具体的，当所述标记为所述样本的候选标记时，所述标记属于所述样本真实标记的概率为1/N，N为所述样本包含的候选标记的个数；当所述标记不为所述样本的候选标记时，所述标记属于所述样本真实标记的概率为0。

在一些实施例中，标记去噪模块220可以用于基于映射矩阵迭代更新所述初始置信度矩阵，得到第一置信度矩阵；其中，所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间。具体的，将所述映射矩阵的转置与所述映射矩阵的乘积与迭代(t-1)次得到的中间置信度矩阵相乘，将相乘后的结果与所述置信度矩阵比例相加，得到迭代t次得到的中间置信度，t为大于等于1的整数；直到迭代得到的中间置信度矩阵满足预设条件，迭代结束，并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。在一些实施例中，标记去噪模块220可以基于流形学习算法确定所述映射矩阵。

在一些实施例中，标记去噪模块220可以用于将权重向量与所述第一置信度矩阵相乘，得到所述样本的优化置信度向量；所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重。在一些实施例中，所述权重向量中权重与相似度占比负相关。在一些实施例中，可以通过距离衡量所述相似度。在一些实施例中，所述标记去噪模块220确定所述相似度占比具体为：将所述样本与第一样本集中一个的距离除以所述样本与所述第一样本集中每一个的距离之和；所述第一样本集包含至少一个所述样本邻近的样本。在一些实施例中，所述标记去噪模块220还可以用于在将所述权重向量乘以所述第一置信度矩阵之前，将所述第一置信度矩阵中的置信度归一化至第一预设数值范围内。

在一些实施例中，标记去噪模块220可以将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。关于确定噪声标记的更多细节请参见图5及其相关描述，在此不再赘述。

标记对匹配模块230可以用于分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成。在一些实施例中，标记对匹配模块230还可以用于从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对，生成Q个虚拟标记对(t，v)。

样本选取模块240可以用于从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y。在一些实施例中，所述正负样本中正样本包含所述第一标记x，不包含所述第二标记y；所述正负样本中负样本包含所述第二标记y，不包含所述第一标记x。在一些实施例中，样本选取模块240还可以用于从所述优化样本集中选取用于训练二分类器的正负样本，训练得到的第一二分类器用于预测所述虚拟标记对(t，v)中的标记t和所述虚拟标记。

标记预测模型生成模块250用于将P个所述目标二分类器组成标记预测模型，P为生成的所述标记对的个数。在一些实施例中，标记预测模型生成模块250还可以用于将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。在一些实施例中，使用所述标记预测模型可以预测所述实体对象数据的标记。

系统200还包括标记预测模块260，所述标记预测模块260可以用于待预测样本输入所述标记预测模型，得到至少一个分类结果；以及用于确定所述至少一个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。在一些实施例中，所述预设条件包括：将所述数量大于第一阈值的预测标记作为所述待预测样本的标记，所述第一阈值为所述虚拟标记的数量。在一些实施例中，标记预测模块260还用于确定所述目标二分类器或第一二分类器的权重，所述权重与训练样本量正相关；求和输出为同一个预测标记的目标二分类器或第一二分类器的权重，得到不同预测标记各自的数量。关于基于标记预测模型预测待预测样本的标记的更多细节参见图6及其相关表述。

应当理解，图2所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于训练标记预测模型系统200及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图2中披露的样本获取模块210、标记去噪模块220、标记对匹配模块230、样本选取模块240以及标记预测模型生成模块250可以是一个系统中的不同模块，也可以是一个模块实现上述的两个模块的功能。又例如，训练标记预测模型系统200中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

图3是根据本说明书的一些实施例所示的训练标记预测模型方法的示例性流程图。如图3所述，方法300包括：

步骤302，获取多个样本，所述多个样本合计包含M个不同标记，所述至少一个样本中每个样本包含至少一个候选标记，所述候选标记来源于所述M个不同标记；M为之1的整数。具体的，该步骤302可以由样本获取模块210执行。

在一些实施例中，样本是输入至模型的训练数据，根据模型应用场景的不同，样本可以是不同类型的训练数据，例如，图像、文本或音频数据等。

在一些实施例中，样本可以是实体对象的数据。所述实体对象的数据可以是用户数据或者商户数据。其中，用户数据可以包含与用户相关的数据。例如，用户的语音数据、用户输入的文本数据、用户的消费数据等。商户数据可以包括商户的位置数据、商户在工商登记的数据。在一些实施例中，样本还可以是其他数据，本说明书不做限制。在一些实施例中，样本可以是智能客服数据，智能客服数据可以是用户在智能客服机器人中输入的问题的文本数据。例如，问题“怎么注册会员”、“最近的活动”等。

标记可以是用于代表样本某种信息的数据。例如，标记可以代表样本的类别信息。候选标记是指样本可能含有的标记，但并非一定是该样本的真实标记。例如，对于一张在动物园中拍摄的猫的图片，候选标记可能是猫、狗、鸟，但其真正的标记为猫。

在一些实施例中，获取的多个样本中每个样本都包含至少一个候选标记。统计所有样本候选标记合计为M个不同标记，M为≥1的整数。例如，获取了3个样本，样本1的候选标记为a、b、c，样本2的候选标记为b和c，样本3的候选标记为a和b，则这三个样本合计包含3个不同的标记，即a、b和c。

当一个样本含有多个候选标记时，其标记的方式可能是偏标记或复杂多标记。具体的，当该样本含有的多个候选标记中有且仅有一个真实标记，则为偏标记，例如，上述动物园拍摄的猫的图片为偏标记的情况。当该样本含有的多个候选标记中有多个真实标记，则为复杂多标记。例如，如上述图片中同时拍摄了猫和狗，则属于复杂多标记的情况。

在一些实施例中，样本包含的多个候选标记中除真实标记以外的标记为该样本的噪声标记。以上述动物园拍摄的猫的照片为例，狗和鸟为该图片的噪声标记。

在一些实施例中，获取样本的方式可以是直接从数据库中读取，也可以是通过接口获取，本实施例不做限制。在一些实施例中，获取多个样本可以上百以及更多的大量样本。

步骤304，分别除去所述多个样本中每个样本的噪声标记，得到了所述多个样本的优化样本集。具体的，该步骤304可以由标记去噪模模块220执行。

根据步骤302的描述可知，样本的候选标记可能是真实标记，也可能是噪声标记。优化样本集是由只包含真实标记的样本组成，即去除了获取的多个样本的噪声标记之后得到的样本集合。例如，获取的多个样本为样本1、2、3、4，其中，样本1含有候选标记a、b、c，样本2包含的候选标记为a、c，样本3包含的候选标记为b、c、d，样本4包含的候选标记a、b、d；a为样本1的噪声标记，c为样本2和3的噪声标记，b为样本4的噪声标记，因此，优化样本集为包含标记b和c的样本1，包含标记a的样本2，包含标记b和d的样本3，包含标记a和d的样本4。

在一些实施例中可以基于流行学习算法和样本与邻近样本之间相似度确定样本的噪声标记并去除。关于确定样本噪声标记的更多细节参见图5及其相关描述，此处不再赘述。

步骤306，分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成。具体的，该步骤306可以由标记对生成模块230执行。

真实标记集是指某个样本的真实标记的集合，即，对于某一个样本来说，其包含的候选标记中，除噪声标记以外的标记构成的集合。继续以步骤304的示例为例，样本1的真实标记集为标记b和c构成的集合，样本2的真实标记集为标记a，样本3的真实标记集合为标记b和d构成的集合，样本4的真实标记集合为标记a和d构成的集合。

无关标记集可以是M个标记中，除该样本所包含的候选标记以外的标记的集合。继续以步骤304的示例为例，M个不同的标记为a、b、c、d的4个标记，因此，样本1的无关标记集为标记d，样本2的无关标记集为标记b和d，样本3的无关标记集为标记a，样本4的无关标记集为标记c。

真实标记集和无关标记集对应的是获取的多个样本中某一个样本。因此，对于每一个样本，都有对应的真实标记集和无关标记集。可以理解，不同样本的真实标记集之间可能存在重合，不同样本的无关标记集可能存在重合，不同样本的真实标记集和无关标记集可能存在重合。

标记对是由两个不同的标记组成。在一些实施例中，可以通过(x，y)表示标记对，其中，x表示标记对中的一个标记，y表示标记对中不同于x的另一个标记。在一些实施例中，可以分别从同一个所述样本的真实标记集和无关标记集中任选一个标记生成标记对，可以理解，标记对中的标记分别来源于同一个样本的真实标记集和无关标记集。例如，标记对中的标记x来源于一个样本的真实标记集，标记y来源于该样本的无关标记集。

对于获取的多个样本中每个样本对应的真实标记集和无关标记集都可以按照此方式生成标记对。可以理解，不同的标记对中可能存在相同的标记，不同样本的生成的标记对可能会相同，其中，标记对相同是指标记对中包含的2个标记相同，与2个标记组合排列方式无关，例如，标记对(猫，狗)和标记对(狗，猫)为相同的标记对。在一些实施例中，可以用P表示最后生成的不同的标记对的个数。

通过上述实施例生成的标记对，可以排除单个样本的噪声标记不会参与配对，降低噪声标记的影响。继续以上述示例为例，针对样本1生成的标记对为(b，d)和(c，d)，避免了噪声标记a参与配对；针对样本2生成的标记对为(a，b)和(a，d)，避免了噪声标记c参与配对。

步骤308，从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y。具体的，该步骤308可以由样本选取模块240执行。

二分类器是用于将数据分为两个类别的模型或算法。在一些实施例中，训练二分类器的样本分为正样本和负样本。例如，若二分类器用于预测某个句子是否是正确答案，则正样本为正确答案的句子，负样本为错误答案的句子。又例如，若二分类器用于预测一张图片含有猫还是狗，则正样本为含有猫不含有狗的图片，负样本为含有狗不含有猫的图片。通过基于正负样本训练得到的二分类器输出一个类别，例如，答案是正确的还是错误的，图片是含有猫还是含有狗。二分类器输出的是类别的标识，例如，1代表猫，0代表狗，若某张图片预测结果为猫，则输出1。在一些实施例中，可以使用逻辑回归模型、支持向量机、随机森林或其它分类模型等作为二分类器。

为了训练用于预测标记对(x，y)的二分类器，需要针对标记对(x，y)选择正负样本。如前所述，对于任意一个标记对可以用(x，y)表示，其中x代表标记对(x，y)的第一标记，y代表标记对(x，y)的第二标记。在一些实施例中，正样本可以是包含第一标记x的样本。在一些实施例中，为了提高训练的二分类器的预测准确率，使正样本和负样本中不会出现标记发生冲突的样本，即不会出现同时包含标记x和y的样本，正样本可以是包含x不包含y的样本，负样本可以是包含y不包含x的样本。反向设定正负样本亦可。例如，对于标记对(猫，狗)，正样本为包含猫不包含狗的图片，负样本为包含狗不包含猫的图片。

在一些实施例中，正负样本可以从优化样本集中选取。具体的，将优化样本集中真实标记含有x不含有y的样本作为正样本(即作为二分类器中1对应的样本)，真实标记含有y不含有x的样本作为负样本(即作为二分类器中0对应的样本)。可以理解，从优化样本集中选取正负样本时，没有考虑样本的噪声标记，是以样本的真实标记为依据确定。

在一些实施例中，为了预测P个标记对中每一个标记对中的标记，可以分别针对每个标记训练二分类器，因此，每一个标记对都有对应的正负样本。

通过从优化样本集中选取二分类器的正负样本，可以进一步减少噪声标记的影响(选取正负样本是以样本的真实标记为依据)，提高训练的二分类器的准确率。例如，某个样本含有x且不含有y，其中x为该样本的噪声标记，选取样本前若不除去噪声标记，则会将该样本作为标记(x，y)的正样本并参与二分类器的训练，但实际这个样本不含标记x，可以理解，该样本不含有表征x信息的特征，因此，该样本会负面影响二分类器的训练，导致二分类器的准确率下降。

步骤310，将P个所述目标二分类器组成标记预测模型，P为生成的所述标记对的个数。具体的，该步骤310可以由标记预测模型生成模块250执行。

目标二分类器是指基于标记对的正负样本训练得到的二分类器，该二分类器可以预测不含任何标记的样本含有标记对中的哪个标记。

如前所述，P为生成的不同标记对的个数。因此，对于P个标记对，可以分别训练各自的二分类器，得到P个目标二分类器。在一些实施例中，训练得到的P个目标二分类器可以组成标记预测模型，用于确定待预测样本的一个或者多个标记。基于标记预测模型预测待预测样本标记的更多细节参见图6及其相关描述。

图4是根据本说明书的一些实施例所示的训练标记预测模型方法的另一示例性流程图。如图4所述，方法400包括：

步骤402，获取多个样本，所述多个样本合计包含M个不同标记，所述至少一个样本中每个样本包含至少一个候选标记，所述候选标记来源于所述M个不同标记；M为≥1的整数。具体的，该步骤402可以由样本获取模块210执行。

在一些实施例中，样本是输入至模型的训练数据，例如，文本、语音、图片等数据。在一些实施例中，获取的多个样本中每个样本都包含至少一个候选标记。统计所有样本候选标记合计为M个不同标记，M为≥1的整数。在一些实施例中，获取样本的方式可以是直接从数据库中读取，也可以是通过接口获取。关于样本、候选标记和获取样本的更多细节参见图3中的步骤302，此处不再赘述。

步骤404，分别除去所述多个样本中每个样本的噪声标记，得到了所述多个样本的优化样本集。具体的，该步骤404可以由标记去噪模块220执行。

样本的候选标记可能是真实标记，也可能是噪声标记。优化样本集是去除了获取的多个样本的噪声标记之后得到的样本集合。关于优化样本集的更多细节说明参见图3的步骤304的相关描述，关于除去样本的噪声标记的更多细节参见图6及其相关描述，此处不再赘述。

步骤406，从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对，生成Q个不同的虚拟标记对(t，v)。具体的，该步骤406可以由标记对生成模块230执行。

在一些实施例中，样本可以包含有虚拟标记，虚拟标记属于虚构的、不属于任何样本的候选标记，可以用v表示。例如，获取3个样本，样本1的候选标记为猫、狗，样本2的候选标记为猫、天空，样本3的候选标记为天空、树。虚拟标记不能为猫、狗、天空和树。虚拟标记的个数可以是一个，也可以是多个。

虚拟标记对是指由一个虚拟标记和一个真实标记组成的标记对。在一些实施例中，可以从某个样本的真实标记集中任取一个标记t与虚拟标记v组成虚拟标记对(t，v)。该样本的真实标记集中的所有标记均会与虚拟标记生成对应的虚拟标记对。

对于获取的多个样本中每个样本对应的真实标记集都可以按照上述方式与虚拟标记生成虚拟标记对。基于不同样本生成的虚拟标记对可能会相同。在一些实施例中，用Q表示生成的不同的虚拟标记对的个数。例如，获取的多个样本为样本1和样本2，样本1的真实标记为a和c，样本2的真实标记为a，样本1的真实标记和样本2的真实标记与虚拟标记都会生成标记对(a，v)，共生成了2个不同的虚拟标记对(a，v)和(c，v)，即Q为2。

步骤408，从所述优化样本集中选取用于训练二分类器的正负样本，训练得到的第一二分类器用于预测所述虚拟标记对(t，v)中的标记t和所述虚拟标记。具体的，该步骤408可以由样本选取模块240执行。

为了训练用于预测虚拟标记对(t，v)的二分类器，需要对虚拟标记对(t，v)选取正负样本。在一些实施例中，可以从优化样本集选择正负样本。其中，确定虚拟标记对(t，v)的正负样本时，可以将包含t的样本作为正样本，不包含t的样本作为负样本。

在一些实施例中，可以通过上述方式分别针对每个虚拟标记选取对应的正负样本。

步骤410，将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。具体的，该步骤410可以由标记预测模型生成模块250执行。

第一二分类器是指基于虚拟标记对的正负样本训练得到的二分类器，该二分类器可以预测不含任何标记的样本含有虚拟标记对中的哪个标记。

对于Q个不同的虚拟标记，可以分别基于每个标记对的正负样本训练得到Q个第一二分类器。在一些实施例中，可以将训练得到的P个目标二分类器和Q个第一二分类器可以共同组成标记预测模型，用于确定待预测样本的一个或者多个标记。其中，关于确定P个目标二分类器的更多细节参见图3及其相关描述，此处不再赘述。

在一些实施例中，将待预测样本输入P个目标二分类器和Q个第一二分类器组成的标记预测模型后得到P+Q个分类结果，可以将分类结果中虚拟标记数量作为待预测样本真实标记和无关标记的分割点，具体的，输出的Q个分类结果中虚拟标记的数量作为第一阈值，将数量大于第一阈值的预测标记作为待预测标记的真实标记，否则为无关标记。基于标记预测模型预测待预测样本标记的更多细节参见图6及其相关描述，此处不再赘述。

图5是根据本说明书的一些实施例所示的确定噪声标记的示例性流程图。如图5所示，流程500包括：

步骤502，初始化所述M个不同标记中每个标记属于每个所述样本的真实标记的概率，并基于初始化后的结果构建初始置信度矩阵。具体的，该步骤502由标记去噪模块220执行。

标记属于样本的真实标记的概率可称为置信度。在一些实施例中，可以根据每个样本的候选标记个数初始化每个样本的置信度，将初始化后的置信度称为初始置信度。具体的，当标记为样本的候选标记时，则将该标记属于该样本真实标记的概率初始化为1/N，N为该样本包含的候选标记的个数；当标记不为样本的候选标记时，则该标记属于该样本真实标记的概率初始化为0。例如，获取了3个样本，且这3个样本合计包含3个不同标记a、b和c，其中，样本1的候选标记为a和c，样本2的候选标记为a和b，样本3的候选标记为b和c，因此，a对于样本1初始置信度为1/2，b对于样本1的初始置信度为0，c对于样本1的初始置信度为1/2；a对于样本2初始置信度为1/2，b对于样本2的初始置信度为1/2，c对于样本2的初始置信度为0；a对于样本3初始置信度为0，b对于样本3的初始置信度为1/2，c对于样本3的初始置信度为1/2。

在一些实施例中，可根据M个不同标记中每个标记对应于多个样本中每个样本的初始置信度构建m×M的初始置信度矩阵C，其中，m表示多个样本的个数，初始置信度矩阵中的元素

可以表示M个不同标记中第j个标记对应于m个样本中第i样本的初始置信度。继续以上述包含3个不同标记的3个样本为例，其可以构成的初始置信度矩阵为：

M个不同标记中除了样本的候选标记以外的标记，都不可能是该样本的真实标记，属于该样本无关标记。例如，上述示例中，标记b为样本1的无关标记。通过上述初始化的方式建立的初始置信度矩阵，将无关标记的置信度初始化为0，可以减少无关标记对后续确定该样本真实标记的影响。将候选标记的置信度初始化个数分之一，结合了每个样本本身的情况，即考虑样本含有的候选标记数量。因为样本含有的候选标记越多，则每一个候选标记为该样本真实标记的可能性就会越小。

在一些实施例中，还可以通过其他方式初始化，本实施不做限制。例如，将每个候选样本的初始置信度确定为与候选标记数量成反比即可。

步骤504，基于映射矩阵迭代更新所述初始置信度矩阵，得到第一置信度矩阵；其中，所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间。具体的，该步骤504由标记去噪模块220执行。

映射矩阵是指从多个样本的特征空间映射至标记空间的矩阵，该映射矩阵中涵盖了从特征映射到标记的关系，该矩阵中的元素代表某个标记与某个特征的映射关系。其中，特征空间是由多个样本的多个特征构成的矩阵，例如，若样本有m个，特征有d个，则特征空间为

的矩阵，元素/>

可以表示第i个样本的第j个特征的特征值。标记空间是由多个样本的多个标记构成的矩阵，例如，若样本有m个，标记有M个，则标记空间为/>

的矩阵，元素/>

可以表示第j个标记是否为第i个样本的候选标记，是则为1，不是则为0。基于特征空间/>

和标记空间/>

得到的映射矩阵/>

的列向量p_j表示M个标记中第j个标记的特征映射向量，即，d个特征中的每一个特征分别与第j个标记的映射关系。

在一些实施例中，可以基于流形学习算法确定映射矩阵，流形学习算法可以包括但不限于以下至少之一，拉普拉斯特征映射、海森局部线性嵌入、局部切空间排列、有监督的局部线性嵌入以及局部Fisher分析等。具体地，流形学习算法可以基于如下步骤确定映射矩阵P：

Step1，学习多个样本中样本与样本之间的相关性，得到权重矩阵[W_i ^j]_m×m，其中m代表样本的个数。具体的，根据最小化公式(1)，求解得到权重矩阵中的权重值：

其中，x_i代表第i个样本x_i的特征向量，x_j代表第j个样本x_j的特征向量，

代表第i个样本与第j个样本的权重值，该权重值代表样本x_i与样本x_j之间的相关性，相关性也可以理解为相似性，即两个样本相关性越高，相似度越大。在一些实施例中，可以基于样本及其K邻近的样本确定权重矩阵，具体的，当x_j不为x_i邻近的样本时，将其权重值/>

设置为0。

Step2，基于下述公式(2)得到d×M映射矩阵P：

P＝T^T*W*Z (2)

其中，T^T为多个样本的m×d的特征空间T的转置矩阵，转置矩阵T^T为d×m的矩阵，W为多个样本的m×m的权重矩阵，Z为多个样本的m×M的标记空间。

在一些实施例中，可以基于(3)优化映射矩阵P：

w^j为第j样本与其他样本的权重值构成的m*1向量(即权重矩阵W中的第j个列向量)，p_j和p_i分别为第i个标记优化前的1*d特征映射向量、第j个标记优化前的1*d特征映射向量，即分别为优化前映射矩阵P中第j个和第i个的行向量。由公式(3)可以看出，将w^j与p_i相乘得到m*d矩阵求和压缩为1*d向量，p_i减去后面的项(即压缩的1*d向量)表示计算对每一个标记之间的差异，将当前标记的映射向量和其他每一个标记的特征映射向量之间的差异求和作为优化后的特征映射向量，可以看出，映射矩阵P的优化过程通过引入了样本与样本之间的相关性使得映射矩阵P中包含了标记与标记之间的相关性。与样本相同，不同标记的相关性也可以理解为不同标记之间的相似度。

可以理解，两个标记的相关性越大，即，两个标记越相似，若其中一个为某样本的真实标记，则另外一个样本也较高概率为该样本真实标记。因此，某标记对应某样本的置信度可以用该标记与其他标记之间的相关性以及其他标记对应该样本的置信度优化，从而拉大该样本的候选标记中真实标记与噪声标记的置信度的差距，用于后续确定真实标记。

在一些实施例中，可以基于映射矩阵迭代更新初始置信度矩阵，得到第一置信度矩阵。具体的，基于映射矩阵

的转置乘以该映射矩阵得到新的矩阵/>

元素/>

包含了M个标记中第j个标记和第i个标记的相关性信息，并基于新的矩阵H可以通过公式(5)迭代更新初始置信度矩阵：

F^t＝αF⁰+(1-α)F^(t-1)H (2)

其中，t为迭代次数，t为≥1的整数，F⁰为初始置信度矩阵，H为基于映射矩阵P得到的新的矩阵H，F^(t-1)为迭代(t-1)次生成的中间置信度矩阵。第一次迭代时，F^(t-1)取初始置信度矩阵F⁰。其中，α为[0，1]之间的实数。α用于控制从迭代过程中继承的标记信息和初始置信度矩阵的比重，α可以根据实际情况进行具体设置，一般地，α＝0.95。在α取0.95可以保证引入足够原来的信息(即初始置信度中某个标记的置信度)，防止被新的信息(即迭代时该样本的其他标记的置信度和该样本与其他样本的相关性)误导。

例如，样本数为3，标记为4个，初始置信度矩阵为

H为

α＝0.95，则经过一次迭代后，第一个样本的第一个标记的置信度受到了其他标记(第2、3、4标记)的影响，具体的，加上了代表其他标记与第一标记的相关性的值与其他标记对应第一样本的置信度的乘积之和(即，/>

)，其中，0.3、0.2和0.4分别代表第一个标记与第二标记、第三标记、第四标记之间相关性的值；对于第一个样本的第二个标记的置信度受到了其他标记(第1、3、4标记)的影响，具体的，加上了代表其他标记与第二标记的相关性的值与其他标记对应第一样本的置信度的乘积之和(即，/>

)，其中，0.3、0.1和0.5分别为第二个标记与第一标记、第三标记、第四标记之间的相似度。通过多次迭代，可以充分利用标记与标记的相关性信息。

基于上述公式进行迭代过程中，直到迭代得到的中间置信度矩阵满足预设条件，迭代结束，并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。在一些实施例中，预设条件可以根据实际需求进行具体设置，在一些实施例中，预设条件可以为第t次迭代生成的中间置信度不再变化，或者变化的误差小于特定值(例如，0.001、0.002等)，在一些实施例中，预设条件可以是t满足迭代最大次数，例如，迭代最大次数t＝1000。

步骤506，将权重向量与所述第一置信度矩阵相乘，得到所述样本的优化置信度向量；所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重。具体的，该步骤506由标记去噪模块220执行。

在一些实施例中，权重向量B可以是

的行向量，也可以是/>

的列向量，为某个样本的权重向量，其中，m为多个样本的数量，权重向量B中的元素/>

代表由某个样本与多个样本中该样本的邻近样本的相似度占比确定的权重。例如，共包含4个样本a、b、c、d，4个样本分别对应一个权重向量B，若将a作为第1个样本，b作为第二个样本，c作为第三个样本，d作为第四样本，若样本a和样本d为样本b的2个邻近样本，则样本b的权重向量B为

其中/>

代表样本b与样本a的距离占比确定的第二权重，/>

表样本b与样本d的距离占比确定的第二权重，由于样本c不为样本b的邻近样本，则样本b和样本c的相似度占比取值为0。在一些实施例中，可以通过K最近邻(k-Nearest Neighbor，KNN)算法找到多个样本中的每个样本的邻近样本。

在一些实施例中，确定相似度占比具体为：样本与第一样本集中的其中一个样本的距离除以该样本与第一样本集中每一个样本的距离之和，其中，第一样本集包含至少一个所述样本邻近的样本。在一些实施例中，距离可以包括但不限于欧式距离、曼哈顿距离、马氏距离或闵可夫斯基距离等。

以欧式距离为例，基于公式(1)计算得到样本x与样本y之间的距离：

其中，d代表选取的样本x与样本y之间的距离，x_i代表样本x的第i个特征，y_i代表样本y的第i个特征；t为样本的特征的数量。

在一些实施例中，权重向量B中的权重与相似占比负相关。例如，样本与其某个邻近样本的权重为1减去该样本与该邻近样本的相似占比。具体地，可以基于公式(3)确定权重向量B中的权重：

其中，dist(x_t，x_j)代表样本x_i和它的邻近样本x_t的距离，x_k代表样本x_i的所有邻近样本组成的第一样本集中的任意样本，N(x_i)代表样本x_j的K近邻的索引。

在一些实施例中，可以将某个样本的权重向量B与第一置信度矩阵相乘得到优化置信度向量。优化置信度向量中置信度代表M个不同标记中每个标记为真实标记的概率。可以理解，想要得到哪个样本的第二置信度向量，就需要用该样本的权重向量B参与上述运算。

在一些实施例中，若权重向量B为1*m的行向量，则用1*m权重矩阵B乘以m*M的第一置信度矩阵得到1*M优化置信度向量；若权重向量B为m*1的列向量，则用m*1的权重向量B的转置乘以m*M的第一置信度矩阵，得到1*M优化置信度向量。

可以理解，样本与样本之间越相似，则其包含的标记可能也越相似，例如，样本1和样本2相似度较高，样本1包含了标记a，则样本2包含标记a的可能性较高。通过上述实施例，通过样本与样本之间的相似度进一步优化标记的置信度，使样本的候选标记中真实标记的置信度越来越大，噪声标记的置信度越来越小。

在一些实施例中，为了避免第一置信度矩阵中的置信度不在同一个量纲上，影响后续的计算，在将权重向量B与第一置信度矩阵相乘之前，可以将第一置信度矩阵中的置信度归一化至第一预设数值范围内，在一些实施例中，第一预设数值范围可以是[0，1]。在一些实施例中，归一化至[0，1]的方式可以有多种，例如，可以通过min-max归一化方式，将每个样本的权重向量B中的权重最大值归一化至1，权重最小值归一化至0。又例如，可以将每个样本的权重向量B中所有权重值之和归一化为1。

步骤508，将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。具体的，该步骤508由标记去噪模块220执行。

在一些实施例中，可以基于预设条件从所述优化置信度向量中确定所述样本的噪声标记并去除，在一些实施例中，预设条件可以根据实际需求进行具体设置，例如，预设条件可以为优化置信度向量中的元素值大于等于预设阈值，其中，预设阈值可以根据实际需求进行具体设置，例如，0.8或者0.6等，通过设置不同的预设阈值可以实现按照不同的置信程度去噪。

图6是根据本说明书的一些实施例所示的基于标记预测模型预测待预测样本的标记的示例性流程图。如图6所述，流程600包括：

步骤602，将待预测样本输入所述标记预测模型，得到至少一个分类结果。具体地，该步骤602可以由标记预测模块260执行。

待预测样本可以是未知标记的样本，待预测样本可以是与获取的多个样本的内容相似或相同的数据，其数据类型包括但不限于文本、图像、音频以及视频等，本实施例不做任何限制。

在一些实施例中，可以将待预测样本输入到标记预测模型中确定其含有的标记。如前所述，可以是P个目标二分类器组成标记预测模型或者可以是P个目标二分类器和Q个第一二分类器共同组成标记预测模型。

对于P个目标二分类器组成的标记预测模型，将待预测样本分别输入至P个目标二分类器，每个目标二分类器得到一个分类结果，即可以得到P个分类结果，P个分类结果实际来源于真实标记集和无关标记集的标记。P个目标二分类器分别用于预测所述P个标记对中标记，由步骤306描述可知，不同标记对存在相同的标记，因此P个目标二分类器输出的结果可能存在相同，例如，目标二分类器为5个，有3个目标二分类器的结果都为标记A，2个目标二分类器的结果为标记B。

对于P个目标二分类器和Q个第一二分类器组成的标记预测模型，将待预测样本输入至由P个目标二分类器和Q个第一二分类器中，可以分别得到P个分类结果和Q个分类结果，P个分类结果来源于真实标记集和无关标记集的标记，Q个分类结果来源于真实标记集中的标记或者虚拟标记，即Q个分类结果中可能含有虚拟标记。

步骤604，确定所述至少一个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。具体地，该步骤604可以由标记预测模块260执行。

预测标记可以是指待预测样本输入标记预测模型后输出的分类结果，即输入由P个目标二分类器组成的标记预测模型，或者由P个目标二分类器和Q个二分类器组成的标记预测模型后输出的分类结果。在一些实施例中，可以分别统计P个分类结果或者P个分类结果和Q个分类结果的组合分类结果(即下述的组合分类结果)中不同预测标记各自的数量。在一些实施例中，某个预测标记的数量可以是输出该预测标记的标记预测模型中的二分类器的个数之和。在一些实施例中，某个预测标记的数量可以是输出该预测标记的二分类器的权重之和。其中，二分类器的权重由训练用的样本量决定，与训练用的样本量正相关，训练用的样本数量越大，说明该二分类器的分类结果越准确，其权重越大。例如，P为4，一共有6个二分类器，其中，训练二分类器A、B、C、D、E、F分别样本量为100个、20个、1000个、5个、400个、700个，二分类器A、B、C、D、E、F分别为0.1、0.05、0.35、0.01、0.27、0.22，若二分类器A、B、C、D输出的分类结果分别为标记1、标记2、标记1、标记3、标记2和标记4，则标记1的数量为0.1+0.35，标记2的数量为0.05+0.27，标记3的数量为0.01，标记4的数量为0.22。

在一些实施例中，预设条件可以是预设阈值。在一些实施例中，预设条件可以用于确定待预测样本的标记。具体的，将数量大于预设阈值的预测标记确定为待预测样本的候选标记。在一些实施例中，预设条件可以是排名。即，将数量排名在前N的预测标记确定为待预测样本的候选标记。

在一些实施例中，对于由P个目标二分类器和Q个第一二分类器组成的标记预测模型而言，可以通过输出的P+Q个分类结果中虚拟标记的数量确定预设条件。具体的，可以将P+Q个分类结果中虚拟标记的数量作为第一阈值，将大于第一阈值的预测标记作为待预测样本的标记。

根据图4描述，确定虚拟标记对(t，v)的正负样本时，可以将包含x的样本作为正样本，不包含t的样本作为负样本。即，只要不含有t都作为负样本，则负样本集(负样本构成)中包含了除标记t以外的其他标记的特征，可以理解，对包含虚拟标记对(t，v)训练的二分类器在预测某个样本的标记时，只要这个样本含有t，输出的分类结果都为标记t，只要这个样本不含有t，输出的分类结果都为虚拟标记v。以样本数量为3，M为3，即x、y、z三个标记为例，其中，样本1的真实标记为x和y，无关为z，样本2的真实标记为x，无关标记为y，样本3的真实标记为z，无关标记为y，则生成标记对(x，z)、(y，z)、(x，y)、(z，y)，以及虚拟标记对(x，v)、(y，v)、(z，v)，若某个样本只含有x，则会有3个标记对(即(x，y)、(x，z)和(x，v))对应的二分类器输出x，2个标记对(即(y，v)和(z，v)生成虚拟标记v，可以看出，虚拟标记的数量大于样本含有的标记x的数量。或者，该样本含有的标记为x和y，则会有1个标记对(即(z，v))对应的二分类器输出虚拟标记v，至少2个标记对(即，(x，v)、(x，z))输出x，至少2个标记对(即，(y，v)、(y，z))输出y，可以看出样本含有的标记数量大于虚拟标记数量。又或者，该样本含有的标记为x、y和z，则虚拟标记的个数为0，样本含有的标记数量始终大于虚拟标记个数。由此可见，可以将标记预测模型输出的虚拟标记个数待预测样本真实标记和无关标记的分割点，具体的，大于虚拟标记数量的预测标记作为待预测样本的标记，即，将虚拟标记的数量作为确定待预测样本标记的阈值，可以避免因阈值(或预设条件)选择不当导致的结果不准确的问题。

本说明书实施例例还提供一种装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述的训练标记预测模型的方法。所述方法可以包括：获取多个样本，所述多个样本合计包含M个不同标记，所述至少一个样本中每个样本包含至少一个候选标记，所述候选标记来源于所述M个不同标记；M为≥1的整数；分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集；分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y；将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数。

本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机实现前述的训练标记预测模型的方法。所述方法可以包括：获取多个样本，所述多个样本合计包含M个不同标记，所述至少一个样本中每个样本包含至少一个候选标记，所述候选标记来源于所述M个不同标记；M为≥1的整数；分别除去所述多个样本中每个样本的噪声标记，得到所述多个样本的优化样本集；分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x，y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对(x，y)的第一标记x和第二标记y；将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数。

本说明书实施例可能带来的有益效果包括但不限于：(1)通过单个样本的真实标记集和无关标记集配对生成标记对，可以避免单个样本的噪声标记参与配对，即也无需训练含有噪声的标记对的二分类器，降低了噪声标记的影响；(2)在训练不同标记对的二分类器之前，去除了样本的噪声标记，则训练二分类器用的正负样本中不含有噪声标记，可以排除噪声标记对训练的影响，提高二分类器分类结果的准确性；(3)基于虚拟标记从分类结果中确定待预测样本的标记可以避免因为预设条件设置的不合适导致的结果不准确。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种训练标记预测模型的方法，包括：

获取多个样本，所述多个样本合计包含M个不同标记，M为

1的整数；所述多个样本为用户问题文本，所述标记为所述用户问题文本对应的内容类型；

分别从所述多个样本中每个样本的至少一个候选标记中除去所述每个样本的噪声标记，得到所述多个样本的优化样本集；其中，所述噪声标记不属于所述每个样本对应的用户问题文本的真实内容类型；

分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x,y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；

从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对（x，y）的第一标记x和第二标记y；

将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数，所述标记预测模型为针对所述智能客服数据的分类模型。

2.如权利要求1所述的方法，所述方法还包括：

从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对，生成Q个不同的虚拟标记对(t，v)；

从所述优化样本集中选取用于训练二分类器的正负样本，训练得到的第一二分类器用于预测所述虚拟标记对(t，v)中的标记t和所述虚拟标记v；

将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。

3.如权利要求1或2所述的方法，所述方法还包括：

将待预测样本输入所述标记预测模型，得到至少一个分类结果；

确定所述至少一个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。

4.如权利要求3所述的方法，所述预设条件包括：

将所述数量大于第一阈值的预测标记作为所述待预测样本的标记，所述第一阈值为所述虚拟标记的数量。

5.如权利要求3所述的方法，所述确定所述至少一个分类结果中不同预测标记各自的数量包括：

确定所述目标二分类器或第一二分类器的权重，所述权重与训练样本量正相关；

求和输出为同一个预测标记的目标二分类器或第一二分类器的权重，得到不同预测标记各自的数量。

6.如权利要求1所述的方法，确定所述样本的所述噪声标记包括：

初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵；

基于映射矩阵迭代更新所述初始置信度矩阵，得到第一置信度矩阵；其中，所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间；

将权重向量与所述第一置信度矩阵相乘，得到所述样本的优化置信度向量；所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重；

将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。

7.如权利要求6所述的方法，基于流形学习算法确定所述映射矩阵。

8.如权利要求6所述的方法，基于所述映射矩阵迭代更新所述初始置信度矩阵，得到第一置信度矩阵包括：

将所述映射矩阵的转置与所述映射矩阵的乘积与迭代(t-1)次得到的中间置信度矩阵相乘，将相乘后的结果与所述初始置信度矩阵分别和各自的比重相乘后再求和，得到迭代t次得到的中间置信度，t为大于等于1的整数；

直到迭代得到的中间置信度矩阵满足预设条件，迭代结束，并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。

9.如权利要求6所述的方法，所述初始化所述样本包含所述M个不同标记中任一标记的概率包括：

当所述M个不同标记中任一标记为所述样本的候选标记时，将所述概率初始化为1/N，N为所述样本包含的候选标记的个数；候选标记表示所述样本存在所述标记；

当所述M个不同标记中任一标记不为所述样本的候选标记时，将所述概率初始化为0。

10.如权利要求6所述的方法，通过距离衡量所述相似度。

11.如权利要求10所述的方法，所述权重向量中权重与相似度占比负相关。

12.如权利要求1所述的方法，所述正负样本中正样本包含所述第一标记x，不包含所述第二标记y；所述正负样本中负样本包含所述第二标记y，不包含所述第一标记x。

13.如权利要求6所述的方法，在将所述权重向量与所述第一置信度矩阵相乘之前，将所述第一置信度矩阵中的置信度归一化至第一预设数值范围内。

14.一种训练标记预测模型的系统，包括：

样本获取模块，用于所述多个样本合计包含M个不同标记，M为

标记去噪模块，用于分别从所述多个样本中每个样本的至少一个候选标记中除去所述每个样本的噪声标记，得到所述多个样本的优化样本集；其中，所述噪声标记不属于所述每个样本对应的用户问题文本的真实内容类型；

标记对生成模块，用于分别从同一个所述样本的真实标记集和无关标记集中任选一个标记，生成至少一个标记对(x,y)；所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成；所述无关标记集由所述M个标记中除所述候选标记以外的标记组成；

样本选取模块，用于从所述优化样本集中选取训练二分类器的正负样本，训练得到的目标二分类器用于预测所述标记对（x，y）的第一标记x和第二标记y；

标记预测模型生成模块，用于将P个所述目标二分类器组成标记预测模型，P为生成的不同的所述标记对的个数，所述标记预测模型为针对所述智能客服数据的分类模型。

15.如权利要求14所述的系统，包括：

所述标记对生成模块，用于从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对，生成Q个不同的虚拟标记对(t，v)；

所述样本选取模块，用于从所述优化样本集中选取用于训练二分类器的正负样本，训练得到的第一二分类器用于预测所述虚拟标记对(t，v)中的标记t和所述虚拟标记v；

所述标记预测模型生成模块，用于将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。

16.如权利要求14或15所述的系统，所述系统还包括：

标记预测模块：用于将待预测样本输入所述标记预测模型，得到至少一个分类结果；

用于确定所述至少一个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。

17.如权利要求16所述的系统，所述预设条件包括：

18.如权利要求16所述的系统，所述标记预测模块用于：

19.如权利要求14所述的系统，所述标记去噪模块用于：

20.如权利要求19所述的系统，所述标记去噪模块用于：

基于流形学习算法确定所述映射矩阵。

21.如权利要求19所述的系统，所述标记去噪模块用于：

22.如权利要求19所述的系统，所述标记去噪模块用于：

当所述M个不同标记中任一标记为所述样本的候选标记时，将所述概率初始化为1/N，N为所述样本包含的候选标记的个数；所述候选标记表示所述样本存在所述标记；

23.如权利要求19所述的系统，通过距离衡量所述相似度。

24.如权利要求23所述的系统，所述权重向量中权重与相似度占比负相关。

25.如权利要求14所述的系统，所述正负样本中正样本包含所述第一标记x，不包含所述第二标记y；所述正负样本中负样本包含所述第二标记y，不包含所述第一标记x。

26.如权利要求19所述的系统，所述标记去噪模块还用于：

在将所述权重向量与所述第一置信度矩阵相乘之前，将所述第一置信度矩阵中的置信度归一化至第一预设数值范围内。

27.一种训练标记预测模型的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~13任一项所述的方法。

28.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1~13任一项所述的方法。