CN111274376B

CN111274376B - 一种训练标记预测模型的方法和系统

Info

Publication number: CN111274376B
Application number: CN202010072725.7A
Authority: CN
Inventors: 方军鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-06-02
Anticipated expiration: 2040-01-21
Also published as: CN111274376A

Abstract

本说明书实施例公开了一种训练标记预测模型的方法和系统。所述方法包括：获取多个样本，多个样本合计包含P个不同的标记，P为≥2的整数；从P个不同的标记中任选两个标记，生成(P(P‑1))/2个标记对；从多个样本中选取标记对(x,y)对应的第一样本和第二样本；第一样本包含第一标记x，第二样本包含第二标记y；第一样本组成第一样本集，第二样本组成第二样本集；计算选取的样本分别与两个样本集各自中心的距离，将该距离作为所述选取的样本的新特征；基于附加了新特征的选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将(P(P‑1))/2个二分类器组成标记预测模型。

Description

一种训练标记预测模型的方法和系统

技术领域

本申请涉及数据处理领域，特别涉及一种训练标记预测模型方法和系统。

背景技术

随着互联网的快速发展，智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常，用户输入某个内容以后，智能客服机器人可以通过机器学习方法猜测用户的问题，并对问题进行解答，提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时，机器学习只需学习数据的一个标记即可。

然而，大多数情况下用户遇到的问题不止一个，智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如，某购物平台，用户输入“开通会员”，用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此，亟需一种对数据(例如，用户输入的内容)进行多标记学习的方法，从而能够准确预测数据的多个标记。

发明内容

本说明书一个方面提供一种训练标记预测模型的方法。所述方法包括：获取多个样本，所述多个样本合计包含P个不同的标记，P为大于等于2的整数；从所述P个不同的标记中任选两个标记，生成(P(P-1))/2个标记对；从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将(P(P-1))/2个二分类器组成标记预测模型。

本说明书另一个方面提供一种训练标记预测模型的系统。所述系统包括：样本获取模块，用于获取多个样本，所述多个样本合计包含P个不同的标记，P为大于等于2的整数；标记对生成模块，用于从所述P个不同的标记中任选两个标记，生成(P(P-1))/2个标记对；样本选取模块，用于从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；特征获取模块，用于计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；标记预测模型生成模块，用于基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将(P(P-1))/2个二分类器组成标记预测模型。

本说明书另一个方面提供一种训练标记预测模型的装置，包括至少一个存储介质和至少一个处理器，所述存储介质用于存储计算机指令；所述处理器用于执行训练标记预测模型的方法。

本说明书另一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行训练标记预测模型的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的训练标记预测模型系统的应用场景示意图；

图2是根据本说明书一些实施例所示的训练标记预测模型系统的模块图；

图3是根据本说明书一些实施例所示的训练标记预测模型方法的示例性流程图；

图4是根据本说明书一些实施例所示的基于标记预测模型预测待预测样本的标记的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图。

训练标记预测模型系统100可以通过实施本申请中披露的方法和/或过程来训练标记预测模型，以及对待预测样本的标记进行预测。在一些实施例中，标记预测模型可以应用于智能客服机器人领域。待预测样本即为用户输入的内容，例如，一个字，一句话、一段语音等。智能客服机器人需要基于用户输入的内容确定用户想要问的一个或者多个问题，或者一个或者多个答案。基于系统100，当用户输入内容之后，智能机器机器人可以根据训练得到标记预测模型确定用户输入内容的多个标记，这些标记可以代表用户问题中涉及的内容有哪些，换言之，代表用户想要得到答案有哪些，并基于这些标记为用户提供多个答案或者多个用户可能想要问的问题。示例的，用户输入“请问这款产品近期的活动？”，系统100基于标记预测模型可以预测该问题的标记为“活动时间”“折扣”“礼品”，并为将答案“活动时间在11月19-11月25日”“5折”“若单笔订单满999,送耳机一副”。

如图1所示，训练标记预测模型系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。

在一些实施例中，服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中，服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如，服务器110可以通过网络120获取数据库中多个样本进行标记预测模型的训练。又例如，服务器110可以通过网络120访问用户端130输入的用户内容，并将该内容输入到标记预测模型中确定该内容的标记，以便于确定用户想要的答案。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如：服务器110可以是分布系统)。在一些实施例中，服务器110可以是区域的或者远程的。在一些实施例中，服务器110可在云平台上执行。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。

在一些实施例中，服务器110可包含处理设备112。该处理设备112可处理数据和/或信息以执行一个或多个本申请中描述的功能。例如，处理设备112可以对多个样本的标记进行两两配对，为生成的标记对选择正负样本，确定标记对选择的正负样的新特征，最后基于附加了新特征的正负样本训练预测标记对中标记的二分类器，从而得到标记预测模型。又例如，处理设备112可以基于标记预测模型输出的分类结果确定用户输入内容的标记。在一些实施例中，处理设备112可包含一个或多个子处理设备(例如，单芯处理设备或多核多芯处理设备)。仅仅作为范例，处理设备112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。

在一些实施例中，网络120可促进数据和/或信息的交换，数据或信息可以包括用户端130输入的用户内容、数据库140中存储的训练样本及其对应的标记、服务器110中的标记预测模型参数等。在一些实施例中，训练标记预测模型系统100中的一个或多个组件(例如，服务器110、用户端130、数据库140)可通过网络120发送数据和/或信息给系统100中的其他组件。在一些实施例中，网络120可是任意类型的有线或无线网络。例如，网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中，网络120可包括一个或多个网络进出点。例如，网络120可包含有线或无线网络进出点，如基站和/或网际网络交换点120-1、120-2、…，通过这些进出点系统100的一个或多个组件可连接到网络120上以交换数据和/或信息。

在一些实施例中，用户端130可以是一台计算设备或计算设备组。在一些实施例中，用户端130具体输入的功能，可以用于用户输入问题。例如，打字输入、语音输入等。所述计算设备可以包括手机130-1、平板电脑130-2、笔记本电脑130-3、台式计算机130-4等中的一种或其任意组合。所述计算设备组可以是集中式或分布式的。在一些实施例中，用户端130可以将输入的内容发送到服务器110。相应地，服务器110可以将对输入内容的预测结果(即，内容的标记)发送到用户端130。

在一些实施例中，数据库140可以用于存储训练样本、样本的特征及标记。数据库140可以在在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。数据库140可以由多个个人设备和云服务器生成。在一些实施例中，数据库140可以用于提供所需要数据的器件或原始媒体，还可以用于数据的存储、加密等操作。在一些实施例中，数据库140可存储供服务器110执行或使用的信息和/或指令，以执行本申请中描述的示例性方法。在一些实施例中，数据库140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如，随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。在一些实施例中，数据库140可在云平台上实现。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。

图2是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的模块图。

该系统可以用于互联网服务的线上服务平台。在一些实施例中，该系统100可以用于包含智能答复系统的线上服务平台。例如，电商平台、线上咨询平台、公共服务平台等。

如图2所述，该系统可以包括样本获取模块210、标记对生成模块220、样本选取模块230、特征获取模块240、标记预测模型生成模块250。

样本获取模块210，用于获取多个样本，所述多个样本合计包含P个不同的标记，P为大于等于2的整数。

标记对生成模块220，用于从所述P个不同的标记中任选两个标记，生成P(P-1)/2个标记对。具体的，通过排列组合

得到P(P-1)/2个标记对。

样本选取模块230，用于从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集。在一些实施例中，所述第一样本包含所述第一标记x，不包含所述第二标记y；所述第二样本包含所述第二标记y，不包含所述第一标记x。在一些实施例中，样本选取模块230还用于通过K-均值聚类算法确定所述第一样本集的K₁个中心和所述第二样本集的K₂个中心，K₁和K₂为大于等于1的整数。在一些实施例中，第一样本集或第二样本集可以分别作为标记对(x,y)的正负样本集。

特征获取模块240，用于计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征。在一些实施例中，特征获取模块240还用于计算所述第一样本与所述第一样本集的中心的第一距离，所述第一样本与所述第二样本集的中心的第二距离，将所述第一距离和所述第二距离作为所述第一样本的新特征；计算所述第二样本与所述第一样本集的中心的第三距离，所述第二样本和所述第二样本集的中心的第四距离，将所述第三距离和所述第四距离作为所述第二样本的新特征。样本集的中心为样本集中的一个样本，中心样本的特征可以代表样本集的平均特征。计算样本与中心的距离实际计算的是样本的特征与中心样本的特征的距离。该距离可以代表样本与中心样本之间的相似度。在一些实施例中，所述距离为欧氏距离、曼哈顿距离、切比雪夫距离或马氏距离等。新特征是样本原来的特征与第一样本集的中心样本的特征的距离，以及样本原来的特征与第二样本集的中心样本的特征的距离，该新特征能够直接地表示样本含有标记对中哪个标记的可能性更大。关于新特征的更多细节参见图3及其相关描述，此处不再赘述。

标记预测模型生成模块250，用于基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将P(P-1)/2个二分类器确定为标记预测模型，所述P(P-1)/2个二分类器用于分别预测所述P(P-1)/2个标记对中标记。关于基于新特征训练预测标记对中标记的二分类器更多细节可以参见图3及其相关描述，此处不再赘述。

标记预测模块260，用于将待预测样本输入所述P(P-1)/2个二分类器，得到P(P-1)/2个分类结果；确定所述P(P-1)/2个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。在一些实施例中，所述预设条件可以是预设阈值，或预设的排名位数等。在一些实施例中，标记预测模块260还用于确定所述P(P-1)/2个二分类器的权重，所述权重与训练所述二分类器的训练数据量正相关；求和输出为同一个预测标记的所述二分类器的权重，得到不同预测标记各自的数量。在一些实施例中，可以通过添加虚拟标记确定分割点，进一步从得到的P(P-1)/2个分类结果中得到待预测样本的标记。具体的，所述P个不同的标记中含有虚拟标记，从而P(P-1)/2个标记对中存在包含虚拟标记的标记对，P(P-1)/2个二分类器中存在预测包含虚拟标记的标记对中的标记的二分类器。因此，在确定所述待预测样本的标记时，可以将所述数量大于第一阈值的预测标记作为所述待预测样本的标记，所述第一阈值为所述P(P-1)/2个分类结果中所述虚拟标记的数量。关于基于标记预测模型确定待预测标记的多个标记的更多细节，参见图4及其相关描述，此处不再赘述。

应当理解，图2所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于加法秘密共享转换为乘法秘密共享系统200及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图2中披露的样本获取模块210、标记对生成模块220、样本选取模块230、特征获取模块240、标记预测模型生成模块250和标记预测模块260可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，样本获取模块210和标记对生成模块220可以是两个模块，也可以是一个模块同时具有样本获取和标记对生成的功能。又例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本说明书的一些实施例所示的训练标记预测模型方法的示例性流程图。如图3所示，该方法300可以包括：

步骤310，获取多个样本，所述多个样本包含有P个不同的标记，P为大于等于2的整数。具体的，该步骤310可以由样本获取模块210执行。

样本可以是指包含有一个或者多个标记的数据，可以用于训练模型。在一些实施例中，样本可以是与所需处理数据内容相同或相似的示例数据。例如，需要基于样本训练预测图片的类别的模型，则样本也应为图片，且含有属于什么类别的一个或多个标记。又例如，需要基于样本预测问题的答案，则样本为各种问题，且含有对应的答案的一个或多个标记。在一些实施例中，样本可以包括各种文本数据、音频数据、图像数据或其他形式数据，本实施例不做限制。在一些实施例中，样本可以是实体对象的样本数据。所述实体对象的数据包括用户数据和商户数据。其中，用户数据可以包含与用户相关的数据。例如，用户的语音数据、用户输入的文本数据、用户的消费数据等。商户数据可以包括体现商户经营内容的数据。在一些实施例中，样本还可以是其他数据，本说明书不做限制。在一些实施例中，样本可以是用户在智能客服机器人中输入的问题的文本数据。例如，问题“怎么注册会员”、“最近的活动”等。

在一些实施例中，可以从样本中提取样本一个或多个特征。特征是对样本的抽象，是样本的抽象表示，通过使用数值表示样本。图片的特征可以包括但不限于纹理特征、颜色特征、形状特征等。其中，可以通过HOG(方向梯度直方图)获取图片轮廓信息以得到形状特征，可以LBP(局部二值模式)、灰度共生矩阵、随机场模型法等确定纹理特征。可以通过独热模型、BERT模型、ELMO模型、Open-GPT模型等模型提取文本的特征。

标记可以是表示样本某种信息的数据。在一些实施例中，一个样本可以包含一个或多个标记，其中多个标记是指包含至少2个不同标记，如，可以是2个、3个、4个等，本申请不做限制。在一些实施例中，样本的标记与模型训练目的相关。例如，若训练的目的是对样本分类，则标记可以用于类别。又例如，若训练的目的确定两个文本的相似度，则标记文本间是否相似或相似度。示例的，若训练目的是确定图片的类别(图片中包含的内容)，图片1只含有猫，则可以为图片1打上标记“猫”，代表该图片的类别为猫；若图片2含有猫、狗和天空，则可以为图片2打上标记“猫”、“狗”和“天空”，代表该图片的类别为猫、狗和天空。在一些实施例中，可以通过字符的方式表示标记，例如，用0表示猫，1表示狗，2表示天空。

在一些实施例中，获取样本的方式可以是直接从数据库中读取，也可以是通过接口获取，本实施例不做限制。在一些实施例中，获取多个样本可以上百以及更多的大量样本。

在一些实施例中，用P表示获取的多个样本合计包含的不同标记的个数，其中P为大于等于2的整数。例如，获取了3个样本，其中样本1包含标记a、b，样本2包含标记a、b、c，样本3包含标记c，则P为3，含有3个不同的标记，即标记a、b、c。

步骤320，从所述P个不同的标记中任选两个标记，生成(P(P-1))/2个标记对。具体的，该步骤320可以由标记对生成模块220执行。

标记对是由两个不同的标记组成。在一些实施例中，标记对中的标记来源于P个不同的标记。在一些实施例中，可以基于P个不同的标记生成(P(P-1))/2个标记对，具体的，通过排列组合

得到(P(P-1))/2个标记对，因此P个不同的标记中每个标记都与其他标记生成了标记对。/>

在一些实施例中，可以通过(x,y)表示标记对，其中，x表示标记对中的一个标记，y表示标记对中不同于x的另一个标记。例如，标记对(猫，狗)，其字符表示方式可以为(0,1)。

步骤330，从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集。具体的，该步骤330可以由样本选取模块230执行。

如前所述，对于(P(P-1))/2个标记对中的任意一个标记对可以用(x,y)表示。其中x代表标记对(x,y)的第一标记，y代表标记对(x,y)的第二标记。

第一样本是指包含第一标记x的样本。第二样本是指包含第二标记y的样本。通过该实施例，第一样本和第二样本可以实现预测含有标记x还是标记y的二分类器的训练。因为选取的样本中包含x的可以作为二分类器中1对应正样本，包含y的可以作为二分类器中0对应的负样本，反向设定亦可。在一些实施例中，第一样本可以是包含第一标记x且不包含第二标记y，第二样本可以是包含第二标记y且不包含第一标记x的样本。例如，对于标记对(猫，狗)，第一样本为包含猫不包含狗的图片，第二样本为包含狗不包含猫的图片。通过该实施例，可以提高训练的二分类器的预测准确率，因为第一样本和第二样本中不会出现标记x和标记y发生冲突的样本，即不会出现同时包含标记x和y的样本。

在一些实施例中，可以从获取的多个样本中选取(P(P-1))/2个标记对中每个标记对的第一样本和第二样本，换言之，为每个标记对选取正样本和负样本。在一些实施例中，对于任意一个标记对，选取出的第一样本或/和第二样本个数至少为1个。

第一样本集可以是由选取出来的第一样本组成的集合。第二样本集可以是由选取出来的第二样本的集合。第一样本集和/或第二样本集可以分别作为标记对(x,y)的正负样本集。每一个标记对都有对应的第一样本集和第二样本集，换言之，每一个标记对都有对应的正负样本集。

步骤340，计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征。具体的，该步骤340可以由特征获取模块240执行。

选取的样本是指从多个样本中为标记对(x,y)选取的第一样本和第二样本。两个样本集是指前述的标记对(x,y)的第一样本集和第二样本集。

两个样本集都存在各自的中心，中心为样本集中的一个样本，也称中心样本。每个样本集的中心属于与样本集中其他样本差距较小的样本，因此，中心样本的特征可以代表整个样本集的平均特征。若第一样本集为标记对(x,y)的正样本集，则其中心样本的特征可以代表标记对(x,y)正样本集的平均特征，第二样本集的中心样本的特征可以代表标记对(x,y)负样本集的平均特征。

在一些实施例中，两个样本集各自的中心个数可以是一个或者多个，两个样本集各自的中心个数可以相同也可以不同。在一些实施例中，可以通过样本的距离误差确定中心。若一个中心，则选择距离误差最小的样本作为中心，若多个中心，则选择距离误差小于阈值的多个样本作为中心。在一些实施例中，距离误差可以通过对样本之间距离差的平方求和得到。计算样本之间距离时实际计算的是样本的特征之间的距离。在一些实施例中，距离可以包括但不限于欧式距离、曼哈顿距离、切比雪夫距离或马氏距离等。

以欧式距离为例，基于公式(1)计算得到样本x与样本y之间的距离：

其中，d代表选取的样本x与样本y之间的距离，x_i代表样本x的第i个特征，y_i代表样本y的第i个特征；t为样本的特征的数量。

在一些实施例中，可以通过K-均值聚类算法分别确定第一样本集的K₁个中心和第二样本集的K₂个中心，K₁和K₂为大于等于1的整数。其中，K₁和K₂可以相同，也可以不相同。其中K值可以随机设定，也可以根据多次测试得到的经验值。在一些实施例中，K₁和K₂为10，在该实施例下，聚类效果最好。

以基于K-均值聚类算法确定第一样本集的K₁个中心为例：

Step1，从第一样本集中随机选择K₁个中心。在一些实施例中，K₁个为10。

Step2，计算第一样本集中每个样本的特征分别与K₁个中心特征的距离，并将每个样本分配到距离最近的中心的簇中。例如，第一样本A的特征与中心1的特征的距离最近，则将第一样本A分配到中心1的簇中

Step3，更新K₁个中心，具体的，基于上述方式可以得到每个随机选取的中心的簇，然后对每个中心的簇选取新的簇中心，从而得到K₁个新中心。在一些实施例中，可以最小化损失函数更新每个簇的中心。例如，损失函数可以包括但不限于平方损失函数、绝对值损失函数、对数损失函数等，本说明书对此不作限制。以平方损失函数为例，可以基于最小化公式(2)确定新的簇中心：

其中，C代表新的簇中心，x_j表示簇内第j个样本，L为损失函数，N代表簇中的样本个数。

Step4，重复上述步骤更新簇中心，直到簇中心不再移动，确定最终的K1个簇中心。

在一些实施例中，可以计算选取的样本与两个样本集各自的中心的距离。若每个样本集的中心不止一个，则需计算选取的样本与每个样本集的每个中心的距离。具体的，计算第一样本分别与第一样本集的K₁个中心的距离，该距离可以命名为第一距离，则可以得到K₁个第一距离；计算第一样本分别与第二样本集的K₂个中心的距离，该距离可以命名为第二距离，则可以得到K₂个第二距离。计算第二样本与第一样本集的K₁个中心的距离，该距离可以命名为第三距离，则可以得到K₁个第三距离，计算第二样本和第二样本集的K₂个中心的距离，该距离可以命名为第四距离，则可以得到K₂个第四距离。其中，如前所述，计算的样本与中心之间距离实际计算的是样本的特征与中心样本的特征之间的距离。

距离可以代表样本与样本之间的相似性度，距离与相似度成反比，距离越大，越相似。选取的样本与第一样本集中心的距离可以代表该样本与第一样本的相似度，代表该样本包含第一标记x的可能性，选取的样本与负样本集中心的距离可以代表该样本与负样本的相似度代表该样本包含第二标记y的可能性。若前者大于后者，则可以说明该样本含有第一标记的可能性大于含有第二标记的可能性。

在一些实施例中，选取的样本分别与两个样本各自中心的距离可以作为选取样本的新特征，即，选取的样本的新特征包含选取的样本与负样本集中心的距离和与正样本集中心的距离。新特征不同于样本原来的特征，因为计算距离实际是基于样本特征进行的，因此，新特征是样本原来特征与正负样本集中心的特征的距离。例如，若样本为图片，标记对为(猫，狗)，图片原来的特征为形状特征，新特征为图片的形状特征与第一样本集的中心样本的形状特征的距离、与第二样本集的中心样本的形状特征的距离，第一样本集为包含猫不包含狗的样本集，第二样本集为包含狗不包含猫的样本集。新特征相比于原来的特征，更能表示标记对(x,y)中两个标记之间的关系，即含有第一标记x的可能性更高还是含有第二标记y的可能性更高。如前例，图片的新特征可以表示该图片包含狗的可能性和包含猫的可能性谁更高。因此，新特征可以更好地训练标记对的二分类器，用于预测一个样本是包含第一标记还是第二标记。具体细节见步骤350，此处不再赘述。

具体的，K₁个第一距离和K₂个中心的距离可以作为第一样本的新特征，K₁个第三距离和K₂个第四距离可以作为第二样本的新特征。第一样本集中所有的第一样本和第二样本集中所有的第二样本均可以得到对应的新特征。在一些实施例中，可以用矩阵的方式表示一个标记对对选取的所有样本的新特征，向量的方式表示一个选取的样本的新特征。例如，对于一个标记对(x，y)而言，选取了20个第一样本作为正样本，30个第二样本作为负样本，且第一样本集(即正样本集)中心有3个，第二样本集(即负样本集)中心有3个，则可以用50×(3+3)或(3+3)×50的矩阵表示这个标记对所有选取的样本的新特征，向量中的元素某个样本与某个中心的距离。对于50×(3+3)矩阵来说，某一行向量代表某一个选取的样本的新特征，对于(3+3)×50矩阵来说，某一列向量代表某一个选取的样本的新特征。

步骤350，基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将(P(P-1))/2个二分类器组成标记预测模型。具体的，该步骤350可以由标记预测模型生成模块250执行。

二分类器是用于将数据分为两个类别的模型或算法。在一些实施例中，训练二分类器的样本分为正样本和负样本。例如，若二分类器用于预测某个句子是否是正确答案，则正样本为正确答案的句子，负样本为错误答案的句子。又例如，若二分类器用于预测一张图片含有猫还是狗，则正样本为含有猫不含有狗的图片，负样本为含有狗不含有猫的图片。通过基于正负样本训练得到的二分类器输出一个类别，例如，答案是正确的还是错误的，图片是含有猫还是含有狗。二分类器输出的是类别的标识，例如，1代表猫，0代表狗，若某张图片预测结果为猫，则输出1。在一些实施例中，可以使用逻辑回归模型、支持向量机、随机森林或其它分类模型等作为二分类器。

在一些实施例中，可以基于附加了新特征的选取的样本训练二分类器，训练得到的二分类器可以预测样本含有标记对(x,y)中哪个标记。具体的，将选取的样本新特征输入到二分类器中进行训练，或将选取的样本的新特征和原来的特征一起输入到二分类器中进行训练。相比于只基于样本原来的特征训练的二分类器，基于添加了新特征训练的二分类器，分类效果更好，因为新特征更直接地表达了样本与标记对相关的信息，表达了其含有第一标记可能性和含有第二标记的可能性哪个更高。

对于(P(P-1))/2个标记对，可以分别训练得到(P(P-1))/2个二分类器。具体地，将每个标记对的附加了新特征的正负样本输入到二分类器中进行训练，得到对应的二分类器。

在一些实施例中，将训练得到的(P(P-1))/2个二分类器可以组成标记预测模型，用于确定预测样本的一个或者多个标记。基于标记预测模型预测样本的标记的更多细节参见图4及其相关描述，此处不再赘述。

在一些实施例中，P个不同的标记中可以含有虚拟标记。虚拟标记属于虚构的、不属于任何样本的候选标记，可以用y_v表示。例如，获取3个样本，样本1的候选样本为猫、狗，样本2的候选标记为猫、天空，样本3的候选标记为天空、树。虚拟标记不能为猫、狗、天空和树。虚拟标记的个数可以是一个，也可以是多个。在构建步骤320构建标记对时，虚拟标记会与其他标记均生成相应的标记对，即可以生成P-1个包含虚拟标记的标记对，并通过步骤330-350得到用于预测包含虚拟标记的标记对中标记的二分类器。其中，确定虚拟标记对(x,y_v)的正负样本时，可以将包含x的样本作为正样本，不包含x的样本作为负样本。

在一些实施例中，将待预测样本输入(P(P-1))/2个二分类器后得到(P(P-1))/2个分类结果，可以将分类结果中虚拟标记数量作为待预测样本真实标记和无关标记的分割点，具体的，输出的(P(P-1))/2个分类结果中虚拟标记的数量作为第一阈值，将数量大于第一阈值的预测标记作为待预测标记的真实标记，否则为无关标记。更多细节可以参见步骤420。

图4是根据本说明书的一些实施例所示的预测待预测样本的标记的示例性流程图。如图4所示，该方法400可以包括：

步骤410，将待预测样本输入所述(P(P-1))/2个二分类器，得到(P(P-1))/2个分类结果。具体的，该步骤410可以由标记预测模块360执行。

待预测样本可以是未知标记的样本。待预测样本可以是与获取的多个样本内容相同或相似的数据，其数据类型包含但不限于文本、音频、图像、视频等，本实施例不做限制。在一些实施例中，可以将待预测标记输入到标记预测模型中确定其含有的标记。即，将待预测样本分别输入(P(P-1))/2个二分类器，每一个二分类器一个分类结果，可以得到(P(P-1))/2分类结果。输出的分类结果实际为P个不同标记中的一个。因为(P(P-1))/2个二分类器分别用于预测所述(P(P-1))/2个标记对中标记，(P(P-1))/2个标记对中的标记存在重复，因此(P(P-1))/2个二分类器输出的结果可能存在相同，例如，有3个二分类器的结果都为标记A，2个二分类器的结果为标记B。

步骤420，确定所述(P(P-1))/2个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。具体的，该步骤420可以由标记预测模块260执行。

预测标记可以是指待预测样本输入二分类器后输出的分类结果。如前所述，(P(P-1))/2个二分类器输出的分类结果可能存在相同。因此，可以统计(P(P-1))/2个分类结果中不同预测标记各自的数量。在一些实施例中，某个预测标记的数量可以是输出该预测标记的二分类器的个数之和。在一些实施例中，某个预测标记的数量可以是输出该预测标记的二分类器的权重之和。其中，二分类器的权重由训练用的样本量决定，与训练用的样本量正相关，训练用的样本数量越大，说明该二分类器的分类结果越准确，其权重越大。例如，P为4，一共有6个二分类器，其中，训练二分类器A、B、C、D、E、F分别样本量为100个、20个、1000个、5个、400个、700个，二分类器A、B、C、D、E、F分别为0.1、0.05、0.35、0.01、0.27、0.22，若二分类器A、B、C、D输出的分类结果分别为标记1、标记2、标记1、标记3、标记2和标记4，则标记1的数量为0.1+0.35，标记2的数量为0.05+0.27，标记3的数量为0.01，标记4的数量为0.22。

在一些实施例中，预设条件可以是预设阈值。在一些实施例中，预设条件可以用于确定待预测样本的标记。具体的，将数量大于预设阈值的预测标记确定为待预测样本的候选标记。在一些实施例中，预设条件可以是排名。即，将数量排名在前N的预测标记确定为待预测样本的候选标记。

在一些实施例中，可以通过输出的(P(P-1))/2个分类结果中虚拟标记的数量确定预设条件。具体的，可以将(P(P-1))/2个分类结果中虚拟标记的数量作为第一阈值，将大于第一阈值的预测标记作为待预测样本的标记。例如，P为5，分别包含标记a、b、c、d、e，其中，虚拟标记为a，从而构成标记对(a,b)、(a,c)、(a,d)、(a,e)、(b,c)、(b,d)、(b,e)、(c,d)、(c,e)、(d,e)，分别对每个标记对选取对应的正负样本并训练二分类器，一共得到10个二分类器。将待预测数据输入这10个分类器后，分别输出的分类结果为b、c、a、a、b、d、b、c、c、e，其中虚拟标记a的个数为2，b的个数为3个，c的个数为3个，d的个数为1个，e的个数为1个，将虚拟标记a的个数2作为第一阈值，将大于该值的b和c作为该待预测样本的标记。

根据图3中步骤350的描述，确定虚拟标记对(x,y_v)的正负样本时，可以将包含x的样本作为正样本，不包含x的样本作为负样本。即，只要不含有x都作为负样本，则负样本集(负样本构成)中包含了除标记x以外的其他P-1个标记的特征，可以理解，基于步骤330-350对包含虚拟标记对(x,y_v)训练的二分类器在预测某个样本的标记时，只要这个样本含有x，输出的分类结果都为虚拟标记x，只要这个样本不含有x，输出的分类结果都为虚拟标记y_v。以P为4，且只含有1个虚拟标记为例，假设非虚拟标记分别为x、y、z，则分别生成(x,y)、(x,z)、(x,y_v)、(y,z)、(y,y_v)、(z,y_v)，若该样本只含有x，则会有3个标记对(即(x,y)、(x,z)和(x,y_v))对应的二分类器输出x，2个标记对(即(y,y_v)和(z,y_v)生成虚拟标记y_v，可以看出，虚拟标记的数量大于样本含有的标记x的数量。或者，该样本含有的标记为x和y，则会有1个标记对(即(z,y_v))对应的二分类器输出虚拟标记，至少2个标记对(即，(x,y_v)、(x,z))输出x，至少2个标记对(即，(y,y_v)、(y,z))输出y，可以看出样本含有的标记数量大于虚拟标记数量。又或者，该样本含有的标记为x、y和z，则虚拟标记的个数为0，样本含有的标记数量始终大于虚拟标记个数。由此可见，可以将标记预测模型输出的虚拟标记个数待预测样本真实标记和无关标记的分割点，具体的，大于虚拟标记数量的预测标记作为待预测样本的标记，即，将虚拟标记的数量作为确定待预测样本标记的阈值，可以避免因阈值(或预设条件)选择不当导致的结果不准确的问题。

在一些实施例中，可以将训练得到的标记预测模型应用于智能客服机器人领域。即，智能客服机器人将用户输入的问题输入标记预测模型得到该问题的标记，并根据该标记确定问题的答案。具体的，训练标记预测模型时可以获取大量历史问题集，且这个问题集含有7个标记：条件、原因、操作、时间、地点、购物、母婴。通过图3所述的方法训练得到对应的标记预测模型(即21个二分类器)，若用户输入的问题为“会员注册”，将该问题输入标记预测模型后得到的21个分类结果中，条件5个，操作4个，原因3个，时间3个、地点3个、购物、2个、母婴1个，且设定的预设条件大于阈值3，因此，将条件、操作、原因作为该问题的标记，并返回答案：申请会员的条件为a、申请会员的具体操作为b。

本说明书实施例还提供一种训练标记预测模型的装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述的训练标记预测模型的方法。所述方法可以包括：获取多个样本，所述多个个样本合计包含P个不同的标记，P为大于等于2的整数；从所述P个不同的标记中任选两个标记，生成P(P-1)/2个标记对；从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将P(P-1)/2个二分类器组成标记预测模型。

本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机实现前述的训练标记预测模型的方法。所述方法可以包括：获取多个样本，所述多个个样本合计包含P个不同的标记，P为大于等于2的整数；从所述P个不同的标记中任选两个标记，生成P(P-1)/2个标记对；从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对(x,y)中标记的二分类器，将P(P-1)/2个二分类器组成标记预测模型。

本说明书实施例可能带来的有益效果包括但不限于：(1)通过二分类的方式实现样本多个标记的预测，具体的，将样本可能含有的多个标记进行两两配对，并训练用于预测每个标记对中标记的二分类器，再将样本输入到每个二分类器中，基于所有二分类器的结果确定样本的多个标记；(2)通过对二分类用的训练样本添加新特征，可以提高二分类器分类结果的准确性，因为新特征相比原来的特征更能表达训练样本含有标记对中哪个标记的可能性更大；(3)基于虚拟标记从分类结果中确定待预测样本的标记可以避免因为预设条件设置的不合适导致的结果不准确。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种训练标记预测模型的方法，包括：

获取多个样本，所述多个样本合计包含P个不同的标记，P为大于等于2的整数；所述多个样本为用户问题文本，所述标记为所述用户问题文本对应的内容类型；

从所述P个不同的标记中任选两个标记，生成

个标记对；

从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；

计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；所述新特征代表所述选取的样本对应的用户问题文本与各个中心样本对应的用户问题文本之间的相似度；

基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对（x,y）中标记的二分类器，将

个二分类器组成标记预测模型，所述标记预测模型为针对智能客服数据的分类模型。

2.如权利要求1所述的方法，所述方法还包括：

将待预测样本输入所述

个二分类器，得到/>

个分类结果；

确定所述

个分类结果中不同预测标记各自的数量，将满足预设条件的预测标记作为所述待预测样本的标记。

3.如权利要求1所述的方法，所述计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征包括：

计算所述第一样本与所述第一样本集的中心的第一距离，所述第一样本与所述第二样本集的中心的第二距离，将所述第一距离和所述第二距离作为所述第一样本的新特征；

计算所述第二样本与所述第一样本集的中心的第三距离，所述第二样本和所述第二样本集的中心的第四距离，将所述第三距离和所述第四距离作为所述第二样本的新特征。

4.如权利要求1所述的方法，通过K-均值聚类算法确定所述第一样本集的K₁个中心和所述第二样本集的K₂个中心，K₁和K₂为大于等于1的整数。

5.如权利要求1所述的方法，所述第一样本包含所述第一标记x，不包含所述第二标记y；所述第二样本包含所述第二标记y，不包含所述第一标记x。

6.如权利要求1所述的方法，所述距离为欧氏距离。

7.如权利要求2所述的方法，所述确定所述

个分类结果中不同预测标记各自的数量包括：

确定所述

个二分类器的权重，所述权重与训练所述二分类器的训练数据量正相关；

求和输出为同一个预测标记的所述二分类器的权重，得到不同预测标记各自的数量。

8.如权利要求2所述的方法，所述P个不同的标记中含有虚拟标记，在确定所述待预测样本的标记时，将所述数量大于第一阈值的预测标记作为所述待预测样本的标记，所述第一阈值为所述

个分类结果中所述虚拟标记的数量。

9.一种训练标记预测模型的系统，包括：

样本获取模块，用于获取多个样本，所述多个样本合计包含P个不同的标记，P为大于等于2的整数；所述多个样本为用户问题文本，所述标记为所述用户问题文本对应的内容类型；

标记对生成模块，用于从所述P个不同的标记中任选两个标记，生成

个标记对；

样本选取模块，用于从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本；所述第一样本包含第一标记x，所述第二样本包含第二标记y；所述第一样本组成第一样本集，所述第二样本组成第二样本集；

特征获取模块，用于计算选取的样本分别与两个样本集各自中心的距离，将所述距离作为所述选取的样本的新特征；所述新特征代表所述选取的样本对应的用户问题文本与各个中心样本对应的用户问题文本之间的相似度；

标记预测模型生成模块，用于基于附加了所述新特征的所述选取的样本训练二分类器，得到用于预测所述标记对（x,y）中标记的二分类器，将

10.如权利要求9所述的系统，还包括：

标记预测模块，用于将待预测样本输入所述

个二分类器，得到/>

个分类结果；确定所述/>

11.如权利要求9所述的系统，所述特征获取模块还用于：

12.如权利要求9所述的系统，所述样本选取模块用于：

通过K-均值聚类算法确定所述第一样本集的K₁个中心和所述第二样本集的K₂个中心，K₁和K₂为大于等于1的整数。

13.如权利要求9所述的系统，所述第一样本包含所述第一标记x，不包含所述第二标记y；所述第二样本包含所述第二标记y，不包含所述第一标记x。

14.如权利要求9所述的系统，所述距离为欧氏距离。

15.如权利要求10所述的系统，所述标记预测模块还用于：

确定所述

16.如权利要求10所述的系统，所述P个不同的标记中含有虚拟标记，在确定所述待预测样本的标记时，所述标记预测模块用于：

将所述数量大于第一阈值的预测标记作为所述待预测样本的标记，所述第一阈值为所述

个分类结果中所述虚拟标记的数量。

17.一种训练标记预测模型装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~8任一项所述的方法。

18.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1~8任一项所述的方法。