CN111832312A

CN111832312A - 文本处理方法、装置、设备和存储介质

Info

Publication number: CN111832312A
Application number: CN202010414349.5A
Authority: CN
Inventors: 王鹏; 刘纯一; 李奘
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-27
Anticipated expiration: 2040-05-15
Also published as: CN111832312B

Abstract

本公开涉及一种文本处理方法、装置、设备和存储介质。在此描述的方法包括从第一文本集选择锚文本以及针对锚文本的正类文本，正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本，负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型，训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。基于这样的训练目标得到的模型使得文本的向量化表示在语义区分上更准确。

Description

文本处理方法、装置、设备和存储介质

技术领域

本公开总体上涉及自然语言处理领域，更特别地涉及文本处理方法、装置、设备和计算机可读存储介质。

背景技术

自然语言处理(NLP)是计算机科学、人工智能、以及计算语言学的领域，其涉及计算机和人类(自然)语言之间的交互。基于NLP的技术在诸如自动问答、文档分析、文本聚类、用户意图分析、情感分类等应用中得到越来越多的应用。基于NLP的任务一般要求将自然语言的文本转换为计算机可识别的标识形式，例如向量化表示，然后在向量化表示的基础上继续任务处理，获得期望的任务输出。因此，文本的向量化表示是NLP任务的基础。

发明内容

根据本公开的一些实施例，提供了一种文本处理的方案，特别是用于训练和使用用于生成文本的向量化表示的模型的方案。

在本公开的第一方面，提供了一种文本处理方法。该方法包括从第一文本集选择锚文本以及针对锚文本的正类文本，正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本，负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型，训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。

在本公开的第二方面，提供了一种用于生成文本的向量化表示的方法。该方法包括获取待处理的目标文本。该方法还包括使用根据第一方面的方法训练的模型，基于目标文本来确定目标文本对应的目标向量化表示。

在本公开的第三方面，提供了一种文本处理装置。该装置包括第一文本选择模块，被配置为从第一文本集选择锚文本以及针对锚文本的正类文本，正类文本被分类到与锚文本相同的语义类别。该装置还包括第二文本选择模块，被配置为从第二文本集选择针对锚文本的负类文本，负类文本被分类到与锚文本不同的语义类别。该装置还包括模型训练模块，被配置为利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型，训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。

在本公开的第四方面，提供了一种用于生成文本的向量化表示的装置。该装置包括文本获取模块，被配置为获取待处理的目标文本；以及模型使用模块，被配置为使用根据第三方面的装置训练的模型，基于目标文本来确定目标文本对应的目标向量化表示。

在本公开的第五方面，提供了一种电子设备，包括存储器和处理器，其中存储器用于存储计算机可执行指令，计算机可执行指令被处理器执行以实现根据本公开的第一方面和/或第二方面的方法。

在本公开的第六方面，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行实现根据本公开的第一方面和/或第二方面的方法。

根据本公开的各种实施例，通过使用无用户意图标签的用户数据来训练用户意图确定模型，使得模型能够更好地学习到用户特征之间的交互和表示，由此提高用户意图确定模型的准确性。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显。在此以示例性而非限制性的方式示出了本公开的若干实现方式，在附图中：

图1示出了本公开的实施例能够在其中实现的用于生成文本的向量化表示的示例环境；

图2示出了根据本公开的一些实施例的用于向量化表示生成模型的模型训练装置的示意图；

图3示出了根据本公开的一些实施例的文本处理方法的流程图；

图4示出了根据本公开的一些实施例的用于生成文本的向量化表示的方法的流程图；

图5示出了根据本公开的一些实施例的文本处理装置的框图；

图6示出了根据本公开的一些实施例的用于生成文本的向量化表示的装置的框图；以及

图7示出了其中可以实施本公开的一个或多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

通常，机器学习可以包括三个阶段，即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代，直到模型能够从训练数据中获取一致的、与人类智慧所能够做出的推理类似的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在使用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

如以上提及的，在NLP任务中，需要生成文本的向量化表示。由于机器学习、深度学习技术的不断发展，已经提出可以利用各种机器学习模型来生成文本的向量化表示。

图1示出了示出了本公开的实施例能够在其中实现的用于生成文本的向量化表示的示例环境100。如图1所示，示例环境100包括计算设备110，计算设备110具有向量化表示生成模型112，用于生成文本102对应的向量化表示114。计算设备120所使用的向量化表示生成模型112是已完成训练并且可使用的模型。

计算设备110可以是终端设备或是服务端设备。终端设备例如可以是各种便携式或固定终端，诸如、平板电脑、台式计算机、笔记本计算机、手机、通用计算设备等。服务端设备例如可以是集中式服务器、分布式服务器、大型机、边缘计算设备、或者云等。因此，向量化表示生成模型112的应用可以是在各种可能的场景下。

可以由向量化表示生成模型112处理的文本102可以是任何长度的自然语言文本。例如，文本102可以是包含多个词、词组的一个句子。有时，文本102可以包含多个句子(例如一个段落)等。向量化表示生成模型112可以被配置为支持各种长度的文本的输入。文本102的向量化表示114有时也被称为特征表示、句向量、句嵌入(embedding)、向量编码等，其通常可以由一定维度的数值组成。不同文本的向量化表示的维度可以相同，但其中包含的数值不同。

向量化表示114可以被提供用于针对文本102的下游任务116。下游任务116可以是任何文本处理相关的任务，例如是NLP任务。下游任务116的一个示例是自动问答任务。作为示例，在问答任务中，知识库的知识通常由<问题、答案>组成。在处理用户需求时，通常需要将用户问题(用户输入的文本或者以其他方式转换得到的文本)与知识库中的已有问题进行匹配，从而查询到对应的答案提供给用户。在这个任务中，需要理解用户问题的语义是否与知识库中的已有问题匹配，这就要求将用户问题转换为向量化表示，用于与知识库中的已有问题的向量化表示进行比较，以实现计算机可支持的匹配检测。

当然，自动问答任务仅是需要使用文本的向量化表示的一个示例下游任务。其他下游任务还可以包括文档分析、文本聚类、用户意图分析、情感分类等等。虽然被示出为实现在计算设备110中，但需要采用文本的向量化表示的下游任务还可以被实现在一个或多个其他计算设备处。在这种情况下，计算设备110可以相应地将向量化表示114提供到其他设备以供使用。

文本的向量化表示期望能够尽可能区分不同文本的不同语义。向量化表示的准确性主要取决于对模型的训练。当前提出了很多基于无监督或者自监督训练方法来训练模型以用于生成向量化表示。在这些方案中，可以通过训练词向量模型来确定各个词的向量化表示，然后通过加和或者求平均来确定句子的向量化表示。还可以训练一些模型来直接计算各种长度的文本的向量化表示。

然而，当前很多模型在语义准确性上仍有不足，对于一些相似成分较多但语义不同的句子，或者对于相似成分较少但语义相似的句子，所确定的向量化表示并不能准确体现语义差异。举例三个句子，第一句子是“我想要预约快车”，第二句子是“我想要快车发票”，第三句子是“如何预约”。当前很多模型会将第一句子和第二句子的向量化表示生成为非常相似，因为这两个句子的公共成分(包括“我想要”和“快车”)更长且句子结构更接近。然而，在实际场景中，特别是在涉及特定任务的场景，第一句子和第三句子可能更为相似，因为这两个句子可能表达相同的用户意图(例如，“预约”服务的意图)。

本公开的实施例提出了一种用于训练向量化表示生成模型的方案。根据该方案，构建三元组文本来训练用于生成文本向量化表示的模型。三元组文本包括锚文本、与锚文本具有相同语义类别的正类文本、以及与锚文本具有不同语义类别的负类文本。模型的训练目标是要使模型被训练得能够为锚文本和正类文本生成更相似的向量化表示，而为锚文本和负类文本生成差异较大的向量化表示，具体地，使模型为锚文本和正类文本生成的向量化表示之间的差异小于为锚文本和负类文本生成的向量化表示之间的差异。

基于这样的训练目标得到的模型能够更好地将特定文本的向量化表示确定为与相似语义的文本的向量化表示更接近，而与不同语义的文本的向量化表示差别更大，使得文本的向量化表示在语义区分上更准确。由于在语义区分方面的优势，所生成的向量化表示可以有助于后续文本处理任务更好地执行。

以下将继续参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的用于向量化表示生成模型的模型训练装置200的示意图。为便于讨论，参考图1来讨论模型的训练，因此在图2中示出了模型训练装置200被配置为训练向量化表示生成模型112。

模型训练装置200可以在单个计算设备或者多个计算设备来实现。模型训练装置200可以被实现为在与使用模型的设备不同的设备上，例如模型训练装置200可以不同于计算设备110。当然，在一些情况下，模型训练和模型使用也可以被实现在同一个设备或同一组设备上。这取决于实际的计算资源部署的需要。

模型训练装置200包括文本选择模块210，被配置为选择用于训练向量化表示生成模型112的文本。根据本公开的实施例，用于训练向量化表示生成模型112的训练样本被设计为三元组训练样本，包括锚文本(被表示为“a”)、针对该锚文本的正类文本(被表示为“p”)以及针对该锚文本的负类文本(被表示为“n”)。三元组训练样本被表示为<a，p，n>。在本文中，文本可以具有任何适当的长度和粒度，取决于对向量化表示生成模型112的使用需要。例如，文本可以是句子级别的文本，或者可以是多个句子组成的语段，等等。

如以下将讨论的，包括锚文本、正类文本和负类文本的三元组训练样本是为了促使向量化表示生成模型112被训练得能够为锚文本和正类文本生成更相似的向量化表示，而为锚文本和负类文本生成差异较大的向量化表示。

在三元组训练样本中，文本选择模块210从文本集202选择锚文本和针对该文本的正类文本，并且从文本集204选择针对锚文本的负类文本。文本集202和文本集204是不同语义类别的文本集合，也就是说，每个文本集中的文本被分类到相同的语义类别、具有相似语义，而不同文本集中的文本被分类到不同语义类别。在本文中，有时为了便于讨论，将文本集202称为第一文本集，文本集204称为第二文件集。通过从不同语义类别的文本集选择三元组训练样本，可以确保正类文本被分类到与锚文本相同的语义类别，而负类文本被分类到与锚文本不同的语义类别。

相同语义类别中的文本被认为具有相同或相似语义。语义类别的划分标准和划分粒度可以根据实际处理任务的需要来灵活实现。在一些实施例中，不同语义类别可以对应于文本的不同意图、不同的情感类别以及其他的语义类别划分。由于训练样本来自于不同语义类别，这样的语义类别划分可以被视为是向模型训练中引入了一定的监督信息，这不同于传统方案中很多利用无监督或自监督的模型训练方案。

在一些实施例中，语义类别可以按预定知识库中的知识点来划分。在这种情况下，文本集202和文本集202可以包括知识库中的不同知识点。在用于问答的知识库中，知识点可以被认为指示不同的用户意图。一个知识点可以包括多个问题文本，这些问题文本各不相同，但均指向相同或相似的用户意图，因此往往对应于同一个答案。利用这样的知识作为模型的训练数据，可以确保后续模型能够更好地应用于对于不同知识点的文本的向量化表示生成。当然，除用于问答的知识库之外，还有其他类型的知识库，其中也包含不同语义类别的文本。在训练向量化表示生成模型112时，文本选择模块210可以从这样的知识库中选择训练样本。

除利用已有的知识库之外或者作为备选，向量化表示生成模型112的训练数据的来源还可以包括但不限于互联网网页、专业数据库、用户手动输入等。这些文本可以基于自动或非自动的方式被划分到不同语义类别，从而获得最终的文本集202和204。

在选择由锚文本、正类文本和负类文本构成的三元组训练样本<a，p，n>时，由于文本集202和204已经按语义类别划分，文本选择模块210可以从文本集202中随机选定两个文本，一个作为锚文本a，另一个作为正类文本p。文本选择模块210可以从文本集204中随机选定负类文本n。由于三元组训练样本是为了促使向量化表示生成模型112被训练得能够为同类语义的文本生成更相似的向量化表示，而为不同语义的文本生成差异较大的向量化表示，在一些实施例中，为了提高模型训练效率，还可以选择更“困难”的三元组训练样本。更“困难”指的是，在三元组训练样本中，锚文本和正类文本虽然语义相似，但语法结构差异很大，而锚文本和负类文本虽然语义不相似，但语法结构差异较小。

文本之间的语法结构差异，例如两个句子之间的语法结构差异可以与句子类型、主谓宾放置方式、词和词组的选择均有关系。举例来说，“如何预约XX服务”、“我想要提前预定XX服务”和“XX服务的预约方式是什么”，这些句子的语义类别都相似，但语法结构上非常不同。又例如，“我想要预约XX服务”和“我想要投诉本次XX服务”，这两个句子的语法结构非常相似，但涉及不同的用户意图(“服务预约”和“服务投诉”)，通常会被划分到不同的语义类别。因此，通过特别构造“困难”三元组训练样本来进行训练，可以使训练得到的向量化表示生成模型112能够更好地应对在模型使用过程中可能会出现的困难文本。

在具体选择文本时，文本选择模块210可以先选定锚文本a，然后从文本集202选择与锚文本a的语法结构差异较大的正类文本p。相比于文本集202中的一个或多个其他文本，所要选择的正类文本p与锚文本a的语法结构差异更大。在选择负类文本时，文本选择模块210也可以参考锚文本a，从文本集204选择与锚文本a的语法结构差异较小的负类文本n。相比于文本集204中的一个或多个其他文本，所要选择的负类文本n与锚文本a的语法结构差异更小。

在一些实施例中，为了使训练过程中训练文本的选择更方便，在构造训练数据时，可以在将一个文本标记为锚文本后，再将该锚文本和正类文本预先配对，并且将锚文本和负类文本也预先配对。这样，在任何一个文本被选择之后，可以很快地组成所需要的三元组训练样本。在一些情况下，这样的配对也可以不是唯一的，例如，一个锚文本可以被配对到多个正类文本和多个负类文本。文本选择模块210可以继续在这有限的文本中进行选择。

以上讨论了如何构造一个三元组训练样本来训练向量化表示生成模型112。在实际模型训练过程中，可能需要多个三元组训练样本来不断迭代训练向量化表示生成模型112，让模型达到收敛(例如，满足训练目标)。因此，针对不同的三元组训练样本，锚文本和正类文本可以选自文本集202和204中的任一个，而对应的负类文本可以选自文本集202和204中的另一个。

由文本选择模块210选择的三元组训练样本<a，p，n>被提供作为向量化表示生成模型112的输入，以用于执行模型训练。向量化表示生成模型112的模型结构可以被设计为任何适合用于生成文本的向量化表示的机器学习或深度学习模型，包括当前可用的和未来待开发的任何模型。这样的模型的一些示例包括但不限于：循环神经网络(RNN)、长短期记忆模型(LSTM)、来自变换器的双向编码器模型(BERT)、生成式预训练模型(GPT)、来自语言模型的嵌入(ELMO)。这样模型的结构和工作原理是本领域技术人员所熟知的。

在训练的初始阶段，向量化表示生成模型112具有初始的参数值，这些初始的参数值可以是通过模型的预训练过程或者是其他方式确定的。锚文本、正类文本和负类文本被分别作为向量化表示生成模型112的输入。向量化表示生成模型112利用当前的参数值来处理这些文本，以在当前知识的基础下确定能够为锚文本、正类文本和负类文本生成的向量化表示，分别被表示为S_a，S_p，S_n。也就是说，锚文本、正类文本和负类文本会经由相同的模型结构、利用相同的模型的参数值来处理，得到各自对应的向量化表示。在一些实施例中，可以复制三个结构和参数完全一致的向量化表示生成模型112，如图2所示，然后将锚文本、正类文本和负类文本分别输入到这三个模型，以获得模型输出的向量化表示S_a，S_p，S_n。这样的模型架构有时会被称为孪生网络或孪生模型。

锚文本、正类文本和负类文本的向量化表示S_a，S_p，S_n被提供给模型训练装置200中的模型训练模块220。模型训练模块220被配置为根据预定的训练目标来训练向量化表示生成模型112。模型训练模块220可以基于当前的向量化表示S_a，S_p，S_n，确定如何进一步更新模型的参数值。这样的参数值更新可以不断迭代执行，直到满足训练目标。在每次参数值更新中，用于处理锚文本、正类文本和负类文本的三个重复模型112均被更新，以保持模型参数的一致性。

在本公开的实施例中，向量化表示生成模型112的训练目标是要使该模型能够为三元组训练样本中的锚文本和正类文本生成更相似(或者差异更小)的向量化表示，而为锚文本和负类文本生成更不相似(或者差异更大)的向量化表示。模型训练模块220可以构造相应的成本函数或损失函数来达成促使模型的训练达到这样的训练目标。

在一些实施例中，模型训练模块220可以基于三元组损失(triplet loss)来引导模型训练过程，以便达成训练目标。三元组损失可以被表示为基于以下差异的损失函数：锚文本a的向量化表示S_a与正类文本p的S_p之间的差异(在本文中有时称为“第一差异”)和锚文本a的向量化表示S_a与负类文本n的S_n之间的差异(在本文中有时称为“第二差异”)。在一个示例中，三元组损失(表示为Triplet_loss(S_a，S_p，S_n))可以确定：

在以上公式(1)中，dist(X,Y)表示两个向量化表示X和Y之间的差异或相似度。由于向量化表示可以理解为多维向量，因此两个向量化表示之间的相似度或差异可以利用任何适合用于衡量向量差异的方法来确定。在一个示例中，两个向量化表示之间的差异可以基于欧式距离来确定，距离越大意味着两个向量化表示之间的差异越大，相似度越小。

在公式(1)中，α表示锚文本和正类文本的向量化表示之间的第一差异和锚文本与负类文本的向量化表示之间的第二差异之间的最小间隔。α是模型的超参数，可以根据经验或者其他可能的方式被配置为预定值。在公式(1)中，

表示：如果

内的值大于零时，该值被确定三元组损失；如果

内的值小于等于零，三元组损失为零。

如果训练目标基于三元组损失，从公式(1)可以看出，如果S_a与S_n之间的差异小于S_a与S_p之间的差异和间隔α之和，

内的值大于零，当前轮次的训练仍有损失。如果S_a与S_n之间的差异大于等于S_a与S_p之间的差异和间隔α之和，

内的值小于等于零，那么三元组损失为零。

在训练过程中，模型训练模块220基于当前的损失值来确定决定对向量化表示生成模型112的更新。模型训练模块220可以基于各种适当的模型训练方法，诸如随机梯度下降法及其各种变形算法，来确定对于模型的参数值更新。如以上提到的，为了达到训练目标，模型训练模块220可能需要基于多个三元组训练样本来不断迭代训练向量化表示生成模型112，使得三元组损失在多次迭代中越来越小，直到达到收敛。训练过程中所使用的每个三元组训练样本均可以根据以上讨论的实施例来选择。模型训练的收敛条件例如可以是三元组损失最小，例如等于零或者等于其他可接受的值。

应当理解，以上描述的三元组损失还是仅是一个示例。在利用三元组样本来进行模型训练的训练方法中，还可以构造其他损失函数来达到训练目标。本公开的实施例在此方面不受限制。

训练完成后，向量化表示生成模型112的参数值被确定。向量化表示生成模型112可以被提供用于生成真实文本的向量化表示。例如，向量化表示生成模型112可以被提供到图1的计算设备110中，用于处理文本102(也称为“目标文本”)，以生成文本102对应的向量化表示114(也称为“目标向量化表示”)。根据本公开的实施例训练得到的向量化表示生成模型112的具体功能例如可以由软件、硬件、固件或者前述的任意组合来实现。

因此，根据本公开的实施例的方法、装置和设备，通过构造具有锚文本、相同语义的正类文本和不同语义的负类文本，可以使模型生成的向量化表示能够更好地区分文本的相似语义和不同语义。在不同应用场景中，可以根据需要灵活地配置相同语义类别的文本集和不同语义类别的文本集，这些语义类别划分可以提供相应的监督信息用于模型的训练，从而使模型能够生成的向量化表示更符合实际应用中对于文本语义的区分需要。

下文将给出根据本公开的一些实施例的方法的流程图和可能的装置的框图。

图3示出了根据本公开的实施例的文本处理方法300的流程图。文本处理方法300用于训练用于生成文本向量化表示的模型，例如模型112。在一些实施例中，方法300可以被实现在图2的模型训练装置200处。为便于讨论，从模型训练装置200的角度来描述方法300。

在框310，模型训练装置200从第一文本集选择锚文本以及针对锚文本的正类文本，正类文本被分类到与锚文本相同的语义类别。在框320，模型训练装置200从第二文本集选择针对锚文本的负类文本，负类文本被分类到与锚文本不同的语义类别。在框330，模型训练装置200利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型。训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。

在一些实施例中，选择锚文本和正类文本包括：从第一文本集选择如下文本作为正类文本，使所选文本与锚文本之间的语法结构差异大于第一文本集中的至少一个其他文本与锚文本之间的语法结构差异。

在一些实施例中，选择负类文本包括：从第二文本集选择如下文本作为负类文本，使所选文本与锚文本之间的语法结构差异小于第二文本集中的至少一个其他文本与锚文本之间的语法结构差异。

在一些实施例中，锚文本与正类文本在第一文本集中被预先配对，并且负类文本在第二文本集中被预先配对到第一文本集中的锚文本。

在一些实施例中，第一文本集包括与预定知识库中的第一知识点对应的多个第一问题文本，多个第一问题文本对应于第一答案。在一些实施例中，第二文本集包括预定知识库中的第二知识点，第二知识点包括多个第二问题文本，多个第二问题文本对应于第二答案，第二答案不同于第一答案。

在一些实施例中，训练模型包括：通过使针对模型的三元组损失最小化来满足训练目标，三元组损失至少基于第一差异和第二差异。

在一些实施例中，第一文本集和第二文本集包括句子级别的文本。

图4示出了根据本公开的实施例的用于生成文本的向量化表示的方法400的流程图。方法400被实现以使用由方法300生成的文本向量化表示生成的模型，例如向量化表示生成模型112。在一些实施例中，方法400可以被实现在图1的计算设备110处。为便于讨论，从计算设备110的角度来描述方法400。

在框410，计算设备110获取待处理的目标文本。在框420，计算设备110使用根据方法300所训练的模型，例如向量化表示生成模型112，基于目标文本来确定目标文本对应的目标向量化表示。

本公开的实施例还提供了用于实现上述方法或过程的相应装置。

图5示出了根据本公开的某些实施例的文本处理装置500的示意性结构框图。文本处理装置500可以被实现为或者被包括在模型训练装置200中。

如图所示，文本处理装置500包括第一文本选择模块510，被配置为从第一文本集选择锚文本以及针对锚文本的正类文本，正类文本被分类到与锚文本相同的语义类别。文本处理装置500还包括第二文本选择模块520，被配置为从第二文本集选择针对锚文本的负类文本，负类文本被分类到与锚文本不同的语义类别。第一文本选择模块510和第二文本选择模块520的功能类似于以上参考图2所描述的文本选择模块210的功能。

文本处理装置500还包括模型训练模块530，被配置为利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型。训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。模型训练模块530的功能类似于以上参考图2所描述的模型训练模块220的功能。

在一些实施例中，第一文本选择模块510包括基于语法结构的第一文本选择模块，被配置为从第一文本集选择如下文本作为正类文本，以使所选文本与锚文本之间的语法结构差异大于第一文本集中的至少一个其他文本与锚文本之间的语法结构差异。

在一些实施例中，第二文本选择模块520包括：基于语法结构的第二文本选择模块，被配置为从第二文本集选择如下文本作为正类文本，使所选文本与锚文本之间的语法结构差异小于第二文本集中的至少一个其他文本与锚文本之间的语法结构差异。

在一些实施例中，模型训练模块530包括：基于三元组损失的模型训练模块，被配置为通过使针对模型的三元组损失最小化来满足训练目标，三元组损失至少基于第一差异和第二差异。

图6示出了根据本公开的某些实施例的用于生成文本的向量化表示的装置600的示意性结构框图。用于生成文本的向量化表示的装置600可以被实现为或者被包括图1的计算设备110中。

如图所示，用于生成文本的向量化表示的装置600包括文本获取模块610，被配置为获取待处理的目标文本，以及模型使用模块620，被配置为使用根据装置500训练的模型，基于所述目标文本来确定所述目标文本对应的目标向量化表示。

图7示出了示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器700的框图。应当理解，图7所示出的计算设备/服务器700仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图7所示出的计算设备/服务器700可以用于实现图1的计算设备110、图2的模型训练设备220、以及图5和图6的装置500和装置600。

如图7所示，计算设备/服务器700是通用计算设备的形式。计算设备/服务器700的组件可以包括但不限于一个或多个处理器或处理单元710、存储器720、存储设备730、一个或多个通信单元740、一个或多个输入设备750以及一个或多个输出设备760。处理单元710可以是实际或虚拟处理器并且能够根据存储器720中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备/服务器700的并行处理能力。

计算设备/服务器700通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器700可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器720可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备730可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器700内被访问。

计算设备/服务器700可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图7中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器720可以包括计算机程序产品725，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元740实现通过通信介质与其他计算设备进行通信。附加地，计算设备/服务器700的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/服务器700可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备750可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备760可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/服务器700还可以根据需要通过通信单元740与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/服务器700交互的设备进行通信，或者与使得计算设备/服务器700与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种文本处理方法，包括：

从第一文本集选择锚文本以及针对所述锚文本的正类文本，所述正类文本被分类到与所述锚文本相同的语义类别；

从第二文本集选择针对所述锚文本的负类文本，所述负类文本被分类到与所述锚文本不同的语义类别；以及

利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标，来训练用于生成文本向量化表示的模型，所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。

2.根据权利要求1所述的方法，其中选择所述锚文本和所述正类文本包括：

从所述第一文本集选择如下文本作为所述正类文本，使所选文本与所述锚文本之间的语法结构差异大于所述第一文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。

3.根据权利要求1所述的方法，其中选择所述负类文本包括：

从所述第二文本集选择如下文本作为所述负类文本，使所选文本与所述锚文本之间的语法结构差异小于所述第二文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。

4.根据权利要求1所述的方法，其中所述锚文本与所述正类文本在所述第一文本集中被预先配对，并且所述负类文本在所述第二文本集中被预先配对到所述第一文本集中的所述锚文本。

5.根据权利要求1所述的方法，其中所述第一文本集包括与预定知识库中的第一知识点对应的多个第一问题文本，所述多个第一问题文本对应于第一答案；并且

其中所述第二文本集包括所述预定知识库中的第二知识点，所述第二知识点包括多个第二问题文本，所述多个第二问题文本对应于第二答案，所述第二答案不同于所述第一答案。

6.根据权利要求1所述的方法，其中训练所述模型包括：

通过使针对所述模型的三元组损失最小化来满足所述训练目标，所述三元组损失至少基于所述第一差异和所述第二差异。

7.根据权利要求1至6中任一项所述的方法，其中所述第一文本集和所述第二文本集包括句子级别的文本。

8.一种用于生成文本的向量化表示的方法，包括：

获取待处理的目标文本；以及

使用根据权利要求1至7中任一项所述的方法训练的模型，基于所述目标文本来确定所述目标文本对应的目标向量化表示。

9.一种文本处理装置，所述装置包括：

第一文本选择模块，被配置为从第一文本集选择锚文本以及针对所述锚文本的正类文本，所述正类文本被分类到与所述锚文本相同的语义类别；

第二文本选择模块，被配置为从第二文本集选择针对所述锚文本的负类文本，所述负类文本被分类到与所述锚文本不同的语义类别；以及

模型训练模块，被配置为利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标来训练用于生成文本向量化表示的模型，所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。

10.根据权利要求9所述的装置，其中所述第一文本选择模块包括：

基于语法结构的第一文本选择模块，被配置为从所述第一文本集选择如下文本作为所述正类文本，使所选文本与所述锚文本之间的语法结构差异大于所述第一文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。

11.根据权利要求9所述的装置，其中所述第二文本选择模块包括：

基于语法结构的第二文本选择模块，被配置为从所述第二文本集选择如下文本作为所述负类文本，使所选文本与所述锚文本之间的语法结构差异小于所述第二文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。

12.根据权利要求9所述的装置，其中所述锚文本与所述正类文本在所述第一文本集中被预先配对，并且所述负类文本在所述第二文本集中被预先配对到所述第一文本集中的所述锚文本。

13.根据权利要求9所述的装置，其中所述第一文本集包括与预定知识库中的第一知识点对应的多个第一问题文本，所述多个第一问题文本对应于第一答案；并且

14.根据权利要求9所述的装置，其中所述模型训练模块包括：

基于三元组损失的模型训练模块，被配置为通过使针对所述模型的三元组损失最小化来满足所述训练目标，所述三元组损失至少基于所述第一差异和所述第二差异。

15.根据权利要求9至14中任一项所述的装置，其中所述第一文本集和所述第二文本集包括句子级别的文本。

16.一种用于生成文本的向量化表示的装置，包括：

文本获取模块，被配置为获取待处理的目标文本；以及

模型使用模块，被配置为使用根据权利要求9至15中任一项所述的装置训练的模型，基于所述目标文本来确定所述目标文本对应的目标向量化表示。

17.一种电子设备，包括：

处理器；以及

存储器，存储有计算机可执行指令，当所述计算机可执行指令被所述处理器执行时被配置以实现根据权利要求1至7中任一项所述的方法或者根据权利要求8所述的方法。

18.一种计算机可读存储介质，其上存储有计算机可执行指令，其中所述计算机可执行指令被处理器执行以实现根据权利要求1至7中任一项所述的方法或者根据权利要求8所述的方法。