CN111291172B

CN111291172B - 用于处理文本的方法和装置

Info

Publication number: CN111291172B
Application number: CN202010146072.2A
Authority: CN
Inventors: 王子豪; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2023-08-04
Anticipated expiration: 2040-03-05
Also published as: CN111291172A

Abstract

本说明书的实施例提供了用于处理文本的方法、装置、计算设备和机器可读存储介质。该方法包括：从用户与客服的当前对话数据中获取当前用户问句文本的上文信息；基于当前用户问句文本和上文信息，获取预先确定的至少一个候选回复文本；利用候选回复文本评分模型对当前用户问句文本、上文信息和至少一个候选回复文本进行处理，得到至少一个候选回复文本的评分结果，每个候选回复文本的评分结果表示该候选回复文本与当前用户问句文本的匹配程度；基于至少一个候选回复文本的评分结果，从至少一个候选回复文本中选择m个候选回复文本，作为要向客服呈现的目标回复文本，m为正整数。

Description

用于处理文本的方法和装置

技术领域

本说明书的实施例涉及信息技术领域，并且更具体地，涉及用于处理文本的方法、装置、计算设备和机器可读存储介质。

背景技术

目前针对各种不同的业务都有专门的客服工作。客服工作主要是对用户所提出的问题或需求等进行回应。传统的客服工作是由人工来完成的。随着机器学习技术的不断发展，已经开发了客服机器人来减轻人工客服的工作。但是，在一些场景(比如，售前咨询、高转化需求场景)下，客服机器人并不能很好地提供客户服务。因此，目前提出了人机协同来完成客服工作，即客服机器人和人工客服协作来完成客服工作。

发明内容

考虑到现有技术的上述问题，本说明书的实施例提供了用于处理文本的方法、装置、计算设备和机器可读存储介质。

一方面，本说明书的实施例提供了一种用于处理文本的方法，包括：从用户与客服的当前对话数据中获取当前用户问句文本的上文信息；基于所述当前用户问句文本和所述上文信息，获取预先确定的至少一个候选回复文本，其中，每个候选回复文本包括与所述当前用户问句文本相对应的标准问句文本以及针对所述标准问句文本的答案文本；利用候选回复文本评分模型对所述当前用户问句文本、所述上文信息和所述至少一个候选回复文本进行处理，得到所述至少一个候选回复文本的评分结果，其中：所述候选回复文本评分模型具有第一输入、第二输入和第三输入，其中，所述当前用户问句文本和所述上文信息作为所述第一输入，所述标准问句文本作为所述第二输入，所述答案文本作为所述第三输入；每个候选回复文本的评分结果表示该候选回复文本与所述当前用户问句文本的匹配程度；基于所述至少一个候选回复文本的评分结果，从所述至少一个候选回复文本中选择m个候选回复文本，作为要向所述客服呈现的目标回复文本，m为正整数。

另一方面，本说明书的实施例提供了一种用于处理文本的装置，包括：第一获取组件，其从用户与客服的当前对话数据中获取当前用户问句文本的上文信息；第二获取组件，其基于所述当前用户问句文本和所述上文信息，获取预先确定的至少一个候选回复文本，其中，每个候选回复文本包括与所述当前用户问句文本相对应的标准问句文本以及针对所述标准问句文本的答案文本；处理组件，其利用候选回复文本评分模型对所述当前用户问句文本、所述上文信息和所述至少一个候选回复文本进行处理，得到所述至少一个候选回复文本的评分结果，其中：所述候选回复文本评分模型具有第一输入、第二输入和第三输入，其中，所述当前用户问句文本和所述上文信息作为所述第一输入，所述标准问句文本作为所述第二输入，所述答案文本作为所述第三输入；每个候选回复文本的评分结果表示该候选回复文本与所述当前用户问句文本的匹配程度；选择组件，其基于所述至少一个候选回复文本的评分结果，从所述至少一个候选回复文本中选择m个候选回复文本，作为要向所述客服呈现的目标回复文本，m为正整数。

另一方面，本说明书的实施例提供了一种计算设备，包括：至少一个处理器；与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现根据上述方法。

另一方面，本说明书的实施例提供了一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行上述方法。

附图说明

通过结合附图对本说明书的实施例的更详细的描述，本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显，其中，在本说明书的实施例中，相同的附图标记通常代表相同的元素。

图1是根据一个实施例的应用场景的一个示例的图。

图2是根据一个实施例的用于处理文本的方法的示意性流程图。

图3A是根据一个实施例的客服系统的一种示例处理过程的示意性流程图。

图3B是根据一个实施例的候选回复文本评分模型的训练过程的示意性流程图。

图3C是根据一个实施例的候选回复文本评分模型的一种示例结构的示意图。

图4是根据一个实施例的用于处理文本的装置的示意性框图。

图5是根据一个实施例的用于处理文本的计算设备的硬件结构图。

具体实施方式

现在将参考各实施例讨论本文描述的主题。应当理解的是，讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要，省略、替换或者添加各种过程或组件。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义，无论是明确的还是隐含的，除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

随着人工智能技术的发展，开发了客服机器人，以减轻人工客服的工作。虽然客服机器人能够帮助人工客服承担一些重复性工作，但是在一些诸如售前咨询、高转化需求之类的场景下，使用客服机器人的风险较高，由此催生了人机协同技术。在人机协同的场景下，客服系统可以根据用户问句文本向人工客服推荐若干答案，然后由人工客服将所推荐的答案中的合适答案发送给用户，或者在所推荐的答案的基础上进行适应修改后发送给用户，由此能够提升客服响应速度。

然而，人机协同技术可能面临问题。例如，用户与客服的对话内容通常相对随意或口语化，往往可能通过多轮对话才能明确用户意图，那么，客服系统如何从对话中捕获有用信息来进行答案推荐，成为需要亟待解决的问题之一。

鉴于此，本说明书的实施例提供了一种用于处理文本的技术方案。下面将结合具体实施例进行描述。

图1是根据一个实施例的应用场景的一个示例的图。

图1示出了客服界面的一个示例。例如，客服界面100可以通过终端的屏幕来显示。终端可以包括本领域已知的各种适用的电子设备，例如，台式计算机、膝上型计算机、智能电话、平板计算机等等。

在图1的示例中，客服界面100可以包括显示区域110和120。显示区域110可以显示用户与客服的当前对话内容，例如，如图1所示的一轮或多轮对话内容(此处省略具体内容)和当前用户问句文本。此处的一轮或多轮对话内容可以被称为当前用户问句文本的上文信息。

为了帮助客服快速地针对当前用户问句文本进行响应，客服系统可以基于本文描述的实施例来确定目标回复文本，例如，目标回复文本1至目标回复文本m。客服系统可以将目标回复文本1至m呈现在显示区域120。每个目标回复文本可以包括标准问句文本和答案文本。

这样，客服可以从目标回复文本1至m中选择针对当前用户问句文本的合适的答案文本。例如，客服可以通过点击其中合适的答案文本，使该答案文本发送给用户，比如显示在当前用户问句文本的下面。或者，客服可以通过对其中某个答案文本进行适当修改，然后点击修改后的答案文本，使得该答案文本发送给用户，比如显示在当前用户问句文本的下面。

可见，通过这种方式，能够有效地提升客服响应速度，有助于提升用户体验。

应当明白的是，图1的示例仅是为了帮助理解本说明书的技术方案，而并不对本说明书的技术方案的范围造成任何限制。例如，在不同的实现方式中，客服界面可以具有不同的布局或者显示其它内容等等。

图2是根据一个实施例的用于处理文本的方法的示意性流程图。例如，图2的方法可以由上述客服系统来实现。

如图2所示，在步骤202中，可以从用户与客服的当前对话数据中获取当前用户问句文本的上文信息。

例如，当前对话数据可以包括用户与客服的一轮或多轮对话。

在步骤204中，基于当前用户问句文本和上文信息，获取预先确定的至少一个候选回复文本。

每个候选回复文本可以包括与当前用户问句文本相对应的标准问句文本以及针对该标准问句文本的答案文本。

在步骤206中，可以利用候选回复文本评分模型对当前用户问句文本、其上文信息和至少一个候选回复文本进行处理，得到至少一个候选回复文本的评分结果。

候选回复文本评分模型可以具有第一输入、第二输入和第三输入。其中，当前用户问句文本和其上文信息可以作为第一输入，标准问句文本可以作为第二输入，答案文本可以作为第三输入。

每个候选回复文本的评分结果可以表示该候选回复文本与当前用户问句文本的匹配程度。

在步骤208中，可以基于至少一个候选回复文本的评分结果，从至少一个候选回复文本中选择m个候选回复文本，作为要向客服呈现的目标回复文本，m为正整数。

在该实施例中，由于候选回复文本评分模型在确定候选回复文本与当前用户问句文本的匹配程度时将当前用户问句文本的上文信息融合进来，因此能够准确地获取用户与客服的对话内容中的有用信息，从而使得对候选回复文本的评分更为准确，由此能够选择更为合适的目标回复文本。这样，不仅高效地减轻了人工客服的工作量，而且有利于提升用户体验。

在一个实施例中，上文信息可以包括当前用户问句文本之前的一轮或多轮对话内容。具体选择几轮对话内容作为上文信息可以根据实际场景等来确定。

在一个实施例中，可以预先构建问答集合。例如，问答集合可以表示k个标准问句文本与k个答案文本之间的对应关系，k为正整数。例如，问答集合可以包括多组问答，每组问答可以包括标准问句文本和相应的答案文本。比如，问答集合可以是常见问题解答(Frequently Asked Questions，FAQ)。问答集合可以是从用户与客服的大量历史对话数据中提取出来的。问答集合可以具有知识库或话术库的形式。知识库或话术库可以具有索引，以便于检索候选回复文本。

在步骤204中，可以基于当前用户问句文本及其上文信息，在问答集合中进行检索，来获取至少一个候选回复文本。例如，可以将当前用户问句文本及其上文信息进行拼接，形成输入文本，然后利用该输入文本在问答集合中检索候选回复文本。例如，可以采用各种适用的检索方式(比如倒排检索方式)，在问答集合中检索与输入文本相同或相似的标准问句文本，所检索到的标准问句文本以及相应的答案文本作为候选回复文本。在一个实施例中，为了便于处理，可以预先定义用户问句文本与其上文信息的最大拼接长度。如果当前用户问句文本与其上文信息的拼接长度超过该最大拼接长度，则可以将在拼接形成的文本中超出该最大拼接长度的前文截断，从而形成上述输入文本。

在一个实施例中，在步骤206中，可以利用预先训练好的候选回复文本评分模型对当前用户问句文本、其上文信息和至少一个候选回复文本进行处理，得到至少一个候选回复文本的评分结果。

在一个实施例中，可以基于第一类训练样本对候选回复文本评分模型进行训练。第一类训练样可以是从用户与客服的历史对话数据中获取的。

例如，第一类训练样本可以包括n条样本数据。每条样本数据可以包括历史用户问句文本、该历史用户问句文本的历史上文信息、针对该历史用户问句文本的客服答复文本以及与该历史用户问句文本相对应的标准问句信息，n为正整数。

n条样本数据可以包括作为正样本的第一组样本数据和作为负样本的第二组样本数据。

下面简要描述下正样本的采集过程。例如，可以首先从用户与客服的历史对话数据(例如，对话日志)中提取历史用户问句文本、其上文信息以及相应的客服答复文本。此处为了便于描述，可以将历史用户问句文本的上文信息称为历史上文信息。此处，历史用户问句文本和相应的客服答复文本可以理解为用户与客服的原始对话记录。

然后，可以基于客服答复文本，在知识库或话术库中进行检索。

例如，如果在知识库或话术库中检索到与客服答复文本相对应的答案文本，则上述标准问句信息可以包括与该答案文本相对应的标准问句文本。比如，与客服答复文本相对应的答案文本可以是指与客服答复文本相同或相似的答案文本。文本之间的相似度可以采用本领域各种适用的度量来确定。

如果在知识库或话术库中没有检索到与客服答复文本相对应的答案文本，则可以将上述标准问句信息设置为空。

作为负样本的第二组样本数据与作为正样本的第一组样本数据的区别在于客服答复文本的采样。在正样本中，历史问句文本和客服答复文本可以是历史对话数据中的用户与客服的原始对话记录。而在负样本中，客服答复文本可以是从历史对话数据的客服答复记录中随机选择的。这也可以理解为，将正样本中的客服答复文本随机替换，来形成负样本。

可见，在该实施例中，通过结合历史用户问句文本的上文信息来对候选回复文本评分模型进行训练，能够提升候选回复文本评分模型从用户与客服的对话中获取有用信息的性能，从而确定合适的目标回复文本。

如前所述，候选回复文本评分模型可以具有三个输入。那么，在训练时，历史用户问句文本和历史上文信息可以作为第一输入，标准问句信息可以作为第二输入，客服答复文本可以作为第三输入。

在一个实施例中，可以在基于第一类训练样本的训练完成之后，可以基于第二类训练样本来对候选回复文本评分模型进行微调。例如，第二类训练样本可以包括j条样本数据。每条样本数据可以包括历史问句文本、该历史问句文本的历史上文信息、与该历史问句文本相对应的标准问句文本、针对该标准问句文本的答案文本、以及用于指示该答案文本是否被客服点击的标识。j可以为正整数。

可见，在该实施例中，利用历史点击数据来对候选回复文本评分模型进行微调，实际上是利用带有标签的数据对候选回复文本评分模型进行训练，从而能够提高候选回复文本评分模型的预测准确度。

在一个实施例中，候选回复文本评分模型可以包括文本编码单元和交互操作单元。

文本编码单元可以对第一输入、第二输入和第三输入进行文本时序编码，从而提取相应文本的特征。交互操作单元可以对文本编码单元的输出结果进行交互表示。至少一个候选回复文本的评分结果可以是基于交互操作单元的输出结果得到的。

例如，交互操作单元可以运用交互(interaction)运算来对文本编码单元的输出结果进行处理，得到交互矩阵，然后通过软对齐(soft alignment)操作以及增强方式对交互矩阵进行处理，得到交互操作单元的输出结果，该输出结果可以表示句子间的相互关系。下文中将结合具体例子详细描述如何针对文本编码单元的输出结果进行交互表示。

在该实施例中，通过文本时序编码和交互操作来处理各个文本，能够有效地提取文本特征，从而基于文本特征来准确地判断候选回复文本与当前用户问句文本的匹配程度。

在一个实施例中，文本编码单元可以包括第一编码器、第二编码器和第三编码器。

第一编码器可以对第一词向量进行处理，得到第一输出序列。第一词向量可以是对当前用户问句文本和上文信息转换得到的。

第二编码器可以对第二词向量进行处理，得到第二输出序列。第二词向量可以是对标准问句文本进行转换得到的。

第三编码器可以对第三词向量进行处理，得到第三输出序列。第三词向量可以是对答案文本进行转换得到的。

在该实施例中，通过三个编码器分别对当前用户问句文本和上文信息、标准问句文本、标准答案文本进行文本时序编码，能够准确地提取文本特征。

在一个实施例中，第一编码器、第二编码器、第三编码器中的每一者可以为本领域已知的各种适用于文本时序编码的编码器，例如，这些编码器可以是以下各项中的一项：transformer编码器、长短期记忆(Long-Short Term Memory，LSTM)模型编码器、卷积神经网络(Convolutional Neural Networks，CNN)编码器等等。

例如，优选地，第一编码器、第二编码器、第三编码器可以是transformer 编码器。因为transformer编码器具有强大的特征抽取能力，所以能够更准确地抽取各个文本的特征。

在一个实施例中，第一词向量、第二词向量和第三词向量可以是通过word2vec、glove、fasttext等各种适用的工具来得到的，本说明书对此不作限定。

在一个实施例中，交互操作单元可以包括第一交互模块和第二交互模块。

第一交互模块可以对第一输出序列和第二输出序列进行交互操作，得到第一交互表示结果。

第二交互模块可以对第一输出序列和第三输出序列进行交互操作，得到第二交互表示结果。

在该实施例中，通过执行交互操作，能够将不同文本的特征融合在一起，使得对候选回复文本的评分结果更为准确。

在一个实施例中，候选回复文本评分模型还可以包括第四编码器、第五编码器、第一转换模块、第二转换模块和评分模块。

第四编码器可以对第一交互表示结果进行处理，得到第四输出序列。第五编码器可以对第二交互表示结果进行处理，得到第五输出序列。

第一转换模块可以对第四输出序列进行转换，得到第一输出向量。

第二转换模块可以对第五输出序列进行转换，得到第二输出向量。

评分模块可以基于第一输出向量和第二输出向量，确定至少一个候选回复文本的评分结果。

例如，第四编码器和第五编码器可以是本领域中已知的各种适用的编码器，其可以用于进行文本时序编码。例如，第四编码器和第五编码器可以是transformer编码器、LSTM模型编码器、CNN编码器等等。

第一转换模块和第二转换模块可以用于将序列转换成向量。例如，第一转换模块和第二转换模块可以通过seq2vec技术来实现。

例如，评分模块可以将第一输出向量和第二输出向量进行掩码(mask)相加，然后经由softmax层进行评分，从而得到至少一个候选回复文本的评分结果。

在一个实施例中，在步骤208中，可以从至少一个候选回复文本按照评分结果从高到低进行排序，从其中选择前m个候选回复文本作为要向客服呈现的目标回复文本。例如，可以将m个目标回复文本显示在显示区域120中。目标回复文本可以包括标准问句文本和相应的标准答案文本。此处，m的值可以根据实际场景等因素来设定。

在一个实施例中，在步骤208中，可以选择评分结果大于预定阈值的候选回复文本作为目标回复文本。例如，假设m个候选回复文本的评分结果大于预定阈值，则可以选择这m个候选回复文本作为目标回复文本。

为了更好地理解本说明书的技术方案，下面结合具体例子进行描述。应当理解的是，下面的例子仅是为了说明，而非限制本说明书的技术方案的范围。

如图3A所示，在步骤302A中，可以接收当前用户问句文本。

在步骤304A中，可以从用户与客服的当前对话数据中获取当前用户问句文本的上文信息。

在步骤306A中，可以将当前用户问句文本与上文信息进行拼接，形成输入文本。

例如，可以将当前用户问句文本与上文信息进行拼接。如果拼接后的文本超过预定的最大拼接长度，则可以将超出该最大拼接长度的前文截断，形成输入文本。

在步骤308A中，可以基于输入文本，从预先构建的问答集合中检索至少一个候选回复文本。

例如，问答集合可以具有知识库或话术库的形式。知识库或话术库可以具有索引，以便于检索候选回复文本。

在步骤310A中，可以将输入文本和至少一个候选回复文本输入到候选回复文本评分模型中，以便候选回复文本评分模型对至少一个候选回复文本进行评分。

在步骤312A中，可以按照至少一个候选回复文本的评分结果从高到低，对至少一个候选回复文本进行排序。

在步骤314A中，可以从排序后的至少一个候选回复文本中选择前m个候选回复文本作为要向客服呈现的目标回复文本。

在该实施例中，由于候选回复文本评分模型在确定候选回复文本与当前用户问句文本的匹配程度时将当前用户问句文本的上文信息融合进来，因此能够准确地获取用户与客服的对话内容中的有效信息，从而使得对候选回复文本的评分更为准确，由此能够选择更为合适的目标回复文本。这样，不仅高效地减轻了人工客服的工作量，而且有利于提升用户体验。

如图3B所示，在步骤302B中，可以获取用户与客服的历史对话数据(例如，对话日志)。

在步骤304B中，可以从历史对话数据中获取历史用户问句文本、其上文信息(可以被称为历史上文信息)以及客服答复文本。

在步骤306B中，可以在预先构建的问答集合(例如，知识库/话术库)中检索与客服答复文本相同或相似的答案文本，以便检索相对应的标准问句文本。

在步骤308B中，基于检索结果，形成训练样本。

例如，可以形成两类训练样本，即第一类训练样本和第二类训练样本。

第一类训练样本可以包括n条样本数据。每条样本数据可以包括历史用户问句文本、历史上文信息、客服答复文本和标准问句信息。

如果在知识库/话术库中检索到与客服答复文本相同或类似的答案文本，则将该答案文本对应的标准问句文本作为相应的标准问句信息。

如果在知识库/话术库中没有检索到与客服答复文本相同或类似的答案文本，则相应的标准问句信息可以被设置为空。

如前所述，n条样本数据可以包括作为正样本的第一组样本数据和作为负样本的第二组样本数据。

基于检索结果，作为正样本的每条样本数据可以表示为如下的形式：历史用户问句文本+历史上文信息+对应的客服答复文本+标准问句文本，或者历史用户问句文本+历史上文信息+对应的客服答复文本+为空的标准问句信息。

此外，可以从历史对话数据中随机采样客服答复文本。将正样本中的与历史用户问句文本对应的客服答复文本替换为随机采样的客服答复文本，从而形成负样本。

第二类训练样本可以是带有标签的样本。例如，第二类训练样本可以包括j条样本数据。每条样本数据可以包括历史用户问句文本、该历史用户问句文本的历史上文信息、与该历史用户问句文本相对应的标准问句文本、针对该标准问句文本的答案文本、以及用于指示该答案文本是否被客服点击的标识。

在步骤310B中，可以进行候选回复文本评分模型训练。

具体地，可以基于第一类训练样本对候选回复文本评分模型进行训练。在训练完成后，可以基于第二类训练样本对之前得到的候选回复文本评分模型进行微调，从而得到最终的候选回复文本评分模型。

在该实施例中，通过基于第一类训练样本和第二类训练样本进行候选回复文本评分模型训练，使得最终得到的候选回复文本评分模型能够具有良好的预测准确度。

如图3C所示，候选回复文本评分模型300C可以包括第一词向量模块、第二词向量模块和第三词向量模块。

第一词向量模块、第二词向量模块和第三词向量模块均可以将文本转换为词向量。例如，第一词向量模块、第二词向量模块和第三词向量模块可以采用word2vec、glove、fasttext等本领域各种适用的工具来实现。

第一词向量模块可以当前用户问句文本和上文信息进行拼接形成输入文本，然后将输入文本转换为第一词向量。

第二词向量模块可以将标准问句文本转换为第二词向量。

第三词向量模块可以将答案文本转换为第三词向量。

例如，标准问句文本和相应的答案文本可以是利用输入文本，从知识库/话术库中检索得到的。

候选回复文本评分模型300C可以包括文本编码单元302C。例如，文本编码单元302C可以包括第一编码器、第二编码器和第三编码器。

第一编码器、第二编码器和第三编码器可以对词向量进行序列特征抽取，得到输出序列。例如，第一编码器、第二编码器和第三编码器可以为transformer编码器。

例如，第一编码器可以对第一词向量进行序列特征抽取，得到第一输出序列。

第二编码器可以对第二词向量进行序列特征抽取，得到第二输出序列。

第三编码器可以对第三词向量进行序列特征抽取，得到第三输出序列。

候选回复文本评分模型300C还可以包括交互操作单元304C。例如，交互操作单元304C可以包括第一交互模块和第二交互模块。

第一交互模块和第二交互模块可以对输出序列进行交互表示，得到交互表示结果。

例如，第一交互模块可以对第一输出序列和第二输出序列进行交互操作，得到第一交互表示结果。

例如，作为一个示例，第一交互模块可以对第一输出序列和第二输出序列进行交互操作，得到第一交互矩阵。第一交互矩阵可以表示为：其中，第一交互矩阵中的元素可以表示为：/>每个元素可以表示一个句子中的一个词与另一句子中的一个词之间的关系。

通过对第一交互矩阵进行软对齐操作，可以得到句子之间的相互关系表示，例如，输入文本(即，用户问句文本与上文信息的拼接结果)的句子与标准问句文本的句子之间的相互关系表示。可以使用如下公式来表示该结果：

类似地，第二交互模块可以对第一输出序列和第三输出序列进行交互操作，得到第二交互矩阵。例如，第二交互矩阵可以表示为：其中，第二交互矩阵中的元素可以表示为：/>其表示一个句子中的一个词与另一句子中的一个词之间的关系。

通过对第二交互矩阵进行软对齐操作，可以得到句子之间的相互关系表示，例如，输入文本(即，用户问句文本与上文信息的拼接结果)的句子与答案文本的句子之间的相互关系表示。可以使用如下公式来表示该结果：

然后，可以通过增强方式得到各自表示：

m_a＝[a；a^～；a-a^～；a⊙a^～]

m_b＝[b；b^～；b-b^～；b⊙b^～]

m_c＝[c；c^～；c-c^～；c⊙c^～]

例如，第一交互模块的第一交互表示结果可以包括m_a和m_b，而第二交互模块的第二交互表示结果可以包括m_a和m_c。

候选回复文本评分模型300C还可以包括第四编码器和第五编码器。例如，第四编码器和第五编码器可以是transformer编码器。

第四编码器可以对第一交互表示结果进行处理，得到第四输出序列，比如其可以表示为v_a,i。此处，v_a,i可以表示第i时序的特征。

第五编码器可以对第二交互表示结果进行处理，得到第五输出序列，比如其可以表示为v_b,i。此处，v_b,i可以表示第i时序的特征。

候选回复文本评分模型300C还可以包括第一转换模块和第二转换模块。

第一转换模块和第二转换模块可以将序列转换为向量。例如，第一转换模块和第二转换模块可以采用各种适用的seq2vec技术来实现。

例如，结合上文的公式，第一转换模块得到的第一输出向量可以表示为v，比如，可以使用如下公式来表示该结果：

v＝[v_a,avg；v_a,max；v_b,avg；v_b,max]

候选回复文本评分模型300C还可以包括评分模块306C。评分模块306C可以包括mask相加模块和softmax层模块。

例如，mask相加模块可以将第一输出向量和第二输出向量通过mask操作进行相加，得到最终表示结果。然后，softmax层模块可以对最终表示结果进行处理，得到候选回复文本的评分结果，其可以表示候选回复文本与当前用户问句文本之间的匹配程度。

可以理解的是，在候选回复文本评分模型300C的训练过程中，大部分的训练样本中的标准问句信息可能为空，因此，mask相加模块可以将具有标准问句文本的结果和不具有标准问句文本的结果相加，得到每条样本数据的最终表示。

然后，softmax层模块可以对mask相加模块的结果进行处理，输出相应的概率值。比如，0可以表示客服回复文本不是合适的回答，而1可以表示客服回复文本是合适的回答。即，可以使用0和1分别作为样本数据的标签。softmax层模块输出的结果可以表示每条样本数据的标签为0或1的概率。那么，通过训练，使得针对标签为0的样本数据，softmax层模块输出的结果表示该条样本数据的标签为0的概率很大，而针对标签为1的样本数据，softmax层模块输出的结果表示该条样本数据的标签为1的概率很大。这样，可能认为完成对候选回复文本评分模型的训练。

而在利用第二类训练样本进行微调时，也可以使用0和1分别作为第二类样本数据的标签。比如，0可以表示答案文本没有被客服点击的数据，而1可以表示答案文本被客服点击的数据。softmax层模块输出的结果可以表示每条样本数据的标签为0或1的概率。通过进行微调，使得针对标签为0的样本数据，softmax层模块输出的结果表示该条样本数据的标签为0的概率很大，而针对标签为1的样本数据，softmax层模块输出的结果表示该条样本数据的标签为1的概率很大。由此，可以认为完成对候选回复文本评分模型的微调。

还可以理解的是，在实际使用候选回复文本评分模型时，softmax层模块可以输出针对各个候选回复文本的评分结果，这些评分结果可以表示相应的候选回复文本的标签为0或1的概率。在一个实施例中，为了选择目标回复文本，可以针对标签为1的概率设置某个阈值。这样，可以选择标签为1的概率高于该阈值的候选回复文本，作为目标回复文本。

图4是根据一个实施例的用于处理文本的装置的示意性框图。

如图4所示，装置400可以包括第一获取组件402、第二获取组件404、处理组件406和选择组件408。

第一获取组件402可以从用户与客服的当前对话数据中获取当前用户问句文本的上文信息。

第二获取组件404可以基于当前用户问句文本和上文信息，获取预先确定的至少一个候选回复文本。每个候选回复文本可以包括与当前用户问句文本相对应的标准问句文本以及针对标准问句文本的答案文本。

处理组件406可以利用候选回复文本评分模型对当前用户问句文本、上文信息和至少一个候选回复文本进行处理，得到至少一个候选回复文本的评分结果。

候选回复文本评分模型可以具有第一输入、第二输入和第三输入，其中，当前用户问句文本和上文信息作为第一输入，标准问句文本作为第二输入，答案文本作为第三输入。每个候选回复文本的评分结果可以表示该候选回复文本与当前用户问句文本的匹配程度。

选择组件408可以基于至少一个候选回复文本的评分结果，从至少一个候选回复文本中选择m个候选回复文本，作为要向客服呈现的目标回复文本，m为正整数。

在一个实施例中，候选回复文本评分模型可以包括文本编码单元和交互操作单元，其中，文本编码单元对第一输入、第二输入和第三输入进行文本时序编码，交互操作单元对文本编码单元的输出结果进行交互表示。

至少一个候选回复文本的评分结果可以是基于交互操作单元的输出结果得到的。

第一编码器可以对第一词向量进行处理，得到第一输出序列，其中，第一词向量是对当前用户问句文本和上文信息转换得到的。

第二编码器可以对第二词向量进行处理，得到第二输出序列，其中，第二词向量是对标准问句文本进行转换得到的。

第三编码器可以对第三词向量进行处理，得到第三输出序列，其中，第三词向量是对答案文本进行转换得到的。

在一个实施例中，第一编码器、第二编码器和第三编码器中的每一者可以为以下各项中的一项：Transformer编码器、LSTM模型编码器、CNN编码器。

第四编码器可以对第一交互表示结果进行处理，得到第四输出序列。

第五编码器可以对第二交互表示结果进行处理，得到第五输出序列。

在一个实施例中，候选回复文本评分模型可以是基于第一类训练样本来训练得到的，第一类训练样本是从用户与客服的历史对话数据中获取的。

第一类训练样本可以包括n条样本数据，其中，每条样本数据包括历史用户问句文本、该历史用户问句文本的历史上文信息、针对该历史用户问句文本的客服答复文本以及与该历史用户问句文本相对应的标准问句信息，n为正整数。

在利用每条样本数据对候选回复文本评分模型进行训练时，该样本数据中的历史用户问句文本和历史上文信息可以作为第一输入，该样本数据中的标准问句信息可以作为第二输入，该样本数据中的客服答复文本可以作为第三输入。

在一个实施例中，如果在预先确定的问答集合中存在与客服答复文本相对应的答案文本，则标准问句信息可以包括与该答案文本相对应的标准问句文本，其中，问答集合用于表示k个标准问句文本与k个答案文本之间的对应关系，k为正整数。

如果在问答集合中不存在与客服答复文本相对应的答案文本，则标准问句信息可以被设置为空。

在一个实施例中，n条样本数据可以包括作为正样本的第一组样本数据和作为负样本的第二组样本数据。

在第一组样本数据的每条样本数据中，历史用户问句文本和客服答复文本是在历史对话数据中的用户与客服的原始对话记录。

在第二组样本数据的每条样本数据中，针对历史用户问句文本的客服答复文本是从历史对话数据的客服答复记录中随机选取的。

在一个实施例中，在基于第一类训练样本的训练完成之后，候选回复文本评分模型可以是基于第二类训练样本进行微调得到的。第二类训练样本包括j条样本数据，每条样本数据包括历史用户问句文本、该历史用户问句文本的历史上文信息、与该历史用户问句文本相对应的标准问句文本、针对该标准问句文本的答案文本、以及用于指示该答案文本是否被客服点击的标识，j为正整数。

装置400的各个单元可以执行图1至3C的方法实施例中的相应步骤，因此，为了描述的简洁，装置400的各个单元的具体操作和功能此处不再赘述。

上述装置400可以采用硬件实现，也可以采用软件实现，或者可以通过软硬件的组合来实现。例如，装置400在采用软件实现时，其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行来形成。

图5是根据一个实施例的用于处理文本的计算设备的硬件结构图。如图5所示，计算设备500可以包括至少一个处理器502、存储器504、内存506和通信接口508，并且至少一个处理器502、存储器504、内存506和通信接口508经由总线510连接在一起。至少一个处理器502执行在存储器504中存储或编码的至少一个可执行代码(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器504中存储的可执行代码在被至少一个处理器402执行时，使得计算设备实现以上结合图1-3C描述的各种过程。

计算设备500可以采用本领域任何适用的形式来实现，例如，其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。

本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行代码，可执行代码在被机器执行时使得机器实现上面参照图1至图3C描述的方法实施例的具体过程。

例如，机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、静态随机存取存储器(Static Random Access Memory，SRAM)、硬盘、闪存等等。

应当理解的是，本说明书中的各个实施例均采用递进的方式来描述，各个实施例之间相同或相似的部分相互参见即可，每个实施例重点说明的都是与其它实施例的不同之处。例如，对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言，由于它们基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分别由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作例子、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开内容的实施例的可选实施方式，但是，本公开内容的实施例并不限于上述实施方式中的具体细节，在本公开内容的实施例的技术构思范围内，可以对本公开内容的实施例的技术方案进行多种变型，这些变型均属于本公开内容的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的例子和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于处理文本的方法，包括：

从用户与客服的当前对话数据中获取当前用户问句文本的上文信息；

基于所述当前用户问句文本和所述上文信息，获取预先确定的至少一个候选回复文本，其中，每个候选回复文本包括与所述当前用户问句文本相对应的标准问句文本以及针对所述标准问句文本的答案文本；

利用候选回复文本评分模型对所述当前用户问句文本、所述上文信息和所述至少一个候选回复文本进行处理，得到所述至少一个候选回复文本的评分结果，其中：

所述候选回复文本评分模型具有第一输入、第二输入和第三输入，其中，所述当前用户问句文本和所述上文信息作为所述第一输入，所述标准问句文本作为所述第二输入，所述答案文本作为所述第三输入；

所述候选回复文本评分模型包括文本编码单元和交互操作单元，其中，所述文本编码单元对所述第一输入、所述第二输入和所述第三输入进行文本时序编码，所述交互操作单元至少基于交互运算对所述文本编码单元的输出结果进行交互表示；

所述文本编码单元包括第一编码器、第二编码器和第三编码器：所述第一编码器对第一词向量进行处理，得到第一输出序列，其中，所述第一词向量是对所述当前用户问句文本和所述上文信息转换得到的；所述第二编码器对第二词向量进行处理，得到第二输出序列，其中，所述第二词向量是对所述标准问句文本进行转换得到的；所述第三编码器对第三词向量进行处理，得到第三输出序列，其中，所述第三词向量是对所述答案文本进行转换得到的；

所述交互操作单元包括第一交互模块和第二交互模块：所述第一交互模块对所述第一输出序列和所述第二输出序列进行交互操作，得到第一交互表示结果；所述第二交互模块对所述第一输出序列和所述第三输出序列进行交互操作，得到第二交互表示结果；其中，所述至少一个候选回复文本的评分结果是基于所述第一交互表示结果和所述第二交互表示结果得到的；

每个候选回复文本的评分结果表示该候选回复文本与所述当前用户问句文本的匹配程度；

基于所述至少一个候选回复文本的评分结果，从所述至少一个候选回复文本中选择m个候选回复文本，作为要向所述客服呈现的目标回复文本，m为正整数。

2.根据权利要求1所述的方法，其中，所述第一编码器、所述第二编码器和所述第三编码器中的每一者为以下各项中的一项：Transformer编码器、长短期记忆LSTM模型编码器、卷积神经网络CNN编码器。

3.根据权利要求1所述的方法，其中，所述候选回复文本评分模型还包括第四编码器、第五编码器、第一转换模块、第二转换模块和评分模块，

所述第四编码器对所述第一交互表示结果进行处理，得到第四输出序列；

所述第五编码器对所述第二交互表示结果进行处理，得到第五输出序列；

所述第一转换模块对所述第四输出序列进行转换，得到第一输出向量；

所述第二转换模块对所述第五输出序列进行转换，得到第二输出向量；

所述评分模块基于所述第一输出向量和所述第二输出向量，确定所述至少一个候选回复文本的评分结果。

4.根据权利要求1所述的方法，其中，所述候选回复文本评分模型是基于第一类训练样本来训练得到的，所述第一类训练样本是从用户与客服的历史对话数据中获取的；

所述第一类训练样本包括n条样本数据，其中，每条样本数据包括历史用户问句文本、该历史用户问句文本的历史上文信息、针对该历史用户问句文本的客服答复文本以及与该历史用户问句文本相对应的标准问句信息，n为正整数；

在利用每条样本数据对所述候选回复文本评分模型进行训练时，该样本数据中的历史用户问句文本和历史上文信息作为所述第一输入，该样本数据中的标准问句信息作为所述第二输入，该样本数据中的客服答复文本作为所述第三输入。

5.根据权利要求4所述的方法，其中，

如果在预先确定的问答集合中存在与所述客服答复文本相对应的答案文本，则所述标准问句信息包括与该答案文本相对应的标准问句文本，其中，所述问答集合用于表示k个标准问句文本与k个答案文本之间的对应关系，k为正整数；

如果在所述问答集合中不存在与所述客服答复文本相对应的答案文本，则所述标准问句信息被设置为空。

6.根据权利要求4或5所述的方法，其中，所述n条样本数据包括作为正样本的第一组样本数据和作为负样本的第二组样本数据，

在所述第一组样本数据的每条样本数据中，历史用户问句文本和客服答复文本是在所述历史对话数据中的用户与客服的原始对话记录；

在所述第二组样本数据的每条样本数据中，针对历史用户问句文本的客服答复文本是从所述历史对话数据的客服答复记录中随机选取的。

7.根据权利要求4或5所述的方法，其中，

在基于所述第一类训练样本的训练完成之后，所述候选回复文本评分模型是基于第二类训练样本进行微调得到的，其中，所述第二类训练样本包括j条样本数据，每条样本数据包括历史用户问句文本、该历史用户问句文本的历史上文信息、与该历史用户问句文本相对应的标准问句文本、针对该标准问句文本的答案文本、以及用于指示该答案文本是否被客服点击的标识，j为正整数。

8.一种用于处理文本的装置，包括：

第一获取组件，其从用户与客服的当前对话数据中获取当前用户问句文本的上文信息；

第二获取组件，其基于所述当前用户问句文本和所述上文信息，获取预先确定的至少一个候选回复文本，其中，每个候选回复文本包括与所述当前用户问句文本相对应的标准问句文本以及针对所述标准问句文本的答案文本；

处理组件，其利用候选回复文本评分模型对所述当前用户问句文本、所述上文信息和所述至少一个候选回复文本进行处理，得到所述至少一个候选回复文本的评分结果，其中：

所述候选回复文本评分模型包括文本编码单元和交互操作单元，其中，所述文本编码单元对所述第一输入、所述第二输入和所述第三输入进行文本时序编码，所述交互操作单元对所述文本编码单元的输出结果进行交互表示；

选择组件，其基于所述至少一个候选回复文本的评分结果，从所述至少一个候选回复文本中选择m个候选回复文本，作为要向所述客服呈现的目标回复文本，m为正整数。

9.根据权利要求8所述的装置，其中，所述第一编码器、所述第二编码器和所述第三编码器中的每一者为以下各项中的一项：Transformer编码器、长短期记忆LSTM模型编码器、卷积神经网络CNN编码器。

10.根据权利要求8所述的装置，其中，所述候选回复文本评分模型还包括第四编码器、第五编码器、第一转换模块、第二转换模块和评分模块，

11.根据权利要求8所述的装置，其中，所述候选回复文本评分模型是基于第一类训练样本来训练得到的，所述第一类训练样本是从用户与客服的历史对话数据中获取的；

12.根据权利要求11所述的装置，其中，

13.根据权利要求11或12所述的装置，其中，所述n条样本数据包括作为正样本的第一组样本数据和作为负样本的第二组样本数据，

14.根据权利要求11或12所述的装置，其中，

15.一种计算设备，包括：

至少一个处理器；

与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现根据权利要求1至7中任一项所述的方法。

16.一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行根据权利要求1至7中任一项所述的方法。