CN111309889A

CN111309889A - 用于文本处理的方法和装置

Info

Publication number: CN111309889A
Application number: CN202010123765.XA
Authority: CN
Inventors: 彭爽; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-19
Anticipated expiration: 2040-02-27
Also published as: CN111309889B

Abstract

本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。该方法包括：从目标机器对话日志中获取目标问题文本，目标问题文本用于表示机器人客服未能回答的用户问题；基于目标问题文本，获取目标人工对话日志，目标人工对话日志是基于目标问题文本而产生的；利用机器阅读模型对目标问题文本和目标人工对话日志进行处理，其中机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的，训练语料是基于历史问题文本和历史人工对话日志得到的；基于机器阅读模型的处理结果，从目标人工对话日志中获取针对目标问题文本的答案文本，其中，目标问题文本和答案文本以问答对的形式被存储到知识库中。

Description

用于文本处理的方法和装置

技术领域

本说明书的实施例涉及信息技术领域，更具体地，涉及用于文本处理的方法、装置、计算设备和机器可读存储介质。

背景技术

随着机器学习等各种技术的不断发展，为了方便用户获得帮助，已经开发了智能问答系统。智能问答系统可以通过机器人客服来实现人机对话，例如，用户向机器人客服提出问题，机器人客服自动地回答用户的问题。

目前，在大部分的智能问答系统中，机器人客服是基于知识库来工作的。例如，知识库可以包括多个问答对，每个问答可以包括问题文本和相应的答案文本。机器人客服在接收到用户问题文本之后，可以通过检索知识库来输出针对用户问题文本的答复。可见，知识库对于智能问答系统而言是非常重要的。那么，如何高效地建立知识库成为关注的问题之一。

发明内容

考虑到现有技术的上述问题，本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。

一方面，本说明书的实施例提供了一种用于文本处理的方法，包括：从目标机器对话日志中获取目标问题文本，其中，所述目标机器对话日志用于表示目标用户与机器人客服的对话，所述目标问题文本用于表示机器人客服未能回答的用户问题；基于所述目标问题文本，获取目标人工对话日志，其中，所述目标人工对话日志用于表示所述目标用户与人工客服的对话，所述目标人工对话日志是基于所述目标问题文本而产生的；利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，其中：所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的；所述训练语料是基于历史问题文本和历史人工对话日志得到的，所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题，所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工客服的对话；基于所述机器阅读模型的处理结果，从所述目标人工对话日志中获取针对所述目标问题文本的答案文本，其中，所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。

另一方面，本说明书的实施例提供了一种用于文本处理的装置，包括：第一获取单元，其从目标机器对话日志中获取目标问题文本，其中，所述目标机器对话日志用于表示目标用户与机器人客服的对话，所述目标问题文本用于表示机器人客服未能回答的用户问题；第二获取单元，其基于所述目标问题文本，获取目标人工对话日志，其中，所述目标人工对话日志用于表示所述目标用户与人工客服的对话，所述目标人工对话日志是基于所述目标问题文本而产生的；模型处理单元，其利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，其中：所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的；所述训练语料是基于历史问题文本和历史人工对话日志得到的，所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题，所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工客服的对话；第三获取单元，其基于所述机器阅读模型的处理结果，从所述目标人工对话日志中获取针对所述目标问题文本的答案文本，其中，所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。

另一方面，本说明书的实施例提供了一种计算设备，包括：至少一个处理器；与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现上述方法。

另一方面，本说明书的实施例提供了一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行上述方法。

附图说明

通过结合附图对本说明书的实施例的更详细的描述，本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显，其中，在本说明书的实施例中，相同的附图标记通常代表相同的元素。

图1是根据一个实施例的智能问答系统实现人机协作的问答过程的示意性流程图。

图2是根据一个实施例的用于文本处理的方法的示意性流程图。

图3是根据一个实施例的用于构建机器阅读模型的过程的示意性流程图。

图4是根据一个实施例的用于文本处理的装置的示意性框图。

图5是根据一个实施例的用于文本处理的计算设备的硬件结构图。

具体实施方式

现在将参考各实施例讨论本文描述的主题。应当理解的是，讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要，省略、替换或者添加各种过程或组件。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义，无论是明确的还是隐含的，除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

随着机器学习、深度学习等人工智能技术的快速发展，智能问答系统应运而生。通常，智能问答系统可以通过机器人客服来自动地回答用户问题，而对于机器人客服无法回答的问题，智能问答系统可以自动地转向人工客服，通过人工客服来完成后续的问答工作，由此实现人机协作的问答过程。

目前在大部分智能问答系统中，机器人客服是通过检索已有的知识库来回答问题。知识库可以表示为问题-答案对(本文中简称为问答对)的形式。即，知识库可以包括至少一个问题文本以及这些问题文本所对应的答案文本。

例如，智能问答系统的机器人客服在接收到用户问题文本之后，在知识库中检索与用户问题文本相关联的已有问题文本，然后计算用户问题文本与检索到的已有问题文本之间的相似度，之后基于相似度高的已有问题文本以及其对应的答案文本来输出针对用户问题文本的答复。比如，在一种实现方式中，将相似度高的已有问题文本以及对应的答案文本输出，作为针对用户问题文本的答复。

可见，知识库对于这样的智能问答系统而言是非常重要的。目前，知识库通常是通过离线人工的方式来建立的。例如，基于大规模的对话语料来提取问题文本，然后人工手动补充相应的答案文本，从而建立知识库。

然而，这种方式存在明显的缺陷。例如，为了智能问答系统运行，需要首先耗费时间和人力来建立知识库，冷启动问题比较明显。再例如，如果知识库仅存储有非常有限的问答对，那么可能导致机器人客服答非所问或者无法回答用户问题，而更新知识库又需要耗费大量的人力，极大地增加了运营成本，这在业务变化频繁而导致问题和答案需要经常变动的情况下更为显著。

鉴于此，本说明书的实施例提供了一种用于文本处理的技术方案。在本说明书的技术方案中，通过基于训练语料对预训练语言模型进行训练来得到机器阅读模型，然后利用机器阅读模型针对目标机器对话日志和目标人工对话日志提取相应的问答对，能够高效地构建或进一步补充知识库，从而能够有效地减少人工成本。下面将结合具体实施例进行详细描述。

如图1所示，智能问答系统在从用户接收到用户问题文本时，可以将其提供给机器人客服。机器人客服可以通过检索知识库来确定是否能够输出针对该用户问题文本的答复。

例如，如果在知识库中检索到与用户问题文本相似度高的已有问题文本，则可以基于已有问题文本和针对该已有问题文本的答案文本，来输出相应的答复。例如，机器人客服可以输出该已有问题文本和相应的答案文本作为答复。

如果在知识库中没有检索到与用户问题文本相似的已有问题文本，则机器人客服可以确定无法输出针对用户问题文本的答复。在一些实现方式中，机器人客服可以自动地转向人工客服，或者可以基于用户请求转向人工客服。例如，机器人客服可以输出用于询问用户是否请求人工客服的答复，比如“对不起，无法回答该问题，请问是否转人工客服”之类的答复。如果接收到用户针对转向人工客服的请求，则转向人工客服。然后，人工客服基于机器人客服未能回答的问题与用户进行对话。

可以理解的是，在一般情况下，对于机器人客服未能回答的用户问题，在转向人工客服之后，这些用户问题基本能够得以解答，因此针对机器人客服未能回答的用户问题的答案大概率也会存在于对应的人工对话日志中。在本文中，为了便于描述，术语“机器对话日志”可以表示用户与机器人客服的对话，术语“人工对话日志”可以表示用户与人工客服的对话。

此外，随着人工智能技术的不断发展，开发了机器阅读技术。例如，如果针对某个文档给定一个问题，并且假定针对该问题的答案出现在该文档中的某个位置，那么机器阅读技术可以通过阅读该文档来找到该答案的位置。

基于上述思想，可以构建机器阅读模型，利用机器阅读模型从人工对话日志中找到针对机器人客服未能回答的用户问题的答案，然后将两个文本形成问答对存储在知识库中，这样能够高效地构建或更新知识库，从而有效地降低人工成本。

此外，机器人客服未能回答的用户问题通常是知识库中所没有覆盖的问题，所以利用该用户问题和相应的答案形成问答对，使得对知识库的构建或更新更加有针对性，能够有效地提升知识库的覆盖率，由此也能够降低智能问答系统的转人工率，从而提升用户体验。

下面将结合具体实施例进一步描述提取问答对的过程。图2是根据一个实施例的用于文本处理的方法的示意性流程图。

如图2所示，在步骤202中，可以从目标机器对话日志中获取目标问题文本。

目标机器对话日志可以用于表示目标用户与机器人客服的对话。目标问题文本可以表示机器人客服未能回答的用户问题。

在步骤204中，可以基于目标问题文本，获取目标人工对话日志。

目标人工对话日志可以表示用户与人工客服的对话。

此外，目标机器对话日志和目标人工对话日志可以属于一次用户会话(session)记录。例如，目标人工对话日志可以是由于机器人客服未能回答用户问题而转向人工客服所产生的对话日志。那么，一次用户会话可以包括：用户与机器人客服的对话、以及在转向人工客服之后用户与人工客服的对话。因此，可以认为目标机器对话日志和目标人工对话日志属于一次用户会话记录。

在步骤206中，可以利用机器阅读模型对目标问题文本和目标人工对话日志进行处理。

机器阅读模型可以是通过基于训练语料对预训练语言模型进行训练而得到的。训练语料可以是基于历史问题文本和历史人工对话日志得到的。历史问题文本可以表示机器人客服未能回答的历史用户问题，其可以是从历史机器对话日志中得到的。历史人工对话日志可以是由于机器人客服未能回答该历史用户问题而转向人工客服所产生的，其可以表示用户与人工客服的对话。

在步骤208中，可以基于机器阅读模型的处理结果，从目标人工对话日志中获取针对目标问题文本的答案文本。

目标问题文本和答案文本可以以问答对的形式被存储到知识库中。

在该实施例中，可以利用机器阅读模型从人工对话日志中找到针对机器人客服未能回答的用户问题的答案，然后将两个文本形成问答对存储在知识库中，从而能够高效地构建或更新知识库，从而降低人工构建知识库的成本。例如，对于没有知识库的情况，这种方式也能够使得智能问答系统快速地实现冷启动。

此外，这种方式也能够有效地提升知识库的覆盖率，由此降低智能问答系统的转人工率，这样不仅降低人工客服成本，而且提升用户体验。

在一个实施例中，在步骤202中，可以通过在目标机器对话日志中过滤无关的对话，比如闲聊、不清晰对话以及指示性对话(例如，“转人工”等的语句)等等，来获取目标问题文本。在一种实现方式中，可以将在目标机器对话日志中紧接在转向人工客服之前的用户问题认为是机器人客服未能回答的用户问题，该用户问题文本即为目标问题文本。

在一个实施例中，在步骤204中，可以基于目标问题文本对应的会话标识，获取目标人工对话日志。例如，具有该会话标识的人工对话日志可以认为是目标人工对话日志。

如前所述，机器阅读模型是通过对预训练语言模型进行训练而得到的。通常，预训练语言模型可以理解为利用某些数据集预先训练好的语言模型。但是，预训练语言模型一般是使用一些公开的数据集来完成预训练的，其可能并不熟悉某个特定任务领域的数据，比如本文所提到的智能问答领域。因此，如果直接使用在公开的数据集上得到的预训练语言模型的话，效果会受到一定的影响。鉴于此，在选择合适的预训练语言模型来完成机器阅读模型的训练时，可以利用智能问答领域海量的对话语料对预训练语言模型再进行一次预训练，使得预训练语言模型更加熟悉智能问答领域的语料，从而能够更加有效地实现针对该领域的语言任务处理。

在一个实施例中，关于上述训练语料，可以是通过如下方式来得到的：可以在历史人工对话日志中的每一轮会话中，针对来自用户的文本添加第一标识，并且针对来自人工客服的文本添加第二标识，从而得到训练对话日志；之后，可以生成训练语料，其中训练语料可以包括历史问题文本和训练对话日志。

例如，可以将训练语料的格式定义为x，其可以如下表示：

d_{1:n}＝[Q],q₁,[A],a₁...,[Q],q_n,[A],a_n

x＝[CLS],q,[SEP],d_{1:n},[SEP]，其中q表示历史问题文本。

其中，n可以表示在历史人工对话日志中用户与人工客服的对话轮数，即在历史人工对话日志中存在n轮对话，n可以是正整数；q_i可以表示在第i轮对话中来自用户的文本(即来自用户的对话)，a_i可以表示第i轮对话中来自人工客服的文本(即来自人工客服的对话)，此处1≤i≤n。[Q]可以是上述第一标识，用于指示在该标识之后的文本是来自用户的。[A]可以是上述第二标识，用于指示在该标识之后的文本是来自人工客服的。

在该实施例中，并没有简单地将历史人工对话日志拆分成一句一句的文本来形成训练语料，而是将历史人工对话日志处理为带有标识的文档形式，然后结合相应的历史问题文本形成训练语料，使得预训练语言模型能够更加熟悉对话日志这种形式的数据，从而更好地进行智能问答领域的语言任务处理。

在一个实施例中，通过基于训练预料对预训练语言模型进行训练得到机器阅读模型，可以理解为包括两个过程：即预训练过程和微调过程。具体而言，可以基于训练预料对预训练语言模型进行预训练，得到目标语言模型。然后，可以针对目标语言模型进行微调(例如添加任务层)，得到机器阅读模型。

在本文中，预训练语言模型可以包括本领域已知的各种预训练语言模型。例如，在一个实施例中，预训练语言模型可以包括BERT(Bidirectional Encoder Representationsfrom Transformers，基于Transformer的双向编码器表征)模型。

BERT模型是谷歌公司提出的一种语言模型，其有效地改进了许多自然语言处理任务，包括自然语言推断、复述(paraphrasing)等句子层面的任务、以及命名实体识别、SQuAD问答等token层面的任务。此外，BERT模型能够有效利用上下文信息，根据其所处的语境/上下文来确定词嵌入，从而得到语境化词嵌入。因此，利用BERT模型能够更好地抽取词语的语境特征向量，从而高效地实现机器阅读任务。

在基于公开数据集的预训练过程中，BERT模型通常同时使用掩码语言模型(masklanguage model)和下一句预测(next sentence prediction)这两者作为损失函数。然而，因为在实际的智能问答领域中，人工对话日志与传统的机器阅读文档形式不同，对话之间的序列连贯性通常并不是那么强，没有明显的上下文关系。所以，在本文的实施例中，在利用上述训练预料对BERT模型进行预训练时，可以只选择掩码语言模型作为损失函数，而不使用下一句预测。这样，能够更加有针对性地完成对BERT模型的预训练。

除了BERT模型，本文中的预训练语言模型还可以包括其它适用的模型。例如，在另一实施例中，预训练语言模型可以包括RoBERTa(Robustly optimized BERT approach)模型或SpanBERT模型。

在一个实施例中，在通过基于上述训练预料的预训练过程得到目标语言模型之后，可以对目标语言模型进行微调来得到机器阅读模型。例如，可以在预训练语言模型上添加任务层，从而得到机器阅读模型。

为了便于理解，下面将简单举例说明任务层的含义。例如，如前所述，训练语料的格式可以被定义为x，其可以如下表示：

d_{1:n}＝[Q],q₁,[A],a₁...,[Q],q_n,[A],a_n

x＝[CLS],q,[SEP],d_{1:n},[SEP]，其中q表示历史问题文本。

那么，任务是需要在d_{1:n}中找到合适的答案文本a_i来回答问题q，而任务层的含义可以理解为，针对被预训练语言模型进行向量表示之后的x，再设置两个彼此参数不共享的线性层，以此来得到对答案文本a_i的起始位置和结束位置的概率估计。

在一个实施例中，在步骤206中，可以利用机器阅读模型对目标问题文本和目标人工对话日志进行处理，得到起始位置信息和结束位置信息。起始位置信息可以用于指示答案文本在目标人工对话日志中的起始位置，结束位置信息可以用于指示答案文本在目标人工对话日志中的结束位置。

例如，如前所述，起始位置信息可以通过对答案文本在目标人工对话日志中的起始位置的概率估计来表示，结束位置信息可以通过对答案文本在目标人工对话日志中的结束位置的概率估计来表示。

这样，在步骤208中，可以基于这两种位置信息，从目标人工对话日志中获取答案文本。

目标问题文本和答案文本可以组合成问答对，以便存储到知识库中。在一些情况下，在将目标问题文本和答案文本组合成问答对之后，可以发起人工审核。可以在人工审核通过之后，将其存储到知识库中。

这样，机器人客服能够基于知识库更准确地回答用户问题，从而降低转人工率，提升用户体验。

下面将结合具体例子来描述机器阅读模型的构建过程。应当理解的是，以下例子仅是为了帮助本领域技术人员更好地理解上述技术方案，而非限制上述技术方案的范围。

如图3所示，在步骤302中，可以从历史机器对话日志中获取历史问题文本。历史问题文本可以表示在历史机器对话日志中机器人客服未能回答的历史用户问题。

在步骤304中，可以基于历史问题文本，获取相应的历史人工对话日志。历史人工对话日志可以是基于该历史用户问题文本、在转向人工客服之后所产生的对话日志。也就是说，历史人工对话日志可以表示用户与人工客服的对话。

例如，可以基于历史问题文本所对应的会话标识，获取具有该会话标识的历史人工对话日志。历史人工对话日志和上述历史机器对话日志可以属于一次用户会话记录。

在步骤306中，可以在历史人工对话日志的每一轮对话中，针对来自用户的文本添加第一标识，针对来自人工客服的文本添加第二标识，从而得到训练对话日志。

在步骤308中，可以生成训练语料。训练语料可以包括历史问题文本和训练对话日志。

例如，训练语料的格式可以通过前述等式来表示，此处不再赘述。

在步骤310中，可以利用训练语料对BERT模型进行预训练，得到目标BERT模型。

例如，在进行训练时，可以仅选择掩码语言模型作为损失函数。

在步骤312中，可以对目标BERT模型进行微调，得到机器阅读模型。

例如，可以针对目标BERT模型添加任务层，得到机器阅读模型。

可见，在该实施例中，在历史人工对话日志中分别添加针对用户文本和人工客服文本的标识，然后利用历史问题文本和人工对话日志来形成训练语料，使得BERT模型能够更加熟悉对话日志这种形式的数据，由此使得基于BERT模型所得到的机器阅读模型能够更准确地针对机器人客服未能回答的用户问题在对应的人工对话日志中找到答案文本，从而有效地构建知识库。

图4是根据一个实施例的用于文本处理的装置的示意性框图。

如图4所示，装置400可以包括第一获取单元402、第二获取单元404、模型处理单元406和第三获取单元408。

第一获取单元402可以从目标机器对话日志中获取目标问题文本。目标机器对话日志可以用于表示目标用户与机器人客服的对话，目标问题文本可以用于表示机器人客服未能回答的用户问题。

第二获取单元404可以基于目标问题文本，获取目标人工对话日志。目标人工对话日志可以用于表示目标用户与人工客服的对话，目标人工对话日志可以是基于目标问题文本而产生的。

模型处理单元406可以利用机器阅读模型对目标问题文本和目标人工对话日志进行处理。机器阅读模型可以是通过基于训练语料对预训练语言模型进行训练而得到的。

训练语料可以是基于历史问题文本和历史人工对话日志得到的，历史问题文本可以用于表示机器人客服未能回答的历史用户问题，历史人工对话日志可以用于表示基于历史用户问题而产生的用户与人工客服的对话。

第三获取单元408可以基于机器阅读模型的处理结果，从目标人工对话日志中获取针对目标问题文本的答案文本。目标问题文本和答案文本可以以问答对的形式被存储到知识库中。

在一个实施例中，训练语料可以是通过如下方式得到：在历史人工对话日志的每一轮对话中，针对来自用户的文本添加第一标识，并且针对来自人工客服的文本添加第二标识，以得到训练对话日志；生成训练语料，其中训练语料包括历史问题文本和训练对话日志。

在一个实施例中，预训练语言模型可以包括BERT模型，其中，在对BERT模型进行训练时可以使用掩码语言模型作为损失函数。

在一个实施例中，预训练语言模型可以包括RoBERTa模型或SpanBERT模型中的一者。

在一个实施例中，机器阅读模型可以是通过如下方式得到的：基于训练语料对预训练语言模型进行预训练，得到目标语言模型；针对目标语言模型添加任务层，得到机器阅读模型。

在一个实施例中，模型处理单元406可以利用机器阅读模型对目标问题文本和目标人工对话日志进行处理，得到起始位置信息和结束位置信息。起始位置信息可以用于指示答案文本在目标人工对话日志中的起始位置，结束位置信息可以用于指示答案文本在目标人工对话日志中的结束位置。

装置400的各个单元可以执行图1-3的方法实施例中的相应步骤，因此，为了描述的简洁，装置400的各个单元的具体操作和功能此处不再赘述。

上述装置400可以采用硬件实现，也可以采用软件实现，或者可以通过软硬件的组合来实现。例如，装置400在采用软件实现时，其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行代码读取到内存中运行来形成。

图5是根据一个实施例的用于文本处理的计算设备的硬件结构图。如图5所示，计算设备500可以包括至少一个处理器502、存储器504、内存506和通信接口508，并且至少一个处理器502、存储器504、内存506和通信接口508经由总线510连接在一起。至少一个处理器502执行在存储器504中存储或编码的至少一个可执行代码(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器504中存储的可执行代码在被至少一个处理器502执行时，使得计算设备实现以上结合图1-3描述的各种过程。

计算设备500可以采用本领域任何适用的形式来实现，例如，其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。

本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行代码，可执行代码在被机器执行时使得机器实现上面参照图1-3描述的方法实施例的具体过程。

例如，机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、静态随机存取存储器(Static Random Access Memory，SRAM)、硬盘、闪存等等。

应当理解的是，本说明书中的各个实施例均采用递进的方式来描述，各个实施例之间相同或相似的部分相互参见即可，每个实施例重点说明的都是与其它实施例的不同之处。例如，对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言，由于它们基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分别由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作例子、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开内容的实施例的可选实施方式，但是，本公开内容的实施例并不限于上述实施方式中的具体细节，在本公开内容的实施例的技术构思范围内，可以对本公开内容的实施例的技术方案进行多种变型，这些变型均属于本公开内容的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的例子和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于文本处理的方法，包括：

从目标机器对话日志中获取目标问题文本，其中，所述目标机器对话日志用于表示目标用户与机器人客服的对话，所述目标问题文本用于表示机器人客服未能回答的用户问题；

基于所述目标问题文本，获取目标人工对话日志，其中，所述目标人工对话日志用于表示所述目标用户与人工客服的对话，所述目标人工对话日志是基于所述目标问题文本而产生的；

利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，其中：

所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的；

所述训练语料是基于历史问题文本和历史人工对话日志得到的，所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题，所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工客服的对话；

基于所述机器阅读模型的处理结果，从所述目标人工对话日志中获取针对所述目标问题文本的答案文本，其中，所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。

2.根据权利要求1所述的方法，其中，所述训练语料是通过如下方式得到：

在所述历史人工对话日志的每一轮对话中，针对来自用户的文本添加第一标识，并且针对来自人工客服的文本添加第二标识，以得到训练对话日志；

生成所述训练语料，其中，所述训练语料包括所述历史问题文本和所述训练对话日志。

3.根据权利要求1或2所述的方法，其中，所述预训练语言模型包括BERT模型，其中，在对所述BERT模型进行训练时使用掩码语言模型作为损失函数。

4.根据权利要求1或2所述的方法，其中，所述预训练语言模型包括RoBERTa模型或SpanBERT模型中的一者。

5.根据权利要求1至4中任一项所述的方法，其中，所述机器阅读模型是通过如下方式得到的：

基于所述训练语料对所述预训练语言模型进行预训练，得到目标语言模型；

针对所述目标语言模型添加任务层，得到所述机器阅读模型。

6.根据权利要求1至5中任一项所述的方法，其中，利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，包括：

利用所述机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，得到起始位置信息和结束位置信息，其中，所述起始位置信息用于指示所述答案文本在所述目标人工对话日志中的起始位置，所述结束位置信息用于指示所述答案文本在所述目标人工对话日志中的结束位置。

7.一种用于文本处理的装置，包括：

第一获取单元，其从目标机器对话日志中获取目标问题文本，其中，所述目标机器对话日志用于表示目标用户与机器人客服的对话，所述目标问题文本用于表示机器人客服未能回答的用户问题；

第二获取单元，其基于所述目标问题文本，获取目标人工对话日志，其中，所述目标人工对话日志用于表示所述目标用户与人工客服的对话，所述目标人工对话日志是基于所述目标问题文本而产生的；

模型处理单元，其利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理，其中：

第三获取单元，其基于所述机器阅读模型的处理结果，从所述目标人工对话日志中获取针对所述目标问题文本的答案文本，其中，所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。

8.根据权利要求7所述的装置，其中，所述训练语料是通过如下方式得到：

9.根据权利要求7或8所述的装置，其中，所述预训练语言模型包括BERT模型，其中，在对所述BERT模型进行训练时使用掩码语言模型作为损失函数。

10.根据权利要求7或8所述的装置，其中，所述预训练语言模型包括RoBERTa模型或SpanBERT模型中的一者。

11.根据权利要求7至10中任一项所述的装置，其中，所述机器阅读模型是通过如下方式得到的：

12.根据权利要求7至11中任一项所述的装置，其中，所述模型处理单元执行以下操作：

13.一种计算设备，包括：

至少一个处理器；

与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现根据权利要求1至6中任一项所述的方法。

14.一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行根据权利要求1至6中任一项所述的方法。