CN111401042A

CN111401042A - 一种训练文本关键内容提取模型的方法和系统

Info

Publication number: CN111401042A
Application number: CN202010223432.4A
Authority: CN
Inventors: 陈晓军; 彭爽; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-10
Anticipated expiration: 2040-03-26
Also published as: CN111401042B

Abstract

本说明书实施例公开了一种训练文本关键内容提取模型的方法和系统。所述方法包括：获取若干个训练样本，所述训练样本包括问题和拼接文档，所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符；基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；利用所述表示向量训练初始模型得到文本关键内容提取模型，其中，所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值；基于所述预测值，构建损失函数，迭代优化所述文本关键内容提取模型。本说明书采用用户的反馈数据构造训练样本，可以有效提升机器阅读模型的质量和难度。

Description

一种训练文本关键内容提取模型的方法和系统

技术领域

本说明书一个或多个实施例涉及信息技术领域，特别涉及一种训练文本关键内容提取模型的方法和系统。

背景技术

机器阅读理解是指用户向神经网络模型输入一段材料和问题，经该模型处理后给出与问题对应的正确答案的方式。目前在机器阅读理解的神经网络模型训练中，对训练数据集的标注主要是在单篇以及多篇候选文档中，通过人工提问的方式，在这些文档中标注出提问对应的答案。而在现实的业务场景中，获取机器阅读的标注数据成本是非常高的，需要专业的标注团队。

因此，有必要提出一种更快速、更可靠的方案，利用其它任务数据构造机器阅读数据，同时减少人工标注，节约成本，提高模型的训练效果。

发明内容

本说明书实施例之一提供一种训练文本关键内容提取模型的方法。所述方法包括：获取若干个训练样本，所述训练样本包括问题和拼接文档，所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符；基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；利用所述表示向量训练初始模型得到文本关键内容提取模型，其中，所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值；基于所述预测值，构建损失函数，迭代优化所述文本关键内容提取模型。

本说明书实施例之一提供一种文本关键内容提取方法。所述方法包括：基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容，其中，所述文本内容包括与所述问题对应的关键内容和与所述问题无关的干扰内容；将所述文本内容进行拼接得到拼接文档，所述拼接文档中的每一内容用分隔符连接；基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；用本说明书任一实施例所述的方法得到的文本关键内容提取模型处理所述表示向量，得到与所述问题对应的关键内容。

本说明书实施例之一提供一种训练文本关键内容提取模型的系统。所述系统包括获取模块、第一处理模块、训练模块和优化模块；所述获取模块用于获取若干个训练样本，所述训练样本包括问题和拼接文档，所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符；所述第一处理模块，用于基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；所述训练模块，用于利用所述表示向量训练初始模型得到文本关键内容提取模型，其中，所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值；所述优化模块，用于基于所述预测值，构建损失函数，迭代优化所述文本关键内容提取模型。

本说明书实施例之一提供一种文本关键内容提取系统。包括召回模块、拼接模块、第二处理模块和确定模块；所述召回模块，用于基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容，其中，所述文本内容包括与所述问题对应的关键内容和与所述问题无关的干扰内容；所述拼接模块，用于将所述文本内容进行拼接得到拼接文档，所述拼接文档中的每一内容用分隔符连接；所述第二处理模块基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；所述确定模块，用于用本说明书任一实施例所述的训练文本关键内容提取模型的系统得到的文本关键内容提取模型处理所述表示向量，得到与所述问题对应的文本关键内容。

本说明书实施例之一提供一种计算设备，所述计算设备包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如本说明书任一实施例所述的方法。

本说明书实施例之一提供一种存储介质，所述存储介质用于存储计算机指令，当计算机读取所述存储介质中的计算机指令后，执行如本说明书任一实施例所述的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的文本关键内容提取系统的应用场景示意图；

图2是根据本说明书一些实施例所示的示例性处理设备的框图；

图3是根据本说明书一些实施例所示的训练文本关键内容提取模型系统的模块图；

图4是根据本说明书一些实施例所示的训练文本关键内容提取模型方法的示例性流程图；

图5是根据本说明书一些实施例所示的文本关键内容提取系统的模块图；

图6是根据本说明书一些实施例所示的文本关键内容提取方法的示例性流程图；

图7是根据本说明书一些实施例所示的某一训练样本的示意图；

图8是根据本说明书一些实施例所示的某一知识库的示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书一些实施例所示的文本关键内容提取系统的应用场景示意图。在一些实施例中，该文本关键内容提取系统100可以用于基于用户输入的问题，利用训练后的文本关键内容提取模型处理，得到与问题对应的关键内容，从而使提取的关键内容更精确。例如，该文本关键内容系统100可以用于基于问题从海量文本内容中自动获取文本关键内容。该文本关键内容提取系统100可以适用于涉及机器阅读理解、客服应答的场景中。如图1所示，文本关键内容提取系统100可以包括处理设备110、网络120、终端130和存储设备140。

处理设备110可用于处理与文本关键内容提取相关联的信息和/或数据来执行在本说明书中揭示的一个或者多个功能。例如，处理设备110可以用于获取若干个训练样本，训练样本可以包括问题和拼接文档。又例如，处理设备110可以用于基于问题和拼接文档，利用机器阅读模型处理得到对应的表示向量，利用表示向量训练初始模型得到文本关键内容提取模型，其中，文本关键内容提取模型的输出为拼接文档中与每一内容对应的分隔符的预测值。再例如，处理设备110可以用于基于预测值，构建损失函数，迭代优化文本关键内容提取模型。还例如，处理设备110可以用于基于迭代优化后的文本关键内容提取模型处理用户输入的问题，得到与问题对应的文本关键内容。在一些实施例中，处理设备110可以包括一个或多个处理引擎(例如，单核心处理引擎或多核心处理器)。仅作为示例，处理设备110可以包括中央处理器(中央处理器)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。

在一些实施例中，网络120可以促进信息和/或数据的交换。在一些实施例中，文本关键内容提取系统100的一个或者多个组件(例如处理设备110、终端130和存储设备140)可以通过网络120传送信息至文本关键内容提取系统100的其他组件。例如，处理设备110可以通过网络120从数据库中获取与文本关键内容提取相关联的信息和/或数据。在一些实施例中，网络120可以是任意形式的有线或者无线网络，或其任意组合。仅作为范例，网络120可以是有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G)网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)、红外通信等中的一种或多种组合。在一些实施例中，网络120可包括一个或者多个网络接入点。例如，网络120可包括有线或无线网络进接点比如基站和/或互联网交换点。通过该网络接入点，文本关键内容提取系统100的一个或多个组件可以连接至网络120以交换信息和/或数据。

终端130可以是带有数据获取、存储和/或发送功能的设备，例如，智能手机。在一些实施例中，终端130的使用者可以是文本关键内容提取过程中的参与者。例如，在提取文本关键内容过程中，终端130的使用者可以是提供文本关键内容提取服务的服务提供者，也可以是接收文本关键内容的服务使用者。在一些实施例中，终端130可以包括但不限于移动设备130-1、平板电脑130-2、笔记本电脑130-3、台式电脑130-4等或其任意组合。示例性的移动设备130-1可以包括但不限于智能手机、个人数码助理(Personal DigitalAssistance，PDA)、收银机、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备、显示增强设备等或其任意组合。在一些实施例中，终端130可以将获取到的数据发送至文本关键内容提取系统100中的一个或多个设备。例如，终端130可以将数据传输至处理设备110或存储设备140。在一些实施例中，数据可以是与用户所输入的问题的相关数据。

存储设备140可以存储数据和/或指令。在一些实施例中，存储设备140可以存储从终端130采集到的数据。该数据可以是与用户相关联的数据，包括但不限于用户的账户信息、用户的偏好信息、用户的历史咨询信息等一种或多种的任意组合。在一些实施例中，该数据也可以是与用户所输入的文本内容的相关数据，例如，用户历史查询文本内容的点击量、用户对提取文本内容的点赞量、收藏量、转发量等。在一些实施例中，存储设备140可以存储文本关键内容提取过程中产生的数据。例如，存储设备140可以用于存储拼接文档、拼接文档编码后的句向量、拼接文档中每个与文本内容对应的分隔符的预测值等。在一些实施例中，存储设备140可以存储供处理设备110执行或使用的数据和/或指令，处理设备110可以通过执行或使用所述数据和/或指令以实现本说明书中的示例性方法。在一些实施例中，存储设备140可以与网络120连接实现与文本关键内容提取系统100中的一个或多个部件(例如，处理设备110、终端130等)之间的通信。文本关键内容提取系统100的一个或多个部件可以通过网络120访问存储在存储设备140中的数据或指令。在一些实施例中，存储设备140可以直接与文本关键内容提取系统100的一个或多个部件(例如，处理设备110、终端130等)连接或通信。在一些实施例中，存储设备140可以是处理设备110的一部分。在一些实施例中，存储设备140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。在一些实施例中，存储设备140可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。例如，本说明书实施例中一些算法或者数据可以存储在某个云平台上，处理设备110通过网络访问这些算法或者数据，以实现整个平台的算法或者数据的统一与交互。特别的，一些历史数据可以统一存储在平台的一个云平台上，以便多个处理设备110或者终端130访问或者更新，以便保证数据的实时性和跨平台使用。例如，终端130可以将用户输入的某一问题发布到某个云平台上，处理设备110可以访问该云平台，根据多个终端130所上传的数据执行文本关键内容的提取。

图2是根据本说明书的一些实施例所示的示例性处理设备的框图。处理设备110可以包括用来实现本说明书实施例中所描述的系统的任意部件。例如，处理设备110可以通过硬件、软件程序、固件或其组合实现。为了方便起见，图中仅绘制了一个处理设备，但是本说明书实施例所描述的与文本关键内容提取系统100相关的计算功能可以以分布的方式、由一组相似的平台所实施，以分散系统的处理负荷。

在一些实施例中，处理设备110可以包括处理器210、存储器220、输入/输出部件230和通信端口240。在一些实施例中，所述处理器(例如，CPU)210，可以以一个或多个处理器的形式执行程序指令。在一些实施例中，所述存储器220可以包括不同形式的程序存储器和数据存储器，例如，硬盘、只读存储器(ROM)、随机存储器(RAM)等，用于存储由计算机处理和/或传输的各种各样的数据文件。在一些实施例中，所述输入/输出部件230可以用于支持处理设备110与其他部件之间的输入/输出。在一些实施例中，所述通信端口240可以与网络连接，用于实现数据通信。示例性的处理设备可以包括存储在只读存储器(ROM)、随机存储器(RAM)和/或其他类型的非暂时性存储介质中的由处理器210执行的程序指令。本说明书实施例的方法和/或流程可以以程序指令的方式实现。处理设备110也可以通过网络通讯接收本说明书中披露的程序和数据。

为理解方便，图2中仅示例性绘制了一个处理器。然而，需要注意的是，本说明书实施例中的处理设备110可以包括多个处理器，因此本说明书实施例中描述的由一个处理器实现的操作和/或方法也可以共同地或独立地由多个处理器实现。例如，如果在本说明书中，处理设备110的处理器执行步骤1和步骤2，应当理解的是，步骤1和步骤2也可以由处理设备110的两个不同的处理器共同地或独立地执行(例如，第一处理器执行步骤1，第二处理器执行步骤2，或者第一和第二处理器共同地执行步骤1和步骤2)。

图3是根据本说明书一些实施例所示的训练文本关键内容提取模型系统的模块图。在一些实施例中，训练文本关键内容提取模型系统300可以由处理设备110实现。在一些实施例中，训练文本关键内容提取模型系统300可以用于基于问题和拼接文档训练初始神经网络模型得到文本关键内容提取模型。如图3所示，训练文本关键内容提取模型系统300可以包括获取模块310、第一处理模块320、训练模块330和优化模块340。

获取模块310可以用于获取若干个训练样本。在一些实施例中，训练样本可以包括问题和拼接文档，拼接文档可以包括对应于问题的关键内容、干扰内容以及与关键内容和干扰内容对应的分隔符。在一些实施例中，关键内容和干扰内容对应的分隔符可以用于表示所述关键内容和干扰内容在所述拼接文档中的位置。在一些实施例中，获取模块310也可以用于基于获取的问题和文本内容构建拼接文档。具体的，获取模块310可以用于获取多个问题答案对，问题答案对可以包括问题和对应的关键内容。获取模块310可以用于从多个问题答案对中选取目标问题答案对，基于目标答案对中的目标问题从知识库中召回若干个干扰内容。获取模块310可以用于将目标答案对中的与目标问题对应的关键内容和召回的若干个干扰内容进行拼接得到拼接文档。其中，拼接文档中的每一内容之间用分隔符连接。

第一处理模块320可以用于基于问题和拼接文档，利用机器阅读模型处理得到对应的表示向量。在一些实施例中，机器阅读模型可以为BERT模型。

训练模块330可以用于利用表示向量训练初始模型得到文本关键内容提取模型。其中，文本关键内容提取模型的输出为拼接文档中与每一内容对应的分隔符的预测值。在一些实施例中，预测值可以用于表示拼接文档中的每一内容为关键内容的概率。

优化模块340可以用于基于预测值，构建损失函数，迭代优化文本关键内容提取模型。在一些实施例中，优化模块340可以基于同一训练样本中的第一预测值与每一第二预测值的差异进行汇总。其中，第一预测值为与关键内容对应的分隔符的预测值，第二预测值为与干扰内容对应的分隔符的预测值。在一些实施例中，优化模块340可以基于汇总值构建损失函数。在一些实施例中，优化模块340还可以对于满足预设条件的差异，缩小其对损失函数值的影响。

应当理解，图3所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于训练文本关键内容提取模型系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，例如，图3中披露的获取模块310、第一处理模块320、训练模块330和优化模块340可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图4是根据本说明书一些实施例所示的训练文本关键内容提取模型方法的示例性流程图。在一些实施例中，训练文本关键内容提取模型方法400可以由训练文本关键内容提取模型系统300执行。在一些实施例中，训练文本关键内容提取模型方法400中的一个或以上步骤可以在图1所示的系统100中实现。例如，训练文本关键内容提取模型方法400中的一个或以上步骤可以作为指令的形式存储在存储设备120中，并被处理设备110调用和/或执行。

步骤410，获取若干个训练样本，所述训练样本包括问题和拼接文档。在一些实施例中，该步骤410可以由获取模块310执行。

在一些实施例中，训练样本可以包括问题和拼接文档。具体的，拼接文档可以由三部分内容组成，分别是与问题对应的关键内容、与问题无关的干扰内容以及与关键内容和干扰内容对应的分隔符。其中，分隔符用于表示关键内容和干扰内容在拼接文档中的位置，因此，拼接文档中的每一内容之间均用分隔符进行连接。在一些实施例中，拼接文档可以是使用说明文本、使用帮助文本等。在一些实施例中，可以基于具体的拼接文档预设一批常见的问题，所有问题在同一份拼接文档里均有对应的文本关键内容。在一些实施例中，拼接文档也可以是基于用户点击的反馈数据拼接成的文档。具体的，用户的反馈数据可以包括用户输入的问题以及对应回答的答案。

下面以图7为例阐述一个训练样本的构成：图7是根据本说明书一些实施例所示的某一训练样本的示意图，图7中训练样本的目标答案对为：目标问题：“借呗还款失败”，与目标问题对应的关键内容：“借呗无法还款”。基于目标答案对中的目标问题从知识库中召回9个干扰内容，如“花呗无法还款”、“信用卡无法还款”、“没钱还款”等。将目标答案对中与目标问题对应的关键内容与召回的9个干扰内容进行拼接，并用对应的分隔符(如$1、$2、$3等)进行连接得到拼接文档。拼接文档中与每一内容对应的分隔符可以用于表示每一内容在拼接文档中的位置，例如，$1可以用于表示干扰内容“花呗无法还款”在拼接文档中处于文档的首句位置。在一些实施例中，知识库中可以包含有多个由用户点击反馈数据构成的问题答案对，如图8所示，图8是根据本说明书一些实施例所示的某一知识库的示意图，图8中每个问题都有一个对应的关键内容。例如，问题：“1.0视力相当于多少”，对应的关键内容：“矫正视力1.0是多少度”。

在一些实施例中，还可以对与训练样本中与目标问题对应的关键内容及其对应的分隔符进行标记，如图7中所示的，可以对与目标问题对应的关键内容及其对应的分隔符“S2借呗无法还款”进行标记。在一些实施例中，训练样本的标记过程可以通过人工或计算机程序进行。

在一些实施例中，获取模块310可以从处理设备110、存储设备120、终端130、网络140等设备中获取由用户的反馈数据构造的问题答案对。

步骤420，基于问题和拼接文档，利用机器阅读模型处理得到对应的表示向量。在一些实施例中，步骤420可以由第一处理模块320执行。

在一些实施例中，第一处理模块320可以利用机器阅读模型将问题文本或拼接文档全文的每一个字符生成一个对应的字符编码向量，最后合成一个问题表征向量或拼接文档全文表征向量。在一些实施例中，机器阅读模型可以是BERT模型。相应的，编码得到的问题表征向量表征了问题文本的语义信息，拼接文档全文表征向量表征了文本内容的全部全文语义信息。在一些实施例中，拼接文档的全文表征向量中还包含了与每个文本内容对应的分隔符的表征向量，与每个文本内容对应的分隔符的表征向量可以表示该文本内容的所在位置。在一些实施例中，第一处理模块320还可以根据问题表征向量和拼接文档全文表征向量生成合并向量，作为训练样本的特征值。在一些实施例中，第一处理模块320可以采用直接拼接问题表征向量和拼接文档全文表征向量的方式生成合并向量，也可以采用一种神经网络模型，将问题表征向量和拼接文档全文表征向量作为一个全连接层的输入的方式，生成合并向量。

步骤430，利用表示向量训练初始模型得到文本关键内容提取模型，其中，文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值。在一些实施例中，步骤430可以由训练模块330执行。

在一些实施例中，根据问题表征向量和拼接文档全文表征向量生成的合并向量可以包含问题和拼接文档全文的全部信息，即可以作为训练样本的特征值，拼接文档中与关键内容对应的分隔符的标记序列可以作为训练样本的标识，采用有监督的学习算法对训练样本进行训练，得到文本关键内容提取模型。在训练文本关键内容提取模型时，可以将文本全文表征向量和问题表征向量的合并向量作为输入值，将拼接文档中每个与文本内容对应的分隔符的预测值作为输出值。在一些实施例中，拼接文档中每个与文本内容对应的分隔符的预测值可以用于表示每个文本内容作为关键内容的概率值。在一些实施例中，可以将拼接文档中与关键内容对应的分隔符的预测值标记为最大值。例如，图7中的关键内容及其对应的分隔符为“$2借呗无法还款”，可以将其输出的预测值标记为1。

在一些实施例中，在得到拼接文档中与每一内容对应的分隔符的预测值后，还可以利用多层感知机(Multilayer Perceptron，MLP)将有特殊标识的与文本关键内容对应的分隔符的向量提取出来，然后再利用Sigmoid函数将对应的分隔符向量转化为概率。

步骤440，基于预测值，构建损失函数，迭代优化文本关键内容提取模型。在一些实施例中，步骤440可以由优化模块340执行。

在一些实施例中，可以基于同一训练样本中的第一预测值和每一个第二预测值间的差异进行汇总，再基于汇总值构建损失函数。其中，第一预测值可以是指基于拼接文档中的关键内容及其对应的分隔符的表示向量，经训练后的文本关键内容提取模型处理得到的与关键内容对应的分隔符的预测值，第二预测值可以是指基于拼接文档中干扰内容及其对应的分隔符的表示向量，经训练后的文本关键内容提取模型处理得到与干扰内容对应的分隔符的预测值。在一些实施例中，同一训练样本中的第一预测值和第二预测值间的差异可以是指第一预测值与第二预测值做差得到的差值。例如，第一预测值可以标记为1，第二预测值为0.8，则第一预测值和第二预测值间的差异可以是-0.2。又例如，第一预测值标记为1，第二预测值为0.7，则第一预测值和第二预测值间的差异可以为-0.3。在一些实施例中，同一训练样本中的第一预测值和第二预测值间的差异也可以是指第一预测值与第二预测值做商得到的比值。例如，第一预测值可以标记为1，第二预测值为0.8，则第一预测值和第二预测值间的差异可以是1/0.8＝1.25。又例如，第一预测值标记为1，第二预测值为0.7，则第一预测值和第二预测值间的差异可以为1/0.7＝1.43。在一些实施例中，汇总值可以是将同一训练样本中第一预测值与多个第二预测值之间的差值进行求和得到的值。在一些实施例中，汇总值也可以是将同一训练样本中第一预测值与多个第二预测值之间的比值进行乘积得到的值。以同一样本中的第一预测值和第二预测值间的差异为差值，汇总值为求和为例，构建的损失函数的计算公式如下：

其中，p[j]为拼接文档中与关键内容对应的分隔符的预测值(即第一预测值)；p[i]为拼接文档中与干扰内容对应的分隔符的预测值(即第二预测值)。例如，第一预测值与两个第二预测值的差值分别为-0.2和-0.3，则汇总值为-0.2+(-0.3)＝-0.5。可见，利用此方法构建损失函数，可以减少依赖训练样本数目，提高训练效率。

在一些实施例中，当同一训练样本中的第一预测值与第二预测值间的差异满足某一预设条件时，可以缩小其对损失函数的影响。例如，某一预设条件可以是第一预测值与第二预测值的差值小于某个阈值。又例如，某一预设条件也可以是第一预测值与第二预测值的比值小于某个阈值。在一些实施例中，某一预设条件可以是处理设备110默认设置，也可以根据不同情况进行调整。缩小第一阈值与第二阈值间的差异对损失函数的影响可以是将第一预测值与第二预测值的差值计为0，也可以是第一预测值与第二预测值的比值成比例的减小。例如，当第一预测值与第二预测值间的差值小于某一阈值时，可以引入某一常数(如margin)，缩小其对损失函数的影响。基于此，构建的损失函数的计算公式如下：

其中，p[j]为拼接文档中与关键内容对应的分隔符的预测值(即第一预测值)；p[i]为拼接文档中与干扰内容对应的分隔符的预测值(即第二预测值)；margin为0-1之间的常数。

如果p[i]-p[j]＜margin，即输出的与关键内容对应的分隔符的预测值不突出，这时p[i]-p[j]+margin>0，则max>0，相应使得L的值较大，优化过程不理想，需要继续对模型进行优化。

如果p[i]-p[j]≥margin，即输出的与关键内容对应的分隔符的预测值已经足够突出，这时p[i]-p[j]+margin<0，则max＝0，相应使得L的值为0，优化过程较理想，不需要再对模型进行优化。

可见，利用此方法构建损失函数，优化的目标就是使关键内容相对其他干扰内容足够突出，引入margin常数，可以使得损失函数的变化曲线更加平缓，从而使得模型的迭代优化过程更加精确。

应当注意的是，上述有关训练文本关键内容提取模型方法400的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对训练文本关键内容提取模型方法400进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，训练文本关键内容提取模型方法400可以定期(如每天、每周等)获取用户的反馈数据以更新训练样本。

图5是根据本说明书一些实施例所示的示例性文本关键内容提取系统的模块图。在一些实施例中，文本关键内容提取系统500可以由处理设备110实现。在一些实施例中，文本关键内容提取系统500可以用于基于用户输入的问题，利用训练后的文本关键内容提取模型处理得到与问题对应的关键内容。如图5所示，文本关键内容提取系统500可以包括召回模块510、拼接模块520、第二处理模块530以及确定模块540。

召回模块510可以用于基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容。其中，文本内容可以包括与问题对应的关键内容和与问题无关的干扰内容。

拼接模块520可以用于将文本内容进行拼接得到拼接文档。具体的，拼接文档中的每一内容用分隔符连接。

第二处理模块530可以用于基于问题和拼接文档，利用机器阅读模型处理得到对应的表示向量。在一些实施例中，机器阅读模型可以是BERT模型。

确定模块540可以用于用本申请实施例中任一项所述方法得到的文本关键内容提取模型处理表示向量，得到与问题对应的关键内容。在一些实施例中，确定模块540还可以利用训练后的文本关键内容提取模型处理对应的表示向量，得到对应的预测值，并对预测值进行排序，选取排名靠前的预测值对应的文本内容作为关键内容。

需要注意的是，以上对于文本关键内容提取系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，例如，图5中披露的召回模块510、拼接模块520、第二处理模块530和确定模块540可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图6是根据本说明书一些实施例所示的文本关键内容提取方法的示例性流程图。在一些实施例中，文本关键内容提取方法600可以由文本关键内容提取系统500执行。在一些实施例中，文本关键内容提取方法600中的一个或以上步骤可以在图1所示的系统100中实现。例如，文本关键内容提取方法600中的一个或以上步骤可以作为指令的形式存储在存储设备120中，并被处理设备110调用和/或执行。

步骤610，基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容。在一些实施例中，该步骤610可以由召回模块510执行。

在一些实施例中，知识库中可以包括整篇文档的文本内容，也可以是基于用户点击的反馈数据的文本内容。在一些实施例中，召回模块510可以对用户输入的问题和知识库中所有的文本内容采用词袋模型进行表示，并基于问题-文本内容的词袋向量筛选出与问题对应的文本内容。在一些实施例中，问题和文本内容的词袋向量将被输入到相似文本内容筛选模型中，并抽取出一些与问题最相似的文本内容，其中，在相似文本内容筛选模型中可以通过计算问题和文本内容的词袋向量的相似度来抽取出最相似的文本内容，例如，可以利用两个向量夹角的余弦函数来计算。仅作为示例，用户输入的问题为“借呗还款失败”，基于用户输入的问题可以从知识库中召回若干个相似的文本内容，如“花呗无法还款”、“借呗无法还款”、“信用卡无法还款”、“没钱还款”等。在一些实施例中，用户可以通过语音或文本形式输入问题。在一些实施例中，知识库中的文本内容可以实时更新或定时更新。

步骤620，拼接文本内容得到拼接文档，所述拼接文档用分隔符连接。在一些实施例中，步骤620可以由拼接模块520执行。

在一些实施例中，从知识库中召回的若干个文本内容都有与其对应的分隔符，用来表示该文本内容的位置。例如，分隔符可以放在对应文本内容的开头，也可以放在对应文本内容的结尾。在一些实施例中，拼接模块520可以将这些文本内容和对应的分隔符拼接最终形成拼接文档。

步骤630，基于问题和拼接文档，利用机器阅读模型处理得到对应的表示向量。在一些实施例中，步骤630可以由第二处理模块530执行。

在一些实施例中，第二处理模块530可以对问题文本或拼接文档全文的每一个字符生成对应的字符编码向量，最后合成一个问题表征向量或拼接文档全文表征向量。在一些实施例中，可以利用BERT模型对问题文本或拼接文档全文进行处理得到对应的向量表示。在一些实施例中，编码得到的问题表征向量可以表征问题文本的语义信息，拼接文档全文表征向量可以表征文本内容的全部全文语义信息。在一些实施例中，拼接文档的全文表征向量中还包含了与每个文本内容对应的分隔符的表征向量，与每个文本内容对应的分隔符的表征向量可以表示该文本内容的所在位置。

步骤640，用训练后的文本关键内容提取模型处理表示向量，得到与问题对应的关键内容。在一些实施例中，步骤640可以由确定模块540执行。

在一些实施例中，确定模块540可以基于问题表征向量和拼接文档全文表征向量，利用训练后的文本关键内容提取模型处理得到对应的预测值。在一些实施例中，预测值可以表示拼接文档中每个文本内容为关键内容的概率。在一些实施例中，可以对预测值进行排序，选取排名靠前的预测值对应的文本内容作为文本关键内容。

应当注意的是，上述有关文本关键内容提取方法600的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对文本关键内容提取方法600进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，步骤610和步骤620可以合并为一个步骤，用于同时实现基于问题召回文本内容和拼接文本内容。

本说明书实施例可能带来的有益效果包括但不限于：(1)利用用户反馈的数据和通过其他方式获取的文本数据作为训练样本，能够降低机器阅读数据构造的成本；(2)基于目标问题从知识库中召回若干个文本内容来构造阅读数据，能够提升机器阅读数据的质量和难度；(3)将阅读数据中的每一文本内容用用对应的分隔符进行连接，将机器阅读转换为句子级别的阅读，可以避免结果预测到句子中间。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种训练文本关键内容提取模型的方法，包括：

获取若干个训练样本，所述训练样本包括问题和拼接文档，所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符；

基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；

利用所述表示向量训练初始模型得到文本关键内容提取模型，其中，所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值；

基于所述预测值，构建损失函数，迭代优化所述文本关键内容提取模型。

2.如权利要求1所述的方法，所述基于所述预测值，构建损失函数包括：

基于所述同一训练样本中的第一预测值与每一第二预测值的差异进行汇总，其中，所述第一预测值为与所述关键内容对应的分隔符的预测值；所述第二预测值为与所述干扰内容对应的分隔符的预测值；

基于所述汇总值构建损失函数。

3.如权利要求2所述的方法，所述基于所述汇总值构建损失函数，还包括：

对于满足预设条件的差异，缩小其对损失函数值的影响。

4.如权利要求1所述的方法，所述与所述关键内容和干扰内容对应的分隔符用于表示所述关键内容和干扰内容在所述拼接文档中的位置。

5.如权利要求1所述的方法，所述预测值用于表示所述拼接文档中的每一内容为关键内容的概率。

6.如权利要求1所述的方法，所述拼接文档包括：

获取多个问题答案对，所述问题答案对包括问题和对应的关键内容；

从所述多个问题答案对中选取目标问题答案对，基于所述目标答案对中的目标问题从知识库中召回若干个干扰内容；

将所述目标答案对中的与目标问题对应的关键内容和所述召回的若干个干扰内容进行拼接得到拼接文档，所述拼接文档中的每一内容之间用分隔符连接。

7.如权利要求1所述的方法，所述机器阅读模型为BERT模型。

8.一种文本关键内容提取方法，所述方法包括：

基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容，其中，所述文本内容包括与所述问题对应的关键内容和与所述问题无关的干扰内容；

将所述文本内容进行拼接得到拼接文档，所述拼接文档中的每一内容用分隔符连接；

用权利要求1-7任一项所述方法得到的文本关键内容提取模型处理所述表示向量，得到与所述问题对应的关键内容。

9.如权利要求8所述的方法，所述得到与所述问题对应的关键内容包括：

用权利要求1-7任一项所述方法得到的文本关键内容提取模型处理所述表示向量，得到对应的预测值；

对所述预测值进行排序，选取排名靠前的预测值对应的文本内容作为关键内容。

10.如权利要求8所述的方法，所述机器阅读模型为BERT模型。

11.一种训练文本关键内容提取模型的系统，包括：

获取模块，用于获取若干个训练样本，所述训练样本包括问题和拼接文档，所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符；

第一处理模块，用于基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；

训练模块，用于利用所述表示向量训练初始模型得到文本关键内容提取模型，其中，所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值；

优化模块，用于基于所述预测值，构建损失函数，迭代优化所述文本关键内容提取模型。

12.如权利要求11所述的系统，所述基于所述预测值，构建损失函数，所述优化模块进一步用于：

基于所述同一训练样本中的第一预测值与每一第二预测值的差异进行汇总，其中，所述第一预测值为与所述关键内容对应的分隔符的预测值，所述第二预测值为与所述干扰内容对应的分隔符的预测值；

基于所述汇总值构建损失函数。

13.如权利要求12所述的系统，所述优化模块还被用于：

对于满足预设条件的差异，缩小其对损失函数值的影响。

14.如权利要求11所述的系统，所述关键内容和干扰内容对应的分隔符用于表示所述关键内容和干扰内容在所述拼接文档中的位置。

15.如权利要求11所述的系统，所述预测值用于表示所述拼接文档中的每一内容为关键内容的概率。

16.如权利要求11所述的系统，所述拼接文档包括：

17.如权利要求11所述的系统，所述机器阅读模型为BERT模型。

18.一种文本关键内容提取系统，所述系统包括：

召回模块，用于基于用户输入的问题，从知识库中召回至少一个与所述问题对应的文本内容，其中，所述文本内容包括与所述问题对应的关键内容和与所述问题无关的干扰内容；

拼接模块，用于将所述文本内容进行拼接得到拼接文档，所述拼接文档中的每一内容用分隔符连接；

第二处理模块基于所述问题和所述拼接文档，利用机器阅读模型处理得到对应的表示向量；

确定模块，用于用权利要求11-17任一项所述系统得到的文本关键内容提取模型处理所述表示向量，得到与所述问题对应的关键内容。

19.如权利要求18所述的系统，所述确定模块进一步用于：

用权利要求11-17任一项所述系统得到的文本关键内容提取模型处理所述表示向量，得到对应的预测值；

20.如权利要求18所述的系统，所述机器阅读模型为BERT模型。

21.一种计算设备，其中，所述计算设备包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如权利要求1～10中任一项所述的方法。

22.一种存储介质，其中，所述存储介质用于存储计算机指令，当计算机读取所述存储介质中的计算机指令后，执行如权利要求1～10中任一项所述的方法。