CN112800202A

CN112800202A - 文档处理方法及装置

Info

Publication number: CN112800202A
Application number: CN202110159758.XA
Authority: CN
Inventors: 姬子明; 李长亮; 李小龙
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14

Abstract

本申请提供文档处理方法及装置，其中所述文档处理方法包括：接收用户提交的目标问题；基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。

Description

文档处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及文档处理方法及装置、计算设备和计算机可读存储介质。

背景技术

问答系统(Question Answering System,QA)是信息检索系统的一种高级形式，能准确地用自然语言回答用户用自然语言提出的问题，可以满足人们对快速、准确地获取信息的需求。

目前，问答系统会根据用户提出的问题检索出一定数量的文档，并对每篇文档都选出预测出的概率最高的答案，但这些文档中哪个文档中的答案更准确却无法很好的辨别，因为，每篇文档都是独立进行答案预测的，并且文档之间没有交互，所以文档之间答案的概率也没有可比性。

因此，如何解决上述问题，如何让更准确的答案对应的文档排在更靠前的位置就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了文档处理方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种文档处理方法，包括：

接收用户提交的目标问题；

基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；

将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；

针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；

根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。

根据本申请实施例的第二方面，提供了一种文档处理装置，包括：

接收模块，被配置为接收用户提交的目标问题；

检索模块，被配置为基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；

拼接模块，被配置为将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；

确定模块，被配置为针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；

排序模块，被配置为根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述文档处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现所述文档处理方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，所述计算机指令被芯片执行时实现所述文档处理方法的步骤。

本申请实施例提供的文档处理方法，通过接收用户提交的目标问题，并基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。本申请提供的文档处理方法，解决了基于目标问题检索出的至少两篇第一文档之间，无法确定哪个第一文档的答案更准确的缺陷，通过将每篇第一文档中第一答案信息拼接，整合成为第二文档，并对第二文档进行答案预测，并将预测的目标答案的准确率的高低对第一文档进行排序，达到了将更准确的答案对应的文档排序更靠前的效果，同时，在第二文档中预测出的目标答案数量会小于等于第一文档的数量，因此，会过滤掉一些没有准确答案的文档，缓解了答非所问的情况，有利于提升问答的准确率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的一种文档处理方法的流程图；

图3是本申请实施例提供的一种文档处理方法中实现两种第一答案信息拼接方式的示意图；

图4是本申请实施例提供的应用于实际场景中的一种文档处理方法的流程图；

图5是本申请实施例提供的一种文档处理装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

排序学习(Learning to rank，LTR)，主要是使用机器学习的方法学出文档的排序。

机器阅读理解(Machine Reading Comprehension，MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。

问答(Question Answer，QA)：等同于机器阅读理解任务。

在本申请中，提供了文档处理方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示的一种文档处理方法中的步骤。图2示出了本申请一实施例提供的一种文档处理方法的流程图，具体包括以下步骤：

步骤202：接收用户提交的目标问题。

其中，目标问题为用户所提交的需要解答的问题，具体的，目标问题可以是文本的形式、也可以是语音的形式，在目标问题为文本形式的情况下，其可以是一句话、一段文字等各种篇幅的文本，也可以是中文、英文、日文等各种语言的文本，在此不做限制，而在目标问题为语音形式的情况下，需要将目标问题通过语音识别转换为文本形式的目标问题。

实际应用中，用户可以在问答系统或搜索网页中提交所述目标问题，以便通过检索获得针对该目标问题的答案或答案文档。

在本申请实施例中，以用户提交的目标问题q为例，进行解释说明。

步骤204：基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档。

其中，所述第一文档，可以理解为通过对目标问题进行检索，获得的包含目标问题的答案的文档，实际应用中，可以针对目标问题中的关键字/词进行检索，从而获得包含目标问题答案的文档(即第一文档)。

可选的，所述基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档，包括步骤2042至步骤2044：

2042、对所述目标问题进行预处理，将预处理后的问题作为所述目标问题。

可选的，所述预处理包括：分词处理、纠错处理、词性标注处理、多意图识别处理、问句改写处理和/或情感分析处理等，其中，分词处理用于对目标问题进行分词，获得目标问题中包含的单词、纠错处理用于对目标问题中的错别字进行纠正，因为错别字可能会对文档检索以及答案预测造成影响，所以需要先进行纠错动作。具体实施时，可以基于字典和预设规则的纠错，也可以采用基于Transformer(翻译)的纠错模型，在此不做限制，词性标注处理可以是对单词的词性(比如动词、名词等)进行标注，此外，还可以对与单字在单词中的位置进行标注等，多意图识别处理是将一句话里有多个问题的意图进行分类，并给予不同意图不同的回答；问句改写用于对名词的缩写和/或全称做改写；情感分析是通过句法分析去判断用户的话语是肯定意图或是否定意图，本申请实施例，通过对目标问题进行预处理，使得目标问题清晰明了，且符合下述检索模块的输入。

2044、将所述目标问题输入检索模块进行检索，获得所述至少两篇第一文档。

具体的，所述检索模块，用于根据目标问题在文档库中查找相关的答案文档，即第一文档，具体实施时，检索模块，可以是通过字面检索和/或深度语义匹配等方式实现，其中，字面检索的方式也是多种多样的，比如，字面检索可以采用开源的搜索引擎实现对目标问题的检索、也可以根据在预设的文档库中建立的问题索引，实现对目标问题进行检索。而深度语义匹配，可以理解为通过将目标问题跟预设的文档库里的每一个问题做相似度计算，从而得出最为相似的几个问题，进而获取这些问题对应的文档，作为第一文档，实际应用中，在不同的检索场景中，可以根据不同的需求选择不同的检索策略或方案，在此不做限制。

沿用上例，对目标问题q进行预处理，将预处理后的目标问题q输入检索模块，检索模块根据目标问题q从数据库(如文档库)中筛选出n篇与目标问题q有相关性的文档，这n篇文档分别为：doc-1，doc-2，doc-3，……，doc-n。

本申请实施例，通过对目标问题进行预处理，并对预处理后的目标问题通过检索模块检索包含其答案的第一文档，保障了针对目标问题进行检索的准确性，并提高了第一文档的正确性。

步骤206：将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档。

其中，所述第一答案信息，可以理解为第一文档中包含针对目标问题的答案的信息，在第一文档中包含多个答案信息的情况下，第一答案信息，可以理解为第一文档中对于目标问题的全部的答案信息的集合，或者第一问答中概率最大的成为目标问题的一个或多个答案信息的集合等，在此不做限制，并将每篇第一文档答案概率最大的一个或多个答案信息(即第一答案信息)抽取出来进行拼接，生成第二文档。

实际应用中，所述将所述至少两篇第一文档中的第一答案信息进行拼接之前，还包括：

基于所述目标问题分别对所述至少两篇第一文档进行答案预测，获得每篇第一文档中第一预设数量的第一答案以及所述第一答案对应的第一答案概率；

根据所述第一答案概率，在所述每篇第一文档中确定所述第一答案信息。

具体的，基于所述目标问题分别对所述至少两篇第一文档进行答案预测，是指在所述至少两篇第一文档中对目标问题的答案进行预测，其中，第一预设数量，是指预设的在每篇第一文档中针对目标问题进行答案预测，获得的答案的数量，所述第一答案，是指在第一文档中预测出的目标问题的答案，相应的，所述第一答案概率，可以理解为每篇第一文档中每个第一答案是准确答案的概率，实际应用中，每篇第一文档中各个第一答案的概率之和为1。

基于此，根据所述第一答案概率，在所述每篇第一文档中确定所述第一答案信息，可以将第一答案对应的第一答案概率最高的一个第一答案所在的语句，作为第一答案信息，还可以将第一答案对应的第一答案概率最高的两个第一答案对所在的语句，作为第一答案信息，此外，还可以采用其他方式确定第一答案信息，在此不做限制。

本申请实施例，基于目标问题分别对至少两篇第一文档进行答案预测，并根据预测出的第一答案对应的第一答案概率，确定第一答案对应的第一答案信息，实现了在第一文档中抽取包含最佳答案的文档信息(即第一答案信息)，以便后续基于抽取出的文档信息进行分析。

此外，所述将所述至少两篇第一文档中的第一答案信息进行拼接之前，还可以通过问题模型对第一文档中针对目标问题进行答案预测，从而获得第一答案信息，具体包括步骤2062至步骤2068：

2062、将所述目标问题以及每篇第一文档组成问题文档对。

其中，问题文档对，可以理解为针对下述问答模型的输入，比如，由目标问题q以及目标问题对应的第一文档doc-1组成的问题文档对(q，doc-1)。

沿用上例，将目标问题q与上述检索出的n篇文档：doc-1，doc-2，……，doc-n，组成问题文档对，组成的问题文档对分别为(q，doc-1)，(q，doc-2)，(q，doc-3)，……，(q，doc-n)。

2064、将所述问题文档对输入问答模型进行答案预测，获得每篇第一文档中第一预设数量的第一答案以及所述第一答案对应的第一答案概率。

具体的，问答模型，可以为基于阅读理解的问答模型，该问题模型可通过卷积神经网络进行建模，并对建模后的初始问答模型进行模型训练后获得的。

沿用上例，将问题文档对(q，doc-1)，(q，doc-2)，(q，doc-3)，……，(q，doc-n)，分别输入问答模型，问答模型在每篇文档中抽取m个答案，并确定每个答案对应的概率值，且m个答案的概率值之和为1。

具体的，在n为2的情况下，先将问题文档对(q，doc-1)输入问答模型，则问答模型在文档doc-1中抽取m个答案，这m个答案分别为m1-d1，m2-d1，m3-d1，……，mm-d1，并确定这m个答案对应的概率值分别为：p1-d1，p2-d1，p3-d1，……，pm-d1，其中p1-d1+p2-d1+p3-d1+……+pm-d1＝1；

再将问题文档对(q，doc-2)输入问答模型，则问答模型在文档doc-2中抽取m个答案，这m个答案分别为m1-d2，m2-d2，m3-d2，……，mm-d2，并确定这m个答案对应的概率值分别为：p1-d2，p2-d2，p3-d2，……，pm-d2，其中，p1-d2+p2-d2+p3-d2+……+pm-d2＝1。

需要说明的是，由于每个问题文档对是独立输入到文档模型中进行答案预测的，因此，每篇文档中的答案之间的概率是没有可比性的。

2066、根据所述第一答案概率，确定所述每篇第一文档中的目标第一答案。

其中，目标第一答案，可以理解为根据第一答案概率在每篇第一问答中选取出来的答案概率最高的答案。

沿用上例，在doc-1中抽取的m个答案中，答案m2-d1对应的答案概率p2-d1最高，则将答案m2-d1确定为文档doc-1中的目标第一答案；在doc-2中抽取的m个答案中，答案m1-d2对应的答案概率p1-d2最高，则将m1-d2确定为文档doc-1中的目标第一答案，类似的，将m3-d3确定为文档doc-3中的目标第一答案，将m1-d4确定为文档doc-4中的目标第一答案，将m2-d5确定为文档doc-5中的目标第一答案等。

2068、基于所述目标第一答案以及所述目标第一答案所属的第一文档，在所述每篇第一文档中确定所述第一答案信息。

具体的，确定第一答案信息，可以理解为根据目标第一答案在第一答案所属的第一文档中，抽取该目标第一答案对应的答案信息，实际应用中，在第一文档中抽取第一答案信息的方式是多种多样的，在此不做限制，比如在第一文档中直接抽取目标第一答案所在的语句，将该语句作为第一答案信息，此外，还可以在第一文档中抽取目标第一答案所在的语句，并抽取目标第一答案之前的两个语句，将目标第一答案所在的语句以及目标第一答案之前的两个语句共同作为第一答案信息。

沿用上例，基于目标第一答案m2-d1以及其所属的文档doc-1，在doc-1中确定目标第一答案m2-d1对应的答案信息(即第一答案信息)t-d1；并基于目标第一答案m1-d2以及其所属的文档doc-2，在doc-2中确定目标第一答案m1-d2对应的答案信息(即第一答案信息)t-d2。

本申请实施例，通过问答模型对各个第一文档中针对目标问题的第一答案进行预测，且根据第一答案对应的第一答案概率，在各个第一文档中的第一答案中选取目标第一答案，并在第一文档中确定目标第一答案对应的第一答案信息，增加了对第一答案预测的准确性以及预测效率，并进一步增加了确定目标第一答案以及第一答案信息的准确性。

具体实施时，所述基于所述目标第一答案以及所述目标第一答案所属的第一文档，在所述每篇第一文档中确定所述第一答案信息，采用如下方式实现：

在所述每篇第一文档中抽取所述目标第一答案所属的第一语句，以及所述第一语句之前的第二语句、以及所述第一语句之后的第三语句；

将所述第一语句、所述第二语句以及所述第三语句，确定为所述每篇第一文档中的所述第一答案信息。

具体的，所述第二语句，可以是在第一文档中第一语句之前的一个语句或两个语句等，在此不做限制，相应的，第三语句，可以是在第一文档中第一语句之后的一个语句或两个语句等，在此不做限制。

沿用上例，在将答案m2-d1确定为文档doc-1中的目标第一答案之后，对doc-1的处理过程如下：

在文档doc-1中抽取目标第一答案m2-d1所属的语句s1-d1，以及语句s1-d1之前的两个语句s21-d1以及s22-d1，并抽取语句s1-d1之后的两个语句s31-d1以及s32-d1，将s1-d1，s21-d1，s22-d1，s31-d1以及s32-d1，作为文档doc-1中的抽取片段t-d1，即第一答案信息t-d1。

在将m1-d2确定为文档doc-2中的目标第一答案之后，对文档doc-2的处理过程与对doc-1的处理过程类似，在此不做赘述，处理之后，在文档doc-2中的抽取片段t-d2，即第一答案信息t-d2。

本申请实施例，通过将目标第一答案在第一文档中所属的第一语句、第一语句之前的第二语句以及第一语句之后的第三语句确定为第一答案信息，实现了将目标第一答案的所在的上下文信息确定为第一答案信息，提升了第一答案信息的全面性，并增加了后续由第一答案信息拼接成的第二文档的全面性。

沿用上例，将在doc-1中确定目标第一答案m2-d1对应的第一答案信息为t-d1，并在doc-2中确定目标第一答案m1-d2对应的第一答案信息为t-d2的情况下，将第一答案信息t-d1与第一答案信息t-d2进行拼接，生成第二文档doc2。

具体的，将第一答案信息t-d1与第一答案信息t-d2进行拼接时，第一答案信息t-d1与第一答案信息t-d2的拼接顺序可以是任意的，在此不做限定，具体的，可以如图3(a)所示，将第一答案信息t-d1在前，第一答案信息t-d2在后进行拼接(组合)，形成第二文档doc2，也可以如图3(b)所示，将第一答案信息t-d2在前，第一答案信息t-d1在后进行拼接，形成第二文档doc2。

步骤208：针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率。

实际应用中，针对目标问题对第二文档进行答案预测的具体实现，与上述针对目标问题对第一文档进行答案预测的具体实现类似，参考上述针对目标问题对第一文档进行答案预测的具体实现即可，在此不做赘述。

其中，所述目标答案，是指第二文档中针对目标问题的答案，所述目标答案概率，是指各个目标答案成为目标问题的准确答案的概率，具体实施时，第二文档中各个目标答案对应的目标答案概率之和为1。

本申请实施例，通过对各个第一文档中的第一答案信息进行拼接形成的第二文档进行答案预测，实现了将多个第一文档中的答案信息进行比较，进而在多个第一文档中的答案中确定哪个文档中包含的答案更加准确。

沿用上例，先将问题文档对(q，doc2)输入问答模型，则问答模型在文档doc2中抽取m个目标答案，这m个目标答案分别为m1，m2，m3，……，mm，并确定这m个目标答案对应的概率值分别为：p1，p2，p3，……，pm，其中，p1+p2+p3+……+pm＝1。

步骤210：根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。

其中，所述目标文档，是指在第二文档中针对目标问题预测出的目标答案所属的文档，实际应用中，由于在第二文档中预测出的目标答案数量会小于等于第一文档的数量，因此，会过滤掉一些没有准确答案的文档，缓解了答非所问的情况。而将根据目标答案概率对目标答案概率所属的至少两篇目标文档进行排序，实现了按照目标文档中包含的目标答案的准确度，对目标文档进行排序。

具体实施时，根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序，包括步骤2102至步骤2106。

2102、将所述至少两个目标答案按照所述目标答案概率从大到小的顺序进行排序。

具体的，将至少两个目标答案按照目标答案概率从大到小的顺序进行排序，可以理解为将更准确的答案排在更靠前的位置。

沿用上例，将m个目标答案，按照其对应的概率值：p1，p2，p3，……，pm从大到小的顺序进行排列，排序结果为m3、mm，m1，……，m2。

2104、按照排序结果依次确定每个目标答案所属的目标文档，并记录所述所属的目标文档的文档标识。

所述文档标识，是指可以唯一标识一篇文档的标识信息，进一步的，按照排序结果记录目标文档的文档标识，则可以根据所记录的文档标识的前后顺序，明确针对目标文档的排列顺序。

以排在前两个的目标答案m3以及mm为例进行说明，先确定目标答案m3所属的目标文档为doc-2，则记录目标文档doc-2的文档标识doc-2，接着确定目标答案mm所属的目标文档为doc-1，则记录目标文档doc-1的文档标识doc-1。

2106、将所述至少两篇目标文档按照所述文档标识的先后顺序进行排序。

具体的，将目标文档按照文档标识的先后顺序进行排序，实现了将目标文档按照其包含的答案的准确程度进行排序，将包含更准确答案的目标文档排在更靠前，以便更快捷地获得更准确的答案。

沿用上例，在排序之后，按照排序结果，依次确定目标答案m3，mm，m1，……，m2所属的文档，并依次记录各个目标答案所属的文的文档标识为：doc-2，doc-1，doc-5，……，doc-3，将目标文档按照上述记录文档标识的先后顺序对目标文档进行排序，排序结果为doc-2，doc-1，doc-5，……，doc-3。

实际应用中，所述根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序之后，还包括：

按照排序结果对所述至少两篇目标文档进行展示。

具体的，可以在上述根据目标答案概率从高到低的顺序，对至少两个目标答案所属的至少两篇目标文档进行排序之后，按照排序结果对所述至少两篇目标文档进行展示，需要说明的是，按照排序结果对所述至少两篇目标文档进行展示的展示方式是多种多样的，比如将排在第一位的目标文档进行展示等，在此不做限制。

具体实施时，按照排序结果对目标文档进行展示的方式是多种多样的，本申请提供的第一种可选实施方式中，所述按照排序结果对所述至少两篇目标文档进行展示，具体采用如下方式实现：

将排在第一位的目标文档中的目标答案进行展示。

具体的，将排在第一位的目标文档中的目标答案进行展示，实现了向用户展示预测出的最准确的答案，使用户可以直观地看到最为准确的答案，提高了用户对答案的查看效率。

实际应用中，还可以在第二文档中预测出目标答案以及目标答案对应的目标答案概率的基础上，按照目标答案概率对目标答案进行排序之后，直接将排在第一位的目标答案进行展示。

沿用上例，在对目标文档进行排序之后，按照排序结果，将排在第一位的目标文档doc-2中的目标答案m3进行展示。

或者，按照所述排序结果依次对所述至少两篇目标文档中的所述目标答案进行展示。

具体的，将每篇目标文档中的目标答案按照目标文档的排序结果进行展示，实现了将目标答案按照其预测的准确度进行展示，使用户可以直观地基于目标问题获得多个目标答案，并按照目标答案的答案概率对目标答案进行展示，提高了用户的提问体验。

实际应用中，还可以在第二文档中预测出目标答案以及目标答案对应的目标答案概率的基础上，按照目标答案概率对目标答案进行排序之后，直接将目标答案按照排序结果进行展示。

沿用上例，在对目标文档进行排序之后，按照排序结果，依次将目标文档doc-2，doc-1，doc-5，……，doc-3中的目标答案m3，mm，m1，……，m2进行展示。

或者，按照所述排序结果依次对所述至少两篇目标文档进行展示，并将所述目标文档中的所述目标答案按照预设格式进行显示。

其中，所述预设格式，可以是加粗显示，或添加背景色显示，或改变目标答案的字体颜色等，在此不做限制，将目标文档中的目标答案以预设格式进行显示，提高了用户对目标答案的查看效率以及查看体验。

具体的，向用户展示排序好的目标文档，并将每篇目标文档中的目标答案按照预设格式进行展示，使用户在按照准确度查看目标答案的时候，还可以看到目标答案在目标文档中的上下文，以便对目标答案有更深的理解，也能对目标答案的准确度进一步进行分辨。

沿用上例，在对目标文档进行排序之后，按照排序结果依次将目标文档doc-2，doc-1，doc-5，……，doc-3进行展示，并对各个目标文档中的目标答案m3，mm，m1，……，m2加粗进行显示。

此外，本申请提供的第二种可选实施方式中，所述按照排序结果对所述目标文档进行展示，具体采用如下方式实现：

将排在第一位的目标文档中针对所述目标问题预测出的答案概率最高的目标第一答案进行展示。

具体的，将排在第一位的目标文档中针对目标问题预测出的答案概率最高的目标第一答案进行展示，是在将目标文档中的目标答案进行比较之后，选择出包含预测出的最准确答案的目标文档，并将选取出的目标文档中预测出的相对较为准确的答案(目标第一答案)进行展示，这是由于在第一文档中预测出的目标第一答案和在第二文档中预测出的目标答案，可能是不同的，本申请实施例，以第一次在第一文档中预测出的目标第一答案为准，并直接向用户展示排在第一位的目标文档中预测出的最准确的目标第一答案，使用户可以直观地看到最为准确的答案，提高了用户对答案的查看效率。

沿用上例，在对目标文档进行排序之后，按照排序结果，将排在第一位的目标文档doc-2中的目标第一答案m1-d2进行展示。

或者，按照所述排序结果依次对所述至少两篇目标文档中的所述目标第一答案进行展示。

具体的，将每篇目标文档中的目标第一答案按照目标文档的排序结果进行展示，实现了以第一次进行答案预测的预测结果为准，将各个目标文档中的目标第一答案，按照目标文档之间预测答案的答案概率的比对结果进行展示，使用户可以直观地基于目标问题获得多个目标第一答案，并按照目标答案的答案概率对目标第一答案进行展示，提高了用户的提问体验。

沿用上例，在对目标文档进行排序之后，按照排序结果，依次将目标文档doc-2，doc-1，doc-5，……，doc3中的目标第一答案m1-d2，m2-d1，m2-d5，……，m3-d3进行展示。

或者，按照所述排序结果依次对所述至少两篇目标文档进行展示，并将所述至少两篇目标文档中的所述目标第一答案按照预设格式进行显示。

具体的，向用户展示排序好的目标文档，并将每篇目标文档中的目标第一答案按照预设格式进行展示，使用户在按照目标文档之间预测答案的答案概率的比对结果，查看目标第一答案的时候，还可以看到目标第一答案在目标文档中的上下文，以便对目标第一答案有更深的理解，也可以对目标第一答案的准确度进一步进行分辨。

沿用上例，在对目标文档进行排序之后，按照排序结果依次将目标文档doc-2，doc-1，doc-5，……，doc3进行展示，并对各个目标文档中的目标第一答案m1-d2，m2-d1，m2-d5，……，m3-d3加粗进行显示。

综上所述，本申请实施例提供的文档处理方法，在接收到用户提交的目标问题的情况下，基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；并将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；且根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序，本申请提供的文档处理方法，解决了基于目标问题检索出的至少两篇第一文档之间，无法确定哪个第一文档的答案更准确的缺陷，通过将每篇第一文档中第一答案信息拼接，整合成为第二文档，并对第二文档进行答案预测，并将预测的目标答案的准确率的高低对第一文档进行排序，达到了将更准确的答案对应的文档排序更靠前的效果，同时，在第二文档中预测出的目标答案数量会小于等于第一文档的数量，因此，会过滤掉一些没有准确答案的文档，缓解了答非所问的情况，有利于提升问答的准确率。

下述结合图4，以本申请一实施例的一种文档处理方法在实际场景中的应用为例，对所述文档处理方法进行进一步说明。其中，图4示出了本申请一实施例提供的应用于实际场景中的一种文档处理方法的流程图，具体包括以下步骤：

步骤402，接收用户提问的问题。

具体的，该问题可以理解为上述实施例中的目标问题。

步骤404，对用户提问的问题进行预处理，并将预处理后的问题输入检索模块进行检索。

具体的，检索模块在存储文档的数据库中进行检索，获得包含上述问题对应的答案的文档，具体的，该文档可以理解为上述实施例中的第一文档。

步骤406，获得通过检索模块输出的n篇文档。

其中，n篇文档，可以理解为上述实施例中的至少两篇第一文档，并且每篇文档中都包含针对用户所提问的问题的答案。

步骤408，对n篇文档以及问题进行预处理，获得n个由问题以及文档组成的问题文档对。

具体的，问题文档对，可以表示为(q，doc)。

步骤410，依次将n个问题文档对输入基于机器阅读理解的问答模型进行答案预测。

步骤412，获得问答模型输出的n篇文档中的答案以及答案概率。

具体的，n篇文档中的答案，可以理解为上述实施例中的第一答案，具体可以表示为(doc，answer)，而每个答案对应的答案概率，可以理解为上述实施例中的第一答案概率。

步骤414，根据答案概率，在n篇文档中抽取目标答案对应的答案片段，并将答案片段进行重组形成重组文档。

具体的，所述目标答案，可以理解为上述实施例中的目标第一答案，相应的，所述答案片段，可以理解为上述实施例中的第一答案信息，所述重组文档，可以理解为上述实施例中的第二文档。

进一步的，将步骤414中获得的重组文档输入步骤410中的问答模型针对问题进行答案预测，获得所述问答模型输出的重组文档中的目标答案以及目标答案对应的目标答案概率。

步骤416，根据问答模型输出的重组文档中的目标答案以及目标答案对应的目标答案概率，对文档进行重排。

具体的，对文档进行重排，可以理解为对检索出的文档的顺序进行重新排序。

与上述一种文档处理方法实施例相对应，本申请还提供了一种文档处理装置实施例，图5示出了本申请一实施例提供的一种文档处理装置的结构示意图。如图5所示，该装置包括：

接收模块502，被配置为接收用户提交的目标问题；

检索模块504，被配置为基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；

拼接模块506，被配置为将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；

确定模块508，被配置为针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；

排序模块510，被配置为根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序。

可选的，所述文档处理装置，还包括：

第一预测模块，被配置为基于所述目标问题分别对所述至少两篇第一文档进行答案预测，获得每篇第一文档中第一预设数量的第一答案以及所述第一答案对应的第一答案概率；

第一确定信息模块，被配置为根据所述第一答案概率，在所述每篇第一文档中确定所述第一答案信息。

可选的，所述文档处理装置，还包括：

组成模块，被配置为将所述目标问题以及每篇第一文档组成问题文档对；

第二预测模块，被配置为将所述问题文档对输入问答模型进行答案预测，获得每篇第一文档中第一预设数量的第一答案以及所述第一答案对应的第一答案概率；

确定答案模块，被配置为根据所述第一答案概率，确定所述每篇第一文档中的目标第一答案；

第二确定信息模块，被配置为基于所述目标第一答案以及所述目标第一答案所属的第一文档，在所述每篇第一文档中确定所述第一答案信息。

可选的，所述第二确定信息模块，进一步被配置为：

可选的，所述排序模块510，进一步被配置为：

将所述至少两个目标答案按照所述目标答案概率从大到小的顺序进行排序；

按照排序结果依次确定每个目标答案所属的目标文档，并记录所述所属的目标文档的文档标识；

将所述至少两篇目标文档按照所述文档标识的先后顺序进行排序。

可选地，所述文档处理装置，还包括：

展示模块，被配置为按照排序结果对所述至少两篇目标文档进行展示。

可选的，所述展示模块，进一步被配置为：

将排在第一位的目标文档中的目标答案进行展示；或

按照所述排序结果依次对所述至少两篇目标文档中的所述目标答案进行展示；或

按照所述排序结果依次对所述至少两篇目标文档进行展示，并将所述目标文档中的所述目标答案按照预设格式进行显示。

可选的，所述展示模块，进一步被配置为：

将排在第一位的目标文档中针对所述目标问题预测出的答案概率最高的目标第一答案进行展示；或

按照所述排序结果依次对所述至少两篇目标文档中的所述目标第一答案进行展示；或

按照所述排序结果依次对所述至少两篇目标文档进行展示，并将所述至少两篇目标文档中的所述目标第一答案按照预设格式进行显示。

可选的，所述检索模块504，进一步被配置为：

对所述目标问题进行预处理，将预处理后的问题作为所述目标问题；

将所述目标问题输入检索模块进行检索，获得所述至少两篇第一文档。

可选的，所述预处理包括：分词处理、词性标注处理、纠错处理、多意图识别处理、问句改写处理和/或情感分析处理。

综上所述，本申请实施例提供的文档处理装置，在接收到用户提交的目标问题的情况下，基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档；并将所述至少两篇第一文档中的第一答案信息进行拼接，生成第二文档；针对所述目标问题对所述第二文档进行答案预测，确定所述目标问题对应的至少两个目标答案以及所述至少两个目标答案对应的目标答案概率；且根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序，本申请提供的文档处理方法，解决了基于目标问题检索出的至少两篇第一文档之间，无法确定哪个第一文档的答案更准确的缺陷，通过将每篇第一文档中第一答案信息拼接，整合成为第二文档，并对第二文档进行答案预测，并将预测的目标答案的准确率的高低对第一文档进行排序，达到了将更准确的答案对应的文档排序更靠前的效果，同时，在第二文档中预测出的目标答案数量会小于等于第一文档的数量，因此，会过滤掉一些没有准确答案的文档，缓解了答非所问的情况，有利于提升问答的准确率。

上述为本实施例的一种文档处理装置的示意性方案。需要说明的是，该文档处理装置的技术方案与上述的一种文档处理方法的技术方案属于同一构思，文档处理装置的技术方案未详细描述的细节内容，均可以参见上述一种文档处理方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的文档处理方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现如前所述文档处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文档处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文档处理方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，所述计算机指令被处理器执行时实现如前所述文档处理方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文档处理方法，其特征在于，包括：

接收用户提交的目标问题；

2.根据权利要求1所述的文档处理方法，其特征在于，所述将所述至少两篇第一文档中的第一答案信息进行拼接之前，还包括：

3.根据权利要求1所述的文档处理方法，其特征在于，所述将所述至少两篇第一文档中的第一答案信息进行拼接之前，还包括：

将所述目标问题以及每篇第一文档组成问题文档对；

将所述问题文档对输入问答模型进行答案预测，获得每篇第一文档中第一预设数量的第一答案以及所述第一答案对应的第一答案概率；

根据所述第一答案概率，确定所述每篇第一文档中的目标第一答案；

基于所述目标第一答案以及所述目标第一答案所属的第一文档，在所述每篇第一文档中确定所述第一答案信息。

4.根据权利要求3所述的文档处理方法，其特征在于，所述基于所述目标第一答案以及所述目标第一答案所属的第一文档，在所述每篇第一文档中确定所述第一答案信息，包括：

5.根据权利要求1所述的文档处理方法，其特征在于，根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序，包括：

6.根据权利要求5所述的文档处理方法，其特征在于，所述根据所述目标答案概率对所述至少两个目标答案所属的至少两篇目标文档进行排序之后，还包括：

按照排序结果对所述至少两篇目标文档进行展示。

7.根据权利要求6所述的文档处理方法，其特征在于，所述按照排序结果对所述至少两篇目标文档进行展示，包括：

将排在第一位的目标文档中的目标答案进行展示；或

8.根据权利要求6任意一项所述的文档处理方法，其特征在于，所述按照排序结果对所述目标文档进行展示，包括：

9.根据权利要求1所述的文档处理方法，其特征在于，所述基于所述目标问题进行检索，获得所述目标问题对应的至少两篇第一文档，包括：

10.根据权利要求9所述的文档处理方法，其特征在于，所述预处理包括：分词处理、纠错处理、词性标注处理、多意图识别处理、问句改写处理和/或情感分析处理。

11.一种文档处理装置，其特征在于，包括：

接收模块，被配置为接收用户提交的目标问题；

12.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1至10任意一项所述方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。