CN112052320A

CN112052320A - 一种信息处理方法、装置及计算机可读存储介质

Info

Publication number: CN112052320A
Application number: CN202010905735.4A
Authority: CN
Inventors: 周辉阳; 闫昭; 李勤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-08
Anticipated expiration: 2040-09-01
Also published as: CN112052320B

Abstract

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质，本申请实施例通过根据目标语料信息生成多个测试语料信息；对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

Description

一种信息处理方法、装置及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

自然语言处理(NLP，Natural Language Processing)是使用自然语言同计算机进行通讯的技术。因为处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)。

现有技术中，为了构建更好的问答领域，需要获取大量优质的语料信息，而语料信息的生成一般采用两种途径，一种是通过人力的搜索进行添加补全，在人力补全之后还需要开发进行审核后才能上线，另一种为通过日志挖掘，通过关键字去召回用户的问句，然后人工审核标注，判断是否属于目标领域。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，人工成本较大，语料信息处理速度慢，导致处理周期较长，且语料信息覆盖不够全面。

发明内容

本申请实施例提供一种信息处理方法、装置及计算机可读存储介质，可以提升信息处理的效率，且使得语料信息覆盖更全面。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种信息处理方法，包括：

根据目标语料信息生成多个测试语料信息；

对每一测试语料信息与所述目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；

通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；

将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；

将所述第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

一种信息处理装置，包括：

生成单元，用于根据目标语料信息生成多个测试语料信息；

组合单元，用于对每一测试语料信息与所述目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；

第一处理单元，用于通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；

第二处理单元，用于将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；

输入单元，用于将所述第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

在一些实施例中，所述处理子单元，用于：

将所述第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型，使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理，输出特征向量信息；

将输出的特征向量信息连接全连接层分类器，得到第二测试分数。

在一些实施例中，所述装置还包括第二训练单元，用于：

获取样本语料对，所述样本语料对携带预设标签；

将所述样本语料对和预设标签输入初始BERT模型中，使得所述BERT模型提取样本语料对之间的语义相似度；

根据所述语义相似度和预设标签之间的差异迭代调整初始BERT模型的网络参数，直至收敛，得到训练后的BERT模型。

在一些实施例中，所述生成单元，用于：

获取与初始语料信息的相似度大于预设阈值的目标语料信息；

将所述目标语料信息输入问题生成模型，输出多个测试语料信息。

在一些实施例中，所述装置还包括更新单元，用于：

将所述第二测试分数高于第二预设阈值的测试语料信息对输入所述问题生成模型进行更新训练，得到更新训练后的问题生成模型。

一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述信息处理方法中的步骤。

本申请实施例通过根据目标语料信息生成多个测试语料信息；对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息处理系统的场景示意图；

图2是本申请实施例提供的信息处理方法的流程示意图；

图3是本申请实施例提供的信息处理方法的另一流程示意图；

图4a为本申请实施例提供的信息处理方法的产品示意图；

图4b为本申请实施例提供的信息处理方法的另一产品示意图；

图4c为本申请实施例提供的信息处理方法的另一产品示意图；

图4d为本申请实施例提供的BERT模型的结构示意图；

图4e为本申请实施例提供的信息处理方法的另一产品示意图；

图5是本申请实施例提供的信息处理装置的结构示意图；

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种信息处理方法、装置、及计算机可读存储介质。

请参阅图1，图1为本申请实施例所提供的信息处理系统的场景示意图，包括：终端A、和服务器(该信息处理系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A通过问答应用在线将问题信息发送至服务器。

该信息处理系统可以包括信息处理装置，该信息处理装置具体可以集成在服务器中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。如图1所示，该服务器根据目标语料信息生成多个测试语料信息，对每一测试语料信息与该目标语料信息对应的初始语料信息进行组合，生成测试语料信息对，通过第一预设模型对该测试语料信息对的文字相似特征维度进行处理，得到第一测试分数，将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数，将该第二测试分数高于第二预设阈值的测试语料信息对输入数据库，以此，丰富初始语料信息的语料库，使得类似的问法可以得到更好的支持，极大的提升了服务器的召回能力，使得服务器在接收终端A发送的问题信息之后，可以返回相应的答复内容至终端A。

该信息处理系统中的终端A可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。该终端A可以安装各种用户需要的应用，比如问答应用等，用户可以通过终端A输入带有意图的问题信息，例如“学生进入不了我的课程”等等，终端A可以采集该问题信息发送至服务器进行人机对话。

需要说明的是，图1所示的信息处理系统的场景示意图仅仅是一个示例，本申请实施例描述的信息处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着信息处理系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从信息处理装置的角度进行描述，该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

请参阅图2，图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括：

在步骤101中，根据目标语料信息生成多个测试语料信息。

其中，该语料信息可以为问题信息加答案信息组合的问答对信息，例如，问题信息为“学生进不了课程，禁止进入了”加答案信息“学生可以换一个账号进入老师直播间”，本申请实施例可以包括初始语料信息，该初始语料信息为待测试语料信息，该初始语料信息可以有多个人工设定的相似问题，该相似问题加答案信息组合即为目标语料信息，例如目标语料信息可以为相似问题“学生进不了我的课程”加答案信息“学生可以换一个账号进入老师直播间”等等。

需要说明的是，人工设定的相似问题有限，且人工设定的成本较高，以此，本申请实施例可以获取目标语料信息按照文字规则生成多个测试语料信息，该多个测试语料信息为扩展问题的语料信息。

在一些实施方式中，该根据目标语料信息生成多个测试语料信息的步骤，可以包括：

(1)获取与初始语料信息的相似度大于预设阈值的目标语料信息；

(2)将该目标语料信息输入问题生成模型，输出多个测试语料信息。

需要说明的是，问题生成模型为机器学习如何提问的模型，在一实施方式中，可以预先将多组相似的样本预料信息对输入到问题生成模型，使得该问题生成模型学习大量的问题生成规则。

其中，本申请实施例获取与初始语料信息的相似度大于预设阈值的目标语料信息，将该目标语料信息输入经过问题生成规则学习的问题生成模型，该问题生成模型对该目标语料信息进行扩展，输出大量的测试语料信息。

在步骤102中，对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对。

需要说明的是，为了构建更好的问答领域和问答机器人的智能化，需要尽可能获得不同的问题信息。

本申请实施例通过目标语料信息扩展得到多个测试语料信息之后，为了实现后续的问题信息的相似度验证，需要从该多个测试语料信息中选取一些对于模型训练的价值高的测试语料信息，为了便于后续对每一测试语料进行对比，可以获取目标语料信息对应的初始语料信息，该初始语料信息为人工设定的问题，可以作为标准语料信息Q，该每一测试语料信息为对应的相似问题Q’，将每一测试语料信息与该初始语料信息进行组合，生成测试语料信息对Q-Q’，后续模型可以快速的基于该测试语料信息对判定每一测试语料信息与标准语料信息的相似度程度，从而实现筛选，在一实施方式中，该测试语料信息对还可以为Q—Q’—A，该A为答案信息。

在步骤103中，通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的自然语言处理技术等技术，具体通过如下实施例进行说明：

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

需要说明的是，在现有技术中，在字面上(即文字上)相似的问题信息很容易被抓取，在问答领域和问答机器人中往往欠缺文字不相似，但是语义相似的问题信息，此类问题信息对于信息库的扩充具有特殊的意义。

由于测试语料信息对中存在多类的相似问题，例如文字上特别相似的问题信息、语义上特别相似的问题信息和文字上不相似但是语义上相似的问题信息，文字上特别相似的问题很容易被获取，语义上特别相似的问题由于高度相关，对扩展帮助不大，以此，本申请实施例需要文字上不相似但是语义上相似的问题信息。

本申请实施例中的第一预设模型为对文字级别的衡量比较准确的模型，该第一预设模型可以为XGBoost树模型等。

其中，基于第一预设模型对测试语料信息对的文字相似特征维度进行处理，通过第一预设模型分析测试语料信息对中的测试语料信息与初始语料信息在文字相似维度之间的差别，得到第一测试分数，该第一测试分数可以为0至1之间的区间信息【0，1】，代表该测试语料信息与初始语料信息在文字相似特征维度的相似程度，该第一测试分数越接近于0，说明该测试语料信息与初始语料信息在文字相似特征维度的相似程度越低，该第一测试分数越接近于1，说明该测试语料信息与初始语料信息在文字相似特征维度的相似程度越高。

在一些实施方式中，该通过第一预设模型对该测试语料信息对的文字相似特征维度进行处理，得到第一测试分数的步骤，可以包括：

(1)将该测试语料信息对输入第一预设模型，该第一预设模型为通过对样本语料对之间的文字相似特征维度与预设标签之间的非线性关系进行学习得到，输出该测试语料信息对在文字相似特征维度上的第一测试分数。

其中，可以预先对该第一预设模型进行预训练，获取大量的样本语料对，该样本语料对为两个样本语料信息组成，该预设标签表示两个样本语料信息是否为文字相似，可以由0和1组成，0表示两个样本语料信息为文字相似，1表示两个语料信息不为文字相似，将该样本语料对和预设标签输入该初始的第一预设模型进行非线性关系学习，对初始的第一预设模型的网络参数进行调整，直至学习完成，得到训练好的第一预设模型，该训练好的第一预设模型具有对语料信息对之间的文字相似维度进行判别的能力。

进一步的，可以将测试语料信息对输入训练好的第一预设模型，该训练好的第一预设模型可以分析出初始语料信息和目标语料信息之间在文字相似特征维度上的第一测试分数。

在一些实施方式中，该将该测试语料信息对输入第一预设模型，输出该测试语料信息在文字相似特征维度上的第一测试分数的步骤，可以包括：

(1.1)将该测试语料信息对输入XGBoost树模型中的每一棵树，输出多个分数值；

(1.2)根据该多个分数值进行求和，得到第一测试分数。

其中，该XgBoost的主要思想是将大量弱分类器(以树结构为基础)集成为一个准确率较高的强分类器。XgBoost主要利用特征维度对样本空间进行划分，通过不断地进行特征分裂来添加树，最终通过贪婪算法和调节树的最大深度的超参数得到一个包含K棵树的模型，并利用该模型对样本进行预测。根据该样本的特征在每棵树中落到相应的叶子节点，将叶子节点对应的分数相加作为该样本的预测值该，以此，可以将该测试语料信息对输入XGBoost树模型中的每一棵树，得到K个分数值，将该K个分数值进行求和，得到第一测试分数，该XGBoost树模型擅长描述文字级别关系特征。

在步骤104中，将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数。

其中，该第一预设阈值为界定测试语料信息中的初始语料信息与目标语料信息之间是否在文字相似特征维度上是否相似的临界值，例如该第一预设阈值可以为0.78，当该第一测试分数高于该第一预设阈值，说明测试语料信息对中的初始语料信息与测试语料信息之间在文字相似特征维度上相似，直接跳过该部分测试语料信息对。

进一步的，当该第一测试分数低于第一预设阈值时，说明测试语料信息中的初始语料信息与测试语料信息之间在文字相似特征上不相似，获取该第一测试分数低于第一预设阈值的测试语料信息。

本申请实施例中，该第二预设模型为对语义级别的衡量比较准确的模型，该第二预设模型可以为BERT模型等，基于该第二预设模型对第一测试分数低于第一预设阈值的测试语料信息进行处理，通过该第二预设模型分析该第一测试分数低于第一预设阈值的测试语料信息在语义相似维度之间的差别，得到第二测试分数，该第二测试分数可以为0至1之间的区间信息【0，1】，代表该测试语料信息与初始语料信息在语义相似维度的相似程度，该第二测试分数越接近于0，说明该测试语料信息与初始语料信息在语义相似维度的相似程度越低，该第一测试分数越接近于1，说明该测试语料信息与初始语料信息在语义相似维度的相似程度越高。

在一些实施方式中，该将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数的步骤，可以包括：

(1)获取第一测试分数低于第一预设阈值的测试语料信息对；

(2)将该第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，该第二预设模型为通过对样本语料对之间的语义相似特征维度与预设标签之间的非线性关系进行学习得到，输出该测试语料信息对在语义相似特征维度上的第二测试分数。

其中，可以预先对该第二预设模型进行预训练，获取大量的样本语料对，该样本语料对为两个样本语料信息组成，该预设标签表示两个样本语料信息是否为语义相似，由0和1组成，0表示两个样本语料信息为语义相似，1表示两个语料信息不为语义相似，将该样本语料对和预设标签输入该初始的第二预设模型进行非线性关系学习，对初始的第二预设模型的网络参数进行调整，直至学习完成，得到训练好的第二预设模型，该训练好的第二预设模型具有对语料信息对之间的语义相似维度进行判别的能力。

进一步的，可以将第一测试分数低于第一预设阈值的测试语料信息对筛选出来，该第一测试分数低于第一预设阈值的测试语料信息对为文字不相似的语料信息对，将该第一测试分数低于第一预设阈值的测试语料信息对输入训练好的第二预设模型，该训练好的第二预设模型可以分析出初始语料信息和目标信息之间在语义相似维度上的第二测试分数。

在一些实施方式中，该将该第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，输出该测试语料信息对在语义相似特征维度上的第二测试分数的步骤，可以包括：

(1.1)将该第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型，使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理，输出特征向量信息；

(1.2)将输出的特征向量信息连接全连接层分类器，得到第二测试分数。

其中，该BERT((BidirectionalEncoder Representations from Transformers，来自变换器的双向编码器表征量)模型，该BERT的主要迁移思想是将传统的下游具体NLP任务的训练转移到预训练词向量中，在获得试用BERT的词向量之后，只需要在词向量上加简单的多层感知器(Multi-Layer Perception，MLP)或线性分类器即可。其主要结构为上述的Transformer模型，使用双向Transformer做编码器来结合上下文语义信息，进一步增加了词向量模型的泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，即该BERT模型擅长描述语义级别关系特征。

以此，将第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型，使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理，输出特征向量信息，将该特征向量信息连接全连接层分类器，即可得到第一测试分数低于第一预设阈值的测试语料信息的第二测试分数。

在步骤105中，将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

其中，该第二预设阈值为界定测试语料信息中的初始语料信息与目标语料信息之间是否在语义相似特征维度上是否相似的临界值，例如该第二预设阈值可以为0.1，当该第二测试分数高于第二预设阈值，说明测试语料信息对中的初始语料信息与测试语料信息之间在文字相似维度上不相似但是在语义相似特征维度上相似，为对扩展价值极大的语料信息，直接将该第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

在一实施方式中，该数据库可以存储在ES(ElasticSearch)上，该ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口,能够达到实时搜索，稳定，可靠，快速，安装使用方便。

当该第二测试分数不高于第二预设阈值，说明测试语料信息对中的初始语料信息与测试语料信息之间在文字相似维度和语义相似维度上都不相似，直接跳过该部分的测试语料信息对。

由上述可知，本申请实施例通过根据目标语料信息生成多个测试语料信息；对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该信息处理装置具体集成在服务器中为例进行说明，具体参照以下说明。

请参阅图3，图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括：

在步骤201中，服务器获取与初始语料信息的相似度大于预设阈值的目标语料信息，将目标语料信息输入问题生成模型，输出多个测试语料信息。

需要说明的是，请一并参阅图4a和图4b所示，在现有技术中，是不能支持问题信息11“学生被禁止进入课程”和问题信息12“学生进不了课程”，禁止进入了”的问法的，系统无法回复准确的答案信息，只能回应系统默认答案“我该好好学习，居然没听懂你在说什么”。

其中，请继续参阅图4c所示，用户可以为问题信息11“学生被禁止进入课程”和问题信息12“学生进不了课程”配置对应的答案信息“学生可以换一个账号进入老师直播间”。该初始语料信息可以为问题信息11“学生被禁止进入课程”加答案信息“学生可以换一个账号进入老师直播间”的组合，服务器获取与该初始语料信息的相似度大于预设阈值的目标语料信息，该目标语料信息可以为问题信息12“学生进不了课程”，禁止进入了”加答案信息“学生可以换一个账号进入老师直播间”的组合。

进一步的，将目标语料信息输入问题生成(Question Generation，QG)模型中，输出多个测试语料信息，例如测试语料信息可以为问题信息“学生进入不了我的课堂”、“学生进不去腾讯课堂怎么办”等等，该问题信息均关联对应的答案信息“学生可以换一个账号进入老师直播间”。

在步骤202中，服务器对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对。

本申请实施例为了实现后续的测试语料信息的相似度验证，可以获取目标语料信息对应的初始语料信息，并将每一测试语料信息与该初始语料信息进行组合，生成测试语料信息对。

在步骤203中，服务器获取样本语料对，将样本语料对和预设标签输入初始XGBoost树模型中的第一棵树进行训练，得到第一分数值。

其中，服务器可以获取大量的样本语料对，该样本语料对携带预设标签，该预设标签表示该样本语料对为正样本语料对或者负样本语料对，该预设标签可以为0或者1，0表示为正样本语料对，1表示为负样本语料对。

基于此，服务器将样本语料对和预设标签输入该初始XGBoost树模型中的第一棵树进行训练，得到第一分数值。

在步骤204中，服务器获取第一分数值与预设标签之间的第一残差值，将第一残差值作为第二棵树的预设标签并进行迭代训练处理，直至每一课树训练完毕，得到训练后的XGBoost树模型，将测试语料信息对输入XGBoost树模型中的每一棵树，输出多个分数值，根据多个分数值进行求和，得到第一测试分数。

其中，假设该初始XGBoost树模型为包含K棵树的模型，服务器需要获取第一分数值与预设标签之间的第一残差值，并将该第一残差值作为第二棵树的预设标签，将样本语料对和更新后的预设标签输入第二棵树进行训练，得到第二分数值，将第二棵树的第二残差值用于第三课树的训练，以此类推，达到K课树训练完毕，得到训练后的XGBoost树模型，该XGBoost树模型可以描述不同的语料信息之间的文字级别关系特征。

以此，将预测语料信息对输入至XGBoost树模型中的每一棵树，得到每一棵树的预测值，即K个分数值，并将K个分数值进行求和，得到第一测试分数，该第一测试分数反映了预测语料信息中测试语料信息和初始语料信息的文字相似程度。

在步骤205中，服务器获取第一测试分数低于第一预设阈值的测试语料信息对。

其中，该第一预设阈值可以为0.78，当该第一测试分数高于该第一预设阈值时，说明测试语料信息对中的初始语料信息与测试语料信息之间在文字相似特征维度上相似，为文字相似特征维度上比较相似的语料，此类语料非常容易获取，以此，本申请实施例筛选出第一测试分数低于第一预设阈值的测试语料信息对，即测试语料信息对中的初始语料信息与测试语料信息之间在文字相似特征维度上不相似的语料信息。

在步骤206中，服务器获取样本语料对，将样本语料对和预设标签输入初始BERT模型中，使得BERT模型提取样本语料对之间的语义相似度，根据语义相似度和预设标签之间的差异迭代调整初始BERT模型的网络参数，直至收敛，得到训练后的BERT模型。

其中，服务器可以预先获取样本语料对，该样本语料对携带预设标签，此时的预设标签标识两个样本语料信息是否为语义相似，由0和1组成，该0标识两个样本语料信息为语义相似，1标识两个语料信息不为语义相似，以此，将该样本语料对和预设标签输入初始BERT模型中，使得BERT模型提取样本语料对之间的语义相似度，根据语义相似度和预设标签之间的差异迭代调整初始BERT模型的网络参数，直至收敛，得到训练后的BERT模型，该BERT模型具有描述不同的语料信息之间的语义级别关系特征的能力。

在步骤207中，服务器将第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型，使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理，输出特征向量信息，将输出的特征向量信息连接全连接层分类器，得到第二测试分数。

其中，服务器将第一测试分数低于第一预设阈值的测试语料信息对输入训练后的BERT模型，请一并参阅图4d所示，图4d为本申请实施例提供的BERT模型14的结构示意图，示例性的，将初始语料信息定义为sentence A，将测试语料信息定义为sentence B，两个语句同时输入BERT模型中，将初始语料信息sentence A转化为Tok1……TokN，其中，Tok 1到TokN按顺序代表初始语料信息sentence A中的每个文字。将候选语句sentence B转化为Tok1……TokM，其中，Tok 1到Tok M按顺序代表候选语句sentence B中的每个文字。[CLS]标示用于分类的向量位置，聚集所有的分类信息，[SEP]标示输入句子对的分割位置。将sentence A和sentence B输入BERT模型后，Tok1……TokN、Tok1……TokM、[CLS]以及[SEP]分别转化为词嵌入表示向量E(包括E1……EN、E1＇……EM＇、E[CLS]以及E[SEP])。其中，每个E由三部分叠加组成，包括token嵌入、segment嵌入和position嵌入，其中，token嵌入作用是将每个token转化为固定维度的向量表示(示例性的，BERT模型中可以采用的固定维度为768维)作为相应token的语义表示。segment嵌入作用是区分token的句子从属，只有两个向量表示，即0和1。可以将第一个值0分配给sentence A的所有token，将第二个值1分配给sentence B的所有token。position嵌入为编码输入的顺序特征。之后，按顺序将每个向量E输入Trm(即多层双向Transformer)结构。Trm结构由attention机制(注意力机制)和前馈神经网络组成，其本质上是一个Encoder-Decoder(编码-解码)结构。由于BERT模型中的Transformer仅用于特征提取，所以只需要Encoder部分。该部分表示向量E先进入Encoder中的self-attention模块，得到一个加权之后的特征向量z，再将z输入一个全连接前馈神经网络(FFN)。示例性的，该全连接前馈神经网络的第一层可以是激活函数ReLU，第二层可以是线性激活函数。之后对FFN层进行layer normalization，将该层的输出向量与输入相加并归一化。经过6个相同的Encoder特征提取后的输出向量就是Trm的输出，根据图4d可知，该过程需要两次Transformer特征提取(即需要两个Trm结构)，因此一般模型的规模为12层。在Transformer特征提取之后，输出对应的特征向量(包括C、T1……TN、TSEP以及T1＇……TM＇)，同时利用全连接层分类器Classifier输出0/1预测概率分布(即第二预测分数)，该第二预测分数处于区间【0，1】。

在步骤208中，服务器将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

其中，该第二预设阈值为界定测试语料信息中的初始语料信息与目标语料信息之间是否在语义相似特征维度上是否相似的临界值，例如该第二预设阈值可以为0.1，在一实施方式中，该第二预设阈值还可以为预设阈值范围，例如0.1至0.95之间，因为大于0.95的测试语料信息对会被认为是高度相关的语料，对于实际的问答领域和问答机器人知识扩展的作用不大，可以直接舍弃。

以此，服务器可以将第二测试分数高于0.1或者第二测试分数在0.1至0.95之间的测试预料信息对输入数据库，该第二测试分数高于0.1或者第二测试分数在0.1至0.95之间的测试预料信息对为文字相似维度上不相似但是在语义相似特征维度上相似，为对扩展价值极大的语料信息。

在一些实施方式中，在服务器将第二测试分数高于第二预设阈值的测试语料信息对输入数据库之后，数据库可以满足用户的不同问法，因为用户输入不同的问题信息的时候，服务器都有对应答复信息，可以被找回，因此可以看出，本申请实施例可以提升数据索引的质量。

在步骤209中，服务器将第二测试分数高于第二预设阈值的测试语料信息对输入问题生成模型进行更新训练，得到更新训练后的问题生成模型。

其中，服务器可以将新的第二测试分数高于第二预设阈值的测试语料信息重新输入问题生成模型进行训练，使得更新训练后的问题生成模型的处理准确率和问题生成泛华率得到进一步的提升。

请一并参阅图4e，可以明显的看到，通过上述自动的知识库扩展，服务器的回复准确率11得到极大的提升，在冷启动阶段，由35.45％提升到40.07％，得到了极大的提升。

进一步的，本申请实施例还将第二测试分数高于第二预设阈值的预测语料信息对输入问题生成模型进行更新训练，使得更新训练后的问题生成模型的处理准确率和问题生成泛华率得到进一步的提升。

为便于更好的实施本申请实施例提供的信息处理方法，本申请实施例还提供一种基于上述信息处理方法的装置。其中名词的含义与上述信息处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的信息处理装置的结构示意图，其中该信息处理装置可以包括生成单元301、组合单元302、第一处理单元303、第二处理单元304、以及输入单元305等。

生成单元301，用于根据目标语料信息生成多个测试语料信息。

在一些实施方式中，该生成单元301，用于：

将该目标语料信息输入问题生成模型，输出多个测试语料信息。

组合单元302，用于对每一测试语料信息与该目标语料信息对应的初始语料信息进行组合，生成测试语料信息对。

第一处理单元303，用于通过第一预设模型对该测试语料信息对的文字相似特征维度进行处理，得到第一测试分数。

在一些实施方式中，该第一处理单元303，用于：

将该测试语料信息对输入第一预设模型，该第一预设模型为通过对样本语料对之间的文字相似特征维度与预设标签之间的非线性关系进行学习得到，输出该测试语料信息对在文字相似特征维度上的第一测试分数。

在一些实施方式中，该第一处理单元303，还用于：将该测试语料信息对输入XGBoost树模型中的每一棵树，输出多个分数值；根据该多个分数值进行求和，得到第一测试分数。

第二处理单元304，用于将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数。

在一些实施方式中，该第二处理单元304，包括：

获取子单元，用于获取第一测试分数低于第一预设阈值的测试语料信息对；

处理子单元，用于将该第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，该第二预设模型为通过对样本语料对之间的语义相似特征维度与预设标签之间的非线性关系进行学习得到，输出该测试语料信息对在语义相似特征维度上的第二测试分数。

在一些实施方式中，该处理子单元，用于：将该第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型，使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理，输出特征向量信息；将输出的特征向量信息连接全连接层分类器，得到第二测试分数。

输入单元305，用于将该第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

在一些实施方式中，该装置还包括第一训练单元，用于：获取样本语料对，该样本语料对携带预设标签；将该样本语料对和预设标签输入初始XGBoost树模型中的第一棵树进行训练，得到第一分数值；获取该第一分数值与预设标签之间的第一残差值；将该第一残差值作为第二棵树的预设标签并进行迭代训练处理，直至每一课树训练完毕，得到训练后的XGBoost树模型。

在一些实施例中，该装置还包括第二训练单元，用于：获取样本语料对，该样本语料对携带预设标签；将该样本语料对和预设标签输入初始BERT模型中，使得该BERT模型提取样本语料对之间的语义相似度；根据该语义相似度和预设标签之间的差异迭代调整初始BERT模型的网络参数，直至收敛，得到训练后的BERT模型。

在一些实施例中，该装置还包括更新单元，用于：将该第二测试分数高于第二预设阈值的测试语料信息对输入该问题生成模型进行更新训练，得到更新训练后的问题生成模型。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过根据目标语料信息生成单元301生成多个测试语料信息；组合单元302对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；第一处理单元303通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；第二处理单元304将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；输入单元305将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

本申请实施例还提供一种计算机设备，如图6所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；可选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，可选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现前述实施例提供的各种方法步骤，如下：

根据目标语料信息生成多个测试语料信息；对每一测试语料信息与该目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对该测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将该第二测试分数高于第二预设阈值的测试语料信息对输入数据库。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对信息处理方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的计算机设备可以通过根据目标语料信息生成多个测试语料信息；对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如，该指令可以执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种信息处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种信息处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息处理方法，其特征在于，包括：

根据目标语料信息生成多个测试语料信息；

2.根据权利要求1所述的信息处理方法，其特征在于，所述通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理，得到第一测试分数的步骤，包括：

将所述测试语料信息对输入第一预设模型，所述第一预设模型为通过对样本语料对之间的文字相似特征维度与预设标签之间的非线性关系进行学习得到，输出所述测试语料信息对在文字相似特征维度上的第一测试分数。

3.根据权利要求2所述的信息处理方法，其特征在于，所述将所述测试语料信息对输入第一预设模型，输出所述测试语料信息在文字相似特征维度上的第一测试分数的步骤，包括：

将所述测试语料信息对输入XGBoost树模型中的每一棵树，输出多个分数值；

根据所述多个分数值进行求和，得到第一测试分数。

4.根据权利要求3所述的信息处理方法，其特征在于，所述信息处理方法，还包括：

获取样本语料对，所述样本语料对携带预设标签；

将所述样本语料对和预设标签输入初始XGBoost树模型中的第一棵树进行训练，得到第一分数值；

获取所述第一分数值与预设标签之间的第一残差值；

将所述第一残差值作为第二棵树的预设标签并进行迭代训练处理，直至每一课树训练完毕，得到训练后的XGBoost树模型。

5.根据权利要求1至4任一项所述的信息处理方法，其特征在于，所述将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数的步骤，包括：

获取第一测试分数低于第一预设阈值的测试语料信息对；

将所述第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，所述第二预设模型为通过对样本语料对之间的语义相似特征维度与预设标签之间的非线性关系进行学习得到，输出所述测试语料信息对在语义相似特征维度上的第二测试分数。

6.根据权利要求5所述的信息处理方法，其特征在于，所述将所述第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，输出所述测试语料信息对在语义相似特征维度上的第二测试分数的步骤，包括：

7.根据权利要求6所述的信息处理方法，其特征在于，所述信息处理方法，还包括：

获取样本语料对，所述样本语料对携带预设标签；

8.根据权利要求1至4任一项所述的信息处理方法，其特征在于，所述根据初始语料信息生成多个测试语料信息的步骤，包括：

9.根据权利要求8所述的信息处理方法，其特征在于，所述将所述第二测试分数高于第二预设阈值的测试语料信息对输入数据库的步骤之后，还包括：

10.一种信息处理装置，其特征在于，包括：

生成单元，用于根据目标语料信息生成多个测试语料信息；

11.根据权利要求10所述的信息处理装置，其特征在于，所述第一处理单元，用于：

12.根据权利要求11所述的信息处理装置，其特征在于，所述第一处理单元，还用于：

根据所述多个分数值进行求和，得到第一测试分数。

13.根据权利要求12所述的信息处理装置，其特征在于，所述装置，还包括第一训练单元，用于：

获取样本语料对，所述样本语料对携带预设标签；

获取所述第一分数值与预设标签之间的第一残差值；

14.根据权利要求10至13任一项所述的信息处理装置，其特征在于，所述第二处理单元，包括：

处理子单元，用于将所述第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型，所述第二预设模型为通过对样本语料对之间的语义相似特征维度与预设标签之间的非线性关系进行学习得到，输出所述测试语料信息对在语义相似特征维度上的第二测试分数。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的信息处理方法中的步骤。