CN111274389B

CN111274389B - 一种信息处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111274389B
Application number: CN202010038413.4A
Authority: CN
Inventors: 覃玉清
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-10-24
Anticipated expiration: 2040-01-14
Also published as: CN111274389A

Abstract

本公开是关于一种信息处理方法、装置、计算机设备及存储介质，所述方法包括：获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义；获取所述字词的上下文信息；根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量；根据所述目标特征向量所对应的语义信息，确定所述待检测文档的类型。本公开基于获取了至少一个初步特征向量，且根据了上下文信息，在至少一个初步特征向量中得到了更为准确的目标特征向量，然后根据目标特征向量所对应的语义信息，能够准确地确定出所述待检测文档的类型。

Description

一种信息处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及信息处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网的高速发展，信息时代的来临，越来越多的信息在网上进行发布。相关技术中，往往是通过一些敏感关键字进行筛查，再结合人力审核等方式来排查或确定发布的信息是哪一类信息，是否为违禁类等信息，然而这种方式显然不仅成本较高，而且筛查的结果也不准确。

发明内容

根据本公开实施例的第一方面，提供一种信息处理方法，包括：

获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义；

获取所述字词上下文信息；

根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量；

根据所述目标特征向量所对应的语义信息，确定所述待检测文档的类型。

可选地，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

获取所述待检测文档的原词所对应的特征向量，以及与所述原词所对应的特征向量满足相似度条件的特征向量，以得到所述待检测文档所包含字词的所述初步特征向量。

通过深度学习模型，对所述待检测文档所包含字词的语义进行预测，以得到所述字词的预测语义；

根据所述字词的预测语义，获取与所述字词的所述预测语义所对应的所述初步特征向量。

可选地，所述方法还包括：

对待训练的两个句子进行上下文关系预测得到针对待训练的两个句子之间上下文关系预测的第一预测结果；

若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，得到作为所述深度学习模型中的第一模型。

可选地，所述若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，包括以下其中之一：

若所述第一预测结果指示所述待训练的两个句子不具有上下文关系，且所述上下文关系标签指示所述待训练的两个句子具有上下关系，调整所述第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率增大；

若所述第一预测结果指示所述待训练的两个句子具有上下文关系，且所述上下文关系标签指示所述待训练的两个句子不具有上下文关系，调整所述第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率减小。

可选地，所述方法还包括：

去除第一待训练文档中的第一预定字词，基于去除所述第一预定字词后的所述第一待训练文档的语句，得到第二预测结果；

基于包含所述第一预定字词的所述第一训练文档的语句，得到第三预测结果；

基于所述第二预测结果与所述第三预测结果之间的匹配度，调整第二模型参数，得到作为所述深度学习模型的第二模型。

可选地，所述方法还包括：

将所述第一训练文档中的所述第一预定字词替换成随机字词，基于替换了所述第一预定字词的所述第一训练文档的语句，得到第四预测结果；

所述基于所述第二预测结果与所述第三预测结果之间的匹配度，调整第二模型参数，包括：

基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整所述第二模型参数。

可选地，所述方法还包括：

抽取第二待训练文档中的第二预定字词；

基于抽取掉所述第二预定字词的所述第二训练文档的语句，预测所述第二预定字词得到针对预测所述第二预定字词的第五预测结果；

比对所述第五预测结果与所述预定字词，以得到比对结果；

根据所述比对结果，调整第三模型参数，得到作为所述深度学习模型的第三模型。

将所述待检测文档所包含字词数值化得到原始特征向量；

将所述原始特征向量进行降维处理，得到所述初步特征向量。

根据本公开实施例的第二方面，提供一种信息处理装置，包括：

第一获取模块，被配置为获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义；

第二获取模块，被配置为获取所述字词的上下文信息；

第一确定模块，被配置为根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量。

可选地，所述第一获取模块，还被配置为：

获取所述待检测文档的原词所对应的特征向量，以及与所述原词所对应的特征向量满足相似度条件的特征向量，以得所述待检测文档所包含字词的所述初步特征向量。

可选地，所述第一获取模块，还包括：

预测子模块，被配置为通过深度学习模型，对所述待检测文档所包含字词的语义进行预测，以得到所述字词的预测语义；

获取子模块，被配置为根据所述字词的预测语义，获取与所述字词的所述预测语义所对应的所述初步特征向量。

可选地，所述装置还包括：

第一预测模块，被配置为对待训练的两个句子进行上下文关系预测得到针对待训练的两个句子之间上下文关系预测的第一预测结果；

第一调整模块，被配置为若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，得到作为深度学习模型的第一模型。

可选地，所述第一预测模块，还被配置为：

若所述第一预测结果指示所述待训练的两个句子不具有上下文关系，且所述上下文关系标签指示所述待训练的两个句子具有上下文关系，调整所述第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率增大；

可选地，所述装置还包括：

第二预测模块，被配置为去去除第一待训练文档中第一预定字词，基于去除所述第一预定字词后的所述第一待训练文档的语句，得到第二预测结果；

得到模块，被配置为基于包含所述第一预定字词的所述第一训练文档的语句，得到第三预测结果；

第二调整模块，被配置为基于所述第二预测结果与所述第三预测结果之间的匹配度，调整所述第二模型参数，得到作为所述深度学习模型的第二模型。

可选地，所述装置还包括：

第三预测模块，被配置为将所述第一训练文档中所述第一预测字词替换成随机字词，基于替换了所述第一预定字词的所述第一训练文档的语句，得到第四预测结果；

第二调整模块，还被配置为基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整第二模型参数，得到作为所述深度学习模型的第二模型。

可选地，所述装置还包括：

抽取模块，被配置为抽取第二待训练文档中的第二预定字词；

第四预测模块，被配置为基于抽取掉所述第二预定字词的所述第二训练文档的语句，预测所述第二预定字词得到针对预测所述第二预定字词的第五预测结果；

比对模块，被配置为比对所述第五预测结果与所述预定字词，以得到比对结果；

第三调整模块，被配置为根据所述比对结果，调整所述第三模型参数，得到作为所述深度学习模型的第三模型。

可选地，所述第一获取模块，还包括：

第一得到子模块，被配置为将所述待检测文档所包含字词数值化得到原始特征向量；

第二得到子模块，被配置为将所述原始特征向量进行降维处理，得到所述初步特征向量。

根据本公开实施例的第三方面，提供一种计算机设备，包括：

处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，实现上述任意所述的方法步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任意所述的方法步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例中，计算机设备会首先获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义，然后基于上下文信息来从这些初步特征向量中确定出所述待检测文档中的语义所对应的目标特征向量。也就是说，本申请不仅会获取待检测文档所包含字词的至少一个初步特征向量，这里一个所述初步特征向量对应所述字词的一个语义；而且还会基于上下文信息从所述初步特征向量中确定目标特征向量，如此一来，所确定的目标特征向量将更加准确；最后根据这一更为准确的所述目标特征向量所对应的语义信息，来确定所述待检测文档的类型。因此，本公开实施例不仅可以对待检测文档进行自动检测，而且能够基于所述待检测文档更为准确的语义所对应的目标特征向量来确定所述字词的语义信息，从而能够准确地确定出待检测文档的类型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种信息处理方法的流程图；

图2是根据一示例性实施例示出的机器翻译模型的框架结构示意图；

图3是根据一示例性实施例示出的机器翻译模型的另一框架结构示意图；

图4是根据一示例性实施例示出的机器翻译模型中编码器的框架结构示意图；

图5是根据一实例性实施例示出的机器翻译模型中编码器与解码器的框架结构示意图；

图6是根据一示例性实施例示出的机器翻译模型的整体框架结构示意图；

图7是根据一实例性实施例示出的深度学习模型的训练框架示意图；

图8是根据一示例性实施例示出的一种信息处理方法的另一流程示意图；

图9是根据一示例性实施例示出的一种信息处理装置的框图；

图10是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例所述的方法可以应用于网络信息的侦测、筛选和分类等场景下，该方法应用于计算机设备上。所述计算机设备可以包括移动终端或固定终端。其中，所述移动终端可以包括：手机、平板电脑、笔记本电脑以及智能家居设备中的任意一种；所述固定终端可以包括：台式电脑、一体机以及服务器的任意一种；其中，服务器可以是独立的服务器或者多个服务器组成的服务器集群。总之，所述方法可以应用于任何具有数据处理功能的计算机设备上。

图1是根据一示例性实施例示出的一种信息处理方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101：获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义。

这里，待检测文档所包含字词可以是词语、词组或者是单个的单词等。待检测文档由这些词语、词组或者单个的单词构成。需要补充的是，所述待检测文档可以是计算机设备获取的文本信息，还可以是计算机设备获取的以语音形式呈现的语音信息，通过转换之后得到的文本信息。在其他实施例中，所述待检测文档还可以是计算机设备获取的以图片形成呈现的图片信息，通过OCR(Optical Character Recognition，光学字符识别)等技术从所述图片信息中识别得到的文本信息。

在一些实施例中，所述待检测文档对应的文本信息可以包括标题，还可以包括摘要等。

在实际应用中，终端可以通过检测标题，确定所阅览或搜索出的文件是否为标题党类型的文件，例如，是否是为了引起用户关注增加浏览量的如“震惊了”或“粗大事”等的这一类的标题党文件。

终端也可以通过检测摘要，确定所阅览或搜索出的文件是否为目标类文件，例如，在论文或专利搜索中，通过摘要的检测，可以确定这些论文或专利是否为目标类论文或专利，如，是否为计算机神经网络算法类的论文或专利。

实际上，所述待检测文档可以是文件中想要被检测的任何段落或部分。

意味着，本实施例所述的方法不仅可以用于为文本信息的内容分类，还可以为语音信息的内容分类，甚至还可以为图片信息的内容分类。

这里，所述待检测文档所包含字词为多义字词时，所述初步特征向量，可以包括：多义的所述字词的多个字词含义分别对应的特征向量。

所述待检测文档所包含的字词不为多义字词时，所述初步特征向量，可以包括：所述字词的特征向量。

在其他实施例中，所述待检测文档所包含的字词不为多义字词时，所述初步特征向量，还可以包括：所述字词的特征向量与所述字词的近义词对应的特征向量。

在一些实施例中，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

可以理解的是，两个特征向量之间的距离越近，表明两个特征向量分别对应的字词之间的含义也就越近。意味着，当“走”和“行”的语义都是“走”时，“走”和“行”分别对应的特征向量的距离小于距离阈值。

这里，获取与所述原词所对应的特征向量满足相似条件的特征向量，可以包括：根据所述原词的原始特征向量，找到与所述原词的所述原始特征向量距离小于距离阈值的特征向量，以得到与所述原词所对应的特征向量满足相似度条件的特征向量。

也就是说，在本实施例中，计算机设备不仅会获取原词的特征向量，还能获取与原词的近义词的特征向量，一起作为所述待检测文档所包含字词的所述初步特征向量。

在另一些实施例中，所述初步特征向量，可以包括：所述待检测文档所包含字词能够转换的特征向量。这里，所述待检测文档所包含字词能够转换的特征向量，又包括：由待检测文档所包含字词历史转换过的所有特征向量。

例如，“走”这个字词对应的初步特征向量，可以包括：在“请走这边”这句语句中转换过的“走”字含义所对应的特征向量；也可以包括：在“走人”这句语句转换过的“离开”字含义所对应的特征向量；当然，还可以包括：在“此为走人道”这句语句转换过的“行”字含义所对应的特征向量。

这里，通过将所述待检测文档所包含字词的所有可能的语义对应的特征向量作为初步特征向量，能够为所述字词提供丰富的语义库，从而可以提供更为准确的语义的选择，减少对所述字词的语义遗漏现象，从而为确认所述待检测文档所包含字词的真正语义提供了保障。

在一些实施例中，所述步骤101，还可以包括：从服务器中获取待检测文档所包含字词的初步特征向量。

这里，所述服务器可以是基于大数据下的服务器集群，能够记录下所述字词较多语义对应的特征向量，从而得到更为准确的初步特征向量。

在另一些实施例中，所述步骤101，还可以包括：从本地获取待检测文档所包含字词的初步特征向量。

这里，所述计算及设备可以预先保存所述字词的初步特征向量，使得计算机设备在需要获取所述初步特征向量时，可以及时进行调取，提高获取速度，从而提高数据处理的速度，最终提高了针对所述待检测文档的检测效率。

步骤102：获取所述字词的上下文信息。

这里，所述获取所述字词的上下文信息，可以包括：通过机器翻译模型，获取所述字词的上下文信息。

具体地，请参阅图2，图2是根据一示例性实施例示出的机器翻译模型的框架结构示意图，如图2所示，机器翻译模型包括：编码器21和解码器22。

这里，编码器21用于输入一个字符序列，也就是用于按照顺序输入待检测文档所包含字词；解码器22用于输出一个字符序列，也就是用于按照顺序输出待检测文档所包含字词的字词语义。在一些实施例中，所述机器翻译模型用来对输入的字符序列进行翻译。这里，所述机器翻译模型可以用于对输入的字符序列，也就是用于对待检测文档所包含字词进行语义预测。

进一步地，请参阅图3，图3是根据一示例性实施例示出的机器翻译模型的另一框架结构示意图，如图3所示，编码器由6个编码模组组成，同样地，解码器也由6个解码模组组成。通过多层编码后，输出给解码器进行解码。

需要说明的是，请参阅图4，图4是根据一示例性实施例示出的机器翻译模型中编码器的框架结构示意图，如图4所示，所述编码器由前馈网络子层和自注意力子层组成。

编码器在进行编码过程中，待检测文档所包含字词首先会经过自注意力子层得到加权之后的特征向量Z，得到特征向量Z后，会被送到编码器的下一层，也就是前馈网络子层。

具体地，自注意力可以根据下述公式计算得到：

这里，所述(K，V)可以理解为输入到编码器中的句子的键值对，例如，K可以表示字词在句子中的序列，也就是排序，而V则可以表示字词的含义。在具体实现过程中，K和V可以是相等的，可以用于表示同一字词。Q则用于查询字词在句子中的上下文含义的向量。

在计算自注意力时主要分为三步，第一步是将Q和每个K进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用softmax函数对这些权重进行归一化；最后将权重和相应的健值V进行加权求和得到最后的自注意力。

实际上，自注意力是用来表示当前字符和已经输入的句子之间的关系，然后将这些关系作为编码信息输入给解码器进行解码。

请参阅图5，图5是根据一示例性实施例示出的机器翻译模型中编码器和解码器的框架结构示意图，如图5所示，所述解码器由自注意力子层、编码及解码注意力子层和前馈网络子层组成。

需要理解的是，解码器的所述编码及解码注意力子层在计算该层的编码及解码注意力时，需要利用来自编码器输入的编码信息以及来自解码器的自注意力子层输出的Q，一起确定出所述编码及解码注意力子层。

具体地，请参阅图6，图6是根据一示例性实施例示出的机器翻译模型的整体框架示意图，如图6所示，所述编码及解码注意力子层接收来自编码器输入的编码信息，以及接收解码器的自注意力子层和残差和层归一化层输入的解码器的自注意力，计算得到编码及解码注意力。这里，所述编码及解码注意力，会随着解码器的每个循环过程中的输入的字词的不同而不同。实际上这里的只有Q是依据每一个不同的字词在解码器的自注意力子层输出的参数，只有Q会随着每个循环过程中输入的词语的不同而不同的，从而得到不同的字词不同的编码及解码注意力。

这里，所述由编码信息以及解码器的自注意力计算得到的编码及解码注意力允许机器翻译模型关注待翻译词句中的各个词语的位置及含义等相关信息。也就是，编码及解码注意力能够关注输入的句子与当前字词对应的特征向量之间的关系，从而可以关注到当前字词对应的上下文信息。

因此，在步骤102中，可以利用机器翻译模型来获取所述字词的上下文信息。

当然，在其他实施例中，计算机设备还可以通过RNN(Recurrent Neural Network，循环神经网络)模型或LSTM(Long Short-Term Memory，长短记忆神经网络)模型等得到所述字词的上下文信息。

步骤103：根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量。

在一些实施例中，若所述字词的所述初步特征向量为一个的情况，所述根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量，包括：

根据所述字词的上下文信息，将所述字词的所述初步特征向量调节为基于所述上下文信息的语义对应的目标特征向量，从而确定所述字词在所述待检测文档中的语义所对应的目标特征向量。

在另一些实施例中，若所述字词的所述初步特征向量为多个的情况，所述根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量，包括：

根据所述字词的上下文信息，在所述字词的多个所述初步特征向量中选择与所述上下文信息的语义对应的目标特征向量，从而确定所述字词在所述待检测文档中的语义所对应的目标特征向量。

这里，由于计算机设备会基于所述待检测文档的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量，因此，得到的是所述字词在所述待检测文档的当前语境下的更为准确的语义，从而基于该更为准确的语义，得到准确的特征向量作为目标特征向量。从而为准确地为所述待检测文档进行分类提高了保障。

步骤104：根据所述目标特征向量所对应的语义信息，确定所述待检测文档的类型。

上述实施例中，由于计算机设备首先会获取所述字词的至少一个初步特征向量，其中，多义的所述字词包含多个表征所述字词含义的初步特征向量，从而可以得到所述字词的不同含义对应的特征向量；然后还可以基于所述字词的上下文信息，从所述初步特征向量中得到符合当前语境的目标特征向量，最后根据目标特征向量所对应的语义信息，确定所述待检测文档的类型。不仅可以对待检测文档进行自动检测，而且能够基于所述待检测文档准确的语义信息，准确地确定出待检测文档的类型。

在另一些实施例中，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

这里，所述深度学习模型是指学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释。所述深度学习模型能够识别文字、图像和声音等数据。

在本实施例中，不依赖于所述字词历史转换得到的特征向量，利用深度学习模型，对所述待检测文档所包含字词的语义进行预测，来获得所述字词的所述预测语义所对应的所述初步特征向量，从而能够获得更为准确的初步特征向量，为对所述待检测文档所包含字词结合上下文信息得到语义对应的目标特征向量提供了更为准确的选择范围，从而提高了对所述待检测文档的类型的确定的准确性。

需要说明的是，请参阅图7，图7是根据一示例性实施例示出的深度学习模型的训练框架示意图，如图7所示，通过将待检测文档的所述字词按照所述字词在所述待检测文档中的顺序输入到所述深度学习模型中，按照各类模型的参数，例如w1、w2或w3等参数，对所述字词进行处理，得到所述字词的初步特征向量。

这里，所述深度学习模型可以按照线性训练方式进行编程训练。

具体地，作为一个可选的实施例，所述方法还包括：

若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，得到作为所述深度学习模型的第一模型。

这里，所述待训练的两个句子的上下文关系标签是预先可知的。具体地，计算机设备从语料库中选取存在上下文关系的两个句子作为所述待训练的两个句子，此时，所述待训练的两个句子的上下文关系标签指示所述待训练的两个句子具有上下文关系。

在其他实施例中，计算机设备还可以从语料库中选取不存在上下文关系的两个句子作为所述待训练的两个句子，此时，所述待训练的两个句子的上下文关系标签指示所述待训练的两个句子不具有上下文关系。

这里，所述上下文关系是指句子与句子之间的顺序关联关系，用于表明两个句子中第一个句子是第二句子的上一条句子，第二个句子是第一个句子的下一个句子。

例如，“因为明天会下雨”与“所以你要带伞”这两个句子中，“因为明天会下雨”是“所以你要带伞”的上一个句子，“所以你要带伞”是“因为明天会下雨”的下一个句子，因此，“因为明天会下雨”与“所以你要带伞”这两个句子具有上下文关系。

当然，在另一些实施例中，所述待训练的两个句子的上下文关系标签还可以基于计算机设备针对所述待训练的两个句子的历史分析所确定。

在本实施例中，通过将第一预测结果与所述待训练的两个句子的上下文关系标签是否匹配，来调整所述第一模型参数，从而达到训练所述深度学习模型的目的，使得训练后的所述深度学习模型具有更为精准的预测能力。

在实际应用中，所述计算机设备在对所述深度学习模型进行训练的过程中，会在一部分训练过程中，选择利用不存在上下文关系的两个句子作为所述待训练的两个句子；在另一部分训练过程中，选择利用存在上下文关系的两个句子作为所述待训练的两个句子，依此来双向调整所述深度学习模型的第一模型的模型参数。

具体地，所述若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，包括以下其中之一：

具体地，以句子A和句子B为上下文关系的两个待训练句子为例，其中50％的数据中，句子B是句子A的下一条句子，剩下50％的数据中，句子B是从语料库中随机选取的，意味着，剩下的50％的数据中，句子B不是句子A的下一条句子。

在第一个句子的开头插入[CLS]标记，在每个句子的未尾插入[SEP]标记，从而可以保证在随机选择句子B时，不会选到第一个句子，从而使得所选择的句子均是至少属于第二个句子的句子作为样本，提高样本的真实性。

对句子A和句子B中的每个字词添加序列，按照序列顺序输入到所述深度学习模型的第一模型中，利用上下文概率公式计算出句子B是句子A的下文句子的概率，公式如下：

其中，P表示句子B是句子A的下文句子的概率；x表示深度学习模型的第一模型中输出的对应句子的输出向量；“y＝j”中j包括0或1，j为0时，表示计算的是句子B不是句子A的下文句子的概率，j为1时，表示计算的是句子B是句子A的下文句子的概率，k表示句子B中的字词个数，T为常量，w表示字词在句子中对应的权重，这个权重也是通过第一模型处理得到的。

因此，通过上述方式，可以确定句子A和句子B是上下文关系的概率，即上述所述的第一预测结果中所指示的所述待训练的两个句子具有上下文关系的概率。若句子B是句子A的下一条句子，但概率小于概率阈值，则通过调整第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率增大；若句子B不是句子A的下一条句子，但是概率大于概率阈值，则通过调整第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率减小。这里，第一模型参数，可以包括字词在句子中对应的权重w，也可以包括句子对应的输出向量x。

作为一个可选的实施例，所述方法还包括：

所述去除第一待训练文档中的第一预定字词，可以包括：遮挡所述第一待训练文档中第一预定字词。具体地，可以将预定图片放置在所述第一待训练文档中的第一预定字词的位置处。这里，所述预定图片可以是涂有马赛克的图片。

可以理解的是，基于包含所述第一预定字词的所述第一训练文档的语句，得到的第三预测结果是一个较为准确的比较结果。

在一些实施例中，所述基于所述第二预测结果与所述第三预测结果之间的匹配度，调整第二模型参数，可以包括：

若所述第二预测结果与所述第三预测结果的匹配度低于第一匹配度阈值，调大所述第二模型参数；

若所述第二预测结果与所述第三预测结果之间的匹配度等于或高于所述第一匹配度阈值，维持所述第二模型参数。

这里，若所述第二预测结果与所述第三预测结果之间的匹配度低于所述第一匹配度阈值，表明第二模型对去除的第一预定词的预测不够准确，此时可以通过调大第二模型参数，使得下一次训练时得到第二预测结果可以更靠近所述第三预测结果。相反，若所述第二预测结果与第三预测结果之间的匹配度等于或高于所述第一匹配度阈值，表明第二模型对去除的第一预定字词的预测准确性较高，此时可以通过维持第二模型参数，保证第二模型预测的准确性。

需要补充的是，深度学习模型会在不同的待检测文本的检测过程中进行学习训练，这里，即使所述第二预测结果与第三预测结果之间的匹配度等于或高于所述第一匹配度阈值，但在下一次训练时若出现所述第二预测结果与所述第三预测结果的匹配度低于第一匹配度阈值时，仍会对第二模型参数进行调整。

在其他实施例中，深度学习模型会按照预定的周期进行学习训练，以保证在需要进行字词预测时能得到准确的预测结果。

在本实施例中，通过引入较为准确的第三预测结果，通过将第二预测结果与第三预测结果之间的匹配度，来调整第二模型参数，从而让所述深度学习模型能够朝着更为准确的方向上进行学习，最终使得训练后的所述深度学习模型的预测更加准确。

在实际应用中，所述计算机设备在对所述深度学习模型进行训练的过程中，会在一部分训练过程中，选择利用包含第一预定字词的所述第一训练文档的语句，得到的第三预测结果作为第二模型的学习基础，来训练所述深度学习模型中的第二模型。同时，还会在另一部训练过程中，利用并不准确的预测结果来平衡所述第二模型，达到双向调整所述深度学习模型的第二模型的模型参数的目的，使得深度学习模型更具稳定性。

在一些实施例中，所述方法还包括：

将所述第一训练文档中所述第一预定字词替换成随机字词，基于替换了所述第一预定字词的所述第一训练文档的语句，得到第四预测结果；

基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整第二模型参数。

这里，基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整第二模型参数，包括：

基于所述第二预测结果与所述第三预测结果之间的匹配度，以及基于所述第二预测结果与所述第四预测结果之间的匹配度，以及基于所述第三预测结果与所述第四预测结果之间的匹配度，来调整所述第二模型参数。

这里，基于所述第二预测结果与所述第四预测结果之间的匹配度，调整所述第二模型参数，又可以包括：基于第二预测结果与所述第四预测结果之间的匹配度高于第二匹配度阈值时，调大所述第二模型参数；若所述第二预测结果与所述第四预测结果之间的匹配度低于或等于所述第二匹配度阈值时，维持所述第二模型参数。

这里，若所述第二预测结果与所述第四预测结果之间的匹配度高于第二匹配度阈值，表明第二模型对去除的第一预定词的预测结果与替换了第一预定词的预测结果较为靠近，说明预测并不准确，因此，可以通过调大第二模型参数，使得下一次训练时得到的第二预测结果更加准确。相反，若所述第二预测结果与所述第四预测结果之间的匹配度低于或等于第二匹配度阈值，表明第二模型对去除的第一预定词的预测结果与替换了第一预定词的预测结果相差甚远，说明预测结果较为准确，因此，可以通过维持第二模型参数，来保证第二模型预测的准确性。

这里，所述基于所述第三预测结果与所述第四预测结果之间的匹配度，来调整所述第二模型参数，与所述第二预测结果与所述第三预测结果之间匹配度来调整所述第二模型参数的调整方式相似，都是将预测结果调整到与利用具有第一预定字词的语句预测结果靠近为准。

这里，利用了随机字词替换第一预定词的方式为第一模型加入一些干扰信息，从而使得第一模型的性能更加稳定。

具体地，在对第二模型进行模型参数的调整过程中，可以按照训练次数的80％的次数，选择将第一预定字词进行去除，基于去除所述第一预定字词后的所述第一待训练文档的语句，得到第二预测结果；按照训练次数的10％的次数，选择直接基于第一预定字词的所述第一训练文档，得到第三预测结果；剩下10％的次数，选择利用随机词替换所述第一预定字词，基于替换了所述第一预定字词的所述第一训练文档的语句，得到第四预测结果。

例如，用[MASK]标签对第一预定字词进行去除，80％的时间将“**搬到新园区办公了”转换成“**[MASK]到新园区办公楼了”；10％的时间是随机取一个字来代替[MASK]的词，“**搬到新园区办公楼了”转换成“**走到新园区办公了”；10％的时间保持不变，“**搬到新园区办公了”直接使用“**搬到新园区办公了”。如此一来，使用一定概率的随机词，可以让第二模型保持对每个输入字词分布式的表征，否则第二模型很可能会记住[MASK]就是“搬”，导致第二模型失去了自我调整和学习的功能，因此，通过随机词的干扰，能够提高第二模型的性能稳定性。

在另一些实施例中，所述方法还包括：

抽取第二待训练文档中第二预定字词；

基于抽取掉所述第二预定字词的所述第二待训练文档的语句，预测所述第二预定字词得到针对预测所述第二预定字词的第五预测结果；

比对所述第五预测结果与所述预定字词，以得到比对结果；

这里，为了减少深度学习模型的数据处理，以及提高训练效率，可以直接通过抽取掉所述第二预定字词的所述第二待训练文档的语句，预测的第二预定字词的第五预测结果与所述第二预定字词进行比对，来调整第三模型参数。

具体地，所述根据所述比对结果，调整第三模型参数，包括：若比对结果指示所述第五预测结果与所述预定字词的匹配度低于第三匹配度阈值，则调大所述第三模型参数，使得下一次基于第三模型进行第二预定字词预测时的预测结果更加准确；若比对结果指示所述第五预测结果与所述预定字词的匹配度高于或等于第三匹配度阈值，则可以位置所述第三模型参数，维持所述第三模型参数，来保证第三模型预测的准确性。

需要补充的是，在一些实施例中，上述所述的深度学习模型可以是机器翻译模型。

在另一些实施例中，所述获取待检测文档所包含字词的至少一个初步特征向量，还包括：

将所述待检测文档所包含字词数值化得到原始特征向量；

在一些实施例中，所述将所述待检测文档所包含字词数值化得到原始特征向量，包括：利用独热编码对所述待检测文档所包含字词进行编码，得到所述字词的原始特征向量。

可知地，利用独热编码得到的原始特征向量往往维度较大，不利于向量与向量之间的计算。为了减少计算量，本实施例会将所述原始特征向量通过抽取向量中冗余向量表示等方式进行降维处理，所述得到所述初步特征向量。

因此，本实施例中，通过对原始特征向量进行降维处理后，得到维度更低的所述字词的初步特征向量，从而减低了计算量，最终提高了检测效率。

在另一些实施例中，计算机设备通过词嵌入技术，对所述字词进行向量化表达，得到低维度初步特征向量。

这里，词嵌入技术，可以是word-embedding技术，是指给出一个文档，文档包括一个字词序列，比如“A B A C B F G”，要对文档中每个不同的字词都得到一个对应的向量来表示，比如，对于这样的“A B A C B F G”的一个序列，例如，我们最后能得到：A对应的向量为[0.1 0.6-0.5]，B对应的向量为[-0.2 0.9 0.7]，这里，数值指示一个中示意而已。

通过这种词嵌入技术，可以简便和快速地得到所述字词的低纬度的特征向量。

进一步地，本公开还提供了一个具体实施例，以进一步理解本公开实施例所提供的信息处理方法。

随着互联网技术的高速发展，信息流的推荐方式如火如荼，逐渐发展成信息获取的主要方式。当前生态下，内容的生成者为了获取高曝光点击率，会采用一些手段吸引用户的眼球，例如使用夸张的、标新立异的、刻意取巧的命名文章的标题的方式来诱导用户点击。以至于发展形成一批“粗大事了”，“震惊”等特别恶劣的标题党文章。那么如何识别这些标题党文章，对于所要浏览的信息是否被归为“标题党”类型成为亟需解决的技术问题。

请参阅图8，图8是根据一示例性实施例示出的一种信息处理方法的另一流程示意图，所述方法包括：

步骤801：利用词嵌入技术，获取待检测标题所包含字词的至少一个初步特征向量。

这里，所述待检测标题可以理解为上述待检测文档。这里，获取待检测标题所包含字词的至少一个初步特征向量，包括了待检测标题所包含字词的原词的初步特征向量；或者，还包括：与所述原词所对应的特征向量满足相似度条件的特征向量。

进一步地，所述获取所述待检测标题所包含字词的至少一个初步特征向量，还可以包括：通过上述实施例所述的深度学习模型，对所述待检测标题所包含字词的语义进行预测，以得到所述字词的预测语义；根据所述字词的预测语义，获取与所述字词的所述预测语义所对应的备选特征项向量。

步骤802：获取所述字词的上下文信息。

这里，通过上述所述的机器翻译模型，获取所述字词的上下文信息。

步骤803：根据所述字词的上下文信息，从所述字词的至少一个所述初步特征向量中，确定所述字词在所述待检测标题中的语义所对应的目标特征向量。

例如，待检测标题为“厉害了”，但是“厉害了”虽然包含了“厉害”这种标题党当字词，但是，“厉害了”并不是标题党。在本实施例中，由于根据了所述字词的上下文信息，可以确定“厉害”的下文信息中有“了”，因此，可以确定所述字词在所述待检测标题中的语义并非是标题党中“厉害”的相同语义，从而可以选择该字词在此语境下更为准确的目标特征向量。

步骤804：根据所述目标特征向量所对应的语义信息，确定所述待检测标题是否为标题党。

通过上述实施例，可以准确地确定出待检测标题是否为标题党，减少标题党对阅读的干扰。

图9是根据一示例性实施例示出的一种信息处理装置框图。参照图9，该装置包括：第一获取模块91、第二获取模块92和第一确定模块93；其中，

所述第一获取模块91，被配置为获取待检测文档所包含字词的至少一个初步特征向量，其中，一个所述初步特征向量对应所述字词的一个语义；

所述第二获取模块92，被配置为获取所述字词的上下文信息；

所述第一确定模块93，被配置为根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量。

作为一个可选的实施例，所述第一获取模块，还被配置为：

作为一个可选的实施例，所述第一获取模块91，还包括：

作为一个可选的实施例，所述第一预测模块，还被配置为：

若所述第一预测结果指示所述待训练的两个句子具有上下文关系，且所述上下文标签指示所述待训练的两个句子不具有上下文关系，调整所述第一模型参数，使得所述第一预测结果指示所述待训练的两个句子具有上下文关系的概率减小。

作为一个可选的实施例，所述装置还包括：

第二预测模块，被配置为去除第一待训练文档中第一预定字词，基于去除所述第一预定字词后的所述第一待训练文档的语句，得到第二预测结果；

第二调整模块，被配置为基于所述第二预测结果与所述第三预测结果之间的匹配度，调整第二模型参数，得到作为所述深度学习模型的第二模型。

作为一个可选的实施例，所述装置还包括：

第三预测模块，被配置为将所述第一待训练文档中所述第一预定字词替换成随机字词，基于替换了所述第一预定字词的所述第一训练文档的语句，得到第四预测结果；

第二调整模块，还被配置为基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整第二模型参数。

作为一个可选的实施例，所述装置还包括：

第四预测模块，被配置为基于抽取掉所述第二预定字词的所述第二待训练文档的语句，预测所述第二预定字词得到针对预测所述第二预定字词的第五预测结果；

第三调整模块，被配置为根据所述比对结果，调整第三模型参数，得到作为所述深度学习模型的第三模型。

作为一个可选的实施例，所述第一获取模块91，还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种计算机设备1000的框图。例如，计算机设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，计算机设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电力组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制计算机设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在计算机设备1000的操作。这些数据的示例包括用于在计算机设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1006为计算机设备1000的各种组件提供电力。电力组件1006可以包括电源管理系统，一个或多个电源，及其他与为计算机设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述计算机设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当计算机设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当计算机设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为计算机设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到计算机设备1000的打开/关闭状态，组件的相对定位，例如所述组件为计算机设备1000的显示器和小键盘，传感器组件1014还可以检测计算机设备1000或计算机设备1000一个组件的位置改变，用户与计算机设备1000接触的存在或不存在，计算机设备1000方位或加速/减速和计算机设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于计算机设备1000和其他设备之间有线或无线方式的通信。计算机设备1000可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，计算机设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由计算机设备1000的处理器1020执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述各实施例所述的信息处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，包括：

获取所述字词的上下文信息；

2.根据权利要求1所述的方法，其特征在于，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，包括以下其中之一：

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于包含所述第一预定字词的所述第一待训练文档的语句，得到第三预测结果；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述第一待训练文档中所述第一预定字词替换成随机字词，基于替换了所述第一预定字词的所述第一待训练文档的语句，得到第四预测结果；

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

抽取第二待训练文档中的第二预定字词；

比对所述第五预测结果与所述预定字词，以得到比对结果；

9.根据权利要求1所述的方法，其特征在于，所述获取待检测文档所包含字词的至少一个初步特征向量，包括：

将所述待检测文档所包含字词数值化得到原始特征向量；

10.一种信息处理装置，其特征在于，包括：

第二获取模块，被配置为获取所述字词的上下文信息；

第一确定模块，被配置为根据所述字词的上下文信息，从所述字词的所述初步特征向量中，确定所述字词在所述待检测文档中的语义所对应的目标特征向量；

第二确定模块，被配置为根据所述目标特征向量所对应的语义信息，确定所述待检测文档的类型。

11.根据权利要求10所述的装置，其特征在于，所述第一获取模块，还被配置为：

12.根据权利要求10所述的装置，其特征在于，所述第一获取模块，还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第一调整模块，被配置为若所述第一预测结果与所述待训练的两个句子的上下文关系标签不匹配，调整第一模型参数，得到作为所述深度学习模型中的第一模型。

14.根据权利要求13所述的装置，其特征在于，所述第一预测模块，还被配置为：

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：

得到模块，被配置为基于包含所述第一预定字词的所述第一待训练文档的语句，得到第三预测结果；

16.根据权利要求15所述的装置，所述装置还包括：

第三预测模块，被配置为将所述第一待训练文档中所述第一预定字词替换成随机字词，基于替换了所述第一预定字词的所述第一待训练文档的语句，得到第四预测结果；

第二调整模块，还被配置为基于所述第二预测结果、所述第三预测结果与所述第四预测结果之间的匹配度，调整所述第二模型参数。

17.根据权利要求12所述的装置，所述装置还包括：

18.根据权利要求10所述的装置，其特征在于，所述第一获取模块，还包括：

19.一种计算机设备，其特征在于，包括：

处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，实现权利要求1至9任一项所述的方法步骤。

20.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现权利要求1至9中任一项所述的方法步骤。