CN110968684A

CN110968684A - 一种信息处理方法、装置、设备及存储介质

Info

Publication number: CN110968684A
Application number: CN201911307136.6A
Authority: CN
Inventors: 谭小龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-07

Abstract

本申请提供了一种信息处理方法、装置、设备及存储介质，该方法包括：获取待处理词库，待处理词库包括至少一个关键词；在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果；从与待处理词库所属的目标类别相关联的第二预设语料库中获取每个关键词对应的目标语句；将每个关键词对应的目标搜索结果和目标语句输入神经网络模型进行关键词分类，得到不属于目标类别的目标关键词；该神经网络模型基于样本词库中的每个样本关键词对应的样本搜索结果、样本语句以及分类标签进行机器学习训练得到；从待处理词库中过滤目标关键词。本申请涉及人工智能的自然语言处理和机器学习技术，使用本申请的方案可以提高词库去噪的准确率。

Description

一种信息处理方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，具体涉及一种信息处理方法、装置、设备及存储介质。

背景技术

现有的词库去噪方法，主要有包括以下几种：(1)使用统计方法，如自由度(Degreeof Freedom，DF)、词频-逆文本频率指数(Term Frequency–Inverse Document Frequency，TF-IDF)等方法；(2)使用词向量相似度方法，比如，对于“3C数码”这个类目，该类目中已有“电脑”、“笔记本”、“摄像机”等词，新加入的词如果跟这几个词的整体相似度比较高，则认为新加入的词属于“3C数码”这个类目；(3)通过分类器对词库进行去噪。

但现有技术存在以下缺陷：(1)单纯使用统计方法，无法获取词的语义信息，词库去噪准确率较低；(2)使用词向量相似度的方法无法计算和获取大量长尾的词向量；(3)使用分类器对词库进行去噪，获取的词对应文本的精度不高，同时也无法获取大量长尾的词向量，导致最终的词库去噪结果不为用户所熟知，不符合大众常识。

由于现有技术存在上述缺陷，导致词库去噪的准确率不高，从而无法通过去噪后的词库向用户提供精准的词分类或语句识别等服务。

发明内容

为了获取词的语义信息和大量长尾词，提高词库去噪的准确率，使去噪后的词库符合大众常识，提高用户使用该去噪后的词库进行词分类或语句识别等操作的精度，本申请提出一种信息处理方法、装置、设备及存储介质。

一方面，本申请提出了一种信息处理方法，所述方法包括：

获取待处理词库，所述待处理词库包括至少一个关键词；

在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果；

确定与所述待处理词库所属的目标类别相关联的第二预设语料库；

从所述第二预设语料库中获取每个关键词对应的目标语句；

将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词；所述神经网络模型基于样本词库中的每个样本关键词对应的样本搜索结果、每个样本关键词对应的样本语句以及每个样本关键词对应的分类标签进行机器学习训练得到；

从所述待处理词库中过滤所述目标关键词。

另一方面，本申请提出了一种信息处理装置，所述装置包括：

待处理词库获取模块，用于获取待处理词库，所述待处理词库包括至少一个关键词；

目标搜索结果获取模块，用于在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果；

第二预设语料库确定模块，用于确定与所述待处理词库所属的目标类别相关联的第二预设语料库；

目标语句获取模块，用于从所述第二预设语料库中获取每个关键词对应的目标语句；

目标关键词获取模块，用于将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词；所述神经网络模型基于样本词库中的每个样本关键词对应的样本搜索结果、每个样本关键词对应的样本语句以及每个样本关键词对应的分类标签进行机器学习训练得到；

过滤模块，用于从所述待处理词库中过滤所述目标关键词。

具体地，所述目标搜索结果获取模块包括：

搜索单元，用于通过预设搜索引擎在所述第一预设语料库中搜索每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息；

目标搜索结果确定单元，用于将每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息，作为每个关键词对应的目标搜索结果。

具体地，所述装置还包括：

搜索页面确定模块，用于确定每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息所在的搜索页面；

标题信息序列获取模块，用于基于每个关键词对应的各个标题信息在相应的搜索页面中的位置，对每个关键词对应的各个标题信息进行排序，得到每个关键词对应的标题信息序列；

目标标题信息确定模块，用于将每个关键词对应的标题信息序列中的前预设数量个标题信息作为每个关键词的目标标题信息；

目标描述信息确定模块，用于将每个关键词的各个目标标题信息对应的描述信息作为每个关键词的目标描述信息；

第一候选关键词确定模块，用于将每个关键词的各个目标标题信息中具有预设展示属性信息的词作为每个关键词的各个目标标题信息对应的第一候选关键词；

第二候选关键词确定模块，用于将每个关键词的各个目标描述信息中具有所述预设展示属性信息的词作为每个关键词的各个目标描述信息对应的第二候选关键词；

数量匹配结果确定法模块，用于将每个关键词的各个目标描述信息对应的第二候选关键词与相应的第一候选关键词进行数量匹配，得到每个关键词的各个目标描述信息对应的数量匹配结果；

预过滤模块，用于当每个关键词的任意一个目标描述信息对应的数量匹配结果小于第一阈值时，从所述待处理词库中过滤任意一个目标描述信息对应的数量匹配结果小于所述第一阈值的关键词。

具体地，所述目标语句获取模块包括：

拆分单元，可以用于将所述第二预设语料库中的文本拆分为至少一个候选语句；

抽取单元，可以用于通过远程监督的方式从所述至少一个候选语句中抽取包含每个关键词的候选语句；

目标语句确定单元，可以用于将所述包含每个关键词的候选语句作为每个关键词对应的目标语句。

具体地，所述目标关键词获取模块包括：

分类单元，可以用于将每个关键词对应的至少一个标题信息、每个标题信息对应的描述信息以及每个关键词对应的目标语句作为所述神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到每个关键词属于所述目标类别的概率；

关键词序列获取单元，可以用于根据每个关键词属于所述目标类别的概率对每个关键词进行降序排序，得到关键词序列；

目标关键词确定单元，可以用于将所述关键词序列的后预设数量个关键词作为所述目标关键词。

具体地，所述装置还包括：

响应模块，可以用于响应于用户触发的待识别语句的识别请求，使用过滤后的待处理词库对所述待识别语句进行语句识别处理；

语句类别和概率确定模块，可以用于若所述待识别语句中存在与所述待处理词库相匹配的匹配关键词，则将所述目标类别作为所述待识别语句的语句类别，并获取所述匹配关键词属于所述目标类别的概率；

推送模块，可以用于将所述匹配关键词、所述匹配关键词属于所述目标类别的概率以及所述语句类别推送给用户。

具体地，所述装置还包括神经网络模型获取模块，所述神经网络模型模块包括：

样本关键词获取单元，可以用于获取样本词库，所述样本词库包括至少一个具有分类标签的样本关键词；

样本搜索结果获取单元，可以用于在第一预设样本语料库中对每个样本关键词进行搜索，得到每个样本关键词对应的样本搜索结果；

第二预设样本语料库确定单元，可以用于确定与所述样本词库所属的样本类别相关联的第二预设样本语料库；

样本语句获取单元，可以用于从所述第二预设样本语料库中获取每个样本关键词对应的样本语句；

训练单元，可以用于基于每个样本关键词对应的样本搜索结果和每个样本关键词对应的样本语句对预设机器学习模型进行分类训练学习，在分类训练学习过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的分类标签与每个样本关键词的分类标签相匹配；

神经网络模型确定单元，可以用于当前模型参数对应的机器学习模型作为所述神经网络模型。

另一方面，本申请提出了一种设备，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的信息处理方法。

另一方面，本申请提出了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的信息处理方法。

本申请提出的一种信息处理方法、装置、设备及存储介质，从第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果，从与所述待处理词库所属的目标类别相关联的第二预设语料库中获取每个关键词对应的目标语句，将目标搜索结果与目标语句相结合作为神经网络模型的输入，可以很好地解决大量长尾词无法获取文本的问题，使最终的词库去噪结果符合大众常识，此外，通过神经网络模型作为分类器，能够很好地获取词的语义信息，且能够很好地融合其他特征，提高词库去噪的准确率，从而提高用户使用去噪后的词库进行词分类或语句识别等操作的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的信息处理方法的一种流程示意图。

图2是本申请实施例提供的信息处理方法的另一种流程示意图。

图3是本申请实施例提供的获取所述神经网络模型的一种流程示意图。

图4是本申请实施例提供的区块链系统的一个可选的结构示意图。

图5是本申请实施例提供的区块结构一个可选的示意图。

图6是本申请实施例提供的信息处理方法在一种应用场景中的逻辑框图。

图7是本申请实施例提供的通过网络爬虫方式获取的标题信息和描述信息，以及通过远程监督的方式获取的目标语句的结构示意图。

图8是本申请实施例提供的通过神经网络模型对关键词进行分类处理的原理图。

图9是本申请实施例提供的信息处理方法的应用场景示意图。

图10是使用过滤后的待处理词库对语句进行识别的原理图。

图11是本申请实施例提供的信息处理装置的一种结构示意图。

图12是本申请实施例提供的服务器结构示意图。

具体实施方式

随着人工智能(Artificial Intelligence,AI)的研究和进步，AI在多个领域展开研究和应用。AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

具体地，本申请实施例提供的方案涉及人工智能的自然语言处理技术(NatureLanguage processing，NLP)和机器学习(Machine Learning,ML)技术。NLP是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，其可以包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。ML是门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML通常包括深度学习、增强学习、迁移学习、归纳学习、示教学习等技术。而深度学习又可以进一步包括人工神经网络、深信度网络、限制波尔兹曼机、自动编码器、稀疏编码、注意学习等技术。

具体地，本申请实施例提供的方案涉及NLP中的文本处理技术、语义理解技术以及ML中的人工神经网络技术。比如，对关键词进行搜索以及获取关键词对应的目标语句涉及语义理解中的词法分析、句法分析、语义分析等技术，将第二预设语料库中的文本拆分为至少一个候选语句涉及文本预处理中的词、句切分技术，获取神经网络模型的步骤涉及人工神经网络技术中的深度神经网络或卷积神经网络技术。

具体地，本申请实施例提供的技术方案可以通过如下实施例进行说明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本申请实施例提供的一种信息处理方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，所述方法可以包括：

S101.获取待处理词库，所述待处理词库包括至少一个关键词。

在实际应用中，词库是指包括多条词条记录的集合，而每条词条记录可以包括：用户输入的已有字词及相应的属性参数；和/或，用户输入的自造字词及相应的属性参数。对于每个词条其数据存储结构例如可以为：词条；属性参数1；属性参数2；……；属性参数n。其中，属性参数例如可以为词频信息、生成时间、最后使用时间、二元关系等等

本申请实施例中，当需要对词库进行清洗去噪时，可以获取待去噪处理的待处理词库。

在实际应用中，当用户需要使用词库对某些词进行分类或某些语句进行语句识别时，可以向后台服务器发送词分类请求或语句识别请求，后台服务器可以根据用户触发的词分类请求或语句识别请求，获取与该词分类请求或语句识别请求中携带的标识信息等其他属性信息相对应的待处理词库，以对该待处理词库进行去噪处理，以便用户使用去噪处理后的词库进行词分类或语句识别等操作。

S103.在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果。

本申请实施例中，对于该待处理词库中的每一个关键词，可以将其输入到预设搜索引擎中进行搜索，在搜索过程中，利用网络爬虫方式爬取每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息，并将该关键词对应的至少一个标题信息以及每个标题信息对应的描述信息作为该关键词的目标搜索结果。

具体地，如图2所示，所述在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果，可以包括：

S1031.通过预设搜索引擎在所述第一预设语料库中搜索每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息。

S1033.将每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息，作为每个关键词对应的目标搜索结果。

在一个可行的实施例中，为了提高词库去噪的效率和准确率，如图2所示，在所述在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果之后，所述方法还可以包括预过滤步骤：

S104.根据每个关键词对应的目标搜索结果对每个关键词进行预过滤处理。

具体地，S104可以包括：

S1041.确定每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息所在的搜索页面。

S1043.基于每个关键词对应的各个标题信息在相应的搜索页面中的位置，对每个关键词对应的各个标题信息进行排序，得到每个关键词对应的标题信息序列。

S1045.将每个关键词对应的标题信息序列中的前预设数量个标题信息作为每个关键词的目标标题信息。

S1047.将每个关键词的各个目标标题信息对应的描述信息作为每个关键词的目标描述信息。

S1049.将每个关键词的各个目标标题信息中具有预设展示属性信息的词作为每个关键词的各个目标标题信息对应的第一候选关键词。

S10411.将每个关键词的各个目标描述信息中具有所述预设展示属性信息的词作为每个关键词的各个目标描述信息对应的第二候选关键词。

S10413.将每个关键词的各个目标描述信息对应的第二候选关键词与相应的第一候选关键词进行数量匹配，得到每个关键词的各个目标描述信息对应的数量匹配结果。

S10415.当每个关键词的任意一个目标描述信息对应的数量匹配结果小于第一阈值时，从所述待处理词库中过滤任意一个目标描述信息对应的数量匹配结果小于所述第一阈值的关键词。

在实际应用中，对于任意一个关键词，当在预设搜索引擎中对该关键词进行搜索的时候，可以得到由网络爬虫技术抓取到的与该关键词对应的至少一个标题信息以及每个标题信息对应的描述信息组成的搜索页面。可以根据每个标题信息在搜索页面中的位置，对该关键词对应的每个标题信息进行排序，得到与该关键词对应的标题信息序列，并将该标题信息序列中的前预设数量个(比如，前k个，k为大于或等于1的正整数)标题信息作为该关键词对应的目标标题信息，同时将每个目标标题信息对应的描述信息作为每个关键词的目标描述信息。接着，将每个目标标题信息具有预设展示属性信息的词(比如，字体飘红的词)作为每个目标标题信息对应的第一候选关键词，将每个目标描述信息中字体飘红的词作为每个目标描述信息对应的第二候选关键词。

在实际应用中，由于描述信息的内容远远多于标题信息，相应地第二候选关键词的数量远远多于对应的第一候选关键词的数量，因此，可以将每个目标描述信息对应的第二候选关键词与相应的第一候选关键词进行数量匹配，如果存在任意一个目标描述信息对应的第二候选关键词与相应的第一候选关键词的匹配数量小于第一阈值，则认为该关键词为是无意义的关键词，可以直接从词库中对该无意义的关键词进行过滤，使其不参与后续的神经网络模型分类的步骤，从而降低神经网络模型的计算量，提高关键词的分类效率，减轻系统负担。

S105.确定与所述待处理词库所属的目标类别相关联的第二预设语料库。

S107.从所述第二预设语料库中获取每个关键词对应的目标语句。

具体地，如图2所示，所述从所述第二预设语料库中获取每个关键词对应的目标语句，可以包括：

S1071.将所述第二预设语料库中的文本拆分为至少一个候选语句。

S1073.通过远程监督的方式从所述至少一个候选语句中抽取包含每个关键词的候选语句。

S1075.将所述包含每个关键词的候选语句作为每个关键词对应的目标语句。

本申请实施例中，为了获取大量长尾词的文本，使词库去噪结果更符合大众常识，提高用户使用去噪后的词库进行词分类和语句识别的精度，对于每一个关键词，除了利用爬虫技术爬取其对应的标题信息和描述信息之外，还可以利用S105-S107中的远程监督的方式，抽取该关键词在与待处理词库所属的目标类别相关联的第二预设语料库中的目标语句，其中，该目标语句为包含该关键词的语句。

其中，第二预设语料库是不同于第一预设语料库的语料库，第一预设语料库可以为本地语料库，第二预设语料库可以为远程语料库或外部语料库。该远程语料库中包含多种类型的语料库，比如，新闻资讯语料库、科技类型的语料库、小说类型的语料库、歌曲类型的语料库等。可以根据待处理词库的目标类别，从远程语料库中确定与该目标类别对应的第二预设语料库，然后再将该第二预设语料库的文本进行语句拆分，对于每一个关键词，可以从第二预设语料库中抽取包含该关键词的语句，从而得到每个关键词对应的目标语句。

S109.将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词；所述神经网络模型基于样本词库中的每个样本关键词对应的样本搜索结果、每个样本关键词对应的样本语句以及每个样本关键词对应的分类标签进行机器学习训练得到。

本申请实施例中，如图2所示，所述将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词，可以包括：

S1091.将每个关键词对应的至少一个标题信息、每个标题信息对应的描述信息以及每个关键词对应的目标语句作为所述神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到每个关键词属于所述目标类别的概率。

S1093.根据每个关键词属于所述目标类别的概率对每个关键词进行降序排序，得到关键词序列。

S1095.将所述关键词序列的后预设数量个关键词作为所述目标关键词。

本申请实施例中，对于每一个关键词，可以将至少一个标题信息、每个标题信息对应的描述信息以及每个关键词对应的目标语句相结合，作为神经网络模型的输入，由该神经网络模型的输入对该关键词进行分类训练，得到该关键词属于所述目标类别的概率。由于使用神经网络模型对关键词进行分类，可以很好的获取语义信息，且能够很好的融合其他特征，从而确保词库去噪准确率，提高用户使用该去噪后的词库进行词分类或语句识别的精度。

在一个可行的实施例中，对于每一个关键词，还可以将S1091中的神经网络模型的输出结果，与通过TF-IDF、词性标注(Part of Speechtagging，POS)等对关键词进行特征提取得到的辅助特征相互融合，得到该关键词属于所述目标类别的概率。而通过将神经网络模型的输出结果与TF-IDF、POS等辅助特征相结合，能够进一步提高确定关键词属于该目标类别的概率的准确率，提高词库去噪的精度以及用户使用该去噪后的词库进行词分类或语句识别的精度。

在一个可行的实施例中，在得到每个关键词属于所述目标类别的概率之后，可以将该概率值作为关键词的置信得分，对每个关键词通过置信值进行降序排序，将排序后N位的关键词作为目标关键词，N为大于或等于1的正整数。

S1011.从所述待处理词库中过滤所述目标关键词。

本申请实施例中，在得到目标关键词之后，可以将该目标关键词从该待处理词库中去除，从而实现对待处理词库进行清洗去噪。

本申请实施例中，如图3所示，所述方法还可以包括获取所述神经网络模型的步骤，所述获取所述神经网络模型的步骤可以包括：

S201.获取样本词库，所述样本词库包括至少一个具有分类标签的样本关键词。

S203.在第一预设样本语料库中对每个样本关键词进行搜索，得到每个样本关键词对应的样本搜索结果。

S205.确定与所述样本类别相关联的第二预设样本语料库。

S207.从所述第二预设样本语料库中获取每个样本关键词对应的样本语句。

S209.基于每个样本关键词对应的样本搜索结果和每个样本关键词对应的样本语句对预设机器学习模型进行分类训练学习，在分类训练学习过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的分类标签与每个样本关键词的分类标签相匹配。

S2011.将当前模型参数对应的机器学习模型作为所述神经网络模型。

在一个可行的实施例中，该预设机器学习模型包括但不限于卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短记忆网络(Long Short Term Memory network，LSTM)等。

在另一个可行的实施例中，还可以通过CNN、RNN、LSTM，结合TF-IDF、POS等辅助特征，训练得到所述神经网络模型。

在一个可行的实施例中，S203中的样本搜索结果和S207中的样本语句可以存储于区块链系统中。参见图4，图4所示是本发明实施例提供的区块链系统的一个可选的结构示意图，多个节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在区块链系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图4示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图5，图5为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

以下，结合具体的应用场景，详细介绍本申请实施例提供的信息处理方法：

当用户需要使用词库对某些词进行分类或某些语句进行识别等操作时，可以向后台服务器发送词分类请求或语句识别请求，该请求中可以携带待分类的词或待识别的语句、与该待分类的词或待识别语句相关的词库的标识信息，后台服务器可以根据该标识信息查找相应的待处理词库。假设该待处理词库为“手机”类词库，即目标类别为手机，为了提高词分类的准确性以及语句识别的准确性，在通过待处理词库对词进行分类或语句进行识别等操作之前，可以对该待处理词库去噪处理。图6所示为本申请实施例提供的信息处理方法在一种应用场景中的逻辑框图，如图6所示，对待处理词库进行去噪处理可以包括以下步骤：

(1)通过爬取手机类的垂直站点，获取大量的手机描述、评论文本，通过CNN、RNN、LSTM，结合TF-IDF、POS等辅助特征，训练一个神经网络模型。

(2)对于该“手机”类目词库中的每一个关键词(比如，橄榄树)，可以使用网络爬虫方式爬取通过预设搜索引擎在第一预设语料库中搜索得到的标题信息和该标题信息的描述信息，由于“橄榄树”的搜索页面会存在很多标题信息及其对应的描述信息，为了提高词库去噪效率，可以将搜索页面中排列前k位的标题信息作为目标标题信息，将相应的描述信息作为目标描述信息，然后将前k位的目标描述信息中字体飘红的候选关键词与相应的目标标题信息中字体飘红的候选关键词相匹配，如果存在任意一个目标描述信息中字体飘红的候选关键词与相应的目标标题信息中字体飘红的候选关键词相匹配的个数小于第一阈值，则认为“橄榄树”对于该待处理词库来说是无意义的词，为了提高词库去噪的精度以及用户使用去噪后的词库对词分类或语句识等的精度，可以直接将“橄榄树”从该待处理词库中去除。

(3)对于“橄榄树”这一关键词，还可以获取与“手机”类目相关的第二预设语料库，比如，将远程语料库中的科技语料库确定为第二预设语料库，将该第二预设语料中的文件进行语句拆分，通过远程监督的方式从第二预设语料库中抽取包含“橄榄树”的目标语句。通过网络爬虫方式获取的标题信息和描述信息，以及通过远程监督的方式获取的目标语句可以如图7所示。

(4)将“橄榄树”这一关键词对应的标题信息、描述信息以及目标语句输入神经网络模型，在该神经网络模型中对“橄榄树”进行分类处理，在分类处理过程中还可以结合TF-IDF、POS等辅助特征，最终得到“橄榄树”是否属于“手机”类目的概率，通过神经网络模型对关键词进行分类处理的原理图可以如图8所示。

(5)将每个关键词属于“手机”类目的概率作为该关键词的置信值，对该置信值进行降序排序，得到关键词序列，如表1所示。

表1对每个关键词的置信值进行降序排序的结果

在实际应用中，当得到每个关键词属于目标类别的概率之后，可以根据用户的不同需求，实现不同的服务：

在一个可行的实施例中，如图9所示，在用户需要覆盖度最全的情况下，可以直接将去噪后的词库按类别交付给用户，比如，从待处理词库中过滤步骤(5)中的排序后N位的关键词，将排序后N位的关键词从待处理词库中过滤掉，得到过滤后的待处理词库，将过滤后的待处理词库按照类别推送给用户使用。

在另一个可行的实施例中，如果用户需要常见的、符合大众常识的词库，则可以提高过滤标准，将从待处理词库中过滤步骤(5)中的排序后M位的关键词，将排序后M位的关键词从待处理词库中过滤掉，得到过滤后的待处理词库，M为大于N的正整数。假设用户向服务器发送的是词分类请求，且需要使用常见的、符合大众的词库，则服务器可以响应该词分类请求，将排序后M位的关键词从待处理词库中过滤掉，得到过滤后的待处理词库，使用过滤后的待处理词库对待分类的词进行分类，并将分类结果推送给用户。

在另一个可行的实施例中，如图9所示，本申请实施例中的去噪后的词库还可以用于对语句进行识别，图10所示为使用过滤后的待处理词库对语句进行识别原理图。如图10所示，如果用户向服务器发送的是语句识别请求，则服务器可以响应该语句识别请求，使用过滤后的待处理词库对所述待识别语句进行语句识别处理，若所述待识别语句中存在与所述待处理词库相匹配的匹配关键词，则认为该语句与该待处理词库能够匹配上，则将所述目标类别作为所述待识别语句的语句类别，并获取所述匹配关键词属于所述目标类别的概率，最后将所述匹配关键词(比如，图10中的橄榄树)、所述匹配关键词属于所述目标类别的概率(比如，图10中的0.764)以及所述语句类别(比如，图10中的手机)推送给用户。

在另一个可行的实施例中，过滤后的待处理词库可以用于图像识别领域：可以使用海量的去噪后的词库作为训练集，由此实现对图像进行识别。

在另一个可行的实施例中，过滤后的待处理词库还可以用于自然语言处理领域：在拥有去噪后的词库的前提下，能非常好的辅助语义理解、情感分析等众多自然语言理解任务。

在另一个可行的实施例中，过滤后的待处理词库还可以用于广告推荐领域：采用过滤后的清洁词库，可以很好的辅助广告点击率预测(Predict Click-Through Rate，PCTR)等广告推荐业务的特征构建。

如图11所示，本申请实施例提供了一种信息处理装置，所述装置可以包括：

待处理词库获取模块301，可以用于获取待处理词库，所述待处理词库包括至少一个关键词。

目标搜索结果获取模块303，可以用于在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果。

本申请实施例中，所述目标搜索结果获取模块303可以包括：

搜索单元，可以用于通过预设搜索引擎在所述第一预设语料库中搜索每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息。

目标搜索结果确定单元，可以用于将每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息，作为每个关键词对应的目标搜索结果。

第二预设语料库确定模块305，可以用于确定与所述待处理词库所属的目标类别相关联的第二预设语料库。

目标语句获取模块307，可以用于从所述第二预设语料库中获取每个关键词对应的目标语句。

本申请实施例中，所述目标语句获取模块307可以包括：

拆分单元，可以用于将所述第二预设语料库中的文本拆分为至少一个候选语句。

抽取单元，可以用于通过远程监督的方式从所述至少一个候选语句中抽取包含每个关键词的候选语句。

目标关键词获取模块309，可以用于将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词；所述神经网络模型基于样本词库中的每个样本关键词对应的样本搜索结果、每个样本关键词对应的样本语句以及每个样本关键词对应的分类标签进行机器学习训练得到。

本申请实施例中，所述目标关键词获取模块309可以包括：

分类单元，可以用于将每个关键词对应的至少一个标题信息、每个标题信息对应的描述信息以及每个关键词对应的目标语句作为所述神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到每个关键词属于所述目标类别的概率。

关键词序列获取单元，可以用于根据每个关键词属于所述目标类别的概率对每个关键词进行降序排序，得到关键词序列。

过滤模块3011，可以用于从所述待处理词库中过滤所述目标关键词。

本申请实施例中，所述装置还可以包括：

响应模块，可以用于响应于用户触发的待识别语句的识别请求，使用过滤后的待处理词库对所述待识别语句进行语句识别处理。

语句类别和概率确定模块，可以用于若所述待识别语句中存在与所述待处理词库相匹配的匹配关键词，则将所述目标类别作为所述待识别语句的语句类别，并获取所述匹配关键词属于所述目标类别的概率。

本申请实施例中，所述装置还可以包括神经网络模型获取模块，所述神经网络模型模块可以包括：

样本关键词获取单元，可以用于获取样本词库，所述样本词库包括至少一个具有分类标签的样本关键词。

样本搜索结果获取单元，可以用于在第一预设样本语料库中对每个样本关键词进行搜索，得到每个样本关键词对应的样本搜索结果。

第二预设样本语料库确定单元，可以用于确定与所述样本词库所属的样本类别相关联的第二预设样本语料库。

样本语句获取单元，可以用于从所述第二预设样本语料库中获取每个样本关键词对应的样本语句。

训练单元，可以用于基于每个样本关键词对应的样本搜索结果和每个样本关键词对应的样本语句对预设机器学习模型进行分类训练学习，在分类训练学习过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的分类标签与每个样本关键词的分类标签相匹配。

在一个可行的实施例中，所述装置还可以包括：

搜索页面确定模块，可以用于确定每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息所在的搜索页面。

标题信息序列获取模块，可以用于基于每个关键词对应的各个标题信息在相应的搜索页面中的位置，对每个关键词对应的各个标题信息进行排序，得到每个关键词对应的标题信息序列。

目标标题信息确定模块，可以用于将每个关键词对应的标题信息序列中的前预设数量个标题信息作为每个关键词的目标标题信息。

目标描述信息确定模块，可以用于将每个关键词的各个目标标题信息对应的描述信息作为每个关键词的目标描述信息。

第一候选关键词确定模块，可以用于将每个关键词的各个目标标题信息中具有预设展示属性信息的词作为每个关键词的各个目标标题信息对应的第一候选关键词。

第二候选关键词确定模块，可以用于将每个关键词的各个目标描述信息中具有所述预设展示属性信息的词作为每个关键词的各个目标描述信息对应的第二候选关键词。

数量匹配结果确定法模块，可以用于将每个关键词的各个目标描述信息对应的第二候选关键词与相应的第一候选关键词进行数量匹配，得到每个关键词的各个目标描述信息对应的数量匹配结果。

预过滤模块，可以用于当每个关键词的任意一个目标描述信息对应的数量匹配结果小于第一阈值时，从所述待处理词库中过滤任意一个目标描述信息对应的数量匹配结果小于所述第一阈值的关键词。

需要说明的是，本申请实施例提供的方法装置实施例与上述方法实施例基于相同的发明构思。

本申请实施例还提供了一种信息处理的设备，该设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的信息处理方法。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于终端之中以保存用于实现方法实施例中一种信息处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的信息处理方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例所述存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的信息处理方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图12是本申请实施例提供的一种信息处理方法的服务器的硬件结构框图。如图12所示，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)410(处理器410可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器430，一个或一个以上存储应用程序423或数据422的存储介质420(例如一个或一个以上海量存储设备)。其中，存储器430和存储介质420可以是短暂存储或持久存储。存储在存储介质420的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器410可以设置为与存储介质420通信，在服务器400上执行存储介质420中的一系列指令操作。服务器400还可以包括一个或一个以上电源460，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口440，和/或，一个或一个以上操作系统421，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

输入输出接口440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器400的通信供应商提供的无线网络。在一个实例中，输入输出接口440包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口440可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器400还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取待处理词库，所述待处理词库包括至少一个关键词；

从所述第二预设语料库中获取每个关键词对应的目标语句；

从所述待处理词库中过滤所述目标关键词。

2.根据权利要求1所述的方法，其特征在于，所述在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果，包括：

通过预设搜索引擎在所述第一预设语料库中搜索每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息；

将每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息，作为每个关键词对应的目标搜索结果。

3.根据权利要求2所述的方法，其特征在于，在所述在第一预设语料库中对每个关键词进行搜索，得到每个关键词对应的目标搜索结果之后，所述方法还包括：

确定每个关键词对应的至少一个标题信息以及每个标题信息对应的描述信息所在的搜索页面；

基于每个关键词对应的各个标题信息在相应的搜索页面中的位置，对每个关键词对应的各个标题信息进行排序，得到每个关键词对应的标题信息序列；

将每个关键词对应的标题信息序列中的前预设数量个标题信息作为每个关键词的目标标题信息；

将每个关键词的各个目标标题信息对应的描述信息作为每个关键词的目标描述信息；

将每个关键词的各个目标标题信息中具有预设展示属性信息的词作为每个关键词的各个目标标题信息对应的第一候选关键词；

将每个关键词的各个目标描述信息中具有所述预设展示属性信息的词作为每个关键词的各个目标描述信息对应的第二候选关键词；

将每个关键词的各个目标描述信息对应的第二候选关键词与相应的第一候选关键词进行数量匹配，得到每个关键词的各个目标描述信息对应的数量匹配结果；

当每个关键词的任意一个目标描述信息对应的数量匹配结果小于第一阈值时，从所述待处理词库中过滤任意一个目标描述信息对应的数量匹配结果小于所述第一阈值的关键词。

4.根据权利要求1所述的方法，其特征在于，所述从所述第二预设语料库中获取每个关键词对应的目标语句，包括：

将所述第二预设语料库中的文本拆分为至少一个候选语句；

通过远程监督的方式从所述至少一个候选语句中抽取包含每个关键词的候选语句；

将所述包含每个关键词的候选语句作为每个关键词对应的目标语句。

5.根据权利要求2所述的方法，其特征在于，所述将每个关键词对应的目标搜索结果和每个关键词对应的目标语句作为神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到不属于所述目标类别的目标关键词，包括：

将每个关键词对应的至少一个标题信息、每个标题信息对应的描述信息以及每个关键词对应的目标语句作为所述神经网络模型的输入，在所述神经网络模型中对每个关键词进行分类，得到每个关键词属于所述目标类别的概率；

根据每个关键词属于所述目标类别的概率对每个关键词进行降序排序，得到关键词序列；

将所述关键词序列的后预设数量个关键词作为所述目标关键词。

6.根据权利要求5所述的方法，其特征在于，在所述从所述待处理词库中过滤所述目标关键词之后，所述方法还包括：

响应于用户触发的待识别语句的识别请求，使用过滤后的待处理词库对所述待识别语句进行语句识别处理；

若所述待识别语句中存在与所述待处理词库相匹配的匹配关键词，则将所述目标类别作为所述待识别语句的语句类别，并获取所述匹配关键词属于所述目标类别的概率；

将所述匹配关键词、所述匹配关键词属于所述目标类别的概率以及所述语句类别推送给用户。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括获取所述神经网络模型的步骤，所述获取所述神经网络模型的步骤包括：

获取样本词库，所述样本词库包括至少一个具有分类标签的样本关键词；

在第一预设样本语料库中对每个样本关键词进行搜索，得到每个样本关键词对应的样本搜索结果；

确定与所述样本类别相关联的第二预设样本语料库；

从所述第二预设样本语料库中获取每个样本关键词对应的样本语句；

基于每个样本关键词对应的样本搜索结果和每个样本关键词对应的样本语句对预设机器学习模型进行分类训练学习，在分类训练学习过程中调整所述预设机器学习模型的模型参数至所述预设机器学习模型输出的分类标签与每个样本关键词的分类标签相匹配；

将当前模型参数对应的机器学习模型作为所述神经网络模型。

8.一种信息处理装置，其特征在于，所述装置包括：

过滤模块，用于从所述待处理词库中过滤所述目标关键词。

9.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-7任一所述的信息处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-7任一所述的信息处理方法。