CN111062199B

CN111062199B - 一种不良信息识别方法及装置

Info

Publication number: CN111062199B
Application number: CN201911071666.5A
Authority: CN
Inventors: 王丽敏; 吴敬征; 罗天悦; 杨牧天
Original assignee: Beijing Zhongke Weilan Technology Co ltd
Current assignee: Beijing Zhongke Weilan Technology Co ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-12-22
Anticipated expiration: 2039-11-05
Also published as: CN111062199A

Abstract

本发明实施例提供的一种不良信息识别方法及装置，该方法包括：获取待识别文本信息；利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；判断所述待识别结构与预设树规则的树结构是否匹配；如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息，本发明通过对文本进行句子分析，与预设树规则的树结构、组成词依次进行匹配分析，解决了传统基于规则的不良信息识别泛化能力小的问题，能够提高对不良信息的识别效率、准确率及覆盖率。

Description

一种不良信息识别方法及装置

技术领域

本发明实施例涉及信息处理技术领域，具体涉及一种不良信息识别方法及装置。

背景技术

随着互联网技术的飞速发展，论坛、微博等门户网站种类日益增长，为信息获取及言论发表提供了便捷的渠道。然而，与此同时许多恶意用户通过网络渠道发布不良信息。不良信息的传播会对正常用户的人生观、价值观、道德观造成侵袭，影响网络社区环境，损害他人利益，败坏网络评论风气，并且阻碍了正常用户对有效信息的获取。近年来，国家多次开展专业行动，严厉打击网络不良信息，铲除不良信息的利益链条，与互联网行业管理，互联网新闻管理相互配合，公开维护网上的公共秩序。在海量的网络信息中识别不良信息，人工识别的方法效率低并且成本高，所以需要通过新型的不良信息识别方法帮助物联网环境加强网络信息管理，确保互联网的客观可控。

目前主流的不良信息识别方法包括基于关键词的方法、基于规则的方法以及基于机器学习的方法。其中，基于关键词的方法是通过文本与关键词的匹配来判断该文本是否为不良信息，其优点是识别效率高，其缺点是准确率及覆盖率不高、不能解决泛化问题；基于规则的方法是通过抽取典型的有代表性的规则，构成规则库，通过规则与文本之间的匹配来判断该文本是否为不良信息，其优点是准确率高，其缺点是在抽取规则的过程会消耗大量的人力资源，并且不能解决泛化问题；基于机器学习的方法目前使用比较多的是文本分类的方法，通过文本预处理、抽取文本特征以及特征融合处理得到文本的表示模型，再通过朴素贝叶斯、决策树、随机森林等分类算法构造分类器，用分类器识别不良信息，其优点是减少人力资源的消耗并可以很大程度上解决泛化的问题，但是由于网络评论文本短并且口语化严重，样本数量不平衡，所以机器学习的方式不能起到很好的效果。

因此，如何提供一种不良信息的识别方案，能够提高对不良信息的识别效率、准确率及覆盖率，是本领域技术人员亟待解决的技术问题。

发明内容

为此，本发明实施例提供一种不良信息识别方法及装置，能够提高对不良信息的识别效率、准确率及覆盖率。

为了实现上述目的，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供一种不良信息识别方法，包括：

获取待识别文本信息；

利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；

判断所述待识别结构与预设树规则的树结构是否匹配；

如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；

如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息。

优选地，所述预设树规则，包括：树结构、组成词；

所述树结构其形式化表述为：

其中：

VA为Trul中所有结点的简称；

E为规则树中所有边的集合；

为从边集合E到结点有序偶集合上的函数；

其中Edge表示结点V1，V2之间的边；

其中H表示树规则中的头结点；

上述规则树中所有边的集合E满足以下条件：

E＝{A,AS}；

其中：

A为Trul中LCW与TS中叶子结点对应边的集合，LCW为Trul中组成词的简称，满足以下条件：

LCW∈VA；

TS为Trul对应树结构的简称,表示树规则逻辑结构的一种抽象结构,满足以下条件：

TS＝V,AS；

V为TS中的结点的集合，满足以下条件：

V＝(H,S)；

其中S为树规则Trul中表示逻辑结构的中间结点集合，通过该结点来表示树规则的逻辑结构；

AS为树结构TS中结点之间边的集合,集合中的元素E_t满足下述条件：a) u_t,v_t∈TS；b)

集合E中的元素E_a满足以下条件：a)u_a∈TS；b)v_a∈LCW；c)

优选地，所述预设树规则由以下步骤得到：

获取不良信息样本；

通过simhash算法对所述不良信息样本去重；

将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取，将抽出的不良信息组成词以及该不良信息存入到树规则库中；

将存入到树规则库中的信息转化为句法分析树，将树规则的组成词及信息的句法分析树匹配，输出树结构并存入到树规则库中；

将树结构相同的树规则进行合并，将树结构中相同位置的词存储到树规则库的同一个集合中以便后续进行距离的计算；

将树规则库中的组成词集合提出，提取相应的特征并构建特征库，其中特征提取表示特征在特征空间的映射；

将没有进行人工抽取组成词的不良信息转化为句法分析树，将句法分析树与规则树结构进行匹配，匹配成功后将叶子结点的词存入到树规则库中相应的位置。

优选地，所述将存入到树规则库中的信息转化为句法分析树，将树规则的组成词及信息的句法分析树匹配，输出树结构并存入到树规则库中，包括：

将树规则的组成词与文本的树结构匹配，深度遍历句法分析树保存遍历路径并记录树中最后一个有分支的结点位置；

当遍历到一个叶子结点时，叶子结点的值在抽取出的组成词中，则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边，并从根结点开始重新遍历该句法分析树；

当遍历到的叶子结点中的值不在组成词中，则直接删除记录下的分支接点后的所有结点和边，并从根结点开始重新遍历该句法分析树，直到所有删减前的句法分析树中的叶子结点都被遍历过为止；

输出树结构并存入到树规则库。

优选地，还包括：

提取所述预设树规则的组成词的词特征；

对提取出的词特征与语料库中的词语进行相似度计算，得到计算结果；

根据所述计算结果，确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中，以完成树规则的扩展。

第二方面，本发明实施例提供一种不良信息识别装置，包括：

文本获取模块，用于获取待识别文本信息；

句子分析模块，用于利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；

树结构匹配模块，用于判断所述待识别结构与预设树规则的树结构是否匹配；

组成词匹配模块，用于如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；

不良信息确定模块，用于如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息。

优选地，还包括：树规则得到模块，用于实现以下步骤以得到预设树规则：

获取不良信息样本；

通过simhash算法对所述不良信息样本去重；

优选地，还包括：

词特征提取模块，用于提取所述预设树规则的组成词的词特征；

相似度计算模块，用于对提取出的词特征与语料库中的词语进行相似度计算，得到计算结果；

组成词扩展模块，用于根据所述计算结果，确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中，以完成树规则的扩展。

第三方面，本发明实施例提供一种不良信息识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述第一方面任一种所述不良信息识别方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一种所述不良信息识别方法的步骤。

本发明实施例提供一种不良信息识别方法，包括：获取待识别文本信息；利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；判断所述待识别结构与预设树规则的树结构是否匹配；如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息，本发明通过对文本进行句子分析，与预设树规则的树结构、组成词依次进行匹配分析，解决了传统基于规则的不良信息识别泛化能力小的问题，提高了检测效率以及识别的准确率；与基于关键词的不良信息识别方法相比，提高了识别的准确率及覆盖率；与机器学习的方法相比，上述方法提高了识别效率，并且不会被样本不均衡的问题拘束，能够提高对不良信息的识别效率、准确率及覆盖率。

本发明实施例提供的一种不良信息识别方法及装置，具有相同的上述有益效果，在此不再一一赘述。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种不良信息识别方法的流程图；

图2为本发明实施例提供的不良信息识别方法的树规则的结构图；

图3为图2所示的树规则的树结构的示意图；

图4为本发明实施例提供的一种预设树规则的得到流程图；

图5为本发明实施例提供的一种预设树规则的规则库扩充流程图；

图6为本发明实施例提供的一种预设树规则的组成词扩充流程图；

图7为本发明又一实施例提供的一种不良信息识别的树规则抽取流程图；

图8为本发明又一实施例提供的一种不良信息识别的信息匹配流程图；

图9为本发明又一实施例提供的一种不良信息识别的树规则扩展流程图；

图10为本发明实施例提供的一种不良信息识别装置的组成示意图；

图11为本发明实施例提供的一种不良信息识别装置的拓展组成示意图；

图12为本发明一种具体实施方式中所提供的一种不良信息识别设备的结构示意图；

图13为本发明一种具体实施方式中所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1、图2、图3，图1为本发明实施例提供的一种不良信息识别方法的流程图；图2为本发明实施例提供的不良信息识别方法的树规则的结构图；图3为图2所示的树规则的树结构的示意图；

在本发明一种具体实施方式中，本发明实施例提供一种不良信息识别方法，包括：

步骤S11：获取待识别文本信息；

步骤S12：利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；

步骤S13：判断所述待识别结构与预设树规则的树结构是否匹配；

步骤S14：如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；

步骤S15：如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息。

在本发明实施例中，首先需要获取待识别文本信息，例如，可以抓取网络中的用户通过网络渠道发布的文本信息，当然待识别文本信息也可以有语音信息或者图像信息识别得到。

在获取到待识别文本信息后，可以使用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词。句法分析树是一种自然语言自动处理中的一种分析方法，借助于树形图来说明句子中词与词、词组与词组之间的句法、语义和逻辑关系。

树的结构如图2所示，树的根结点被标记为开始，内部结点被标记为非终结符(比如VP\NP等)，非终结符与根结点共同表示树的结构，叶子结点被标记为终结符(比如JJ\NN等)，表示信息的组成词。将树规则的组成词与文本的树结构匹配，深度遍历句法分析树保存遍历路径并记录树中最后一个有分支的结点位置，当遍历到一个叶子结点时，叶子结点的值在抽取出的组成词中，则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边，并从根结点开始重新遍历该句法分析树；当遍历到的叶子结点中的值不在组成词中，则直接删除记录下的分支接点后的所有结点和边，并从根结点开始重新遍历该句法分析树。直到所有删减前的句法分析树中的叶子结点都被遍历过为止。输出树结构并存入到树规则库中，树结构如图3所示。将图3树结构以及叶子结点即组成词(人，太，傻)存储到树规则库。

一般地，预设树规则，包括：树结构、组成词；所述树结构其形式化表述为：其中：VA为Trul中所有结点的简称；

E为规则树中所有边的集合；

为从边集合E到结点有序偶集合上的函数；

其中Edge表示结点V1，V2之间的边；

其中H表示树规则中的头结点；

上述规则树中所有边的集合E满足以下条件：

E＝{A,AS}；

其中：

LCW∈VA；

TS＝V,AS；

V为TS中的结点的集合，满足以下条件：

V＝(H,S)；

集合E中的元素E_a满足以下条件：a)u_a∈TS；b)v_a∈LCW；c)

请参考图4、图5、图6，图4为本发明实施例提供的一种预设树规则的得到流程图；图5为本发明实施例提供的一种预设树规则的规则库扩充流程图；图6为本发明实施例提供的一种预设树规则的组成词扩充流程图；图7 为本发明又一实施例提供的一种不良信息识别的树规则抽取流程图；图8为本发明又一实施例提供的一种不良信息识别的信息匹配流程图；图9为本发明又一实施例提供的一种不良信息识别的树规则扩展流程图。

在本发明实施例中，为了得到预设树规则，可以实施以下步骤：

步骤S21：获取不良信息样本；

步骤S22：通过simhash算法对所述不良信息样本去重；

步骤S23：将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取，将抽出的不良信息组成词以及该不良信息存入到树规则库中；

步骤S24：将存入到树规则库中的信息转化为句法分析树，将树规则的组成词及信息的句法分析树匹配，输出树结构并存入到树规则库中；

步骤S25：将树结构相同的树规则进行合并，将树结构中相同位置的词存储到树规则库的同一个集合中以便后续进行距离的计算；

步骤S26：将树规则库中的组成词集合提出，提取相应的特征并构建特征库，其中特征提取表示特征在特征空间的映射；

步骤S27：将没有进行人工抽取组成词的不良信息转化为句法分析树，将句法分析树与规则树结构进行匹配，匹配成功后将叶子结点的词存入到树规则库中相应的位置。

具体地，首先，可以通过simhash算法将获得的不良信息数据去重，输入为获取到的所有数据，输出为不重复的不良信息数据。

其次，将去重后的所有不良信息的数据随机抽取出一部分进行组成词的人工抽取，将抽出的不良信息规则以及对应的不良信息存入到树规则库中，其中树规则的组成词都是信息中的词。

再次，将存入到树规则库中的信息转化为句法分析树，树的根结点被标记为开始，内部结点被标记为非终结符(比如VP\NP等)，非终结符与根结点共同表示树的结构，叶子结点被标记为终结符(比如JJ\NN等)，表示信息的组成词。将树规则的组成词与文本的树结构匹配，深度遍历句法分析树保存遍历路径并记录树中最后一个有分支的结点位置，当遍历到一个叶子结点时，叶子结点的值在抽取出的组成词中，则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边，并从根结点开始重新遍历该句法分析树；当遍历到的叶子结点中的值不在组成词中，则直接删除记录下的分支接点后的所有结点和边，并从根结点开始重新遍历该句法分析树。直到所有删减前的句法分析树中的叶子结点都被遍历过为止。输出树结构并存入到树规则库中，将树结构以及叶子结点即组成词(人，太，傻)存储到树规则库。

将结构相同的树规则进行合并，将结构中相同位置的词存储到树规则库的同一个集合中以便后期进行距离的计算，比如说有另外一条组成词为“官员太傻”，“人”与“官员”所对应的树规则结构相同，其叶子结点对应的位置也相同，那么将“人”与“官员”存储到一起，不同位置对应不同集合。

将树规则库中的单词提出，通过聚类的方法提取相应的特征并构建特征库。

将没有进行人工抽取组成词的信息转化为句法分析树，将句法分析树与树结构进行匹配，匹配成功后将叶子结点的词存入到树规则库中相应的位置，输出没有对应树结构的不良信息则转到步骤S23，直到所有的不良信息规则都提取出来为止。

进一步地，为了将存入到树规则库中的信息转化为句法分析树，将树规则的组成词及信息的句法分析树匹配，输出树结构并存入到树规则库中，可以进行以下步骤：

步骤S31：将树规则的组成词与文本的树结构匹配，深度遍历句法分析树保存遍历路径并记录树中最后一个有分支的结点位置；

步骤S32：当遍历到一个叶子结点时，叶子结点的值在抽取出的组成词中，则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边，并从根结点开始重新遍历该句法分析树；

步骤S33：当遍历到的叶子结点中的值不在组成词中，则直接删除记录下的分支接点后的所有结点和边，并从根结点开始重新遍历该句法分析树，直到所有删减前的句法分析树中的叶子结点都被遍历过为止；

步骤S34：输出树结构并存入到树规则库。

在上述实施例的基础上，本实施例中，为了实现更广范围的不良信息识别，还可以对组成词进行扩充，具体地，可以进行以下步骤：

步骤S41：提取所述预设树规则的组成词的词特征；

步骤S42：对提取出的词特征与语料库中的词语进行相似度计算，得到计算结果；

步骤S43：根据所述计算结果，确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中，以完成树规则的扩展。

具体地，可以通过Sinica Treebank语料库可以得到一批词语，构成自己的词语语料库，通过特征库提取每一类单词的特征，并提取语料库中的特征。

与语料库中的词语进行相似度的计算，计算的方式为欧几里得距离与余弦相似度加权求和得出的，将词的特征提取将词转化为特征向量，通过下列公式计算出相似度的值：

D(X,Y)＝Ad(X,Y)+Bcos(θ)；

其中d(X,Y)为欧几里得距离，计算公式如下所示：

cos(θ)为余弦相似度计算出的相似值，计算公式如下所示：

上述公式中，X，Y表示两个词的词向量，n为词向量的维度，A和B为量距离加权求和的参数，参数通过树规则库中已知同位置的组成词提取特征作为公式的输入训练得出。将相似的词语存储到树规则库中相应类下。

值得说明的是，在进行信息规则树结构匹配识别时，可以首先将待识别信息转化为句法分析树，其树结构与图2结构相同。循环抽取树规则库中的树结构。从AS中逐个抽出树结构中的结点对应的边,并在A_d中查找该边，当树结构中所有的边都可以在句法分析树中的A_d中找到，则该树结构匹配成功，否则匹配失败。匹配失败则认为该信息为正常信息，否则转到仅需后续的组成词的匹配操作。

在进行信息组成词的匹配识别时，首先在组成词中查找待检测信息对应位置的词语，找到则认为待识别信息为不良信息，否则仅需后续操作。匹配到的树结构中对应位置的词语提取特征并与树规则库中的词语进行相似度计算。设置一个阈值，当计算值大于阈值则认为相似，相似则认为该信息为不良信息，否则为正常信息。

请参考图10、图11，图10为本发明实施例提供的一种不良信息识别装置的组成示意图；图11为本发明实施例提供的一种不良信息识别装置的拓展组成示意图。

本发明实施例提供一种不良信息识别装置1000，包括：

文本获取模块1010，用于获取待识别文本信息；

句子分析模块1020，用于利用句法分析树对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的待识别结构、待识别组成词；

树结构匹配模块1030，用于判断所述待识别结构与预设树规则的树结构是否匹配；

组成词匹配模块1040，用于如果所述待识别结构与预设树规则的树结构匹配，则将所述待识别组成词与所述预设树规则的组成词进行匹配；

不良信息确定模块1050，用于如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息。

优选地，还包括：树规则得到模块1060，用于实现以下步骤以得到预设树规则：

获取不良信息样本；

通过simhash算法对所述不良信息样本去重；

优选地，还包括：

词特征提取模块1070，用于提取所述预设树规则的组成词的词特征；

相似度计算模块1080，用于对提取出的词特征与语料库中的词语进行相似度计算，得到计算结果；

组成词扩展模块1090，用于根据所述计算结果，确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中，以完成树规则的扩展。

请参考图12、图13，图12为本发明一种具体实施方式中所提供的一种不良信息识别设备的结构示意图；图13为本发明一种具体实施方式中所提供的一种计算机可读存储介质的结构示意图。

本发明实施例提供不良信息识别设备1200，包括：

存储器1210，用于存储计算机程序；

处理器1220，用于执行所述计算机程序时实现如上述第一方面所述任一种不良信息识别方法的步骤。该计算机程序存储于存储器1210中的用于程序代码存储的空间中，该计算机程序有处理器1220执行时实现任一种本发明实施例中的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种具体实施方式所述任一种不良信息识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用设备，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种不良信息识别方法，其特征在于，包括：

获取待识别文本信息；

判断所述待识别结构与预设树规则的树结构是否匹配；

如果所述待识别组成词与所述预设树规则的组成词匹配，则确定所述待识别文本信息为不良信息；

所述预设树规则，包括：树结构、组成词；

所述树结构其形式化表述为：

Trul＝(VA,E,φ,H,Trul)；

其中：

VA为Trul中所有结点的简称；

E为规则树中所有边的集合；

φ为从边集合E到结点有序偶集合上的函数；

φ(Edge)＝(V1,V2)；

其中Edge表示结点V1，V2之间的边；

其中H表示树规则中的头结点；

上述规则树中所有边的集合E满足以下条件：

E＝{A,AS}；

其中：

LCW∈VA；

TS＝V,AS；

V为TS中的结点的集合，满足以下条件：

V＝(H,S)；

AS为树结构TS中结点之间边的集合,集合中的元素E_t满足下述条件：a)u_t,v_t∈TS；b)φ(E_t)＝(u_t,v_t)；

集合E中的元素E_a满足以下条件：a)u_a∈TS；b)v_a∈LCW；c)φ(E_a)＝(u_a,v_a)；

所述预设树规则由以下步骤得到：

获取不良信息样本；

通过simhash算法对所述不良信息样本去重；

将没有进行人工抽取组成词的不良信息转化为句法分析树，将句法分析树与规则树结构进行匹配，匹配成功后将叶子结点的词存入到树规则库中相应的位置；

所述将存入到树规则库中的信息转化为句法分析树，将树规则的组成词及信息的句法分析树匹配，输出树结构并存入到树规则库中，包括：

输出树结构并存入到树规则库。

2.根据权利要求1所述的不良信息识别方法，其特征在于，还包括：

提取所述预设树规则的组成词的词特征；

3.一种不良信息识别装置，采用权利要求1至2任一项所述的不良信息识别方法，其特征在于，包括：

文本获取模块，用于获取待识别文本信息；

4.根据权利要求3所述的不良信息识别装置，其特征在于，还包括：树规则得到模块，用于实现以下步骤以得到预设树规则：

获取不良信息样本；

通过simhash算法对所述不良信息样本去重；

5.根据权利要求4所述的不良信息识别装置，其特征在于，还包括：

6.一种不良信息识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至2任一项所述不良信息识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述不良信息识别方法的步骤。