CN111062199B - 一种不良信息识别方法及装置 - Google Patents
一种不良信息识别方法及装置 Download PDFInfo
- Publication number
- CN111062199B CN111062199B CN201911071666.5A CN201911071666A CN111062199B CN 111062199 B CN111062199 B CN 111062199B CN 201911071666 A CN201911071666 A CN 201911071666A CN 111062199 B CN111062199 B CN 111062199B
- Authority
- CN
- China
- Prior art keywords
- tree
- rule
- information
- words
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000000203 mixture Substances 0.000 claims abstract description 89
- 238000004458 analytical method Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000002950 deficient Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 239000000470 constituent Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供的一种不良信息识别方法及装置,该方法包括:获取待识别文本信息;利用句法分析树对所述待识别文本信息进行处理,得到与所述待识别文本信息对应的待识别结构、待识别组成词;判断所述待识别结构与预设树规则的树结构是否匹配;如果所述待识别结构与预设树规则的树结构匹配,则将所述待识别组成词与所述预设树规则的组成词进行匹配;如果所述待识别组成词与所述预设树规则的组成词匹配,则确定所述待识别文本信息为不良信息,本发明通过对文本进行句子分析,与预设树规则的树结构、组成词依次进行匹配分析,解决了传统基于规则的不良信息识别泛化能力小的问题,能够提高对不良信息的识别效率、准确率及覆盖率。
Description
技术领域
本发明实施例涉及信息处理技术领域,具体涉及一种不良信息识别方法及 装置。
背景技术
随着互联网技术的飞速发展,论坛、微博等门户网站种类日益增长,为信 息获取及言论发表提供了便捷的渠道。然而,与此同时许多恶意用户通过网络 渠道发布不良信息。不良信息的传播会对正常用户的人生观、价值观、道德观 造成侵袭,影响网络社区环境,损害他人利益,败坏网络评论风气,并且阻碍 了正常用户对有效信息的获取。近年来,国家多次开展专业行动,严厉打击网络不良信息,铲除不良信息的利益链条,与互联网行业管理,互联网新闻管理 相互配合,公开维护网上的公共秩序。在海量的网络信息中识别不良信息,人 工识别的方法效率低并且成本高,所以需要通过新型的不良信息识别方法帮助物联网环境加强网络信息管理,确保互联网的客观可控。
目前主流的不良信息识别方法包括基于关键词的方法、基于规则的方法以 及基于机器学习的方法。其中,基于关键词的方法是通过文本与关键词的匹配 来判断该文本是否为不良信息,其优点是识别效率高,其缺点是准确率及覆盖 率不高、不能解决泛化问题;基于规则的方法是通过抽取典型的有代表性的规 则,构成规则库,通过规则与文本之间的匹配来判断该文本是否为不良信息,其优点是准确率高,其缺点是在抽取规则的过程会消耗大量的人力资源,并且 不能解决泛化问题;基于机器学习的方法目前使用比较多的是文本分类的方 法,通过文本预处理、抽取文本特征以及特征融合处理得到文本的表示模型,再通过朴素贝叶斯、决策树、随机森林等分类算法构造分类器,用分类器识别 不良信息,其优点是减少人力资源的消耗并可以很大程度上解决泛化的问题, 但是由于网络评论文本短并且口语化严重,样本数量不平衡,所以机器学习的 方式不能起到很好的效果。
因此,如何提供一种不良信息的识别方案,能够提高对不良信息的识别效 率、准确率及覆盖率,是本领域技术人员亟待解决的技术问题。
发明内容
为此,本发明实施例提供一种不良信息识别方法及装置,能够提高对不良 信息的识别效率、准确率及覆盖率。
为了实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供一种不良信息识别方法,包括:
获取待识别文本信息;
利用句法分析树对所述待识别文本信息进行处理,得到与所述待识别文本 信息对应的待识别结构、待识别组成词;
判断所述待识别结构与预设树规则的树结构是否匹配;
如果所述待识别结构与预设树规则的树结构匹配,则将所述待识别组成词 与所述预设树规则的组成词进行匹配;
如果所述待识别组成词与所述预设树规则的组成词匹配,则确定所述待识 别文本信息为不良信息。
优选地,所述预设树规则,包括:树结构、组成词;
所述树结构其形式化表述为:
其中:
VA为Trul中所有结点的简称;
E为规则树中所有边的集合;
为从边集合E到结点有序偶集合上的函数;
其中Edge表示结点V1,V2之间的边;
其中H表示树规则中的头结点;
上述规则树中所有边的集合E满足以下条件:
E={A,AS};
其中:
A为Trul中LCW与TS中叶子结点对应边的集合,LCW为Trul中组成 词的简称,满足以下条件:
LCW∈VA;
TS为Trul对应树结构的简称,表示树规则逻辑结构的一种抽象结构,满足 以下条件:
TS=V,AS;
V为TS中的结点的集合,满足以下条件:
V=(H,S);
其中S为树规则Trul中表示逻辑结构的中间结点集合,通过该结点来表 示树规则的逻辑结构;
AS为树结构TS中结点之间边的集合,集合中的元素Et满足下述条件:a) ut,vt∈TS;b)
集合E中的元素Ea满足以下条件:a)ua∈TS;b)va∈LCW;c)
优选地,所述预设树规则由以下步骤得到:
获取不良信息样本;
通过simhash算法对所述不良信息样本去重;
将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取,将抽 出的不良信息组成词以及该不良信息存入到树规则库中;
将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息 的句法分析树匹配,输出树结构并存入到树规则库中;
将树结构相同的树规则进行合并,将树结构中相同位置的词存储到树规则 库的同一个集合中以便后续进行距离的计算;
将树规则库中的组成词集合提出,提取相应的特征并构建特征库,其中特 征提取表示特征在特征空间的映射;
将没有进行人工抽取组成词的不良信息转化为句法分析树,将句法分析树 与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的 位置。
优选地,所述将存入到树规则库中的信息转化为句法分析树,将树规则的 组成词及信息的句法分析树匹配,输出树结构并存入到树规则库中,包括:
将树规则的组成词与文本的树结构匹配,深度遍历句法分析树保存遍历路 径并记录树中最后一个有分支的结点位置;
当遍历到一个叶子结点时,叶子结点的值在抽取出的组成词中,则将该路 径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边,并 从根结点开始重新遍历该句法分析树;
当遍历到的叶子结点中的值不在组成词中,则直接删除记录下的分支接点 后的所有结点和边,并从根结点开始重新遍历该句法分析树,直到所有删减前 的句法分析树中的叶子结点都被遍历过为止;
输出树结构并存入到树规则库。
优选地,还包括:
提取所述预设树规则的组成词的词特征;
对提取出的词特征与语料库中的词语进行相似度计算,得到计算结果;
根据所述计算结果,确定是否将所述语料库中的词语存储到所述预设树规 则相应的树结构的组成词中,以完成树规则的扩展。
第二方面,本发明实施例提供一种不良信息识别装置,包括:
文本获取模块,用于获取待识别文本信息;
句子分析模块,用于利用句法分析树对所述待识别文本信息进行处理,得 到与所述待识别文本信息对应的待识别结构、待识别组成词;
树结构匹配模块,用于判断所述待识别结构与预设树规则的树结构是否匹 配;
组成词匹配模块,用于如果所述待识别结构与预设树规则的树结构匹配, 则将所述待识别组成词与所述预设树规则的组成词进行匹配;
不良信息确定模块,用于如果所述待识别组成词与所述预设树规则的组成 词匹配,则确定所述待识别文本信息为不良信息。
优选地,还包括:树规则得到模块,用于实现以下步骤以得到预设树规则:
获取不良信息样本;
通过simhash算法对所述不良信息样本去重;
将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取,将抽 出的不良信息组成词以及该不良信息存入到树规则库中;
将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息 的句法分析树匹配,输出树结构并存入到树规则库中;
将树结构相同的树规则进行合并,将树结构中相同位置的词存储到树规则 库的同一个集合中以便后续进行距离的计算;
将树规则库中的组成词集合提出,提取相应的特征并构建特征库,其中特 征提取表示特征在特征空间的映射;
将没有进行人工抽取组成词的不良信息转化为句法分析树,将句法分析树 与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的 位置。
优选地,还包括:
词特征提取模块,用于提取所述预设树规则的组成词的词特征;
相似度计算模块,用于对提取出的词特征与语料库中的词语进行相似度计 算,得到计算结果;
组成词扩展模块,用于根据所述计算结果,确定是否将所述语料库中的词 语存储到所述预设树规则相应的树结构的组成词中,以完成树规则的扩展。
第三方面,本发明实施例提供一种不良信息识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述第一方面任一种所述不良 信息识别方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读 存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第 一方面任一种所述不良信息识别方法的步骤。
本发明实施例提供一种不良信息识别方法,包括:获取待识别文本信息; 利用句法分析树对所述待识别文本信息进行处理,得到与所述待识别文本信息 对应的待识别结构、待识别组成词;判断所述待识别结构与预设树规则的树结 构是否匹配;如果所述待识别结构与预设树规则的树结构匹配,则将所述待识 别组成词与所述预设树规则的组成词进行匹配;如果所述待识别组成词与所述预设树规则的组成词匹配,则确定所述待识别文本信息为不良信息,本发明通 过对文本进行句子分析,与预设树规则的树结构、组成词依次进行匹配分析, 解决了传统基于规则的不良信息识别泛化能力小的问题,提高了检测效率以及 识别的准确率;与基于关键词的不良信息识别方法相比,提高了识别的准确率 及覆盖率;与机器学习的方法相比,上述方法提高了识别效率,并且不会被样 本不均衡的问题拘束,能够提高对不良信息的识别效率、准确率及覆盖率。
本发明实施例提供的一种不良信息识别方法及装置,具有相同的上述有益 效果,在此不再一一赘述。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内 容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条 件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调 整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明 所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种不良信息识别方法的流程图;
图2为本发明实施例提供的不良信息识别方法的树规则的结构图;
图3为图2所示的树规则的树结构的示意图;
图4为本发明实施例提供的一种预设树规则的得到流程图;
图5为本发明实施例提供的一种预设树规则的规则库扩充流程图;
图6为本发明实施例提供的一种预设树规则的组成词扩充流程图;
图7为本发明又一实施例提供的一种不良信息识别的树规则抽取流程图;
图8为本发明又一实施例提供的一种不良信息识别的信息匹配流程图;
图9为本发明又一实施例提供的一种不良信息识别的树规则扩展流程图;
图10为本发明实施例提供的一种不良信息识别装置的组成示意图;
图11为本发明实施例提供的一种不良信息识别装置的拓展组成示意图;
图12为本发明一种具体实施方式中所提供的一种不良信息识别设备的结 构示意图;
图13为本发明一种具体实施方式中所提供的一种计算机可读存储介质的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由 本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
请参考图1、图2、图3,图1为本发明实施例提供的一种不良信息识别 方法的流程图;图2为本发明实施例提供的不良信息识别方法的树规则的结构 图;图3为图2所示的树规则的树结构的示意图;
在本发明一种具体实施方式中,本发明实施例提供一种不良信息识别方 法,包括:
步骤S11:获取待识别文本信息;
步骤S12:利用句法分析树对所述待识别文本信息进行处理,得到与所述 待识别文本信息对应的待识别结构、待识别组成词;
步骤S13:判断所述待识别结构与预设树规则的树结构是否匹配;
步骤S14:如果所述待识别结构与预设树规则的树结构匹配,则将所述待 识别组成词与所述预设树规则的组成词进行匹配;
步骤S15:如果所述待识别组成词与所述预设树规则的组成词匹配,则确 定所述待识别文本信息为不良信息。
在本发明实施例中,首先需要获取待识别文本信息,例如,可以抓取网络 中的用户通过网络渠道发布的文本信息,当然待识别文本信息也可以有语音信 息或者图像信息识别得到。
在获取到待识别文本信息后,可以使用句法分析树对所述待识别文本信息 进行处理,得到与所述待识别文本信息对应的待识别结构、待识别组成词。句 法分析树是一种自然语言自动处理中的一种分析方法,借助于树形图来说明句 子中词与词、词组与词组之间的句法、语义和逻辑关系。
树的结构如图2所示,树的根结点被标记为开始,内部结点被标记为非终 结符(比如VP\NP等),非终结符与根结点共同表示树的结构,叶子结点被标记为终结符(比如JJ\NN等),表示信息的组成词。将树规则的组成词与文本 的树结构匹配,深度遍历句法分析树保存遍历路径并记录树中最后一个有分支 的结点位置,当遍历到一个叶子结点时,叶子结点的值在抽取出的组成词中, 则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点 和边,并从根结点开始重新遍历该句法分析树;当遍历到的叶子结点中的值不在组成词中,则直接删除记录下的分支接点后的所有结点和边,并从根结点开 始重新遍历该句法分析树。直到所有删减前的句法分析树中的叶子结点都被遍 历过为止。输出树结构并存入到树规则库中,树结构如图3所示。将图3树结 构以及叶子结点即组成词(人,太,傻)存储到树规则库。
一般地,预设树规则,包括:树结构、组成词;所述树结构其形式化表述 为:其中:VA为Trul中所有结点的简称;
E为规则树中所有边的集合;
为从边集合E到结点有序偶集合上的函数;
其中Edge表示结点V1,V2之间的边;
其中H表示树规则中的头结点;
上述规则树中所有边的集合E满足以下条件:
E={A,AS};
其中:
A为Trul中LCW与TS中叶子结点对应边的集合,LCW为Trul中组成 词的简称,满足以下条件:
LCW∈VA;
TS为Trul对应树结构的简称,表示树规则逻辑结构的一种抽象结构,满足 以下条件:
TS=V,AS;
V为TS中的结点的集合,满足以下条件:
V=(H,S);
其中S为树规则Trul中表示逻辑结构的中间结点集合,通过该结点来表 示树规则的逻辑结构;
AS为树结构TS中结点之间边的集合,集合中的元素Et满足下述条件:a) ut,vt∈TS;b)
集合E中的元素Ea满足以下条件:a)ua∈TS;b)va∈LCW;c)
请参考图4、图5、图6,图4为本发明实施例提供的一种预设树规则的 得到流程图;图5为本发明实施例提供的一种预设树规则的规则库扩充流程 图;图6为本发明实施例提供的一种预设树规则的组成词扩充流程图;图7 为本发明又一实施例提供的一种不良信息识别的树规则抽取流程图;图8为本 发明又一实施例提供的一种不良信息识别的信息匹配流程图;图9为本发明又 一实施例提供的一种不良信息识别的树规则扩展流程图。
在本发明实施例中,为了得到预设树规则,可以实施以下步骤:
步骤S21:获取不良信息样本;
步骤S22:通过simhash算法对所述不良信息样本去重;
步骤S23:将去重后的不良信息随机抽取出一部分进行规则组成词的人工 抽取,将抽出的不良信息组成词以及该不良信息存入到树规则库中;
步骤S24:将存入到树规则库中的信息转化为句法分析树,将树规则的组 成词及信息的句法分析树匹配,输出树结构并存入到树规则库中;
步骤S25:将树结构相同的树规则进行合并,将树结构中相同位置的词存 储到树规则库的同一个集合中以便后续进行距离的计算;
步骤S26:将树规则库中的组成词集合提出,提取相应的特征并构建特征 库,其中特征提取表示特征在特征空间的映射;
步骤S27:将没有进行人工抽取组成词的不良信息转化为句法分析树,将 句法分析树与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则 库中相应的位置。
具体地,首先,可以通过simhash算法将获得的不良信息数据去重,输入 为获取到的所有数据,输出为不重复的不良信息数据。
其次,将去重后的所有不良信息的数据随机抽取出一部分进行组成词的人 工抽取,将抽出的不良信息规则以及对应的不良信息存入到树规则库中,其中树规则的组成词都是信息中的词。
再次,将存入到树规则库中的信息转化为句法分析树,树的根结点被标记 为开始,内部结点被标记为非终结符(比如VP\NP等),非终结符与根结点共 同表示树的结构,叶子结点被标记为终结符(比如JJ\NN等),表示信息的组 成词。将树规则的组成词与文本的树结构匹配,深度遍历句法分析树保存遍历 路径并记录树中最后一个有分支的结点位置,当遍历到一个叶子结点时,叶子 结点的值在抽取出的组成词中,则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边,并从根结点开始重新遍历该句法分析 树;当遍历到的叶子结点中的值不在组成词中,则直接删除记录下的分支接点 后的所有结点和边,并从根结点开始重新遍历该句法分析树。直到所有删减前 的句法分析树中的叶子结点都被遍历过为止。输出树结构并存入到树规则库 中,将树结构以及叶子结点即组成词(人,太,傻)存储到树规则库。
将结构相同的树规则进行合并,将结构中相同位置的词存储到树规则库的 同一个集合中以便后期进行距离的计算,比如说有另外一条组成词为“官员太 傻”,“人”与“官员”所对应的树规则结构相同,其叶子结点对应的位置也相 同,那么将“人”与“官员”存储到一起,不同位置对应不同集合。
将树规则库中的单词提出,通过聚类的方法提取相应的特征并构建特征 库。
将没有进行人工抽取组成词的信息转化为句法分析树,将句法分析树与树 结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的位置,输 出没有对应树结构的不良信息则转到步骤S23,直到所有的不良信息规则都提 取出来为止。
进一步地,为了将存入到树规则库中的信息转化为句法分析树,将树规则 的组成词及信息的句法分析树匹配,输出树结构并存入到树规则库中,可以进 行以下步骤:
步骤S31:将树规则的组成词与文本的树结构匹配,深度遍历句法分析树 保存遍历路径并记录树中最后一个有分支的结点位置;
步骤S32:当遍历到一个叶子结点时,叶子结点的值在抽取出的组成词中, 则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点 和边,并从根结点开始重新遍历该句法分析树;
步骤S33:当遍历到的叶子结点中的值不在组成词中,则直接删除记录下 的分支接点后的所有结点和边,并从根结点开始重新遍历该句法分析树,直到 所有删减前的句法分析树中的叶子结点都被遍历过为止;
步骤S34:输出树结构并存入到树规则库。
在上述实施例的基础上,本实施例中,为了实现更广范围的不良信息识别, 还可以对组成词进行扩充,具体地,可以进行以下步骤:
步骤S41:提取所述预设树规则的组成词的词特征;
步骤S42:对提取出的词特征与语料库中的词语进行相似度计算,得到计 算结果;
步骤S43:根据所述计算结果,确定是否将所述语料库中的词语存储到所 述预设树规则相应的树结构的组成词中,以完成树规则的扩展。
具体地,可以通过Sinica Treebank语料库可以得到一批词语,构成自己的 词语语料库,通过特征库提取每一类单词的特征,并提取语料库中的特征。
与语料库中的词语进行相似度的计算,计算的方式为欧几里得距离与余弦 相似度加权求和得出的,将词的特征提取将词转化为特征向量,通过下列公式 计算出相似度的值:
D(X,Y)=Ad(X,Y)+Bcos(θ);
其中d(X,Y)为欧几里得距离,计算公式如下所示:
cos(θ)为余弦相似度计算出的相似值,计算公式如下所示:
上述公式中,X,Y表示两个词的词向量,n为词向量的维度,A和B为 量距离加权求和的参数,参数通过树规则库中已知同位置的组成词提取特征作 为公式的输入训练得出。将相似的词语存储到树规则库中相应类下。
值得说明的是,在进行信息规则树结构匹配识别时,可以首先将待识别信 息转化为句法分析树,其树结构与图2结构相同。循环抽取树规则库中的树结 构。从AS中逐个抽出树结构中的结点对应的边,并在Ad中查找该边,当树结 构中所有的边都可以在句法分析树中的Ad中找到,则该树结构匹配成功,否则 匹配失败。匹配失败则认为该信息为正常信息,否则转到仅需后续的组成词的 匹配操作。
在进行信息组成词的匹配识别时,首先在组成词中查找待检测信息对应位 置的词语,找到则认为待识别信息为不良信息,否则仅需后续操作。匹配到的 树结构中对应位置的词语提取特征并与树规则库中的词语进行相似度计算。设 置一个阈值,当计算值大于阈值则认为相似,相似则认为该信息为不良信息, 否则为正常信息。
请参考图10、图11,图10为本发明实施例提供的一种不良信息识别装置 的组成示意图;图11为本发明实施例提供的一种不良信息识别装置的拓展组 成示意图。
本发明实施例提供一种不良信息识别装置1000,包括:
文本获取模块1010,用于获取待识别文本信息;
句子分析模块1020,用于利用句法分析树对所述待识别文本信息进行处 理,得到与所述待识别文本信息对应的待识别结构、待识别组成词;
树结构匹配模块1030,用于判断所述待识别结构与预设树规则的树结构 是否匹配;
组成词匹配模块1040,用于如果所述待识别结构与预设树规则的树结构 匹配,则将所述待识别组成词与所述预设树规则的组成词进行匹配;
不良信息确定模块1050,用于如果所述待识别组成词与所述预设树规则 的组成词匹配,则确定所述待识别文本信息为不良信息。
优选地,还包括:树规则得到模块1060,用于实现以下步骤以得到预设 树规则:
获取不良信息样本;
通过simhash算法对所述不良信息样本去重;
将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取,将抽 出的不良信息组成词以及该不良信息存入到树规则库中;
将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息 的句法分析树匹配,输出树结构并存入到树规则库中;
将树结构相同的树规则进行合并,将树结构中相同位置的词存储到树规则 库的同一个集合中以便后续进行距离的计算;
将树规则库中的组成词集合提出,提取相应的特征并构建特征库,其中特 征提取表示特征在特征空间的映射;
将没有进行人工抽取组成词的不良信息转化为句法分析树,将句法分析树 与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的 位置。
优选地,还包括:
词特征提取模块1070,用于提取所述预设树规则的组成词的词特征;
相似度计算模块1080,用于对提取出的词特征与语料库中的词语进行相 似度计算,得到计算结果;
组成词扩展模块1090,用于根据所述计算结果,确定是否将所述语料库 中的词语存储到所述预设树规则相应的树结构的组成词中,以完成树规则的扩 展。
请参考图12、图13,图12为本发明一种具体实施方式中所提供的一种不 良信息识别设备的结构示意图;图13为本发明一种具体实施方式中所提供的 一种计算机可读存储介质的结构示意图。
本发明实施例提供不良信息识别设备1200,包括:
存储器1210,用于存储计算机程序;
处理器1220,用于执行所述计算机程序时实现如上述第一方面所述任一 种不良信息识别方法的步骤。该计算机程序存储于存储器1210中的用于程序 代码存储的空间中,该计算机程序有处理器1220执行时实现任一种本发明实 施例中的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质 上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种具体 实施方式所述任一种不良信息识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的装置,设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,设备和方 法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性 的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的 划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些 特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以 是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元 显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可 以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元 来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用设 备,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。虽然, 上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明 基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要 求保护的范围。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述, 但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是 显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均 属于本发明要求保护的范围。
Claims (7)
1.一种不良信息识别方法,其特征在于,包括:
获取待识别文本信息;
利用句法分析树对所述待识别文本信息进行处理,得到与所述待识别文本信息对应的待识别结构、待识别组成词;
判断所述待识别结构与预设树规则的树结构是否匹配;
如果所述待识别结构与预设树规则的树结构匹配,则将所述待识别组成词与所述预设树规则的组成词进行匹配;
如果所述待识别组成词与所述预设树规则的组成词匹配,则确定所述待识别文本信息为不良信息;
所述预设树规则,包括:树结构、组成词;
所述树结构其形式化表述为:
Trul=(VA,E,φ,H,Trul);
其中:
VA为Trul中所有结点的简称;
E为规则树中所有边的集合;
φ为从边集合E到结点有序偶集合上的函数;
φ(Edge)=(V1,V2);
其中Edge表示结点V1,V2之间的边;
其中H表示树规则中的头结点;
上述规则树中所有边的集合E满足以下条件:
E={A,AS};
其中:
A为Trul中LCW与TS中叶子结点对应边的集合,LCW为Trul中组成词的简称,满足以下条件:
LCW∈VA;
TS为Trul对应树结构的简称,表示树规则逻辑结构的一种抽象结构,满足以下条件:
TS=V,AS;
V为TS中的结点的集合,满足以下条件:
V=(H,S);
其中S为树规则Trul中表示逻辑结构的中间结点集合,通过该结点来表示树规则的逻辑结构;
AS为树结构TS中结点之间边的集合,集合中的元素Et满足下述条件:a)ut,vt∈TS;b)φ(Et)=(ut,vt);
集合E中的元素Ea满足以下条件:a)ua∈TS;b)va∈LCW;c)φ(Ea)=(ua,va);
所述预设树规则由以下步骤得到:
获取不良信息样本;
通过simhash算法对所述不良信息样本去重;
将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取,将抽出的不良信息组成词以及该不良信息存入到树规则库中;
将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息的句法分析树匹配,输出树结构并存入到树规则库中;
将树结构相同的树规则进行合并,将树结构中相同位置的词存储到树规则库的同一个集合中以便后续进行距离的计算;
将树规则库中的组成词集合提出,提取相应的特征并构建特征库,其中特征提取表示特征在特征空间的映射;
将没有进行人工抽取组成词的不良信息转化为句法分析树,将句法分析树与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的位置;
所述将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息的句法分析树匹配,输出树结构并存入到树规则库中,包括:
将树规则的组成词与文本的树结构匹配,深度遍历句法分析树保存遍历路径并记录树中最后一个有分支的结点位置;
当遍历到一个叶子结点时,叶子结点的值在抽取出的组成词中,则将该路径存入AS中并删除句法分析树中记录下的分支结点之后的所有结点和边,并从根结点开始重新遍历该句法分析树;
当遍历到的叶子结点中的值不在组成词中,则直接删除记录下的分支接点后的所有结点和边,并从根结点开始重新遍历该句法分析树,直到所有删减前的句法分析树中的叶子结点都被遍历过为止;
输出树结构并存入到树规则库。
2.根据权利要求1所述的不良信息识别方法,其特征在于,还包括:
提取所述预设树规则的组成词的词特征;
对提取出的词特征与语料库中的词语进行相似度计算,得到计算结果;
根据所述计算结果,确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中,以完成树规则的扩展。
3.一种不良信息识别装置,采用权利要求1至2任一项所述的不良信息识别方法,其特征在于,包括:
文本获取模块,用于获取待识别文本信息;
句子分析模块,用于利用句法分析树对所述待识别文本信息进行处理,得到与所述待识别文本信息对应的待识别结构、待识别组成词;
树结构匹配模块,用于判断所述待识别结构与预设树规则的树结构是否匹配;
组成词匹配模块,用于如果所述待识别结构与预设树规则的树结构匹配,则将所述待识别组成词与所述预设树规则的组成词进行匹配;
不良信息确定模块,用于如果所述待识别组成词与所述预设树规则的组成词匹配,则确定所述待识别文本信息为不良信息。
4.根据权利要求3所述的不良信息识别装置,其特征在于,还包括:树规则得到模块,用于实现以下步骤以得到预设树规则:
获取不良信息样本;
通过simhash算法对所述不良信息样本去重;
将去重后的不良信息随机抽取出一部分进行规则组成词的人工抽取,将抽出的不良信息组成词以及该不良信息存入到树规则库中;
将存入到树规则库中的信息转化为句法分析树,将树规则的组成词及信息的句法分析树匹配,输出树结构并存入到树规则库中;
将树结构相同的树规则进行合并,将树结构中相同位置的词存储到树规则库的同一个集合中以便后续进行距离的计算;
将树规则库中的组成词集合提出,提取相应的特征并构建特征库,其中特征提取表示特征在特征空间的映射;
将没有进行人工抽取组成词的不良信息转化为句法分析树,将句法分析树与规则树结构进行匹配,匹配成功后将叶子结点的词存入到树规则库中相应的位置。
5.根据权利要求4所述的不良信息识别装置,其特征在于,还包括:
词特征提取模块,用于提取所述预设树规则的组成词的词特征;
相似度计算模块,用于对提取出的词特征与语料库中的词语进行相似度计算,得到计算结果;
组成词扩展模块,用于根据所述计算结果,确定是否将所述语料库中的词语存储到所述预设树规则相应的树结构的组成词中,以完成树规则的扩展。
6.一种不良信息识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至2任一项所述不良信息识别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述不良信息识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911071666.5A CN111062199B (zh) | 2019-11-05 | 2019-11-05 | 一种不良信息识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911071666.5A CN111062199B (zh) | 2019-11-05 | 2019-11-05 | 一种不良信息识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062199A CN111062199A (zh) | 2020-04-24 |
CN111062199B true CN111062199B (zh) | 2023-12-22 |
Family
ID=70298460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911071666.5A Active CN111062199B (zh) | 2019-11-05 | 2019-11-05 | 一种不良信息识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062199B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932394B (zh) * | 2020-08-10 | 2023-10-31 | 成都数之联科技股份有限公司 | 一种基于关联规则挖掘的不良根因路径分析方法及系统 |
CN113515591B (zh) * | 2021-04-22 | 2024-03-15 | 平安科技(深圳)有限公司 | 文本不良信息识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
WO2014069779A1 (ko) * | 2012-10-31 | 2014-05-08 | 에스케이플래닛 주식회사 | 구문 전처리 기반의 구문 분석 장치 및 그 방법 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106951437A (zh) * | 2017-02-08 | 2017-07-14 | 中国科学院信息工程研究所 | 适于多个中文敏感词句的识别处理方法及装置 |
CN108874777A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种文本反垃圾的方法及装置 |
CN109657158A (zh) * | 2018-11-29 | 2019-04-19 | 山西大学 | 一种基于社交网络数据的药品不良事件信息提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
-
2019
- 2019-11-05 CN CN201911071666.5A patent/CN111062199B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
WO2014069779A1 (ko) * | 2012-10-31 | 2014-05-08 | 에스케이플래닛 주식회사 | 구문 전처리 기반의 구문 분석 장치 및 그 방법 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106951437A (zh) * | 2017-02-08 | 2017-07-14 | 中国科学院信息工程研究所 | 适于多个中文敏感词句的识别处理方法及装置 |
CN108874777A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种文本反垃圾的方法及装置 |
CN109657158A (zh) * | 2018-11-29 | 2019-04-19 | 山西大学 | 一种基于社交网络数据的药品不良事件信息提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062199A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kiela et al. | The hateful memes challenge: Detecting hate speech in multimodal memes | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN111814770B (zh) | 一种新闻视频的内容关键词提取方法、终端设备及介质 | |
US8396286B1 (en) | Learning concepts for video annotation | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
WO2019076191A1 (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN108664526B (zh) | 检索的方法和设备 | |
US20140032207A1 (en) | Information Classification Based on Product Recognition | |
US20060253491A1 (en) | System and method for enabling search and retrieval from image files based on recognized information | |
US20230245455A1 (en) | Video processing | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
CN102549603A (zh) | 基于相关性的图像选择 | |
WO2022116419A1 (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN111062199B (zh) | 一种不良信息识别方法及装置 | |
US20160117325A1 (en) | System for mapping a set of related strings on an ontology with a global submodular function | |
JP5692074B2 (ja) | 情報分類装置、情報分類方法、及びプログラム | |
CN107644105A (zh) | 一种搜题方法及装置 | |
CN114372267B (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN110097258B (zh) | 一种用户关系网络建立方法、装置及计算机可读存储介质 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN113688263B (zh) | 用于搜索图像的方法、计算设备和存储介质 | |
Chen et al. | Efficient automatic OCR word validation using word partial format derivation and language model | |
Kim et al. | Semantic-preserving augmentation for robust image-text retrieval | |
CN115098794A (zh) | 一种舆论制造群体识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |