CN104866547B

CN104866547B - 一种针对组合字类关键词的过滤方法

Info

Publication number: CN104866547B
Application number: CN201510231538.8A
Authority: CN
Inventors: 蒋大可; 何俊; 莫燕峰
Original assignee: HUBEI JINCHU NETWORK TECHNOLOGY Co Ltd
Current assignee: HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.
Priority date: 2015-05-08
Filing date: 2015-05-08
Publication date: 2019-04-23
Anticipated expiration: 2035-05-08
Also published as: CN104866547A

Abstract

一种文字处理方法，特别是一种针对组合字类关键词的过滤方法，采用本方法对信息进行检测可以识别组合字类关键词，并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

Description

一种针对组合字类关键词的过滤方法

技术领域

本发明涉及一种文字处理方法，特别是一种针对组合字类关键词的过滤方法。

背景技术

目前网络作为传播信息的主要工具，不仅提供了人们所需要的资源，还充斥着大量的垃圾信息，特别是一些论坛上，充斥着大量的垃圾信息，为了防止这些垃圾信息通过用户发帖的方式进行传播，实现网络信息安全，最有效的解决方法就是对这些内容信息进行关键词过滤，但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目的，现有技术就很难将其识别。

发明目的

本发明的目的在于提供一种针对组合字类关键词的过滤方法，采用本方法对信息进行检测可以识别组合字类关键词，并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

实现本发明目的的技术方案是:一种针对组合字类关键词的过滤方法，其特征在于:包括以下步骤:

1.1.对文本进行预处理，去除ＨＴＭＬ标签、换行符、表情标签，得到预处理文本；

1.2.从预处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段；

1.3.在词典中查找该匹配字段，如果找到该匹配字段，则切分出一条词，设长度为ｎ，并后移ｎ个字作为下一次分词的起点；

1.4.返回步骤1.2;

1.5.若未找到该匹配字段，则去除匹配字段的最后一个字，作为新的匹配字段，并转到步骤1.3；

1.6.当预处理文本中所有汉字串被处理完毕则得出第一匹配结果；

1.7.将预处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段；

1.8.在词典中查找该匹配字段，如果找到该匹配字段，则切分出一条词，设长度为ｎ，并前移ｎ个字作为下一次分词的起点；

1.9.返回步骤1.7；

1.10.若未找到该匹配字段，则去除匹配字段的第一个字，作为新的匹配字段，并转到步骤1.8；

1.11.预处理文本中的汉字串被再次处理完毕，则得出第二匹配结果，取第一匹配结果与第二匹配结果的并集；

1.12.计算并集中各个词项 t的权重值，公式如下:

其中，词频TF是指词项在一篇文档中出现的次数，定义为，表示词项t在文档d中出现的次数；逆文档率IDF是指词项出现在所有文档中的次数的倒数，定义为，其中D表示文档集合的大小，DF(t)表示文档集合中包含词项t的文档的数目；

1.13.所有词项的权重计算出来之后按照权重从小到大依次排列，选出50～100个高频词项用来表示文档；

1.14.从以往处理过的文本中提取组合字类型的关键词，形成特征词典；

1.15.将特征词典中的组合类型的关键词在中文分词表中进行匹配，将匹配到的词项拆分并通过正则表达式表达；

1.16.用正则表达式与步骤1.13选出的50～100个高频词项进行匹配；

1.17.若匹配成功则将其存储；

1.18.对存储词项选择相应的处理方式，如提示、删除或锁定。

而且步骤1.15中所述的正则表达式如下：

例如“招聘兼职”在中文分词表中对应的拆分方式是:(招|扌召)（聘|耳甹）兼（耳|只）,则其对应的正则表达式即为:{(招|扌召)（聘|耳甹）|兼（职|耳只） }。

本发明的优点在于: 采用本方法对信息进行检测可以识别组合字类关键词，并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

附图说明

图1是本方法的逻辑步骤图。

具体实施方式

参见图1，以下将结合实施例对本发明做进一步说明。

一种文字处理方法，特别是一种针对组合字类关键词的过滤方法，其特征在于:包括以下步骤:

1.4.返回步骤1.2;

1.9.返回步骤1.7；

1.12.计算并集中各个词项 t的权重值，公式如下:

1.17.若匹配成功则将其存储；

而且步骤1.15中所述的正则表达式如下：

特征词典中的特征词是根据需要，从经过处理的文本中按不同需求提取的，比如哪些词通常容易以哪种方式出现，是不是组合字等。用户也可自定义设置关键字对信息进行检索，设置某个关键词的时候要同时设置关键词要按照哪些规则进行检索，组合字规则的关键词在表示的时候就要用一定的符号表示。

Claims

1.一种针对组合字类关键词的过滤方法，其特征在于:包括以下步骤:

1.4.返回步骤1.2;

1.9.返回步骤1.7；

1.12.计算并集中各个词项 t的权重值，公式如下:

1.17.若匹配成功则将其存储；

2.根据权利要求1所述的一种针对组合字类关键词的过滤方法，其特征在于:步骤1.15中所述的正则表达式如下：

例如“招聘兼职”在中文分词表中对应的拆分方式是:(招|扌召)（聘|耳甹）兼（耳 |只）,则其对应的正则表达式即为:{(招|扌召)（聘|耳甹）|兼（职|耳只） }。