CN107193930A

CN107193930A - 一种网站敏感词屏蔽方法

Info

Publication number: CN107193930A
Application number: CN201710349658.7A
Authority: CN
Inventors: 向敏明
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Dongguan Huarui Electronic Technology Co Ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2017-09-22

Abstract

本发明提供了一种网站敏感词屏蔽方法，抓取网站上的文字信息，将网站上的文字信息作为第一词语，将预设敏感词数据库中的词语作为第二词语，分别计算第一词语与第二词语的词语相似度，并将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度；根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功，若匹配成功，则对第一词语进行屏蔽处理。本发明中，在进行数据匹配时要对词语进行拆分，形成概念集合，而概念集合中的概念可以最大程度的涵盖词语的本质含义，所以从概念的粒度对词语进行匹配，可以有效的提高匹配的精确度，因此可以取得较佳的敏感词屏蔽效果。

Description

一种网站敏感词屏蔽方法

技术领域

本发明数据处理领域，尤其涉及一种网站敏感词屏蔽方法。

技术领域

在现在的网络通信或数据处理过程中，常常会产生对两个词语进行相似度匹配的需求。

现有技术主要采用的匹配方式为字面含义的匹配，通过相同或近似的字来判断词语是否匹配，例如“接近”和“靠近”，由于都具有“近”这个字，系统会判断这两个词匹配度较高。

但是，文字的内涵博大精深，仅仅依靠字面含义进行匹配经常容易出现错误，从而严重影响了匹配精确度。

发明内容

本发明提供了一种网站敏感词屏蔽方法。

一种网站敏感词屏蔽方法，其中，所述方法包括：

抓取网站文字信息，对所述文字信息进行分组，并将分组后得到的各个分词认定为第一词语；获取预设敏感词数据库中的分词，将敏感词数据库中存储的各个分词认定为第二词语；

依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，同时，依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；

逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；

将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度；

根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功；

若匹配成功，则对网站上匹配成功的所述第一词语进行屏蔽处理。

可选的，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度；

计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度，所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原；

计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度；

计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度；

根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。

可选的，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

其中，所述(d+α)表示两个义原，d是和在义原层次体系中的路径长度，α为常数参数。

可选的，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

1)将第一概念与第二概念的语义表达式的所有独立义原任意配对，计算两两独立义原相似度；

2)将相似度取值最大的一对归为一组；

3)对剩余的独立义原两两执行步骤2)，直至所有独立义原都完成分组；

4)对各组的相似度计算平均值作为所述第二相似度。

可选的，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

可选的，在所述抓取网站文字信息的步骤中还包括：

每隔预定时间获取网站首页的文字信息，以及获取与首页相链接的第一层网页文字信息和与首页相链接的第二层网页文字信息。

可选的，在抓取网站文字信息，对所述文字信息进行分组后，还包括步骤：

将分组后得到的各个分词保存到待检测数组中；

判断待检测数组中是否含有重复的分词，若有，则仅仅保留第一次出现的分词。

可选的，在上述步骤之后还包括：

使用预定字符替换被屏蔽的第一词语在网站上显示。

本发明公开了一种网站敏感词屏蔽方法，通过抓取网站上的文字信息，将网站上的文字信息作为第一词语，将预设敏感词数据库中的词语作为第二词语，依次对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，及依次对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功，若匹配成功，则对第一词语进行屏蔽处理。本发明中，在进行数据匹配时要对词语进行拆分，形成概念集合，而概念集合中的概念可以最大程度的涵盖词语的本质含义，所以从概念的粒度对词语进行匹配，可以有效的提高匹配的精确度，因此可以取得较佳的网站敏感词屏蔽效果。

附图说明

图1为本发明提供的网站敏感词屏蔽方法的流程示意图。

具体实施方式

为了使本领域的技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

Hownet中，对实词的概念描述由以下三种形式的描述式组成：

(1)独立义原描述式：由“基本义原”或“(具体词)”表示；

(2)关系义原描述式：由“关系义原＝基本义原”或“关系义原＝(具体词)”或者“(关系义原＝具体词)”来表示，其中关系义原是指包含“EventRole|动态角色”和“EventFeatures|动态属性”这两类的义原；

(3)符号义原描述式：由“关系符号基本义原”或者“关系符号(具体词)”表示，其中关系符号包括“#、％、$、*、+、&、@、？、！”，其各自代表的关系不再赘述。

在实际应用中，每一个概念由多个义原组成，义原是最基本的、不易于再分割的意义的最小单位。例如：“人”虽然是一个非常复杂的概念，它可以是多种属性的集合体，但也可以把它看作为一个义原。

基于上述词语相似度的理论，在进行网站敏感词匹配时，本发明提供了一种网站敏感词屏蔽方法，具体的，如图1所示，本发明网站敏感词屏蔽方法流程包括：

101、抓取网站文字信息，对所述文字信息进行分组，并将分组后得到的各个分词认定为第一词语；获取预设敏感词数据库中的分词，将敏感词数据库中存储的各个分词认定为第二词语。

首先获取网站的文字信息，对获取的文字信息中对每个句子进行分组，得到文字信息中的每个分词，并将得到的每个分词认定为第一分词。

在进行本步骤之前，预先建立了敏感词数据库，其中存储有多个网络中不宜出现的敏感词。为了增加敏感词屏蔽的准确性，所述敏感词数据库可以不断的更新，或者不仅保存有敏感词和敏感词相类似或者语义相同的分词也均有存储。将敏感词数据库中存储的分词认定为第二分词。

102、依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，同时，依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合。

针对上述步骤中分组出的多个分词，依次对每个第一词语进行概念拆分，得到每个第一词语所包含的若干个概念的第一概念集合。

依次对第二词语进行概念拆分，得到每个第二词语所包含的若干个概念的第二概念集合。

103、逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念。

104、将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度，并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。

105、若匹配成功，则对网站上匹配成功的第一词语进行屏蔽处理。

本发明中首先抓取网站上的文字信息，获取到待检测网站上的全部文字信息，然后将文字信息中的每一个句子都进行分组，

所有的概念都可以分解成各种各样的义原。同时也应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。中文中的字(包括单纯词)是有限的，并且它可以被用来表达各种各样的单纯的或复杂的概念，以及表达概念与概念之间、概念的属性与属性之间的关系。

通过对义原和概念的定义，就可以对两个词语的相似度进行计算，例如对于词语X₁和词语X₂，如果X₁有n个概念[S₁，S₂,…,S_n]，X₂有m个概念[T₁，T₂,…,T_m]，X₁和X₂的相似度Sim(X₁，X₂)为各个概念的相似度的最大值：

因此，为了计算得到X₁和X₂的相似度Sim(X₁，X₂)，则需要计算每两个概念之间的相似度。

计算两个概念之间的相似度则需要通过多个方面来综合计算：

(1)第一独立义原描述式：

因为所有的概念都最终归结于用义原来表示，所以义原的相似度计算是概念相似度的基础。由于所有的义原根据上下位关系构成树状的义原层次体系，可以简单的通过语义距离计算相似度。

用Sim₁(V₁，V₂)表示两个概念的这部分相似度，具体就是两个义原的相似度，具体计算公式如下：

其中(d+α)表示两个义原，d是和在义原层次体系中的路径长度。α是一个可调节的参数，在基于Hownet的词汇语义相似度计算方法中可以设定α的取值，例如：α＝0.5。

(2)其他独立义原描述式：语义表达式中除第一独立义原以外的所有其他独立义原，用Sim₂(V₁，V₂)表示两个概念的这部分相似度。

本发明中具体计算两个分词的某一个概念之间的相似度的步骤如下：

a、先把两个表达式的所有独立义原任意配对，计算两两义原相似度；

b、取值最大的一对归为一组；

c、对剩下的独立义原两两相似度执行第b步。如此反复，直到所有都完成分组。任何义原与空值的相似度定义为常数δ，例如：δ＝0.2；

d、最后求平均值。

(3)关系义原描述式：语义表达式中所有的关系义原，用Sim₃(V₁，V₂)表示两个概念的这部分相似度，把关系义原相同的表达式分为一组，计算相似度，最后求平均值。

(4)符号义原描述式：语义表达式中所有的符号义原，用Sim₄(V₁，V₂)表示两个概念的这部分相似度，把关系符号相同的表达式分为一组，计算相似度，最后求平均值。

综上所述，两个概念的相似度计算方法如公式(3)所示。

将根据上述公式(3)计算出的相似度与预设阈值进行比对，若超过，则判定第一词语与第二词语相匹配，否则判定第一词语与第二词语不匹配。所述预设阈值可以设置为90％以上，或者80％以上，可以由网站管理者自定义设置。

若第一词语与第二词语相匹配，则认为第一词语为敏感词，在网站中将第一词语进行屏蔽显示。

具体的，在网站中屏蔽显示可以使用预定字符替换被屏蔽的第一词语在网站上显示。所述预定字符可以为：*号，也可以为#号，可以根据网站开发者的喜好自定义设置。

为了更全面的对网站中的敏感次进行屏蔽，较佳的，在所述抓取网站文字信息的步骤中还包括：

当然为了实现更好的对网站上的文字信息进行敏感词屏蔽，可以设置每隔预定时间对网站中的文字信息进行全面敏感词检测，可以设置当接收到新的更新文字信息时，实时对新更新的文字信息进行敏感词检测，以及将人工检测相结合的方式，达到更好的检测效果。

为了避免每次进行检测敏感词时数据处理量过大，较佳的，在抓取网站文字信息，对所述文字信息进行分组后，还包括步骤：

将分组后得到的各个分词保存到待检测数组中；

上述步骤中即是将待检测是否为敏感词的第一词语进行归一化处理，避免对同一个词语多次计算与数据库中第二分词的相似度，增加不必要的运算量。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网站敏感词屏蔽方法，其特征在于，所述方法包括：

将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度，并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功；

2.根据权利要求1所述的网站敏感词屏蔽方法，其特征在于，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

3.根据权利要求2所述的网站敏感词屏蔽方法，其特征在于，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&alpha;</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>&alpha;</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

4.根据权利要求3所述的网站敏感词屏蔽方法，其特征在于，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

2)将相似度取值最大的一对归为一组；

4)对各组的相似度计算平均值作为所述第二相似度。

5.根据权利要求4所述的网站敏感词屏蔽方法，其特征在于，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>&beta;</mi> <mi>x</mi> </msub> <munderover> <mo>&Pi;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>x</mi> </munderover> <msub> <mi>Sim</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

6.根据权利要求1所述的网站敏感词屏蔽方法，其特征在于，在所述抓取网站文字信息的步骤中还包括：

7.根据权利要求6所述的网站敏感词屏蔽方法，其特征在于，在抓取网站文字信息，对所述文字信息进行分组后，还包括步骤：

将分组后得到的各个分词保存到待检测数组中；

8.根据权利要求6所述的网站敏感词屏蔽方法，其特征在于，还包括步骤：

使用预定字符替换被屏蔽的第一词语在网站上显示。