CN103198160A

CN103198160A - 一种关键词组合匹配方法

Info

Publication number: CN103198160A
Application number: CN2013101541626A
Authority: CN
Inventors: 田永根; 陈稳; 郭铁
Original assignee: NANJING AXON TECHNOLOGY Co Ltd
Current assignee: NANJING AXON TECHNOLOGY Co Ltd
Priority date: 2013-04-28
Filing date: 2013-04-28
Publication date: 2013-07-10
Anticipated expiration: 2033-04-28
Also published as: CN103198160B

Abstract

本发明涉及一种关键词组合匹配方法。针对目前互联网上垃圾信息的骚扰，提出通过关键词组合匹配的方法进行分析识别这些信息，如分析某个文本内容是否暴力信息时，通过定义一个值进行统计，当出现相关词时，这个值增加，这样能够使匹配的结果更加准确。

Description

一种关键词组合匹配方法

技术领域

本发明涉及一种关键词组合匹配方法，属于数据识别技术领域。

背景技术

在internet日益普及的今天，人们在享受信息获取便利的同时，也遭受着各种垃圾信息的骚扰，如恶意攻击、黄色暴力信息等，对这些信息的分析，可以通过对其中关键词的匹配程度进行识别。目前，对目标文本中匹配单个关键词，已经有很多有效的方法，如ac_bm算法搜索，可以先用需要匹配的关键词构建一棵ac_bm树，然后再进行匹配，只要需要匹配的关键词在目标文本中出现，就会被匹配到。

在实际需求中，还经常会需要这些关键词的组合信息，如分析某个文本内容是否暴力信息时，定义一个值“power”用于统计，它的值越大，表示为暴力信息的可能性越大，当出现“打架”、“斗殴”关键词时，分别让“power”值加1，当同时出现“打架”、“斗殴”时，让“power”值加10，这样使匹配的结果更精确。

发明内容

有鉴于此，本发明的主要目的是提供一种关键词组合匹配的方法，旨在使匹配的结果更加准确，具体步骤如下：

1、设需要匹配的关键词：A，B，D，E；

设需要匹配的关键词组合：A&B，A&D&E，B&E，B&D&E。

2、为每个关键词设置所属组合属性：

A：{(0，2)，(1，4)，(-1，-1)}

B：{(0，1)，(2，2)，(3，4)，(-1，-1)}

C：{(-1，-1)}

D：{(1，2)，(3，1)，(-1，-1)}

E：{(1，1)，(2，1)，(3，1)，(-1，-1)}

“{}”中表示该关键词所属的全部组合，“()”中第一个数表示所属组合的index，第二个数转换成二进制时，“1”的位置表示在所属组合中的位置，比如B-＞(3，4)，即(3，00000100)，表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。

3、定义数组int combine[4]，combine[4]数组各成员值用二进制表示为：

0000 0011

0000 0111

0000 0011

0000 1111

(低位“1”的个数，表示该组合包含关键词的个数，高位全部置“0”)

4、对文本进行匹配时，定义数组int compare[4]，并清零：

0000 0000

当匹配到关键词时，对该数组进行或操作，当出现关键词A时，(0，2)表示进行操作：compare[0]|＝2，(1，4)表示进行操作，compare[1]|＝4，(-1，-1)表示结束这样的操作，则compare[4]各成员的值变为：

0000 0010

0000 0100

0000 0000

以此类推，假设文本中出现了“A&D&E”关键词组合，则当整个文本匹配结束时，compare[4]各成员值演变为：

0000 0010

0000 0111

0000 0001

0000 0011

将compare[]与combine[]各成员进行与操作，如果结果与combine[]对应成员值相等，表示对应的关键词组合出现，比如compare[1]&combine[1]＝＝combine[1]，所以可能确定index＝1对应的关键词组合(“A&D&E”)被匹配到。

具体实施方式

设需要匹配的关键词：A，B，D，E；设需要匹配的关键词组合：A&B，A&D&E，B&E，B&D&E。

为每个关键词设置所属组合属性：

A：{(0，2)，(1，4)，(-1，-1)}

B：{(0，1)，(2，2)，(3，4)，(-1，-1)}

C：{(-1，-1)}

D：{(1，2)，(3，1)，(-1，-1)}

E：{(1，1)，(2，1)，(3，1)，(-1，-1)}

定义数组int combine[4]，combine[4]数组各成员值用二进制表示为：

0000 0011

0000 0111

0000 0011

0000 1111

对文本进行匹配时，定义数组int compare[4]，并清零：

0000 0000

当匹配到关键词时，对该数组进行或操作，当出现关键词A时，(0，2)表示进行操作：compare[0]|＝2，(1，4)表示进行操作：compare[1]|＝4，(-1，-1)表示结束这样的操作，则compare[4]各成员的值变为：

0000 0010

0000 0100

0000 0000

0000 0010

0000 0111

0000 0001

0000 0011

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围。

Claims

1.一种关键词组合匹配方法，其特征在于，包含以下步骤：

步骤1、设需要匹配的关键词：A，B，D，E，设需要匹配的关键词组合：A&B，A&D&E，B&E，B&D&E；

步骤2、为每个关键词设置所属组合属性：

A：{(0，2)，(1，4)，(-1，-1)}

B：{(0，1)，(2，2)，(3，4)，(-1，-1)}

C：{(-1，-1)}

D：{(1，2)，(3，1)，(-1，-1)}

E：{(1，1)，(2，1)，(3，1)，(-1，-1)}

“{}”中表示该关键词所属的全部组合，“()”中第一个数表示所属组合的index，第二个数转换成二进制时，“1”的位置表示在所属组合中的位置，比如B-＞(3，4)，即(3，00000100)，表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置；

步骤3、定义数组int combine[4]，combine[4]数组各成员值用二进制表示为：

0000 0011 0000 0111 0000 0011 0000 1111

步骤4、对文本进行匹配时，定义数组int compare[4]，并清零：

0000 0000 0000 0000 0000 0000 0000 0000

0000 0010 0000 0100 0000 0000 0000 0000

0000 0010 0000 0111 0000 0001 0000 0011