CN103198160A - 一种关键词组合匹配方法 - Google Patents

一种关键词组合匹配方法 Download PDF

Info

Publication number
CN103198160A
CN103198160A CN2013101541626A CN201310154162A CN103198160A CN 103198160 A CN103198160 A CN 103198160A CN 2013101541626 A CN2013101541626 A CN 2013101541626A CN 201310154162 A CN201310154162 A CN 201310154162A CN 103198160 A CN103198160 A CN 103198160A
Authority
CN
China
Prior art keywords
keyword
combination
compare
combine
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101541626A
Other languages
English (en)
Other versions
CN103198160B (zh
Inventor
田永根
陈稳
郭铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AXON TECHNOLOGY Co Ltd
Original Assignee
NANJING AXON TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AXON TECHNOLOGY Co Ltd filed Critical NANJING AXON TECHNOLOGY Co Ltd
Priority to CN201310154162.6A priority Critical patent/CN103198160B/zh
Publication of CN103198160A publication Critical patent/CN103198160A/zh
Application granted granted Critical
Publication of CN103198160B publication Critical patent/CN103198160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种关键词组合匹配方法。针对目前互联网上垃圾信息的骚扰,提出通过关键词组合匹配的方法进行分析识别这些信息,如分析某个文本内容是否暴力信息时,通过定义一个值进行统计,当出现相关词时,这个值增加,这样能够使匹配的结果更加准确。

Description

一种关键词组合匹配方法
技术领域
本发明涉及一种关键词组合匹配方法,属于数据识别技术领域。
背景技术
在internet日益普及的今天,人们在享受信息获取便利的同时,也遭受着各种垃圾信息的骚扰,如恶意攻击、黄色暴力信息等,对这些信息的分析,可以通过对其中关键词的匹配程度进行识别。目前,对目标文本中匹配单个关键词,已经有很多有效的方法,如ac_bm算法搜索,可以先用需要匹配的关键词构建一棵ac_bm树,然后再进行匹配,只要需要匹配的关键词在目标文本中出现,就会被匹配到。
在实际需求中,还经常会需要这些关键词的组合信息,如分析某个文本内容是否暴力信息时,定义一个值“power”用于统计,它的值越大,表示为暴力信息的可能性越大,当出现“打架”、“斗殴”关键词时,分别让“power”值加1,当同时出现“打架”、“斗殴”时,让“power”值加10,这样使匹配的结果更精确。
发明内容
有鉴于此,本发明的主要目的是提供一种关键词组合匹配的方法,旨在使匹配的结果更加准确,具体步骤如下:
1、设需要匹配的关键词:A,B,D,E;
设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E。
2、为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
3、定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
0000 0011 0000 0111 0000 0011 0000 1111
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
4、对文本进行匹配时,定义数组int compare[4],并清零:
0000 0000 0000 0000 0000 0000 0000 0000
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作,compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
0000 0010 0000 0100 0000 0000 0000 0000
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
0000 0010 0000 0111 0000 0001 0000 0011
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
具体实施方式
设需要匹配的关键词:A,B,D,E;设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E。
为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
0000 0011 0000 0111 0000 0011 0000 1111
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
对文本进行匹配时,定义数组int compare[4],并清零:
0000 0000 0000 0000 0000 0000 0000 0000
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作:compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
0000 0010 0000 0100 0000 0000 0000 0000
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
0000 0010 0000 0111 0000 0001 0000 0011
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围。

Claims (1)

1.一种关键词组合匹配方法,其特征在于,包含以下步骤:
步骤1、设需要匹配的关键词:A,B,D,E,设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E;
步骤2、为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置;
步骤3、定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
0000 0011 0000 0111 0000 0011 0000 1111
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
步骤4、对文本进行匹配时,定义数组int compare[4],并清零:
0000 0000 0000 0000 0000 0000 0000 0000
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作,compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
0000 0010 0000 0100 0000 0000 0000 0000
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
0000 0010 0000 0111 0000 0001 0000 0011
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
CN201310154162.6A 2013-04-28 2013-04-28 一种关键词组合匹配方法 Active CN103198160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310154162.6A CN103198160B (zh) 2013-04-28 2013-04-28 一种关键词组合匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310154162.6A CN103198160B (zh) 2013-04-28 2013-04-28 一种关键词组合匹配方法

Publications (2)

Publication Number Publication Date
CN103198160A true CN103198160A (zh) 2013-07-10
CN103198160B CN103198160B (zh) 2017-02-22

Family

ID=48720717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310154162.6A Active CN103198160B (zh) 2013-04-28 2013-04-28 一种关键词组合匹配方法

Country Status (1)

Country Link
CN (1) CN103198160B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915333A (zh) * 2014-03-10 2015-09-16 中国移动通信集团设计院有限公司 一种生成关键字组合策略的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714166A (zh) * 2009-10-30 2010-05-26 清华大学 一种大规模多关键词精确匹配算法的性能测试方法及系统
JP2012173817A (ja) * 2011-02-17 2012-09-10 Fujitsu Ltd 検索支援装置、プログラム及び方法
US20130073544A1 (en) * 2004-10-27 2013-03-21 At&T Intellectual Property I, L.P. Method and System to Combine Keyword and Natural Language Search Results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073544A1 (en) * 2004-10-27 2013-03-21 At&T Intellectual Property I, L.P. Method and System to Combine Keyword and Natural Language Search Results
CN101714166A (zh) * 2009-10-30 2010-05-26 清华大学 一种大规模多关键词精确匹配算法的性能测试方法及系统
JP2012173817A (ja) * 2011-02-17 2012-09-10 Fujitsu Ltd 検索支援装置、プログラム及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANCISCO MORAES OLIVEIRA-NETO等: "Online license plate matching procedures using license-plate recognition machines and new weighted edit distance", 《TRANSPORTATION RESEARCH PART C》 *
马志柔 等: "一种有效的多关键词词频统计方法", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915333A (zh) * 2014-03-10 2015-09-16 中国移动通信集团设计院有限公司 一种生成关键字组合策略的方法及装置
CN104915333B (zh) * 2014-03-10 2017-11-28 中国移动通信集团设计院有限公司 一种生成关键字组合策略的方法及装置

Also Published As

Publication number Publication date
CN103198160B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
Misra et al. Using summarization to discover argument facets in online ideological dialog
CN104281698B (zh) 一种高效的大数据查询方法
US8495005B2 (en) Methods for matching metadata from disparate data sources
CN103607391B (zh) 一种基于K‑means的SQL注入攻击检测方法
CN104166680B (zh) 一种基于开源库与文本挖掘的并行漏洞挖掘方法
WO2012173859A3 (en) Object-level identification of duplicate data in a storage system
JP2016508264A5 (zh)
WO2008097856A3 (en) Search result delivery engine
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
CN105159938B (zh) 检索方法和装置
CN103885937A (zh) 基于核心词相似度判断企业中文名称重复的方法
WO2017062987A8 (en) Systems and methods for multi-dimensional computer-aided searching
CN104216874A (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN105024987A (zh) 一种web业务日志的监测方法和装置
MX2011009461A (es) Metodo y dispositivo para extraer un circulo de relaciones caracteristico de una red.
CN106156041A (zh) 热点信息发现方法及系统
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
Wagh et al. Application of citation network analysis for improved similarity index estimation of legal case documents: A study
Shrestha et al. Using a Variety of n-Grams for the Detection of Different Kinds of Plagiarism
CN103198160A (zh) 一种关键词组合匹配方法
CN104731773A (zh) 文本情感分析方法及系统
CN105160229A (zh) 一种具有语音和指纹双重鉴权的单兵系统
CN105741842A (zh) 一种基于食品安全语料数据的语音匹配方法
CN107807963B (zh) 一种基于分治策略的输电网线路汇集区快速搜索的方法
CN108197259B (zh) 一种网络在线话题大数据检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant