CN103198160A - 一种关键词组合匹配方法 - Google Patents
一种关键词组合匹配方法 Download PDFInfo
- Publication number
- CN103198160A CN103198160A CN2013101541626A CN201310154162A CN103198160A CN 103198160 A CN103198160 A CN 103198160A CN 2013101541626 A CN2013101541626 A CN 2013101541626A CN 201310154162 A CN201310154162 A CN 201310154162A CN 103198160 A CN103198160 A CN 103198160A
- Authority
- CN
- China
- Prior art keywords
- keyword
- combination
- compare
- combine
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种关键词组合匹配方法。针对目前互联网上垃圾信息的骚扰,提出通过关键词组合匹配的方法进行分析识别这些信息,如分析某个文本内容是否暴力信息时,通过定义一个值进行统计,当出现相关词时,这个值增加,这样能够使匹配的结果更加准确。
Description
技术领域
本发明涉及一种关键词组合匹配方法,属于数据识别技术领域。
背景技术
在internet日益普及的今天,人们在享受信息获取便利的同时,也遭受着各种垃圾信息的骚扰,如恶意攻击、黄色暴力信息等,对这些信息的分析,可以通过对其中关键词的匹配程度进行识别。目前,对目标文本中匹配单个关键词,已经有很多有效的方法,如ac_bm算法搜索,可以先用需要匹配的关键词构建一棵ac_bm树,然后再进行匹配,只要需要匹配的关键词在目标文本中出现,就会被匹配到。
在实际需求中,还经常会需要这些关键词的组合信息,如分析某个文本内容是否暴力信息时,定义一个值“power”用于统计,它的值越大,表示为暴力信息的可能性越大,当出现“打架”、“斗殴”关键词时,分别让“power”值加1,当同时出现“打架”、“斗殴”时,让“power”值加10,这样使匹配的结果更精确。
发明内容
有鉴于此,本发明的主要目的是提供一种关键词组合匹配的方法,旨在使匹配的结果更加准确,具体步骤如下:
1、设需要匹配的关键词:A,B,D,E;
设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E。
2、为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
3、定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
0000 0011 | 0000 0111 | 0000 0011 | 0000 1111 |
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
4、对文本进行匹配时,定义数组int compare[4],并清零:
0000 0000 | 0000 0000 | 0000 0000 | 0000 0000 |
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作,compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
0000 0010 | 0000 0100 | 0000 0000 | 0000 0000 |
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
0000 0010 | 0000 0111 | 0000 0001 | 0000 0011 |
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
具体实施方式
设需要匹配的关键词:A,B,D,E;设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E。
为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置。
定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
0000 0011 | 0000 0111 | 0000 0011 | 0000 1111 |
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
对文本进行匹配时,定义数组int compare[4],并清零:
0000 0000 | 0000 0000 | 0000 0000 | 0000 0000 |
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作:compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
0000 0010 | 0000 0100 | 0000 0000 | 0000 0000 |
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
0000 0010 | 0000 0111 | 0000 0001 | 0000 0011 |
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围。
Claims (1)
1.一种关键词组合匹配方法,其特征在于,包含以下步骤:
步骤1、设需要匹配的关键词:A,B,D,E,设需要匹配的关键词组合:A&B,A&D&E,B&E,B&D&E;
步骤2、为每个关键词设置所属组合属性:
A:{(0,2),(1,4),(-1,-1)}
B:{(0,1),(2,2),(3,4),(-1,-1)}
C:{(-1,-1)}
D:{(1,2),(3,1),(-1,-1)}
E:{(1,1),(2,1),(3,1),(-1,-1)}
“{}”中表示该关键词所属的全部组合,“()”中第一个数表示所属组合的index,第二个数转换成二进制时,“1”的位置表示在所属组合中的位置,比如B->(3,4),即(3,00000100),表示B出现在第3+1个组合(B&D&E)倒数第二个“&”的位置;
步骤3、定义数组int combine[4],combine[4]数组各成员值用二进制表示为:
(低位“1”的个数,表示该组合包含关键词的个数,高位全部置“0”)
步骤4、对文本进行匹配时,定义数组int compare[4],并清零:
当匹配到关键词时,对该数组进行或操作,当出现关键词A时,(0,2)表示进行操作:compare[0]|=2,(1,4)表示进行操作,compare[1]|=4,(-1,-1)表示结束这样的操作,则compare[4]各成员的值变为:
以此类推,假设文本中出现了“A&D&E”关键词组合,则当整个文本匹配结束时,compare[4]各成员值演变为:
将compare[]与combine[]各成员进行与操作,如果结果与combine[]对应成员值相等,表示对应的关键词组合出现,比如compare[1]&combine[1]==combine[1],所以可能确定index=1对应的关键词组合(“A&D&E”)被匹配到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154162.6A CN103198160B (zh) | 2013-04-28 | 2013-04-28 | 一种关键词组合匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154162.6A CN103198160B (zh) | 2013-04-28 | 2013-04-28 | 一种关键词组合匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103198160A true CN103198160A (zh) | 2013-07-10 |
CN103198160B CN103198160B (zh) | 2017-02-22 |
Family
ID=48720717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310154162.6A Active CN103198160B (zh) | 2013-04-28 | 2013-04-28 | 一种关键词组合匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198160B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915333A (zh) * | 2014-03-10 | 2015-09-16 | 中国移动通信集团设计院有限公司 | 一种生成关键字组合策略的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714166A (zh) * | 2009-10-30 | 2010-05-26 | 清华大学 | 一种大规模多关键词精确匹配算法的性能测试方法及系统 |
JP2012173817A (ja) * | 2011-02-17 | 2012-09-10 | Fujitsu Ltd | 検索支援装置、プログラム及び方法 |
US20130073544A1 (en) * | 2004-10-27 | 2013-03-21 | At&T Intellectual Property I, L.P. | Method and System to Combine Keyword and Natural Language Search Results |
-
2013
- 2013-04-28 CN CN201310154162.6A patent/CN103198160B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073544A1 (en) * | 2004-10-27 | 2013-03-21 | At&T Intellectual Property I, L.P. | Method and System to Combine Keyword and Natural Language Search Results |
CN101714166A (zh) * | 2009-10-30 | 2010-05-26 | 清华大学 | 一种大规模多关键词精确匹配算法的性能测试方法及系统 |
JP2012173817A (ja) * | 2011-02-17 | 2012-09-10 | Fujitsu Ltd | 検索支援装置、プログラム及び方法 |
Non-Patent Citations (2)
Title |
---|
FRANCISCO MORAES OLIVEIRA-NETO等: "Online license plate matching procedures using license-plate recognition machines and new weighted edit distance", 《TRANSPORTATION RESEARCH PART C》 * |
马志柔 等: "一种有效的多关键词词频统计方法", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915333A (zh) * | 2014-03-10 | 2015-09-16 | 中国移动通信集团设计院有限公司 | 一种生成关键字组合策略的方法及装置 |
CN104915333B (zh) * | 2014-03-10 | 2017-11-28 | 中国移动通信集团设计院有限公司 | 一种生成关键字组合策略的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103198160B (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Misra et al. | Using summarization to discover argument facets in online ideological dialog | |
CN104281698B (zh) | 一种高效的大数据查询方法 | |
US8495005B2 (en) | Methods for matching metadata from disparate data sources | |
CN103607391B (zh) | 一种基于K‑means的SQL注入攻击检测方法 | |
CN104166680B (zh) | 一种基于开源库与文本挖掘的并行漏洞挖掘方法 | |
WO2012173859A3 (en) | Object-level identification of duplicate data in a storage system | |
JP2016508264A5 (zh) | ||
WO2008097856A3 (en) | Search result delivery engine | |
CN106934068A (zh) | 机器人基于环境上下文的语义理解的方法 | |
CN105159938B (zh) | 检索方法和装置 | |
CN103885937A (zh) | 基于核心词相似度判断企业中文名称重复的方法 | |
WO2017062987A8 (en) | Systems and methods for multi-dimensional computer-aided searching | |
CN104216874A (zh) | 基于相关系数的中文词间加权正负模式挖掘方法及系统 | |
CN105024987A (zh) | 一种web业务日志的监测方法和装置 | |
MX2011009461A (es) | Metodo y dispositivo para extraer un circulo de relaciones caracteristico de una red. | |
CN106156041A (zh) | 热点信息发现方法及系统 | |
CN113609261A (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
Wagh et al. | Application of citation network analysis for improved similarity index estimation of legal case documents: A study | |
Shrestha et al. | Using a Variety of n-Grams for the Detection of Different Kinds of Plagiarism | |
CN103198160A (zh) | 一种关键词组合匹配方法 | |
CN104731773A (zh) | 文本情感分析方法及系统 | |
CN105160229A (zh) | 一种具有语音和指纹双重鉴权的单兵系统 | |
CN105741842A (zh) | 一种基于食品安全语料数据的语音匹配方法 | |
CN107807963B (zh) | 一种基于分治策略的输电网线路汇集区快速搜索的方法 | |
CN108197259B (zh) | 一种网络在线话题大数据检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |