CN112364153A - 一种基于干扰特征的关键词识别方法及装置 - Google Patents

一种基于干扰特征的关键词识别方法及装置 Download PDF

Info

Publication number
CN112364153A
CN112364153A CN202011244265.8A CN202011244265A CN112364153A CN 112364153 A CN112364153 A CN 112364153A CN 202011244265 A CN202011244265 A CN 202011244265A CN 112364153 A CN112364153 A CN 112364153A
Authority
CN
China
Prior art keywords
keyword
keywords
sensitive
rule
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011244265.8A
Other languages
English (en)
Inventor
万志勇
林壮源
张裕桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Datacom Corp ltd
Original Assignee
China Datacom Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Datacom Corp ltd filed Critical China Datacom Corp ltd
Priority to CN202011244265.8A priority Critical patent/CN112364153A/zh
Publication of CN112364153A publication Critical patent/CN112364153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于干扰特征的关键词识别方法及装置,属于信息安全领域,所述方法包括:建立敏感词数据库以及关键词组合规则;将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;得到匹配结果并输出。所述装置包括:建立数据库及规则模块、匹配模块以及输出模块;本申请最大限度的降低关键词过滤的误检率。与传统关键词识别算法对比,干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息,提高关键词过滤效果。

Description

一种基于干扰特征的关键词识别方法及装置
技术领域
本发明属于信息安全领域,具体涉及一种基于干扰特征的关键词识别方法及装置。
背景技术
2013年以来,不良信息呈现大规模泛滥的态势,出现了大量不良文本信息,这些不良信息包括淫秽、色情、暴力等低俗信息;赌博、犯罪等技能教唆信息;毒品、违禁药品、刀具枪械、监听器、假证件、发票等管制品买卖信息;虚假股票、信用卡、彩票等诈骗信息,以及网络销赃等多方面内容。2018年来,有一些人利用噪音和普通词汇发送或发布不良信息行为,对这些利用噪音和普通词汇发送不良文本进行过滤是一个很大的问题。
现有的检测不良文本信息的方式是基于“敏感”词汇列表的来进行检测的。首先将之前定义为“敏感”词汇设为关键词存入数据库,后续将待检测的文本集进行关键词匹配,若待检测的文本集中含有列表中的“敏感”词汇的,则认为该文本集中含有不良信息。这种检测方式比较简单,但这种方式存在着不足,首先定义“敏感”词汇的力度,小的话容易漏过滤,大的话容易造成误判。其次,用户为了避免信息被过滤,往往会对“敏感”词汇中间进行加噪音处理,而这种词汇变形的数据是无穷的。
现有技术中存在敏感词误判以及敏感词加噪后无法滤除的问题,目前尚未提出有效的解决方案。
发明内容
为解决现有技术中的不足,本申请提出一种基于干扰特征的关键词识别方法及装置,最大限度的降低关键词过滤的误检率。
一种基于干扰特征的关键词识别方法,包括如下步骤:
建立敏感词数据库以及关键词组合规则;
将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
得到匹配结果并输出。
所述建立敏感词库以及关键词组合规则,包括如下步骤:
用户输入规则;
根据用户输入规则提取出关键词以及关键词组合规则;
根据所提取的关键词进行变异扩充,得到敏感词数据库;
输出敏感词数据库以及关键词组合规则。
所述将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配,过程如下:
输入待测试文本;
提取所述待测试文本的关键词;
判断所述关键词是否与敏感词数据库能够匹配;
若匹配,则所述关键词为敏感关键词,需过滤掉;
若不匹配,则判断所述关键词是否与敏感特征词数据库能够匹配;若不匹配,则所述关键词不是敏感关键词,则不需过滤;若匹配,则判断所述关键词中是否存在噪音;
若不存在噪音,则所述关键词不是敏感关键词,则不需过滤;
若存在噪音,则所述关键词是具有干扰信息的关键词,需过滤掉。
所述判断所述关键词中是否存在噪音,过程如下:
记录所述关键词的第一个字符,为对应的原始内容索引;
记录所述关键词的最后一个字符,为对应的原始内容最后一个字符索引;
判断两个索引之差是否大于关键词因子的字符数;
若大于,则所述关键词为具有干扰信息的关键词,需滤除掉;
若不大于,则所述关键词不是敏感关键词,则不需过滤。
一种基于干扰特征的关键词识别装置,采用所述的基于干扰特征的关键词识别方法实现,包括:建立数据库及规则模块、匹配模块以及输出模块;
所述建立数据库及规则模块、匹配模块以及输出模块依次顺序连接;
所述建立数据库及规则模块,用于建立敏感词数据库以及关键词组合规则;
所述匹配模块,用于将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
所述输出模块,用于得到匹配结果并输出。
本申请所达到的有益效果:
以前关键词算法存在误检率高,关键词识别的不够全面。本专利开发了一个干扰特征的关键词识别算法,最大限度的降低关键词过滤的误检率。过滤的效果接近于人脑识别的结果,与传统关键词识别算法对比,干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息,提高关键词过滤效果。
附图说明
图1为本发明实施例的一种基于干扰特征的关键词识别方法流程图;
图2为本发明实施例的建立敏感词库以及关键词组合规则流程图;
图3为本发明实施例的将待测试文本输入到敏感词数据库以及关键词组合规则中进行匹配流程图;
图4为本发明实施例的判断所述关键词中是否存在噪音流程图;
图5为本发明实施例的基于干扰特征的关键词识别装置示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
一种基于干扰特征的关键词识别方法,如图1所示,包括如下步骤:
步骤S1:建立敏感词数据库以及关键词组合规则;
步骤S2:将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
步骤S3:得到匹配结果并输出。
所述建立敏感词库以及关键词组合规则,如图2所示,包括如下步骤:
步骤S100:用户输入规则;
步骤S101:根据用户输入规则提取出关键词以及关键词组合规则;根据文本内容提取涉嫌敏感关键词,如:催款、贷款、诈骗类敏感字眼。
针对营销广告、销售手段类信息,提取常见不良文本中高频词汇。
例子1::点数优惠,代开發篻15817734373,可直接提取“發篻”作为敏感关键词。
例子2:※优@惠ち诚ナ信{国τ地}【税#票】133 4118 8869郭,不可直接提取“税票”作为敏感关键词,可将税票作为敏感特征关键词,文本匹配关键词时,再根据关键词组合规则判断关键词中是否含有噪音。
步骤S102:根据所提取的关键词进行变异扩充,得到敏感词数据库;
变异扩充需要人工扩充,判断敏感关键词是否常出现在不良信息文本中,如是,查询敏感关键词的近形词及多音词,组合新的敏感关键词。
例子1:敏感关键词“中腾信”常出现在催款类文本中,根据它的近形词与多音词,可扩展的敏感关键词有“钟腾信”“忠腾信”“中騰信”“中驣信”“中螣xin”等。
有关变异关键词的提取方法很多论文对此有进一步描述,在本申请中不再赘述。
步骤S103:输出敏感词数据库以及关键词组合规则。
关键词组合规则是先判断测试文本中是否含有敏感关键词,如无,则判断是否含有敏感特征关键词,如有,再根据关键词组合规则判断文本中敏感关键词是否含有噪音,进一步判断是否含有干扰信息。
所述将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配,如图3所示,过程如下:
步骤S201:输入待测试文本;
步骤S202:提取所述待测试文本的关键词;
手工收集所述待测试文本,包括投诉数据、正常数据和嫌疑数据。
步骤S203:判断所述关键词是否与敏感词数据库能够匹配;
步骤S204:若匹配,则所述关键词为敏感关键词,需过滤掉;
步骤S205:若不匹配,则判断所述关键词是否与敏感特征词数据库能够匹配;
步骤S206:若不匹配,则所述关键词不是敏感关键词,则不需过滤;
步骤S207:若匹配,则判断所述关键词中是否存在噪音;
步骤S208:若不存在噪音,则所述关键词不是敏感关键词,则不需过滤;
步骤S209:若存在噪音,则所述关键词是具有干扰信息的关键词,需过滤掉。
所述判断所述关键词中是否存在噪音,如图4所示,过程如下:
步骤S301:记录所述关键词的第一个字符,为对应的原始内容索引;
步骤S302:记录所述关键词的最后一个字符,为对应的原始内容最后一个字符索引;
步骤S303:判断两个索引之差是否大于关键词因子的字符数;
步骤S304:若大于,则所述关键词为具有干扰信息的关键词,需滤除掉;
步骤S305:若不大于,则所述关键词不是敏感关键词,则不需过滤。
一种基于干扰特征的关键词识别装置,采用所述的基于干扰特征的关键词识别方法实现,如图5所示,包括:建立数据库及规则模块、匹配模块以及输出模块;
所述建立数据库及规则模块、匹配模块以及输出模块依次顺序连接;
所述建立数据库及规则模块,用于建立敏感词数据库以及关键词组合规则;
所述匹配模块,用于将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
所述输出模块,用于得到匹配结果并输出。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (5)

1.一种基于干扰特征的关键词识别方法,其特征在于,所述方法包括以下步骤:
建立敏感词数据库以及关键词组合规则;
将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
得到匹配结果并输出。
2.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述建立敏感词库以及关键词组合规则,包括如下步骤:
用户输入规则;
根据用户输入规则提取出关键词以及关键词组合规则;
根据所提取的关键词进行变异扩充,得到敏感词数据库;
输出敏感词数据库以及关键词组合规则。
3.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配,过程如下:
输入待测试文本;
提取所述待测试文本的关键词;
判断所述关键词是否与敏感词数据库能够匹配;
若匹配,则所述关键词为敏感关键词,需过滤掉;
若不匹配,则判断所述关键词是否与敏感特征词数据库能够匹配;若不匹配,则所述关键词不是敏感关键词,则不需过滤;若匹配,则判断所述关键词中是否存在噪音;
若不存在噪音,则所述关键词不是敏感关键词,则不需过滤;
若存在噪音,则所述关键词是具有干扰信息的关键词,需过滤掉。
4.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述判断所述关键词中是否存在噪音,过程如下:
记录所述关键词的第一个字符,为对应的原始内容索引;
记录所述关键词的最后一个字符,为对应的原始内容最后一个字符索引;
判断两个索引之差是否大于关键词因子的字符数;
若大于,则所述关键词为具有干扰信息的关键词,需滤除掉;
若不大于,则所述关键词不是敏感关键词,则不需过滤。
5.一种基于干扰特征的关键词识别装置,其特征在于:采用所述的基于干扰特征的关键词识别方法实现,包括:建立数据库及规则模块、匹配模块以及输出模块;
所述建立数据库及规则模块、匹配模块以及输出模块依次顺序连接;
所述建立数据库及规则模块,用于建立敏感词数据库以及关键词组合规则;
所述匹配模块,用于将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
所述输出模块,用于得到匹配结果并输出。
CN202011244265.8A 2020-11-10 2020-11-10 一种基于干扰特征的关键词识别方法及装置 Pending CN112364153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011244265.8A CN112364153A (zh) 2020-11-10 2020-11-10 一种基于干扰特征的关键词识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011244265.8A CN112364153A (zh) 2020-11-10 2020-11-10 一种基于干扰特征的关键词识别方法及装置

Publications (1)

Publication Number Publication Date
CN112364153A true CN112364153A (zh) 2021-02-12

Family

ID=74510017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011244265.8A Pending CN112364153A (zh) 2020-11-10 2020-11-10 一种基于干扰特征的关键词识别方法及装置

Country Status (1)

Country Link
CN (1) CN112364153A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185766A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
US20060075228A1 (en) * 2004-06-22 2006-04-06 Black Alistair D Method and apparatus for recognition and real time protection from view of sensitive terms in documents
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
US20120221588A1 (en) * 2009-11-10 2012-08-30 Alibaba Group Holding Limited Method and System for Text Filtering
CN102902766A (zh) * 2012-09-25 2013-01-30 中国联合网络通信集团有限公司 检测词汇的方法与装置
CN103617481A (zh) * 2013-11-04 2014-03-05 中国航空工业集团公司沈阳飞机设计研究所 一种面向流程的领域知识抽取与推送系统及方法
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN105100366A (zh) * 2015-07-13 2015-11-25 小米科技有限责任公司 骚扰电话号码确定方法、装置和系统
US20150339378A1 (en) * 2012-06-27 2015-11-26 Beijing Qihoo Technology Company Limited System and method for keyword filtering
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
KR101776806B1 (ko) * 2016-05-16 2017-09-08 주식회사 영플러스소프트 문맥기반 키워드 검색 방법 및 시스템
CN110209796A (zh) * 2019-04-29 2019-09-06 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN112131462A (zh) * 2020-09-10 2020-12-25 中数通信息有限公司 一种基于信息监测的关键词发现方法、系统和电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185766A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
US20060075228A1 (en) * 2004-06-22 2006-04-06 Black Alistair D Method and apparatus for recognition and real time protection from view of sensitive terms in documents
US20120221588A1 (en) * 2009-11-10 2012-08-30 Alibaba Group Holding Limited Method and System for Text Filtering
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
US20150339378A1 (en) * 2012-06-27 2015-11-26 Beijing Qihoo Technology Company Limited System and method for keyword filtering
CN102902766A (zh) * 2012-09-25 2013-01-30 中国联合网络通信集团有限公司 检测词汇的方法与装置
CN103617481A (zh) * 2013-11-04 2014-03-05 中国航空工业集团公司沈阳飞机设计研究所 一种面向流程的领域知识抽取与推送系统及方法
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
CN105100366A (zh) * 2015-07-13 2015-11-25 小米科技有限责任公司 骚扰电话号码确定方法、装置和系统
KR101776806B1 (ko) * 2016-05-16 2017-09-08 주식회사 영플러스소프트 문맥기반 키워드 검색 방법 및 시스템
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN110209796A (zh) * 2019-04-29 2019-09-06 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN112131462A (zh) * 2020-09-10 2020-12-25 中数通信息有限公司 一种基于信息监测的关键词发现方法、系统和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴慧玲, 沈建京, 贺广生: "基于不良文本信息过滤预处理方法的研究[J]" *

Similar Documents

Publication Publication Date Title
US8098939B2 (en) Adversarial approach for identifying inappropriate text content in images
CN107437038B (zh) 一种网页篡改的检测方法及装置
WO2008068987A1 (en) Pure adversarial approach for identifying text content in images
CN106713579B (zh) 一种电话号码识别方法及装置
CN108399161A (zh) 广告图片鉴定方法、电子装置及可读存储介质
CN106453061A (zh) 一种识别网络诈骗行为的方法及系统
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
WO2005006269A8 (en) Process and method for identifying and processing returned checks
CN100474331C (zh) 字符串识别装置
US8452071B2 (en) Self-service terminal and method for storing currency in self-service terminal
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
KR20170060958A (ko) 금융 사기 방지 방법 및 시스템
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN112364153A (zh) 一种基于干扰特征的关键词识别方法及装置
Almutairi et al. Analyzing credit card fraud detection based on machine learning models
CN107483420B (zh) 信息审核装置及方法
CN115687754A (zh) 一种基于智能对话的主动式网络信息挖掘方法
CN113746814B (zh) 邮件处理方法、装置、电子设备及存储介质
CN112199948A (zh) 文本内容识别和违规广告识别方法、装置及电子设备
Gupta et al. Identification of image spam by using low level & metadata features
Velicheti et al. The Hustlee Credit Card Fraud Detection using Machine Learning
KR102451168B1 (ko) 사기피해 정보 제공 방법 및 프로그램
CN111061924A (zh) 词组提取方法、装置、设备和存储介质
CN117874755B (zh) 一种识别暗网威胁用户的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination