CN106649422A - 关键词提取方法及装置 - Google Patents
关键词提取方法及装置 Download PDFInfo
- Publication number
- CN106649422A CN106649422A CN201610409544.2A CN201610409544A CN106649422A CN 106649422 A CN106649422 A CN 106649422A CN 201610409544 A CN201610409544 A CN 201610409544A CN 106649422 A CN106649422 A CN 106649422A
- Authority
- CN
- China
- Prior art keywords
- keyword
- note
- analyzed
- word frequency
- candidate keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种关键词提取方法及装置;方法包括:解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词。采用本发明实施例,实现了对待分析短信关键词的自动提取,减少了对待分析短信关键词提取的时间,节省了人工成本。
Description
技术领域
本发明涉及计算机领域的数据处理技术,尤其涉及一种关键词提取方法及装置。
背景技术
随着实时通信需求的与日俱增,垃圾短信、非法消息日益泛滥,已经严重影响到人们正常生活。为此,各运营商积极采取措施,对通信消息进行实时监控,尽可能限制垃圾短信的下发,提高用户服务质量。垃圾短信之所以对用户造成不良影响,大多是因为其内容非法,因此对短信内容进行监控是一种极为有效的手段,而关键词监控策略的制定显得尤为重要,关键词选择的不准确既可能造成对合法消息的拦截,又可能造成对非法消息的漏拦,大大降低通信服务质量。
现有技术中,短信监控系统配置的关键词提取一般由人工提取而成,但是,由于人工提取关键词策略对人员素质要求很高,对于不熟悉短信监控业务的人员很难提取出高质量的关键词;另外,由于疑似垃圾短信量很大,而且呈上涨趋势,如此,使用人工方式提取关键词,不仅大大增加了人工成本,而且耗时较多。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种关键词提取方法及装置,能实现对疑似垃圾短信的关键词自动提取,减少了关键词提取成本,节省了关键词提取时间。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种关键词提取方法,方法包括:
解析待分析短信,得到各所述待分析短信所属的类别;
从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键 词;
解析所提取的候选关键词得到相应候选关键词的特征;
从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
在上述方案中,所述解析待分析短信,得到各所述待分析短信所属的类别,包括:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
在上述方案中,所述从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,包括:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
在上述方案中,从所提取的候选关键词中提取出与预设特征匹配的目标关键词,包括:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
在上述方案中,所述方法还包括:
判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
第二方面,本发明实施例提供了一种关键词提取装置,装置包括:
第一解析模块,用于解析待分析短信,得到各所述待分析短信所属的类别;
第一提取模块,用于从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
第二解析模块,用于解析所提取的候选关键词得到相应候选关键词的特征;
第二提取模块,用于从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
在上述方案中,所述第一解析模块,具体用于:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
在上述方案中,所述第一提取模块,具体用于:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
在上述方案中,所述第二提取模块,具体用于:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
在上述方案中,所述关键词提取装置还包括:
判断模块,用于判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
本发明实施例的关键词提取方法及装置,通过解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词,实现了对待分析短信的关键词的自动提取,减少了关键词提取成本,节省了关键词提取时间。
附图说明
图1为本发明实施例中关键词提取方法的一种可选的流程示意图;
图2为本发明实施例中关键词提取方法的另一种可选的流程示意图;
图3为本发明实施例中关键词提取装置的一种可选的流程示意图;
图4为本发明实施例中分词存储结构的一种可选的示意图;
图5为本发明实施例中关键词提取装置的另一种可选的结构示意图;
图6为本发明实施例中关键词提取装置的再一种可选的结构示意图。
具体实施方式
在本发明实施例中:关键词提取装置解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供了一种关键词提取方法,可以应用于不需要对疑似垃圾短信的关键词进行人工提取的场景中;本发明实施例关键词提取方法的执行主体可以为关键词提取装置,关键词提取装置可以采用下列方式来实施,例如:在监控设备、服务器中实施的关键词提取装置的组件,也可以在监控设备、服务器侧以耦合方式实施关键词提取装置的组件。
图1为本发明实施例中关键词提取方法的一种可选的流程示意图;
如图1所示,关键词提取方法包括:
步骤101:解析待分析短信,得到各待分析短信所属的类别。
待分析短信,例如可以为从服务器侧拦截的疑似垃圾短信,本实施例对此并不具体限定。解析待分析短信前可以首先将待分析的短信平分为多份,其中,份数的确定根据用户需求预先设定,本发明实施例对此并不具体限定,根据对每份待分析的短信进行相似度分析的结果,将待分析的短信进行归类。
步骤101的一种可行的实现方式包括:根据第一预置相似度阈值对待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;根据满足第二预置相似度阈值的待分析短信的字符串特征,获取满足第二预置相似度阈值的待分析短信的相似度;根据满足第二预置相似度阈值的待分析短信的相似度,得到各待分析短信所属的类别。
这里,第一预置相似度阈值,用于对待分析短信进行分块,避免由于待分析短信长度过大而引起的对待分析短信进行相似度分析时计算时间过长,第一预置相似度阈值,例如可以为根据词性预置的相关相似度阈值,包括:预置的名词相似度阈值、预置的动词相似度阈值、预置的形容词相似度阈值;也可以为根据待分析短信局部相似度预置相似度阈值。
根据待分析短信的第一预置相似度对待分析短信进行切分,整体比较切分的每块待分析短信的相似度,剔除不满足第二预置相似度阈值的待分析短信,获取满足第二预置相似度阈值的待分析短信,并对满足第二预置相似度的待分析短信进行相似度分析,根据相似度分析结果,将待分析短信进行归类,获取具有不同类别的多个短信集。
步骤102:从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词。
步骤102的一种可行的实现方式包括:确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出同一类别的待分析短信的词序列;确定同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的候选关键词;其中,预设词库包括预设分词词库和预设有效词词库。
这里,预设有效词库可以为预设的非法关键词库,非法关键词库包括:含军事政治类的相关词汇;含违法,煽动信息的词汇;含广告的相关词汇。本实施例对此并不具体限定。
词序列为对待分析短信进行分词处理的结果,确定提取出同一类别的待分析短信的词序列与预设的非法关键词库匹配时,则过滤掉非法的词序列,提取出供疑似垃圾短信提取关键词用的候选关键词。
步骤103:解析所提取的候选关键词得到相应候选关键词的特征。
统计提取出的候选关键词中每个词序列出现的频次,将每个词序列的词频从高到低依次排列。
步骤104:从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
预设特征,可以为根据提取的候选关键词的词频统计特性制定配置组合关键词规则。
步骤104的一种可行的实现方式包括:根据候选关键词的词频统计特性,获取候选关键词中最高词频关键词和候选关键词中词频由高到低选取的次高频关键词集;根据最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,组合关键词为:由最高词频的关键词依次与最高词频的关键词对应的待分析短信中与最高词频的关键词同时存在的次 高频关键词集中的前N个关键词组合成的组合关键词,其中,N大于/等于1;其中,目标关键词包括最高词频关键词和组合关键词。
本发明实施例通过解析待分析短信,得到各待分析短信所属的类别,同时从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,提高了从待分析短信中提取关键词的速度,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词,实现了对疑似垃圾短信的关键词的自动提取,如此,节省了关键词提取的成本,提高了关键词的提取效率。
在上述实施例基础上,本发明实施例,还可以应用于希望提高疑似垃圾短信的关键词提取的准确率,同时删除冗余关键词和停用关键词的场景中。
关键词提取装置对关键词提取方法可以根据用户需求对提取的目标关键词的准确率进行周期性或者实时检测,本发明实施例对此并不具体限定。
图2为本发明实施例中关键词提取方法的另一中可选的流程示意图;图2示出的方法为提取出疑似垃圾短信的关键词之后,对关键词提取的过程进行了补充,该方法包括:
步骤201:解析待分析短信,得到各待分析短信所属的类别。
步骤202:从属于同一类别的待分析短信的内容中提取出预设词库匹配的候选关键词。
步骤203:解析所提取的候选关键词得到相应候选关键词的特性。
步骤204:根据候选关键词的词频统计特性,获取候选关键词中最高词频关键词和候选关键词中词频由高到低选取的次高频关键词集。
步骤205:根据最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,组合关键词为:由最高词频的关键词依次与最高词频的关键词对应的待分析短信中与最高词频的关键词同时存在的次高频关键词集中的前N个关键词组合成的组合关键词,其中,N大于/等于1;其中,目标关键词包括最高词频关键词和组合关键词。
步骤206:判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,判定最高词频关键词之间存在包含 关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,判定目标关键词从服务器拦截的短信中包含的待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
这里,组合关键词之间存在包含关系,例如可以为属于同一类别的组合关键词集中有组合关键词A(a b)和组合关键词B(a b c),即组合关键词A和组合关键词B中同时存在词序列a和b,则组合关键词A包含于组合关键词B时,则删除组合关键词A;最高词频关键词之间存在包含关系,例如可以为当最高词频关键词之间存在有最高词频关键词D(d e)和最高词频关键词E(d e f),即最高词频关键词D包含于最高词频关键词E,则删除最高词频关键词D;判定目标关键词的准确率可以周期性统计/实时性统计/触发性统计目标关键词的准确率,当目标关键词的准确率小于预置准确率阈值时,确定该目标关键词为停用关键词,则删除该准确率小于预置准确率阈值的目标关键词。
本发明实施例的关键词提取方法,关键词提取装置解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,根据候选关键词的词频统计特性,获取候选关键词中最高词频关键词和候选关键词中词频由高到低选取的次高频关键词集,根据最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词,判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词,和/或,判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词,避免了目标关键词的冗余,降低了监控系统内存的消耗,提高了关键词策略的匹配速度,和/或,判定目标关键词从服务器拦截的短信中包含的待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词,提高了目标关键词的准确率和实时性。
在上述实施例基础上,本发明实施例提供一种具体的关键词提取装置,可以应用于希望在不需要人工提取关键词,提高关键词提取策略的准确性,减少冗余关键词的场景中。
关键词提取装置主要是由任务调度器301,聚类分析器302和关键词提取 器304组成。具体系统架构如下,参见图3
1、任务调度器301:应用于为每一个关键词提取任务选取聚类分析管理者和关键词提取管理者的场景中,其选取方法是按负载均衡,选择当前时间运行任务数最少的服务器为管理者。
2、聚类分析器302:应用于将上报的疑似垃圾短信按类划分,便于后续关键词策略的提取的场景中。
3、聚类分析管理者303:应用于将待分析的疑似垃圾短信按聚类分析器302的个数均分,然后通知每个聚类分析器302要分析的内容,每个聚类分析器302分析完成后将分析结果上报给聚类分析管理者303,聚类分析管理者303对结果进行整合,将最终结果告知关键词提取管理者305的场景中。
聚类分析管理者303的任务是:确保同一类垃圾短信消息由同一个关键词提取器304处理。这样分布式的处理架构便于后续的扩展,当待分析的垃圾短信逐渐增加时,适当增加聚类分析服务器的个数就能适应需求的变化,灵活性好。
本发明实施例提出的聚类分析算法主要是依据消息内容的相似度分析,当两个消息的相似度大于配置的阈值时,认为这两个消息属于同一类别。鉴于消息长度过大会影响相似度分析速度,本方案对现有的相似度计算方法做了改进,根据配置的相似度阈值先对消息进行分块,整块比较后会立刻剔除出相似度较小的消息,对于没有立刻剔除的消息再进行编辑距离的计算,这样会大大加快相似度计算速率。
关键词提取器304:应用于在聚类分析的基础上,对关键词策略进行提取和优化,它的架构也是由一个关键词提取管理者305和多个关键词提取器304组成。
关键词提取管理者305:应用于收到聚类分析管理者最终的聚类结果后,通知关键词提取器304提取同一个类别的消息进行处理,确保同一个类别的消息在同一个关键词提取器上被处理的场景中。
关键词提取器304进行关键词提取的流程为:
步骤1:分词:
分词存储结构如图4所示,进度轴是每一个位置存储到达这个位置的路径 数量和路径,每一个路径记录路径的最后一个词,以及路径的状态(可延伸/不可延伸);词存储结构是一个二维数组,每一层记录以当前位置汉字开头的在词库中匹配到的所有词,每个词记录词的结束位置,词的文本,词在某路径中的前序(前一个词,只保留一个),以及到达该点时的路径权重和。它主要是基于词库的最短路径分词,其路径加上权重后取权重最小结果作为分词结果,词库的匹配算法,采用Hash快速匹配方式。分词后再经过合法词和非法词筛选,过滤掉合法词后供关键词提取使用。
步骤2:关键词提取策略:
关键词提取策略是在分词的基础上对词语的频次进行统计,出现频次高的列为必选词,与必选词同时出现频次高的列为备选词,构建沙盒,将必选词选为关键词配置的一个组合词。以此类推,依据关键词配置规则生成关键词配置。
这里,构建沙盒的一种可行的实现方式包括:预先设定的变量,即所要提取得组合关键词的长度(单关键词的个数)。现假设:最短组合长度为n,最大组合长度为m。
第一步:根据关系网构建如下沙盒。
第二步:根据沙盒统计,出现次数最高词(对应列1最多的词)A对应出现的短信。
第三步:根据沙盒,在A出现的短信中统计出与A同时出现次数最多的N个词并依大小排序存入数组中;设本层迭代的当前位置为0;A的长度为1,设m>2,1<m;选取数组中第一个元素B与A组合成组合词AB。
第四步:根据沙盒,在组合词AB出现的短信中统计出与AB同时出现次数最多的N个词并依大小排序存入数组中;设本层迭代的当前位置为0;
如没有与AB一起出现的词,则判断AB的长度L,如果L>=n,AB作为结果保存,否则不保存。如果L>1,将AB最后加入关键词去掉,且将上一层迭代的当前位置+1,执行第四步;如果L<=1;将A出现的短信删除,重新构建关系网,并执行第一步;
如有与AB一起出现的词:执行第五步;
第五步:选出与AB同时出现的数组中当前位置的词,与AB一起作为组合词W,判断W的长度L:
如果L=m,则将本层所有词分别于W视为W作为结果输出,将原W视为W,将上一层迭代当前位置+1,执行第三步;
如果L<m,进行第三步;
重复以上,直至样本短信数量少于规定数量时,不再进行迭代;
步骤3:关键词策略优化:
关键词策略优化包括策略自优化,策略间优化和关键词时效性优化,具体如下:
1、自优化:自优化的原则是先对每个与项中的或项分别进行自优化,在对每个或项进行自优化时,每个单词之间如果存在包含关系,则长单词应被删除,如A(ab)||B(abc)=A(ab);再对多个与项进行自优化,方式是依次取出每一个与项,然后分别尝试与其它与项进行优化,在每两个与项优化时,采用如下方法:某与项是单词,并此与项与其它与项中的单词相同,则其它与项可以删除,如A&&(A||C||D)&&E=A&&E;某与项是单词,并此词被其它与项中的所有单词包含,则此与项可以删除,如A(ab)&&(C(abc)||D(abd))&&E=((A(ab)&&C(abc))||(A(ab)&&D(abd)))&&E=(C(abc)||D(abd))&&E。
2、策略间优化:策略间优化是策略间两两分别进行比较,达到相似度后,尝试进行合并。策略合并原则可以应用的场景为:
场景1:策略1与策略2个数不同,且策略1完全被策略2包含,则策略2应被删除,如A&&B&&C+A&&B&&C&&D=A&&B&&C;
场景2:如果策略1与策略2的与项个数相同,
a.相似度为100,且每个与项都是单词,如果一个策略1中的每一个与项都被策略2包含或相同,则策略2应该删除;
b.相似度为100,且每个与项都与另一个与项相同,则其中一个策略应该被删除;
c.只有一个与项不同,则可以将策略2中不同与项的单词都加入到策略1中不同与项的或关系中,然后将策略2删除,如A&&B&&(C||D)+A&&B&&(M||N)=A&&B&&(C||D||M||N);d.所有不同与项中,如果都是单词,且一方都被另一方包含,则包含方策略应被删除;
3、关键词策略时效性优化:定期统计全量关键词配置的命中个数,当命中 个数小于配置阈值时,说明此关键词配置失去时效性,予以删除。
综上所述,疑似垃圾短信消息经过上述系统后,便会抽取为有效的关键词策略,供消息监控系统使用。
本发明实施例通过采用基于疑似垃圾短消息相似度的分布式聚类分析算法对疑似垃圾短消息的关键词自动提取,从文本相似度分析方面,增加了关键词提取的准确性;从支持分布式的聚类分析方面,提高了关键词提取的速度;从对关键词提取策略进行了优化方面,增加了关键词提取的准确度,减少了组合关键词的冗余。
图5为本发明实施例中关键词提取装置的另一种可选的结构示意图;本发明实施例提供的关键词提取装置51,包括:
第一解析模块501,用于解析待分析短信,得到各待分析短信所属的类别;
第一提取模块502,用于从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
第二解析模块503,用于解析所提取的候选关键词得到相应候选关键词的特征;
第二提取模块504,用于从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
本发明实施例,通过解析待分析短信,得到各待分析短信所属的类别,从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,解析所提取的候选关键词得到相应候选关键词的特征,从所提取的候选关键词中提取出与预设特征匹配的目标关键词,从而可以避免人工提取待分析短信关键词,防止人工提取待分析短信关键词耗时,实现对待分析短信关键词的自动提取,如此,能提高了对待分析短信关键词提取的效率。
在上述实施例的基础上,第一解析模块501,具体用于:根据第一预置相似度阈值对待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信,根据满足第二预置相似度阈值的待分析短信的字符串特征,获取满足第二预置相似度阈值的待分析短信的相似度,根据满足第二预置相似度阈值的待分析短信的相似度,得到各待分析短信所属的类别。
在上述实施例的基础上,第一提取模块502,具体用于:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出同一类别的待分析短信的词序列,确定同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的候选关键词,其中,预设词库包括预设分词词库和预设有效词词库。
在上述实施例的基础上,第二提取模块504,具体用于:根据候选关键词的词频统计特性,获取候选关键词中最高词频关键词和候选关键词中词频由高到低选取的次高频关键词集,根据最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词,其中,组合关键词为:由最高词频的关键词依次与最高词频的关键词对应的待分析短信中与最高词频的关键词同时存在的次高频关键词集中的前N个关键词组合成的组合关键词,其中,N大于/等于1,其中,目标关键词包括最高词频关键词和组合关键词。
在上述实施例的基础上,本发明实施例的关键词提取装置52,如图6所示,关键词提取装置51还包括:
判断模块505,用于判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
在实际应用中,第一解析模块501、第一提取模块502、第二解析模块503、第二提取模块504、判断模块505均可由位于关键词提取装置的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
本实施例记载一种计算机可读介质,可以为ROM(例如,只读存储器、FLASH存储器、转移装置等)、磁存储介质(例如,磁带、磁盘驱动器等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡、纸带等)以及其他熟知类型的程序存储器;计算机可读介质中存储有计算机可执行指令,当执行指令 时,引起至少一个处理器执行包括以下的操作:
解析待分析短信,得到各待分析短信所属的类别;
从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
解析所提取的候选关键词得到相应候选关键词的特征;
从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
综上,本发明实施例,通过第一解析模块解析待分析短信,得到各待分析短信所属的类别,第一提取模块从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,实现了对待分析短信进行分词的并行计算,提高了分词效率,第二解析模块解析所提取的候选关键词得到相应候选关键词的特征,第二提取模块从所提取的候选关键词中提取出与预设特征匹配的目标关键词,避免人工提取待分析短信关键词,实现了待分析短信关键词的自动提取,节省了人工成本,提高了关键词提取效率。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种关键词提取方法,其特征在于,所述方法包括:
解析待分析短信,得到各所述待分析短信所属的类别;
从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
解析所提取的候选关键词得到相应候选关键词的特征;
从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述解析待分析短信,得到各所述待分析短信所属的类别,包括:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
3.根据权利要求1所述的方法,其特征在于,所述从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,包括:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
4.根据权利要求1所述的方法,其特征在于,所述从所提取的候选关键词中提取出与预设特征匹配的目标关键词,包括:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
6.一种关键词提取装置,其特征在于,所述装置包括:
第一解析模块,用于解析待分析短信,得到各所述待分析短信所属的类别;
第一提取模块,用于从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
第二解析模块,用于解析所提取的候选关键词得到相应候选关键词的特征;
第二提取模块,用于从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
7.根据权利要求6所述的装置,其特征在于,所述第一解析模块,具体用于:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
8.根据权利要求6所述的装置,其特征在于,所述第一提取模块,具体用于:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
9.根据权利要求6所述的装置,其特征在于,所述第二提取模块,具体用于:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
10.根据权利要求9所述的装置,其特征在于,所述关键词提取装置还包括:
判断模块,用于判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610409544.2A CN106649422B (zh) | 2016-06-12 | 2016-06-12 | 关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610409544.2A CN106649422B (zh) | 2016-06-12 | 2016-06-12 | 关键词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649422A true CN106649422A (zh) | 2017-05-10 |
CN106649422B CN106649422B (zh) | 2019-05-03 |
Family
ID=58851553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610409544.2A Active CN106649422B (zh) | 2016-06-12 | 2016-06-12 | 关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649422B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153728A (zh) * | 2017-12-22 | 2018-06-12 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
CN108681564A (zh) * | 2018-04-28 | 2018-10-19 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
CN110502630A (zh) * | 2019-07-31 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 信息处理方法及设备 |
CN111274369A (zh) * | 2020-01-09 | 2020-06-12 | 广东小天才科技有限公司 | 一种英文单词的识别方法及装置 |
CN111400448A (zh) * | 2020-03-12 | 2020-07-10 | 中国建设银行股份有限公司 | 对象的关联关系分析方法及装置 |
CN112259101A (zh) * | 2020-10-19 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 语音关键词识别方法、装置、计算机设备和存储介质 |
CN112347249A (zh) * | 2020-10-30 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种警情要素提取系统及其提取方法 |
CN112417296A (zh) * | 2020-12-04 | 2021-02-26 | 刘奕名 | 一种互联网关键数据信息采集提取方法 |
WO2021139466A1 (zh) * | 2020-01-06 | 2021-07-15 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN113626090A (zh) * | 2021-08-06 | 2021-11-09 | 济南浪潮数据技术有限公司 | 一种服务器固件配置方法、装置、设备及可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050246333A1 (en) * | 2004-04-30 | 2005-11-03 | Jiang-Liang Hou | Method and apparatus for classifying documents |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
-
2016
- 2016-06-12 CN CN201610409544.2A patent/CN106649422B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050246333A1 (en) * | 2004-04-30 | 2005-11-03 | Jiang-Liang Hou | Method and apparatus for classifying documents |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153728B (zh) * | 2017-12-22 | 2021-05-25 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
CN108153728A (zh) * | 2017-12-22 | 2018-06-12 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
CN108681564A (zh) * | 2018-04-28 | 2018-10-19 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
CN108681564B (zh) * | 2018-04-28 | 2021-06-29 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
CN110502630A (zh) * | 2019-07-31 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 信息处理方法及设备 |
CN110502630B (zh) * | 2019-07-31 | 2022-04-15 | 北京字节跳动网络技术有限公司 | 信息处理方法及设备 |
WO2021139466A1 (zh) * | 2020-01-06 | 2021-07-15 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN111274369A (zh) * | 2020-01-09 | 2020-06-12 | 广东小天才科技有限公司 | 一种英文单词的识别方法及装置 |
CN111400448A (zh) * | 2020-03-12 | 2020-07-10 | 中国建设银行股份有限公司 | 对象的关联关系分析方法及装置 |
CN112259101A (zh) * | 2020-10-19 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 语音关键词识别方法、装置、计算机设备和存储介质 |
CN112347249A (zh) * | 2020-10-30 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种警情要素提取系统及其提取方法 |
CN112347249B (zh) * | 2020-10-30 | 2024-02-27 | 中科曙光南京研究院有限公司 | 一种警情要素提取系统及其提取方法 |
CN112417296A (zh) * | 2020-12-04 | 2021-02-26 | 刘奕名 | 一种互联网关键数据信息采集提取方法 |
CN113626090A (zh) * | 2021-08-06 | 2021-11-09 | 济南浪潮数据技术有限公司 | 一种服务器固件配置方法、装置、设备及可读介质 |
CN113626090B (zh) * | 2021-08-06 | 2023-12-29 | 济南浪潮数据技术有限公司 | 一种服务器固件配置方法、装置、设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106649422B (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649422A (zh) | 关键词提取方法及装置 | |
CN106445998B (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
CN103257957B (zh) | 一种基于中文分词的文本相似性识别方法及装置 | |
EP2657852A1 (en) | Method and device for filtering harmful information | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
CN110245496A (zh) | 一种源代码漏洞检测方法及检测器和其训练方法及系统 | |
CN102298587B (zh) | 满意度调查方法及系统 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
US20150149383A1 (en) | Method and device for acquiring product information, and computer storage medium | |
CN103425777B (zh) | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 | |
US10019492B2 (en) | Stop word identification method and apparatus | |
CN105244031A (zh) | 说话人识别方法和装置 | |
WO2016177069A1 (zh) | 一种管理方法、装置、垃圾短信监控系统及计算机存储介质 | |
CN108874921A (zh) | 提取文本特征词的方法、装置、终端设备及存储介质 | |
CN104899230A (zh) | 舆情热点自动监测系统 | |
KR20200057903A (ko) | 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법 | |
CN104462105B (zh) | 中文分词方法、装置和服务器 | |
CN108897732A (zh) | 语句类型识别方法和装置、存储介质及电子装置 | |
CN104679731B (zh) | 提取页面中关键词的方法及装置 | |
CN109190371A (zh) | 一种基于行为图的Android恶意软件检测方法和技术 | |
CN103886077B (zh) | 短文本的聚类方法和系统 | |
CN107145516A (zh) | 一种文本聚类方法及系统 | |
CN107239450A (zh) | 基于交互上下文处理自然语言方法 | |
CN112001170A (zh) | 一种识别经过变形的敏感词的方法和系统 | |
Jung et al. | Devil's on the edges: Selective quad attention for scene graph generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |