CN104915333A - 一种生成关键字组合策略的方法及装置 - Google Patents

一种生成关键字组合策略的方法及装置 Download PDF

Info

Publication number
CN104915333A
CN104915333A CN201410085899.1A CN201410085899A CN104915333A CN 104915333 A CN104915333 A CN 104915333A CN 201410085899 A CN201410085899 A CN 201410085899A CN 104915333 A CN104915333 A CN 104915333A
Authority
CN
China
Prior art keywords
combination
keyword
strategies
preference policy
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410085899.1A
Other languages
English (en)
Other versions
CN104915333B (zh
Inventor
杜刚
朱艳云
张晨
洪东
杜雪涛
戴晶
胡入祯
江为强
周宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Design Institute Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201410085899.1A priority Critical patent/CN104915333B/zh
Publication of CN104915333A publication Critical patent/CN104915333A/zh
Application granted granted Critical
Publication of CN104915333B publication Critical patent/CN104915333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种生成关键字组合策略的方法及装置,其中,该方法包括:对信息进行切词处理,得到多个第一元素词组合;获得第一元素词组合的垃圾属性值和正常属性值;第一元素词组合的垃圾属性值大于第一预设值且正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合;将第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合;当第N元素词组合的垃圾属性值大于第三预设值且正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,当N值大于或者等于一阈值时,确定N元素关键词组合集为策略集。该方法综合考虑关键字的垃圾和正常属性生成一组策略集,提高了策略集的拦截效果。

Description

一种生成关键字组合策略的方法及装置
技术领域
本发明涉及信息安全技术领域,特别涉及一种生成关键字组合策略的方法及装置。
背景技术
现有技术中针对一个网页页面或一篇文档提取关键字组合,该技术的技术方案是针对一个网页页面或一篇文档,根据关键词与网页/文档内容的相关性,提取一条关键字组合,其目的在于提高网页/文档的标引质量,以便快速检索到该网页/文档。但针对一个网页页面或一篇文档提取一条关键字组合的技术完全不适用于垃圾短彩信的关键字组合生成。若采用网页/文档提取关键字组合技术用于垃圾短彩信的关键字组合策略生成,则只能针对一条短彩信生成一条策略,这样针对一组短彩信,生成的策略数量非常多,这种方式对于海量的垃圾短彩信而言显然是不可行的,不仅生产效率极低,并且对策略容量需求非常大,同时对于监控系统的性能要求非常高;同时生成关键字过程中若仅仅考虑和本条短彩信内容的相关性,不考虑关键字所具有的垃圾属性和正常属性,将会导致生成的关键字组合策略虽然简单但会产生很多误拦。
发明内容
本发明的目的在于提供一种生成关键字组合策略的方法及装置,提高了垃圾信息关键字组合策略的拦截能力,且降低了在垃圾信息治理中日益严重的策略容量需求问题,提高了策略容量利用率,大大降低了投资。
为了达到上述目的,本发明实施例提供一种生成关键字组合策略的方法,包括:
对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
获得所述第一元素词组合的垃圾属性值和正常属性值;
所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
当所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
其中,获得所述第一元素词组合的垃圾属性值和正常属性值的步骤具体包括:
从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
其中,所述第N元素词组合的垃圾属性值和正常属性值的计算步骤具体包括:
将所述第N元素词组合拆分成N个第一元素关键词组合;
从词性库中分别获取每一个第一元素关键词组合的所有垃圾样本ID和所有正常样本ID;
获取所述N个第一元素关键词组合的所有垃圾样本ID中的相同的ID号,所述相同的ID号的数量为所述第N元素词组合的垃圾属性值;
获取所述N个第一元素关键词组合的所有正常样本ID中的相同的ID号,所述相同的ID号的数量为所述第N元素词组合的正常属性值。
其中,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
优选的,所述第N元素词组合集的形成由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。
进一步的,确定所述策略集后还包括:
对所述策略集进行去冗余处理,得到优选策略集。
其中,对所述策略集进行去冗余处理,得到优选策略集的步骤具体包括:
将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,并删除所述优选策略拦截的所有信息,形成新的信息集,继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
将已确定的优选策略组成优选策略集。
进一步的,得到所述优选策略集后还包括:
将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
其中,将所述优选策略集中的相似策略进行逻辑合并,得到目的策略集的步骤具体包括:
从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
本发明实施例还提供给一种生成关键字组合策略的装置,包括:
切词模块,用于对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
获取模块,用于获得所述第一元素词组合的垃圾属性值和正常属性值;
第一确定模块,用于当所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
生成模块,用于将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
第二确定模块,用于当所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
其中,所述获取模块包括:
获取单元,用于从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
其中,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
进一步的,所述第N元素词组合集的形成由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。
其中,上述生成关键字组合策略的装置,还包括:
去冗余模块,用于对所述策略集进行去冗余处理,得到优选策略集。
进一步的,所述去冗余模块包括:
合并单元,用于将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
第三确定单元,用于将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,删除所述优选策略拦截的所有信息,形成新的信息集,并继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
第四确定单元,用于将已确定的优选策略组成优选策略集。
其中,上述生成关键字组合策略的装置,还包括:
合并模块,用于将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
进一步的,所述合并模块包括:
第一生成单元,用于从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
第二生成单元,用于将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
第五确定单元,用于若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
第六确定单元,用于将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
第七确定单元,用于将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
本发明的上述技术方案至少具有如下有益效果:
本发明实施例的生成关键字组合策略的方法中,针对一组内容不相关的信息综合考虑关键字的垃圾属性和正常属性同时生成一组关键字组合策略,提高了垃圾信息关键字组合策略的拦截效果,提高了策略容量的利用率,延长扩容升级的周期,大大降低了成本、投资。
附图说明
图1表示本发明实施例的生成关键字组合策略的方法流程图;
图2表示本发明实施例中形成第一元素关键词组合集的流程示意图;
图3表示本发明实施例中词性库的生成方法的流程图;
图4表示本发明实施例中关键字组合的属性生成方法示意图;
图5表示本发明实施例中形成第N元素关键词组合集的方法示意图;
图6表示本发明实施例中形成优选策略集的流程示意图;
图7表示本发明实施例中对相似策略逻辑合并形成目的策略的流程示意图;
图8表示本发明实施例的生成关键字组合策略的装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有技术中没有针对多组垃圾信息生成关键字组合策略的技术,且垃圾信息的拦截率低的问题,提供一种生成关键字组合策略的方法及装置,针对一组内容不相关的信息综合考虑关键字的垃圾属性和正常属性同时生成一组关键字组合策略,提高了垃圾信息关键字组合策略的拦截效果,提高了策略容量的利用率,延长扩容升级的周期,大大降低了成本、投资。
如图1所示,本发明实施例提供一种生成关键字组合策略的方法,包括:
步骤1,对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
步骤2,获得所述第一元素词组合的垃圾属性值和正常属性值;
步骤3,所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
步骤4,将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
步骤5,当所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
本发明的上述实施例中,步骤1中包含多个语句的信息为内容不相关的一组信息;该组信息包括短信和彩信,也可为其他形式的信息,如微信、易信等。进一步的,切词的规则可预先设定,也可采用现有的切词方法。步骤3中综合考虑第一元素词组合的垃圾属性值和正常属性值,优先选用正常属性值低,垃圾属性值高的第一元素词组合作为第一元素关键词组合。
如图2所示,第一元素关键词组合的形成步骤如下:
步骤301,获取样本的切词表,得到多个第一元素词组合;
步骤302,从词性库中获取所有第一元素词组合的垃圾属性值P1垃圾和正常属性值P1正常
步骤303,判断是否满足P1垃圾〉第一预设值M1垃圾and P1正常<第二预设值N1正常;其中该判断规则中的第一预设值M1垃圾和第二预设值N1正常均不限于一固定值,且也可采用其他的判断规则,如P1垃圾-P1正常>p1等等;
步骤304,若该第一元素词组合满足上述规则,则判定为第一元素关键词组合;
步骤305,判断是否所有的第一元素词组合处理完毕;
步骤306,若没有处理完毕,则返回步骤302,若处理完毕,则将所有满足该规则的第一元素关键词组合构成第一元素关键词组合集。
为了更好的降低策略的误拦率,同时减少策略的容量,提高策略容量的利用率,执行步骤4时,若将所述第一元素关键词组合集中两个不同的第一元素关键词组合进行组合,得到第二元素词组合;将所述第一元素关键词组合集中三个不同的第一元素关键词组合进行组合,得到第三元素词组合…依次类推,可形成第N元素词组合集;但本发明的具体实施例中,优选的,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
本发明实施例中,对于指定样本的策略生成,首先按照一定的规则生成第一元素关键词组合集,再依次生成第二元素关键词组合集、第三元素关键词组合集……一直到满足终止条件,较优的终止条件可设置为关键词组合的最大长度为Nmax,当产生出第Nmax元素关键词组合后,结束流程;但不仅限于此,也可为一直到发现在关键词组合集生成过程中不能满足指定规则为止,该指定规则可预先设定,也可通过多次实验获得,不限于一固定规则。
执行步骤5时,所述第三预设值和第四预设值随着N值的改变而不同,且某一N值对应的所述第三预设值和第四预设值也不限于一固定值。优选的,当N值大于或者等于一阈值时,确定的所述N元素关键词组合集则为策略集,根据该策略集则可有效的拦截垃圾信息,大大提高生产效率。
本发明的上述实施例中,步骤2具体包括:
步骤20,从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
本发明上述步骤20中,词性库的形成是一个线下挖掘的流程,通过日常不断获取的垃圾样本和正常样本,挖掘出每个元素词组合的垃圾属性和正常属性,形成并不断完善词性库。
词性库的属性包括:词的内容、垃圾属性值、正常属性值、垃圾样本ID、正常样本ID等内容。
垃圾属性值:展现该词在垃圾短(彩)信中出现的概率;垃圾属性值越大,表明该词在垃圾短(彩)信中出现的概率越大,采用该词作为关键词查准率较高;
正常属性值:展现该词在正常短(彩)信中出现的概率;正常属性值越大,表明该词在正常短(彩)信中出现的概率越大,采用该词作为关键词误拦率较低;
垃圾样本ID:包含该词的所有垃圾样本在垃圾样本库中的ID,用于计算分析多个词在垃圾短(彩)信中出现的概率;
正常样本ID:包含该词的所有正常样本在正常样本库中的ID,用于计算分析多个词在正常短(彩)信中出现的概率;
下表是词性库的具体结构示例:
如图3所示为挖掘词性的流程图:
步骤201,首先将获取的每条样本根据样本属性选择放入垃圾样本库或正常样本库,并分配相应的ID号。如一条样本是垃圾样本,则放入垃圾样本库,分配ID号为LJ0000123,一条样本是将正常样本,则放入正常样本库,分配ID号ZC0000234;
步骤202,记录每条样本对应的ID号,然后将每条样本进行切词处理,一条样本可分为若干个词,记录每个切词与ID号的对应关系;
步骤203,判断词性库是否已存在该词;
步骤204,若词性库没有该词,则建立一条词性目录,并放入该词内容;若词性库中已有该词,则在原有目录上更新信息;
步骤205,判断该对应样本是否为垃圾样本;
步骤206,若对应样本为垃圾样本,则词的垃圾属性值加1,将ID号放入垃圾样本ID中;
步骤207,若对应样本为正常样本,则词的正常属性值加1,将ID号放入正常样本ID中;
步骤208,判断该样本的所有切词是否处理完毕,若未处理完毕,返回步骤203;若处理完毕,则结束。
进一步的,为了使词性库更好完善,线下还可完成词性分析的功能,计算并存储关键词组合的垃圾属性和正常属性。
如图4所示为关键词组合的属性计算的流程图:
步骤210,首先将获取的关键字组合拆分为单个关键字;
步骤211,从词性库获得每个关键字的所有垃圾样本ID和正常样本ID;
步骤212,比较所有关键字的垃圾样本ID集的ID号,寻找相同ID号的数量,即为该关键字组合的垃圾属性值;
步骤213,比较所有关键字的正常样本ID集的ID号,寻找相同ID号的数量,即为该关键字组合的正常属性值。
例如获取到关键字组合:发票&咨询&电话。首先我们拆分为发票、咨询、电话分别处理,如从词性库中获取到信息:
比较发票、电话、咨询中垃圾短彩信ID集中相同ID号的数量,经比较发现如下ID号是相同的:LJ000004、LJ000005、LJ000006、LJ000007、LJ000008。相同ID号数量是4,则关键字组合<发票&咨询&电话>的垃圾属性值为4。
比较发票、电话、咨询中正常短信ID集中相同ID号的数量,经比较发现如下ID号是相同的:ZC000004。相同ID号数量是1,则关键字组合<发票&咨询&电话>的正常属性值为1。
本发明的上述实施例中,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
本发明实施例中,对于指定样本的策略生成,首先按照一定的规则生成第一元素关键词组合集,再依次生成第二元素关键词组合集、第三元素关键词组合集……一直到满足终止条件,较优的终止条件可设置为关键词组合的最大长度为Nmax,当产生出第Nmax元素关键词组合后,结束流程;但不仅限于此,也可为一直到发现在关键词组合集生成过程中不能满足指定规则为止,该指定规则可预先设定,也可通过多次实验获得,不限于一固定规则。
本发明的上述实施例中,为了提高生成第N元素关键词组合集的效率,生成第N元素词组合集时可采用由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。由于已确定的第L元素关键词组合和已确定的第M元素关键词组合中已将非关键词排除,大大提升了工作效率,降低了运算量。
如图5所示,本发明的具体实施例中,设L=1,则M=N-1;则确定第N元素关键词组合集的具体步骤包括:
步骤501,将所有第N-1元素关键词组合与所有第一元素关键词组合两两组合,构成多个不同的第N元素词组合;
步骤502,依次获取所有第N元素词组合的垃圾属性值PN垃圾和正常属性值PN正常
步骤503,判断是否满足PN垃圾〉MN垃圾and PN正常<NN正常;其中该判断规则中的MN垃圾和NN正常均不限于一固定值,可由大量实验数据获取,且也可采用其他的判断规则,如PN垃圾-PN正常>pN等等;
步骤504,若该第N元素词组合满足上述规则,则判定为第N元素关键词组合;
步骤505,判断是否所有的第N元素词组合处理完毕;
步骤506,若没有处理完毕,则返回步骤502,若处理完毕,则将所有满足该规则的第N元素关键词组合构成第N元素关键词组合集。
需要说明的是,上述举例仅为本发明的一具体实施例,不用于限制本发明创造的范围,例如N=4时,第四元素词组合集既可由第一元素关键词组合集和第三元素关键词组合集两两合并形成,也可由第二元素关键词组合集中的第二元素关键词组合两两组合形成,依次类推可形成第五元素词组合集、第六元素词组合集等等。
下面结合一具体实例,说明本发明的生成关键字组合策略方法的执行过程:
如有一组短信样本为:
(1)首先对样本进行切词,获取词汇表如下:
优惠、联系、咨询、电话、顾客、娱乐、酒水、活动、办理、酬宾、贷款、担保、抵押、地址、放款、公司、购房、顾问、好礼、机会、、开盘、开业、来电、美女、免费、热情、手续、详情、银行、用钱、有礼、周转、资金、尊敬……
然后从词性库获取这些词汇的垃圾属性和正常属性,根据设定的规则进行第一元素关键词判定,产生如下第一元素关键词集:
优惠联系电话咨询顾问抵押贷款放款酬宾美女酒水资金周转开盘
(2)对上述第一元素关键词进行两两组合,产生如下第二元素词组合,如:
优惠&联系、优惠&电话、优惠&咨询……..
联系&电话、联系&咨询、联系&顾问……
抵押&贷款、抵押&放款、抵押&周转….
酒水&美女酬宾&酒水、优惠&酒水……
…………
然后获取这些组合的垃圾属性和正常属性,根据设定的规则产生如下第二元素关键词组合,如:
优惠&联系、优惠&电话、优惠&咨询、联系&咨询、咨询&顾问、抵押&贷款、抵押&放款、放款&周转、抵押&资金、抵押&周转、抵押&担保….
(3)将第二元素关键词组合集和第一元素关键词组合集进行两两合并,生成第三元素词组合集:
优惠&联系&电话、优惠&联系&咨询、优惠&咨询&电话、优惠&咨询&顾问、联系&咨询&电话、抵押&贷款&放款、抵押&放款&周转、抵押&贷款&担保、抵押&贷款&担保….
然后获取这些组合的垃圾属性和正常属性,根据设定的规则产生如下第三元素关键词组合集。
优惠&联系&电话、优惠&咨询&电话、优惠&咨询&顾问、联系&咨询&电话、抵押&贷款&放款、抵押&放款&周转。
假如策略生成中止条件为关键词组合长度为3,则上述第三元素关键词组合集为生成的策略集。
本发明的上述实施例中,对于生成的策略集会存在相同的信息能够被多条策略拦截的情况,为了降低上述策略集的冗余度,提高策略的有效利用率,确定所述策略集后还包括:
步骤6,对所述策略集进行去冗余处理,得到优选策略集。
如图6所示,优选的,步骤6具体包括:
步骤601,将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
步骤602,将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,并删除所述优选策略拦截的所有信息,形成新的信息集,继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
步骤603,将已确定的优选策略组成优选策略集。
本发明的上述实施例中,步骤602具体包括:
步骤6021,从上述策略集中寻找匹配信息集中信息最多的一条策略,将其记为优选策略;
步骤6022,从策略集中删除该优选策略,形成新的策略集;从信息集中删除该条策略匹配信息,形成新信息集;
步骤6023,重复步骤6021和6022,一直到信息集中剩余信息条数小于第一预设门限。
具体示例如下:
假定用户设定的第一预设门限为0。
(1)将所述策略集中每一个第N元素关键词组合拦截的信息去重合并,形成一个信息集,并分别对应一个第N元素关键词组合形成一个子信息集。结果如下:
经比较策略CL001拦截短信数量最多,将策略CL001记为优选策略。然后将策略CL001移出策略集,同时将策略CL001拦截的短信DX0001、DX0002、DX0003、DX0004移出短信集,形成新的策略集和新的信息集。
(2)将新的策略集与新的信息集匹配,再次寻找拦截短信条数最多的策略。结果如下:
经比较策略CL005拦截短信数量最多,将策略CL005记为优选策略。然后将策略CL005移出策略集,同时将策略CL001拦截的DX0007、DX0008、DX0009移出信息集。
(3)继续将新的策略集与新的信息集匹配,再次寻找拦截短信条数最多的策略。结果如下:
经比较策略CL003拦截短信数量最多,将策略CL003记为优选策略,并将策略CL003移出策略集,同时将策略CL003拦截的短信DX0005、DX0006移出信息集。
此时发现信息集中的短信已经被全部拦截,则生成的优选策略集包含的策略为CL001、CL003、CL005。结果如下:
策略精简前的策略集 策略精简后的策略集
CL001、CL002、CL003、CL004、CL005、CL006 CL001、CL003、CL005
经过策略精简策略集中的策略数量从6条变为了3条,有效的降低了冗余,提高了策略的有效利用率。
本发明的上述实施例中,考虑到上述优选策略集中可能还存在相似策略的问题,为了进一步降低策略的数量,得到所述优选策略集后还包括:
步骤7,将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
如图7所示,本发明的具体实施例中,步骤7具体包括:
步骤701,从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
步骤702,将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
步骤703,若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
步骤704,将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
步骤705,将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
具体示例如下:
如一个策略集为:(假定用户设定的第二预设门限为1。)
a&b&c&d
a&b&c&e
a&b&c&f
b&c&d&e
c&d&e&f
c&d&f&g
a&c&d&f
任选一条策略a&b&c&d,可以形成a&b&c、b&c&d、a&c&d、a&b&d四个母词组合,经匹配发现a&b&c能够匹配的策略条数最多,形成相似策略聚类1:
a&b&c&d
a&b&c&e
a&b&c&f
从原策略集中删除该相似策略聚类1中的这3条策略,形成新的策略集:
b&c&d&e
c&d&e&f
c&d&f&g
a&c&d&f
任选一条策略b&c&d&e,可以形成b&c&d、b&c&e、b&d&e、c&d&e四个母词,经匹配发现c&d&e能够匹配的策略条数最多,形成相似策略聚类2:
b&c&d&e
c&d&e&f
从该新的策略集中删除该相似策略聚类2中的这2条策略,形成新的策略集:
c&d&f&g
a&c&d&f
任选一条策略c&d&f&g,通过匹配形成相似策略聚类3:
c&d&f&g
a&c&d&f
从该新的策略集中删除该相似策略聚类3中的这2条策略,此时新的策略集中条数为0,终止匹配,对相似聚类进行逻辑合并处理,结果如下:
经过逻辑合并后,7条策略合并成3条包含“与”“或”组合的策略;则该目标策略则为上述3条包含“与”“或”组合的策略。
本发明实施例创造性的提出针对一组短彩信同时生成一组策略的机制,解决了现有技术针对一条短彩信生成一条策略的低效以及高容量需求问题;大大提高了生产效率;且基于海量数据,为关键字建立了标识度管理机制;同时策略生成过程中综合考虑关键字的查准和误拦表现,优先选用查准高、误拦低的优质关键字,解决了目前简单从短彩信样本中提取关键字导致查准低、误拦高的问题,有效提高了关键字组合策略的拦截效果。
进一步的,本发明实施例的提案创新性的提出的策略精简机制,不仅解决了相同短彩信能够被多条策略拦截导致的策略冗余问题,同时解决了相似策略的问题,生成了具有“与”“或”关系的关键字组合策略。筛选出效果最优、条数最少的关键字组合策略集,也有效降低了策略的数量,提高策略容量利用率,延长扩容升级的周期,大大降低了投资。
如图8所示,为了更好的实现上述目的,本发明实施例还提供一种生成关键字组合策略的装置,包括:
切词模块801,用于对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
获取模块802,用于获得所述第一元素词组合的垃圾属性值和正常属性值;
第一确定模块8033,用于当所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
生成模块804,用于将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
第二确定模块805,用于当所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
进一步的,所述获取模块802包括:
获取单元,用于从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
优选的,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。优选的,所述第N元素词组合集的形成由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。
进一步的,上述生成关键字组合策略的装置,还包括:
去冗余模块806,用于对所述策略集进行去冗余处理,得到优选策略集。
优选的,所述去冗余模块806包括:
合并单元,用于将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
第三确定单元,用于将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,删除所述优选策略拦截的所有信息,形成新的信息集,并继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
第四确定单元,用于将已确定的优选策略组成优选策略集。
进一步的,上述生成关键字组合策略的装置,还包括:
合并模块807,用于将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
优选的,所述合并模块807包括:
第一生成单元,用于从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
第二生成单元,用于将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
第五确定单元,用于若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
第六确定单元,用于将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
第七确定单元,用于将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
本发明实施例的生成关键字组合策略的方法中,针对一组短彩信同时生成一组策略的机制,解决了现有技术针对一条短彩信生成一条策略的低效以及高容量需求问题;大大提高了生产效率;且基于海量数据,为关键字建立了标识度管理机制;同时策略生成过程中综合考虑关键字的查准和误拦表现,优先选用查准高、误拦低的优质关键字,解决了目前简单从短彩信样本中提取关键字导致查准低、误拦高的问题,有效提高了关键字组合策略的拦截效果。本发明提供的装置是应用上述生成关键字组合策略的方法的装置,则上述方法的所有实施例在本发明提供的装置中均适用,且均能达到相同或相似的有益效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (17)

1.一种生成关键字组合策略的方法,其特征在于,包括:
对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
获得所述第一元素词组合的垃圾属性值和正常属性值;
所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
2.根据权利要求1所述的生成关键字组合策略的方法,其特征在于,获得所述第一元素词组合的垃圾属性值和正常属性值的步骤具体包括:
从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
3.根据权利要求1所述的生成关键字组合策略的方法,其特征在于,所述第N元素词组合的垃圾属性值和正常属性值的计算步骤具体包括:
将所述第N元素词组合拆分成N个第一元素关键词组合;
从词性库中分别获取每一个第一元素关键词组合的所有垃圾样本ID和所有正常样本ID;
获取所述N个第一元素关键词组合的所有垃圾样本ID中的相同的ID号,所述相同的ID号的数量为所述第N元素词组合的垃圾属性值;
获取所述N个第一元素关键词组合的所有正常样本ID中的相同的ID号,所述相同的ID号的数量为所述第N元素词组合的正常属性值。
4.根据权利要求1所述的生成关键字组合策略的方法,其特征在于,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
5.根据权利要求3所述的生成关键字组合策略的方法,其特征在于,所述第N元素词组合集的形成由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。
6.根据权利要求1所述的生成关键字组合策略的方法,其特征在于,确定所述策略集后还包括:
对所述策略集进行去冗余处理,得到优选策略集。
7.根据权利要求6所述的生成关键字组合策略的方法,其特征在于,对所述策略集进行去冗余处理,得到优选策略集的步骤具体包括:
将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,并删除所述优选策略拦截的所有信息,形成新的信息集,继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
将已确定的优选策略组成优选策略集。
8.根据权利要求6所述的生成关键字组合策略的方法,其特征在于,得到所述优选策略集后还包括:
将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
9.根据权利要求8所述的生成关键字组合策略的方法,其特征在于,将所述优选策略集中的相似策略进行逻辑合并,得到目的策略集的步骤具体包括:
从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
10.一种生成关键字组合策略的装置,其特征在于,包括:
切词模块,用于对包含多个语句的信息进行切词处理,得到多个第一元素词组合;
获取模块,用于获得所述第一元素词组合的垃圾属性值和正常属性值;
第一确定模块,用于当所述第一元素词组合的垃圾属性值大于第一预设值且所述正常属性值小于第二预设值时,确定该第一元素词组合为第一元素关键词组合,多个所述第一元素关键词组合形成第一元素关键词组合集;
生成模块,用于将所述第一元素关键词组合集中至少两个不同的第一元素关键词组合进行组合,得到第N元素词组合,形成第N元素词组合集,其中,N为组成所述第N元素词组合的第一元素组合的个数;
第二确定模块,用于当所述第N元素词组合的垃圾属性值大于第三预设值且所述正常属性值小于第四预设值时,确定该第N元素词组合为第N元素关键词组合,确定的多个第N元素关键词组合形成第N元素关键词组合集,当N值大于或者等于一阈值时,确定所述N元素关键词组合集为策略集。
11.根据权利要求10所述的生成关键字组合策略的装置,其特征在于,所述获取模块包括:
获取单元,用于从词性库中获取所述多个第一元素词组合的垃圾属性值和正常属性值。
12.根据权利要求10所述的生成关键字组合策略的装置,其特征在于,形成第N元素词组合集时按照N值由小到大的顺序依次形成,若所述第N元素词组合集中不存在垃圾属性值大于所述第三预设值且正常属性值小于所述第四预设值的第N元素词组合,停止形成第N元素词组合集;否则,直到N值大于或者等于一阈值,停止形成第N元素词组合集。
13.根据权利要求12所述的生成关键字组合策略的装置,其特征在于,所述第N元素词组合集的形成由已确定的第L元素关键词组合和已确定的第M元素关键词组合两两组合形成,其中,L+M=N。
14.根据权利要求10所述的生成关键字组合策略的装置,其特征在于,还包括:
去冗余模块,用于对所述策略集进行去冗余处理,得到优选策略集。
15.根据权利要求14所述的生成关键字组合策略的装置,其特征在于,所述去冗余模块包括:
合并单元,用于将所述策略集中所有第N元素关键词组合拦截的信息去重合并,形成一个信息集;
第三确定单元,用于将拦截信息数最多的第N元素关键词组合确定为优选策略,同时删除所述优选策略,形成新的策略集,删除所述优选策略拦截的所有信息,形成新的信息集,并继续确定优选策略,直到新的信息集中的信息条数小于第一预设门限值;
第四确定单元,用于将已确定的优选策略组成优选策略集。
16.根据权利要求14所述的生成关键字组合策略的装置,其特征在于,还包括:
合并模块,用于将所述优选策略集中的相似策略进行逻辑合并,得到目标策略集。
17.根据权利要求16所述的生成关键字组合策略的装置,其特征在于,所述合并模块包括:
第一生成单元,用于从所述优选策略集中任选一个第N元素关键词组合,将该第N元素关键词组合的任意N-1个关键词重新组合,形成N个第N-1元素关键词组合;
第二生成单元,用于将每个第N-1元素关键词组合与所述优选策略集中的第N元素关键词组合进行求交集处理,确定与N个第N-1元素关键词组合对应的N个策略聚类;
第五确定单元,用于若成员最多的策略聚类的成员数小于或者等于第二预设门限值,则从所述优选策略集删除该策略,形成新的优选策略集;否则,将该成员数最多的策略聚类确定为相似策略聚类,并从优选策略集中删除该相似策略聚类中的所有策略,形成新的优选策略集,并继续确定相似策略聚类,直到所述新的优选策略集中的剩余策略数小于或者等于1;
第六确定单元,用于将已确定的相似策略聚类组成相似策略聚类集,并对所述相似策略聚类集中的所有相似策略聚类分别进行逻辑合并处理,生成包含“与”“或”组合的策略;
第七确定单元,用于将所述包含“与”“或”组合的策略和与策略聚类的成员数小于或者等于第二预设门限值相对应的所述优选策略组成目标策略集。
CN201410085899.1A 2014-03-10 2014-03-10 一种生成关键字组合策略的方法及装置 Active CN104915333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410085899.1A CN104915333B (zh) 2014-03-10 2014-03-10 一种生成关键字组合策略的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410085899.1A CN104915333B (zh) 2014-03-10 2014-03-10 一种生成关键字组合策略的方法及装置

Publications (2)

Publication Number Publication Date
CN104915333A true CN104915333A (zh) 2015-09-16
CN104915333B CN104915333B (zh) 2017-11-28

Family

ID=54084405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410085899.1A Active CN104915333B (zh) 2014-03-10 2014-03-10 一种生成关键字组合策略的方法及装置

Country Status (1)

Country Link
CN (1) CN104915333B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048304A (zh) * 2021-10-26 2022-02-15 盐城金堤科技有限公司 有效关键词确定方法、装置、存储介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
US7720883B2 (en) * 2007-06-27 2010-05-18 Microsoft Corporation Key profile computation and data pattern profile computation
CN102323929A (zh) * 2011-08-23 2012-01-18 上海粱江通信技术有限公司 一种实现中文短信模糊匹配关键字的方法
CN102761848A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种确定短信拦截关键词的方法
CN103179530A (zh) * 2011-12-26 2013-06-26 中国移动通信集团设计院有限公司 一种短信拦截方法及装置
CN103198160A (zh) * 2013-04-28 2013-07-10 南京安讯科技有限责任公司 一种关键词组合匹配方法
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
US7720883B2 (en) * 2007-06-27 2010-05-18 Microsoft Corporation Key profile computation and data pattern profile computation
CN102323929A (zh) * 2011-08-23 2012-01-18 上海粱江通信技术有限公司 一种实现中文短信模糊匹配关键字的方法
CN103179530A (zh) * 2011-12-26 2013-06-26 中国移动通信集团设计院有限公司 一种短信拦截方法及装置
CN102761848A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种确定短信拦截关键词的方法
CN103198160A (zh) * 2013-04-28 2013-07-10 南京安讯科技有限责任公司 一种关键词组合匹配方法
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘晓鸣 等: ""基于短信中心发端拦截方式的垃圾短信治理系统与应用"", 《山东通信技术》 *
秦建 等: """垃圾短信"监控的中文多模式模糊匹配算法"", 《西南大学学报(自然科学版)》 *
肖子玉 等: ""信息安全与垃圾短信监控"", 《运营与维护》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048304A (zh) * 2021-10-26 2022-02-15 盐城金堤科技有限公司 有效关键词确定方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN104915333B (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
Thunø Reaching out and incorporating Chinese overseas: The trans-territorial scope of the PRC by the end of the 20th century
CN101408883B (zh) 一种网络舆情观点收集方法
CN103955873A (zh) 创新资源信息整合服务平台
Kazienko et al. Multi-layered social network creation based on bibliographic data
Woo et al. China’s ethnic minority and neoliberal developmental citizenship: Yanbian Koreans in perspective
CN102708216A (zh) 一种面向密文搜索的分词组织方法和聚类方法
Nevalainen Facing the inevitable? The public telecom monopoly’s way of coping with deregulation
CN114265957A (zh) 基于图数据库的多种数据源联合查询方法及系统
CN110019070A (zh) 一种基于Hadoop的安全日志聚类方法与追责系统
CN106250456A (zh) 一种中标公告的抽取方法及装置
Gillies et al. The governance of transnational firms: Some preliminary hypotheses
CN104915333A (zh) 一种生成关键字组合策略的方法及装置
Zhong et al. CSR image construction of Chinese construction enterprises in Africa based on data mining and corpus analysis
Tian et al. Big Data and SME financing in China
Wu et al. The analysis of the influencing factors on the problems of bike-sharing system in China
Vernando et al. The essential factors of web 3.0 affecting 7 layers of decentralized web in business or industry
CN110807702A (zh) 贷后信息的管理方法、装置、设备及存储介质
Lyon State and Surveillance
CN113407734B (zh) 基于实时大数据的知识图谱系统的构建方法
CN109918661A (zh) 同义词获取方法及装置
Wahlquist The media and the guide to the basin plan
CN107506473A (zh) 一种基于云计算的大数据检索方法
CN108009927A (zh) 一种股票评分方法及平台
CN106777124A (zh) 语义认知方法、装置及系统
Li et al. Fraudulent support telephone number identification based on co-occurrence information on the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant