基于频繁集挖掘的关键词规则生成方法及其装置
技术领域
本申请涉及互联网领域,特别涉及一种基于频繁集挖掘的关键词规则生成技术。
背景技术
随着互联网技术不断进步,越来越多的用户参与网络进行讨论、获取知识,在用户得到便利的同时,也给了黑灰产更多的可乘之机。垃圾广告、违禁品买卖、谣言、赌博等信息正不断渗透到互联网平台中,严重影响了用户体验和平台发展。为了快速防控此类风险,平台方常利用关键词策略过滤文本内容。比如为了识别过滤赌博文本,可以配置策略:“下注^奖励^发财”,该策略的含义是:如果检测文本中同时包含“下注”,“奖励”,“发财”三个词则认为该文本是有风险的。
为了生成高质量的关键词策略,常采用人工提取关键词,然后再进行关键词组合的方式。很明显在面对大量风险文本时,这种方法时耗长,且限于人工知识难以提取高质量关键词组合。
基于人工的关键词规则:具体来说就是根据黑文本中频繁出现的某种文字模式,人工总结出关键词规则,比如“花呗^套现”,“vpn^翻墙”等。
但是随着用户量的增多,用户的UGC(User Generated Content,用户原创内容)内容呈指数级上升,随之而来的违规内容也越来越多,风险形式也越来越多样。如果仍然使用人工构建关键词规则的方法,将付出大量的人力,而且对于风险的覆盖情况也难以保证。
基于排列组合的关键词规则生成:具体来说就是根据基础关键词暴力穷举出所有的关键词组合。例如有8000条文本,平均每条文本的基础关键词数量为42。如果限制关键词规则包含的词数在3-5之间,那么单条文本构成的规则有:近10万条。即使不同文本间的规则重复率很高,假设平均每条文本生成的规则为1万条,那么8000条文本共生成8千万条规则,显然如此大量的规则将对后续的使用带来困难。
因此,目前需要一种能够自动生成适量的高质量关键词的技术。
发明内容
本申请的目的在于提供一种基于频繁集挖掘的关键词规则生成方法及其装置,能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。
为解决上述技术问题,本发明的实施方式公开了一种基于频繁集挖掘的关键词规则生成方法,包括以下步骤:
提取风险文本中的基础关键词;
将所述基础关键词组装为基础关键词文本;
对所述基础关键词文本进行频繁集挖掘,得到频繁集项;
对所述频繁集项所代表的关键词规则进行有效性检验;
通过有效性检验的所述关键词规则作为最终采用的关键词规则。
本发明的实施方式还公开了一种基于频繁集挖掘的关键词规则生成装置,包括:
关键词提取模块,用于提取风险文本中的基础关键词;
组装模块,用于将所述关键词提取模块所提取出的基础关键词组装为基础关键词文本;
频繁集挖掘模块,用于对所述组装模块所组装的基础关键词文本进行频繁集挖掘,得到频繁集项;
检验模块,用于对所述频繁集挖掘模块输出的频繁集项所代表的关键词规则进行有效性检验;
输出模块,用于输出通过所述检验模块的有效性检验的关键词规则,作为最终采用的关键词规则。
本发明的实施方式还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述方法中的步骤。
本发明实施方式与现有技术相比,主要区别及其效果在于:
能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的一种基于频繁集挖掘的关键词规则生成方法的流程示意图;
图2是根据本申请第一实施方式的一个优选实施例的流程示意图;
图3是根据本申请第二实施方式的一种基于频繁集挖掘的关键词规则生成装置的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
概念说明:
关键词,源于英文“keywords”,特指单个媒体在制作使用索引时,所用到的词汇。关键词搜索是网络搜索索引主要方法之一,就是访问者希望了解的产品、服务和公司等的具体名称用语。
风险文本:对平台可能造成危害的文本内容。
频繁集:数据集中频繁出现的项集,序列或子结构。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种基于频繁集挖掘的关键词规则生成方法。
图1是该基于频繁集挖掘的关键词规则生成方法的流程示意图。
具体地说,如图1所示,该基于频繁集挖掘的关键词规则生成方法包括以下步骤:
在步骤101中,提取风险文本中的基础关键词。
优选地,在步骤101中,利用TFIDF算法提取风险文本中的基础关键词。
TFIDF(Term Frequency Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TFIDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TFIDF算法作为一个基础算法,在机器学习领域经常用到。作为现有技术中的一种成熟技术,在此不再进一步详细介绍。
当然,这只是一种优选的实施方式。在本发明的其他某些实施方式中,也可以利用其他算法提取风险文本中的基础关键词,而不以此为限。
此后进入步骤102,将所述基础关键词组装为基础关键词文本。
在步骤102中,根据TFIDF提取到的关键词,将原风险文本组装成频繁集挖掘算法的输入。
举个例子来说,比如原文本分词后由w1、w2、w3、w4和w5组成,利用TFIDF提取到的关键词是w2、w5、w6和w7,则将w2和w5组装频繁集算法的输入文本。
此后进入步骤103,对所述基础关键词文本进行频繁集挖掘,得到频繁集项。
频繁集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁集挖掘有着很广泛的应用,例如:购物蓝数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。
频繁集挖掘算法,就是用来挖掘频繁出现的变量,是现有技术中的一种基础算法,在此不再进一步详细介绍。
此后进入步骤104,对所述频繁集项所代表的关键词规则进行有效性检验。
优选地,在步骤104中,使用验证数据集对所述关键词规则进行有效性检验。
所述验证数据集包括:黑文本和白文本。
需要说明的是,黑文本,是指会对平台造成危害的文本;白文本,作为黑文本的反义词,是指不会平台造成危害的文本。
所述有效性检验的指标包括:关键词规则命中的文本数、命中的黑文本数、命中的白文本数和/或准确率。
此后进入步骤105,通过有效性检验的所述关键词规则作为最终采用的关键词规则。
优选地,在步骤105中,通过有效性检验的所述关键词规则包括:准确率大于阈值的关键词规则。
此后结束本流程。
因此,通过上述技术方案,从风险文本中提取出基础关键词,再利用频繁集挖掘方法提取出经常共现的关键词组合,进而获得关键词策略,能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。
为了能够更好地理解本申请的技术方案,下面结合一个优选实施例来进行说明,该优选实施例中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
图2是该优选实施例的流程示意图。
具体地说,如图2所示,该优选实施例的技术方案包括以下步骤:
步骤一:输入风险文本。
输入一组风险文本,形式为(见表1):
表1
id1 |
text1 |
id2 |
text2 |
id3 |
text3 |
… |
… |
步骤二:TFIDF提取关键词。
基于步骤一中的文本利用TFIDF算法提取出基础关键词:w1,w2,w3,w4,w5;
步骤三:文本关键词组装。
利用步骤二的结果将风险文本转为(见表2):
表2
id1 |
text1 |
w1,w3 |
id2 |
text2 |
w2,w5,w8 |
id3 |
text3 |
w6,w10 |
… |
… |
… |
步骤四:频繁集挖掘。
以步骤三的数据为基础,利用频繁集挖掘算法得到频繁集项,结果如下(见表3):
表3
w1 w5 w8 |
w1 w5 w8 w9 |
w2 w4 w5 |
… |
步骤五:有效性检验。
将步骤四生成的频繁集项视为关键词规则,如w1w5w8则视为w1^w5^w8,然后使用验证数据集(包含黑、白文本)对规则进行实际效果评估:例如统计关键词规则命中的文本数、命中的黑文本数、命中的白文本数、准确率等指标。
步骤六:输出最终关键词规则。
对于准确率大于某一阈值的关键词规则,最终予以输出。
本申请提出一种基于频繁集的关键词规则生成算法,利用频繁集算法在基础关键词的基础上挖掘在风险文本中频繁共同出现的关键词,进而将这些关联的关键词组合成关键词规则进行风险防控。
如前所述,大量的用户在平台上贡献了巨量的内容,手动生成关键词规则对抗风险不仅成本高,有效率也不能得到很好的保证。使用排列组合的方式则会产生极其大量的候选关键词规则,给后续实际使用带来困难。而在基础关键词的基础上利用频繁集挖掘算法可以自动生成适量高效的备选关键词规则。经试验验证,本方法可以有效提高关键词规则创建效率,可以快速适量的候选关键词规则,且质量较高。
本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
本申请的第二实施方式涉及一种基于频繁集挖掘的关键词规则生成装置。图3是该基于频繁集挖掘的关键词规则生成装置的结构示意图。
具体地说,如图3所示,该基于频繁集挖掘的关键词规则生成装置包括:
关键词提取模块,用于提取风险文本中的基础关键词;
组装模块,用于将所述关键词提取模块所提取出的基础关键词组装为基础关键词文本;
频繁集挖掘模块,用于对所述组装模块所组装的基础关键词文本进行频繁集挖掘,得到频繁集项;
检验模块,用于对所述频繁集挖掘模块输出的频繁集项所代表的关键词规则进行有效性检验;
输出模块,用于输出通过所述检验模块的有效性检验的关键词规则,作为最终采用的关键词规则。
进一步地,优选地,
所述关键词提取模块,利用TFIDF算法提取风险文本中的基础关键词。
所述检验模块,使用验证数据集对所述关键词规则进行有效性检验。
所述验证数据集包括:黑文本和白文本。
所述检验模块进行有效性检验的指标包括:关键词规则命中的文本数、命中的黑文本数、命中的白文本数和/或准确率。
所述输出模块输出准确率大于阈值的关键词规则,作为最终采用的关键词规则。
因此,通过上述技术方案,基于指定文本获取基础关键词,利用频繁集挖掘算法筛选出其中频繁共现的关键词组合,进而形成关键词规则,最终在有标数据的基础上验证备选关键词规则的有效性,可以大大加快关键词规则的创建速度。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述基于交易的信用风险判别装置的实施方式中所示的各模块的实现功能可参照前述基于交易的信用风险判别方法的相关描述而理解。上述基于交易的信用风险判别装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述基于交易的信用风险判别装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。此外,为了突出本发明的创新部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,这并不表明上述设备实施方式并不存在其它的模块。
相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。