CN110909540A - 短信垃圾新词识别方法、装置及电子设备 - Google Patents

短信垃圾新词识别方法、装置及电子设备 Download PDF

Info

Publication number
CN110909540A
CN110909540A CN201811076259.9A CN201811076259A CN110909540A CN 110909540 A CN110909540 A CN 110909540A CN 201811076259 A CN201811076259 A CN 201811076259A CN 110909540 A CN110909540 A CN 110909540A
Authority
CN
China
Prior art keywords
spam
short message
word
candidate
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811076259.9A
Other languages
English (en)
Other versions
CN110909540B (zh
Inventor
高喆
康杨杨
周笑添
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811076259.9A priority Critical patent/CN110909540B/zh
Priority to PCT/CN2019/105123 priority patent/WO2020052547A1/zh
Publication of CN110909540A publication Critical patent/CN110909540A/zh
Application granted granted Critical
Publication of CN110909540B publication Critical patent/CN110909540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了垃圾短信新词识别方法、装置、电子设备。其中,所述方法包括:获取短信集合;确定多个垃圾短信对应的候选词集合;根据短信类别信息,确定候选词的短信类别倾向性相关指标;以及,获取候选词的文档稀有性相关指标;根据短信类别倾向性相关指标和文档稀有性相关指标,确定候选词的垃圾短信新词得分;根据垃圾短信新词得分,从候选词集合中确定垃圾短信新词。采用这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。同时,这种处理方式,使得根据文档稀有性的相关指标可召回低频的垃圾短信新词;因此,可以有效提升召全率。

Description

短信垃圾新词识别方法、装置及电子设备
技术领域
本申请涉及文本挖掘技术领域,具体涉及短信垃圾新词识别方法和装置,以及电子设备。
背景技术
一种典型的短信发送场景是,商家通过网络平台向消费者发送短信,以便于将商品促销等信息及时送至消费者处,从而确保商家销售计划的有效实施,并提升用户体验。然而,伴随着这些有益效果的同时,也出现了大量垃圾短信。垃圾短信泛滥,已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。
随着互联网技术的不断发展,越来越多的网络平台利用短信内容安全系统对商对客(Business-to-Customer,B2C)的短信进行内容分析,并进行智能短信拦截和通道优化。其中,垃圾短信新词发现是短信内容安全系统的一个重要功能,有效地挖掘垃圾短信新词可提高垃圾短信识别模型准确率,可以及时地应对线上的垃圾短信变种,并可以为短信审核人员提供每天线上新出现的垃圾变种词。目前,垃圾短信新词识别方法主要分为两类:基于有监督的新词发现的垃圾短信新词识别方法、和基于无监督的新词发现的垃圾短信新词识别方法。其中,有监督的新词发现技术要依赖序列标注结果实现,该方法成本高,不容易获取语料;无监督的新词发现技术,通过某些指标来计算未包括在垃圾短信词典中的候选短语的成词概率,根据成词概率判断候选短语是否为垃圾短信新词,该方法成本低且效率高。由于无监督的新词发现技术具有成本低且效率高的优点,因此成为一种最为常用的垃圾短信新词识别方案。
然而,在实现本发明过程中,发明人发现基于无监督的新词发现技术的垃圾短信新词识别技术方案至少存在如下问题:一方面,由于简单地依赖简单的频率特征(如词的出现频率等)进行识别,而没有考虑类别的分布,因此容易召回很多正常的词汇,由此导致后续审核成本较高;另一方面,由于要依赖简单的频率特征计算成词概率,而垃圾短信中变异的新词出现频率低,因此这类词的成词概率就会低,这样就无法识别出这类垃圾短信新词,出现低频垃圾短信新词无法被召回的问题。
综上所述,现有技术存在垃圾短信新词召全率且召准率均较低的问题。
发明内容
本申请提供短信垃圾新词识别方法,以解决现有技术存在的垃圾短信新词召全率且召准率均较低的问题。本申请另外提供短信垃圾新词识别装置,以及电子设备。
本申请提供一种短信垃圾新词识别方法,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述确定所述多个垃圾短信对应的候选词集合,包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
可选的,所述候选词规则包括候选词的字数小于预设字数。
可选的,所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息;
所述文档稀有性相关指标包括:倒文档频率IDF。
可选的,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:
将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。
可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取并展示所述垃圾短信新词得分大于得分阈值的新词;
接收针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的成词概率;
根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
可选的,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词。
可选的,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;
接收用户输入的针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
可选的,所述确定所述候选的垃圾短信新词的成词概率,包括:
确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;
根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。
可选的,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率,包括:
将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。
可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
可选的,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。
可选的,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;
接收针对目标候选新词的确定指令;
将所述目标候选新词为所述垃圾短信新词。
可选的,所述根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度,包括:
将所述语义相似度的最大值作为所述垃圾短信词汇相似度。
可选的,所述确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度,包括:
确定所述候选新词的词向量;
根据所述预设垃圾短信词汇的词向量和所述候选新词的词向量,确定所述预设垃圾词汇与所述候选新词之间的语义相似度。
本申请还提供一种垃圾短信新词识别方法,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述短信类别倾向性得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
本申请还提供一种垃圾短信新词识别方法,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;
根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
本申请还提供一种垃圾短信新词识别装置,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
指标确定单元,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
得分确定单元,用于根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
新词确定单元,用于根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述候选词集确定单元包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
可选的,所述得分确定单元,具体用于将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
可选的,所述新词确定单元包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
成词概率确定子单元,用于确定所述候选的垃圾短信新词的成词概率;
第一新词确定子单元,用于根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
可选的,所述新词确定单元包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
第一相似度确定子单元,用于确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
第二相似度确定子单元,用于根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
第二新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
本申请还提供一种垃圾短信新词识别装置,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
得分确定单元,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
新词确定单元,用于根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述新词确定单元包括:
候选词选取子单元,用于获取所述短信类别倾向性得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
相似度确定子单元,用于确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
本申请还提供一种垃圾短信新词识别装置,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
第一语义相似度确定单元,用于确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;
第二语义相似度确定单元,用于根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;
新词确定单元,用于根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的一种短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。同时,这种处理方式,使得根据文档稀有性的相关指标可召回低频的垃圾短信新词;因此,可以有效提升召全率。综上所述,这种处理方式,使得可筛选出既在垃圾短信中具有一定的稀有性,且在类别上比较倾向于垃圾短信的新词;因此,可以有效提升召准率和召全率,从而提升新词发现准确度。
本申请实施例提供的另一种短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;所述短信类别包括垃圾短信类或正常短信类;根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。
本申请实施例提供的又一种短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得通过词嵌入的方式对候选词进行了语义扩展,并根据候选词与垃圾短信词汇之间的语义相似度,确定所述垃圾短信新词,因此不会忽略一些稀有的新词;因此,可以有效提升垃圾短信新词的召全率。
附图说明
图1是本申请提供的一种短信垃圾新词识别方法的实施例的流程图;
图2是本申请提供的一种短信垃圾新词识别方法的实施例的具体流程图;
图3是本申请提供的一种短信垃圾新词识别方法的实施例的具体流程图;
图4是本申请提供的一种短信垃圾新词识别方法的实施例的具体流程图;
图5是本申请提供的一种短信垃圾新词识别装置的实施例的示意图;
图6是本申请提供的电子设备的实施例的示意图;
图7是本申请提供的一种短信垃圾新词识别方法的实施例的流程图;
图8是本申请提供的一种短信垃圾新词识别装置的实施例的示意图;
图9是本申请提供的电子设备的实施例的示意图;
图10是本申请提供的一种短信垃圾新词识别方法的实施例的流程图;
图11是本申请提供的一种短信垃圾新词识别装置的实施例的示意图;
图12是本申请提供的电子设备的实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了垃圾短信新词识别方法和装置,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请提供的一种垃圾短信词汇识别方法实施例的流程图,该方法的执行主体包括垃圾短信词汇识别装置。本申请提供的一种垃圾短信词汇识别方法包括:
步骤S101:获取短信集合。
所述短信,又称为短消息或短信息,包括但不限于手机短信,也可以是即时消息等等其它形式的短信。
所述短信集合包括多个垃圾短信和多个正常短信。其中,将垃圾短信的短信类别标注为垃圾短信,将正常短信的短信类别标注为正常短信。
步骤S103:确定所述多个垃圾短信对应的候选词集合。
所述候选词,又称为候选新词,包括所述多个垃圾短信中出现的垃圾短信词典以外的词,但由于垃圾短信的分词结果并非新词,因此不包括垃圾短信的分词结果。所述垃圾短信词典包括多个已经确定的垃圾短信词汇。
在一个示例中,步骤S103可包括如下子步骤:1)通过分词算法,获取所述垃圾短信包括的词,作为短信词;2)若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
1)通过分词算法,获取所述垃圾短信包括的词,作为短信词。
具体实施时,可采用现有的分词算法对垃圾短信进行分词处理。现有的分词算法,可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。分词算法属于较为成熟的现有技术,此处不再赘述,可根据实际需求选取任意一种现有分词算法。
例如,垃圾短信内容包括“新农合保险”,分词结果包括如下短信词:“新”、“农”、“合”和“保险”。
2)若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
所述候选词规则,包括但不限于:候选词的字数小于预设字数。所述预设字数可以根据业务需求设置,例如,设置为4等等。
例如,对于上述垃圾短信内容“新农合保险”,分词结果:“新”、“农”、“合”和“保险”,所述至少两个相邻短信词构成的组合词包括:“新农”、“农合”、“合保险”。
需要说明的是,步骤S103也可以采用其它具体实施方式,只要能够确定所述多个垃圾短信对应的候选词集合即可。
步骤S105:根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标。
本申请实施例提供的方法,引入短信类别信息,根据所述候选词在垃圾短信和正常短信中的分布情况,获取所述候选词的短信类别倾向性相关指标。其中,短信类别可以是垃圾短信类或正常短信类。
所述短信类别倾向性,可以是正常短信倾向性,也可以是垃圾短信倾向性,例如,候选词A在正常短信中出现10次,在垃圾短信中出现2次,则候选词A的正常短信倾向性得分可以是10/2=5,垃圾短信倾向性得分可以是2/10=0.2。
所述短信类别倾向性相关指标,是指能够反映所述候选词的短信类别倾向性的指标,也就是说,根据所述短信类别倾向性相关指标,可确定所述候选词的短信类别倾向性。
所述短信类别倾向性相关指标,包括但不限于以下指标的至少一项:交叉熵、优势率、互信息。
交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,在本申请提供的方法中,主要用于度量两个概率(所述候选词的垃圾短信概率和正常短信概率)分布间的差异性信息。
优势率(Odds Ratio)只适用于二元分类的情况,其特点是只关心文本特征对于目标类的分值。Pos表示目标类(如垃圾短信),neg表示非目标类(如正常短信)。
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
本申请实施例提供的方法,还引入所述候选词的文档稀有性相关指标,以便于挖掘出来出现频率较低的垃圾短信中变异的新词等等。
所述文档稀有性相关指标,是指反映所述候选词的文档稀有性的指标,包括但不限于:逆文档频率(inverse document frequency,IDF)。IDF又称反文档频率,是文档频率的倒数,主要用于概念TF-IDF(term frequency–inverse document frequency)中。
在本实施例中,所述文档稀有性相关指标包括所述候选词在所述短信集内的文档稀有性相关指标。
步骤S107:根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分。
通过上述步骤获得每一个所述候选词的所述短信类别倾向性相关指标和所述文档稀有性相关指标之后,就可以综合这两类指标,确定所述候选词的垃圾短信新词得分。
在一个示例中,步骤S107可采用如下方式实现:将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
其中,各个指标的权重,可根据业务需求确定。当所述文档稀有性相关指标的权重较大时,会提升低频候选词的得分,有利于筛选出较多低频的候选词,但可能包括较多的正常词汇;当所述短信类别倾向性相关指标的权重较大时,会提升垃圾短信倾向性高的候选词的得分,有利于筛选出对垃圾文本具有代表性的高频的候选词,但可能忽略部分低频的候选词。
例如,所述候选词A在垃圾短信中出现10次,在正常短信中出现1次,简化的垃圾短信倾向性得分为10/1=10;所述候选词B在垃圾短信中出现2次,在正常短信中出现1次,简化的垃圾短信倾向性得分为2/1=2,如果仅按照垃圾短信倾向性得分,高频词A更容易被筛选,但是低频词B可能是个很关键的垃圾词汇,为了让B这样的词汇也同样容易被采集到,就要考虑加入文档稀有性指标,对低频词的权重增大。譬如高频词A的idf是2,低频词B的idf是6,那么按照交叉熵、优势率和互信息这三个指标占0.5,idf占0.5的权重,此时最终得分为高频词A=0.5*10+0.5*2=6,低频词B=0.5*2+0.5*6=4,这样不仅可以筛选出高频词A,也能够筛选出低频词B。
步骤S109:根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
本步骤根据每一个所述候选词的垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
在一个示例中,将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。
在另一个示例中,步骤S109包括如下子步骤:1)获取并展示所述垃圾短信新词得分大于得分阈值的新词;2)接收用户输入的针对目标新词的确定指令;3)将所述目标新词为所述垃圾短信新词。
所述得分阈值,可根据业务需求确定。所述得分阈值越高,则垃圾短信新词的噪声越小,但垃圾短信新词的召全率越低,可能丢掉一些垃圾短信新词;所述得分阈值越低,则垃圾短信新词的召全率越高,但垃圾短信新词的噪声越大,人工审核量越大。
请参看图2,其为本申请的垃圾短信新词识别方法的实施例的具体流程图。在另一个示例中,步骤S109可包括如下子步骤:
步骤S201:获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词。
步骤S203:确定所述候选的垃圾短信新词的成词概率。
在一个示例中,所述确定所述候选的垃圾短信新词的成词概率的步骤,可包括如下子步骤:1)确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;2)根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。
具体实施时,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率的步骤,可采用如下方式实现:将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。
步骤S205:根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
具体实施时,可将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词;也可以采用如下子步骤确定所述垃圾短信新词:1)获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;2)接收用户输入的针对目标新词的确定指令;3)将所述目标新词为所述垃圾短信新词。
所述成词概率阈值,可根据业务需求确定。在本实施例中,为避免将根据所述垃圾短信新词得分筛选出的低频的候选词过滤掉,可将所述成词概率阈值设置大些。
本申请实施例提供的方法,通过获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;确定所述候选的垃圾短信新词的成词概率;根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词;这种处理方式,使得确定出的垃圾短信新词还是更加具有实际意义的词,如“80后”,避免筛选出不具有实际意义的垃圾短信新词,如“新合”;因此,可以有效提升垃圾短信新词的有效性。
请参看图3,其为本申请的垃圾短信新词识别方法的实施例的具体流程图。在另一个示例中,步骤S109可包括如下子步骤:
步骤S301:获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词。
步骤S303:确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度。
所述至少一个预设垃圾短信词汇,包括但不限于:垃圾短信词典中的词汇。
在一个示例中,步骤S303可包括如下子步骤:1)确定所述候选的垃圾短信新词的词向量;2)根据所述预设垃圾短信词汇的词向量和所述候选的垃圾短信新词的词向量,确定所述预设垃圾词汇与所述候选的垃圾短信新词之间的语义相似度。
1)确定所述候选的垃圾短信新词的词向量。
要确定所述候选的垃圾短信新词的词向量,可采用如下方式实现:离线或在线计算所述短信集中所有短信的基于字的语言模型的embedding(词嵌入,词向量),如N-Gram或Skip-Gram语言模型,或采用cbow、glove等方式,以此确定所述候选的垃圾短信新词的词向量。采用这种处理方式,可以有效提升词向量的准确度,例如,短信A“买卖发票,加我微信”,其中“发票”是常见词;短信B是“买卖发瞟,加我微信”,“发瞟”是新词,此时“发瞟”本身词频比较低,但是embedding刻画了该词经常出现的上下文,因此“发瞟”和“发票”在embedding是比较相似的。
2)根据所述预设垃圾短信词汇的词向量和所述候选的垃圾短信新词的词向量,确定所述预设垃圾词汇与所述候选的垃圾短信新词之间的语义相似度。
获取到所述预设垃圾短信词汇的词向量和所述候选的垃圾短信新词的词向量之后,就可以通过计算两个词向量之间的余弦距离等方式,确定所述预设垃圾词汇与所述候选的垃圾短信新词之间的语义相似度。
步骤S305:根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度。
在获得每一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度后,就可以根据这些语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度。
所述垃圾短信词汇相似度,包括一个词与已有垃圾短信词汇之间的语义相似度。
在一个示例中,步骤S305采用如下方式实现:将每一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度中,最大的语义相似度作为所述垃圾短信词汇相似度。采用这种处理方式,可以将所述候选的垃圾短信新词的垃圾短信词汇相似度设定为该词和语义最相近的垃圾短信词汇之间的语义相似度。
步骤S307:根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
在一个示例中,可将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。所述第一相似度阈值和所述第二相似度阈值,可根据业务需求设定。
在另一个示例中,步骤S307也可以采用如下子步骤:1)获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;2)接收用户输入的针对目标新词的确定指令;3)将所述目标新词为所述垃圾短信新词。
具体实施时,可通过一个分段概率密度函数,根据所述垃圾短信词汇相似度得到所述候选的垃圾短信新词的采样概率,根据采样概率确定所述垃圾短信新词。在本实施例中,采用如下分段概率密度函数:
Figure BDA0001800840710000151
其中,x表示所述垃圾短信词汇相似度,p(x)表示采样概率。由该函数可见,所述第一相似度阈值可设置为0.7,所述第二相似度阈值可设置为0.3。
本申请实施例提供的方法,通过对候选词进行词嵌入的处理,确定候选词的词向量,并根据已有垃圾短信词汇的词向量和候选词的词向量,确定已有垃圾词汇与候选词之间的语义相似度,进而确定候选词的垃圾短信词汇相似度,并通过分段概率密度函数确定候选词的采样概率,将采用概率大的候选词展示给审核人员审核;这种处理方式,使得对候选词进行了语义扩展,新词识别不仅仅从频率角度出发,在考虑到候选词的语义后,一方面不会忽略稀有的新词,由此可突出那些与已有垃圾词汇语义比较相近的候选词,另一方面可以筛选出与已有垃圾词汇语义完全不相近的候选词,由此可找到一些新的垃圾短信模式,这种短信的上下文可能并未出现过,但是既然该词通过了短信类别倾向性的审核和成词概率的审核,那么对现有垃圾词汇可能是个很好的补充;因此,可以有效提升垃圾短信新词识别的准确度。
例如,“买卖发票,加我微信”,其中发票是常见词,某条短信是“买卖发瞟,加我微信”,发瞟是新词,此时“发瞟”本身词频比较低,但是词向量(embedding)刻画了该词经常出现的上下文,因此“发瞟”和“发票”在词向量是比较相似的,“发瞟”作为与已有垃圾词汇语义比较相近的候选词被筛选出来,供审核人员审核。
请参看图4,其为本申请的垃圾短信新词识别方法的实施例的示意图。由图4可见,本实施例首先通过步骤S103确定候选词集合,该集合包括多个候选词;然后,通过步骤S105,根据标签(即所述短信类别信息),确定候选词的诸如交叉熵、优势率和互信息等短信类别倾向性相关指标,以及确定IDF等文档稀有性相关指标,并通过步骤S107确定候选词的垃圾短信新词得分,再根据该得分对候选词集合中的候选词进行第一层筛选,将得分低于或等于得分阈值的候选词从该集合中去除;接下来,再对该集合中保留下来的候选词进行第二层筛选,即根据候选词的内部凝聚度和外部自由度,获取候选词的成词概率,根据成词概率进行第二层筛选,将成词概率低于或等于成词概率阈值的候选词从该集合中去除;接下来,再对该集合中保留下来的候选词进行第三层筛选,即通过词嵌入方式,计算候选词与已有垃圾短信词汇的余弦相似度,并通过分段概率密度函数获取候选词的采样概率,根据采样概率最终确定出展示给人工审核的垃圾短信新词。采用这种处理方式,通过基于三层筛选模式的无监督新词发现技术来挖掘短信中的垃圾词汇,能够有效提升垃圾短信新词识别的准确度和召回率,从而解决人工全量审核垃圾词汇效率低下的痛点,该方案可为审核人员及时提供线上新出现的垃圾词汇,来进行风险管控;另外,挖掘出的垃圾词汇可以构建黑库,还可以提高垃圾文本的识别率。
从上述实施例可见,本申请实施例提供的短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。同时,这种处理方式,使得根据文档稀有性的相关指标可召回低频的垃圾短信新词;因此,可以有效提升召全率。综上所述,这种处理方式,使得可筛选出既在垃圾短信中具有一定的稀有性,且在类别上比较倾向于垃圾短信的新词;因此,可以有效提升召准率和召全率,从而提升新词发现准确度。
在上述的实施例中,提供了一种短信垃圾新词识别方法,与之相对应的,本申请还提供一种短信垃圾新词识别装置。该装置是与上述方法的实施例相对应。
第二实施例
请参看图5,其为本申请的短信垃圾新词识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的短信垃圾新词识别装置实施例仅仅是示意性的。
本申请另外提供一种短信垃圾新词识别装置,包括:
短信集获取单元501,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元503,用于确定所述多个垃圾短信对应的候选词集合;
指标确定单元505,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
得分确定单元507,用于根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
新词确定单元509,用于根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述候选词集确定单元503包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
可选的,所述得分确定单元507,具体用于将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
可选的,所述新词确定单元509包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
成词概率确定子单元,用于确定所述候选的垃圾短信新词的成词概率;
第一新词确定子单元,用于根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
可选的,所述新词确定单元509包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
第一相似度确定子单元,用于确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
第二相似度确定子单元,用于根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
第二新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
第三实施例
请参考图6,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器601和存储器602;所述存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
第四实施例
在上述的实施例中,提供了一种短信垃圾新词识别方法,与之相对应的,本申请还提供一种短信垃圾新词识别方法。该方法是与上述方法具有相同的技术构思。
请参看图7,其为本申请的短信垃圾新词识别方法的实施例的流程图。由于该方法实施例与上述方法实施例相对应,所以描述得比较简单,相关之处参见上述方法实施例的部分说明即可。
本申请另外提供一种短信垃圾新词识别方法,包括:
步骤S701:获取短信集合。
步骤S703:确定多个垃圾短信对应的候选词集合。
步骤S705:根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分。
在一个示例中,所述短信类别倾向性得分采用如下方式计算:将短信类别倾向性相关指标的加权平均值作为所述短信类别倾向性得分。
步骤S707:根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
在一个示例中,将所述短信类别倾向性得分大于得分阈值的所述候选词作为垃圾短信新词。所述得分阈值,可根据业务需求设置。在短信类别倾向性得分为垃圾短信倾向性得分的情况下,得分阈值设置的越小,通过的候选词越多,但可能将所有倾向于垃圾短信的词都选取出来,其中会存在很多非垃圾短信新词;得分阈值设置的越大,通过的候选词越少,有利于筛选出对垃圾文本具有代表性的高频的候选词,但可能忽略部分低频的候选词。
在又一个示例中,可对所述短信类别倾向性得分大于得分阈值的所述候选词进行如下后续的处理:1)根据所述候选词的成词概率,对其进行第二层的筛选;2)根据所述候选词的垃圾短信词汇相似度,通过一个分段概率密度函数,根据所述垃圾短信词汇相似度得到所述候选词的采样概率,根据采样概率确定所述垃圾短信新词。采用这种处理方式,使得确定出的垃圾短信新词还是更加具有实际意义的词,并且还可以突出那些与已有垃圾词汇语义比较相近的候选词,以及,与已有垃圾词汇语义完全不相近的候选词。
从上述实施例可见,本申请实施例提供的短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;所述短信类别包括垃圾短信类或正常短信类;根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。
第五实施例
在上述的实施例中,提供了一种短信垃圾新词识别方法,与之相对应的,本申请还提供一种短信垃圾新词识别装置。该装置是与上述方法的实施例相对应。
请参看图8,其为本申请的短信垃圾新词识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的短信垃圾新词识别装置实施例仅仅是示意性的。
本申请另外提供一种短信垃圾新词识别装置,包括:
短信集获取单元801,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元803,用于确定所述多个垃圾短信对应的候选词集合;
得分确定单元805,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
新词确定单元807,用于根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
可选的,所述新词确定单元807包括:
候选词选取子单元,用于获取所述短信类别倾向性得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
相似度确定子单元,用于确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
第六实施例
请参考图9,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器901和存储器902;所述存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
第七实施例
在上述的实施例中,提供了一种短信垃圾新词识别方法,与之相对应的,本申请还提供一种短信垃圾新词识别方法。该方法是与上述方法具有相同的技术构思。
请参看图10,其为本申请的短信垃圾新词识别方法的实施例的流程图。由于该方法实施例与上述方法实施例相对应,所以描述得比较简单,相关之处参见上述方法实施例的部分说明即可。
本申请另外提供一种短信垃圾新词识别方法,包括:
步骤S1001:获取短信集合。
步骤S1003:确定多个垃圾短信对应的候选词集合。
步骤S1005:确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度。
步骤S1007:根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度。
步骤S1009:根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
在一个示例中,步骤S1009可采用如下方式实现:根据所述候选词的垃圾短信词汇相似度,通过一个分段概率密度函数,根据所述垃圾短信词汇相似度得到所述候选词的采样概率,根据采样概率确定所述垃圾短信新词。采用这种处理方式,可以突出那些与已有垃圾词汇语义比较相近的候选词,以及,与已有垃圾词汇语义完全不相近的候选词。
从上述实施例可见,本申请实施例提供的短信垃圾新词识别方法,通过获取短信集合;确定所述多个垃圾短信对应的候选词集合;确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词;这种处理方式,使得通过词嵌入的方式对候选词进行了语义扩展,并根据候选词与垃圾短信词汇之间的语义相似度,确定所述垃圾短信新词,因此不会忽略一些稀有的新词;因此,可以有效提升垃圾短信新词的召全率。
第八实施例
在上述的实施例中,提供了一种短信垃圾新词识别方法,与之相对应的,本申请还提供一种短信垃圾新词识别装置。该装置是与上述方法的实施例相对应。
请参看图11,其为本申请的短信垃圾新词识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的短信垃圾新词识别装置实施例仅仅是示意性的。
本申请另外提供一种短信垃圾新词识别装置,包括:
短信集获取单元1101,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元1103,用于确定所述多个垃圾短信对应的候选词集合;
第一语义相似度确定单元1105,用于确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;
第二语义相似度确定单元1107,用于根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;
新词确定单元1109,用于根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
第九实施例
请参考图12,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器1201和存储器1202;所述存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (31)

1.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个垃圾短信对应的候选词集合,包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
3.根据权利要求2所述的方法,其特征在于,所述候选词规则包括候选词的字数小于预设字数。
4.根据权利要求1所述的方法,其特征在于,
所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息;
所述文档稀有性相关指标包括:倒文档频率I DF。
5.根据权利要求1所述的方法,其特征在于,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:
将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
6.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。
7.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取并展示所述垃圾短信新词得分大于得分阈值的新词;
接收针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
8.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的成词概率;
根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
9.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词。
10.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;
接收用户输入的针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
11.根据权利要求8所述的方法,其特征在于,所述确定所述候选的垃圾短信新词的成词概率,包括:
确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;
根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。
12.根据权利要求11所述的方法,其特征在于,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率,包括:
将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。
13.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
14.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。
15.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;
接收针对目标候选新词的确定指令;
将所述目标候选新词为所述垃圾短信新词。
16.根据权利要求13所述的方法,其特征在于,所述根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度,包括:
将所述语义相似度的最大值作为所述垃圾短信词汇相似度。
17.根据权利要求13所述的方法,其特征在于,所述确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度,包括:
确定所述候选新词的词向量;
根据所述预设垃圾短信词汇的词向量和所述候选新词的词向量,确定所述预设垃圾词汇与所述候选新词之间的语义相似度。
18.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
19.根据权利要求18所述的方法,其特征在于,所述根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述短信类别倾向性得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
20.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;
根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
21.一种短信垃圾新词识别装置,其特征在于,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
指标确定单元,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
得分确定单元,用于根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
新词确定单元,用于根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
22.根据权利要求21所述的装置,其特征在于,所述候选词集确定单元包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
23.根据权利要求21所述的装置,其特征在于,
所述得分确定单元,具体用于将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
24.根据权利要求21所述的装置,其特征在于,所述新词确定单元包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
成词概率确定子单元,用于确定所述候选的垃圾短信新词的成词概率;
第一新词确定子单元,用于根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
25.根据权利要求21所述的装置,其特征在于,所述新词确定单元包括:
候选词选取子单元,用于获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
第一相似度确定子单元,用于确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
第二相似度确定子单元,用于根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
第二新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
26.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
27.一种短信垃圾新词识别装置,其特征在于,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
得分确定单元,用于根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
新词确定单元,用于根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
28.根据权利要求27所述的装置,其特征在于,所述新词确定单元包括:
候选词选取子单元,用于获取所述短信类别倾向性得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
相似度确定子单元,用于确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
新词确定子单元,用于根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
29.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
30.一种短信垃圾新词识别装置,其特征在于,包括:
短信集获取单元,用于获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
候选词集确定单元,用于确定所述多个垃圾短信对应的候选词集合;
第一语义相似度确定单元,用于确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;
第二语义相似度确定单元,用于根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;
新词确定单元,用于根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
31.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现短信垃圾新词识别方法的程序,该设备通电并通过所述处理器运行该短信垃圾新词识别方法的程序后,执行下述步骤:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;确定至少一个预设垃圾短信词汇分别与所述候选词之间的语义相似度;根据所述语义相似度,确定所述候选新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选词集合中确定垃圾短信新词。
CN201811076259.9A 2018-09-14 2018-09-14 短信垃圾新词识别方法、装置及电子设备 Active CN110909540B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811076259.9A CN110909540B (zh) 2018-09-14 2018-09-14 短信垃圾新词识别方法、装置及电子设备
PCT/CN2019/105123 WO2020052547A1 (zh) 2018-09-14 2019-09-10 短信垃圾新词识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811076259.9A CN110909540B (zh) 2018-09-14 2018-09-14 短信垃圾新词识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110909540A true CN110909540A (zh) 2020-03-24
CN110909540B CN110909540B (zh) 2022-05-24

Family

ID=69777335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811076259.9A Active CN110909540B (zh) 2018-09-14 2018-09-14 短信垃圾新词识别方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN110909540B (zh)
WO (1) WO2020052547A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434512A (zh) * 2020-09-17 2021-03-02 上海二三四五网络科技有限公司 一种结合上下文语境的新词确定方法及装置
CN115858771A (zh) * 2022-01-11 2023-03-28 北京中关村科金技术有限公司 词语的查找方法、装置和计算机可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000794B (zh) * 2020-07-30 2023-08-22 北京百度网讯科技有限公司 文本语料筛选方法、装置、电子设备及存储介质
CN112926319B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 一种领域词汇的确定方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN106878347A (zh) * 2017-04-28 2017-06-20 北京奇虎科技有限公司 信息处理方法、系统、移动终端和服务器
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN106878347A (zh) * 2017-04-28 2017-06-20 北京奇虎科技有限公司 信息处理方法、系统、移动终端和服务器
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434512A (zh) * 2020-09-17 2021-03-02 上海二三四五网络科技有限公司 一种结合上下文语境的新词确定方法及装置
CN115858771A (zh) * 2022-01-11 2023-03-28 北京中关村科金技术有限公司 词语的查找方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
WO2020052547A1 (zh) 2020-03-19
CN110909540B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
US11734329B2 (en) System and method for text categorization and sentiment analysis
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
US8457950B1 (en) System and method for coreference resolution
US8635197B2 (en) Systems and methods for efficient development of a rule-based system using crowd-sourcing
CN111199474B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN110298024B (zh) 涉密文档的检测方法、装置及存储介质
CN110913354A (zh) 短信分类方法、装置及电子设备
WO2020172649A1 (en) System and method for text categorization and sentiment analysis
Kadam et al. Word embedding based multinomial naive bayes algorithm for spam filtering
CN112084448A (zh) 相似信息处理方法以及装置
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN109271614A (zh) 一种数据查重方法
US11308130B1 (en) Constructing ground truth when classifying data
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
US11928107B2 (en) Similarity-based value-to-column classification
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
CN113191777A (zh) 风险识别方法和装置
CN110909526A (zh) 垃圾短信规则库构建方法、装置及电子设备
CN112445955A (zh) 商机信息管理方法、系统及存储介质
Naren et al. News analytics and dual sentiment analysis for stock market prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant