CN106095747A - 一种垃圾短信的识别方法和系统 - Google Patents

一种垃圾短信的识别方法和系统 Download PDF

Info

Publication number
CN106095747A
CN106095747A CN201610391361.2A CN201610391361A CN106095747A CN 106095747 A CN106095747 A CN 106095747A CN 201610391361 A CN201610391361 A CN 201610391361A CN 106095747 A CN106095747 A CN 106095747A
Authority
CN
China
Prior art keywords
note
refuse messages
word
junk
stop words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610391361.2A
Other languages
English (en)
Inventor
金学波
王英波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201610391361.2A priority Critical patent/CN106095747A/zh
Publication of CN106095747A publication Critical patent/CN106095747A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及自然语言挖掘领域,特别涉及一种垃圾短信的识别方法和系统。方法包括以下步骤:获取用于识别垃圾短信的目标特征词,并建立目标特征词库;设定用于识别垃圾短信的短信长度阈值;统计待识别短信的字符长度;并对待识别短信进行去停用词处理和分词处理,生成分词结果;查询目标特征词库,若分词结果能够与目标特征词库中的任一目标特征词匹配且待识别短信的字符长度大于短信长度阈值,则判定待识别短信为垃圾短信;否则,判定待识别短信为非垃圾短信。本发明提供的垃圾短信识别方法,基于垃圾短信的长度和特征词的特点,不仅能解决日常生活中大部分的短信分类问题,而且识别过程简单、识别速度快、识别准确率高。

Description

一种垃圾短信的识别方法和系统
技术领域
本发明涉及自然语言挖掘领域,特别涉及一种垃圾短信的识别方法和系统。
背景技术
数据挖掘(Data Mining,DM)及预测(Predictive Analytics)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集。预测的目的在于认识事物发展规律,以及在不同条件下各种规律的相互作用,揭示事物的发展方向和趋势,使人们尽早地预知未来的状况和将要发生的事情,并能动地控制其发展,使其为人类和社会的进步服务。
基于文本内容的垃圾短信过滤方法是数据挖掘的重要应用,主要是通过分析短信的文字内容,判断是否为对用户而言无用的垃圾信息。目前有很多关于垃圾短信的识别方法,但是会引入较多算法,比较复杂且不容易理解,也使得执行时间变长。
发明内容
本发明所要解决的技术问题是提供一种垃圾短信的识别方法及系统,解决了现有技术的垃圾短信识别方法算法较多、判断过程复杂且判断时间长的技术问题。
本发明解决上述技术问题的技术方案如下:一种垃圾短信的识别方法,包括以下步骤:
步骤1,获取用于识别垃圾短信的目标特征词,并建立目标特征词库;
步骤2,设定用于识别垃圾短信的短信长度阈值;
步骤3,统计所述待识别短信的字符长度;并对待识别短信进行去停用词处理和分词处理,生成分词结果;
步骤4,查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则进入步骤5;否则,进入步骤6;
步骤5,判定所述待识别短信为垃圾短信,并作为垃圾短信向用户输出;
步骤6,判定所述待识别短信为非垃圾短信,并作为非垃圾短信向用户输出。
本发明的有益效果是:本发明提供的垃圾短信识别方法,基于垃圾短信的长度和特征词的特点,不仅能解决日常生活中大部分的短信分类问题,而且识别过程简单、识别速度快、识别准确率高。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1之前还包括标签设定步骤和训练集建立步骤,所述标签设定步骤为:为垃圾短信设定第一标签且为非垃圾短信设定第二标签;所述训练集建立步骤为:选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集。
采用上述进一步方案的有益效果是:本进一步金属方案中,第一训练集的垃圾短信和第二训练集中的非垃圾短信标签分别为1和0,可以根据现有数据进行预先设定,从而便于后续的特征词库建立过程和识别过程。
进一步,所述步骤1具体为:
对所述第一训练集中的所有垃圾短信分别进行去停用词处理,生成每个垃圾短信对应的第一去停用词处理结果;且对所述第二训练集中的所有非垃圾短信分别进行去停用词处理,生成每个非垃圾短信对应的第二去停用词处理结果;
对所有第一去停用词处理结果进行分词处理,生成每个垃圾短信对应的多个第一特征词;对所有第二去停用词处理结果进行分词处理,生成每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
当所述第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库。
采用上述进一步方案的有益效果是:本进一步技术方案中,采用首先采用去停用词方法对短信进行处理,可以去除一些虚词、语气词等没有实际意义的词,将短信形成同一格式,便于后续的统一处理。采用Python中自带jieba包进行分词处理,在精确模式的基础上,对去停用词处理结果中的长词再次切分,提高召回率,非常适合用于垃圾短信识别方法。
所述建立特征词库模块根据垃圾短信中出现频率高的词汇,对于大部分垃圾短信,都有特定的一些短信关键词,如发票类短信,通常会出现“发票”的形似音同的相关词汇。通过分析大量垃圾短信,将权重较高的垃圾短信关键词构建成库。
本进一步技术方案中,选择在垃圾短信中出现频率极高,在非垃圾短信中出现频率较低的词作为用于识别垃圾短信的特征词,比如发票类短信,通常会出现“发票”的形似音同的相关词汇,通过分析大量垃圾短信,将出现频率较高的垃圾短信特征词构建成库。同时本进一步金属方案可以根据识别方法准确度的要求设定第一次数阈值和第二次数阈值,控制方法灵活,识别效果好,能够满足用户的需求。
进一步,所述目标特征词库中目标特征词个数为40个,按照在所有垃圾短信中出现的总次数从大到小进行筛选。
采用上述进一步方案的有益效果是:本进一步技术方案中,在选取特征词数量时,基于数量的偏差会对结果造成很大影响而选取过多的特征词虽然能提高查全率,但是查准率会降低,相反,如果特征词选取过少,即使能得到较高的查准率,但是查全率却会随之下降,因此需要选择合适的目标特征词个数40,既可以保证识别效果,也又可以保证查全率和查准率。
进一步,步骤2具体为:统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围,并根据统计结果设定用于识别垃圾短信的短信长度阈值。
采用上述进一步方案的有益效果是:本进一步技术方案中,可以采用绘图的方式统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围,方式简单且可以直观获取到统计结果。
进一步,所述短信长度阈值小于所有垃圾短信的最小字符长度,且大于所有非垃圾短信的最大字符长度。
采用上述进一步方案的有益效果是:本进一步技术方案通过统计短信长度可以获知大部分非垃圾短信的字符数在10-25个之间,而垃圾短信字符数在45-60之间,因此可以选择字符长度25~46之间的数值作为短信长度阈值,比如35,短信字符长度大于35的即为可疑垃圾短信,不仅判断结果准确,而且判断过程简单、判断速度快。
进一步,去停用词处理过程为:去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词,并在去除位置对短信进行分段,生成同一格式的去停用词处理结果;分词处理过程为:采用分词模型对所述去停用词处理结果进行分词。
采用上述进一步方案的有益效果是:本进一步技术方案中,没有实际意义的词包括虚词、语气词等等。
为解决本发明的技术问题,本发明还提供了一种垃圾短信的识别系统,包括:
目标特征词库建立模块,用于获取识别垃圾短信的目标特征词,并建立目标特征词库;
短信长度阈值设定模块,用于设定识别垃圾短信的短信长度阈值;
字符统计模块,用于统计待识别短信的字符长度;
字符处理模块,用于对待识别短信进行去停用词处理和分词处理,生成分词结果;
判断模块,用于查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则判断所述待识别短信为垃圾短信;否则,判断所述待识别短信为非垃圾短信;
短信输出模块,用于根据判断模块的判断结果,将所述待识别短信作为垃圾短信或者非垃圾短信向用户输出。
进一步,还包括:
标签设定模块,用于为垃圾短信设定第一标签且为非垃圾短信设定第二标签;
训练集建立模块,用于选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集。
进一步,所述目标特征词库建立模块包括:
第一去停用词处理单元,用于对所述第一训练集中的所有垃圾短信和第二训练集中的所有非垃圾短信分别进行去停用词处理,去除短信中没有实际意义的词,并在去除位置对短信进行分段,生成每个垃圾短信对应的第一去停用词处理结果和每个非垃圾短信对应的第二去停用词处理结果;
第一分词单元,用于采用分词模型对所述第一去停用词处理结果和第二去停用词处理结果进行分词,生成每个垃圾短信对应的多个第一特征词和每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
词库建立单元,用于当第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库;
所述短信长度阈值设定模块包括:
统计单元,用于统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围;
设定单元,用于根据所述统计单元的统计结果设定用于识别垃圾短信的短信长度阈值;
所述字符处理模块包括:
第二去停用词处理单元,用于对所述待识别短信进行去停用词处理,去除待识别短信中没有实际意义的词,并在去除位置对待识别短信进行分段,生成第三去停用词处理结果;
第二分词单元,用于采用分词模型对所述第三去停用词处理结果进行分词,生成分词结果。
附图说明
图1为本发明一种垃圾短信的识别方法的流程示意图;
图2为本发明一种垃圾短信的识别系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例1一种垃圾短信的识别方法,包括以下步骤:
步骤1,获取用于识别垃圾短信的目标特征词,并建立目标特征词库;
步骤2,设定用于识别垃圾短信的短信长度阈值;
步骤3,统计所述待识别短信的字符长度;并对待识别短信进行去停用词处理和分词处理,生成分词结果;
步骤4,查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则进入步骤5;否则,进入步骤6;
步骤5,判定所述待识别短信为垃圾短信,并作为垃圾短信向用户输出;
步骤6,判定所述待识别短信为非垃圾短信,并作为非垃圾短信向用户输出。
本实施例中,所述步骤1之前还包括标签设定步骤和训练集建立步骤,所述标签设定步骤为:为垃圾短信设定第一标签且为非垃圾短信设定第二标签;所述训练集建立步骤为:选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集。
本实施例中,所述步骤1具体为:对所述第一训练集中的所有垃圾短信分别进行去停用词处理,生成每个垃圾短信对应的第一去停用词处理结果;且对所述第二训练集中的所有非垃圾短信分别进行去停用词处理,生成每个非垃圾短信对应的第二去停用词处理结果;
对所有第一去停用词处理结果进行分词处理,生成每个垃圾短信对应的多个第一特征词;对所有第二去停用词处理结果进行分词处理,生成每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
当所述第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库。本实施例中所述目标特征词库中目标特征词个数为40个,按照在所有垃圾短信中出现的总次数从大到小进行筛选。
本实施例中,步骤2具体为:统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围,并根据统计结果设定用于识别垃圾短信的短信长度阈值。所述短信长度阈值小于所有垃圾短信的最小字符长度,且大于所有非垃圾短信的最大字符长度。本实施例中,所示短信长度阈值为35。
本实施例中,所述去停用词处理过程为:去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词,并在去除位置对短信进行分段,生成同一格式的去停用词处理结果,可以节省存储空间和提高搜索效率。分词处理过程为:采用分词模型对所述去停用词处理结果进行分词,可以达到电脑自动识别语句含义的效果。
如图2所示,为实施例2一种垃圾短信的识别系统,包括:
标签设定模块,用于为垃圾短信设定第一标签且为非垃圾短信设定第二标签;
训练集建立模块,用于选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集;
目标特征词库建立模块,用于获取识别垃圾短信的目标特征词,并建立目标特征词库;
短信长度阈值设定模块,用于设定识别垃圾短信的短信长度阈值;
字符统计模块,用于统计待识别短信的字符长度;
字符处理模块,用于对待识别短信进行去停用词处理和分词处理,生成分词结果;
判断模块,用于查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则判断所述待识别短信为垃圾短信;否则,判断所述待识别短信为非垃圾短信;
短信输出模块,用于根据判断模块的判断结果,将所述待识别短信作为垃圾短信或者非垃圾短信向用户输出。
本实施例中,所述目标特征词库建立模块包括:第一去停用词处理单元,用于对所述第一训练集中的所有垃圾短信和第二训练集中的所有非垃圾短信分别进行去停用词处理,去除短信中没有实际意义的词,并在去除位置对短信进行分段,生成每个垃圾短信对应的第一去停用词处理结果和每个非垃圾短信对应的第二去停用词处理结果;
第一分词单元,用于采用分词模型对所述第一去停用词处理结果和第二去停用词处理结果进行分词,生成每个垃圾短信对应的多个第一特征词和每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
词库建立单元,用于当第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库;
所述短信长度阈值设定模块包括:统计单元,用于统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围;
设定单元,用于根据所述统计单元的统计结果设定用于识别垃圾短信的短信长度阈值;
所述字符处理模块包括:第二去停用词处理单元,用于对所述待识别短信进行去停用词处理,去除待识别短信中没有实际意义的词,并在去除位置对待识别短信进行分段,生成第三去停用词处理结果;
第二分词单元,用于采用分词模型对所述第三去停用词处理结果进行分词,生成分词结果。
本发明提供的垃圾短信识别方法和系统,基于垃圾短信的长度和特征词的特点进行垃圾短信识别,不仅能解决日常生活中大部分的短信分类问题,而且识别过程简单、识别速度快、识别准确率高。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种垃圾短信的识别方法,其特征在于,包括以下步骤:
步骤1,获取用于识别垃圾短信的目标特征词,并建立目标特征词库;
步骤2,设定用于识别垃圾短信的短信长度阈值;
步骤3,统计待识别短信的字符长度;并对待识别短信进行去停用词处理和分词处理,生成分词结果;
步骤4,查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则进入步骤5;否则,进入步骤6;
步骤5,判定所述待识别短信为垃圾短信,并作为垃圾短信向用户输出;
步骤6,判定所述待识别短信为非垃圾短信,并作为非垃圾短信向用户输出。
2.根据权利要求1所述的一种垃圾短信的识别方法,其特征在于,所述步骤1之前还包括标签设定步骤和训练集建立步骤,所述标签设定步骤为:为垃圾短信设定第一标签且为非垃圾短信设定第二标签;所述训练集建立步骤为:选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集。
3.根据权利要求2所述的一种垃圾短信的识别方法,其特征在于,所述步骤1具体为:
对所述第一训练集中的所有垃圾短信分别进行去停用词处理,生成每个垃圾短信对应的第一去停用词处理结果;且对所述第二训练集中的所有非垃圾短信分别进行去停用词处理,生成每个非垃圾短信对应的第二去停用词处理结果;
对所有第一去停用词处理结果进行分词处理,生成每个垃圾短信对应的多个第一特征词;对所有第二去停用词处理结果进行分词处理,生成每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
当所述第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库。
4.根据权利要求3所述的一种垃圾短信的识别方法,其特征在于,所述目标特征词库中目标特征词个数为40个,按照在所有垃圾短信中出现的总次数从大到小进行筛选。
5.根据权利要求2所述的一种垃圾短信的识别方法,其特征在于,步骤2具体为:统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围,并根据统计结果设定用于识别垃圾短信的短信长度阈值。
6.根据权利要求5所述的一种垃圾短信的识别方法,其特征在于,所述短信长度阈值小于所有垃圾短信的最小字符长度,且大于所有非垃圾短信的最大字符长度。
7.根据权利要求1~6任一所述的一种垃圾短信的识别方法,其特征在于,去停用词处理过程为:去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词,并在去除位置对短信进行分段,生成同一格式的去停用词处理结果;分词处理过程为:采用分词模型对所述去停用词处理结果进行分词。
8.一种垃圾短信的识别系统,其特征在于,包括:
目标特征词库建立模块,用于获取识别垃圾短信的目标特征词,并建立目标特征词库;
短信长度阈值设定模块,用于设定识别垃圾短信的短信长度阈值;
字符统计模块,用于统计待识别短信的字符长度;
字符处理模块,用于对待识别短信进行去停用词处理和分词处理,生成分词结果;
判断模块,用于查询所述目标特征词库,若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值,则判断所述待识别短信为垃圾短信;否则,判断所述待识别短信为非垃圾短信;
短信输出模块,用于根据判断模块的判断结果,将所述待识别短信作为垃圾短信或者非垃圾短信向用户输出。
9.根据权利要求8所述的一种垃圾短信的识别系统,其特征在于:还包括:
标签设定模块,用于为垃圾短信设定第一标签且为非垃圾短信设定第二标签;
训练集建立模块,用于选取带有第一标签的垃圾短信建立第一训练集,且选取带有第二标签的非垃圾短信建立第二训练集。
10.根据权利要求9所述的一种垃圾短信的识别系统,其特征在于:
所述目标特征词库建立模块包括:
第一去停用词处理单元,用于对所述第一训练集中的所有垃圾短信和第二训练集中的所有非垃圾短信分别进行去停用词处理,去除短信中没有实际意义的词,并在去除位置对短信进行分段,生成每个垃圾短信对应的第一去停用词处理结果和每个非垃圾短信对应的第二去停用词处理结果;
第一分词单元,用于采用分词模型对所述第一去停用词处理结果和第二去停用词处理结果进行分词,生成每个垃圾短信对应的多个第一特征词和每个非垃圾短信对应的多个第二特征词,形成第二特征词词库;
词库建立单元,用于当第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时,选择所述第一特征词为用于识别垃圾短信的目标特征词,并建立目标特征词库;
所述短信长度阈值设定模块包括:
统计单元,用于统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围;
设定单元,用于根据所述统计单元的统计结果设定用于识别垃圾短信的短信长度阈值;
所述字符处理模块包括:
第二去停用词处理单元,用于对所述待识别短信进行去停用词处理,去除待识别短信中没有实际意义的词,并在去除位置对待识别短信进行分段,生成第三去停用词处理结果;
第二分词单元,用于采用分词模型对所述第三去停用词处理结果进行分词,生成分词结果。
CN201610391361.2A 2016-06-03 2016-06-03 一种垃圾短信的识别方法和系统 Pending CN106095747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610391361.2A CN106095747A (zh) 2016-06-03 2016-06-03 一种垃圾短信的识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610391361.2A CN106095747A (zh) 2016-06-03 2016-06-03 一种垃圾短信的识别方法和系统

Publications (1)

Publication Number Publication Date
CN106095747A true CN106095747A (zh) 2016-11-09

Family

ID=57448164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610391361.2A Pending CN106095747A (zh) 2016-06-03 2016-06-03 一种垃圾短信的识别方法和系统

Country Status (1)

Country Link
CN (1) CN106095747A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803096A (zh) * 2016-12-27 2017-06-06 上海大汉三通通信股份有限公司 一种短信类型识别方法、系统及短信管理平台
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN108153728A (zh) * 2017-12-22 2018-06-12 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
CN109426666A (zh) * 2017-09-05 2019-03-05 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
WO2019169691A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 广告短信识别方法、电子装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150756A (zh) * 2007-11-08 2008-03-26 电子科技大学 一种垃圾短信过滤方法
CN101447984A (zh) * 2008-11-28 2009-06-03 电子科技大学 一种自反馈垃圾信息过滤方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN101888445A (zh) * 2010-04-30 2010-11-17 南京邮电大学 一种引进查询软件的综合性短信过滤方法
CN102456022A (zh) * 2010-10-25 2012-05-16 腾讯科技(深圳)有限公司 短信管理方法和系统
CN102624647A (zh) * 2012-01-12 2012-08-01 百度在线网络技术(北京)有限公司 一种对移动终端的消息进行处理的方法及其装置
CN102724355A (zh) * 2012-05-04 2012-10-10 北京百纳威尔科技有限公司 垃圾信息处理方法和手机终端
WO2012137215A1 (en) * 2011-04-08 2012-10-11 Yogesh Chunilal Rathod A system and method for communication
CN102833713A (zh) * 2012-08-31 2012-12-19 中国联合网络通信集团有限公司 识别垃圾短信的方法及装置
CN103369482A (zh) * 2012-04-01 2013-10-23 东南大学常州研究院 一种移动终端短消息监管的设备和方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN103634797A (zh) * 2013-12-06 2014-03-12 中国联合网络通信集团有限公司 一种垃圾短信识别方法及装置
CN103778225A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 广告营销类语言信息的处理方法、识别装置及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150756A (zh) * 2007-11-08 2008-03-26 电子科技大学 一种垃圾短信过滤方法
CN101447984A (zh) * 2008-11-28 2009-06-03 电子科技大学 一种自反馈垃圾信息过滤方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN101888445A (zh) * 2010-04-30 2010-11-17 南京邮电大学 一种引进查询软件的综合性短信过滤方法
CN102456022A (zh) * 2010-10-25 2012-05-16 腾讯科技(深圳)有限公司 短信管理方法和系统
WO2012137215A1 (en) * 2011-04-08 2012-10-11 Yogesh Chunilal Rathod A system and method for communication
CN102624647A (zh) * 2012-01-12 2012-08-01 百度在线网络技术(北京)有限公司 一种对移动终端的消息进行处理的方法及其装置
CN103369482A (zh) * 2012-04-01 2013-10-23 东南大学常州研究院 一种移动终端短消息监管的设备和方法
CN102724355A (zh) * 2012-05-04 2012-10-10 北京百纳威尔科技有限公司 垃圾信息处理方法和手机终端
CN102833713A (zh) * 2012-08-31 2012-12-19 中国联合网络通信集团有限公司 识别垃圾短信的方法及装置
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN103634797A (zh) * 2013-12-06 2014-03-12 中国联合网络通信集团有限公司 一种垃圾短信识别方法及装置
CN103778225A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 广告营销类语言信息的处理方法、识别装置及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN106803096A (zh) * 2016-12-27 2017-06-06 上海大汉三通通信股份有限公司 一种短信类型识别方法、系统及短信管理平台
CN109426666A (zh) * 2017-09-05 2019-03-05 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN109426666B (zh) * 2017-09-05 2024-02-09 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN108153728A (zh) * 2017-12-22 2018-06-12 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
CN108153728B (zh) * 2017-12-22 2021-05-25 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
WO2019169691A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 广告短信识别方法、电子装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106095747A (zh) 一种垃圾短信的识别方法和系统
CN101166159B (zh) 一种确定垃圾信息的方法及系统
CN102096703B (zh) 短消息的过滤方法和设备
CN108287858A (zh) 自然语言的语义提取方法及装置
CN108416375B (zh) 工单分类方法及装置
CN101295381B (zh) 一种垃圾邮件检测方法
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN101184259A (zh) 垃圾短信中的关键词自动学习及更新方法
CN110008343A (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN103473036B (zh) 一种输入法皮肤推送方法及系统
JP2009099124A (ja) データ構築方法とシステム
CN101197793B (zh) 一种垃圾信息检测方法和装置
CN111314353A (zh) 一种基于混合采样的网络入侵检测方法及系统
CN105224604B (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN107145516A (zh) 一种文本聚类方法及系统
CN110442733A (zh) 一种主题生成方法、装置和设备及介质
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN102436480A (zh) 一种面向文本的知识单元关联关系挖掘方法
CN113449753B (zh) 业务风险预测方法、装置和系统
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
Kadam et al. Word embedding based multinomial naive bayes algorithm for spam filtering
CN109509110B (zh) 基于改进bbtm模型的微博热点话题发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109

RJ01 Rejection of invention patent application after publication