CN101719924A - 基于群件理解的不良彩信过滤方法 - Google Patents

基于群件理解的不良彩信过滤方法 Download PDF

Info

Publication number
CN101719924A
CN101719924A CN 200910311664 CN200910311664A CN101719924A CN 101719924 A CN101719924 A CN 101719924A CN 200910311664 CN200910311664 CN 200910311664 CN 200910311664 A CN200910311664 A CN 200910311664A CN 101719924 A CN101719924 A CN 101719924A
Authority
CN
China
Prior art keywords
probability
assembly
file
single medium
terrified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910311664
Other languages
English (en)
Other versions
CN101719924B (zh
Inventor
刘功申
李建华
朱剑
李翔
王士林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 200910311664 priority Critical patent/CN101719924B/zh
Publication of CN101719924A publication Critical patent/CN101719924A/zh
Application granted granted Critical
Publication of CN101719924B publication Critical patent/CN101719924B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息技术领域的基于群件理解的不良彩信过滤方法,包括如下步骤:将每个处理组件分为四组样本,对每个处理组件分别训练形成四个分类器,得到处理组件的离线训练用样本库和决策树训练样本集,进而生成决策树;把彩信拆分成若干个单一媒体文件;进行基于内容理解的过滤处理,得到每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率;将得到的概率组织成一个输入向量,输入到训练所得的决策树,得到彩信的过滤结果。本发明通过把彩信拆分成不同单一媒体文件,有效解决了彩信无法进行内容过滤的困难,提高了不良彩信过滤的实时性和客观性,过滤的效率和准确性明显提高。

Description

基于群件理解的不良彩信过滤方法
技术领域
本发明涉及的是一种信息处理技术领域的方法,具体是一种基于群件理解的不良彩信过滤方法。
背景技术
随着现代移动通信技术快速发展,移动多媒体信息业务日渐广泛的深入人们的日常生活中。而伴随着移动通信网络与互联网络的不断融合,原先在互联网上的不良(反动、色情、恐怖、垃圾等)信息泛滥的问题也已经出现在移动通信领域。面对海量多媒体信息,如何主动,实时地识别并过滤其中的特定信息成了该领域的热点。在不良信息过滤方面,目前广泛采用的技术集中在黑名单、白名单、是否群发、发送频率统计、抽样检查、关键词过滤、人工辅助过滤等方面。尽管这些技术的应用有效果,但仍然需要基于内容理解技术去过滤短信和彩信。
经对现有技术文献的检索发现,中国专利公开号:CN101137085A,名称:垃圾短信彩信封堵方法,申请人:中国移动通信集团江苏有限公司,该技术提出了一种垃圾短信彩信封堵方法,包括以下步骤:首先,垃圾彩信服务器监控出单位时间发送量超标的号码及内容;其次,BOSS获得超标号码文件及内容;再次,将号码与白名单对照,判断该号码是否在白名单内,若是,则流程结束;若否,则进行人工判定,即将该号码和内容呈现到客服操作员界面,由人工判别内容是否是垃圾短信彩信,若否,则流程结束;若是,则进入下一步;最后,对该号码向HLR发送停短信彩信功能指令,同时加入客服知识库,以供被停号码发起投诉时客服人员解释。由此可知,该技术主要是一个针对发送频率及黑白名单等外部特征的管理流程,对于彩信内容则完全依赖人工离线的理解和判断。尽管人的智慧很高,但在面对海量的彩信需要在线判断时,该方法即不能达到实时性要求,也不具有客观性,效率非常差。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供一种基于群件理解的不良彩信过滤方法。本发明首先将彩信拆分成单媒体,并通过合适组件进行理解,最后再根据各个组件的独立结果综合成彩信的单一过滤结果,进一步提高了彩信过滤的实时性和客观性,真正实现了不良彩信的在线过滤和控制。
本发明是通过以下技术方案实现的,包括以下步骤:
第一步,将每个处理组件分为四组样本,对每个处理组件分别训练形成四个分类器,得到处理组件的离线训练用样本库,并运用决策树训练样本的组织方式得到决策树训练样本集,进而生成决策树。
所述的处理组件是第一组件、第二组件、第三组件和第四组件中的一种,其中:文本文件选用第一组件过滤处理,图像文件和图形文件选用第二组件过滤处理,音频文件选用第三组件过滤处理,视频文件和动画文件选用第四组件过滤处理。
所述的第一组件是基于自然语言理解方法的文本文件过滤处理组件。
所述的第二组件是基于SVM(Support Vector Machine,支持向量机)分类方法的图形图像过滤处理组件。
所述的第三组件是基于SVM分类方法的音频过滤处理组件。
所述的第四组件是基于关键帧判别方法的过滤处理组件。
所述的四组样本是:反动-正常样本、色情-正常样本、恐怖-正常样本和垃圾-正常样本。
所述的四个分类器是:反动-正常分类器、色情-正常分类器、恐怖-正常分类器和垃圾正常分类器。
所述的离线训练用样本库包括:反动样本库、色情样本库、恐怖样本库、垃圾样本库和正常样本库。
所述的决策树训练样本的格式是:彩信的序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果。
所述的人工判断结果是反动、色情、恐怖、垃圾和正常中的一种。
第二步,根据MIME(Multipurpose Internet Mail Extensions,RFC2045,多用途互联网邮件扩展)规范把彩信拆分成若干个单一媒体文件。
所述的单一媒体是文本、图形、图像、动画、音频和视频中的一种。
第三步,将得到的每个单一媒体文件用处理组件的四个分类器进行基于内容理解的过滤处理,得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率,分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率。
所述的基于内容的过滤处理是:
1)利用处理组件的反动-正常分类器得到单一媒体文件是反动文件的概率,当反动文件的概率大于设置阈值时,将该单一媒体文件是色情文件、恐怖文件和垃圾文件的概率都设为0;当反动文件的概率小于设置阈值时,执行2);
2)利用处理组件的色情-正常分类器得到单一媒体文件是色情文件的概率,当色情文件的概率大于设置阈值时,将该单一媒体文件是恐怖文件和垃圾文件的概率都设为0;当色情文件的概率小于设置阈值时,执行3);
3)利用处理组件的恐怖-正常分类器得到单一媒体文件是恐怖文件的概率,当恐怖文件的概率大于设置阈值时,将该单一媒体文件是垃圾文件的概率设为0;当恐怖文件的概率小于设置阈值时,执行4);
4)利用处理组件的垃圾-正常分类器得到单一媒体文件是垃圾文件的概率。
第四步,将得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量,输入到训练所得的决策树,通过决策树方法得到该彩信的过滤结果。
所述的输入向量形式为:第一组件的反动概率,第二组件的反动概率,第三组件的反动概率,第四组件的反动概率,第一组件的色情概率,第二组件的色情概率,第三组件的色情概率,第四组件的色情概率,第一组件的恐怖概率,第二组件的恐怖概率,第三组件的恐怖概率,第四组件的恐怖概率,第一组件的垃圾概率,第二组件的垃圾概率,第三组件的垃圾概率,第四组件的垃圾概率。
与现有技术相比,本发明具有如下有益效果:除了离线的训练需要人工构造训练样本库外,其余判断过程都是自动化处理的,不需要任何人工干预,通过把彩信拆分成不同单一媒体文件,有效解决了彩信无法进行内容过滤的困难,提高了不良彩信过滤的实时性和客观性,过滤的效率和准确性明显提高。
附图说明
图1是本实施例的流程示意图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例包括以下步骤:
第一步,将每个处理组件分为反动-正常样本、色情-正常样本、恐怖-正常样本和垃圾正常样本这四组样本,对每个处理组件分别训练形成反动-正常分类器、色情-正常分类器、恐怖-正常分类器和垃圾-正常分类器这四个分类器,得到处理组件的反动样本库、色情样本库、恐怖样本库、垃圾样本库和正常样本库,并运用决策树训练样本的组织方式得到决策树训练样本集,进而生成决策树。
所述的处理组件是第一组件、第二组件、第三组件和第四组件中的一种,其中:文本文件选用第一组件过滤处理,图像文件和图形文件选用第二组件过滤处理,音频文件选用第三组件过滤处理,视频文件和动画文件选用第四组件过滤处理。
所述的第一组件是基于自然语言理解方法的文本文件过滤处理组件。本实施例在对文本进行分类时,经过了如下步骤:经过自动分词方法,把文本拆分成独立的词;采用TFIDF方法计算词的权重;经过停用词过滤步骤后,把文本文件表示成向量;采用贝叶斯方法,对文本向量进行学习或分类。
所述的第二组件是基于SVM分类方法的图形图像过滤处理组件。在本实施例中,分类的特征采用皮肤区域分隔、或特征区域识别、或面部识别方法获取;把图形或图像特征表示成向量;采用SVM学习方法,对该向量进行处理实现学习或分类。
所述的第三组件是基于SVM分类方法的音频过滤处理组件。在本实施例中,音频特征采用频域特征、或频率倒谱系数、或小波域特征表示;把音频文件表示成由上述特征组成的向量;采用SVM学习方法,对该向量进行处理,实现学习或分类。
所述的第四组件是基于关键帧判别方法的过滤处理组件。在本实施例中,首先把视频或动画拆分成关键帧;针对每个关键帧采用第二组件所述的图像分类方法进行分类;对分类结果进行统计,以各类结果中数量最多者为该视频或动画的最终类别。
所述的决策树训练样本的格式是:样本序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果。
所述的人工判断结果是反动、色情、恐怖、垃圾和正常中的一种。
本实施例得到的决策树训练样本集的示例,如表1所示。
表1
Figure G200910311664920091217D000051
第二步,根据MIME规范把彩信拆分成若干个单一媒体文件。
所述的单一媒体是文本、图形、图像、动画、音频和视频中的一种。
第三步,将得到的每个单一媒体文件用处理组件进行基于内容理解的过滤处理,得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率,分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率。
所述的基于内容的过滤处理是:
1)利用处理组件的反动-正常分类器得到单一媒体文件是反动文件的概率,当反动文件的概率大于设置阈值时,将该单一媒体文件是色情文件、恐怖文件和垃圾文件的概率都设为0;当反动文件的概率小于设置阈值时,执行2);
2)利用处理组件的色情-正常分类器得到单一媒体文件是色情文件的概率,当色情文件的概率大于设置阈值时,将该单一媒体文件是恐怖文件和垃圾文件的概率都设为0;当色情文件的概率小于设置阈值时,执行3);
3)利用处理组件的恐怖-正常分类器得到单一媒体文件是恐怖文件的概率,当恐怖文件的概率大于设置阈值时,将该单一媒体文件是垃圾文件的概率设为0;当恐怖文件的概率小于设置阈值时,执行4);
4)利用处理组件的垃圾-正常分类器得到单一媒体文件是垃圾文件的概率。
以文本文件为例,本实施例共得到三个文本文件,把每个文本文件依次输入第一组件的四个分类器得到每个文本文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率,分别选取第一组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为第一组件的反动概率、色情概率、恐怖概率和垃圾概率,具体见表2所示。
表2
  反动概率/%   色情概率/%   恐怖概率/%   垃圾概率/%
  第一文本文件   90   85   0   0
  第二文本文件   10   99   0   0
  第三文本文件   70   60   50   80
  第一组件   90   99   50   80
第四步,将上步得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量,输入到训练所得的决策树,通过决策树方法得到该彩信的过滤结果。
所述的输入向量形式为:第一组件的反动概率,第二组件的反动概率,第三组件的反动概率,第四组件的反动概率,第一组件的色情概率,第二组件的色情概率,第三组件的色情概率,第四组件的色情概率,第一组件的恐怖概率,第二组件的恐怖概率,第三组件的恐怖概率,第四组件的恐怖概率,第一组件的垃圾概率,第二组件的垃圾概率,第三组件的垃圾概率,第四组件的垃圾概率。
本实施例采用了C5.0决策树方法进行决策,该方法是一个成熟的现有技术,将第三步得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量输入到决策树中,决策树就会输出一个类别值,其中:反动、色情、恐怖和垃圾这四种类别为不良彩信,应该被过滤,而正常类别的彩信则被放行。
本实施例的优点:除了离线的训练需要人工构造训练样本库外,其余判断过程都是自动化处理的,不需要任何人工干预,通过把彩信拆分成不同单一媒体文件,有效解决了彩信无法进行内容过滤的困难,提高了不良彩信过滤的实时性和客观性,过滤的效率和准确性明显提高。

Claims (6)

1.一种基于群件理解的不良彩信过滤方法,其特征在于,包括以下步骤:
第一步,将每个处理组件分为四组样本,对每个处理组件分别训练形成四个分类器,得到处理组件的离线训练用样本库,并运用决策树训练样本的组织方式得到决策树训练样本集,进而生成决策树;
第二步,根据多用途互联网邮件扩展规范把彩信拆分成若干个单一媒体文件;
第三步,将得到的每个单一媒体文件用处理组件的四个分类器进行基于内容理解的过滤处理,得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率,分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率;
第四步,将得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量,输入到训练所得的决策树,通过决策树方法得到该彩信的过滤结果。
2.根据权利要求1所述的基于群件理解的不良彩信过滤方法,其特征是,第一步中所述的处理组件是第一组件、第二组件、第三组件和第四组件中的一种,其中:文本文件选用第一组件过滤处理,图像文件和图形文件选用第二组件过滤处理,音频文件选用第三组件过滤处理,视频文件和动画文件选用第四组件过滤处理。
3.根据权利要求1所述的基于群件理解的不良彩信过滤方法,其特征是,第一步中所述的四个分类器是:反动正常分类器、色情正常分类器、恐怖正常分类器和垃圾正常分类器;
所述的离线训练用样本库包括:反动样本库、色情样本库、恐怖样本库、垃圾样本库和正常样本库。
4.根据权利要求1所述的基于群件理解的不良彩信过滤方法,其特征是,第一步中所述的决策树训练样本的格式是:彩信的序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果;
所述的人工判断结果是反动、色情、恐怖、垃圾和正常中的一种。
5.根据权利要求1所述的基于群件理解的不良彩信过滤方法,其特征是,第三步中所述的基于内容的过滤处理是:
1)利用处理组件的反动正常分类器得到单一媒体文件是反动文件的概率,当反动文件的概率大于设置阈值时,将该单一媒体文件是色情文件、恐怖文件和垃圾文件的概率都设为0;当反动文件的概率小于设置阈值时,执行2);
2)利用处理组件的色情正常分类器得到单一媒体文件是色情文件的概率,当色情文件的概率大于设置阈值时,将该单一媒体文件是恐怖文件和垃圾文件的概率都设为0;当色情文件的概率小于设置阈值时,执行3);
3)利用处理组件的恐怖正常分类器得到单一媒体文件是恐怖文件的概率,当恐怖文件的概率大于设置阈值时,将该单一媒体文件是垃圾文件的概率设为0;当恐怖文件的概率小于设置阈值时,执行4);
4)利用处理组件的垃圾正常分类器得到单一媒体文件是垃圾文件的概率。
6.根据权利要求1所述的基于群件理解的不良彩信过滤方法,其特征是,第四步中所述的输入向量形式为:第一组件的反动概率,第二组件的反动概率,第三组件的反动概率,第四组件的反动概率,第一组件的色情概率,第二组件的色情概率,第三组件的色情概率,第四组件的色情概率,第一组件的恐怖概率,第二组件的恐怖概率,第三组件的恐怖概率,第四组件的恐怖概率,第一组件的垃圾概率,第二组件的垃圾概率,第三组件的垃圾概率,第四组件的垃圾概率。
CN 200910311664 2009-12-17 2009-12-17 基于群件理解的不良彩信过滤方法 Expired - Fee Related CN101719924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910311664 CN101719924B (zh) 2009-12-17 2009-12-17 基于群件理解的不良彩信过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910311664 CN101719924B (zh) 2009-12-17 2009-12-17 基于群件理解的不良彩信过滤方法

Publications (2)

Publication Number Publication Date
CN101719924A true CN101719924A (zh) 2010-06-02
CN101719924B CN101719924B (zh) 2013-04-03

Family

ID=42434439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910311664 Expired - Fee Related CN101719924B (zh) 2009-12-17 2009-12-17 基于群件理解的不良彩信过滤方法

Country Status (1)

Country Link
CN (1) CN101719924B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102340424A (zh) * 2010-07-21 2012-02-01 中国移动通信集团山东有限公司 不良报文的检测方法及不良报文的检测装置
CN102693007A (zh) * 2011-03-04 2012-09-26 微软公司 姿势检测和识别
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN108694202A (zh) * 2017-04-10 2018-10-23 上海交通大学 基于分类算法的可配置垃圾邮件过滤系统及过滤方法
CN108898167A (zh) * 2018-06-14 2018-11-27 北京奇虎科技有限公司 失信号码的显示方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106748A (zh) * 2006-07-11 2008-01-16 华为技术有限公司 一种移动网络的内容过滤系统、装置及方法
CN101052177A (zh) * 2006-11-15 2007-10-10 深圳凯虹移动通信有限公司 过滤主叫干扰的移动终端及其方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340424A (zh) * 2010-07-21 2012-02-01 中国移动通信集团山东有限公司 不良报文的检测方法及不良报文的检测装置
CN102340424B (zh) * 2010-07-21 2013-12-04 中国移动通信集团山东有限公司 不良报文的检测方法及不良报文的检测装置
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102693007A (zh) * 2011-03-04 2012-09-26 微软公司 姿势检测和识别
CN102693007B (zh) * 2011-03-04 2016-12-07 微软技术许可有限责任公司 姿势检测和识别
CN108694202A (zh) * 2017-04-10 2018-10-23 上海交通大学 基于分类算法的可配置垃圾邮件过滤系统及过滤方法
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN108898167A (zh) * 2018-06-14 2018-11-27 北京奇虎科技有限公司 失信号码的显示方法及装置

Also Published As

Publication number Publication date
CN101719924B (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN101719924B (zh) 基于群件理解的不良彩信过滤方法
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
US8135579B2 (en) Method of analyzing conversational transcripts
CN102404249B (zh) 一种基于协同训练的垃圾邮件过滤方法和装置
CN109165294A (zh) 一种基于贝叶斯分类的短文本分类方法
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN105812554A (zh) 一种智能管理手机短信的方法和系统
CN101937445A (zh) 一种文件自动分类系统
CN110515846A (zh) 一种关于用户体验测试的数据自动化处理分析系统、方法
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
Jin et al. Filtering spam in Weibo using ensemble imbalanced classification and knowledge expansion
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统
CN101877066A (zh) 一种反图像型垃圾邮件的方法及装置
Chen et al. The application of decision tree in Chinese email classification
CN106557983B (zh) 一种基于模糊多类svm的微博垃圾用户检测方法
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
Al Maruf et al. Ensemble approach to classify spam sms from bengali text
Luo et al. Design and implement a rule-based spam filtering system using neural network
CN107465519B (zh) 一种基于即时通讯应用的数据管理系统
CN107066450B (zh) 一种基于学习的即时通信会话切分方法
CN114139098A (zh) 一种基于大数据的舆情系统
CN201796362U (zh) 一种文件自动分类系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130403

Termination date: 20151217

EXPY Termination of patent right or utility model