CN106708961B - 垃圾文本库的建立方法、过滤方法及系统 - Google Patents

垃圾文本库的建立方法、过滤方法及系统 Download PDF

Info

Publication number
CN106708961B
CN106708961B CN201611085764.0A CN201611085764A CN106708961B CN 106708961 B CN106708961 B CN 106708961B CN 201611085764 A CN201611085764 A CN 201611085764A CN 106708961 B CN106708961 B CN 106708961B
Authority
CN
China
Prior art keywords
word
junk
text
long
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611085764.0A
Other languages
English (en)
Other versions
CN106708961A (zh
Inventor
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fenbi Lantian Technology Co ltd
Original Assignee
Beijing Fenbi Lantian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fenbi Lantian Technology Co ltd filed Critical Beijing Fenbi Lantian Technology Co ltd
Priority to CN201611085764.0A priority Critical patent/CN106708961B/zh
Publication of CN106708961A publication Critical patent/CN106708961A/zh
Application granted granted Critical
Publication of CN106708961B publication Critical patent/CN106708961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。

Description

垃圾文本库的建立方法、过滤方法及系统
技术领域
本发明涉及计算机文本库建立技术领域,特别涉及一种垃圾文本库的建立方法,对垃圾文本进行过滤的方法和建立垃圾文本库的系统。
背景技术
随着互联网行业的普及和电子商务应用的不断深入发展,大家在网络中的互动也越来越频繁,但是在信息量不断的增大同时,不需要的垃圾信息也随之增多,导致用户在获取信息时接受到不需要的垃圾信息,从而做出错误的判断或选择。
在现有技术中,一些在线游戏或者论坛已经提供了类似垃圾评论的检测功能,其通常的处理步骤是:1、对用户输入的文本进行分词;2、对分词结果进行关键词匹配;3、如果匹配到关键词就禁止该语句的提交,或者将认为的敏感内容转换成星号。现有技术明显存在以下缺点:
1.现有技术方案提取广告关键词时需要大量的垃圾文本以及正常文本做对比才能确定垃圾特征词,统计起来费时费力;
2.收录到关键词后的相关垃圾关键词缺少进一步学习的功能;
3.忽略了关键词之间的联合概率问题。
发明内容
本发明的目的是在获取少量垃圾文本样本的情况下,实现不断学习并录入至新的垃圾文本中,节约了时间和精力,且获得的新的垃圾文本样本更加精确。
根据本发明实施例的一个方面,提供了一种垃圾文本库的建立方法,包括:
步骤S100:从文本中获取预先采集的至少一个垃圾文本样本;
步骤S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;
步骤S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;
步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,则执行步骤600;
步骤S500:垃圾文本库建立完毕,结束流程;
步骤S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。
进一步地,检测每个垃圾文本样本中是否存在长特征词包括:基于分词算法对每个垃圾文本样本进行分词,得到分词结果。基于预存的停用词表去掉分词结果中的停用词。基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词。
进一步地,在基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前还包括:计算长特征词集中每个长特征词的权重。将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
进一步地,计算长特征词集中每个长特征词的权重包括:基于式(1)计算长特征词集中每个长特征词的权重,
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在垃圾文本中出现的权重。
进一步地,基于分词算法对每个垃圾文本样本进行分词,包括:利用维特比分词器对每个垃圾文本样本进行分词。
根据本发明实施例的另一方面,提供了一种对垃圾文本进行过滤的方法,包括采用上述的垃圾文本库的建立方法建立垃圾文本库对垃圾文本进行过滤。
根据本发明实施例的又一方面,提供了一种建立垃圾文本库的系统,包括:获取模块,用于从文本中获取预先采集的至少一个垃圾文本样本。检测模块,用于检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集。分类模块,基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾特文本。判断模块,用于将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则垃圾文本库建立完毕;否则,从文本中获取新的垃圾文本样本输入至检测模块。
进一步地,检测模块包括:分词单元,用于基于分词算法对每个垃圾文本样本进行分词,得到分词结果。停用词过滤单元,用于基于预存的停用词表去掉分词结果中的停用词。特征词选取单元,用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。长特征词检测单元,基于前缀匹配算法检测预定数量的特征词中是否存在长特征词。
进一步地,分类模块包括:计算单元,用于计算长特征词集中每个长特征词的权重。分类单元,用于将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
进一步地,计算单元基于式(1)计算所述长特征词集中每个长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
进一步地,分词单元还用于,利用维特比分词器对每个所述垃圾文本样本进行分词。
本发明实施例的有益效果在于,因为采用长特征词加入垃圾文本样本的技术手段,所以克服了大量采集垃圾文本样本的技术问题,进而达到只需收集少量的垃圾文本就能构建垃圾文本库从而节约时间和精力以及更加精确且不断更新的技术效果。
附图说明
图1是本发明第一实施例提供的垃圾文本库的建立方法的流程图;
图2是本发明第一实施例提供的检测垃圾文本样本中是否存在长特征词的流程图;
图3是本发明第一实施例提供的贝叶斯分类器分类前的流程图;
图4是本发明第一实施例提供的建立垃圾文本库的系统的模块关系示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
请参阅图1,图1是本发明第一实施例提供的垃圾文本库的建立方法的流程图。
如图1所示,在本实施例中,垃圾文本库的建立方法包括:
步骤S100:从文本中获取预先采集的至少一个垃圾文本样本。步骤S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集。步骤S300:基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类,得到垃圾文本和非垃圾文本。步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500;否则,执行步骤600。步骤S500:垃圾文本库建立完毕,结束流程。步骤S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。
在本实施例中,我们采用“长特征词优先于短特征词的方法”进行垃圾文本样本的建立。首先,执行步骤S100,在这一步骤中,只需从文本中获取少量的词(可能包括长特征词和/或短特征词)作为垃圾文本样本。其中,文本中包含垃圾文本和非垃圾文本,一般情况下,垃圾文本样本为根据用户反应而提取的垃圾文本样本。这样,不需要建立大量的垃圾文本及正常文本做对比就能确定垃圾文本,从而可以节约时间和精力。
然后,执行步骤S200,在这一步骤中,需要检测每个垃圾文本样本(即可能包含长特征词和/或短特征词)中是否存在长特征词。如果存在长特征词,则将该长特征词录入长特征词集,如果不存在长特征词,则不需要录入。
然后,将录入长特征词后的长特征词集执行步骤S300,在这一步骤中,基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本。
具体地,贝叶斯分类器基于贝叶斯算法对长特征词集对应的垃圾文本样本进行分类。其中,贝叶斯算法基于贝叶斯公式:
Figure BDA0001166093570000051
进行计算。
具体地,P(B)代表长特征词B在文本中出现的概率;P(Ai)代表垃圾文本Ai出现的概率;P(Ai/B)代表长特征词B出现时P(Ai)发生的概率。
然后执行步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较。如果预设的收敛阈值为5,而垃圾文本新增的数量为4个,即垃圾文本新增的数量小于设置的收敛阈值,则垃圾文本库建立完毕,结束流程。如果设置的收敛阈值为5,而垃圾文本新增的数量为8个,即垃圾文本新增的数量大于设置的收敛阈值,则从文本中选取新的垃圾文本样本,返回执行步骤S200至步骤S500。
通过采用本实施例中描述的方法,既考虑了单个特征词的概率问题,也考虑了特征词与特征词之间的联合概率问题,使得获取到的垃圾文本样本更加精确。同时,也实现了将特征词不断更新的过程。
请参阅图2,图2是本发明第一实施例提供的检测垃圾文本样本中是否存在长特征词的流程图。
如图2所示,在检测每个垃圾文本样本中是否存在长特征词包括:
步骤S211:基于分词算法对每个垃圾文本样本进行分词,得到分词结果;步骤S212:基于预存的停用词表去掉分词结果中的停用词;步骤S213:基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;步骤S214:基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词。
在本实施例中,首先,利用分词算法对每个垃圾文本样本进行分词,得到分词结果。具体地,分词算法可以是维特比分词器,也可以采用其它分词算法。
然后,基于预存的停用词表去掉分词结果中的停用词。其中,停用词是“的、和、或”等没有什么实际含义的功能词。
然后,基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。具体地,textrank的算法公式为:
Figure BDA0001166093570000061
其中,具体地,In(vi)代表指向分词vi的所有分词形成的集合;Out(vj)代表指向分词Vj的所有分词的集合;Wji代表从分词j指向分词集合In(vi)中各个分词的边的权重;WS(Vj)代表特征词Vj在垃圾文本中的权重大小,
Figure BDA0001166093570000062
表示从特征词j指向Out(vj)集合中各个特征词的权重之和。
最后,基于前缀匹配算法检测预定数量的特征词中是否存在长特征词。具体地,前缀匹配算法能够从一个给定的特征词集合中找出其前缀特征,即前缀集合。前缀集合具有确定性,能够匹配该前缀特征词集合的特征词一定属于该特征词集合,否则将一定不属于该特征词集合。
请参阅图3,图3是本发明第一实施例提供的贝叶斯分类器分类前的流程图。
如图3所示,在基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前还包括:步骤S311:计算长特征词集中每个长特征词的权重;步骤S312:将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
在本实施例中,在贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前需要先计算长特征词集中每个长特征词的权重。具体地,基于基于式(1)计算所述长特征词集中每个长特征词的权重。式(1):
W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率。W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。将得到的权重结果输入至贝叶斯分类器,以便贝叶斯分类器采用上述方法对长特征词集进行分类,从而得到垃圾特征词集和非垃圾特征词集。
根据本发明实施例的另一方面,由上述实施例中的任一一种实施例展示的垃圾文本库的建立方法可知,其为本发明提供了一种对上述方法建立的垃圾文本进行过滤的方法。通过上述建立的垃圾文本进行过滤,可以使得过滤结果更加精确,确保用户在短时间内获取真正需要的信息。
请参阅图4,图4是本发明第一实施例提供的建立垃圾文本库的系统的模块关系示意图。
如图4所示,建立该垃圾文本库的系统包括:
用于从文本中获取预先采集的至少一个垃圾文本样本的获取模块100。用于检测每个垃圾文本样本中是否存在长特征词的检测模块200,若检测模块200检测到长特征词的存在,则将该长特征词录入长特征词集,若未检测到长特征词,则不需要录入。基于贝叶斯分类器对所述长特征词集对应的垃圾文本样本进行分类的分类模块300,用于得到垃圾文本和非垃圾文本。用于将所述垃圾文本新增的数量与预设的收敛阈值进行比较的判断模块400。若垃圾文本新增的数量小于收敛阈值,则建立垃圾文本库建立完毕;否则,从文本中获取新的垃圾文本样本输入至所述检测模块。
在本实施例中,获取模块100从文本中获取少量的垃圾文本样本(可能包括长特征词和/或短特征词)作为垃圾文本样本。其中,文本中包含垃圾文本和非垃圾文本,一般情况下,垃圾文本样本为根据用户反应而提取的垃圾文本样本。这样,不需要建立大量的垃圾文本及正常文本做对比就能确定垃圾文本,从而可以节约时间和精力。
检测模块200对获取的垃圾文本样本进行检测。具体检测方法为:
检测模块200包括:分词单元201,用于基于分词算法对每个垃圾文本样本进行分词,得到分词结果。具体地,分词单元201可用于利用维特比分词器对每个垃圾文本样本进行分词,也可采用其它分词方法。
停用词过滤单元202,用于基于预存的停用词表去掉所述分词结果中的停用词。具体地,停用词是“的、和、或”等没有什么实际含义的功能词;
特征词选取单元203,用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词,具体地,textrank的算法公式为:
Figure BDA0001166093570000081
其中,具体地,In(vi)代表指向分词vi的所有分词形成的集合;Out(vj)代表指向分词Vj的所有分词的集合;Wji代表从分词j指向分词集合In(vi)中各个分词的边的权重;WS(Vj)代表特征词Vj在垃圾文本中的权重大小,
Figure BDA0001166093570000082
表示从特征词j指向Out(vj)集合中各个特征词的权重之和。
长特征词检测单元204,基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词,具体地,前缀匹配算法能够从一个给定的特征词集合中找出其前缀特征,即前缀集合。前缀集合具有确定性,能够匹配该前缀特征词集合的特征词一定属于该特征词集合,否则将一定不属于该特征词集合。
分类模块300包括:
计算单元301,用于计算长特征词集中每个长特征词的权重。具体地,计算单元301根据公式:W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2)计算长特征词集中每个长特征词的权重,其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率,W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
分类单元302,用于将所述特征词集中每个特征词的权重输入至基于贝叶斯分类器,以对所述长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。具体地,贝叶斯分类器基于贝叶斯算法对长特征词集进行分类。其中,贝叶斯算法基于贝叶斯公式
Figure BDA0001166093570000091
进行计算。
具体地,P(B)代表长特征词B在文本中出现的概率;P(Ai)代表垃圾文本Ai出现的概率;P(Ai/B)代表长特征词B出现时P(Ai)发生的概率。
判断模块400,用于判断是否将垃圾文本进行收敛。具体地判断方法为:将垃圾文本新增的数量与预设的收敛阈值进行比较。若设置的收敛阈值为5,而垃圾文本新增的数量为4个,即垃圾文本新增的数量小于设置的收敛阈值,则垃圾文本库建立完毕,结束流程。如果设置的收敛阈值为2,而垃圾文本新增的数量为5个,即垃圾文本新增的数量大于设置的收敛阈值,则从文本中获取新的垃圾文本样本输入至所述检测模块。
本发明通过上述实施例公开的垃圾文本库的建立方法,对垃圾文本进行过滤的方法和建立垃圾文本库的系统,实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确的效果,且实现了不断更新和学习的过程。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (5)

1.一种垃圾文本库的建立方法,其特征在于,包括:
S100:从文本中获取至少一个基于用户反应而预先采集的垃圾文本样本;
S200:检测每个所述垃圾文本样本中是否存在长特征词,包括:基于分词算法对每个所述垃圾文本样本进行分词后得到分词结果,基于预存的停用词表去掉所述分词结果中的停用词,基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词,基于前缀匹配算法检测所述预定数量的所述特征词中是否存在所述长特征词,若存在,则将该所述长特征词录入长特征词集;S300:基于贝叶斯分类器对所述长特征词集对应的所述垃圾文本样本进行分类,得到垃圾特征词集和非垃圾特征词集,包括:基于式(1)计算所述长特征词集中每个所述长特征词的权重,将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集;
式(1)为:W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重;
S400:将所述垃圾文本新增的数量与预设的收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则执行步骤500;否则,则执行步骤600;
S500:垃圾文本库建立完毕,结束流程;
S600:从所述文本中获取新的至少一个垃圾文本样本,返回执行步骤S200至步骤S500。
2.根据权利要求1所述的方法,其中,所述基于分词算法对每个所述垃圾文本样本进行分词,包括:利用维特比分词器对每个所述垃圾文本样本进行分词。
3.一种对垃圾文本进行过滤的方法,其特征在于,采用权利要求1-2任一项所述的垃圾文本库的建立方法建立垃圾文本库对垃圾文本进行过滤。
4.一种建立垃圾文本库的系统,其特征在于,包括:
获取模块(100):用于从文本中获取预先采集的至少一个垃圾文本样本;
检测模块(200):用于检测每个所述垃圾文本样本中是否存在长特征词,若存在,则将该所述长特征词录入长特征词集;
所述检测模块(200)包括:分词单元(201),用于基于分词算法对每个所述垃圾文本样本进行分词,得到分词结果;停用词过滤单元(202),用于基于预存的停用词表去掉所述分词结果中的停用词;特征词选取单元(203),用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;长特征词检测单元(204),基于前缀匹配算法检测所述预定数量的特征词中是否存在所述长特征词;
分类模块(300):基于贝叶斯分类器对所述长特征词集对应的垃圾文本样本进行分类,得到垃圾特征词集和非垃圾特征词集;
所述包括分类模块(300)包括:计算单元(301),用于计算所述长特征词集中每个所述长特征词的权重;分类单元(302),用于将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到所述垃圾特征词集和所述非垃圾特征词集;
所述计算单元(301)基于式(1)计算所述长特征词集中每个长特征词的权重;式(1)为:W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率,W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重;
判断模块(400):用于将所述垃圾文本新增的数量与预设的收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则垃圾文本库建立完毕;否则,从所述文本中选取新的垃圾文本样本输入至所述检测模块(200)。
5.根据权利要求4所述的系统,其特征在于,检测模块(200)还用于,利用维特比分词器对每个所述垃圾文本样本进行分词。
CN201611085764.0A 2016-11-30 2016-11-30 垃圾文本库的建立方法、过滤方法及系统 Active CN106708961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611085764.0A CN106708961B (zh) 2016-11-30 2016-11-30 垃圾文本库的建立方法、过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611085764.0A CN106708961B (zh) 2016-11-30 2016-11-30 垃圾文本库的建立方法、过滤方法及系统

Publications (2)

Publication Number Publication Date
CN106708961A CN106708961A (zh) 2017-05-24
CN106708961B true CN106708961B (zh) 2020-11-06

Family

ID=58935220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611085764.0A Active CN106708961B (zh) 2016-11-30 2016-11-30 垃圾文本库的建立方法、过滤方法及系统

Country Status (1)

Country Link
CN (1) CN106708961B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463605B (zh) * 2017-06-21 2021-06-11 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN111209744A (zh) * 2020-03-25 2020-05-29 上海勃池信息技术有限公司 一种垃圾文本识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义的文本信息安全过滤平台;李新;《信息化研究》;20090620;第35卷(第6期);15-19 *

Also Published As

Publication number Publication date
CN106708961A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN105740712B (zh) 基于贝叶斯网络的Android恶意行为检测方法
CN110163647B (zh) 一种数据处理方法及装置
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
WO2019037195A1 (zh) 用户兴趣识别方法、装置及计算机可读存储介质
TWI424325B (zh) 使用有機物件資料模型來組織社群智慧資訊的系統及方法
JP6061713B2 (ja) 検査装置、検査方法及びプログラム
KR101272611B1 (ko) 신체부위별 탐지모델 기반의 영상 선정도 분석 방법 및 장치, 선정도 및 신체부위 기반 영상 데이터베이스 관리 방법 및 장치
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
KR20180128147A (ko) 모바일 컨텍스트 정보 기반의 음식점 추천방법 및 그를 위한 장치
CN106708961B (zh) 垃圾文本库的建立方法、过滤方法及系统
CN105068986B (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN111915312A (zh) 风险识别方法及装置和电子设备
Li et al. Deep learning features in facial identification and the likelihood ratio bound
CN113779520A (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
Priyoko et al. Implementation of naive Bayes algorithm for spam comments classification on Instagram
CN111277433B (zh) 基于属性网络表征学习的网络服务异常检测方法及装置
CN117218783A (zh) 物联网安全管理系统及方法
US8744987B1 (en) Count estimation via machine learning
CN114860903A (zh) 一种面向网络安全领域的事件抽取、分类和融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant