CN106708961A - 垃圾文本库的建立方法、过滤方法及系统 - Google Patents
垃圾文本库的建立方法、过滤方法及系统 Download PDFInfo
- Publication number
- CN106708961A CN106708961A CN201611085764.0A CN201611085764A CN106708961A CN 106708961 A CN106708961 A CN 106708961A CN 201611085764 A CN201611085764 A CN 201611085764A CN 106708961 A CN106708961 A CN 106708961A
- Authority
- CN
- China
- Prior art keywords
- feature words
- rubbish text
- long
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 title 1
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 21
- 239000012141 concentrate Substances 0.000 claims description 11
- 230000009849 deactivation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了一种垃圾文本库的建立方法,属于计算机文本库建立技术领域。其中,该方法包括:S100:从文本中获取预先采集的至少一个垃圾文本样本;S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,执行步骤600;S500:垃圾文本库建立完毕,结束流程;S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。本发明实施例实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确。
Description
技术领域
本发明涉及计算机文本库建立技术领域,特别涉及一种垃圾文本库的建立方法,对垃圾文本进行过滤的方法和建立垃圾文本库的系统。
背景技术
随着互联网行业的普及和电子商务应用的不断深入发展,大家在网络中的互动也越来越频繁,但是在信息量不断的增大同时,不需要的垃圾信息也随之增多,导致用户在获取信息时接受到不需要的垃圾信息,从而做出错误的判断或选择。
在现有技术中,一些在线游戏或者论坛已经提供了类似垃圾评论的检测功能,其通常的处理步骤是:1、对用户输入的文本进行分词;2、对分词结果进行关键词匹配;3、如果匹配到关键词就禁止该语句的提交,或者将认为的敏感内容转换成星号。现有技术明显存在以下缺点:
1.现有技术方案提取广告关键词时需要大量的垃圾文本以及正常文本做对比才能确定垃圾特征词,统计起来费时费力;
2.收录到关键词后的相关垃圾关键词缺少进一步学习的功能;
3.忽略了关键词之间的联合概率问题。
发明内容
本发明的目的是在获取少量垃圾文本样本的情况下,实现不断学习并录入至新的垃圾文本中,节约了时间和精力,且获得的新的垃圾文本样本更加精确。
根据本发明实施例的一个方面,提供了一种垃圾文本库的建立方法,包括:
步骤S100:从文本中获取预先采集的至少一个垃圾文本样本;
步骤S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集;
步骤S300:基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;
步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500,否则,则执行步骤600;
步骤S500:垃圾文本库建立完毕,结束流程;
步骤S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。
进一步地,检测每个垃圾文本样本中是否存在长特征词包括:基于分词算法对每个垃圾文本样本进行分词,得到分词结果。基于预存的停用词表去掉分词结果中的停用词。基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词。
进一步地,在基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前还包括:计算长特征词集中每个长特征词的权重。将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
进一步地,计算长特征词集中每个长特征词的权重包括:基于式(1)计算长特征词集中每个长特征词的权重,
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在垃圾文本中出现的权重。
进一步地,基于分词算法对每个垃圾文本样本进行分词,包括:利用维特比分词器对每个垃圾文本样本进行分词。
根据本发明实施例的另一方面,提供了一种对垃圾文本进行过滤的方法,包括采用上述的垃圾文本库的建立方法建立垃圾文本库对垃圾文本进行过滤。
根据本发明实施例的又一方面,提供了一种建立垃圾文本库的系统,包括:获取模块,用于从文本中获取预先采集的至少一个垃圾文本样本。检测模块,用于检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集。分类模块,基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾特文本。判断模块,用于将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则垃圾文本库建立完毕;否则,从文本中获取新的垃圾文本样本输入至检测模块。
进一步地,检测模块包括:分词单元,用于基于分词算法对每个垃圾文本样本进行分词,得到分词结果。停用词过滤单元,用于基于预存的停用词表去掉分词结果中的停用词。特征词选取单元,用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。长特征词检测单元,基于前缀匹配算法检测预定数量的特征词中是否存在长特征词。
进一步地,分类模块包括:计算单元,用于计算长特征词集中每个长特征词的权重。分类单元,用于将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
进一步地,计算单元基于式(1)计算所述长特征词集中每个长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
进一步地,分词单元还用于,利用维特比分词器对每个所述垃圾文本样本进行分词。
本发明实施例的有益效果在于,因为采用长特征词加入垃圾文本样本的技术手段,所以克服了大量采集垃圾文本样本的技术问题,进而达到只需收集少量的垃圾文本就能构建垃圾文本库从而节约时间和精力以及更加精确且不断更新的技术效果。
附图说明
图1是本发明第一实施例提供的垃圾文本库的建立方法的流程图;
图2是本发明第一实施例提供的检测垃圾文本样本中是否存在长特征词的流程图;
图3是本发明第一实施例提供的贝叶斯分类器分类前的流程图;
图4是本发明第一实施例提供的建立垃圾文本库的系统的模块关系示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
请参阅图1,图1是本发明第一实施例提供的垃圾文本库的建立方法的流程图。
如图1所示,在本实施例中,垃圾文本库的建立方法包括:
步骤S100:从文本中获取预先采集的至少一个垃圾文本样本。步骤S200:检测每个垃圾文本样本中是否存在长特征词,若存在,则将该长特征词录入长特征词集。步骤S300:基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类,得到垃圾文本和非垃圾文本。步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较,若垃圾文本新增的数量小于收敛阈值,则执行步骤500;否则,执行步骤600。步骤S500:垃圾文本库建立完毕,结束流程。步骤S600:从文本中获取新的垃圾文本样本,返回执行步骤S200至步骤S500。
在本实施例中,我们采用“长特征词优先于短特征词的方法”进行垃圾文本样本的建立。首先,执行步骤S100,在这一步骤中,只需从文本中获取少量的词(可能包括长特征词和/或短特征词)作为垃圾文本样本。其中,文本中包含垃圾文本和非垃圾文本,一般情况下,垃圾文本样本为根据用户反应而提取的垃圾文本样本。这样,不需要建立大量的垃圾文本及正常文本做对比就能确定垃圾文本,从而可以节约时间和精力。
然后,执行步骤S200,在这一步骤中,需要检测每个垃圾文本样本(即可能包含长特征词和/或短特征词)中是否存在长特征词。如果存在长特征词,则将该长特征词录入长特征词集,如果不存在长特征词,则不需要录入。
然后,将录入长特征词后的长特征词集执行步骤S300,在这一步骤中,基于贝叶斯分类器对长特征词集对应的垃圾文本样本进行分类,得到垃圾文本和非垃圾文本。
具体地,贝叶斯分类器基于贝叶斯算法对长特征词集对应的垃圾文本样本进行分类。其中,贝叶斯算法基于贝叶斯公式:
进行计算。
具体地,P(B)代表长特征词B在文本中出现的概率;P(Ai)代表垃圾文本Ai出现的概率;P(Ai/B)代表长特征词B出现时P(Ai)发生的概率。
然后执行步骤S400:将垃圾文本新增的数量与预设的收敛阈值进行比较。如果预设的收敛阈值为5,而垃圾文本新增的数量为4个,即垃圾文本新增的数量小于设置的收敛阈值,则垃圾文本库建立完毕,结束流程。如果设置的收敛阈值为5,而垃圾文本新增的数量为8个,即垃圾文本新增的数量大于设置的收敛阈值,则从文本中选取新的垃圾文本样本,返回执行步骤S200至步骤S500。
通过采用本实施例中描述的方法,既考虑了单个特征词的概率问题,也考虑了特征词与特征词之间的联合概率问题,使得获取到的垃圾文本样本更加精确。同时,也实现了将特征词不断更新的过程。
请参阅图2,图2是本发明第一实施例提供的检测垃圾文本样本中是否存在长特征词的流程图。
如图2所示,在检测每个垃圾文本样本中是否存在长特征词包括:
步骤S211:基于分词算法对每个垃圾文本样本进行分词,得到分词结果;步骤S212:基于预存的停用词表去掉分词结果中的停用词;步骤S213:基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;步骤S214:基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词。
在本实施例中,首先,利用分词算法对每个垃圾文本样本进行分词,得到分词结果。具体地,分词算法可以是维特比分词器,也可以采用其它分词算法。
然后,基于预存的停用词表去掉分词结果中的停用词。其中,停用词是“的、和、或”等没有什么实际含义的功能词。
然后,基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词。具体地,textrank的算法公式为:
其中,具体地,In(vi)代表指向分词vi的所有分词形成的集合;Out(vj)代表指向分词Vj的所有分词的集合;Wji代表从分词j指向分词集合In(vi)中各个分词的边的权重;WS(Vj)代表特征词Vj在垃圾文本中的权重大小,表示从特征词j指向Out(vj)集合中各个特征词的权重之和。
最后,基于前缀匹配算法检测预定数量的特征词中是否存在长特征词。具体地,前缀匹配算法能够从一个给定的特征词集合中找出其前缀特征,即前缀集合。前缀集合具有确定性,能够匹配该前缀特征词集合的特征词一定属于该特征词集合,否则将一定不属于该特征词集合。
请参阅图3,图3是本发明第一实施例提供的贝叶斯分类器分类前的流程图。
如图3所示,在基于贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前还包括:步骤S311:计算长特征词集中每个长特征词的权重;步骤S312:将特征词集中每个特征词的权重输入至贝叶斯分类器,以对长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
在本实施例中,在贝叶斯分类器对长特征词集对应的所述垃圾文本样本进行分类之前需要先计算长特征词集中每个长特征词的权重。具体地,基于基于式(1)计算所述长特征词集中每个长特征词的权重。式(1):
W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率。W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。将得到的权重结果输入至贝叶斯分类器,以便贝叶斯分类器采用上述方法对长特征词集进行分类,从而得到垃圾特征词集和非垃圾特征词集。
根据本发明实施例的另一方面,由上述实施例中的任一一种实施例展示的垃圾文本库的建立方法可知,其为本发明提供了一种对上述方法建立的垃圾文本进行过滤的方法。通过上述建立的垃圾文本进行过滤,可以使得过滤结果更加精确,确保用户在短时间内获取真正需要的信息。
请参阅图4,图4是本发明第一实施例提供的建立垃圾文本库的系统的模块关系示意图。
如图4所示,建立该垃圾文本库的系统包括:
用于从文本中获取预先采集的至少一个垃圾文本样本的获取模块100。用于检测每个垃圾文本样本中是否存在长特征词的检测模块200,若检测模块200检测到长特征词的存在,则将该长特征词录入长特征词集,若未检测到长特征词,则不需要录入。基于贝叶斯分类器对所述长特征词集对应的垃圾文本样本进行分类的分类模块300,用于得到垃圾文本和非垃圾文本。用于将所述垃圾文本新增的数量与预设的收敛阈值进行比较的判断模块400。若垃圾文本新增的数量小于收敛阈值,则建立垃圾文本库建立完毕;否则,从文本中获取新的垃圾文本样本输入至所述检测模块。
在本实施例中,获取模块100从文本中获取少量的垃圾文本样本(可能包括长特征词和/或短特征词)作为垃圾文本样本。其中,文本中包含垃圾文本和非垃圾文本,一般情况下,垃圾文本样本为根据用户反应而提取的垃圾文本样本。这样,不需要建立大量的垃圾文本及正常文本做对比就能确定垃圾文本,从而可以节约时间和精力。
检测模块200对获取的垃圾文本样本进行检测。具体检测方法为:
检测模块200包括:分词单元201,用于基于分词算法对每个垃圾文本样本进行分词,得到分词结果。具体地,分词单元201可用于利用维特比分词器对每个垃圾文本样本进行分词,也可采用其它分词方法。
停用词过滤单元202,用于基于预存的停用词表去掉所述分词结果中的停用词。具体地,停用词是“的、和、或”等没有什么实际含义的功能词;
特征词选取单元203,用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词,具体地,textrank的算法公式为:
其中,具体地,In(vi)代表指向分词vi的所有分词形成的集合;Out(vj)代表指向分词Vj的所有分词的集合;Wji代表从分词j指向分词集合In(vi)中各个分词的边的权重;WS(Vj)代表特征词Vj在垃圾文本中的权重大小,表示从特征词j指向Out(vj)集合中各个特征词的权重之和。
长特征词检测单元204,基于前缀匹配算法检测所述预定数量的特征词中是否存在长特征词,具体地,前缀匹配算法能够从一个给定的特征词集合中找出其前缀特征,即前缀集合。前缀集合具有确定性,能够匹配该前缀特征词集合的特征词一定属于该特征词集合,否则将一定不属于该特征词集合。
分类模块300包括:
计算单元301,用于计算长特征词集中每个长特征词的权重。具体地,计算单元301根据公式:W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2)计算长特征词集中每个长特征词的权重,其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率,W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
分类单元302,用于将所述特征词集中每个特征词的权重输入至基于贝叶斯分类器,以对所述长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。具体地,贝叶斯分类器基于贝叶斯算法对长特征词集进行分类。其中,贝叶斯算法基于贝叶斯公式
进行计算。
具体地,P(B)代表长特征词B在文本中出现的概率;P(Ai)代表垃圾文本Ai出现的概率;P(Ai/B)代表长特征词B出现时P(Ai)发生的概率。
判断模块400,用于判断是否将垃圾文本进行收敛。具体地判断方法为:将垃圾文本新增的数量与预设的收敛阈值进行比较。若设置的收敛阈值为5,而垃圾文本新增的数量为4个,即垃圾文本新增的数量小于设置的收敛阈值,则垃圾文本库建立完毕,结束流程。如果设置的收敛阈值为2,而垃圾文本新增的数量为5个,即垃圾文本新增的数量大于设置的收敛阈值,则从文本中获取新的垃圾文本样本输入至所述检测模块。
本发明通过上述实施例公开的垃圾文本库的建立方法,对垃圾文本进行过滤的方法和建立垃圾文本库的系统,实现了只需收集少量的垃圾文本样本构建垃圾文本库,省时省力,且更加精确的效果,且实现了不断更新和学习的过程。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (11)
1.一种垃圾文本库的建立方法,其特征在于,包括:
S100:从文本中获取预先采集的至少一个垃圾文本样本;
S200:检测每个所述垃圾文本样本中是否存在长特征词,若存在,则将该所述长特征词录入长特征词集;
S300:基于贝叶斯分类器对所述长特征词集对应的所述垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;
S400:将所述垃圾文本新增的数量与预设的收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则执行步骤500;否则,则执行步骤600;
S500:垃圾文本库建立完毕,结束流程;
S600:从所述文本中获取新的至少一个垃圾文本样本,返回执行步骤S200至步骤S500。
2.根据权利要求1所述的方法,其中,检测每个所述垃圾文本样本中是否存在所述长特征词包括:
基于分词算法对每个所述垃圾文本样本进行分词,得到分词结果;
基于预存的停用词表去掉所述分词结果中的停用词;
基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;
基于前缀匹配算法检测所述预定数量的所述特征词中是否存在所述长特征词。
3.根据权利要求2所述的方法,其中,在所述基于贝叶斯分类器对所述长特征词集对应的所述垃圾文本样本进行分类之前还包括:
计算所述长特征词集中每个所述长特征词的权重;
将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
4.根据权利要求3所述的方法,其中,所述计算所述长特征词集中每个所述长特征词的权重包括:
基于式(1)计算所述长特征词集中每个所述长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
5.根据权利要求2-4任一项所述的方法,其中,所述基于分词算法对每个所述垃圾文本样本进行分词,包括:利用维特比分词器对每个所述垃圾文本样本进行分词。
6.一种对垃圾文本进行过滤的方法,其特征在于,采用权利要求1-5任一项所述的垃圾文本库的建立方法建立垃圾文本库对垃圾文本进行过滤。
7.一种建立垃圾文本库的系统,其特征在于,包括:
获取模块(100):用于从所述文本中获取所述预先采集的至少一个垃圾文本样本;
检测模块(200):用于检测每个所述垃圾文本样本中是否存在所述长特征词,若存在,则将该所述长特征词录入所述长特征词集;
分类模块(300):基于所述贝叶斯分类器对所述长特征词集对应的垃圾文本样本进行分类,得到所述垃圾文本样本和所述非垃圾文本样本;
判断模块(400):用于将所述垃圾文本新增的数量与预设的所述收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则所述垃圾文本库建立完毕;否则,从所述文本中选取新的垃圾文本样本输入至所述检测模块(200)。
8.根据权利要求7所述的系统,其特征在于,所述检测模块(200)包括:
分词单元(201),用于基于分词算法对每个所述垃圾文本样本进行分词,得到分词结果;
停用词过滤单元(202),用于基于预存的停用词表去掉所述分词结果中的停用词;
特征词选取单元(203),用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;
长特征词检测单元(204),基于前缀匹配算法检测所述预定数量的特征词中是否存在所述长特征词。
9.根据权利要求8所述的系统,其特征在于,所述分类模块(300)包括:
计算单元(301),用于计算所述长特征词集中每个所述长特征词的权重;
分类单元(302),用于将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到所述垃圾特征词集和所述非垃圾特征词集。
10.根据权利要求9所述的系统,其特征在于,所述计算单元(301)基于式(1)计算所述长特征词集中每个长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
11.根据权利8-9任一项所述的系统,其特征在于,分词单元(201)还用于,利用所述维特比分词器对每个所述垃圾文本样本进行分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611085764.0A CN106708961B (zh) | 2016-11-30 | 2016-11-30 | 垃圾文本库的建立方法、过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611085764.0A CN106708961B (zh) | 2016-11-30 | 2016-11-30 | 垃圾文本库的建立方法、过滤方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106708961A true CN106708961A (zh) | 2017-05-24 |
CN106708961B CN106708961B (zh) | 2020-11-06 |
Family
ID=58935220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611085764.0A Active CN106708961B (zh) | 2016-11-30 | 2016-11-30 | 垃圾文本库的建立方法、过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106708961B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN111209744A (zh) * | 2020-03-25 | 2020-05-29 | 上海勃池信息技术有限公司 | 一种垃圾文本识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293573A (ja) * | 2005-04-08 | 2006-10-26 | Yaskawa Information Systems Co Ltd | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN103336766A (zh) * | 2013-07-04 | 2013-10-02 | 微梦创科网络科技(中国)有限公司 | 短文本垃圾识别以及建模方法和装置 |
-
2016
- 2016-11-30 CN CN201611085764.0A patent/CN106708961B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293573A (ja) * | 2005-04-08 | 2006-10-26 | Yaskawa Information Systems Co Ltd | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN103336766A (zh) * | 2013-07-04 | 2013-10-02 | 微梦创科网络科技(中国)有限公司 | 短文本垃圾识别以及建模方法和装置 |
Non-Patent Citations (1)
Title |
---|
李新: "基于语义的文本信息安全过滤平台", 《信息化研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN111209744A (zh) * | 2020-03-25 | 2020-05-29 | 上海勃池信息技术有限公司 | 一种垃圾文本识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106708961B (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI438637B (zh) | 用於擷取及管理社群智慧資訊的系統及方法 | |
CN105913003B (zh) | 一种多特征多模型的行人检测方法 | |
CN103853744B (zh) | 一种面向用户生成内容的欺骗性垃圾意见检测方法 | |
CN103345528B (zh) | 一种基于关联分析和knn的文本分类方法 | |
WO2019037195A1 (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN110727766A (zh) | 敏感词的检测方法 | |
CN108319672B (zh) | 基于云计算的移动终端不良信息过滤方法及系统 | |
Lei et al. | Automatic detection and counting of urediniospores of Puccinia striiformis f. sp. tritici using spore traps and image processing | |
CN104765733A (zh) | 一种社交网络事件分析的方法和装置 | |
CN103092975A (zh) | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 | |
CN101901346A (zh) | 一种对彩色数字图像进行不良内容识别的方法 | |
CN109472226A (zh) | 一种基于深度学习的睡觉行为检测方法 | |
CN101674264A (zh) | 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法 | |
CN114998603B (zh) | 一种基于深度多尺度特征因子融合的水下目标检测方法 | |
CN106446124B (zh) | 一种基于网络关系图的网站分类方法 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
KR20110063883A (ko) | 신체부위별 탐지모델 기반의 영상 선정도 분석 방법 및 장치, 선정도 및 신체부위 기반 영상 데이터베이스 관리 방법 및 장치 | |
CN107145778A (zh) | 一种入侵检测方法及装置 | |
CN103970888A (zh) | 基于网络度量指标的文档分类方法 | |
CN104142960A (zh) | 互联网数据分析系统 | |
CN106326451B (zh) | 一种基于视觉特征提取的网页传感信息块判决方法 | |
CN113011528B (zh) | 一种基于上下文和级联结构的遥感图像小目标检测方法 | |
Li et al. | Deep learning features in facial identification and the likelihood ratio bound | |
Baby et al. | An efficient lymphocytic leukemia detection based on EfficientNets and ensemble voting classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |