CN103347009A - 一种信息过滤方法及装置 - Google Patents

一种信息过滤方法及装置 Download PDF

Info

Publication number
CN103347009A
CN103347009A CN2013102476249A CN201310247624A CN103347009A CN 103347009 A CN103347009 A CN 103347009A CN 2013102476249 A CN2013102476249 A CN 2013102476249A CN 201310247624 A CN201310247624 A CN 201310247624A CN 103347009 A CN103347009 A CN 103347009A
Authority
CN
China
Prior art keywords
information
filtered
participle
probability
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102476249A
Other languages
English (en)
Other versions
CN103347009B (zh
Inventor
戴明洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201310247624.9A priority Critical patent/CN103347009B/zh
Publication of CN103347009A publication Critical patent/CN103347009A/zh
Application granted granted Critical
Publication of CN103347009B publication Critical patent/CN103347009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信息过滤方法及装置,用以解决现有技术中维护黑名单的效率较低,信息发布的时效性较低的问题。该方法通过规则过滤方法判断待过滤信息中是否包含敏感分词,若包含则直接将其过滤,否则,通过机器学习过滤方法判断其是否为非法信息,若是,则删除发布的该待过滤信息,否则保持该待过滤信息的发布状态。通过上述方法,需维护的黑名单中仅包括敏感分词,有效减少了需要维护的黑名单中的分词的数量,提高了维护黑名单的效率,而且,在通过规则过滤方法确定待过滤信息中不包含敏感分词时,可直接将其发布,即使该信息是除敏感信息以外的其他非法信息,后续也可通过机器学习过滤方法将发布的该信息删除,因此提高了信息发布的时效性。

Description

一种信息过滤方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种信息过滤方法及装置。
背景技术
目前,信息过滤技术通常用于论坛、博客、邮件等应用场景,用于过滤用户发布的非法信息,如敏感信息、广告信息、反动信息、色情信息等。
在现有技术中,信息过滤的方法主要有以下两种:
第一种,规则过滤方法。该方法主要是预先在黑名单中添加非法分词,在过滤时,判断待过滤信息是否包含该黑名单中的非法分词,若包含,则确定该待过滤信息是非法信息,过滤该待过滤信息,否则,确定该待过滤信息不是非法信息。
但是,上述第一种方法需要人工维护黑名单中的非法分词,需耗费较大的人力资源,而且效率较低。
第二种,机器学习过滤方法。该方法根据待过滤信息中包含的分词,以及预先训练出的过滤模型,判断待过滤信息是否为非法信息,若是,则过滤该待过滤信息。
但是,在上述第二种方法中,过滤模型的训练是一个长期而大量重复的工作,因此,对于一些实时性很强、临时出现的需要过滤的非法信息来说,第二种方法并不能有效的过滤。
另外,虽然现有技术中也存在将上述两种方法结合得到的第三种信息过滤方法,但是,现有技术中的第三种信息过滤方法只是将上述两种方法进行前后依次使用,即,采用上述两种方法中的一种对待过滤信息进行判断,若判定其不是非法信息,则再采用另一种对待过滤信息进行再次判断,若仍判定其不是非法信息,则将其发布,两次判断中只要有一次判定其为非法信息,则将其过滤。可见,现有技术中的第三种方法仍需要耗费大量的人力资源来维护黑名单,而且,对于问答和论坛这种实时性较强的应用场景而言,由于用户发布的信息需要经过两次判断,因此也降低了信息发布的时效性。
发明内容
本发明实施例提供一种信息过滤方法及装置,用以解决现有技术中维护黑名单的效率较低,信息发布的时效性较低的问题。
本发明实施例提供的一种信息过滤方法,包括:
获取待过滤信息;
判断所述待过滤信息中是否包含第一黑名单中预设的敏感分词;
若是,则过滤所述待过滤信息;
否则,发布所述待过滤信息,并根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,若是,则删除发布的所述待过滤信息,否则保持所述待过滤信息的发布状态不变。
本发明实施例提供的一种信息过滤装置,包括:
获取模块,用于获取待过滤信息;
规则过滤模块,用于判断所述获取模块获取的待过滤信息中是否包含第一黑名单中预设的敏感分词,若是,则过滤所述待过滤信息,否则,发布所述待过滤信息;
机器过滤模块,用于当所述规则过滤模块发布所述待过滤信息时,根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,若是,则删除发布的所述待过滤信息,否则保持所述待过滤信息的发布状态不变。
本发明实施例提供一种信息过滤方法及装置,该方法先通过规则过滤方法判断待过滤信息中是否包含第一黑名单中预设的敏感分词,若包含则直接将其过滤,否则,通过机器学习过滤方法判断其是否为非法信息,若是,则删除发布的该待过滤信息,否则保持该待过滤信息的发布状态。通过上述方法,需要维护的第一黑名单中仅包括敏感分词,从而有效减少了需要维护的黑名单中的分词的数量,提高了维护黑名单的效率,而且,在通过规则过滤方法确定待过滤信息中不包含敏感分词时,可直接发布该信息,即使该信息是除敏感信息以外的其他非法信息,后续也可通过机器学习过滤方法将发布的该信息删除,因此提高了信息发布的时效性。
附图说明
图1为本发明实施例提供的信息过滤过程;
图2为本发明实施例提供的信息过滤的详细过程;
图3为本发明实施例提供的信息过滤装置结构示意图。
具体实施方式
本发明实施例提供一种信息过滤方法及装置,该方法先通过规则过滤方法判断待过滤信息中是否包含第一黑名单中预设的敏感分词,若包含则直接将其过滤,否则,通过机器学习过滤方法判断其是否为非法信息,若是,则删除发布的该待过滤信息,否则保持该待过滤信息的发布状态。通过上述方法,需要维护的第一黑名单中仅包括敏感分词,从而有效减少了需要维护的黑名单中的分词的数量,提高了维护黑名单的效率,而且,在通过规则过滤方法确定待过滤信息中不包含敏感分词时,可直接发布该信息,即使该信息是除敏感信息以外的其他非法信息,后续也可通过机器学习过滤方法将发布的该信息删除,因此提高了信息发布的时效性。
下面结合说明书附图,对本申请实施例进行详细描述。
图1为本发明实施例提供的信息过滤过程,具体包括以下步骤:
S101:获取待过滤信息。
其中,服务器可将用户发送的待发布信息作为待过滤信息,如,当用户向论坛、博客、邮件等服务器发送待发布信息时,服务器则可将接收到的该待发布信息作为获取到的待过滤信息。
S102:判断该待过滤信息中是否包含第一黑名单中预设的敏感分词,若是,则执行步骤S103,否则执行步骤S104。
在本发明实施例中,服务器可采用规则过滤方法对获取到的待过滤信息进行第一次过滤。其中,由于敏感信息的实时性较强,经常都是临时出现的,而规则过滤方法过滤信息的速度较快,效率较高,因此,本发明实施例中可在该第一次过滤所采用的第一黑名单中预设敏感分词,用以判断该待过滤信息是否为包含敏感分词的敏感信息。其中,在第一黑名单中预设敏感分词时,可通过人工的方法添加,也可通过现有技术中的敏感词自动挖掘方法挖掘出当前的敏感分词并添加到第一黑名单中。
S103:过滤该待过滤信息。
如果该待过滤信息是包含敏感分词的敏感信息,服务器则过滤掉该待过滤信息,也即阻止该待过滤信息的发布。
S104:发布该待过滤信息,执行步骤S105。
如果该待过滤信息不是包含敏感分词的敏感信息,服务器则直接发布该待过滤信息,至于该待过滤信息中是否包含除敏感分词以外的其他非法分词,也即,该待过滤信息是否为除敏感信息以外的其他非法信息,则服务器在发布该待过滤信息后,通过后续的步骤S105进行判断。
S105:根据该待过滤信息中包含的分词以及预先训练的过滤模型,判断该待过滤信息是否为非法信息,若是,则执行步骤S106,否则执行步骤S107。
在本发明实施例中,服务器发布了该待过滤信息后,则可采用机器学习过滤方法对该待过滤信息进行第二次过滤。具体的,可先对该待过滤信息进行分词处理,再从得到的各分词中去掉指定类型的分词(如,停用词、助词等),然后根据剩余的分词以及预设的特征字典确定该待过滤信息的特征向量,最后根据预先训练的过滤模型以及确定的特征向量判断该待过滤信息是否为非法信息。其中,预先训练的过滤模型可以是支持向量机模型、朴素贝叶斯模型或其他过滤模型。另外,由于上述步骤S102已经对该待过滤信息中是否包含敏感分词进行了判断,因此,该特征字典中的分词可以是除敏感分词以外的其他非法分词,如广告分词、反动分词、色情分词等,步骤S105实际上判断的是该待过滤信息是否为除敏感信息以外的其他非法信息。
S106:删除发布的该待过滤信息。
如果采用机器学习过滤方法判定该待过滤信息是非法信息,则服务器删除发布的该待过滤信息。
S107:保持该待过滤信息的发布状态不变。
如果采用机器学习过滤方法判定该待过滤信息是非法信息,则服务器不对该待过滤信息进行处理,保持该待过滤信息的发布状态不变。
通过上述方法,用于进行规则过滤的第一黑名单中仅包括敏感分词,从而有效减少了需要维护的黑名单中的分词的数量,提高了维护黑名单的效率。
而且,在通过规则过滤方法确定待过滤信息中不包含敏感分词时,可直接发布该信息,而无需等待通过机器学习过滤方法进行第二次判断后再发布,因此可有效提高信息发布的时效性,尤其适用于问答和论坛这种时效性需求较强的应用场景。
另外,在第一次通过规则过滤方法判断待过滤信息不是敏感信息而将其发布后,即使该信息是除敏感信息以外的其他非法信息,后续也可通过机器学习过滤方法的第二次判断将发布的该信息删除,因此本发明实施例提供的上述信息过滤方法也可兼顾信息过滤的准确性。
在图1所示的步骤S105中,采用机器学习过滤方法判断待过滤信息是否为非法信息的方法具体可以为:根据该待过滤信息中包含的分词以及预先训练的过滤模型(如支持向量机模型或朴素贝叶斯模型),确定该待过滤信息是非法信息的概率,并判断确定的概率是否不大于预设的第一阈值,若是,则判定该待过滤信息不是非法信息,否则,判定该待过滤信息为非法信息。其中,该第一阈值可根据需要进行设定,如可设定为50%。
考虑到实际应用场景中采用预先训练的过滤模型判断待过滤信息是否为非法信息时,或多或少都会存在一些误判,将本来是合法信息的待过滤信息误判为非法信息,因此,为了进一步提高过滤信息的准确性,本发明实施例采用机器学习过滤方法判断待过滤信息是否为非法信息的方法还可以为:根据待过滤信息中包含的分词以及预先训练的过滤模型,确定该待过滤信息是非法信息的概率;当确定的概率不大于预设的第一阈值时,判定该待过滤信息不是非法信息;当确定的概率大于预设的第二阈值时,判定该待过滤信息是非法信息,其中,预设的第二阈值大于第一阈值;当确定的概率大于第一阈值且不大于第二阈值时,判断该待过滤信息中是否包含第二黑名单中预设的垃圾分词,若是,则判定该待过滤信息为非法信息,否则,判定该待过滤信息不是非法信息。其中,上述第二黑名单中预设的垃圾分词包括除敏感分词以外的非法分词,如广告分词、反动分词、色情分词等。
例如,预设第一阈值为50%,第二阈值为70%,则如果通过过滤模型确定待过滤信息是非法信息的概率不大于50%,服务器则判定待过滤信息不是非法信息,保持该待过滤信息的发布状态不变,如果确定该待过滤信息是非法信息的概率大于70%,服务器则判定该待过滤信息为非法信息,删除发布的该待过滤信息,如果确定该待过滤信息是非法信息的概率大于50%但不大于70%,服务器则判断该待过滤信息中是否包含第二黑名单中预设的垃圾分词,若包含,则判定该待过滤信息为非法信息,删除发布的该待过滤信息,否则,判定待过滤信息不是非法信息,保持该待过滤信息的发布状态不变。
进一步的,为了尽量提高采用机器学习过滤方法判断待过滤信息是否为非法信息的准确性,本发明实施例中还可将本来是合法信息但被误判为非法信息的待过滤信息作为重新训练过滤模型的依据。具体的,当服务器确定待过滤信息是非法信息的概率大于第一阈值但不大于第二阈值,且该待过滤信息中不包含第二黑名单中预设的垃圾分词时,说明该待过滤信息是合法信息单采用该过滤模型会被误判为非法信息,因此,服务器将该待过滤信息添加到用于训练过滤模型的样本集中,并采用添加了该待过滤信息后的样本集重新训练过滤模型。
通过上述方法,可实现过滤模型的自动更新,而且无需人工干预,提高率更新过滤模型的效率。
较佳的,在本发明实施例中,预设第二阈值的方法可以为:预先采用过滤模型确定预设的测试集中的各测试信息是非法信息的概率,其中,该测试集中的测试信息包括非法信息和合法信息(测试集中的测试信息是非法信息还是合法信息是已知的);根据确定的各测试信息是非法信息的概率,确定满足指定条件的测试信息,其中,针对一个待定测试信息,如果采用该过滤模型确定该待定测试信息是非法信息的概率大于所述第一阈值,且该待定测试信息为合法信息,则该待定测试信息为满足指定条件的测试信息;将采用该过滤模型对各满足指定条件的测试信息确定的概率的平均值,设定为第二阈值。
例如,假设预设的测试集中包含100个测试信息,其中50个是合法信息,另外50个是非法信息,第一阈值为50%,则服务器可采用该过滤模型分别确定这100个测试信息是非法信息的概率,假设针对其中的10个合法信息确定的是非法信息的概率大于50%,则服务器可将确定的这10个合法信息是非法信息的概率的平均值,设定为第二阈值。
当然,也可以采用其他方法预设第二阈值。如,可根据经验设定第二阈值,设定的第二阈值需大于第一阈值。再如,与上述预设第二阈值的方法类似的,预先采用过滤模型确定测试集中的各测试信息是非法信息的概率;根据确定的各测试信息是非法信息的概率,确定满足指定条件的测试信息,其中,针对一个待定测试信息,如果采用该过滤模型确定该待定测试信息是非法信息的概率大于所述第一阈值,且该待定测试信息为合法信息,则该待定测试信息为满足指定条件的测试信息;按照确定的各满足指定条件的测试信息是非法信息的概率从大到小的顺序,依次选择指定数量的概率,并将选择的指定数量的概率的平均值,设定为第二阈值。其中,上述指定数量可以根据需要进行设定,例如设定为3。
图2为本发明实施例提供的信息过滤的详细过程,具体包括以下步骤:
S201:获取待过滤信息。
S202:判断该待过滤信息中是否包含第一黑名单中预设的敏感分词,若是,则执行步骤S203,否则执行步骤S204。
S203:过滤该待过滤信息。
S204:发布该待过滤信息,并执行步骤S205。
S205:根据该待过滤信息中包含的分词以及预先训练的过滤模型,确定该待过滤信息是非法信息的概率。
S206:判断确定的概率是否不大于预设的第一阈值,若是,则执行步骤S211,否则执行步骤S207。
S207:判断确定的概率是否不大于预设的第二阈值,若是,则执行步骤S208,否则执行步骤S209。
其中,第二阈值大于第一阈值。
S208:判断该待过滤信息中是否包含第二黑名单中预设的垃圾分词,若是,则执行步骤S209,否则执行步骤S210。
S209:删除发布的该待过滤信息。
S210:保持该待过滤信息的发布状态不变,并将该待过滤信息添加到用于训练过滤模型的样本集中,采用添加了该待过滤信息后的样本集重新训练过滤模型。
S211:保持该待过滤信息的发布状态不变。
以上为本发明实施例提供的信息过滤方法,基于同样的发明思路,本发明实施例还提供一种信息过滤的装置,如图3所示。
图3为本发明实施例提供的信息过滤装置结构示意图,具体包括:
获取模块301,用于获取待过滤信息;
规则过滤模块302,用于判断所述获取模块301获取的待过滤信息中是否包含第一黑名单中预设的敏感分词,若是,则过滤所述待过滤信息,否则,发布所述待过滤信息;
机器过滤模块303,用于当所述规则过滤模块302发布所述待过滤信息时,根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,若是,则删除发布的所述待过滤信息,否则保持所述待过滤信息的发布状态不变。
具体实施中,所述机器过滤模块303可以包括:
确定单元3031,用于根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;
第一判定单元3032,用于判断所述确定单元3031确定的所述概率是否不大于预设的第一阈值,若是,则判定所述待过滤信息不是非法信息,否则,判定所述待过滤信息为非法信息。
具体实施中,所述机器过滤模块303可以包括:
确定单元3031,用于根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;
第二判定单元3033,用于当确定的所述概率不大于预设的第一阈值时,判定所述待过滤信息不是非法信息;当确定的所述概率大于预设的第二阈值时,判定所述待过滤信息是非法信息,其中,所述第二阈值大于所述第一阈值;当确定的所述概率大于所述第一阈值且不大于所述第二阈值时,判断所述待过滤信息中是否包含第二黑名单中预设的垃圾分词,若是,则判定所述待过滤信息为非法信息,否则,判定所述待过滤信息不是非法信息,其中,所述垃圾分词包括除敏感分词以外的非法分词。
所述机器过滤模块303还包括:
训练单元3034,用于当所述第二判定单元3033确定所述概率大于所述第一阈值且不大于所述第二阈值,且所述待过滤信息中不包含第二黑名单中预设的垃圾分词时,将所述待过滤信息添加到用于训练过滤模型的样本集中,并采用添加了所述待过滤信息后的样本集重新训练过滤模型。
所述机器过滤模块303包括:
测试设定单元3035,用于采用所述过滤模型确定预设的测试集中的各测试信息是非法信息的概率,其中,所述测试集中的测试信息包括非法信息和合法信息;根据确定的各测试信息是非法信息的概率,确定满足指定条件的测试信息,其中,针对一个待定测试信息,如果采用所述过滤模型确定该待定测试信息是非法信息的概率大于所述第一阈值,且所述待定测试信息为合法信息,则该待定测试信息为满足指定条件的测试信息;将采用所述过滤模型对各满足指定条件的测试信息确定的概率的平均值,设定为第二阈值。
具体的上述信息过滤装置可以位于服务器中。
本发明实施例提供一种信息过滤方法及装置,该方法先通过规则过滤方法判断待过滤信息中是否包含第一黑名单中预设的敏感分词,若包含则直接将其过滤,否则,通过机器学习过滤方法判断其是否为非法信息,若是,则删除发布的该待过滤信息,否则保持该待过滤信息的发布状态。通过上述方法,需要维护的第一黑名单中仅包括敏感分词,从而有效减少了需要维护的黑名单中的分词的数量,提高了维护黑名单的效率,而且,在通过规则过滤方法确定待过滤信息中不包含敏感分词时,可直接发布该信息,即使该信息是除敏感信息以外的其他非法信息,后续也可通过机器学习过滤方法将发布的该信息删除,因此提高了信息发布的时效性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种信息过滤方法,其特征在于,包括:
获取待过滤信息;
判断所述待过滤信息中是否包含第一黑名单中预设的敏感分词;
若是,则过滤所述待过滤信息;
否则,发布所述待过滤信息,并根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,若是,则删除发布的所述待过滤信息,否则保持所述待过滤信息的发布状态不变。
2.如权利要求1所述的方法,其特征在于,根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,具体包括:
根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;并
判断确定的所述概率是否不大于预设的第一阈值,若是,则判定所述待过滤信息不是非法信息,否则,判定所述待过滤信息为非法信息。
3.如权利要求1所述的方法,其特征在于,根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,具体包括:
根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;并
当确定的所述概率不大于预设的第一阈值时,判定所述待过滤信息不是非法信息;
当确定的所述概率大于预设的第二阈值时,判定所述待过滤信息是非法信息,其中,所述第二阈值大于所述第一阈值;
当确定的所述概率大于所述第一阈值且不大于所述第二阈值时,判断所述待过滤信息中是否包含第二黑名单中预设的垃圾分词,若是,则判定所述待过滤信息为非法信息,否则,判定所述待过滤信息不是非法信息,其中,所述垃圾分词包括除敏感分词以外的非法分词。
4.如权利要求3所述的方法,其特征在于,当确定的所述概率大于所述第一阈值且不大于所述第二阈值,且所述待过滤信息中不包含第二黑名单中预设的垃圾分词时,所述方法还包括:
将所述待过滤信息添加到用于训练过滤模型的样本集中,并采用添加了所述待过滤信息后的样本集重新训练过滤模型。
5.如权利要求3所述的方法,其特征在于,预设第二阈值的方法,具体包括:
预先采用所述过滤模型确定预设的测试集中的各测试信息是非法信息的概率,其中,所述测试集中的测试信息包括非法信息和合法信息;
根据确定的各测试信息是非法信息的概率,确定满足指定条件的测试信息,其中,针对一个待定测试信息,如果采用所述过滤模型确定该待定测试信息是非法信息的概率大于所述第一阈值,且该待定测试信息为合法信息,则该待定测试信息为满足指定条件的测试信息;
将采用所述过滤模型对各满足指定条件的测试信息确定的概率的平均值,设定为第二阈值。
6.一种信息过滤装置,其特征在于,包括:
获取模块,用于获取待过滤信息;
规则过滤模块,用于判断所述获取模块获取的待过滤信息中是否包含第一黑名单中预设的敏感分词,若是,则过滤所述待过滤信息,否则,发布所述待过滤信息;
机器过滤模块,用于当所述规则过滤模块发布所述待过滤信息时,根据所述待过滤信息中包含的分词以及预先训练的过滤模型,判断所述待过滤信息是否为非法信息,若是,则删除发布的所述待过滤信息,否则保持所述待过滤信息的发布状态不变。
7.如权利要求6所述的装置,其特征在于,所述机器过滤模块包括:
确定单元,用于根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;
第一判定单元,用于判断所述确定单元确定的所述概率是否不大于预设的第一阈值,若是,则判定所述待过滤信息不是非法信息,否则,判定所述待过滤信息为非法信息。
8.如权利要求6所述的装置,其特征在于,所述机器过滤模块包括:
确定单元,用于根据所述待过滤信息中包含的分词以及预先训练的过滤模型,确定所述待过滤信息是非法信息的概率;
第二判定单元,用于当确定的所述概率不大于预设的第一阈值时,判定所述待过滤信息不是非法信息;当确定的所述概率大于预设的第二阈值时,判定所述待过滤信息是非法信息,其中,所述第二阈值大于所述第一阈值;当确定的所述概率大于所述第一阈值且不大于所述第二阈值时,判断所述待过滤信息中是否包含第二黑名单中预设的垃圾分词,若是,则判定所述待过滤信息为非法信息,否则,判定所述待过滤信息不是非法信息,其中,所述垃圾分词包括除敏感分词以外的非法分词。
9.如权利要求8所述的装置,其特征在于,所述机器过滤模块还包括:
训练单元,用于当所述第二判定单元确定所述概率大于所述第一阈值且不大于所述第二阈值,且所述待过滤信息中不包含第二黑名单中预设的垃圾分词时,将所述待过滤信息添加到用于训练过滤模型的样本集中,并采用添加了所述待过滤信息后的样本集重新训练过滤模型。
10.如权利要求8所述的装置,其特征在于,所述机器过滤模块包括:
测试设定单元,用于采用所述过滤模型确定预设的测试集中的各测试信息是非法信息的概率,其中,所述测试集中的测试信息包括非法信息和合法信息;根据确定的各测试信息是非法信息的概率,确定满足指定条件的测试信息,其中,针对一个待定测试信息,如果采用所述过滤模型确定该待定测试信息是非法信息的概率大于所述第一阈值,且所述待定测试信息为合法信息,则该待定测试信息为满足指定条件的测试信息;将采用所述过滤模型对各满足指定条件的测试信息确定的概率的平均值,设定为第二阈值。
CN201310247624.9A 2013-06-20 2013-06-20 一种信息过滤方法及装置 Active CN103347009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310247624.9A CN103347009B (zh) 2013-06-20 2013-06-20 一种信息过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310247624.9A CN103347009B (zh) 2013-06-20 2013-06-20 一种信息过滤方法及装置

Publications (2)

Publication Number Publication Date
CN103347009A true CN103347009A (zh) 2013-10-09
CN103347009B CN103347009B (zh) 2016-09-28

Family

ID=49281783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310247624.9A Active CN103347009B (zh) 2013-06-20 2013-06-20 一种信息过滤方法及装置

Country Status (1)

Country Link
CN (1) CN103347009B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106028089A (zh) * 2016-06-24 2016-10-12 武汉斗鱼网络科技有限公司 一种视频直播画面屏蔽投放广告的方法及装置
CN106210014A (zh) * 2016-07-04 2016-12-07 微梦创科网络科技(中国)有限公司 一种信息处理方法和设备
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
CN109407504A (zh) * 2018-11-30 2019-03-01 华南理工大学 一种基于智能手表的人身安全检测系统及方法
CN109635073A (zh) * 2018-10-18 2019-04-16 深圳壹账通智能科技有限公司 论坛社区应用管理方法、装置、设备及计算机可读存储介质
CN109639836A (zh) * 2019-01-28 2019-04-16 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN110020532A (zh) * 2019-04-15 2019-07-16 苏州浪潮智能科技有限公司 一种信息过滤方法、系统、设备及计算机可读存储介质
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
CN110569376A (zh) * 2019-09-18 2019-12-13 百度在线网络技术(北京)有限公司 一种信息处理方法及装置、电子设备、存储介质
CN111401075A (zh) * 2020-04-07 2020-07-10 上海创蓝文化传播有限公司 一种智能短信审核的方法
CN111985896A (zh) * 2020-08-19 2020-11-24 中国银行股份有限公司 邮件过滤方法及装置
CN112966296A (zh) * 2021-01-28 2021-06-15 北京明朝万达科技股份有限公司 基于规则配置和机器学习的敏感信息过滤方法和系统
CN114048740A (zh) * 2021-09-28 2022-02-15 马上消费金融股份有限公司 敏感词检测方法、装置及计算机可读存储介质
CN114866349A (zh) * 2022-07-06 2022-08-05 深圳市永达电子信息股份有限公司 一种网络信息过滤方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120622A1 (en) * 2001-09-21 2003-06-26 Kari Nurmela Data packet filtering
CN102087641A (zh) * 2009-12-08 2011-06-08 北大方正集团有限公司 一种网络信息的发布方法及系统
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120622A1 (en) * 2001-09-21 2003-06-26 Kari Nurmela Data packet filtering
CN102087641A (zh) * 2009-12-08 2011-06-08 北大方正集团有限公司 一种网络信息的发布方法及系统
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106028089A (zh) * 2016-06-24 2016-10-12 武汉斗鱼网络科技有限公司 一种视频直播画面屏蔽投放广告的方法及装置
CN106210014A (zh) * 2016-07-04 2016-12-07 微梦创科网络科技(中国)有限公司 一种信息处理方法和设备
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
WO2020077825A1 (zh) * 2018-10-18 2020-04-23 深圳壹账通智能科技有限公司 论坛社区应用管理方法、装置、设备及可读存储介质
CN109635073A (zh) * 2018-10-18 2019-04-16 深圳壹账通智能科技有限公司 论坛社区应用管理方法、装置、设备及计算机可读存储介质
CN109407504A (zh) * 2018-11-30 2019-03-01 华南理工大学 一种基于智能手表的人身安全检测系统及方法
CN109407504B (zh) * 2018-11-30 2021-05-14 华南理工大学 一种基于智能手表的人身安全检测系统及方法
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN109639836A (zh) * 2019-01-28 2019-04-16 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN109639836B (zh) * 2019-01-28 2022-02-01 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN110020532A (zh) * 2019-04-15 2019-07-16 苏州浪潮智能科技有限公司 一种信息过滤方法、系统、设备及计算机可读存储介质
CN110569376A (zh) * 2019-09-18 2019-12-13 百度在线网络技术(北京)有限公司 一种信息处理方法及装置、电子设备、存储介质
CN110569376B (zh) * 2019-09-18 2022-05-31 百度在线网络技术(北京)有限公司 一种信息处理方法及装置、电子设备、存储介质
CN111401075A (zh) * 2020-04-07 2020-07-10 上海创蓝文化传播有限公司 一种智能短信审核的方法
CN111985896A (zh) * 2020-08-19 2020-11-24 中国银行股份有限公司 邮件过滤方法及装置
CN111985896B (zh) * 2020-08-19 2023-08-18 中国银行股份有限公司 邮件过滤方法及装置
CN112966296A (zh) * 2021-01-28 2021-06-15 北京明朝万达科技股份有限公司 基于规则配置和机器学习的敏感信息过滤方法和系统
CN114048740A (zh) * 2021-09-28 2022-02-15 马上消费金融股份有限公司 敏感词检测方法、装置及计算机可读存储介质
CN114048740B (zh) * 2021-09-28 2022-10-28 马上消费金融股份有限公司 敏感词检测方法、装置及计算机可读存储介质
CN114866349A (zh) * 2022-07-06 2022-08-05 深圳市永达电子信息股份有限公司 一种网络信息过滤方法

Also Published As

Publication number Publication date
CN103347009B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN103347009A (zh) 一种信息过滤方法及装置
CN108345524B (zh) 应用程序监控方法及应用程序监控装置
CN102024045A (zh) 信息分类处理方法、装置和终端
CN107610695A (zh) 驾驶人语音唤醒指令词权重的动态调整方法
CN106708912B (zh) 垃圾文件识别及管理方法、识别装置、管理装置和终端
CN104239195A (zh) 一种处理电子设备耗电的方法及电子设备
CN106911776B (zh) 一种云存储设备的管理方法及装置
CN112860968A (zh) 一种异常检测的方法以及装置
CN104808991A (zh) 一种终端处理方法
CN107590016A (zh) 掉电重启识别方法及装置
CN108366098B (zh) 一种网络节点的数据交互方法及装置
CN107562703B (zh) 字典树重构方法及系统
CN103179024A (zh) 邮件过滤方法及装置
CN104348712B (zh) 一种垃圾邮件过滤方法及装置
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
WO2020052731A1 (en) Apparatus and method for managing event notifications in mobile devices and computer program product therefor
CN104424109B (zh) 一种信息处理方法及电子设备
CN112883065A (zh) 一种数据存储方法、装置及计算机设备
CN107819702A (zh) 一种流量分配方法及装置、终端和可读存储介质
CN105760198A (zh) 手机app更新方法及系统
CN105721697A (zh) 手机短信屏蔽方法及系统
CN108900990B (zh) 一种流量提醒方法和装置
CN108089904A (zh) 一种展示页面扩展方法及设备
CN105183176A (zh) 一种应用程序的处理方法和装置
CN113655958A (zh) 应用数据的存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230414

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.