CN103729384B - 信息过滤方法、系统与装置 - Google Patents

信息过滤方法、系统与装置 Download PDF

Info

Publication number
CN103729384B
CN103729384B CN201210392601.2A CN201210392601A CN103729384B CN 103729384 B CN103729384 B CN 103729384B CN 201210392601 A CN201210392601 A CN 201210392601A CN 103729384 B CN103729384 B CN 103729384B
Authority
CN
China
Prior art keywords
information
erroneous judgement
judgement information
storehouse
information characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210392601.2A
Other languages
English (en)
Other versions
CN103729384A (zh
Inventor
粟栗
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210392601.2A priority Critical patent/CN103729384B/zh
Publication of CN103729384A publication Critical patent/CN103729384A/zh
Application granted granted Critical
Publication of CN103729384B publication Critical patent/CN103729384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息过滤系统,用以解决现有技术中存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。其包括:信息过滤服务器,用于按照预设信息过滤机制,对待过滤信息集合进行过滤,输出由判断出的可疑的信息构成的第一信息集合;正反馈二次过滤服务器,用于获得信息过滤服务器输出的第一信息集合,并根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配;放行判断出的与误判信息特征相匹配的信息;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的。本发明还公开了一种信息过滤方法和装置。

Description

信息过滤方法、系统与装置
技术领域
本发明涉及数据业务领域,尤其涉及一种信息过滤方法、系统与装置。
背景技术
信息过滤是互联网的一项重要技术,其处理对象一般是网页、数据业务中传输的信息(如基于bt下载的文本信息、图片信息、音频信息和视频信息等)短信、彩信和铃声等。
由于需要过滤的信息一般不具备多次完全重复的特点,信息过滤一般采用基于特征的识别方式。以数据业务中的文本信息为例,基于特征的方式主要是指基于一些关键词对文本信息进行过滤。该方式的缺陷在于,由于一些合法信息也可能会包含指定的关键词,所以该方式会将合法信息误判为应该过滤的可疑的信息,从而导致最终的过滤结果会存在着一定的误判率。由于实际用户访问数据中,需要过滤的可疑的信息在总信息中占比非常少,一般为0.1‰,而被错误地判断为可疑的信息的误判信息在总信息中占比则可能会达到10%左右,这样,按照该方式得到的过滤结果中,误判信息的占比可能高达99%。可见,信息过滤技术面临的最大问题之一是误判情况非常严重。
为了避免产生错误过滤,现有技术一般通过人工审核系统来实现从过滤结果中提取出误判信息。一个典型的包含人工审核系统的信息过滤系统如图1所示。图1中,待过滤原始信息首先输入到信息过滤服务器,信息过滤服务器按照预设的过滤机制对待过滤原始信息进行过滤后,将过滤出的可疑的信息提交人工审核系统进行人工审核。通过人工审核,可以从信息过滤服务器过滤出的可疑的信息中筛选出误判信息。包含人工审核系统的该信息过滤系统虽然可以最终实现较低的误判率,但由于误判信息数量一般比较庞大,而人工审核的环节无疑会耗费非常大的人力资源,且效率一般较低。因此,如何从技术层面进行改进而减少产生的误判信息的数量是目前重点研究的内容。
目前常用的用于减少误判信息数量的方法如下:
(1)通过优化算法和策略来减少误判信息数量的机制
该机制的主要思想是对信息过滤系统所用的过滤策略进行调整或通过二次过滤方式添加新过滤条件,实现在系统进行过滤时更准确的目的。一般来说可设置更多、更精确的过滤条件,例如若以“法轮”作为关键词所得到的过滤效果不好,则可以将“法轮&功”或者“法轮&大法”等作为细化的关键词。又比如,对于短信来说,如果采用“该用户1小时内发送短信数量>500”和“短信正文附带电话号码”作为过滤条件不能得到较好的过滤效果,则还可以添加“发送对象无重复”作为一个过滤条件。
由于信息自身的特点,过滤条件设定越严格,漏报的情况就越多,因此要设定一个同时满足漏报少、误判少的优化算法非常困难。
(2)基于访问者白名单的过滤机制
该机制将可信的访问者纳入白名单,不对由该部分访问者所发送的任何信息进行过滤,即不对一些固定来源(如白名单中的访问者的IP地址、手机号等)的信息进行过滤。由于可信的访问者比较少,因此采用该过滤机制一般不会明显降低误判信息的数量;此外,白名单中的访问者发送的信息仍然有可能包含需过滤的可疑的信息,从而该过滤机制存在不完善的缺陷。
(3)基于目标白名单的过滤机制
该机制的基本思想为设定目标白名单(目标白名单中可以包含如往来的信息受到监控的IP地址等),不拦截任何发向目标白名单中的地址的信息。由于该机制可以减少一部分输入到信息过滤服务器中的待过滤原始信息,从而能够减少产生的误判信息数量。但类似于基于访问者白名单的过滤机制,由于发向目标白名单中的地址的信息仍然有可能包含需过滤的可疑的信息,从而该过滤机制仍然不完善。
发明内容
本发明实施例提供一种信息过滤方法、系统与装置,用以解决现有技术中存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。
本发明实施例采用以下技术方案:
一种信息过滤系统,包括信息过滤服务器,还包括二次过滤服务器,其中:信息过滤服务器,用于按照预设信息过滤机制,对待过滤信息集合进行过滤,输出由判断出的可疑的信息构成的第一信息集合;二次过滤服务器,用于获得信息过滤服务器输出的第一信息集合,并根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配;放行判断出的与误判信息特征相匹配的信息;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的。
一种信息过滤方法,包括:
获得信息过滤服务器输出的第一信息集合,该第一信息集合由被所述信息过滤服务器判断为可疑的信息构成;根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的;放行判断出的与误判信息特征相匹配的信息。
一种信息过滤装置,包括:
第一获得单元,用于获得信息过滤服务器输出的第一信息集合,该第一信息集合由被所述信息过滤服务器判断为可疑的信息构成;第一判断单元,用于根据预先设置的误判信息特征库,分别判断第一获得单元获得的所述第一信息集合中的每条信息是否与误判信息特征相匹配;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的;第一放行单元,放行第一判断单元判断出的与误判信息特征相匹配的信息。
本发明实施例的有益效果如下:
本发明实施例通过在将由信息过滤服务器判断为“可疑的信息”送交人工审核系统之前,先根据从被误判为可疑的信息的误判信息中提取的误判信息特征,对该些“可疑的信息”进行二次过滤,从中剔除与误判信息特征相匹配的误判信息,从而可以大大减少送交人工审核系统的信息数量,这就使得人工审核系统所要审核的信息量大大减少,因此也就减少了人工审核所需要耗费的资源量,解决了现有技术存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。
附图说明
图1为现有技术中一个典型的包含人工审核系统的信息过滤系统的结构示意图;
图2为本发明实施例提供的信息过滤系统的具体结构示意图;
图3a为用于实现实施例2、3的系统结构示意图;
图3b为实施例2的具体实现流程示意图;
图4为实施例3的具体实现流程示意图;
图5为本发明实施例提供的信息过滤方法的具体流程示意图;
图6为本发明实施例提供的信息过滤装置的具体结构示意图。
具体实施方式
按照现有技术,被信息过滤服务器判断为可疑的信息中难免会存在一些误判信息,而最终能识别误判信息的是人工审核系统中的审核人员。通过审核人员的审核,人工审查系统的输出中会包含两个方面的内容:一是被正确判定的可疑的信息,二是被误判为可疑的信息的误判信息。在现有的技术方案中,对人工审查系统输出的内容的利用尚不充分。
基于上述技术背景,考虑到误判信息中一般会包含一些可以用于辨识误判信息的特征,本发明实施例提供了一种新颖的信息过滤方案,以解决现有技术中存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。该方案利用在现有技术中未能被充分利用的误判信息,通过在将由信息过滤服务器判断为“可疑的信息”送交人工审核系统之前,先根据从被误判为可疑的信息的误判信息中提取的误判信息特征,对该些“可疑的信息”进行二次过滤,从中剔除与误判信息特征相匹配的误判信息,大大减少送交人工审核系统的信息数量。
以下结合附图,详细说明本发明实施例提供的方案。
首先,本发明实施例提供一种如图2所示的信息过滤系统,该系统主要包括信息过滤服务器21和二次过滤服务器22,这两个服务器的主要功能如下:
信息过滤服务器21主要用于按照预设信息过滤机制,对待过滤信息集合进行过滤,输出由被信息过滤服务器判断为可疑的信息构成的第一信息集合。
其中,这里所述的预设信息过滤机制可以但不限于是前文的背景技术部分所介绍的通过优化算法和策略来减少误判信息数量的机制、基于访问者白名单的过滤机制或者基于目标白名单的过滤机制等。信息过滤服务器21根据上述预设信息过滤机制所判断出的“可疑的信息”一般说来都会包含误判信息,本发明实施例的目的就是要从该些“可疑的信息”中自动识别出误判信息,从而减少送报人工审核系统的信息。为了达到该目的,二次过滤服务器22首先会获得信息过滤服务器21输出的该第一信息集合;然后,再根据预先从误判信息中提取的误判信息特征构成的误判信息特征库,分别判断第一信息集合中的每条信息是否与误判信息特征相匹配。针对判断出的与误判信息特征相匹配的信息,二次过滤服务器22会将其确定为合法信息,并放行该部分信息,而不再将其提交给人工审核系统;而针对被判断出的与误判信息特征不匹配的信息,则会将这部分信息提交人工审核系统。
与现有技术相似,通过本发明实施例提供的上述系统的处理,最终提交给人工审核系统的这部分信息中,仍然可能是一方面包含被正确判定的可疑的信息,另一方面包含被误判为可疑的信息的误判信息。然而,由于通过上述两个服务器的处理,可以实现从信息过滤服务器21输出的“可疑的信息”中自动识别出一部分误判信息,并不再将识别出的这部分误判信息送报人工审核系统,从而减少了送报人工审核系统的信息数量,节省了人工审核系统的处理资源。
本发明实施例中,考虑到人工审核系统可以对二次过滤服务器22判断出的与误判信息特征不匹配的信息进行进一步审核,并输出没有被二次过滤服务器22识别到的误判信息,因此提出了利用人工审核系统输出的误判信息对误判信息特征库进行更新的一种正反馈机制。该机制的主要思想在于:首先,二次过滤服务器22将判断出的与误判信息特征不匹配的信息提交人工审核系统;然后,二次过滤服务器22从人工审核系统根据该些信息而输出的误判信息中提取误判信息特征,并利用提取的误判信息特征更新该误判信息特征库,得到更新后的误判信息特征库。
基于更新后的误判信息特征库,当二次过滤服务器22获得信息过滤服务器在输出所述第一信息集合后输出的、由被信息过滤服务器判断为可疑的信息构成的第二信息集合时,就可以根据更新后的该误判信息特征库,分别判断第二信息集合中的每条信息是否与更新后的误判信息特征库包含的误判信息特征相匹配;将判断出的与更新后的误判信息特征库包含的误判信息特征相匹配的信息确定为不提交人工审核系统的信息。
通过采用上述正反馈机制,可以实现动态更新误判信息特征库,使得误判信息特征库能够满足二次过滤服务器22对于误判信息的过滤需求。这样,即使在某次信息过滤过程中,二次过滤服务器22不能识别某误判信息,但在利用该误判信息更新误判信息特征库后,在接下来的信息过滤中,二次过滤服务器22就能根据更新后的误判信息特征库,成功实现对该误判信息的识别。
需要说明的是,对误判信息的识别是通过比较误判信息与误判信息特征库中包含的误判特征信息而实现的。通过进行上述比较从而从第一信息集合中识别出误判信息的的具体实施过程可以采用下述通用方式。下述方式是以第一信息集合中包含的某一个可疑的信息作为样本信息为例进行说明,而对于第一信息集合中包含的该可疑的信息以外的其他可疑的信息,也可以采用下述通用方式来判断其是否为误判信息。
具体地,该方式包括下述步骤:
(1)首先,从该样本信息中确定用于进行比较的起始特征,该起始特征一般为该样本信息中包含的满足信息过滤服务器21所采用的预设信息过滤机制的特征,即表征该样本信息为可疑的信息的特征;
(2)然后,当存在多个误判信息特征库,且不同误判信息特征库不仅分别保存有用于表征某信息为误判信息的误判信息特征,还分别保存有用于表征某信息为可疑的信息的特征时,基于从样本信息中确定出的起始特征,选取包含有该起始特征的误判信息特征库;
(3)逐个比较选取的该误判信息特征库中包含的各个误判信息特征和样本信息,直到比较结果满足预先定义的匹配条件(比如通过比较,从选取的误判信息特征库中发现存在与样本信息相匹配的一个误判信息特征;或从选取的误判信息特征库中发现存在与样本信息相匹配的多个误判信息特征等),或已遍历误判信息特征库中的各个误判信息特征,则停止比较。
通过执行上述步骤(3),若得到的比较结果满足了预先定义的匹配策略,则确定该样本信息为误判信息;否则则确定该样本信息为可疑的信息。
基于上述比较方式,以下提供三个具体的实施例。
实施例1
实施例1中,假设样本信息为这样一段文本“AV接口算是出现比较早的一种接口,它由红、白、黄三种颜色的线组成,其中黄线为视频传输线,红色和白色则是负责左右声道的声音传输。AV接口的出现首次把视频和音频进行了分离传输,但是其负责视频传输的只有一条线,故这种传输方式还是先将亮度和色度混合,然后在显示设备上进行解码显示,所以,在视频传输质量上还有些损失的。AV接口曾经被广泛应用在早期的VCD和DVD机与电视机的连接上”。
那么,若假定“AV”是信息过滤服务器21所采用的信息过滤机制中的文本过滤规则中的关键字,则由于上述文本中有多个“AV”出现,信息过滤服务器21会将根据该关键字,将其判定为可疑的文本并送交人工审核系统。经人工审核系统审核可以确定,该文本为不应该被过滤的误判信息。则基于该文本及对于文本而设置的误判特征信息的提取规则,可以从该文本中提取出如表1所示的误判特征信息,该些误判特征信息构成的一个集合可以视作一个小型的误判信息特征库。
表1:
表1中,允许偏差范围表征了误判特征信息与“可疑的信息”之间可被接受的匹配程度范围。
基于表1,可以实现对另一段如下的新文本进行判定。
该新文本为“AV接口算是出现比较早的一种接口,它由红、白、黄三种颜色的线组成,其中黄线为视频传输线,红色和白色则是负责左右声道的声音传输。AV接口的出现首次把视频和音频进行了分离传输,但是其负责视频传输的只有一条线,故这种传输方式还是先将亮度和色度混合,然后在显示设备上进行解码显示,所以,在视频传输质量上还有些损失的。AV接口曾经被广泛应用在早期的VCD和DVD机与电视机的连接上”。
可以按照表1所示的“误判特征信息的提取规则所规定提取的信息”,从该新文本中提取出相应的如下表2所示的信息。通过比较误判特征信息和从新文本中提取出的信息,得到的判定结果如表2所示。由于得到的判定结果满足表1中所示的匹配策略“若N个误判特征信息中有N-2个与‘可疑的信息’相匹配,则判定该条‘可疑的信息’为误判信息”,因此可以确定新文本为误判信息,从而不将其提交到人工审核系统。
表2:
类似地,对于图片信息、音频信息、视频信息,均可以设置相应的误判特征信息的提取规则及匹配策略。
比如,对于图片信息而言,相应的误判信息特征库可以如表3所示。
表3:
对于音频信息而言,其可以转化为音频片段,由于音频片段与文字信息类似,也可以根据其包含的关键信息(如关键音频)进行识别,因此相应于音频信息的误判信息特征库类似上表1,在此不再赘述。
对于视频信息而言,其可以通过取帧的方式转换为图片集。相应的误判信息特征库如表4所示。
表4:
基于信息类型的多样性,上述正反馈机制中,二次过滤服务器22从确定的误判信息中提取误判信息特征可以分为多种情况。比如,针对文本类型的误判信息,提取的误判信息特征可以为该误判信息的文本长度和/或文本类型的误判信息中的包含指定关键字的字符串等;而针对图片类型的误判信息,提取的误判信息特征可以为误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项。又比如,针对视频类型的误判信息,提取的误判信息特征可以为误判信息包含的指定关键帧;而针对音频类型的误判信息,提取的误判信息特征可以为误判信息包含的首、末一段音频的声波特征等。
基于信息类型的多样性,本发明实施例中所述的误判信息特征库还可以进一步划分为:误判文本信息特征库、误判图片信息特征库、误判音频信息特征库和误判视频信息特征库。其中,误判文本信息特征库中存储的是从文本类型的误判信息中提取得到的误判信息特征,误判图片信息特征库中存储的是从图片类型的误判信息中提取得到的误判信息特征,类似的,误判音频信息特征库和误判视频信息特征库中分别存储的是从相应类型的误判信息中提取得到的误判信息特征。
上述四种误判信息特征库是按照常见的信息类型而设置的。需要说明的是,本发明实施例中所述的误判信息特征库还可以进一步包括用于存储从其他类型的误判信息中提取的误判信息特征的其他误判信息特征库。
基于上述四种误判信息特征库,二次过滤服务器22具体可以用于:分别针对第一信息集合中的每条信息执行:首先,确定该条信息的信息类型;然后,从上述四种误判信息特征库中确定对应于该信息类型的误判信息特征库;最后,判断该条信息是否与确定的该误判信息特征库中包含的误判信息特征相匹配。
由上述系统可知,本发明实施例通过在将由信息过滤服务器判断为“可疑的信息”送交人工审核系统之前,先根据从被误判为可疑的信息的误判信息中提取的误判信息特征,对该些“可疑的信息”进行二次过滤,从中剔除与误判信息特征相匹配的误判信息,从而可以大大减少送交人工审核系统的信息数量,这就使得人工审核系统所要审核的信息量大大减少,因此也就减少了人工审核所需要耗费的资源量,解决了现有技术存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。
此外,本发明实施例提供的上述方案可与已有的通过优化算法和策略来减少误判信息数量的机制、基于访问者白名单的过滤机制或者基于目标白名单的过滤机制等同时使用,从而可以进一步减少送交人工审核系统的误判信息的数量。此外,上述系统的运行无需人工干预,具备很强的自动化能力。
以下通过两个具体的实施例,详细说明上述系统在实际中的应用。
实施例2
实施例2采用如图3a所示的系统实现本发明实施例提供的方案。
实施例2中,假设待过滤信息集合中包含字符串“端口AVAudio”这样的文本信息,并假设信息过滤服务器所采用的过滤策略是根据关键词进行信息过滤,且其利用的关键词中包含“AV”,则实施例2采用如图3b所示的下述步骤实现避免对该待过滤信息的误判:
步骤31,信息过滤服务器按照上述过滤策略对待过滤的第一信息集合进行过滤,并将可疑的信息输出到正反馈二次过滤服务器;
由于上述文本信息中包含“端口AVAudio”这样的字符串,而信息过滤服务器所利用的关键词中包含“AV”这一关键词,因此,信息过滤服务器会将该文本信息确定为可疑的信息并输出。
步骤32,正反馈二次过滤服务器比较信息过滤服务器输出的可疑的信息和误判信息特征库;
步骤33,正反馈二次过滤服务器通过上述比较,从信息过滤服务器输出的可疑的信息中,确定与误判信息特征库中包含的误判信息特征相匹配的信息,即确定误判信息,而针对信息过滤服务器输出的可疑的信息中包含的除确定的误判信息外的其他信息,则仍然确定其为可疑的信息;
本发明实施例中,假设当前的误判信息特征库中不包含可以用于识别上述文本信息的误判信息特征,则该文本信息会被正反馈二次过滤服务器确认为可疑的信息。
步骤34,正反馈二次过滤服务器将自身确定的可疑的信息发送给人工审核系统;
由前文可知,包含字符串“端口AV Audio”的文本信息原本应为合法信息,但其仍然会被误判为非误判信息,并发送给人工审核系统。
步骤35,人工审核系统通过对正反馈二次过滤服务器发送的可疑的信息的审核,输出误判信息;
由于通过人工审核系统的审核,包含字符串“端口AV Audio”的文本信息可以被识别为误判信息,从而人工审核系统输出的误判信息中会包含该文本信息。
步骤36,正反馈二次过滤服务器从人工审核系统输出的误判信息中提取误判信息特征;
针对包含字符串“端口AVAudio”的文本信息,正反馈二次过滤服务器可以提取区别于关键词“AV”的其他关键词作为用于识别该文本信息的误判信息特征。比如,可以提取字符串“端口AVAudio”作为误判信息特征1。此外,还可以提取该文本信息的长度(即其包含的字符的个数)作为误判信息特征2,或者,还可以提取该文本信息的其他一些典型特征,作为误判信息特征3等。提取的误判信息特征如下表5所示:
表5:
步骤37,正反馈二次过滤服务器利用提取的误判信息特征,更新误判信息特征库,具体更新方式可以为将提取的误判信息特征写入到误判信息特征库中;
步骤38,信息过滤服务器按照前文所述过滤策略对待过滤的第二信息集合进行过滤后,将可疑的信息输出到正反馈二次过滤服务器;
假设该待过滤的第二信息集合中包含上述文本信息,则信息过滤服务器按照该过滤策略,仍然会将该文本信息确定为可疑的信息并输出。
步骤39,正反馈二次过滤服务器比较信息过滤服务器输出的可疑的信息和更新后的误判信息特征库;
步骤310,正反馈二次过滤服务器通过上述比较,从信息过滤服务器输出的可疑的信息中,确定与更新后的误判信息特征库中包含的误判信息特征相匹配的信息,即确定误判信息,而针对信息过滤服务器输出的可疑的信息中包含的除确定的误判信息外的其他信息,则仍然确定其为可疑的信息;
由于更新后的误判信息特征库中包含如表5所示的可以用于识别上述文本信息的误判信息特征,则该文本信息会被正反馈二次过滤服务器确认为误判信息。
值得说明的是,实施例2中,判断可疑的信息与误判信息特征是否相匹配所采用的匹配策略可以如表2中所示。即当任意可疑的信息与误判信息特征1的匹配度大于90%时,确定该可疑的信息与误判信息特征1相匹配,而当该可疑的信息与误判信息特征2的匹配度达到100%时,确定该可疑的信息与误判信息特征1相匹配。或者,当任意可疑的信息与误判信息特征1的匹配度达到90%,且与误判信息特征2的匹配度达到100%时,确定该可疑的信息与误判信息特征相匹配。
表6:
步骤311,正反馈二次过滤服务器将自身确定的可疑的信息发送给人工审核系统,流程结束。
由实施例2可以看出,采用本发明实施例提供的方案,通过在将由信息过滤服务器判断为“可疑的信息”送交人工审核系统之前,先根据从被误判为可疑的信息的误判信息中提取的误判信息特征,对该些“可疑的信息”进行二次过滤,从中剔除与误判信息特征相匹配的误判信息,从而可以大大减少送交人工审核系统的信息数量,这就使得人工审核系统所要审核的信息量大大减少,因此也就减少了人工审核所需要耗费的资源量,解决了现有技术存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。
需要说明的是,误判信息特征可以是从人工审核系统在一个指定长度的时间段(如最近3天)内输出的误判信息中提取到的。为了便于描述,后文将人工审核系统在该时间段内输出的误判信息称为热点信息。
实验结果表明,当上述时间段为3天时,基于从热点信息中提取的误判信息特征对信息过滤服务器输出的可疑的信息进行过滤,可以识别出30%的误判信息,从而大大减少了送交人工审核系统的可疑的信息量,降低了人工审核系统的处理资源需求量。
实施例3
实施例3仍然采用如图3a所示的系统实现本发明实施例提供的方案。
实施例3中是以根据人工审核系统输出的误判信息生成误判信息特征库作为起始步骤,介绍本发明实施例提供的方案。具体地,实施例3的实现过程包括如图4所示的下述步骤:
步骤41,从人工审核系统输出的误判信息中提取误判信息特征;
比如,假设误判信息中包含女明星图片,则针对该女明星图片,可以从中提取图片尺寸比例(如图片长宽比)、图片中某种颜色占比(如肤色占比)、图片的色调均值、图片中最大联通域占比等特征,作为该女明星图片的误判信息特征。
具体地,可以假设提取的误判信息特征如下表7所示:
表7:
步骤42,利用提取的误判信息特征,更新误判信息特征库;
实施例3中假设存在分别对应于不同信息类型的四个误判信息特征库,即误判文本信息特征库、误判图片信息特征库、误判音频信息特征库和误判视频信息特征库,则当需要根据某误判信息更新误判信息特征库时,可以先确定该误判信息的类型,再根据确定的类型选取相应的误判信息特征库,并利用从该误判信息中提取的误判信息特征,更新选取的误判信息特征库。
比如,针对上述女明星图片,就可以选取误判图片信息特征库,并利用如表7所示的误判信息特征,更新误判图片信息特征库。
实施例3中,步骤41和42的执行主体可以是正反馈二次过滤服务器,也可以是不同于正反馈二次过滤服务器的可以实现步骤41、42的其他设备。
步骤43,信息过滤服务器按照前文所述的过滤策略对待过滤的第三信息集合进行过滤后,将可疑的信息输出到正反馈二次过滤服务器;
假设该待过滤的第三信息集合中包含上述女明星图片,且信息过滤服务器按照其采用的过滤策略会将该女明星图片确定为可疑的信息并输出。
步骤44,正反馈二次过滤服务器比较信息过滤服务器输出的可疑的信息和更新后的误判信息特征库;
特别地,当存在上述四个误判信息特征库时,正反馈二次过滤服务器可以先确定可疑的信息的类型,然后再选取相应的误判信息特征库进行比较。比如,针对图片类型的可疑的信息,可以选取误判图片信息特征库作为其比较对象。
步骤45,正反馈二次过滤服务器通过上述比较,从信息过滤服务器输出的可疑的信息中,放行判断出的更新后的误判信息特征库中包含的误判信息特征相匹配的信息,而针对信息过滤服务器输出的可疑的信息中包含的除确定的误判信息外的其他信息,则仍然确定其为可疑的信息;
由于更新后的误判信息特征库中包含如表6所示的可以用于识别上述女明星图片的误判信息特征,则该女明星图片会被正反馈二次过滤服务器确认为误判信息。
值得说明的是,实施例5中,判断可疑的信息与误判信息特征是否相匹配所采用的匹配策略可以如表8中所示。即当任意可疑的信息与“图片长宽比”这一误判信息特征的匹配度大于90%,且与误判信息特征“肤色占比”的匹配度大于90%,且与误判信息特征“图片中最大连通区域占比”的匹配度大于90%时,确定该可疑的信息与误判信息特征相匹配。
表8:
步骤46,正反馈二次过滤服务器将自身确定的可疑的信息发送给人工审核系统,流程结束。
为了解决现有技术中存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题,本发明实施例还提供一种信息过滤方法,包括如图5所示的下述步骤:
步骤51,获得信息过滤服务器输出的第一信息集合,该第一信息集合由被信息过滤服务器判断为可疑的信息构成;
步骤52,根据预先设置的误判信息特征库,分别判断第一信息集合中的每条信息是否与误判信息特征相匹配;其中,误判信息特征是从被误判为可疑的信息的误判信息中提取的;
步骤53,放行判断出的与误判信息特征相匹配的信息。
可选的,当误判信息特征库包括:误判文本信息特征库、误判图片信息特征库、误判音频信息特征库和误判视频信息特征库时,
步骤52的实现过程具体包括:分别针对第一信息集合中的每条信息执行下述操作:
确定该条信息的信息类型;
从误判信息特征库中,确定对应于该条信息的信息类型的误判信息特征库;
判断该条信息是否与确定的该误判信息特征库中包含的误判信息特征相匹配。
可选的,为了实现对误判信息特征库的更新,该方法还可以下述步骤:
首先,将判断出的与误判信息特征不匹配的信息提交人工审核系统,并从人工审核系统根据提交的所述信息而输出的误判信息中提取误判信息特征;
然后,利用提取的误判信息特征更新所述误判信息特征库,得到更新后的误判信息特征库。
基于更新后的误判信息特征库,可以进一步获得信息过滤服务器在输出第一信息集合后输出的第二信息集合;并根据更新后的误判信息特征库,分别判断第二信息集合中的每条信息是否与更新后的误判信息特征库中包含的误判信息特征相匹配;将判断出的与更新后的误判信息特征库中包含的误判信息特征相匹配的信息确定为不提交人工审核系统的信息。其中,第二信息集合由被信息过滤服务器判断为可疑的信息构成。
可选的,从确定的误判信息中提取误判信息特征,具体可以包括:
针对文本类型的误判信息,提取误判信息的文本长度,以及文本类型的误判信息中的包含指定关键字的字符串;
针对图片类型的误判信息,提取误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项;
针对视频类型的误判信息,提取误判信息包含的指定关键帧;
针对音频类型的误判信息,提取误判信息包含的首、末一段音频的声波特征。
此外,本发明实施例还提供一种如图6所示的信息过滤装置,包括下述功能单元:
第一获得单元61,用于获得信息过滤服务器输出的第一信息集合,该第一信息集合由被信息过滤服务器判断为可疑的信息构成;
第一判断单元62,用于根据预先设置的误判信息特征库,分别判断第一获得单元61获得的第一信息集合中的每条信息是否与误判信息特征相匹配;其中,误判信息特征是从被误判为可疑的信息的误判信息中提取的;
第一放行单元63,放行第一判断单元62判断出的与误判信息特征相匹配的信息。
可选的,当误判信息特征库包括:误判文本信息特征库、误判图片信息特征库、误判音频信息特征库和误判视频信息特征库时,第一判断单元62具体包括:
信息类型确定模块,用于分别确定所述第一信息集合中的每条信息的信息类型;
特征库确定模块,用于从所述误判信息特征库中,分别确定对应于信息类型确定模块确定的各个信息类型的误判信息特征库;
判断模块,用于分别确定所述第一信息集合中的每条信息是否与特征库确定模块确定的相应的误判信息特征库中包含的误判信息特征相匹配。
可选的,该装置还可以包括:
信息提交单元,用于将第一判断单元判断出的与误判信息特征不匹配的信息提交人工审核系统;
特征提取单元,用于从人工审核系统根据信息提交单元提交的信息而输出的误判信息中提取误判信息特征;
更新单元,用于利用特征提取单元提取的误判信息特征更新所述误判信息特征库,得到更新后的误判信息特征库;
第二获得单元,用于获得信息过滤服务器在输出第一信息集合后输出的由可疑的信息构成的第二信息集合;
第二判断单元,用于根据更新单元得到的更新后的误判信息特征库,分别判断第二获得单元获得的所述第二信息集合中的每条信息是否与更新后的误判信息特征库中包含的误判信息特征相匹配;
第二放行单元,放行第二判断单元判断出的与更新后的误判信息特征库中包含的误判信息特征相匹配的信息。
可选的,上述特征提取单元具体可以用于:针对文本类型的误判信息,提取误判信息的文本长度,以及文本类型的误判信息中的包含指定关键字的字符串;针对图片类型的误判信息,提取误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项;针对视频类型的误判信息,提取误判信息包含的指定关键帧;针对音频类型的误判信息,提取误判信息包含的首、末一段音频的声波特征。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种信息过滤系统,包括信息过滤服务器,其特征在于,还包括二次过滤服务器,其中:
信息过滤服务器,用于按照预设信息过滤机制,对待过滤信息集合进行过滤,输出由判断出的可疑的信息构成的第一信息集合;
二次过滤服务器,用于获得信息过滤服务器输出的第一信息集合,并根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配,所述误判信息特征库中包含从不同类型的误判信息中提取出的误判信息特征;放行判断出的与误判信息特征相匹配的信息;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的;
所述二次过滤服务器,具体用于:分别针对所述第一信息集合中的每条信息执行:确定该条信息的信息类型;从所述误判信息特征库中,确定从确定的所述信息类型的误判信息中提取的误判信息特征;判断该条信息是否与确定的误判信息特征相匹配。
2.如权利要求1所述的系统,其特征在于,二次过滤服务器还用于:
将判断出的与误判信息特征不匹配的信息提交人工审核系统,并从人工审核系统根据提交的所述信息而输出的误判信息中提取误判信息特征;并利用提取的误判信息特征更新所述误判信息特征库,得到更新后的误判信息特征库;获得信息过滤服务器在输出所述第一信息集合后输出的第二信息集合,所述第二信息集合由被信息过滤服务器判断为可疑的信息构成;并根据更新后的误判信息特征库,分别判断所述第二信息集合中的每条信息是否与更新后的误判信息特征库包含的误判信息特征相匹配;放行判断出的与更新后的误判信息特征库包含的误判信息特征相匹配的信息。
3.如权利要求2所述的系统,其特征在于,二次过滤服务器从确定的误判信息中提取误判信息特征,具体包括:
针对文本类型的误判信息,提取误判信息的文本长度,以及文本类型的误判信息中的包含指定关键字的字符串;
针对图片类型的误判信息,提取误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项;
针对视频类型的误判信息,提取误判信息包含的指定关键帧;
针对音频类型的误判信息,提取误判信息包含的首、末一段音频的声波特征。
4.一种信息过滤方法,其特征在于,包括:
获得信息过滤服务器输出的第一信息集合,该第一信息集合由被所述信息过滤服务器判断为可疑的信息构成;
根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配,所述误判信息特征库中包含从不同类型的误判信息中提取的误判信息特征;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的;根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配,具体包括:分别针对所述第一信息集合中的每条信息执行:确定该条信息的信息类型;从所述误判信息特征库中,确定对应于所述信息类型的误判信息特征;判断该条信息是否与确定的该误判信息特征相匹配;
放行判断出的与误判信息特征相匹配的信息。
5.如权利要求4所述的方法,其特征在于,还包括:
将判断出的与误判信息特征不匹配的信息提交人工审核系统;
从人工审核系统根据提交的所述信息而输出的误判信息中提取误判信息特征;并
利用提取的误判信息特征更新所述误判信息特征库,得到更新后的误判信息特征库;
获得信息过滤服务器在输出所述第一信息集合后输出的第二信息集合,所述第二信息集合由被信息过滤服务器判断为可疑的信息构成;并
根据更新后的误判信息特征库,分别判断所述第二信息集合中的每条信息是否与更新后的误判信息特征库中包含的误判信息特征相匹配;
放行判断出的与更新后的误判信息特征库中包含的误判信息特征相匹配的信息。
6.如权利要求5所述的方法,其特征在于,从确定的误判信息中提取误判信息特征,具体包括:
针对文本类型的误判信息,提取误判信息的文本长度,以及文本类型的误判信息中的包含指定关键字的字符串;
针对图片类型的误判信息,提取误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项;
针对视频类型的误判信息,提取误判信息包含的指定关键帧;
针对音频类型的误判信息,提取误判信息包含的首、末一段音频的声波特征。
7.一种信息过滤装置,其特征在于,包括:
第一获得单元,用于获得信息过滤服务器输出的第一信息集合,该第一信息集合由被所述信息过滤服务器判断为可疑的信息构成;
第一判断单元,用于根据预先设置的误判信息特征库,分别判断第一获得单元获得的所述第一信息集合中的每条信息是否与误判信息特征相匹配,所述误判信息特征库中包含从不同类型的误判信息中提取出的误判信息特征;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的;所述第一判断单元具体包括:信息类型确定模块,用于分别确定所述第一信息集合中的每条信息的信息类型;特征库确定模块,用于从所述误判信息特征库中,分别确定对应于信息类型确定模块确定的各个信息类型的误判信息特征;判断模块,用于分别确定所述第一信息集合中的每条信息是否与特征库确定模块确定的误判信息特征相匹配;
第一放行单元,放行第一判断单元判断出的与误判信息特征相匹配的信息。
8.如权利要求7所述的装置,其特征在于,还包括:
信息提交单元,用于将第一判断单元判断出的与误判信息特征不匹配的信息提交人工审核系统;
特征提取单元,用于从人工审核系统根据信息提交单元提交的信息而输出的误判信息中提取误判信息特征;
更新单元,用于利用特征提取单元提取的误判信息特征更新所述误判信息特征库,得到更新后的误判信息特征库;
第二获得单元,用于获得信息过滤服务器在输出所述第一信息集合后输出的第二信息集合,所述第二信息集合由可疑的信息构成的;
第二判断单元,用于根据更新单元得到的更新后的误判信息特征库,分别判断第二获得单元获得的所述第二信息集合中的每条信息是否与更新后的误判信息特征库中包含的误判信息特征相匹配;
第二放行单元,放行第二判断单元判断出的与更新后的误判信息特征库中包含的误判信息特征相匹配的信息。
9.如权利要求8所述的装置,其特征在于,所述特征提取单元具体用于:
针对文本类型的误判信息,提取误判信息的文本长度,以及文本类型的误判信息中的包含指定关键字的字符串;
针对图片类型的误判信息,提取误判信息的长宽比例值、颜色占比值和色调均值中的一项或多项;
针对视频类型的误判信息,提取误判信息包含的指定关键帧;
针对音频类型的误判信息,提取误判信息包含的首、末一段音频的声波特征。
CN201210392601.2A 2012-10-16 2012-10-16 信息过滤方法、系统与装置 Active CN103729384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210392601.2A CN103729384B (zh) 2012-10-16 2012-10-16 信息过滤方法、系统与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210392601.2A CN103729384B (zh) 2012-10-16 2012-10-16 信息过滤方法、系统与装置

Publications (2)

Publication Number Publication Date
CN103729384A CN103729384A (zh) 2014-04-16
CN103729384B true CN103729384B (zh) 2017-02-22

Family

ID=50453462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210392601.2A Active CN103729384B (zh) 2012-10-16 2012-10-16 信息过滤方法、系统与装置

Country Status (1)

Country Link
CN (1) CN103729384B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008131B (zh) * 2014-04-30 2018-07-13 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN105786792A (zh) * 2014-12-26 2016-07-20 中国移动通信集团公司 一种信息处理方法及装置
CN104580529B (zh) * 2015-02-03 2018-03-23 郑州悉知信息科技股份有限公司 一种信息审核方法及装置
CN106649338B (zh) * 2015-10-30 2020-08-21 中国移动通信集团公司 信息过滤策略生成方法及装置
CN108416015A (zh) * 2018-03-05 2018-08-17 重庆电子工程职业学院 一种信息安全推送方法
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
CN111046388B (zh) * 2019-12-16 2022-09-13 北京智游网安科技有限公司 识别应用中第三方sdk的方法、智能终端及储存介质
CN112040430B (zh) * 2020-08-31 2022-09-23 北京达佳互联信息技术有限公司 短信发送方法、装置、服务器及存储介质
CN113077613A (zh) * 2021-04-07 2021-07-06 浙江佳伯尔电子科技有限公司 一种防止传感器误判的报警器及其判断方法
CN114866349B (zh) * 2022-07-06 2022-11-15 深圳市永达电子信息股份有限公司 一种网络信息过滤方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309280A (zh) * 2008-06-23 2008-11-19 华为技术有限公司 信息过滤服务器、方法、系统及终端
CN102137082A (zh) * 2010-08-19 2011-07-27 华为技术有限公司 内容过滤的方法及装置
CN102148692A (zh) * 2010-02-09 2011-08-10 新奥特(北京)视频技术有限公司 一种告警信息的二次过滤监控方法和系统
CN102567304A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种网络不良信息的过滤方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018552A (ja) * 2004-07-01 2006-01-19 Sony Corp 情報処理システム、情報処理装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309280A (zh) * 2008-06-23 2008-11-19 华为技术有限公司 信息过滤服务器、方法、系统及终端
CN102148692A (zh) * 2010-02-09 2011-08-10 新奥特(北京)视频技术有限公司 一种告警信息的二次过滤监控方法和系统
CN102137082A (zh) * 2010-08-19 2011-07-27 华为技术有限公司 内容过滤的方法及装置
CN102567304A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种网络不良信息的过滤方法及装置

Also Published As

Publication number Publication date
CN103729384A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN103729384B (zh) 信息过滤方法、系统与装置
CN103841108B (zh) 用户生物特征的认证方法和系统
US8086675B2 (en) Generating a fingerprint of a bit sequence
US20170011481A1 (en) Document analysis system, document analysis method, and document analysis program
CN111090813B (zh) 一种内容处理方法、装置和计算机可读存储介质
JP2018170036A (ja) ファイル共有ネットワークにおけるスニペット照合
CN108510396B (zh) 投保校验的方法、装置、计算机设备及存储介质
CN110569804B (zh) 基于文本数据的失效场景判断方法及系统、服务器及介质
CN106096519A (zh) 活体鉴别方法及装置
CN114245205B (zh) 基于数字资产管理的视频数据加工方法和系统
CN114827732A (zh) 一种多通道内容审核方法、平台及存储介质
JP2007096608A (ja) 不正画像検出装置、方法、プログラム
US9922029B1 (en) User feedback for low-confidence translations
CN111367819B (zh) 代码扫描过滤方法及装置
CN102137082A (zh) 内容过滤的方法及装置
CN109361696A (zh) 一种面向在线信息服务的安全分级方法
CN106645409A (zh) 辨别证件真实性的方法及装置
CN113873278B (zh) 播放内容审核方法、装置及电子设备
CN109788365A (zh) 一种页面弹幕的过滤方法及系统
CN108446292A (zh) 基于多失真截屏图像的主观质量评价方法
CN112347990A (zh) 基于多模态智能审稿系统及方法
CN113645512A (zh) 一种视频封面生成方法
CN113032426A (zh) 识别结果的智能校对方法、装置、设备及存储介质
WO2019227613A1 (zh) 样例三元组的获取方法、装置、计算机设备以及存储介质
CN110209429A (zh) 信息提取方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant