CN102779176A - 关键词过滤系统及方法 - Google Patents

关键词过滤系统及方法 Download PDF

Info

Publication number
CN102779176A
CN102779176A CN2012102185516A CN201210218551A CN102779176A CN 102779176 A CN102779176 A CN 102779176A CN 2012102185516 A CN2012102185516 A CN 2012102185516A CN 201210218551 A CN201210218551 A CN 201210218551A CN 102779176 A CN102779176 A CN 102779176A
Authority
CN
China
Prior art keywords
keyword
text
filtered
content
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102185516A
Other languages
English (en)
Inventor
韩孟岗
李铁钧
刘绪平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN2012102185516A priority Critical patent/CN102779176A/zh
Publication of CN102779176A publication Critical patent/CN102779176A/zh
Priority to PCT/CN2013/075649 priority patent/WO2014000519A1/zh
Priority to US14/411,465 priority patent/US10114889B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种关键词过滤系统及方法,涉及网络信息过滤技术领域,所述系统包括:文本获取模块,适于获取待过滤文本内容;扫描模块,适于对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;间距判断模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。本发明通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。

Description

关键词过滤系统及方法
技术领域
本发明涉及网络信息过滤技术领域,特别涉及一种关键词过滤系统及方法。
背景技术
在web 2.0时代,互联网用户所产生的内容十分广泛,例如:在电子布告栏系统(Bulletin Board System,BBS)论坛上发布帖子、在博客上发布文章、以及在最新兴起的微博上发布文本信息,使得互联网中每天都有海量的文本内容生成。用户产生的文本内容包罗广泛,但有些内容会涉及色情、欺诈、以及政治敏感信息,而产生的这些内容可能会影响读者的上网体验,或者带来精神上、甚至经济上的危害。无论是从净化论坛数据,还是从提升读者使用感受的角度出发,各ICP(论坛、博客、微博的提供商)必须对用户产生的数据进行及时地、有效地过滤。
现有技术中,为了及时地过滤包含敏感信息的内容,比较常用的做法是基于关键词内容的扫描技术,具体为使用与敏感信息有关的关键词扫描,比如通过扫描“色情门”、“艳照”、“偷拍”等关键词来发现与“色情门”有关的帖子,通过扫描帖子中的文本内容,只要发现所述文本内容中包含任意一个上述关键词,即可认定该内容为与“色情门”有关的敏感信息,但在实际发布文本内容的过程中,有些用户会通过对准备发布的文本内容进行“微加工”,而逃避审查和过滤。以“色情门”关键词为例,用户可以将准备发布的文本内容中的“色情门”修改为“色X门”、“色〇门”、“色情门”、“色情门”、“色×情×门”,“色x0情0门”,“色*****情****************门”等变形内容;虽然这些变化并不会影响读者对文本内容的理解,但能够轻易避开现有技术中基于关键词内容的扫描技术对文本内容中敏感信息的扫描,继续发布涉及色情、欺诈、以及政治敏感信息,从而使得现有技术中基于关键词内容的扫描技术失去意义。
发明内容
本发明要解决的技术问题是:如何提高对敏感信息的识别力,并提高对敏感信息过滤的适应性。
为解决上述技术问题,本发明提供了一种关键词过滤系统,所述系统包括:
文本获取模块,适于获取待过滤文本内容;
扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
其中,所述系统还包括:
有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。
其中,所述关键词词典还存有预设的所述关键词的有向性次序。
其中,所述有向性判断模块具体包括:
次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
其中,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。
其中,所述文本获取模块通过接收待过滤文本,以获取待过滤文本内容。
本发明还公开了一种关键词过滤方法,所述方法包括以下步骤:
获取待过滤文本内容;
通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
其中,判断所述字符间距是否超过了预设字符间距之前,还包括以下步骤:
根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。
其中,所述关键词词典还存有预设的所述关键词的有向性次序。
其中,在判断所述各个关键词是否满足有向性时,具体包括以下步骤:
根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
其中,采用网络蜘蛛抓取网页,以获取待过滤文本内容。
其中,通过接收待过滤文本,以获取待过滤文本内容。
本发明通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。
附图说明
图1是按照本发明一种实施方式的关键词过滤系统的结构框图;
图2是按照本发明另一种实施方式的关键词过滤系统的结构框图;
图3是按照本发明一种实施方式的关键词过滤方法的流程图;
图4是按照本发明另一种实施方式的关键词过滤方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例适于说明本发明,但不用来限制本发明的范围。
图1是按照本发明一种实施方式的关键词过滤系统的结构框图;参照图1,所述系统包括:
文本获取模块101,适于获取待过滤文本内容,本实施例中,所述文本获取模块101可采用网络蜘蛛抓取网页,以获取待过滤文本内容,还可通过接收待过滤文本(即论坛、博客、微博等信息服务系统接收由用户输入的待发布文本),以获取待过滤文本内容;
扫描模块102,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
判断过滤模块103,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
优选地,所述关键词为能组成敏感信息的词语或单个字,所述预设的关键词词典存有需要过滤的所有关键词。
所述敏感信息是由多个词语构成的词组时,例如,“美国”、“公交车”、“爆炸”这三个词各自独立存在时,不会包含任何敏感信息,但是,当这三个词同时出现在一段文本内容中时,则有很大可能形成敏感信息,在一般情况下,多个词语构成的词组作为敏感信息时为离散型信息,即无需具备有向性,并且字符间距很长,甚至整个文章篇幅中同时出现仍然可以反映出上述敏感信息,为识别该词组,本实施方式中,将该词组中的每个词作为关键词;假设所述关键词词典包括3个关键词:“美国”、“公交车”及“爆炸”,与其对应的预设字符间距为50,并假设扫描结果(扫描结果的格式--“关键词”:位置)为:“公交车”:34、“美国”:48、“爆炸”:57;
扫描结果中“美国”、“公交车”、“爆炸”三个词都出现了,并且任意两个词之间的字符间距小于50,因此在待过滤文本内容中识别为由这三个关键词所组成的敏感信息,对所述待过滤文本内容进行过滤处理或等待人工审查。
优选地,所述关键词为组成敏感信息的单个字时,参照图2,所述系统还包括:
有向性判断模块104,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,所述有向性为各个关键词是否按照一定次序排列。
所述关键词词典还存有预设的所述关键词的有向性次序。
优选地,所述有向性判断模块具体包括:
次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
敏感信息是词语时,例如,“色情门”,在一般情况下,词语作为敏感信息时为向量型信息,即具备有向性的信息,组成该敏感信息的关键词必须按照一定先后次序,才能反映出上述敏感信息,因此,为识别加工后的该词语,本实施方式将该词语按单个字进行拆分,并将拆分后的单个字作为关键词;假设所述关键词词典包括3个关键词:“色”、“情”、“门”,与其对应的预设字符间距为10,并且所述关键词词典中的有向性次序设置成依次为“色”、“情”、“门”,并假设待过滤文本内容中的扫描结果为(扫描结果的格式--“关键词”:位置)为:“情”:67、77、“色”:87、“门”:90;
扫描结果中,“色”、“情”、“门”三个关键词都出现了,但在所述待过滤文本内容中出现的次序为:情(67)->情(77)->色(87)->门(90),所述顺序的格式--“关键词”(位置),不满足预设的次序排列,因此在待过滤文本内容中未识别敏感信息“色情门”。
而由于上述词语还可通过“色X门”、“色〇门”等省略部分字的情况来进行表示,同样能反映出上述敏感信息,因此,可采用识别力更强、但误判率略高的方式进行识别,该方式如下:假设所述关键词词典包括3个关键词:“色”、“情”、“门”,与其对应的预设字符间距为10,并且所述关键词词典中的有向性次序包括:(1)依次为“色”、“情”;(2)依次为“色”、“门”;(3)依次为“情”、“门”,并假设待过滤文本内容中的扫描结果为(扫描结果的格式--“关键词”:位置)为:“情”:67、77、“色”:87、“门”:90;
扫描结果中,“色”、“情”、“门”三个关键词都出现了,但在所述待过滤文本内容中出现的次序为:情(67)->情(77)->色(87)->门(90),在判断时,满足所述有向性次序中的(2)和(3),并且色(87)->门(90)之间的字符间距小于预设字符间距,因此,在待过滤文本内容中识别了敏感信息“色情门”,需要对所述待过滤文本内容进行过滤处理或等待人工审查;
图3是按照本发明一种实施方式的关键词过滤方法的流程图;参照图3,所述方法包括以下步骤:
S201:获取待过滤文本内容,本实施例中,可采用网络蜘蛛抓取网页,以获取待过滤文本内容,还可通过接收待过滤文本(即论坛、博客、微博等信息服务系统接收由用户输入的待发布文本),以获取待过滤文本内容;
S202:通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
S203:判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
步骤S202中,若所述待过滤文本内容中没有所述预设的关键词词典中所存储的关键词,则直接结束流程;
步骤S203中,若是,则直接结束流程
优选地,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
优选地,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
参照图4,优选地,步骤S203之前,还包括以下步骤:
S204:根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。
优选地,所述关键词词典还存有预设的所述关键词的有向性次序。
优选地,在判断所述各个关键词是否满足有向性时,具体包括以下步骤:
根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (16)

1.一种关键词过滤系统,其特征在于,所述系统包括:
文本获取模块,适于获取待过滤文本内容;
扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
2.如权利要求1所述的系统,其特征在于,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
3.如权利要求1所述的系统,其特征在于,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
4.如权利要求3所述的系统,其特征在于,所述系统还包括:
有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。
5.如权利要求4所述的系统,其特征在于,所述关键词词典还存有预设的所述关键词的有向性次序。
6.如权利要求5所述的系统,其特征在于,所述有向性判断模块具体包括:
次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
7.如权利要求1~6中任一项所述的系统,其特征在于,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。
8.如权利要求1~6中任一项所述的系统,其特征在于,所述文本获取模块通过接收待过滤文本,以获取待过滤文本内容。
9.一种关键词过滤方法,其特征在于,所述方法包括以下步骤:
获取待过滤文本内容;
通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;
判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
10.如权利要求9所述的方法,其特征在于,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
11.如权利要求9所述的方法,其特征在于,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
12.如权利要求11所述的方法,其特征在于,判断所述字符间距是否超过了预设字符间距之前,还包括以下步骤:
根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。
13.如权利要求12所述的方法,其特征在于,所述关键词词典还存有预设的所述关键词的有向性次序。
14.如权利要求13所述的方法,其特征在于,在判断所述各个关键词是否满足有向性时,具体包括以下步骤:
根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
15.如权利要求9~14中任一项所述的方法,其特征在于,采用网络蜘蛛抓取网页,以获取待过滤文本内容。
16.如权利要求9~14中任一项所述的系统,其特征在于,通过接收待过滤文本,以获取待过滤文本内容。
CN2012102185516A 2012-06-27 2012-06-27 关键词过滤系统及方法 Pending CN102779176A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2012102185516A CN102779176A (zh) 2012-06-27 2012-06-27 关键词过滤系统及方法
PCT/CN2013/075649 WO2014000519A1 (zh) 2012-06-27 2013-05-15 关键词过滤系统及方法
US14/411,465 US10114889B2 (en) 2012-06-27 2013-05-15 System and method for filtering keywords

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102185516A CN102779176A (zh) 2012-06-27 2012-06-27 关键词过滤系统及方法

Publications (1)

Publication Number Publication Date
CN102779176A true CN102779176A (zh) 2012-11-14

Family

ID=47124088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102185516A Pending CN102779176A (zh) 2012-06-27 2012-06-27 关键词过滤系统及方法

Country Status (3)

Country Link
US (1) US10114889B2 (zh)
CN (1) CN102779176A (zh)
WO (1) WO2014000519A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000519A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 关键词过滤系统及方法
CN104331475A (zh) * 2014-11-04 2015-02-04 郑州悉知信息技术有限公司 一种信息检测方法及装置
CN104375983A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 网络上传文件中敏感轨迹的检测系统
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN104866770A (zh) * 2014-02-20 2015-08-26 腾讯科技(深圳)有限公司 敏感数据扫描方法和系统
CN105574203A (zh) * 2016-01-07 2016-05-11 沈文策 一种信息存储方法及装置
CN110210470A (zh) * 2019-06-05 2019-09-06 复旦大学 商品信息图像识别系统
CN110377977A (zh) * 2019-06-28 2019-10-25 南方电网科学研究院有限责任公司 敏感信息泄露的检测方法、装置及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562759B (zh) * 2016-06-30 2020-11-13 北京金山安全软件有限公司 一种处理信息源的方法、装置及电子设备
US10984180B2 (en) * 2017-11-06 2021-04-20 Microsoft Technology Licensing, Llc Electronic document supplementation with online social networking information
CN111476037B (zh) * 2020-04-14 2023-03-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN112631436B (zh) * 2020-12-22 2024-04-30 科大讯飞股份有限公司 输入法敏感词的过滤方法及装置
CN114943285B (zh) * 2022-05-20 2023-04-07 深圳市创意智慧港科技有限责任公司 互联网新闻内容数据智能审核系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350246A (zh) * 2001-12-03 2002-05-22 上海交通大学 智能化的电子邮件内容过滤方法
CN1403965A (zh) * 2001-09-05 2003-03-19 联想(北京)有限公司 主题词抗干扰提取方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
EP1269399A4 (en) * 2000-03-06 2006-01-18 Iarchives Inc SYSTEM AND METHOD FOR PRODUCING SCANNING DOCUMENT SEARCH WORDS INDEX INCLUDING MULTIPLE INTERPRETATIONS OF A WORD LOCATED AT A DOCUMENT GIVEN LOCATION
US7546334B2 (en) * 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US20100299322A1 (en) 2009-05-23 2010-11-25 Qin Zhang System and method for web page identifications
US8131763B2 (en) * 2006-05-03 2012-03-06 Cellco Partnership Age verification and content filtering systems and methods
US8707459B2 (en) * 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US8000504B2 (en) * 2007-08-03 2011-08-16 Microsoft Corporation Multimodal classification of adult content
CN101472250A (zh) 2007-12-29 2009-07-01 北京大唐高鸿数据网络技术有限公司 针对不良短消息的关键词防范方法
US20100082332A1 (en) * 2008-09-26 2010-04-01 Rite-Solutions, Inc. Methods and apparatus for protecting users from objectionable text
US8285721B2 (en) * 2008-09-29 2012-10-09 Ebay Inc. Mapping item records to product records
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
US20100268628A1 (en) * 2009-04-15 2010-10-21 Attributor Corporation Managing controlled content on a web page having revenue-generating code
CN102053993B (zh) * 2009-11-10 2014-04-09 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
US11403568B2 (en) * 2010-01-06 2022-08-02 Integral Ad Science, Inc. Methods, systems, and media for providing direct and hybrid data acquisition approaches
CN102779176A (zh) 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403965A (zh) * 2001-09-05 2003-03-19 联想(北京)有限公司 主题词抗干扰提取方法
CN1350246A (zh) * 2001-12-03 2002-05-22 上海交通大学 智能化的电子邮件内容过滤方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000519A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 关键词过滤系统及方法
US10114889B2 (en) 2012-06-27 2018-10-30 Beijing Qihoo Technology Company Limited System and method for filtering keywords
CN104866770A (zh) * 2014-02-20 2015-08-26 腾讯科技(深圳)有限公司 敏感数据扫描方法和系统
CN104866770B (zh) * 2014-02-20 2020-12-04 腾讯科技(深圳)有限公司 敏感数据扫描方法和系统
CN104331475A (zh) * 2014-11-04 2015-02-04 郑州悉知信息技术有限公司 一种信息检测方法及装置
CN104331475B (zh) * 2014-11-04 2018-03-23 郑州悉知信息科技股份有限公司 一种信息检测方法及装置
CN104375983A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 网络上传文件中敏感轨迹的检测系统
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN105574203A (zh) * 2016-01-07 2016-05-11 沈文策 一种信息存储方法及装置
CN110210470A (zh) * 2019-06-05 2019-09-06 复旦大学 商品信息图像识别系统
CN110377977A (zh) * 2019-06-28 2019-10-25 南方电网科学研究院有限责任公司 敏感信息泄露的检测方法、装置及存储介质

Also Published As

Publication number Publication date
US10114889B2 (en) 2018-10-30
US20150339378A1 (en) 2015-11-26
WO2014000519A1 (zh) 2014-01-03

Similar Documents

Publication Publication Date Title
CN102779176A (zh) 关键词过滤系统及方法
CN107908694A (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN102624703A (zh) 统一资源定位符url的过滤方法及装置
US20100251380A1 (en) Method and system for identifying suspected phishing websites
CN102737183B (zh) 网页安全访问的方法及装置
CN102724187A (zh) 一种针对网址的安全检测方法及装置
US20170185680A1 (en) Chinese website classification method and system based on characteristic analysis of website homepage
CN104462509A (zh) 垃圾评论检测方法及装置
CN104408102B (zh) 用于网络热词与对象的关联度的数据处理方法和装置
EP2499563A1 (en) Method and system for text filtering
CN102957664A (zh) 一种识别钓鱼网站的方法及装置
CN103166972A (zh) 安全访问网址系统及其中的设备和方法
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN102663319A (zh) 下载链接安全提示方法及装置
CN109194739A (zh) 一种文件上传方法、存储介质和服务器
CN103218410A (zh) 互联网事件分析方法与装置
CN102867147A (zh) 一种文件扫描的方法和装置
CN105138381A (zh) 移动终端自启进程的清理方法及装置
CN106383862B (zh) 一种违规短信检测方法及系统
CN106169995B (zh) 一种直播网站手机绑定短信验证防刷方法及系统
CN103488947A (zh) 即时通信客户端盗号木马程序的识别方法及装置
CN103530389A (zh) 一种提高停用词搜索有效性的方法和装置
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN103150406A (zh) 信息查询和通知方法和装置
CN102882982A (zh) 浏览器中的消息发送设备和接收设备及方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121114