CN100485684C - 文本内容过滤方法和系统 - Google Patents

文本内容过滤方法和系统 Download PDF

Info

Publication number
CN100485684C
CN100485684C CNB2006101135923A CN200610113592A CN100485684C CN 100485684 C CN100485684 C CN 100485684C CN B2006101135923 A CNB2006101135923 A CN B2006101135923A CN 200610113592 A CN200610113592 A CN 200610113592A CN 100485684 C CN100485684 C CN 100485684C
Authority
CN
China
Prior art keywords
text
hits
theme
rule
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101135923A
Other languages
English (en)
Other versions
CN101158948A (zh
Inventor
应凌云
苏璞睿
冯登国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CNB2006101135923A priority Critical patent/CN100485684C/zh
Publication of CN101158948A publication Critical patent/CN101158948A/zh
Application granted granted Critical
Publication of CN100485684C publication Critical patent/CN100485684C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本内容过滤方法,包括步骤:1)解析用户配置信息,提取出其中的有效过滤规则;2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4)对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。本发明在提供细粒度的精确关键字过滤支持、有限的模糊关键字过滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描前端,只需要对被过滤文本做一次全文扫描,可以大大降低文本过滤所需处理时间。

Description

文本内容过滤方法和系统
技术领域
本发明属于计算机技术领域,涉及文本信息处理领域的文本信息过滤的实现方法,尤其涉及基于文本主题分析和关键字检测的文本内容过滤方法。
背景技术
随着计算机和互联网技术的迅速发展,应用的日益广泛,使得互联网上的信息量急剧增加,人们也越来越习惯通过网络来获取信息。然而,互联网上的信息十分庞杂,良莠不齐。对互联网上的信息进行监测、分析和过滤,及时发现和阻止不良信息的传播和散布,净化互联网环境显得十分必要。
目前,对于互联网上的文本信息过滤的技术主要分为三类:一类是通过应用关键字匹配算法,匹配文本信息中的特定关键字,如图1所示。这类方法能够较快速地匹配到包含匹配关键字的文本,但要求用户准确给出所有需要检测的关键字,并且由于机械地根据字词进行匹配,误报率较高。另一类方法是采用正规表达式,应用模糊的关键字匹配方法,匹配文本信息中的特定关键字。这一类方法的问题在于,采用正规表达式的匹配过程很复杂,计算量很大,当待过滤内容较多或实时性要求较高时,采用这类方法的过滤方法往往不能胜任。再一类方法是通过支持向量机(SVM)等技术,采用统计分析的方法,对文本内容进行归类,并根据所属类别的对应主题进行进一步的人工分析。这类方法往往需要通过一些训练数据来提取过滤特征,并根据提取到的特征进行实际的过滤操作。这种方法虽然解决了用户配置的难题,但是其完全基于主题的分类方法粒度较大,往往无法准确区分出主题范围内包含不同子话题的内容,产生的结果往往因为需要的后续人工分析工作量太大,在实际应用中用户往往无法承担这么大的工作量。
考虑到文本内容过滤方法的实际应用背景,过滤方法应该需要支持细粒度的精确匹配过滤,一定程度的模糊匹配过滤和基于主题的粗粒度过滤,我们设计了本发明所述的一种基于文本内容和主题相关程度的内容过滤方法。
发明内容
本发明的目的在于提供一种基于文本内容和主题相关程度的内容过滤方法。该方法是一种既具有字词级别的关键字匹配,又具有文章/会话级别的主题相关度分析的文本信息过滤方法。由于结合了关键字匹配的高效性与准确性,以及主题分析误报率低的特点,本发明的实用性大大高于以往文本信息过滤方法。
本发明的另一个目的在于,提供一种可用性高,可操作性好的文本信息过滤系统,降低对用户配置的要求。本发明采用结合关键字匹配和文本主题相关性分析的技术,解决了单一依靠关键字匹配要求用户准确给出所有需要检测的关键字的难题,也解决了单一依靠主题相关性分析需要事先训练,并且分类粒度较粗,不够精确的问题,大大提高了实际应用中的可操作性,降低了对用户配置和使用的要求。
为实现以上目的,本发明的构思是:首先将被过滤文本信息送入文本内容分析模块进行分析,然后将分析结果送往精确匹配检测模块和模糊匹配检测模块进行匹配,文本主题检测模块根据文本内容分析模块的分析结果和模糊匹配检测模块的匹配结果,识别出被过滤文本信息的相关主题。通过调整需要检测的主题和关键字,该方法可以适用于任何主题和/或关键字的过滤,并且不需要事先训练,为用户提供一种使用灵活方便,处理高效快速的文本内容过滤服务。
相应地,用于实现上述方法的文本内容过滤系统主要由文本内容分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块组成。
基于以上构思,本发明的技术方案为:
一种文本内容过滤方法,包括步骤:
1)解析用户配置信息,提取出其中的有效过滤规则;进一步地,还可以将提取出来的有效过滤规则组织成处理效率更高的内部表达形式;
2)根据步骤1)提取的有效过滤规则,构建匹配模式状态机,利用匹配算法对被过滤文本进行模式匹配,并标记每个命中的匹配模式以及命中的模式在被过滤文本中出现的位置和该模式的索引;
3)根据步骤2)的分析结果,检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命中,输出检测结果;
4)根据步骤2)的分析结果,检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中,输出检测结果;
5)根据步骤2)和4)的分析检测结果,判断主题过滤规则中命中的子规则数占该主题所有子规则数的比例是否超过预先指定的阈值,决定该主题是否命中,确定被过滤文本内容的主题,输出检测结果。
较佳地,上述方法还可以包括综合步骤2)、3)、4)的检测结果,输出最终过滤结果的步骤。
相应地,用于实现以上方法的文本内容过滤系统包括:配置信息解析模块、文本内容分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块。
系统的结构如图2所示,其中:
配置信息解析模块根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规则;并将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式;并将组织好的过滤规则送入文本内容分析模块,供其使用;
文本内容分析模块根据配置信息解析模块提供的过滤规则,对被过滤文本信息解析分析和检测。文本内容分析模块标记可能匹配的过滤规则项目,并且根据用户提供的配置信息,可以将分析结果送往精确关键字检测模块进行进一步的分析,也可以将分析结果送往模糊关键字检测模块进行进一步的分析,检查其中的精确匹配规则或模糊匹配规则是否命中;文本内容分析模块还可以将分析结果送往主题检测模块进行进一步的分析,检查其中的主题过滤规则是否命中;
精确关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命中;
模糊关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中;
文本主题检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果,以及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题所有子规则数的比例是否超过预先指定的阈值,决定该主题是否命中。
本发明的技术效果在于,在提供细粒度的精确关键字过滤支持、有限的模糊关键字过滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描前端,只需要对被过滤文本做一次全文扫描,而不需要像以往的分别应用三种方法所需要的三次全文扫描,可以大大降低文本过滤所需处理时间。并且,本发明没有指定文本内容扫描前端在具体实现中所采用的匹配算法,内容扫描和过滤操作分离的架构使得本发明可以根据被过滤文本内容的特性,选择有针对性的优化内容匹配算法。
另外,本发明中,对于每个过滤配置项目,用户都可以指定对应的优先级,表明用户对该项目在被过滤文本中出现时的关注程度,实现不同级别的过滤处理操作。最后,本方法中的主题过滤模块中还实现了基于关键字权值的检测。用户可以为每个主题中包含的各个关键字条目分别指定对应的权值,表明该关键字在该主题中的重要性,使得本方法的灵活性和适用性进一步得到加强。
附图说明
图1是传统精确关键字匹配系统的框图。
图2是本发明的文本内容过滤系统的框图。
图3是本发明实施例配置信息解析模块对有效过滤规则进行预处理的示意图,精确关键字过滤规则、模糊关键字过滤规则和主题过滤规则最终都被解析,以内部的匹配模式表达。
图4是本发明实施例的文本内容过滤系统的数据流图。
具体实施方式
以下将结合附图,通过一优选的实施例对本发明作出更详细的描述。本发明的输入是待过滤的文本内容信息。输入信息可以来自任何网络信息承载设备,如网关、路由模块、服务模块或个人计算机。这些网络信息设备上的数据流经过对应的预处理设备处理后,提取出的文本信息都可作为本发明的输入信息。
为了更容易理解本发明,首先介绍用于实现文本内容过滤方法的系统。如图2所示,该系统包括:
配置信息解析模块,用于根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规则;配置信息解析模块中还可以包括一预处理单元,用于将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式;
文本内容分析模块,用于根据配置信息解析模块提供的过滤规则,对被过滤文本信息解析分析和检测。文本内容分析模块标记可能匹配的过滤规则项目,并且可以将分析结果送往精确关键字检测模块、模糊关键字检测模块和文本内容分析模块进行进一步的分析;
精确关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命中;
模糊关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中;
文本主题检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,以及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题所有子规则数的比例是否超过预先指定的阈值,决定该主题是否命中。
参考图4,下面给出文本内容过滤方法的详细过程。
第一步:解析用户配置信息;
所述的用户配置信息是指用户输入或制定的过滤配置信息,所述的有效过滤规则是从用户配置信息中提取出来的有效配置信息,它可以是关键字信息和/或主题信息,可配置的关键字信息包括精确关键字和模糊关键字;可配置的主题由一系列精确关键字和模糊关键字构成。所述的精确关键字可以包括任意确定的字符序列,可直接构建匹配模式。所述的模糊关键字包括由任意确定的字符序列以及通配符组成,通配符包括表示一个字符的“?”,表示零个或多个字符的“*”。
对于模糊关键字,本实施例将模糊匹配关键字转换为另一种形式的精确匹配关键字。首先解析其中的通配符含义,将整个模糊关键字拆分成多个不包含通配符的精确子关键字,并确定这些子关键字之间的距离关系,每个精确子关键字将独立对应一个匹配模式,所有的这些匹配模式将对应一个模糊匹配关键字。
例如,对于模糊关键字“AB?CD”,将被拆分成“AB”和“CD”两个精确子关键字,并附加1个字符间距的判断阈值。
对于主题信息配置条目,配置解析模块将逐个提取其中的关键字,并根据精确关键字和模糊关键字分别执行如上的操作,并将所有这些关键字的匹配模式对应到该主题。
例如,对于包含“AB*CD”,“我们?大家”,“测试项目”,“English”四个关键字的主题,其中的模糊关键字“AB*CD”和“我们?大家”将按照模糊关键字的拆解规则,被分别拆分为“AB”和“CD”两个精确子关键字,并附加1个字符间距的判断阈值;以及“我们”和“大家”两个精确子关键字,并附加任意个字符间距的判断阈值。对于“测试项目”,“English”,则按照精确关键字处理。
用户可以自行设定过滤配置项目(即过滤规则)的优先级别,每个配置项目的优先级,直接与各项目相关,不与匹配模式相关。
配置文件解析完毕后,逻辑上将形成如图3所示的对应关系。
配置信息解析模块解析完配置信息之后,根据文本内容分析模块具体实现中所采用的特定多模式匹配算法的要求,将对解析得到的匹配模式进行处理,将所有匹配模式构建成一个匹配模式树。其中,所采用的匹配算法可以是AC-BM算法及类似的多模式匹配算法。
第二步:文本内容分析模块对被检测文本信息进行分析和匹配。
文本内容分析模块根据配置分析模块的结果,构建出匹配模式状态机,对被检测文本做一次扫描匹配操作。
本发明中,文本内容分析的过程本质上是一个模式匹配过程。根据具体实现中采用的模式匹配算法的不同,扫描实现略有不同,但都需要标记每个命中的匹配模式,以及命中的模式在被检测文本中出现的位置和该模式的索引。并可以根据配置要求,确定命中模式的优先级是否足够高,可以中止匹配过程,实现类似短路计算的匹配过程。
第三步:对文本内容分析模块的结果进行处理。
1、精确关键字检测模块所需的处理相对简单,只需根据文本内容分析模块的结果,确定是否有与精确匹配关键字对应的匹配模式命中。
2、模糊关键字检测模块需要检测文本内容分析模块的结果中,是否包含对应到任何模糊匹配关键字的匹配模式的命中。
对于任何与模糊匹配关键字对应的匹配模式的命中,模糊关键字检测模块需要检查构成该模糊匹配关键字的所有匹配模式是否都命中,并且,根据这些命中的匹配模式在被检测文本中的命中位置,检查这些位置之间的关系,是否符合模糊匹配关键字的要求。
例如:
A={a dis(ab)b dis(bc)c}
表示对于模糊匹配关键字A,可以拆分成a,b,c三个精确的子关键字,即对应三个匹配模式,a和b之间的距离关系为dis(ab),b和c之间的距离关系为dis(bc)。
Result(a)={ai|i=1…n}
Result(b)={bj,|j=1…m}
Result(c)={ct,|t=1…k}
表示被检测文本中匹配模式a,b,c分别出现的位置。
Figure C200610113592D00091
Figure C200610113592D00093
都成立时,模糊关键字检测模块将检测是否存在ai,bj满足dis(ab),和bj,ct满足dis(bc)。即:
Figure C200610113592D00094
,满足dis(aibj)=dis(ab)
Figure C200610113592D00095
,满足dis(bjct)=dis(bc)
如果以上所有条件都成立,则模糊匹配关键字命中。模糊关键字检测模块将执行命中的模糊匹配关键字对应的操作。
第四步:文本主题检测模块对文本内容分析模块和模糊关键字检测模块的结果进行处理。
文本主题检测模块在文本内容分析模块和模糊关键字检测模块的结果上进行分析。
首先,文本主题检测模块依次检查每个主题,判断其中的精确匹配关键字、模糊匹配关键字是否有命中。
然后,文本主题检测模块将根据命中关键字的个数、所有命中关键字在被检测文本中出现的次数和命中关键字的权值,计算被检测文本和主题的相关程度系数。
即,对包含k个关键字的形如T={A1,A2,...,Ai,...,Ak}的主题,其中Ai,i=1...k为精确匹配关键字或模糊匹配关键字,对应的权值分别为Wi,i=1...k,并且 Σ i = 1 k W i = 1 .
若用户没有为关键字配置权值,默认的,各个关键字权值相同,即 W = 1 k ,
记Ai在被检测文本中命中的次数为Ni,i=1...k,则被检测文本主题跟用户配置的过滤主题之间的相关系数为
λ = Σ j W j , 其中
Figure C200610113592D00104
当λ≥β时,β为可配置的相关系数阈值,文本主题检测模块将认为被检测文本与用户配置的过滤主题相吻合,产生主题命中结果信息。
最后,在本发明中可以将各个模块的检测结果综合起来,送到后端处理设备,如日志记录设备,显示输出设备,或根据本发明的检测结果进行后续处理的设备。
以上尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种文本内容过滤方法,包括步骤:
1)解析用户配置信息,提取出其中的有效过滤规则;
2)根据步骤1)提取的有效过滤规则,构建匹配模式状态机,利用匹配算法对被过滤文本进行模式匹配,并标记每个命中的匹配模式以及命中的模式在被过滤文本中出现的位置和该模式的索引;
3)根据步骤2)的分析结果,检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命中,输出检测结果;
4)根据步骤2)的分析结果,检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中,输出检测结果;
5)根据步骤2)和4)的分析检测结果,判断主题过滤规则中命中的子规则数占该主题所有子规则数的比例是否超过预先指定的阈值,决定该主题是否命中,确定被过滤文本内容的主题,输出检测结果。
2.如权利要求1所述的方法,其特征在于,所述的步骤1)还包括将提取出来的有效过滤规则组织成处理效率更高的内部表达形式的步骤。
3.如权利要求2所述的方法,其特征在于,所述的内部表达形式是模式匹配树。
4.如权利要求1所述的方法,其特征在于,所述的有效过滤规则包括精确关键字、模糊关键字和主题。
5.如权利要求1所述的方法,其特征在于,还包括综合步骤2)、3)、4)的检测结果,输出最终过滤结果的步骤。
6.如权利要求1所述的方法,其特征在于,所述的匹配算法是多模式匹配算法。
7.一种文本内容过滤系统,包括:
配置信息解析模块,用于根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规则;
文本内容分析模块,用于根据配置信息解析模块提供的过滤规则,构建匹配模式状态机,对被过滤文本进行模式匹配,并标记每个命中的匹配模式以及命中的模式在被过滤文本中出现的位置和该模式的索引;
精确关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命中;
模糊关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中;
文本主题检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结果,以及模糊关键字检测模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题所有子规则数的比例是否超过预先指定的阈值,决定该主题是否命中。
8.如权利要求7所述的系统,其特征在于,所述的配置信息解析模块还包括一预处理单元,用于将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式。
9.如权利要求7所述的系统,其特征在于,所述的有效过滤规则包括精确关键字、模糊关键字和主题。
10.如权利要求8所述的系统,其特征在于,所述的内部表达形式是模式匹配树。
CNB2006101135923A 2006-10-08 2006-10-08 文本内容过滤方法和系统 Expired - Fee Related CN100485684C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006101135923A CN100485684C (zh) 2006-10-08 2006-10-08 文本内容过滤方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006101135923A CN100485684C (zh) 2006-10-08 2006-10-08 文本内容过滤方法和系统

Publications (2)

Publication Number Publication Date
CN101158948A CN101158948A (zh) 2008-04-09
CN100485684C true CN100485684C (zh) 2009-05-06

Family

ID=39307050

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101135923A Expired - Fee Related CN100485684C (zh) 2006-10-08 2006-10-08 文本内容过滤方法和系统

Country Status (1)

Country Link
CN (1) CN100485684C (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN102156704A (zh) * 2011-01-26 2011-08-17 北京沃泰丰通信技术有限公司 一种对呼叫详细记录进行过滤的方法及系统
US9002772B2 (en) 2011-11-18 2015-04-07 International Business Machines Corporation Scalable rule-based processing system with trigger rules and rule evaluator
US8990070B2 (en) 2011-11-18 2015-03-24 International Business Machines Corporation Computer-based construction of arbitrarily complex formal grammar expressions
CN102542063B (zh) * 2011-12-30 2015-04-29 华为技术有限公司 内容过滤的方法、装置及系统
CN103810167B (zh) * 2012-11-06 2018-09-18 腾讯科技(深圳)有限公司 获取信息的方法和装置
CN102968502B (zh) * 2012-12-10 2016-04-20 北京锐安科技有限公司 一种支持逻辑组合状态更新的多模式内容匹配方法
CN104750673B (zh) * 2013-12-31 2018-02-23 中国移动通信集团公司 文本匹配过滤方法及装置
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN104899264B (zh) * 2015-05-21 2018-05-29 东软集团股份有限公司 一种多模式正则表达式匹配方法及装置
CN107038161B (zh) * 2015-07-13 2021-03-26 阿里巴巴集团控股有限公司 一种用于过滤数据的设备及方法
CN106649312B (zh) * 2015-10-29 2019-10-29 北京北方华创微电子装备有限公司 日志文件的分析方法和系统
CN106487660A (zh) * 2016-11-04 2017-03-08 广东亿迅科技有限公司 一种统一管理多个信息频道的方法及其系统
CN108664501B (zh) * 2017-03-29 2021-02-26 阿里巴巴(中国)有限公司 广告审核方法、装置及服务器
CN112395853B (zh) * 2020-11-04 2024-09-24 苏宁云计算有限公司 文本内容检测方式确定方法、装置、设备和存储介质
CN114037270A (zh) * 2021-11-08 2022-02-11 奇安信科技集团股份有限公司 一种工业控制安全评估系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1200375C (zh) * 2001-09-05 2005-05-04 联想(北京)有限公司 内容过滤器训练评估方法
US6917980B1 (en) * 2000-12-12 2005-07-12 International Business Machines Corporation Method and apparatus for dynamic modification of internet firewalls using variably-weighted text rules
CN1270258C (zh) * 2002-12-20 2006-08-16 中国科学院计算技术研究所 快速内容分析的多关键词匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917980B1 (en) * 2000-12-12 2005-07-12 International Business Machines Corporation Method and apparatus for dynamic modification of internet firewalls using variably-weighted text rules
CN1200375C (zh) * 2001-09-05 2005-05-04 联想(北京)有限公司 内容过滤器训练评估方法
CN1270258C (zh) * 2002-12-20 2006-08-16 中国科学院计算技术研究所 快速内容分析的多关键词匹配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improving the precision of the keyword-matchingpornographic text filtering method using a hybrid model. SU,Gui-yang,et,al.浙江大学学报(英文版),第9期. 2004
Improving the precision of the keyword-matchingpornographic text filtering method using a hybrid model. SU,Gui-yang,et,al.浙江大学学报(英文版),第9期. 2004 *
Web文本内容过滤方法的研究. 于海燕,陈晓江,冯健,房鼎益.微电子学与计算机,第23卷第9期. 2006
Web文本内容过滤方法的研究. 于海燕,陈晓江,冯健,房鼎益.微电子学与计算机,第23卷第9期. 2006 *

Also Published As

Publication number Publication date
CN101158948A (zh) 2008-04-09

Similar Documents

Publication Publication Date Title
CN100485684C (zh) 文本内容过滤方法和系统
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
Riloff et al. Information extraction as a basis for high-precision text classification
CN104239436A (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN101692639A (zh) 一种基于url的不良网页识别方法
CN104899230A (zh) 舆情热点自动监测系统
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN107315798A (zh) 基于多主题语义标签信息映射的结构化处理方法及装置
US8321204B2 (en) Automatic lexicon generation system for detection of suspicious e-mails from a mail archive
WO2006018411A3 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
CN109547423A (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
Wu et al. Extracting summary knowledge graphs from long documents
Madani et al. Fake news detection using deep learning integrating feature extraction, natural language processing, and statistical descriptors
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
Lindemann et al. Coarse-grained classification of web sites by their structural properties
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
Azizov et al. Frank at CheckThat!-2023: Detecting the Political Bias of News Articles and News Media.
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
Hisham et al. An innovative approach for fake news detection using machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090506

Termination date: 20171008

CF01 Termination of patent right due to non-payment of annual fee