CN102053993A - 一种文本过滤方法及文本过滤系统 - Google Patents

一种文本过滤方法及文本过滤系统 Download PDF

Info

Publication number
CN102053993A
CN102053993A CN2009102117150A CN200910211715A CN102053993A CN 102053993 A CN102053993 A CN 102053993A CN 2009102117150 A CN2009102117150 A CN 2009102117150A CN 200910211715 A CN200910211715 A CN 200910211715A CN 102053993 A CN102053993 A CN 102053993A
Authority
CN
China
Prior art keywords
character
keyword
text
node
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102117150A
Other languages
English (en)
Other versions
CN102053993B (zh
Inventor
温新赐
叶长程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN200910211715.0A priority Critical patent/CN102053993B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to EP10830362.9A priority patent/EP2499563A4/en
Priority to JP2012537879A priority patent/JP5744892B2/ja
Priority to US13/055,984 priority patent/US8874597B2/en
Priority to PCT/US2010/047795 priority patent/WO2011059551A1/en
Publication of CN102053993A publication Critical patent/CN102053993A/zh
Priority to HK11105863A priority patent/HK1152123A1/zh
Application granted granted Critical
Publication of CN102053993B publication Critical patent/CN102053993B/zh
Priority to US14/491,205 priority patent/US9600570B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本过滤方法及文本过滤系统。一种文本过滤方法包括:预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。

Description

一种文本过滤方法及文本过滤系统
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种文本过滤方法及文本过滤系统。
背景技术
随着互联网的不断发展,网络上的信息量日益剧增,而互联网的开放性也导致在网络中存在很多不良信息,因此在互联网上,对信息进行监控和过滤的已经成为普遍需求。
应用内容过滤技术,可以实现对网上不良信息的过滤,从而保障网络环境的安全。网络上的信息有多种表现形式,其中文本形式是最为常见的一种。文本过滤指的是从大量文本信息中找出特定文本的过程,目前,常见的文本过滤方法都是基于基本关键词匹配技术实现的:系统根据预先设置的多个与不良信息相关的关键词,在输入文本中进行查找,如果在输入文本中发现与关键词相匹配的内容,则对这部分内容或全部的输入文本进行过滤或替换处理。
上述文本过滤方法,只能过滤出与关键词完全匹配的文本,但是却无法判断整个文本的立场或态度,例如,在电子商务网站中,将“窃听器”定义为过滤关键词,但是现有的文本过滤方法会将“禁止销售窃听器”这样的合法文本也视为不良信息进行过滤。可见,现有的基于基本关键词匹配技术的文本过滤方法,识别正确率较低,无法满足信息过滤的实际应用需求。
发明内容
为解决上述技术问题,本申请实施例提供一种文本过滤方法及文本过滤系统,以提高文本过滤的正确率,技术方案如下:
本申请提供一种文本过滤方法,包括:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;
如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。
本申请还提供一种文本过滤系统,包括:
关键词存储单元,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
基本查找单元,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
语义匹配单元,用于在所述基本查找单元在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元;
过滤处理单元,用于在所述语义匹配单元匹配成功时,对匹配成功的文本内容进行过滤处理。
本申请所提供的文本过滤方法及系统,使用基本关键词和逻辑关系符结合的方式对文本内容进行过滤,与现有技术相比,能够有效地结合基本关键词在整个文本中的语义进行过滤,提高过滤的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的文本过滤方法流程图;
图2为本申请实施例的基本关键词树形存储结构示意图;
图3为本申请实施例的基本关键词查找方法流程图;
图4为本申请实施例的文本过滤系统的结构示意图;
图5为本申请实施例的基本查找单元的一种结构示意图;
图6为本申请实施例的基本查找单元的另一种结构示意图;
图7为本申请实施例的语义匹配单元的一种结构示意图。
具体实施方式
现有的文本过滤方法,仅根据简单关键词进行过滤,并且不具备逻辑分析能力,因此会存在很多误报情况。例如前文提到的“禁止销售窃听器”文本,虽然包含关键词“窃听器”,但是结合“禁止”这一否定词,又使得该段文本实际上成为合法信息而不应被过滤处理。针对这一问题,本申请实施例提供一种文本过滤方法如下:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;
如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。
上述文本过滤方法,使用基本关键词和逻辑关系符结合的方式对文本内容进行过滤,与现有技术相比,能够有效地结合基本关键词在整个文本中的语义进行过滤,减少误报的情况,提高过滤的准确性。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例一:
本申请实施例中,基于语义关键词对文本内容进行过滤,语义关键词包括两个基本组成部分:基本关键词和逻辑关系符。其中,基本关键词为独立的一个词或短语,即相当于现有技术中所采用的简单关键词;而逻辑关系符则用于表示逻辑关系,基本的逻辑关系包括:“与”、“或”、“非”等,在语义关键词中,可以分别用符号“&”、“|”、“~”来表示。以下为应用于电子商务网站文本过滤的语义关键词的几种简单示例:
a)手机窃听~反
该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”,则需要对该商品信息进行过滤处理。
b)监视摄像头|无线监控摄像头
该语义关键词表示的语义是:如果商品的信息中包含“监视摄像头”或者包含“无线监控摄像头”,则需要对该商品信息进行过滤处理。
c)军用&扎带
该语义关键词表示的语义是:如果商品的信息中包含“军用”且包含“扎带”,则需要对该商品信息进行过滤处理。
对于一个语义关键词而言,其最简形式应该是:2个基本关键词+1个逻辑关系符,以上三个示例都属于这种情况。对于只包括一个基本关键词的情况,实际上与现有技术相同,本申请实施例对这种情况不再进行介绍。可以理解的是,在一个语义关键词中,可以包括更多的基本关键词以及逻辑关系符,以表示更为复杂的语义,例如:
d)手机窃听~(反|防)
该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”或“放”,则需要对该商品信息进行过滤处理。
在本申请的优选方案中,还可以对语义关键词的内容做进一步的扩展,例如:
可以在语义关键词中加入过滤条件。事实上,与前面所述的基本关键词和逻辑关系符不同的是:过滤条件与文本的具体内容无关,其作用是从文本的其他方面属性对过滤做进一步的限定。例如,限定文本的来源、类别等等,从而实现更为准确的过滤。
在语义关键词中,还可以进一步加入过滤行为,以表明对于与语义关键词文本部分相匹配的内容,具体做何种处理,例如内容屏蔽、内容替换等等。
以下三个例子,分别在前述的a)、b)、c)中添加过滤条件和过滤行为,对语义关键词的扩展形式进行示意性说明,其中,分号之前为基本关键词和逻辑关系符、分号之后为扩展内容,各项扩展内容之间用逗号隔开。当然,本实施例并不对语义的具体格式进行限定。
a1)手机窃听~反;商品类别:1002,过滤行为:下架,
该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”、并且商品类别是1002,则需要对该商品信息进行下架处理。
b1)监视摄像头|无线监控摄像头;商品类别:101,过滤行为:下架,
该语义关键词表示的语义是:如果商品的信息中包含“监视摄像头”或者包含“无线监控摄像头”、并且商品类别是101,则需要对该商品信息进行下架处理。
c1)军用&扎带;商品类别:50001,过滤行为:下架,
该语义关键词表示的语义是:如果商品的信息中包含“军用”且包含“扎带”、并且商品类别是50001,则需要对该商品信息进行下架处理。
下面进一步结合具体的流程,对本实施例进行说明,图1所示为本申请实施例的文本过滤方法流程图,包括以下步骤:
S101,文本过滤系统获得输入文本后,根据预先定义的语义关键词,在输入文本中查找构成所述语义关键词的基本关键词;
在本步骤中,系统在获得一段输入文本后,将首先在输入文本中对基本关键词进行查找,并对查找结果进行记录。例如,对于前述的b)或b1),系统将首先在输入文本中查找“监视摄像头”和“无线监控摄像头”的内容。本步骤的具体实现可以与现有技术中基于简单关键词相匹配的方法类似,本实施例不做详细说明。
S102,如果在输入文本中查找到与至少一个基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;
在S101中,仅仅是根据基本关键词的内容进行查找,如果没有查找到与任何基本关键词相匹配的内容,说明不需要对输入文本进行过滤处理;如果查找到与至少一个基本关键词相匹配的文本内容,则需要进一步将所查找到的文本内容与完整的语义关键词进行比较,这一步骤称为语义匹配。
如果语义关键词中只包括基本关键词和逻辑关系符,那么语义匹配的具体内容就是:根据预先定义的语义关键词中的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配。例如:
对于前述的a),系统在输入文本中查找到了基本关键词“手机窃听”,并且没有查找到基本关键词“反”,即两个基本关键词的实际查找结果符合在语义关键词a)中所定义的两个基本关键词的逻辑关系“非”,因此,所查找到的内容与语义关键词a)匹配成功;
对于前述的c),系统在输入文本中查找到了基本关键词“扎带”,并且没有查找到基本关键词“军用”,即两个基本关键词的实际查找结果不符合在语义关键词c)中所定义的两个基本关键词的逻辑关系“与”,因此,所查找到的内容与语义关键词a)匹配失败;
如果语义关键词中还包括扩展内容“过滤条件”,那么在进行语义匹配时,还要进一步考虑输入文本的属性与过滤条件的匹配情况。
S103,如果语义匹配成功,则对匹配成功的文本内容进行过滤处理。
对于在S102中与语义关键词匹配成功的文本,系统将进行过滤处理。如果在语义关键词中包含了“过滤行为”,则系统将根据“过滤行为”的具体内容对文本进行过滤处理。如果在语义关键词中没有包含“过滤行为”,那么系统将根据预置的默认方式对文本内容进行过滤处理。
实施例二:
现有技术中,需要在输入文本中,逐个查找每个词。本实施例针对实施例一中的步骤S101,提出一种改进的基本关键词查找方法,以提高关键词查找的处理效率。
在实际的文本过滤应用中,很多需要过滤的词都是具有相同部分的,例如:“窃听器”、“窃听设备”、“窃听软件”等等,对于这类词,可以采用树形查找的方法,提高查找效率。
首先,在系统中以字符为单位,按照树形结构存储每个基本关键词。以基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点。例如,对于“ab”、“abc”、“ade”三个基本关键词,可以按照如图2所示的结构进行存储。
在图2中,圆形表示根节点或一般节点,菱形表示叶子节点,由于“ab”、“abc”、“ade”三个词具有相同的首字符“a”,因此共用同一个根节点1;三个词的末字符分别为“b”、“c”、“e”,因此这三个字符分别为叶子节点2、3、5。需要注意的是,对于字符“b”,尽管在第二个词中不是末字符,但是其在第一个词中是末字符,因此仍然成为叶子节点。也就是说,叶子节点不一定是树形结构的末端节点,但是树形结构的末端节点一定是叶子节点。
图3所示为基于树形结构的基本关键词查找方法流程图,包括以下步骤:
S301,获取所述输入文本中的一个字符;设置该字符为当前字符、并且设置树形结构的根节点为当前节点。根据实际的过滤应用需求,所获取的字符可以是输入文本的首字符,也可以是从输入文本的任意处选取的一个字符。
S302,将当前字符与当前节点进行匹配;如果匹配成功,则执行S303,否则,执行S304。
S303,判断当前节点是否具有子节点,如果否,则结束查找;如果是,则转到当前字符的后一字符、当前节点的子节点,然后执行S302。
S304,判断当前节点是否具有兄弟节点,如果否,则结束查找;如果是,则保持当前字符不变、转到当前节点的兄弟节点,然后执行S302。
结束查找后,系统连接当前节点与根节点得到匹配路径,并根据匹配路径上的匹配成功的叶子节点确定所查找到的基本关键词。
以下结合两个具体的例子,对基于树形结构的基本关键词查找方法进行说明:
1)假设输入文本为adf,系统获得字符“a”后,遍历关键词库中的根节点,发现与节点1匹配成功,并且节点1具有子节点,则进一步将字符“d”与节点1的子节点2、4匹配。
字符“d”与节点4匹配成功,并且节点4具有子节点,则进一步将字符“f”与节点4的子节点5匹配,
字符“f”与节点5匹配失败,并且节点5没有其他的兄弟节点,此时结束查找。当前的匹配路径为1-4-5,在路径中没有包含匹配成功的叶子节点,因此,可以确定在输入文本中没有查到基本关键词。
2)假设输入文本为abc,系统获得字符“a”后,遍历关键词库中的根节点,发现与节点1匹配成功,并且节点1具有子节点,则进一步将字符“b”与节点1的子节点2、4匹配。
字符“b”与节点2匹配成功,并且节点2具有子节点,则进一步将字符“c”与节点2的子节点3匹配,
字符“c”与节点4匹配成功,并且节点3没有子节点,此时结束查找。当前的匹配路径为1-2-3,其中,节点2和3均为匹配成功的叶子节点,因此,可以根据节点2和3的内容,确定在输入文本中查找到了基本关键词“ab”和“abc”。
可见,应用上述基于树形结构的基本关键词查找方法,每一级的匹配操作都是仅针对上一次匹配成功的节点来进行,这样,就不需要针对输入文本的每个字符与全部的关键词字符进行逐一匹配,从而有效地提高关键词查找的处理效率。
在上述例子中,是以首字符为根节点进行说明,这种方法适用于多个基本关键词具有相同前缀的情况。可以理解的是,针对多个基本关键词具有相同后缀的情况,例如:“电话窃听”、“手机窃听”、“手机监听”等,也可以以基本关键词的末字符为根节点、首字符为叶子节点的树形结构存储关键词。相应地,在匹配过程中,应按照从后向前的顺序对输入文本的字符进行匹配,具体的方法实现与前述类似,这里不再重复说明。
此外,为了逃避文本过滤,现在已经有很多人会在发布的文本中使用特殊字符,例如“窃-听-器”、“窃聼器”等等,对于这种情况,可以进一步结合字典功能来查找关键词。
字典定义了一组字符集合,并且定义了字符的原型,原型可以是字符本身,例如如字符‘a’的原型就是‘a’本身,也可以是另外一个字符,例如繁体字符的原型是对应的简体中文。常用的字典包括:简体字典、繁体字典、英文字典、数字字典等等。此外,业务人员还可以实际的需求,自行定义字典,例如,将字符“-”的原型定义为空字符。
根据前述的步骤S302,系统可以在将当前字符与当前节点进行匹配之前,在字典中查找所述当前字符是否具有原型字符;如果是,则将其转换为相应的原型字符,并以所述原型字符为当前字符,与所述当前节点进行匹配。
以本实施例前述的例2)进行说明,假如输入文本为aBc,则系统在将字符“B”与节点2进行匹配之前,通过遍历所有字典,发现字符“B”具有原型“b”,则将原输入文本中的“B”转换为原型“b”,然后以“b”为当前字符与节点2进行匹配。
对于“窃-听-器”这类文本,系统通过查询字典,会将字符“-”转为空字符。在匹配过程中,当系统匹配到“窃”之后,将跳过空字符直接与“听”进行匹配。
可见,通过查询字典以及转换字符,可以让系统识别出更多的不良信息,从而实现更好的文本过滤效果。
相应于上面的方法实施例,本申请还提供一种文本过滤系统,参见图4所示,包括:
关键词存储单元410,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
基本查找单元420,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
语义匹配单元430,用于在所述基本查找单元420在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元430包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元431;
过滤处理单元440,用于在所述语义匹配单元430匹配成功时,对匹配成功的文本内容进行过滤处理。
其中,所述关键词存储单元,以字符为单位,按照树形结构存储所述基本关键词;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;
参见图5所示,所述基本查找单元420,可以包括:
文本获取子单元421,用于获取所述输入文本中的一个字符c1;
字符匹配子单元422,用于以c1为当前字符、所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;
如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;
确定子单元423,用于连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词;
参见图6所示,所述基本查找单元420,还可以包括:
字符转换子单元424,用于在所述字符匹配子单元422进行匹配之前,在字典中查找所述当前字符是否具有原型字符,如果是,则将其转换为相应的原型字符;
则所述字符匹配子单元423,以所述原型字符为当前字符,与所述当前节点进行匹配。
所述语义关键词的构成还可以包括:过滤条件;
则所述语义匹配单元430还包括:用于将所述输入文本的属性与所述过滤条件进行匹配的类别匹配子单元432,如图7所示。
所述语义关键词的构成还可以包括:过滤行为;
则所述过滤处理单元,用于根据所述过滤行为,对所查找到的文本内容进行过滤处理。
为了描述的方便,描述以上系统时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文本过滤方法,其特征在于,包括:
预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;
如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。
2.根据权利要求1所述的方法,其特征在于,
所述基本关键词,以字符为单位,按照树形结构存储于文本过滤系统中;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;
所述在输入文本中查找构成所述语义关键词的基本关键词,包括步骤:
获取所述输入文本中的一个字符c1;
以c1为当前字符、以所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;
如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;
连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词。
3.根据权利要求2所述的方法,其特征在于,在将当前字符与当前节点进行匹配之前,还包括:
在字典中查找所述当前字符是否具有原型字符;
如果是,则将其转换为相应的原型字符,并以所述原型字符为当前字符,与所述当前节点进行匹配。
4.根据权利要求1至3任一项所述的方法,其特征在于,
所述语义关键词的构成还包括:过滤条件;
则所述语义匹配还包括:将所述输入文本的属性与所述过滤条件进行匹配。
5.根据权利要求1至3任一项所述的方法,其特征在于,
所述语义关键词的构成还包括:过滤行为;
则所述对所查找到的文本内容进行过滤处理,包括:根据所述过滤行为,对所查找到的文本内容进行过滤处理。
6.一种文本过滤系统,其特征在于,包括:
关键词存储单元,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;
基本查找单元,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;
语义匹配单元,用于在所述基本查找单元在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元;
过滤处理单元,用于在所述语义匹配单元匹配成功时,对匹配成功的文本内容进行过滤处理。
7.根据权利要求6所述的系统,其特征在于,
所述关键词存储单元,以字符为单位,按照树形结构存储所述基本关键词;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;
所述基本查找单元,包括:
文本获取子单元,用于获取所述输入文本中的一个字符c1;
字符匹配子单元,用于以c1为当前字符、以所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;
如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;
确定子单元,用于连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词。
8.根据权利要求7所述的系统,其特征在于,所述基本查找单元,还包括:
字符转换子单元,用于在所述字符匹配子单元进行匹配之前,在字典中查找所述当前字符是否具有原型字符,如果是,则将其转换为相应的原型字符;
则所述字符匹配子单元,以所述原型字符为当前字符,与所述当前节点进行匹配。
9.根据权利要求6至8任一项所述的系统,其特征在于,
所述语义关键词的构成还包括:过滤条件;
则所述语义匹配单元还包括:用于将所述输入文本的属性与所述过滤条件进行匹配的类别匹配子单元。
10.根据权利要求6至8任一项所述的系统,其特征在于,
所述语义关键词的构成还包括:过滤行为;
则所述过滤处理单元,用于根据所述过滤行为,对所查找到的文本内容进行过滤处理。
CN200910211715.0A 2009-11-10 2009-11-10 一种文本过滤方法及文本过滤系统 Active CN102053993B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN200910211715.0A CN102053993B (zh) 2009-11-10 2009-11-10 一种文本过滤方法及文本过滤系统
JP2012537879A JP5744892B2 (ja) 2009-11-10 2010-09-03 テキストフィルタリングの方法およびシステム
US13/055,984 US8874597B2 (en) 2009-11-10 2010-09-03 Method and system for text filtering based on semantic matching
PCT/US2010/047795 WO2011059551A1 (en) 2009-11-10 2010-09-03 Method and system for text filtering
EP10830362.9A EP2499563A4 (en) 2009-11-10 2010-09-03 METHOD AND SYSTEM FOR FILTERING TEXTS
HK11105863A HK1152123A1 (zh) 2009-11-10 2011-06-10 種文本過濾方法及文本過濾系統
US14/491,205 US9600570B2 (en) 2009-11-10 2014-09-19 Method and system for text filtering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910211715.0A CN102053993B (zh) 2009-11-10 2009-11-10 一种文本过滤方法及文本过滤系统

Publications (2)

Publication Number Publication Date
CN102053993A true CN102053993A (zh) 2011-05-11
CN102053993B CN102053993B (zh) 2014-04-09

Family

ID=43958327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910211715.0A Active CN102053993B (zh) 2009-11-10 2009-11-10 一种文本过滤方法及文本过滤系统

Country Status (6)

Country Link
US (2) US8874597B2 (zh)
EP (1) EP2499563A4 (zh)
JP (1) JP5744892B2 (zh)
CN (1) CN102053993B (zh)
HK (1) HK1152123A1 (zh)
WO (1) WO2011059551A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN102880632A (zh) * 2012-07-24 2013-01-16 刘莎 一种语用关键词检索方法与装置
CN102945230A (zh) * 2012-10-17 2013-02-27 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN103812852A (zh) * 2012-11-12 2014-05-21 株式会社OPTiM 用户终端、未授权网站信息管理服务器及相应方法和程序
CN103838710A (zh) * 2012-11-22 2014-06-04 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN104331475A (zh) * 2014-11-04 2015-02-04 郑州悉知信息技术有限公司 一种信息检测方法及装置
CN105608201A (zh) * 2015-12-28 2016-05-25 湖南蚁坊软件有限公司 一种支持多关键词表达式的文本匹配方法
CN105760445A (zh) * 2016-02-03 2016-07-13 北京光年无限科技有限公司 用于过滤垃圾词的方法及系统
CN105893503A (zh) * 2016-03-30 2016-08-24 浙江传媒学院 一种内容无关的文本快速过滤方法
CN103838710B (zh) * 2012-11-22 2016-11-30 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN108334491A (zh) * 2017-09-08 2018-07-27 腾讯科技(深圳)有限公司 文本分析方法、装置、计算设备及存储介质
CN109582768A (zh) * 2018-11-23 2019-04-05 北京搜狗科技发展有限公司 一种文本输入方法和装置
CN109614463A (zh) * 2018-10-24 2019-04-12 阿里巴巴集团控股有限公司 文本匹配处理方法及装置
CN109670163A (zh) * 2017-10-17 2019-04-23 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN110442704A (zh) * 2019-08-13 2019-11-12 重庆誉存大数据科技有限公司 一种企业新闻筛选方法及系统
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN104317883B (zh) * 2014-10-21 2017-11-21 北京国双科技有限公司 网络文本处理方法及装置
US10585869B2 (en) * 2015-05-22 2020-03-10 Open Text Holdings, Inc. System and method for generating, maintaining, and querying a database for computer investigations
CN108491518B (zh) * 2018-03-26 2021-02-26 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
US11074407B2 (en) * 2019-03-21 2021-07-27 International Business Machines Corporation Cognitive analysis and dictionary management
US11036936B2 (en) * 2019-03-21 2021-06-15 International Business Machines Corporation Cognitive analysis and content filtering
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN111476037B (zh) * 2020-04-14 2023-03-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112131462A (zh) * 2020-09-10 2020-12-25 中数通信息有限公司 一种基于信息监测的关键词发现方法、系统和电子设备
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN113377921B (zh) * 2021-06-25 2023-07-21 北京百度网讯科技有限公司 用于匹配信息的方法、装置、电子设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1329808A2 (en) * 2002-01-16 2003-07-23 Xerox Corporation Symmetrical structure pattern matching
US20060004744A1 (en) * 2004-06-19 2006-01-05 Nevidomski Alex Nevidomski Ale Method and system for approximate string matching
CN201066901Y (zh) * 2007-08-01 2008-05-28 浙江大学 短信息监控中心

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305729A (ja) 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd ネットワーク情報フィルタリングシステム
US6341280B1 (en) * 1998-10-30 2002-01-22 Netscape Communications Corporation Inline tree filters
JP3465815B2 (ja) * 1998-12-28 2003-11-10 株式会社Quick テキストフィルタリングシステム
JP4273559B2 (ja) * 1999-03-19 2009-06-03 株式会社デンソー 検索装置
JP4115048B2 (ja) 1999-08-17 2008-07-09 株式会社リコー 文書検索システム
JP2003524259A (ja) * 2000-02-22 2003-08-12 メタカルタ インコーポレイテッド 情報の空間符号化及び表示
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
JP2006293573A (ja) 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
US7991767B2 (en) * 2005-04-29 2011-08-02 International Business Machines Corporation Method for providing a shared search index in a peer to peer network
CA2509496A1 (en) * 2005-06-06 2006-12-06 3618633 Canada Inc. Search-enhanced trie-based syntactic pattern recognition of sequences
US7809551B2 (en) 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
JP2007172571A (ja) * 2006-04-20 2007-07-05 Shoji Kodama 情報検索システム及び方法
WO2008024917A2 (en) * 2006-08-23 2008-02-28 Innovative Solution, Inc. Efficient search result update mechanism
WO2008090606A1 (ja) 2007-01-24 2008-07-31 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP2008197929A (ja) * 2007-02-13 2008-08-28 Tsukuba Multimedia:Kk サイト発信住所登録型地図情報システム連動サーチエンジンサーバーシステム。
US20080301125A1 (en) * 2007-05-29 2008-12-04 Bea Systems, Inc. Event processing query language including an output clause
US20090024718A1 (en) * 2007-07-20 2009-01-22 Aris Anagnostopoulos Just-In-Time Contextual Advertising Techniques
US8019709B2 (en) * 2007-11-09 2011-09-13 Vantrix Corporation Method and system for rule-based content filtering
US8442928B2 (en) 2007-11-09 2013-05-14 Vantrix Corporation Method and apparatus for employing rules to filter streaming data
US8364470B2 (en) * 2008-01-15 2013-01-29 International Business Machines Corporation Text analysis method for finding acronyms
JP2009187414A (ja) 2008-02-08 2009-08-20 Fujitsu Ltd 分析用属性項目抽出プログラム、分析用属性項目抽出方法、及び情報分析装置
US7895205B2 (en) 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
US20100169243A1 (en) 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
US20100191724A1 (en) 2009-01-23 2010-07-29 Mehmet Kivanc Ozonat Method and system to identify providers in web documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1329808A2 (en) * 2002-01-16 2003-07-23 Xerox Corporation Symmetrical structure pattern matching
US20060004744A1 (en) * 2004-06-19 2006-01-05 Nevidomski Alex Nevidomski Ale Method and system for approximate string matching
CN201066901Y (zh) * 2007-08-01 2008-05-28 浙江大学 短信息监控中心

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张玲达等: "一种基于内容的混合模式过滤模型", 《计算机工程》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880632A (zh) * 2012-07-24 2013-01-16 刘莎 一种语用关键词检索方法与装置
CN102880632B (zh) * 2012-07-24 2016-02-24 刘莎 一种语用关键词检索方法与装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN102945230B (zh) * 2012-10-17 2015-03-25 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN102945230A (zh) * 2012-10-17 2013-02-27 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN103812852A (zh) * 2012-11-12 2014-05-21 株式会社OPTiM 用户终端、未授权网站信息管理服务器及相应方法和程序
CN103838710A (zh) * 2012-11-22 2014-06-04 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN103838710B (zh) * 2012-11-22 2016-11-30 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN104331475A (zh) * 2014-11-04 2015-02-04 郑州悉知信息技术有限公司 一种信息检测方法及装置
CN104331475B (zh) * 2014-11-04 2018-03-23 郑州悉知信息科技股份有限公司 一种信息检测方法及装置
CN105608201A (zh) * 2015-12-28 2016-05-25 湖南蚁坊软件有限公司 一种支持多关键词表达式的文本匹配方法
CN105760445A (zh) * 2016-02-03 2016-07-13 北京光年无限科技有限公司 用于过滤垃圾词的方法及系统
CN105893503A (zh) * 2016-03-30 2016-08-24 浙江传媒学院 一种内容无关的文本快速过滤方法
CN105893503B (zh) * 2016-03-30 2019-05-14 浙江传媒学院 一种内容无关的文本快速过滤方法
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN108334491A (zh) * 2017-09-08 2018-07-27 腾讯科技(深圳)有限公司 文本分析方法、装置、计算设备及存储介质
CN108334491B (zh) * 2017-09-08 2020-07-31 腾讯科技(深圳)有限公司 文本分析方法、装置、计算设备及存储介质
CN109670163A (zh) * 2017-10-17 2019-04-23 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN109670163B (zh) * 2017-10-17 2023-03-28 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN109614463A (zh) * 2018-10-24 2019-04-12 阿里巴巴集团控股有限公司 文本匹配处理方法及装置
CN109614463B (zh) * 2018-10-24 2023-02-03 创新先进技术有限公司 文本匹配处理方法及装置
CN109582768A (zh) * 2018-11-23 2019-04-05 北京搜狗科技发展有限公司 一种文本输入方法和装置
CN109582768B (zh) * 2018-11-23 2021-08-24 北京搜狗科技发展有限公司 一种文本输入方法和装置
CN110442704A (zh) * 2019-08-13 2019-11-12 重庆誉存大数据科技有限公司 一种企业新闻筛选方法及系统

Also Published As

Publication number Publication date
US20150120764A1 (en) 2015-04-30
US9600570B2 (en) 2017-03-21
US8874597B2 (en) 2014-10-28
WO2011059551A1 (en) 2011-05-19
JP5744892B2 (ja) 2015-07-08
HK1152123A1 (zh) 2012-02-17
EP2499563A1 (en) 2012-09-19
JP2013510368A (ja) 2013-03-21
EP2499563A4 (en) 2016-03-16
US20120221588A1 (en) 2012-08-30
CN102053993B (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN102053993B (zh) 一种文本过滤方法及文本过滤系统
CN108027833B (zh) 用于创建结构化数据语言查询的方法
US10956662B2 (en) List manipulation in natural language processing
US10013404B2 (en) Targeted story summarization using natural language processing
CN112703502A (zh) 使用非结构化输入更新异构数据存储
US11281737B2 (en) Unbiasing search results
US20140136544A1 (en) Natural language processing optimized for micro content
CN104699737A (zh) 用于管理搜索的方法和系统
CN103548023A (zh) 基于本体的自动自助式用户支持
AU2017216520A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
JP2016529619A (ja) ハイパーリンクが設定されたマイニングされたテキストスニペットを介する画像のブラウジング
US20150269612A1 (en) Entity platform and entity store
JP2022031625A (ja) 情報をプッシュするための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US20180053235A1 (en) Unbiased search and user feedback analytics
CN102737021A (zh) 搜索引擎及其实现方法
TW202029033A (zh) 基於區塊鏈的作品存證方法、系統、裝置及設備
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
US20160179895A1 (en) Database joins using uncertain criteria
Roy et al. A lexicon based algorithm for noisy text normalization as pre processing for sentiment analysis
TWI486796B (zh) Text filtering method and text filtering system
US11036939B2 (en) Data driven approach for automatically generating a natural language processing cartridge
Tamta et al. Suffix stripping problem as an optimization problem
Fiore et al. Generating a cybersecurity thesaurus based on tweets
Pal et al. Preparing and Annotating a Set of Relevant Contextual Words from the Text Corpus and the Online Newspaper Archives in Bengali
US20190155946A1 (en) N-gram classification in social media messages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1152123

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1152123

Country of ref document: HK