CN101697153A - 一种非法词判定方法和非法词判定装置 - Google Patents
一种非法词判定方法和非法词判定装置 Download PDFInfo
- Publication number
- CN101697153A CN101697153A CN200910110288A CN200910110288A CN101697153A CN 101697153 A CN101697153 A CN 101697153A CN 200910110288 A CN200910110288 A CN 200910110288A CN 200910110288 A CN200910110288 A CN 200910110288A CN 101697153 A CN101697153 A CN 101697153A
- Authority
- CN
- China
- Prior art keywords
- illegal
- keyword
- word
- participle
- participle operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及关键词过滤技术,针对现有关键词过滤方法执行效率较低的缺陷,提供一种非法词判定方法和非法词判定装置。非法词判定方法用于确定输入的关键词是否非法,包括基于非法词列表对关键词进行分词操作,并基于分词操作的结果确定该关键词是否非法。本发明还提供了一种非法词判定装置。本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时,说明该关键词非法。当关键词的分割结果显示该关键词可分割时,说明该关键词合法。凭借分词算法执行效率高的特点,本发明提供的技术方案可极大提高关键词过滤的效率。此外,本发明提供的技术方案原理简单,易于实现。
Description
技术领域
本发明涉及关键词过滤技术,更具体地说,涉及一种非法词判定方法和非法词判定装置。
背景技术
从手工检索到互联网搜索引擎,计算机网络的发展为检索方式带来了革命性的变化。无论是Google公司的股票市值还是微软Vista操作系统中无处不在的搜索栏,都无不说明,搜索时代正向我们走来。
作为互联网搜索引擎的一个重要部分,搜索数据库中存储了大量的数据记录,这其中既包括文字信息,也包括语音信息、视频信息等多媒体信息,借助高效的搜索算法和遍及全球的互联网络,互联网搜索引擎正在发展成为人类历史上最大的百科全书。
在带给人们极大方便的同时,互联网搜索引擎的搜索数据库中也存储了大量的不良信息,例如色情、暴力等信息。对于此类信息,现有技术采用关键词过滤的方式阻止此类信息被用户搜索到。而现有关键词过滤技术基本采用笨拙的字符串匹配方式来进行,这种方式效率较低,面对每日数千万次的搜索请求时常显得力不从心。
因此,需要一种关键词过滤方案,能够有效克服现有关键词过滤方法执行效率较低的缺陷。
发明内容
本发明要解决的技术问题在于,针对现有关键词过滤方法执行效率较低的缺陷,提供一种非法词判定方法和非法词判定装置。
本发明解决其技术问题所采用的技术方案是:
构造一种非法词判定方法,用于确定输入的关键词是否非法,包括基于非法词列表对所述关键词进行分词操作,并基于分词操作的结果确定该关键词是否非法。
在本发明提供的非法词判定方法中,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词可分割,则确定该关键词合法。
在本发明提供的非法词判定方法中,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词不可分割,则确定该关键词非法。
在本发明提供的非法词判定方法中,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
本发明还提供了一种非法词判定装置,用于确定输入的关键词是否非法,包括:
分词模块,用于基于非法词列表对所述关键词进行分词操作;
判断模块,与分词模块通信连接,用于基于分词操作的结果确定该关键词是否非法。
在本发明提供的非法词判定装置中,所述判断模块用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法。
在本发明提供的非法词判定装置中,所述判断模块用于在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。
在本发明提供的非法词判定装置中,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
实施本发明的技术方案,具有以下有益效果:本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时,说明该关键词非法。当关键词的分割结果显示该关键词可分割时,说明该关键词合法。凭借分词算法执行效率高的特点,本发明提供的技术方案可极大提高关键词过滤的效率。此外,本发明提供的技术方案原理简单,易于实现。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明一较佳实施例的非法词判定方法的流程图;
图2是依据本发明一较佳实施例的非法词判定装置的逻辑结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时,说明该关键词非法。当关键词的分割结果显示该关键词可分割时,说明该关键词合法。凭借分词算法执行效率高的特点,本发明提供的技术方案可极大提高关键词过滤的效率。此外,本发明提供的技术方案原理简单,易于实现。
图1是依据本发明一较佳实施例的非法词判定方法100的流程图。本发明提供的非法词判定方法100用于确定输入的关键词是否非法,如图1所示,方法100开始于步骤102。
随后,在下一步骤104,接收输入的关键词。
随后,在下一步骤106,基于非法词列表对输入的关键词进行分词操作。
在具体实现过程中,非法词列表中列有预先设置的多个非法词。
此外,在具体实现过程中,上述分词操作可为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
随后,在下一步骤108,判断该关键词是否可分割,若是,则转到步骤112,否则转到步骤110。
如上文所述,若在步骤108中判断该关键词可分割,则转到步骤112,认定该关键词合法,然后转到步骤114。
依据分词操作的原理,在基于非法词列表对该关键词进行分词操作后,若该关键词未包含在非法词表中,则分词操作会将关键词分割为一个一个的单个字符(例如但不限于汉字)。由此可知,当关键词可分割为一个一个的单个字符时,说明该关键词不包含在非法词表中,由此可断定该关键词合法。
如上文所述,若在步骤108中判断该关键词不可分割,则转到步骤110,认定该关键词非法,然后转到步骤114。
依据分词操作的原理,在基于非法词列表对该关键词进行分词操作后,若该关键词包含在非法词表中,则该关键词不可分割。由此可知,当关键词不可分割时,说明该关键词包含在非法词表中,由此可断定该关键词非法。
最后,方法100结束于步骤114。
本发明还提供了一种非法词判定装置,下面就结合图2对其进行描述。
图2是依据本发明一较佳实施例的非法词判定装置200的逻辑结构示意图。如图2所示,非法词判定装置200包括分词模块202和判断模块204。
分词模块202用于基于非法词列表对所述关键词进行分词操作。
在具体实现过程中,非法词列表中列有预先设置的多个非法词。
此外,在具体实现过程中,上述分词操作可为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
判断模块204与分词模块202通信连接,用于基于分词操作的结果确定该关键词是否非法。
具体说来,判断模块204用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法,而在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。
依据分词操作的原理,在基于非法词列表对该关键词进行分词操作后,若该关键词未包含在非法词表中,则分词操作会将关键词分割为一个一个的单个字符(例如但不限于汉字)。由此可知,当关键词可分割为一个一个的单个字符时,说明该关键词不包含在非法词表中,由此可断定该关键词合法。
依据分词操作的原理,在基于非法词列表对该关键词进行分词操作后,若该关键词包含在非法词表中,则该关键词不可分割。由此可知,当关键词不可分割时,说明该关键词包含在非法词表中,由此可断定该关键词非法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种非法词判定方法,用于确定输入的关键词是否非法,其特征在于,包括基于非法词列表对所述关键词进行分词操作,并基于分词操作的结果确定该关键词是否非法。
2.根据权利要求1所述的非法词判定方法,其特征在于,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词可分割,则确定该关键词合法。
3.根据权利要求1或2所述的非法词判定方法,其特征在于,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词不可分割,则确定该关键词非法。
4.根据权利要求1所述的非法词判定方法,其特征在于,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
5.一种非法词判定装置,用于确定输入的关键词是否非法,其特征在于,包括:
分词模块,用于基于非法词列表对所述关键词进行分词操作;
判断模块,与分词模块通信连接,用于基于分词操作的结果确定该关键词是否非法。
6.根据权利要求5所述的非法词判定装置,其特征在于,所述判断模块用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法。
7.根据权利要求5或6所述的非法词判定装置,其特征在于,所述判断模块用于在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。
8.根据权利要求5所述的非法词判定装置,其特征在于,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910110288A CN101697153A (zh) | 2009-10-30 | 2009-10-30 | 一种非法词判定方法和非法词判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910110288A CN101697153A (zh) | 2009-10-30 | 2009-10-30 | 一种非法词判定方法和非法词判定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101697153A true CN101697153A (zh) | 2010-04-21 |
Family
ID=42142258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910110288A Pending CN101697153A (zh) | 2009-10-30 | 2009-10-30 | 一种非法词判定方法和非法词判定装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101697153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
-
2009
- 2009-10-30 CN CN200910110288A patent/CN101697153A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
CN113890756B (zh) * | 2021-09-26 | 2024-01-02 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10002123B2 (en) | Named entity extraction from a block of text | |
US11455301B1 (en) | Method and system for identifying entities | |
US9195738B2 (en) | Tokenization platform | |
Chen et al. | Template detection for large scale search engines | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
MX2011005771A (es) | Metodo y dispositivo para interceptar correo basura. | |
CN101673266A (zh) | 音频、视频内容的搜索方法 | |
CN102436448A (zh) | 搜索方法和系统 | |
CA2493084A1 (fr) | Systeme d'extraction d'informations dans un texte en langage naturel | |
CN102789464A (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN106203171A (zh) | 大数据平台安全索引系统及方法 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN101673263B (zh) | 视频内容的搜索方法 | |
CN102117285A (zh) | 一种基于语义索引的检索方法 | |
CN101539433A (zh) | 导航系统中拼音首字母加声调检索的方法及装置 | |
CN101655846A (zh) | 中文输入法标点关联方法及装置 | |
CN101697153A (zh) | 一种非法词判定方法和非法词判定装置 | |
CN102789466B (zh) | 一种提问标题质量判定方法、提问引导方法及其装置 | |
KR20150123603A (ko) | 데이터베이스 관리 방법 및 데이터베이스 관리 시스템 | |
CN101673267B (zh) | 音频、视频内容的搜索方法 | |
CN104123293B (zh) | 别名查询系统及其方法 | |
CN106502980B (zh) | 一种基于文本词素切分的检索方法及系统 | |
CN113127715A (zh) | 一种对涉赌信息进行识别的方法及系统 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 | |
US8024347B2 (en) | Method and apparatus for automatically differentiating between types of names stored in a data collection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100421 |