CN113158663A - 一种屏蔽处理方法、装置、电子设备及存储介质 - Google Patents
一种屏蔽处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113158663A CN113158663A CN202011385601.0A CN202011385601A CN113158663A CN 113158663 A CN113158663 A CN 113158663A CN 202011385601 A CN202011385601 A CN 202011385601A CN 113158663 A CN113158663 A CN 113158663A
- Authority
- CN
- China
- Prior art keywords
- shielding
- word
- candidate
- words
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 241001278112 Populus euphratica Species 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000219000 Populus Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供的一种屏蔽处理方法、装置、电子设备及存储介质,方法包括:确定待处理文本中的候选词;比较所述候选词与屏蔽库中的屏蔽词;当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。由于所述屏蔽库中不仅包括预先设置的第一屏蔽词,还包括与所述第一屏蔽词具有相关性的第二屏蔽词,因此能够实现对屏蔽词的全面屏蔽,优化了屏蔽词的屏蔽效果。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种屏蔽处理方法、装置、电子设备及存储介质。
背景技术
现有屏蔽词技术一般根据系统预置屏蔽中文词库、拼音词库、谐音词库,对待展示信息进行屏蔽。
但是一旦这些词库更新不及时,就可能导致部分系统想屏蔽的内容屏蔽不掉。
因此,如何对屏蔽词进行全面屏蔽是当下需要解决的技术问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种屏蔽处理方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一屏蔽处理方法,包括:
确定待处理文本中的候选词;
比较所述候选词与屏蔽库中的屏蔽词;
当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
可选的,上述处理方法还包括:
根据设定时间内的历史数据,确定候选屏蔽词;
当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性;
当所述候选屏蔽词与至少一个第一屏蔽词之间具有相关性时,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
可选的,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
使用所述候选屏蔽词进行搜索,得到搜索结果;
将所述第一屏蔽词和所述搜索结果进行字符串匹配,确定第三屏蔽词;所述第三屏蔽词为所述第一屏蔽词中与所述候选屏蔽词存在关联的屏蔽词;
确定所述第三屏蔽词在所述搜索结果出现的次数;
若所述第三屏蔽词在所述搜索结果出现的次数大于第一阈值,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
对任意一个所述第一屏蔽词进行部首拆分,得到第一拆分内容;
将所述第一拆分内容和所述候选屏蔽词进行比较,得到第一比较结果;
若所述第一比较结果为匹配,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
确定任意一个所述第一屏蔽词的笔画顺序和笔画内容;
将任意一个所述第一屏蔽词的笔画顺序和笔画内容,与所述候选屏蔽词进行比较,得到第二比较结果;
若所述第二比较结果为相同,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述根据设定时间内的历史数据,确定候选屏蔽词,包括:
确定所述候选屏蔽词对应的设定条件;
从所述历史数据中,获取满足所述设定条件的字符串,确定所述满足所述设定条件的字符串为候选屏蔽词;
其中,所述设定条件包括:字符串出现次数大于第二阈值。
可选的,所述设定条件还包括:字符串长度大于设定长度。
第二方面,本发明实施例还提供一种屏蔽处理装置,包括:
候选词确定模块,用于确定待处理文本中的候选词;
比较模块,用于比较所述候选词与屏蔽库中的词语;
屏蔽处理模块,用于当所述候选词与所述屏蔽库中的词语匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
可选的,上述处理装置还包括:
候选屏蔽词确定模块,用于根据设定时间内的历史数据,确定候选屏蔽词;
相关性判断模块,用于当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性;
屏蔽库更新模块,用于当所述候选屏蔽词与至少一个第一屏蔽词之间具有相关性时,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
使用所述候选屏蔽词进行搜索,得到搜索结果;
将所述第一屏蔽词和所述搜索结果进行字符串匹配,确定第三屏蔽词;所述第三屏蔽词为所述第一屏蔽词中与所述候选屏蔽词存在关联的屏蔽词;
确定所述第三屏蔽词在所述搜索结果出现的次数;
若所述第三屏蔽词在所述搜索结果出现的次数大于第一阈值,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
对任意一个所述第一屏蔽词进行部首拆分,得到第一拆分内容;
将所述第一拆分内容和所述候选屏蔽词进行比较,得到第一比较结果;
若所述第一比较结果为匹配,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
确定任意一个所述第一屏蔽词的笔画顺序和笔画内容;
将任意一个所述第一屏蔽词的笔画顺序和笔画内容,与所述候选屏蔽词进行比较,得到第二比较结果;
若所述第二比较结果为相同,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述候选屏蔽词确定模块中根据设定时间内的历史数据,确定候选屏蔽词,包括:
确定所述候选屏蔽词对应的设定条件;
从所述历史数据中,获取满足所述设定条件的字符串,确定所述满足所述设定条件的字符串为候选屏蔽词;
其中,所述设定条件包括:字符串出现次数大于第二阈值。
可选的,所述设定条件还包括:字符串长度大于设定长度。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的屏蔽处理方法的步骤。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的屏蔽处理方法的步骤。
本发明实施例提供的一种屏蔽处理方法、装置、电子设备及存储介质,通过确定待处理文本中的候选词;比较所述候选词与屏蔽库中的屏蔽词;当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;由于所述屏蔽库中不仅包括预先设置的第一屏蔽词,还包括与所述第一屏蔽词具有相关性的第二屏蔽词,因此能够实现对屏蔽词的全面屏蔽,优化了屏蔽词的屏蔽效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种屏蔽处理方法的流程示意图;
图2是本申请实施例提供的一种屏蔽处理方法的应用场景示意图;
图3是本申请实施例提供的一种屏蔽处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种屏蔽处理方法的流程示意图,如图1所示的屏蔽处理方法,可以包括如下步骤:
步骤101、确定待处理文本中的候选词。
在本发明实施例中,待处理文本是指需要做屏蔽处理的文本,如用户所发表的评论信息,用户所发表的弹幕信息等。
对待处理文本进行分词操作,可以得到候选词。如何对待处理文本进行分词操作是本领域技术人员的公知常识,因此不在此处重复说明。
步骤102、比较所述候选词与屏蔽库中的屏蔽词。
在本发明实施例中,所述屏蔽库是屏蔽中文词库、拼音词库、谐音词库的统称。由于中文词语的特点,除了用汉字表示词语外,也可以通过谐音、拼音等方式来描述词语,因此屏蔽库分为屏蔽中文词库、拼音词库以及谐音词库。
但本申请人在实践中发现,用户为了躲避屏蔽处理,除了传统的拼音、谐音等方式外,还采用了其他方式,如拆字的方式。如将“胡杨”拆分成“古月木易”。为此,在本发明实施例中所采用的屏蔽库除了包括有第一屏蔽词外,还包括有与所述第一屏蔽词具有相关性的第二屏蔽词。
第一屏蔽词是指屏蔽库中预先已经设置的屏蔽词,现有技术中的屏蔽库所包含的屏蔽词都可以被认为是第一屏蔽词,如屏蔽中文词、拼音词、谐音词等。第二屏蔽词是与第一屏蔽词具有相关性的屏蔽词。现有技术中的屏蔽库一般不包含第二屏蔽词,包含第二屏蔽词是本发明实施例提供的屏蔽库与现有技术中的屏蔽库的主要区别。
由于在本发明实施例中,屏蔽库不仅包含第一屏蔽词,也包含第二屏蔽词,因此屏蔽词所涉及的范围更广。在将候选词与屏蔽库中的屏蔽词比较时,可以更好地发现满足屏蔽条件的候选词。
比较候选词与屏蔽词库中的屏蔽词,可以采用将候选词与屏蔽词库中的屏蔽词逐个比对的方式,在本发明实施例中,不对其具体实现过程做进一步的说明。
步骤102、当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理。
在本发明实施例中,当一个候选词与屏蔽库中的一个屏蔽词匹配时,可以对该候选词做屏蔽处理。
比如,如判断候选词“古月木易”和屏蔽库中的屏蔽词“胡杨”匹配,则对候选词“古月木易”进行屏蔽处理。
本发明实施例提供的屏蔽处理方法通过确定待处理文本中的候选词;比较所述候选词与屏蔽库中的屏蔽词;当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;由于所述屏蔽库中不仅包括预先设置的第一屏蔽词,还包括与所述第一屏蔽词具有相关性的第二屏蔽词,因此能够实现对屏蔽词的全面屏蔽,优化了屏蔽词的屏蔽效果。
基于上述任一实施例,在本发明实施例中,方法还包括:
根据设定时间内的历史数据,确定候选屏蔽词;
当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性;
当所述候选屏蔽词与至少一个第一屏蔽词之间具有相关性时,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
在本发明实施例中,设定时间是人为设定的,比如:设定时间可以是2020年的1月至5月时间段,也可以是2020年的5月这一个月份。
历史数据可以是用户已发表的评论信息,用户已发表的弹幕信息等,也可以是其他类型的数据。
具体的,所述根据设定时间内的历史数据,确定候选屏蔽词,包括:
步骤S1、确定候选屏蔽词对应的设定条件。
比如:该候选屏蔽词对应的设定条件可以是系统定时从评论信息库中以用户为粒度,获取用户N天内的所有评论信息,评论信息库存放用户的所有输入信息。
步骤S2、从历史数据中,获取满足所述设定条件的字符串,确定所述满足所述设定条件的字符串为候选屏蔽词。
其中,所述设定条件包括但不限于以下方式:
第一种方式:字符串出现次数大于第二阈值。
具体的,该第二阈值是人为设定的值;比如,可以是4、5、6等数值。
第二种方式:字符串长度大于设定长度。
根据历史数据,确定候选屏蔽词之后,进一步判断候选屏蔽词是否属于第一屏蔽词。若属于第一屏蔽词,可按照现有技术中的屏蔽方法进行处理,不在本发明实施例提供的屏蔽处理方法的讨论范畴内。
当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性。所述相关性可以理解为候选屏蔽词是否是由某一个已知的第一屏蔽词变形得到的,如通过汉字拆分得到的。在本发明的其他实施例中,将对判断候选屏蔽词与至少一个第一屏蔽词之间是否具有相关性的具体实现过程进行说明。
若确定候选屏蔽词与至少一个第一屏蔽词之间具有相关性,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
例如:将与第一屏蔽词“胡杨”具有相关性的候选屏蔽词“古月木易”添加至屏蔽库中的屏蔽中文词库中。
本发明实施例提供的屏蔽处理方法通过从历史数据中获取候选屏蔽词,然后对候选屏蔽词与屏蔽库中已有的屏蔽词之间是否具有相关性进行判断,当具有相关性时,将候选屏蔽词添加到屏蔽库中。这样有助于扩大屏蔽库中屏蔽词的全面性,优化了屏蔽效果。
基于上述任一实施例,在本发明实施例中,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
使用所述候选屏蔽词进行搜索,得到搜索结果;
将所述第一屏蔽词和所述搜索结果进行字符串匹配,确定第三屏蔽词;所述第三屏蔽词为所述第一屏蔽词中与所述候选屏蔽词存在关联的屏蔽词;
确定所述第三屏蔽词在所述搜索结果出现的次数;
若所述第三屏蔽词在所述搜索结果出现的次数大于第一阈值,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
判断候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性具有多种实现方式,在本发明实施例中对其中一种实现方式进行描述。
具体的,其中比如候选屏蔽词可以为“古月木易”等,搜索所采用的搜索方式可以是“百度搜索”、“搜狗搜索”、“谷歌搜索”“必应搜索”等。
在一个示例场景中,比如:首先,使用候选屏蔽词“古月木易”进行“百度搜索”,在搜索页面可以得到搜索结果。
然后通过字符串匹配的方式可以找到与搜索结果匹配的一个或多个屏蔽词,如“胡杨”,在此称其为第三屏蔽词。显然,第三屏蔽词是前述第一屏蔽词的一个子集。
接着,确定第三屏蔽词“胡杨”在“百度搜索”结果中出现的次数。
最后,假设第一阈值的大小设置为3;若第三屏蔽词“胡杨”在搜索“百度搜索”页面的搜索结果出现的次数大于3,则确定候选屏蔽词“古月木易”与第三屏蔽词“胡杨”(即至少一个第一屏蔽词)之间具有相关性。
本发明实施例提供的屏蔽处理方法通过对候选屏蔽词进行搜索,然后将搜索结果与第一屏蔽词比较的方式确定候选屏蔽词与第一屏蔽词之间的相关性,进而进行后续屏蔽处理,优化了屏蔽词的屏蔽效果。
基于上述任一实施例,在本发明实施例中,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
对任意一个所述第一屏蔽词进行部首拆分,得到第一拆分内容;
将所述第一拆分内容和所述候选屏蔽词进行比较,得到第一比较结果;
若所述第一比较结果为匹配,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
在一个示例场景中,比如:第一屏蔽词是“胡杨”,对“胡杨”进行部首拆分,得到第一拆分内容“古月木易”。然后,将第一拆分内容“古月木易”和候选屏蔽词“古月木易”进行比较,得到第一比较结果。最后,若第一拆分内容“古月木易”和候选屏蔽词“古月木易”比较结果为匹配,则确定候选屏蔽词“古月木易”与第一屏蔽词“胡杨”之间具有相关性。
本发明实施例提供的屏蔽处理方法通过对第一屏蔽词进行拆分,然后将拆分结果与候选屏蔽词比较的方式确定候选屏蔽词与第一屏蔽词之间的相关性,进而进行后续屏蔽处理,优化了屏蔽词的屏蔽效果。
基于上述任一实施例,在本发明实施例中,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
确定任意一个所述第一屏蔽词的笔画顺序和笔画内容;
将任意一个所述第一屏蔽词的笔画顺序和笔画内容,与所述候选屏蔽词进行比较,得到第二比较结果;
若所述第二比较结果为相同,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
在一个示例场景中,比如:第一屏蔽词是“胡杨”,确定第一屏蔽词“胡杨”的笔画顺序和笔画内容。然后,将第一屏蔽词“胡杨”的笔画顺序和笔画内容,与候选屏蔽词“古月木易”进行比较,得到第二比较结果。最后,若上述第二比较结果为相同,则确定候选屏蔽词“古月木易”与第一屏蔽词“胡杨”之间具有相关性。
本发明实施例提供的屏蔽处理方法通过确定第一屏蔽词的笔画顺序和笔画内容,然后将其与候选屏蔽词的笔画顺序和笔画内容进行比较,从而确定候选屏蔽词与第一屏蔽词之间的相关性,进而进行后续屏蔽处理,优化了屏蔽词的屏蔽效果。
在一示例场景中,如图2所示,以评论信息屏蔽词为例:
1、系统定时从评论信息库中以用户为粒度,获取用户N天内的所有评论信息。
比如:系统定时从评论信息库中获取评论信息,其中的“定时”可以是指每1天、每3天、每1周等。
评论信息库存放用户的所有输入待展示信息,该待展示信息即展示在界面上的用户的评论信息。
2、词提取模块对每个用户N天内的信息进行处理,通过文字匹配、模式识别等技术从所有评论信息中获取高频字符串,高频字符串命中系统预设阈值M%,当某个用户在N天的总评论信息T条中有T*M%条以上包含某个字符串且字符串长度大于1,即认为该词为高频词,如果该字符串在屏蔽词库,此时和当前已有技术方案一样,直接进行屏蔽。如果该字符串不在屏蔽词库中,也不在谐音词、拼音词库时,但在忽略词库,则该词为正常词,如果该词也不在忽略词库,需要进入搜索分析模块继续进行分析。
其中,上述N天的取值可以依据系统屏蔽内容要求的严格程度来确定。
比如,N天可以取值为2天,3天等;建议不应超过7天,如果超过 7天再屏蔽就可能导致中间的露出应该屏蔽的内容太多了。
词提取模块负责提取高频词。
其中,高频字符串命中系统预设阈值M%,M的取值越高,系统屏蔽的越精确。
比如,M%可以取值为80%,90%等,为保持精准,M%的取值建议至少要在75%以上。
3、搜索分析模块拿到该字符串后,可以有但不限于以下三种处理方法:
方法一:对该字符串通过发送http请求等方式进行第三方搜索,通过页面抓取等技术系统获取到第三方搜索页面第一页所有结果信息,将屏蔽词库中内容按照每个屏蔽词分别进行统计,设置每个屏蔽词的计数变量M,对搜索结果内容进行遍历,当屏蔽词和搜索结果内容中的字符匹配时,则M+1,据此得到每个屏蔽词在搜索结果中出现的次数,如果存在某个屏蔽词最终值M大于阈值Q(Q>1,Q值越高,命中率越低;此值设定可以根据系统运行时处理结果分析调整),则认为高频字符串和已有屏蔽词库中内容具有相关性,系统此时将包含该词的评论信息进行标记;同时将该词添加到屏蔽词库中。
方法二:对屏蔽词库中内容进行部首拆分;拆分后的内容再和高频词内容进行比较;如果完全匹配,则认为该词为屏蔽词的绕开词,将包含该词的评论信息进行标记;同时将该词添加到屏蔽词库中。
方法三:屏蔽词中内容的笔画顺序和高频词的笔画顺序及笔画内容逐一进行比较,如果笔画顺序及笔画完全一致,则认为该词是屏蔽词的绕开词,将包含该词的评论信息进行标记;同时将该词添加到屏蔽词库中。
此步骤中也支持审核员审核模式,即该词被标记为可疑屏蔽词状态,审核人员对此类词进行审核,审核通过后再标记包含这些评论信息为屏蔽状态;
搜索分析模块中包含四个子模块:第三方搜索模块、部首拆分模块、笔顺笔画提取模块、比较模块。
4、如果某个用户的评论信息被此类方式检测到,也可以对该用户进行标记;对于被标记状态的用户;如果连续被标记,可以对该账号进行封号等措施。
本发明实施例提供的屏蔽处理方法通过确定待处理文本中的候选词;比较所述候选词与屏蔽库中的屏蔽词;当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;由于所述屏蔽库中不仅包括预先设置的第一屏蔽词,还包括与所述第一屏蔽词具有相关性的第二屏蔽词,因此能够实现对屏蔽词的全面屏蔽,优化了屏蔽词的屏蔽效果。
图3是本发明实施例提供的一种屏蔽处理装置的结构示意图,包括:
候选词确定模块301,用于确定待处理文本中的候选词;
比较模块302,用于比较所述候选词与屏蔽库中的词语;
屏蔽处理模块303,用于当所述候选词与所述屏蔽库中的词语匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
可选的,上述处理装置还包括:
候选屏蔽词确定模块,用于根据设定时间内的历史数据,确定候选屏蔽词;
相关性判断模块,用于当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性;
屏蔽库更新模块,用于当所述候选屏蔽词与至少一个第一屏蔽词之间具有相关性时,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
使用所述候选屏蔽词进行搜索,得到搜索结果;
将所述第一屏蔽词和所述搜索结果进行字符串匹配,确定第三屏蔽词;所述第三屏蔽词为所述第一屏蔽词中与所述候选屏蔽词存在关联的屏蔽词;
确定所述第三屏蔽词在所述搜索结果出现的次数;
若所述第三屏蔽词在所述搜索结果出现的次数大于第一阈值,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
对任意一个所述第一屏蔽词进行部首拆分,得到第一拆分内容;
将所述第一拆分内容和所述候选屏蔽词进行比较,得到第一比较结果;
若所述第一比较结果为匹配,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述相关性判断模块中判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
确定任意一个所述第一屏蔽词的笔画顺序和笔画内容;
将任意一个所述第一屏蔽词的笔画顺序和笔画内容,与所述候选屏蔽词进行比较,得到第二比较结果;
若所述第二比较结果为相同,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
可选的,所述候选屏蔽词确定模块中根据设定时间内的历史数据,确定候选屏蔽词,包括:
确定所述候选屏蔽词对应的设定条件;
从所述历史数据中,获取满足所述设定条件的字符串,确定所述满足所述设定条件的字符串为候选屏蔽词;
其中,所述设定条件包括:字符串出现次数大于第二阈值。
可选的,所述设定条件还包括:字符串长度大于设定长度。
本发明实施例提供的屏蔽处理方法通过确定待处理文本中的候选词;比较所述候选词与屏蔽库中的屏蔽词;当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;由于所述屏蔽库中不仅包括预先设置的第一屏蔽词,还包括与所述第一屏蔽词具有相关性的第二屏蔽词,因此能够实现对屏蔽词的全面屏蔽,优化了屏蔽词的屏蔽效果。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器 430中的逻辑指令,以执行如下方法:
确定待处理文本中的候选词;
比较所述候选词与屏蔽库中的屏蔽词;
当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图4所示的处理器410、通信接口420、存储器430和通信总线440,其中处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信,且处理器410可以调用存储器430中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
确定待处理文本中的候选词;
比较所述候选词与屏蔽库中的屏蔽词;
当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
确定待处理文本中的候选词;
比较所述候选词与屏蔽库中的屏蔽词;
当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种屏蔽处理方法,其特征在于,包括:
确定待处理文本中的候选词;
比较所述候选词与屏蔽库中的屏蔽词;
当所述候选词与所述屏蔽库中的屏蔽词匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
2.根据权利要求1所述的屏蔽处理方法,其特征在于,方法还包括:
根据设定时间内的历史数据,确定候选屏蔽词;
当所述候选屏蔽词不属于第一屏蔽词时,判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性;
当所述候选屏蔽词与至少一个第一屏蔽词之间具有相关性时,将所述候选屏蔽词作为第二屏蔽词添加到屏蔽库中。
3.根据权利要求2所述的屏蔽处理方法,其特征在于,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
使用所述候选屏蔽词进行搜索,得到搜索结果;
将所述第一屏蔽词和所述搜索结果进行字符串匹配,确定第三屏蔽词;所述第三屏蔽词为所述第一屏蔽词中与所述候选屏蔽词存在关联的屏蔽词;
确定所述第三屏蔽词在所述搜索结果出现的次数;
若所述第三屏蔽词在所述搜索结果出现的次数大于第一阈值,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
4.根据权利要求2所述的屏蔽处理方法,其特征在于,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
对任意一个所述第一屏蔽词进行部首拆分,得到第一拆分内容;
将所述第一拆分内容和所述候选屏蔽词进行比较,得到第一比较结果;
若所述第一比较结果为匹配,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
5.根据权利要求2所述的屏蔽处理方法,其特征在于,所述判断所述候选屏蔽词与至少一个所述第一屏蔽词之间是否具有相关性,包括:
确定任意一个所述第一屏蔽词的笔画顺序和笔画内容;
将任意一个所述第一屏蔽词的笔画顺序和笔画内容,与所述候选屏蔽词进行比较,得到第二比较结果;
若所述第二比较结果为相同,则确定所述候选屏蔽词与至少一个所述第一屏蔽词之间具有相关性。
6.根据权利要求2所述的屏蔽处理方法,其特征在于,所述根据设定时间内的历史数据,确定候选屏蔽词,包括:
确定所述候选屏蔽词对应的设定条件;
从所述历史数据中,获取满足所述设定条件的字符串,确定所述满足所述设定条件的字符串为候选屏蔽词;
其中,所述设定条件包括:字符串出现次数大于第二阈值。
7.根据权利要求6所述的屏蔽处理方法,其特征在于,所述设定条件还包括:字符串长度大于设定长度。
8.一种屏蔽处理装置,其特征在于,包括:
候选词确定模块,用于确定待处理文本中的候选词;
比较模块,用于比较所述候选词与屏蔽库中的词语;
屏蔽处理模块,用于当所述候选词与所述屏蔽库中的词语匹配时,对所述候选词进行屏蔽处理;其中,
所述屏蔽库包括:第一屏蔽词以及与所述第一屏蔽词具有相关性的第二屏蔽词,所述第一屏蔽词为所述屏蔽库中预先设置的屏蔽词。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述屏蔽处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述屏蔽处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385601.0A CN113158663B (zh) | 2020-12-01 | 2020-12-01 | 一种屏蔽处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385601.0A CN113158663B (zh) | 2020-12-01 | 2020-12-01 | 一种屏蔽处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158663A true CN113158663A (zh) | 2021-07-23 |
CN113158663B CN113158663B (zh) | 2024-04-09 |
Family
ID=76882423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385601.0A Active CN113158663B (zh) | 2020-12-01 | 2020-12-01 | 一种屏蔽处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158663B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272989A (zh) * | 2023-11-21 | 2023-12-22 | 浙江无端科技股份有限公司 | 基于字符编码压缩的屏蔽词识别方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130127765A1 (en) * | 2008-06-19 | 2013-05-23 | Neonode Inc. | User interface for a touch screen |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
-
2020
- 2020-12-01 CN CN202011385601.0A patent/CN113158663B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130127765A1 (en) * | 2008-06-19 | 2013-05-23 | Neonode Inc. | User interface for a touch screen |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
Non-Patent Citations (1)
Title |
---|
高丽平;高亮;: "基于词汇扩展的垃圾邮件过滤方法", 中原工学院学报, no. 06, pages 4 - 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272989A (zh) * | 2023-11-21 | 2023-12-22 | 浙江无端科技股份有限公司 | 基于字符编码压缩的屏蔽词识别方法、装置、设备及介质 |
CN117272989B (zh) * | 2023-11-21 | 2024-02-06 | 浙江无端科技股份有限公司 | 基于字符编码压缩的屏蔽词识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113158663B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107707545B (zh) | 一种异常网页访问片段检测方法、装置、设备及存储介质 | |
CN106709345B (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN109598124A (zh) | 一种webshell检测方法以及装置 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112487422B (zh) | 一种恶意文档检测方法、装置、电子设备及存储介质 | |
CN109756467B (zh) | 一种钓鱼网站的识别方法及装置 | |
CN113010678A (zh) | 分类模型的训练方法、文本分类方法及装置 | |
CN113158663B (zh) | 一种屏蔽处理方法、装置、电子设备及存储介质 | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN114222000A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN110750981A (zh) | 一种基于机器学习的高准确度网站敏感词检测方法 | |
CN108388556B (zh) | 同类实体的挖掘方法及系统 | |
CN113849595A (zh) | 一种基层治理事件类型识别方法及系统 | |
CN112667814A (zh) | 热词的发现方法及系统 | |
US20230052623A1 (en) | Word mining method and apparatus, electronic device and readable storage medium | |
CN115795466A (zh) | 一种恶意软件组织识别方法及设备 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN116384380A (zh) | 一种基于语义分析的案件关键词汇提取与标注方法 | |
CN116432638A (zh) | 一种文本关键词提取方法、装置、电子设备及存储介质 | |
CN114676428A (zh) | 基于动态特征的应用程序恶意行为检测方法及设备 | |
CN109614617B (zh) | 支持极性区分和多义的词向量生成方法及装置 | |
CN113377922B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |