CN102902766A

CN102902766A - 检测词汇的方法与装置

Info

Publication number: CN102902766A
Application number: CN2012103619423A
Authority: CN
Inventors: 胡昌玮; 李珩; 杨贝斯
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2013-01-30
Anticipated expiration: 2032-09-25
Also published as: CN102902766B

Abstract

本发明提供一种检测词汇的方法与装置，方法包括：步骤a：提取待检测文本中的待检测字符；步骤b:判断待检测字符是否为干扰词汇，当判断结果为是时，转为步骤c，否则转为步骤d；步骤c：提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符，并转为步骤b；步骤d：将待检测字符作为待组合字符，存储到缓存区；步骤e：根据缓存区中各待组合字符获取待检测词汇；步骤f：判断待检测词汇是否为敏感词。根据本发明的检测词汇的方法与装置，能够通过去除待检测文本中的干扰词汇以有效判断敏感词。

Description

检测词汇的方法与装置

技术领域

本发明涉及字符校对技术，尤其涉及一种检测词汇的方法与装置。

背景技术

随着信息的爆炸式增长，信息传递途径越来越多样化，例如可以通过论坛、短信、微博和聊天工具等多种方式传递文本信息。为了防止不良信息的传播，需要对文本信息进行过滤，达到净化信息的目的。

目前对文本信息进行过滤的方式一般是检测并屏蔽敏感词，即采用敏感词库中的词汇对文本信息进行全文匹配，具体做法是把敏感词库中的所有词汇依次对文本信息进行比对，如果词汇被完全包含在文本信息中，就认为该文本信息中包含敏感词，将这些敏感词屏蔽或禁止该文本信息发布。

但是，很多敏感词为了防止被过滤掉，会在敏感词中间夹杂无意义的干扰词汇，以避开敏感词检测。例如，当“救护车”为敏感词时，会将“救护车”写成“救##护##车”的方式以避开敏感词检测。因此，需要一种方法，能够对这些夹杂干扰词汇的敏感词进行有效检测。

发明内容

本发明提供一种检测词汇的方法与装置，以解决现有技术无法检测夹杂干扰词汇的敏感词的缺陷。

本发明第一个方面提供一种检测词汇的方法，包括：

步骤a：提取待检测文本中的待检测字符；

步骤b:判断所述待检测字符是否为干扰词汇，当判断结果为是时，转为步骤c，否则，转为步骤d；

步骤c：提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符，并转为步骤b；

步骤d：将所述待检测字符作为待组合字符，存储到缓存区；

步骤e：根据所述缓存区中的各待组合字符获取待检测词汇；

步骤f：判断所述待所述检测词汇是否为敏感词。

本发明另一个方面提供一种检测词汇的装置，包括：

第一提取模块，用于提取待检测文本中的待检测字符；

第一判断模块，用于判断所述待检测字符是否为干扰词汇，当判断结果为是时，触发第二提取模块，否则，触发存储模块；

所述第二提取模块，用于提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符，并发送到所述第一判断模块；

所述存储模块，用于将所述待检测字符作为待组合字符，存储到缓存区；

组合模块，用于根据所述缓存区中的各待组合字符获取待检测词汇；

第二判断模块，用于判断所述待所述检测词汇是否为敏感词。

如上所述的由上述技术方案可知，本发明提供的检测词汇的方法与装置，能够对当前正在编辑的待检测文本进行实时监测，并通过去除待检测文本中的干扰词汇以有效判断出敏感词。

附图说明

图1为根据本发明一实施例的检测词汇的方法的流程示意图；

图2为根据本发明又一实施例的检测词汇的方法的流程示意图；

图3为根据本发明另一实施例的检测词汇的装置的结构示意图；

图4为根据本发明又一实施例的检测词汇的装置的结构示意图。

具体实施方式

本实施例一提供一种检测词汇的方法，该方法适用于现在所有的网络平台。本方法的执行主体为检测词汇的装置，该检测词汇的装置可以集成于各种网络平台或服务器。

如图1所示，为本实施例的检测词汇的方法的流程示意图，具体包括：

步骤101，提取待检测文本中的待检测字符。

本步骤可以将当前正在编辑的文本作为待检测文本。例如是某个用户正在编辑的帖子。检测词汇的装置按照编辑的顺序依次从待检测文本中提取待检测字符，每次可以仅提取一个。待检测字符包括所有的汉字、数字、符号，甚至英文字母等。

步骤102，判断待检测字符是否为干扰词汇，当判断结果为是时，转为步骤103，否则，转为步骤104。

干扰词汇为可以预定义的各种符号、数字或生僻字。例如“地×震”中的“×”可以是被看作是干扰词汇，或者“地1震”中的“1”可以被预设为干扰词汇，或者“地鼒震”中的“鼒”可以被预设为干扰词汇。具体可以根据实际需要进行设定，在此不再赘述。

假设当前提取的待检测字符为“×”，并判断出该待检测字符是干扰词汇时，去除该干扰词汇，并执行步骤103，否则将该待检测字符作为待组合字符存储在缓存区中。

步骤103，提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符，并转为执行步骤102。

步骤104，将待检测字符作为待组合字符，存储到缓存区。

缓存区可以设置在检测词汇的装置中，也可以以单独设置的存储器的形式实现。

步骤105，根据缓存区中的各待组合字符获取待检测词汇。

可以按照待组合字符存入缓存区的顺序形成待检测词汇。根据统计，用户在敏感词中加入干扰词汇时，一般不会改变原有的敏感词各个字符的顺序，因此，待检测词汇可以按照待组合字符存入缓存区中的顺序获取，以避免由于待组合字符可以组合多个待检测词汇为检测词汇的装置带来额外的负担。

此外，该步骤105可具体包括：获取缓存区中待组合字符的个数，当待组合字符的个数大于或等于预设阈值时，根据各待组合字符获取待检测词汇。由于一般情况下，不会把单独1个字作为敏感词汇，因此本实施例的预设阈值可以为2。

步骤106，判断待检测词汇是否为敏感词。

例如，根据预设的敏感词库判断待检测词汇是否为敏感词。敏感词库中包括根据预先统计的各敏感词，并可以随时进行更新。采用现有技术对待检测词汇在敏感词库中进行匹配，当匹配成功时，说明该待检测词汇为敏感词，或者是疑似敏感词。疑似敏感词为包含在敏感词中的词汇，例如，当“地震局”为敏感词时，“地震”为疑似敏感词。

本实施例中，当判断出待检测词汇为敏感词时，对该待检测词汇进行标记，清空缓存区，以提示用户进行修改，并在后续的检测中不再检测该敏感词。当判断出待检测词汇为疑似敏感词时，同样可以对该待检测词汇进行标记以提示用户，并可以转为步骤103的操作以进一步判断用户所要输入的是否为敏感词。例如，当用户输入“地震”时，检测词汇的装置识别该待检测词汇为疑似敏感词，疑似敏感词为包含在敏感词中的词汇，而跟随着“震”字后面的词为“录”时，“地震录”并不是敏感词。

本实施例的方法在步骤105之后且在步骤106之前还可以包括：根据预设的相关性词库判断待检测词汇是否为相关性词汇，当判断结果为否时，从待组合字符中去除待检测字符，并可以转为步骤103，当判断结果为是时，转为步骤106。相关性词库中包含根据预设统计的所有日常用语，包括敏感词汇，并可以随时进行更新。本实施例中“地震录”为相关性词汇；或者当判断出待检测词汇“地震拉”为非相关性词汇时，很有可能用户采用“拉”字作为干扰词汇，即用户所要输入的词汇为“地震拉局”，此时将“拉”字去除，并通过判断下一个待组合字符是否为“局”字来判断用户是否想要输入敏感词。此外，用户可以首先判断待检测词汇是否为相关性词汇，当判断结果为否时，就无需进行是否为敏感词汇的判断，可以减轻检索词汇的装置的负担。

根据本实施例的检测词汇的方法，能够对当前正在编辑的待检测文本进行实时监测，并通过去除待检测文本中的干扰词汇以有效判断出敏感词，对用户进行提示。当用户所要发布信息的内容中包含敏感词，可以采用阻止其发布的方式以避免不健康信息的传播。

本实施例二基于实施例一提供一种检测词汇的方法。

如图2所示，为根据本实施例的检测词汇的方法流程示意图。

步骤201，提取待检测文本中的待检测字符。

本步骤可以将当前正在编辑的文本作为待检测文本。例如是某个用户正在编辑的帖子；或者是一个完整的文本信息，例如发送至短信中心的短信。检测词汇的装置按照编辑的顺序依次从待检测文本中提取待检测字符，每次可以仅提取一个待检测字符。

检测词汇的装置对待检测文本进行检测，可以是在输入每个字后立即进行检测，可以是在字输入一段时间后进行检测，例如在字输入3秒后才进行检测，以避免用户由于打错字而删除造成额外检测的情况。

本实施例假设在字输入3秒后才进行检测，此时用户已经打出“是地××震××拉局拉”字符串，假设已经对“是”字检测完毕，其已经成为待组合字符存储在缓存区中，该步骤中提取的待组合字符为“地”字。预设的敏感词库中“地震局”为敏感词，即“地震”为疑似敏感词。

步骤202，判断待检测字符是否为干扰词汇，当判断结果为是时，转为步骤203，否则，转为步骤204。

本实施例中将字符和数字均预设为干扰词汇，该步骤判断出待检测字符“地”不是干扰词汇。则转为步骤204。

步骤203，提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符，并转为步骤202。

步骤204，将待检测字符作为待组合字符，存储到缓存区。

此时，缓存区中有两个待组合字符，分别是“是”字和“地”字。其中，“是”为首待组合字符。

步骤205，获取缓存区中待组合字符的个数，当待组合字符的个数大于或等于预设阈值时，根据各待组合字符获取待检测词汇。

假设本实施例中的预设阈值为2，此时缓存区中已经存在两个待组合字符，则将缓存区中的2个待组合字符按照存入该缓存区的顺序组合为待检测词汇“是地”。

步骤206，根据预设的相关性词库判断待检测词汇是否为相关性词汇，当判断结果为否时，执行步骤207，否则执行步骤209。

本实施例中计数最大值可以根据实际需要进行设定。由于现有技术中，经常会存在一些无法与其它字形成词汇的助词，例如“的”、“了”、“着”等等，这些词是无法与其它词汇形成词汇的，为了避免这些词的干扰，设置计数值，当待组合字符与接下来进入缓存区中的多个待组合字符无法形成词汇时，则说明其很有可能是助词。

步骤207，从缓存区中的待组合字符中去除待检测字符，并判断表示获取待组合字符次数的计数值是否达到计数最大值，当判断结果为是时，执行步骤208，否则将计数值加1并转为步骤203。

本实施例中根据预设的相关性词库判断出“是地”为不是相关性词汇，则从缓存区中去除待检测字符“地”，判断出表示获取待组合字符次数的计数值为1，未到达预设的计数最大值3，则将计数值加1，并转为步骤203。

需要指出的是，该计数值加1的操作可以在获取到待组合字符时立即加1，即在步骤204中完成。

接下来提取的待检测字符为“×”，判断出“×”为干扰词汇，则转为步骤203。

接下来提取的待检测字符仍为“×”，判断出“×”为干扰词汇，再次转为步骤203。

接下来提取的待检测字符为“震”，判断出“震”并不是干扰词汇，则将“震”作为待组合字符存储到缓存区中，并判断出缓存区中待组合字符的个数大于预设阈值2，则获取待检测词汇“是震”，判断其是否为相关性词汇。根据相关性词库判断出“是震”仍然不是相关性词汇，则从缓存区中去除待检测字符“震”，并判断出此时的计数值2并未到达最大计数值“3”，则将计数值加1，转为步骤203。

接下来提取的待检测字符为与“震”相邻的“×”，判断出“×”为干扰词汇，再次转为步骤203。

接下来提取的待检测字符为与“×”相邻的“×”，判断出“×”为干扰词汇，再次转为步骤203。

接下来提取的待检测字符为与“×”相邻的“拉”，判断出“拉”不是干扰词汇，将“拉”作为待组合字符存储到缓存区中，并判断出缓存区中待组合字符的个数大于预设阈值2，则获取待检测词汇“是拉”，判断其是否为相关性词汇。根据相关性词库判断出“是拉”仍然不是相关性词汇，则从缓存区中去除待检测字符“震”，并判断出此时的计数值3已经达最大计数值3，则转为步骤208。

步骤208，从待检测文本中提取与所述缓存区中的首待组合字符相邻的下一个字符作为待检测字符，清空所述缓存区并重置所述计数值，并返回步骤202。

本实施例中，该步骤从待检测文本中提取的与首待组合字符“是”相邻的待检测字符为“地”。判断出“地”为并不是干扰词汇，则将“地”作为待组合字符存储到缓存区中，并判断出缓存区中待组合字符的个数为1，未达到预设阈值2，返回步骤203。

接下来从待检测文本中提取的两个“×”字符均检测出为干扰词汇，具体与上述过程一致，在此不再赘述。

接下来从待检测文本中提取与“×”字符相邻的待检测字符为“震”，判断出该待检测字符“震”不是干扰词汇，则将“震”作为待组合字符存储到缓存区，此时判断出缓存区中待组合字符的个数达到预设阈值2，则将“地”和“震”组合为待检测词汇“地震”，执行步骤206。

此时判断出待检测词汇“地震”为相关性词汇，则执行步骤209。

步骤209，根据预设的敏感词库判断待检测词汇是否为敏感词，当判断结果为是时，执行步骤210，否则执行步骤211。

步骤210，根据预设的敏感词库判断出该待检测词汇为敏感词时，将该敏感词进行标识，并清空缓存区。例如在屏幕上以高亮的形式提示用户该词是敏感词，可能会导致信息无法发布。接下来转为步骤203，继续检测与待检测字符相邻的下一个字符。

本实施例中待检测词汇“地震”不是敏感词，转为步骤211。

步骤211，判断所述待检测词汇是否为疑似敏感词，当判断结果为否时，执行步骤212，否则，将该待检测词汇继续保留在缓存区中，执行步骤203。

疑似敏感词为包含在敏感词中的词汇。本实施例中，根据预设的敏感词库判断出“地震”不是敏感词，而是疑似敏感词，则将该待检测词汇继续保留在缓存区中，即此时缓存区中有两个待组合字符分别是“地”和“震”，以便进一步检测用户所要输入的词汇是否为敏感词。

步骤212，清空缓存区，并将计数值清零。

接下来，提取的待检测字符为与“震”相邻的两个“×”字符，检测出均为干扰词汇，具体与上述过程一致，在此不再赘述。

接下来，从待检测文本中提取待检测字符“拉”，判断出“拉”不是干扰词汇，则将“拉”作为待组合字符存储到缓存区中。判断出缓存区中的待组合字符的个数为3，达到了预设阈值2，则按照进入缓存区中的顺序获取待检测词汇“地震拉”，判断出“地震拉”并不是相关性词汇，则执行步骤207，去除待检测字符“拉”，并判断出计数值2未达到计数最大值3，将计数值加1，并转为步骤203。

接下来，从待检测文本中提取待检测字符“局”，判断出“局”不是干扰词汇，则将“局”作为待组合字符存储到缓存区中。判断出缓存区中的待组合字符的个数为3，达到了预设阈值2，则按照进入缓存区中的顺序获取待检测词汇“地震局”，判断出“地震局”是相关性词汇，则执行步骤209，判断出“地震局”为敏感词汇，此时将该敏感词“地震局”进行标识，并清空缓存区。

接下来，从待检测文本中提取与“局”相邻的待检测字符“拉”，并执行步骤202，接下来的步骤与上述一致，在此不再赘述。

本实施例中的计数值可以通过设置计数器的方式来实现。

需要指出的是，当检测词汇的装置标识出敏感词时，即进行对计数值进行重置的操作。

根据本实施例的检测词汇的方法，能够对当前正在编辑的待检测文本进行实时监测，并通过去除待检测文本中的干扰词汇以有效判断出敏感词，对用户进行提示，还通过设置计数值以使得待检测词汇尽量符合实际情况，避免由于所要检测词汇过长加重检测词汇的装置的负担。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例三提供一种检测词汇的装置，用于执行上述实施例的检测词汇的方法。

如图3所示，为根据本实施例的检测词汇的装置的结构示意图，包括第一提取模块301、第一判断模块302、第二提取模块303、存储模块304、组合模块305和第二判断模块306。

其中，第一提取模块301用于提取待检测文本中的待检测字符；第一判断模块302可以与第一提取模块301连接，用于判断待检测字符是否为干扰词汇，当判断结果为是时，触发第二提取模块303，否则，触发存储模块304；第二提取模块303分别可以与第一提取模块301和第一判断模块302连接，用于提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符，并发送到第一判断模块302；存储模块304可以与第一判断模块302连接，用于将待检测字符作为待组合字符，存储到缓存区，该缓存区可以位于单独设置的缓存器中（图中未示出），还可以用于触发组合模块305；组合模块305可以与存储模块304连接，用于根据缓存区中的各待组合字符获取待检测词汇；第二判断模块306可以与组合模块305连接，用于判断待检测词汇是否为敏感词。

第二提取模块303可以通过第一提取模块301提取字符的位置判断需从待检测文本中提取哪一个字符作为待检测字符。

此外，组合模块305可具体用于获取缓存区中待组合字符的个数，当待组合字符的个数大于或等于预设阈值时，根据各待组合字符获取待检测词汇。

可选地，本实施例的检测词汇的装置还包括相关性检测模块307。该相关性检测模块307分别与第一判断模块302、第二判断模块306、第二提取模块303、组合模块305连接，用于根据预设的相关性词库判断所述待检测词汇是否为相关性词汇，当判断出所述待检测词汇不是相关性词汇时，从所述待组合字符中去除所述待检测字符，并判断表示获取待组合字符次数的计数值是否达到计数最大值，当判断出所述计数值达到所述计数最大值时，从所述待检测文本中提取与所述缓存区中的首待组合字符相邻的下一个字符作为待检测字符，清空所述缓存区并重置所述计数值，并触发所述第一判断模块302，否则，将计数值加1，触发所述第二提取模块303，当判断结果出所述待检测词汇是相关性词汇时，触发所述第二判断模块306。

本实施例的检测词汇的装置的具体操作方法与上述实施例一致，在此不再赘述。

根据本实施例的检测词汇的装置，能够对当前正在编辑的待检测文本进行实时监测，并通过去除待检测文本中的干扰词汇以有效判断出敏感词，对用户进行提示。当用户所要发布信息的内容中包含敏感词，可以采用阻止其发布的方式以避免不健康信息的传播。

本实施例四提供一种检测词汇的装置，用于执行上述检测词汇的方法

如图4所示，为根据本实施例的检测词汇的装置的结构示意图，包括如实施例三的第一提取模块301、第一判断模块302、第二提取模块303、存储模块304、组合模块305和第二判断模块306，当然还可以包括检测相关性模块307。上述各模块的功能与结构与实施例三一致，在此不再赘述。

可选地，本实施例的检测词汇的装置还包括标识模块401，该标识模块401与第二判断模块306连接，用于当判断出待检测词汇为敏感词时，标识敏感词，清空缓存区，并触发第二提取模块303。

可选地，本实施例的检测词汇的装置中的第二判断模块306还用于：当判断出所述待检测词汇不是敏感词时，判断所述待检测词汇是否为疑似敏感词，当判断结果为是时，将所述待组合字符保留在所述存储区中，触发所述第二提取模块303，该疑似敏感词为包含在敏感词中的词汇。

此外，如实施例二中所描述的，组合模块305在执行根据各待组合字符获取待检测词汇的操作时，可以具体为按照待组合字符存入缓存区的顺序形成待检测词汇。

本实施例的检测词汇的装置的具体操作方法与实施例二中一致，即第二判断模块306的相关操作也与实施例二一致，在此不再赘述。

根据本实施例的检测词汇的装置，能够对当前正在编辑的待检测文本进行实时监测，并通过去除待检测文本中的干扰词汇以有效判断出敏感词，对用户进行提示，还通过设置计数值以使得待检测词汇尽量符合实际情况，避免由于所要检测词汇过长加重检测词汇的装置的负担。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种检测词汇的方法，其特征在于，包括：

步骤a：提取待检测文本中的待检测字符；

步骤d：将所述待检测字符作为待组合字符，存储到缓存区；

步骤e：根据所述缓存区中的各待组合字符获取待检测词汇；

步骤f：判断所述待所述检测词汇是否为敏感词。

2.根据权利要求1所述的检测词汇的方法，其特征在于，还包括:

当判断出所述待检测词汇为敏感词时，标识所述敏感词，清空所述缓存区，转为步骤c。

3.根据权利要求1或2所述的检测词汇的方法，其特征在于，所述根据各待组合字符获取待检测词汇包括：

按照所述待组合字符存入所述缓存区的顺序形成所述待检测词汇。

4.根据权利要求1所述的检测词汇的方法，其特征在于，在步骤e之后且在步骤f之前，还包括：

根据预设的相关性词库判断所述待检测词汇是否为相关性词汇；

当判断结果出所述待检测词汇不是相关性词汇时，从所述待组合字符中去除所述待检测字符，并判断表示获取待组合字符的计数值是否达到计数最大值，当判断结果为出所述计数值达到计数最大值时，从所述待检测文本中提取与所述缓存区中的首待组合字符相邻的下一个字符作为待检测字符，清空所述缓存区并重置所述计数值，并返回步骤b，否则，将计数值加1，返回步骤c；

当判断结果出所述待检测词汇是相关性词汇时，执行步骤f。

5.根据权利要求2所述检测词汇的方法，其特征在于，还包括：

当判断出所述待检测词汇不是敏感词时，判断所述待检测词汇是否为疑似敏感词，当判断结果为是时，将所述待组合字符保留在所述存储区中，返回步骤c，所述疑似敏感词为包含在敏感词中的词汇。

6.一种检测词汇的装置，其特征在于，包括：

第一提取模块，用于提取待检测文本中的待检测字符；

7.根据权利要求6所述的检测词汇的装置，其特征在于，还包括：

标识模块，用于当判断出所述待检测词汇为敏感词时，标识所述敏感词，清空所述缓存区，并触发所述第二提取模块。

8.根据权利要求6或7所述的检测词汇的装置，其特征在于，所述组合模块具体用于：

9.根据权利要求8所述所述的检测词汇的装置，其特征在于，还包括：

相关性检测模块，用于根据预设的相关性词库判断所述待检测词汇是否为相关性词汇，当判断出所述待检测词汇不是相关性词汇时，从所述待组合字符中去除所述待检测字符，并判断表示获取待组合字符次数的计数值是否达到计数最大值，当判断出所述计数值达到所述计数最大值时，从所述待检测文本中提取与所述缓存区中的首待组合字符相邻的下一个字符作为待检测字符，清空所述缓存区并重置所述计数值，并触发所述第一判断模块，否则，将计数值加1，触发所述第二提取模块；

当判断结果出所述待检测词汇是相关性词汇时，触发所述第二判断模块。

10.根据权利要求7所述所述的检测词汇的装置，其特征在于，所述第二判断模块还用于：

当判断出所述待检测词汇不是敏感词时，判断所述待检测词汇是否为疑似敏感词，当判断结果为是时，将所述待组合字符保留在所述存储区中，触发所述第二提取模块，所述疑似敏感词为包含在敏感词中的词汇。