CN115659017A - 一种敏感词匹配方法、装置、设备、存储介质及产品 - Google Patents
一种敏感词匹配方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN115659017A CN115659017A CN202211295311.6A CN202211295311A CN115659017A CN 115659017 A CN115659017 A CN 115659017A CN 202211295311 A CN202211295311 A CN 202211295311A CN 115659017 A CN115659017 A CN 115659017A
- Authority
- CN
- China
- Prior art keywords
- information
- sensitive
- word
- identified
- word bank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 244000025254 Cannabis sativa Species 0.000 description 5
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 5
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种敏感词匹配方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过识别待识别信息对应的语种类型,确定语种类型对应的敏感词库,根据确定的敏感词库对待识别信息进行第一预处理得到第一预处理结果,并在确定的敏感词库中的第一预处理结果进行敏感词匹配得到敏感词匹配结果,针对不同的语言类型利用不同的处理方式对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,经过预处理得到的第一预处理结果在对应敏感词库中可更准确地匹配敏感词,并且可按照规则词库中对应语种的语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种敏感词匹配方法、装置、设备、存储介质及产品。
背景技术
目前海内外大部分论坛、网站等互联网产品中,都存在大量的文字使用场景,会存在用户发送敏感内容的情况,会对用户的使用体验造成不良影响。互联网产品为了方便各类违规内容,通常会对敏感词进行拦截。
一般情况下,对敏感词的拦截是基于对敏感词的匹配结果进行的,这种敏感词拦截方式可拦截用户无意的违规内容的发布,但是随着网络平台的逐步扩大,越来越多的恶意用户通过对敏感词进行变形、加干扰词等方式逃避敏感词系统的拦截,对文本中敏感词的识别准确度较低。
发明内容
本申请实施例提供一种敏感词匹配方法、装置、设备、存储介质及产品,以解决相关技术中对文本中敏感词的识别准确度较低的技术问题,可有效提高对文本中敏感词的识别准确度。
在第一方面,本申请实施例提供了一种敏感词匹配方法,包括:
将待识别信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型;
基于所述待识别信息对应的语种类型确定对应的敏感词库,所述敏感词库包括中文词库、外文词库和通用词库,所述中文词库包括中文对应的关键词库、规则词库和拼音词库,所述外文词库包括外文对应的关键词库和规则词库,所述通用词库包括关键词库、规则词库和拼音词库,其中,所述规则词库记录有对应语种类型的敏感词的语言规则;
基于所述待识别信息对应的敏感词库对所述待识别信息进行第一预处理,以得到第一预处理结果;
在所述敏感词库中对所述第一预处理结果进行敏感词匹配,以得到所述待识别信息对应的敏感词匹配结果。
在第二方面,本申请实施例提供了一种敏感词匹配装置,包括语种识别模块、词库匹配模块、第一预处理模块和敏感词匹配模块,其中:
所述语种识别模块,配置为将待识别信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型;
所述词库匹配模块,配置为基于所述待识别信息对应的语种类型确定对应的敏感词库,所述敏感词库包括中文词库、外文词库和通用词库,所述中文词库包括中文对应的关键词库、规则词库和拼音词库,所述外文词库包括外文对应的关键词库和规则词库,所述通用词库包括关键词库、规则词库和拼音词库,其中,所述规则词库记录有对应语种类型的敏感词的语言规则;
所述第一预处理模块,配置为基于所述待识别信息对应的敏感词库对所述待识别信息进行第一预处理,以得到第一预处理结果;
所述敏感词匹配模块,配置为在所述敏感词库中对所述第一预处理结果进行敏感词匹配,以得到所述待识别信息对应的敏感词匹配结果。
在第三方面,本申请实施例提供了一种敏感词匹配设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的敏感词匹配方法。
在第四方面,本申请实施例提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的敏感词匹配方法。
在第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行如第一方面所述的敏感词匹配方法。
本申请实施例通过识别待识别信息对应的语种类型,确定语种类型对应的敏感词库,根据确定的敏感词库对待识别信息进行第一预处理得到第一预处理结果,并在确定的敏感词库中的第一预处理结果进行敏感词匹配得到敏感词匹配结果,针对不同的语言类型利用不同的处理方式对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,经过预处理得到的第一预处理结果在对应敏感词库中可更准确地匹配敏感词,并且可按照规则词库中对应语种的语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。
附图说明
图1是本申请实施例提供的一种敏感词匹配方法的流程图;
图2是本申请实施例提供的另一种敏感词匹配方法的流程图;
图3是本申请实施例提供的一种对待识别信息的第一预处理流程示意图;
图4是本申请实施例提供的一种对第一预处理结果进行敏感词匹配的流程示意图;
图5是本申请实施例提供的一种敏感词匹配装置的结构示意图;
图6是本申请实施例提供的一种敏感词匹配设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时上述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。上述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的敏感词匹配方法可应用于海内外论坛、网站、客户端等互联网产品中对敏感词进行识别的场景,在上述互联网产品中,会存在用户发送大量不文明、不合规的内容的情况,会对互联网产品的使用体验和社会舆论造成不良的影响,需要对上述场景中涉及到的不良文字内容即待识别文本进行识别及拦截。
本申请提供的敏感词匹配方法,旨在通过针对不同的语言类型对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,在敏感词库中更准确地匹配敏感词,并可按照语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。对于传统的敏感词匹配机制,其对待识别信息中的敏感词的匹配一般是基于设定的敏感词进行的,即预先基于不同的敏感词建立敏感词库,直接在敏感词库中对待识别信息进行敏感词匹配。但是这种敏感词匹配方法只能识别出待识别信息中与敏感词库中一致的敏感词,目前对敏感词的识别一般是针对中文进行,并且对变形、加干扰词等处理后的敏感词的识别准确率较低,无法有效地对包含敏感词的待识别信息进行识别。基于此,提供本申请实施例的一种敏感词匹配方法,以解决现有敏感词匹配机制无法有效地对包含敏感词的待识别信息进行识别的技术问题。
图1给出了本申请实施例提供的一种敏感词匹配方法的流程图,本申请实施例提供的敏感词匹配方法可以由敏感词匹配装置来执行,该敏感词匹配装置可以通过硬件和/或软件的方式实现,并集成在敏感词匹配设备中。
下述以敏感词匹配装置执行敏感词匹配方法为例进行描述。参考图1,该敏感词匹配方法包括:
S101:将待识别信息输入至语种识别模块中,以通过语种识别模块识别出待识别信息对应的语种类型。
本方案提供的待识别信息可以是需要识别是否包含有敏感词的文本信息。示例性的,在获取到需要识别敏感词的待识别信息时,将待识别信息输入到训练好的语种识别模型中,由语种识别模型对待识别信息进行语种类型识别,并确定待识别信息对应的语种类型。
可选的,语种识别模型对待识别信息进行语种类型识别输出的语种识别结果可以包括不同语种对应的语言码(例如ISO 639-1语言码)以及对应的语种分值。其中,不同的语言码对应不同的语种类型。
在一个可能的实施例中,本方案提供的语种识别模型可采用FastText(一种快速文本分类算法)模型。FastText模型主要用于构建词向量和文本分类,FastText模型包括输入层、隐藏层和输出层,FastText模型主要采用多类别逻辑回归,输入层的作用把待识别信息中N-grams(按照字节对待识别信息进行大小为N的滑动窗口操作,形成N个字节片段的序列)序号对应的嵌入向量取出。隐层向量通过对待识别信息中的所有N-grams向量求和取平均得到。输出层是一个多类别的逻辑回归,损失函数为负对数似然。FastText模型在模型训练和线上预测的速度非常快,在分类任务的标准数据集上的模型效果也很不错,可有效提高对待识别信息的语种识别速度和准确度。
S102:基于待识别信息对应的语种类型确定对应的敏感词库,敏感词库包括中文词库、外文词库和通用词库,中文词库包括中文对应的关键词库、规则词库和拼音词库,外文词库包括外文对应的关键词库和规则词库,通用词库包括关键词库、规则词库和拼音词库,其中,规则词库记录有对应语种类型的敏感词的语言规则。
本方案提供的敏感词库包括中文词库、外文词库和通用词库,其中,中文词库包括中文对应的关键词库、规则词库和拼音词库,外文词库包括外文对应的关键词库和规则词库,通用词库包括关键词库、规则词库和拼音词库。可选的,外文词库设置有多个,并且每个外文词库对应一种语种类型,例如,可分别为英语、法语、阿拉伯语等不同的语种类型设置外文词库。
其中,关键词库记录有对应语种类型的敏感词原词以及表情符,例如,在中文关键词库记录中的敏感词原词包括“笨蛋”,在英文关键词库记录的敏感词原词包括“stupid”,其中,表情符可以是表情符号或者是多个表情符号的组合。规则词库记录有对应语种类型的敏感词的语言规则,即在中文词库中,对应的规则词库记录有中文敏感词对应的语言规则,在外文词库中,对应的规则词库记录有对应外文敏感词的语言规则。可选的,规则词库中的语言规则可通过正则表达式的方式进行记录。拼音词库中记录有中文敏感词对应的拼音敏感词,例如,拼音词库中记录有拼音敏感词“bendan”。在一个可能的实施例中,为了保证拼音敏感词匹配的准确度,可利用设定的分隔符对拼音敏感词中的每个字的拼音进行分割,以免进行拼音匹配是误中正常文字的情况,例如可将“#”作为分隔符,“bendan”可表示为“#ben#dan#”。
需要进行解释的是,本方案提供的通用词库中的关键词库、规则词库和拼音词库,可从中文词库和外文词库中对关键词库、规则词库和拼音词库进行筛选得到,并且通用词库中的关键词库、规则词库和拼音词库中记录的是识别准确率较高的敏感词原词、表情符、语言规则、拼音敏感词,并且通用词库的词库量级小于中文词库和各个外文词库的总词库量级。
示例性的,在确定待识别信息对应的语种类型时,待识别信息对应的语种类型确定对应的敏感词库,并将待识别信息发送到对应的敏感词库中。在一个可能的实施例中,不同的语言码对应不同的敏感词库,例如在确定语种识别模型对待识别信息进行语种类型识别输出的语言码以及对应的语种分值时,确定对应语种分值最高且语种分值达到设定阈值的语言码,该语言码对应的敏感词库即为当前待识别信息对应的敏感词库。若确定语种识别模型对待识别信息进行语种类型识别输出的语言码对应的语种分值均小于设定阈值,此时待识别信息一般是多语言混合或者过短无意义文本,则将通用词库作为当前待识别信息对应的敏感词库,以保证对待识别信息的敏感词匹配准确率。
S103:基于待识别信息对应的敏感词库对待识别信息进行第一预处理,以得到第一预处理结果。
示例性的,在确定待识别信息对应的敏感词库后,可将待识别信息传递到对应的敏感词库,在对应的敏感词库中,对待识别信息进行第一预处理以得到待识别信息的第一预处理结果。
其中,对待识别信息的第一预处理用于去除待识别信息中对敏感词匹配存在干扰的信息,并且不同的语种类型的敏感词库对应不同的第一预处理方式。通过根据敏感词库或语种类型对应的第一预处理方式对待识别信息进行第一预处理,去除待识别信息中对敏感词匹配存在干扰的信息,提高在对应的敏感词库中进行关键词匹配的准确度。
S104:在敏感词库中对第一预处理结果进行敏感词匹配,以得到待识别信息对应的敏感词匹配结果。
示例性的,在上述确定的敏感词库中对第一预处理结果进行敏感词匹配,得到待识别信息对应的敏感词匹配结果。例如,在确定的敏感词库为中文词库时,分别在中文对应的关键词库、规则词库和拼音词库中,匹配中文敏感词原词、表情符、中文语言规则和中文拼音,并输出对应的敏感词匹配结果。在确定的敏感词库为外文词库时,分别在外文对应的关键词库和规则词库中,匹配外文敏感词原词、表情符和外文语言规则,并输出对应的敏感词匹配结果。在确定的敏感词库为通用词库时,分别在中文和外文对应的关键词库、中文和外文对应的规则词库和中文对应的拼音词库中,匹配中文和外文对应的敏感词原词、表情符、中文语言规则以及中对应的中文拼音,并输出对应的敏感词匹配结果。
可选的,待识别信息对应的敏感词匹配结果可包括命中的敏感词、敏感词的敏感词类型(可预先设定不同敏感词对应的敏感词类型)、敏感词对应的语种类型、命中的敏感词在待识别信息中的位置等。
在确定待识别信息对应的敏感词匹配结果,若在待识别信息中成功匹配到敏感词,可按照设定的处理方式对待识别信息进行处理,例如屏蔽待识别信息中识别到的敏感词、拦截待识别信息等。
本方案通过根据不同的语种类型设置不同的敏感词库,可准确识别不同语言种类的敏感词,并根据不同的语种类型的敏感词库设置对应的关键词库和规则词库,除了可根据关键词精准匹配敏感词之外,还可基于对应语种类型的语言规则准确识别出变形、加干扰词等处理后的敏感词,并且在匹配敏感词之前,根据对应的语种类型对待识别信息进行预处理,减少词语的变形、干扰对敏感词识别造成的干扰,有效解决变形词对敏感词识别造成的对抗问题,提升敏感词识别的召回率和准确率。
上述,通过识别待识别信息对应的语种类型,确定语种类型对应的敏感词库,根据确定的敏感词库对待识别信息进行第一预处理得到第一预处理结果,并在确定的敏感词库中的第一预处理结果进行敏感词匹配得到敏感词匹配结果,针对不同的语言类型利用不同的处理方式对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,经过预处理得到的第一预处理结果在对应敏感词库中可更准确地匹配敏感词,并且可按照规则词库中对应语种的语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。
在上述实施例的基础上,图2给出了本申请实施例提供的另一种敏感词匹配方法的流程图,该敏感词匹配方法是对上述敏感词匹配方法的具体化。参考图2,该敏感词匹配方法包括:
S201:确定待识别信息是否包含文字内容,并在待识别信息存在文字内容的情况下,对待识别信息进行第二预处理,以得到待识别信息对应的文本信息。
示例性的,在获取的待识别信息后,判断待识别信息中是否包含文字内容。可以理解的是,在待识别信息中不包含文字内容时,可结束对待识别信息的敏感词匹配,减少不必要的数据处理,并及时启动对下一个待识别信息的敏感词匹配。
在一个可能的实施例中,对待识别信息是否包含文字内容的判断可通过统一码(unicode)分类方式进行,例如调用待识别信息的统一码数据(unicodedata)包,以获取待识别信息中包含的统一码分类。判断取待识别信息中包含的统一码分类中是否包含文本类别(Letter类别),若统一码分类中包含文本类别,则判定待识别信息存在文字内容,若统一码分类中未包含文本类别,此时待识别信息中没有文字相关的内容,都是标点符号、数字、表情符等内容,则判定待识别信息不存在文字内容。
在待识别信息存在文字内容时,则对待识别信息进行第二预处理以得到待识别信息对应的文本信息。其中,对待识别信息的第二预处理用于去除待识别信息中对语种类型识别存在干扰的信息。通过对待识别信息进行第二预处理去除待识别信息中对语种类型识别存在干扰的信息,并对待识别信息进行规范化、标准化处理,得到的文本信息中将保留待识别信息中文字内容相关的信息。
在一个可能的实施例中,本方案提供的对待识别信息进行第二预处理,包括以下至少一种:去除待识别信息中的标点符号和/或表情符号;对待识别信息进行兼容性规范化处理;对待识别信息进行全角转半角处理。
可选的,待识别信息中的标点符号的去除可以是通过排除unicodedata包中的除标点符号(Punctuation)类别的方式进行。待识别信息中的表情符号的去除可以是通过预先设定的表情包(emoji包)进行,例如删除待识别信息中,与表情包中记录的表情符号一致的字符段。对待识别信息的兼容性规范化处理可通过unicode工具提供的NFD(Normalization Form D,正规形式D)规范化归一处理方式和/或NFKD(NormalizationForm KD,正规形式KD)兼容性归一处理方式进行。
S202:将待识别信息对应的文本信息输入至语种识别模块中,以通过语种识别模块识别出待识别信息对应的语种类型。
示例性的,在得到对待识别信息进行第二预处理得到的文本信息后,将文本信息输入到训练好的语种识别模型中,由语种识别模型对文本信息进行语种类型分析处理,并得到待识别信息对应的语种类型。
本方案通过对待识别信息进行第二预处理,去除待识别信息中对语种类型识别存在干扰的信息,并对待识别信息进行规范化、标准化处理,得到的文本信息中将保留待识别信息中文字内容相关的信息,文本信息对语种识别模型进行语种类型识别的干扰更小,有效提高对待识别信息对应语种类型的识别准确度。
S203:基于待识别信息对应的语种类型确定对应的敏感词库,敏感词库包括中文词库、外文词库和通用词库,中文词库包括中文对应的关键词库、规则词库和拼音词库,外文词库包括外文对应的关键词库和规则词库,通用词库包括关键词库、规则词库和拼音词库,其中,规则词库记录有对应语种类型的敏感词的语言规则。
S204:基于待识别信息对应的敏感词库对待识别信息进行第一预处理,以得到第一预处理结果。
在一个可能的实施例中,如图3提供的一种对待识别信息的第一预处理流程示意图所示,本方案在基于待识别信息对应的敏感词库对待识别信息进行第一预处理时,包括:
S2041:在待识别信息对应的敏感词库为中文词库的情况下,对待识别信息进行基于中文的第一预处理。
S2042:在待识别信息对应的敏感词库为外文词库的情况下,对待识别信息进行基于外文的第一预处理。
S2043:在待识别信息对应的敏感词库为通用词库的情况下,对待识别信息进行基于中文和外文的第一预处理。
可选的,预先针对不同的语种类型设定不同的第一预处理对应的处理方式,其中不同的外文可对应不用的第一预处理对应的处理方式。可以理解的是,由于通用词库中记录的内容来自中文词库和外文词库,在通用词库中的第一预处理为中文和各种外文对应的处理方式的结合。
示例性的,在待识别信息对应的语种类型为中文时,在待识别信息对应的敏感词库为中文词库的情况下,对待识别信息进行基于中文的第一预处理。在待识别信息对应的敏感词库为外文词库时,对待识别信息进行基于外文对应语种类型的第一预处理。而在待识别信息对应的敏感词库为通用词库时,为了保证可准确识别出各种语种类型的敏感词,需要对待识别信息进行基于中文和外文的第一预处理。
在一个可能的实施例中,本方案在对待识别信息进行基于中文的第一预处理时,包括以下至少一种处理方式:对待识别信息进行归一化简体处理;去除待识别信息的中文字符间的标点符号和/或空格。
示例性的,在待识别信息对应的语种类型为中文时,基于预先设定的简体中文和繁体中文之间的对应关系,在待识别信息中的繁体文字转换为简体文字,实现对待识别信息的归一化简体处理,例如在待识别信息中的内容为“監视”时,其中“監”为繁体字,需要将其中的繁体字转换为简体字,即将“監视”转换为“监视”。还可识别出待识别信息中的标点符号和/或空格并删除,例如在待识别信息中的内容为“今,天的天气”时,其中包括逗号和空格,则取出标点符号和空格时,“今,天的天气”将转换为“今天的天气”。
在一个可能的实施例中,本方案在对待识别信息进行基于外文的第一预处理,包括以下至少一种处理方式:对待识别信息进行兼容性规范化处理;对待识别信息进行全角转半角处理和/或归一化小写处理;对待识别信息进行多空格去重处理;获取待识别信息的规则组合。
示例性的,在待识别信息对应的语种类型为外文时,通过unicode工具提供的NFD规范化归一处理方式和/或NFKD兼容性归一处理方式对待识别信息进行兼容性规范化处理,例如待识别信息中的内容为时,对待识别信息进行兼容性规范化处理后,转换为“H5”。还可以是识别出待识别信息中的全角字符和/或大写字符,并将全角字符和/或大写字符转换为半角字符和/或小写字符,例如待识别信息中的内容为“toDay”时,对待识别信息进行全角转半角处理和/或归一化小写处理后,“toDay”转换为“today”。还可以是识别出待识别信息中重复的空格,并对重复的空格进行多空格去重处理,重复的空格只保留一个空格,例如待识别信息中的内容为“leave me alone”时,对待识别信息进行多空格去重处理后,“leave me alone”转换为“leave me alone”。还可以是通过unicodedata工具提供的combining函数(可用于从给定数目的对象集合中提取若干对象的组合数)获取待识别信息各个字符的规则组合,从而获取待识别信息的规则组合,例如待识别信息中的内容为时,对待识别信息进行多空格去重处理后,转换为“chaos”。
在一个可能的实施例中,本方案在对待识别信息进行基于中文和外文的第一预处理时,包括以下至少一种处理方式:对待识别信息进行归一化简体处理;去除待识别信息的中文字符间的标点符号和/或空格;对待识别信息进行兼容性规范化处理;对待识别信息进行全角转半角处理和/或归一化小写处理;对待识别信息进行多空格去重处理;获取待识别信息的规则组合。即在通用词库中,按照中文和外本的第一预处理方式对待识别信息经第一预处理,保证在通用词库中可正确识别中文和外文对应的敏感词。
本方案通过针对不同的语言词语对待识别信息进行对应的第一预处理,去除待识别信息中对敏感词匹配存在干扰的信息,并对待识别信息进行规范化、标准化处理,得到的第一预处理结果将保留待识别信息中文字内容相关的信息,减少文字无关信息对敏感词匹配的干扰,有效提高对待识别信息中敏感词匹配的准确度。
S205:在敏感词库中对第一预处理结果进行敏感词匹配,以得到待识别信息对应的敏感词匹配结果。
在一个可能的实施例中,如图4提供的一种对第一预处理结果进行敏感词匹配的流程示意图所示,在对待识别信息进行基于中文的第一预处理后,本方案在敏感词库中对第一预处理结果进行敏感词匹配时,包括:
S2051:基于中文词库中的关键词库中记录的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配。
S2052:基于中文词库中的规则词库中记录的不同敏感词对应的正则敏感词,对第一预处理结果进行敏感词匹配,正则敏感词以正则表达式进行表示。
S2053:基于中文词库中的拼音词库中记录的不同敏感词对应的拼音敏感词,对第一预处理结果进行敏感词匹配。
本方案提供的关键词库记录有对应语种类型的不同敏感词对应的敏感词原词和/或表情符,规则词库记录有对应语种类型的不同敏感词对应的以正则表达式进行表示的正则敏感词,敏感词库记录有对应语种类型的不同敏感词对应的拼音敏感词。
示例性的,在待识别信息对应的敏感词库为中文词库时,敏感词库包括中文词库对应的关键词库、规则词库和拼音词库,则在对待识别信息进行第一预处理得到第一预处理结果后,将第一处理结果分别发送到中文词库对应的关键词库、规则词库和拼音词库中。关键词库将基于记录的中文对应的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配。敏感词库将基于规则词库中记录的中文对应不同敏感词对应的正则表达式,对第一预处理结果进行敏感词匹配。并且拼音词库将基于记录的中文对应的不同敏感词对应的拼音敏感词,对第一预处理结果进行敏感词匹配。
在一个可能的实施例中,在对待识别信息进行基于外文的第一预处理后,本方案在敏感词库中对第一预处理结果进行敏感词匹配时,包括:基于外文词库中的关键词库中记录的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配;基于外文词库中的规则词库中记录的不同敏感词对应的正则敏感词,对第一预处理结果进行敏感词匹配,正则敏感词以正则表达式进行表示。可以理解的是,基于外文对待识别信息进行第一预处理得到的第一处理结果不需要进行基于拼音敏感词的敏感词匹配。
示例性的,在待识别信息对应的敏感词库为外文词库时,敏感词库包括外文词库对应的关键词库和规则词库,则在对待识别信息进行第一预处理得到第一预处理结果后,将第一处理结果分别发送到外文词库对应的关键词库和规则词库中。关键词库将基于记录的外文对应的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配。敏感词库将基于规则词库中记录的外文对应不同敏感词对应的正则表达式,对第一预处理结果进行敏感词匹配。
在一个可能的实施例中,在对待识别信息进行基于中文和外文的第一预处理后,本方案在敏感词库中对第一预处理结果进行敏感词匹配时,包括:基于通用词库中的关键词库中记录的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配;基于通用词库中的规则词库中记录的不同敏感词对应的正则敏感词,对第一预处理结果进行敏感词匹配,正则敏感词以正则表达式进行表示;基于通用词库中的拼音词库中记录的不同敏感词对应的拼音敏感词,对第一预处理结果进行敏感词匹配。
示例性的,在待识别信息对应的敏感词库为通用词库时,敏感词库包括通用词库对应的关键词库、规则词库和拼音词库,则在对待识别信息进行第一预处理得到第一预处理结果后,将第一处理结果分别发送到对应的关键词库、规则词库和拼音词库中。关键词库将基于记录的中文和外文对应的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配。敏感词库将基于规则词库中记录的中文和外文对应不同敏感词对应的正则表达式,对第一预处理结果进行敏感词匹配。并且拼音词库将基于记录的中文对应的不同敏感词对应的拼音敏感词,对第一预处理结果进行敏感词匹配。
其中,在关键词库中进行敏感词匹配时,可以是通过AC自动机(Aho-Corasickautomaton)进行,在规则词库中进行敏感词匹配时,可以是通过Hyperscan(一种正则表达式引擎)/PCRE2(一种正则表达式库)的进行。在拼音词库中进行敏感词匹配时,可将待识别信息中的非中文字符去除,并通过中文转拼音工具(例如pinyin4j工具)将去除非中文字符后的待识别信息中的中文转换为拼音,并通过AC自动机进行敏感词拼音匹配。
在一个可能的实施例中,在规则词库中基于不同敏感词对应的正则敏感词进行敏感词匹配时,可基于对应的正则表达式进行。例如,对于外文的情况,假设在“kill”为敏感词,而“skill”不是敏感词的情况,该敏感词对应的正则表达式可以是“(^|[^\w])kill($|[^\w])”,表示“kill”的前面和后面都没有字母、数字、下划线的情况下,认为命中敏感词。对于敏感词为多个词语同时出现的情况,例如正则表达式可以是“stupid[^\w]{0,}guy”,表示在待识别信息中同时出现“stupid”和“guy”时,认为命中敏感词。对于字符变换的敏感词变形的情况,例如正则表达式可以是“st[uo]id”,表示在待识别信息中出现“stupid”或“stopid”时,均认为命中敏感词。对于中文的情况,在敏感词为多个词语同时出现的情况,例如正则表达式可以是“^(?=.*(坏人)).*(打架)”,表示在待识别信息中同时出现“坏人”和“打架”时,认为命中敏感词。对于需要规避部分词误拦的情况,例如大麻是需要召回的,并避免命中大麻袋、大麻将、大麻烦,正则表达式可以是“大麻(?![袋将烦])”,表示在待识别信息中出现“大麻”,并且在“大麻”后面跟的不是“袋将烦花”其中的任一个字时,认为命中敏感词。
本方案通过在不同语种词库所包含的不同关键词库、规则词库或拼音词库,分别根据对应语种的匹配规则进行敏感词匹配,并且每个语种词库中均进行关键词和语言规则的匹配,同时,对中文文本进行拼音敏感词匹配,对敏感词的匹配更全面,有效实现对多语言混合文本的敏感词识别,保证敏感词识别的准确率和召回率。
上述,通过识别待识别信息对应的语种类型,确定语种类型对应的敏感词库,根据确定的敏感词库对待识别信息进行第一预处理得到第一预处理结果,并在确定的敏感词库中的第一预处理结果进行敏感词匹配得到敏感词匹配结果,针对不同的语言类型利用不同的处理方式对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,经过预处理得到的第一预处理结果在对应敏感词库中可更准确地匹配敏感词,并且可按照规则词库中对应语种的语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。同时,对待识别信息进行第二预处理,去除待识别信息中对语种类型识别存在干扰的信息,并对待识别信息进行规范化、标准化处理,有效提高对待识别信息对应语种类型的识别准确度。
图5是本申请实施例提供的一种敏感词匹配装置的结构示意图。参考图5,该敏感词匹配装置包括语种识别模块52、词库匹配模块53、第一预处理模块53和敏感词匹配模块54。
其中,语种识别模块51,配置为将待识别信息输入至语种识别模块中,以通过语种识别模块识别出待识别信息对应的语种类型;词库匹配模块52,配置为基于待识别信息对应的语种类型确定对应的敏感词库,敏感词库包括中文词库、外文词库和通用词库,中文词库包括中文对应的关键词库、规则词库和拼音词库,外文词库包括外文对应的关键词库和规则词库,通用词库包括关键词库、规则词库和拼音词库,其中,规则词库记录有对应语种类型的敏感词的语言规则;第一预处理模块53,配置为基于待识别信息对应的敏感词库对待识别信息进行第一预处理,以得到第一预处理结果;敏感词匹配模块54,配置为在敏感词库中对第一预处理结果进行敏感词匹配,以得到待识别信息对应的敏感词匹配结果。
上述,通过识别待识别信息对应的语种类型,确定语种类型对应的敏感词库,根据确定的敏感词库对待识别信息进行第一预处理得到第一预处理结果,并在确定的敏感词库中的第一预处理结果进行敏感词匹配得到敏感词匹配结果,针对不同的语言类型利用不同的处理方式对待识别信息进行预处理,并基于不同语言类型利用不同的敏感词库进行敏感词匹配,经过预处理得到的第一预处理结果在对应敏感词库中可更准确地匹配敏感词,并且可按照规则词库中对应语种的语言规则匹配敏感词,对敏感词的匹配更全面及灵活,有效提高对待识别信息中敏感词的识别准确度。同时,对待识别信息进行第二预处理,去除待识别信息中对语种类型识别存在干扰的信息,并对待识别信息进行规范化、标准化处理,有效提高对待识别信息对应语种类型的识别准确度。
在一个可能的实施例中,敏感词匹配装置还包括文字识别模块和第二预处理模块,其中:
文字识别模块,配置为确定待识别信息是否包含文字内容;
第二预处理模块,配置为在待识别信息存在文字内容的情况下,对待识别信息进行第二预处理,以得到待识别信息对应的文本信息;
语种识别模块51,具体配置为将待识别信息对应的文本信息输入至语种识别模块中,以通过语种识别模块识别出待识别信息对应的语种类型。
在一个可能的实施例中,第二预处理模块在对待识别信息进行第二预处理时,配置为包括以下至少一种:
去除待识别信息中的标点符号和/或表情符号;
对待识别信息进行兼容性规范化处理;
对待识别信息进行全角转半角处理。
在一个可能的实施例中,第一预处理模块53包括中文预处理单元、外文预处理单元和通用预处理单元,其中:
中文预处理单元,配置为在待识别信息对应的敏感词库为中文词库的情况下,对待识别信息进行基于中文的第一预处理;
外文预处理单元,配置为在待识别信息对应的敏感词库为外文词库的情况下,对待识别信息进行基于外文的第一预处理;
通用预处理单元,配置为在待识别信息对应的敏感词库为通用词库的情况下,对待识别信息进行基于中文和外文的第一预处理。
在一个可能的实施例中,中文预处理单元在对待识别信息进行基于中文的第一预处理,配置为包括以下至少一种:
对待识别信息进行归一化简体处理;
去除待识别信息的中文字符间的标点符号和/或空格。
在一个可能的实施例中,外文预处理单元没在对待识别信息进行基于外文的第一预处理时,配置为包括以下至少一种:
对待识别信息进行兼容性规范化处理;
对待识别信息进行全角转半角处理和/或归一化小写处理;
对待识别信息进行多空格去重处理;
获取待识别信息的规则组合。
在一个可能的实施例中,敏感词匹配模块54包括关键词匹配单元、规则匹配单元和拼音匹配单元,其中:
关键词匹配单元,配置为基于中文词库中的关键词库中记录的不同敏感词对应的敏感词原词和/或表情符,对第一预处理结果进行敏感词匹配;
规则匹配单元,配置为基于中文词库中的规则词库中记录的不同敏感词对应的正则敏感词,对第一预处理结果进行敏感词匹配,正则敏感词以正则表达式进行表示;
拼音匹配单元,配置为基于中文词库中的拼音词库中记录的不同敏感词对应的拼音敏感词,对第一预处理结果进行敏感词匹配。
值得注意的是,上述敏感词匹配装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
本申请实施例还提供了一种敏感词匹配设备,该敏感词匹配设备可集成本申请实施例提供的敏感词匹配装置。图6是本申请实施例提供的一种敏感词匹配设备的结构示意图。参考图6,该敏感词匹配设备包括:输入装置63、输出装置64、存储器62以及一个或多个处理器61;存储器62,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器61执行,使得一个或多个处理器61实现如上述实施例提供的敏感词匹配方法。上述提供的敏感词匹配装置、设备和计算机可用于执行上述任意实施例提供的敏感词匹配方法,具备相应的功能和有益效果。
本申请实施例还提供一种存储计算机可执行指令的非易失性存储介质,计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的敏感词匹配方法。当然,本申请实施例所提供的一种存储计算机可执行指令的非易失性存储介质,其计算机可执行指令不限于如上提供的敏感词匹配方法,还可以执行本申请任意实施例所提供的敏感词匹配方法中的相关操作。上述实施例中提供的敏感词匹配装置、设备及存储介质可执行本申请任意实施例所提供的敏感词匹配方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的敏感词匹配方法。
在一些可能的实施方式中,本公开提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当上述程序产品在计算机设备上运行时,程序代码用于使上述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤,例如,计算机设备可以执行本公开实施例所记载的敏感词匹配方法。其中,程序产品可以采用一个或多个可读介质的任意组合。
Claims (11)
1.一种敏感词匹配方法,其特征在于,包括:
将待识别信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型;
基于所述待识别信息对应的语种类型确定对应的敏感词库,所述敏感词库包括中文词库、外文词库和通用词库,所述中文词库包括中文对应的关键词库、规则词库和拼音词库,所述外文词库包括外文对应的关键词库和规则词库,所述通用词库包括关键词库、规则词库和拼音词库,其中,所述规则词库记录有对应语种类型的敏感词的语言规则;
基于所述待识别信息对应的敏感词库对所述待识别信息进行第一预处理,以得到第一预处理结果;
在所述敏感词库中对所述第一预处理结果进行敏感词匹配,以得到所述待识别信息对应的敏感词匹配结果。
2.根据权利要求1所述的敏感词匹配方法,其特征在于,所述将待识别信息输入至语种识别模块中之前,还包括:
确定待识别信息是否包含文字内容;
在所述待识别信息存在文字内容的情况下,对所述待识别信息进行第二预处理,以得到所述待识别信息对应的文本信息;
所述将待识别信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型,包括:
将所述待识别信息对应的文本信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型。
3.根据权利要求2所述的敏感词匹配方法,其特征在于,所述对所述待识别信息进行第二预处理,包括以下至少一种:
去除所述待识别信息中的标点符号和/或表情符号;
对所述待识别信息进行兼容性规范化处理;
对所述待识别信息进行全角转半角处理。
4.根据权利要求1所述的敏感词匹配方法,其特征在于,所述基于所述待识别信息对应的敏感词库对所述待识别信息进行第一预处理,包括:
在所述待识别信息对应的敏感词库为中文词库的情况下,对所述待识别信息进行基于中文的第一预处理;
在所述待识别信息对应的敏感词库为外文词库的情况下,对所述待识别信息进行基于外文的第一预处理;
在所述待识别信息对应的敏感词库为通用词库的情况下,对所述待识别信息进行基于中文和外文的第一预处理。
5.根据权利要求4所述的敏感词匹配方法,其特征在于,对所述待识别信息进行基于中文的第一预处理,包括以下至少一种:
对所述待识别信息进行归一化简体处理;
去除所述待识别信息的中文字符间的标点符号和/或空格。
6.根据权利要求4所述的敏感词匹配方法,其特征在于,所述对所述待识别信息进行基于外文的第一预处理,包括以下至少一种:
对所述待识别信息进行兼容性规范化处理;
对所述待识别信息进行全角转半角处理和/或归一化小写处理;
对所述待识别信息进行多空格去重处理;
获取所述待识别信息的规则组合。
7.根据权利要求1所述的敏感词匹配方法,其特征在于,所述在所述敏感词库中对所述第一预处理结果进行敏感词匹配,包括:
基于中文词库中的关键词库中记录的不同敏感词对应的敏感词原词和/或表情符,对所述第一预处理结果进行敏感词匹配;
基于中文词库中的规则词库中记录的不同敏感词对应的正则敏感词,对所述第一预处理结果进行敏感词匹配,所述正则敏感词以正则表达式进行表示;
基于中文词库中的拼音词库中记录的不同敏感词对应的拼音敏感词,对所述第一预处理结果进行敏感词匹配。
8.一种敏感词匹配装置,其特征在于,包括语种识别模块、词库匹配模块、第一预处理模块和敏感词匹配模块,其中:
所述语种识别模块,配置为将待识别信息输入至语种识别模块中,以通过所述语种识别模块识别出所述待识别信息对应的语种类型;
所述词库匹配模块,配置为基于所述待识别信息对应的语种类型确定对应的敏感词库,所述敏感词库包括中文词库、外文词库和通用词库,所述中文词库包括中文对应的关键词库、规则词库和拼音词库,所述外文词库包括外文对应的关键词库和规则词库,所述通用词库包括关键词库、规则词库和拼音词库,其中,所述规则词库记录有对应语种类型的敏感词的语言规则;
所述第一预处理模块,配置为基于所述待识别信息对应的敏感词库对所述待识别信息进行第一预处理,以得到第一预处理结果;
所述敏感词匹配模块,配置为在所述敏感词库中对所述第一预处理结果进行敏感词匹配,以得到所述待识别信息对应的敏感词匹配结果。
9.一种敏感词匹配设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的敏感词匹配方法。
10.一种存储计算机可执行指令的非易失性存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一项所述的敏感词匹配方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的敏感词匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211295311.6A CN115659017A (zh) | 2022-10-21 | 2022-10-21 | 一种敏感词匹配方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211295311.6A CN115659017A (zh) | 2022-10-21 | 2022-10-21 | 一种敏感词匹配方法、装置、设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659017A true CN115659017A (zh) | 2023-01-31 |
Family
ID=84989686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211295311.6A Pending CN115659017A (zh) | 2022-10-21 | 2022-10-21 | 一种敏感词匹配方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659017A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
-
2022
- 2022-10-21 CN CN202211295311.6A patent/CN115659017A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101315622B (zh) | 检测文件相似度的系统及方法 | |
Haruechaiyasak et al. | LexToPlus: A thai lexeme tokenization and normalization tool | |
CN112287684A (zh) | 融合变体词识别的短文本审核方法及装置 | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN110909531A (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN108718306A (zh) | 一种异常流量行为判别方法和装置 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN109062891B (zh) | 媒体处理方法、装置、终端和介质 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN115659017A (zh) | 一种敏感词匹配方法、装置、设备、存储介质及产品 | |
Gupta et al. | SMPOST: parts of speech tagger for code-mixed indic social media text | |
JP5390522B2 (ja) | 表示文書を解析に向けて準備する装置 | |
CN112084308A (zh) | 用于文本类型数据识别的方法、系统及存储介质 | |
CN109325237B (zh) | 用于机器翻译的完整句识别方法与系统 | |
CN113918973A (zh) | 一种密标检测方法、装置及电子设备 | |
Miao et al. | Detecting troll tweets in a bilingual corpus | |
WO2024051196A1 (zh) | 恶意代码检测方法、装置、电子设备及存储介质 | |
CN106802886A (zh) | 一种多语文本的切词方法 | |
Khan et al. | Abusive Language Detection in Urdu Text: Leveraging Deep Learning and Attention Mechanism | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN115983266A (zh) | 用于银行征信数据审核的拼音变体文本识别方法及系统 | |
CN111310452A (zh) | 一种分词方法和装置 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |