CN115757721A

CN115757721A - 一种基于矩阵相乘的文本分割及敏感词检测方法

Info

Publication number: CN115757721A
Application number: CN202211398636.7A
Authority: CN
Inventors: 于超; 付志鹏; 赵家智
Original assignee: Xuancai Interactive Network Science And Technology Co ltd
Current assignee: Xuancai Interactive Network Science And Technology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-03-07

Abstract

一种基于矩阵相乘的文本分割及敏感词检测方法，包括以下步骤：获取原始文本字符串和敏感词库；根据所述敏感词库构建敏感词的确定有限状态自动机树状图；将所述原始文本字符串转换为文本字符二维矩阵，并记录所述文本字符二维矩阵的长度；根据横向匹配规则、纵向匹配规则、斜向匹配规则、反斜向匹配规则分别构建匹配二维矩阵，所述匹配二维矩阵的长度与所述文本字符二维矩阵的长度相同；将所述文本字符二维矩阵与所述匹配二维矩阵进行点乘处理，得到对应的结果矩阵；根据所述结果矩阵生成对应的匹配文本字符串，与所述确定有限状态自动机树状图进行匹配，判断是否存在敏感词。本申请支持间隔的文本字符信息检测，提高敏感词检测准确率及检测效率。

Description

一种基于矩阵相乘的文本分割及敏感词检测方法

技术领域

本发明涉及敏感词检测技术领域，尤其涉及一种基于矩阵相乘的文本分割及敏感词检测方法。

背景技术

随着敏感词检测技术的发展，越来越多的用户对文本信息进行识别后，检测文本中是否含有不符合规定或者带有负面影响的敏感词。

目前，敏感词检测一般只能识别出文本中的连续字符串，而对于间隔的文本字符串中的敏感词信息，容易出现漏检测的情况。若要支持间隔的字符串检测，需要穷举较多的间隔条件，会导致检测效率较低且容易检测错误。

发明内容

为了解决现有技术的缺陷，本发明的目的在于提供一种基于矩阵相乘的文本分割及敏感词检测方法，能够支持间隔的文本字符串的敏感词检测，提高文本信息中敏感词的检测准确率及检测效率。

为了实现上述目的，本申请提供的基于矩阵相乘的文本分割及敏感词检测方法，包括以下步骤：

获取原始文本字符串和敏感词库；

根据所述敏感词库构建敏感词的确定有限状态自动机树状图；

将所述原始文本字符串转换为文本字符二维矩阵，并记录所述文本字符二维矩阵的长度；

根据横向匹配规则、纵向匹配规则、斜向匹配规则、反斜向匹配规则分别构建匹配二维矩阵，所述匹配二维矩阵的长度与所述文本字符二维矩阵的长度相同；

将所述文本字符二维矩阵与所述匹配二维矩阵进行点乘处理，得到对应的结果矩阵；

根据所述结果矩阵生成对应的匹配文本字符串，与所述确定有限状态自动机树状图进行匹配，判断是否存在敏感词。

进一步地，所述将所述原始文本字符串转换为文本字符二维矩阵的步骤，包括：按照字符将文本字符串进行拆分，得到多组文本字符串并构建文本字符二维矩阵，所述文本字符二维矩阵的一维长度为字符串的行数，二维长度为字符串中最长的一行字符串的长度。

进一步地，所述根据横向匹配规则、纵向匹配规则、斜向匹配规则、反斜向匹配规则分别构建匹配二维矩阵的步骤，还包括：

构建一个一维长度为M、二维长度为N的基准匹配二维矩阵，并初始化数组中的值为0，其中M、N分别为所述文本字符二维矩阵一维长度和二维长度；

定义二维匹配矩阵队列，用于存放所有生成的匹配二维矩阵。

进一步地，所述横向匹配规则为：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标；初始化A_x＝0，A_y＝0，B_x＝0，B_y＝N-1；

重复以下步骤，可生成M个横向匹配矩阵：

当A_x≤M-1时，A点坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个横向匹配矩阵；

将所述横向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

A_x＝A_x+1，B_x＝B_x+1。

进一步地，所述纵向匹配规则为：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标，初始化A_x＝0，A_y＝0；B_x＝M-1，B_y＝0；

重复以下步骤，可生成N个纵向匹配矩阵：

当A_y≤N-1时，A点坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个纵向匹配矩阵；

将所述纵向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

A_y＝A_y+1，B_y＝B_y+1。

进一步地，所述斜向匹配规则为：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标，初始化A_x＝0，A_y＝1；B_x＝1，B_y＝0；

重复以下步骤，可生成Max(M,N)个斜向匹配矩阵：

当A_x！＝B_x&&A_y！＝B_y&&A_x≤M-1&&A_y≤N-1&&B_x≤M-1，A点的坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵的内容赋值为1，生成一个斜向匹配矩阵；

将所述斜向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

If(A_y＝＝N-1){a_X＝A_X+1}else{A_y＝A_y+1}；If(B_x＝＝M-1){B_y＝B_y+1}else{B_x＝B_x+1}。

进一步地，所述反斜向匹配规则为：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标，初始化A_x＝M-2，A_y＝0；B_x＝M-1，B_y＝1；

重复以下步骤，可生成Max(M,N)个反斜向匹配矩阵：

当A_x!＝B_x&&A_y！＝B_y&&A_x≥0&&B_x≥0&&B_y≥N-1，A点坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个反斜向匹配矩阵；

将所述反斜向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

If(A_x＝＝0){A_y＝A_y+1}else{A_x＝A_x-1}；If(B_y＝＝N-1){B_x＝B_x-1}else{B_y＝B_y+1}。

进一步地，所述将所述文本字符二维矩阵与所述匹配二维矩阵进行点乘处理的步骤，包括：将匹配二维矩阵和文本字符二维矩阵中相同行坐标和列坐标的位置进行相乘，当匹配二维矩阵某行某列的值为0时，则结果矩阵中该坐标位置为空字符串；当匹配二维矩阵某行某列的值为1时，则结果矩阵中该坐标位置为文本字符二维矩阵中该位置的字符值。

为实现上述目的，本申请还提供一种电子设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器，用于执行所述存储器所存放的计算机程序，以实现如上所述的基于矩阵相乘的文本分割及敏感词检测方法。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上所述的基于矩阵相乘的文本分割及敏感词检测方法。

本申请提供的基于矩阵相乘的文本分割及敏感词检测方法，与现有技术相比具有如下有益效果：

通过对待检测文本字符串信息按照字符进行拆分，构建文本字符二维矩阵，并构建对应的匹配二维矩阵，并将匹配二维矩阵与需要截取的文本字符的位置赋值为1，通过将文本字符二维矩阵与匹配二维矩阵进行点乘处理后，得到了包含间隔文本信息的文本字符串，然后利用敏感词的确定有限状态自动及树状图进行匹配，判断待检检测文本字符串中是否存在敏感词，所以本申请的方法支持间隔的文本字符串检测，提高了文本信息中敏感词的检测准确率及检测效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1为根据本申请实施例的基于矩阵相乘的文本分割及敏感词检测方法流程图；

图2为根据本申请实施例的敏感词DFA树状图；

图3为根据本申请实施例的文本字符二维矩阵示意图：

图4为根据本申请实施例的纵向匹配矩阵示意图；

图5为根据本申请实施例的斜向匹配矩阵示意图；

图6为根据本申请实施例的纵向结果矩阵示意图；

图7为根据本申请实施例的斜向结果矩阵示意图；

图8为根据本申请实施例的电子设备结构示意图。

具体实施方式

以下结合附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请。

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本申请中可能提及了“第一”、“第二”等概念仅用于对不同的装置、组件或部件进行区分，并非用于限定这些装置、组件或部件所执行的功能的顺序或者相互依存关系。

需要注意，本申请中可能提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。“多个”应理解为两个或以上。

下面，将参考附图详细地说明本发明的实施例。

实施例1

在步骤101，获取原始文本字符串和敏感词库。

本申请实施例中，待检测原始文本字符串的获取可以通过用户在终端输入文本字符串信息，也可以是获取预先存储好的文本字符串信息；敏感词库包含多个预设的敏感词，一般敏感词检测技术中，都是基于敏感词库对待检测文本信息进行敏感词检测。

在步骤102，根据敏感词库构建敏感词的确定有限状态自动机树状图。

有限状态自动机是一种具有输出输出系统的数学模型，其具有有限数目的内部状态，系统可以根据当前的状态和面临的输入字符决定系统的后继行为，其当前状态概括了过去输入处理的信息。确定有限状态机(Deterministic Finite Automaton，DFA)，也叫确定有穷自动机，其通过过去和当前的状态得到下一个状态。目前在实现敏感词过滤的DFA算法中，DFA几乎不涉及计算，只是状态的转换，这满足减少运算的需求，所以DFA算法是比较好的实现算法。

敏感词库包含很多个敏感词，将这些敏感词生成DFA树状图，也就是将敏感词库构建成了一个类似于一棵棵有分支的树，这样在判断一个词是否为敏感词的时候，就可以大大减少检索的匹配范围，有利于提高敏感词检测效率。例如，对敏感词“代写论文”、“代考”构建的DFA树状图如图2所示。

在步骤103，将原始文本字符串转换为文本字符二维矩阵，并记录文本字符二维矩阵的长度。

本申请实施例中，将原始文本字符串按照字符进行拆分，得到多则文本字符串，并将这些文本字符生成为一个文本字符二维矩阵，该文本字符二维矩阵中的一维长度(纵向)为对应的字符串的行数，二维长度(横向)为对应的字符串中最长的一行字符串的长度。例如，对以下文本：“这是明媚的一天；是是一个人好人吧到。一成一占成替成成。条成成条成成考成。代成成成替成成成。考成成成成考成成。成成成成成成广成。成成成成成成成告。”，按照字符拆分为“这是明媚的一天；”和“是是一个好人吧到。”等等文本字符串，将这些字符串生成为一个文本字符二维矩阵，如图3所示。那么这个文本字符二维矩阵中的一维长度为8，二维长度为9，将两个长度值记录下来，用于后续构建与文本字符二维矩阵的长度相同的匹配二维矩阵。

在步骤104，根据横向匹配规则、纵向匹配规则、斜向匹配规则分别构建匹配二维矩阵，匹配二维矩阵的长度与文本字符二维矩阵的长度相同。

本申请实施例中，会根据文本字符二维矩阵的长度，按照横向匹配规则、纵向匹配规则、斜向匹配规则和反斜向匹配规则，构建一组匹配二维矩阵，其中每一个匹配二维矩阵的一维长度等于文本字符二维矩阵的一维长度，匹配二维矩阵的二维长度等于文本字符二维矩阵的二维长度，并将匹配二维矩阵中需要截取的文本字符位置赋值为1。

具体地，设上述文本字符二维矩阵的一维长度为M，二维长度为N。

首先，构建一个一维长度为M、二维长度为N的基准匹配二维矩阵，并初始化基准匹配二维矩阵中的所有值为0；另外，定义一个二维匹配矩阵队列，用于存放所有生成的二维匹配矩阵。

横向匹配矩阵的生成流程如下：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标。初始化A_x＝0，A_y＝0；B_x＝0，B_y＝N-1；

重复以下步骤，将生成M个横向匹配矩阵：

将生成的横向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

A_x＝A_x+1，B_x＝B_x+1。

纵向匹配矩阵的生成流程如下：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标。初始化A_x＝0，A_y＝0；B_x＝M-1，B_y＝0；

重复以下步骤，将生成N个纵向匹配矩阵：

将生成的纵向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

A_y＝A_y+1，B_y＝B_y+1。

斜向匹配矩阵的生成流程如下：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标。初始化A_x＝0，A_y＝1；B_x＝1，B_y＝0；

重复以下步骤，将生成Max(M,N)个斜向匹配矩阵：

当A_x！＝B_x&&Ay！＝B_y&&A_x≤M-1&&A_y≤N-1&&B_x≤M-1，A点的坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个斜向匹配矩阵；

将生成的斜向匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

If(A_y＝＝N-1){A_x＝A_x+1}else{A_y＝A_y+1}；If(B_x＝＝M-1){B_y＝B_y1}else{B_x＝B_x+1}。

反斜向匹配矩阵的生成流程如下：

定义A_x为A点横坐标，A_y为A点纵坐标，B_x为B点横坐标，B_y为B点纵坐标。初始化A_x＝M-2，A_y＝0；B_x＝M-1，B_y＝1；

重复以下步骤，将生成Max(M,N)个反斜向匹配矩阵。

当A_x！＝B_x&&A_y！＝B_y&&A_x≥0&&B_x≥0&&B_y≥N-1，A点坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个反斜向匹配矩阵；

将生成的匹配矩阵加入匹配矩阵队列中，并还原基准匹配二维矩阵中所有值为0；

本申请实施例中，根据以上规则对上述一维长度为8、二维长度为9的文本字符二维矩阵构建匹配二维矩阵，生成的一个纵向匹配矩阵如图4所示，生成的一个斜向匹配矩阵如图5所示。

容易看出，当文本字符二维矩阵的一维长度为1或者二维长度为1时，则不需要构建斜向匹配矩阵和反斜向匹配矩阵。

在步骤105，将文本字符二维矩阵与匹配二维矩阵进行点乘处理，得到对应的结果矩阵。

点乘算法规则为：

将匹配二维矩阵和文本字符二维矩阵中相同行坐标和列坐标的位置进行相乘，若匹配二维矩阵某行某列的值为0，则将结果矩阵中该坐标位置赋值为空字符串；若匹配二维矩阵某行某列的值为1，则将结果矩阵中该坐标位置赋值为文本字符矩阵中该位置的字符值。例如，将上述纵向匹配二维矩阵(参考图4)、斜向匹配矩阵(参考图5)分别与文本字符二维矩阵(参考图2)进行点乘处理，分别得到如图6所示的纵向结果矩阵和图7所示的斜向结果矩阵。

将文本字符二维矩阵与相应的匹配二维矩阵进行点乘处理，目的是通过匹配二维矩阵截取文本字符二维矩阵中某部分的文本字符内容，所截取的文本字符内容包括连续的、间隔的、或者包含非文字符号的文本字符串。例如，通过横向匹配矩阵与文本字符矩阵进行点乘处理，截取的是连续的文本字符串；而通过纵向匹配矩阵、斜向匹配矩阵或者反斜向匹配矩阵与文本字符二维矩阵进行点乘处理，截取到的均是不连续的文本字符内容。所以，在后续对文本字符串进行敏感词匹配检测时，即使是间隔的敏感词，也能够被检测出来。

在步骤106，根据结果矩阵生成对应的匹配文本字符串，与敏感词的确定有限状态自动机树状图进行匹配，判断是否存在敏感词。

本申请实施例中，分别将上述纵向结果矩阵、斜向结果矩阵中的文本字符生成匹配文本字符串，即得到“这是一条代考成成”和“这是一条替考广告”，然后分别与敏感词的确定有限状态自动机树状图进行匹配，在敏感词库包括“代考”或者“替考”的情况下，能够检测出文本字符串中包含敏感词“代考”和“替考”。

本申请通过对待检测文本字符串信息按照字符进行拆分，构建文本字符二维矩阵，并构建对应的匹配二维矩阵，匹配二维矩阵与需要截取的文本字符相对应，通过将文本字符二维矩阵与匹配二维矩阵进行点乘处理后，得到包括间隔的文本信息在内的文本字符串，然后利用敏感词的DFA树状图进行匹配检测，判断原始文本字符串中的是否存在敏感词。所以，本申请的方法支持间隔的文本字符串检测，提高了文本信息中敏感词的检测准确率及检测效率。

实施例2

本申请的实施例中，还提供了一种电子设备，图8为根据本申请实施例的电子设备结构示意图，如图8所示，本申请的电子设备，包括处理器201，以及存储器202，其中，

存储器202存储有计算机程序，计算机程序在被处理器201读取执行时，执行如上所述的基于矩阵相乘的文本分割及敏感词检测方法实施例中的步骤。

实施例3

本申请的实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行如上所述的基于矩阵相乘的文本分割及敏感词检测方法实施例中的步骤。

在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本领域普通技术人员可以理解：以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于矩阵相乘的文本分割及敏感词检测方法，包括以下步骤：

获取原始文本字符串和敏感词库；

2.根据权利要求1所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述将所述原始文本字符串转换为文本字符二维矩阵的步骤，包括：按照字符将文本字符串进行拆分，得到多组文本字符串并构建文本字符二维矩阵，所述文本字符二维矩阵的一维长度为字符串的行数，二维长度为字符串中最长的一行字符串的长度。

3.根据权利要求1所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述根据横向匹配规则、纵向匹配规则、斜向匹配规则、反斜向匹配规则分别构建匹配二维矩阵的步骤，还包括：

4.根据权利要求3所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述横向匹配规则为：

重复以下步骤，可生成M个横向匹配矩阵：

当A_x≤M一1时，A点坐标为[A_x][A_y]，B点坐标为[B_x][B_y]，A、B两点确认一条直线，该直线上的点在基准匹配二维矩阵中的内容赋值为1，生成一个横向匹配矩阵；

A_x＝A_x+1，B_x＝B_x+1。

5.根据权利要求3所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述纵向匹配规则为：

重复以下步骤，可生成N个纵向匹配矩阵：

A_y＝A_y+1，B_y＝B_y+1。

6.根据权利要求3所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述斜向匹配规则为：

重复以下步骤，可生成Max(M，N)个斜向匹配矩阵：

7.根据权利要求3所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述反斜向匹配规则为：

重复以下步骤，可生成Max(M，N)个反斜向匹配矩阵：

8.根据权利要求1所述的基于矩阵相乘的文本分割及敏感词检测方法，其特征在于，所述将所述文本字符二维矩阵与所述匹配二维矩阵进行点乘处理的步骤，包括：将匹配二维矩阵和文本字符二维矩阵中相同行坐标和列坐标的位置进行相乘，当匹配二维矩阵某行某列的值为0时，则结果矩阵中该坐标位置为空字符串；当匹配二维矩阵某行某列的值为1时，则结果矩阵中该坐标位置为文本字符二维矩阵中该位置的字符值。

9.一种电子设备，包括处理器、存储器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器，用于执行所述存储器所存放的计算机程序，实现权利要求1-8任一项所述的基于矩阵相乘的文本分割及敏感词检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现权利要求1-8任一项所述的基于矩阵相乘的文本分割及敏感词检测方法。