CN115309899B

CN115309899B - 一种文本中特定内容识别存储方法及系统

Info

Publication number: CN115309899B
Application number: CN202210949186.XA
Authority: CN
Inventors: 李鹏霄; 项菲; 翟羽佳; 王海洋; 王红兵; 时磊; 侯炜; 马宏远; 王媛媛; 艾政阳; 闫玮佳
Original assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; National Computer Network and Information Security Management Center
Current assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; National Computer Network and Information Security Management Center
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2023-05-16
Anticipated expiration: 2042-08-09
Also published as: CN115309899A

Abstract

本发明公开了一种文本中特定内容识别存储方法及系统，属于文特定词识别的技术领域，其方法包括生成特定词库和规则库；获取待识别的文本集合；提取当前特定文本数据集中的新特定词，得到新特定词集合；将需要训练的词组输入BERT模型；从特定文本中获取疑似新特定词集合，利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式，匹配方式不够灵活，结果不够全面，难以及时识别海量新出现的特定词及其变体词，且由于文本中涉及大量错综复杂的词语，容易造成特定词的模糊匹配，导致误识别的问题。

Description

一种文本中特定内容识别存储方法及系统

技术领域

本发明涉及特定词识别的技术领域，尤其涉及一种文本中特定内容识别存储方法及系统。

背景技术

随着信息技术的快速发展，社交平台等互联网内容类产品也以爆炸式的速度涌现，随着活跃用户量的增加，这些产品会产生大量的帖子等文本。然而这些文本中是否存在特定词汇与特定文本，需要快速判断。

特定词是特定文本最重要的识别标志，利用特定词可以对特定文本进行高效而准确的检测和过滤。随着时间的推移，新的特定词层出不穷，规避特定词检测的方式和手段也不断增加，亟需对新出现的特定词及变体词进行识别、对现有特定词库进行更新扩充。

我国专利申请号：201910945463.8公开了一种敏感词检测方法及装置，其中，方法包括：获取目标文本，对目标文本进行分词处理；将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；若文本分类模型输出的目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。

但申请人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中，基于预构建模式规则的匹配方式仅局限于特定匹配规则模式，匹配方式不够灵活，结果不够全面，难以及时识别海量新出现的特定词及其变体词，且由于文本中涉及大量错综复杂的词语，容易造成特定词的模糊匹配，导致误识别。

发明内容

本发明针对现有技术存在的不足，提供一种文本中特定内容识别存储方法及系统，解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式，匹配方式不够灵活，结果不够全面，难以及时识别海量新出现的特定词及其变体词，且由于文本中涉及大量错综复杂的词语，容易造成特定词的模糊匹配，导致误识别。

本发明公开一种文本中特定内容识别存储方法。

一种文本中特定内容识别存储方法，包括：

S1、基于已有特定词和特定字生成特定词库和规则库，所述特定词由若干特定字组成；

S2、获取待识别的文本集合，所述待识别的文本集合包含若干文本，每个文本由文本语料数据组成，所述文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等，文本集合中含有一定数量的特定文本，所述特定文本为含有特定词的文本；

S3、基于特定文本数据集提取当前特定文本数据集中的新特定词，得到新特定词集合，从特定词库中筛选出的特定词作为特定文本数据集；

S4、将需要训练的词组输入BERT模型，所述需要训练的词组包括特定词集合和原词集合；

S5、从特定文本中获取疑似新特定词集合，利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，并基于计算结果判定新特定词。

进一步的，所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。

进一步的，所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成；所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。

进一步的，所述多维检测规则包括：若文本中任一特定词的所有特定字中间有分隔符的存在，则将此情况视为当前特定词；若文本中任一特定词的所有特定字以文字或拼音的形式同时存在，则将此情况视为当前特定词。

进一步的，所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取，具体包括：

选取特定词库中各特定词所在的M个文本作为样本，基于M个文本样本计算各特定词的上下文相关度，所述上下文相关度的计算公式为：

其中，G(w)表示特定词W的上下文相关度，w_l表示特定词w的左邻接字，s_l表示特定词w的左邻接字集合，P(w_lw)表示文本样本集中特定词w的左邻接字是w_l的概率，P(w)表示文本样本集中出现特定词w的概率，w_r表示特定词w的右邻接字，s_r表示特定词w的右邻接字集合，P(w_rw)表示文本样本集中特定词w的右邻接字是w_r的概率；

将上下文相关度与词组的位置信息相结合，首先使用句法依赖解析器spacy 将特定文本构造成依赖树，然后基于依赖树构造邻接矩阵：

其中，C为m阶邻接矩阵，i，j∈[1，m]，i≠j，m为词组总数，C 矩阵中的任一元素用C_ij表示，C_ij是指词w_i与词w_j直接的依赖关系。

计算邻接矩阵中每个元素的位置权重：

其中，W_ij表示特定文本中词w_i与词w_j的位置权重，A为特定词集合， h(w_i)表示词w_i的位置，h(w_j)表示词w_j的位置。将原词的上下文相关度与其他词组的位置权重相乘，若结果大于预设的阈值，则当前原词为疑似新特定词。

进一步的，所述疑似新特定词集合基于文本聚类的TF-ICF(术语频率-逆语料库频率)算法提取；所述TF-ICF算法的计算过程为：

其中，ω_uv表示文本u中第v个词的权重，f_uv表示第v个词在文本u 中出现的次数，即术语频率，N是语料库中的文本总数，n_v为第v个词在语料库中出现一次或多次的文本数，即逆语料库频率。根据文本中原词与特定词的距离进行位置加权，所述位置加权由实验获得。将原词的位置加权与权重相乘，若结果大于预设的阈值，则当前原词为疑似新特定词。

本发明还公开一种文本中特定内容识别存储系统，采用如下技术方案：

一种文本中特定内容识别存储系统，包括：

特定词库，用于存储已有的特定词，特定词库与特定词识别模块、BERT 模块通过数据传输的方式连接；

规则库，用于存储特定字，规则库与特定词识别模块通过数据传输的方式连接；

文本获取模块，用于获取待识别的文本集合，文本获取模块与特定词识别模块通过数据传输的方式连接；

特定词识别模块，用于识别特定词，特定词识别模块通过数据传输的方式与新词发现模块连接；

新词发现模块，用于从特定文本数据集中提取新特定词，得到疑似新特定词集合，新词发现模块通过数据传输的方式与BERT模块连接；

BERT模块，用于将需要训练的词组输入BERT模型，输出文本中各个词融合了全文语义信息后的向量表示，BERT模块通过数据传输的方式与新词确认模块连接；

新词确认模块，用于计算特定词库中各特定词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，设定一个阈值，超过阈值的疑似新特定词则判定为新特定词，新词确认模块通过数据传输的方式与特定词库和规则库连接。

进一步的，所述特定词识别模块包括：

分词单元，用于根据特定词库中特定词的字数设立分词步长，利用分词步长对文本进行分词划分，得到原词，分词单元将原词发送给匹配单元；

结构整理单元，用于构建特定词树状结构，将特定词的第一个字或对应的拼音作为树状结构的第一个节点，特定词的第二个字或对应的拼音以及分隔符作为第二个节点，若分隔符为第二个节点，则特定词的第二个字或对应的拼音后移为第三个节点，依次类推，每个特定词对应两个树状结构，分别是以第一个字和对应的拼音作为开始节点，结构整理单元将树状结构发送给匹配单元；

匹配单元，用于计算原词与特定词的相似度，过滤出不含有特定词的文本，得到特定文本；

其中，原词与特定词的相似度计算公式为：

z＝min[d(n_1，i-1，n_2，j)+1，d(n_1，i，n_2，j-1)+1，d(n_1，i-1，n_2，j-1)+c]

其中，sim(w₁，w₂)表示词w₁与词w₂的相似度，n_1，i表示词w₁中第i个字是否存在，若存在为1，不存在为0，n_2，j表示词w₂中第j个字是否存在，max(i，j)表示从i和j中取最大值，n₁表示词w₁的字数，n₂表示词w₂的字数，z是min函数的取值，min是最小值函数，d表示两个字的距离，C为常数。预先设立相似度阈值，若相似度高于相似度阈值，则表明两个词为同一词。从而过滤出不含有特定词的文本，得到特定文本。

综上所述，与现有技术相比，上述技术方案的有益效果是：使用特定词库初筛后的文本数据集可以提高识别效率；使用新词发现方法得到疑似特定词库，优化了分词有一定几率不能正确拆分新特定词的缺陷；使用包含特定词特征的 BERT模型筛选出最可能的新特定词，避免了预构建模式规则的局限；识别结果可对词库和规则库进行扩充优化，便于搜索查看和日后取用，循环迭代地提高识别效果。

附图说明

图1为本发明实施例一种文本中特定内容识别存储方法的整体流程图；

图2为本发明实施例中的特定词树状结构示意图；

图3为本发明实施例一种文本中特定内容识别存储系统结构图。

附图标记说明：10、特定词库；20、规则库；30、文本获取模块；40、特定词识别模块；50、新词发现模块；60、BERT模块；70、新词确认模块。

具体实施方式

以下结合附图1-3对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例公开一种文本中特定内容识别存储系统及识别存储方法。

本发明实施例公开一种文本中特定内容识别存储方法，采用如下技术方案：

一种文本中特定内容识别存储方法，包括：

S1、基于已有特定词和特定字生成特定词库和规则库。

具体的，特定词由若干特定字组成，特定字包含涉政、涉黄等类型。

S2、获取待识别的文本集合。

具体的，待识别的文本集合包含若干文本，每个文本由文本语料数据组成，文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等，文本集合中含有一定数量的特定文本。其中，特定文本为含有特定词的文本，利用特定词识别模块识别文本中是否含有特定词，过滤出不含有特定词的文本，即得到特定文本。

由于文本集合中的文本语料数据数量繁多，为了降低计算复杂度，需要从所有文本集合中选取包含有特定词库中任一特定词的特定文本，将不含有特定词的文本过滤剔除。因此，特定词识别模块需要识别文本中是否含有特定词。

S3、基于特定文本数据集提取当前特定文本数据集中的新特定词，得到新特定词集合。

具体的，初步筛选出包含特定词库10中特定词的文本共计约100万条，作为特定文本数据集。

S4、将需要训练的词组输入BERT模型。

具体的，需要训练的词组包括特定词集合和原词集合，输出文本中各个词融合了全文语义信息后的向量表示。

具体的，新词发现模块在特定文本数据集上使用新词发现方法，获得疑似新特定词集合。

其中，BERT(基于转换器的双向编码表征)模型的计算过程具体如下：

在将词组输入BERT模型之前，首先随机掩盖掉输入序列中的某个词，即用“[MASK]”替换掉原有的Token，然后在BERT的输出结果中取对应掩盖位置上的向量进行真实值预测。

根据序列中其他非掩蔽区域提供的上下文来预测掩蔽词的原始值。在执行过程中，80％的情况下是用[MASK]令牌标记单词，10％的情况下是用随机词替换单词，10％的情况下保持单词不变。预训练过程是无监督的，即语料库可以看作是近乎无限的。在具体实施例中，该步骤使用包含特定词库中特定词的诸如群组中聊天记录语料和论坛中文语料等文本，共计约100万条文本继续训练 BERT，最终得到包含特定词特征的BERT预训练模型。

将词组中各个字的字向量与位置编码输入到BERT模型中：

X_em＝EL(X)+PE

其中，X_em表示模型输入，EL为X的字向量，X为词，PE为位置编码。为了学到多重含义的表达，对X_em做线性映射，即分配三个权重W_Q、W_K、W_V，形成三个矩阵Q、K、V：

Q＝X_emW_Q

K＝X_emW_K

V＝X_emW_V

然后用注意力机制提取多重语意的含义，定义一个超参数h，注意力机制为：

其中，softmax为归一化指数函数，T表示转置，

是注意力矩阵的标准正态分布。

X_em首先进入编码器，由编码器输出到隐藏层，再输入到解码器，输入<start>(起始)符号到解码器；得到第一个字，将得到的第一个字再输入到解码器，得到第二个字，将第二个字再输入解码器，直至解码器输出<end>(终止符)，即生成各个词的向量表示序列。

设定A为已有特定词库中的特定词集合，其中各词表示为 {A₀，A₁，......，A_m}，m为词组的数量，输入BERT中得到的特征向量表示为a，其中各词的特征向量表示为{a₀，a₁，......，a_m}；B为疑似新特定词集合，其中各词表示为{B₀，B₁，......，B_m}，输入BERT中得到的特征向量表示为b，其中各词的特征向量表示为{b₀，b₁，......，b_m}。

新词确认模块分别计算A中各词的特征向量与B中各词的特征向量的余弦相似度sim(A，B)：

其中，||a||表示a的向量长度。得到余弦相似度值的结果列表，相似度值越大，代表相似度越高。将A中的词归类于与其相似度最高的B词下的集合中。例如，A中的词A₀和词A_m都与B中的词B₁相似度最高，则隶属于词B 下。对隶属于B中各词的相似词集合按余弦相似度值进行排序后，设定一个阈值，超过阈值的词则判定为新特定词。将新特定词加入特定词库，并更新规则库。

其中，疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取，具体包括：

其中，G(w)表示特定词w的上下文相关度，w_l表示特定词w的左邻接字，s_l表示特定词w的左邻接字集合，P(w_lw)表示文本样本集中特定词w 的左邻接字是w_l的概率，P(w)表示文本样本集中出现特定词w的概率，w_r表示特定词w的右邻接字，s_r表示特定词w的右邻接字集合，P(w_rw)表示文本样本集中特定词w的右邻接字是W_r的概率；

计算邻接矩阵中每个元素的位置权重：

疑似新特定词集合还可以基于文本聚类的TF-ICF(术语频率-逆语料库频率)算法提取；TF-ICF算法的计算过程为：

其中，ω_uv表示文本u中第v个词的权重，f_uv表示第v个词在文本u中出现的次数，即术语频率，N是语料库中的文本总数，n_v为第v个词在语料库中出现一次或多次的文本数，即逆语料库频率。根据文本中原词与特定词的距离进行位置加权，位置加权由实验获得。将原词的位置加权与权重相乘，若结果大于预设的阈值，则当前原词为疑似新特定词。

使用特定词库10初筛后的文本数据集可以提高识别效率；使用新词发现方法得到疑似特定词库10，优化了分词有一定几率不能正确拆分新特定词的缺陷；使用包含特定词特征的BERT模型筛选出最可能的新特定词，避免了预构建模式规则的局限；识别结果可对词库和规则库20进行扩充优化，便于搜索查看和日后取用，循环迭代地提高识别效果。

其中，新词发现方法包括但不限于上下文相关性算法、TF-ICF方法和位置加权方法，基于TF-IDF的方法、基于Learning-to-Rank的方法等其他新词发现技术皆在本专利的保护范围内。

多维检测规则包括：若文本中任一特定词的所有特定字中间有分隔符的存在，则将此情况视为当前特定词；若文本中任一特定词的所有特定字以文字或拼音的形式同时存在，则将此情况视为当前特定词。

分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成；所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。

本发明实施例还公开一种文本中特定内容识别存储系统。

一种文本中特定内容识别存储系统，包括特定词库10、规则库20、文本获取模块30、特定词识别模块40、新词发现模块50、BERT模块60、新词确认模块70，其中：

特定词库10，用于存储已有的特定词，特定词库10与特定词识别模块 40、BERT模块60通过数据传输的方式连接，特定词包含涉政、涉黄等类型；

规则库20，用于存储特定字利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则，规则库20与特定词识别模块40通过数据传输的方式连接；

文本获取模块30，用于获取待识别的文本集合，文本获取模块30与特定词识别模块40通过数据传输的方式连接；

特定词识别模块40，用于识别特定词，特定词识别模块40通过数据传输的方式与新词发现模块50连接；

新词发现模块50，用于对特定文本数据集采用新词发现方法提取当前特定文本数据集中的新特定词，得到新特定词集合，新词发现模块50通过数据传输的方式与BERT模块60连接；

BERT(基于转换器的双向编码表征)模块60，用于将需要训练的词组输入 BERT模型，输出文本中各个词融合了全文语义信息后的向量表示，BERT模块60通过数据传输的方式与新词确认模块70连接，其中，需要训练的词组包括特定词集合和原词集合；

新词确认模块70，用于计算特定词库10中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，设定一个阈值，超过阈值的疑似新特定词则判定为新特定词，新词确认模块70通过数据传输的方式与特定词库 10和规则库20连接。

特定词识别模块40包括：

其中，原词与特定词的相似度计算公式为：

其中，sim(w₁，w₂)表示词w₁与词w₂的相似度，n_1，i表示词w₁中第 i个字是否存在，若存在为1，不存在为0，n_2，j表示词w₂中第j个字是否存在， max(i，j)表示从i和j中取最大值，n₁表示词w₁的字数，n₂表示词w₂的字数，z是min函数的取值，min是最小值函数，d表示两个字的距离，c 为常数。预先设立相似度阈值，若相似度高于相似度阈值，则表明两个词为同一词。从而过滤出不含有特定词的文本，得到特定文本。

在具体实施例中，初步筛选出包含特定词库中特定词的文本共计约100 万条，作为特定文本数据集。

特定词识别方法具体如下：

分词单元根据特定词库中特定词的字数设立分词步长，利用分词步长对文本进行分词划分，得到原词。

在具体实施例中，若特定词库中的特定词大多为2个字或3个字，则分词步长n分别取2和3；对与文本为“文本中特定内容的识别”可得到包含两个字的原词“文本”、“本中”、“中特”、“特定”、“定内”、“内容”、“容的”、“的识”、“识别”，以及包含三个字的原词“文本中”、“本中特”、“中特定”、“特定内”、“定内容”、“内容的”、“容的识”、“的识别”。

对原词与各特定词进行匹配，确定原词中是否含有特定词。需要注意的是，原词与特定词的匹配计算包括原词与规则库中包含分隔符与拼音形式存在的特定词之间的所有匹配计算。

结构整理单元构建特定词树状结构，将特定词的第一个字或对应的拼音作为树状结构的第一个节点，特定词的第二个字或对应的拼音以及分隔符作为第二个节点，若分隔符为第二个节点，则特定词的第二个字或对应的拼音后移为第三个节点，依次类推，每个特定词对应两个树状结构，分别是以第一个字和对应的拼音作为开始节点。

以特定词“特定”为例，如图2所示。

本发明实施例一种文本中特定内容识别存储系统的实施原理为：使用特定词库初筛后的文本数据集可以提高识别效率；使用新词发现方法得到疑似特定词库，优化了分词有一定几率不能正确拆分新特定词的缺陷；使用包含特定词特征的BERT模型筛选出最可能的新特定词，避免了预构建模式规则的局限；识别结果可对词库和规则库进行扩充优化，便于搜索查看和日后取用，循环迭代地提高识别效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。