CN117236323B

CN117236323B - 一种基于大数据的信息处理方法及系统

Info

Publication number: CN117236323B
Application number: CN202311295025.4A
Authority: CN
Inventors: 陈翔; 张京晶
Original assignee: Jingmin Mathematical Technology Beijing Co ltd
Current assignee: Jingmin Mathematical Technology Beijing Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-03-29
Anticipated expiration: 2043-10-09
Also published as: CN117236323A

Abstract

本申请公开了一种基于大数据的信息处理方法及系统，用于敏感词检测，涉及语言处理技术领域，包括：通过词嵌入技术将输入文本转换为词向量，获得第一词向量序列；计算每个词向量的位置索引和位置编码向量；将第一词向量序列和位置编码向量相加融合，形成包含位置信息的第二词向量序列；构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取，每个编码器包含残差连接层、多头自注意力层、层规范化和前馈全连接层；利用全连接层或softmax层对网络模型输出的文本特征进行分类，以检测输入文本中的敏感词。针对现有技术中敏感内容识别准确率低的问题，本申请通过构建多层Transformer编码器网络结构，使用自适应位置编码方法等，提高了识别准确率。

Description

一种基于大数据的信息处理方法及系统

技术领域

本申请涉及语言处理技术领域，特别涉及一种基于大数据的信息处理方法及系统。

背景技术

随着互联网的迅速发展，大量用户产生的文本信息呈爆炸式增长，给文本内容审核带来了巨大挑战。文本中常常混杂有敏感信息，为了维护网络环境的健康和谐，对文本进行自动化敏感信息检测势在必行。

近年来，预训练语言模型技术取得重大进展，其中Transformer结构凭借多头自注意力机制在语义表示能力上有明显优势。但Transformer中的位置编码方法存在问题，对相邻词向量的位置信息表示不足，无法准确建模文本顺序信息。

在相关技术中，比如中国专利文献CN112329449B中提供了一种基于情感词典和Transformer的情感分析方法，包括以下步骤：构建情感词典；使用情感词典训练词向量；使用训练好的词向量训练基于Transformer的情感分析模型；使用训练好的情感分析模型，对网络购物平台的商品评论文本进行情感分析。但是本申请中，情感分析模型使用的是标准的Transformer编码器结构，而敏感内容识别需要多层次的语义融合，单一的Transformer结构无法获取充分的语义信息，从而导致敏感内容识别准确率有待进一步提高。

发明内容

1.要解决的技术问题

针对现有技术中存在的敏感内容识别准确率低的问题，本申请提供了一种基于大数据的信息处理方法及系统，通过构建多层Transformer编码器网络结构，使用自适应位置编码方法增强词序表示等，提高了对复杂语境中的敏感内容的识别准确率。

2.技术方案

本申请的目的通过以下技术方案实现。

本说明书实施例的一个方面提供一种基于大数据的信息处理方法，用于敏感词检测，包括：步骤一、设置词向量层，通过词嵌入技术将输入文本转换为词向量，获得第一词向量序列；步骤二、设置位置编码层，计算第一词向量序列中每个词向量的位置索引，根据位置索引获取位置编码矩阵中的位置编码向量；步骤三、将第一词向量序列和位置编码向量通过向量相加的方式融合，形成包含位置信息的第二词向量序列；步骤四、构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取，每个编码器包含残差连接层、多头自注意力层、层规范化和前馈全连接层；步骤五、利用全连接层或softmax层对网络模型输出的文本特征进行分类，以检测输入文本中的敏感词。

进一步地，设置位置编码层，计算第一词向量序列中每个词向量的位置索引的步骤包括：定义位置编码矩阵PE，位置编码矩阵的行数为第一词向量序列的最大序列长度，位置编码矩阵的列数为第一词向量序列中词向量的维度；遍历第一词向量序列，为每个词向量生成表示所述词向量在序列中的位置信息的位置索引pos；根据位置索引pos在位置编码矩阵PE中查找并获取位置编码值，将位置编码值填充到矩阵PE中，形成第一位置编码矩阵PE₁；将第一位置编码矩阵PE₁中的位置编码向量与第一词向量序列按元素顺序相加，生成包含位置信息的第二位置编码矩阵PE₂；提取第二位置编码矩阵PE₂中的编码向量作为位置编码向量。

进一步地，根据位置索引pos在位置编码矩阵PE中查找并获取位置编码值，将位置编码值填充到矩阵PE中，形成第一位置编码矩阵PE₁的步骤包括：遍历第一词向量序列，利用基于语境自适应的位置编码方法为每个词向量生成表示所述词向量在序列中位置的位置索引pos；根据位置索引pos和位置编码矩阵PE的行索引i，通过指数函数计算得到当前词向量的位置编码值，计算公式为：

其中，PE表示位置编码矩阵，pos表示词向量位置索引，i表示PE矩阵行索引，dim表示用于调节缩放范围的缩放因子；将计算得到的位置编码值填入位置编码矩阵PE的对应位置PE(pos，i)；重复上述步骤，遍历所有词向量，计算词向量的位置编码值，填充PE矩阵，得到第一位置编码矩阵PE1。

进一步地，缩放因子dim通过如下公式计算：

其中，L为第一词向量序列的长度；k为调节参数，k的取值范围为10至100的整数。

进一步地，通过基于语境自适应的位置编码方法生成位置索引pos的步骤包括：设置位置索引变量的初始值pos₀；顺序遍历第一词向量序列，获得当前词向量x_i；基于上下文信息计算当前词向量x_i与前一词向量x_i-1的语义相似度sim；根据语义相似度sim，自适应确定位置索引增量pos_increment；当语义相似度sim大于阈值T时，pos_increment取正整数N₁；当语义相似度sim小于或等于阈值T时，pos_increment取正整数N₂；利用增量pos_increment更新当前位置索引，生成更新后的位置索引pos_i，pos_i通过如下公式计算：

pos_i＝pos_i-1+pos_increment

重复上述步骤，更新所有词向量的位置索引，生成位置索引pos。

进一步地，正整数N₂的大小为正整数N₁大小的正整数M倍，M的取值范围为2至10的正整数。

进一步地，Transformer编码器由单词级编码器和句子级编码器组成；单词级编码器使用多头自注意力机制对第二词向量序列进行编码，以生成单词级编码；句子级编码器基于单词级编码通过多头自注意力机制进行上下文编码，以生成句子级编码。

进一步地，构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取的步骤包括：构建输入层，输入第二词向量序列X；构建编码层，包含L个编码器，每个编码器包含：构建多头自注意力子层，输入上一编码器的输出向量Z_i-1，进行多头自注意力计算，输出注意力向量A_i；构建残差连接子层，输入注意力向量A_i，添加残差连接，输出B_i；构建规范化子层，输入B_i，利用LayerNorm进行层规范化，输出C_i；构建前馈全连接层，输入C_i，通过四层全连接网络，输出D_i；构建残差连接子层，输入D_i，添加残差连接，输出E_i；构建规范化子层，输入E_i，利用LayerNorm进行规范化，输出编码向量Z_l；构建输出层，输入最后一个编码器的输出向量Z_i，进行分类或回归，得到文本特征。

进一步地，构建前馈全连接层，输入D_i，通过四层全连接网络，输出D_i的步骤包括：构建第一全连接层，输入为D_i，输出节点数为d₁，使用ReLU激活函数；构建第二全连接层，输入为第一全连接层的输出，输出节点数为d₂，使用GELU激活函数；构建第三全连接层，输入为第二全连接层的输出，输出节点数为4*d₂，使用ReLU激活函数；构建第四全连接层，输入为第三全连接层的输出，输出节点数为d₁，使用GELU激活函数；其中，第二全连接层的输出节点数d₂为第一全连接层输出节点数d₁的一半。

本说明书实施例的另一个方面还提供一种基于大数据的信息处理系统，用于敏感词检测，包括：输入模块，将输入文本通过词嵌入技术转换为词向量，获得第一词向量序列；位置编码模块，用于为第一词向量序列中的每个词向量计算位置索引，并根据位置索引在预设的位置编码矩阵中查找位置编码值，将位置编码值与对应词向量相加，形成第二词向量序列；网络模块，包含L个编码器，每个编码器含有残差连接层、多头自注意力层、层规范化层和多层全连接层，用于输入第二词向量序列，抽取文本特征；输出模块，包含分类层，用于输入网络模块输出的文本特征，得到文本分类结果；其中，位置编码模块采用基于词向量语义相似度的自适应方法计算位置索引；网络模块通过多层编码器分层抽取文本特征。

3.有益效果

相比于现有技术，本申请的优点在于：

(1)通过词向量层和自适应位置编码层将文本转换为融合了位置信息的词向量序列；在自适应位置编码方法中，根据当前词向量与前一词向量的语义相似度，动态确定位置索引的增量，以准确反映词序信息，从而提高对敏感词的识别精度；

(2)在每个编码器中使用残差连接、多头自注意力等结构，增强了模型对文本细微信息的学习能力；残差连接允许模型直接学习输入和输出之间的差异，这有助于更好地捕捉文本中的重要信息；多头自注意力机制则有助于更全面地建模词语之间的关联性。这些特性提高了对敏感内容的准确识别能力，即使在复杂的语境下也能实现更高的精度；

(3)多层编码器逐层抽取文本的语义信息，从局部到全局，然后将这些信息进行融合；这种深层抽取和融合使得模型能够更全面地理解文本；前一层的语义信息被逐步传递和融合到后一层，实现了语义信息的层层提取和丰富。这提高了对敏感内容的全面建模，从而进一步提高了识别精度。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的一种基于大数据的信息处理方法的示例性流程图；

图2是根据本说明书一些实施例所示的计算第一词向量位置索引的示例性流程图；

图3是根据本说明书一些实施例所示的提取文本特征的示例性流程图；

图4是根据本说明书一些实施例所示的网络模型的示意图；

图5是根据本说明书的一些实施例所示的一种基于大数据的信息处理系统的示例性模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其他类似情景。除非从语言环境中显而易见或另作说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”“装置”“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

下面结合附图对本说明书实施例提供的方法和系统进行详细说明。

图1是根据本说明书一些实施例所示的一种基于大数据的信息处理方法的示例性流程图，如图1所示，一种基于大数据的信息处理方法，用于敏感词检测，包括：

S110设置词向量层，通过词嵌入技术将输入文本转换为词向量，获得第一词向量序列；输入的文本被转换成词向量，通常使用词嵌入技术，可以使用预训练的词嵌入模型，如Word2Vec、GloVe、FastText，或者更先进的模型如BERT或GPT来实现，这将文本中的每个词转化为一个高维向量。这些向量构成了第一词向量序列。在本申请中，构建词汇表，收集文本语料中出现的所有词，为每个词分配一个唯一的索引作为词汇表中的词项。使用上下文词向量模型Word2Vec-CBOW等，增加上下文关联性建模，设置词向量层，输入层中每个词项映射到预训练词向量矩阵中对应的词向量，对低频词及未登录词，采用字符级词向量表示。输入文本进行词项映射，根据文本中每个词在词汇表中的索引，在词向量矩阵中查找对应的词向量。构成词向量序列，按照文本中的词顺序，将查找到的词向量连接，形成第一个词向量序列作为词嵌入层的输出，词向量的维度设置为512至1024，通过词向量化表示文本语义信息，为后续编码层提供输入。

S120设置位置编码层，计算第一词向量序列中每个词向量的位置索引，根据位置索引获取位置编码矩阵中的位置编码向量；这一步的目标是为第一词向量序列中的每个词向量计算一个位置索引，以表示词向量在序列中的位置信息。这通过计算位置编码矩阵来完成，该矩阵的维度由序列长度和词向量维度决定。位置编码矩阵中的每个位置编码向量与相应的词向量相加，从而生成包含位置信息的第二词向量序列。

S130将第一词向量序列和位置编码向量通过向量相加的方式融合，形成包含位置信息的第二词向量序列；这一步是将第一词向量序列和位置编码向量相加，以生成包含位置信息的第二词向量序列。这一步的目的是将位置信息融入词向量，使模型能够理解词在句子中的相对位置。

S140构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取，每个编码器包含残差连接层、多头自注意力层、层规范化和前馈全连接层；在这一步中，构建了由多层Transformer编码器组成的网络模型。每个编码器包括了以下部分：残差连接层，用于建立前一层和当前层之间的残差连接，以便信息可以跨层传递。多头自注意力层，用于提取词之间的关系，以获取上下文信息。层规范化：用于规范化输出，以稳定训练过程。前馈全连接层，用于进一步提取特征。残差连接层，再次用于建立残差连接，以便信息传递。规范化层，对输出进行规范化。

其中，Transformer编码器由单词级编码器和句子级编码器组成；单词级编码器使用多头自注意力机制对第二词向量序列进行编码，以生成单词级编码；句子级编码器基于单词级编码通过多头自注意力机制进行上下文编码，以生成句子级编码。在构建Transformer编码器时，采用了单词级编码器和句子级编码器的层次结构，以获取文本中的语义信息：单词级编码器，该编码器直接输入带有位置编码的第二词向量序列，通过多头自注意力机制学习单词级语义特征，生成单词级编码表示。句子级编码器，在单词级编码的基础上，进一步通过多头自注意力对上下文语义进行建模，获取句子级语义特征，输出句子级编码。将单词级编码器和句子级编码器叠加使用，形成了分层的编码器结构。下级编码器学习基础语义，上级编码器学习上下文语义。这种分层结构帮助模型更充分地学习文本的语义特征，尤其是长距离依赖关系，增强对文本微妙语义的理解。在复杂语境的敏感内容检测应用中，有利于提高检测准确率，降低错误率。

具体地，在本申请中，单词级编码器：输入，词向量序列{x1，x2，...xn}；采用多头自注意力机制(Multi-HeadSelf-Attention)对词向量序列进行编码；

Multi-HeadSelf-Attention通过并行计算操作获得词向量的多种特征表示；将各头得到的特征表示拼接后接入全连接层进行非线性转换，得到单词级编码表示；输出，单词级编码序列{h1，h2，...hn}。句子级编码器：输入，单词级编码序列{h1，h2，...hn}；采用多头自注意力机制对单词级编码进行ContextEncoding；得到句子级特征表示，融合上下文信息；输出，句子级编码序列{s1，s2，...sn}；综上，本申请通过采用单词级和句子级编码器的分层结构，分别建模单词语义和上下文语义，注入了丰富的语义信息，以增强对文本的理解和处理能力。

S150利用全连接层或softmax层对网络模型输出的文本特征进行分类，以检测输入文本中的敏感词。在这一步，使用全连接层或softmax层对网络模型输出的文本特征进行分类或回归，以检测输入文本中的敏感词。在本申请中，构建分类层，采用全连接层进行分类，输入为网络模型输出的文本特征向量，输出为分类结果。设置分类层节点数，输出节点数与分类类别数一致，本申请中的分类任务为二分类，所以输出节点数设置为2。激活函数选用Softmax，将输出转换为概率分布表示，以输出敏感词的预测概率。采用正则化技术避免过拟合，如L1/L2正则化、EarlyStopping、Dropout等。优化损失函数，使用FocalLoss等对正样本具有关注力的损失函数。

综上所述，利用词向量化保留了词语义信息，为编码层提供丰富输入；位置编码增强了语序信息，提高了语义理解能力；Transformer编码器通过多头注意力机制机制可以学习词间关联，提取上下文特征；多层编码器实现深度网络结构，分层学习语义信息；残差连接解决梯度消失，提高网络训练效率；LayerNormalization增强模型鲁棒性；全连接网络逐步抽取高阶语义特征；Softmax分类器对语义特征进行有效判别。本申请充分融合了词向量表征、深度网络建模和注意力机制，可以学习文本的语义和结构信息，全面表示文本特征，提升对语义的理解能力，增强对敏感内容的判别力。最终明显提高了模型对敏感词的识别准确率。

图2是根据本说明书一些实施例所示的计算第一词向量位置索引的示例性流程图，在自然语言处理任务中，对于词语的位置信息进行准确的编码对于处理复杂语境中的敏感内容识别具有重要意义。本技术方案旨在提供一种基于位置编码层的位置索引计算方法，能够提高对复杂语境中的敏感内容的识别准确率。如图2所示，设置位置编码层，计算第一词向量序列中每个词向量的位置索引的步骤包括：

S121定义位置编码矩阵PE，位置编码矩阵的行数为第一词向量序列的最大序列长度，位置编码矩阵的列数为第一词向量序列中词向量的维度；其中，位置编码矩阵PE用于为输入的第一词向量序列添加位置信息，生成第二词向量序列，以输入到网络模型中；位置编码矩阵的行数设置为第一词向量序列的最大序列长度L。该设计可以保证矩阵PE中的位置编码向量能够对应第一词向量序列中的每个词向量。矩阵的列数设置为第一词向量序列中每个词向量的维度d；这样可以使得位置编码向量与词向量拥有相同的维度，便于两者相加操作。矩阵PE的每个元素PE(pos，i)表示词向量序列中第pos个词向量的第i个维度的位置编码值。通过位置索引pos查找矩阵PE中对应词向量的编码向量，与词向量按元素逐一相加，即可将位置信息嵌入到词向量中，得到第二词向量序列。矩阵结构合理，为词向量提供了位置信息，增强了对语境的感知能力，有利于提高对复杂语境中的敏感内容识别的准确率。

S122遍历第一词向量序列，为每个词向量生成表示所述词向量在序列中的位置信息的位置索引pos；其中，设置位置索引变量的初始值pos₀，设置位置索引初始值pos₀＝0；顺序遍历第一词向量序列，获得当前词向量xi；具体地，定义词向量序列为{x1，x2，...，xn}，其中n为序列词向量数量，设置当前词向量索引i＝1，从索引i＝1开始，按照词向量在序列中的顺序，逐一取出词向量，即依次取出x1，x2，...，xn。每取出一个词向量，则将索引i进行+1更新，以便取出下一个词向量，在遍历过程中，变量xi表示当前遍历到的词向量。

基于上下文信息计算当前词向量xi与前一词向量xi-1的语义相似度sim；其中，使用预训练的词向量模型(如Word2Vec、GloVe、FastText)或深度学习模型(如BERT、GPT)来获取每个词汇的向量表示，在本申请中，计算语义相似度sim可以为：余弦相似度，测量了两个向量之间的夹角余弦值，值范围从-1(完全不相似)到1(完全相似)；欧氏距离衡量了两个向量之间的距离，值越小表示相似度越高。Pearson相关系数：衡量两个向量之间的线性相关性。它的取值范围在-1到1之间，其中-1表示完全负相关，1表示完全正相关，0表示没有线性相关性。Jaccard相似度：主要应用于集合之间的相似度计算。对于词向量来说，可以将每个词向量视为表示词汇的特征集合，然后计算两个词向量之间的Jaccard相似度。曼哈顿距离：计算两个词向量之间的距离，通过对每个维度上的差值进行绝对值求和。较小的曼哈顿距离表示两个向量之间的语义相似度较高。

根据语义相似度sim，自适应确定位置索引增量pos_increment；当语义发生较大变化时(sim较大)，增量pos_increment需要取较大值，位置索引变化趋势保持一致。当语义相对稳定时(sim较小)，增量pos_increment取较小值，位置索引的变化放缓。通过这种自适应调整，位置索引的变化能够匹配语义的变化趋势。这种自适应方法使位置编码更贴合复杂语义，增强对语境的建模，有利于提高敏感内容识别的准确率。

具体地，当语义相似度sim大于阈值T时，pos_increment取正整数N₁；当语义相似度sim小于或等于阈值T时，pos_increment取正整数N2；具体地，正整数N2的大小为正整数N₁大小的正整数M倍，M的取值范围为2至10的正整数。根据词向量语义相似度的高低，采用不同的位置索引增量pos_increment。当相似度高时，增量较大，位置索引变化快；相似度低时，增量较小，位置索引变化相对缓慢。N₁与N₂分别表示语义相似度高低时的位置索引增量。N₂>N₁可以表示词义相近时位置变化快，不相近时变化较慢。M值决定了N₂和N₁的具体倍数关系，M越大，N₂对N₁的“放缓程度”越高。M的可调范围为2-10，兼顾了灵活性。有利于动态调节位置编码随语义变化的敏感程度，提高对复杂语境的适应性，从而提高敏感内容识别的准确率。

对当前词向量，根据公式pos_i＝pos_i-1+pos_increment来更新位置索引，得到pos_i。重复上述步骤，更新所有词向量的位置索引，生成位置索引pos。该更新方式可以动态调整位置索引的变化程度，有利于生成更符合语义的位置编码，提高对复杂语境的识别准确率。

S123根据位置索引pos和位置编码矩阵PE的行索引i，通过指数函数计算得到当前词向量的位置编码值，计算公式为：其中，PE表示位置编码矩阵，pos表示词向量位置索引，i表示PE矩阵行索引，dim表示用于调节缩放范围的缩放因子；其中，公式基于pos和i计算，编码值能充分反映词向量在序列中的位置信息，相邻词向量的pos仅差1，但经指数函数计算后编码值差异会放大，有利于模型区分位置；指数函数能够放大位置索引pos和行索引i的差异，使编码值对位置变化更为敏感；dim的设置调节指数函数值的缩放范围，控制编码值大小，增加灵活性；本申请能够增强对位置信息的建模，从而提高对复杂语境的理解和对敏感内容的识别准确率。

具体地，缩放因子dim通过如下公式计算：其中，L为第一词向量序列的长度；k为调节参数，k的取值范围为10至100的整数。更具体地，log(L)和/>可平滑dim的增长，避免增长过快；缩放因子dim用于调节位置编码值的数值范围，控制梯度，避免梯度消失或爆炸；dim考虑了序列长度L的影响，随着L的增长而增大，可自适应调整；k的不同取值导致dim产生不同的缩放效果，增加调控灵活性；k取值范围10-100，如果k过大(>100)会导致位置编码对词向量影响过度，如果k过小(<10)会使位置编码效果不明显。取值范围10-100可以足够突出不同位置的编码值差异，利于模型区分位置。将计算得到的位置编码值填入位置编码矩阵PE的对应位置PE(pos，i)；重复上述步骤，遍历所有词向量，计算词向量的位置编码值，填充PE矩阵，得到第一位置编码矩阵PE1。

S124将第一位置编码矩阵PE1中的位置编码向量与第一词向量序列按元素顺序相加，生成包含位置信息的第二位置编码矩阵PE₂；在本申请中，按元素顺序，将中的第i个位置编码向量，与第一词向量序列中第i个词向量xi，进行逐元素相加。得到第二位置编码矩阵PE₂，与PE₁大小一致；PE₂集成了词向量自身语义信息，以及对应位置编码信息；保证两矩阵行列对齐，语序信息与语义信息精准融合；词向量吸收位置信息，获得位置意识，增强对语序的感知，有利于Transformer等模型学习语序规律，提高语义建模能力；PE₂输入到编码器中，可提高Transformer对长语序的处理能力，在复杂语境中提高敏感内容检测的准确率。

S125提取第二位置编码矩阵PE₂中的编码向量作为位置编码向量。

综上所述，设置位置编码矩阵，行列设计合理，为词向量准确添加位置信息；采用自适应位置索引计算方法，位置索引变化符合语义变化趋势；指数函数编码方案，生成对位置变化敏感的位置编码；引入缩放因子，控制位置编码值范围，增加灵活性；位置编码矩阵与词向量序列精准对齐并融合；最终得到集成了位置信息的词向量序列作为模型输入；整体流程无需人工设计特征，端到端高效；本申请通过自适应指数函数位置编码，生成高质量的位置意识词向量序列，增强了对语序信息的建模和利用。这大大提升了基于Transformer等模型对长序列语义的理解能力，增强了对复杂语境和语序变化的适应力，从而显著提高了对文本中敏感内容的识别准确率。

图3是根据本说明书一些实施例所示的网络模型的示意图，如图3所示，构建的网络模型包括输入层、编码层和输出层；编码层包含多头注意力子层、残差连接子层、规范化子层和多个全连接层。

其中，该网络模型用于文本特征提取和分类，可实现对文本中敏感内容的检测。网络组成包括：输入层将文本转换成词向量，经过编码层特征提取，输出层直接实现分类，实现了端到端的文本分类；编码层通过多层Transformer编码器，逐层抽取文本的语义特征，分级表示文本信息，自注意力机制能够关联词向量之间的内在关系，融合上下文语义信息；残差连接能够避免深度网络中的梯度消失问题，保证梯度的顺畅传播；层规范化LayerNorm层能够规范化激活输出，增强模型数值稳定性，提高训练效果；全连接层提取文本的高阶非线性语义特征，融合词义和上下文信息；输出层，包含分类层，对文本向量进行分类。

其中，编码层结构包含：多头自注意力子层，采用自注意力机制学习词向量的内在关联；残差连接子层，跳过连接，避免深度网络的性能退化；规范化子层，利用LayerNorm层进行规范化激活函数；全连接层，多层全连接网络抽取高级语义信息。

具体的，构建第一全连接层，输入为Cl，输出节点数为d₁，使用ReLU激活函数；构建第二全连接层，输入为第一全连接层的输出，输出节点数为d₂，使用GELU激活函数；构建第三全连接层，输入为第二全连接层的输出，输出节点数为4*d₂，使用ReLU激活函数；构建第四全连接层，输入为第三全连接层的输出，输出节点数为d₁，使用GELU激活函数；在本申请中，第一层输入为编码器规范化层输出，输出节点数d₁设置为编码器隐层大小的a倍，a取2-6之间的整数，例如编码器大小512，本申请的最优实施例取a＝4，则d₁＝512*4＝2048。将d₁与编码器大小挂钩，可以根据具体的编码器调整节点数量，实现灵活适配。a的取值范围2-6提供了一个合理的缩放区间，既防止节点数过小导致的信息损失，也避免过大导致的计算成本增大。可根据实际需要在2-6范围内选择a，实现可调的降维比例。整体上实现了根据输入动态调整节点数量的效果，提高了模块的适用性。既保证了特征维度，又实现了适度的降维，有利于提取抽象语义。这种参数设定方式充分结合了编码器大小，实现了灵活高效的降维，使得前馈网络能够输出高质量的语义特征。

第二全连接层的输出节点数d₂为第一全连接层输出节点数d₁的一半，d₂＝0.5*d₁，该设置可以压缩网络中间层的节点数，实现降维的效果，减少参数量，防止过拟合，降维可以过滤掉冗余语义信息，提炼有效语义特征。本申请通过“扩-缩-扩”的节点设置，增强了网络的非线性表达能力；第一层扩张收集语义信息，第二层压缩提炼特征，第三层再次扩张学习抽象语义；压缩比例为一半可以适度缩减节点数，避免信息损失；该设置既保证了语义特征的数量，又提升了特征表达的质量；提取的语义特征更加抽象和高级，利于文本理解；这种节点设置方法可以实现自动降维提炼语义信息的效果，使文本特征表达更加抽象和高效。

更具体地，第二全连接层的输出节点数d₂为第一全连接层输出节点数d₁的一半。第一层输出节点数d₁确定了初始语义特征空间的维度。第二层节点缩小为d₁的一半，使用GELU函数提炼关键语义。第三层节点扩大4倍，增加特征表达，然后ReLU引入非线性。第四层节点数恢复为d₁，使用GELU提炼精确语义。通过这种逐步升维、降维和非线性转换，可以学习语义的高级抽象。ReLU提供非线性，GELU使特征分布更连续平滑。这种结构设计提高了对语义信息的建模与理解。在处理复杂语义理解任务时，可以提高判断的准确率。

综上所述，通过构建四层全连接层的网络结构，并逐步减小中间层节点数，可以压缩特征维度的同时提升特征表达能力，实现语义特征的降维抽取。另外，在相邻全连接层之间使用不同的激活函数，增加网络的非线性拟合能力。这种设计可以提取文本的高级语义特征，为后续的文本分类或其他自然语言处理任务提供语义支持，从而提高模型的处理性能，从而提高检测准确率。

图4是根据本说明书一些实施例所示的提取文本特征的示例性流程图，如图4所示，构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取的步骤包括：

S141构建输入层：输入层接受第二词向量序列X作为输入。这个序列是通过预处理和词嵌入步骤得到的。

S142构建编码层：编码层包含L个编码器，每个编码器用于逐层抽取文本的语义特征。每个编码器包含以下子层：多头自注意力子层：输入该编码器的输出向量Z(l-1)，执行多头自注意力计算，产生注意力向量A_i。多头自注意力允许模型捕捉输入序列中词汇之间的关系；残差连接子层：将注意力向量Al与输入向量相加，形成残差连接，输出Bl。这有助于防止梯度消失问题，并保持信息流畅通；规范化子层：对输出B_i进行规范化，使用LayerNorm进行层规范化，得到规范化的向量C_i。这有助于提高训练的稳定性；前馈全连接层：将规范化的向量C_i输入到一个四层全连接网络中，依次通过四个全连接层。这四个全连接层依次是：第一全连接层：输入C_i，输出节点数为d₁，使用ReLU激活函数。第二全连接层：输入为第一全连接层的输出，输出节点数为d₂，使用GELU激活函数。第三全连接层：输入为第二全连接层的输出，输出节点数为4*d₂，使用ReLU激活函数。第四全连接层：输入为第三全连接层的输出，输出节点数为d₁，使用GELU激活函数。其中，第二全连接层的输出节点数d2为第一全连接层输出节点数d1的一半。

构建残差连接子层：输入D_i，执行残差连接，将其与前面的全连接层的输出相加，得到El。

构建规范化子层：对输出E_i进行规范化，使用LayerNorm进行规范化，得到编码向量Z_i。

S143构建输出层：输入最后一个编码器的输出向量Z_i，将其输入到输出层进行分类或回归操作，以获得文本特征。输出层通常包括全连接层和适当的激活函数，用于生成最终的文本特征。

其中，多层Transformer编码器架构：利用多个编码器层的堆叠，可以提取文本的深层语义特征，对于提高敏感词识别准确率很有效。多头自注意力机制：可以从不同的子空间学习文本的内在关联，比单头注意力更具表达力，可以学习到更丰富的语义信息。残差连接：缓解梯度消失问题，有利于梯度传播到模型底层，并防止过拟合。

LayerNormalization：可以加速模型收敛，并增强模型对数据分布变化的适应性。深层全连接层：进一步提取文本的高级语义特征，为敏感词识别提供更abundant的特征表示。

综上，通过构建多层TransformerEncoder结构，模型可以充分学习语义特征之间的全局依赖关系，挖掘文本的内在关联，增强对文本细微情感的理解能力。同时，残差连接和层规范化提高了模型训练的稳定性和鲁棒性。综上，该结构可以提取表达能力强的文本特征，从而提高下游敏感内容检测任务的准确率。

在本申请的具体实施例中，词向量层：词向量维度设置为512，通过BERT预训练模型初始化；位置编码：最大序列长度为100，词向量维度512，位置编码矩阵大小为(100，512)，按公式生成；编码器层数L＝6，单词级编码器与句子级编码器各3层；多头自注意力：每层编码器设置头数为8；全连接网络：第一层节点数512，第二层节点256，第三层2048，第四层512；激活函数,第一和第三层ReLU，第二和第四层GELU；分类层：全连接层256个节点，Softmax输出层2个节点；训练超参数,优化器Adam，学习率2e-5，批大小32，迭代轮数20；数据集,120万训练样本，20万验证样本，60万测试样本；通过本申请的模型搭建，Attention机制与深度网络相结合，词向量表征与位置编码的融合，并采用合理的训练策略，能够充分学习文本语义特征，从而显著提升了敏感词检测任务的效果。

图5是根据本说明书的一些实施例所示的一种基于大数据的信息处理系统的示例性模块图，如图5所示，一种基于大数据的信息处理系统200，用于敏感词检测，包括：

210输入模块：利用词嵌入技术将输入文本转换为第一词向量序列；220位置编码模块：基于词向量语义相似度的自适应方法计算第一词向量序列中每个词向量的位置索引，并在预设的位置编码矩阵中查找对应位置编码值，将位置编码值与词向量相加形成第二词向量序列；230网络模块：包含L个编码器层，每个编码器层由残差连接层、多头自注意力层、层规范化层和全连接层组成，输入第二词向量序列，通过编码器层堆叠的方式分层提取文本特征；240输出模块：含分类层，输入网络模块输出的文本特征，完成对文本的敏感词检测分类。

本系统通过词向量化、自适应位置编码、多层Transformer编码器以及多头自注意力机制，实现对文本语义的深层建模和高质量特征的提取，增强对文本细微情感的理解能力，从而提高了敏感词检测的准确率。编码器层的堆叠方式可分层学习语义特征，增强模型的表达能力。残差连接及层规范化提升模型的训练效率和鲁棒性。提高了敏感词检测的准确率。

Claims

1.一种基于大数据的信息处理方法，用于敏感词检测，包括：

步骤一、设置词向量层，通过词嵌入技术将输入文本转换为词向量，获得第一词向量序列；

步骤二、设置位置编码层，计算第一词向量序列中每个词向量的位置索引，根据位置索引获取位置编码矩阵中的位置编码向量；

步骤三、将第一词向量序列和位置编码向量通过向量相加的方式融合，形成包含位置信息的第二词向量序列；

步骤四、构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取，每个编码器包含残差连接层、多头自注意力层、层规范化和前馈全连接层；

步骤五、利用全连接层或softmax层对网络模型输出的文本特征进行分类，以检测输入文本中的敏感词；

设置位置编码层，计算第一词向量序列中每个词向量的位置索引的步骤包括：

定义位置编码矩阵PE，位置编码矩阵的行数为第一词向量序列的最大序列长度，位置编码矩阵的列数为第一词向量序列中词向量的维度；

遍历第一词向量序列，为每个词向量生成表示所述词向量在序列中的位置信息的位置索引pos；

根据位置索引pos在位置编码矩阵PE中查找并获取位置编码值，将位置编码值填充到矩阵PE中，形成第一位置编码矩阵PE₁；

将第一位置编码矩阵PE₁中的位置编码向量与第一词向量序列按元素顺序相加，生成包含位置信息的第二位置编码矩阵PE₂；

提取第二位置编码矩阵PE₂中的编码向量作为位置编码向量；

根据位置索引pos在位置编码矩阵PE中查找并获取位置编码值，将位置编码值填充到矩阵PE中，形成第一位置编码矩阵PE₁的步骤包括：

遍历第一词向量序列，利用基于语境自适应的位置编码方法为每个词向量生成表示所述词向量在序列中位置的位置索引pos；

根据位置索引pos和位置编码矩阵PE的行索引i，通过指数函数计算得到当前词向量的位置编码值，计算公式为：

其中，PE表示位置编码矩阵，pos表示词向量位置索引，i表示PE矩阵行索引，dim表示用于调节缩放范围的缩放因子；

将计算得到的位置编码值填入位置编码矩阵PE的对应位置PE(pos,i)；

重复上述步骤，遍历所有词向量，计算词向量的位置编码值，填充PE矩阵，得到第一位置编码矩阵PE1；

构建由多层Transformer编码器组成的网络模型，输入第二词向量序列进行文本特征提取的步骤包括：

构建输入层，输入第二词向量序列X；

构建编码层，包含L个编码器，每个编码器包含：

构建多头自注意力子层，输入上一编码器的输出向量Z_i-1，进行多头自注意力计算，输出注意力向量A_i；

构建残差连接子层，输入注意力向量A_i，添加残差连接，输出B_i；

构建规范化子层，输入B_i，利用LayerNorm进行层规范化，输出C_i；

构建前馈全连接层，输入C_i，通过四层全连接网络，输出D_i；

构建残差连接子层，输入D_i，添加残差连接，输出E_i；

构建规范化子层，输入E_i，利用LayerNorm进行规范化，输出编码向量Z_l；

构建输出层，输入最后一个编码器的输出向量Z_i，进行分类或回归，得到文本特征；

构建前馈全连接层，输入D_i，通过四层全连接网络，输出D_i的步骤包括：

构建第一全连接层，输入为D_i，输出节点数为d₁，使用ReLU激活函数；

构建第二全连接层，输入为第一全连接层的输出，输出节点数为d₂，使用GELU激活函数；

构建第三全连接层，输入为第二全连接层的输出，输出节点数为4*d₂，使用ReLU激活函数；

构建第四全连接层，输入为第三全连接层的输出，输出节点数为d₁，使用GELU激活函数；

其中，第二全连接层的输出节点数d₂为第一全连接层输出节点数d₁的一半。

2.根据权利要求1所述的基于大数据的信息处理方法，其特征在于：

缩放因子dim通过如下公式计算：

3.根据权利要求1所述的基于大数据的信息处理方法，其特征在于：

通过基于语境自适应的位置编码方法生成位置索引pos的步骤包括：

设置位置索引变量的初始值pos₀；

顺序遍历第一词向量序列，获得当前词向量x_i；

基于上下文信息计算当前词向量x_i与前一词向量x_i-1的语义相似度sim；

根据语义相似度sim，自适应确定位置索引增量pos_increment；

当语义相似度sim大于阈值T时，pos_increment取正整数N₁；

当语义相似度sim小于或等于阈值T时，pos_increment取正整数N₂；

利用增量pos_increment更新当前位置索引，生成更新后的位置索引pos_i，pos_i通过如下公式计算：

pos_i＝pos_i-1+pos_increment

4.根据权利要求3所述的基于大数据的信息处理方法，其特征在于：

正整数N₂的大小为正整数N₁大小的正整数M倍，M的取值范围为2至10的正整数。

5.根据权利要求1所述的基于大数据的信息处理方法，其特征在于：

Transformer编码器由单词级编码器和句子级编码器组成；

单词级编码器使用多头自注意力机制对第二词向量序列进行编码，以生成单词级编码；

句子级编码器基于单词级编码通过多头自注意力机制进行上下文编码，以生成句子级编码。

6.一种基于大数据的信息处理系统，用于敏感词检测，包括：

输入模块，将输入文本通过词嵌入技术转换为词向量，获得第一词向量序列；

位置编码模块，用于为第一词向量序列中的每个词向量计算位置索引，并根据位置索引在预设的位置编码矩阵中查找位置编码值，将位置编码值与对应词向量相加，形成第二词向量序列；

网络模块，包含L个编码器，每个编码器含有残差连接层、多头自注意力层、层规范化层和多层全连接层，用于输入第二词向量序列，抽取文本特征；

输出模块，包含分类层，用于输入网络模块输出的文本特征，得到文本分类结果；

其中，位置编码模块采用基于词向量语义相似度的自适应方法计算位置索引；

网络模块通过多层编码器分层抽取文本特征。