CN110019795A

CN110019795A - 敏感词检测模型的训练方法和系统

Info

Publication number: CN110019795A
Application number: CN201711096041.5A
Authority: CN
Inventors: 张鹏; 张春荣
Original assignee: Putian Information Technology Co Ltd
Current assignee: Putian Information Technology Co Ltd
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-07-16
Anticipated expiration: 2037-11-09
Also published as: CN110019795B

Abstract

本发明提供一种敏感词检测模型的训练方法和系统，该方法包括：步骤A‑1：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，更新模型当前参数；步骤A‑2：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本的字体差异，更新模型的当前参数。本发明提供的敏感词检测模型训练方法和系统，可以得到性能更好的敏感词检测模型，相比于传统DFA算法，对敏感词的检测不受敏感词词库限制，对异性字具备一定的检测能力。

Description

敏感词检测模型的训练方法和系统

技术领域

本发明涉及人工智能领域，特别涉及一种敏感词检测模型的训练方法和系统。

背景技术

敏感词检测是现代网络监控的必要功能。如何设计一个准确率高、鲁棒性强的过滤算法是实现有效监控的必要条件。传统敏感词算法大多基于已有敏感词库，通过查找辞典来判断语句中是否包含敏感词。

在传统算法中，应用最广的应属于确定有穷自动机DFA(Deterministic FiniteAutomaton)算法，其特征为：如图1所示，有一个有限状态集合和一些从一个状态通向另一个状态的边，每条边上标记有一个符号，其中一个状态是初态，某些状态是终态。

将图1的抽象概念转化为下述具体结构来说明算法实现。如图2所示，通过S查找U、V，通过U查找V、P，通过V查找U、P。通过这样的转变，可以将状态的转变为使用集合的查找。

假设词库中存在敏感词：日本人、日本士兵、王发达。那么需要构建一个什么样的结构呢？

首先：查询“日”→{本}、查询“本”→{人、士兵}、查询“人”→{null}、查询“士”→{兵}。结构如图3所示。进一步拓展，还可以得到图4的查询结构。

如此，可以将敏感词库构建成了一棵一棵树，判断一个词是否为敏感词时就大大减少了检索的匹配范围。比如要判断日本人，根据第一个字确认要检索的那棵树，然后在这个树中进行检索。而后通过标识位来判断一个敏感词是否结束。

但是，DFA算法严重依赖于现有敏感词库，对于库中不存在或含有干扰的词则需要结合其他办法来检索甚至无能为力，如词库中有“我爱你”，而为避免被屏蔽而使用“莪愛愛”时则毫无办法，而这恰恰是如今的网络流行词/语变化、演变的流行方案。

发明内容

本发明提供了一种敏感词检测模型的训练方法和系统，通过本发明训练方法得到的敏感词检测模型不受敏感词词库限制，对异性字具备一定的检测能力。

本发明提供一种敏感词检测模型的训练方法，其中敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，BLSTM模型包括第一 BLSTM模型和第二BLSTM模型，训练方法还包含卷积神经网络CNN模型；

训练方法包括以下步骤：

步骤A-1：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF 模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一 BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数；

步骤A-2：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数；

步骤A-2结束后，返回步骤A-1，直至迭代程序结束。

本发明还包括一种敏感词检测模型的训练方法，其中敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，BLSTM模型包括第一BLSTM模型和第二BLSTM模型，训练方法还包含卷积神经网络CNN模型和N个训练语料库，n为训练语料库标号，n＝1,2,…,N；

训练方法包括：

步骤B-1：迭代步骤B-2，直至N个训练语料库均输入完毕后，执行步骤 B-3；

步骤B-3：迭代步骤B-4，直至N个训练语料库均输入完毕后，返回步骤 B-1，直至迭代程序结束；

步骤B-2：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一BLSTM模型和第二BLSTMⁿ模型，将第一BLSTM模型和第二BLSTMⁿ模型的输出输入 CRFⁿ模型，CRFⁿ模型输出输入文本的敏感词识别结果；基于CRFⁿ的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

步骤B-4：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库n的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN 模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

本发明还提供一种敏感词检测模型的训练系统，其中敏感词检测模型训练系统，包括系统包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块；

敏感词检测模型：包含双向长短记忆性网络BLSTM模型和条件随机场CRF 模型，BLSTM模型包括第一BLSTM模型和第二BLSTM模型；

训练控制模块包括：迭代第一训练模块和第二训练模块，直至迭代程序结束；

第一训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF 模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一 BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数；

第二训练模块：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN 模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数；

第二训练模块结束后，返回第一训练模块。

本发明还包括一种敏感词检测模型的训练系统，包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块；

训练控制模块包括：基于N个训练语料库迭代执行第一多语料库训练模块和第二多语料库训练模块，直至迭代程序结束，其中n为训练语料库标号，n＝1, 2,…,N；

第一多语料库训练模块：迭代第一语料库训练模块，直至N个训练语料库均输入完毕后，执行第二多语料库训练模块；

第二多语料库训练模块：迭代第二语料库训练模块，直至N个训练语料库均输入完毕后，返回第一多语料库训练模块；

第一语料库训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM 模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一BLSTM模型和第二BLSTMⁿ模型，将第一BLSTM模型和第二BLSTMⁿ模型的输出输入CRFⁿ模型，CRFⁿ模型输出输入文本的敏感词识别结果；基于CRFⁿ的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

第二语料库训练模块：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库n的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN 模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

本发明的训练方法和训练系统，创新性地引入CNN网络，以促进训练得到性能更好的敏感词检测模型，相比于传统DFA算法，通过本发明训练方法得到的敏感词检测模型不受敏感词词库限制，对异性字具备一定的检测能力。

附图说明

图1为DFA算法示意图；

图2为图1的第一示例；

图3为图1的第二示例；

图4为图1的第三示例；

图5为单LSTM模型网络结构图；

图6本发明敏感词检测模型的训练方法的第一实施例结构图；

图7本发明敏感词检测模型的训练方法的第一实施例流程图；

图8本发明敏感词检测模型的训练方法的第二实施例流程图；

图9本发明敏感词检测模型的训练方法的第二实施例结构图；

图10本发明敏感词检测模型的训练系统的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象，而不必用于描述特定的顺序和先后次序。应该理解，这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

在词性标注领域，人工神经网络用于词性输入是文本输入所对应的识别结果。人工神经网络通过学习在输入模型和输出模式之间产生映射，并输出指示该映射的学习结果。基于学习结果，人工神经网络产生针对有待用于学习的输入模型的输出。

本发明的敏感词检测模型：包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，BLSTM模型包括第一BLSTM模型和第二BLSTM模型。对敏感词检测模型的训练方法还包括CNN模型。以下是对3个模型的介绍：

卷积神经网络CNN模型，通常被用来做特征提取工作，该模型的卷积部分主要包含输入层、卷积层、池化(Pool)层、以及输出层。

输入层可以是初始的数据，也可以是特征图。而卷积层则包含一个可学习的卷积核与激活函数。输入信息与卷积核进行卷积运算，而后将卷积结果输入激活函数，输出特征图，因此该层也叫特征提取层。池化层将输入信号分割成不重叠的区域，对每个区域进行池化运算。池化运算常用为最大值池化和均值池化。该运算可以用来消除信号的偏移和扭曲。CNN模型通常采用多重卷积层与池化层交替的深度网络结构。CNN模型的全连接层将多层卷积池化运算后的多组特征依次组合为一组信号。并得到基于输入的标签概率分布，从而提取语词的内部信息，生成基于字的特征表示。

双向长短期记忆网络BLSTM模型，不同于LSTM网络，BLSTM模型有两个方向相反的平行LSTM层，它们具有相同的结构，只是读取文本的顺序不同。单LSTM网络结构图5所示。

BLSTM模型的记忆单元主要包含三种门单元，sigmoid输入门可以决定输入值是否可以累加到当前状态。状态单元具有线性自循环，它的权重由遗忘门控制。细胞的输出可以被输出门关闭。

各个门的更新公式总结为：

i_t＝σ(W_ih_t-1+U_iα_t+b_i)

f_t＝σ(W_fh_t-1+U_fα_t+b_f)

o_t＝σ(W_oh_t-1+U_oα_t+b_o)

h_t＝o_t*tanh(c_t)

其中σ表示sigmoid激活函数，α_t为t时刻的输入向量，h_t代表隐藏状态，U_i， U_f，U₍，U_o分别为x_i不同的权值矩阵。而W_i，W_f，W₍，W_o为h_t的不同门的权值矩阵，b_i，b_f，b_c，b_o为各门偏置，i_t，f_t，c_t，o_t则分别代表输入门、遗忘门、记忆单元和输出门。

BLSTM的输出为：

y_t＝[h_tt,h_bt]

最终BLSTM模型的全连接层为输出层。

CRF作为词性标签的输出。令x＝{x₁,…,x_n}表示输入序列，x_i表示输入序列中第i个词的向量。y＝{y₁,…,y_n}表示输出序列的词性标签，y表示x的序列标签集合。CRF定义了一系列的条件概率p(y|z；W,b)：

其中，为势函数，W和b为权重和偏置向量。

在神经网络模型的训练中，除了需要确定训练方法外，构建训练语料库也至关重要。本发明涉及的训练语料库包括以下几种：

(1)基本训练语料库，以现有已分字和包含敏感词的简体标注语料库作为基本训练语料库，记为X_正。

格式为：“你/S_N是/S_N日/B_Y本/I_Y人/E_Y”(简体)

其中S表示独立词，B表示词开始，I表示词中间，E表示词结束，N表示非敏感词，Y表示敏感词，其组合S_N表示非敏感独立词，B_Y表示敏感词开始，I_Y表示敏感词中间，E_Y表示敏感词结束。

(2)繁体训练语料库，基于现有已分字和包含敏感词的简体标注语料库，采用已研制的汉字简繁文本智能转换系统将语料库中汉字转换为繁体字，则获得繁体字标注语料库，记为X_繁。

(3)混合训练语料库，将简体及繁体字的标注语料库中的敏感词提取出来分别组成简体、繁体敏感词词典。使用繁体字网提供的火星文转换器将简体字及繁体字词典转换为对应的火星文词典。再使用词典去替换对应的简、繁体字语料库中的敏感词，获得简体字(繁体字)为主，含有简体字(繁体字) 转换得到火星文敏感词的语料库，如

“你/S_N是/S_Nㄖ/B_Y夲/I_Y囚/E_Y”(简体+火星文)

“妳/S_N是/S_Nㄖ/B_Y夲/I_Y囚/E_Y”(繁体+火星文)

其中，简体正常词和简体敏感词转换的火星文组成的混合语料库记为X_正&火；繁体正常词和繁体敏感词转换的火星文组成的混合语料库记为X_繁&火。

下面根据选用的训练语料库的差异给出两个敏感词检测模型的训练方法的实施例。

实施例一

图6为基于单一训练语料库的敏感词检测模型训练方法。如图6所示敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型， BLSTM模型包括第一BLSTM模型和第二BLSTM模型。此外，模型训练方法还引入含卷积神经网络CNN模型。

该训练方法如图7所示，基于训练语料如图6所示的X_正&火，迭代执行步骤 A-1和A-2，直至迭代程序结束：

步骤A-1(S101)：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM 模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入 CRF模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数；

步骤A-2(S102)：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型， CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数；

在图6中“①”的标记为“步骤A-1”；“②”的标记为“步骤A-2”。

在图7中，总损失函数为L_total，优先设置如下：

其中：

m表示训练语料库，N_m为训练语料库m输入模型的样本数据的句子总数，和表示训练语料库m中的第i句子和该句子的敏感词标记；H为熵函数， H(p)＝-∑plogp；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。

图7的方法，模型更新算法优选SGD算法，举例如下：

其中，D^m语料库为训练语料库，如图6所示可选用X_正&火，或根据实际情况选用其他语料库。epoch为迭代次数，可根据经验值设置，或根据模型训练的情况调整，图6中的步骤A-1和步骤A-2依次执行一次记一次迭代。在上述SGD算法中，训练语料库随机选取样本数据输入4个模型，除此之外，也可以按顺序将样本数据依次输入4个模型。即在一次迭代中，步骤A-1输入的样本数据和步骤A-2输入的样本数据可以相同，也可以不同，但优先设置为SGD算中的随机输入，以获得更好的模型。

更新规则以Θ^s为例，为其中，α为学习率，得到的是每次模型训练后，模型参数Θ^s的增量。

结合算法，具体说明图7中的步骤。

第一轮左侧训练：对应执行图7的步骤A-1，训练图6中虚线的左侧模型(包括第一BLSTM模型、第二BLSTM模型和CRF模型)，而图6中虚线的右侧模型(CNN模型)参数维持不变，对应的参数不更新，对Θ^sΘ^m进行更新，对应算法中的第2-6行。更新规则为

开始时，左右两侧都处于初始状态，训练语料库的样本数据随机输入，此时左侧的敏感词标记准确率较低，对应于较小的对数似然损失函数 L_敏感词(Θ^m,Θ^s)、右侧网络由于参数不更新处于初始阶段，毫无鉴别能力，对应于一个较为固定的损失函数值。因此，此时想最大化L_total的话则需要对左侧的网络进行更新，增大L_敏感词(Θ^m,Θ^s)、以此来最大化L_total，提高敏感词标注准确率。经过第一轮训练后，得到了一个具备初步敏感词标注能力的左侧网络和与初始状态一样的鉴别网络。

第一轮右侧训练：对应执行图7的步骤A-2。第一轮当训练完左侧时，进入右侧训练步骤，此时左侧网络参数停止更新，进行CNN模型的优化，对应算法中的第7-10行，对Θ^d参数进行更新。

由于CNN模型处于初始状态，因此具有较差的鉴别能力。对应于较小的损失函数而训练目标是最大化总损失函数L_total，而由于此时左侧网络参数不进行更新，因此需要使损失函数变大，即通过训练提高CNN模型的能力。值得注意的是，随着右侧CNN模型的优化，第一BLSTM 模型的损失函数值会逐渐减小。

根据定义公式

其中为CNN模型的Softmax层输出概率，也就是里log后面的p。H为熵函数，H(p)＝-∑plogp，当概率p越大，则对应的熵越小。即当增大，值相应减小。

在第一轮右侧的学习中，由于CNN模型进行了学习，对应于CNN模型的准确率提升，p增大，导致减小。

第二轮左侧训练：对应执行图7的步骤A-1，此时情况与第一轮稍有不同，经过第一轮右侧训练，右侧CNN模型具有一定的鉴别能力。

第二轮左侧训练，仍然是先训练图6左侧而右侧模型保持不动，同样对应于最大化L_敏感词(Θ^m,Θ^s)、但由于此刻右侧CNN模型具有鉴别能力，导致第一BLSTM模型之前学习到的通用特征不够用了，即的值相比于第一轮时变小，进而驱动需要进一步的学习并更新参数，最大化 L_敏感词(Θ^m,Θ^s)、

第二轮右侧训练：与第一轮右侧相同。

如此迭代执行图7的步骤A-1和A-2，完成对敏感词检测模型第一BLSTM 模型+第二BLSTM模型+CRF模型的训练。

本发明训练方法，创新性地引入CNN网络，以促使第一BLSTM模型学习敏感词的字体特征，第二BLSTM模型用于学习敏感词的通用特征，相比于传统 DFA算法和其他神经网络模型，对敏感词的检测不受敏感词词库限制，同时提高了对异性字的检测能力。

进一步，图7的方法还可以扩展为

步骤A-1和步骤A-2之间还包括，继续迭代步骤A-1，如果步骤A-1迭代次数达到第一预设次数，执行步骤A-2；

步骤A-2结束后，继续迭代步骤A-2，如果步骤A-2迭代次数达到第二预设次数，返回步骤A-1。

即步骤A-1自身迭代数次后再执行步骤A-2，步骤A-2自身迭代数次后再返回步骤A-1。第一次预设次数和第二预测次数可以根据需要选定，本发明对此不做限定。扩展后的方案可以使得步骤A-1和步骤A-2取得较好的训练结果后，再进行互相影响的迭代，节约敏感词检测模型的训练时间。

需要说明的是，本发明图6和图7的训练方法，第一、第二BLSTM模型、 CRF模型和CNN模型学习训练语料库是相同训练语料库，可以基于一个训练语料库对应生成一个敏感词检测模型，也可以基于多个训练语料库生成一个敏感词检测模型。

实施例二

本实施例为多训练语料库的敏感词检测模型的训练方法，如图9所示敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型， BLSTM模型包括第一BLSTM模型和第二BLSTM模型，模型训练方法还包含卷积神经网络CNN模型和N个训练语料库，n为训练语料库标号，n＝1,2,…,N。

图9为图8方法，4个训练语料库的示例，与图6不同的是，图9中的第二 BLSTM模型和CRF模型与训练语料库n一一对应，标识第二BLSTMⁿ模型和 CRFⁿ模型的上标n表示与训练语料库n的对应关系。

如图8所示，本实施例的训练方法包括：

步骤B-1(S201)：迭代步骤B-2，直至N个训练语料库均输入完毕后，执行步骤B-3；

步骤B-3(S203)：迭代步骤B-4，直至N个训练语料库均输入完毕后，返回步骤B-1，直至迭代程序结束；

步骤B-2(S202)：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一 BLSTM模型和第二BLSTMⁿ模型，将第一BLSTM模型和第二BLSTMⁿ模型的输出输入CRFⁿ模型，CRFⁿ模型输出输入文本的敏感词识别结果；基于CRFⁿ的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

步骤B-4(S204)：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库n的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型， CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

图9为基于4个训练语料库X¹ _正&火、X² _繁&火、X³ _正、X⁴ _繁的敏感词检测模型训练方法示例，4个训练语料库各自对应4个基于各自训练语料库的第二 BLSTMⁿ模型和CRFⁿ模型。为了学习更多敏感词的字体特征，图8中的第一 BLSTM模型为共有模型，4个训练语料库都需用于第一BLSTM模型的训练。

基于图8的方法，具体说明图9的训练过程，因图9中有4个训练语料库，相应的图8中的步骤B-1(S201)需迭代步骤B-2(S202)4次，然后执行步骤 B-3(S203)，步骤B-3(S203)需迭代步骤B-4(S204)4次，然后返回步骤B-1 (S201)。

步骤B-1(S201)包括步骤B-21、步骤B-22、步骤B-23、步骤B-24。

步骤B-21：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM¹模型和CRF¹模型：将第1训练语料库(X¹ _正&火)的样本数据输入第一BLSTM模型和第二BLSTM¹模型，将第一BLSTM模型和第二BLSTM¹模型的输出输入CRF¹模型，CRF¹模型输出输入文本的敏感词识别结果；基于CRF¹的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM¹模型和CRF¹模型的参数作为该3 个模型的当前参数。

步骤B-22：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM²模型和CRF²模型：将第2训练语料库(X² _繁&火)的样本数据输入第一BLSTM模型和第二BLSTM²模型，将第一BLSTM模型和第二BLSTM²模型的输出输入CRF²模型，CRF²模型输出输入文本的敏感词识别结果；基于CRF²的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM²模型和CRF²模型的参数作为该3 个模型的当前参数。

步骤B-23：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM³模型和CRF³模型：将第3训练语料库(X³ _正)的样本数据输入第一 BLSTM模型和第二BLSTM³模型，将第一BLSTM模型和第二BLSTM³模型的输出输入CRF³模型，CRF³模型输出输入文本的敏感词识别结果；基于CRF³的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM³模型和CRF³模型的参数作为该3个模型的当前参数。

步骤B-24：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM⁴模型和CRF⁴模型：将第4训练语料库(X⁴ _繁)的样本数据输入第一 BLSTM模型和第二BLSTM⁴模型，将第一BLSTM模型和第二BLSTM⁴模型的输出输入CRF⁴模型，CRF⁴模型输出输入文本的敏感词识别结果；基于CRF⁴的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM⁴模型和CRF⁴模型的参数作为该3个模型的当前参数。

在执行完上述步骤B-1(S201)后，执行步骤B-3(S203)，步骤B-3(S203) 包括步骤B-41、步骤B-42、步骤B-43、步骤B-44。

步骤B-41：保持第一BLSTM模型、第二BLSTMⁿ(n＝1,2,3,4)模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将第1训练语料库 (X¹ _正&火)的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN 模型的参数作为该模型的当前参数。

步骤B-42：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将第2训练语料库(X² _繁&火) 的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN 模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

步骤B-43：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将第3训练语料库(X³ _正)的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN 模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

步骤B-44：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将第4训练语料库(X⁴ _繁)的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN 模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

执行完上述步骤B-3(S203)后，返回步骤B-1(S201)，直到敏感词检测模型符合使用要求或迭代程序结束为止。

在以上对图9的说明中，对各训练语料库的输入顺序没有限制，以上步骤仅用于说明图8方法的详细执行过程。

关于敏感词检测模型的总损失函数和参数的更新算法与实施例一相同，不再赘述。

图8的方法与图7的方法的差异，在于通过图8的方法可以获得更好的第一 BLSTM模型。同时为了获得识别精度较高的第二BLSTM模型和CRF模型，图 8中针对每个训练语料库各自设计了与训练语料库对应的第二BLSTM模型和 CRF模型。

实施例三

本发明还包括一种敏感词检测模型，包括通过本发明实例一和实施例二训练后得到的第一BLSTM模型、第二BLSTM模型和CRF模型。

将测试文本输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出一起输入CRF模型，CRF模型输出测试文本的敏感词识别结果。

实施例四

本发明还包括一种敏感词检测模型训练系统，如图10所示，该系统包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块。

敏感词检测模型：包含双向长短记忆性网络BLSTM模型和条件随机场CRF 模型，BLSTM模型包括第一BLSTM模型和第二BLSTM模型。

训练控制模块包括：迭代第一训练模块和第二训练模块，直至迭代程序结束。

第一训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF 模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一 BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数。

第二训练模块：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN 模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本字体的差异，以4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

进一步地，总损失函数为L_total：

其中：

m表示训练语料库，N_m为训练语料库m输入模型的样本数据的句子总数，，和表示训练语料库m中的第i句子和该句子的敏感词标记；H为熵函数， H(p)＝-∑plogp；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。

进一步，

第一训练模块和第二训练模块之间还包括，第一训练迭代模块：迭代第一训练模块，如果第一训练模块迭代次数达到第一预设次数，执行第二训练模块；

第二训练模块之后还包括第二训练迭代模块：迭代第二训练模块，如果第二训练模块迭代次数达到第二预设次数，返回第一训练模块。

实施例五

本发明还包括一种基于多训练语料库的敏感词检测模型训练系统，系统包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块。

训练控制模块包括：基于N个训练语料库迭代执行第一多语料库训练模块和第二多语料库训练模块，直至迭代程序结束，其中n为训练语料库标号，n＝1, 2,…,N。

第一多语料库训练模块：迭代第一语料库训练模块，直至N个训练语料库均输入完毕后，执行第一多语料库训练模块。

第一多语料库训练模块：迭代第二语料库训练模块，直至N个训练语料库均输入完毕后，返回第一多语料库训练模块。

第一语料库训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM 模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一 BLSTM模型和第二BLSTMⁿ模型，将第一BLSTM模型和第二BLSTMⁿ模型的输出输入CRFⁿ模型，CRFⁿ模型输出输入文本的敏感词识别结果；基于CRFⁿ的识别结果与输入文本的标记结果的差异，以4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

进一步地，总损失函数为L_total：

其中：

n为训练语料库标号，N_n为训练语料库n输入模型的样本数据的句子总数，和表示第n个语料库中的第i句子和该句子的敏感词标记；H为熵函数， H(p)＝-∑plogp；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标 m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。

需要说明的是，本发明的词性标注系统的实施例，与本发明词性标注方法的实施例原理相同，相关之处可以互相参照。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种敏感词检测模型的训练方法，其特征在于，所述敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，所述BLSTM模型包括第一BLSTM模型和第二BLSTM模型，所述训练方法还包含卷积神经网络CNN模型；

所述训练方法包括以下步骤：

步骤A-1：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将所述第一BLSTM模型和第二BLSTM模型的输出输入CRF模型，所述CRF模型输出输入文本的敏感词识别结果；基于所述CRF的识别结果与输入文本的标记结果的差异，以所述4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数；

步骤A-2：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，所述CNN模型输出输入文本的字体识别结果；基于所述CNN的识别结果与输入文本字体的差异，以所述4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数；

所述步骤A-2结束后，返回步骤A-1，直至迭代程序结束。

2.根据权利要求1所述的方法，其特征在于，所述总损失函数为L_total：

其中：

m表示训练语料库，N_m为训练语料库m输入模型的样本数据的句子总数，和表示语料库m中的第i句子和该句子的敏感词标记；H为熵函数，H(p)＝-∑p log p；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。

3.根据权利要求1所述的方法，其特征在于，

所述步骤A-1和所述步骤A-2之间还包括，迭代所述步骤A-1，如果所述步骤A-1迭代次数达到第一预设次数，执行步骤A-2；

所述返回步骤A-1还包括，迭代所述步骤A-2，如果所述步骤A-2迭代次数达到第二预设次数，返回步骤A-1。

4.一种敏感词检测模型的训练方法，其特征在于，所述敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，所述BLSTM模型包括第一BLSTM模型和第二BLSTM模型，所述训练方法还包含卷积神经网络CNN模型和N个训练语料库，n为训练语料库标号，n＝1,2,…,N；

所述训练方法包括：

步骤B-1：迭代步骤B-2，直至N个训练语料库均输入完毕后，执行步骤B-3；

步骤B-3：迭代步骤B-4，直至N个训练语料库均输入完毕后，返回步骤B-1，直至迭代程序结束；

步骤B-2：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一BLSTM模型和第二BLSTMⁿ模型，将所述第一BLSTM模型和第二BLSTMⁿ模型的输出输入CRFⁿ模型，所述CRFⁿ模型输出输入文本的敏感词识别结果；基于所述CRFⁿ的识别结果与输入文本的标记结果的差异，以所述4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中所述第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

步骤B-4：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库n的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，所述CNN模型输出输入文本的字体识别结果；基于所述CNN的识别结果与输入文本字体的差异，以所述4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

5.根据权利要求4所述的方法，其特征在于，所述总损失函数为L_total：

其中：

n为语料库标号，N_n为训练语料库n输入模型的样本数据的句子总数，和表示第n个语料库中的第i句子和该句子的敏感词标记；H为熵函数，H(p)＝-∑p log p；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。

6.一种敏感词检测模型的训练系统，其特征在于，包括所述系统包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块；

敏感词检测模型：包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型，所述BLSTM模型包括第一BLSTM模型和第二BLSTM模型；

所述训练控制模块包括：迭代第一训练模块和第二训练模块，直至迭代程序结束；

第一训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTM模型和CRF模型：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型，所述CRF模型输出输入文本的敏感词识别结果；基于所述CRF的识别结果与输入文本的标记结果的差异，以所述4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数；

第二训练模块：保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，所述CNN模型输出输入文本的字体识别结果；基于所述CNN的识别结果与输入文本字体的差异，以所述4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数；

所述第二训练模块结束后，返回第一训练模块。

7.根据权利要求6所述的系统，其特征在于，所述总损失函数为L_total：

其中：

8.根据权利要求6所述的系统，其特征在于，

所述第一训练模块和所述第二训练模块之间还包括，第一训练迭代模块：迭代所述第一训练模块，如果所述第一训练模块迭代次数达到第一预设次数，执行第二训练模块；

所述第二训练模块之后还包括第二训练迭代模块：迭代所述第二训练模块，如果所述第二训练模块迭代次数达到第二预设次数，返回第一训练模块。

9.一种敏感词检测模型的训练系统，其特征在于，包括所述系统包括敏感词检测模型、卷积神经网络CNN模型、训练控制模块；

所述训练控制模块包括：基于N个训练语料库迭代执行第一多语料库训练模块和第二多语料库训练模块，直至迭代程序结束，其中n为训练语料库标号，n＝1,2,…,N；

第一多语料库训练模块：迭代第二语料库训练模块，直至N个训练语料库均输入完毕后，返回第一多语料库训练模块；

第一语料库训练模块：保持CNN模型的当前参数不更新，训练第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型：将训练语料库n的样本数据输入第一BLSTM模型和第二BLSTMⁿ模型，将第一BLSTM模型和第二BLSTMⁿ模型的输出输入CRFⁿ模型，所述CRFⁿ模型输出输入文本的敏感词识别结果；基于所述CRFⁿ的识别结果与输入文本的标记结果的差异，以所述4个模型总损失函数的最大化为目标，更新第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的参数作为该3个模型的当前参数，其中所述第二BLSTMⁿ模型和CRFⁿ模型的上标n表示与训练语料库n一一对应；

第二语料库训练模块：保持第一BLSTM模型、第二BLSTMⁿ模型和CRFⁿ模型的当前参数不变，训练第一BLSTM模型和CNN模型：将训练语料库n的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，所述CNN模型输出输入文本的字体识别结果；基于所述CNN的识别结果与输入文本字体的差异，以所述4个模型总损失函数的最大化为目标，更新CNN模型的参数作为该模型的当前参数。

10.根据权利要求9所述的系统，其特征在于，所述总损失函数为L_total：

其中：

n为训练语料库标号，N_n为训练语料库n输入模型的样本数据的句子总数，和表示第n个语料库中的第i句子和该句子的敏感词标记；H为熵函数，H(p)＝-∑p log p；Θ为模型参数，Θ的角标s代表第一BLSTM模型，Θ的角标m代表第二BLSTM模型和CRF模型，Θ的角标d代表CNN模型。