CN116257601A

CN116257601A - 一种基于深度学习的违法词库构建方法及系统

Info

Publication number: CN116257601A
Application number: CN202310203901.XA
Authority: CN
Inventors: 薛玲; 王一杰; 严江杰
Original assignee: Yunmu Future Technology Hunan Co ltd
Current assignee: Yunmu Future Technology Hunan Co ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-13

Abstract

本发明公开了一种基于深度学习的违法词库构建方法及系统，所述方法包括以下步骤：将语料库中的每个句子划分为分词，根据分词结果提取句子中的短语集合；训练短语集合得到带权重的词，通过权重阈值将词划分为领域相关词和领域无关词；构建深度学习模型，基于深度学习模型对领域相关词进行极性判断；整理判断结果以得到违法词库。本发明通过将语料库中的句子划分为分词，根据分词结果提取句子中的短语集合，利用权重阈值将词划分为领域相关词和领域无关词，通过深度学习模型对领域相关词进行极性判断，根据判断结果构建违法词库，有利于提高违法词库对采集到的文本进行分类的效率，特别是针对各类违法犯罪的文本，能够准确的对其进行区别。

Description

一种基于深度学习的违法词库构建方法及系统

技术领域

本发明具体涉及词库构建技术领域，具体是一种基于深度学习的违法词库构建方法及系统。

背景技术

信息技术的迅猛发展带动了全国各行各业的信息化建设，国家政策的支持为各行各业的信息系统的建立打下了坚实的基础；由此带来了大量的专业领域数据，而其中由中文文本数据构成的语料集受到了广泛的关注。语料集是在生产活动中产生的重要信息资源，其可以是社交网络中大量的评论数据，也可以是购物网站客服中心的客户服务数据。从纷繁复杂的语料集中挖掘出有价值的信息将大大推动各行各业的发展。

许多数据挖掘工作需要用到结构化数据，而半结构化的文本数据需要首先进行结构化。因此，文本数据结构化是文本数据挖掘的基础。而文本数据结构化的基础是专业领域词库的构建：但专业领域词库的构建面临两大挑战，一是没有可以利用的现成标准词库；二是文本内容通常结构松散且文字的表达形式多样化。

目前的专业领域词库构建的方式主要包括人工的方式，或者半监督学习的方式构建词库、用网络爬虫方式提取专业网站上的词标签来构建词库，或者根据短句中每两个字之间的相对位置和出现频次构建链接关系来构成分词识别词库。这些词库的构建方法未能有效地利用语料集中多词间包含与被包含的共性特征。

现有的违法词库构建，一般都是通过人工进行筛查选取，存在如下问题：大量违法文本类的专业资料数据资源尚未得到利用；人工智能应用缺乏违法专业主题词库支持，词库是有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。人工智能的应用技术研究依赖于基础语料的积累，若没有专业化的主题词库支撑，相关专业领域的应用会受制约，或是重复做较大的语料筛选清洗工作；缺少一套涵盖识别、纠错、生成、服务应用的违法词库生产运营管理机制。

目前很多专业词库的积累很大一部分依赖于专家等人共梳理确认的方式，缺少一套从识别、纠错、生成到服务应用的专业词汇生成、管理、对外服务的在线管理机制。

发明内容

本发明的目的在于提供一种基于深度学习的违法词库构建方法及系统，以解决上述背景技术中提出的目前很多专业词库的积累很大一部分依赖于专家等人共梳理确认的方式，缺少一套从识别、纠错、生成到服务应用的专业词汇生成、管理、对外服务的在线管理机制的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的违法词库构建方法，包括以下步骤：

S10、将语料库中的每个句子划分为分词，根据分词结果提取句子中的短语集合；

S20、训练短语集合得到带权重的词，通过权重阈值将词划分为领域相关词和领域无关词；

S30、构建深度学习模型，基于深度学习模型对领域相关词进行极性判断；

S40、整理判断结果以得到违法词库。

作为本发明进一步的方案：所述语料库包括特定领域的语料库和各领域已有的违法词库；所述语料库包括特定领域的语料库和各领域已有的违法词库，该语料库为特定领域语料库和已有的违法词库的整合；对于特定领域的语料库，需要进行预处理，对特定领域的语料库进行预处理的方法包括去停用词和去无关符号等，以剔除语料库中无意义的词、短语和句子；另外，在步骤S10中，将语料库中的每个句子划分为分词时，需要设置分词阈值，对句子进行分词而得到的分词长度应当小于该阈值。

作为本发明再进一步的方案：步骤S10中，根据分词结果提取句子中的短语集合的方法，包括以下步骤：

S11、遍历语料库生成短语集合的过程，对生成的短语的出现次数进行计数以及对语料库中各句子的出现次数进行计数；

S12、衡量短语生成的合理性，将判断结果为合理的短语作为短语集合。

作为本发明再进一步的方案：步骤S12中，衡量短语生成是否合理的公式为：

E≥δ表示短语合理；

其中：α和μ为自定义参数，δ为重要程度，C_pn为第n个短语p出现的次数，C_tn为第n个句子t在语料库中出现的次数。

作为本发明再进一步的方案：步骤S20中，通过TF-I DF算法训练短语集合以得到带权重的词，根据短语的TF-I DF值构建重要词语的词库，该词库具有判断该短语是否能够加入词库的阈值，当短语的TF-I DF值大于阈值时，该短语才能加入词库；

进一步的，在本发明实施例中，短语的TF-I DF值计算公式为：

其中：D表示语料库集合，t_i表示语料库中第i个句子，x_i,j表示语料库中第i个句子中的第j个短语；当短语的TF-IDF值大于阈值时，该短语才能加入词库，该阈值为语料库中所有短语的TF-IDF值的平均值，通过TF-IDF算法训练句子序列中每个短语的权重，利用权重值构建短语标签库。

作为本发明再进一步的方案：步骤S30中，所述深度学习模型包括卷积模块，所述卷积模块设有五段卷积，每段卷积均包括有卷积层、ReLu激活层和池化层。

作为本发明再进一步的方案：所述深度学习模型还包括有输入层、全连接层和输出层，所述输入层与卷积模块连接，所述卷积模块与全连接层连接，所述全连接层与输出层连接，最后一段卷积完成特征提取后与全连接层连接。

作为本发明再进一步的方案：所述深度学习模型的构建方法为：

S31、将训练语料库分为训练集、验证集和测试集，所述训练集用来训练模型,验证集用来判断模型的效果，所述训练语料库具有领域相关词；

S32、构建深度学习模型，所述深度学习模型包括卷积模块，所述卷积模块设有五段卷积，每段卷积均包括有卷积层、ReLu激活层和池化层；

S33、使用训练集的数据对构建的深度学习模型进行训练，即将训练集数据输入到步骤S32中的深度学习模型进行迭代；

S34、使用验证集的数据对训练好的深度学习模型进行验证；

S35、将测试集的数据输入到训练好的深度学习模型，得到判断结果，所述判断结果为领域相关词是/否为违法词汇；

S36、判断识别结果是否符合预期，结果不符合时，继续步骤S33；结果符合时，深度学习模型构建完成。

作为本发明再进一步的方案：步骤S40中，还包括获取语料库中具有违法极性的候选词的近义词的方法，步骤如下：

S41、将语料库中违法极性的候选词转换成为词向量；

S42、获取预设语料集中的目标候选词，该预设语料集为短语集合除去所有违法极性候选词的补集，所述目标候选词的获取方法包括从预设语料集随机抽取的短语；

S43、计算违法极性候选词词向量和目标候选词词向量的余弦相似度，将余弦相似度降序排序，得到余弦相似度超过预设相似度阈值的词语集合，所词语集合为违法极性候选词的相似度集合；

S44、将词语集合补入违法词库。

一种基于深度学习的违法词库构建系统，包括：

预处理模块：用于将语料库中的每个句子划分为分词，根据分词结果提取句子中的短语集合；

分类模块：用于训练短语集合得到带权重的词；还用于通过权重阈值将词划分为领域相关词和领域无关词；

数据处理模块：用于构建深度学习模型；还用于基于深度学习模型对领域相关词进行极性判断；

词库生成模块：用于整理判断结果以得到违法词库。

与现有技术相比，本发明的有益效果是：本发明通过将语料库中的每个句子划分为分词，根据分词结果提取句子中的短语集合，利用权重阈值将词划分为领域相关词和领域无关词，再通过深度学习模型对领域相关词进行极性判断，根据判断结果构建违法词库，有利于提高违法词库对采集到的文本进行分类的效率，特别是针对各类违法犯罪的文本，能够准确的对其进行区别。

附图说明

图1为基于深度学习的违法词库构建方法的流程图。

图2为基于深度学习的违法词库构建方法中步骤S10的流程图。

图3为基于深度学习的违法词库构建方法中步骤S30的流程图。

图4为基于深度学习的违法词库构建方法中步骤S40的流程图。

图5为基于深度学习的违法词库构建系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

基于此，请参阅图1～图4，本发明实施例中，一种基于深度学习的违法词库构建方法，包括以下步骤：

在本发明实施例步骤S10中，所述语料库包括特定领域的语料库和各领域已有的违法词库，可以理解的是，在本发明中，该语料库为特定领域语料库和已有的违法词库的整合；

进一步的，对于特定领域的语料库，需要进行预处理，对特定领域的语料库进行预处理的方法包括去停用词和去无关符号等，以剔除语料库中无意义的词、短语和句子；

另外，在本发明实施例步骤S10中，将语料库中的每个句子划分为分词时，需要设置分词阈值，对句子进行分词而得到的分词长度应当小于该阈值；

进一步的，在本发明实施例步骤S10中，根据分词结果提取句子中的短语集合的方法，包括以下步骤：

S12、衡量短语生成的合理性，将判断结果为合理的短语作为短语集合；再进一步的，在本发明实施例步骤S12中，衡量短语生成是否合理的公式为：

E≥δ表示短语合理；其中：α和μ为自定义参数，δ为重要程度，C_pn为第n个短语p出现的次数，C_tn为第n个句子t在语料库中出现的次数；

由于中文分词的特点，短语组合词通常会被分割成两个或两个以上的孤立词，而分割后的词通常无法准确表达出原短语的意思，从而导致短语挖掘困难重重，通过上述方法判断短语出现是否合理，从而提高短语挖掘的准确度和效率。

在本发明实施例步骤S20中，通过TF-IDF算法训练短语集合以得到带权重的词，TF-IDF算法用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，根据短语的TF-IDF值，可以构建一个重要词语的词库，该词库具有判断该短语是否能够加入词库的阈值，当短语的TF-IDF值大于阈值时，该短语才能加入词库；需要说明的是，在本发明实施例中，短语的TF-IDF值计算公式为：

其中：D表示语料库集合，t_i表示语料库中第i个句子，x_i,j表示语料库中第i个句子中的第j个短语；

进一步的，当短语的TF-IDF值大于阈值时，该短语才能加入词库，该阈值为语料库中所有短语的TF-IDF值的平均值，通过TF-IDF算法训练句子序列中每个短语的权重，利用权重值构建短语标签库；当从确定的语料库中提取的候选词与领域内的任何高质量短语都不匹配时，将这些候选词构建成一个含有噪声的无关词库；相反，与之匹配的作为相关词库。

基于相邻词频短语挖掘方法虽然可以得到大量的组合短语，但其中大部分短语都为劣质短语，将不符合标准的短语称为劣质短语，如“北京和”“他们在”等这种人称与介词的组合词；事实上，在大量的候选短语中，通常大约只有10％的短语属于优质短语，符合领域内的优质短语则更少，因此，建立领域相关性的标准词库显得尤为必要。

在本发明实施例中，所述深度学习模型包括卷积模块，所述卷积模块设有五段卷积，每段卷积均包括有卷积层、ReLu激活层和池化层，其中：

第一段卷积：包括两个卷积层，每层64个卷积核；

第二段卷积：包括两个卷积层，每层128个卷积核；

第三段卷积：包括三个卷积层，每层256个卷积核；

第四段卷积：包括三个卷积层，每层512个卷积核；

第五段卷积：包括三个卷积层，每层512个卷积核；

进一步的，所述深度学习模型还包括有输入层、全连接层和输出层，所述输入层与卷积模块连接，所述卷积模块与全连接层连接，所述全连接层与输出层连接，最后一段卷积完成特征提取后与全连接层连接，整合卷积模块提取得到的特征，得到一个识别结果；

在本发明实施例中，所述深度学习模型的构建方法为：

S34、使用验证集的数据对训练好的深度学习模型进行验证；

步骤S31中，将训练语料分为训练集、验证集和测试集的方式为：

随机选取处理好的训练语料，将训练语料中80％数据作为训练集，10％作为验证集，10％作为测试集，设训练语料库具有65000条领域相关词，分类后得到训练集52000条，验证集6500条，测试集6500条；

在训练过程中，把训练集数据每一张数据集大小调整为224*224尺寸大小，首先输入数据和5段卷积中第一段第一层卷积层进行卷积操作，卷积核为3*3*64，步长str ide为1，计算第一段卷积第一层输出为222*222*64，为了和原词向量尺寸保持一致，还需要通过padd ing对卷积后特征词向量四周进行补零操作，所以实际输出为224*224*64，经过Re lu激活函数激活后来到第一段第二层卷积层，输入为224*224*64，同样卷积核为3*3*64，步长为str ide为1，经过padd ing四周补零后，输出为224*224*64，通过Re l u激活函数激活后完成第一段卷积特征提取，在第一段卷积最后通过最大池化层对第一段卷积提取的特征图进行降维处理，特征图大小变为原始图像一半，变为112*112*64，依次类推第二段卷积，卷积核为128，所以经过第二段卷积后输出为56*56*128，第三段卷积输出28*28*256，第四段卷积输出为14*14*512，最后一段输出为7*7*512；

各段卷积中的卷积层使用的卷积核相同，尺寸为3*3，卷积步长均为1，每个卷积层后均设有ReLu激活层，ReLu激活层采用ReLu激活函数对卷积得到的特征词向量进行激活，每段卷积后军设有池化层，本实施例优选采用最大池化层，池化层的池化核大小为2*2*64，步长为2，用于对卷积提取的特征图进行降维处理；

需要说明的是，针对分类问题,损失函数通常采用交叉熵，优化函数的作用是利用反向传播优化参数使得损失下降；目前效果最好的优化函数是Adam,它主要的优点在于经过偏置校正后,每一次迭代的学习率都有个确定的范围,使得参数变化比较平稳。学习率表示参数变化的情况,学习率低,训练会变得更加可靠,但是优化会花费较长的时间；学习率高,训练可能不会收敛,甚至会发散,所以一般设定学习率为0.01。因此,本发明构建的深度学习模型前几层的激励函数选择ReLU,输出层的激励函数选择Softmax,损失函数选择交叉熵,优化函数选择Adam,学习率设置为0.01,最后将训练语料按照8:1：1的比例分为训练集、验证集和测试集，所述训练集用来训练模型,验证集用来判断模型的效果，所述训练语料库具有领域相关词。

还有，在本发明步骤S30中，在构建深度学习模型之前需要将领域相关词转化为词向量，本实施例中，采用Word2Vec模型将领域相关词转换成为词向量，为后续深度学习模型的构建奠定基础；

S40、整理判断结果以得到违法词库，利用训练好的深度学习模型判断每个领域相关词的极性，整合上述判断结果中带有违法极性的候选词，将该候选词添加到特定领域的违法词库中，从而构建违法词库。

需要说明的是，在本发明实施例中构建违法词库时还需要进一步获取语料库中具有违法极性的候选词的近义词，以使违法词库的构建更为完善，上述获取语料库中具有违法极性的候选词的近义词的方法，包括以下步骤：

S41、将语料库中违法极性的候选词转换成为词向量，转换方式可以采用上述的采用Word2Vec模型；

S44、将词语集合补入违法词库，以完善该违法词库。

请参阅图5，本发明还公开了一种基于深度学习的违法词库构建系统，包括：

词库生成模块：用于整理判断结果以得到违法词库。

综上所述，本发明通过将语料库中的每个句子划分为分词，根据分词结果提取句子中的短语集合，利用权重阈值将词划分为领域相关词和领域无关词，再通过深度学习模型对领域相关词进行极性判断，根据判断结果构建违法词库，有利于提高违法词库对采集到的文本进行分类的效率，特别是针对各类违法犯罪的文本，能够准确的对其进行区别。

此外，一些实施例可包括具有用于在计算机上执行本说明书中记载的方法的程序的存储介质，其上存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集被处理器加载并执行时实现上述各方法实施例中的步骤，计算机可读记录介质的示例包括为了存储并执行程序命令而专门构成的硬件装置:诸如硬盘、软盘及磁带的磁介质、诸如CD-ROM、DVD的光记录介质、诸如软盘的磁光介质及ROM、RAM、闪存等。程序命令的示例可包括:由编译器编写的机器语言代码以及使用解释器等而由计算机来执行的高级语言代。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过至少一条指令、至少一段程序、代码集或指令集来指令相关的硬件来完成，的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中，该至少一条指令、至少一段程序、代码集或指令集在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的违法词库构建方法，其特征在于，包括以下步骤：

S40、整理判断结果以得到违法词库。

2.根据权利要求1所述的基于深度学习的违法词库构建方法，其特征在于，所述语料库包括特定领域的语料库和各领域已有的违法词库。

3.根据权利要求1所述的基于深度学习的违法词库构建方法，其特征在于，步骤S10中，根据分词结果提取句子中的短语集合的方法，包括以下步骤：

4.根据权利要求3所述的基于深度学习的违法词库构建方法，其特征在于，步骤S12中，衡量短语生成是否合理的公式为：

E≥δ表示短语合理；

5.根据权利要求1所述的基于深度学习的违法词库构建方法，其特征在于，步骤S20中，通过TF-IDF算法训练短语集合以得到带权重的词，根据短语的TF-IDF值构建重要词语的词库，该词库具有判断该短语是否能够加入词库的阈值，当短语的TF-IDF值大于阈值时，该短语才能加入词库。

6.根据权利要求1所述的基于深度学习的违法词库构建方法，其特征在于，步骤S30中，所述深度学习模型包括卷积模块，所述卷积模块设有五段卷积，每段卷积均包括有卷积层、ReLu激活层和池化层。

7.根据权利要求6所述的基于深度学习的违法词库构建方法，其特征在于，所述深度学习模型还包括有输入层、全连接层和输出层，所述输入层与卷积模块连接，所述卷积模块与全连接层连接，所述全连接层与输出层连接，最后一段卷积完成特征提取后与全连接层连接。

8.根据权利要求7所述的基于深度学习的违法词库构建方法，其特征在于，所述深度学习模型的构建方法为：

S34、使用验证集的数据对训练好的深度学习模型进行验证；

9.根据权利要求1所述的基于深度学习的违法词库构建方法，其特征在于，步骤S40中，还包括获取语料库中具有违法极性的候选词的近义词的方法，步骤如下：

S41、将语料库中违法极性的候选词转换成为词向量；

S44、将词语集合补入违法词库。

10.一种基于深度学习的违法词库构建系统，其特征在于，包括：

词库生成模块：用于整理判断结果以得到违法词库。