CN110727880A

CN110727880A - 一种基于词库与词向量模型的敏感语料检测方法

Info

Publication number: CN110727880A
Application number: CN201910995383.3A
Authority: CN
Inventors: 李辉; 陈鹏
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xidian University; Electronic Science Research Institute of CTEC
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-01-24
Anticipated expiration: 2039-10-18
Also published as: CN110727880B

Abstract

本发明公开了一种基于词库与词向量模型的敏感语料检测方法，包括以下步骤：1)获取开放文本语料，对开放文本语料进行预处理，所述开放文本预料包括中文维基百科语料及新闻语料；2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并，得合并语料，再利用分词工具对合并语料进行分词，再过滤掉分词结果中的停用词；3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练，并根据无监督训练的结果构建词向量模型；4)获取待检测文本，得分词表，同时构建相似词词典；5)利用相似词词典、词向量模型及敏感词库对分词表中的词进行敏感性检测，完成基于词库与词向量模型的敏感语料检测，该方法对敏感词的检测能力较为优异。

Description

一种基于词库与词向量模型的敏感语料检测方法

技术领域

本发明属于互联网信息处理技术领域，涉及一种基于词库与词向量模型的敏感语料检测方法。

背景技术

随着信息时代的迅猛发展，网络上新出现的各种社交媒体平台受到了很多用户的青睐，并且利用社交平台进行信息发布已经成为当前形成和传播社会舆论的重要途径。社会媒体每天带来海量的文本语料，其中存在少部分语料会对社会安全和政治稳定带来巨大风险。为了避免潜在敏感语料带来的负面影响，需要对网上的语料进行检测，并能够快速地识别出其中涉及敏感的信息，进而进行更深一步地处理。

对于网络上的敏感语料，传统的纯粹基于词库进行检测方式具有很大的局限性，仅用词库过滤的方式面临词汇量不全面和词库难以与时俱进的问题。因此，如何在此基础上对敏感词检测能力进行提升是一个亟待解决的问题。

针对面向网络媒体的敏感语料检测方法，申请人经过专利查询，检索到一篇相关的专利，名称为敏感文本检测方法及装置，专利申请号为CN201410064854.6,该专利提出了一种基于有限自动状态机和关键词类别权重的敏感文本检测方案，该专利提出针对敏感词出现的频率以及权值对文本的敏感程度进行判别，但是该方式仅能滤除词库中已有的敏感词，不能对词库以外但也是敏感的词进行检测，这一点尚未有有效的解决方案。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种基于词库与词向量模型的敏感语料检测方法，该方法对敏感词的检测能力较为优异。

为达到上述目的，本发明所述的基于词库与词向量模型的敏感语料检测方法包括以下步骤：

1)获取开放文本语料，然后对开放文本语料进行预处理，其中，所述开放文本预料包括中文维基百科语料及新闻语料；

2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并，得合并语料，同时将敏感词种子词库加入到分词工具中，再利用分词工具对合并语料进行分词，再过滤掉分词结果中的停用词，其中，敏感词种子词库来源于网上开源的敏感词库；

3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练，并根据无监督训练的结果构建词向量模型；

4)获取待检测文本，将敏感词库加载到分词工具中，对待检测文本进行分词，并对分词结果过滤停用词，得分词表，同时构建相似词词典；

5)从分词表中选取未被检测的词，判断检测敏感词库中是否含有该未被检测的词，若敏感词库中含有该未被检测的词时，则判断该未被检测的词敏感，否则，以该未被检测的词作为键查询相似词词典，若相似词词典中含有该键，得相似词表，检测敏感词库中是否含有相似词表中的词，若敏感词库中至少有一个词属于该相似词表，则判定该未被检测的词敏感，否则，认为未被检测的词非敏感；若相似词词典中不含有该键，则利用词向量模型计算该未被检测的词与词向量模型中所有词的余弦相似度，取余弦相似度最高的前n个词，检测敏感词库中是否含有所述n个词，若敏感词库中至少有一个词属于所述n个词，则判定该未被检测的词敏感，否则，认为该未被检测的词非敏感，并将该未被检测的词与其n个相似词作为键-值加入到相似词词典中；

6)重复步骤5)直至遍历分词表中的所有词为止，完成基于词库与词向量模型的敏感语料检测。

步骤1)中中文维基百科语料来源于维基百科的中文开放语料库；

新闻语料来源于搜狐新闻数据。

步骤1)中对中文维基百科语料进行预处理的具体过程为：

利用开放工具WikiExtractor对中文维基百科语料进行有效信息提取，提取有效信息后剔除有效信息文本中无效的标签，利用正则表达式将有效信息文本中的无用标签过滤出来，最后使用开放工具OpenCC将有效信息文本转化为简体中文。

步骤1)中对新闻语料进行预处理的具体过程为：

采用正则表达式过滤与词典知识相配合进行新闻语料主体内容的提取。

步骤2)中的分词工具为开放的jieba工具，该分词工具支持加载用户自定义词典进行分词；

所述停用词从停用词库中获取，该停用词库采用开源的哈工大停用词表。

步骤3)的具体操作为：

使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练，得语料中每一个词对应的n维稠密数值向量，将所述n维稠密数值向量称为词向量，词向量以实数向量的形式表示词的语义信息，训练得到词向量结果，并将该词向量结果作为词向量模型。

步骤4)中的敏感词库为网上已开源的敏感词库。

本发明具有以下有益效果：

本发明所述的基于词库与词向量模型的敏感语料检测方法在具体操作时，先利用中文维基百科语料及新闻语料构建词向量模型，再获取待检测文本，并对待检测文本进行分词，以获取分词表，然后利用敏感词库及词向量模型对分词表中的词记性敏感性检测，以提高词敏感检测的性能，另外，本发明中该未被检测的词与其n个相似词作为键-值加入到相似词词典中，在检测词敏感的过程中，参考该相似词词典进行检测，因此检测的范围较为宽广。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

参考图1，本发明所述的基于词库与词向量模型的敏感语料检测方法包括以下步骤：

步骤1)中中文维基百科语料来源于维基百科的中文开放语料库，对于维基百科中文语料,最新语料获取地址为：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2；新闻语料来源于搜狐新闻数据。

步骤1)中对中文维基百科语料进行预处理的具体过程为：

步骤1)中对新闻语料进行预处理的具体过程为：采用正则表达式过滤与词典知识相配合进行新闻语料主体内容的提取。

步骤2)中的分词工具为开放的jieba工具(其支持加载用户自定义词典进行分词)，该分词工具支持加载用户自定义词典进行分词；所述停用词从停用词库中获取，该停用词库采用开源的哈工大停用词表。

步骤3)的具体操作为：

步骤4)中的敏感词库为网上已开源的敏感词库。

词向量模型由开放工具word2vec对开放语料训练得到的，余弦相似度通过测量两个向量的夹角的余弦值来度量两个向量之间的相似性，在词向量模型中，利用词向量模型计算余弦相似度表示词汇之间的语义相似度，因而余弦相似度较高则表示两个单词之间语义相似度较高，基于此可以得到词在语义上的相似词表。

本发明还包括：根据词向量模型完成对词库的增量更新，具体过程为：

根据已有的词向量模型，计算敏感词库中的词汇与词向量模型中词的余弦相似度，取其中余弦相似度高于预设阈值的词汇加入到敏感词库中，另外，由于词向量模型的语料可以分阶段增量训练，因而由此也能保证词库的质量能够与时俱进。

本发明还包括：对词向量模型进行增量训练，该步骤包括：收集最新的敏感语料资源，加入到语料库中，并对整体进行训练。因此本发明不限于对敏感词库进行更新，也可以应用于其他特定类型词库的更新。

上述所有可选技术方案，可以任意结合行成本发明的可选实施项，在此不再一一赘述。

Claims

1.一种基于词库与词向量模型的敏感语料检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤1)中中文维基百科语料来源于维基百科的中文开放语料库；

新闻语料来源于搜狐新闻数据。

3.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤1)中对中文维基百科语料进行预处理的具体过程为：

4.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤1)中对新闻语料进行预处理的具体过程为：

5.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤2)中的分词工具为开放的jieba工具，该分词工具支持加载用户自定义词典进行分词；

6.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤3)的具体操作为：

7.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法，其特征在于，步骤4)中的敏感词库为网上已开源的敏感词库。