CN111339251A

CN111339251A - 一种微信公众号是否有敏感词汇的检测方法及装置

Info

Publication number: CN111339251A
Application number: CN202010115073.0A
Authority: CN
Inventors: 田东坡
Original assignee: Shanghai Changtou Network Technology Co ltd
Current assignee: Shanghai Changtou Network Technology Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26

Abstract

本发明适用于微信公众号广告投放领域，提供了一种微信公众号是否有敏感词汇的检测方法及装置，通过依次提取微信公众号的历史文章数据，人工标注文章是否有敏感词汇，清洗文章数据，并作为训练数据训练word2vec模型，将文章分词并获取embedding，最后训练双向bilstm深度学习模型，获取待预测的微信公众号的预设数量的历史文章数据，清洗数据，获取embedding，使用训练后的的双向bilstm深度学习模型进行预测，输出每文章是否有敏感词汇的预测结果，然后判断多个历史文章中有敏感词汇的文章的概率，从而能够对微信公众号是否有敏感词汇进行有效判断，以向企业的广告投资提供有效参考。

Description

一种微信公众号是否有敏感词汇的检测方法及装置

技术领域

本发明属于微信公众号广告投放领域，尤其涉及一种微信公众号是否有敏感词汇的检测方法及装置。

背景技术

微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。

但是企业在进行广告投放时需要考虑的微信公众号是否是有政治彩色的，以避免不必要的问题，同时影响企业的投资回报率，投资回报率是指通过投资而应返回的价值，即企业从一项投资活动中得到的经济回报，因此需要一种能够对微信公众号是否有敏感词汇进行判断的技术。

发明内容

本发明提供一种微信公众号是否有敏感词汇的检测方法及装置，旨在解决不能对微信公众号是否有敏感词汇进行判断的问题。

本发明是这样实现的，一种微信公众号是否有敏感词汇的检测方法，包括以下步骤：

S1、提取微信公众号的历史文章数据，人工标注文章是否有敏感词汇；

S2、清洗文章数据，并作为训练数据训练word2vec模型，将文章分词并获取embedding，最后训练双向bilstm深度学习模型；

S3、获取待预测的微信公众号的预设数量的历史文章数据，清洗数据，获取embedding，使用训练后的的双向bilstm深度学习模型进行预测，输出每文章是否有敏感词汇的预测结果；

S4、根据预设数量文章中带有敏感词汇的文章数量，计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例，是则判定被测微信公众号有敏感词汇，否则判定被测微信公众号没有敏感词汇。

优选的，所述清洗文章数据具体为：对文章数据进行分词处理。

优选的，所述训练word2vec模型具体为：根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量。

优选的，所述训练双向bilstm深度学习模型结构具体为：搭建神经网络模型，通过获取的embedding训练模型以获得模型参数。

优选的，步骤S1中，还包括：构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。

本发明还提供一种微信公众号是否有敏感词汇的检测装置，包括：

数据采集模块，其用于提取微信公众号的历史文章数据，并通过人工标注文章是否有敏感词汇；

数据处理模块，其用于清洗文章数据；

检测模型，其包括word2vec模型和bilstm深度学习模型；word2vec模型用于对清洗后的文章数据进行处理以获取embedding；bilstm深度学习模型用于通过embedding进行模型训练，并在训练完成后检测待测微信公众号的文章数据是否有敏感词汇；

计算模块，其用于根据待测微信公众号的预设数量的历史文章中的有敏感词汇的文章的数量，计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例，是则判定被测微信公众号有敏感词汇，否则判定被测微信公众号没有敏感词汇。

优选的，所述word2vec模型对清洗后的文章数据进行处理具体为：根据 Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量。

优选的，所述训练双向bilstm深度学习模型结构具体为：搭建神经网络模型，通过获取的embedding训练bilstm深度学习模型以获得模型参数。

优选的，所述数据处理模块还用于构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。

与现有技术相比，本发明的有益效果是：本发明的一种微信公众号是否有敏感词汇的检测方法及装置，通过依次提取微信公众号的历史文章数据，人工标注文章是否有敏感词汇，清洗文章数据，并作为训练数据训练word2vec模型，将文章分词并获取embedding，最后训练双向bilstm深度学习模型，获取待预测的微信公众号的预设数量的历史文章数据，清洗数据，获取embedding，使用训练后的的双向bilstm深度学习模型进行预测，输出每文章是否有敏感词汇的预测结果，然后判断多个历史文章中有敏感词汇的文章的概率，从而能够对微信公众号是否有敏感词汇进行有效判断，以向企业的广告投资提供有效参考。

附图说明

图1为本发明的一种微信公众号是否有敏感词汇的检测方法的原理示意图。

图2为本发明的一种微信公众号是否有敏感词汇的检测装置的连接示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供一种技术方案：一种微信公众号是否有敏感词汇的检测方法及装置，微信公众号是否有敏感词汇的检测方法包括以下步骤：

S1、提取微信公众号的历史文章数据，人工标注文章是否有敏感词汇。构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。

S2、清洗文章数据，对文章数据进行分词处理，并将处理后的文章数据作为训练数据训练word2vec模型，根据Word2Vec算法对的分词处理结果进行向量转换，得到分词结果向量，将文章分词并获取embedding，最后训练双向bilstm 深度学习模型，搭建神经网络模型，通过获取的embedding训练bilstm深度学习模型以获得模型参数。

S3、获取待预测的微信公众号的10篇历史文章数据，清洗数据，获取 embedding，使用训练后的的双向bilstm深度学习模型进行预测，输出每文章是否有敏感词汇的预测结果。

S4、根据预设数量文章中带有敏感词汇的文章数量，计算出有敏感词汇的文章的数量占全部文章的比例是否大于50％，是则判定被测微信公众号有敏感词汇，否则判定被测微信公众号没有敏感词汇。

请参阅图2，本发明的微信公众号是否有敏感词汇的检测装置包括：数据采集模块、数据处理模块、检测模型和计算模块。

数据采集模块用于提取微信公众号的历史文章数据，并通过人工标注文章是否有敏感词汇。

数据处理模块用于对文章数据进行分词处理和构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。

检测模型包括word2vec模型和bilstm深度学习模型。word2vec模型用于对清洗后的文章数据进行处理以获取embedding，具体根据Word2Vec算法对的分词处理结果进行向量转换，得到分词结果向量。bilstm深度学习模型用于通过embedding进行模型训练，并在训练完成后检测待测微信公众号的文章数据是否有敏感词汇，搭建神经网络模型，通过获取的embedding训练模型以获得模型参数。

计算模块用于根据待测微信公众号的预设数量的历史文章中的有敏感词汇的文章的数量，计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例，是则判定被测微信公众号有敏感词汇，否则判定被测微信公众号没有敏感词汇。在本实施例中，预设比例为15％，预设数量为10。

本发明的一种微信公众号是否有敏感词汇的检测方法及装置，通过依次提取微信公众号的历史文章数据，人工标注文章是否有敏感词汇，清洗文章数据，并作为训练数据训练word2vec模型，将文章分词并获取embedding，最后训练双向bilstm深度学习模型，获取待预测的微信公众号的预设数量的历史文章数据，清洗数据，获取embedding，使用训练后的的双向bilstm深度学习模型进行预测，输出每文章是否有敏感词汇的预测结果，然后判断多个历史文章中有敏感词汇的文章的概率，从而能够对微信公众号是否有敏感词汇进行有效判断，以向企业的广告投资提供有效参考。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微信公众号是否有敏感词汇的检测方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法，其特征在于：所述清洗文章数据具体为：对文章数据进行分词处理。

3.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法，其特征在于：所述训练word2vec模型具体为：根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量。

4.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法，其特征在于：所述训练双向bilstm深度学习模型结构具体为：搭建神经网络模型，通过获取的embedding训练模型以获得模型参数。

5.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法，其特征在于：步骤S1中，还包括：构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。

6.一种微信公众号是否有敏感词汇的检测装置，其特征在于：包括：

数据处理模块，其用于清洗文章数据；

7.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置，其特征在于：所述清洗文章数据具体为：对文章数据进行分词处理。

8.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置，其特征在于：所述word2vec模型对清洗后的文章数据进行处理具体为：根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量。

9.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置，其特征在于：所述训练双向bilstm深度学习模型结构具体为：搭建神经网络模型，通过获取的embedding训练bilstm深度学习模型以获得模型参数。

10.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置，其特征在于：所述数据处理模块还用于构建敏感词汇语料库，构建包括敏感词汇词语的科技词典，将其作为分词的优选项加到分词词典中。