CN111339251A - 一种微信公众号是否有敏感词汇的检测方法及装置 - Google Patents
一种微信公众号是否有敏感词汇的检测方法及装置 Download PDFInfo
- Publication number
- CN111339251A CN111339251A CN202010115073.0A CN202010115073A CN111339251A CN 111339251 A CN111339251 A CN 111339251A CN 202010115073 A CN202010115073 A CN 202010115073A CN 111339251 A CN111339251 A CN 111339251A
- Authority
- CN
- China
- Prior art keywords
- wechat public
- sensitive words
- articles
- training
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013136 deep learning model Methods 0.000 claims abstract description 25
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明适用于微信公众号广告投放领域,提供了一种微信公众号是否有敏感词汇的检测方法及装置,通过依次提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇,清洗文章数据,并作为训练数据训练word2vec模型,将文章分词并获取embedding,最后训练双向bilstm深度学习模型,获取待预测的微信公众号的预设数量的历史文章数据,清洗数据,获取embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果,然后判断多个历史文章中有敏感词汇的文章的概率,从而能够对微信公众号是否有敏感词汇进行有效判断,以向企业的广告投资提供有效参考。
Description
技术领域
本发明属于微信公众号广告投放领域,尤其涉及一种微信公众号是否有敏感词汇的检测方法及装置。
背景技术
微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。
但是企业在进行广告投放时需要考虑的微信公众号是否是有政治彩色的,以避免不必要的问题,同时影响企业的投资回报率,投资回报率是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报,因此需要一种能够对微信公众号是否有敏感词汇进行判断的技术。
发明内容
本发明提供一种微信公众号是否有敏感词汇的检测方法及装置,旨在解决不能对微信公众号是否有敏感词汇进行判断的问题。
本发明是这样实现的,一种微信公众号是否有敏感词汇的检测方法,包括以下步骤:
S1、提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇;
S2、清洗文章数据,并作为训练数据训练word2vec模型,将文章分词并获取embedding,最后训练双向bilstm深度学习模型;
S3、获取待预测的微信公众号的预设数量的历史文章数据,清洗数据,获取embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果;
S4、根据预设数量文章中带有敏感词汇的文章数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。
优选的,所述清洗文章数据具体为:对文章数据进行分词处理。
优选的,所述训练word2vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量。
优选的,所述训练双向bilstm深度学习模型结构具体为:搭建神经网络模型,通过获取的embedding训练模型以获得模型参数。
优选的,步骤S1中,还包括:构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
本发明还提供一种微信公众号是否有敏感词汇的检测装置,包括:
数据采集模块,其用于提取微信公众号的历史文章数据,并通过人工标注文章是否有敏感词汇;
数据处理模块,其用于清洗文章数据;
检测模型,其包括word2vec模型和bilstm深度学习模型;word2vec模型用于对清洗后的文章数据进行处理以获取embedding;bilstm深度学习模型用于通过embedding进行模型训练,并在训练完成后检测待测微信公众号的文章数据是否有敏感词汇;
计算模块,其用于根据待测微信公众号的预设数量的历史文章中的有敏感词汇的文章的数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。
优选的,所述清洗文章数据具体为:对文章数据进行分词处理。
优选的,所述word2vec模型对清洗后的文章数据进行处理具体为:根据 Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量。
优选的,所述训练双向bilstm深度学习模型结构具体为:搭建神经网络模型,通过获取的embedding训练bilstm深度学习模型以获得模型参数。
优选的,所述数据处理模块还用于构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
与现有技术相比,本发明的有益效果是:本发明的一种微信公众号是否有敏感词汇的检测方法及装置,通过依次提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇,清洗文章数据,并作为训练数据训练word2vec模型,将文章分词并获取embedding,最后训练双向bilstm深度学习模型,获取待预测的微信公众号的预设数量的历史文章数据,清洗数据,获取embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果,然后判断多个历史文章中有敏感词汇的文章的概率,从而能够对微信公众号是否有敏感词汇进行有效判断,以向企业的广告投资提供有效参考。
附图说明
图1为本发明的一种微信公众号是否有敏感词汇的检测方法的原理示意图。
图2为本发明的一种微信公众号是否有敏感词汇的检测装置的连接示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种技术方案:一种微信公众号是否有敏感词汇的检测方法及装置,微信公众号是否有敏感词汇的检测方法包括以下步骤:
S1、提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇。构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
S2、清洗文章数据,对文章数据进行分词处理,并将处理后的文章数据作为训练数据训练word2vec模型,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将文章分词并获取embedding,最后训练双向bilstm 深度学习模型,搭建神经网络模型,通过获取的embedding训练bilstm深度学习模型以获得模型参数。
S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取 embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果。
S4、根据预设数量文章中带有敏感词汇的文章数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于50%,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。
请参阅图2,本发明的微信公众号是否有敏感词汇的检测装置包括:数据采集模块、数据处理模块、检测模型和计算模块。
数据采集模块用于提取微信公众号的历史文章数据,并通过人工标注文章是否有敏感词汇。
数据处理模块用于对文章数据进行分词处理和构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
检测模型包括word2vec模型和bilstm深度学习模型。word2vec模型用于对清洗后的文章数据进行处理以获取embedding,具体根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量。bilstm深度学习模型用于通过embedding进行模型训练,并在训练完成后检测待测微信公众号的文章数据是否有敏感词汇,搭建神经网络模型,通过获取的embedding训练模型以获得模型参数。
计算模块用于根据待测微信公众号的预设数量的历史文章中的有敏感词汇的文章的数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。在本实施例中,预设比例为15%,预设数量为10。
本发明的一种微信公众号是否有敏感词汇的检测方法及装置,通过依次提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇,清洗文章数据,并作为训练数据训练word2vec模型,将文章分词并获取embedding,最后训练双向bilstm深度学习模型,获取待预测的微信公众号的预设数量的历史文章数据,清洗数据,获取embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果,然后判断多个历史文章中有敏感词汇的文章的概率,从而能够对微信公众号是否有敏感词汇进行有效判断,以向企业的广告投资提供有效参考。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种微信公众号是否有敏感词汇的检测方法,其特征在于:包括以下步骤:
S1、提取微信公众号的历史文章数据,人工标注文章是否有敏感词汇;
S2、清洗文章数据,并作为训练数据训练word2vec模型,将文章分词并获取embedding,最后训练双向bilstm深度学习模型;
S3、获取待预测的微信公众号的预设数量的历史文章数据,清洗数据,获取embedding,使用训练后的的双向bilstm深度学习模型进行预测,输出每文章是否有敏感词汇的预测结果;
S4、根据预设数量文章中带有敏感词汇的文章数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。
2.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法,其特征在于:所述清洗文章数据具体为:对文章数据进行分词处理。
3.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法,其特征在于:所述训练word2vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量。
4.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法,其特征在于:所述训练双向bilstm深度学习模型结构具体为:搭建神经网络模型,通过获取的embedding训练模型以获得模型参数。
5.如权利要求1所述的一种微信公众号是否有敏感词汇的检测方法,其特征在于:步骤S1中,还包括:构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
6.一种微信公众号是否有敏感词汇的检测装置,其特征在于:包括:
数据采集模块,其用于提取微信公众号的历史文章数据,并通过人工标注文章是否有敏感词汇;
数据处理模块,其用于清洗文章数据;
检测模型,其包括word2vec模型和bilstm深度学习模型;word2vec模型用于对清洗后的文章数据进行处理以获取embedding;bilstm深度学习模型用于通过embedding进行模型训练,并在训练完成后检测待测微信公众号的文章数据是否有敏感词汇;
计算模块,其用于根据待测微信公众号的预设数量的历史文章中的有敏感词汇的文章的数量,计算出有敏感词汇的文章的数量占全部文章的比例是否大于预设比例,是则判定被测微信公众号有敏感词汇,否则判定被测微信公众号没有敏感词汇。
7.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置,其特征在于:所述清洗文章数据具体为:对文章数据进行分词处理。
8.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置,其特征在于:所述word2vec模型对清洗后的文章数据进行处理具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量。
9.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置,其特征在于:所述训练双向bilstm深度学习模型结构具体为:搭建神经网络模型,通过获取的embedding训练bilstm深度学习模型以获得模型参数。
10.如权利要求6所述的一种微信公众号是否有敏感词汇的检测装置,其特征在于:所述数据处理模块还用于构建敏感词汇语料库,构建包括敏感词汇词语的科技词典,将其作为分词的优选项加到分词词典中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010115073.0A CN111339251A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号是否有敏感词汇的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010115073.0A CN111339251A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号是否有敏感词汇的检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339251A true CN111339251A (zh) | 2020-06-26 |
Family
ID=71185614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010115073.0A Pending CN111339251A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号是否有敏感词汇的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339251A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007121584A (ja) * | 2005-10-27 | 2007-05-17 | Oki Electric Ind Co Ltd | 学習支援装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
-
2020
- 2020-02-25 CN CN202010115073.0A patent/CN111339251A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007121584A (ja) * | 2005-10-27 | 2007-05-17 | Oki Electric Ind Co Ltd | 学習支援装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
Non-Patent Citations (2)
Title |
---|
姚彬;杜义华;: "一种基于深度学习的科普文章评论情感分析", no. 04 * |
颜月明;赵捧未;: "一种微信公众号影响力的评估方法", no. 09 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
CN109543030A (zh) | 客服机器人会话文本分类方法及装置、设备、存储介质 | |
CN110008699B (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN113590764A (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN111858878A (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN107766560A (zh) | 客服服务流程的评价方法和系统 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN111339251A (zh) | 一种微信公众号是否有敏感词汇的检测方法及装置 | |
CN107886233B (zh) | 客服的服务质量评价方法和系统 | |
CN111178068B (zh) | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 | |
CN116010916A (zh) | 用户身份信息识别方法、装置、电子设备及存储介质 | |
CN115687754A (zh) | 一种基于智能对话的主动式网络信息挖掘方法 | |
CN114186028A (zh) | 咨诉工单处理方法、装置、设备及存储介质 | |
CN111353019A (zh) | 一种微信公众号公号主题分类方法及装置 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 | |
CN114254088A (zh) | 自动应答模型的构建方法和自动应答方法 | |
CN111199426B (zh) | 一种基于随机森林模型的微信公众号roi预估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |