CN111353019A - 一种微信公众号公号主题分类方法及装置 - Google Patents
一种微信公众号公号主题分类方法及装置 Download PDFInfo
- Publication number
- CN111353019A CN111353019A CN202010114547.XA CN202010114547A CN111353019A CN 111353019 A CN111353019 A CN 111353019A CN 202010114547 A CN202010114547 A CN 202010114547A CN 111353019 A CN111353019 A CN 111353019A
- Authority
- CN
- China
- Prior art keywords
- public number
- model
- training
- word
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 238000013136 deep learning model Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本发明适用于微信公众号广告投放技术领域,提供了一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出,通过判断微信公众号主题类型是否符合当前业务下的投放标准,为广告投放提供数据上的参考。
Description
技术领域
本发明属于微信公众号广告投放领域,尤其涉及一种微信公众号公号主题分类方法及装置。
背景技术
微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。
但是企业在进行广告投放时需要考虑公众号主题类型是否符合业务场景下的投放标准,进而影响投资回报率,投资回报率是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报,因此需要一种能够对微信公众号主题类型进行预测的技术。
发明内容
本发明提供一种微信公众号公号主题分类方法及装置,旨在解决不能够对微信公众号的主题类型进行预测的问题。
本发明是这样实现的,一种微信公众号公号主题分类方法,包括以下步骤:
S1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
S2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;
S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;
S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。
优选的,所述清洗文章数据具体为:对文章数据进行分词处理。
优选的,所述训练Word2Vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
优选的,所述训练TextCNN深度学习模型以获得分类模型具体为:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。
本发明还提供一种微信公众号公号主题分类装置,包括:
数据采集模块,用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
数据处理模块,用于清洗文章数据,训练Word2Vec模型,获取embedding;
分类模型训练模块,用于训练TextCNN深度学习模型以获得分类模型。
优选的,所述数据处理模块还用于:对文章数据进行分词处理。
优选的,所述数据处理模块还用于:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
优选的,所述分类模型训练模块还用于:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。
与现有技术相比,本发明的有益效果是:本发明的一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。本发明通过判断微信公众号主题类型是否符合当前业务下的投放标准,能够为广告投放提供数据上的参考。
附图说明
图1为本发明的一种微信公众号公号主题分类方法的流程示意图。
图2为本发明的一种微信公众号公号主题分类装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种技术方案:一种微信公众号公号主题分类方法及装置,一种微信公众号公号主题分类方法包括以下步骤:
S1、在数据库内提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种。
S2、清洗文章数据,训练Word2Vec模型,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵;根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。最后训练TextCNN深度学习模型以获得分类模型,将模型参数传输到磁盘内进行存储以便后续使用,将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对训练文本集进行训练得到分类模型。
S3、在数据库内获取待预测的微信公众号的10篇历史文章数据,清洗文章数据,对文章数据进行分词处理,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵,根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。将第一初始矩阵、第二初始矩阵分别输入训练后的分类模型进行主题分类,输出文章的主题类型。
S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。
请参阅图2,本发明的一种微信公众号公号主题分类装置,包括数据采集模块、数据处理模块、分类模型训练模块。
数据采集模块用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种。
数据处理模块用于清洗文章数据,对文章数据进行分词处理,训练Word2Vec模型,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵,根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
分类模型训练模块用于训练TextCNN深度学习模型以获得分类模型,将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对训练文本集进行训练得到分类模型。分类模型能够进行主题分类,输出文章的主题类型,根据获得的文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并作为结果输出。
本发明的一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型,根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。通过判断微信公众号主题类型是否符合当前业务下的投放标准,为广告投放提供数据上的参考。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种微信公众号公号主题分类方法,其特征在于:包括以下步骤:
S1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
S2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;
S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;
S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。
2.如权利要求1所述的一种微信公众号公号主题分类方法,其特征在于:所述清洗文章数据具体为:对文章数据进行分词处理。
3.如权利要求2所述的一种微信公众号公号主题分类方法,其特征在于:所述训练Word2Vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
4.如权利要求3所述的一种微信公众号公号主题分类方法,其特征在于:所述训练TextCNN深度学习模型以获得分类模型具体为:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。
5.一种微信公众号公号主题分类装置,其特征在于:包括:
数据采集模块,用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
数据处理模块,用于清洗文章数据,训练Word2Vec模型,获取embedding;
分类模型训练模块,用于训练TextCNN深度学习模型以获得分类模型。
6.如权利要求5所述的一种微信公众号公号主题分类装置,其特征在于:所述数据处理模块还用于:对文章数据进行分词处理。
7.如权利要求6所述的一种微信公众号公号主题分类装置,其特征在于:所述数据处理模块还用于:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
8.如权利要求7所述的一种微信公众号公号主题分类装置,其特征在于:所述分类模型训练模块还用于:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114547.XA CN111353019A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号公号主题分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114547.XA CN111353019A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号公号主题分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353019A true CN111353019A (zh) | 2020-06-30 |
Family
ID=71195768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114547.XA Pending CN111353019A (zh) | 2020-02-25 | 2020-02-25 | 一种微信公众号公号主题分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353019A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898369A (zh) * | 2020-08-17 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787025A (zh) * | 2016-02-24 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 网络平台公共账号分类方法及装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN106202391A (zh) * | 2016-07-08 | 2016-12-07 | 深圳市中北明夷科技有限公司 | 一种用户社群的自动分类方法及装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN109684483A (zh) * | 2018-12-11 | 2019-04-26 | 平安科技(深圳)有限公司 | 知识图谱的构建方法、装置、计算机设备及存储介质 |
CN110110079A (zh) * | 2019-03-21 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN110147449A (zh) * | 2019-05-27 | 2019-08-20 | 中国联合网络通信集团有限公司 | 文本分类方法和装置 |
CN110321546A (zh) * | 2018-03-30 | 2019-10-11 | 深圳市腾讯计算机系统有限公司 | 账号识别、显示方法、装置、服务器、终端及存储介质 |
-
2020
- 2020-02-25 CN CN202010114547.XA patent/CN111353019A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787025A (zh) * | 2016-02-24 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 网络平台公共账号分类方法及装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN106202391A (zh) * | 2016-07-08 | 2016-12-07 | 深圳市中北明夷科技有限公司 | 一种用户社群的自动分类方法及装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN110321546A (zh) * | 2018-03-30 | 2019-10-11 | 深圳市腾讯计算机系统有限公司 | 账号识别、显示方法、装置、服务器、终端及存储介质 |
CN109684483A (zh) * | 2018-12-11 | 2019-04-26 | 平安科技(深圳)有限公司 | 知识图谱的构建方法、装置、计算机设备及存储介质 |
CN110110079A (zh) * | 2019-03-21 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN110147449A (zh) * | 2019-05-27 | 2019-08-20 | 中国联合网络通信集团有限公司 | 文本分类方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898369A (zh) * | 2020-08-17 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
CN111898369B (zh) * | 2020-08-17 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570708B (zh) | 一种智能客服知识库的管理方法及系统 | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN108763212A (zh) | 一种地址信息提取方法及装置 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN110781277A (zh) | 文本识别模型相似度训练方法、系统、识别方法及终端 | |
CN111177310A (zh) | 电力服务机器人智能场景会话方法及装置 | |
CN110727776B (zh) | 一种基于人工智能的汽车问答交互系统及交互方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110955690A (zh) | 一种基于大数据技术的自助数据标签平台及自助数据标签方法 | |
CN110825839A (zh) | 一种对文本信息中目标的关联关系分析方法 | |
CN105224955A (zh) | 基于微博大数据获取网络服务状态的方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN113297365B (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN111353019A (zh) | 一种微信公众号公号主题分类方法及装置 | |
CN112884009A (zh) | 一种分类模型训练方法及系统 | |
CN112395885A (zh) | 短文本语义理解模板生成方法、语义理解处理方法及装置 | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN116701636A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN107066450B (zh) | 一种基于学习的即时通信会话切分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |