CN112527858A - 基于社交内容的营销账号识别方法、装置、介质和设备 - Google Patents

基于社交内容的营销账号识别方法、装置、介质和设备 Download PDF

Info

Publication number
CN112527858A
CN112527858A CN202011347766.9A CN202011347766A CN112527858A CN 112527858 A CN112527858 A CN 112527858A CN 202011347766 A CN202011347766 A CN 202011347766A CN 112527858 A CN112527858 A CN 112527858A
Authority
CN
China
Prior art keywords
marketing
picture
account
social
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011347766.9A
Other languages
English (en)
Inventor
徐路
张景鹏
郭佳
李油
赵小琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202011347766.9A priority Critical patent/CN112527858A/zh
Publication of CN112527858A publication Critical patent/CN112527858A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供基于社交内容的营销账号识别方法、装置、介质和设备,该方法包括:获取社交账号对应的社交数据,所述社交数据包括文本数据和图片数据;根据所述文本数据得到文本词向量;从所述图片数据中识别出指定种类的营销物体;对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;根据所述文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号。该方法可以快速、准确地识别出营销账号。

Description

基于社交内容的营销账号识别方法、装置、介质和设备
技术领域
本发明涉及数据挖掘领域,具体地涉及基于社交内容的营销账号识别方法、装置、介质和设备。
背景技术
现有技术一基于用户行为的营销账号识别,获取用户的基本行为数据包括转发、评论、赞、关注等,对该数据进行分析。首先对数据进行预处理包括补充缺失值、去除重复冗余值等。然后提取用户的行为特征包括各种行为的数量、时间间隔、种类、种类数量、均值和方差等,根据以上特征进行特征选择并营销用户进行画像,对比营销用户与正常用户的行为差别并结合相应规则或算法对其他用户进行识别与判断。
现有技术二基于文本的营销账号识别,文本分类问题属于自然处理领域的重要应用之一。首先针对用户所发文字进行预处理操作包括去掉无意义的词、低频词、分词等,在此基础上进行单词向量化、特征选择及特征提取,具体的算法包括TF-IDF、n-gram、word2vec、LDA等。最后利用分类模型对其进行训练,常用的传统机器学习算法包括KNN算法、朴素贝叶斯算法和SVM算法等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
针对现有技术一,社交软件中用户数以亿计,存在各种各样的行为模式。仅凭用户的行为数据去判断是否为营销肯定无法捕获多种行为模式下的营销用户,无法达到令人满意的效果。此外,这种方法还可能会产生很高的误伤率,而且这种情况下的误伤是无法排除的。
针对现有技术二,营销文本存在多种多样的表达方式,包括各种符号、多种语言等。对文本进行预处理时,可能无法对有效的信息等进行保留。因此对预处理后的文本进行分类时,可能无法获知其是否为营销,降低了营销识别的准确率。
发明内容
本发明实施例提供一种基于社交内容的营销账号识别方法、装置、介质和设备,以快速、准确地识别出营销账号。
根据本公开第一方面,提供一种基于社交内容的营销账号识别方法,其包括:
获取社交账号对应的社交数据,所述社交数据包括文本数据和图片数据;
根据所述文本数据得到文本词向量;
从所述图片数据中识别出指定种类的营销物体;
对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
根据所述文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号。
根据本公开第二方面,提供一种基于社交内容的营销账号识别装置,其包括:
输入模块,用于获取社交账号对应的社交数据,所述社交数据包括文本数据和图片数据;
文本向量化模块,用于根据所述文本数据得到文本词向量;
图片识别模块,用于从所述图片数据中识别出指定种类的营销物体;
图片向量化模块,用于对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
营销账号识别模块,用于根据所述文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号。
根据本公开第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的一种基于社交内容的营销账号识别方法。
根据本公开第四方面,提供一种电子设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的一种基于社交内容的营销账号识别方法。
上述技术方案具有如下有益效果:
本发明提出一种基于微博图文内容及昵称、简介的营销账号识别方法,不仅可以快速、准确的找出营销账号,还可以减少不必要的重复工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本发明实施例的一种基于社交内容的营销账号识别方法的流程图;
图1B是本发明实施例作为一个举例的包含指定种类的营销物体的图片的示意图;
图2是本发明实施例作为一个举例的基于微博内容的营销账号识别方法原理图;
图3是本发明实施例作为一个举例的改进的Text/Picture-CNN模型结构图;
图4是本发明实施例的一种基于社交内容的营销账号识别装置的功能框图;
图5是本发明实施例的存储介质的功能框图;
图6是本发明实施例的电子设备的功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
微博是一个具有实时性、开放性等特点的内容平台,越来越多的用户加入其中。但不乏存在一些涉及灰黑色产业的个人或机构会在微博中发布过多的营销广告,不仅会影响用户的产品体验,严重还会导致用户流失等后果。因此,挖掘出更多的、准确的营销账号就显得尤为重要。
微博里的营销账号多属于人工标注,找出营销账号的工作不仅量大,而且效率也很低。此外,营销账号对外的表现形式无非几种:昵称为营销广告、简介为营销广告、发布的微博多为文字和图片相结合的营销广告,确定其模式后即可对其进行挖掘,但挖掘的过程也会导致大量的重复工作,会给标注人员带来额外的负担。本发明的实施例提出一种基于微博图文内容及昵称、简介的营销账号识别方法,不仅可以快速、准确的找出营销账号,还可以减少不必要的重复工作。
本发明实施例通过社交图文内容、昵称及简介对用户是否为营销账号进行识别,即将图片中识别出来的营销物品名称和社交文本内容、昵称及简介一起进行模型训练,从而提高营销账号的识别率,降低误伤率。
Text/Picture-CNN:改进的Text-CNN算法,用于对文本和图片信息同时进行训练的算法。
YOLO3算法:单阶段目标检测算法,该算法将物体检测任务当做回归问题处理,从而实现快速的、高性能的目标检测。
Softmax函数:又称归一化指数函数,旨在将多分类的结果以概率的形式展现出来。
图1A是本发明实施例的一种基于社交内容的营销账号识别方法的流程图。如图1所示,其包括如下步骤:
S110:获取社交账号对应的社交数据,社交数据包括文本数据和图片数据;
S120:根据文本数据得到文本词向量;
S130:从图片数据中识别出指定种类的营销物体;营销物体的种类可以有多种,包括但不限制于:口红、手表、鞋。基于图片识别算法,当图片中包含上述三类营销物体中的任意一种或任意多种时,均可以识别出来。
S140:对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
S150:根据文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定社交账号是否为营销账号。
在一些实施例中,文本数据包括:社交账号对应的昵称、社交账号的简介、社交账号发布的文本内容。
S120的根据文本数据获得文本词向量,具体可以包括:
去除文本数据中的无用符号、低频词及停用词,之后进行分词操作,得到预处理结果;
将预处理结果利用word2vec算法进行向量化表示,得到文本词向量。
在一些实施例中,S130的图片数据中识别出指定的营销物体,具体可以包括:
对图片数据进行去重预处理;基于预先设定的图片识别算法,从预处理后的图片数据中识别出特定的营销物体。本实施例中预先设定的图片识别算法不限于采用YOLO3算法,其他目标检测方法均可替代YOLO3算法。
在一些实施例中,S140的对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量,具体可以包括:
将识别出的每种指定种类的营销物体表示为如下图片向量:
X={id,sizeratio,picsum,picratio}
其中,id表示营销物体的种类所对应的编号,sizeratio表示从图片数据中识别出的所有相同种类的营销物体大小占图片大小的比例总和;picsum表示图片总张数,picratio表示从图片数据中识别出的包含相同编号的营销物体的图片张数占图片总张数的比例;不同的编号对应不同种类的营销物体,营销物体都有编号,以满足模型输入只能是数值型的要求。营销物体主要包括三类:口红、手表和鞋子。
Figure BDA0002800363660000051
其中,i表示第i张图片,S_object_i表示第i张图片中识别出来的包含相同编号的营销物体大小,S_pic_i表示第i张图片大小;
分类模型包括基于Text/Picture-CNN算法的分类模型。
图1B是本发明实施例作为一个举例的包含指定种类的营销物体的图片的示意图。如图1B所示,作为一个示例,假设有5张图片,在示例中给出的每张图片中包含一个或一个以上的指定的营销物体,其中方框形状图案代表口红,三角形图案代表鞋子,菱形图案代表手表。上述方框形状图案、三角形图案、菱形图案仅作为示意,不代表实际产品的形状,或实际图片中的形状。设定口红的种类编号为0,鞋子的种类编号为1,手表的种类编号为2,则可获得如下三个向量:
口红向量:
Figure BDA0002800363660000052
鞋子向量:
Figure BDA0002800363660000053
手表向量:
Figure BDA0002800363660000054
将每个种类或类别的图片向量进行拼接,获得总图片向量。每个类别的图片向是是4维,拼接后为12维的总图片向量。在该示例中,当一张图片中包含两个以上的指定种类的营销物体时,这个图片属于两个以上的分类或种类。
在一些实施例中,S150的根据文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定社交账号是否为营销账号,具体可以包括:
将所述文本词向量输入所述分类模型的卷积层,得到不同大小的特征图,所述卷积层包括多个不同大小的卷积核;
在所述分类模型的池化层对每个特征图进行最大池化处理,得到大小为特征图数量的一维特征向量;
将所述每种指定种类的营销物体对应的图片向量进行拼接得到总图片向量;
将所述一维特征向量与所述总图片向量进行拼接,得到新的具有文本及图片信息的特征向量;
将新的具有文本及图片信息的特征向量接入一层全连接层进行特征融合;
经全连接层后,再接入一层具有两个结点的输出层,通过softmax函数进行二分类,得到所述两个结点分别对应的两个概率值,根据所述两个概率值确定所述社交账号是否为营销账号;其中,所述两个概率值包括第一概率值和第二概率值,第一概率值表示该社交账号是营销账号的概率,第二概率值表示该社交账号是非营销账号的概率。以概率值较大值确定该社交账号是否是营销账号。
作为一个举例,上述两个结点中以上结点作为营销账号结点,以下结点作为非营销账号结点,或者反过来设置也可以,上结点、下结点的输出值经过softmax函数后分别得到第一概率值和第二概率值,如果第一概率值大于第二概率值,则该待分析的社交账号是营销账号。即,上结点、下结点中的任意一个被定义为营销账号结点,另一个被定义为非营销账号结点,当营销账号结点的概率值是两个概率值中的较大的概率值时,则该待分析的社交账号是营销账号。作为一个举例,在具有两个结点的输出层中,假设预先定义上边的结点表示是营销账号,下边的结点表示非营销账号,如果上结点的输出的概率值是0.46,下结点的输出值是0.54,则由于下结点的概率值大,表示该社交账号是非营销账号。如果上结点的输出的概率值是0.91,下结点的输出的概率值是0.09,由于上结点的概率值大,则表示该社交账号是营销账号。
在一些实施例中,指定种类的营销物体包括但不限于:口红、鞋、手表;社交账号包括微博账号或者其他社交媒体账号;文本词向量的最大长度为64,每个文本词向量的维度为128维;卷积核的大小设定为2*128维、3*128维、4*128维,个数分别为64。
以下对上述方法进行更加详细的说明:
本发明实施例拟识别的营销物体包括但不限于以下三种:口红、鞋、手表,基于微博内容的营销账号识别方法原理如图2所示,图2是本发明实施例的基于微博内容的营销账号识别方法原理图。该方法首先获取微博用户的昵称、简介和微博图文内容,然后对文本和图片分别进行处理。对于图片,首先进行去重预处理,然后输入到图片识别模块中进行目标检测。本发明的实施例可以采用YOLO3算法对图片进行营销识别,并将识别结果中识别率或准确率不低于50%的物品进行特征提取。该YOLO3算法可以在保持速度优势的前提下,提升预测精度,尤其是加强了对小物体的识别能力。对于文本,通过去除无用符号、低频词及停用词、分词操作来获取预处理结果,然后为处理后的结果利用word2vec算法进行向量化表示。最后,本发明的实施例采用Text/Picture-CNN算法对文本向量进行训练,并在最后一层全连接层通过将全连接层的特征向量与图片向量进行拼接从而完成营销账号识别。下面详细描述识别过程的各个步骤。
本发明实施例以下将详细介绍图片识别结果的向量化处理、Text/Picture-CNN模型的技术方案。
图片识别结果的向量化处理操作主要指将识别出来的物品结果进行向量化处理。本发明的实施例可以利用YOLO3算法等目标检测算法识别图片中的营销物体,并将识别率不低于50%的物体进行向量化表示,即将识别出的营销物体表示为:
X={id,sizeratio,picsum,picratio}……………………(1)
其中,id表示营销物体的种类所对应的编号,sizeratio表示图片中识别出的所有同类营销物体大小占图片大小的比例总和,即:
Figure BDA0002800363660000071
其中i表示图片张数,S_object_i表示第i张图片中识别出来的包含或具有相同编号的营销物体的大小,S_pic_i表示第i张图片的大小。picsum表示所有图片张数,picratio表示识别出的包含相同编号的营销物体的图片张数占所有图片张数的比例。
经上述操作后将识别出的营销物体向量化表示,将未识别出的营销物体用全零进行填充。因此,图片向量化可表示为1*12维,即3类物体,每类物体用1*4维的向量表示。
如图3所示为本发明实施例中改进的Text/Picture-CNN模型结构图。通常情况下,微博中的营销文本较长,本发明的实施例限制文本词向量的最大长度为64,每个词向量的维度为128维。此外,卷积核的大小设定为2*128维、3*128维、4*128维,个数分别为64,经卷积后进行最大池化,最后将池化后的特征与图片识别结果的向量进行拼接形成新的具有文本及图片信息的特征向量,后经一层全连接层进行特征融合。最后,经softmax函数进行二分类,以此来判断某用户所发微博是否属于营销。
上述基于社交内容的营销识别方法,利用了社交中用户的昵称属性、简介属性和图文内容一起进行训练,并利用改进后的Text/Picture-CNN模型识别是否为营销。
图4是本发明实施例的一种基于社交内容的营销账号识别装置的功能框图。如图4所示,该装置200包括:
输入模块,用于获取社交账号对应的社交数据,社交数据包括文本数据和图片数据;
文本向量化模块,用于根据文本数据得到文本词向量;
图片识别模块,用于图片数据中识别出指定的营销物体;
图片向量化模块,用于对识别出的指定种类的营销物体进行向量化处理,分别得到定种类的营销物体对应的图片向量;
营销账号识别模块,用于根据文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定该社交账号是否为营销账号。
进一步地,图片识别模块,可以用于对图片数据进行去重预处理;基于预先设定的图片识别算法,从去重预处理后的图片数据中识别出指定种类的营销物体。
进一步地,营销账号识别模块,具体可以用于:将所述文本词向量输入所述分类模型的卷积层,得到不同大小的特征图,所述卷积层包括多个不同大小的卷积核;在所述分类模型的池化层对每个特征图进行最大池化处理,得到大小为特征图数量的一维特征向量;将所述每种指定种类的营销物体对应的图片向量进行拼接得到总图片向量;将所述一维特征向量与所述总图片向量进行拼接,得到新的具有文本及图片信息的特征向量;将新的具有文本及图片信息的特征向量接入一层全连接层进行特征融合;经全连接层后,再接入一层具有两个结点的输出层,通过softmax函数进行二分类,得到所述两个结点分别对应的两个概率值,根据所述两个概率值确定所述社交账号是否为营销账号。
图5是本发明实施例的存储介质的功能框图。如图5所示,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取社交账号对应的社交数据,社交数据包括文本数据和图片数据;
根据文本数据得到文本词向量;
从图片数据中识别出指定种类的营销物体;
对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
根据文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定社交账号是否为营销账号。
所述计算机可读存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
图6是本发明实施例的电子设备的功能框图。本发明实施例还提供了一种电子设备,如图6所示,包括一个或多个处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。
存储器,用于存放计算机程序;
一个或多个处理器,用于执行存储器上所存放的程序时,实现如下步骤:
获取社交账号对应的社交数据,社交数据包括文本数据和图片数据;
根据文本数据得到文本词向量;
从图片数据中识别出指定种类的营销物体;
对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
根据文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定社交账号是否为营销账号。
在一些实施例中,文本数据包括:社交账号对应的昵称、社交账号的简介、社交账号发布的文本内容;
上述的根据文本数据得到文本词向量,具体包括:
去除文本数据中的无用符号、低频词及停用词,之后进行分词操作,得到预处理结果;
将预处理结果利用word2vec算法进行向量化表示,得到文本词向量。
在一些实施例中,在处理器的处理中,上述的从图片数据中识别出指定种类的营销物体,具体包括:
对图片数据进行去重预处理;
基于预先设定的图片识别算法,从去重预处理后的图片数据中识别出指定种类的营销物体。
在一些实施例中,在处理器的处理中,上述的对识别出的营销物体进行向量化处理,获得不同的营销物体对应的图片向量,具体可以包括:
对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量,具体包括:
将识别出的每种指定种类的营销物体表示为如下图片向量:
X={id,sizeratio,picsum,picratio}
其中,id表示营销物体的种类所对应的编号,sizeratio表示从图片数据中识别出的所有相同种类的营销物体大小占图片大小的比例总和;picsum表示图片总张数,picratio表示从图片数据中识别出的包含相同编号的营销物体的图片张数占图片总张数的比例;
Figure BDA0002800363660000101
其中,i表示第i张图片,S_object_i表示第i张图片中识别出来的包含相同编号的营销物体大小,S_pic_i表示第i张图片大小;
分类模型可以包括基于Text/Picture-CNN算法的分类模型。
在一些实施例中,在处理器的处理中,根据文本词向量、指定种类的营销物体对应的图片向量和预先训练好的分类模型,确定社交账号是否为营销账号,具体可以包括:
将文本词向量输入分类模型的卷积层,卷积层包括多个不同大小的卷积核,从而得到不同大小的特征图;
将所述文本词向量输入所述分类模型的卷积层,得到不同大小的特征图,所述卷积层包括多个不同大小的卷积核;在所述分类模型的池化层对每个特征图进行最大池化处理,得到大小为特征图数量的一维特征向量;将所述每种指定种类的营销物体对应的图片向量进行拼接得到总图片向量;将所述一维特征向量与所述总图片向量进行拼接,得到新的具有文本及图片信息的特征向量;将新的具有文本及图片信息的特征向量接入一层全连接层进行特征融合;经全连接层后,再接入一层具有两个结点的输出层,通过softmax函数进行二分类,得到所述两个结点分别对应的两个概率值,根据所述两个概率值确定所述社交账号是否为营销账号;其中,所述两个概率值包括第一概率值和第二概率值,所述第一概率值表示所述社交账号是营销账号的概率,所述第二概率值表示所述社交账号是非营销账号的概率。
在一些实施例中,在处理器的处理中,上述指定的营销物体包括但不限于:口红、鞋、手表;所述文本词向量的最大长度为64,每个文本词向量的维度为128维;所述卷积核的大小设定为2*128维、3*128维、4*128维,个数分别为64。
上述设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
硬件描述语言(Hardware Description Language,HDL)有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera HardwareDescriptionLanguage)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于社交内容的营销账号识别方法,其特征在于,包括:
获取社交账号对应的社交数据,所述社交数据包括文本数据和图片数据;
根据所述文本数据得到文本词向量;
从所述图片数据中识别出指定种类的营销物体;
对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
根据所述文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号。
2.根据权利要求1所述的方法,其特征在于,所述文本数据包括:所述社交账号对应的昵称、所述社交账号的简介、所述社交账号发布的文本内容;
所述的根据所述文本数据得到文本词向量,具体包括:
去除所述文本数据中的无用符号、低频词及停用词,之后进行分词操作,得到预处理结果;
将所述预处理结果利用word2vec算法进行向量化表示,得到文本词向量。
3.根据权利要求1所述的方法,其特征在于,所述的从所述图片数据中识别出指定种类的营销物体,具体包括:
对所述图片数据进行去重预处理;
基于预先设定的图片识别算法,从去重预处理后的图片数据中识别出指定种类的营销物体。
4.根据权利要求1所述的方法,其特征在于,所述的对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量,具体包括:
将识别出的每种指定种类的营销物体表示为如下图片向量:
X={id,sizeratio,picsum,picratio}
其中,id表示营销物体的种类所对应的编号,sizeratio表示从图片数据中识别出的所有相同种类的营销物体大小占图片大小的比例总和;picsum表示图片总张数,picratio表示从图片数据中识别出的包含相同编号的营销物体的图片张数占图片总张数的比例;
Figure FDA0002800363650000011
其中,i表示第i张图片,S_object_i表示第i张图片中识别出来的包含相同编号的营销物体大小,S_pic_i表示第i张图片大小;
所述分类模型包括基于Text/Picture-CNN算法的分类模型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述的根据所述文本词向量、所述每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号,具体包括:
将所述文本词向量输入所述分类模型的卷积层,得到不同大小的特征图,所述卷积层包括多个不同大小的卷积核;
在所述分类模型的池化层对每个特征图进行最大池化处理,得到大小为特征图数量的一维特征向量;
将所述每种指定种类的营销物体对应的图片向量进行拼接得到总图片向量,将所述一维特征向量与所述总图片向量进行拼接,得到新的具有文本及图片信息的特征向量;
将新的具有文本及图片信息的特征向量接入一层全连接层进行特征融合;
经全连接层后,再接入一层具有两个结点的输出层,通过softmax函数进行二分类,得到所述两个结点分别对应的两个概率值,根据所述两个概率值确定所述社交账号是否为营销账号;其中,所述两个概率值包括第一概率值和第二概率值,所述第一概率值表示所述社交账号是营销账号的概率,所述第二概率值表示所述社交账号是非营销账号的概率。
6.一种基于社交内容的营销账号识别装置,其特征在于,包括:
输入模块,用于获取社交账号对应的社交数据,所述社交数据包括文本数据和图片数据;
文本向量化模块,用于根据所述文本数据得到文本词向量;
图片识别模块,用于从所述图片数据中识别出指定种类的营销物体;
图片向量化模块,用于对识别出的指定种类的营销物体进行向量化处理,分别得到每种指定种类的营销物体对应的图片向量;
营销账号识别模块,用于根据所述文本词向量、每种指定种类的营销物体对应的图片向量和预先训练的分类模型,确定所述社交账号是否为营销账号。
7.根据权利要求6所述的基于社交内容的营销账号识别装置,其特征在于,所述的图片识别模块,用于对所述图片数据进行去重预处理;基于预先设定的图片识别算法,从去重预处理后的图片数据中识别出指定种类的营销物体。
8.根据权利要求6或7所述的基于社交内容的营销账号识别装置,其特征在于,营销账号识别模块,具体用于:将所述文本词向量输入所述分类模型的卷积层,得到不同大小的特征图,所述卷积层包括多个不同大小的卷积核;在所述分类模型的池化层对每个特征图进行最大池化处理,得到大小为特征图数量的一维特征向量;将所述每种指定种类的营销物体对应的图片向量进行拼接得到总图片向量;将所述一维特征向量与所述总图片向量进行拼接,得到新的具有文本及图片信息的特征向量;将新的具有文本及图片信息的特征向量接入一层全连接层进行特征融合;经全连接层后,再接入一层具有两个结点的输出层,通过softmax函数进行二分类,得到所述两个结点分别对应的两个概率值,根据所述两个概率值确定所述社交账号是否为营销账号;其中,所述两个概率值包括第一概率值和第二概率值,所述第一概率值表示所述社交账号是营销账号的概率,所述第二概率值表示所述社交账号是非营销账号的概率。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任意一项所述的一种基于社交内容的营销账号识别方法。
10.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的一种基于社交内容的营销账号识别方法。
CN202011347766.9A 2020-11-26 2020-11-26 基于社交内容的营销账号识别方法、装置、介质和设备 Pending CN112527858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011347766.9A CN112527858A (zh) 2020-11-26 2020-11-26 基于社交内容的营销账号识别方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011347766.9A CN112527858A (zh) 2020-11-26 2020-11-26 基于社交内容的营销账号识别方法、装置、介质和设备

Publications (1)

Publication Number Publication Date
CN112527858A true CN112527858A (zh) 2021-03-19

Family

ID=74993993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011347766.9A Pending CN112527858A (zh) 2020-11-26 2020-11-26 基于社交内容的营销账号识别方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN112527858A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439630A (zh) * 2010-02-10 2012-05-02 松下电器产业株式会社 图像评价装置、图像评价方法、程序、集成电路
US20180144256A1 (en) * 2016-11-22 2018-05-24 Facebook, Inc. Categorizing Accounts on Online Social Networks
CN108764268A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于深度学习的图文多模态情感识别方法
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
CN111708823A (zh) * 2020-08-18 2020-09-25 腾讯科技(深圳)有限公司 异常社交账号识别方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439630A (zh) * 2010-02-10 2012-05-02 松下电器产业株式会社 图像评价装置、图像评价方法、程序、集成电路
US20180144256A1 (en) * 2016-11-22 2018-05-24 Facebook, Inc. Categorizing Accounts on Online Social Networks
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN108764268A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于深度学习的图文多模态情感识别方法
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
CN111708823A (zh) * 2020-08-18 2020-09-25 腾讯科技(深圳)有限公司 异常社交账号识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107209860B (zh) 用于处理弱监督图像的方法、系统和计算机存储介质
CN109086753B (zh) 基于双通道卷积神经网络的交通标志识别方法、装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
Guan et al. On-device mobile landmark recognition using binarized descriptor with multifeature fusion
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111325245B (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN113762309B (zh) 对象匹配方法、装置及设备
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
Sridhar et al. Fake news detection and analysis using multitask learning with BiLSTM CapsNet model
CN113254655B (zh) 文本分类方法、电子设备及计算机存储介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN112990172B (zh) 一种文本识别方法、字符识别方法及装置
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN110033092B (zh) 数据标签生成、模型训练、事件识别方法和装置
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN111382243A (zh) 文本的类别匹配方法、类别匹配装置及终端
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN112527858A (zh) 基于社交内容的营销账号识别方法、装置、介质和设备
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
Cevikalp et al. Towards category based large-scale image retrieval using transductive support vector machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination