CN114579747A - 一种识别化妆品直播营销违规宣传方法 - Google Patents

一种识别化妆品直播营销违规宣传方法 Download PDF

Info

Publication number
CN114579747A
CN114579747A CN202210229158.0A CN202210229158A CN114579747A CN 114579747 A CN114579747 A CN 114579747A CN 202210229158 A CN202210229158 A CN 202210229158A CN 114579747 A CN114579747 A CN 114579747A
Authority
CN
China
Prior art keywords
propaganda
text
cosmetics
false
live broadcast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210229158.0A
Other languages
English (en)
Inventor
徐新胜
曹立
杜文
赵琦
王平
肖诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202210229158.0A priority Critical patent/CN114579747A/zh
Publication of CN114579747A publication Critical patent/CN114579747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

为了避免客户在观看化妆品直播时,因直播内容违规宣传而盲目下单,导致难以维权。本发明公开了一种识别化妆品直播营销违规宣传方法,从夸大宣传和虚假宣传两方面去识别是否存在违规宣传现象。包括:一、依据有关法律法规,对化妆品直播营销中常见的违规宣传进行划分,划分为夸大宣传三类和虚假宣传一类。二、基于直播转换的文本数据使用鲸鱼优化寻优算法,依据化妆品直播营销的三个夸大宣传类别,提取分类特征词集合,提供是否存在夸大宣传的依据。三、根据直播转换的文本和图像数据,形成文本图和视觉图,进行节点级和结构级匹配,计算整体相似度,从而识别虚假宣传。

Description

一种识别化妆品直播营销违规宣传方法
技术领域
本发明涉及自然语言处理与图像处理领域,尤其涉及一种基于文 本和图像融合识别化妆品直播营销违规宣传方法。
背景技术
近年来,网络直播在我国兴起,并呈现快速发展趋势,到目前为 止,直播电商已经成为电商发展主流,商品信息展示动态化的趋势逐渐明显, 然而也产生了一些新的消费问题。直播行业产品质量问题频发、营销主播夸 大和虚假宣传,其中化妆品行业尤为突出。因此在实际客户观看直播时,往 往难以判断直播是否涉及到违规宣传,从而盲目下单,导致难以维权。
发明内容
为了解决上述问题,本发明提供了一种基于鲸鱼优化算法和聚类 算法的有关化妆品直播营销是否违规宣传的识别方法,提供一种先验知识, 依据化妆品有关条例,将直播营销中的常见违法宣传分成有关宣传用于的前 三类和虚假宣传的第四类,以一个直播商品为单位,截取这个商品的直播音 视频,然后通过讯飞听见软件和Video to Picture软件,将该直播内容转换成 文本数据和图像数据,对文本数据将进行分析,特征提取,进而聚类,完成 对宣传用语的违规宣传分类,再通过Faster R-CNN深度学习模型和LTP (哈工大语言技术平台)分别检测特征区域并解析语义依赖,形成视觉图和 文本图,完成节点级匹配和结构级匹配,以相似度为目标函数,建立图文匹 配的虚假宣传识别模型,从而形成文本图像融合的综合直播营销违规宣传模 型,提供观看直播营销人群一种先验知识,具有一定的实用价值。
根据本申请的一个方面,提出一种识别化妆品直播营销违规宣传 的方法:
S1、首先有关化妆品选择法律法规,将直播营销中常见违反广告 法的情形大致分为四类,前三类是关于宣传用语的违规宣传,第四类是虚假 宣传。
具体的,步骤S1具体为:
S101、第一类:乱用最高级、唯一级等极限关键字以及化妆品使 用纯天然制品、无副作用等绝对化语言。称为类别1
S102、第二类:化妆品使用或者变相使用国家机关和国家机关工 作人员的名义以及利用广告代言人作推荐、证明。称为类别2。
S103、第三类:化妆品广告宣传医疗作用或者使用医疗术语以及 以暗示方法使人误解其效用。称为类别3。
S104、第四类:以虚假或者引人误解的内容欺骗、误导消费者的 其他情形。单独称为虚假宣传。
S2、首是对文本的处理,通过讯飞听见软件将直播营销音频转化 为文本,将文本进行预处理后形成文本数据集,按照4:1分训练集和测试 集,预处理后的训练集文本利用jieba分词器进行分词,使用实数编码对句 子进行编码,生成输入序列并将其向量化表示。
S3、将输入序列送入基于鲸鱼优化算法特征提取模型,按照5折 交叉验证法,以分类精度为目标函数,设置迭代次数和函数参数,得到主题 关键特征词解集,构建分类关键词集合。
S4、由于关键特征词集合内包含词汇量大,之后文本数据采用 word2vec模型中的Skip-gram模型,对其进行向量化表示,再根据K- means++聚类算法进行分类词聚类,得到聚类簇。
S5、根据形成的聚类簇,对比直播中的文本数据,从而判断直播 营销中是否存在宣传用语上的违规宣传。
S6、将已经预处理完的文本数据根据LTP(哈工大语言技术平 台),解析句子中的宾语(名词)、关系(动词)和属性(形容词或量词)以及之间 的语义依赖关系,形成文本图。
S7、其次的是对于图像的处理,通过Video to Picture软件将直播 视频逐帧转为图像数据,形成数据集。对其进行预处理,选取存在违规宣传 的图像,然后对图像分析标注出违规宣传位置及类别,构成训练样本集。
S8、利用训练样本集对FasterR-CNN模型框架进行训练,其中采 用的是一种基于Two-Stage的目标检测算法。通过第一步对提取直播图像中 检测候选区域和第二步对直播图像的候选区域进行特征提取与分类,形成视 觉图。
S9、将文本的文本图和图像的视觉图进行节点级匹配和结构级匹 配,匹配两个图学习细粒度对应,产生文本与图像的全局相似度,作为基于 图文匹配识别虚假宣传的依据。
S10、综合违规宣传识别模型分类在基于文本的夸大宣传识别和基 于文本图像的虚假宣传识别两部分,某个化妆品在直播营销存在夸大宣传和 虚假宣传任意其一,或者两者都存在,那么都可视为违规宣传。
本发明有益效果:本发明采用一种识别化妆品直播营销违规宣传 模型,先将化妆品常见违规宣传情形大致分类为夸大宣传和虚假宣传,以一 个直播商品为单位,通过建立夸大宣传识别和虚假宣传识别的综合违规宣传 识别模型,给客户提供一种判断是否涉及违规宣传的先验方法,从而能够预 防一些产品质量问题。
根据下文结合附图对本发明的具体描述,本领域技术人员将会更 加明了本发明的上述以及其他目的、优点和特征。
附图说明
图一为本申请一个实施例的一种识别化妆品直播营销违规宣传流 程图。
图二为本申请一个实施例的鲸鱼优化算法模型图。
图三为本申请一个实施例的文本与图像计算整体相似度模型。
图四为本申请一个实施例的基于直播数据识别化妆品违规宣传的 模型结构。
具体实施方式
实施过程主要包括三个步骤:依据有关法律法规将化妆品违规宣 传大致分为有关宣传用语的前三类和虚假宣传一类、用新型启发式寻优算法 处理直播音频转换的文本数据识别夸大宣传和根据一种新型的图文结构匹配 网络建立识别直播营销虚假宣传模型。
S1、根据《中华人民共和国广告法》、《化妆品命名规则》和 《化妆品命名指南》等法律法规,对化妆品直播营销中常见涉及违规宣传大 致分为三类。
S2、以一个直播商品为单位,通过讯飞听写软件将直播营销音频 转化为文本,将文本进行预处理后形成文本数据集,按照4:1分训练集和 测试集,预处理后的训练集文本利用jieba分词器进行分词,使用实数编码 对句子进行编码,生成输入序列并将其向量化表示。
S3、将输入序列送入基于鲸鱼优化算法特征提取模型,按照5折 交叉验证法,以分类精度为目标函数,设置迭代次数和函数参数,随机进行 变异操作,得到最优解,构建分类关键词集合。
S4、由于关键特征词集合内包含词汇量大,之后分完词的文本数 据采用word2vec模型中的Skip-gram模型,根据K-means++聚类算法进行分 类词聚类,得到类别聚类簇。
S5、根据形成的聚类簇,对比直播中的文本数据,从而判断直播 营销中是否存在宣传用语上的夸大宣传。
具体的,步骤S1具体为:
S101、第一类:乱用最高级、唯一级等极限关键字以及化妆品使 用纯天然制品、无副作用等绝对化语言。称为类别1
S102、第二类:化妆品使用或者变相使用国家机关和国家机关工 作人员的名义以及利用广告代言人作推荐、证明。称为类别2。
S103、第三类:化妆品广告宣传医疗作用或者使用医疗术语以及 以暗示方法使人误解其效用。称为类别3。
S104、第四类:以虚假或者引人误解的内容欺骗、误导消费者的 其他情形。单独称为虚假宣传。
具体的,步骤S2为:
S201、设一条文本为F,F={f1,f2,..,fN}为文本数据分为词后的N个 词,利用实数编码将F转换为X,则X∈{x1,x2,...xN},xi∈[-1,1]。而 Q∈{-1,0,1}为主题类别(类标签),其中“-1”代表类别1、“0”代表类别 2和“1”代表类别3。
具体的,步骤S3为:
S301、设定迭代次数t=50,以分类精度为目标函数,目标函数为:
Accuracy=(TP+TN+TC)/(TP+TN+TC+FP+FN+FC)
其中TP+TN+TC为预测类别与真实类别相同的类别数之和, TP+TN+TC+FP+FN+FC为样本总和。
S302、输入序列后,利用两种寻优方式,一种为包围猎物方式, 设定好迭代次数t,根据
Figure BDA0003539920180000041
的值是否大于1,来选择游动方式。
Figure BDA0003539920180000042
的取值公 式为:
Figure BDA0003539920180000043
a从1线性减少到0,r向量是[0,1]中的随机向量
S303、当
Figure BDA0003539920180000044
向随机位置游动函数为:
Figure BDA0003539920180000045
其中
Figure BDA0003539920180000046
S304、当
Figure BDA0003539920180000047
向最佳位置游动函数为:
Figure BDA0003539920180000048
其中
Figure BDA0003539920180000049
X*为目前最佳位置。
S305、另外一种为气泡网攻击方式,其具体函数为:
Figure BDA00035399201800000410
其中b为常数(默认取1),l为 均匀分布在[-1,1]内的随机数,X*为目前最佳位置。
S306、并且对xi进行变异操作,使其逃离局部最优点。其具体操 作为:
Figure BDA0003539920180000051
m为随机选择的变异点。
具体的,步骤S4具体为:
S401、由于主分类特征词集合词汇量过大,使用word2vec模型中 的Skip-gram模型,对分好词的文本文本中的词语转换为词向量。所使用的 参数为:sg=1,size=100,widow=8,Min_count=3,hs=1,iter=5。
S402、使用K-means++聚类算法进行分类特征词聚类,从输入的 特征词集合选择一个词作为聚类中心Ci
S403、计算特征词集合中的每个词Fj与Fi的距离Di,j,然后计算特 征词被选为下个聚类中心的概率Pc,其公式为:
Pc=Di,j/∑j∈nDi,j
最后在[0,1]中选取随机值,选取落在Pc的特征词为下一个中心点。
S404、重复S305的步骤直到选出K个中心点。
S405、针对特征词集合中的Fj,计算它与K个中心点的距离,并 合并到相似度最高的类中。
S406、重新计算聚类中心,重复S405和S406知道聚类中心的位 置不再变化。得出聚类簇。
S6、将已经预处理完的文本数据根据LTP(哈工大语言技术平 台),解析句子中的宾语(名词)、关系(动词)和属性(形容词或量词)以及之间 的语义依赖关系,形成文本图。
具体的,步骤S6具体为:
S601、通过LTP解析文本的各个词语,给定一个包含m个词语的 文本T,将特征表示为{u1,u2,…um},其中每一个词语都与一个特征向量相关 联。
S602、根据LTP解析出文本的各种词性的词语以及其中的语义依 赖关系,为每个文本构造一个无向稀疏图G1=(V1,E1),使用矩阵A表示每个 节点的邻接矩阵,并添加自循环,将边缘权值表示为一个矩阵We,表示节点 之间的语义依赖性。
S603、通过LTP对于文本的语义依赖分析,因为它们都是描述同 一个直播商品,基于此观察,将每个词语设置为图节点,如果节点存在语义 依赖,则存在图边,然后计算词语表示u的相似度矩阵S,具体公式为:
Figure BDA0003539920180000061
其中Sij表示第i个节点和第j个节点之间的相似性。λ是一个比例 因子,通过相似矩阵与相邻矩阵的对应元素相乘得到权重矩阵We,然后进行 L2归一化,具体公式为:
Figure BDA0003539920180000062
S7、其次的是对于图像的处理,以一个直播商品为单位,通过将 直播视频逐帧转为图像数据,形成数据集。对其进行预处理,选取存在违规 宣传的图像,然后对图像分析标注出违规宣传位置及类别,构成训练样本集。
S8、利用训练样本集对Faster-RCNN模型框架进行训练,其中采 用的是一种基于Two-Stage的目标检测算法。通过第一步对提取直播图像 中检测候选区域和第二步对直播图像的候选区域进行特征提取与分类,形 成视觉图。
具体的,步骤S8具体为:
S801、输入训练集,建立CNN卷积层基础网络,通过该层提取输 入图像特征得到featuremap,并且固定输入图像的尺寸。
S802、RPN区域候选层网络输出了经过RPN网络挑选后得到的合 适的positiveanchor,将CNN中获得的特征向量输入到全连接神经网络中 训练,训练得到的输出值,输入softmax计算提取特征。
S803、将每个图像表示为无向全连接图,其中节点设置为 FasterR-CNN模型检测到的显著区域,并且每个节点与所有其他节点关联, 为了消除成对区域的方向和距离,使用极坐标对每个图像的关系进行建模, 然后基于成对区域的边界框的中心计算极坐标(ρ,θ),并将边缘权重矩阵We设置为成对极坐标,形成视觉图G2=(V2,E2)。
S9、将文本的文本图G1=(V1,E1)和图像的视觉图G2=(V2,E2)进行节 点级匹配和结构级匹配,匹配两个图学习细粒度对应,产生文本与图像的 整体匹配得分g(G1,G2),作为基于图文匹配识别虚假宣传的依据。
具体的,步骤S9为:
S901、首先将文本图的节点表示定义为Uα∈Rm×d,将视觉图的节 点定义为Vβ∈Rn ×d。其中,m×n为文本图和可视化的图节点数,d为表示 维数。
S902、详细描述文本图上的节点级匹配,然后在视觉上进行粗略 描述。计算视觉节点和文本节点之间的相似度,表示为
Figure BDA0003539920180000071
然后沿着 softmax函数。相似性值度量视觉节点与每个文本节点的对应关系。将所有 视觉点聚合为特诊向量的加权组合,其中权重是计算出的相似度,其具体 公式为:
Figure BDA0003539920180000072
λ是一个聚焦于匹配节点的缩放因子。
S903、同时将相似性由标量转换为向量表示,将文本节点中的第i 个特征以及其对应的聚合可视化节点分为t个块,分别表示为[ui1,ui2,…,uit] 和[ci1,ci2,…,cit]。每个块的相似度是在其对应的文本图与视觉图成对块中计 算的,例如第j个块的相似度公式为:
xij=cos(uij,cij),
其中xij为标量值,cos(·)为余弦相似度。第i个文本节点的匹配向 量可以通过它所有的连接块的相似度来获得,即:
xi=xi1||xi2||…||xi3
其中||表示连接,这样就可以,使得每个文本节点与其匹配的可视 节点相关联,这些可视节点又可以将在结构级匹配时传给它们的连接块, 以便清楚连接块学习细粒度的短语对应。
S904、对称的,在可视图中操作是一样的,在每个可视节点上也 进行节点水平匹配,对应的文本节点将以不同的方式关联,公式为:
Figure BDA0003539920180000073
S905、结构级匹配将之前形成的节点即匹配向量作为输入,并将 这些向量与图的边缘一起传播到相邻的节点,然后通过GCN对相邻的匹配 向量进行积分来更新每个节点的匹配向量。GCN层应用K个内核,通过这 些内核集成相邻匹配向量。公式为:
Figure BDA0003539920180000074
其中Ni表示第i个节点的领域,We表示之前所形成的边缘权重, Wk和b是第k个核需要学习的参数,因为应用了k个核,所以空间卷积的 输出是k个核输出的串联,从而产生反映连接节点对应关系的卷积矢量, 这就是局部短语。
S906、将卷积后的向量输入到一个多层感知器(MLP),考虑所 有短语的学习对应关系,推断出全局匹配分数,表示文本结构图于视觉结 构图之间的匹配程度。视觉对应文本和文本对应视觉的匹配得分分别为:
Figure BDA0003539920180000081
Figure BDA0003539920180000082
其中Ws,bs表示MLP的参数,这个参数包括了两个全连接层,函 数σ(·)表示tanh激活,通过在视觉图和文本图上分别执行结构级匹配,可 以互相补充学习短语,那么图像-文本对应的整体匹配得分给g(G1,G2)为两 个匹配得分之和:
g(G1,G2)=st→i+st→i
S907、依据计算出来的整体匹配得分,对直播商品是否存在虚假 宣传进行判断。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程 序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的 功能的装置。
以上所述仅为本发明的最有效实施方案,应当指出:对于本技术领 域的普通技术人员来说,在不脱离本发明工作原理的前提下,还可以做出适 当的改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种化妆品直播营销违规宣传综合识别方法,其特征在于包括:
根据有关法律法规,将化妆品直播营销中常见涉及违规宣传大致分为基于宣传用语的夸大宣传和基于直播内容的虚假宣传;
其中夸大宣传分为三类,虚假宣传单独为一类;
将直播音频逐句转为文本数据集和直播视频逐帧转为图像数据集;
根据提取文本数据违规宣传特征,形成聚类簇,识别宣传用语上的夸大宣传;
根据转换的文本数据和图像数据,建立直播内容上的虚假宣传识别模型。
2.根据权利要求1所述的计算基于文本违规宣传评分方法,其特征在于:文本类别特征提取时,采用鲸鱼优化寻优算法,包括:
设一条文本为F,F={f1,f2,..,fN}为文本数据分为词后的N个词,利用实数编码将F转换为X,则X∈{x1,x2,...xN},xi∈[-1,1],生成输入序列;
针对划分的违规宣传四个类别,将其标注为Q∈{-1,0,1},其中“-1”代表类别1、“0”代表类别2和“1”代表类别3;
根据抛硬币的方式,进入气泡网寻优方式和包围猎物寻优方式两种寻优方式,其中气泡网寻优为:
Figure FDA0003539920170000011
其中b为常数(默认取1),l为均匀分布在[-1,1]内的随机数,X*为目前最佳位置;
包围猎物中通过判断
Figure FDA0003539920170000012
的值是否大于1,选择两个游动方向,其具体寻优方式为:
Figure FDA0003539920170000013
向随机位置游动函数为
Figure FDA0003539920170000014
其中
Figure FDA0003539920170000015
Figure FDA0003539920170000016
向最佳位置游动函数为:
Figure FDA0003539920170000017
其中
Figure FDA0003539920170000018
X*为目前最佳位置;
将群体中解进行随机变异,逃出局部最优;
Figure FDA0003539920170000019
m为随机选择的变异点;
以分类精度为目标函数,过滤掉无关特征词,形成类别特征词集合。
3.根据权利要求1所述的基于文本与图像融合识别违规宣传方法,其特征在于,运用一种新型的图文匹配网络建立识别直播内容虚假宣传模型,包括:
将转换后的文本数据,运用LTP解析句词性和语义关系,形成文本图;
将转换后的图像数据,运用Faster-R CNN模型提取特征,形成视觉图;
进行文本图与视觉图之间的节点级匹配,计算文本图与视觉图各自各自节点自己的相似度,然后沿着视觉轴根据softmax函数度量节点与节点之间的对应关系,将所有视觉节点聚合为特征向量的加权组合;
结构级匹配将节点级匹配的向量作为输入,运用GCN对相邻匹配向量进行积分来更新下个向量,将卷积后的向量输入一个多层感知器,计算相似度,作为识别直播内容虚假宣传依据。
CN202210229158.0A 2022-03-10 2022-03-10 一种识别化妆品直播营销违规宣传方法 Pending CN114579747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210229158.0A CN114579747A (zh) 2022-03-10 2022-03-10 一种识别化妆品直播营销违规宣传方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210229158.0A CN114579747A (zh) 2022-03-10 2022-03-10 一种识别化妆品直播营销违规宣传方法

Publications (1)

Publication Number Publication Date
CN114579747A true CN114579747A (zh) 2022-06-03

Family

ID=81774048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210229158.0A Pending CN114579747A (zh) 2022-03-10 2022-03-10 一种识别化妆品直播营销违规宣传方法

Country Status (1)

Country Link
CN (1) CN114579747A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086721A (zh) * 2022-08-22 2022-09-20 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN116109990A (zh) * 2023-04-14 2023-05-12 南京锦云智开软件有限公司 一种视频的敏感违规内容检测系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086721A (zh) * 2022-08-22 2022-09-20 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN115086721B (zh) * 2022-08-22 2022-10-25 深圳市稻兴实业有限公司 一种基于数据分析的超高清直播系统服务监管系统
CN116109990A (zh) * 2023-04-14 2023-05-12 南京锦云智开软件有限公司 一种视频的敏感违规内容检测系统

Similar Documents

Publication Publication Date Title
CN111897964B (zh) 文本分类模型训练方法、装置、设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN113590849A (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN111126218A (zh) 一种基于零样本学习的人体行为识别方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN114579747A (zh) 一种识别化妆品直播营销违规宣传方法
WO2022161470A1 (zh) 内容的评价方法、装置、设备及介质
CN111598183A (zh) 一种多特征融合图像描述方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN114925176B (zh) 一种智能体多模态认知图谱的构建方法、系统和介质
CN114332288B (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
CN116910294A (zh) 一种基于情感分析的图像滤镜生成方法
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN112989054B (zh) 一种文本处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination