CN114897566A - 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 - Google Patents

一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 Download PDF

Info

Publication number
CN114897566A
CN114897566A CN202210279793.XA CN202210279793A CN114897566A CN 114897566 A CN114897566 A CN 114897566A CN 202210279793 A CN202210279793 A CN 202210279793A CN 114897566 A CN114897566 A CN 114897566A
Authority
CN
China
Prior art keywords
advertisement
product attribute
short video
compliance
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210279793.XA
Other languages
English (en)
Other versions
CN114897566B (zh
Inventor
于宝乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Newsun Network Inc
Original Assignee
Early Morning Rain Wuhan Culture And Art Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Early Morning Rain Wuhan Culture And Art Communication Co Ltd filed Critical Early Morning Rain Wuhan Culture And Art Communication Co Ltd
Priority to CN202210279793.XA priority Critical patent/CN114897566B/zh
Publication of CN114897566A publication Critical patent/CN114897566A/zh
Application granted granted Critical
Publication of CN114897566B publication Critical patent/CN114897566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统,通过建立统一的产品短视频广告诊断机制来代替人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式存在的诊断结果差异度较大的问题,提高了诊断结果的可靠度,在一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一方面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效率,避免了待诊断产品短视频广告的积压现象,从而间接提高了合法产品短视频广告的发布效率,另外本发明在诊断过程中通过对产品短视频广告进行图像和语音信息分离,能够分别对产品短视频广告的图像和产品属性宣传内容进行合规诊断,实现了合规性的综合诊断。

Description

一种基于大数据的短视频合规性在线诊断分析方法及诊断分 析系统
技术领域
本发明涉及短视频审核技术领域,特别涉及广告短视频审核技 术,具体是一种基于大数据的短视频合规性在线诊断分析方法及诊断 分析系统。
背景技术
广告作为一种有效的信息传播方式在当今社会生活中的应用越 来越广泛,随着互联网和多媒体的发展,传统广告运营方式已无法满 足时代需求,取而代之的短视频广告以"短,频,快"的特点捷足先登, 精准传播,高转化率的特点使其成为商家,企业热捧的推广方式。短视 频广告投入成本低,受众面广,较传统营销手段有着更多优势,由此也 迎来了短视频广告热。
但短视频广告作为一种广告形式,由于其具有很大的商业性和营 利性,导致其极易产生违法性,特别是产品短视频广告,为了吸引消 费者购买,一些产品短视频广告在宣传过程中会夸大产品性能、功效, 从而误导消费者,这种虚假产品短视频广告直接侵害了消费者的合法 利益。因此为了保障消费者的合法利益,就需要在产品短视频广告发 布之前对其进行合规性诊断,以此来判断产品短视频广告是否能够发 布。
然而目前对产品短视频广告的合规性诊断基本是由发布平台进 行人工诊断,一方面由于每个人对违法虚假广告的认知程度不同,缺 乏统一的诊断机制,导致诊断结果差异度较大,容易出现部分违法虚 假广告仍进行发布的情况,进而降低了诊断可靠度;另一方面,伴随 着广告主对产品短视频广告的青睐,发布平台需要诊断的产品短视频 广告数量日益增加,这给诊断人员带来了巨大的工作压力,不仅会降 低产品短视频广告的诊断效率,还无形之中加重了违法虚假广告仍进 行发布情况的发生频率。
发明内容
为了至少克服现有技术中的上述不足,本发明的目的在于提供一 种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统,以 解决或者改善上述问题。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种基于大数据的短视频合规性在线诊断分析方法, 包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目 标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告 图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音 信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并 将存在实体的广告图像记为实体广告图像,进而从中筛选出各实体广 告图像,此时对各实体广告图像进行图像合规诊断,统计目标短视频 广告对应的图像合规指数;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题 名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而 将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出 存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品 属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合 规指数;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣 传合规指数判断目标短视频广告是否能够发布。
在一种能够实现的方式中,所述步骤二中统计目标短视频广告对 应图像合规指数的统计过程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区 域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图 案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物 对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图 像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计 算公式为
Figure BDA0003556673910000031
σ表示为目标短视频广告对应的图像合规指数,k 表示为禁用图像的数量,K表示为实体广告图像总数量,f0表示为设 定常数。
在一种能够实现的方式中,所述产品属性分句识别算法对应的具 体操作步骤如下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从 中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参 数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句。
在一种能够实现的方式中,所述步骤三中对重点分句进行产品属 性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规 指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取 到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数 未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指 数;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重 点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分 词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集 合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用 语词汇库进行匹配,计算目标短视频广告对应的产品属性宣传用语夸 大指数;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属 性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规 指数。
在一种能够实现的方式中,所述W1中计算目标短视频广告对应 的产品属性宣传模糊指数具体包括:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而 统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分 别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数 对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重 因子,记为λi
W13:统计所有重点分句中存在的产品属性参数总数量,记为X
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属 性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性 宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传 模糊指数,其计算公式为
Figure BDA0003556673910000051
η表示为目标短视频广告对应 的产品属性宣传模糊指数,λi表示为第i个模糊产品属性参数对应的 权重因子。
在一种能够实现的方式中,所述W3中将产品属性宣传用语集合 中的各分词与构建的不合规宣传用语词汇库进行匹配对应的具体匹 配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到 各分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分 词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大 宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传 数字词进行匹配,从中统计匹配成功的数字分词数量。
在一种能够实现的方式中,所述目标短视频广告对应产品属性宣 传用语夸大指数的计算公式为
Figure BDA0003556673910000061
ξ表示为目标短视频广告 对应的产品属性宣传用语夸大指数,m1、m2分别表示为匹配成功的 形容分词数量、匹配成功的数字分词数量,M表示为产品属性宣传用 语集合中存在的分词总数量。
在一种能够实现的方式中,所述目标短视频广告对应产品属性宣 传合规指数计算公式为
Figure BDA0003556673910000062
Figure BDA0003556673910000063
表示为目标短视频广告对 应的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产 品属性宣传夸大性对应的影响因子。
在一种能够实现的方式中,所述基于目标短视频广告对应的图像 合规指数和产品属性宣传合规指数判断该目标短视频广告是否能够 发布对应的判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视 频广告对应的产品广告种类,将其记为特定产品广告种类;
第二步:将特定产品广告种类与诊断数据库中预设的各种产品广 告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行 对比,从中获取特定产品广告种类对应的标准图像合规指数和标准产 品属性宣传合规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传 合规指数分别与特定产品广告种类对应的标准图像合规指数和标准 产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规 指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应 的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视 频广告能够发布,反之,则判断目标短视频广告不能发布。
在一种能够实现的方式中,一种基于大数据的短视频合规性在线 诊断分析方法在具体实施过程中需要用到诊断分析系统,该系统包括 以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分 解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并 将提取的语音信息进行文字识别,构成目标短视频广告内容文本信 息;
目标短视频广告图像合规诊断模块,用于从目标短视频广告分解 的各广告图像中筛选出各实体广告图像,进而对各实体广告图像进行 图像合规诊断,统计目标短视频广告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,用于获取目标短视 频广告对应的产品主题名称,并将广告内容文本信息进行断句处理, 得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进 行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而 对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对 应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存 储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传 合规指数;
目标短视频广告发布判断终端,用于基于目标短视频广告对应的 图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能 够发布。
与现有技术相比,本发明具有以下优点:
1.本发明提供的一种基于大数据的短视频合规性在线诊断分析 方法及诊断分析系统通过建立统一的产品短视频广告诊断机制来代 替人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式 存在的诊断结果差异度较大的问题,进而提高了诊断结果的可靠度, 在一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一 方面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效 率,避免了待诊断产品短视频广告的积压现象,从而间接提高了合法 产品短视频广告的发布效率。
2.本发明建立的产品短视频广告诊断机制在诊断过程中通过对 产品短视频广告进行图像和语音信息分离,以此不仅能够基于分离的 语音信息对产品短视频广告的产品属性宣传内容进行合规诊断,还能 够基于分离的广告图像对其进行合规诊断,实现了产品短视频广告内 容合规性的综合诊断,该诊断方式大大提高了诊断精准度,通过该诊 断方式进行产品短视频广告合规性诊断,能够提高合规性诊断标准, 以此阻止不满足合规性诊断标准的产品短视频广告发布,从而极大保 障了消费者的合法利益。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本 发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动 的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的诊断分析方法实施步骤流程图;
图2为本发明的诊断分析系统模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
参照图1所示,本发明提供一种基于大数据的短视频合规性在线 诊断分析方法,包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目 标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告 图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音 信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并 将存在实体的广告图像记为实体广告图像,这里提到的实体是指实际 物体,进而从中筛选出各实体广告图像,此时对各实体广告图像进行 图像合规诊断,统计目标短视频广告对应的图像合规指数;
需要说明的是,上述实施例中将各广告图像进行实体识别,其目 的在于剔除空白图像,缩小图像合规诊断的广告图像范围,由此提高 产品短视频广告对应图像合规诊断的效率;
上述步骤二中统计目标短视频广告对应图像合规指数的统计过 程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区 域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取,其中 图案特征包括图案形状、图案颜色、图案纹理等;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图 案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物 对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图 像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计 算公式为
Figure BDA0003556673910000101
σ表示为目标短视频广告对应的图像合规指数,k 表示为禁用图像的数量,K表示为实体广告图像总数量,f0表示为设 定常数;
优选地,在上述图像合规指数计算公式中禁用图像的数量越少, 图像合规指数越大,表明目标短视频广告对应的图像合规程度越高;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题 名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而 将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出 存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品 属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合 规指数,上述步骤三中产品属性分句识别算法对应的具体操作步骤如 下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从 中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参 数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句, 其中产品属性参数识别对应的识别方法如下:
H31:将各备选分句进行产品主题名称定位,从中截取存在产品主 题名称的内容;
H32:将设定的产品属性参数词汇在各备选分句内存在产品主题 名称的内容位置处进行扫描,若某备选分句内存在产品主题名称的内 容中能够扫描到某产品属性参数词汇,则表明该备选分句存在产品属 性参数;
需要说明的是上述提到的产品属性参数词汇包括产品生产地、产 品成分、产品价格、产品功能、产品生产商等;
上述步骤三中对重点分句进行产品属性宣传合规诊断,由此统计 目标短视频广告对应的产品属性宣传合规指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取 到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数 未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指 数,其计算方法为:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而 统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分 别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数 对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重 因子,记为λi
优选地,在上述实施例中各种产品属性参数对应的权重因子是依 据消费者在购买产品时对各种产品属性参数的关注程度,示例性地, 消费者对产品的成分和功效关注度较高,对产品的生产地、生产商关 注度较低;
W13:统计所有重点分句中存在的产品属性参数总数量,记为X
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属 性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性 宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传 模糊指数,其计算公式为
Figure BDA0003556673910000121
η表示为目标短视频广告对应 的产品属性宣传模糊指数,λi表示为第i个模糊产品属性参数对应的 权重因子;
优选地,在上述产品属性宣传模糊指数计算公式中,
Figure BDA0003556673910000131
表示模 糊产品属性参数对应的数量占比,其中模糊产品属性参数对应的数量 占比越大,模糊产品属性参数对应的权重因子越大,产品属性宣传模 糊指数越大,表明目标短视频广告对应的产品属性宣传模糊程度越 高;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重 点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分 词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集 合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用 语词汇库进行匹配,其中不合规宣传用语词汇库包括夸大宣传形容词 汇库和夸大宣传数字词汇库,且具体匹配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到各 分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大 宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
需要说明的是上述夸大宣传形容词包括最高、最佳、最好、顶级、 国家级等;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传 数字词进行匹配,从中统计匹配成功的数字分词数量;
需要说明的是上述夸大宣传数字词包括第一、唯一、百分之百等;
上述W3步骤还包括根据匹配结果计算目标短视频广告对应的产 品属性宣传用语夸大指数,其计算公式为
Figure BDA0003556673910000141
ξ表示为目标短 视频广告对应的产品属性宣传用语夸大指数,m1、m2分别表示为匹 配成功的形容分词数量、匹配成功的数字分词数量,M表示为产品属 性宣传用语集合中存在的分词总数量,其中匹配成功的形容分词数 量、匹配成功的数字分词数量越多,产品属性宣传用语夸大指数越大, 表明目标短视频广告对应的产品属性宣传用语夸大程度越高;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属 性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规 指数,其计算公式为
Figure BDA0003556673910000142
Figure BDA0003556673910000143
表示为目标短视频广告对应 的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产品 属性宣传夸大性对应的影响因子;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣 传合规指数判断目标短视频广告是否能够发布,其判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视 频广告对应的产品广告种类,将其记为特定产品广告种类;
需要说明的是上述提到的产品广告种类包括药品广告、化妆品广 告、食品广告等,各种产品广告种类依据其对应的用途不同,导致其 对图像的合规要求和产品属性宣传合规要求存在差异,示例性的,药 品广告由于用于治疗疾病,其相对于其他产品广告种类来说,对产品 属性宣传合规要求较高;
第二步:将特定产品广告种类与预设的各种产品广告种类对应的 标准图像合规指数和标准产品属性宣传合规指数进行对比,从中获取 特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合 规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传 合规指数分别与特定产品广告种类对应的标准图像合规指数和标准 产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规 指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应 的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视 频广告能够发布,反之,则判断目标短视频广告不能发布。
本发明提供的一种基于大数据的短视频合规性在线诊断分析方 法及诊断分析系统通过建立统一的产品短视频广告诊断机制来代替 人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式存 在的诊断结果差异度较大的问题,进而提高了诊断结果的可靠度,在 一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一方 面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效率, 避免了待诊断产品短视频广告的积压现象,从而间接提高了合法产品 短视频广告的发布效率。
本发明实施例建立的产品短视频广告诊断机制在诊断过程中通 过对产品短视频广告进行图像和语音信息分离,以此不仅能够基于分 离的语音信息对产品短视频广告的产品属性宣传内容进行合规诊断, 还能够基于分离的广告图像对其进行合规诊断,实现了产品短视频广 告内容合规性的综合诊断,该诊断方式大大提高了诊断精准度,通过 该诊断方式进行产品短视频广告合规性诊断,能够提高合规性诊断标 准,以此阻止不满足合规性诊断标准的产品短视频广告发布,从而极 大保障了消费者的合法利益。
参照图2所示,本发明所述的一种基于大数据的短视频合规性在 线诊断分析方法在具体实施过程中需要用到诊断分析系统,该系统包 括以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分 解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并 将提取的语音信息进行文字识别,构成目标短视频广告内容文本信 息;
目标短视频广告图像合规诊断模块,与目标短视频广告分解模块 连接,用于从目标短视频广告分解的各广告图像中筛选出各实体广告 图像,进而对各实体广告图像进行图像合规诊断,统计目标短视频广 告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,与目标短视频广告 分解模块连接,用于获取目标短视频广告对应的产品主题名称,并将 广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入 构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性 参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规 诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存 储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传 合规指数;
目标短视频广告发布判断终端,分别与目标短视频广告图像合规 诊断模块和目标短视频广告产品属性宣传合规诊断模块连接,用于基 于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判 断目标短视频广告是否能够发布。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领 域的技术人员对所描述的具体实施例做各种各样的修改或补充或采 用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所 定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于大数据的短视频合规性在线诊断分析方法,其特征在于,包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并将存在实体的广告图像记为实体广告图像,进而从中筛选出各实体广告图像,此时对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
2.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述步骤二中统计目标短视频广告对应图像合规指数的统计过程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计算公式为
Figure FDA0003556673900000021
σ表示为目标短视频广告对应的图像合规指数,k表示为禁用图像的数量,K表示为实体广告图像总数量,f0表示为设定常数。
3.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述产品属性分句识别算法对应的具体操作步骤如下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句。
4.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述步骤三中对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指数;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配,计算目标短视频广告对应的产品属性宣传用语夸大指数;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规指数。
5.根据权利要求4所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述W1中计算目标短视频广告对应的产品属性宣传模糊指数具体包括:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重因子,记为λi
W13:统计所有重点分句中存在的产品属性参数总数量,记为X
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传模糊指数,其计算公式为
Figure FDA0003556673900000041
η表示为目标短视频广告对应的产品属性宣传模糊指数,λi表示为第i个模糊产品属性参数对应的权重因子。
6.根据权利要求4所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述W3中将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配对应的具体匹配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到各分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传数字词进行匹配,从中统计匹配成功的数字分词数量。
7.根据权利要求4所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述目标短视频广告对应产品属性宣传用语夸大指数的计算公式为
Figure FDA0003556673900000051
ξ表示为目标短视频广告对应的产品属性宣传用语夸大指数,m1、m2分别表示为匹配成功的形容分词数量、匹配成功的数字分词数量,M表示为产品属性宣传用语集合中存在的分词总数量。
8.根据权利要求4所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述目标短视频广告对应产品属性宣传合规指数计算公式为
Figure FDA0003556673900000052
Figure FDA0003556673900000053
表示为目标短视频广告对应的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产品属性宣传夸大性对应的影响因子。
9.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断该目标短视频广告是否能够发布对应的判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视频广告对应的产品广告种类,将其记为特定产品广告种类;
第二步:将特定产品广告种类与诊断数据库中预设的各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,从中获取特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传合规指数分别与特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视频广告能够发布,反之,则判断目标短视频广告不能发布。
10.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:该方法在具体实施过程中需要用到诊断分析系统,该系统包括以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
目标短视频广告图像合规诊断模块,用于从目标短视频广告分解的各广告图像中筛选出各实体广告图像,进而对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,用于获取目标短视频广告对应的产品主题名称,并将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
目标短视频广告发布判断终端,用于基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
CN202210279793.XA 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 Active CN114897566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279793.XA CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279793.XA CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Publications (2)

Publication Number Publication Date
CN114897566A true CN114897566A (zh) 2022-08-12
CN114897566B CN114897566B (zh) 2023-08-04

Family

ID=82715025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279793.XA Active CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Country Status (1)

Country Link
CN (1) CN114897566B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628923A (zh) * 2017-11-28 2018-10-09 南京莱斯信息技术股份有限公司 一种基于互联网大数据的网络违法视频广告识别方法及系统
CN109151502A (zh) * 2018-10-11 2019-01-04 百度在线网络技术(北京)有限公司 识别违规视频方法、装置、终端和计算机可读存储介质
CN110309388A (zh) * 2018-03-09 2019-10-08 阿里巴巴集团控股有限公司 数据对象信息违法风险识别方法、装置以及计算机系统
US20190318362A1 (en) * 2018-04-16 2019-10-17 International Business Machines Corporation Extraction of a compliance profile for an organization
CN113204709A (zh) * 2021-05-29 2021-08-03 武汉申子仟电子商务有限公司 基于多维数据深度比对分析的短视频搜索匹配推荐方法、系统及计算机存储介质
WO2021169499A1 (zh) * 2020-02-26 2021-09-02 平安科技(深圳)有限公司 网络不良数据监控方法、装置、系统及存储介质
CN113505317A (zh) * 2021-06-15 2021-10-15 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628923A (zh) * 2017-11-28 2018-10-09 南京莱斯信息技术股份有限公司 一种基于互联网大数据的网络违法视频广告识别方法及系统
CN110309388A (zh) * 2018-03-09 2019-10-08 阿里巴巴集团控股有限公司 数据对象信息违法风险识别方法、装置以及计算机系统
US20190318362A1 (en) * 2018-04-16 2019-10-17 International Business Machines Corporation Extraction of a compliance profile for an organization
CN109151502A (zh) * 2018-10-11 2019-01-04 百度在线网络技术(北京)有限公司 识别违规视频方法、装置、终端和计算机可读存储介质
WO2021169499A1 (zh) * 2020-02-26 2021-09-02 平安科技(深圳)有限公司 网络不良数据监控方法、装置、系统及存储介质
CN113204709A (zh) * 2021-05-29 2021-08-03 武汉申子仟电子商务有限公司 基于多维数据深度比对分析的短视频搜索匹配推荐方法、系统及计算机存储介质
CN113505317A (zh) * 2021-06-15 2021-10-15 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法

Also Published As

Publication number Publication date
CN114897566B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN107515873B (zh) 一种垃圾信息识别方法及设备
Gamon et al. Pulse: Mining customer opinions from free text
Liu et al. Opinion observer: analyzing and comparing opinions on the web
Feldman et al. Extracting product comparisons from discussion boards
CN111259141A (zh) 一种基于多模型融合的社交媒体语料情感分析方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN109993448A (zh) 一种企业网络舆情潜在风险的评估方法及系统
CN116415017B (zh) 基于人工智能的广告敏感内容审核方法及系统
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111144116A (zh) 一种文档知识结构化的抽取方法及装置
CN114897566A (zh) 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统
Kae et al. Categorization of display ads using image and landing page features
Jia et al. Logo design process and method of intellectual property big data in the digital media era
Feldman et al. Using text mining to analyze user forums
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
CN115470322B (zh) 一种基于人工智能的关键词生成系统及方法
CN111967251A (zh) 客户声音智慧洞察系统
Madlberger et al. On top of the world, down in the dumps: Text mining the emotionality of online consumer reviews
Nagano et al. Ontology-based topic extraction service from weblogs
KR102470248B1 (ko) 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템
CN117333800B (zh) 一种基于人工智能的跨平台内容运营优化方法及系统
CN113849667B (zh) 一种舆情监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230714

Address after: Room 801, Building 1, Excellence Meilin Center Plaza (North Area), No. 128, Zhongkang Road, Meidu Community, Meilin Street, Futian District, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Newsun Network Inc.

Address before: No. 338, Zhongshan Road, Jiyu Bridge, Wuchang District, Wuhan City, Hubei Province 430061

Applicant before: Early Morning Rain (Wuhan) Culture and Art Communication Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant