CN114897566B - 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 - Google Patents

一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 Download PDF

Info

Publication number
CN114897566B
CN114897566B CN202210279793.XA CN202210279793A CN114897566B CN 114897566 B CN114897566 B CN 114897566B CN 202210279793 A CN202210279793 A CN 202210279793A CN 114897566 B CN114897566 B CN 114897566B
Authority
CN
China
Prior art keywords
short video
product attribute
advertisement
propaganda
compliance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210279793.XA
Other languages
English (en)
Other versions
CN114897566A (zh
Inventor
于宝乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Newsun Network Inc
Original Assignee
Shenzhen Newsun Network Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Newsun Network Inc filed Critical Shenzhen Newsun Network Inc
Priority to CN202210279793.XA priority Critical patent/CN114897566B/zh
Publication of CN114897566A publication Critical patent/CN114897566A/zh
Application granted granted Critical
Publication of CN114897566B publication Critical patent/CN114897566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统,通过建立统一的产品短视频广告诊断机制来代替人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式存在的诊断结果差异度较大的问题,提高了诊断结果的可靠度,在一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一方面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效率,避免了待诊断产品短视频广告的积压现象,从而间接提高了合法产品短视频广告的发布效率,另外本发明在诊断过程中通过对产品短视频广告进行图像和语音信息分离,能够分别对产品短视频广告的图像和产品属性宣传内容进行合规诊断,实现了合规性的综合诊断。

Description

一种基于大数据的短视频合规性在线诊断分析方法及诊断分 析系统
技术领域
本发明涉及短视频审核技术领域,特别涉及广告短视频审核技术,具体是一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统。
背景技术
广告作为一种有效的信息传播方式在当今社会生活中的应用越来越广泛,随着互联网和多媒体的发展,传统广告运营方式已无法满足时代需求,取而代之的短视频广告以"短,频,快"的特点捷足先登,精准传播,高转化率的特点使其成为商家,企业热捧的推广方式。短视频广告投入成本低,受众面广,较传统营销手段有着更多优势,由此也迎来了短视频广告热。
但短视频广告作为一种广告形式,由于其具有很大的商业性和营利性,导致其极易产生违法性,特别是产品短视频广告,为了吸引消费者购买,一些产品短视频广告在宣传过程中会夸大产品性能、功效,从而误导消费者,这种虚假产品短视频广告直接侵害了消费者的合法利益。因此为了保障消费者的合法利益,就需要在产品短视频广告发布之前对其进行合规性诊断,以此来判断产品短视频广告是否能够发布。
然而目前对产品短视频广告的合规性诊断基本是由发布平台进行人工诊断,一方面由于每个人对违法虚假广告的认知程度不同,缺乏统一的诊断机制,导致诊断结果差异度较大,容易出现部分违法虚假广告仍进行发布的情况,进而降低了诊断可靠度;另一方面,伴随着广告主对产品短视频广告的青睐,发布平台需要诊断的产品短视频广告数量日益增加,这给诊断人员带来了巨大的工作压力,不仅会降低产品短视频广告的诊断效率,还无形之中加重了违法虚假广告仍进行发布情况的发生频率。
发明内容
为了至少克服现有技术中的上述不足,本发明的目的在于提供一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统,以解决或者改善上述问题。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种基于大数据的短视频合规性在线诊断分析方法,包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并将存在实体的广告图像记为实体广告图像,进而从中筛选出各实体广告图像,此时对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
在一种能够实现的方式中,所述步骤二中统计目标短视频广告对应图像合规指数的统计过程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计算公式为σ表示为目标短视频广告对应的图像合规指数,k表示为禁用图像的数量,K表示为实体广告图像总数量,f0表示为设定常数。
在一种能够实现的方式中,所述产品属性分句识别算法对应的具体操作步骤如下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句。
在一种能够实现的方式中,所述步骤三中对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指数;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配,计算目标短视频广告对应的产品属性宣传用语夸大指数;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规指数。
在一种能够实现的方式中,所述W1中计算目标短视频广告对应的产品属性宣传模糊指数具体包括:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重因子,记为λi
W13:统计所有重点分句中存在的产品属性参数总数量,记为X
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传模糊指数,其计算公式为η表示为目标短视频广告对应的产品属性宣传模糊指数,λi表示为第i个模糊产品属性参数对应的权重因子。
在一种能够实现的方式中,所述W3中将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配对应的具体匹配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到各分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传数字词进行匹配,从中统计匹配成功的数字分词数量。
在一种能够实现的方式中,所述目标短视频广告对应产品属性宣传用语夸大指数的计算公式为ξ表示为目标短视频广告对应的产品属性宣传用语夸大指数,m1、m2分别表示为匹配成功的形容分词数量、匹配成功的数字分词数量,M表示为产品属性宣传用语集合中存在的分词总数量。
在一种能够实现的方式中,所述目标短视频广告对应产品属性宣传合规指数计算公式为 表示为目标短视频广告对应的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产品属性宣传夸大性对应的影响因子。
在一种能够实现的方式中,所述基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断该目标短视频广告是否能够发布对应的判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视频广告对应的产品广告种类,将其记为特定产品广告种类;
第二步:将特定产品广告种类与诊断数据库中预设的各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,从中获取特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传合规指数分别与特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视频广告能够发布,反之,则判断目标短视频广告不能发布。
在一种能够实现的方式中,一种基于大数据的短视频合规性在线诊断分析方法在具体实施过程中需要用到诊断分析系统,该系统包括以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
目标短视频广告图像合规诊断模块,用于从目标短视频广告分解的各广告图像中筛选出各实体广告图像,进而对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,用于获取目标短视频广告对应的产品主题名称,并将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
目标短视频广告发布判断终端,用于基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
与现有技术相比,本发明具有以下优点:
1.本发明提供的一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统通过建立统一的产品短视频广告诊断机制来代替人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式存在的诊断结果差异度较大的问题,进而提高了诊断结果的可靠度,在一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一方面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效率,避免了待诊断产品短视频广告的积压现象,从而间接提高了合法产品短视频广告的发布效率。
2.本发明建立的产品短视频广告诊断机制在诊断过程中通过对产品短视频广告进行图像和语音信息分离,以此不仅能够基于分离的语音信息对产品短视频广告的产品属性宣传内容进行合规诊断,还能够基于分离的广告图像对其进行合规诊断,实现了产品短视频广告内容合规性的综合诊断,该诊断方式大大提高了诊断精准度,通过该诊断方式进行产品短视频广告合规性诊断,能够提高合规性诊断标准,以此阻止不满足合规性诊断标准的产品短视频广告发布,从而极大保障了消费者的合法利益。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的诊断分析方法实施步骤流程图;
图2为本发明的诊断分析系统模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明提供一种基于大数据的短视频合规性在线诊断分析方法,包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并将存在实体的广告图像记为实体广告图像,这里提到的实体是指实际物体,进而从中筛选出各实体广告图像,此时对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
需要说明的是,上述实施例中将各广告图像进行实体识别,其目的在于剔除空白图像,缩小图像合规诊断的广告图像范围,由此提高产品短视频广告对应图像合规诊断的效率;
上述步骤二中统计目标短视频广告对应图像合规指数的统计过程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取,其中图案特征包括图案形状、图案颜色、图案纹理等;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计算公式为σ表示为目标短视频广告对应的图像合规指数,k表示为禁用图像的数量,K表示为实体广告图像总数量,f0表示为设定常数;
优选地,在上述图像合规指数计算公式中禁用图像的数量越少,图像合规指数越大,表明目标短视频广告对应的图像合规程度越高;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数,上述步骤三中产品属性分句识别算法对应的具体操作步骤如下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句,其中产品属性参数识别对应的识别方法如下:
H31:将各备选分句进行产品主题名称定位,从中截取存在产品主题名称的内容;
H32:将设定的产品属性参数词汇在各备选分句内存在产品主题名称的内容位置处进行扫描,若某备选分句内存在产品主题名称的内容中能够扫描到某产品属性参数词汇,则表明该备选分句存在产品属性参数;
需要说明的是上述提到的产品属性参数词汇包括产品生产地、产品成分、产品价格、产品功能、产品生产商等;
上述步骤三中对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指数,其计算方法为:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重因子,记为λi
优选地,在上述实施例中各种产品属性参数对应的权重因子是依据消费者在购买产品时对各种产品属性参数的关注程度,示例性地,消费者对产品的成分和功效关注度较高,对产品的生产地、生产商关注度较低;
W13:统计所有重点分句中存在的产品属性参数总数量,记为X
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传模糊指数,其计算公式为η表示为目标短视频广告对应的产品属性宣传模糊指数,λi表示为第i个模糊产品属性参数对应的权重因子;
优选地,在上述产品属性宣传模糊指数计算公式中,表示模糊产品属性参数对应的数量占比,其中模糊产品属性参数对应的数量占比越大,模糊产品属性参数对应的权重因子越大,产品属性宣传模糊指数越大,表明目标短视频广告对应的产品属性宣传模糊程度越高;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配,其中不合规宣传用语词汇库包括夸大宣传形容词汇库和夸大宣传数字词汇库,且具体匹配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到各分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
需要说明的是上述夸大宣传形容词包括最高、最佳、最好、顶级、国家级等;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传数字词进行匹配,从中统计匹配成功的数字分词数量;
需要说明的是上述夸大宣传数字词包括第一、唯一、百分之百等;
上述W3步骤还包括根据匹配结果计算目标短视频广告对应的产品属性宣传用语夸大指数,其计算公式为ξ表示为目标短视频广告对应的产品属性宣传用语夸大指数,m1、m2分别表示为匹配成功的形容分词数量、匹配成功的数字分词数量,M表示为产品属性宣传用语集合中存在的分词总数量,其中匹配成功的形容分词数量、匹配成功的数字分词数量越多,产品属性宣传用语夸大指数越大,表明目标短视频广告对应的产品属性宣传用语夸大程度越高;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规指数,其计算公式为 表示为目标短视频广告对应的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产品属性宣传夸大性对应的影响因子;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布,其判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视频广告对应的产品广告种类,将其记为特定产品广告种类;
需要说明的是上述提到的产品广告种类包括药品广告、化妆品广告、食品广告等,各种产品广告种类依据其对应的用途不同,导致其对图像的合规要求和产品属性宣传合规要求存在差异,示例性的,药品广告由于用于治疗疾病,其相对于其他产品广告种类来说,对产品属性宣传合规要求较高;
第二步:将特定产品广告种类与预设的各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,从中获取特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传合规指数分别与特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视频广告能够发布,反之,则判断目标短视频广告不能发布。
本发明提供的一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统通过建立统一的产品短视频广告诊断机制来代替人工诊断,一方面降低了诊断结果的差异度,克服了人工诊断方式存在的诊断结果差异度较大的问题,进而提高了诊断结果的可靠度,在一定程度上避免了部分违法虚假广告仍进行发布情况的发生,另一方面在人工诊断成本减少的同时还提高了产品短视频广告的诊断效率,避免了待诊断产品短视频广告的积压现象,从而间接提高了合法产品短视频广告的发布效率。
本发明实施例建立的产品短视频广告诊断机制在诊断过程中通过对产品短视频广告进行图像和语音信息分离,以此不仅能够基于分离的语音信息对产品短视频广告的产品属性宣传内容进行合规诊断,还能够基于分离的广告图像对其进行合规诊断,实现了产品短视频广告内容合规性的综合诊断,该诊断方式大大提高了诊断精准度,通过该诊断方式进行产品短视频广告合规性诊断,能够提高合规性诊断标准,以此阻止不满足合规性诊断标准的产品短视频广告发布,从而极大保障了消费者的合法利益。
参照图2所示,本发明所述的一种基于大数据的短视频合规性在线诊断分析方法在具体实施过程中需要用到诊断分析系统,该系统包括以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
目标短视频广告图像合规诊断模块,与目标短视频广告分解模块连接,用于从目标短视频广告分解的各广告图像中筛选出各实体广告图像,进而对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,与目标短视频广告分解模块连接,用于获取目标短视频广告对应的产品主题名称,并将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
目标短视频广告发布判断终端,分别与目标短视频广告图像合规诊断模块和目标短视频广告产品属性宣传合规诊断模块连接,用于基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (7)

1.一种基于大数据的短视频合规性在线诊断分析方法,其特征在于,包括以下步骤:
步骤一:将待诊断产品短视频广告记为目标短视频广告,并将目标短视频广告将按照设置的视频分割帧数进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,进而将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
步骤二:将目标短视频广告分解的各广告图像进行实体识别,并将存在实体的广告图像记为实体广告图像,进而从中筛选出各实体广告图像,此时对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
步骤三:提取目标短视频广告对应的标题,并从中获取产品主题名称,同时将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
步骤四:基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布;
所述步骤三中对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数具体包括:
W1:从重点分句中提取对应产品属性参数的表示词汇,若未提取到某重点分句中产品属性参数对应的表示词汇,表明该产品属性参数未具体表示,此时计算目标短视频广告对应的产品属性宣传模糊指数;
W2:将能够提取到产品属性参数表示词汇的重点分句记为指定重点分句,并将所有指定重点分句进行去停用词和分词处理,得到各分词,进而将所有指定重点分句对应的各分词构成产品属性宣传用语集合;
W3:将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配,计算目标短视频广告对应的产品属性宣传用语夸大指数;
W4:基于目标短视频广告对应的产品属性宣传模糊指数、产品属性宣传用语夸大指数统计目标短视频广告对应的产品属性宣传合规指数;
所述产品属性分句识别算法对应的具体操作步骤如下:
H1:将各分句进行语义识别,得到各分句对应的语义主题名称;
H2:将各分句对应的语义主题名称与产品主题名称进行匹配,从中筛选出与产品主题名称匹配成功的分句,将其记为备选分句;
H3:根据设定的产品属性参数词汇将各备选分句进行产品属性参数识别,从中筛选出存在产品属性参数的备选分句,作为重点分句;
所述W1中计算目标短视频广告对应的产品属性宣传模糊指数具体包括:
W11:将未具体表示的产品属性参数记为模糊产品属性参数,进而统计模糊产品属性参数的数量,记为x,并将各模糊产品属性参数分别标记为1,2,...,i,...,n;
W12:将各模糊产品属性参数与诊断数据库中各种产品属性参数对应的权重因子进行对比,从中获取各模糊产品属性参数对应的权重因子,记为
W13:统计所有重点分句中存在的产品属性参数总数量,记为;
W14:将模糊产品属性参数的数量、所有重点分句中存在的产品属性参数总数量和各模糊产品属性参数对应的权重因子代入产品属性宣传模糊指数计算公式,计算出目标短视频广告对应的产品属性宣传模糊指数,其计算公式为,/>表示为目标短视频广告对应的产品属性宣传模糊指数,/>表示为第i个模糊产品属性参数对应的权重因子。
2.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述步骤二中统计目标短视频广告对应图像合规指数的统计过程执行以下步骤:
S1:统计实体广告图像总数量,并将各实体广告图像进行背景区域和实体区域划分;
S2:将各实体广告图像对应的实体区域进行图案特征提取;
S3:将各实体广告图像对应的图案特征与各禁用标志物对应的图案特征进行匹配,若某实体广告图像对应的图案特征与某禁用标志物对应的图案特征匹配成功,则将该实体广告图像记为禁用图像;
S4:统计禁用图像的数量,进而将禁用图像的数量与实体广告图像总数量进行对比,统计目标短视频广告对应的图像合规指数,其计算公式为,/>表示为目标短视频广告对应的图像合规指数,/>表示为禁用图像的数量,/>表示为实体广告图像总数量,/>表示为设定常数。
3.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述W3中将产品属性宣传用语集合中的各分词与构建的不合规宣传用语词汇库进行匹配对应的具体匹配方法参见下述步骤:
W31:将产品属性宣传用语集合中的各分词进行词性分析,得到各分词对应的词性,并从中筛选出词性为形容词的分词,记为形容分词;
W32:将筛选出的各形容分词与夸大宣传词汇库中存储的各夸大宣传形容词进行匹配,从而统计匹配成功的形容分词数量;
W33:从各分词中提取含有数字的分词,记为数字分词;
W34:将各数字分词与夸大宣传数字词汇库中存储的各夸大宣传数字词进行匹配,从中统计匹配成功的数字分词数量。
4.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述目标短视频广告对应产品属性宣传用语夸大指数的计算公式为,/>表示为目标短视频广告对应的产品属性宣传用语夸大指数,/>、/>分别表示为匹配成功的形容分词数量、匹配成功的数字分词数量,/>表示为产品属性宣传用语集合中存在的分词总数量。
5.根据权利要求4所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述目标短视频广告对应产品属性宣传合规指数计算公式为,/>表示为目标短视频广告对应的产品属性宣传合规指数,a、b表示为产品属性宣传模糊性、产品属性宣传夸大性对应的影响因子。
6.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:所述基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断该目标短视频广告是否能够发布对应的判断方法如下:
第一步:基于目标短视频广告对应的产品主题名称解析目标短视频广告对应的产品广告种类,将其记为特定产品广告种类;
第二步:将特定产品广告种类与诊断数据库中预设的各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,从中获取特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
第三步:将目标短视频广告对应的图像合规指数和产品属性宣传合规指数分别与特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数进行对比,若目标短视频广告对应的图像合规指数和产品属性宣传合规指数均大于或等于特定产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数,则判断目标短视频广告能够发布,反之,则判断目标短视频广告不能发布。
7.根据权利要求1所述的一种基于大数据的短视频合规性在线诊断分析方法,其特征在于:该方法在具体实施过程中需要用到诊断分析系统,该系统包括以下模块:
目标短视频广告分解模块,用于将目标短视频广告进行视频分解,得到各广告图像,同时将目标短视频广告进行语音信息提取,并将提取的语音信息进行文字识别,构成目标短视频广告内容文本信息;
目标短视频广告图像合规诊断模块,用于从目标短视频广告分解的各广告图像中筛选出各实体广告图像,进而对各实体广告图像进行图像合规诊断,统计目标短视频广告对应的图像合规指数;
目标短视频广告产品属性宣传合规诊断模块,用于获取目标短视频广告对应的产品主题名称,并将广告内容文本信息进行断句处理,得到各个分句,进而将各分句导入构建的产品属性分句识别算法中进行识别,从中筛选出存在产品属性参数的分句,记为重点分句,从而对重点分句进行产品属性宣传合规诊断,由此统计目标短视频广告对应的产品属性宣传合规指数;
诊断数据库,用于存储各种产品属性参数对应的权重因子,并存储各种产品广告种类对应的标准图像合规指数和标准产品属性宣传合规指数;
目标短视频广告发布判断终端,用于基于目标短视频广告对应的图像合规指数和产品属性宣传合规指数判断目标短视频广告是否能够发布。
CN202210279793.XA 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 Active CN114897566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279793.XA CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279793.XA CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Publications (2)

Publication Number Publication Date
CN114897566A CN114897566A (zh) 2022-08-12
CN114897566B true CN114897566B (zh) 2023-08-04

Family

ID=82715025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279793.XA Active CN114897566B (zh) 2022-03-21 2022-03-21 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Country Status (1)

Country Link
CN (1) CN114897566B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169499A1 (zh) * 2020-02-26 2021-09-02 平安科技(深圳)有限公司 网络不良数据监控方法、装置、系统及存储介质
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628923A (zh) * 2017-11-28 2018-10-09 南京莱斯信息技术股份有限公司 一种基于互联网大数据的网络违法视频广告识别方法及系统
CN110309388B (zh) * 2018-03-09 2024-04-05 阿里巴巴集团控股有限公司 数据对象信息违法风险识别方法、装置以及计算机系统
US11763320B2 (en) * 2018-04-16 2023-09-19 International Business Machines Corporation Extraction of a compliance profile for an organization
CN109151502A (zh) * 2018-10-11 2019-01-04 百度在线网络技术(北京)有限公司 识别违规视频方法、装置、终端和计算机可读存储介质
CN113204709A (zh) * 2021-05-29 2021-08-03 武汉申子仟电子商务有限公司 基于多维数据深度比对分析的短视频搜索匹配推荐方法、系统及计算机存储介质
CN113505317A (zh) * 2021-06-15 2021-10-15 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169499A1 (zh) * 2020-02-26 2021-09-02 平安科技(深圳)有限公司 网络不良数据监控方法、装置、系统及存储介质
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法

Also Published As

Publication number Publication date
CN114897566A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN111950932B (zh) 基于多源信息融合的中小微企业综合质量画像方法
US20050165642A1 (en) Method and system for processing classified advertisements
CN108733748B (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
WO2009158581A2 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
CN109033433B (zh) 一种基于卷积神经网络的评论数据情感分类方法及系统
CN108388660A (zh) 一种改进的电商产品痛点分析方法
CN116468460B (zh) 基于人工智能的消费金融客户画像识别系统及其方法
CN116433052B (zh) 一种基于智能化的招标信息采集数据分析评价系统
CN111598454A (zh) 一种生鲜冷链物流在线评论情感分析方法
CN107818173A (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
Ahmad et al. What is new? news media, general elections, sentiment, and named entities
CN114897566B (zh) 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统
Shayegan et al. A method for identifying personality traits in telegram
CN111640025A (zh) 基于标签体系实现资讯标签化处理的方法
CN116663890A (zh) 一种基于机器学习模型的供电客户满意度评价方法及系统
CN116611447A (zh) 一种基于深度学习方法的信息抽取和语义匹配系统及方法
Jia et al. Logo design process and method of intellectual property big data in the digital media era
CN115659961A (zh) 用于提取文本观点的方法、装置以及计算机存储介质
Lee et al. Novel methods for resolving false positives during the detection of fraudulent activities on stock market financial discussion boards
EP1361524A1 (en) Method and system for processing classified advertisements
CN114637841A (zh) 基于对立主题分析的群体意见自动抽取系统
CN111241399A (zh) 一种上市公司关注度的评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230714

Address after: Room 801, Building 1, Excellence Meilin Center Plaza (North Area), No. 128, Zhongkang Road, Meidu Community, Meilin Street, Futian District, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Newsun Network Inc.

Address before: No. 338, Zhongshan Road, Jiyu Bridge, Wuchang District, Wuhan City, Hubei Province 430061

Applicant before: Early Morning Rain (Wuhan) Culture and Art Communication Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant