CN115330423A - 一种面向网页图文数据的广告分析方法及系统 - Google Patents

一种面向网页图文数据的广告分析方法及系统 Download PDF

Info

Publication number
CN115330423A
CN115330423A CN202110449436.9A CN202110449436A CN115330423A CN 115330423 A CN115330423 A CN 115330423A CN 202110449436 A CN202110449436 A CN 202110449436A CN 115330423 A CN115330423 A CN 115330423A
Authority
CN
China
Prior art keywords
advertisement
brand
classification
picture
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110449436.9A
Other languages
English (en)
Inventor
李在灼
姜豪
胡长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Guoji Information Technology Co ltd
Original Assignee
Fuzhou Guoji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Guoji Information Technology Co ltd filed Critical Fuzhou Guoji Information Technology Co ltd
Priority to CN202110449436.9A priority Critical patent/CN115330423A/zh
Publication of CN115330423A publication Critical patent/CN115330423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种面向网页图文数据的广告分析方法,其包括以下步骤:S1)对待分析网页图文数据进行解析处理;S2)下载图片url链接对应图片,基于OCR技术进行图片文字识别;S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中进行是否为广告的鉴别;S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中进行行业分类预测,确定该广告的行业分类;S5)将该广告行业分类中预设的品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重进行选取,确定该广告的品牌词;S6)进行数据保存以供查询功能模块调用并展示。

Description

一种面向网页图文数据的广告分析方法及系统
技术领域
本发明涉及广告分析技术领域,尤其是一种面向网页图文数据的广告分析方法及系统。
背景技术
随着新媒体行业的快速发展,各大平台所带来的流量红利也备受广告主的青睐。对商家、品牌方来说,他们希望获取到具有投放价值的流量主;而对于运营者、流量方来说,也想要了解到各自行业以及整体市场的广告投放规模,从而对运营方向做出调整。因此用户就需要在海量的图文、视频数据中,鉴别文本的广告价值,以及进一步分析广告的分类和所属品牌,以往只能通过人工识别的方式,逐条逐字的浏览,耗时耗力。
发明内容
本发明的目的在于针对现有技术的情况,提供一种设计合理,能够快速、精准的鉴别是否为广告,并精准定位广告的行业分类和品牌归属的面向网页图文数据的广告分析方法,同时提供一种设计合理,结构简单的面向网页图文数据的广告分析系统。
为了实现上述第一个目的,本发明采用以下技术方案:
一种面向网页图文数据的广告分析方法,其包括以下步骤:
S1)对待分析网页图文数据进行解析处理,提取得到纯文本信息,同时分解成粗体部分、正文部分、图片url链接部分和视频url链接部分;
S2)根据图片url链接部分中的图片url链接下载图片,基于OCR技术对下载的图片进行图片文字识别,获得图片文字信息;
S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的二分类广告鉴别模型中进行是否为广告的鉴别,若鉴别为广告,则执行步骤S4),若鉴别为非广告,则发送至数据保存模块进行数据保存;
S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的多分类广告分类模型中行业分类预测,确定该广告的行业分类;
S5)将该广告的行业分类中预设的品牌词逐个分别在图片文字信息、粗体部分的粗体文本信息和正文部分的正文文本信息这三个维度中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
S6)将鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词分别发送至数据保存模块进行数据保存,供查询功能模块调用并展示。
作为优选,步骤2)中所述解析处理的方法,其包括以下步骤:
S1.1)将待分析网页图文数据中的所有js脚本、样式信息、图片url链接和视频url链接进行剔除处理,提取得到纯文本信息;
S1.2)将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,分别进行提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接。
作为优选,步骤2)中所述图片文字识别的方法为:基于OCR技术,将下载的图片输入到开源OCR模型中,获得图片文字信息。
作为优选,步骤3)中所述基于机器学习算法的二分类广告鉴别模型的建立方法,包括以下步骤:
S3.1)收集大量网页图文数据进行是否为广告的标注,得到广告标注数据,若为广告,则标注为1,若为非广告,则标注为0;
S3.2)对标注为1的广告标注数据中具有广告属性的特征短语进行提取并去重,得到含有N个特征短语的特征短语集合,其中,N为大于0的自然数;
S3.3)通过机器学习算法对广告标注数据进行训练,不断优化每个特征短语对应的权重参数去拟合真实值与预测值,最终得到一个二分类广告鉴别模型。
作为优选,步骤3)中所述是否为广告的鉴别方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到二分类广告鉴别模型中,利用特征短语集合中的N个特征短语对向量进行逐个扫描并标记,将扫描到存在相应特征短语的位置标记为1,否则标记为0,得到含N个标记的N维向量;再将视频url链接部分是否存在视频url链接作为第N+1个位置的标记,若存在视频url链接,则第N+1个位置标记为1,否则标记为0,得到N+1维向量;二位分类广告鉴别模型根据N+1维向量中每个值及其所对应位置的权重参数鉴别是否为广告。
作为优选,步骤4)中所述基于机器学习算法的多分类广告分类模型的建立方法,其包括以下步骤:
S4.1)收集大量标注好行业分类的网页图文数据,得到行业标注数据,对其行业分类的关键特征词进行切词并输入到卡方检验算法中,设定关键特征词的数量为M,得到包含M个关键特征词的关键特征词集合,其中,M为大于0的自然数;
S4.2)通过机器学习算法对行业标注数据进行训练,不断优化每个关键特征词对应的权重参数去拟合真实值与预测值,最终得到一个多分类广告分类模型。
作为优选,步骤4)中所述行业分类预测的方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到多分类广告分类模型中,利用关键特征词集合中的M个关键特征词对向量进行逐个扫描并标记,将扫描到存在相应关键特征词的位置标记为1,否则标记为0,得到含M个标记的M维向量;多分类广告分类模型根据M维向量中每个值及其所对应位置的权重参数确定该广告的行业分类。
作为优选,步骤5)中所述品牌词匹配和选取的方法,其包括以下步骤:
S5.1)针对多分类广告分类模型中的每个行业分类建立相应的品牌词库,在品牌词库内预设品牌词;
S5.2)将该广告对应行业分类的品牌词库中各品牌词逐个在图片文字信息中进行品牌词匹配,将匹配成功的品牌词列入第一维度列表;
S5.3)将该广告对应行业分类的品牌词库中各品牌词逐个在粗体部分的粗体文本信息中进行品牌词匹配,将匹配成功的品牌词列入第二维度列表;
S5.4)将该广告对应行业分类的品牌词库中各品牌词逐个在正文部分的正文文本信息中进行品牌词匹配,将匹配成功的品牌词列入第三维度列表;
S5.5)统计该广告对应行业分类的品牌词库中各品牌词出现的维度数、次数以及位置权重;
S5.6)过滤维度数小于1的品牌词后,判断由第一维度列表、第二维度列表和第三维度列表中品牌词构成的品牌集合是否为空,若是为空,则不选取任何品牌词作为该广告的品牌词,否则执行步骤S5.7);
S5.7)判断品牌集合中品牌词的数量是否等于1,若是,则选取该品牌词作为该广告的品牌词,否则执行步骤S5.8);
S5.8)判断品牌集合中各品牌词的维度数是否相同,若是,则执行步骤S5.9),否则选取维度数最大的品牌词作为该广告的品牌词;
S5.9)判断品牌集合中各品牌词的次数是否相同,若是,则选取位置权重最高的品牌词作为该广告的品牌词,否则选取次数最多的品牌词作为该广告的品牌词;其中,第一维度列表、第二维度列表和第三维度列表中品牌词的位置权重从高到低设置。
为了实现上述第二个目的,本发明采用以下技术方案:
一种面向网页图文数据的广告分析系统,所述广告分析系统包括:
网页节点解析模块,用于剔除待分析网页图文数据中冗余信息,提取得到纯文本信息,同时将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,并分别提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接;
图片文字识别模块,用于对从图片url链接下载的图片基于OCR技术进行图片文字识别,获得图片文字信息;
广告鉴别模块,用于建立基于机器学习算法的二分类广告鉴别模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中鉴别是否为广告;
广告分类模块,用于建立基于机器学习算法的多分类广告分类模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中行业分类预测,确定该广告的行业分类;
广告品牌识别模块,用于建立多分类广告分类模型中的每个行业分类相应的品牌词库,并将该广告对应行业分类的品牌词库中各品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息这三个维度中进行品牌词匹配,综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
数据保存模块,用于保存鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词;
查询功能模块,设有查询窗口用于调用数据保存模块中保存的数据,并进行展示。
本发明采用以上技术方案,通过收集大量网页图文数据分别进行广告标注和行业标注,运用机器学习算法分别对广告标注数据和行业标注数据进行训练,不断优化参数拟合真实值与预测值,最终得到二分类广告鉴别模型和多分类广告分类模型,可以快速、精准的鉴别待分析网页图文数据是否为广告,并精准确定该广告的行业分类和品牌词,从而确定该广告的品牌归属。本发明通过人工智能技术智能分析网页图文数据,精准鉴别广告属性,不仅有利于挖掘品牌广告的投放等应用场景,而且能够更好的帮助用户整合归类高价值的网页图文数据信息,从而为用户决策或行业大盘分析挖掘更多有用信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明面向网页图文数据的广告分析方法的流程框图;
图2为本发明面向网页图文数据的广告分析系统的连接示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加简洁明了,本发明将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示,本发明面向网页图文数据的广告分析方法,其包括以下步骤:
S1)对待分析网页图文数据进行解析处理,提取得到纯文本信息,同时分解成粗体部分、正文部分、图片url链接部分和视频url链接部分;
S2)根据图片url链接部分中的图片url链接下载图片,基于OCR技术对下载的图片进行图片文字识别,获得图片文字信息;
S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的二分类广告鉴别模型中进行是否为广告的鉴别,若鉴别为广告,则执行步骤S4),若鉴别为非广告,则发送至数据保存模块进行数据保存;
S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的多分类广告分类模型中行业分类预测,确定该广告的行业分类;
S5)将该广告的行业分类中预设的品牌词逐个分别在图片文字信息、粗体部分的粗体文本信息和正文部分的正文文本信息这三个维度中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
S6)将鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词分别发送至数据保存模块进行数据保存,供查询功能模块调用并展示。
作为优选,步骤2)中所述解析处理的方法,其包括以下步骤:
S1.1)将待分析网页图文数据中的所有js脚本、样式信息、图片url链接和视频url链接进行剔除处理,提取得到纯文本信息;
S1.2)将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,分别进行提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接。
本发明的解析处理是分为两个独立的部分,一部分是去除所有非文本的信息,包括剔除网页中的所有js脚本、样式信息以及url链接,提取肉眼可见的文本信息,得到我们点击网页所看到的文本信息,另一方面,我们需要对网页分解,分别提取我们所看到的图片url、视频url、正文部分以及粗体部分,针对相同的数据源,网页的基本结构都有迹可循,因此我们可以通过分析网页标签进而取到所需信息。
作为优选,步骤2)中所述图片文字识别的方法为:基于OCR技术,将下载的图片输入到开源OCR模型中,获得图片文字信息。
本发明的图片文字识别是用于对网页中图片进行文字识别,目前有开源的OCR技术,将图片url对应的图片下载到本地,将字节流转换数据,通过OCR模型提取图片中的文字进行文字输出。
作为优选,步骤3)中所述基于机器学习算法的二分类广告鉴别模型的建立方法,包括以下步骤:
S3.1)收集大量网页图文数据进行是否为广告的标注,得到广告标注数据,若为广告,则标注为1,若为非广告,则标注为0;
S3.2)对标注为1的广告标注数据中具有广告属性的特征短语进行提取并去重,得到含有N个特征短语的特征短语集合,其中,N为大于0的自然数;
S3.3)通过机器学习算法对广告标注数据进行训练,不断优化每个特征短语对应的权重参数去拟合真实值与预测值,最终得到一个二分类广告鉴别模型。
本发明对标注为1的数据,进行广告关键特征短语提取,通过分析海量标注为广告的样本中可以发现,一般是广告的数据,会含带一个或多个广告属性较强的短语或者关键词,而这些词也比较特殊,如:出现“买一送一”,“领优惠卷立减XX元”等等,我们将之一一收集并去重,最终得到一个含有495个短语的特征短语集合V=['短语1','短语2’,'短语3','短语4','短语5',...'短语N'],其中,N等于495。
作为优选,步骤3)中所述是否为广告的鉴别方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到二分类广告鉴别模型中,利用特征短语集合中的N个特征短语对向量进行逐个扫描并标记,将扫描到存在相应特征短语的位置标记为1,否则标记为0,得到含N个标记的N维向量;再将视频url链接部分是否存在视频url链接作为第N+1个位置的标记,若存在视频url链接,则第N+1个位置标记为1,否则标记为0,得到N+1维向量;二位分类广告鉴别模型根据N+1维向量中每个值及其所对应位置的权重参数鉴别是否为广告。
本发明对每个待分析样本数据,将上述得到的特征短语集合V,用每个短语扫描样本,命中该短语的标记为1,否则标记为0,最终每个样本数据均可以表示为一个N维的向量,如:[1,0,1,0,0,0,0,1,0,1,0,...1,1],长度为495,最后针对有视频url链接的数据在向量上追加1,对没有视频url链接的数据在向量上追加0,最终得到一个长度为496的496维向量;对于标注为广告和非广告的样本,标注为广告的样本向量中出现1的次数相对较多,标注为非广告的样本向量中出现1的次数较少,所以若仅仅依靠个别关键词判断为广告是不够准确的,特征之间的组合才能更为精准的判断一个文本是否为广告。
本发明将待鉴别是否为广告的数据,首先通过特征短语集合V,将文本数据转换为特征向量,特征向量输入到二分类广告鉴别模型,模型学习到的是N+1维向量中,每个位置的值对结果的权重参数,通过权重参数与各位置上的值[0,1]的数学运算,最终得出结果[0,1],从而输出得到0或者1的值,来判断其是否为广告。
作为优选,步骤4)中所述基于机器学习算法的多分类广告分类模型的建立方法,其包括以下步骤:
S4.1)收集大量标注好行业分类的网页图文数据,得到行业标注数据,对其行业分类的关键特征词进行切词并输入到卡方检验算法中,设定关键特征词的数量为M,得到包含M个关键特征词的关键特征词集合,其中,M为大于0的自然数;
S4.2)通过机器学习算法对行业标注数据进行训练,不断优化每个关键特征词对应的权重参数去拟合真实值与预测值,最终得到一个多分类广告分类模型。
本发明在鉴别为广告的基础上,进一步判断广告所属的行业分类,如:教育,美妆,日用,家电等,将网页解析出来所有文本信息转换成计算机可计算的向量,输入到多分类广告分类模型中,预测出广告的行业类型。
本发明广告分类模块提取特征的方式与广告鉴别模块有区别,其区别在于:广告的特征具有其特殊性且有效特征相对集中,也许通过人工可以提取出来,并且特征的准确性较高,而对于行业分类模型,若通过人工提取每个行业的特征,则非常困难,一方面是需要人员对每个行业关键词都了解,另一方面,其特征量也是相当的大;针对这种情况,本发明采用卡方检验算法进行特征提取,该卡方检验算法是已存在的较为有效的效果特征提取方法,因此其算法过程不做叙述,本发明通过将标注好行业类别的待分析样本切词后输入到卡方检验算法中,给定特征词的数量M,最终得到一个M个关键特征词,通过关键词特征将每个样本数据转换为M维的向量,命中关键词的位置标记为1,没有命中的关键词位置标记为0,最终每个样本转化为M维的向量。
作为优选,步骤4)中所述行业分类预测的方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到多分类广告分类模型中,利用关键特征词集合中的M个关键特征词对向量进行逐个扫描并标记,将扫描到存在相应关键特征词的位置标记为1,否则标记为0,得到含M个标记的M维向量;多分类广告分类模型根据M维向量中每个值及其所对应位置的权重参数确定该广告的行业分类。
作为优选,步骤5)中所述品牌词匹配和选取的方法,其包括以下步骤:
S5.1)针对多分类广告分类模型中的每个行业分类建立相应的品牌词库,在品牌词库内预设品牌词;
S5.2)将该广告对应行业分类的品牌词库中各品牌词逐个在图片文字信息中进行品牌词匹配,将匹配成功的品牌词列入第一维度列表;
S5.3)将该广告对应行业分类的品牌词库中各品牌词逐个在粗体部分的粗体文本信息中进行品牌词匹配,将匹配成功的品牌词列入第二维度列表;
S5.4)将该广告对应行业分类的品牌词库中各品牌词逐个在正文部分的正文文本信息中进行品牌词匹配,将匹配成功的品牌词列入第三维度列表;
S5.5)统计该广告对应行业分类的品牌词库中各品牌词出现的维度数、次数以及位置权重;
S5.6)过滤维度数小于1的品牌词后,判断由第一维度列表、第二维度列表和第三维度列表中品牌词构成的品牌集合是否为空,若是为空,则不选取任何品牌词作为该广告的品牌词,否则执行步骤S5.7);
S5.7)判断品牌集合中品牌词的数量是否等于1,若是,则选取该品牌词作为该广告的品牌词,否则执行步骤S5.8);
S5.8)判断品牌集合中各品牌词的维度数是否相同,若是,则执行步骤S5.9),否则选取维度数最大的品牌词作为该广告的品牌词;
S5.9)判断品牌集合中各品牌词的次数是否相同,若是,则选取位置权重最高的品牌词作为该广告的品牌词,否则选取次数最多的品牌词作为该广告的品牌词;其中,第一维度列表、第二维度列表和第三维度列表中品牌词的位置权重从高到低设置。
为了实现上述第二个目的,本发明采用以下技术方案:
如图2所示,一种面向网页图文数据的广告分析系统,所述广告分析系统包括:
网页节点解析模块,用于剔除待分析网页图文数据中冗余信息,提取得到纯文本信息,同时将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,并分别提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接;
图片文字识别模块,用于对从图片url链接下载的图片基于OCR技术进行图片文字识别,获得图片文字信息;
广告鉴别模块,用于建立基于机器学习算法的二分类广告鉴别模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中鉴别是否为广告;
广告分类模块,用于建立基于机器学习算法的多分类广告分类模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中行业分类预测,确定该广告的行业分类;
广告品牌识别模块,用于建立多分类广告分类模型中的每个行业分类相应的品牌词库,并将该广告对应行业分类的品牌词库中各品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息这三个维度中进行品牌词匹配,综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
数据保存模块,用于保存鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词;
查询功能模块,设有查询窗口用于调用数据保存模块中保存的数据,并进行展示。
本发明的广告品牌识别模块,用于识别广告属于哪个品牌,比如广告A是品牌X投放的新品广告,文章中必然会出现关键词“品牌X”,该模块用于自动提取该广告中出现的关键词“品牌X”,但是文本内容中可能提及若干个其他的品牌词,对于选择正确的品牌词是有一定的困难的,本专利的方法,是通过分析多维度出现的品牌词,来选择出最优的品牌词,通过分析数据发现,一个品牌词同时出现在文本的正文,粗体,和图片上时该品牌词属于最优品牌词的概率是极高的,而随着维度的降低,其可靠性也逐渐的降低,根据统计,我们认为只在一个维度上出现品牌词是不可靠的。通过多维度共现的方式我们提高了品牌词选取的正确率,但是仍然会出现其他的问题,如出现多个品牌并且出现的维度一致,针对这种情况,我们选择次数最多的一个品牌。但是仍然会出现维度,次数都一样的情况,根据经验我们认为,品牌词出现在图片中的权重是最高的,因为图片中的文字量一般是较少,其出现品牌词的概率低,出现在粗体中权重次之,因为粗体是广告放着重强调的文本,出现在正文中权重最低。
本发明的数据保存模块,可将网页内容分析出对应的是否是广告,广告行业分类,广告品牌词,图片文本内容信息等数据保存到数据库中,用户使用我方系统检索某个品牌的广告时,在功能页面上查询窗口只需要输入品牌词,功能页面上就可以调用定制的查询接口将数据保存模块中对应品牌广告数据展示给用户。
本发明采用以上技术方案,通过收集大量网页图文数据分别进行广告标注和行业标注,运用机器学习算法分别对广告标注数据和行业标注数据进行训练,不断优化参数拟合真实值与预测值,最终得到二分类广告鉴别模型和多分类广告分类模型,可以快速、精准的鉴别待分析网页图文数据是否为广告,并精准确定该广告的行业分类和品牌词,从而确定该广告的品牌归属。本发明通过人工智能技术智能分析网页图文数据,精准鉴别广告属性,不仅有利于挖掘品牌广告的投放等应用场景,而且能够更好的帮助用户整合归类高价值的网页图文数据信息,从而为用户决策或行业大盘分析挖掘更多有用信息。
以上所述为本发明的较佳具体实施例,应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验所做的均等变化、修改、替换和变型,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种面向网页图文数据的广告分析方法,其特征在于:其包括以下步骤:
S1)对待分析网页图文数据进行解析处理,提取得到纯文本信息,同时分解成粗体部分、正文部分、图片url链接部分和视频url链接部分;
S2)根据图片url链接部分中的图片url链接下载图片,基于OCR技术对下载的图片进行图片文字识别,获得图片文字信息;
S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的二分类广告鉴别模型中进行是否为广告的鉴别,若鉴别为广告,则执行步骤S4),若鉴别为非广告,则发送至数据保存模块进行数据保存;
S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的多分类广告分类模型中进行行业分类预测,确定该广告的行业分类;
S5)将该广告的行业分类中预设的品牌词逐个分别在图片文字信息、粗体部分的粗体文本信息和正文部分的正文文本信息这三个维度中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
S6)将鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词分别发送至数据保存模块进行数据保存,供查询功能模块调用并展示。
2.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述解析处理的方法,其包括以下步骤:
S1.1)将待分析网页图文数据中的所有js脚本、样式信息、图片url链接和视频url链接进行剔除处理,提取得到纯文本信息;
S1.2)将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,分别进行提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接。
3.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述图片文字识别的方法为:基于OCR技术,将下载的图片输入到开源OCR模型中,获得图片文字信息。
4.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述基于机器学习算法的二分类广告鉴别模型的建立方法,其包括以下步骤:
S3.1)收集大量网页图文数据进行是否为广告的标注,得到广告标注数据,若为广告,则标注为1,若为非广告,则标注为0;
S3.2)对标注为1的广告标注数据中具有广告属性的特征短语进行提取并去重,得到含有N个特征短语的特征短语集合,其中,N为大于0的自然数;
S3.3)通过机器学习算法对广告标注数据进行训练,不断优化每个特征短语对应的权重参数去拟合真实值与预测值,最终得到一个二分类广告鉴别模型。
5.根据权利要求4所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述是否为广告的鉴别方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到二分类广告鉴别模型中,利用特征短语集合中的N个特征短语对向量进行逐个扫描并标记,将扫描到存在相应特征短语的位置标记为1,否则标记为0,得到含N个标记的N维向量;再将视频url链接部分是否存在视频url链接作为第N+1个位置的标记,若存在视频url链接,则第N+1个位置标记为1,否则标记为0,得到N+1维向量;二位分类广告鉴别模型根据N+1维向量中每个值及其所对应位置的权重参数鉴别是否为广告。
6.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤4)中所述基于机器学习算法的多分类广告分类模型的建立方法,其包括以下步骤:
S4.1)收集大量标注好行业分类的网页图文数据,得到行业标注数据,对其行业分类的关键特征词进行切词并输入到卡方检验算法中,设定关键特征词的数量为M,得到包含M个关键特征词的关键特征词集合,其中,M为大于0的自然数;
S4.2)通过机器学习算法对行业标注数据进行训练,不断优化每个关键特征词对应的权重参数去拟合真实值与预测值,最终得到一个多分类广告分类模型。
7.根据权利要求6所述的面向网页图文数据的广告分析方法,其特征在于:步骤4)中所述行业分类预测的方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到多分类广告分类模型中,利用关键特征词集合中的M个关键特征词对向量进行逐个扫描并标记,将扫描到存在相应关键特征词的位置标记为1,否则标记为0,得到含M个标记的M维向量;多分类广告分类模型根据M维向量中每个值及其所对应位置的权重参数确定该广告的行业分类。
8.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤5)中所述品牌词匹配和选取的方法,其包括以下步骤:
S5.1)针对多分类广告分类模型中的每个行业分类建立相应的品牌词库,在品牌词库内预设品牌词;
S5.2)将该广告对应行业分类的品牌词库中各品牌词逐个在图片文字信息中进行品牌词匹配,将匹配成功的品牌词列入第一维度列表;
S5.3)将该广告对应行业分类的品牌词库中各品牌词逐个在粗体部分的粗体文本信息中进行品牌词匹配,将匹配成功的品牌词列入第二维度列表;
S5.4)将该广告对应行业分类的品牌词库中各品牌词逐个在正文部分的正文文本信息中进行品牌词匹配,将匹配成功的品牌词列入第三维度列表;
S5.5)统计该广告对应行业分类的品牌词库中各品牌词出现的维度数、次数以及位置权重;
S5.6)过滤维度数小于1的品牌词后,判断由第一维度列表、第二维度列表和第三维度列表中品牌词构成的品牌集合是否为空,若是为空,则不选取任何品牌词作为该广告的品牌词,否则执行步骤S5.7);
S5.7)判断品牌集合中品牌词的数量是否等于1,若是,则选取该品牌词作为该广告的品牌词,否则执行步骤S5.8);
S5.8)判断品牌集合中各品牌词的维度数是否相同,若是,则执行步骤S5.9),否则选取维度数最大的品牌词作为该广告的品牌词;
S5.9)判断品牌集合中各品牌词的次数是否相同,若是,则选取位置权重最高的品牌词作为该广告的品牌词,否则选取次数最多的品牌词作为该广告的品牌词;其中,第一维度列表、第二维度列表和第三维度列表中品牌词的位置权重从高到低设置。
9.一种面向网页图文数据的广告分析系统,其特征在于,所述广告分析系统包括:
网页节点解析模块,用于剔除待分析网页图文数据中冗余信息,提取得到纯文本信息,同时将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,并分别提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接;
图片文字识别模块,用于对从图片url链接下载的图片基于OCR技术进行图片文字识别,获得图片文字信息;
广告鉴别模块,用于建立基于机器学习算法的二分类广告鉴别模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中鉴别是否为广告;
广告分类模块,用于建立基于机器学习算法的多分类广告分类模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中行业分类预测,确定该广告的行业分类;
广告品牌识别模块,用于建立多分类广告分类模型中的每个行业分类相应的品牌词库,并将该广告对应行业分类的品牌词库中各品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息这三个维度中进行品牌词匹配,综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;
数据保存模块,用于保存鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词;
查询功能模块,设有查询窗口用于调用数据保存模块中保存的数据,并进行展示。
CN202110449436.9A 2021-04-25 2021-04-25 一种面向网页图文数据的广告分析方法及系统 Pending CN115330423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110449436.9A CN115330423A (zh) 2021-04-25 2021-04-25 一种面向网页图文数据的广告分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110449436.9A CN115330423A (zh) 2021-04-25 2021-04-25 一种面向网页图文数据的广告分析方法及系统

Publications (1)

Publication Number Publication Date
CN115330423A true CN115330423A (zh) 2022-11-11

Family

ID=83913107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110449436.9A Pending CN115330423A (zh) 2021-04-25 2021-04-25 一种面向网页图文数据的广告分析方法及系统

Country Status (1)

Country Link
CN (1) CN115330423A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575702A (zh) * 2023-11-16 2024-02-20 北京鸿途信达科技股份有限公司 多模态广告投放系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575702A (zh) * 2023-11-16 2024-02-20 北京鸿途信达科技股份有限公司 多模态广告投放系统

Similar Documents

Publication Publication Date Title
CN109635171B (zh) 一种新闻节目智能标签的融合推理系统和方法
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN109543084A (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN112257452B (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN116663664A (zh) 一种基于nlp算法的客户营销场景数据分析系统及方法
CN112380349A (zh) 商品性别分类方法、装置及电子设备
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN115203338A (zh) 一种标签及标签实例推荐方法
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN112579666A (zh) 智能问答系统和方法及相关设备
CN115713085A (zh) 文献主题内容分析方法及装置
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN115238154A (zh) 搜索引擎优化系统
CN107632974A (zh) 适用于多领域的中文分析平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination